Tải bản đầy đủ (.pdf) (50 trang)

Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (23.73 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG
TRONG TÌM KIẾM DỮ LIỆU ĐA
PHƯƠNG TIỆN
Mã số: QC.08.01
Chủ nhiệm đề tài: Nguyễn Hải Châu
Hà Nội - 2009
ĐẠI HỌ C Q UÕ C GIA HÀ NỘI
TRUNG TÂM THỔNG TIN THƯ VIỆN
PT/
Mục lục
B ả n g giải th íc h các chữ viết tắ t 3
D anh sách cán bộ th a m gia th ự c hiện đề tà i 4
D a n h m ụ c b ả n g 5
1 T óm t ắ t n h ữ n g kết qu ả nghiên cứu ch ín h củ a đ ề tà i 6
1.1 Tên đề t à i 6
1.2 Chủ trì đề t à i 6
1.3 Những kết quả c h í n h 6
1.3.1 Kết quả về khoa h ọ c 6
1.3.2 Kết quả phục vụ thực t ế 7
1.3.3 Kết quả đào t ạ o 7
1.3.4 Kết quả nâng cao tiềm lực khoa học 7
1.3.5 Tình hình sử dụng kinh p h í 7
2 B áo cáo tố n g k ế t 8
2.1 Đặt vấn đ ề 8
2.2 Tổng quan tình hình nghiên cứu chuỗi đặc trư n g 8
2.3 Các phương pháp xác định chuỗi đặc trư n g

9
2.3.1 Các loại đặc trưng của chuỗi tín hiệu âm t h a n h


9
2.3.2 Phương pháp cửa sổ g ố i 10
2.3.3 Phương pháp cửa sổ gối kết hợp học m á y 10
2.3.4 Phương pháp D D A 10
2.3.5 Phương pháp dựa trên w avelet 11
2.4 M ột số ứng dụng của chuỗi đặc t r ư n g 11
2.4.1 Giám sát phát th a n h 11
2.4.2 Các ứng dụng liên thông âm t h a n h

11
2.4.3 Các bộ lọc trong ứng dụng dùng chung f ile 12
2.4.4 T ự động tố chức thư viện âm n h ạ c

12
2.4.5 Một số ứng dụng k h á c
12
2.5 Mục tiêu và nội dung nghiên cứu của đề tài
12
2.6 Dịa điểm, thời gian và phương tiện nghiên c ứ u

12
2.7 Kết quả nghiên c ứ u 1 3
2.7.1 Kết quả khoa h ọ c 1 3
1
Bảng giải thích các chữ viết tắt
Bảng 1: Giải thích các chữ viết tắt
C h ữ viết t ắ t G iải th íc h
BFCC
Bark Frequency Cepstrum Coefficients
DDA

Distortion Discriminant Analysis
FLAC
Free Lossless Audio Codec
LDA Linear Discriminant Analysis
MFCC
Mel-Frequency Cepstrum Coefficients
MPEG
Movie Picture Experts Group
MP3
MPEG-1 Audio Layer 3
OPCA Oriented Principal Components Analysis
PCA Principal Components Analysis
WAV Waveform Audio Format
3
Mục lục
B ản g giải th ích các chữ v iế t tắ t 3
D a n h sách cán bộ th a m gia th ự c hiệ n đề tà i 4
D a n h m ục b ả n g 5
1 T óm t ắ t n h ữ n g k ế t q u ả n g h iên cứu ch ín h c ủ a đề tà i 6
1.1 Tên đề t à i 6
1.2 Chủ trì đề t à i 6
1.3 Những kết quả c h ín h 6
1.3.1 Kết quả về khoa h ọ c 6
1.3.2 Kết quả phục vụ thực t ế 7
1.3.3 Kết quả đào t ạ o 7
1.3.4 Kết quả nâng cao tiềm lực khoa học
7
1.3.5 Tình hình sử dụng kinh p h í 7
2 B á o cáo tổ n g k ế t 8
2.1 Đặt vấn đ ề . 8

2.2 Tổng quan tình hình nghiên cứu chuỗi đặc tr ư n g

8
2.3 Các phương pháp xác định chuỗi đặc trư n g 9
2.3.1 Các loại đặc trưng của chuỗi tín hiệu âm t h a n h

9
2.3.2 Phương pháp cửa sổ g ố i 10
2.3.3 Phương pháp cửa sổ gối kết hợp học m á y
10
2.3.4 Phương pháp D D A 10
2.3.5 Phương pháp dựa trẽn w avelet 11
2.4 M ột số ứng dụng của chuỗi đặc tr ư n g 11
2.4.1 Giám sát phát t h a n h 11
2.4.2 Các ứng dụng liên thông âm t h a n h

11
2.4.3 Các bộ lọc trong ứng dụng dùng chung f ile 12
2.4.4 Tự động tổ chức thư viện âm n h ạ c 12
2.4.5 Một số ứng dụng k h á c 12
2.5 Mục tiêu và nội dung nghiên cứu của đề tài

12
2.6 Dịa diểm, thời gian và phương tiện nghiên c ứ u 12
2.7 Kết quả nghiên c ứ u 13
2.7.1 Kết quả khoa h ọ c 13
1
M ự c LỰC
2.7.2 Kết quả đào tạo .
2.8 Thảo luận

2.9 Kết luận và kiến nghị
Tài liệu th a m khả o
P h ụ lục
Bảng giải thích các chữ viết tắt
Bảng 1: Giải thích các chữ viết tắt
C h ữ viế t t ắ t G iải th íc h
BFCC
Bark Frequency Cepstrura Coefficients
DDA Distortion Discriminant Analysis
FLAC
Free Lossless Audio Codec
LDA Linear Discriminant Analysis
MFCC
Mel-Frequency Cepstrum Coefficients
MPEG
Movie Picture Experts Group
MP3
MPEG-1 Audio Layer 3
OPCA
Oriented Principal Components Analysis
PCA
Principal Components Analysis
WAV Waveform Audio Format
Danh sách cán bộ tham gia thực
hiện đề tài
Bảng 2: Đanh sách cán bộ, cộng tác viên, học viên cao học và sinh viên tha
thực hiện dề tài
__________________________________________________________
S T T H ọ và tê n
H ọc h à m

học vị
C ơ q u a n công tác
1 Nguyễn Hải Châu
(chủ nhiệm đề tài)
TS Khoa Công nghệ thông 1
trường Đại học Công ng
ĐHQGHN
2 Nguyễn Ngọc Hóa
TS
Khoa Công nghệ thông 1
trường Dại học Công ng
ĐHQGHN.
3
Đỗ Thị Minh Việt
ThS
Centre of Excellence, Nor
gian University of Science t
Technology (NTNƯ), Norwa
4
Phạm Cẩm Ngọc CN
Khoa Công nghệ thông 1
trường Dại hoc Công ng
DHQGHN.
5
Nguyễn Thị Thùy Linh CN
Khoa Công nghệ thông 1
trường Dại hoc Công ng
đ h q g h n .
4
Danh mục bảng

1 Giải thích các chữ viết t ắ t 3
2 Danh sách cán bộ, cộng tác viên, học viên cao học và sinh viên tham
gia thực hiện đề t à i 4
Tóm tắt những kết quả nghiên C1
chính của đề tài
1.1 Tên đề tài
C huỗ i đặc trư n g và ứng dụng tro n g tìm kiếm d ữ liệu đ a p h ư ơ n g tiệ]
(Acoustic fingerprint and its application in searching m ultimedia content).
Mã số: QC.0fs.01.
1.2 Chủ trì đề tài
Người chủ trì: TS. Nguyễn Hải Châu
Cơ quan: Trường Dại học Cóng nghệ. Dại học Quốc gia Hà Nội.
Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội.
Diện thoại: 04-37547813
1.3 Những kết quả chính
1.3.1 Kết quả về khoa học
• Chúng tôi đã nghiên cứu về nhận dạng âm thanh dựa trên chuỗi đặc tru
đề xuất các bước đề xây dựn£ mnt hệ thống nhân dạng trong thực tế.
tôi đã thử nghiệm xâv dưns một cơ sở dữ liệu âm thanh, huấn luyện (
để trích rút các đặc trưng va thủ nghiệm tìm kiếm dựa trên tín hiệu âm
vào từ micro với đỏ chính xác t.ốt. Các két quả nói trên đã được trìn h 1
tiết trong 01 bài báo khoa học gửi đcing tạp chí Tạp chí Khoa học, E
Quor cia Hà Nôi.
• UI bân cáo chuyên de (technical report tổng quan ve rhuỗi đạr tri
thanh và COI ứng dụng.
f,
1. TÓM TẮT NHỮNG KET q u ả n g h iê n c ứ u c h ín h c ủ a d ề t à i 7
1.3.2 Kết quả phục vụ thực tế
Dã hoàn thành bộ chương trình thử nghiệm tìm kiếm âm thanh dựa trên chuỗi đặc
trưng với độ chính xác cao. Bộ chương trình có thể được tiếp tục phát triển để hoạt

động trong môi trường web.
1.3.3 Kết quả đào tạo
• Dã hướng dẫn tốt nghiệp 02 sinh viên bảo vệ tháng 6/2009 về đề tài tính toán
chuỗi đặc trưng âm thanh và tìm kiếm dữ liệu đa phương tiện.
• Đang hướng dẫn 01 học viên cao học (là một thành viên thực hiện đề tài) thực
hiện đề tài nghiên cứu liên quan đến chuỗi đặc trưng âm thanh và tìm kiếm
các bản nhạc trong cơ sở dữ liệu đa phương tiện.
1.3.4 Kết quả nâng cao tiềm lực khoa học
Nghiên cứu về các thuật toán, phương pháp và ứng dụng của chuỗi đặc trưng, đã
hướng dẫn sinh viên và thực tập sinh của khoa Công nghệ Thông tin của trường
Dại học Công nghệ về các vấn đề liên quan đến chuỗi đặc trưng và tìm kiếm dữ liệu
đa phương tiện.
1.3.5 Tình hình sử dụng kinh phí
Dã sử dụng hết kinh phí dược cấp của đỏ tài.
Báo cáo tổng kết
2
2.1 Đặt vấn đề
Chuỗi đặc trưng âm thanh (audio fingerprint hoặc acoustic fingerprint) - sau đâ;
gọi tắt là chuỗi đặc trưng - là một bản tóm tăt của một chuôi tín hiệu âm thanh
Chuỗi dặc trưng được sử dụng để tìm kiếm các mẫu âm thanh hoặc p hát hiện cá
mẫu âm thanh tương tự nhau trong một cơ sở dữ liệu âm thanh.
Chuỗi đặc trưng có nhiều ứng dụng, trong đó có thể kể đến: nhận dạng các bà
hát, các bản thu âm. quảng cáo; giám sát phát thanh; quản lý thư viện hiệu ứn
âm thanh; nhận dạng video v.v Chính vì vậy chuỗi đặc trưng đã trở thành đc
tượng nghiên rứu được quan tâm [l]-[27], đồng thời các ứng dụng của chuỗi đặ
trưng ngày càng phong phú [28]-[40].
2.2 Tổng quan tình hình nghiên cứu chuỗi đặ<
trưng
Chuỗi đặc trưng âm thanh (audio fingerprint hoặc acoustic fingerprint) - sau đâ
gọi tắ t là chuỗi đặc trưng - là một bản tóm tắt của m ột chuỗi tín hiệu âm than?

Chuỗi đặc trưng được sử dụng để tìm kiếm các mẫu âm thanh hoặc phát hiện cá
mẫu âm thanh tương tự nhau trong một cơ dữ liệu âm thanh.
Chuỗi đặc trưng có nhiều ứng dụng, trong đó có thể kể đến: nhận dạng các bỉ
hát. các bản thu âm, quảng cáo: giám sát phát thanh; quản lý thư viện hiệu ứn
âm thanh; nhận dạng video v.v Chính vì vậy chuỗi đặc trưng đã trở thành đ(
tượng nghiên cứu được quan tâm [l]-[27]. đồng thời các ứng dụng của chuỗi dă
trưng ngàv càng phong phú Ị28]-[40].
Trong báo cáo này. chúng tôi trình bày một cách tổng quan các phương phá
nghiên cứu về xác định, so sánh và tìm kiếm chuỗi đặc trưng; và một số ứng dụn
đã đư<ir triển khai.
( 'huõi đặc trưng như đã nói ở trên, là một bản tóm tắ t của một chuỗi tín hiệ
ãm thanh. Như vậy đi có dưcic chuỗi đặc trưng của một chuỗi âm thanh ta cần X£
dựr> - mi't ham / anh xa một r-huui bit A vào một chuỗi bít A Ị có độ dài nhỏ hơ]
Dt sanh mư« đó tương tự giữa hai chuỏi bit (tín hiệu âm th anh' ,4i và A 2 chúr
*
2. BẢO CÁO TỔNG KẾT
9
ta so sánh mức độ tương tự của hai chuỗi đặc trưng tương ứng A ìf và A 2f ■ c ầ n lưu
ý rằng việc so sánh A it và A 2f không phải là so sánh bằng nhau tuyệt đối về m ặt
toán học mà cần có tính cảm quan. Người nghe thường nhận dạng được cùng một
bản nhạc được phát đi với chất lượng tín hiệu âm thanh khác nhau, chẳng hạn từ
chất lượng âm thanh từ DVD tốt hơn chất lượng âm thanh phát qua radio.
Do đó cần có một số tiêu chí để đánh giá hàm / nói trên. Sau đây là m ột số tiêu
chí thường được sử dụng:
• T ín h b ề n vững: Chuỗi đặc trưng phải ít thay đổi khi tín hiệu âm th an h bị
suy giảm hoặc tín hiệu âm thanh bị nhiễu, bị méo v.v Tính chất này làm
tăng độ tin cậy khi nhận dạng âm than h trong môi trường thực, có nhiễu và
tạp âm hoặc biên độ tín hiệu nhỏ.
• T ín h tin cậy: Chuỗi đặc trưng cho khả năng nhận dạng đúng trong nhiều
trường hợp.

• Đ ộ lớn củ a ch uỗi đặc trứ n g : số lượng bit của chuỗi đặc trưng nhỏ giúp
cho tốc độ tìm kiếm được cải thiện và giảm dung lượng lưu trữ.
• Đ ộ m ịn: Độ dài tối thiểu của chuỗi âm thanh (theo đơn vị thời gian) để có
thể nhận dạng. Chẳng hạn một số thuật toán chỉ cần chuỗi tín hiệu âm thanh
dài từ 15 đến 30 giây để tính chuỗi đặc trưng.
• T ốc độ tìm k iếm và k h ả n ăn g m ở rộng: Đây là các yếu tố quan trọng
khi tìm kiếm âm thanh trong các cơ sở dữ liệu lớn. Tốc độ tìm kiếm (search
speed) và khả năng mở rộng được (scalability) là hai yếu tố được quan tâm
hàng đầu trong việc triển khai các hệ thống tìm kiếm âm thanh.
2.3 Các phương pháp xác định chuỗi đặc trưng
2.3.1 Các loại đặc trưng của chuỗi tín hiệu âm thanh
Nguyên tắc chung cho việc xác định chuỗi đặc trưng là trích rút các đăc trưng từ
chuỗi tín hiệu âm thanh. Các đặc trưng của một bản nhạc thường được chia thành
hai loại chính: đặc trưng ngữ nghĩa và đặc trưng phi ngữ nghĩa.
Các đặc trưng ngữ nghĩa thường có tính trực quan. Chẳng hạn các đặc trưng
thể loại (genre) âm nhạc, số nhịp trong một phút (beats per minute - bpm), điệu tính
(mood) là các đặc trưng ngữ nghĩa. Do các đặc trưng loại này ít mang tính toán học,
nên thường ít được sử dụng để xác định chuỗi đặc trưng vì nó không chính xác và ít
nhiều gắn với quan điểm cá nhân (chẳng hạn đặc trưng thể loại). Bởi vậy chúng ta
tập trung vào việc phân tích các thuật toán, phương pháp xác định chuỗi đặc trưng
dựa trên các đặc trưng phi ngữ nghĩa. Hiện nay có bốn phương pháp chính để xác
định chuỗi đặc trưng dựa vào đặc trưng phi ngữ nghĩa. Đó là các phương pháp: cửa
sổ gối [15], phương pháp của Y. Ke dựa trên cửa sổ gối kết hợp với học máy [19],
phương pháp phân tích biệt số méo của tín hiệu DDA [6] và phương pháp dựa trên
wavelet kết hợp với các kỹ thuật của lĩnh vực thị giác máy [3], [4], [16]. Sau đây là
ý tưởng chính của từng phương pháp.
2. DÁO CÁO TỔXG KẾT
nnat. rnương pnap nay sư aụng cat cua su
-
. ; , , ất hiến

trích rút các đặc trưng [15]. Cửa sổ gối được sử dụng dê I 11} n in a ie
hệ số dịch thời gian (time-shift) trong các trường hợp c ũng a long
theo kiểu căn thời gian. . A - , „1
Biểu diễn phô của tín hiệu âm thanh có thể được xây dựng bằng nhiêu each, cl
hạn đo năng lượng MFCC (Mcl-FYequency Cepstrum Coefficients) hoặc V t M ị l
FVequency Cepstrum Coefficients). J. Haitsma và cộng sự [15] (la sư t ụng ^ ,
xác định chuỗi đặc trưng. TVong bài báo của các tác gia nạy, 33 l>ạng tan
được sử dụng trong dải tần 300-2000 Hz và cứ môi 11,6 mill giay lại có mọt í.
đặc trưng con (sub-fingerprint) được tạo ra trong một frame 370 mill giâỵ. D(
frame gối nhau nên các chuỗi đặc trưng biến đổi chậm theo thời gian. Khi đo
so sánh độ tương tự giữa hai bản nhạc sẽ qui về so sánh nhiều chuổi đặc trưng
Việc so sánh các chuỗi này là khá đơn giản dựa vào việc tính khoang cach Ham]
giữa các chuỗi đặc trưng con tương ứng. Ưu điểm của phương pháp này là tính
giản và tốc độ tính toán cao.
2.3.3 Phương pháp cửa sổ gối kết hợp học máy
Phương pháp thứ hai được đưa ra gần đây, được xem là mở rộng của cửa sổ
Y. Ke và các cộng sự [19] sử dụng nền tảng tương tự như J. H aitsm a [15] nhưi
thêm tính năng học máy khi xác định các đặc trưng. Một đặc điểm quan trọng
là Y. Ke đã biểu diễn tín hiệu âm thanh 1-D như m ột ảnh số khi biểu diễn t
không gian hai chiều với các trục thời g ian-tần số.
Kỹ thuật học máy Y. Ke sử dụng [19] là AdaBoost, là m ột kỹ thuật khá
biến trong các ứng dụng về thị giác máy, chẳng hạn như phát hiện m ặt người t
ảnh [26]. Y. Ke và các cộng sự đã sử dụng AdaBoost cho hệ thống của m ình họ
đặc trưng về năng lượng trên một số tần số chọn lọc theo thời gian. Dộ dài vi
số được chọn thông qua thuật toán AdaBoost. Áp dụng thuật toán AdBoost, (
đặc trưng được lựa chọn, từ đó tạo được chuỗi đặc trưng con tương ứng có 3'.
Khi có yêu cầu tìm kiếm bản nhạc, hệ thống của Y. Ke [20] trước hết xử lý di
âm thanh vào tương tự như [15] để tạo chuỗi đặc trưng con. Sau đó, tính kh
cách Hamming giữa các chuỗi đặc trưng con để tìm độ tương tự.
2.3.4 Phương pháp DDA

Phương pháp thứ ba [6] sử dụng phương pháp DDA (Distortion Discriminant 1
ysis) - một phương pháp trích rút các đặc trưng được xem như bền vững với 1
- để xác định chuỗi đặc trưng. Các đặc trưng được xác định bởi DDA thường
tap hơn cac đặc trưng đượr đưa ra trong các bài báo của J. Haitsm a [15] và '
19' nhưng lạ.1 cho phcp tính được các chuôi đặc trưng của các chuỗi tín hiệu dà
C AC phương pháp khác. DDA được dựa trên một biến thể của phương pháp
(Linear Dis< rim inant Analysis) được gọi là Oriented Principal Componpnts An
2. BÁO CÁO TỔNG KẾT
11
(OPCA).
OPCA giả thiết có một phiên bản tín hiệu bị méo của các mâu huân luyện đê
từ đó tìm ra các đặc trưng ít bị biến đổi khi thực hiện bước tiền xử lý tín hiệu làm
giảm nhiễu đến mức tối thiểu và tăng tối đa mức tín hiệu. Ngược lại, phương pháp
PCA (Principal Components Analysis) tìm tập các vector trực giao để tăng tối đa
sự biến đổi của tín hiệu. Như vậy OPCA tìm được tập các vector không trực giao có
thể dùng để tính toán nhiễu. Thực nghiệm của Burges và các cộng sự [6] cho thấy
chuỗi đặc trưng xác định bằng phương pháp DDA ít bị biến đổi với vấn đề căn thời
gian và quan trọng hơn là ít bị biến đổi với các loại nhiễu không có trong dữ liệu
huấn luyện.
2.3.5 Phương pháp dựa trên wavelet
Phương pháp này do các tác giả s. Baluja và M. Covell (Google Inc.) p hát triển [3],
[4], [9] dựa trên tiếp cận của Y. Ke [19]: áp dụng các kỹ thuật trong lĩnh vực thị
giác máy vào việc xây dựng chuỗi đặc trưng và tiếp cận dựa trên wavelet của c.
Jacob [16]. Phương pháp này không sử dụng kỹ thuật học máy mà dựa trẽn tiếp cận
wavelet để tăng tốc độ tìm kiếm trong cơ sở dữ liệu đa phương tiện lớn [16]. Chuỗi
đặc trưng do s. Baluja và M. Covell đề xuất dựa trên công trình của J. Haitsm a
[14], [15] nhưng có cải tiến nâng cao để có thể đại diện cho mẫu tín hiệu âm thanh
có độ dài lớn hơn.
2.4 M ột số ứng dụng của chuỗi đặc trưng
2.4.1 Giám sát phát thanh

Giám sát phát thanh (broadcast monitoring) là một ứng dụng quan trọng của chuỗi
đặc trưng [1], [14], [23], [12], [39], [40]. TYong giám sát phát thanh truyền thống,
cơ quan giám sát có các nhân viên theo dõi trên các kênh phát than h và so sánh
với chương trìn h phát để phát hiện sai sót. Các hệ giám sát phát than h dựa trên
chuỗi đặc trưng thường có hai loại máy chủ: Máy chủ giám sát và máy chủ trung
tâm. Máy chủ giám sát đóng vai trò như nhân viên giám sát của p hát thanh truyền
thống, theo dõi các kênh phát thanh và báo cáo các chuồi đặc trưng cho máy chủ
trung tâm . Máy chủ trung tâm sử dụng các chuỗi đặc trưng này để tìm kiếm trong
cơ sở dữ liệu và sinh ra được báo cáo về chương trìn h phát của các kênh bị giám sát.
2.4.2 Các ứng dụng liên thông âm thanh
Các ứng dụng liên thông âm thanh (connected audio) là th uật ngữ chung chỉ các
ứng dụng dành cho người dùng có liên quan tới âm th anh/âm nhạc cùng với các
thông tin liên quan. Một ví dụ đặc trưng nhất là ứng dụng tìm kiếm bản nhạc qua
điện thoại di động. Người dùng ư nghe bản nhạc phát qua loa, hoặc đài phát than h
và muốn biết tên bản nhạc, ca sĩ thể hiện. Người này sẽ gọi điện thoại đến m ột số
điện thoại dịch vụ để bản nhạc thu qua điện thoại được truyền tới server chứa cơ sở
dữ liệu âm nhạc. Server căn cứ vào chuỗi đặc trưng để tìm tên bản nhạc, ca sĩ thể
2. DÁO CÁO TỔXG KẾT
hiện V.V và gửi kết quả cho người dùng. Dây là một ứng dụng rất kho VI tí <
âm thanh sau nhièu lần truyền đã bị suy giảm và có nhiêu n Lieu [. -j, [■ jji [ *)■
2.4.3 Các bộ lọc trong ứng dụng dùng chung file
Trong các ứng dụng dùng chung file, chuỗi đặc trưng được sư dụng đe nhạn ra c
file âm nhạc có bản quyen và không cho người dùng download các file này. Na
2001. Napster [31] cài đặt bộ lọc dựa trên tên file nhưng bộ lọc này hoạt động khôi
hiệu quả. Do đó vào tháng 5/2001, Napster đã sử dụng bộ lọc dựa trên chuỗi đ
trưng của Relatable [301.
2.4.4 Tự động tổ chức thư viện âm nhạc
Chuỗi đặc trưng có thể được sử dụng vào việc tự động tô chức th ư viện âm nhí
Hiện nay MP3 là khuôn dạng file thường được sử dụng đé lưu trữ trong các tl
viện âm nhạc. Các file MP3 được tạo ra từ nhiều nguồn khác nhau do đó siêu I

liộu (meta data) kèm theo như tên tác giả, tác phẩm, người thể hiện, năm thu ĩ
không được đầy đủ và nhất quán. Khi đó chuỗi đặc trưng được sử dụng để ho
thiộn các thông tin nàv [28], [29], [39].
2.4.5 Một số ứng dụng khác
Chuòi đặc trưng còn có rất nhiều ứng dụng khác trong thực tiễn. Trong lĩnh V
truyền hình, chuỗi đặc trưng đượr sử dụng trong các ứng dụng về truyền hình
tương tác [11] mà không cần sử dụng thêm các thiết bị đặc biệt, hoặc tự độ
phát hiện và thay thế các đoạn quảng cáo [5]. Khác hiệt so với các công nghệ khi
chuỗi đặc trưng hướng tới các ứng dụng đa phương tiện với các mục tiêu chính
nhận dạng các dối tượng mà không cần đến các thông tin siêu dữ liệu như me
watermark.
2.5 M ục tiêu và nội dung nghiên cứu của đề tà
Mục tiêu của đề tài này là nghiên cứu về chuỗi đặc trưng âm thanh: Tìm hiểu
nghiên cứu cơ sở lý thuyết, các phương pháp và th uật toán xác định, so sánh và (
kiếm chuỗi đặc trưng để xác định đượr các chuỗi tín hiệu tương tự nhau. Trên
sớ tìm hiểu các phương pháp, th uật toán đã có. chúng tôi dã tiến hành xây di
thử nghiệm thành công ứng dụng tìm kiếm bản nhạc gốc dựa trên chuỗi tín h
âm thanh đầu vào thu được từ micro, hoặc từ file âm thanh với các loại định di
phong phú như MP3, WAV, FLAC, V.V
2.6 Địa điêm , thời gian và phương tiện nghiên C1
r»> tai này đir<K thưc hiện tai Bó món Các hê thống Thòng tin. Khoa Cõng n
rh o n t tin, trườnp Dại 111 If Công nghệ. Dại học Quốc gia Hà Nói từ tháng 6/2
2. BÁO CÁO TỔNG KẾT
13
đến tháng 6/2009. Trong quá trình nghiên cứu chúng tối đã sử dụng các phương
tiện nghiên cứu sau đây:
• Kết nối Internet của trường: dùng vào việc tải các phần mềm, dữ liệu thử, bài
báo khoa học.
• 01 máy trạm HP CPU Intel Core 2 Duo E4500 2*2.2GHz/ 2MB C ache/ Chipset
Intel / 2GB DDR2/ 80GB SATA HDD/ 16 inl CardReader /Intel GMA 3100

uptol28M B / DVD-RW/ Gigabit NIC / lx PC I Ex - dùng làm server cơ sở dữ
liệu và thực hiện tìm kiếm âm thanh. Máy trạm này được trang bị theo dự
án " Tăng cường năng lực nghiên cứu cho Phòng thí nghiệm chuyên đề Các Hệ
thống Thông tin Tích hợp và Công nghệ Phần m ềm " năm 2008-2009.
• 02 máy tính xách tay, 02 micro và 01 bộ loa ngoài (do cá nhân tự trang bị).
2.7 K ết quả nghiên cứu
2.7.1 Kết quả khoa học
Chúng tối đã đề xuất các bước để xây dựng một hệ thống nhận dạng âm thanh
trong thực tế. Chúng tôi đã thử nghiệm xây dựng một cơ sở dữ liệu âm thanh, huấn
luyện dữ liệu để trích rút các đặc trưng và thử nghiệm tìm kiếm dựa trẽn tín hiệu
âm thanh vào từ micro với độ chính xác tốt. Các kết quả nói trên đã được trình bày
chi tiết trong 01 bài báo khoa học đang gửi đãng tạ p chí Tạp chí Khoa học (Dại học
Quốc gia Hà Nội). Kết quả nghiên cứu của chúng tối cho thấy việc triển khai một
ứng dụng nhận dạng bản nhạc qua tín hiệu thu được từ micro là hoàn toàn khả thi.
2.7.2 Kết quả đào tạo
Dã có hai sinh viên thực hiện khóa luận tố t nghiệp theo hướng nghiên cứu của đề
tài. Hai khóa luận này đã được bảo vệ thành công vào ngày 2/6/2009 tại Khoa Cõng
nghệ Thống tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội:
1. Bùi Thanh Xuân, Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc
số, Khóa luận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.
2. Vũ Thị Tư, Tìm kiếm dữ liệu âm thanh bằng phương pháp QbH (Query by
Humming) và ứng dụng, Khóa luận tố t nghiệp Đại học, trường Đại học Công
nghệ, 2009.
2.8 Thảo luận
Chúng tối đã đ ạt được các kết quả chính sau đây trong đề tài nghiên cứu QC.08.01:
• Chúng tõi đã nghiên cứu tổng quan về chuỗi đặc trưng âm thanh, các phương
pháp xây dựng và tìm kiếm, so sánh các chuỗi đặc trưng âm thanh đang được
2. DÁO CÁO TỔNG KẾT
nghicn cứu và phát triển; và các ứng dụng của nó trong giam sa p
tìm kiếm dữ liệu đa phương tiện, tạo các bộ lọc trong cac ưng

chung file V.V
• Chúng tôi đã xây dựng ứng đụng tìm kiếm thử nghiệm dựa trên ma nguoi
Yan Ke [201, mã nguồn của thư viện biến đôi Fourier nhanh ( h ttp : /WWW.
thư viện thao tác với các định dạng dữ liệu video va audio ffm peg
(h ttp ://w w .ffm p e g .o rg ), chương trình ứng dụng mpgl23
(http://WWW mpgl23.de) dùng để phát thanh một số định dạng file Ị
WAV V.V TVong ứng dụng này chúng tôi đã chi tiẻt hóa việc xảy dựng di
huấn luyện và phương pháp kiểm thừ kết quả. Ưng dụng đã được thư ng
cho kốt quả tốt với việc nhận nhận dạng bản thu âm của các bản nhí
mẫu thu qua micro có độ dài 30 giây (Xem chi tiết: bài báo trong phụ lục
theo).
• Dựa trên các kết quả đã nêu ở trên, chúng tôi đã hoàn thành và chuẩn t
đăng một bài báo (Tạp chí Dại học Quốc gia Hà Nội) với nội dung liên
đến tìm kiếm bản nhạc trong cơ sỏ dữ liệu dựa trên chuỗi đặc trưng âm tl
Ngoài ra chúng tôi cũng đã hoàn thành m ột báo cáo tổng quan về chuỗ
trưng âm thanh và các ứng dụng trong tìm kiếm âm nhạc (xem phụ lục
báo cáo này).
2.9 K ết luận và kiến nghị
Trong xu hướng phát triển mạnh của các ứng dụng Internet sử dụng nhiều lo
liệu khác nhau đặc biệt là dữ liệu đa phương tiện, chuỗi đặc trưng âm thanh 1
tượng nghiên cứu có tính thời sự, ý nghĩa khoa học và khả năng ứng dụng thự(
cao. Chung tôi sẽ tiêp tục triẽn khai thử nghiệm hệ thống nhận dạng âm nhạc
trên các nghiên cứu trong đề tài này, đặc biệt trong môi trường web. Lưu trữ
lượng lớn và cải thiện tốc độ tìm kiếm là các vấif đề cần được tiếp tục quan
nghiên cứu.
Tài liệu tham khảo
[1] E. Allamanche, J. Herre, 0 . Hellmuth, B. Bernhard Frobach, M. Cremer, Au-
dioID: Towards Content-Based, Identification of Audio Material, 100th AES
Convention, Amsterdam, The Netherlands, 2001.
[2] A. Andoni and p. Indyk, Near-optimal hashing algorithms for approximate near

est neighbor in high dimensions, in 47th Annual IEEE Symposium on Founda
tions of Com puter Science ( F 0 c s ’06), 2006, pp. 459-468.
[3] Baluja, Covell, Content fingerprinting using wavelets, Proceedings of the 3rd
European Conference on Visual Media Production (CVMP), 2006.
[4] S. Baluja, M. Covell, Audio Fingerprinting: Combining Computer Vision &
I Data Stream Processing, Proceeding of the IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP), 2007.
[5] M. Covell, S. Baluja, M. Fink, Advertisem ent Replacement using Acoustic and
Visual Repetition, Proceedings of the IEEE Workshop on M ultimedia Signal
Processing, 2006.
[6] c . Burges, J. Platt, s. Jana, Distortion Discriminant Analysis fo r Audio Fin
gerprinting, IEEE Transactions on Pattern Analysis and Machine Intelligence,
11 (3), 2003.
■[7] P. Cano, E. Batlle, T. Kalker, J. Haitsma, A review of algorithms for audio
fingerprinting, In Workshop on Multimedia Signal Processing, 2002.
[8] Y. Cheng, Music Database Retrieval Based on Spectral Similarity, International
Symposium on Music Information Retrieval (ISMIR) 2001, Bloom ington, USA,
October 2001.
[9] M. Covell, S. Baluja, Known-Audio Detection Using Waveprint: Spectrogram
Fingerprinting By Wavelet Hashing, Proceedings of the IEEE International
Conference on Acoustics. Speech and Signal Processing (ICASSP), 2007.
[10] A. Duda, A. Niirnberger, and s. Stober, Towards query by hum m ing/singing on
audio databases, in Proceedings of the 7th International Conference on Music
Inform ation Retrieval, 2007.
TÀI LIỆU THAM KHẢO
I
[111 M. Fink, M Covell, s. Baluja. Social- and Interactive-Television Apphcatioj
Based on Real-Time Ambient-Audio Identification, Proceedings of EuroITN
2006.
[12] D. Fragoulis D., G. Rousopoulos, T. Panagopoulos, c . Alexiou, c . Pi

paodysseus, On the Automated Recognition of Seriously Distorted M usic
Recordings, IEEE Transactions on Signal Processing, 49 (4), pp. 898-908, 200
'13] A. Gionis p. Indyk. R. Motwani, Similarity search in high dimensions via hasi
mg Proceedings of the International Conference on Very Large D atabases, 199'
[14] J. Haitsma, T. Kalker, J. Oostveen, Robust Audio Hashing fo r Content Ideni
fication, Content Based Multimedia Indexing 2001, Brescia, Italy, 2001.
[15] J. Haitsma, T. Kalker, A Highly Robust Audio Fingerprinting System, Procee<
ings of the International Conference for Music Information Retrieval, 2002.
[16] c . Jacobs, A. Finkelstein, D. Salesin, Fast Multiresolution Image Queryin
Proceedings of SIGGRAPH, 1995.
[17] J S. R. Jang and M Y. Gao, A query-by-singing system based on dynamic pr
gramming, in Proceedings of the International Workshop on Intelligent Systen
Resolutions, 2000.
[18] J S. R. Jang, C L. Hsu, and H R. Lee, Continuous HM M and its enhanceme
fo r singing/humming query retrieval, in Proceedings of the 6th Internation
Conference on Music Information Retrieval, 2005.
[19] Y. Ke, D. Hoiem, R. Sukthankar, Computer Vision fo r Music Jdentificatio
Proceedings of the IEEE Computer Society Conference on Com puter Visit
and Pattern Recognition (CVPR), 2005.
[20] Y. Ke et al., Computer vision fo r music ' identification: server cot
h t t p ://www. c s . emu.edu/ y k e /m u s ic r e trie v a l/m u s ic re tr- 1 . 0 .t a r .gz,
2005.
[21] K. Lemstrom, String Matching Techniques fo r Music Retrieval, Ph.D. thes
University of Helsinki, 2000.
l22] c . Meek and w . Birmingham, Applications of binary classification and adapti
boosting to the query-by-humming problem, in Proceedings of the 3rd Interr
tional Conference on Music Information Retrieval, 2002.
[23] H. Neuschmied. H. Mayer, E. Battle. Identification of Audio Titles on the J
tem et, Proceedings of the International Conference on Web Delivering of Mu
2001. Florence: Italv. November 2001.

TÀI LIỆU THAM KHẢO
17
[24] J. Oostveen, T. Kalker, J. Haitsma, Feature Extraction and a Database Strategy
fo r Video Fingerprinting, 5th International Conference on Visual Information
Systems, Taipei, Taiwan, March 2002, published in Recent advances in Visual
Information Systems, LNCS 2314, Springer, Berlin, pp. 117-128.
[25] R. Typke, Music Retrieval based on Melodic Similarity, Ph.D. thesis, Univer-
siteit Utrecht, 2007.
[26] P. Viola, M. Jones, Robust Real-time Object Detection. Proceedings of the
International Conference for Computer Vision, 2001.
[27] X. Wu, M. Li, J. Yang, and Y. Yan, A top-down approach to melody match
in pitch countour for query by humming, in Proceedings of the International
Conference of Chinese Spoken Language Processing, 2006.
[28] Auditude website h t t p : //www. a u d itu d e . com
[29] ID3Man website h t t p : //www. id3man. com
[30] Relatable website h t t p : //www. r e la t a b l e . com
[31] Napster website h t t p : //www. n a p s te r . com
[32] Website All Media Guide h ttp ://w w w .a llm ed ia g u id e .c o m /la sso /
[33] h t t p : / /b u s i n e s s .m ufin. com /en/p ro d u cts/
m ufin -a u d io id -m usic-re c o g n itio n -a n d -m u sic -m o n ito rin g /
[34] Website Gracenote h ttp : //www. g rac e n o te. com/
[35] Website Last.fm h ttp : //www. l a s t . fm/
[36] Website Music Brainz h ttp ://m u s ic b r a in z .o r g /
[37] Website Shazam h t t p : / /www. shazam . com/
[38] Website Tunatic h ttp ://w w w .w ild b its .c o m /tu n a tic/
[39] Moodlogic website h t t p : //www .m oodlogic. com
[40] Yacast website h t t p : //www. y a c a s t . com
đ ạ i h ọ c q u ố c G 'a Hà Nộ '
tr un g Tâ m t h ò n g -Iin thu v iệ n
Phụ lục

Phụ luc gồm có:
• 01 bài báo của đề tài gửi đăng Tạp chí Khoa học, Đại học Quốc gia Hà Nội
• 01 báo cáo tổng quan về chuỗi đặc trưng âm thanh do các cán bộ tham gia đề
tài thực hiện
• 02 bìa luận văn tốt nghiệp đại hoc năm 2009 thực hiện theo hướng nghiên cứu
của đề tài
• Bản sao Dề cương và Hợp đồng thực hiện đề tài nghiên cứu đã được phê duyệt
• Bán cáo tóm tắt kfit quả nghiên cứu của đề tài bằng Tiếng Anh
• Phiếu dăng ký kết quả nghiên cứu KHCN để ở trang cuối trong báo cáo tổng
két
IX
Xây dụng ứng dụng tìm kiếm âm nhạc dựa trên chuỗi đặc
trung âm thanh
Phạm Cẩm Ngọc, Nguyễn Hải Châu
Khoa Công nghệ Thông tin,Trường Đại học Công nghệ
Đại học quốc gia Hà Nội
Email: ,
Tóm tắt
Trong bài báo này chúng tôi nghiên cứu, đề xuất và xây dựng một ứng
dụng thừ nghiệm để tìm kiếm các bản nhạc dựa ừên dữ liệu là tín hiệu âm
thanh thu được từ micro. Hiện nay cỏ nhiều phương pháp tìm kiếm âm nhạc
dựa trên tín hiệu âm thanh, chúng tôi sử dụng chuỗi đặc trumg âm thanh kết hợp
với kỹ thuật học máy thống kê để xây dựng ứng dụng này. Trên cơ sở những
nghiên cứu của Yan Ke trong việc áp dụng các kỹ thuật về thị giác máy để giải
quyết vấn đề tìm kiếm âm nhạc, chúng tôi đã tập trung xây dựng dữ liệu huấn
luyện cho hệ thống, đạt được những kết quả khả quan so với bộ dữ liệu trước
đó của Yan Ke, với độ chính xác trong tìm kiếm lên tới 98%.
1. Giói thiệu
Hiện nay, có rất nhiều phương pháp tiếp cận khác nhau để giải quyết bài
toán tìm kiếm âm nhạc. Hai phương pháp điển hình và được ứng dụng rộng rãi

nhất trong thực tế đó là tìm kiếm dựa trên chuỗi đặc trưng âm thanh
(fingerprint) cùa các bản nhạc và tìm kiểm dựa trên giai điệu của bài hát. Một
hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài
hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng
ứng với việc tìm kiếm một fingerprint phù hợp nhất trong tập các fingerprint.
Khi sử dụng một hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10]
hay Shazam [9], người sử dụng có thể gửi các bản nhạc đã thu âm qua micro từ
máy tính cá nhân của mình cho server và nhận kết quả trả về là thông tin liên
quan đến bài hát gốc.
Hệ thống tìm kiếm dựa trên giai điệu hay còn gọi là Query by humming
(Qbh) là một hệ thống phân loại bản nhạc theo tên bài hát, nghệ sỹ biểu diễn,
1
lác giả bài hát và thể loại. Hệ thống nhận đâu vào là giai điẹu cua cac ban nhạc
và so sánh nó với giai điệu của các bản nhạc khác trong cơ sơ dư liẹu roi đưa ra
một danh sách sẳp thứ tự các bài hát có giai điệu giong VƠI ban nhạc đo nhat.
Một hệ Query by humming kiểu như Musipedia [11] hay Midomi [12] cho
phép người dùng nhập vào giai điệu bài hát theo nhiêu cach khac nhau như
huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search.
Từ thực tế đó kết hợp với việc nghiên cứu các phương pháp tìm kiêm âm
nhạc đang được nghiên cứu phổ biến hiện nay, đặc biệt là phương phap chuoi
đặc trưng âm thanh kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung
tôi tiến hành xây dựng một hệ thống tìm kiêm âm nhạc dựa trên các fingerprint.
Mỗi khi một bài hát được thêm mới vảo cơ sở dữ liệu, hệ thống sẽ lưu lại các
trường thông tin của bài hát như tên tác giả, ca sỹ thể hiện, thể loại nhạc
đồng thời thực hiện các biến đổi Fourier và tính toán càn thiết để trích ra được
các fingerprint tương ứng với bài hát đó và lun trữ nó như một trường đặc biệt,
trường fingerprint. Khi người sử dụng gửi một truy vấn là một bản nhạc đã thu
âm tới hệ thống, trước tiên hệ thống thực hiện các phương pháp tiền xử lý như
lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm của bài hát, sau đó tiến hành
tính toán ra fingerprint của bàn nhạc đó, tim kiếm trong cơ sở dữ liệu những

fingerprint gần giống với nó nhất và đưa ra kết quả là danh sách sắp thứ tự các
bài hát gốc với các thông tin hữu ích kèm theo.
2. Xây dựng và thử nghiệm hệ thống
Khi nhận được một bản nhạc thu âm mà vì nhiều lý do khác nhau đã bị
nhiễu như thu âm trong môi trường có nhiều tiếng ồn, thu âm với một micro
chât lượng thâp, người sử dụng muốn hệ thống có thể đưa ra được một cách
nhanh nhất bản nhạc đó thuộc về bài hát gốc nào.
Đẽ xây đựng một hệ thống fingerprint đáp ứng được yêu cầu trên, Yan Ke
[7] chuyên đôi bài toán cân giải quyêt sang bài toán trong lĩnh vực khác và đã
có lời giải, đó là thị giác máy. Mới nghe qua, các vấn đề trong phạm vi âm
thanh có vẻ như không có môi liên hệ gì với lĩnh vực computer vision. Trong
lĩnh vực âm thanh, người ta cân phải xử lý các tín hiệu 1-D theo thời gian, còn
trong computer vision, mục đích của các nhà phát triển là đưa ra được các hình
anh 2-D la) ra từ một khung cảnh 3-D. Tuy nhiên, động lực chính thúc đẩy
hướng tiẽp cận này, đó là gần đây, các nhà nghiên cứu thường sử dụng các hình
2
ảnh 2-D liên tục theo thời gian (spectrograms) khi phân tích âm thanh và giọng
nói nhằm mục đích trực quan hóa bằng hình ảnh.
Khi cài đật hệ thống, việc biên dịch mã nguồn server cũng như xây dựng
cơ sở dữ liệu, thu âm bài hát, chia bài hát thành các snippet để tạo dữ liệu huấn
luyện được chúng tôi thực hiện trên hệ điều hành Linux, đồng thời chúng tôi
sử dụng thêm một sổ thư viện sẵn có như fftw3 (fftw.org), ffmpeg (ffmpeg.org)
và mpgl23.
Hệ thống chúng tôi xây dựng gồm hai thành phần: chương trình giao diện
người sử dùng (UI) viết trên Java 1.4 và chương trình server nhận dạng bài hát
(MIS) viết bằng C++. Phía UI sẽ thực hiện gửi các truy vấn tới MIS qua các
TCP/IP socket, do đó cả hai có thể dịch trên cùng một máy hay các máy khác
nhau. Nếu không được chỉ định, cổng mặc định ờ đây là 2000. Để kiểm nghiệm
hệ thống, chúng tôi cho UI tự động gửi liên tục các truy vấn là các bản nhạc thu
âm tới server, sau đỏ nhận kết quả trả về là tên bài hát gốc, tiến hành kiểm tra

tính đúng đắn và ghi lại kết quả cho các mục đích thống kê sau này.
2.1. Xây dụng cơ sở dữ liệu các fingerprint
Hai chương trình chính sử dụng để xây dựng cơ sờ dữ liệu khóa là
makekeys và builddb. Chương trình đầu tiên nhận đầu vào là các một danh sách
các file nhạc định dạng WAV, thực hiện tính toán khỏa (các fingerprint) cho
mỗi bài hát, sau đó ghi khóa đó vào một thư mục chung chứa các khỏa. Để
chạy được, chương trình cần các thư viện là codewav.cc - chuyển đổi các file
WAV thành dạng bit và sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu.
Chương trình thứ hai sừ dụng các thư viện keypointdb.cc - quản lý cơ sở dữ
liệu khóa và directhash.cc - xây dựng các bảng băm trực tiếp của tất cả các
khóa trong cơ sờ dữ liệu khóa. Chương trình sẽ đọc một danh sách các khóa và
xây dựng cơ sở dữ liệu từ tập hợp khóa đó.
Tuy nhiên, trong thực tế, việc lưu trữ các file nhạc định dạng WAV gặp
nhiều khỏ khăn do kích thước các file nhạc là rất lớn, chúng tôi đã kết hợp sử
dụng thư viện ffmpeg trong cải tiến chương ưình sinh khóa để hệ thống có thể
tính khóa từ tập các bài hát định dạng MP3.
2.2. Xây dụng dữ liệu huấn luyện cho việc tìm kiếm
Để xây dựng cơ sở dữ liệu cho việc tìm kiểm, trước hết cần phải cỏ một
tập các bài hát đã được thu âm trong môi trường có nhiều nhiễu. Tập các bài
3
hát đã thu âm này và các bải hát gốc cùa nỏ sau đó được chia thanh cac snippet
ngắn (30 giây cho mỗi snippet). Các snippet tương ứng sau khi thực hiện trích
rút đặc trưng sẽ được so sánh với nhau đê tạo thành tạp dư liẹu học. Chung tôi
đã xây dựng các chương trình giúp cho việc xây dựng dữ liẹu huan luyẹn được
thuận tiện.
• Chương trình balchrec: sử dụng thư viện ffmpeg và mpg 123 thực hiện
tự dộng mở và thu âm lại các bài hát từ đâu đên khi ket thuc, ghi
chúng vào thư mục các bài hát đã thu âm.
• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ một bài
hát thành các snippet kế tiếp nhau theo một khoảng thời gian nào đó

(thường là 30 giây).
• Chương trình emtraining: tự động đọc một đanh sách các snippet gốc
và snippet đã thu âm, tính toán khóa cho các snippet này, sau đó tiến
hành xây dựng tập dữ liệu học.
Trong quá trình xây dựng dữ liệu huấn luyện, chúng tôi lựa chợn tập dữ
liệu học dược phân loại theo một sổ tiêu chí về thể loại nhạc để tạo nên các bộ
dữ liệu huấn luyện khác nhau. Các snippet dùng làm dữ liệu học cũng như các
snippet truy vấn đều được chúng tôi thu âm qua micro chất lượng không tốt và
môi trường có nhiều tiếng ồn gây nhiễu. Chúng tôi tiến hành chạy chương trình
ứng dụng theo một danh sách các snippet đã thu âm để đưa ra được những đánh
giá tổng quan về quá trình học cùa hệ thống.
3. Ket quả thực nghiệm
Chúng tôi đã xây dựng một hệ thống nhận đạn^ âm thanh dựa trên chuỗi
đặc trưng với cơ sở dữ liệu cỏ 597 bài hát và tiến hành kiểm tra độ chính xác
của việc tim kiêm trên hai tập dữ liệu vào T] và T2 gồm các snippet được lựa
chọn ngâu nhiên từ cơ sở dữ liệu 597 bài hát nói trên. Tập dữ liệu T| bao gồm
956 snippet đã được thu âm trong môi trường nhiều nhiễu (tiếng ồn ban ngày ở
khu tập thê, tiêng rè của loa và micro do chất lượng kém và tiếng gió tạo ra từ
quạt máy); T? bao gôm toàn bộ các snippet trong T| đã được tiền xừ lý bằng
cách tăng biên độ tín hiệu nhưng không khử nhiễu.
Chúng tôi tiên hành kiêm tra kêt quả thực nghiệm trên ba bộ dữ liệu huấn
luyện: bộ dữ liệu huấn luyện cùa Yan Ke (gọi tắt là YanKe) và hai bộ dữ liệu
huân luyện do chúng tôi tạo ra (gọi tẳt là HL|, HL2). Bộ dữ liệu huấn luyện HL|
4

×