Tải bản đầy đủ (.pdf) (24 trang)

Định danh tự động một số làn điệu dân ca Việt Nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.75 MB, 24 trang )

MỞ ĐẦU
1. Lý do chọn đề tài
Âm nhạc là một trong những món ăn tinh thần khơng thể thiếu trong
đời sống của mỗi con người. Con người thường nghe nhạc để giải toả cảm
xúc, tạo cảm giác thoải mái, thư giãn và tìm lại cân bằng trong cuộc sống
hàng ngày.
Trước đây, các tác phẩm âm nhạc thường được phân phối đến người
dùng dưới dạng các đĩa CD/DVD, băng từ… thông qua các cửa hàng băng
đĩa nhạc. Mỗi album như vậy thường chứa từ 10 đến 15 bài hát thường
của cùng một ca sĩ hay nghệ sĩ. Ngày nay, cùng với sự bùng nổ của
Internet băng thông rộng, các đĩa CD/DVD và băng từ đã trở nên khơng
cịn phổ biến và dần được thay thế bằng các cơ sở dữ liệu (CSDL) nhạc
số. Mỗi cá nhân hiện nay có thể sở hữu hàng nghìn bản nhạc số và họ có
thể tự xây dựng thư viện âm nhạc theo sở thích cho riêng mình để thưởng
thức và có thể chia sẻ chúng đến với cộng đồng.
Các nghiên cứu liên quan đến khai phá dữ liệu âm nhạc rất đa dạng và
đã được thực hiện từ rất lâu, theo nhiều hướng khác nhau như: Phân lớp
âm nhạc theo thể loại (MGC - Music Genre Classification), định danh
nghệ sĩ/ca sĩ, phát hiện cảm xúc/tâm trạng, nhận biết nhạc cụ… Tuy nhiên,
với số lượng các tác phẩm âm nhạc được số hoá ngày càng nhiều đã gây
ra khơng ít khó khăn cho người u nhạc (thậm chí ngay cả các chuyên
gia) trong việc tổ chức các CSDL nhạc số khổng lồ. Việc tìm kiếm các
phương pháp mới để khám phá, giới thiệu và quảng bá âm nhạc cũng đặt
ra cho ngành công nghiệp nhạc số và các nhóm nghiên cứu những thách
thức khơng hề nhỏ.
Năm 2003, trong luận văn của mình, Heittola [1] đã đề xuất phương
pháp hữu dụng nhất để quản lý các CSDL nhạc số khổng lồ bằng cách
phân lớp âm nhạc theo thể loại. Tuy nhiên, việc xác định một thể loại âm
nhạc cụ thể vẫn còn là một vấn đề rất khó, vì ranh giới giữa các thể loại
âm nhạc thường khơng rõ ràng. Một bản nhạc có thể kết hợp các yếu tố từ
nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó khăn. Mặt


khác, một thể loại âm nhạc có thể chứa nhiều phong cách, biến thể, hoặc
ảnh hưởng từ văn hóa khác nhau, dẫn đến sự đa dạng trong cách biểu đạt
và âm thanh. Do đó, việc đưa ra khái niệm về thể loại cịn chưa rõ ràng,
phụ thuộc nhiều vào cảm tính và nhận thức của con người [2].
Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời nên dân
ca Việt Nam hết sức đa dạng và phong phú. Dân ca của mỗi dân tộc, mỗi
1


vùng miền lại mang màu sắc, bản sắc văn hoá riêng. Ở Bắc Bộ có Quan
họ Bắc Ninh, hát Chèo, hát Xoan, hát Ví, hát Trống qn, hát Dơ, …; ở
Trung Bộ có hát Ví dặm, Hị Huế, Lý Huế, hát Sắc bùa, …; ở Nam Bộ có
các điệu Lý, điệu Hị, nói thơ, …; ở miền núi phía Bắc có dân ca của đồng
bào Thái, H' Mơng, Mường, …; vùng Tây Nguyên có dân ca của các dân
tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng… Dân ca là kho tàng văn hoá vô
cùng rộng lớn, rất đa dạng và phong phú của dân tộc Việt Nam.
Từ những lý do nêu trên, tác giả đã lựa chọn đề tài nghiên cứu của luận
án “Định danh tự động một số làn điệu dân ca Việt Nam” nhằm tìm
hiểu sâu hơn về kho tàng dân ca Việt Nam, đặc biệt là nghiên cứu đề xuất
các mơ hình hiệu quả trong định danh tự động một số làn điệu dân ca Việt
Nam, góp phần bảo tồn và đưa dân ca Việt Nam ngày càng trở nên phổ
biến hơn.
2. Mục tiêu nghiên cứu của luận án
Mục tiêu chính của Luận án là nghiên cứu định danh tự động một số
làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu dùng học
máy và học sâu. Luận án tập trung nghiên cứu một số mô hình và đề xuất
mơ hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam,
với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và
Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên
hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng

tổng qt hố của mơ hình đề xuất, đồng thời đánh giá ảnh hưởng của các
phương pháp tăng cường dữ liệu đến độ chính xác của mơ hình.
3. Nhiệm vụ nghiên cứu của luận án
Để đạt được những mục tiêu đã đề ra, luận án cần thực hiện các nhiệm
vụ chính sau đây:
• Nghiên cứu quy trình, phương pháp luận xây dựng bộ dữ liệu dân
ca dùng cho nghiên cứu.
• Nghiên cứu các đặc trưng trong tín hiệu âm nhạc thường được sử
dụng để xác định thể loại âm nhạc.
• Nghiên cứu tổng quan về các phương pháp và các thuật toán phân
lớp âm nhạc theo thể loại.
• Nghiên cứu các mơ hình thường dùng để phân lớp thể loại âm nhạc
như SVM, GMM, DNN …
• Thực hiện định danh tự động một số làn điệu dân ca Việt Nam phổ
biến (Chèo, Quan họ) và đưa ra các phân tích, nhận xét, đánh giá
về kết quả đạt được.
2


• Thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu âm nhạc
theo thể loại là GTZAN và FMA_SMALL, phân tích các kết quả
và đưa ra các kết luận về mơ hình đề xuất, đồng thời đánh giá ảnh
hưởng của các phương pháp tăng cường dữ liệu đã thực hiện.
4. Đối tượng và phạm vi nghiên cứu của luận án
Mỗi vùng miền, mỗi dân tộc trên đất nước Việt Nam lại có những thể
loại dân ca khác nhau. Đối tượng nghiên cứu của luận án là định danh tự
động một số làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín
hiệu, học máy và học sâu, từ đó đề xuất mơ hình phù hợp cho nhiệm vụ
này. Trong khn khổ có hạn của luận án, việc nghiên cứu sẽ chỉ tập trung
vào định danh tự động các làn điệu dân ca phổ biến của Chèo và Quan họ.

5. Ý nghĩa khoa học và thực tiễn của luận án
• Về mặt lý thuyết, luận án sẽ góp phần làm sáng tỏ các mơ hình
phân lớp âm nhạc theo thể loại và áp dụng cho định danh các
làn điệu dân ca Việt Nam phổ biến, tạo tiền đề cho các nghiên
cứu tiếp theo trong lĩnh vực này.
• Kết quả nghiên cứu của luận án có nhiều đóng góp trong thực
tiễn, có thể kể đến như:
o Trong lịch sử và văn hoá: Định danh làn điệu dân ca góp
phần giúp ghi nhận và lưu giữ di sản văn hóa của một dân
tộc, phản ánh lịch sử phát triển, sinh hoạt và tinh thần của
một cộng đồng, đồng thời cũng giúp tìm hiểu về sự đa dạng
văn hóa, sự kết nối giữa các dân tộc và sự tương tác giữa con
người với tự nhiên.
o Trong giáo dục: Việc định danh và nghiên cứu về làn điệu
dân ca góp phần giới thiệu văn hóa dân gian cho các thế hệ
trẻ, giúp họ có thêm hiểu biết và tự hào về di sản văn hóa của
tổ tiên. Đồng thời, việc dạy học và truyền bá các làn điệu dân
ca cũng góp phần giáo dục đạo lý, tình u q hương đất
nước và bồi dưỡng nhân cách cho con người.
o Trong nghệ thuật: Làn điệu dân ca là nguồn gốc của nhiều
loại hình nghệ thuật như âm nhạc, múa, kịch... Việc định
danh và nghiên cứu về làn điệu dân ca góp phần phát triển,
bảo tồn và tiếp nối các loại hình nghệ thuật dân gian, từ đó
đóng góp vào sự phong phú, đa dạng của nền văn hóa.
o Trong cơng nghệ liên quan đến âm nhạc:
3


▪ Đối với hệ thống quản lý âm nhạc: Hỗ trợ các hệ thống
quản lý âm nhạc có thể tự động phân lớp và đưa các bài

hát vào các danh mục tương ứng, giúp cho việc quản lý
và tìm kiếm âm nhạc trở nên dễ dàng hơn.
▪ Đối với người nghe nhạc: Giúp người nghe nhạc có thể
dễ dàng tìm kiếm và lựa chọn được những bài hát phù hợp
với sở thích hay tâm trạng của mình.
o Trong nghiên cứu: Làm tiền đề cho các nghiên cứu tiếp theo
về khai phá dữ liệu âm nhạc, đặc biệt là kho tàng âm nhạc
dân ca Việt Nam.
6. Phương pháp nghiên cứu
Phương pháp nghiên cứu thực hiện trong luận án là nghiên cứu lý
thuyết kết hợp với thực nghiệm.
• Về mặt lý thuyết, luận án sẽ nghiên cứu lý thuyết chung về các
mô hình phân lớp âm nhạc theo thể loại, đề xuất các mơ hình
định danh các làn điệu dân ca Việt Nam phổ biến.
• Về mặt thực nghiệm, sử dụng các mơ hình phân lớp đã được đề
xuất để định danh tự động các làn điệu dân ca phổ biến của Việt
Nam là Chèo và Quan họ, từ đó nhận xét, đánh giá kết quả đạt
được để xác nhận giá trị của các mơ hình đã đề xuất.
7. Kết quả mới của luận án
Kết quả nghiên cứu mới của luận án có thể được tóm tắt tập trung vào
các điểm chính sau:
• Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân
ca phổ biến là Chèo và Quan họ dùng cho nghiên cứu định danh
các làn điệu dân ca thuộc bộ dữ liệu này.
• Đề xuất các mơ hình học máy truyền thống và học sâu để định
danh một số làn điệu Chèo và Quan họ phổ biến.
• Đề xuất các phương pháp tăng cường dữ liệu và mơ hình học
sâu thích hợp cho phân lớp thể loại âm nhạc nói chung.
8. Cấu trúc của luận án
Luận án được trình bày trong 3 chương với nội dung tóm tắt như sau:

Chương 1: Tổng quan về âm nhạc và phân lớp âm nhạc theo thể loại.
Chương này trình bày một số khái niệm liên quan đến âm thanh, âm nhạc;
một số yếu tố cơ bản và một số đặc trưng được trích chọn từ tín hiệu âm
nhạc; một số thể loại nhạc phổ biến trên thế giới và đôi nét về nhạc dân ca
Việt Nam (Chèo và Quan họ); khái niệm thể loại âm nhạc và sơ đồ hệ
4


thống phân lớp âm nhạc theo thể loại; một số bộ dữ liệu âm nhạc theo thể
loại điển hình; một số mơ hình thường dùng trong phân lớp thể loại âm
nhạc; tình hình nghiên cứu về phân lớp âm nhạc theo thể loại ở trong và
ngoài nước cũng được đề cập trong Chương 1.
Chương 2: Định danh một số làn điệu dân ca Việt Nam. Đầu tiên, phần
giới thiệu về việc thu thập dữ liệu nhạc dân ca, phương pháp xử lý dữ liệu
để xây dựng bộ dữ liệu nhạc dân ca. Một số phương pháp tăng cường dữ
liệu âm nhạc như: chia đôi các file dữ liệu âm nhạc, tạo tiếng vọng, cộng
nhiễu trắng và thay đổi cao độ cũng được đề cập trong Chương này. Bộ
tham số dùng cho phân lớp và định danh bao gồm các hệ số MFCC, năng
lượng, tần số cơ bản F0 và các biến thể của F0, phổ Mel, pitch, tonnetz,
spectral và chroma. Tiếp theo, chương này trình bày kết quả phân lớp,
định danh một số làn điệu dân ca Chèo và Quan họ dùng một số thuật toán
học máy truyền thống như SVM, GMM và các mơ hình học sâu như mạng
CNN, LSTM, CRNN...
Chương 3: Trình bày một số kết quả nghiên cứu phân lớp thể loại âm
nhạc trên bộ dữ liệu nhạc Việt (Zalo AI Challenge 2018), GTZAN và
FMA_SMALL sử dụng học sâu như RAN, LSTM, CNN, GRU, CSN, và
DenseNet. Việc phân tích, đánh giá ảnh hưởng của các phương pháp tăng
cường dữ liệu đến kết quả phân lớp cũng được trình bày trong Chương 3.
Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được,
những đóng góp mới và hướng mở rộng nghiên cứu phát triển của luận

án.
1. TỔNG QUAN VỀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI
1.1 Âm thanh, âm nhạc
Trình bày một số khái niệm về âm thanh, âm nhạc; 4 thuộc tính của
âm nhạc và một số yếu tố cơ bản của âm nhạc.
1.2 Một số đặc trưng được trích chọn từ tín hiệu âm nhạc
Phần này trình bày một số đặc trưng được trích chọn từ tín hiệu âm
nhạc: Các đặc trưng thống kê; các đặc trưng trong miền thời gian; các đặc
trưng trong miền tần số và các đặc trưng phổ.
1.3 Một số thể loại âm nhạc phổ biến trên thế giới
Trình bày khái niệm thể loại âm nhạc và một số thể loại âm nhạc phổ
biến trên thế giới như: Pop, Rock, Classical, Country…
1.4 Đôi nét về dân ca Việt Nam
Trình bày khái quát về dân ca Việt Nam và 2 loại hình dân ca có số
5


lượng làn điệu phong phú nhất là Chèo và Quan họ. Đặc điểm âm nhạc,
lời ca trong Chèo và Quan họ. So sánh kỹ thuật hát Chèo với kỹ thuật hát
Quan họ.
1.5 Phân lớp âm nhạc theo thể loại
Sơ đồ khối tổng quan của hệ thống phân lớp âm nhạc theo thể loại
dùng các kỹ thuật học máy đã được các tác giả nước ngồi đề xuất [22]:
1
H́n luyện

5

2


Trích rút đặc trưng

5

Bộ dữ liệu
âm nhạc
Nhận dạng

3

Trích rút đặc trưng

Các
kỹ thuật

Bài hát cần
phân lớp

Xây dựng mơ hình

học máy

Trích rút đặc trưng

4
Đánh giá
mơ hình
Thể loại nhạc
xác định được


Ứng dụng

Hình 1.12 Sơ đờ chung cho hệ thống phân lớp thể loại âm nhạc
1.6 Một số bộ dữ liệu âm nhạc theo thể loại điển hình
Các nghiên cứu về âm nhạc hết sức đa dạng và phong phú, với mỗi
khía cạnh nghiên cứu lại có các bộ dữ liệu tương ứng. Tuy nhiên, trong
phần này chỉ trình bày một số bộ dữ liệu âm nhạc theo thể loại điển hình
được sử dụng trong các nghiên cứu phân lớp thể loại âm nhạc như:
GTZAN, ISMIR2004, LATIN MUSIC, FMA…
1.7 Một số bộ phân lớp thường dùng trong định danh thể loại âm
nhạc
Phần này trình bày về một số mơ hình học máy truyền thống như SVM,
GMM và một số mơ hình học sâu như CNN, LSTM, GRU, CRNN, RAN,
CSN, DenseNet được sử dụng trong nghiên cứu phân lớp âm nhạc theo
thể loại.
1.8 Một số kết quả định nghiên cứu phân lớp âm nhạc trong và
ngoài nước
Phần này trình bày một số kết quả nghiên cứu phân lớp thể loại âm
nhạc đã được thực hiện ở ngoài nước. Tại Việt Nam nghiên cứu về phân
lớp âm nhạc theo thể loại vẫn còn mới mẻ và chưa được phát triển mạnh
mẽ.
1.9 Kết chương 1
Chương 1 đã trình bày tổng quan một số khái niệm và các yếu tố về
6


âm nhạc; các đặc trưng trong tín hiệu âm nhạc; khái niệm về thể loại nhạc,
đặc điểm của một số thể loại nhạc phổ biến và đôi nét về nhạc dân ca Việt
Nam. Đồng thời, Chương 1 cũng trình bày một số nghiên cứu về phân lớp
âm nhạc theo thể loại đã được thực hiện bởi các tác giả nước ngồi. Có

thể thấy, các nghiên cứu trong lĩnh vực âm nhạc phát triển mạnh mẽ theo
nhiều hướng khác nhau từ sau những năm 2000. Tuy nhiên, phân lớp thể
loại âm nhạc vẫn cịn là vấn đề khó giải quyết, nếu giải quyết tốt sẽ có
đóng góp rất nhiều trong thực tiễn và thương mại.
Tại Việt Nam, đã có một số nghiên cứu về phân lớp thể loại âm nhạc
trên bộ dữ liệu nhạc Quốc tế và nhạc Việt Nam. Tuy nhiên, chưa có một
cơng bố chính thức nào về phân lớp các thể loại nhạc Việt, đặc biệt là nhạc
Dân ca Việt Nam.
2. ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM

2.1 Bộ dữ liệu âm nhạc Chèo và Quan họ
Trình bày các tiêu chí và phương pháp xây dựng bộ dữ liệu DANCA
dùng cho nghiên cứu. Bộ dữ liệu DANCA gồm 25 làn điệu Chèo và 25
làn điệu Quan họ, số lượng file ứng với mỗi làn điệu được lấy cân bằng
nhau và bằng 20 file. Do đó, số lượng file cho các làn điệu Chèo là 500
file và bằng số lượng file cho các làn điệu Quan họ. Tổng số file trong bộ
dữ liệu là 1000 file.
2.2 Một số phương pháp tăng cường dữ liệu
Phần này trình bày vai trị của dữ liệu trong các mơ hình mạng nơron sâu. Một số phương pháp tăng cường dữ liệu âm nhạc được sử
dụng trong nghiên cứu của luận án như: chia đôi các file dữ liệu âm
nhạc, tạo tiếng vọng, cộng nhiễu trắng và thay đổi cao độ.
2.3 Phân lớp, định danh một số làn điệu dân ca Việt Nam dùng
một số thuật toán học máy truyền thống
Trong phần này, luận án đã tiến hành 6 trường hợp nghiên cứu phân
lớp và định danh một số làn điệu dân ca Việt Nam. Phân lớp là xác định
loại hoặc thể loại của một đoạn nhạc hoặc một bài hát cụ thể. Định danh
là xác định cụ thể tên một bản nhạc hoặc bài hát dựa trên một đoạn âm
thanh nhất định.
Bảng 2.2 là thông tin chi tiết về mô hình, bộ dữ liệu, bộ tham số và số
lượng tham số được sử dụng trong mỗi trường hợp.

7


Bảng 2.2 Các trường hợp nghiên cứu phân lớp và định danh
Bộ dữ liệu

Mơ hình

SMO,
MultiLayer
Perceptron,
MultiClass
10 làn điệu
Classifier
Quan họ thuộc WEKA
GMM

Các trường
hợp nghiên
cứu

Bộ tham số

Số
lượng

Định danh

MFCC, ZCR, xác xuất âm
hữu thanh, F0, năng lượng.


384

MFCC + năng lượng

60

MFCC+năng lượng + F0

61

MFCC, năng lượng

60

S1 (MFCC + năng lượng)

60

S1 + tempo

61

S1 + F0 + intensity

62

S1 + F0 + intensity + tempo

63


S1 (MFCC + năng lượng)

60

S1 + tempo

61

S1 + F0 + intensity

62

S1 + F0 + intensity + tempo

63

MFCC + năng lượng

60

Định danh
Phân lớp và
Định danh

Phân lớp
GMM
DANCA

Định danh


i-Vector

Định danh

2.3.1 Trường hợp 1: Định danh một số làn điệu Quan họ dùng một số
mơ hình truyền thống thuộc bộ công cụ WEKA
Bảng 2.6 Tổng hợp kết quả định danh
Phương pháp

SMO

MultiLayer
Perceptron

MultiClass
Classifier

Trung bình tỷ lệ
định danh đúng

89,0%

86,0%

71,0%

8



Tỷ lệ nhận dạng đúng trung bình (%)

2.3.2 Trường hợp 2: Định danh một số làn điệu Quan họ dùng GMM
Nghiên cứu được thực hiện trên mơ hình GMM với bộ dữ liệu dùng
trong trường hợp này cũng chính là bộ dữ liệu đã được dùng trong trường
hợp 1. Mục đích của nghiên cứu này nhằm đánh giá ảnh hưởng của tham
số là tần số cơ bản (F0) đến kết quả định danh. Bộ tham số thứ nhất gồm
60 hệ số (19 MFCC + năng lượng = 20, đạo hàm bậc nhất và đạo hàm bậc
hai của 20 hệ số này). Bộ tham số thứ 2 gồm 61 hệ số, là các hệ số trong
bộ tham số thứ nhất được bổ sung thêm F0.
85
80
72
69

70
65
60

79

75

75

65
62

69
70


64

66

70

72
71

73

65

65

61

63

62
58

55
16

32

64


128

256

512

1024

2048

4096

8192

Số thành phần Gauss M
60 tham số

61 tham số

Hình 2.5 Kết quả định danh với sớ thành phần Gauss M = 16  8192

Kết luận: Tham số F0 được bổ sung đã làm tăng kết quả định danh.
2.3.3 Trường hợp 3: Phân lớp, định danh Chèo và Quan họ dùng GMM
Nghiên cứu được thực hiện trên bộ dữ liệu DANCA dùng GMM và
được tiến hành trong 2 trường hợp là: Phân lớp và Định danh.
1. Phân lớp: Trong trường hợp này, dữ liệu đưa vào nhận dạng sẽ được
phân vào một trong 2 lớp Chèo hoặc Quan họ.

Hình 2.6 Tỷ lệ phân lớp đúng trong phân lớp sơ bộ


2. Định danh: Trong trường hợp này, dữ liệu đưa vào nhận dạng sẽ được
xác định là làn điệu nào trong Chèo hoặc Quan họ.
9


Hình 2.7 Tổng hợp kết quả định danh với M = 16  4096
2.3.4 Trường hợp 4: Phân lớp Chèo và Quan họ dùng GMM
Phân lớp Chèo và Quan họ dùng GMM với 4 bộ tham số S1 (60 MFCC),
S2 (S1 + tempo), S3 (S1 + F0 + Intensity) và S4 (S3 + Tempo). Mục đích
của nghiên cứu này là đánh giá ảnh hưởng của các tham số Tempo, Intensity
và F0 đến kết quả phân lớp.

Hình 2.10 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ
liệu Quan họ

Hình 2.12 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ
liệu Chèo
10


3.2.5 Trường hợp 5: Định danh Choè và Quan họ dùng các trích đoạn
ngắn
Dữ liệu dùng cho nhận dạng là các trích đoạn ngắn có độ dài thay đổi
từ 4, 6, 8, …, 16 giây, được trích xuất ngẫu nhiên từ 20% dữ liệu nhận
dạng. Mục đích của nghiên cứu này là để xác định xem tỷ lệ nhận dạng
thay đổi như thế nào khi thay đổi độ dài của các đoạn trích.
Trong phạm vi nội dung của luận án chỉ trình bày kết quả nghiên cứu
ứng với 3 giá trị của M = 512, 1024 và 2048. Với các giá trị này của M
thể hiện rõ ảnh hưởng của các tham số Tempo, Intensity và F0 đến kết quả
định danh. Hình 2.14 là kết quả định danh đối với các trích đoạn của các

làn điệu Chèo với ba giá trị M tương ứng. Có thể thấy rằng khi độ dài của
đoạn trích ngắn thì các thơng số như Tempo, Intensity và F0 khơng có ảnh
hưởng đáng kể đến tỷ lệ định danh. Với M = 512 (Hình 2.14a), tác động
của các tham số bổ sung này càng rõ rệt khi độ dài của đoạn trích từ 14
giây trở lên.

a) M = 512

b) M = 1024
11


c) M = 2048
Hình 2.14 Tỷ lệ định danh đúng của các trích đoạn Chèo ứng với 3
giá trị của M
Kết quả định danh đối với các trích đoạn của các làn điệu Quan họ với
ba giá trị M tương ứng trong các Hình 2.15a, 2.15b và 2.15c. Các thơng
số bổ sung cũng có tác động tích cực đến kết quả định danh.

a) M = 512

b) M = 1024
12


c) M = 2048
Hình 2.15 Tỷ lệ định danh đúng của các trích đoạn Quan họ với 3 giá trị
của M

Kết quả cho thấy, với độ dài trích đoạn 16 giây, trung bình tỷ lệ định

danh đạt 91,09% so với 94,18% khi sử dụng toàn bộ thời lượng các làn
điệu Chèo. Với độ dài trích đoạn 16 giây cho các bài hát Quan họ, tỷ lệ
định danh này đạt 94,44% so với 96,89% cho toàn bộ file âm thanh.
2.3.6 Trường hợp 6: Định danh Chèo và Quan họ dùng i-vectors
Các i-vector đã được sử dụng cho mơ hình GMM để nhận dạng người
nói và sau đây là kết quả thử nghiệm sử dụng i-vector cùng với mơ hình
GMM để phân loại hai thể loại dân ca Việt Nam là Chèo và Quan họ.
Hình 3.12 và 3.13 lần lượt là so sánh tỷ lệ định danh Chèo và Quan họ với
i-vector trên bộ tham số S1.

Hình 2.16 So sánh tỷ lệ định danh đúng trung bình sử dụng i-vector với
GMM đới với bộ tham số S1 trên tập dữ liệu Chèo

13


Hình 2.17 So sánh tỷ lệ định danh đúng trung bình sử dụng i-vector với
GMM đới với bộ tham sớ S1 trên tập dữ liệu Quan họ

2.4 Phân lớp và định danh một số làn điệu dân ca Việt Nam dùng
học sâu
2.4.1 Bộ dữ liệu và tham số sử dụng
Dữ liệu sử dụng là bộ dữ liệu DANCA gồm 1000 file của 2 loại hình
dân ca Chèo và Quan họ.
Cơng cụ LibROSA [111] được sử dụng để phân tích và trích xuất các
đặc trưng từ dữ liệu thử nghiệm. Các đặc trưng được chọn bao gồm 157
hệ số phổ mel và 26 tham số khác (cao độ (1), tonnetz (6), độ tương phản
phổ (7) và âm sắc (12)).
Bảng 2.14 Các bộ tham số dùng trong thử nghiệm


Các đặc trưng
Mel spectrogram
pitch
tonnetz
spectral contrast
chroma
Tổng số:

Số lượng
157
1
6
7
12
183

S1
157

S2

183

157

183

2.4.2 Kết quả phân lớp và định danh Chèo và Quan họ
Nghiên cứu được tiến hành trong 2 trường hợp: Phân lớp (xác định
một làn điệu là Chèo hay Quan họ) và định danh (xác định làn điệu nào

trong Chèo hoặc Quan họ).
Bảng 4.5 là trung bình độ chính xác phân lớp Chèo và Quan họ với hai
bộ tham số S1 và S2 trên ba mơ hình CNN, LSTM và CRNN.
14


Bảng 2.18 Tổng hợp kết quả phân lớp Chèo và Quan họ với 2 bộ tham số

Đối với bộ tham số S1, mơ hình CRNN2 có trung bình tỷ lệ định danh
đúng cao nhất đạt 99,66%. Còn đối với bộ tham số S2, mơ hình CNN có
trung bình tỷ lệ định danh đúng cao nhất đạt 99,92%.
Bảng 2.19 và Bảng 2.20 là độ chính xác trung bình của việc định danh
các làn điệu Quan họ và Chèo với 3 mô hình CNN, LSTM và CRNN. Mơ
hình CNN có trung bình tỷ lệ định danh đúng cao nhất trên cả hai bộ tham
số S1 và S2.
Bảng 2.19 Tổng hợp kết quả định danh trên bộ dữ liệu Quan họ

15


Bảng 2.20 Tổng hợp kết quả định danh trên bộ dữ liệu Chèo

Với cùng một bộ dữ liệu DANCA, độ chính xác phân lớp và định danh
của 3 mơ hình CNN, LSTM và CRNN đều cao hơn so với các kết quả đạt
được trước đó khi dùng mơ hình GMM.
2.5 Kết chương 2
Chương 2 đã trình bày kết quả phân lớp và định danh một số làn điệu
Chèo và Quan họ sử dụng mạng nơ-ron sâu là CNN, LSTM và CRNN.
Kết quả phân lớp và định danh cho thấy, mạng CNN có kết quả cao hơn
so với LSTM và CRNN. Kết quả phân lớp và định danh dùng mạng nơron sâu đều cao hơn so với kết quả dùng mô hình GMM trên cùng bộ dữ

liệu.
Các kết quả nghiên cứu chính của Chương 2 đã được cơng bố trong
các bài báo số 1, 2, 3, 5 và 6 trong Danh mục các cơng trình nghiên cứu
của luận án.
III. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC
VIỆT, GTZAN VÀ FMA DÙNG HỌC SÂU
3.1. Các độ đo Accuracy, Precision, Recall và f1-score
Trình bày về các đại lượng đánh giá đã được dùng trong nghiên cứu
trên bộ dữ liệu GTZAN và FMA.
3.2. Phân lớp nhạc Việt dùng RAN
Bộ dữ liệu âm nhạc Music Classification được đưa ra tại thử thách
Zalo AI Challenge 2018. Đây là bộ dữ liệu gồm 10 thể loại nhạc Việt Nam
16


được gán nhãn từ Class 1 đến Class 10. Số lượng file trong mỗi thể loại là
không đều nhau, tổng số lượng file trong bộ dữ liệu là 867 file. Hình 3.1
là chi tiết số lượng file tương ứng với 10 thể loại nhạc.

Hình 3.1 Sớ lượng file tương ứng với mỗi thể loại trong tập dữ liệu

Để giải quyết vấn đề mất cân bằng dữ liệu, trong quá trình chuyển đổi
dữ liệu âm thanh (dạng MP3) thành ảnh phổ. Đối với mỗi lớp có ít dữ liệu
hơn, dữ liệu âm thanh sẽ được chia thành nhiều hình ảnh hơn. Ngược lại,
đối với các mẫu có nhiều lớp dữ liệu, dữ liệu âm thanh sẽ tách thành ít
hình ảnh hơn. Cuối cùng, số lượng ảnh phổ của các Class được hiển thị
trong Hình 3.2. Mỗi fold sẽ có 12.441 ảnh phổ.

Hình 3.2 Sớ lượng ảnh phổ trong tập dữ liệu huấn luyện


Trong nghiên cứu này, RAN được sử dụng để phân lớp các thể loại
nhạc trong bộ dữ liệu Zalo AI Challenge 2018 dựa trên ảnh phổ của tín
hiệu âm nhạc. Hình 3.3 là kiến trúc của RAN được đề xuất sử dụng trong
nghiên cứu phân lớp thể loại nhạc.
17


Dữ liệu huấn luyện được chia
thành 5 phần bằng nhau, sử dụng
phương pháp đánh giá chéo.
Thử nghiệm phân lớp trên tập
dữ liệu nhận dạng (test) cho độ
chính xác là 71,7%. Đây là một kết
quả cạnh tranh và đầy hứa hẹn so
với 70,1% là kết quả của đội đạt giải
nhất tại Zalo AI Challenge 2018 với
cùng bộ dữ liệu.

Input images
224x224x3

Residual Block

Convolution and
Max Pooling

Attention
Module

Residual Block


images
14x14x1024

Residual Block

Residual Block

images
7x7x2048

images
56x56x256

Residual Block

Max Pooling and
Full Connected

Attention
Module

Attention
Module

Output
1x1x10

Residual Block


images
28x28x512

3.3. Nghiên cứu phân lớp đối với
các bộ dữ liệu GTZAN và FMA
Như sẽ trình bày trong nội dung
Hình 3.3 Sơ đồ kiến trúc của RAN
dưới đây, các kết quả nghiên cứu
dùng trong nghiên cứu
phân lớp của luận án đối với các bộ
dữ liệu GTZAN và FMA_SMALL đều vượt trội so với các kết quả nghiên
cứu phân lớp khác hiện có trên thế giới (Bảng 1.5 và 1.6) với cùng hai bộ
dữ liệu này.
3.3.1 Nghiên cứu phân lớp đối với GTZAN
Trong nghiên cứu này, các
mơ hình CNN, LSTM, GRU và
CSN được sử dụng để phân lớp
các thể loại âm nhạc trong bộ dữ
liệu GTZAN. Bộ tham số sử
dụng gồm 300 hệ số phổ Mel.
Chi tiết bộ dữ liệu sử dụng được
mô tả chi tiết trong Bảng 3.9
Bảng 3.11 thể hiện trung
bình độ chính xác (%) phân lớp
và AUC của 4 mơ hình LSTM,
CNN, GRU và CSN khi thực
hiện phân lớp trên bộ dữ liệu S7.
Có thể thấy, mơ hình CSN có
trung bình tỷ lệ định danh đúng
cao nhất đạt 99,91%. Kết quả

này vượt trội so với các nghiên
cứu đã được công bố trên cùng tập dữ liệu.
18


Bảng 3.11 Trung bình độ chính xác và AUC của LSTM, CNN, GRU,
CSN trên S7
Mơ hình
LSTM
CNN
GRU
CSN
Accuracy (%)

99,66

99,87

99,87

99,91

AUC

1

1

1


1

Để xác định hiệu quả của việc tăng cường dữ liệu, mơ hình GRU đã
thực hiện MGC với các tập dữ liệu S0, S1, S2n1, S2n2, S2n3, S2u và S2d.

Hình 3.10 Độ chính xác phân loại của GRU trên những tập dữ liệu khác nhau

Hình 3.10 thể hiện độ chính xác của MGC, trong các thử nghiệm dùng
mơ hình GRU trên các tập dữ liệu S0, S1, S2n1, S2n2, S2n3, S2u và S2d.
Có thể thấy, các kỹ thuật tăng cường dữ liệu đã phát huy được hiệu quả
tích cực trong việc nâng cao tỷ lệ phân lớp.
3.3.3 Nghiên cứu phân lớp đối với Small FMA
Bộ dữ liệu dùng trong nghiên cứu được mô tả trong Bảng 3.15. Các mơ
hình sử dụng gồm CNN, GRU, DenseNet (169, 121 và 201). Dữ liệu sử dụng
được tăng cường bằng cách kết hợp nhiều phương pháp tăng cường dữ liệu
khác nhau. Kích thước file ảnh đầu vào là 230 × 230.

19


Tóm tắt về độ chính xác của các mơ hình DenseNet169, DenseNet121,
DenseNet201, CNN và GRU được mơ tả trong Hình 3.11.

Hình 3.11 Độ phân lớp chính xác của các mơ hình trên bộ dữ liệu S4fL

Như vậy, mơ hình DenseNet121 cho độ chính xác cao nhất là 98,97% với
tập dữ liệu S4fL và độ chính xác này vượt trội so với hầu hết các nghiên cứu
hiên có trên thế giới với cùng tập dữ liệu.
Để hiểu rõ hơn về tác động của việc tăng cường dữ liệu, thực nghiệm đã
được thực hiện trên ba bộ dữ liệu S1, S2 và S3e dùng mơ hình DenseNet169.

Độ chính xác MGC của mơ hình DenseNet169 theo kích thước dữ liệu tăng
cường được cho trong Hình 3.13. Có thể thấy rằng, độ chính xác của MCG
tăng lên khi kích thước dữ liệu tăng từ hai lên bốn lần.

Hình 3.13 Độ chính xác của DenseNet169 phụ thuộc vào kích thước dữ liệu

3.4 Kết chương 3
Chương 3 đã trình bày các kết quả nghiên cứu phân lớp thể loại âm nhạc trên
bộ dữ liệu nhạc Việt tại thử thách Zalo AI 2018 và hai bộ dữ liệu âm nhạc theo
thể loại nổi tiếng là GTZAN và FMA_SMALL sử dụng các mơ hình CNN,
20


LSTM, GRU, CSN, DenseNet169, DenseNet121 và DenseNet201. Kết quả phân
lớp trên bộ dữ liệu nhạc Việt cho kết quả khả quan hơn so với kết quả của đội đạt
giải nhất tại thử thách Zalo AI 2018. Trong chương cũng đã phân tích ảnh hưởng
của mỗi phương pháp tăng cường dữ liệu đến kết quả nhận dạng. Có thể nói rằng,
việc tăng cường dữ liệu đã làm tăng hiệu quả nhận dạng của mơ hình, tuy nhiên
sẽ phải trả giá bằng chi phí huấn luyện mơ hình. Các kết quả nghiên cứu phân lớp
thể loại âm nhạc trên hai bộ dữ liệu GTZAN và FMA_SMALL đều hết sức khả
quan và vượt trội hơn các kết quả của các nghiên cứu khác trên thế giới đã được
công bố trên cùng bộ dữ liệu. Độ chính xác phân lớp thể loại âm nhạc vượt trội
trong nghiên cứu của chúng tôi đối với hai bộ dữ liệu này có thể được giải thích
theo hai lý do sau đây. Trước hết là sự lựa chọn mơ hình thích hợp, trong đó cả
hai mơ hình CSN và DenseNet đều rất mạnh trong xử lý ảnh. Tiếp theo là việc
tận dụng ưu thế của các phương pháp tăng cường dữ liệu, trong đó phương pháp
chia đơi file dữ liệu âm thanh là một phương pháp hầu như chưa có nghiên cứu
nào khác sử dụng song lại rất đơn giản và hiệu quả.
Các kết quả nghiên cứu chính của Chương 3 đã được công bố trong các bài
báo số 4, 7 và 8 trong Danh mục các công trình nghiên cứu của luận án.


KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN
1. Kết luận
Luận án trình bày quá trình nghiên cứu, triển khai các thuật tốn và
mơ hình trong học máy liên quan đến dữ liệu âm nhạc và phân lớp các
thể loại âm nhạc. Nghiên cứu liên quan đến việc lấy âm nhạc đã được
gán nhãn theo thể loại, trích rút các đặc trưng liên quan đến miền thời
gian, miền tần số và phổ. Sau đó, các đặc trưng trích rút được đưa làm
đầu vào cho các mơ hình phân lớp truyền thống, các thuật tốn học máy,
các mơ hình mạng nơ-ron sâu để phát hiện thể loại âm nhạc cần nhận
dạng.
Bộ dữ liệu dùng trong nghiên cứu là một số làn điệu dân ca Việt Nam
phổ biến mà điển hình nhất là Chèo và Quan họ. Ngồi ra, các mơ hình
mạng nơ-ron cũng được thử nghiệm trên ba bộ dữ liệu âm nhạc theo thể
loại. Bộ dữ liệu thứ nhất đến từ thử thách Zalo AI 2018; Bộ dữ liệu thứ
hai có tên GTZAN và bộ dữ liệu cịn lại là FMA.
Đối với các thuật tốn học máy truyền thống: Nghiên cứu đầu tiên
được tiến hành trên 10 làn điệu Quan họ, sử dụng SMO, MultiLayer
Perceptron và MultiClass Classifier trong bộ công cụ WEKA. Kết quả
21


cao nhất thuộc về SMO (SVM) với tỷ lệ nhận dạng đúng trung bình đạt
89,0%. Kết quả nghiên cứu phân lớp và định danh một số làn điệu Chèo
và Quan họ dùng mơ hình GMM với số thành phần Gauss M (thay đổi
theo luỹ thừa của 2) trong 5 trường hợp. Các bộ công cụ ALIZE, Pratt,
Matlab được sử dụng để trích rút và kết hợp các đặc trưng gồm: Các hệ
số MFCC và các đạo hàm, tần số cơ bản F0, Tempo (BPM) và Intensity.
- Trường hợp 1: Định danh 10 làn điệu Quan họ, các đặc trưng sử
dụng gồm các hệ số MFCC + năng lượng + F0, thử nghiệm này cho thấy

vai trò của tham số F0 làm tăng kết quả nhận dạng.
- Trường hợp 2: Phân lớp và định danh được tiến hành trên bộ dữ liệu
DANCA gồm 1000 file, các đặc trưng sử dụng gồm các hệ số MFCC +
năng lượng. Trung bình kết quả phân lớp Chèo và Quan họ cao nhất đạt
93,8% với M = 4096. Trung bình kết quả định danh cao nhất đạt 85,6%
với M = 4096.
- Trường hợp thứ ba: Nghiên cứu được tiến hành với các đặc trưng
được bổ sung cùng với MFCC + năng lượng gồm: tần số cơ bản F0,
Intensity và Tempo trên bộ dữ liệu DANCA. Trung bình kết quả định
danh cao nhất (khi chưa bổ sung các tham số) đạt 96,62% và 96,72%
(sau khi bổ sung các tham số). Nghiên cứu định danh với các trích đoạn
ngắn (có độ dài thay đổi từ 4s  16s) được trích ra từ dữ liệu dùng cho
nhận dạng. Trung bình tỷ lệ nhận dạng đúng với độ dài trích đoạn là 16s
đạt 94,44% so với sử dụng tồn bộ nội dung file âm thanh để nhận dạng.
Thử nghiệm trên i-vector cũng cho kết quả nhận dạng thấp hơn so với
GMM.
Đối với các mơ hình mạng nơ-ron sâu CNN, LSTM và CRNN,
nghiên cứu phân lớp và định danh trên bộ dữ liệu DANCA với 2 bộ tham
số (157 hệ số và 183 hệ số). Trong nghiên cứu này đã sử dụng phương
pháp chia đôi các file dữ liệu âm nhạc để tăng cường dữ liệu cho bộ dữ
liệu DANCA thành 2000 file. Kết quả phân lớp và định danh với hai bộ
tham số cho thấy sự vượt trội của các mơ hình mạng nơ-ron sâu so với
GMM, cụ thể:
- Trung bình kết quả phân lớp cao nhất thuộc về mơ hình CRNN2 là
99,66% (157 hệ số) và 99,92% (183 hệ số) thuộc về mơ hình CNN, trung
22


bình tỷ lệ nhận dạng đúng thấp nhất cũng đạt 99,16% với mơ hình
CRNN1. Trong khi đó với GMM thì kết quả trong trường hợp phân lớp

cao nhất chỉ đạt 93,8%.
- Kết quả thử nghiệm định danh các làn điệu Quan họ cao nhất thuộc
về mơ hình CNN với 99,50% trên cả hai bộ tham số. Kết quả tương ứng
với GMM khi định danh cao nhất đạt 96,76% đối với Quan họ.
- Nghiên cứu phân lớp các thể loại nhạc Việt tại Zalo AI Challenge
2018 dùng RAN với các đặc trưng phổ. Trong nghiên cứu này có sử
dụng phương pháp tăng cường dữ liệu để làm cho các class có số ảnh
cân bằng nhau. Trung bình kết quả thử nghiệm cao nhất đạt 71,7%, cao
hơn so với kết quả đạt giải nhất (70,1%) tại thử thách đó.
- Nghiên cứu tiếp theo được tiến hành trên bộ dữ liệu Small FMA.
Trường hợp này có sử dụng các kỹ thuật tăng cường dữ liệu là: cộng
nhiễu trắng, tạo tiếng vọng và thay đổi cao độ. Nghiên cứu được tiến
hành trên các mô hình mạng DenseNet, CNN và GRU, các đặc trưng
được sử dụng gồm các hệ số phổ Mel. Kết quả đã đạt độ chính xác định
danh thể loại âm nhạc 98,97% khi sử dụng DenseNet121. Độ chính xác
định danh này đã vượt trội độ chính xác của tuyệt đại đa số các nghiên
cứu hiện tại trên thế giới với cùng bộ dữ liệu Small FMA.
- Cuối cùng, nghiên cứu phân lớp thể loại âm nhạc được tiến hành
trên bộ dữ liệu GTZAN với các đặc trưng phổ Mel, sử dụng CNN,
LSTM, GRU và CSN (CapNet). Trong nghiên cứu này có sử dụng
phương pháp tăng cường dữ liệu chia đôi mỗi file âm thanh. Trung bình
độ chính xác định danh thể loại âm nhạc cao nhất đạt 99,91% đối với
CSN. Độ chính xác đã đạt được này vượt trội hơn độ chính xác của tất
cả các nghiên cứu hiện có trên thế giới với cùng bộ dữ liệu GTZAN.
Tóm lại, kết quả nghiên cứu cho thấy luận án có những đóng góp khoa
học sau:
• Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân
ca phổ biến là Chèo và Quan họ.
• Đề xuất các mơ hình học máy truyền thống và học sâu để định
danh một số làn điệu Chèo và Quan họ phổ biến.


23


• Đề xuất các phương pháp tăng cường dữ liệu và mơ hình học
sâu thích hợp cho phân lớp thể loại âm nhạc nói chung.
2. Định hướng phát triển
Trong khn khổ có hạn của luận án, nội dung nghiên cứu trước hết
mới tập trung vào 25 làn điệu Chèo và 25 làn điệu Quan họ. Như đã trình
bày ở trên, số lượng làn điệu Chèo và Quan họ khá là phong phú, nhưng
chỉ có một số làn điệu là được phổ biến (có nhiều ca sĩ thể hiện) nên cần
nhiều thời gian, cơng sức để có thể sưu tầm được bộ dữ liệu đủ lớn. Từ
các kết quả nghiên cứu, luận án đề xuất một số nội dung nhằm mở rộng
hướng nghiên cứu hiện tại:



Nâng cao số lượng dữ liệu các làn điệu dân ca Chèo và Quan ho
để có bộ dữ liệu hoàn chỉnh phục vụ cho nghiên cứu về định danh
làn điệu dân ca Việt Nam thuộc hai loại hình dân ca này.



Xây dựng các bộ cơng cụ tự động tìm kiếm theo thể loại các sáng
tác âm nhạc đã được cơng bố có sẵn trên Internet.

24




×