LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Định danh tự động một số làn
điệu dân ca Việt Nam” là cơng trình nghiên cứu của cá nhân tôi. Các số liệu, kết quả
trong luận án là trung thực và chưa từng được tác giả khác công bố. Việc tham khảo
các nguồn tài liệu đã được thực hiện trích dẫn đầy đủ và ghi nguồn tài liệu tham khảo
đúng quy định.
Hà Nội, ngày 25 tháng 8 năm 2023
TÁC GIẢ LUẬN ÁN
GIÁO VIÊN HƯỚNG DẪN
PGS.TS. Trịnh Văn Loan
Chu Bá Thành
1
LỜI CẢM ƠN
Để hoàn thành Luận án này, ngoài sự nỗ lực, cố gắng của bản thân, tơi cịn nhận
được sự hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; các thầy cơ trong Khoa Kỹ thuật
máy tính - Trường Công nghệ Thông tin & Truyền thông, Đại học Bách khoa Hà Nội
và các thành viên trong gia đình. Tơi muốn bày tỏ lịng biết ơn của mình đến các thầy
cô, bạn bè và đồng nghiệp đã giúp đỡ tơi để có được kết quả này.
Trước hết, tơi xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn là PGS.TS. Trịnh
Văn Loan. Thầy đã ln tận tình giúp đỡ, chỉ bảo, đưa ra những lời khuyên bổ ích,
những định hướng khoa học và phương pháp nghiên cứu hết sức q báu để tơi có
thể triển khai và hồn thành luận án này.
Tiếp đến, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội; Trường Công nghệ
Thông tin & Truyền thơng; Khoa Kỹ thuật máy tính đã tạo điều kiện tốt nhất cho tôi
trong thời gian học tập. Tôi cũng xin chân thành cảm ơn các đồng nghiệp tại Khoa
Công nghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Hưng Yên đã hỗ trợ, giúp
đỡ và động viên tôi trong suốt thời gian học tập.
Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc đến cha mẹ, anh, chị, em và gia đình
đã ln ở bên để động viên, giúp đỡ tôi vượt qua các khó khăn, trở ngại để hồn thành
q trình học tập của mình.
Xin trân trọng cảm ơn!
2
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................ 6
DANH MỤC CÁC BẢNG ......................................................................................... 7
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ................................................................. 9
MỞ ĐẦU .................................................................................................................. 12
Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂ
LOẠI ......................................................................................................................... 16
1.1 Âm thanh, âm nhạc ................................................................................................. 16
1.1.1 Khái niệm âm thanh, âm nhạc................................................................... 16
1.1.2 Một số yếu tố cơ bản của âm nhạc ............................................................ 17
1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc................................................... 18
1.2.1 Đặc trưng thống kê.................................................................................... 18
1.2.2 Đặc trưng trong miền thời gian ................................................................. 19
1.2.3 Đặc trưng phổ............................................................................................ 22
1.3 Một số thể loại âm nhạc phổ biến trên thế giới ..................................................... 25
1.4 Đôi nét về nhạc dân ca Việt Nam........................................................................... 26
1.4.1 Đặc điểm âm nhạc, lời ca trong Chèo ....................................................... 27
1.4.2 Đặc điểm âm nhạc, lời ca trong Quan họ.................................................. 28
1.4.3 Đặc điểm kỹ thuật hát Chèo và Quan họ .................................................. 30
1.5 Phân lớp âm nhạc theo thể loại............................................................................... 34
1.6 Một số bộ dữ liệu âm nhạc theo thể loại điển hình ............................................... 35
1.7 Một số mơ hình dùng trong phân lớp thể loại âm nhạc ........................................ 35
1.7.1 Bộ phân lớp SVM (Support Vector Machine) .......................................... 35
1.7.2 Bộ phân lớp GMM (Gaussian Mixture Model) ........................................ 36
1.7.3 Mạng nơ-ron nhân tạo (Artificial Neural Network) ................................. 38
1.8 Một số kết quả nghiên cứu phân lớp thể loại âm nhạc trong và ngoài nước ....... 48
1.8.1 Tình hình nghiên cứu ngồi nước ............................................................. 48
1.8.2 Tình hình nghiên cứu trong nước ............................................................. 54
1.9 Kết chương 1 ........................................................................................................... 55
3
Chương 2. ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM ................. 56
2.1 Bộ dữ liệu âm nhạc Chèo và Quan họ ................................................................... 56
2.2 Một số phương pháp tăng cường dữ liệu ............................................................... 58
2.2.1 Chia đôi các file dữ liệu âm nhạc.............................................................. 59
2.2.2 Tạo tiếng vọng (creating echo) ................................................................. 59
2.2.3 Cộng nhiễu trắng (adding white noise) ..................................................... 59
2.2.4 Thay đổi cao độ (changing pitch) ............................................................. 60
2.3 Phân lớp, định danh một số làn điệu dân ca Việt Nam dùng một số thuật toán học
máy truyền thống ........................................................................................................... 61
2.3.1 Trường hợp 1: Định danh một số làn điệu Quan họ dùng một số mơ hình
truyền thống thuộc bộ cơng cụ WEKA .............................................................. 61
2.3.2 Trường hợp 2: Định danh một số làn điệu Quan họ dùng GMM ............. 64
2.3.3 Trường hợp 3: Phân lớp, định danh Chèo và Quan họ ............................. 66
2.3.4 Trường hợp 4: Phân lớp Chèo và Quan họ ............................................... 69
2.3.5 Trường hợp 5: Định danh Chèo hoặc Quan họ ......................................... 72
2.3.6 Trường hợp 6: Định danh Chèo và Quan họ dùng i-vector ...................... 75
2.4 Phân lớp và định danh một số làn điệu dân ca Việt Nam dùng học sâu .............. 77
2.4.1 Bộ dữ liệu và tham số sử dụng.................................................................. 77
2.4.2 Các mạng nơ-ron sâu dùng trong nghiên cứu ........................................... 78
2.4.3 Kết quả nghiên cứu phân lớp và định danh .............................................. 84
2.5 Kết chương 2 ........................................................................................................... 88
Chương 3. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT,
GTZAN VÀ FMA DÙNG HỌC SÂU ..................................................................... 89
3.1 Các độ đo Accuracy, Precision, Recall và f1-score .............................................. 89
3.2 Phân lớp nhạc Việt dùng RAN (Residual Attention Network) ............................ 90
3.3 Nghiên cứu phân lớp thể loại âm nhạc đối với các bộ dữ liệu GTZAN và
FMA_SMALL ............................................................................................................... 93
3.3.1 Nghiên cứu phân lớp đối với GTZAN ...................................................... 93
3.3.3 Nghiên cứu phân lớp đối với FMA_SMALL ......................................... 102
3.4 Kết chương 3 ......................................................................................................... 108
4
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN .................................................. 110
1. Kết luận ........................................................................................................ 110
2. Định hướng phát triển .................................................................................. 111
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN ................. 113
TÀI LIỆU THAM KHẢO ...................................................................................... 114
5
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt
Chữ viết đầy đủ
Ý nghĩa
Mạng nơ-ron nhân tạo
ANN
Artificial Neural Network
CNN
Convolutional Neural Networks Mạng nơ-ron lấy chập
CRNN
Convolutional Recurrent Neural
Mạng nơ-ron hồi quy lấy chập
Networks
Capsule Neural Networks
Mạng nơ-ron viên nang
Deep Convolutional Neural
Networks
Mạng nơ-ron lấy chập sâu
ELU
Exponential Linear Unit
Đơn vị kích hoạt tuyến tính và
hàm mũ
GMM
Gaussian Mixture Model
Mơ hình hỗn hợp Gauss
k-NN
k- Nearest Neighbor
Bộ phân lớp k- láng giềng gần
nhất
MFCC
Mel Frequency Cepstral
Coefficients
Các hệ số Cepstrum theo thang
tần số Mel
MGC
Music Genre Classification
Phân lớp thể loại âm nhạc
MIR
Music Information Retrieval
Truy xuất thông tin âm nhạc
ReLU
Rectified Linear Unit
Đơn vị chỉnh lưu tuyến tính
SMO
Sequential Minimal
Optimization
Thuật tốn tối ưu hóa tối thiểu
tuần tự
SVM
Support Vector Machine
Máy vector hỗ trợ
UBM
Universal Background Model
Mơ hình nền phổ qt
DFT
Discrete Fourier Transforms
Biến đổi Fourier rời rạc
MSE
Mean Square for Error
Trung bình bình phương lỗi
EM
Expectation Maximization
Cực đại hóa kỳ vọng
ML
Maximum-Likelihood
Cực đại khả hiện
CSN
DCNN
6
DANH MỤC CÁC BẢNG
Bảng 1.1 So sánh giữa các kỹ thuật hát Chèo và hát Quan họ (nguồn: [77]) .......... 30
Bảng 1.2 Một số bộ dữ liệu âm nhạc điển hình theo thể loại ................................... 35
Bảng 1.3 Một số hàm kích hoạt thường dùng (nguồn: [89]) .................................... 39
Bảng 1.4 Thời gian và địa điểm tổ chức ISMIR hàng năm (nguồn: [38]) ............... 49
Bảng 1.5 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên GTZAN .......... 50
Bảng 1.6 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên FMA_SMALL 52
Bảng 2.1 Ký hiệu các làn điệu Chèo và Quan họ dùng cho bộ dữ liệu .................... 57
Bảng 2.2 Các trường hợp phân lớp và định danh ..................................................... 61
Bảng 2.3 Tỷ lệ (%) định danh đúng dùng SMO ....................................................... 62
Bảng 2.4 Tỷ lệ (%) định danh đúng dùng MultiLayer Perceptron ........................... 63
Bảng 2.5 Tỷ lệ (%) định danh đúng dùng MultiClass Classifier ............................. 63
Bảng 2.6 Tổng hợp kết quả định danh...................................................................... 63
Bảng 2.7 Ma trận nhầm lẫn với M = 16 trên 2 bộ tham số ...................................... 64
Bảng 2.8 Ma trận nhầm lẫn với M = 8192 trên 2 bộ tham số .................................. 65
Bảng 2.9 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 16.................. 67
Bảng 2.10 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 16 .......... 67
Bảng 2.11 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 4096............ 68
Bảng 2.12 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 4096 ...... 68
Bảng 2.13 Các bộ tham số sử dụng .......................................................................... 70
Bảng 2.14 Các bộ tham số dùng trong nghiên cứu................................................... 78
Bảng 2.15 Các tham số của CNN dùng trong trường hợp phân lớp ........................ 79
Bảng 2.16a Các tham số của LSTM-1 dùng trong định danh .................................. 80
Bảng 2.16b Các tham số của LSTM-2 dùng trong định danh .................................. 81
Bảng 2.17a Các tham số của CRNN-1 dùng trong phân lớp.................................... 83
Bảng 2.17b Các tham số của CRNN-2 dùng trong định danh ................................. 83
Bảng 2.18 Tổng hợp kết quả phân lớp Chèo và Quan họ với 2 bộ tham số............. 85
Bảng 2.19 Tổng hợp kết quả định danh trên bộ dữ liệu Quan họ ............................ 85
Bảng 2.20 Tổng hợp kết quả định danh trên bộ dữ liệu Chèo.................................. 86
Bảng 2.21 Chênh lệch về tỷ lệ định danh đúng của CNN so với 2 mơ hình cịn lại 87
Bảng 3.1 Độ chính xác của phân loại ảnh phổ trên tập xác thực ............................. 92
Bảng 3.2 Độ chính xác của tập xác thực cho mỗi lần huấn luyện với fold_ext ....... 92
Bảng 3.3 Độ chính xác của tập xác thực trên ảnh phổ và trên file âm thanh ........... 93
Bảng 3.4 Số lượng từng thể loại nhạc trong bộ dữ liệu GTZAN [24] ..................... 94
Bảng 3.5 Cấu hình của CNN với 300 tham số ......................................................... 94
7
Bảng 3.6 Cấu hình của LSTM với 300 tham số ....................................................... 95
Bảng 3.7 Cấu hình của GRU với 300 tham số ......................................................... 95
Bảng 3.8 Cấu hình của CSN với 300 tham số .......................................................... 96
Bảng 3.9 Mô tả các bộ dữ liệu được sử dụng trong nghiên cứu .............................. 96
Bảng 3.10: Kết quả phân lớp trên tập dữ liệu S2n1 ................................................. 97
Bảng 3.11 Trung bình độ chính xác, AUC của LSTM, CNN, GRU, CSN trên S7 100
Bảng 3.12: Kết quả phân lớp trên tập dữ liệu S8 và S9 ......................................... 100
Bảng 3.13: Kết quả phân lớp trên tập dữ liệu S0, S1, S2n2, S2n3 ......................... 101
Bảng 3.14: Kết quả phân lớp trên tập dữ liệu S2n2 và S2n3 dùng GRU ............... 101
Bảng 3.15 Diễn giải các bộ dữ liệu sử dụng........................................................... 103
Bảng 3.16: Kết quả phân lớp trên tập dữ liệu S4fH và S4fL dùng DensetNet169 104
Bảng 3.17: Kết quả phân lớp trên tập dữ liệu S4fL ................................................ 104
Bảng 3.18: Kết quả phân lớp trên tập dữ liệu S3e, S2 và S1 ................................. 106
Bảng 3.19: Kết quả phân lớp trên tập dữ liệu S3s, S5s và S5t ............................... 107
Bảng 3.20 Thời gian trung bình để huấn luyện một epoch và thời gian để hàm tổn thất
hội tụ ....................................................................................................................... 108
8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Minh hoạ phân phối Skewness ................................................................. 19
Hình 1.2 Minh hoạ phân bố Kurtosis ....................................................................... 19
Hình 1.3 Năng lượng và RMS của một làn điệu Chèo ............................................ 20
Hình 1.4 ZCR của một làn điệu Chèo ...................................................................... 20
Hình 1.5 Các bước tính các hệ số MFCC ................................................................ 21
Hình 1.6 Các hệ số MFCC và các đạo hàm MFCC của một làn điệu Chèo ............ 22
Hình 1.7 Spectral Centroid của một làn điệu Chèo và Quan họ .............................. 22
Hình 1.8 Spectral Contrast của một làn điệu Quan họ và Chèo .............................. 23
Hình 1.9 Spectral Rolloff của một làn điệu Chèo và Quan họ ................................ 23
Hình 1.10 Spectral Bandwidth của một làn điệu Chèo và Quan họ ........................ 24
Hình 1.11 Spectral Flux của một làn điệu Quan họ ................................................. 24
Hình 1.12 Sơ đồ chung cho hệ thống phân lớp thể loại âm nhạc (nguồn: [22]) ...... 34
Hình 1.13 Hình ảnh dữ liệu, đường biên và lề trong SVM ..................................... 36
Hình 1.14 Phân bố Gauss với một số giá trị của 𝜇 và 𝜎 .......................................... 36
Hình 1.15 Phân bố Gauss đa thể hiện là tổ hợp của 3 phân bố Gauss đơn thể hiện 37
Hình 1.16a Cấu trúc của một nơ-ron sinh học (nguồn: [88]) .................................. 38
Hình 1.16b Cấu trúc của một nơ-ron nhân tạo ........................................................ 38
Hình 1.17 Minh hoạ cách lấy chập khi áp bộ lọc lên ma trận đầu vào .................... 41
Hình 1.18 Minh hoạ thao tác pooling sử dụng max-pooling ................................... 42
Hình 1.19 Gated Recurrent Unit (nguồn: [103]) ..................................................... 43
Hình 1.20 Sơ đồ của Residual Block với hàm ReLU .............................................. 44
Hình 1.21 Attention module là sự kết hợp của Soft mask branch và Trunk branch 44
Hình 1.22 Soft mask branch sử dụng trong Attention module ................................ 45
Hình 1.23 Kiến trúc DenseNet với 3 khối Dense .................................................... 46
Hình 1.24 Mạng CSN gồm M capsule ở mức cao và N capsule ở mức thấp .......... 47
Hình 1.25 Dạng sóng và phổ Mel tương ứng cho một trích đoạn của file
blues.00011.wav của thể loại nhạc Blue. ................................................................. 48
Hình 1.26 Thống kê số lượng bài báo có trích dẫn đến [24] ................................... 50
Hình 2.1 Minh họa việc chia một file âm thanh thành hai nửa cùng thể loại và phổ
Mel tương ứng .......................................................................................................... 59
Hình 2.2 Tiếng vọng được quan sát ở phần cuối của file âm thanh ........................ 59
Hình 2.3 Cách tính SNR của một file và giá trị trung bình của SNR ...................... 60
Hình 2.4 Minh hoạ việc dịch chuyển cao độ lên nửa cung và một cung ................. 60
Hình 2.5 Kết quả định danh dùng GMM với số thành phần Gauss M = 16 8192 65
9
Hình 2.6 Tỷ lệ nhận dạng đúng trong phân lớp sơ bộ ............................................. 66
Hình 2.7 Tổng hợp kết quả phân lớp chi tiết với M = 16 4096 ............................ 69
Hình 2.8 Sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu ....................... 70
Hình 2.9 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Quan họ............ 70
Hình 2.10 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Quan họ 71
Hình 2.11 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Chèo ............... 71
Hình 2.12 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Chèo ...... 72
Hình 2.13 Sơ đồ định danh Chèo và Quan họ dựa trên trích đoạn ngắn ................. 72
Hình 2.14 Tỷ lệ định danh đúng của các trích đoạn Chèo ứng với 3 giá trị của M. 73
Hình 2.15 Tỷ lệ định danh đúng của các trích đoạn Quan họ với 3 giá trị của M... 75
Hình 2.16 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử
dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Chèo ................... 76
Hình 2.17 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử
dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Quan họ .............. 76
Hình 2.18 Cấu hình của mơ hình CNN với 157 tham số dùng trong định danh ..... 80
Hình 2.19 Cấu hình của LSTM với 183 tham số dùng trong định danh ................. 81
Hình 2.20 Cấu hình của CRNN với 157 tham số dùng trong định danh ................. 82
Hình 2.21 Phân chia dữ liệu dùng cho huấn luyện, xác thực và nhận dạng ............ 84
Hình 2.22 Tổn thất của độ chính xác huấn luyện, xác thực trong phân lớp và định
danh biến thiên theo epoch ....................................................................................... 87
Hình 3.1 Số lượng file tương ứng với mỗi thể loại trong bộ dữ liệu ....................... 90
Hình 3.2 Số lượng ảnh phổ trong tập dữ liệu huấn luyện ........................................ 91
Hình 3.3 Kiến trúc của RAN dùng trong phân lớp thể loại nhạc Việt .................... 91
Hình 3.4 Trung bình độ chính xác phân lớp của các mơ hình LSTM, CNN, GRU và
CSN trên bộ dữ liệu S2n1 ......................................................................................... 98
Hình 3.5 Mơ hình LSTM: Trung bình cực đại và cực tiểu của Precision, Recall và
f1-score của 10 thể loại nhạc trong tập dữ liệu S7 ................................................... 98
Hình 3.6 Mơ hình CNN: Trung bình cực đại và cực tiểu của Precision, Recall và f1score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99
Hình 3.7 Mơ hình GRU: Trung bình cực đại và cực tiểu của Precision, Recall và f1score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99
Hình 3.8 Mơ hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99
Hình 3.9 So sánh độ chính xác phân lớp của LSTM, CNN, GRU và CSN trên bộ dữ
liệu S7; GRU và CSN trên bộ dữ liệu S8 và S9. .................................................... 101
Hình 3.10 Độ chính xác phân lớp của GRU trên những tập dữ liệu khác nhau .... 102
10
Hình 3.11 Tóm tắt về độ phân lớp chính xác của các mơ hình trên bộ dữ liệu S4fL
................................................................................................................................ 105
Hình 3.12 Tổn thất của các độ chính xác huấn luyện và xác thực biến thiên theo
epoch; ma trận nhầm lẫn và đường cong ROC ...................................................... 105
Hình 3.13 Độ chính xác của DenseNet169 phụ thuộc vào kích thước dữ liệu ...... 106
11
MỞ ĐẦU
1. Lý do chọn đề tài
Âm nhạc là một trong những món ăn tinh thần khơng thể thiếu trong đời sống của
mỗi con người. Con người thường nghe nhạc để giải toả cảm xúc, tạo cảm giác thoải
mái, thư giãn và tìm lại cân bằng trong cuộc sống hàng ngày.
Trước đây, các tác phẩm âm nhạc thường được phân phối đến người dùng dưới
dạng các đĩa CD/DVD, băng từ… thông qua các cửa hàng băng đĩa nhạc. Mỗi album
như vậy thường chứa từ 10 đến 15 bài hát thường của cùng một ca sĩ hay nghệ sĩ.
Ngày nay, cùng với sự bùng nổ của Internet băng thông rộng, các đĩa CD/DVD và
băng từ đã trở nên khơng cịn phổ biến và dần được thay thế bằng các cơ sở dữ liệu
(CSDL) nhạc số. Mỗi cá nhân hiện nay có thể sở hữu hàng nghìn bản nhạc số và họ
có thể tự xây dựng thư viện âm nhạc theo sở thích cho riêng mình để thưởng thức và
có thể chia sẻ chúng đến với cộng đồng.
Các nghiên cứu liên quan đến khai phá dữ liệu âm nhạc rất đa dạng và đã được
thực hiện từ rất lâu, theo nhiều hướng khác nhau như: Phân lớp âm nhạc theo thể loại
(MGC - Music Genre Classification), định danh nghệ sĩ/ca sĩ, phát hiện cảm xúc/tâm
trạng, nhận biết nhạc cụ… Tuy nhiên, với số lượng các tác phẩm âm nhạc được số
hoá ngày càng nhiều đã gây ra khơng ít khó khăn cho người yêu nhạc (thậm chí ngay
cả các chuyên gia) trong việc tổ chức các CSDL nhạc số khổng lồ. Việc tìm kiếm các
phương pháp mới để khám phá, giới thiệu và quảng bá âm nhạc cũng đặt ra cho ngành
công nghiệp nhạc số và các nhóm nghiên cứu những thách thức khơng hề nhỏ.
Năm 2003, trong luận văn của mình, Heittola [1] đã đề xuất phương pháp hữu dụng
nhất để quản lý các CSDL nhạc số khổng lồ bằng cách phân lớp âm nhạc theo thể
loại. Tuy nhiên, việc xác định một thể loại âm nhạc cụ thể vẫn còn là một vấn đề rất
khó, vì ranh giới giữa các thể loại âm nhạc thường không rõ ràng. Một bản nhạc có
thể kết hợp các yếu tố từ nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó
khăn. Mặt khác, một thể loại âm nhạc có thể chứa nhiều phong cách, biến thể, hoặc
ảnh hưởng từ văn hóa khác nhau, dẫn đến sự đa dạng trong cách biểu đạt và âm thanh.
Do đó, việc đưa ra khái niệm về thể loại còn chưa rõ ràng, phụ thuộc nhiều vào cảm
tính và nhận thức của con người [2].
Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời nên dân ca Việt Nam
hết sức đa dạng và phong phú. Dân ca của mỗi dân tộc, mỗi vùng miền lại mang màu
sắc, bản sắc văn hố riêng. Ở Bắc Bộ có Quan họ Bắc Ninh, hát Chèo, hát Xoan, hát
Ví, hát Trống qn, hát Dơ, …; ở Trung Bộ có hát Ví dặm, Hị Huế, Lý Huế, hát Sắc
bùa, …; ở Nam Bộ có các điệu Lý, điệu Hị, nói thơ, …; ở miền núi phía Bắc có dân
ca của đồng bào Thái, H' Mơng, Mường, …; vùng Tây Nguyên có dân ca của các dân
tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng… Dân ca là kho tàng văn hố vơ cùng rộng lớn,
rất đa dạng và phong phú của dân tộc Việt Nam.
Từ những lý do nêu trên, tác giả đã lựa chọn đề tài nghiên cứu của luận án “Định
danh tự động một số làn điệu dân ca Việt Nam” nhằm tìm hiểu sâu hơn về kho tàng
12
dân ca Việt Nam, đặc biệt là nghiên cứu đề xuất các mơ hình hiệu quả trong định
danh tự động một số làn điệu dân ca Việt Nam, góp phần bảo tồn và đưa dân ca Việt
Nam ngày càng trở nên phổ biến hơn.
2. Mục tiêu nghiên cứu của luận án
Mục tiêu chính của Luận án là nghiên cứu định danh tự động một số làn điệu dân
ca Việt Nam dựa trên phương diện xử lý tín hiệu dùng học máy và học sâu. Luận án
tập trung nghiên cứu một số mơ hình và đề xuất mơ hình phù hợp dùng cho định danh
tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu
phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại
âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng
tổng quát hoá của mơ hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương
pháp tăng cường dữ liệu đến độ chính xác của mơ hình.
3. Nhiệm vụ nghiên cứu của luận án
Để đạt được những mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính
sau đây:
• Nghiên cứu quy trình, phương pháp luận xây dựng bộ dữ liệu dân ca dùng cho
nghiên cứu.
• Nghiên cứu các đặc trưng trong tín hiệu âm nhạc thường được sử dụng để xác
định thể loại âm nhạc.
• Nghiên cứu tổng quan về các phương pháp và các thuật toán phân lớp âm nhạc
theo thể loại.
• Nghiên cứu các mơ hình thường dùng để phân lớp thể loại âm nhạc như SVM,
GMM, DNN …
• Thực hiện định danh tự động một số làn điệu dân ca Việt Nam phổ biến (Chèo,
Quan họ) và đưa ra các phân tích, nhận xét, đánh giá về kết quả đạt được.
• Thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu âm nhạc theo thể loại
là GTZAN và FMA_SMALL, phân tích các kết quả và đưa ra các kết luận về
mơ hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường
dữ liệu đã thực hiện.
4. Đối tượng và phạm vi nghiên cứu của luận án
Mỗi một vùng miền, mỗi một dân tộc trên đất nước Việt Nam lại có những thể loại
dân ca khác nhau. Đối tượng nghiên cứu của luận án là định danh tự động một số làn
điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu, học máy và học sâu, từ đó
đề xuất mơ hình phù hợp cho nhiệm vụ này. Trong khn khổ có hạn của luận án,
việc nghiên cứu sẽ chỉ tập trung vào định danh tự động các làn điệu dân ca phổ biến
của Chèo và Quan họ.
5. Ý nghĩa khoa học và thực tiễn của luận án
• Về mặt lý thuyết, luận án sẽ góp phần làm sáng tỏ các mơ hình phân lớp âm
nhạc theo thể loại và áp dụng cho định danh các làn điệu dân ca Việt Nam phổ
13
biến là Chèo và Quan họ, đồng thời tạo tiền đề cho các nghiên cứu tiếp theo
trong lĩnh vực này.
• Kết quả nghiên cứu của luận án có nhiều đóng góp trong thực tiễn, có thể kể
đến như:
o Trong lịch sử và văn hoá: Định danh làn điệu dân ca góp phần ghi nhận và
lưu giữ di sản văn hóa của dân tộc; phản ánh lịch sử phát triển, sinh hoạt và
tinh thần của một cộng đồng; đồng thời cũng giúp tìm hiểu về sự đa dạng văn
hóa, sự kết nối giữa các dân tộc và sự tương tác giữa con người với tự nhiên.
o Trong giáo dục: Việc định danh và nghiên cứu về làn điệu dân ca góp phần
giới thiệu văn hóa dân gian cho các thế hệ trẻ, giúp họ có thêm hiểu biết và
tự hào về di sản văn hóa của tổ tiên. Đồng thời, việc dạy học và truyền bá các
làn điệu dân ca cũng góp phần giáo dục đạo lý, tình u q hương đất nước
và bồi dưỡng nhân cách cho con người.
o Trong nghệ thuật: Làn điệu dân ca là nguồn gốc của nhiều loại hình nghệ
thuật như âm nhạc, múa, kịch... Việc định danh và nghiên cứu về làn điệu
dân ca góp phần phát triển, bảo tồn và tiếp nối các loại hình nghệ thuật dân
gian, từ đó đóng góp vào sự phong phú, đa dạng của nền văn hóa.
o Trong cơng nghệ liên quan đến âm nhạc:
▪ Đối với hệ thống quản lý âm nhạc: Hỗ trợ các hệ thống quản lý âm nhạc
có thể tự động phân lớp và đưa các bài hát vào các danh mục tương ứng,
giúp cho việc quản lý và tìm kiếm âm nhạc trở nên dễ dàng hơn.
▪ Đối với người nghe nhạc: Giúp người nghe nhạc có thể dễ dàng tìm kiếm
và lựa chọn được những ca khúc phù hợp với sở thích hoặc tâm trạng.
o Trong nghiên cứu: Làm tiền đề cho các nghiên cứu tiếp theo về khai phá dữ
liệu âm nhạc, đặc biệt là kho tàng âm nhạc dân ca Việt Nam.
6. Phương pháp nghiên cứu
Phương pháp nghiên cứu thực hiện trong luận án là nghiên cứu lý thuyết kết hợp
với thực nghiệm.
• Về mặt lý thuyết, luận án sẽ nghiên cứu lý thuyết chung về các mơ hình phân
lớp âm nhạc theo thể loại, đề xuất các mơ hình định danh các làn điệu dân ca
Việt Nam phổ biến.
• Về mặt thực nghiệm, sử dụng các mơ hình phân lớp đã được đề xuất để định
danh tự động các làn điệu dân ca phổ biến của Việt Nam là Chèo và Quan họ,
từ đó nhận xét, đánh giá kết quả đạt được để xác nhận giá trị của các mô hình
đã đề xuất.
7. Kết quả mới của luận án
Kết quả nghiên cứu mới của luận án có thể được tóm tắt tập trung vào các điểm
chính sau:
• Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân ca phổ biến là
Chèo và Quan họ dùng cho nghiên cứu định danh các làn điệu dân ca thuộc bộ
dữ liệu này.
14
• Đề xuất các mơ hình học máy truyền thống và học sâu để định danh một số làn
điệu Chèo và Quan họ phổ biến.
• Đề xuất các phương pháp tăng cường dữ liệu và mơ hình học sâu thích hợp cho
phân lớp thể loại âm nhạc nói chung.
8. Cấu trúc của luận án
Luận án được trình bày trong 3 chương với nội dung tóm tắt như sau:
Chương 1: Tổng quan về âm nhạc và phân lớp âm nhạc theo thể loại. Chương này
trình bày một số khái niệm liên quan đến âm thanh, âm nhạc; một số yếu tố cơ bản
và một số đặc trưng được trích chọn từ tín hiệu âm nhạc; một số thể loại nhạc phổ
biến trên thế giới và đôi nét về nhạc dân ca Việt Nam (Chèo và Quan họ); khái niệm
thể loại âm nhạc và sơ đồ hệ thống phân lớp âm nhạc theo thể loại; một số bộ dữ liệu
âm nhạc theo thể loại điển hình; một số mơ hình thường dùng trong phân lớp thể loại
âm nhạc; tình hình nghiên cứu về phân lớp âm nhạc theo thể loại ở trong và ngoài
nước cũng được đề cập trong Chương 1.
Chương 2: Định danh một số làn điệu dân ca Việt Nam. Đầu tiên, phần giới thiệu
về việc thu thập dữ liệu nhạc dân ca, phương pháp xử lý dữ liệu để xây dựng bộ dữ
liệu nhạc dân ca. Một số phương pháp tăng cường dữ liệu âm nhạc như: chia đôi các
file dữ liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng và thay đổi cao độ cũng được
đề cập trong Chương này. Bộ tham số dùng cho phân lớp và định danh bao gồm các
hệ số MFCC, năng lượng, tần số cơ bản F0 và các biến thể của F0, phổ Mel, pitch,
tonnetz, spectral và chroma. Tiếp theo, chương này trình bày kết quả phân lớp, định
danh một số làn điệu dân ca Chèo và Quan họ dùng một số thuật toán học máy truyền
thống như SVM, GMM và các mơ hình học sâu như mạng CNN, LSTM, CRNN...
Chương 3: Trình bày một số kết quả nghiên cứu phân lớp thể loại âm nhạc trên bộ
dữ liệu nhạc Việt (Zalo AI Challenge 2018), GTZAN và FMA_SMALL sử dụng học
sâu như RAN, LSTM, CNN, GRU, CSN, và DenseNet. Việc phân tích, đánh giá ảnh
hưởng của các phương pháp tăng cường dữ liệu đến kết quả phân lớp cũng được trình
bày trong Chương 3.
Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, những
đóng góp mới và hướng mở rộng nghiên cứu phát triển của luận án.
15
Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP
ÂM NHẠC THEO THỂ LOẠI
Âm nhạc là món ăn tinh thần không thể thiếu trong đời sống của mỗi con người.
Âm nhạc làm cho cuộc sống trở nên tươi đẹp hơn và làm cho tâm hồn con người trở
nên thư thái hơn sau những bộn bề của công việc. Với thư viện nhạc số có số lượng
các tác phẩm âm nhạc rất lớn và liên tục được bổ sung như hiện nay, việc tìm kiếm
và truy xuất một thể loại nhạc theo yêu cầu thực sự là một thách thức lớn. Trong
trường hợp này, phân lớp âm nhạc theo thể loại tỏ ra hiệu quả hơn cả. Tuy nhiên, việc
phân lớp thể loại âm nhạc nếu thực hiện thủ công sẽ vơ cùng khó khăn do khối lượng
cơng việc lớn và bị chi phối bởi các yếu tố mang tính chủ quan, phụ thuộc nhiều vào
kiến thức và kinh nghiệm của người thực hiện phân loại. Chương này trình bày tổng
quan về một số khái niệm liên quan đến âm thanh, âm nhạc; khái niệm và đặc điểm
một số thể loại nhạc phổ biến trên thế giới; đôi nét về nhạc dân ca Việt Nam là Chèo
và Quan họ; một số bộ dữ liệu âm nhạc theo thể loại điển hình; tình hình nghiên cứu
phân lớp âm nhạc theo thể loại ở trong nước và trên thế giới.
1.1 Âm thanh, âm nhạc
1.1.1 Khái niệm âm thanh, âm nhạc
Âm thanh được tạo ra bởi sự dao động của một vật thể đàn hồi nào đó. Vật thể đàn
hồi dao động sẽ tạo ra các sóng âm. Những sóng âm này lan truyền trong không gian
đến tai người nghe làm cho màng nhĩ cũng dao động cùng với tần số của sóng âm đó.
Các rung động từ màng nhĩ được truyền qua hệ thần kinh đến não bộ tạo nên cảm
giác về âm thanh.
Con người có thể nghe được một số lượng lớn các loại âm thanh khác nhau, nhưng
không phải mọi âm thanh đều được dùng trong âm nhạc. Hệ thống thính giác của con
người có khả năng phân biệt được những âm thanh có tính nhạc và những âm thanh
khơng có tính nhạc. Âm thanh mà con người cảm thụ được có các tần số được xác
định và có cao độ biến thiên theo quy luật nào đó như: tiếng hát, tiếng đàn, tiếng
sáo… là những âm thanh có tính nhạc (âm nhạc). Những âm thanh như tiếng nói
chuyện, tiếng ồn, tiếng động cơ, tiếng đập gõ, tiếng sấm chớp, gió thổi… được gọi là
tiếng nói, tiếng động hoặc tạp âm [3].
Âm nhạc được hình thành trên cơ sở những âm thanh đã được chọn lọc với những
thuộc tính riêng, đáp ứng được yêu cầu về sự diễn tả và sự hoà hợp của âm nhạc. Âm
nhạc được xác định bởi 4 thuộc tính là cao độ (pitch), trường độ (duration), cường độ
(loudness/strength of tone) và âm sắc (tone colour/timbre) [3].
- Cao độ [3]: Là độ cao hay thấp của âm thanh, phụ thuộc vào tần số dao động của
vật thể rung. Dao động càng nhanh thì tần số càng cao và ngược lại. Tai người có khả
năng phân biệt tốt những âm thanh có cao độ trong khoảng từ 27,5Hz 4.186Hz.
16
- Trường độ (độ dài) [3]: Là độ dài/ngắn của âm thanh, phụ thuộc vào thời hạn của
nguồn phát âm. Thông thường, tầm cữ dao động lúc bắt đầu của âm thanh càng rộng
thì thời gian tắt dần của âm thanh càng dài. Trường độ tham gia đóng vai trị quyết
định một âm thanh nào đó có phải là âm nhạc hay không.
- Cường độ (độ mạnh) [3]: Là độ vang to hay nhỏ của âm thanh, phụ thuộc vào
tầm cữ dao động của nguồn phát âm. Phạm vi trong đó diễn ra các dao động được gọi
là biên độ dao động. Biên độ dao động càng rộng thì âm thanh càng to và ngược lại.
Đơn vị để đo cường độ âm thanh là Decibel (ký hiệu là dB).
- Âm sắc [3]: Đề cập đến khía cạnh chất lượng hay sắc thái của âm thanh. Để xác
định đặc điểm của âm sắc, cần phải sử dụng những tính từ thuộc các lĩnh vực cảm
giác khác nhau. Mỗi nhạc cụ hoặc mỗi giọng hát đều chứa đựng một âm sắc riêng.
Một âm thanh có cùng một cao độ nhất định, nhưng do các loại nhạc cụ hay giọng
hát khác nhau phát ra thì mỗi nhạc cụ hay mỗi giọng hát đó lại có một sắc thái riêng.
1.1.2 Một số yếu tố cơ bản của âm nhạc
Mỗi yếu tố của âm nhạc giống như một thành phần trong công thức để nấu một
món ăn. Các ngun liệu được hồ quyện với nhau theo một tỷ lệ nhất định sẽ tạo
nên hương vị tổng thể cho một món ăn. Người nhạc sĩ hay các nhà soạn nhạc thường
sử dụng các yếu tố âm nhạc để tạo “hương vị” cho các tác phẩm âm nhạc sao cho phù
hợp với sở thích và phong cách cá nhân của họ. Các yếu tố âm nhạc giúp phân biệt
một bản nhạc với những âm thanh khác. Một số yếu tố cơ bản của âm nhạc có thể kể
đến như:
• Dynamic (độ mạnh/nhẹ) [4]: Được coi là linh hồn của âm nhạc, liên quan đến
cường độ của âm thanh. Trong một bài hát, dynamic là sự biến động của âm
lượng do sắc thái chơi hoặc hát mạnh nhẹ, trầm bổng khác nhau tại các đoạn
khác nhau của các nhạc cụ hoặc giọng hát.
• Form (hình thức) [4]: Việc hiểu về form rất quan trọng trong sáng tác nhạc,
giúp người nhạc sĩ thấy được bức tranh tổng thể của một tác phẩm âm nhạc như:
nhạc dạo, lời nhạc (đoạn 1, đoạn 2), điệp khúc, gian tấu...
• Melody (giai điệu) [4]: Là một dãy các nốt nhạc được sắp xếp theo một trật tự
nhất định dựa trên cao độ và nhịp. Mỗi thể loại âm nhạc sử dụng giai điệu theo
một cách khác nhau.
• Harmony (hồ âm) [4]: Hai hay nhiều nốt nhạc được vang lên cùng lúc với
mục đích hỗ trợ và làm giàu cho giai điệu, làm cho giai điệu có chiều sâu.
• Rhythm (nhịp điệu/tiết tấu) [4]: Chỉ sự nối tiếp có tổ chức các trường độ giống
nhau và khác nhau của âm thanh. Khi liên kết với nhau theo một thứ tự nhất
định, trường độ của âm thanh tạo ra nhóm tiết tấu (cịn gọi là hình tiết tấu). Hình
tiết tấu là đại diện tiêu biểu về trường độ của tác phẩm âm nhạc.
• Texture (kết cấu) [4]: Dùng để chỉ cách kết hợp giữa các “nguyên vật liệu” về
giai điệu, nhịp độ, độ hoà âm trong một bản nhạc để tạo nên chất lượng của âm
thanh. Các từ thường dùng để chỉ kết cấu như: “dày”, “mỏng”...
17
• Tempo (nhịp độ) [4]: Mô tả tốc độ mà âm nhạc được trình diễn, là tốc độ thay
đổi của nhịp điệu (cụ thể là chỉ sự chuyển động của tiết tấu). Nhịp độ còn được
gọi là độ nhanh để chỉ sự chuyển động nhanh hay chậm của bản nhạc.
• Timbre (âm sắc) [4]: Là phẩm chất của một nốt nhạc hay các âm thanh khác
nhau của các nhạc cụ. Trong một dàn nhạc nếu có bao nhiêu loại nhạc khí khác
nhau thì cũng có bấy nhiêu âm sắc khác nhau. Mỗi một giọng hát cũng có âm
sắc riêng.
• Tonality (điệu thức) [4]: Là hệ thống thể hiện mối tương quan về cao độ của
các âm thanh trong một bản nhạc hay trong một giai điệu. Điệu thức là một
phương tiện diễn tả quan trọng của âm nhạc. Màu sắc, tính chất âm nhạc được
hình thành qua kết cấu và mối tương quan điệu thức đã góp phần thể hiện nội
dung của tác phẩm.
1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc
Trích chọn đặc trưng là quá trình trong đó dữ liệu thơ được chuyển đổi thành biểu
diễn các đặc trưng để phục vụ cho các mục đích xử lý tiếp theo. Trong phân tích nội
dung âm nhạc, các bản nhạc kỹ thuật số được chuyển đổi thành ma trận các đặc trưng
chứa các thông tin về các khía cạnh khác nhau của âm nhạc như: cao độ, thời lượng,
giai điệu, hoà âm hoặc âm sắc… Với mỗi nhiệm vụ khác nhau thì các đặc trưng được
trích rút là khác nhau. Dưới đây là một số đặc trưng được hầu hết các tác giả nghiên
cứu trong lĩnh vực trích chọn thơng tin âm nhạc lựa chọn sử dụng.
1.2.1 Đặc trưng thống kê
1.2.1.1 Giá trị trung bình (Mean)
Giá trị trung bình hay kỳ vọng [5] của biến ngẫu nhiên rời rạc 𝑋, ký hiệu là 𝐸(𝑋),
thường được gọi là giá trị trung bình (ký hiệu là ) được tính theo cơng thức (1.1).
𝜇 = 𝐸(𝑋) = ∑ 𝑥. 𝑃(𝑥)
(1.1)
Trong đó: x đại diện cho các giá trị của biến ngẫu nhiên 𝑋 và 𝑃(𝑥) là xác suất
tương ứng với mỗi giá trị của x.
1.2.1.2 Phương sai (Variance)
Phương sai [5] của 𝑋 là đơn vị đo độ tản mát của dữ liệu quanh giá trị trung bình
(tâm). Nếu phương sai lớn, độ tản mát của dữ liệu cao (dữ liệu ở xa so với tâm) và
ngược lại. Phương sai có thể được tính theo cơng thức (1.2).
𝜎 2 = 𝑉(𝑋) = 𝐸(𝑋 − 𝜇)2 = ∑(𝑥 − 𝜇)2 . 𝑃(𝑥) = ∑ 𝑥 2 . 𝑃(𝑥) − 𝜇 2
(1.2)
1.2.1.3 Độ lệch chuẩn (Standard Deviation)
Độ lệch chuẩn [5] cho biết phần lớn dữ liệu nằm trong vùng đó, dữ liệu nằm ngồi
vùng đó được gọi là ngoại lệ. Độ lệch chuẩn dùng để xác định sự tản mát của dữ liệu,
được tính bằng căn bậc hai của phương sai (1.3).
18
𝜎 = √𝑉(𝑋) = √𝐸(𝑋 − 𝜇)2 = √∑ 𝑥 2 . 𝑃(𝑥) − 𝜇 2
(1.3)
1.2.1.4 Độ lệch (Skewness)
Độ lệch [5] của một biết ngẫu nhiên X được ký hiệu là 𝑠𝑘𝑒𝑤(𝑋), được định nghĩa
như trong (1.4).
𝑠𝑘𝑒𝑤(𝑋) =
𝐸(𝑋 − 𝜇)3
𝜎3
(1.4)
Trong đó: - là giá trị trung bình của 𝑋, - là độ lệch chuẩn của 𝑋 và 𝐸(𝑋) - là
giá trị kỳ vọng của 𝑋. Độ lệch là thước đo tính đối xứng (cân đối) hoặc thiếu đối xứng
của dữ liệu xung quanh giá trị trung bình của mẫu (cho biết độ lệch của một phân
phối so với một phân phối chuẩn). Độ lệch còn được gọi là moment bậc 3. Hình 1.1
minh hoạ phân phối Skewness.
Hình 1.1 Minh hoạ phân phối Skewness
1.2.1.5 Độ nhọn (Kurtosis)
Độ nhọn [5] của biến ngẫu nhiên 𝑋 được ký hiệu là 𝑘𝑢𝑟𝑡(𝑋), được định nghĩa như
sau (1.5):
𝐸(𝑋 − 𝜇)4
(1.5)
𝑘𝑢𝑟𝑡 (𝑋 ) =
𝜎4
Trong đó: - là giá trị trung bình, - là độ lệch chuẩn và 𝐸(𝑋) - là giá trị kỳ vọng
của 𝑋. Độ nhọn là đơn vị đo độ cao của phần trung tâm so với một phân phối chuẩn.
Phần trung tâm càng cao (nhọn) thì chỉ số
Kurtosis càng lớn và ngược lại. Độ nhọn còn
được gọi là moment bậc 4. Giá trị của
𝑘𝑢𝑟𝑡(𝑋) cho một phân phối chuẩn là 3. Hình
1.2 minh hoạ phân phối kurtosis.
1.2.2 Đặc trưng trong miền thời gian
1.2.2.1 Giá trị hiệu dụng (RMS - Root
Mean Square)
RMS [6] được dùng để đo độ lớn của các
tín hiệu biến thiên rời rạc theo thời gian. Trong
xử lý âm thanh, RMS dùng để đo độ to của âm
19
Hình 1.2 Minh hoạ phân bố
Kurtosis
thanh trong một cửa sổ. Giá trị thu được là trung bình của tín hiệu âm thanh. Hình 1.3
là giá trị RMS của một làn điệu Chèo. RMS sẽ được tính như trong (1.6):
1
𝑥𝑅𝑀𝑆 = √ (𝑥12 + 𝑥22 + … + 𝑥𝑛2 )
𝑛
(1.6)
1.2.2.2 Năng lượng (Energy)
Năng lượng [7] là một tham số cơ bản được sử dụng trong xử lý âm thanh và tiếng
nói. Năng lượng của tín hiệu tương ứng với độ lớn của tín hiệu. Năng lượng của tín
hiệu rời rạc được tính như trong (1.7).
𝑁
𝐸𝑠 = ∑|𝑥(𝑛)|2
(1.7)
𝑛=0
Trong đó, 𝑥(𝑛) là tín hiệu đầu vào trong miền thời gian và N là độ dài của tín hiệu.
Hình 1.3 là độ lớn của năng lượng trong một làn điệu Chèo.
Hình 1.3 Năng lượng và RMS của một làn điệu Chèo
1.2.2.3 Tỷ lệ cắt qua trục không (ZCR - Zero Crossing Rate)
ZCR [8] là số lần tín hiệu dạng sóng cắt qua trục thời gian (trục khơng) hay nói
cách khác là tốc độ thay đổi của tín hiệu từ giá trị dương về không rồi sang giá trị âm
hoặc ngược lại. ZCR được ứng dụng rộng rãi trong phân loại âm thanh hoặc giọng
nói, nhận dạng và truy xuất thông tin âm nhạc.
Hình 1.4 ZCR của một làn điệu Chèo
20
Hình 1.4 minh hoạ ZCR của một trích đoạn Quan họ. ZCR được định nghĩa như
sau (1.8):
∑𝑁
𝑛=1⌊𝑠𝑖𝑔𝑛(𝐴𝑛 ) − 𝑠𝑖𝑔𝑛(𝐴𝑛−1 )⌋
𝑍𝐶𝑅 =
2𝑁
(1.8)
1,
𝐴𝑛 > 0
𝑠𝑖𝑔𝑛(𝐴𝑛 ) = {
0,
𝐴𝑛 ≤ 0
Trong đó: 𝑁 - số mẫu trong một khung, 𝐴𝑛 - Biên độ của mẫu thứ n, 𝑠𝑖𝑔𝑛() - hàm
lấy dấu.
1.2.2.4 Các hệ số MFCC (Mel Frequency Cepstral Coefficient)
Trong lĩnh vực xử lý âm thanh, các hệ số cepstrum theo thang tần số Mel (MFCC)
[9] đại diện cho phổ công suất ngắn hạn của âm thanh và được dùng để biểu diễn các
đặc trưng liên quan đến âm sắc. Q trình tính toán các hệ số này được thực hiện theo
sơ đồ như trong Hình 1.5.
Tín hiệu
âm nhạc
Phân
khung
Cửa sổ
DFT
Các bộ lọc
thang Mel
Năng lượng
Các hệ số
MFCC
Lấy đạo
hàm
DCT
Log(.)
Hình 1.5 Các bước tính các hệ số MFCC
Các bước thực hiện tính các hệ số MFCC như sau:
(1). Phân khung tín hiệu: Tín hiệu âm nhạc sẽ được chia thành chuỗi các khung,
mỗi khung có kích thước từ 20-30ms (thường chọn là 20ms). Độ dịch khung thường
từ 10-15ms. Sau khi phân chia, do các khung tín hiệu đã bị rời rạc hoá nên cần làm
mịn (giảm bớt sự méo phổ) tín hiệu bằng cách đưa qua hàm cửa sổ (Hàm cửa sổ
thường dùng là Hamming).
(2). Thực hiện biến đổi Fourier rời rạc (chuyển tín hiệu từ miền thời gian sang
miền tần số): Thực hiện biến đổi Fourier rời rạc (DFT - Discrete Fourier Transform)
trên từng khung sẽ thu được các giá trị tương ứng với dải tần số tương ứng. Áp dụng
trên tồn bộ tín hiệu sẽ thu được Spectrogram của tín hiệu.
(3). Sử dụng bộ lọc thang Mel để tính phổ Mel: Tín hiệu DFT được cho đi qua các
bộ lọc số để lọc ra các tín hiệu theo các dải tần số khác nhau. Tai người có khả năng
nhận biết vùng tần số thấp (< 1KHz) tốt hơn so với vùng tần số cao. Do đó, bộ lọc
thang Mel mơ phỏng q trình xử lý của hệ thống thính giác bằng cách sử dụng hàm
Mel (chuyển đổi tần số sang thang đo Mel). Công thức tính của hàm Mel theo [9] như
sau (1.9):
𝑓
𝑀𝑒𝑙 (𝑓) = 2595. log10 (1 +
)
(1.9)
700
(4). Kết quả đầu ra của các bộ lọc là phổ công suất của âm thanh (phổ năng lượng).
Như đã trình bày ở trên, tai người rất nhạy cảm với sự thay đổi năng lượng ở các tần
21
số thấp và kém hơn đối với các tần số cao. Việc tính logarit trên phổ năng lượng sẽ
giúp loại bỏ các nhiễu trong âm thanh.
(5). Cuối cùng, dùng biến đổi Cosin rời rạc (DCT - Discrete Cosine Transform)
trên các vector logarit của phổ sẽ thu được các hệ số MFCC.
Hình 1.6 Các hệ số MFCC và các đạo hàm MFCC của mợt làn điệu Chèo
Có thể lấy thêm đạo hàm bậc nhất, đạo hàm bậc hai của các hệ số MFCC để có
thêm thơng tin biến thiên theo thời gian của các vector đặc trưng. Hình 1.6 minh hoạ
20 hệ số MFCC trích rút được từ một làn điệu Chèo và đạo hàm bậc nhất, đạo hàm
bậc hai của 20 hệ số này.
1.2.3 Đặc trưng phổ
Các đặc trưng phổ của một tín hiệu cho biết nội dung của tín hiệu đó trong miền
tần số. Các đặc trưng này được sử dụng rộng rãi trong các ứng dụng học máy, học
sâu và phân tích tri giác như: nhận dạng người nói [10], phát hiện nhạc cụ [11], nhận
dạng tâm trạng [12, 13], phân lớp thể loại nhạc [14, 15], phát hiện khoảng lặng [16,
17]…
1.2.3.1 Trọng tâm phổ (Spectral Centroid)
Spectral Centroid [18] của tín hiệu cho biết năng lượng của phổ được tập trung
nhiều ở vùng tần số nào (giống như một giá trị trung bình có trọng số). Giá trị spectral
centroid cao ứng với phổ có chứa nhiều tần số cao.
Hình 1.7 Spectral Centroid của một làn điệu Chèo và Quan họ
22
Hình 1.7 minh hoạ trọng tâm phổ của một làn điệu Chèo (màu đỏ) và Quan họ
(màu xanh). Trọng tâm phổ được tính như trong (1.10):
∑𝑘 𝑆(𝑘 ). 𝑓(𝑘)
(1.10)
𝑓𝑐 =
∑𝑘 𝑆(𝑘)
Với 𝑆(𝑘) là độ lớn của phổ tại tần số 𝑘, 𝑓(𝑘) là tần số tại 𝑘.
1.2.3.2 Tương phản phổ (Spectral Contrast)
Spectral Contrast [19] là sự chênh lệch mức độ giữa các đỉnh và vùng lõm trong
phổ. Mỗi khung của một phổ S được chia thành các dải con. Đối với mỗi dải con, độ
chênh lệch về năng lượng được ước tính bằng cách so sánh năng lượng trung bình ở
phần tư trên cùng (năng lượng đỉnh) với năng lượng trung bình tại phần tư dưới cùng
(năng lượng đáy). Hình 1.8 là độ tương phản phổ của một làn điệu Quan họ và một
làn điệu Chèo.
Hình 1.8 Spectral Contrast của một làn điệu Quan họ và Chèo
1.2.3.3 Suy giảm phổ (Spectral Rolloff)
Hình 1.9 Spectral Rolloff của một làn điệu Chèo và Quan họ
Spectral Rolloff [18, 20] cho biết một tần số biên mà dưới tần số đó có khoảng 85
- 95% (thường là 90%) phân bố năng lượng phổ được tập trung. Spectral rolloff cho
biết độ lệch của hình dạng phổ, được sử dụng để xác định âm thanh là tiếng nói và
âm thanh khơng phải tiếng nói (rất hữu ích trong việc phân lớp các thể loại nhạc khác
nhau). Hình 1.9 minh hoạ Spectral Rolloff của một làn điệu Chèo và Quan họ.
23
1.2.3.4 Băng thông phổ (Spectral Bandwidth)
Băng thông phổ bậc p được tính như sau (1.11):
1/𝑝
(∑ 𝑆[𝑘, 𝑡 ] ∗ (𝑓 [𝑘, 𝑡 ] − 𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑 [𝑡
])𝑝
)
(1.11)
𝑘
Trong đó: 𝑘 - chỉ số của “bin” - dải tần số; 𝑡 - thời gian; 𝑆[𝑘, 𝑡] - độ lớn của DTFT
tại dải tần số k; 𝑓[𝑘, 𝑡] - tần số ở dải 𝑘 tại thời điểm 𝑡; 𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑[𝑡] - tâm phổ tại thời
điểm 𝑡; và cuối cùng là 𝑝 - luỹ thừa (tăng độ lệch so với tâm phổ, trong LibROSA thì
𝑝 = 2). Hình 1.10 minh hoạ băng thơng phổ của một làn điệu Chèo và một làn điệu
Quan họ.
Hình 1.10 Spectral Bandwidth của một làn điệu Chèo và Quan họ
1.2.3.5 Luồng phổ (Spectral Flux)
Spectral Flux [21] cho biết sự thay đổi luồng phổ giữa hai (khung) cửa sổ liên tiếp
và được tính bằng chênh lệch bình phương giữa độ lớn chuẩn hoá của luồng phổ trong
hai cửa sổ liên tiếp.
Hình 1.11 Spectral Flux của mợt làn điệu Quan họ
Hình 1.11 minh hoạ Spectral Flux của một làn điệu Quan họ. Cách tính spectral
flux theo cơng thức (1.12).
𝐹𝑙𝑢𝑥(𝑖,𝑖−1) = ∑
𝑊𝑓𝐿
𝑘=1
(𝐸𝑁𝑖 (𝑘 ) − 𝐸𝑁𝑖−1 (𝑘))2
24
(1.12)
với 𝐸𝑁𝑖 (𝑘 ) =
𝑋𝑖 (𝑘)
𝑊𝑓𝐿
∑𝑙=1 𝑋𝑖 (𝑙)
Trong đó: 𝐸𝑁𝑖 (𝑘) là hệ số thứ 𝑘 của DFT được chuẩn hoá tại khung thứ 𝑖.
1.3 Một số thể loại âm nhạc phổ biến trên thế giới
Thể loại âm nhạc hay còn gọi là dòng nhạc là danh mục để nhận dạng một đoạn nhạc
hay một tác phẩm âm nhạc. Đó là nghệ thuật kết hợp các âm thanh của nhạc cụ và
giọng hát theo một cách có cấu trúc để mang lại nét đặc trưng riêng cho mỗi thể loại
âm nhạc. Các bài hát thuộc về cùng một thể loại đều có những điểm tương đồng về
hình thức, phong cách và nguồn gốc lịch sử của chúng. Các thể loại âm nhạc được phân
biệt theo nhiều yếu tố khác nhau, chẳng hạn như chức năng, đối tượng, xuất xứ, phân
bố địa lý, các yếu tố lịch sử, kỹ thuật và các nhạc cụ sử dụng. Do có nhiều hệ thống
phân lớp khác nhau nên một số thể loại âm nhạc có thể bị trùng lặp (một số bản nhạc
có thể thuộc về nhiều thể loại). Dưới đây là đặc điểm, nguồn gốc của một số thể loại
nhạc phổ biến trên thế giới.
• Pop: Là một thể loại nhạc phổ biến, được hình thành vào cuối những năm 1960.
Đây là một thể loại nhạc có giai điệu đơn giản, dễ nghe, dễ hát, cùng với một số đoạn
điệp khúc và câu luyến láy được lặp đi lặp lại. Thể loại nhạc này ln là sự lựa chọn
hồn hảo với bất kỳ một ca sĩ nào.
• Rock: Là một trong những thể loại đa dạng nhất, có nguồn gốc từ Mỹ và sau đó
lan sang Vương quốc Anh vào những năm 1950. Đặc điểm đơn giản nhất để phân biệt
Rock với các thể loại nhạc khác là âm thanh và nhạc cụ sử dụng. Một ban nhạc Rock
cơ bản chỉ cần một dàn trống, một guitar và một bass. Trong các bản nhạc Rock, tiếng
guitar luôn nổi bật và xuyên suốt bài hát, tiếng bass đầy ngẫu hứng và nhịp trống biến
tấu khơn lường.
• Jazz: Được tạo ra bởi người Mỹ và là nét văn hoá bản xứ của người Mỹ. Sự kết
hợp giữa âm nhạc phương Tây và châu Phi đã tạo nên nhạc Jazz, nhưng chính nền văn
hố của người Mỹ đã ươm mầm cho Jazz phát triển. Đặc trưng của nhạc Jazz là sự kết
hợp giữa các bài nhạc tế thần với các bài ca lao động của các nô lệ trên đồng ruộng nên
giai điệu và chất nhạc của Jazz mang phong cách sầu bi, đơi khi có phần buồn thảm,
thê lương.
• Dance: Nhạc Dance cịn được gọi dân dã là nhạc vũ trường, là một thể loại nhạc
có âm thanh mạnh, được phát triển từ thể loại nhạc disco thập niên 1970 và thường
được sử dụng trong các vũ trường, hộp đêm. Ngày nay, một nhánh con của thể loại này
là nhạc EDM (Electronic Dance Music) đang trở thành xu hướng nghe của khơng ít
giới trẻ trên thế giới.
• Blues: Giống như tên gọi, các ca khúc nhạc Blues thường mang đến sự buồn
bã, ảm đạm và sâu lắng cho người nghe, thường được biểu diễn bằng kèn với giai điệu
réo rắt. Nhạc Blues là dòng nhạc xuất hiện gần như sớm nhất trong cộng đồng người
da đen sống tại Mỹ, nó như một tấm gương phản chiếu những tính cách đặc trưng và
quan điểm của những người Mỹ gốc Phi đó là: đơn giản, trữ tình, thi vị, nhiều khối
cảm, và đơi khi là hài hước, châm biếm.
25