Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Dƣơng Đình Sĩ
ĐẶC TRƢNG CỦA ÂM THANH
TRONG CƠ SỞ DỮ LIỆU ÂM THANH SỐ
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS ĐỖ TRUNG TUẤN
Thái Nguyên, năm 2011
i
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
LỜI CẢM ƠN
Trước hết tôi xin được bày tỏ lòng cảm ơn sâu sắc và sự kính trọng của mình
đến các thầy cô giáo Trường Đại học Công nghệ Thông tin và Truyền thông, Đại
học Thái Nguyên, đặc biệt là các thầy cô giáo đã giảng dạy và giúp đỡ tôi trong suốt
quá trình học tập nâng cao sau đại học.
Nhân dịp hoàn thành luận văn tốt nghiệp cao học của mình, tôi xin trân trọng
cảm ơn các thầy giáo, cô giáo đã nhiệt tình hướng dẫn để tôi hoàn thành luận văn
này.
Tôi xin cảm ơn bạn bè, đồng nghiệp tại Thanh Hóa, đã luôn động viên, giúp
đỡ tôi trong quá trình học tập và công tác, để tôi học tập và hoàn thành luận văn
này.
Xin gửi đến người thân, gia đình tôi, những người đã tạo điều kiện và động
viên, trợ giúp tôi về tinh thần, thông cảm và giúp đỡ tôi rất nhiều trong thời gian
học tập này.
ii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng
dẫn khoa học của thầy giáo hướng dẫn. Các số liệu, kết quả nêu trong luận văn là
trung thực. Những kết luận của luận văn chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Thái Nguyên, ngày 20 tháng 09 năm 2011
Học viên Dương Đình Sĩ
iii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC KÍ HIỆU VÀ VIẾT TẮT vii
DANH MỤC HÌNH VÀ BẢNG ix
Danh mục các hình ix
Danh mục các bảng x
MỞ ĐẦU 1
Chƣơng 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH 3
1.1 Các dữ liệu đa phương tiện 3
1.1.1 Khái niệm về dữ liệu đa phương tiện 3
1.1.2 Phân loại dữ liệu đa phương tiện 5
1.1.3 Các đặc tính của dữ liệu đa phương tiện 6
1.2. Tổng quan về cơ sở dữ liệu đa phương tiện 6
1.2.1 Khái niệm về cơ sở dữ liệu đa phương tiện 6
1.2.2 Nhu cầu về cơ sở dữ liệu đa phương tiện 7
1.2.3 Phân loại cơ sở dữ liệu đa phương tiện 7
1.2.4 Đặc trưng của một cơ sở dữ liệu đa phương tiện 8
1.3 Cơ sở dữ liệu âm thanh 9
1.3.1. Về âm thanh 9
1.3.2. Về cơ sở dữ liệu âm thanh 9
1.4. Một số phần mềm cho phép xử lí âm thanh 10
1.5. Nhu cầu về âm thanh nhạc cụ 10
1.6. Kết luận 12
Chƣơng 2. CÁC ĐẶC TRƢNG ÂM THANH 13
2.1 Số hóa dữ liệu âm thanh 13
2.1.1 Đặc tính của âm thanh tương tự 13
2.1.2 Khái niệm tín hiệu 14
iv
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.1.3 Phân loại tín hiệu 14
2.1.4 Mô hình hóa tín hiệu âm thanh 17
2.1.5 Kiến trúc xử lí tín hiệu âm thanh 18
2.1.6 Tần số lấy mẫu 20
2.1.7 Một số khái niệm toán học trong xử lí âm thanh 21
2.1.7.1 Phép biến đổi z 21
2.1.7.2 Phép biến đổi Fourier 22
2.1.7.3 Phép biến đổi Fourier rời rạc 22
2.1.8 Số hóa dữ liệu âm thanh 24
2.1.8.1 Các mô hình lấy mẫu và mã hóa âm thanh 24
2.1.8.2 Kiến trúc của hệ thống mã hóa âm thanh 29
2.2 Đặc trưng của dữ liệu âm thanh 30
2.2.1 Dữ liệu âm thanh 30
2.2.2 Các đặc trưng của âm thanh 32
2.2.2.1 Bản chất vật lí của âm thanh 32
2.2.2.2 Sóng âm 32
2.2.2.3 Pha 32
2.2.2.4 Phổ âm thanh 32
2.2.2.5 Năng lượng âm thanh 33
2.2.2.6 Nhịp và phách 33
2.2.2.7 Cộng hưởng 33
2.2.2.8 Formant 33
2.3 Âm thanh, âm nhạc và tiếng nói 34
2.3.1 Tương quan âm thanh, âm nhạc và tiếng nói 34
2.3.2 Ảnh hưởng của biên độ và tần số 35
2.3.3 Âm sắc nhạc cụ, bồi âm 36
2.4 Nhạc cụ 38
2.4.1 Họ thân tự vang 39
2.4.2 Họ màng rung 39
v
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.4.3 Họ hơi 40
2.4.4 Họ dây 41
2.5 Kết luận 42
Chƣơng 3. CƠ SỞ DỮ LIỆU ÂM THANH 44
3.1 Phân tích, thiết kế cơ sở dữ liệu đa phương tiện 44
3.1.1 Cấu trúc của cơ sở dữ liệu đa phương tiện 44
3.1.1.1 Phân tích dữ liệu 44
3.1.1.2 Mô hình hóa dữ liệu 44
3.1.1.3 Lưu trữ dữ liệu 45
3.1.1.4 Xác định dữ liệu trả về 45
3.1.1.5 Truy cập dữ liệu 46
3.1.1.6 Phương tiện truyền thông 46
3.1.2 Các bước để tạo ra một cơ sở dữ liệu đa phương tiện 46
3.2 Xử lí âm thanh bằng Cool Edit 47
3.3 Tổ chức cơ sở dữ liệu âm thanh nhạc cụ 48
3.3.1 Tổ chức cơ sở dữ liệu đa phương tiện 48
3.3.1.1 Thiết kế và kiến trúc của cơ sở dữ liệu đa phương tiện 48
3.3.1.2 Tổ chức cơ sở dữ liệu dựa trên nguyên tắc thống nhất 51
3.3.1.3 Mô tả trừu tượng các đối tượng đa phương tiện 52
3.3.1.4 Ngôn ngữ hỏi dữ liệu đa phương tiện 52
3.3.1.5 Kỹ thuật tìm kiếm 53
3.3.2 Tổ chức cơ sở dữ liệu âm thanh nhạc cụ 54
3.3.2.1 Siêu dữ liệu thể hiện nội dung 54
3.3.2.2 Nội dung âm thanh dựa trên tín hiệu 55
3.4 Cài đặt cơ sở dữ liệu âm thanh nhạc cụ dân tộc Việt Nam 56
3.4.1 Mô tả bài toán 56
3.4.2 Phân tích, thiết kế cơ sở dữ liệu âm thanh về nhạc cụ dân tộc 57
3.4.2.1 Bảng dữ liệu về âm thanh, âm thanh nhạc cụ dân tộc 57
3.4.2.2 Bảng dữ liệu về tác giả, người sáng tác bản nhạc 58
vi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3.4.2.3 Bảng dữ liệu về nghệ sỹ, người trình bày bản nhạc 59
3.4.2.4 Lược đồ quan hệ của cơ sở dữ liệu âm thanh 59
3.4.4 Cài đặt chương trình hỗ trợ việc xây dựng, khai thác cơ sở dữ liệu âm
thanh nhạc cụ dân tộc Việt Nam 60
3.4.4.1 Chức năng cập nhật thông tin của nhạc sỹ, người sáng tác nhạc
61
3.4.4.2 Chức năng cập nhật thông tin của nghệ sỹ, người biểu diễn nhạc
61
3.4.4.3 Chức năng cập nhật thông tin bản nhạc 62
3.4.4.4 Chức năng tìm kiếm và trích xuất nhạc 63
3.4.4.5 Chương trình nghe nhạc 64
3.5 Kết luận 64
KẾ T LUẬ N 66
Các kết quả đạt được 66
Hướng tìm hiểu, nghiên cứu và ứng dụng 66
TÀI LIỆU THAM KHẢO 68
Tài liệu tiếng Việt 68
Tài liệu tiếng Anh 68
Một số Website 69
vii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
DANH MỤC KÍ HIỆU VÀ VIẾT TẮT
Từ gốc
Nghĩa
A/D hoặc D/A (A, Analog, D, Digital)
Analog-Tín hiệu tương tự,
Digital, Tín hiệu số.
ADC, Analog-to-Digital Converter
Bộ chuyển đổi tín hiệu tương tự
sang tín hiệu số
ADC, analog-to-digital converter
Biến đổi tương tự , số
Aliasing
Chồng phổ
AR, Autoregressive
Hồi qui
ARMA, auto regressive moving-average
Hồi qui trung bình
CCITT, Consultative Committee For
Internationaltelephony And Telegraph
Ủy ban điện thoại và điện tín
viễn thông.
DAC, Digital-to-Analog Converter
Bộ chuyển đổi tín hiệu số sang
tín hiệu tương tự
DBMS, Database Manager System
Hệ quản trị cơ sở dữ liệu
DFT, Discrete Fourier Transform
Phép biển đổi Fourier rời rạc
EMD Sound
Cơ sở dữ liệu âm thanh nhúng
EMD, Embedded Multimedia Databases
CSDL đa phương tiện nhúng
LMD Sound
Cơ sở dữ liệu âm thanh liên kết
LMD, Linked Multimedia Databases
Cơ sở dữ liệu đa phương tiện
liên kết
MDB, Multimedia Database
Cở sở dữ liệu đa phương tiện
ODA, Office Document Architecture
Dạng chuẩn văn bản
PCM, Pulse Code Modulation
Điều chế xung
PDF, Portable Document Format
Định dạng văn bản của Adobe
RDBMS, Relational Database Management
System
Hệ quản trị cơ sở dữ liệu quan hệ
ROC, region of convergence
Miền hội tụ
SGML, Standard General Markup Language
Định dạng văn bản
viii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
SQNR, Signal to Quantizing Noise Ratio
Tỉ lệ tín hiệu so với ồn lượng tử
ix
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
DANH MỤC HÌNH VÀ BẢNG
Danh mục các hình
Hình 1.1 Dữ liệu Đa phương tiện 8
Hình 1.2 Sử dụng nhạc cụ 11
Hình 2.1 Dạng sóng của tín hiệu âm thanh ghi nhận được 13
Hình 2.2 Tín hiệu liên tục theo thời gian 14
Hình 2.3 Tín hiệu rời rạc theo thời gian 15
Hình 2.4 Tín hiệu liên tục giá trị 15
Hình 2.5 Tín hiệu rời rạc giá trị 16
Hình 2.6 Tín hiệu tương tự 16
Hình 2.7 Tín hiệu số 16
Hình 2.8 Dạng sóng của âm thanh nguyên thủy 18
Hình 2.9 Dạng sóng của tín hiệu điện 18
Hình 2.10 Ngõ ra bộ chuyển đổi tín hiệu tương tự sang tín hiệu số 19
Hình 2.11 Thực hiện việc lấy mẫu 19
Hình 2.12 Kết quả của việc lấy mẫu các giá trị 19
Hình 2.13 Dạng sóng được tái tạo lại 20
Hình 2.14 Vòng tròn đơn vị thuộc mặt phẳng z 22
Hình 2.15 Cấu hình hệ thống xử lí tín hiệu tương tự bằng phương pháp số 24
Hình 2.16 Hàm lượng tử với bước lượng tử q=1 26
Hình 2.17 Lỗi lượng tử 27
Hình 2.18 Mô tả luật mã hóa 13 với biên độ dương 29
Hình 2.19 Kiến trúc của hệ thống mã hóa âm thanh 30
Hình 2.20 Mô tả sóng âm 31
Hình 2.21 Formant phân biệt ah, uh 34
Hình 2.22 Sự tương quan giữa âm thanh, âm nhạc và tiếng nói 34
Hình 2.23 Sóng âm không có tính nhạc của cánh cửa sập lại 34
Hình 2.24 Sóng âm của dây đàn Guitar có tính nhạc 35
Hình 2.25 Sóng của âm thanh có tính nhạc (a) và không có tính nhạc (b) 35
x
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 2.26 Sóng có biên độ thấp (a) và biên độ cao (b) 36
Hình 2.27 Sóng âm có tấn số thấp (a) và tần số cao (b) 36
Hình 2.28 Sự kết hợp bồi âm khác nhau 37
Hình 2.29 Sóng âm nốt A với tần số 440Hz và 880 Hz 37
Hình 2.30 Nhạc cụ dân tộc: Họ thân tự vang 38
Hình 2.31 Nhạc cụ dân tộc: Họ màng rung 39
Hình 2.32 Nhạc cụ dân tộc: Họ hơi 41
Hình 2.33 Nhạc cụ dân tộc: Họ dây 42
Hình 3.1 Giao diện phần mềm Cool Edit Pro 2.1 47
Hình 3.2 Kiến trúc khối chức năng cho hệ thống xử lí dữ liệu đa phương tiện 49
Hình 3.3 Kiến trúc đảm bảo tính thống nhất 49
Hình 3.4 Kiến trúc chỉ số hóa hỗn hợp 51
Hình 3.5 Quan hệ ≤ trong hệ thống cơ sở dữ liệu đa phương tiện có cấu trúc 52
Hình 3.6 Mô hình tìm kiếm thông tin tổng quát 53
Hình 3.7 Phần mềm SQL SERVER 56
Hình 3.8 Lược đồ quan hệ cơ sở dữ liệu âm thanh 60
Hình 3.9 Giao diện cập nhật thông tin nhạc sỹ, người sáng tác 61
Hình 3.10 Giao diện cập nhật thông tin nghệ sỹ, người biểu diễn 62
Hình 3.11 Giao diện cập nhật bản nhạc, thông tin bản nhạc 63
Hình 3.12 Giao diện tìm kiếm và trích xuất nhạc 63
Hình 3.13 Giao diện nghe nhạc từ cơ sở dữ liệu 64
Danh mục các bảng
Bảng 2.1 Tương quan giữa cao độ và tần số 37
Bảng 3.1 Mô tả bảng MusicContent 57
Bảng 3.2 Mô tả bảng MusicWriter 58
Bảng 3.3 Mô tả bảng MusicPerformer 59
1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỞ ĐẦU
Ngày nay, công nghệ thông tin truyền thông như là hạ tầng cho nhiều ngành
kinh tế quốc dân trong thế kỉ XXI, cũng như máy móc có vài trò như vậy trong thế
kỷ XX. Mọi ngành nghề đều phải tiếp nhận công nghệ thông tin truyền thông như là
phương tiện chính để đảm bảo hiệu quả, năng suất và tính cạnh tranh. Công nghệ
thông tin truyền thông được coi là nhân tố chủ chốt để giải phóng tiềm năng của
mỗi cá nhân, mỗi tổ chức, nó là môi trường sản sinh ra các ý tưởng mới, tạo cơ hội
thuận lợi để phát triển các ý tưởng sẵn có.
Ngày nay, mọi người sống, làm việc và giao tiếp thông qua các dữ liệu đa
phương tiện. Công nghệ thông tin truyền thông, mạng máy tính và các giao thức
truyền thông phát triển mạnh mẽ, kết hợp với khả năng mô tả, đồ họa phong phú
của các trình duyệt càng mang lại sự đa dạng về các dữ liệu cho người dùng đầu
cuối. Do đó, đòi hỏi làm thế nào để tổ chức và cơ cấu một lượng rất lớn các dữ liệu
đa phương tiện để có thể dễ dàng nhận được thông tin cần thiết một cách nhanh
chóng tại bất kỳ thời điểm nào. Từ đó, cơ sở dữ liệu đa phương tiện được xây dựng
để trở thành một công cụ quản lí, lưu trữ và truy cập một lượng rất lớn các đối
tượng đa phương tiện. Đó chính là cơ hội cũng như là nguyên nhân để các công
nghệ về cơ sở dữ liệu đa phương tiện phát triển và ứng dụng rộng rãi trong đời sống
kinh tế xã hội.
Các dữ liệu đa phương tiện gồm có: văn bản, hình ảnh tĩnh, hình ảnh động, âm
thanh, âm nhạc, video Hiệu quả của các ứng dụng đa phương tiện phụ thuộc vào
sức mạnh của cơ sở dữ liệu đa phương tiện, cụ thể là cấu trúc, cách tổ chức, khả
năng truy cập nhanh, chính xác Công nghệ đa phương tiện được ứng dụng trong
nhiều trường hợp như: e- learning, hội thảo video, thư điện tử, hiện thực ảo, trò chơi
điện tử, thương mại điện tử
Việc tìm hiểu bản chất cũng như là các đặc trưng, các thuộc tính, các kỹ thuật
số hóa của từng loại dữ liệu đa phương tiện là yêu cầu để triển khai và ứng dụng
công nghệ đa phương tiện vào đời sống. Trong đó, việc tìm hiểu các đặc trưng,
phương pháp số hóa, phương pháp trích chọn, tìm kiếm của dữ liệu âm thanh trong
2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
cơ sở dữ liệu âm thanh hiện đang được quan tâm đặc biệt bởi các đặc thù của dữ
liệu âm thanh như: đa dạng, thông dụng với người dùng, thân thiện với mọi đối
tượng, truyền tải một lượng lớn thông tin trong khoảng thời gian ngắn, ứng dụng
nhiều trong đời sống, đó chính là lí do tôi chọn đề tài “Đặc trưng âm thanh trong cơ
sở dữ liệu âm thanh số”.
Do nội dung của đề tài rộng và không thể thực hiện đầy đủ trong thời gian
thực tập tốt nghiệp, tôi xác định những việc đầu tiên, phục vụ trực tiếp cho luận văn
là (i) kiến trúc và yêu cầu của cơ sở dữ liệu âm thanh số hóa; (ii) chuẩn bị đặc trưng
dữ liệu cho cơ sở dữ liệu này. Để nêu rõ các đặc trưng âm thanh, đối tượng xem xét
là dữ liệu âm thanh nhạc cụ, đặc biệt là âm thanh của các nhạc cụ dân tộc.
Cấu trúc của luận văn : Luận văn bao gồm các chương :
1. Chương 1: Tìm hiểu về khái niệm tổng quan của cơ sở dữ liệu âm
thanh.
2. Chương 2: Nêu các đặc trưng âm thanh.
3. Chương 3: Đề cập phân tích, thiết kế và xây dựng cơ sở dữ liệu âm
thanh.
Cuối cùng là kết luận của luận văn và danh sách các tài liệu tham khảo sử
dụng trong luận văn.
3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chƣơng 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH
Chương 1 trình bày một số khái niệm tổng quan liên quan đến dữ liệu âm
thanh nói riêng, dữ liệu đa phương tiện nói chung và cơ sở dữ liệu âm thanh.
1.1 Các dữ liệu đa phƣơng tiện
1.1.1 Khái niệm về dữ liệu đa phương tiện
Dữ liệu đa phương tiện bao gồm: văn bản, đồ họa, hoạt hình, âm thanh,
video
Văn bản (Text): Gồm các kí tự (chữ cái, chữ số, các kí hiệu đặc biệt ). Thể hiện
chung nhất của kí tự là theo mã ASCII. Người ta dùng 7 bit cho mỗi mã, nhưng
sử dụng chung là 8 bit, thêm một bit chẵn lẻ. Với các văn bản thể hiện các ngôn
ngữ khác nhau người ta sử dụng bộ mã khác nhau. Bộ nhớ dành cho văn bản
được tính theo số kí tự, số trang. Ngày này, người ta thường sử dụng bộ mã
Unicode gồm 16 bit cho mỗi kí tự để thể hiện kí tự. Với bộ mã 16 bit dễ dàng
thể hiện văn bản chứa các ngôn ngữ khác nhau, tuy nhiên bộ nhớ để lưu trữ cũng
tăng lên gấp đôi.
Hầu hết các tự liệu văn bản có cấu trúc, gồm (i) nhan đề; (ii) đoạn; (iii)
mục;… Cầu trúc của văn bản thể hiện ra khi in. Có nhiều dạng thức và chuẩn mã
hóa văn bản có cấu trúc, như SGML, ODA, LaTex và PDF. Trong một tệp văn
bản thông thường, đầu tệp lưu thông tin về dạng thức tư liệu, cấu trúc sau đó là
nội dung văn bản. Khi biết dạng thức tệp, thông tin cấu trúc được trích rút dùng
cho tìm kiếm.
Trong các ứng dụng đa phương tiện, văn bản hiện được sử dụng rộng rãi.
Nguyên nhân là do việc thể hiện văn bản trên màn hình rất thuận lợi. Đồng thời
có nhiều thông tin không thể hiện được bằng các các công cụ đa phương tiện
khác, khi đó văn bản là hình thức được sử dụng để thể hiện thông tin đó.
Tiếng nói: Tiếng nói là một dữ liệu có tính liên tục, tiếng nói có thể được sử dụng
giới thiệu, trình bày, nêu yêu cầu Tiếng nói được coi như là công cụ giải thích
bổ sung hữu hiệu cho văn bản.
4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Đồ họa: là một lĩnh vực truyền thông trong đó thông điệp được tiếp nhận qua con
đường thị giác. Thiết kế đồ họa là tạo ra các giải pháp bằng hình ảnh cho các vấn
đề truyền thông.
Có hai loại đồ họa (i) bitmap; (ii) vector. Đồ họa bitmap chia nhỏ thành các
pixel, mỗi pixel ứng với một chấm trên màn hình. Cường độ của pixel được lưu
trong tệp đồ họa pixel. Đồ họa vector, phần tử đồ họa được thể hiện theo các mô
hình xác định trước, hay theo công thức toán học. Việc lưu trữ dữ liệu vector
đơn giản, là lưu trữ các chỉ dẫn cơ bản cho phép sinh ra đồ họa. Đối với đồ họa
vector, dễ trích nội dung. Thuộc tính của phần tử như hình dáng, kích thước, lấy
ra từ tệp đồ họa được sử dụng để chỉ số hóa và tìm kiếm.
Dữ liệu ảnh bitmap, là ma trận các điểm ảnh để thể hiện hình ảnh. Số lượng
điểm ảnh lớn sẽ làm hình ảnh mịn hơn. Dữ liệu ảnh vector, không dùng ma trận
điểm ảnh, mà dùng phường trình toán học thể hiện hình ảnh, sau đó thiết bị hiển
thị sẽ thể hiện lại hình ảnh dựa trên phương trình của ảnh.
Đồ họa là một thành phần đa phương tiện rất mạnh được sử dụng để thể hiện
ngữ cảnh. Đồ họa là một kiểu dữ liệu độc lập, từ hình ảnh đồ họa có thể xác định
được những khoảnh khắc (không gian) và thời gian. Đồ họa là loại dữ liệu thích
hợp cho việc nghiên cứu và phân tích các mối quan hệ. Đồ họa có thể kết hợp
với văn bản để mô tả đầy đủ về đối tượng. Đồ họa thể hiện đối tượng chi tiết hơn
so với hình ảnh và thể hiện tốt các đối tượng mang tính trừu tượng.
Hình ảnh: Thể hiện mối quan hệ từ ảnh đại diện đến nội dung cụ thể. Tâm trạng
của người quan sát có thể quyết định nội dung của hình ảnh, khi đó sự kết hợp
giữa hình ảnh và âm thanh sẽ cho kết quả đầy đủ về nội dung thực.
Hoạt hình: là thể hiện nhanh chuỗi các hình ảnh của tác phẩm 2D hay 3D hay các
vị trí mô hình, để tạo nên ảo ảnh về chuyển động. Hình động được sinh ra do
làm tinh, biểu diễn tuần tự các khung đồ họa. Nếu đồ họa dùng bitmap, hình
động như đoạn video. Đối với hình động theo vector, việc chỉ số hóa và tìm
kiếm được thực hiện như với đồ họa vector, trừ việc xử lí yếu tố thời gian.
5
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hoạt hình cũng là một thành phần trong cơ sở dữ liệu đa phương tiện. Hoạt hình
có thể hiểu là các hình ảnh thay đổi, thể hiện sự thay đổi các thuộc tính của đối
tượng trong một khoảng thời gian. Hoạt hình đòi hỏi nhiều không gian bộ nhớ để
lưu trữ hơn so với hình ảnh.
Dữ liệu hình động: việc mô phỏng chuyển động được tạo bằng cách hiện một loạt
các hình (tức khung hình). Phim hoạt hình trên tivi là một ví dụ về hình động.
Hình động trên máy tính có vai trò chính trong thể hiện đa phương tiện. Có
nhiều ứng dụng cho phép tạo hình động, rồi thể hiện trên màn hình máy tính.
Âm thanh: là các dao động cơ học (biến đổi vị trí qua lại) của các phần tử,
nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các
sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kì, biên độ và vận tốc lan truyền.
Âm thanh hay âm nhạc cũng như các bài phát biểu có sức mạnh về mặt tạo cảm
xúc. Âm nhạc có thể kích thích tâm trạng tích cực trong phục hồi hoặc thư giản
trí tuệ và cơ thể, trong khi đó âm thanh như là tiếng ồn tác động đến con người.
Sự kết hợp âm thanh với hình ảnh động sẽ thể hiện thế giới trực quan.
Video: là công nghệ điện tử để thu, ghi lại, xử lí, lưu trữ, truyền và tái tạo chuỗi
các hình ảnh tĩnh nhằm thể hiện cảnh chuyển động.
Video là dữ liệu mạnh nhất của tất cả các loại dữ liệu đa phương tiện. Nó có khả
năng miêu tả đầy đủ về thế giới thực. Nó giúp người xem hiểu và nhớ sâu sắc nội
dung cần diễn đạt.
Hình động và video khác nhau, trong khi video hiện các chuyển động liên tục
bằng cách sử dụng các khung hình rời rạc, thì hình động bắt đầu bằng các ảnh độc
lập, rồi đặt chúng với nhau để tạo nên ảo ảnh về chuyển động liên tục.
1.1.2 Phân loại dữ liệu đa phương tiện
Các dữ liệu đa phương tiện được chia thành hai lớp: lớp các dữ liệu không liên
tục và lớp các dữ liệu liên tục.
6
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Các dữ liệu không liên tục là những dữ liệu khi trình bày không phụ thuộc
vào thời gian, các dữ liệu không liên tục gồm: dữ liệu văn bản không có
cấu trúc hoặc có cấu trúc, các hình ảnh : bitmap và vector
Các dữ liệu liên tục là những dữ liệu nội dung trình bày phụ thuộc vào thời
gian, các dữ liệu liên tục gồm: tiếng nói , âm thanh, video, hoạt hình
1.1.3 Các đặc tính của dữ liệu đa phương tiện
Các đặc tính chung của dữ liệu đa phương tiện gồm:
1. Không có cấu trúc ổn định: các dữ liệu đa phương tiện có khuynh hướng phi cấu
trúc, vì vậy các tác nghiệp quản trị dữ liệu chuẩn như: chỉ số hóa, tìm kiếm nội
dung, truy cập dữ liệu thường là không áp dụng được hoặc rất khó áp dụng.
2. Nội dung mang tính tạm thời: các dữ liệu liên tục như: ảnh động, video, âm
thanh và hoạt hình đều phụ thuộc vào thời gian nên việc lưu trữ, thao tác và mô
tả chúng là rất khó khăn và gắn liền với tính thời sự.
3. Có dung lượng lớn: các dữ liệu đa phương tiện thường có dung lượng rất lớn,
điều này đỏi hỏi nhiều không gian lưu trữ, tốc độ truy cập nhanh, hiệu quả.
4. Các ứng dụng yêu cầu hỗ trợ: các dữ liệu phi chuẩn có thể đòi hỏi các quy trình
xử lí phức tạp, lại có dung lượng lớn nên các ứng dụng khai thác thường đòi hỏi
các yêu cầu hỗ trợ chặt chẽ, chẳng hạn việc sử dụng các thuật toán nén dữ liệu
hiệu quả là yêu cầu của các ứng dụng khai thác dữ liệu đa phương tiện.
1.2. Tổng quan về cơ sở dữ liệu đa phƣơng tiện
1.2.1 Khái niệm về cơ sở dữ liệu đa phương tiện
Cơ sở dữ liệu đa phương tiện là một loại cơ sở dữ liệu giống như bất kì một cơ
sở dữ liệu khác, nó có chứa tập các bản ghi mà mỗi bản ghi là một bộ sưu tập đa
phương tiện. Đa phương tiện được định nghĩa là sự kết hợp của nhiều phương tiện
truyền thông, các phương tiện truyền thông được chia thành hai nhóm: phương tiện
truyền thông tĩnh và phương tiện truyền thông động. Văn bản, ảnh, hình vẽ được coi
là phương tiện truyền thông tĩnh; các đối tượng hoạt hình, âm nhạc, âm thanh, tiếng
nói, video được coi là phương tiện truyền thông động. Cơ sở dữ liệu đa phương
7
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
tiện là một hệ thống quản lí một tập rất lớn các dữ liệu đa phương tiện và cung cấp
các phương thức truy cập cho người dùng dễ dàng truy cập. Nói chung, cơ sở dữ
liệu đa phương tiện có chứa văn bản, hình ảnh, hoạt hình, video, phim, âm thanh
1.2.2 Nhu cầu về cơ sở dữ liệu đa phương tiện
Có rất nhiều nguyên nhân đòi hỏi phải có cơ sở dữ liệu đa phương tiện, dưới
đây là một số nguyên nhân chính dễ dàng nhận thấy:
1. Cơ sở dữ liệu đa phương tiện có khả năng xử lí một lượng rất lớn các đối
tượng đa phương tiện mà một cơ sở dữ liệu thông thường không thực hiện
được hoặc thực hiện được nhưng không hiệu quả.
2. Cơ sở dữ liệu đa phương tiện giúp tạo ra một thư viện ảo chứa đựng các
thông tin bao gồm: các viện bảo tàng, các thư viện
3. Cơ sở dữ liệu đa phương tiện hỗ trợ phát triển các ứng dụng đa phương
tiện trong mọi lĩnh vực của cuộc sống như: giáo dục, y tế, nghiên cứu khoa
học và thư viện
4. Cơ sở dữ liệu đa phương tiện là công cụ để bảo quản các bức ảnh mục nát,
bản đồ cổ, các bộ phim cũ, nhưng có vai trò quan trọng trong cuộc sống.
5. Sử dụng cơ sở dữ liệu đa phương tiện giúp chúng ta tạo ra các bài giảng
trực quan, sinh động và hiệu quả.
6. Cơ sở dữ liệu đa phương tiện là ngân hàng, là kho lưu trữ thông tin đa
phương tiện để nhiều người cùng khai thác với các mục đích khác nhau.
1.2.3 Phân loại cơ sở dữ liệu đa phương tiện
Có thể phân cơ sở dữ liệu đa phương tiện thành hai loại: cơ sở dữ liệu đa
phương tiện liên kết và cơ sở dữ liệu đa phương tiện nhúng.
1. LMD là cơ sở dữ liệu được tổ chức như một cơ sở dữ liệu chứa siêu dữ
liệu. Các siêu dữ liệu thực chất là các liên kết đến dữ liệu cụ thể như: ảnh,
hình vẽ, hình ảnh động, âm thanh, video Các dữ liệu này lưu trữ tại chỗ
hoặc thông qua mạng. Một lợi thế lớn của cơ sở dữ liệu loại này là kích
thước nhỏ do các đối tượng đa phương tiện không được lưu trực tiếp vào
cơ sở dữ liệu mà chỉ có các liên kết được nhúng vào.
8
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2. EMD là loại cơ sở dữ liệu mà bản thân các đối tượng đa phương tiện được
lưu trực tiếp vào cơ sở dữ liệu và được coi như các thành phần nhị phân.
Ưu điểm chính của cơ sở dữ liệu loại này là thời gian truy cập nhanh, tuy
nhiên kích thước của cơ sở dữ liệu sẽ rất lớn do các đối tượng đa phương
tiện thường có dung lượng rất lớn.
Hình 1.1 Dữ liệu Đa phƣơng tiện
1.2.4 Đặc trưng của một cơ sở dữ liệu đa phương tiện
Một cơ sở dữ liệu đa phương tiện có các đặc trưng sau đây:
1. Là phương tiện lưu trữ dữ liệu đa phương tiện.
2. Phương thức tìm kiếm phải toàn diện (tìm kiếm phải cho kết quả chính xác
hoặc tương đối, nếu có đối tượng cần tìm thì kết quả tìm kiếm phải chứa
đối tượng đó).
3. Giao diện phải độc lập với thiết bị và định dạng.
4. Cho phép truy cập dữ liệu đồng thời (nhiều người cùng truy cập tại một
thời điểm).
5. Lưu trữ được số lượng rất lớn các dữ liệu đa phương tiện.
6. Các ràng buộc phải nhất quán, thống nhất.
7. Thời gian lưu trữ lâu dài.
Khi thiết kế một cơ sở dữ liệu đa phương tiện ta không thể thực hiện theo cách
thiết kế một hệ thống cơ sở dữ liệu thông thường, do các đối tượng đa phương tiện
có những đặc điểm sau:
1. Các đối tượng đa phương tiện có cấu trúc rất phức tạp (có thể phụ thuộc
vào thời gian).
9
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2. Các đối tượng đa phương tiện có tính chất nghe hoặc nhìn thấy hoặc cả hai
như trong tự nhiên (giống tự nhiên).
3. Các đối tượng đa phương tiện phụ thuộc vào ngữ cảnh.
4. Việc truy cập, tìm kiếm các đối tượng đa phương tiện còn chưa rõ ràng
trong tự nhiên (chưa có phương thức tìm kiếm hữu hiệu).
1.3 Cơ sở dữ liệu âm thanh
1.3.1. Về âm thanh
Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử,
nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng.
Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ,
biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số
từ khoảng 20Hz đến khoảng 20kHz, của các phân tử không khí, và lan truyền trong
không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. Tuy
nhiên âm thanh có thể được định nghĩa rộng hơn, tuỳ vào ứng dụng, bao gồm các
tần số cao hơn hay thấp hơn tần số mà tai người có thể nghe thấy, và không chỉ lan
truyền trong không khí, mà trong bất cứ vật liệu nào. Trong định nghĩa rộng này,
âm thanh là sóng cơ học và theo lưỡng tính sóng hạt của vật chất, sóng này cũng có
thể coi là dòng lan truyền của các hạt phonon, các hạt lượng tử của âm thanh.
Cả tiếng ồn và âm nhạc đều là các âm thanh. Trong việc truyền tín hiệu bằng
âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu.
1.3.2. Về cơ sở dữ liệu âm thanh
Cơ sở dữ liệu âm thanh trước hết là một cơ sở dữ liệu đa phương tiện, tức là
cơ sở dữ liệu lưu trữ các đối tượng đa phương tiện. Nhưng các đối tượng đa phương
tiện được nhắc đến ở đây chính là các đối tượng âm thanh đã được số hóa thành các
dữ liệu âm thanh có thể lưu trữ trên các thiết bị nhớ. Thực chất cơ sở dữ liệu âm
thanh là cơ sở dữ liệu dùng để lưu trữ và truy cập các đối tượng âm thanh trên máy
tính điện tử.
10
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Cũng tương tự như cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu âm thanh cũng
có thể được phân thành hai loại: cơ sở dữ liệu âm thanh liên kết và cơ sở dữ liệu âm
thanh nhúng.
Trong đời sống, cơ sở dữ liệu âm thanh có vai trò rất quan trọng và được ứng
dụng trong nhiều lĩnh vực khác nhau: (i) Kiểm soát điện thoại; (ii) Nhận dạng tín
hiệu âm nhạc;…
1.4. Một số phần mềm cho phép xử lí âm thanh
Có nhiều công trình đề cập việc xử lí âm thanh. Theo thông tin trên trang Wiki
2011, có nhiều phần mềm xử lí âm thanh, biên tập âm thanh, quản lý âm thanh.
Xử lí âm thanh Ardour;
Audacity
BashPodder
CD-DA X-Tractor
CDex
Linux MultiMedia Studio
MusE
OpenSebJ
Mixxx
1.5. Nhu cầu về âm thanh nhạc cụ
Âm nhạc (trong đó có âm thanh nhạc cụ) ngoài khả năng đem lại niềm vui, sự
sảng khoái và nguồn nghị lực cho con người trong cuộc sống còn có tác dụng thức
tỉnh tình cảm của con người qua những cung bậc hết sức tinh tế. Sức mạnh cảm hóa
của âm nhạc tiến bộ, lành mạnh sẽ giúp con người vươn tới một nhân cách toàn
vẹn.
Như chúng ta đều biết, nhân cách là một thực thể phức tạp, đồng thời cũng là
một thực thể thống nhất biện chứng về sinh lý, tâm lý và xã hội của con người. Ở
những nhân cách phát triển toàn diện, ý thức tình cảm và hành vi của họ thống nhất
biện chứng và tác động tương hỗ lẫn nhau. Phát triển nhân cách con người là quá
11
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
trình tác động toàn diện lên các mặt trên bằng các phương tiện khác nhau, trong đó
âm nhạc là một trong những phương tiện hết sức quan trọng.
Hình 1.2 Sử dụng nhạc cụ
Âm nhạc là loại hình nghệ thuật dùng âm thanh làm phương tiện biểu hiện
hình tượng nghệ thuật nhằm phản ánh thế giới quan, nhân sinh quan, trình độ phát
triển đời sống cộng đồng xã hội, cùng những nét riêng trong đời sống tinh thần của
người nghệ sỹ. Ngôn ngữ của âm nhạc có tính trừu tượng cao vốn là một thế mạnh
trong việc gợi lên hình tượng nghệ thuật và làm cho hình tượng nghệ thuật "dội"
thẳng vào con tim, trước khi "vọng" lên trí óc của người thưởng thức. Trước đây,
người ta thường coi tính trừu tượng đó là hạn chế của nghệ thuật âm nhạc khi phản
ánh thế giới. Song, cho đến nay đã có thể khẳng định: chính tính trừu tượng cao của
nghệ thuật âm nhạc khi biểu hiện hình tượng nghệ thuật lại là một trong những thế
mạnh riêng.
Người sáng tác tổ chức các âm thanh (thường là có tính nhạc) một cách chặt
chẽ theo một hệ thống khúc thức logic để phản ánh sự đa dạng, phong phú của cuộc
sống cũng như đời sống nội tâm của con người: niềm vui sướng và nỗi đau thương,
sự say mê lao động và niềm hạnh phúc, cuộc đấu tranh sống còn và tâm tư thầm kín,
những bức xúc xã hội và những ước mơ, hoài bão cao đẹp… Hệ thống ngôn ngữ ấy
được sống dậy trong âm điệu và nhịp điệu thông qua biểu diễn của người nghệ sỹ,
phản ánh một cách lành mạnh hiện thực cuộc sống và tâm tư tình cảm con người,
đồng thời luôn tạo nên sự đồng điệu với nền văn hóa của người thưởng thức âm
12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
nhạc, hướng họ vào thế giới nội tâm, vào lý tưởng, tình cảm trong sáng, vào tâm
hồn cao thượng để vươn tới tương lai tươi đẹp.
1.6. Kết luận
Việc ứng dụng và khai thác cơ sở dữ liệu đa phương tiện đang là nhu cầu thiết
yếu của xã hội hiện đại. Công tác nghiên cứu tổ chức lưu trữ, xây dựng các công cụ
để khai thác là yêu cầu, nhiệm vụ của ngành công nghệ thông tin. Trong chương
này luận văn đã đề cập đến một số vấn đề có tính chất cơ bản của cơ sở dữ liệu đa
phương tiện như khái niệm, vai trò, phân loại, các đặc trưng của cơ sở dữ liệu đa
phương tiện Ngoài ra, luận văn còn trình bày một số đặc điểm mang tính khái quát
về cơ sở dữ liệu âm thanh, âm thanh nhạc cụ Với mục tiêu là tìm hiểu và xây
dựng cơ sở dữ liệu âm thanh nhạc cụ nên ở chương tiếp theo sẽ trình bày các đặc
trưng của dữ liệu đa phương tiện, dữ liệu âm thanh, các thao tác số hóa, chỉ mục
13
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chƣơng 2. CÁC ĐẶC TRƢNG ÂM THANH
2.1 Số hóa dữ liệu âm thanh
2.1.1 Đặc tính của âm thanh tương tự
Mục tiêu của âm thanh là truyền tải thông tin. Dựa vào lí thuyết thông tin, âm
thanh có thể được đại diện bởi thuật ngữ là nội dung thông điệp hoặc là thông tin.
Một cách khác để biểu thị âm thanh là tín hiệu mang nội dung thông điệp, tín hiệu
vật lí dạng sóng âm thanh mang nội dung thông tin.
Hình 2.1 Dạng sóng của tín hiệu âm thanh ghi nhận đƣợc
Kỹ thuật đầu tiên dùng trong việc ghi âm là sử dụng các thông số về cơ, điện
để biểu diễn sự thay đổi áp suất không khí. Chẳng hạn, điện áp tạo ra từ micro là tín
hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc không khí).
Trong hệ thống xử lí âm thanh tương tự, thông tin được truyền đạt bằng thông
số liên tục biến thiên vô hạn.
Hệ thống xử lí âm thanh số lí tưởng có những tính năng tương tự như hệ thống
xử lí âm thanh tương tự lí tưởng: cả hai loại hoạt động một cách “trong suốt” và tạo
lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lí
tưởng rất khó để tồn tại, nên hai loại hệ thống xử lí âm thanh này sẽ hoạt động rất
khác nhau. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và
với chi phí thấp hơn.
14
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.1.2 Khái niệm tín hiệu
Tín hiệu nói chung là đại lượng vật lí biến thiên theo thời gian, theo không
gian, theo một hoặc nhiều biến độc lập khác nhau. Chẳng hạn, âm thanh dao động
theo thời gian, hình ảnh là sự biến thiên cường độ sáng theo không gian (toạ độ)
Biểu diễn toán học của tín hiệu là một hàm theo biến độc lập, chẳng hạn,
u(t)=2t
2
-5 hoặc f(x,y)=x
2
-2xy+6y
2
Thông thường, các tín hiệu tự nhiên không biểu
diễn được bởi một hàm sơ cấp, cho nên trong tính toán, người ta thường dùng hàm
xấp xỉ cho tín hiệu tự nhiên.
Hệ thống là thiết bị vật lí, thiết bị sinh học, hoặc chương trình thực hiện các
phép toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin Việc thực hiện
phép toán còn được gọi là xử lí tín hiệu.
2.1.3 Phân loại tín hiệu
1. Tín hiệu đa kênh: là tín hiệu gồm nhiều tín hiệu thành phần, cùng chung mô
tả một đối tượng nào đó và thường biểu diễn dưới dạng vector. Ví dụ: tín hiệu
điện não, tín hiệu điện tim, tín hiệu ảnh
2. Tín hiệu đa chiều: là tín hiệu biến thiên theo nhiều hơn một biến độc lập.
3. Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong
đoạn thời gian [a, b], kí hiệu x(t).
Hình 2.2 Tín hiệu liên tục theo thời gian