Tải bản đầy đủ (.pdf) (50 trang)

Nhận diện cảm xúc kết hợp tiếng nói và văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.19 MB, 50 trang )

{Trang trắng này dùng để dán bản Nhận xét của người hướng dẫn, hoặc thay trang này
bằng Nhận xét của người hướng dẫn}


{Trang trắng này dùng để dán bản Nhận xét của người phản biện, hoặc thay trang này
bằng Nhận xét của người phản biện}


TĨM TẮT

I. Thơng tin chung
1. Tên đề tài: Nhận dạng cảm xúc kết hợp tiếng nói và văn bản
2. Sinh viên thực hiện: Trần Trung Trực
3. Số thẻ SV: 102160170

Lớp: 16T3

II. Tóm tắt đồ án
Nhận dạng cảm xúc kết hợp tiếng nói và văn bản có nghĩa là thơng qua một
tín hiệu tiếng nói đã biết và văn bản đại diện cho tiếng nói đó bằng các phương pháp
chun mơn, xử lý tín hiệu và văn bản, sau đó đưa ra kết luận về cảm xúc chứa đựng
trong tín hiệu tiếng nói đó. Ví dụ như: vui, buồn, chán nản, xúc động, hạnh phúc …
Nhận dạng cảm xúc tiếng nói có rất nhiều ứng dụng trong thực tế:
 Trong tương tác người – máy, robot có thể được dạy để có thể tương tác được
với con người và nhận diện được cảm xúc của con người. một vật nuôi bằng robot
có thể hiểu được khơng chỉ là những câu mệnh lệnh, mà cịn cả những thơng tin
khác, như trạng thái tình cảm hay tình trạng sức khỏe chứa đựng trong câu mệnh
lệnh đó để có những hành động tương ứng.
 Trong các tổng đài thông minh, nhận dạng cảm xúc tiếng nói giúp phát hiện
những vấn đề tiềm tàng xuất hiện từ sự khơng hài lịng của khách hàng.
 Trong các hệ thống hướng dẫn bằng lời nói thơng minh, việc phát hiện và thu


thập cảm xúc của các sinh viên được xem là 1 chiến lược quan trọng để thu hẹp
khoảng cách giữa những hướng dẫn của máy tính và con người.

iii


ĐẠI HỌC ĐÀ NẴNG

CỘNG HỊA XÃ HƠI CHỦ NGHĨA

TRƯỜNG ĐẠI HỌC BÁCH KHOA

VIỆT NAM

KHOA CÔNG NGHỆ THÔNG TIN

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1.

Họ tên sinh viên: Trần Trung Trực

Số thẻ sinh viên: 102160170

Lớp:16T3

Ngành: Hệ thống thông tin


Khoa: Công nghệ thông tin

Tên đề tài đồ án:
Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

2.

Đề tài thuộc diện: ☐ Có ký kết thỏa thuận sở hữu trí tuệ đối với kết quả thực hiện

3.

Các số liệu và dữ liệu ban đầu:
……………………………………..……………………………………………..……...
...…………………………………………………………………………………………
…..………………………………….…..………………………..………………………

4.

Nội dung các phần thuyết minh và tính tốn:
…...………………………………………………………………………………………
…...………………………………………………………………………………………
…...………………………………………………………………………………………
…...………………………………………………………………………………………
…...………………………………………………………………………………………

5.

Các bản vẽ, đồ thị ( ghi rõ các loại và kích thước bản vẽ ):
…...………………………………………………………………………………………
…...………………………………………………………………………………………

…...………………………………………………………………………………………
…...………………………………………………………………………………………

6.

Họ tên người hướng dẫn: …………………………………..……………………

7.

Ngày giao nhiệm vụ đồ án:

8.

Ngày hồn thành đồ án:

……../……./202…..
……../……./202…..
Đà Nẵng, ngày

Trưởng Bộ mơn ……………………..

tháng

Người hướng dẫn
iv

năm 201


LỜI NÓI MỞ ĐẦU


Trong suốt thời gian thực hiện và hoàn thành đồ án này, em đã nhận được sự giúp
đỡ và hướng dẫn tận tình của các Thầy, các Cô và các bạn trong Khoa Công nghệ Thông
tin Trường Đại học Bách khoa - Đại học Đà Nẵng. Em xin gửi lời cảm ơn chân thành
và sâu sắc tới các Thầy Cô trong Khoa đã giảng dạy và truyền đạt những kiến thức cần
thiết, những kinh nghiệm quý báu cho em có thể thực hiện đồ án này.
Em xin chân thành cảm ơn thầy Đặng Hoài Phương, Ninh Khánh Duy đã hỗ trợ,
giúp đỡ em rất nhiều trong quá trình thực hiện đồ án tốt nghiệp của mình. Nhờ thầy mà
nhiều vấn đề về lý thuyết cũng như thực tế đã rõ ràng và cụ thể hơn với em.
Trong quá trình học tập, cũng như trong quá trình làm đồ án tốt nghiệp khơng thể
tránh khỏi những thiếu sót, em rất mong được sự góp ý quý báu của tất cả các thầy cô
giáo cũng như tất cả các bạn để đồ án tốt nghiệp của em được hoàn thiện hơn.
Một lần nữa em xin chân thành cảm ơn và kính chúc q Thầy Cơ dồi dào sức
khỏe và thành công trong cuộc sống.

Đà Nẵng, ngày 30 tháng 11 năm 2020
Sinh viên thực hiện

Trần Trung Trực

v


CAM ĐOAN

Em xin cam đoan:
1. Những nội dung trong đồ án này là do em thực hiện dưới sự hướng dẫn trực tiếp của
thầy Đặng Hoài Phương
2. Mọi tham khảo dùng trong đồ án đều được trích dẫn rõ ràng tên tác giả, tên cơng trình,
thời gian, địa điểm cơng bố.

3. Nếu có những sao chép khơng hợp lệ, vi phạm, em xin chịu hoàn toàn trách nhiệm.
Sinh viên thực hiện
{Chữ ký, họ và tên sinh viên}

Trần Trung Trực

vi


MỤC LỤC

TÓM TẮT .................................................................................................................................iii
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP ......................................................................................... iv
LỜI NÓI MỞ ĐẦU .................................................................................................................... v
CAM ĐOAN ............................................................................................................................. vi
MỤC LỤC ................................................................................................................................vii
DANH SÁCH CÁC BẢNG, HÌNH VẼ .................................................................................... ix
DANH SÁCH CÁC TỪ VIẾT TẮT ......................................................................................... xi
MỞ ĐẦU .................................................................................................................................... 1
Chương 1: NGHIÊN CỨU TỔNG QUAN ................................................................................ 2
1.1 Tổng quan ......................................................................................................................... 2
1.1.1 Giới thiệu ................................................................................................................... 2
1.1.2 Học máy ..................................................................................................................... 2
1.1.3 Học sâu ...................................................................................................................... 4
1.2 Xử lý ngôn ngữ tự nhiên ................................................................................................... 5
1.2.1 Giới thiệu ................................................................................................................... 5
1.2.2 Một số ứng dụng của xử lí ngơn ngữ tự nhiên........................................................... 5
1.3 Xử lý tiếng nói .................................................................................................................. 7
1.3.1 Giới thiệu ................................................................................................................... 7
1.3.2 Một số ứng dụng của xử lý tiếng nói ......................................................................... 7

1.4 Nhận dạng cảm xúc .......................................................................................................... 8
1.4.1 Giới thiệu ................................................................................................................... 8
1.4.2 Một số ứng dụng của nhận dạng cảm xúc ................................................................. 8
Chương 2: NHẬN DẠNG CẢM XÚC KẾT HỢP TIẾNG NÓI VÀ VĂN BẢN ..................... 9
2.1 Giới thiệu .......................................................................................................................... 9
2.2 Dataset .............................................................................................................................. 9
2.3 Quy trình thực hiện ......................................................................................................... 13
2.4 Nhận dạng cảm xúc từ tín hiệu tiếng nói ........................................................................ 14
2.4.1 Trích chọn các đặc trưng của tín hiệu tiếng nói...................................................... 14
2.4.2 Xây dựng mơ hình .................................................................................................... 19
2.4.3 Các tham số huấn luyện và kiểm thử mơ hình ......................................................... 22
2.5 Nhận dạng cảm xúc từ văn bản ...................................................................................... 23
2.5.1 Vector hóa văn bản là gì ? ...................................................................................... 23
2.5.2 Xây dựng mơ hình .................................................................................................... 25
vii


2.5.3 Các tham số huấn luyện và kiểm thử mô hình ......................................................... 26
2.6 Nhận dạng cảm xúc kết hợp tiếng nói và văn bản .......................................................... 27
Chương 3: KẾT QUẢ THỰC NGHIỆM................................................................................. 28
3.1 Giới thiệu ........................................................................................................................ 28
3.2 Kết quả thực nghiệm....................................................................................................... 29
3.2.1 Kết quả nhận dạng cảm xúc từ tiếng nói ................................................................. 29
3.2.2 Kết quả nhận dạng cảm xúc từ văn bản .................................................................. 30
3.2.3 Kết quả nhận dạng cảm xúc kết hợp tiếng nói và văn bản ...................................... 31
Chương 4: XÂY DỰNG ỨNG DỤNG NHẬN DẠNG CẢM XÚC........................................ 32
4.1 Giới thiệu ........................................................................................................................ 32
4.2 Kết quả............................................................................................................................ 32
4.2.1 Trang chủ................................................................................................................. 32
4.2.2 Trang nhận diện cảm xúc từ tiếng nói ..................................................................... 33

4.2.3 Trang nhận diện cảm xúc từ văn bản ...................................................................... 34
4.2.4 Trang nhận diện cảm xúc kết hợp tiếng nói và văn bản .......................................... 35
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................................ 36
TÀI LIỆU THAM KHẢO ........................................................................................................ 38
PHỤ LỤC ................................................................................................................................. 39

viii


DANH SÁCH CÁC BẢNG, HÌNH VẼ
Bảng 3.1. Kết quả nhận diện cảm xúc từ tiếng nói khi chưa tăng cường dữ liệu (độ đo
accuracy) ................................................................................................................................... 29
Bảng 3.2. Kết quả nhận diện cảm xúc từ tiếng nói khi tăng cường dữ liệu (độ đo accuracy) .. 30
Bảng 3.3. Kết quả nhận diện cảm xúc từ văn bản khi áp dụng các mơ hình truyền thống ...... 30
Bảng 3.4. . Kết quả nhận diện cảm xúc từ văn bản khi áp dụng mơ hình BERT ..................... 31
Bảng 3.5. Kết quả nhận diện cảm xúc kết hợp tiếng nói và văn bản ........................................ 31
Hình 1.1. Mơ hình chung các thuật tốn học có giám sát........................................................... 3
Hình 1.2. Mơ hình chung cho các thuật tốn học khơng giám sát.............................................. 4
Hình 1.3. Hình ảnh kiến trúc mạng neuron đại diện cho học sâu ............................................... 5
Hình 2.1. Hình ảnh cuộc đối thoại giữa 2 diễn viên trong IEMOCAP dataset [3] ................... 10
Hình 2.2. Hình ảnh phịng thu âm, gắn nhãn cho dữ liệu [3] ................................................... 10
Hình 2.3. Thơng tin vị trí đầu, biểu cảm trên khn mặt diễn viên sẽ được ghi lại [3] ........... 11
Hình 2.4. Biểu diễn không gian của các nhãn chiều: activation, valence và dominance ......... 12
Hình 2.5. Phần mềm để chú thích biểu cảm và các thuộc tính của cuộc đối thoại [3] ............ 12
Hình 2.6. Quy trình thực hiện nhận dạng cảm xúc dựa trên tiếng nói và văn bản ................... 13
Hình 2.7. Biểu diễn tín hiệu tiếng nói theo miền thời gian ...................................................... 15
Hình 2.8. Biến đổi Fourier chuyển tín hiệu từ miền thời gian sang miền tần số ...................... 15
Hình 2.9. Ảnh phổ thu được sau biến đổi Fourier .................................................................... 16
Hình 2.10. Quy trình để trích xuất được quang phổ (Spectrogram) ......................................... 17
Hình 2.11. Ảnh quang phổ (Spectrogram) ............................................................................... 18

Hình 2.12. Ảnh Melspectrogram được lấy theo thang âm mel ................................................ 18
Hình 2.13. Sơ đồ khối của trích xuất đặc trưng MFCC ............................................................ 19
Hình 2.14. Ảnh Mel Frequency Cepstral Coefficients (MFCC) .............................................. 19
Hình 2.15. Kiến trúc mơ hình tổng quan của nhận dạng cảm xúc từ tiếng nói [1] .................. 20
Hình 2.16. Kiến trúc Convolution layer trong deep learning ................................................... 21
Hình 2.17. Kiến trúc Max Pooling layer trong deep learning .................................................. 21
Hình 2.18. Kiến trúc Fully connect layer [6] trong deep learning............................................ 22
Hình 2.19. Ví dụ về mã hóa BPE ............................................................................................. 24
Hình 2.20. Kiến trúc mơ hình BERT dùng để phân loại văn bản ............................................. 25
Hình 2.21. Kiến trúc transformer sử dụng cơ chế attention ..................................................... 26
Hình 4.1. Trang chủ của ứng dụng ........................................................................................... 33
Hình 4.2. Các file âm thanh khi record..................................................................................... 33
Hình 4.3. Upload một file âm thanh từ máy tính ...................................................................... 34
Hình 4.4. Kết quả cảm xúc được nhận diện từ tiếng nói và xác suất dự đoán đúng khi ấn nút
Submit....................................................................................................................................... 34
ix


Hình 4.5. Nhập một đoạn văn bản để nhận diện cảm xúc ........................................................ 34
Hình 4.6. Kết quả cảm xúc được nhận diện từ văn bản và xác suất dự đoán đúng khi ấn nút
Submit....................................................................................................................................... 35
Hình 4.7. Upload 1 file âm thanh từ máy tính và 1 file txt tương ứng ..................................... 35
Hình 4.8. Kết quả cảm xúc được nhận diện kết hợp tiếng nói và văn bản, xác suất dự đoán
đúng khi ấn nút Submit............................................................................................................. 35

x


DANH SÁCH CÁC TỪ VIẾT TẮT


Từ viết tắt

Diễn giải

SER

Speech Emotion Recognition

NLP

Natural Language Processing

BERT

Bidirectional Encoder Representations from Transformers

RNN

Recurrent Neural Network

LSTM

Long Short Term Memory

FFT

Fast Fourier Transform

MFCC


Mel Frequency Cepstral Coefficients

ACC

Accuracy

UA

Unweight Accuracy

WA

Weight Accuracy

BPE

Byte Pair Encoding

RF

Random Forest

CNN

Convolution Neural Network

MNB

Multinomial Naive Bayes


LR

Logistic Regression

MLP

Multi Layer Perceptron

xi


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

MỞ ĐẦU

1. Tổng quan đề tài
Nhận dạng cảm xúc kết hợp tiếng nói và văn bản có nghĩa là thơng qua 1 tiếng
hiệu tiếng nói đã biết và văn bản đại diện cho tiếng nói đó bằng các phương pháp chun
mơn, xử lý tín hiệu và văn bản, sau đó đưa ra kết luận về cảm xúc chứa đựng trong tín
hiệu tiếng nói đó. Ví dụ như: vui, buồn, chán nản, xúc động, hạnh phúc.
2. Phạm vi, đối tượng
Dựa trên việc nghiên cứu tìm hiểu các bài báo khoa học về speech emotion, em
đã xây dựng 1 ứng dụng nhận dạng cảm xúc kết hợp tiếng nói và văn bản có độ chính
cao trên tập dữ liệu IEMOCAP dựa trên bài báo SPEECH EMOTION RECOGNITION
WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION [1] được
public ngày 03/02/2021 kết hợp với việc phân loại văn bản dựa trên kiến trúc model
BERT [2](1 kiến trúc model mới mẻ và có tính ứng dụng cao trong xử lí ngơn ngữ tự
nhiên).

Sinh viên thực hiện: Trần Trung Trực


Hướng dẫn: TS. Ninh Khánh Duy

1


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Chương 1: NGHIÊN CỨU TỔNG QUAN

1.1 Tổng quan
1.1.1 Giới thiệu
Trọng tâm chính của đồ án này là xây dựng hệ thống nhận dạng cảm xúc dựa trên
xử lí tiếng nói và văn bản và đây cũng là một ứng dụng của học máy kết hợp với xử lí
tiếng nói và xử lí ngơn ngữ tự nhiên. Chương này sẽ cung cấp một cái nhìn chung về
các lĩnh vực nghiên cứu này và ứng dụng của chúng. Chúng ta sẽ cùng tìm hiểu một số
vấn đề cơ bản trước khi đi vào chi tiết ở các chương sau.
1.1.2 Học máy
Học máy là gì? Trong những năm gần đây, có rất nhiều thành tựu mà con người
đã đạt được trong khoa học và Công nghệ. Những thành công này đã đưa thời đại này
trở thành Đệ tứ cách mạng Công nghiệp như mọi người thường nói và hầu hết trong số
đó là triển khai AI và Máy học.
Với định nghĩa này, chúng ta có thể hiểu rằng Học máy là một quá trình máy tính
hoặc bất kỳ thiết bị tính tốn nào có thể tự học để tạo ra đầu ra mong muốn bằng cách
sử dụng đầu vào nhất định. Có nhiều cách tiếp cận trong Học máy về thuật toán. Chúng
ta có thể kể đến một số cái tên phổ biến:
 Học có giám sát
 Học khơng giám sát
 Học có giám sát
Trong quá trình này, con người cung cấp dữ liệu đào tạo bao gồm dữ liệu đầu vào

và đầu ra mong muốn của chúng (nhãn). Với mơ hình kiến trúc học, cơng việc của máy
tính là học mẫu hoặc quy tắc chung để tạo ra kết quả với đầu vào mới dựa trên những gì
họ đã học được từ tập dữ liệu ban đầu.

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

2


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Hình 1.1. Mơ hình chung các thuật tốn học có giám sát
Học có giám sát được sử dụng rộng rãi trong thực tế và có hai loại ứng dụng phổ
biến nhất:
 Hồi quy: Mơ hình hồi quy là một mơ hình cố gắng khớp tất cả các điểm dữ liệu
(các cặp đầu vào-đầu ra) với một siêu mặt phẳng đi qua tất cả các điểm (hoặc gần
nhất có thể). Bằng cách đó, chúng em có thể tạo ra một mơ hình để dự đốn số
đầu ra của một điểm dữ liệu mới. Một số ứng dụng phổ biến là:
 Phân loại: Những vấn đề này liên quan đến việc dự đốn các nhãn của đầu vào.
Chương trình được cung cấp một tập hợp các đầu vào và nhãn, công việc của nó
là tìm một mơ hình để dự đốn nhãn tương ứng vào dữ liệu đầu vào.
 Học khơng có giám sát
Trong q trình này, chương trình tính tốn nhận dữ liệu đầu vào không được
gắn nhãn để tạo ra kết quả khơng thể đốn trước. Cơng việc của nó là tìm ra các thuộc
tính ẩn của tập dữ liệu mà không biết nhãn đầu ra sẽ trông giống như thế nào.

Sinh viên thực hiện: Trần Trung Trực


Hướng dẫn: TS. Ninh Khánh Duy

3


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Hình 1.2. Mơ hình chung cho các thuật tốn học không giám sát
Học tập không giám sát thường được sử dụng trong các vấn đề khơng có tập dữ liệu
được gắn nhãn thích hợp (cho dù q khó để gắn nhãn hay việc dán nhãn khôngcần
thiết). Đây là một số thể loại phổ biến của
Học không giám sát nhiệm vụ:
 Phân cụm: Phân cụm là một q trình nhóm các đối tượng, datapoints trong tập dữ
liệu có một số thuộc tính tương tự và phân chia chúng thành nhóm. Chúng ta có
thể kể tên một số thuật tốn:
 Phát hiện bất thường: Phát hiện các vật phẩm hiếm, bất thường, điểm dữ liệu khác
biệt đáng kể so với phần lớn tập dữ liệu.
1.1.3 Học sâu
Học sâu là một chức năng của trí tuệ nhân tạo (AI), bắt chước hoạt động của bộ
não con người trong việc xử lí dữ liệu và tạo ra các mẫu để sử dụng cho việc ra quyết
định. Học sâu là tập con của học máy trong AI, có các mạng lưới có khả năng "học" mà
khơng bị giám sát từ dữ liệu khơng có cấu trúc hoặc không được gắn nhãn.
Học sâu đã phát triển cùng với thời đại kĩ thuật số, điều này đã mang lại sự bùng nổ dữ
liệu dưới mọi hình thức và từ mọi khu vực trên thế giới. Dữ liệu này, gọi đơn giản là dữ
liệu lớn, được lấy từ các nguồn như phương tiện truyền thông xã hội, công cụ tìm kiếm
trên internet, nền tảng thương mại điện tử hoặc rạp chiếu phim trực tuyến,...
Học sâu, một tập con của học máy, sử dụng các lớp, bậc của mạng nơ-ron nhân tạo để
thực hiện quá trình học máy. Các mạng nơ-ron được xây dựng giống như bộ não của
con người, với các nút rơ-ron được kết nối với nhau như một trang web.


Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

4


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Hình 1.3. Hình ảnh kiến trúc mạng neuron đại diện cho học sâu
1.2 Xử lý ngôn ngữ tự nhiên
1.2.1 Giới thiệu
Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một nhánh của
trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ
nhân tạo thì xử lí ngơn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan
đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếp. Mục
tiêu của lĩnh vực này là giúp máy tính hiểu và thực hiện hiệu quả những nhiệm vụ liên
quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cải thiện hiệu quả
giao tiếp giữa con người với con người, hoặc đơn giản là nâng cao hiệu quả xử lý văn
bản, phân tích dữ liệu văn bản.
Các ứng dụng quan trọng của xử lý văn bản bao gồm tìm kiếm và truy xuất thơng tin,
dịch máy, tóm tắt văn bản tự động, hay kiểm lỗi chính tả tự động. Xử lý văn bản đôi khi
được chia tiếp thành hai nhánh nhỏ hơn bao gồm hiểu văn bản và sinh văn bản. Nếu như
hiểu liên quan tới các bài tốn phân tích văn bản thì sinh liên quan tới nhiệm vụ tạo ra
văn bản mới như trong các ứng dụng về dịch máy hoặc tóm tắt văn bản tự động.
1.2.2 Một số ứng dụng của xử lí ngơn ngữ tự nhiên
NLP ngày càng được ứng dụng nhiều. Một số ứng dụng có thể kể đến như:
 Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví dụ
nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như
dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là nhận dạng chữ

viết tay, có khó khăn bởi vì chữ viết tay khơng có khn dạng rõ ràng và thay đổi từ
người này sang người khác. Với chương trình nhận dạng chữ viết in có thể chuyển
Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

5


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn. Nhận
dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông
tin (nhận dạng chữ ký điện tử).
 Truy xuất thơng tin (Information Retrieval – IR) có nhiệm vụ tìm các tài liệu dưới
dạng khơng có cấu trúc (thường là văn bản) đáp ứng nhu cầu về thông tin từ những
nguồn tổng hợp lớn. Những hệ thống truy xuất thông tin phổ biến nhất bao gồm các
công cụ tìm kiếm như Google, Yahoo, hoặc Bing search. Những cơng cụ này cho
phép tiếp nhận một câu truy vấn dưới dạng ngôn ngữ tự nhiên làm đầu vào và cho ra
một danh sách các tài liệu được sắp xếp theo mức độ phù hợp.
 Trích chọn thơng tin (Information Extraction – IE) nhận diện một số loại thực thể
được xác định trước, mối quan hệ giữa các thực thể và các sự kiện trong văn bản
ngôn ngữ tự nhiên. Khác với truy xuất thông tin trả về một danh sách các văn bản
hợp lệ thì trích chọn thơng tin trả về chính xác thơng tin mà người dùng cần. Những
thơng tin này có thể là về con người, địa điểm, tổ chức, ngày tháng, hoặc thậm chí
tên cơng ty, mẫu sản phẩm hay giá cả.
 Trả lời câu hỏi (Question Answering – QA) có khả năng tự động trả lời câu hỏi của
con người ở dạng ngôn ngữ tự nhiên bằng cách truy xuất thông tin từ một tập hợp tài
liệu. Một hệ thống QA đặc trưng thường bao gồm ba mô đun: Mô đun xử lý truy vấn
(Query Processing Module) – tiến hành phân loại câu hỏi và mở rộng truy vấn; Mô

đun xử lý tài liệu (Document Processing Module) – tiến hành truy xuất thơng tin để
tìm ra tài liệu thích hợp; và Mơ hình xử lý câu trả lời (Answer Processing Module)
– trích chọn câu trả lời từ tài liệu đã được truy xuất.
 Tóm tắt văn bản tự động (Automatic Text Summarization) là bài toán thu gọn văn
bản đầu vào để cho ra một bản tóm tắt ngắn gọn với những nội dung quan trọng nhất
của văn bản gốc. Có hai phương pháp chính trong tóm tắt, là phương pháp trích xuất
(extractive) và phương pháp tóm lược ý (abstractive). Những bản tóm tắt trích xuất
được hình thành bằng cách ghép một số câu được lấy y nguyên từ văn bản cần thu
gọn. Những bản tóm lược ý thường truyền đạt những thơng tin chính của đầu vào và
có thể sử dụng lại những cụm từ hay mệnh đề trong đó, nhưng nhìn chung được thể
hiện ở ngơn ngữ của người tóm tắt.
 Chatbot là việc chương trình máy tính có khả năng trị chuyện (chat), hỏi đáp với
con người qua hình thức hội thoại dưới dạng văn bản (text). Chatbot thường được sử
dụng trong ứng dụng hỗ trợ khách hàng, giúp người dùng tìm kiếm thơng tin sản
phẩm, hoặc giải đáp thắc mắc.

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

6


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

 Dịch máy (Machine Translation – MT) là việc sử dụng máy tính để tự động hóa một
phần hoặc tồn bộ q trình dịch từ ngơn ngữ này sang ngơn ngữ khác. Các phương
pháp dịch máy phổ biến bao gồm dịch máy dựa trên ví dụ (example-based machine
translation – EBMT), dịch máy dựa trên luật (rule-based machine translation –
RBMT), dịch máy thống kê (statistical machine translation – SMT), và dịch máy sử

dụng mạng nơ-ron (neural machine translation).
 Kiểm lỗi chính tả tự động là việc sử dụng máy tính để tự động phát hiện các lỗi
chính tả trong văn bản (lỗi từ vựng, lỗi ngữ pháp, lỗi ngữ nghĩa) và đưa ra gợi ý cách
chỉnh sửa lỗi.
1.3 Xử lý tiếng nói
1.3.1 Giới thiệu
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc
đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một q trình gồm nhiều
người, có sự hiểu hiết chung và một nghi thức luân phiên nhau nói. Những người có
điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó
tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu
tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương
mặt, cử chỉ, điệu bộ. Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới
dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Tín hiệu tiếng nói thường
được thể hiện dưới dạng số, tức là được "số hóa", và do đó xử lý tiếng nói có thể được
coi là giao của xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên.
1.3.2 Một số ứng dụng của xử lý tiếng nói
Xử lý tiếng nói có rất nhiều ứng dụng, có thể kể đến như sau:


Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngơn ngữ của tín hiệu
tiếng nói. Mục đích là để chuyển nội dung nói thành tín hiệu đầu vào của máy tính,
giúp cho máy tính có thể xử lý và tương tác được với người nói.



Nhận dạng người nói: mục đích là để nhận ra người nói là ai và/hoặc là xác minh
liệu người đang nói có đúng là người mà máy tính đã được biết trước hay khơng
(tính xác thật của giọng nói).




Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe về chất lượng
tiếng nói. Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm/khử tiếng vọng
(trong kỹ thuật điện thoại), v.v...

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

7


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản


Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trị quan trọng trong lĩnh
vực viễn thơng. Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc
nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thơng đường truyền.



Tổng hợp tiếng nói: là tạo ra tiếng nói một cách nhân tạo nhờ máy tính.



Phân tích giọng nói:được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết
tật hay vấn đề của dây thanh âm, thanh quản, v.v...




Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát
ra âm thanh (có thể là loa, người nói, v.v...). Nó được ứng dụng trong hội nghị hình
thoại (videoconference) là hội nghị mà người tham gia ở các nơi khác nhau, hình
ảnh và âm thanh ở hai hay nhiều đầu cầu của hội nghị được truyền tải cho nhau qua
hệ thống điện thoại số, internet hoặc sóng vệ tinh. Khi vị trí người nói trong hội nghị
được xác định, máy ghi hình được lập trình sẽ tự động quay đến vị trí đó và gửi hình
ảnh đi. Ngồi ra định vị nguồn âm thanh cịn có ứng dụng trong các kỹ thuật tăng
chất lượng tiếng nói, trong theo dõi an ninh, …

1.4 Nhận dạng cảm xúc
1.4.1 Giới thiệu
Nhận dạng cảm xúc hay còn gọi là Speech Emotion Recognition, viết tắt là SER,
là hành động cố gắng nhận ra cảm xúc và trạng thái tình cảm của con người từ lời nói.
Điều này đang tận dụng thực tế rằng giọng nói thường phản ánh cảm xúc tiềm ẩn thông
qua giai điệu và cao độ. SER là 1 đề tài rất khó vì cảm xúc của con người là chủ quan
và việc gán label cho các file âm thanh là một thách thức.
1.4.2 Một số ứng dụng của nhận dạng cảm xúc
Nhận dạng cảm xúc tiếng nói có rất nhiều ứng dụng trong thực tế:
 Trong tương tác người – máy, robot có thể được dạy để có thể tương tác được với
con người và nhận diện được cảm xúc của con người. một vật nuôi bằng robot có thể
hiểu được khơng chỉ là những câu mệnh lệnh, mà cịn cả những thơng tin khác, như
trạng thái tình cảm hay tình trạng sức khỏe chứa đựng trong câu mệnh lệnh đó để có
những hành động tương ứng.
 Trong các tổng đài thông minh, nhận dạng cảm xúc tiếng nói giúp phát hiện những
vấn đề tiềm tàng xuất hiện từ sự khơng hài lịng của khách hàng.
 Trong các hệ thống hướng dẫn bằng lời nói thơng minh, việc phát hiện và thu thập
cảm xúc của các sinh viên được xem là 1 chiến lược quan trọng để thu hẹp khoảng
cách giữa những hướng dẫn của máy tính và con người.


Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

8


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Chương 2: NHẬN DẠNG CẢM XÚC KẾT HỢP TIẾNG NÓI VÀ VĂN
BẢN

2.1 Giới thiệu
Nhận dạng cảm xúc kết hợp tiếng nói và văn bản có nghĩa là thơng qua một
tín hiệu tiếng nói đã biết và văn bản đại diện cho tiếng nói đó bằng các phương pháp
chun mơn, xử lý tín hiệu và văn bản, sau đó đưa ra kết luận về cảm xúc chứa đựng
trong tín hiệu tiếng nói đó. Ví dụ như: vui, buồn, chán nản, xúc động, hạnh phúc.
Dựa trên việc nghiên cứu tìm hiểu các bài báo khoa học về speech emotion, em đã xây
dựng 1 ứng dụng nhận dạng cảm xúc kết hợp tiếng nói và văn bản có độ chính cao trên
tập dữ liệu IEMOCAP dựa trên bài báo SPEECH EMOTION RECOGNITION WITH
MULTISCALE AREA ATTENTION AND DATA AUGMENTATION [1] được public
ngày 03/02/2021 kết hợp với việc phân loại văn bản dựa trên kiến trúc model BERT
[2](1 kiến trúc model mới mẻ và có tính ứng dụng cao trong xử lí ngơn ngữ tự nhiên).
2.2 Dataset
Cơ sở dữ liệu Interactive Emotional Dyadic Motion Capture (IEMOCAP) [3] là
một cơ sở dữ liệu hành động, đa phương thức và đa loa, gần đây được thu thập tại phịng
thí nghiệm SAIL tại USC. Nó chứa khoảng 12 giờ dữ liệu nghe nhìn, bao gồm video,
giọng nói, chụp chuyển động của khn mặt, phiên âm văn bản. Nó bao gồm các phiên
khó xử trong đó các diễn viên thực hiện các ứng biến hoặc các kịch bản theo kịch bản,
được lựa chọn cụ thể để khơi gợi những biểu hiện cảm xúc. Cơ sở dữ liệu IEMOCAP

được nhiều nhà chú giải chú thích thành các nhãn phân loại, chẳng hạn như tức giận,
hạnh phúc, buồn bã, trung lập, cũng như các nhãn chiều như valence, activation và
dominance. Thông tin nắm bắt chuyển động chi tiết, cài đặt tương tác để khơi gợi cảm
xúc chân thực và kích thước của cơ sở dữ liệu làm cho kho dữ liệu này trở thành một bổ
sung có giá trị cho cơ sở dữ liệu hiện có trong cộng đồng để nghiên cứu và mơ hình hóa
giao tiếp đa phương thức và biểu cảm của con người.

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

9


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Hình 2.1. Hình ảnh cuộc đối thoại giữa 2 diễn viên trong IEMOCAP dataset [3]

Hình 2.2. Hình ảnh phịng thu âm, gắn nhãn cho dữ liệu [3]
Thông tin chi tiết


Ngôn ngữ: tiếng anh



10 diễn viên: 5 nam và 5 nữ
5 session với 5 cặp diễn viên
Gồm 12 giờ dữ liệu (10034 file âm thanh, mỗi file có độ dài 02 giây đến 15 giây)
Cảm xúc:











trung tính-bình thường: 1708 file âm thanh
vui vẻ: 1041 file âm thanh
buồn bã: 1084 file âm thanh
tức giận: 1103 file âm thanh

 sợ hãi: 40 file âm thanh
Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

10


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

 ngạc nhiên: 107 file âm thanh
 trạng thái khác (chưa xác định được cảm xúc): 4951 file âm thanh
Phương thức





Thông tin khuôn mặt chụp chuyển động
Phát biểu



Video
Thông tin về chuyển động của đầu và góc của đầu
Bản ghi hộp thoại



Mức độ từ, mức độ âm tiết và căn chỉnh mức độ âm vị



Hình 2.3. Thơng tin vị trí đầu, biểu cảm trên khuôn mặt diễn viên sẽ được ghi lại [3]
Chú thích



Các phiên được phân đoạn theo cách thủ cơng thành các lời phát biểu
Mỗi câu nói được chú thích bởi ít nhất 3 người chú thích
Thuộc tính phân loại:
o tức giận, hạnh phúc, phấn khích, buồn bã, thất vọng, sợ hãi, ngạc nhiên,
trạng thái khác và trung tính




Thuộc tính nhãn chiều: valence, activation và dominance




Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

11


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Hình 2.4. Biểu diễn khơng gian của các nhãn chiều: activation, valence và dominance

Hình 2.5. Phần mềm để chú thích biểu cảm và các thuộc tính của cuộc đối thoại [3]

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

12


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

2.3 Quy trình thực hiện

Hình 2.6. Quy trình thực hiện nhận dạng cảm xúc dựa trên tiếng nói và văn bản


Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

13


Nhận dạng cảm xúc kết hợp tiếng nói và văn bản

Quy trình thực hiện ở đây gồm có 2 phần:
 Phần 1: nhận dạng cảm xúc từ tín hiệu tiếng nói gồm các bước sau đây: trích
chọn đặc trưng của tín hiệu tiếng nói (Melspectrogram, MFCC), huấn luyện mơ
hình, nhận dạng cảm xúc từ tiếng nói.
 Phần 2: nhận dạng cảm xúc từ văn bản đại diện cho tiếng nói gồm các bước sau
đây: vector hóa văn bản (tokenize), hiệu chỉnh mơ hình BERT, nhận dạng cảm
xúc từ văn bản.
Sau khi có 2 cảm xúc được nhận dạng từ 2 phần trên, em tổng hợp lại để đưa ra cảm xúc
cuối cùng theo cơng thức:
F(x) = w1.p1(x) + w2.p2(x)
Trong đó:
 p1(x): xác suất cảm xúc được nhận dạng từ tín hiệu tiếng nói
 p2(x): xác suất cảm xúc được nhận dạng từ văn bản
 w1, w2: lần lượt là trọng số của tiếng nói và trọng số của văn bản (w1= 0.6,
w2= 0.4)
Sau đây em xin trình bày chi tiết hơn về quá trình thực hiện.
2.4 Nhận dạng cảm xúc từ tín hiệu tiếng nói
2.4.1 Trích chọn các đặc trưng của tín hiệu tiếng nói
Để trích xuất được các đặc trưng của tín hiệu tiếng nói như Melspectrogram [4],
MFCC [5] thì chúng ta cần phải hiểu tín hiệu tiếng nói là gì? Tín hiệu là sự biến đổi một

lượng nhất định theo thời gian. Làm thế nào để chúng ta có thể nắm bắt thơng tin bằng
kĩ thuật số? Chúng ta có thể lấy mẫu tín hiệu theo thời gian, tốc độ lấy mẫu tín hiệu có
thể khác nhau nhưng phổ biến là 44,1 kHz hoặc 44,100 mẫu mỗi giây. Những gì thu
được là tín hiệu liên tục được biểu diễn ở dạng sóng theo miền thời gian.

Sinh viên thực hiện: Trần Trung Trực

Hướng dẫn: TS. Ninh Khánh Duy

14


×