SỬ DỤNG SVM KẾT HỢP VỚI HỌC SÂU ĐỂ NÂNG CAO CHẤT LƯỢNG XỬ LÝ TIẾNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (369.87 KB, 37 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
VIỆN CÔNG NGHỆ THÔNG TIN

BÙI TRUNG DŨNG

SỬ DỤNG SVM KẾT HỢP VỚI HỌC SÂU
ĐỂ NÂNG CAO CHẤT LƯỢNG XỬ LÝ
TIẾNG NÓI
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Khoa học máy tính
Người hướng dẫn khoa học

TS. Nguyễn Năng An

HÀ NỘI - NĂM 2020

LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy TS. Nguyễn Năng An, giảng viên Viện
Công nghệ thông tin, trường Đại học Sư phạm Hà Nội 2, người đã trực tiếp
hướng dẫn em trong suốt thời gian qua để em có thể hồn thành khóa luận.
Em xin gửi lời cảm ơn tới các thầy, cô giáo trong Viện Công nghệ thông
tin, các bạn lớp K43 – Công nghệ thông tin đã tạo điều kiện, động viên khích lệ
em trong suốt quá trình học tập và nghiên cứu.
Do thời gian nghiên cứu còn hạn chế nên những vấn đề mà em trình bày
trong khóa luận sẽ khơng tránh khỏi những thiếu xót. Em kính mong nhận được
những ý kiến đóng góp từ thầy cơ và các bạn để bài khóa luận của em được
hoàn thiện hơn
Em xin trân thành cảm ơn!
Hà Nội, ngày tháng 5 năm 2021
Sinh viên

Bùi Trung Dũng

2

LỜI CAM ĐOAN
Tơi xin cam đoan khóa luận này được hoàn thành bằng sự cố gắng của
bản thân, dưới sự hướng dẫn tận tình của thầy giáo TS. Nguyễn Năng An và
tham khảo một số tài liệu đã được ghi rõ nguồn.
Khóa luận hồn tồn khơng sao chép từ tài liệu có sẵn nào. Kết quả
nghiên cứu khơng trùng lặp với các tác giả khác.
Nếu sai, tơi xin hồn tồn chịu trách nhiệm!
Hà Nội, ngày tháng 5 năm 2021
Sinh viên

Bùi Trung Dũng

3

DANH MỤC CÁC HÌNH

4

MỤC LỤC

5

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
1.1. Lý do chọn đề tài
Trong cuộc sống hàng ngày, tiếng nói tự nhiên chính là phương tiện giao
tiếp đơn giản, hiệu quả và thông dụng nhất giữa người với người. Tiếng nói đã
trở nên quá quen thuộc đối với con người ngay từ khi mới lọt lịng. Tầm quan
trọng của tiếng nói trong cuộc sống hàng ngày là điều không thể phủ nhận. Tuy
nhiên, ngày nay khi “vạn vật đều được kết nối” và máy móc có ở khắp mọi nơi
xung quanh chúng ta thì loại hình giao tiếp cơ bản nhất giữa con người và máy
móc lại là các dịng lệnh, các chỉ thị thơng qua việc gõ phím hay nhấn nút. Các
dịng lệnh đó thường rất máy móc và khó nhớ đỗi với mỗi con người, đồng thời
các thao tác bằng tay cũng chậm hơn so với việc sử dụng tiếng nói. Chúng ta
hãy thử tưởng tượng xem cuộc sống sẽ trở nên dễ dàng như thế nào nếu chúng
ta có thể giao tiếp được với máy móc bằng ngơn ngữ tiếng nói, chúng ta có thể
điểu khiển quay số, mở cửa, soạn thảo văn bản đều bằng tiếng nói.
Xử lý tiếng nói là một dạng kỹ thuật phân biệt tín hiệu và xử lý tiếng nói là
nghiên cứu tiếng nói con người dưới dạng tín hiệu. Mặc dù có rất nhiều lý
thuyết đã được đưa ra, tuy nhiên những gì đã đạt được vẫn là chưa đủ để tiếng
nói có thể thay thế hồn tồn những dịng lệnh hay nút bấm trong giao tiếp giữa
người và máy. Tuy nhiên những tành tựu đạt được đó cũng đã giúp con người
giải quyết khá nhiều bài toán trong cuộc sống. Một số điện thoại di động đã có
thể cho phép quay số tự động khi người dùng đọc tên người cần gọi có trong
danh bạ, hay con người đã điều khiển được robot bằng giọng nói bằng những
chỉ thị ngắn nằm trong tập hữu hạn các chỉ thị đã được huấn luyện trước đó.
Xử lý tiếng nói dựa vào kỹ thuật xử lý không đồng nhất về đặc trưng âm
thanh để thực hiện phân biệt và nhận dạng. Kỹ thuật xử lý tiếng nói là kỹ thuật
bị ảnh hưởng bởi các nguyên nhân chính như mơi trường, thơng tin và độ dài
của thời gian. Đối với các kỹ thuật xử lý tiếng nói trước kia vẫn chưa khác phục
được hết các nguyên nhân kể trên. Từ đó dẫn đến các kỹ thuật xử lý tiếng nói
truyền thống đã khơng cịn nhận được sự quan tâm của các chuyên gia và đòi

hỏi yêu cầu bắt buộc phải cải tiến. Trong những năm gần đây theo xu thế phát
triển của các thiết bị thông minh sử dụng nhiều đến xử lý tiếng nói, đồng thời
lợi dụng vào sự phát triển mạnh mẽ của lý thuyết học sâu thì kỹ thuật xử lý
tiếng nói trở thành một lĩnh vực được rất nhiều người quan tâm. Cùng với sự
phát triển của kỹ thuật nhận dạng vân tay và nhận dạng khn mặt. Kỹ thuật
phân biệt tiếng nói ngày nay có tên gọi phân biệt “Vân âm”, cơng việc chủ yếu
6

là phân biệt tiếng nói tại mơi trường thực tại, tiến hành nhận dạng thân phận dựa
vào các kỹ thuật cơ bản của phân biệt tiếng nói. Chính vì vậy u cầu về tính
bảo mật, an tồn và chính xác của phân biệt tiếng nói ngày càng được coi trọng.
Các kỹ thuật xử lý tiếng nói hiện nay chưa đáp ứng được các u cầu nêu trên vì
vậy nhóm nghiên cứu chúng tôi đã đề xuất một phương pháp mới kết hợp các
kỹ thuật xử lý tiếng nói trước cùng với máy hỗ trợ vector (SVM) kết hợp với
học sâu để đưa ra một mơ hình xử lý tiếng nói mới.
Xử lý tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói.
Đây là q trình biến đổi tín hiệu âm thanh thu được bằng micro, qua các thiết
bị thu thanh khác thành một chuỗi các từ, sau đó được nhận dạng để sử dụng
trong ứng dụng điều khiển thiết bị, nhập dữ liệu hoặc soạn thảo văn bản bằng
lời hoặc đưa đến một quá trình xử lý ngơn ngữ ở mức cao hơn. Tiếng nói là
công cụ truyền đạt thông tin quan trọng nhất của người. Như bình thường,
chúng ta khơng để ý q trình nhận dạng tiếng nói diễn ra như thế nào? tại sao
chúng ta hiểu được các từ, các câu, các đoạn một cách đơn giản như vậy? Trên
thực tế, thi quá trình nhận dạng tiếng nói của người là một q trình phức tạp.
Hiện nay, các nhà nghiên cứu cố gắng tìm hiểu và mơ phỏng q trình nhận
dạng tiếng nói của người dưới dạng các chương trình máy tính. Nhưng đây là
vấn đề rất rộng, có liên quan tới nhiều ngành nghiên cứu như sinh học, hoá học,
vật lý,… Do vậy, việc mơ phỏng tiếng nói cũng gặp nhiều khó khăn.
1.2. Kết quả hiện trạng nghiên cứu trong và ngoài nước

1.2.1 Kết quả hiện trạng nghiên cứu trong nước
Trong cuộc sống hiện nay, tiếng nói đóng vai trị rất quan trọng đối với
con người. Cùng với tiếng nói là sự xuất hiện của nhiều các loại dịch vụ thoại
như ngày nay. Tuy nhiên việc bảo tồn hết được tín hiệu tiếng nói trên các dịch
vụ này là điều vơ cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là
ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói khơng cịn như lúc ban đầu.
Bước đầu cho cơng nghệ xử lý tiếng nói bằng tiếng Việt. Phịng thí
nghiệm Trí tuệ Nhân tạo TPHCM (AILab) của Trường Đại học Khoa học Tự
nhiên vừa công bố bộ sản phẩm có tiềm năng ứng dụng, gồm: iSago - ứng dụng
giao tiếp bằng giọng nói tiếng Việt trên điện thoại iPhone (phiên bản 1.0) và
VIS (Viet Voice Systems) - tổng đài hỏi đáp thông tin tự động bằng tiếng Việt,
sử dụng công nghệ nhận dạng và tổng hợp giọng nói tiếng Việt với độ chính xác
cao và tốc độ xử lý nhanh.

7

1.2.2 Kết quả hiện trạng nghiên cứu ngoài nước
Xử lý tiếng nói được dùng đến đầu tiên trong lĩnh vực quân sự, trong thời
kỳ chiến tranh thế giói thứ 2 để nghe trộm được điện thoại và phán đoán được
người nói là tướng lĩnh nào và từ đó thì lĩnh vực xử lý tiếng nói đã được bắt đầu
được nghiên cứu.
Năm 1945 L. G. Kesta đã đưa ra khái niệm về xử lý tiếng nói (vân âm),
sau đó ơng phát hiện được những người có giọng nói gần giống nhau thì sẽ có
phổ tiếng nói gần giống nhau, từ đó thì kỹ thuật xử lý tín hiệu bắt đầu được ứng
dụng trong xử lý tiếng nói
Những năm 70 của đầu thế kỷ 20 B. S. Atal đã đưa ra được những đặng
trưng khác nhau của ngữ âm, ông phát hiện ra rằng thơng qua hệ thống phân
biệt tiếng nói DSP thì phân tích đặc trưng ngữ âm MFCC và LPCCC có hiệu
quả tốt hơn.

Những năm 80 của thế kỷ 20 là bước chuyển mình mạnh mẽ của xử lý
tiếng nói với việc các mơ hình về xử lý tiếng nói được xây dựng một cách mạnh
mẽ và mang lại hiệu quả cao như mơ hình Markov ẩn (HMM), Dynamic Time
Warping (DTW), mơ hình mạng neron thần kinh (ANN), vector lượng hóa (VQ)
…
Năm 1999 tại Mỹ đã đưa ra kỹ thuật nghiên cứu nhận dạng tiếng nói con
người đồng thời đưa ra mơ hình nhận dạng tiếng nói khơng dựa vào bản mẫu
GMM-UBM (Gaussian Mixture Model – Universal Background Model)
1.3. Mục tiêu của đề tài
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phần
lớn thơng tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã
được học trước đó và được lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận
dạng, có thể là các từ hay là các âm vị. Nếu các mẫu này bất biến và khơng thay
đổi thì cơng việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu
tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ ở trong bộ nhớ.
Nhận dạng tiếng nói là một lĩnh vực tuy không mới nhưng rất phức tạp. Nhận
dạng tiếng nói được thế giới nghiên cứu cách đây hơn 50 năm, tuy nhiên những
kết quả thực tế đạt được vơ cùng khiêm tốn. Cịn phải rất lâu nữa con người mới
đạt đến việc xây dựng một hệ thống hiểu được tiếng nói như con người, Trong
phạm vi chỉ là một đồ án môn học phần này em sẽ xây dựng chương trình nhận
dạng mười chữ số tiếng Việt bằng những cơng cụ có sẵn của Matlab. Định
hưởng xây dựng chương trình nhận dạng được tất cả các từ, câu trong tiếng việt
để có thể ứng dụng được vào thực tế . Tuy nhiên do chỉ mới tiếp xúc ở lĩnh vực
8

này nên khả năng, kiến thức của em còn rất hạn chế cơng vào đó là những khó
khăn về thời gian, phương tiện... nên em chỉ có thể xây dựng một hệ thống nhận
dạng nhỏ. Trong tương lai nếu có điều kiện tiếp xúc và nghiên cứu sâu hơn về
lĩnh vực này, em mong muốn phát triển đô án này lên để có thể ứng dụng trong

thực tế.

9

CHƯƠNG 2: CÁC KỸ THUẬT TƯƠNG QUAN CỦA XỬ LÝ TIẾNG NÓI
2.1 Các kỹ thuật cơ bản của xử lý tiếng nói
Tiếng nói là một phương tiện giao tiếp cơ bản của con người nhằm trao đổi
thông tin bằng ngôn ngữ cũng tình cảm của người nói, xử lý tiếng nói là sự
nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và phương pháp xử lý
những tín hiệu này [6]. Tín hiệu tiếng nói được thể hiện dưới dạng số, tức là
được “số hóa”, do đó xử lý tiếng nói có thể được coi là giao của “xử lý tín hiệu
số” và “xử lý ngơn ngữ”. Các kỹ thuật của xử lý tiếng nói rất rộng điển hình
như:
•

Nhận dạng tiếng nói: là phân tích và xử lý về mặt nội dung ngơn ngữ của tín
hiệu tiếng nói. Mục đích để chuyển nội dung nói thành tín hiệu đầu vào của
máy tính, giúp cho máy tính có thể xử lý và tương tác được với người nói.

•

Nhận dạng người nói: mục đích để nhận ra người nói là ai và/hoặc là xác minh
liệu người đang nói có đúng là người mà máy tính đã được biết trước hay
khơng (tính xác thực của giọng nói).

•

Tăng chất lượng tiếng nói: là nhằm tăng sự cảm nhận của người nghe về chất
lượng tiếng nói. Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm hoặc

khử tiếng vọng (trong kỹ thuật điện thoại), v.v...

•

Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trị rất quan trọng trong
lĩnh vực viễn thơng. Ví dụ trong thể thức truyền tiếng nói qua internet (voIP),
việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thơng đường truyền.

•

Tổng hợp tiếng nói: là tạo ra tiếng nói một cách nhân tạo nhờ máy tính.

•

Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm phát hiện ra
khuyết tật hay các vấn đề của dây thanh âm, thanh quản, v.v...

•

Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn
phát ra âm thanh (có thể là âm thanh, người nói, v.v...). Được ứng dụng trong
hội nghị hình thoại (videoconference) hội nghị mà người tham gia ở các nơi
khác nhau, hình ảnh và âm thanh ở hai hay nhiều đầu cầu của hội nghị được
truyền tải cho nhau qua hệ thống trên điện thoại số, internet hoặc sóng vệ tinh.
Khi vị trí người nói trong hội nghị được xác định thì máy ghi hình được lập
trình sẽ tự động quay đến vị trí đó và gửi hình ảnh đi. Ngồi ra định vị nguồn
âm thanh cịn có thể ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói,
trong theo dõi an ninh, v.v...
10

2.2 Phân loại xử lý tiếng nói và các thành phần cơ bản của tiếng nói
Xử lý tiếng nói được phân làm 2 loại chính là nhận dạng tiếng nói phụ
thuộc vào mẫu và nhận dạng tiếng nói khơng phụ thuộc vào mẫu
- Nhận dạng tiếng nói phụ thuộc vào mẫu với mục đích là phân lớp (classify)
thơng tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, có thể là các từ, hoặc
các âm vị. Nếu các mẫu này bất biến và khơng thay đổi thì cơng việc nhận dạng
tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng
với các mẫu đã được lưu trữ trong bộ nhớ.
- Nhận dạng tiếng nói khơng phụ thuộc vào mẫu là một phương pháp đang
được sử dụng rộng rãi hiện nay, về bản chất thì các mẫu cũng được phân lớp và
tiếng nói cũng trở thành một dãy tuần tự các mẫu, nhưng nhờ vào tính tự học
của cơng nghệ mạng nơron nên ngồi việc đơn giản là so sánh dữ liệu cần nhận
dạng với dữ liệu mẫu đã được lưu trong bộ nhớ thì máy tính cịn có thể nhận
dạng ngồi các mẫu đã được lưu trữ sẵn. Do bản chất khó khăn cơ bản của nhận
dạng tiếng nói đó là tiếng nói ln biến thiên theo thời gian và có sự khác biệt
lớn giữa tiếng nói của những người nói là khác nhau, tốc độ nói, ngữ cảnh và
mơi trường âm học khác nhau. Xác định được những thông tin biến thiên nào
của tiếng nói là có ích và những thơng tin nào là khơng có ích đối với nhận dạng
tiếng nói là rất quan trọng. Đây là một nhiệm vụ khó khăn mà ngay cả với các
kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng qt hố từ các
mẫu tiếng nói là những biến thiên quan trọng cần thiết trong nhận dạng tiếng
nói.
Các nghiên cứu của nhận dạng tiếng nói dựa trên ba ngun tắc cơ bản:
•

Tín hiệu tiếng nói biểu diễn chính xác bởi các giá trị phổ trong một khung
thời gian ngắn (short-term amplitude spectrum). Nhờ vậy chúng ta có thể
trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các

đặc điểm này làm dữ liệu để nhận dạng tiếng nói.

•

Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các
ký hiệu ngữ âm. Do đó nên ý nghĩa của một phát âm được bảo toàn khi
chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.

•

Nhận dạng tiếng nói là một q trình nhận thức. Thơng tin về ngữ nghĩa
và suy đốn có giá trị trong q trình nhận dạng tiếng nói, nhất là khi thông
tin về âm học là không rõ ràng.

Nhờ vào sự phát triển của học sâu nên các phương pháp nhận dạng tiếng nói
khơng phụ thuộc vào mẫu ngày càng phát triển và là một hướng đi mới cho
11

những nghiên cứu về xử lý tiếng nói đã bị chậm lại trong một thời gian dài.
Luân văn cũng dựa trên những phát triển của học sâu để đưa ra phương pháp
nhận dạng và xử lý tiếng nói có kết quả tốt hơn so với những nghiên cứu đã có.
2.3 Các kết quả đạt được của xử lý tiếng nói
Hiện tại, các thuật tốn nhận dạng người nói chính thống về cơ bản sử
dụng việc chuyển đổi giọng nói thành các hệ số MFCC, sau đó sử dụng các tính
năng I-Vector trích xuất để mơ tả thơng tin người nói và thơng tin kênh, và cuối
cùng sử dụng phân tích phân biệt tuyến tính xác suất (Probabilistic Linear
Discriminant Analysis, PLDA) để thiết lập mơ hình nhận dạng [13]. Loại hệ
thống nhận dạng tiếng nói con người dựa trên I-Vector này đã trở thành một
hướng nghiên cứu nóng trong lĩnh vực nhận dạng giọng nói do hiệu suất tuyệt

vời của nó. Kể từ khi thuật toán được đề xuất, rất nhiều công việc nghiên cứu
vẫn đang tập trung vào việc cải thiện các tính năng âm thanh đầu vào, cải thiện
quy trình trích xuất I-Vector hoặc cải thiện PLDA. Tuy nhiên, vì bản thân giọng
nói của người nói dễ bị ảnh hưởng bởi nhiều yếu tố, chẳng hạn như cảm xúc của
người nói, tình trạng sức khỏe của người nói và mơi trường xung quanh của
người nói, ảnh hưởng của khung I-Vector đối với các tác vụ nhận dạng người
nói cũng bị hạn chế. Nhìn chung, nhiệm vụ nhận dạng giọng nói vẫn cịn rất
nhiều thách thức.
Trong những năm gần đây, học sâu cịn được gọi là mạng nơ-ron sâu., đã
có những thành công trong các nhiệm vụ nhận dạng quy mơ lớn cho thấy mơ
hình sâu và thuật tốn hướng dữ liệu là những thuật toán hiệu quả và khả thi, và
chúng đã phá vỡ ranh giới của nhiều thuật tốn truyền thống [4]. Ví dụ, học sâu
đã chứng minh trong xử lý tín hiệu giọng nói và xử lý tín hiệu hình ảnh rằng nó
có thể tìm thấy các đặc điểm cấu trúc từ một lượng lớn dữ liệu, làm cho các lĩnh
vực này đã đạt được những tiến bộ quan trọng trong những năm gần đây [14].
Tuy nhiên, đối với lĩnh vực nhận dạng tiếng nói con người, khung thuật tốn IVector chủ yếu dựa vào các mơ hình nơng (chẳng hạn như GMM hoặc PLDA
[11]) và mơ hình sâu (chẳng hạn như mạng nơ-ron tích chập sâu), nhưng các mơ
hình nơng vốn đã thiếu một số lượng lớn khả năng khai thác thơng tin hữu ích
từ dữ liệu thoại [2] Vì vậy, các thuật tốn học sâu cũng sẽ là một thanh kiếm sắc
bén để đột phá nhiệm vụ nhận dạng giọng nói.
Mặc dù học sâu đã đạt được thành cơng trong việc cơng nhận, nhưng chỉ
có một số tài liệu áp dụng thành công học sâu vào nhận dạng người nói. Điều
quan trọng nhất là khn khổ học sâu hiện có chỉ có thể đạt được hiệu suất nhận
dạng gần với I-Vector, và rõ ràng không thể vượt qua [5]. Vì học sâu chỉ là giai
đoạn bắt đầu trong nhận dạng người nói, nên chỉ một số cấu trúc liên kết mạng
nơ ron sâu đơn giản được sử dụng, chẳng hạn như mạng nơ ron truyền thẳng sâu
12

hoặc mạng nơ ron tái phát sâu. Trên thực tế, có nhiều cấu trúc liên kết mạng nơron mới và hiệu quả, chẳng hạn như mạng nơ-ron tích tụ sâu và mạng nơ-ron

tích tụ được kết nối đầy đủ sâu [10], chưa được sử dụng trong nhận dạng giọng
nói. Điều này cho thấy cần phải tìm ra một cấu trúc liên kết mạng thần kinh sâu
phù hợp cho việc nhận dạng giọng nói.
Ngồi việc tối ưu hóa cấu trúc liên kết của các mạng nơron sâu, một
nghiên cứu cơ bản liên quan khác chưa được xem xét. Đó là loại tính năng âm
thanh phù hợp để nhận dạng giọng nói dựa trên học sâu. Rõ ràng, các tính năng
đầu vào đóng một vai trị rất quan trọng trong các mơ hình học máy. Tuy nhiên,
theo tổng quan mới nhất về nhận dạng tiếng nói, hệ số tiếng trống Mel cổ điển
vẫn là tính năng chính của các hệ thống nhận dạng giọng nói khác nhau. Hơn
nữa, các hệ thống nhận dạng tiếng nói sử dụng học sâu đã được cơng bố chỉ sử
dụng trực tiếp các tính năng âm thanh thường được sử dụng trong nhận dạng
giọng nói.
Với sự phát triển của học sâu, các khung học sâu từ đầu đến cuối được
ngày càng nhiều nhà nghiên cứu ưa chuộng. Khung học sâu end-to-end chỉ sử
dụng một mạng để kết nối trực tiếp đầu vào và đầu ra [2]. So với I-Vector
framework truyền thống, loại khung end-to-end này không chỉ đơn giản về mặt
khái niệm mà cịn có thể được tối ưu hóa tồn cầu theo nhiệm vụ nhận dạng.
Nhưng cho đến nay, có rất ít tài liệu về sự cơng nhận của người nói về học sâu
end-to-end [1]. Do đó, một hệ thống nhận dạng tiếng nói học sâu end-to-end rất
đáng được xem xét.

13

CHƯƠNG 3: CÁC KỸ THUẬT HỌC SÂU
3.1 Lý luận cơ bản về học sâu
Với sự phát triển của Internet vạn vật (Internet of Things, IoT), các sản
phẩm liên quan đến Internet vạn vật đã giúp cải thiện đời sống con người rất
nhiều, chẳng hạn như nhà thông minh và ô tô tự lái. Hầu hết các thiết bị đầu
cuối của các thiết bị được sử dụng trong nhà thông minh được điều khiển bằng

giọng nói. Vì vậy, để nâng cao trải nghiệm người dùng, cơng nghệ xử lý giọng
nói vẫn cần phát triển không ngừng và cải tiến liên tục. Nói chung, các hệ thống
nhận dạng người nói truyền thống bắt đầu bằng việc trích xuất các đặc điểm âm
thanh, chẳng hạn như Hệ số Frequency Cepstrum (MFCC), và sau đó sử dụng
một lượng lớn dữ liệu giọng nói khơng được gắn nhãn để đào tạo mơ hình,
nhằm thu được các đặc điểm giọng nói của người nói thơng qua học có giám sát
cuối cùng, bộ phân loại dựa trên giọng nói được đào tạo để phân loại người nói.
Hiện nay, có nhiều phương pháp xử lý giọng nói được áp dụng thành cơng cho
hướng nhận dạng giọng nói, bao gồm: thay đổi wavelet, mơ hình Markov ẩn
(HMM) , lượng tử hóa véc tơ (VQ), thưa Mã hóa, Mơ hình hỗn hợp Gaussian
(GMM), khung hệ thống GMM-UBM, I-Vector, Máy vectơ hỗ trợ (SVM),
Mạng thần kinh sâu (DNN) v.v. Đặc biệt bằng cách sử dụng máy vectơ hỗ trợ để
ánh xạ dữ liệu đầu vào sang không gian đa chiều, sau đó sử dụng siêu phẳng để
phân đoạn các danh mục khác nhau và cuối cùng kết hợp SVM với khái niệm
siêu vectơ GMM để phân tích và truy xuất các yếu tố tiềm ẩn, đồng thời, cả mất
âm thanh và mất kênh đều được bù trừ [12] .
Hệ thống I-Vector sử dụng phân tích nhân tố GMM sẽ bù kênh âm thanh
và kênh biến được sử dụng trong không gian chiều thấp, thường được gọi là
không gian con biến đổi. Ngồi ra, Mơ hình nền chung (UBM) tạo ra sự sắp xếp
ở mức khung trong vectơ thông qua một quá trình dự đốn. I-Vector thường sử
dụng thuật tốn phân tích quyết định tuyến tính (LDA) để xử lý nhằm tạo ra một
hàm bù giảm kích thước và số kênh. Hàm bù như vậy có thể thiết lập mơ hình
và kết quả tính tốn một cách cụ thể. Sau khi tính tốn xong, nó sẽ sử dụng phụ
Các cơng cụ, bộ phân loại như SVM để tạo thành hệ thống lai [9]. Không thể
phủ nhận thành công to lớn của hệ thống nhận dạng I-Vector, hệ thống không
chỉ đạt được kết quả nhận dạng tốt mà cịn chiếm vị trí thống trị trong lĩnh vực
nhận dạng và xử lý giọng nói trong một thời gian dài.
Tuy nhiên, do khả năng hoạt động hiệu quả của mạng nơ-ron, các mơ hình
I-Vector truyền thống này khơng cịn thể hiện được tính ưu việt của mình nữa,
vì chúng chủ yếu được thiết kế và đào tạo theo nhiều cách khác nhau, không chỉ

được xây dựng trên các mơ-đun khác nhau mà mỗi mơ-đun cịn tồn tại. Các tiêu
14

chuẩn khác nhau sẽ gây ra những trở ngại đáng kể cho việc hồn thành nhiệm
vụ nhận dạng giọng nói của con người trong các thiết bị IoT. Hiện nay với sự
phát triển của học sâu trong nhận dạng giọng nói, một số DNN đã được áp dụng
thành cơng để nhận dạng giọng nói của con người. Lei và các cộng sự đã đề
xuất một phương pháp sử dụng DNN để nhận dạng và xử lý giọng nói. Lần đầu
tiên, DNN được sử dụng để thay thế GMM tiêu chuẩn để tạo sự liên kết khung
nội bộ. Âm thanh này sau đó được sử dụng để nâng cao mơ hình giọng nói trong
mơ hình nền phổ qt I-Vector. Tuy nhiên, hệ thống vẫn phụ thuộc quá nhiều
vào nhu cầu về dữ liệu huấn luyện trong miền và độ phức tạp tính tốn là rất
lớn. Để rút ngắn thời gian chạy của thuật tốn, hệ thống nhận dạng giọng nói
dựa trên mạng nơ-ron đã trở thành một lĩnh vực nghiên cứu rất tích cực. Hệ
thống dựa trên mạng nơ-ron có thể tối ưu hóa hiệu quả nhận dạng giọng nói
giữa các tiếng nói khác nhau sau khi thiết kế hồn thành. Các thiết kế này chỉ
cần sử dụng khẩu lệnh đã được đào tạo, đồng thời thu thập và trích xuất các tính
năng của giọng nói dựa trên dữ liệu lớn. Nếu thông tin thời gian được nhúng
trong âm thanh, các phương pháp trên có thể được bỏ qua. Trong mơ hình nhận
dạng giọng nói này, nếu sử dụng thêm SVM để tách âm thanh, giọng nói có thể
được phân loại theo cách nhanh nhất.
Do đó, bài viết này đề xuất một mơ hình nhận dạng giọng nói hồn tồn
mới, đó là một mơ hình nhận dạng giọng nói kết hợp giữa Mạng nơ-ron hình
thành (CNN) và Máy vectơ hỗ trợ (SVM). Bài viết này sử dụng những ưu điểm
của hai mơ hình này để thích ứng với tín hiệu giọng nói một cách nhanh nhất.
Tự động ghi lại các đặc điểm dữ liệu bằng cách sử dụng các cấp mạng khác
nhau. Bài báo này sử dụng các thí nghiệm để phân tích lợi thế của việc kết hợp
mạng nơ-ron sâu (DNN) và SVM trong nhận dạng giọng nói để xây dựng một
hệ thống. Kiến trúc mạng kết hợp mới này là cơ sở cho sự phát triển tiếp theo

của các thiết bị nhà thông minh. Kết quả thực nghiệm trên bộ dữ liệu Voxceleb
chuẩn cho thấy so với phương pháp I-Vector truyền thống hoặc các phương
pháp CNN khác, mơ hình được đề xuất trong bài viết này có khả năng nhận
dạng giọng nói vượt trội.
3.2 Các kỹ thuật CNNs
Nghiên cứu về nhận dạng người nói bắt nguồn từ năm 1926, khi công nghệ
lúc bấy giờ là một hệ thống nhận dạng giọng nói dựa trên các dạng sóng giọng
nói. Sau một thời gian phát triển, lần đầu tiên khái niệm về giọng nói được đề
xuất và hệ số tiếng trống cũng được áp dụng cho công nghệ xác nhận của người
nói. Năm 1970, danh tính của người nói được xác định bằng phương pháp ký
hiệu. Tiếp theo là Hệ số dự đốn tuyến tính (Linear Predictive Coding, LPC),
Hệ số cepstrum dự đốn tuyến tính (Linear Predictive Cepstrum Coefficients,
15

LPCC) [13] và Hệ số cepstrum tần số Mel (Mel-Frequency Ceptrum
Coefficients, MFFC) Hàng loạt các phương chuẩn hóa với các tính năng khác
nhau cũng dần được đề xuất, các kỹ thuật và phương pháp này được sử dụng để
cải thiện hệ thống nhận dạng tiếng nói. Sau đó, các cơng nghệ trong lĩnh vực
tính năng âm học dần phát triển, chẳng hạn như các biến thể của MFCC: Super
MFCC (Super MFCC), MFCC dựa trên logarit (Log-Mel),…

Hình 3. 1 Cấu trúc của mơ hình âm thanh trong hệ thống nhận dạng giọng
nói hiện tại
Hình 3.1 là sơ đồ cấu trúc của mơ hình mạng nơ ron điển hình của hệ
thống nhận dạng giọng nói. Cấu trúc bắt đầu từ phổ tần số, các đặc điểm phát
âm được học qua CNN 3 lớp, các đặc tính tĩnh và động của tín hiệu được học
qua RNN 7 lớp và xác suất sau của âm vị đầu ra (hoặc đơn vị giọng nói khác)
thu được thơng qua mạng kết nối hồn chỉnh 1 lớp. Lớp RNN có thể áp dụng
cấu trúc hai chiều hoặc cấu trúc GRU hoặc LSTM. Trong quá trình đào tạo,

CTC (Connectionist Temporal Classification) là mục tiêu, RN (Batch
Normalization) và các phương pháp khác để kiểm soát Gradient để đảm bảo sự
hội tụ của quá trình tạo ra. Hiện tại, hầu hết các hệ thống nhận dạng tiếng nói
hồn thiện đều dựa trên Mơ hình hỗn hợp Gaussian (Gaussian Mixture Model,
GMM). Trong số đó, mơ hình HMM / GMM (Hidden Markov Model/Gaussian
mixture Model) có thể đảm bảo sự hội tụ nhanh chóng, có cấu trúc đơn giản và
khả năng mở rộng mạnh mẽ. Nó ln là phương pháp chủ đạo trong lĩnh vực
nhận dạng giọng nói. Nhiều phần mở rộng khác nhau và các phương pháp cải
tiến tương ứng được đề xuất dựa trên mơ hình HMM / GMM đã lần lượt xuất
hiện, chẳng hạn như phương pháp thích ứng, phương pháp phân biệt, phương
pháp Bayes năng động kết hợp với thông tin ngữ cảnh, HMM / NN (Hidden
Markov Model/self-organized Neural Networks). Phương pháp mơ hình lai, v.v.
16

Những phương pháp này đã có tác động lớn đến lĩnh vực và đặt nền móng vững
chắc cho việc nghiên cứu cơng nghệ nhận dạng giọng nói sau này.
Mơ hình GMM là một mơ hình xác suất khơng có giám sát điển hình, có
thể tiếp cận chính xác phân phối của bất kỳ biến liên tục nào thông qua một số
đường cong phân phối chuẩn. Dựa trên đặc điểm này, Reynolds và cộng sự đã
áp dụng thành công GMM để nhận dạng người nói phi văn bản vào năm
1995[15]. Tuy nhiên, trong các ứng dụng thực tế, Reynolds và cộng sự nhận
thấy rằng dữ liệu tạo ra thường chứa ngữ âm tương đối ngắn và lượng dữ liệu
cũng nhỏ, không thể mơ tả chính xác đặc điểm của người nói. Để cải thiện vấn
đề này, vào năm 2000 Reynolds và cộng sự đã đề xuất hệ thống mơ hình nền
phổ qt-mơ hình hỗn hợp Gaussian (Gaussian mixture model-universal
background model, GMM-UBM), đây là một GMM cấp cao được tạo ra dựa
trên một lượng lớn dữ liệu lời nói. Mơ hình này được sử dụng để mô tả sự phân
bố đặc điểm âm thanh của người nói, do đó, sự phân bố đặc điểm trong UBM có
thể được sử dụng để ước tính các phần đặc điểm âm thanh hoặc giọng nói ngắn

không được che phủ.
Sau khi hệ thống GMM-UBM được đề xuất, nó đã thể hiện hiệu quả xuất
sắc trong các cuộc thi nhận dạng giọng nói khác nhau, chẳng hạn như cuộc thi
nhận dạng giọng nói do Viện Cơng nghệ Tiêu chuẩn Quốc gia (National
Institute of Standard of Technology) nổi tiếng tổ chức , Cuộc thi ASVspoof
được tổ chức cùng với hội nghị diễn thuyết quốc tế INTERSPEECH [4], kể từ
đó mơ hình GMM-UBM đã thống trị lĩnh vực nghiên cứu nhận dạng giọng nói.
GMM-UBM về cơ bản là một q trình xử lý tính năng âm thanh, q trình
này chỉ tìm hiểu sự phân bố của các tính năng âm thanh. Tuy nhiên, nhận dạng
tiếng nói là một vấn đề phân loại học máy điển hình, vì vậy ngồi việc xem xét
việc xử lý các tính năng âm học, chúng ta cũng nên xem xét cách lập mơ hình
và xác định dựa trên tính năng.
Vào đầu thế kỷ này, với sự ổn định và hiệu suất vượt trội của mơ hình
(Support Vector Machine, SVM) trong các bài tốn phân loại khác nhau, trong
nghiên cứu nhận dạng tiếng nói, mơ hình SVM có thể được sử dụng để cải thiện
hiệu suất khả năng nhận dạng. Đối với hệ thống GMM-UBM / SVM, trước tiên
sử dụng một lượng lớn dữ liệu lời nói để đào tạo mơ hình GMM-UBM độc lập
với người nói, sau đó sử dụng giá trị trung bình của mỗi thành phần Gauss của
vectơ khung để tạo thành siêu vectơ Gauss có độ dài cố định (Gaussian Mixture
Model-Supervector , GMM-Supervector), và cuối cùng là Supervector Gauss
được tạo ra sử dụng SVM hạt nhân KL (Kullback-Leibler) để có được mơ hình
phân loại Sau đó, các học giả đã bị ảnh hưởng bởi việc áp dụng thành công hạt
nhân KL tuyến tính trong nhận dạng cảm xúc giọng nói và sử dụng hạt nhân KL
17

tuyến tính SVM trong nhận dạng người nói. Hạt nhân KL tuyến tính SVM tốt
hơn hạt nhân phi tuyến SVM về hiệu suất [5]. Sau đó, You và cộng sự nhận thấy
rằng SVM sử dụng nhân Bhattacharyya có thể nhận được kết quả nhận dạng tốt
hơn so với nhân KL tuyến tính [8]. Sự thành cơng của hệ thống GMM-UBM /

SVM không chỉ phụ thuộc vào khả năng mô tả chính xác các đặc tính của từng
tiếng nói của GMM-UBM mà cịn phụ thuộc vào khả năng mơ hình hóa mạnh
mẽ của SVM. Tuy nhiên, supervector Gauss được tạo ra dựa trên mơ hình
GMM-UBM có kích thước lớn khiến dữ liệu đầu vào SVM quá lớn, từ đó gây ra
nhiều khó khăn cho q trình học SVM
Trong những năm gần đây, khung nhận dạng I-Vector dựa trên phân tích
nhân tố trong thuật tốn nhận dạng người nói là phổ biến nhất. Thuật tốn IVector ánh xạ thơng tin nhận dạng người nói và thơng tin thay đổi kênh trong
bài phát biểu vào một khơng gian tuyến tính chiều thấp. Bằng cách này, mỗi
phần của bài phát biểu có thể được biểu diễn bằng một vectơ chiều thấp có độ
dài cố định, đó là I-Vector. Hệ thống nhận dạng người nói dựa trên I-Vector chủ
yếu bao gồm ba giai đoạn: tính tốn số liệu thống kê đủ, trích xuất và nhận dạng
I-Vector. Việc tính tốn (Sufficient Statistics) trước tiên cần sử dụng mơ hình
GMM-UMB để căn chỉnh các đặc trưng âm học, sau đó tính tốn thống kê đủ
bậc cao, sau đó sử dụng (Sub-Space Factor Analysis) để phân tích số liệu thống
kê bậc cao. Đại lượng được ánh xạ tới vector I-Vector chiều thấp, và cuối cùng
một thuật toán được giám sát được sử dụng để xác định và phân tích. Trong
khn khổ I-Vector, Phân tích (Probabilistic Linear Discriminant Analysis,
PLDA) thường được sử dụng để tạo các mơ hình nhận dạng.
Với sự thành công lớn của mạng nơ-ron sâu trong nhận dạng hình ảnh và
nhận dạng giọng nói quy mơ lớn, lĩnh vực nhận dạng người nói cũng đã bắt đầu
khám phá cách sử dụng mạng thần kinh sâu để cải thiện hiệu suất của hệ thống
nhận dạng người nói.
Học sâu là một thuật toán mà "nhiều lớp xử lý thực hiện việc trừu tượng
hóa dữ liệu ở mức cao". Ứng dụng của học sâu trong lĩnh vực nhận dạng giọng
nói bắt đầu vào năm 2009. " Deep Belief Networks for phone recognition "
được xuất bản bởi Mohamed và cộng sự tại hội thảo NIPS workshop đã báo cáo
rằng mô hình âm học dựa trên DNN đạt tỷ lệ lỗi 23% trên tập dữ liệu TIMIT.
Tốt hơn nhiều so với các mơ hình phức tạp khác [11]. Sau đó, các công ty như
Microsoft, IBM và Google đã tiến hành khám phá sâu về các mơ hình học sâu
và thử các mơ hình học sâu khác nhau trên các nhiệm vụ nhận dạng khác nhau.

Ngày nay, công nghệ học sâu đã trở thành phương pháp chủ đạo trong nhận
dạng giọng nói. Hệ thống nhận dạng giọng nói dựa trên học sâu tốt hơn nhiều so
với hệ thống nhận dạng giọng nói dựa trên HMM / GMM về tỷ lệ nhận dạng
thành công và độ mạnh mẽ.
18

Trước năm 2013, DNN là cấu trúc liên kết mạng học sâu được sử dụng
rộng rãi nhất trong nhận dạng giọng nói. DNN là một mạng nơ-ron đa lớp với
nhiều lớp ẩn, vì vậy nó có khả năng phân loại và học tính năng mạnh mẽ. Sau
khi khởi tạo hợp lý (chẳng hạn như đào tạo trước), DNN có thể được tối ưu hóa
bằng thuật tốn giảm độ dốc ngẫu nhiên (SGD). Ứng dụng của DNN trong mơ
hình âm học có thể được chia thành hai phương pháp. Một là phương pháp mơ
hình kết hợp, sử dụng DNN thay vì GMM để mô tả xác suất của đầu ra trạng
thái; phương pháp kia là phương pháp trích xuất đặc trưng, sử dụng DNN để
trích xuất các đặc trưng trừu tượng và sau đó gửi nó sang mơ hình HMM /
GMM truyền thống cho mơ hình âm thanh. Hai phương pháp này có những ưu
điểm riêng, trong số đó, mơ hình kết hợp đơn giản và hiệu quả hơn, là phương
pháp được hầu hết các hệ thống thương mại áp dụng, trong khi phương pháp
trích xuất đặc trưng có u cầu tài nguyên tương đối thấp và thường được sử
dụng trong các tình huống có dữ liệu thưa thớt như nhận dạng ngôn ngữ nhỏ.
Ngay từ năm 2012, Yaman đã bắt đầu cố gắng sử dụng mạng nơron sâu
trong nhận dạng người nói và đề xuất tính năng Deepeneck dựa trên mạng thần
kinh sâu để cải thiện hệ thống nhận dạng tiếng nói. Năm 2014, Lei và cộng sự
đã đề xuất sử dụng mạng nơron sâu để trích xuất thơng tin âm vị và sau đó tích
hợp vào I-Vector, điều này đã cải thiện tỷ lệ nhận dạng thành công của hệ thống
ở một mức độ nhất định [10]. Thuật toán khéo léo sử dụng mơ hình âm học dựa
trên mạng nơ ron sâu để thay thế mơ hình nền chung trong khung I-Vector ban
đầu, sau đó tính tốn các số liệu thống kê đầy đủ. I-Vector thu được theo cách
này mang thông tin âm vị, dễ phân biệt hơn. Bởi vì mạng nơ-ron sâu có khả

năng học tính năng mạnh mẽ, các học giả đã đề xuất sử dụng các thuật tốn học
sâu khơng giám sát để tìm hiểu các tính năng từ các tính năng âm thanh gốc làm
đầu vào cuối cùng của khung I-Vector trong khuôn khổ I-Vector. Tương tự,
Variani của Google và các cộng sự đã đề xuất một mơ hình nền mới dựa trên
mạng nơ-ron sâu. Mơ hình này loại bỏ việc sử dụng I-Vector để thể hiện các đặc
điểm giọng nói khác nhau của người nói và sử dụng mạng nơ-ron truyền thẳng
đơn giản để tìm hiểu. Vectơ đặc trưng mới (được gọi là D-Vector) được sử dụng
để thể hiện đặc điểm lời nói của người nói. Dựa trên một cơ sở dữ liệu nhỏ, các
thử nghiệm cho thấy rằng mơ hình khơng chỉ có thể giảm độ phức tạp mà cịn
có được tỷ lệ sai ngồi tầm kiểm sốt thấp hơn so với khung I-Vector.
Hiện tại, một hướng nghiên cứu tích cực khác trong học tập sâu là mơ hình
end-to-end. Liên quan đến nhận dạng giọng nói, hệ thống truyền thống bao gồm
một số mơ-đun phụ độc lập, bao gồm mơ hình âm học, mơ hình ngơn ngữ và từ
điển phát âm. Mỗi mơ-đun phụ được tối ưu hóa riêng theo chức năng mục tiêu
của riêng nó, sau đó được kết hợp để tạo thành hệ thống cuối cùng. Đối với mơ
hình nhận dạng giọng nói end-to-end, nó khơng cịn bao gồm các mơ-đun phụ
19

như mơ hình nhận dạng giọng nói truyền thống mà chỉ bao gồm một mạng nơron sâu, có thể thu được trực tiếp chuỗi ký tự được nhận dạng từ dạng sóng
giọng nói đầu vào hoặc chuỗi đặc tính âm thanh. Khái niệm mơ hình end-to-end
này rất ngắn gọn, và việc tối ưu hóa tồn bộ cấu trúc là thống nhất. Để nhận
dạng hình ảnh, các thuật tốn mạng nơ-ron sâu end-to-end đã trở nên rất phổ
biến. Tuy nhiên, hệ thống nhận dạng tiếng nói end-to-end vẫn cịn sơ khai. Vào
năm 2016, Heigold và cộng sự của Google đã đề xuất sử dụng mạng nơ-ron
truyền thẳng hoặc mạng nơ-ron lặp lại để tạo thành hệ thống xác minh người nói
liên quan đến người nói đầu cuối [9]. Tồn bộ hệ thống khơng cịn dựa vào các
thuật tốn khác mà phản hồi trực tiếp với phân đoạn đầu vào. Với các kết quả
phân biệt, việc học của toàn bộ hệ thống, bao gồm cả việc học các tính năng bên
trong và biểu diễn thơng tin của người nói, được tối ưu hóa theo hướng giảm tỷ

lệ lỗi xác nhận của người nói. Các thử nghiệm cũng chứng minh rằng các mơ
hình end-to-end (chẳng hạn như khung I-Vector) có hiệu suất cao hơn và tỷ lệ
lỗi thấp hơn. Ngoài ra, vào năm 2017, Baidu’s Li và các cộng sự đã đề xuất một
hệ thống nhúng tiếng nói tự nhiên end-to-end (Embedding), bao gồm mạng nơron phức hợp và mạng nơ-ron lặp lại, mạng nơ-ron sâu sử dụng phương pháp
học số liệu (Metric Learning) Hàm mất bộ ba thường được sử dụng (Triplet
Loss) được sử dụng làm hàm mục tiêu.
3.3 Các kỹ thuật VGG CNN
Ở giai đoạn này, Internet of Things phát triển ngày càng nhanh, ngày càng
có nhiều ứng dụng của cơng nghệ xử lý giọng nói, yêu cầu kỹ thuật ngày càng
cao, trong q trình phát triển khơng ngừng của cơng nghệ nhận dạng giọng nói
vẫn cịn nhiều vấn đề như độ phức tạp tính tốn cao. Dựa nhiều vào dữ liệu đào
tạo, v.v., tỷ lệ nhận dạng thành công của nhận dạng giọng nói cũng cần được cải
thiện hơn nữa. Để cải thiện tỷ lệ nhận dạng thành công của thuật toán, chương
này thiết kế một hệ thống nhận dạng giọng nói dựa trên mạng nơ-ron. Ưu điểm
của việc sử dụng mạng nơ-ron kết hợp với SVM là nó có thể tự động học giọng
nói và Đặc điểm phân loại. Do đó, chương này trước tiên sử dụng mạng nơ-ron
để nắm bắt cùng một mơ hình điều chế năng lượng tần số và thời gian đầu vào,
để phân biệt một số đặc điểm quan trọng của lời nói khác nhau. Sau đó sử dụng
SVM để phân loại nó, sử dụng cả đặc tính của mạng nơ-ron và khả năng tự phân
loại của SVM Cuối cùng, các thí nghiệm sẽ được tiến hành trên tập dữ liệu
Voxceleb.
Yêu cầu của hệ thống nhận dạng giọng nói phải là một hệ thống khép kín,
vì vậy bài viết này sẽ tập trung nghiên cứu vấn đề nhiều lớp, và thử nghiệm trên
hệ thống nhận dạng giọng nói Hệ thống nhận dạng như vậy sẽ gán một thẻ
giọng nói trong bộ âm thanh đã đăng ký. Nghiên cứu trong bài báo này được lấy
20

cảm hứng từ việc sử dụng thành công Mạng thần kinh hợp pháp (CNN) trong
nhận dạng giọng nói, nhận dạng cảm xúc giọng nói và phân loại hình ảnh. Hệ

thống được đề xuất chủ yếu dựa trên hai nguồn học sâu: Nhóm hình học trực
quan-Mạng nơ-ron hình học (VGG-CNN) và Mạng thần kinh tái tạo (RNN), cả
hai đều đã được thử nghiệm phân loại hình ảnh. Kết quả thực nghiệm cho thấy
hình ảnh phân loại đạt hiệu quả tốt [6]. Đầu tiên, giọng nói đầu vào sử dụng
phương pháp MFCC để xử lý giọng nói đầu vào, sau đó trích xuất các tính năng
cần thiết thơng qua CNN, VGG-CNN và RNN, sau đó sử dụng trình phân loại
SVM để phân loại các tính năng giọng nói trên các tính năng đầu ra và cuối
cùng thêm chức năng kích hoạt softmax cho Phán đoán kết quả phân loại cuối
cùng. Cấu trúc mạng được thể hiện trong Hình 3.2.

Hình 3. 2 Kiến trúc mạng đóng được đề xuất
(1)

Bộ phân loại tuyến tính
Với một tập hợp các điểm dữ liệu, nhiệm vụ chính là tìm một bộ phân loại
tuyến tính để chia các điểm dữ liệu này thành các loại khác nhau. Gọi x là mỗi
điểm dữ liệu và y là danh mục (y có thể là 1 hoặc -1, đại diện cho hai danh mục
khác nhau). Bộ phân loại như vậy chủ yếu để tìm một siêu phẳng trong khơng
gian dữ liệu n chiều (hyperplane). Phương trình của được biểu diễn dưới dạng
(T là viết tắt của chuyển vị), trong đó w là trọng lượng và b là độ lệch
(3.1
)
Điều đáng chú ý là tiêu chuẩn phân loại 1 hoặc -1 ở đây bắt nguồn từ hồi
quy Logistic.
Hồi quy logistic là tìm hiểu mơ hình phân loại 0-1 từ các đối tượng địa lý.
Các biến độc lập của mơ hình bao gồm các tổ hợp tuyến tính của các đối tượng
địa lý. Bởi vì giá trị của biến độc lập là từ âm vơ cùng đến dương vơ cùng, bạn
có thể sử dụng hàm sigmoid để ánh xạ biến độc lập đến (0,1) để nhận được xác
suất của y = 1 và y = 0. Giả sử hàm có
(3.2

)
Trong đó x là vectơ đặc trưng n chiều, và hàm g là hàm logistic, như trong
Hình 3.3.

21

Hình 3. 3 Sơ đồ chức năng sigmoid
Qua hình có thể thấy rằng khoảng giá trị của hàm này nằm trong khoảng
(0,1). Giả sử rằng hàm cần xác định xác suất để đối tượng thuộc về y = 1, chỉ
cần và một ngưỡng được đặt. Khi lớn hơn 0,5, y = 1 được coi là, nếu khơng thì
y = 0. Ngoài ra, chỉ liên quan đến , g (z) được sử dụng để ánh xạ và phạm trù
cuối cùng được xác định bởi . Nếu chỉ bắt đầu từ , mục tiêu của mơ hình là làm
cho đối tượng của y = 1 trong dữ liệu huấn luyện hoạt động như , nhưng biểu
diễn đối tượng của y = 0 Đó là . Hồi quy logistic thu được θ thơng qua việc học,
do đó đặc điểm của trường hợp dương tính lớn hơn 0 và đặc điểm của trường
hợp tiêu cực nhỏ hơn 0.
Tiếp theo, thực hiện các phép toán biến đổi tương ứng trên hồi quy logistic.
Đầu tiên, thay các nhãn y = 0 và y = 1 bằng y = -1, y = 1, sau đó thay thế trong
bằng b , Khi đó có w ^ T x + b = 0. Nghĩa là, ngoại trừ y từ y = 0 đến y = -1,
khơng có sự phân biệt nào khác giữa hàm phân loại tuyến tính Hồi quy logistic.
Tại thời điểm này, giả sử để đơn giản hóa hàm trong hàm và ánh xạ nó thành =
-1 và y = 1. Mối quan hệ ánh xạ như sau:
 1, z ≥ 0
g ( z ) = 
−1, z < 0

(3.3)

Khi siêu phẳng được xác định, đại diện cho khoảng cách từ điểm x đến

siêu phẳng, và sự phân loại có thể được đánh giá bằng ký hiệu và ký hiệu của
lớp y Có đúng khơng, do đó có thể dùng để xác định tính đúng đắn của cách
phân loại. Vì vậy có khái niệm (Functional Margin).
Xác định khoảng hàm (được biểu thị bằng γ ̂) là:
(3.4
)
Khoảng hàm là nhãn loại nhân với f (x) và giá trị nhỏ nhất của khoảng hàm
của điểm mẫu trong T trong siêu phẳng (w, b) (x là đối tượng, y là nhãn kết quả,
22

i đại diện cho mẫu thứ i) là khoảng hàm của siêu phẳng (w, b) liên quan đến tập
dữ liệu tạo ra.
(3.5
)
Tuy nhiên, khoảng hàm được xác định theo cách này có một số vấn đề nhất
định. Nếu w và b được thay đổi theo một tỷ lệ nhất định, chẳng hạn như 2w và
2b, thì khoảng hàm f (x) cũng sẽ tăng gấp đôi (siêu phẳng không thay đổi), do
đó Chỉ khoảng chức năng là khơng đủ.
Nếu một điều kiện ràng buộc được thêm vào vectơ pháp tuyến w để có
được khái niệm về lề hình học (Geometrical Margin), thì đó là khoảng cách giữa
một điểm và một siêu phẳng theo đúng nghĩa.
Giả sử rằng đối với một điểm x, đặt điểm tương ứng của hình chiếu thẳng
đứng của nó lên siêu phẳng là , w là vectơ vng góc với siêu phẳng và γ ̂ là
khoảng cách từ mẫu x đến siêu phẳng, như trong Hình 3.4:

Hình 3. 4 Phân vùng siêu phẳng
x = x0 + γˆ

w

，w
w

Theo kiến thức hình học, có

chuẩn bậc hai là w (chuẩn là
w
w

một khái niệm tương tự như độ dài của môđun),
là vectơ đơn vị (vectơ đơn
vị nhận được khi chia một vectơ cho mơđun của nó), và γ ̂ là mẫu Khoảng cách
từ x đến khoảng phân loại. Vì là một điểm trên siêu phẳng, lấy và thay nó vào
phương trình

wT x + b = 0

để thu được

wT x0 + b = 0

x = x0 + γˆ

Sau đó nhân cả hai vế
w x0 = −b
T

và

wT w = w2

, cụ thể là

wT x0 = −b

.

w
w

của công thức này với

wT

, rồi theo

, bạn có thể tính được :
23

γˆ =

wT x + b f ( x)
=
w
w

(3.6)

Nếu bạn muốn nhận giá trị tuyệt đối của , hãy nhân với hạng mục tương

ứng y. Lúc này, bạn có thể biết định nghĩa của khoảng hình học (biểu diễn
bằng ):
γ%=

γˆ
w

(3.7)
Theo các định nghĩa về khoảng hàm và khoảng hình học ở trên, chúng ta
có thể thấy rằng khoảng hình học cuối cùng thu được bằng cách chia khoảng
w

hàm cho

, và khoảng hàm

y ( wT x + b ) = yf ( x )

được thiết lập giả tạo, và khoảng hình học
phẳng.

f ( x)
w

là

f ( x)

, là một phép đo khoảng

là khoảng cách từ điểm đến siêu

(2) Bộ phân loại khoảng thời gian tối đa
Để phân loại các điểm dữ liệu, "khoảng cách tách biệt" giữa điểm dữ liệu
và siêu phẳng càng lớn thì độ chính xác của việc phân loại càng lớn. Để làm cho
độ chính xác phân loại càng cao càng tốt, cần phải tối đa hóa giá trị "khoảng"
cho siêu phẳng. Khoảng này là một nửa của Gap trong Hình 3.5.

Hình 3. 5 Bộ phân loại khoảng thời gian tối đa
Từ phân tích trước, có thể thấy rằng giá trị của khoảng cực đại không phù
hợp để được biểu diễn bằng khoảng hàm. Sau khi siêu phẳng được cố định, độ
dài của w và giá trị của b có thể được chia tỷ lệ bằng nhau, làm cho Giá trị của +
b lớn tùy ý, có nghĩa là khoảng hàm có thể lớn tùy ý trong khi siêu phẳng không
24

đổi. Nhưng khi chia tỷ lệ w và b, khoảng hình học sẽ khơng thay đổi, hai tham
số này chỉ thay đổi theo siêu phẳng, so với khoảng hàm thì phương pháp này
phù hợp hơn để biểu diễn một khoảng.
Vì vậy, có hàm mục tiêu của Bộ phân loại ký quỹ tối đa (Maximum Margin
Classifier), được định nghĩa là và cần đáp ứng một số điều kiện. Theo định
nghĩa của khoảng, có:
(3.8
)
Từ = có thể thấy rằng nếu khoảng hàm bằng 1 (giả sử bằng 1, để thuận
tiện cho việc lấy và tối ưu hóa, và cách tiếp cận này khơng ảnh hưởng đến việc
tối ưu hóa hàm mục tiêu), Với / và hàm mục tiêu tại thời điểm này được chuyển
thành , tương đương với giá trị lớn nhất bên dưới với điều kiện Gọi và là
khoảng hình học.
Như trong hình 3.6, Mặt phẳng siêu tối ưu (Optimal Hyper Plane) là đường

liền nét ở giữa và khoảng cách giữa hai đường đứt nét và mặt phẳng tối ưu là
bằng nhau. Đây là khoảng hình học đã đề cập ở trên, giữa đường đứt nét và
đường đứt nét Khoảng cách của bằng 2 ̃. Các điểm trên ranh giới chấm chấm là
các vectơ hỗ trợ. Các vectơ hỗ trợ này thỏa mãn . Cho . Với mọi điểm không
phải là vectơ hỗ trợ,

Hình 3. 6 Siêu phẳng tối ưu
SVM được sử dụng để phân loại nhị phân và mục đích của nó là tìm siêu
phẳng tối ưu , để siêu phẳng có thể là một tập dữ liệu đã cho với hai loại đặc
trưng tách rời. SVM học siêu tham số w bằng cách giải bài toán tối ưu hóa của
cơng thức (3.9):
(3.9
25

SỬ DỤNG SVM KẾT HỢP VỚI HỌC SÂU ĐỂ NÂNG CAO CHẤT LƯỢNG XỬ LÝ TIẾNG NÓI

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về