tăng cường chất lượng tín hiệu tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (472.35 KB, 24 trang )

Trường Đại Học Bách Khoa Hà Nội
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
=======&&&=======

Báo cáo đồ án
Đề tài: Tăng cường chất lượng tín hiệu tiếng nói
GVHD : PGS.TS Trịnh Văn Loan
SV thực hiện : Nguyễn Hưng 20071458
LỚP : KTMT – K52
1
Người Nhận : PGS.TS Trịnh Văn Loan
Người Gửi : Nguyễn Hưng

Đề tài: Tăng Cường Chất Lượng Tín Hiệu Tiếng Nói
I. Tăng cường chất lượng tín hiệu tiếng nói là gì:
Tăng cường chất lượng tín hiệu tiếng nói liên quan đến việc cải thiện cảm nhận của
người nghe với tiếng nói bị suy giảm chất lượng do sự ảnh hưởng của nhiễu có trong
tiếng nói. Trong hầu hết các ứng dụng thì việc tăng cường chất tín hiệu tiếng nói chính là
cải thiện về chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu gây ra. Việc
xử lý mà tốt thì sẽ giúp cho người nghe dễ nghe hơn. Kể cả trong môi trường có mức độ
nhiễu cao và liên tục trong thời gian dài. Trong thực tế có rất nhiều nguồn nhiễu như là
nhiễu trên tàu hỏa,trên máy bay, trong phòng , trong bệnh viện…Tùy vào mỗi môi trường
sẽ có yêu cầu tăng cường chất lượng và xử lý khác nhau.
Ví dụ : với thông tin thoại thì chịu ảnh hưởng của nhiễu nền từ ô tô, nhà hàng khi
truyền tới đich. Vì thế thuất toán tăng cường chất lượng tín hiệu có thể được xử lý ngay
tại điểm thu, trong các khối tiền xử lý.
Tuy nhiên nếu xét về phương diện thực tế thì các thuật toán Speed Enhancement chỉ có
thể cải thiện được chất lượng của tiếng nói. Nó có thể giảm được nhiễu nền trong tiếng
nói. Tuy nhiên nó sẽ làm tăng độ méo của tiếng nói. Do đó yêu cầu chính của việc thiết
kế một thuật toán là việc đảm bảo nén được nhiễu và không được gây ra méo trong sự

cảm nhận tín hiệu tiếng nói.
Giái pháp đưa ra còn phụ thuộc vào ứng dụng chúng ta sử dụng. Các vấn đề như là
nguồn nhiễu, giao thoa nhiễu, mối liên hệ giữa nhiễu và tiếng nói sạch.
2
II. Lý thuyết về nhiễu:
II.1.Nguồn nhiễu :
Nguồn nhiễu tồn tại ở mọi nơi, trên phố, văn phòng, nhà hàng, các bến xe, khu vui
chơi giải trí, các công trường xây dựng…Nó tồn tại dưới nhiều hình dạng và hình thức
khác nhau. Nhiễu có thể hình thành ở một nơi cố định và không thay đổi theo thời gian.
Ví dụ tiếng ồn phát ra từ quạt máy tính. Nhiễu có thể ở nhiều chỗ khác nhau, như trong
các quán ăn, nhà hàng. Các đặc tính về phổ trong nhà hàng thay đổi không theo quy luật
nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ gặp nhiều khó
khăn.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân
bố của năng lượng nhiễu trong miền tần số. Ví dụ nhiễu gây ra bởi gió thì năng lượng nó
tập trung ở tần số thấp hơn 500 Hz. Nhưng đối với nhiễu trong nhà hàng,trên xe lửa…thì
nó lại phân bố trên một dải tần số rộng.
Hình1 : Dạng và sự phân bố năng lượng trung bình nhiễu trên xe
Hình 2.Dạng và sự phân bố năng lượng trung bình trên tàu.
3
Hình 3.Dạng và sự phân bố năng lượng trung bình trong nhà hàng.
2.2.Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau:
Điểm tới hạn trong việc thiết kế các thuật toán của Speed Enhancement là sự nhận biết
sự biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó
chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu (SNR) được
bắt gặp trong môi trường thực tế. Mức độ của tiếng nói và nhiễu được đo bằng mức độ
âm thanh. Phép đo ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(Sound
Pressure Level). Khoảng cách cũng ảnh hưởng tới cường độ âm thanh. Khoảng cách đặc
trưng trong giao tiếp mặt giáp mặt là 1m. Khi khoảng cách tăng gấp đôi thì mức cường
độ âm giảm đi 6 dB.

Hình 4:Mức nhiễu và tiếng nói(được đo bằng SPL dB) trong các môi trường khác nhau
Hình trên là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các
môi trường khác nhau. Mức độ nhiễu nhỏ nhất trong các môi trường phòng học trong nhà
4
ở trong bệnh viện và trong các tòa nhà. Trong các môi trương khác nhau thì mức độ
nhiễu nằm trong khoảng 50-55 dB SPL. Và mức độ của tiếng nói là 60-70 dB SPL. Và ta
đưa ra mức tỷ số tín hiệu trên nhiễu là 5-15 dB. Mức độ âm của nhiễu cao trong các môi
trường tàu điện, trên máy bay nó đạt 70-75 dB SPL. Do đó mức tỷ số SNR() là bằng 0
dB.
III. Một số phương pháp đánh giá chất lương tín hiệu tiếng nói.
III.1 . Đánh giá chủ quan
III.1.1 .Phương pháp đánh giá tuyệt đối ACR:
-MOS (Mean Opinion Scores ): là phép đo chất lượng thoại nổi tiếng. Mang tính chất
chủ quan. Có 2 phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe.
Score Quality of the Speed Level of Distortion
5 Excellent Imperceptible
4 Good Just perceptible,but not annoying
3 Fair Perceptible and slight annoying
2 Poor Annoying but not Objectinable
1 Bad Very annoying and Objectionable
III.1.2 Các phương pháp đánh giá tương đối
III.1.2.1 Đánh giá bằng phương pháp so sánh mẫu tín hiệu
Đó là thích nghe mẫu nào hơn. Hay thường gọi là so sánh đánh giá theo từng cặp tín
hiệu. Phương pháp này thì người nghe sẽ được nghe 2 mẫu thoại và sẽ đánh giá thích
mẫu nào hơn. Một biến thể của phương pháp này là Theshold Test. Phương pháp này thì
so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm của nó có thể được
kiểm soát.
Rating Quality of speech
3 Much better

2 Better
1 Slightly Better
0 About the Same
-1 Slightly Worse
-2 Worse
-3 Much Worse
III.1.2.2 Phương pháp đánh giá theo suy giảm chất lượng
Degradation Category Rating (DCR) đó là sự giảm sút về chất lượng của tín hiệu
đã qua xử lý so với tín hiệu chất lượng cao chưa được xử lý
5
Rating Degradation
1 Very Annoying
2 Annoying
3 Sightly annoying
4 Audible but not annoying
5 Inaudible
III.2 Đánh giá Khách quan
Là phương pháp đánh giá dựa trên các phép đo thuộc tính của tín hiệu
3.2.1 PESQ
Là 1 trong các phương pháp đánh giá khách quan.Nó có độ phức tạp tính toán
nhất. Được khuyến nghị bởi ITU-T cho việc đánh giá chất lượng tiếng nói với tần số
3.2kHz (narrow-band) máy thu phát điện thoại cầm tay và narrow-band speech
codecs.Thuật ngữ PESQ được tính như phương trình tuyến tính kết hợp giữa giá trị
nhiễu loạn trung bình D
ind
và giá trị nhiễu loạn bất đối xứng A
ind
như công thức bên
dưới:
PESQ=a

0
+ a
1
D
ind
+ a
2
A
ind
(1)
Khi mà a
0
= 4.5 , a
1
= -0.1 và a
2
= -0.0309. Giá trị a
0,
a
1,
a
2
là optimized cho việc xử lý
tiếng nói trên mạng và không cho việc xử lý tiếng nói bởi các thuật toán nén. Một
cách không mong muốn PESQ lien quan tới 3 tiêu chí cho các phương pháp đo lường
đó là: méo tíêng nói, méo tiếng ồn, và toàn bộ chất lượng. Chúng ta hãy tối ưu hóa
phương pháp PESQ bằng việc quan tâm tới 1 trong 3 tiêu chí trên. Ứng với mỗi tiêu
chí sẽ có 1 tập (a
0,
a

1,
a
2
) khác nhau. Nhiều bộ hồi quy tuyến tính thường quyết định
tham số a
0,
a
1
và a
2
. Giá trị D
ind ,
A
ind
được tính toán như giá trị độc lập trong phân
tích hồi quy. Thực tế thì điểm chủ quan cho 3 tiêu chí được sử dụng trong phân tích
hồi quy.
3.2.2 Đo tỷ số tín hiệu trên nhiễu từng khung:
Đo SNR trên từng khung trong miền thời gian là phương pháp đánh giá về mặt toán
đơn giản nhất. Quan trong là tín hiệu gốc và đã qua xử lý phải trong cùng miền thời
gian, độ lệch pha hiện thời phải được hiệu chỉnh chính xác.
Công thức:
6
SNR
seg
= (2)
Trong đó :
x(n) là tín hiệu gốc( tín hiệu thu được có nhiễu).
là tín hiệu đã được tăng cường đã loại nhiễu.
N : là chiều dài khung.

M : là số khung của tín hiệu.
Một cách khác xác định SNRseg do Richards đề xuất:
SNR
segR
= ) (3)
Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín
hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được bây giờ là 0 đã tốt hơn nhiều
so với các giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là
tránh được việc phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng.
Đo SNR cho từng khung có thể mở rộng trong miền tần số:
fwSNR
seg
= (4)
trong đó :
B
j
là trọng lượng tại dải tần thứ j
K: số dải tần.
M: tổng số khung tín hiệu.
F(m,j): Dãy tín hiệu gốc qua bộ lọc đã được khuếch đại tại dải lần thứ j và
khung thứ m.
7
: dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần
với F(m,j).
Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng
thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác
nhau.
3.2.3 Đo khoảng cách dựa trên LPC
3.2.3.1.Phương Pháp LLR
Được định nghĩa theo công thức sau.

d
LLR
(
p
,
c
) = log( ) (5)
trong đó
c
là vector LPC của khung tín hiệu ban đầu.
p
là vector LPC của khung tín
hiệu đã được tăng cường và R
c
là ma trận tự tương quan của tín hiệu tiếng nói ban đầu.
Chỉ 1 khoảng nhỏ 95% giá trị của khung LLR là được sử dụng để tính giá trị trung bình
LLR, giá trị LLR được giới hạn trong [0, 2] để giảm bớt giá trị ngoại lệ.
3.2.3.2Phương pháp IS(Itakura Saito)
Là phương pháp đo khoảng cách dựa trên LPC của 2 khung tín hiệu tương ứng.
d
IS
(
p
,
c
) = ( ) + log( ) -1 (6)
trong đó là sự gia tăng LPC của tín hiệu sạch và tín hiệu được tăng cường
tương ứng. Giá trị IS được giới hạn trong khoảng [0,100] . Đó là cần thiết để cực tiểu
hóa giá trị ngoại lệ.
3.2.3.3 Phương pháp Cepstrum distance provides(CEP)

Là 1 sự ước lượng log spectral distance giữa 2 phổ. Nó tồn tại đệ quy từ hệ số tiên
đoán LPC { a
m
} sử dụng biểu thúc bên duwois.
c(m)= a
m
+ c(k) a
m-k
1<= m<=p (7)
8
với p là bậc của phân tích LPC.
d
CEP
(
c
,
p
) = (8)
với
c
,
p
là vector cepstrum coefficient của tín hiệu sạch và tăng cường. Khoảng
cách Cepstrum được giới hạn trong khoảng [0,10] để cực tiểu hóa giá trị không
mong muốn.
3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người
Phương pháp này chú ý tới khă năng nghe của con người.mà các phương pháp
khác không có.
3.2.4.1Phương pháp đo Weighted spectral Slope
Weighted spectral Slope Measure (WSSM) được định nghĩa là phương pháp đo số

lần giá trị trung bình mà chỉ những khung tín hiệu tốt được tính. WSSM có khác biệt
so với Spectral Slope ở trên 25 dải tần số tới hạn giữa 2 khung tín hiệu tương ứng.
Đấu tiên năng lượng của 25 dải tần số này là được tính toán cả 2 tín hiệu s(n) gốc sạch
và tín hiệu được tăng cường và kết quả là E
s
(f) và độc lập với nhau. Độ
dốc phổ của mỗi dải tần số được định nghĩa như sau.

(9)
(f)= (f+1) - (f) (10)
Sau đó đỉnh gần nhất P(f) được xác định tìm kiếm đi lên nếu E(f)>0 và đi xuống
còn lại. Sau đó trọng lượng của mỗi dải sẽ được tính :
W(f) = (11)
Với : = (12)
9
(13)

Độ lớn trọng lượng hoạc là đỉnh của dải gần nhất hoặc là các chân( chỗ trũng như
thung lũng) và có thể là đỉnh lớn nhất trong phổ. Cuối cùng WSSM được tính như là
WSS = (14)
Giá trị trung bình được tính dựa trên sự đồng bộ giữa các khung tín hiệu tốt.
3.2.4.2 Phương pháp đo Bark Distortion
Phương pháp đánh giá WSS làm mẫu cho việc đánh giá bằng cách nào con người
nhận biết được tiếng nói, đặc biệt là nguyên âm . Các phương pháp về sau thì càng
dựa vào sự xử lý âm thanh của tai người, cách mà thính giác của con người xử lý âm
thanh và nhiễu. Các lập luận đưa ra là :
+ Sự phân tích tần số của tai người là không đổi.
+ Độ nhạy của tai người phụ thuộc vào tần số âm thanh.
+ Âm thanh lớn ứng với độ mạnh của tín hiệu trong miền phi tuyến tính.
Thính giác thì mô phỏng theo 1 loạt biến đổi của tín hiệu âm thanh.Cả tín hiệu gốc

và qua xử lý phải trải qua hang loạt biến đổi này. Xuất hiện cái gọi là phổ âm lượng.
Phương pháp BS sử dụng khoảng cách giữa các phổ này như là đánh giá chất lượng
chủ quan.
10
IV.Thuật toán tăng cường chất lượng tín hiệu tiếng nói:
4.1.Sơ đồ khối chung của Spectral Subtraction và Wienner Filtering:
Cả 2 thuật toán Spectral Subtraction và Wiener filter chỉ khác nhau ở khối hàm xử lý
triệt nhiễu,tất cả các khối còn lại thì giống nhau.
4.2.Thuật toán Spectral Subtraction:
Là thuật toán được đề xuất sớm nhất trong các thuật toán được sử dụng để giảm nhiễu
trong tín hiệu. Nó dựa trên một nguyên tắc cơ bản là,thừa nhận sự có mặt của nhiễu,ước
lượng phổ của tiếng nói sạch bằng cách tiếng nói đã bị nhiễu trừ đi phổ của nhiễu. Phổ
của nhiễu có thể được ước lượng cập nhật trong nhiều chu kỳ khi không có mặt của tín
hiệu( áp dụng với nhiễu có tốc độ biến thiên chậm). Việc tăng cường tín hiệu đã đạt được
bằng cách tính IDFT của phổ tín hiệu đã được ước lượng có sử dụng pha của tín hiệu có
nhiễu. Cái giá phải trả cho thuật toán này là sẽ bị méo tiếng nói nếu quá trình xử lý không
cẩn thận. Nếu việc lấy hiệu quá lớn thì có thể loại bỏ đi 1 phần thong tin của tiếng nói.
4.2.1 Spectral subtraction đối với phổ biên độ:
Giả thiết y(n) là tín hiệu đã bị nhiễu,nó là tổng của tín hiệu sạch x(n) và nhiễu d(n):
y(n)=x(n)+d(n) (15)
thực hiện F. rời rạc 2 vế ta được:
Y(ω)=X(ω)+D(ω) (16)
Chúng ta có thể biểu diễn Y(w) như sau
D(ω)=|D(ω)| (17)
11
Phân tích tín hiệu
thành các frame
FFT
Ước lượng
nhiễu

Hàm xử lý
giảm nhiễu
Tín hiệu bị nhiễu
IDFT
Overlap và
adding
Tín hiệu
sạch
Biên độ phổ của nhiễu |D(w)| không xác định được, nhưng có thể thay thế bằng giá trị
trung bình của nó được tính trong khi không có tiếng nói, và pha của tín hiệu nhiễu có thể
thay thế bằng pha của tín hiệu bị nhiễu.
(18)
Ký hiệu ‘^’ để chỉ rằng giá trị đó là giá trị ước tính gần đúng. Tín hiệu tiếng nói được
tăng cường có thể được bằng cách biến đổi IDFT của . Chú ý biên độ phổ của tín
hiệu đã được tăng cường có thể bị âm. Tuy nhiên, biên độ của phổ thì không thể âm, nên
chúng ta phải đảm bảo rằng sau khi trừ thì phổ của tín hiệu tiếng nói tăng cường luôn
không âm. Giái pháp chỉnh lưu bán sóng hiệu của phổ:

= (19)
4.2.2.Spectral subtraction đối với phổ công suất:
= + + X(ω). .D(ω)
= + 2.Re{ X(ω). } (20)
ω=2*pi*k/N với k=0,1,2…N-1. N là chiều dài của khung mẫu.
trong đó , X(ω). . D(ω) không thể tính được 1 cách trực tiếp mà
phải tính trung bình(kỳ vọng). Nếu thừa nhận d(n)=0 và không có 1 sự tương quan nào
với tín hiệu sạch x(n),thì khi đó:
= - (21)
Ta cũng có thể viết H
2
(ω) (22)

Khi đó H(ω) = (23)
12
H(ω) là hàm truyền đạt của hệ thống ( hàm độ lợi hay hàm nén). Nó là số thực luôn
dương giới hạn trong phạm vi [0,1]. Nếu có giá trị âm thì đó là sai xót trong việc ước
lượng phổ của nhiễu. Hình dạng của hàm nén là 1 đực trung duy nhất của mỗi thuật toán
tăng cường chất lượng tín hiệu tiếng nói. Hệ số H(ω) có giá trị thực nên việc biến đổi
IDFT là h(n) đối xứng với nhau qua điểm 0 và không nhân quả. Trong miền thời gian
h(n) được coi là bộ lọc không nhân quả. Do đó cần có 1 phương pháp để hiệu chỉnh H(ω)
để đáp ứng của nó nhân quả trong miền thời gian.
Công thức chung của thuật toán :
= - (24)
p=1 là trừ biên độ điển hình.p=2 là phương pháp trừ phổ công suất.
Sơ đồ khối :
4.3 Thuật toán Wiener Filtering:
Nguyên lý cơ bản ,giả sử y(n) là tín hiệu vào đã bị nhiễu,nó là tổng của tín hiệu sạch và
tín hiệu nhiễu d(n):
y(n)=x(n) + d(n) (25)
thực hiện F. ta được:
Y(ω)=X(ω)+D(ω) (26)
13
Tín hiệu
bị nhiễu
FFT
|.|
p
Ước lượng, cập
nhật nhiễu
Pha của
tín hiệu
|.|

1/p
IFFT
Tín hiệu sau khi
tăng cường
+
)(
ω
Y
-
p
D |)(|
^
ω
Tương tự như thuật toan trên ta cũng có:
Y(ω)=|Y(ω)| (27)
D(ω)=|D(ω)| (28)
Ta có thể ước lượng được biên độ của phổ tín hiệu sạch từ Y(ω) .
G(ω)= / Y(ω) (29)
G(ω) có thể được áp dụng theo Wiener
G(ω) = (30)

Trong đó P
s
(ω) và P
d
(ω) là phổ công suất của tín hiệu sạch.Đặt Priori SNR và Posteriori
SNR như sau: SNR
pri
= (31)
SNR

post
= (32)

Khó khăn là ta không có tín hiệu trước tín hiệu sạch s(n) nên ta không thể biết phổ của
nó.Do đó không thể tính SNRpri được.Nên nó được tính như sau
(ω) = (1-η).P( + η.
k-1
(jω)|
2
/ var( N
k-1
(jω)) (33)
= |Y
k
(jω)|
2
/ var( N
k
(jω)) (34)
14
với var( N
k-1
(jω)) là phương sai của phổ nhiễu trong frame trước. (jω) là giá trị ước
lượng của tín hiệu phục hồi. η là hằng số ( 0.9< η <0.98).Phương sai thường được dùng
thay cho công suất phổ của ước lượng nhiễu
(ω) = (1-η).P( + η.
k-1
(jω)|
2
/

k
(jω)|
2
(35)
= |Y
k
(jω)|
2
/
k
(jω)|
2
(36)

Với P(x)= ( chỉnh lưu bán sóng ) (37)
=> G(ω)= (38)
15
Tín hiệu
bị nhiễu
FFT
|.|2
Ước lượng, cập
nhật nhiễu
Pha của
tín hiệu
|.|
1/2
IFFT
Tín hiệu sau khi
tăng cường

)(
ω
Y
Priori
SNR
Hàm xử lý
giảm
nhiễuWF
pri
SNR
p
D |)(|
^
ω
Hình 5. Sơ đồ khối của thuật toán Wiener Filtering
Hình 6 . Lưu đồ giải thuật
16
Tính công suất nhiều ban đầu
K=1;nhập frame
VAD==1
?
Cập nhật lại
nhiễu
Tính Gain của hàm G
X(:,k)=G.Y(:;k)
K++;nhập frame kế tiếp
K<=tổn
g
frame
IDFTChia tín hiệu thành các khung(frame)

Biến đổi DFT cho các frame
Tính Priori SNR
y(n)
no
yes
no
yes
X(n)
V.Ước lượng và cập nhật nhiễu
Phương pháp ước lượng nhiễu ảnh hưởng lớn đến chất lượng của tín hiệu sau khi đã
được tăng cường. Nếu nhiễu được ước lượng quá nhỏ thì nhiễu vẫn còn. Còn nếu quá lớn
thì tiếng nói sẽ bị méo ảnh hưởng đến sự dễ nghe của nó. Sử dụng thuật toán thăm dò
(voice actity detection –VAD).Phương pháp này chỉ thỏa mãn với nhiễu không thay đổi.
Giảm tính hiệu quả trong các môi trường thực (ngoài đường,nhà hàng…).
5.1 Voice activity detection
Một vấn đề quan trọng trong ứng dụng xử lý tiếng nói là xác định thời gian có
tiếng nói trong 1 tín hiệu âm thanh nhất định. Đặc điểm của tiếng nói có thể coi
như đoạn tín hiệu không liên tục. Nó chỉ mang thông tin khi ai đó đang nói. Các
phần mà tồn tại tiếng nói gọi là vùng có tiếng nói,ngược lại là khoảng lặng. Một
thuật toán để xác định nơi nào có tiếng nói hoạt động, nơi nào không có ví dụ như
là voice activity detection ( VAD). VAD là quan trọng trong kỹ thuật xử lý tiếng
nói như là tăng cường chất lượng tín hiệu nhờ loại bỏ nhiễu. Tiếng nói tạm ngừng
hay chỉ có nhiễu là được ước lượng để ước lượng cập nhật nhiễu. Do đó việc ước
lượng là chính xác hơn.Trong kỹ thuật mã hóa tiếng nói, mục đích của cách làm
này là làm tăng tốc độ truyền tải thông tin. Chỉ những đoạn có tiếng nói mới được
truyền đi. Do đó làm tăng tính dễ nghe của tín hiệu.Thông tin chứa trong tín hiệu
được rõ rang hơn. Những thuật toán sơm nhất là short-time energy, zero-crossing
rate và linear prediction coefficients. Mục đích của các thuật toán là đều sử dụng
tổng năng lượng tín hiệu để so sánh với 1 mức ngưỡng được tính toán. Bên cạnh
việc tính tổng năng lượng thuật toán được bổ sung bởi đo chu kỳ tín hiệu và tỷ lệ

năng lượng tần số cao tới năng lượng tần số thấp cho viếc xác định chính xác hơn
sự có mặt của nhiễu.
5.1.1Những yếu tố cơ bản của thuật toán
Những yếu tố cơ bản đó là một phần của những đặc tính hay chất lượng của tín
hiệu đầu vào sau đó được so sánh với giá trị ngưỡng đước lấy ra từ đoạn tín hiệu
nhiễu. VAD = 1 khi mà giá trị được đo lớn hơn ngưỡng, các trường hợp khác
không có tiếng nói hoạt động hay khoảng lặng thì VAD = 0. Để thuận lợi cho
17
thuật toán thì độ dài mỗi khung tín hiệu nên từ 5-40 ms. Sự chính xác và tin cậy
của thuật toán VAD là phụ thuộc vào việc xác định ngưỡng.
5.1.2Thuật toán VAD dựa trên cơ sở ngưỡng năng lượng
Năng lượng của tín hiệu là được so sánh với giá trị ngưỡng nó độc lập với
nhiễu. Tiếng nói được phát hiện khi mà năng lượng ước tính lớn hơn ngưỡng.
If( E
j
> k. E
r
) với k > 1, frame là có tiếng nói (39)
Else frame là không có tiếng nói
Trong công thức này thì E
r
là biểu diễn cho năng lượng của frame nhiễu, khi
k. E
r
là ngưỡng được sử dụng trong sự phát hiện tiếng nói. Có hệ số tỷ lệ k cho
phép một dải an toàn cho việc sửa lại E
r
( sửa lại giá trị ngưỡng ). Sự khác biệt
năng lượng cơ bản VAD chính là sự khac nhau cập nhật ngưỡng.
E

r new
= (1-p) .E
r old
+ p.E
silence
(40)
E
r new
là được cập nhật của ngưỡng, E
r old .
. E
silence
là năng lượng của hầu hết
frame không phải là tiếng nói, p là hằng số ( 0< p <1 ).
Giá trị p phụ thuộc vào tỷ số năng lượng giữa frame không có tiếng nói mới và
frame không có tiếng nói cũ.Nếu tỷ số đó >=1.25 thì p=0.25.Nếu tỷ số >=1.1
và <=1.25 thì p=0.2; trong đoạn [ 1.0 ; 1.1] thì p=0.15; tỷ số <=1.0 thì p=0.1
5.1.3.Năng lượng của 1 frame
Nếu x(i) là mẫu thứ I của tiếng nói. N là tổng số mẫu trong frame
E
j
= (41)
Một cách tính khác năng lượng của tín hiệu tiếng nói là root mean square
energy ( RMSE ).
E
j
= (42)
5.1.4 Ước lượng giá trị ngưỡng ban đầu
Giá trị bắt đầu của ngưỡng là hết sức quan trọng. Nó đại diện cho môi trường nhiễu.
Một cách tùy ý lựa chọn giá trị nhiễu sẽ dẫn tới kết quả thực hiện của thuật toán

speech exhancement không tốt. Có 2 cách để ước lượng giá trị ngưỡng đầu tiên là :
+ cách 1 : thuật toán VAD chỉ áp dụng cho 1 đoạn thời gian ngắn sử dụng cách ghi
mẫu chỉ chứa môi trường nhiễu. Việc ước lượng giá trị ngưỡng này được tinh bằng
trung bình năng lượng của đoạn tín hiệu mẫu . Cách này là không khả thi cho các
ứng dụng đòi hỏi tính thời gian thực. Bởi vì môi trường nhiễu có thể thay đổi theo
thời gian. Do vậy ta sử dụng cách 2 bên dưới.
18
+ cách 2 : Một cách nghĩ tương tự cách ở trên. Nhưng sự khác biệt ở đây là giả sử
trong 100 ms đầu tiên của tín hiệu là không chứa tiếng nói , mà chỉ chứa môi trường
nhiễu.Lập luận giải thích cho cách này là người sử dụng cần 1 khoảng thời gian
chuẩn bị trước khi nói. Do đó 100 ms đầu tiên được đề nghị và được tính năng lượng
trung bình theo công thức:
E
r
= (43)
Với E
r
là ngưỡng ban đầu. v là số frame trong 100 ms.
5.1.5Giá trị ngưỡng
Ngưỡng cho tổng năng lượng dải nhiễu là dựa vào mức năng lượng E min và E max.
Thu được từ các frame nối tiếp nhau.
Ngưỡng =( 1-λ).E
max
+ λ.E
min
(43)
Suy ra λ = (E
max
- E
min

)/ E
max
(44)
λ là nhân tố tỷ lệ điều tiết xử lý ước lượng. Độ tin cậy của nó nằm trong khoảng
[0.950,….,0.999]. Tín hiệu khác nhau thì giá trị λ là không giống nhau.Việc xác định λ
dựa vào công thức (6) là độc lập và bất biến với môi trường nhiễu.
VI .Chương trình Mô phỏng:
6.1. Thiết kế giao diện
19

Hình 7. Giao diện chương trình
Ví dụ : từ “ AB”
20
Hình 8. Biên độ và phổ biên độ của từ ‘AB” trong môi trường nhiễu.
Hình 9. Phổ biên độ sau khi sử lý bằng bộ lọc wiener, Biến đổi IDFT và tín hiệu ra
21
Hình 10. Một vài ví dụ biên độ của “AB” khi không có nhiễu
Danh mục tài liệu tham khảo
1. Bài giảng xử lý tín hiệu số của thầy Trịnh Văn Loan- Đại học Bách khoa hà nội
2. Bài giảng xử lý tiếng nói của thầy Trình Văn Loan- Đại học bách khoa hà nội
3. “Approach for Energy-Based Voice Detector with Adaptive Scaling Factor” ,Kirill
Sakhnov,Member ,IAENG,Ekaterina Verteletskaya, and Boris Simak.
4. “Noise as a Tool for Spoken Language Identification”, Sunita Maithani,
J.S. Rawat.
5. “Evaluation of Objective Quality Measures for Speech Enhancement” ,Yi Hu and
Philipos C.loizou,Senior Member,IEEE.
6.” Speech Enhancement Using An Adaptive Wiener Filtering Approach”,M.A.Abd
El-Fattah,M.I.Dessouky,S.M.Diab and F.E.Abd El-samie.
22
7. Tham khảo tại trang ( )

Mục lục
2.2.Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau: 4
3.2.3.1.Phương Pháp LLR 8
3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người 9
3.2.4.1Phương pháp đo Weighted spectral Slope 9
3.2.4.2 Phương pháp đo Bark Distortion 10
IV.Thuật toán tăng cường chất lượng tín hiệu tiếng nói: 11
4.1.Sơ đồ khối chung của Spectral Subtraction và Wienner Filtering: 11
4.2.Thuật toán Spectral Subtraction: 11
4.2.1 Spectral subtraction đối với phổ biên độ: 11
4.2.2.Spectral subtraction đối với phổ công suất: 12
23
4.3 Thuật toán Wiener Filtering: 13
V.Ước lượng và cập nhật nhiễu 17
5.1 Voice activity detection 17
5.1.1Những yếu tố cơ bản của thuật toán 17
5.1.2Thuật toán VAD dựa trên cơ sở ngưỡng năng lượng 18
5.1.3.Năng lượng của 1 frame 18
5.1.5Giá trị ngưỡng 19
VI .Chương trình Mô phỏng: 19
24

tăng cường chất lượng tín hiệu tiếng nói

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về