Chương 1
a.Khái niệm
Thuật ngữ đa phương tiện
dùng để chỉ các thông tin như
dữ liệu, tiếng nói, đồ họa,
hình ảnh tĩnh, âm thanh và
phim ảnh được các mạng
truyền đi cùng thời điểm.
b. ví dụ: trong văn bản, đồ
họa , hình ảnh, âm thanh / âm
thanh , hình ảnh động và /
hoặc video. lĩnh vực khác
quảng cáo, nghệ thuật , giáo
dục, giải trí , kỹ thuật, y học,
toán học , kinh doanh , nghiên
cứu khoa học…
1.Multimedia and
Hypermedia(đa phương tiện
và siêu phương tiện)
a.Lịch sử
- Newspaper: perhaps the first
mass communication
medium, uses text, graphics,
and images.(Báo : có lẽ là
phương tiện thông tin đại
chúng đầu tiên)
- Motion pictures: conceived
of in 1830’s in order to
observe motion too rapid for
perception by the human eye.
(Hình ảnh chuyển động :
1830)
- Wireless radio transmission:
(truyền phát thanh)
Guglielmo Marconi, at
Pontecchio, Italy, in 1895
- Television: the new medium
for the 20th century,
established video as a
commonly available medium
and has since changed the
world of mass
communications.(Truyền
hình: các phương tiện mới
cho thế kỷ 20)
- 1945 – Vannevar Bush wrote
a landmark article describing
what amounts to a hypermedia
system called
Memex.(1945-Vannevar Bush
đã viết một hệ thống
hypermedia gọi là Memex.)
- 1960 – Ted Nelson coined the
term hypertext. (1960-Ted
Nelson đặt ra thuật ngữ siêu
văn bản)
- 1968 – Douglas Engelbart
demonstrated the On-Line
System (NLS), another very
early hypertext program.
(1968-Douglas Engelbart đã
chứng minh các On-Line Hệ
thống (NLS), một chương
trình siêu văn bản rất sớm)
- 1969 – Nelson and van Dam at
Brown University created an
early hypertext editor called
FRESS. (1969-Nelson và van
Dam tại Đại học Brown tạo
ra một siêu văn bản đầu
biên tập được gọi là FRESS)
- 1976 – The MIT Architecture
Machine Group proposed a
project entitled Multiple Media
– resulted in the Aspen Movie
Map, the first hypermedia
videodisk, in 1978.
- 1985 – Negroponte and
Wiesner co-founded the MIT
Media Lab.(1985-Negroponte
và Wiesner đồng sáng lập
các phng thí nghiệm phương
tiện truyền thông MIT.)
- 1989 – Tim Berners-Lee
proposed the World Wide Web.
(1989-Tim Berners-Lee đề
nghị World Wide Web)
- 1991 – MPEG-1 was approved
as an international standard for
digital video – led to the newer
standards, MPEG-2, MPEG-4,
and further MPEGs in the
1990s.(1991-MPEG-1 được
thông qua như là một tiêu
chuẩn quốc tế cho video kỹ
thuật số)
- 1991 – The introduction of
PDAs in 1991 began a new
period in the use of computers
in multimedia. ( 1991-Sự ra
đời của PDA năm 1991 bắt
đầu một giai đoạn mới
trong việc sử dụng máy tính
đa phương tiện.)
- 1992 – JPEG was accepted as
the international standard for
digital image compression –
led to the new JPEG2000
standard. (1992-JPEG được
chấp nhận như là tiêu
chuẩn quốc tế cho nén ảnh
kỹ thuật số-đă dẫn đến các
tiêu chuẩn JPEG2000 mới.)
- 1995 – The JAVA language
was created for platformindependent application
development.( 1995-Ngôn
ngữ JAVA được tạo ra cho
phát triển ứng dụng nền
tảng độc lập.)
- 1996 – DVD video was
introduced; high quality fulllength movies were
distributed on a single disk.
( 1996-DVD video đă được
giới thiệu; chất lượng cao
đầy đủ độ dài phim được
phân phối trên đĩa duy
nhất.)
- 1998 – XML 1.0 was
announced as a W3C
Recommendation. (1998XML 1.0 đă được công bố
như là một đề nghị W3C.)
- 2000 – WWW size was
estimated at over 1 billion
pages. (2000-WWW kích
thước được ước tính
khoảng hơn 1 tỷ trang.)
a.Hệ thống siêu văn bản
- A hypertext system (hệ
thống siêu văn bản): meant
to be read nonlinearly, by
following links that point to
other parts of the document,
or to other documents. (có
nghĩa là để được đọc phi
tuyến , bằng cách làm theo
các liên kết trỏ đến các
phần khác của tài liệu ,
hoặc các tài liệu khác)
- Hypermedia: not
constrained to be text-based,
can include other media, e.g.,
graphics, images, and
especially the continuous
media – sound and video. The
World Wide Web (WWW) –
the best example of a
hypermedia application.
(World Wide Web (WWW) ví dụ tốt nhất của một ứng
dụng hypermedia)
- Hypermedia is also
considered as one of
multimedia applications.
(Hypermedia cũng được coi
là một trong các ứng dụng
đa phương tiện)
a.WWW:
- The W3C has listed the
following goals for the WWW:
(W3c đã liệt kê 3 mục tiêu
sau cho WWW)
a.Universal access of web
resources (by everyone
everywhere). Tiếp cận phổ
cập các nguồn tài nguyên
web ( của tất cả mọi người
ở khắp mọi nơi)
a.Effectiveness of navigating
available information. (Hiệu
quả của điều hướng thông
tin)
a.Responsible use of posted
material. (Sử dụng có trách
nhiệm các tài liệu đăng)
- History of WWW:
a.1960s- Charles Goldfarb et al.
developed the Generalized
Markup Language (GML) for
IBM. : năm 1960 - Charles
Goldfarb et al. phát triển ngôn
ngữ đánh dấu tổng quát (GML)
cho IBM.
a.1986 – The ISO released a
final version of the Standard
Generalized Markup Language
(SGML). 1986-Các tiêu chuẩn
ISO phát hành một phiên bản
cuối cùng của các tiêu chuẩn
tổng quát đánh dấu ngôn ngữ
(SGML)
a.1990 – Tim Berners-Lee
invented the HyperText
Markup Language (HTML), and
the HyperText Transfer
Protocol (HTTP). 1990-Tim
Berners-Lee đă phát minh ra
ngôn ngữ đánh dấu siêu văn
bản (HTML), và HyperText
Transfer Protocol (HTTP).
a.Hypertext markup language
(HTML)Ngôn ngữ đánh dấu
siêu văn bản:
- HTML: a language for
publishing Hypermedia on the
World Wide Web – defined
using SGML:( là ngôn ngữ để
ban bố siêu văn bản trên
WWW )
- HTML uses ASCII, it is
portable to all different
(possibly binary
incompatible) computer
hardware. The current version
of HTML is version 4.01 (5.0).
HTML sử dụng ASCII)
- The next generation of HTML
is XHTML – a reformulation of
HTML using XML. Thế hệ tiếp
theo của HTML là XHTMLmột hình luận của HTML
bằng cách sử dụng XML.
- HTML uses tags to describe
document elements: (sử
dụng thẻ để mô tả các yếu
tố tài liệu)
+ <token params>: defining a
starting point. (xác định một
điểm khởi đầu)
+ < /token>: the ending point
of the element.( Điểm kết
thúc của phần tử)
+ Some elements have no
ending tags.(1 số phần tử k
có thẻ kết thúc)
- Naturally, HTML has more
complex structures and can be
mixed in with other
standards. (Đương nhiên,
HTML có cấu trúc phức tạp
hơn và có thể được trộn
lẫn với các tiêu chuẩn
khác.)
Chương 2
1.Introduction (giới thiệu)
Speech signal is complicated: (
tín hiệu tiếng nói là phức hợp
của: )
- Noise + periodic segments
( nhiễu+ tín hiệu tuần hoàn)
- Nonlinear(phi tuyến-k tuyến
tính)
- Time variant (biến đổi theo
thời gian)
Bộ máy phát âm
- Bộ máy phát âm bao gồm
các thành phần riêng rẽ như
phổi, khí quản, thanh quản,
và các đường dẫn miệng, mũi.
- Trong đó:
+ Thanh quản chứa đôi dây
thanh có thể dao động tạo ra
sự cộng hưởng cần thiết để
tạo ra âm thanh.
+ Tuyến âm là ống không
đều bắt đầu từ môi, kết thúc
bởi dây thanh hoặc thanh
quản.
+ Khoang mũi là ống không
đều bắt đầu từ môi, kết thúc
bởi vòm miệng, có độ dài cố
định khoảng 12cm đối với
người lớn.
+ Vòm miệng là các nếp cơ
chuyển động.
Cơ chế phát âm
+ Trong quá trình tạo âm
không phải là âm mũi, vòm
miệng mở, khoang mũi đóng
lại, dòng khí sẽ chỉ đi qua
khoang miệng.
+ Khi phát âm mũi, vòm
miệng hạ thấp và dòng khí sẽ
chỉ đi qua khoang mũi.
+ Tuyến âm sẽ được kích
thích (excitation) bởi nguồn
năng lượng chính tại thanh
môn. Tiếng nói được tạo ra
do tín hiệu nguồn từ thanh
môn
phát ra, đẩy không khí có trong
phổi lên tạo thành dòng khí, va
chạm vào hai dây thanh trong
tuyến âm. Hai dây thanh dao
động sẽ tạo ra cộng hưởng,
dao động âm sẽ được lan
truyền theo tuyến âm (tính từ
thanh môn đến khoang miệng)
và sau khi đi qua khoang mũi,
môi, sẽ tạo ra tiếng nói.
+ Tín hiệu tiếng nói được hình
thành thông qua 2 yếu tố:
- Excitation
- Signal shaping
Excitation(kích thích)
+ Voiced(hữu thanh) excitation
by its periodicity( tính chu kì),
+ Voiceless(vô thanh)
excitation by its noise-like
waveform,
+ Transient(nhất thời)
excitation by a certain
sequence in the temporal
course
Signal shaping (dạng tín
hiệu)
+ A speech sound is not only
determined by the excitation
signal, but also strongly by the
"forming" of the air stream in
the vocal tract. The most
important components are the
lips and tongue. ( Tiếng nói k
chỉ đc quyết định bởi tín
hiệu kích thích mà còn chịu
tác động mạnh mẽ bởi
khuôn dạng của dòng không
khí di chuyển trong bộ máy
phát âm. Bộ phận quan
trọng nhất là môi và lưỡi.)
+ The components in the vocal
tract contributing(đóng góp)
substantially(cơ bản) to the
timbre (âm sắc) of the speech
signal are: ( Những bộ phận
trong bộ máy phát âm mà cơ
bản ảnh hưởng tới âm sắc
của tín hiệu tiếng nói là)
lưỡi)
- tongue position(vị trí
- lip position.(vị trí
môi)
sentation of speech
signal(biểu diễn tín hiệu
tiếng nói)
+ Speech signal is continuous.
Presentation of the speech
signal digitally in order to
maintain the characteristics of
signal is very important. ( tín
hiệu tiếng nói là liên tục. Vì
thế việc biểu diễn của tín
hiệu tiếng nói dạng số hóa
phải giữ nguyên đặc trưng
của tín hiệu là rất quan
trọng)
+ Speech signal needs
presenting in discrete form
following three required
steps: có 3 bước để biểu diễn
tín hiệu âm theo dạng rời rạc
- Sampling: lấy mẫu
- Quantizing: lượng tử hóa
- Compressing: nén
+ Sampling: in order to
recover the signal without
loosing information, sampling
rate f0 ≥2Fmax (Shannon
theorem) (for example:
telephone – 8kHz, music and
voice – 48kHz): (để tái tạo lại
tín hiệu mà k bị mất hết
thông tin thì ta có tỉ lệ lấy
mẫu theo định lí Shanon là
fo>= 2Fmax. Vd như điện
thoại là 8kHz, nhạc & viddeo
là 48kHz)
+ Quantizing: Each sample
needs to be quantized for
efficient processing and
transmission. This will
produce white noise.( mỗi
mẫu cần đc lượng tử hóa
để nén và truyền đc hiệu
quả. Nó sẽ gây nên nhiễu
trắng)
+ Compressing: When
transmitted, the speech signal
contains a huge ‘redundancy’.
Hence, the signal normally is
compressed with a
compression technique to
have a compact signal for
delivery. ( khi truyền thì tín
hiệu tiếng nói chứa 1 phần
dư thừa lớn.do đó nó
thường đc nén với kĩ thuật
nén nào đó để tín hiệu gọn
hơn để chuyển đi)
Speech signal coding(mã hóa
tín hiệu tiếng nói)
+ Two types of speech coding:
direct coding and parametric
coding.(2 loại)
+ Direct coding: PCM,
+ Parametric coding: LPC,
MPLPC, LSF
Đặc điểm của tín hiệu
tiếng nói :
+ Âm hữu thanh
- Âm hữu thanh được tạo ra
từ các dây thanh bị căng đồng
thời và chúng rung động ở
chế độ dãn khi không khí tăng
lên làm thanh môn mở ra và
sau đó thanh môn xẹp xuống
do không khí chạy qua.
- Do sự cộng hưởng của dây
thanh, sóng âm tạo ra có dạng
tuần hoàn hoặc gần như tuần
hoàn. Phổ của âm hữu thanh
có nhiều thành phần hài tại
giá trị bội số của tần số cộng
hưởng, còn gọi là tần số cơ
bản (pitch).
+ Âm vô thanh
- Khi tạo ra âm vô thanh dây
thanh không cộng hưởng. Âm
vô thanh có hai loại cơ bản là
âm xát và âm tắc.
- Âm xát (ví dụ như âm s)
được tạo ra khi có sự co thắt
tại vài điểm trong tuyến âm.
Không khí khi đi qua điểm co
thắt trở nên chuyển động hỗn
loạn tạo nên kích thích giống
như nhiễu ngẫu nhiên. Thông
thường điểm co thắt xảy ra
gần miệng nên sự cộng hưởng
của tuyến âm ảnh hưởng rất ít
đến đặc tính của âm xát được
tạo ra.
- Âm tắc (ví dụ như âm p)
được tạo ra khi tuyến âm đóng
tại một số điểm làm cho áp
suất không khí tăng lên và sau
đó được giải phóng đột ngột.
Sự giải phóng đột ngột này tạo
ra kích thích nhất thời của
tuyến âm. Sự kích thích này có
thể xảy ra với sự cộng hưởng
hoặc không cộng hưởng của
dây thanh tương ứng với âm
tắc hữu thanh hoặc vô thanh.
+ Nguyên âm
Nguyên âm là âm hữu thanh
được tạo ra bằng sự cộng
hưởng của dây thanh khi dòng
khí được thanh môn đẩy lên.
Khoang miệng được tạo lập
thành nhiều hình dạng nhất
định tạo thành các nguyên âm
khác nhau. Số lượng các
nguyên âm phụ thuộc vào từng
ngôn ngữ nhất định.
- Phụ âm
Phụ âm được tạo ra bởi các
dòng khí hỗn loạn được phát
ra gần những điểm co thắt của
đường dẫn âm thanh do cách
phát âm tạo thành. Phụ âm có
đặc tính hữu thanh hay vô
thanh tuỳ thuộc vào việc dây
thanh có dao động để tạo nên
cộng hưởng không. Dòng
không khí tại chỗ đóng của
vòm miệng tạo ra phụ âm tắc.
Phụ âm xát được phát ra từ
chỗ co thắt lớn
nhất. Các âm tắc được tạo ra
từ khoảng giữa.
+ Hàm năng lượng ngắn
hạn
W ( n )
W ( n) =
0
- Hàm năng
lượng ngắn hạn của tiếng nói
được tính bằng cách chia tín
hiệu tiếng nói thành nhiều
khung, mỗi khung chứa N
mẫu. Các khung này được đưa
qua một cửa sổ có dạng hàm
như sau:
- Hàm năng lượng ngắn tại
mẫu thứ m được tính theo
công thức sau:
N −1
Em = ∑ { x ( n + m ) ∗ W ( n ) }
2
n =0
- Thông thường có ba dạng
cửa sổ được sử dụng đó là
cửa sổ Hamming, cửa sổ
Hanning và cửa sổ chữ nhật.
Hàm năng lượng ngắn hạn
của âm hữu thanh thường lớn
hơn so với âm vô thanh.
- Tần số cơ bản
- Dạng sóng của tiếng nói
gồm hai phần: Phần gần
giống nhiễu (trong đó biên độ
biến đổi ngẫu nhiên) và phần
có tính chu kỳ (trong đó tín
hiệu lặp lại gần như tuần
hoàn). Phần tín hiệu có tính
chu kỳ chứa các thành phần
tần số có dạng điều hòa. Tần
số thấp nhất chính là tần số
cơ bản và cũng chính là tần số
dao động của dây thanh.
Giá trị tần số cơ bản
80 – 200 Hz
150 – 450 Hz
200 – 600 Hz
+ Formant
- Với phổ của tín hiệu tiếng
nói, mỗi đỉnh có biên độ lớn
nhất xét trong một khoảng
nào đó (cực đại cục bộ)
tương ứng với một formant.
Ngoài tần số, các formant còn
được xác định bởi biên độ và
dải thông của chúng. Về mặt
vật lý các formant tương ứng
với các tần số cộng hưởng
của tuyến âm
- Tần số formant biến đổi
trong một khoảng rộng phụ
thuộc vào giới tính của người
nói và phụ thuộc vào các dạng
âm vị tương ứng với formant
đó
2.Speech signal
analysis( phân tích tín hiệu
tiếng nói)
Bộ lọc nguồn
+ Tuyến âm của con người là
một bộ lọc phi tuyến phụ
thuộc thời gian (tham số thay
đổi theo thời gian) rất phức
tạp và được kích thích bằng
nhiều nguồn năng lượng khác
nhau Mô hình thực cho các
tính chất âm học là vô cùng
phức tạp.
+ Để tạo ra mô hình thì đơn
giản hóa như sau
- Tuyến âm được biểu diễn
bằng một bộ lọc tuyến tính
không mất mát với một đầu
vào duy nhất.
- Nguồn kích thích hoặc là
dãy xung tuần hoàn hoặc là
+ Khi được dùng cho tổng hợp,
các tham số bộ lọc được cập
nhật theo chu kỳ khoảng10 ms.
+ Khi được dùng cho phân tích,
tín hiệu tiếng nói được
phân chia thành các khung độ
dài khoảng 10-25 ms. Với mỗi
khung, một tập các tham số bộ
lọc được xác định bằng cách
tối thiểu sự khác biệt giữa
tiếng nói được tạo bằng mô
hình và tiếng nói thực.
Mô hình toàn cực
Là mô hình bộ lọc–nguồn
trong đó tuyến âm được biểu
diễn bằng một bộ lọc số phụ
thuộc thời gian có đáp ứng tần
số là:
H ( z) =
S ( z)
=
U ( z)
G
p
1 − ∑ a k .z − k
k =1
p
s( n ) = ∑ ak .s( n − k ) + G.u ( n )
k =1
H
ệ thống có thể được kích thích
bởi một dãy xung đối với tiếng
nói hữu thanh hay một dãy
nhiễu ngẫu nhiên đối với tiếng
nói vô thanh. Tần số cơ bản và
các tham số hữu thanh/ vô
thanh có thể được xác định
bằng sử dụng phân tích tiên
đoán tuyến tính. Các mẫu tiếng
Liên tục
r ( x) =
∞
∫ g (u)h( x + u )du
−∞
r(k) =
∞
∑ g(m).h(m + k)
m = -∞
rạc
Rời
Phương pháp tổng hợp
tiếng nói
Được chia làm 3 nhóm:
- Tổng hợp mô phỏng bộ máy
phát âm: Mô phỏng lại quá
trình xử lý vật lý bộ máy phát
âm của con người một cách
trực tiếp.
- Tổng hợp Formant: Mô
phỏng các tần số điểm cực
của tín hiệu tiếng nói hoặc
hàm truyền đạt của tuyến âm
dựa trên mô hình bộ lọcnguồn.
- Tổng hợp trực tiếp: Sử dụng
các mẫu tiếng nói ghi âm có
chiều dài khác nhau từ tiếng
nói tự nhiên
Phương pháp tổng hợp bằng
LP (mã hóa và tổng hợp LP Presentation)
nhiễu, phụ thuộc vào tiếng
nói là hữu thanh hay vô thanh.
- Các đặc tính của bộ lọc và
nguồn kích thích là tĩnh
(không biến đổi) trong các
chu kỳ khoảng 10 ms.
nói s(n) có thể có được bằng
cách sử dụng phương trình:
Chương 4
Digitalization of Sound. (Số
lượng âm thanh)
+ Sound is a wave
phenomenon like light, and
involves molecules of air
being compressed and
expanded under the action of
some physical device.( Âm
thanh là một hiện tượng
sóng như ánh sáng, và bao
gồm các phân tử của không
khí được nén và mở rộng
dưới tác động của một số
thiết bị vật lý.)
+ For example, a speaker in
an audio system vibrates back
and forth and produces a
longitudinal pressure wave
that we perceive as sound.
Since sound is a pressure
wave, it takes on continuous
values, as opposed to digitized
ones.( Ví dụ, một người nói
trong một hệ thống âm
thanh sẽ tạo ra một sóng
dọc mà chúng ta nhận thức
được. Nó có giá trị liên tục,
như trái ngược với những
số hóa.)
+ Even though such pressure
waves are longitudinal, they
still have ordinary wave
thông với một mật độ khác
nhau)và nhiễu xạ (uốn cong
xung quanh một chướng
ngại vật).
+ If we wish to use a digital
version of sound waves we
must form digitized
representations of audio
information.( Nếu chúng ta
muốn sử dụng một bản số
của sóng âm thanh, chúng ta
phải tạo thành các đại diện
số hóa của âm thanh thông
tin.)
Digitization.(số hóa)
+ Digitization means
conversion to a stream of
numbers, and preferably these
numbers should be integers for
efficiency.( Số hóa có nghĩa là
chuyển đổi tương tự sang
số, những con số này nên là
số nguyên cho hiệu quả.)
Sampling and Quantization.
(lấy mẫu và lượng tử hóa)
+ The graph in the above figure
has to be made digital in both
time and amplitude. To digitize,
the signal must be sampled in
each dimension:in time, and in
amplitude.( Để số hoá, các tín
hiệu phải được lấy mẫu
mỗi kích thước: trong thời
Hàm tương quan:
Hàm tương quan dùng để khảo
sát tính tương quan giữa hai
hàm bằng cách so sánh chồng
hai hàm lên nhau và với một
trong hai hàm dịch sang trái
hay sang phải.
called the sampling frequency.
( Tỷ lệ mà tại đó nó được
thực hiện ở đây được gọi
làtần số lấy mẫu.)
+ For audio, typical sampling
rates are from 8 kHz (8,000
samples per second) to 48
kHz. This range is determined
by Nyquist theorem
(discussed later). (Đối với
âm thanh, tỷ lệ điển hình
mẫu là từ 8 kHz (8.000 mẫu
/ giây) đến 48 kHz. Phạm vi
này được xác định theo
định lý Nyquist (được thảo
luận sau này).
+ Sampling in the amplitude
or voltage dimension is called
quantization. (Lấy mẫu kích
thước biên độ hoặc điện áp
được gọi là sự lượng tử
hóa.)
Nyquist Theorem. (Định lí
Nyquist:)
+ Frequency is an absolute
measure, pitch is generally
relative – a perceptual
subjective quality of sound.
- Pitch and frequency are
linked by setting the note A4
exactly 440 Hz.
- An octave above that note
takes us to another A note. An
properties and behaviors,
such as reflection (bouncing),
refraction (change of angle
when entering a medium with
a different density) and
diffraction (bending around
an obstacle).( Ngay cả khi
sóng dọc, nó vẫn có tính
chất sóng thông thường,
chẳng hạn như (nảy) phản
xạ, khúc xạ (thay đổi góc
khi gặp một phương tiện
truyền
gian, và trong biên độ.)
+ Sampling means measuring
the quantity we are interested
in, usually at evenly-spaced
intervals. (Lấy mẫu là quá
trình rời rạc hóa tín hiệu
theo thời gian)
+ The first kind of sampling,
using measurements only at
evenly spaced time intervals, is
simply called, sampling. The
rate at which it is performed is
- If we allow non-integer
multiples of the base
frequency, we allow non-“A”
notes and have a more
complex resulting sound.
+ The Nyquist theorem states
how frequently we must
sample in time to be able to
recover the original sound.
For correct sampling we must
use a sampling rate equal to at
least twice the maximum
frequency content in the
signal. This rate is called the
Nyquist rate. Tỷ lệ này được
gọi là tỷ lệ Nyquist
+ Nyquist Theorem: If a signal
is band-limited, i.e., there is a
lower limit f1 and an upper
limit f2 of frequency
components in the signal,
then the sampling rate should
be at least 2(f2 − f1).
+ Nyquist frequency: half of
the Nyquist rate. Since it
would be impossible to
recover frequencies higher
than Nyquist frequency in any
event, most systems have an
anti-aliasing filter that
restricts the frequency
content in the input to the
sampler to a range at or below
+ The ratio of the power of the
correct signal and the noise is
called the signal to noise ratio
(SNR) – a measure of the
quality of the signal.
+ The SNR is usually measured
in decibels (dB), where 1 dB is
a tenth of a bel. The SNR value,
in units of dB, is defined in
terms of base-10 logarithms of
squared voltages, as follows:
For example, if the signal
voltage VSignal is 10 times the
noise, then the SNR is 20
log10(10) = 20dB.
octave corresponds to
doubling the frequency. Thus
with the middle “A” on a piano
(“A4” or “A440”) set to 440 Hz,
the next “A” up is at 880 Hz, or
one octave above.
- Harmonics: any series of
musical tones whose
frequencies are integral
multiples of the frequency of a
fundamental tone.
Nyquist frequency. Tần số
Nyquist…
Signal to Noise Ratio.( tỉ lệ
tín hiệu nhiễu)
Chương 5
Lossless Compression
Techniques. (Kĩ thuật nén
không mất dữ liệu)
1.Introduction
Compression: the process of
coding that will effectively
reduce the total number of
bits needed to represent
certain information. (Nén:
quá trình mã hóa mà sẽ có
hiệu quả làm giảm tổng số
bit cần thiết để đại diện
cho một số thông tin.)
compression ratio =
B0 − number of bits before
compression
B1 − number of bits after
compression
2.Run-Length Coding
Rationale for RLC: if the
information source has the
property that symbols tend to
form continuous groups, then
such symbol and the length of
the group can be coded.
Run-length encoding (RLE) is
a very simple form of data
compression in which runs of
data (that is, sequences in
which the same data value
occurs in many consecutive
Nguyên lý:
- Tối ưu hoá mã bằng cách thay
thế các chuỗi ký tự giống nhau
liên tiếp.
- Ứng dụng trong các loại ảnh
BMP, TIFF. Các điểm ảnh liên
tiếp có giá trị như nhau sẽ
được thay thế bằng một điểm
ảnh và chỉ rõ số lượng điểm.
Các bước thuật toán:
- RLE thay thế các chuỗi ký tự
lặp lại nhiều lần bằng một
chuỗi ngắn hơn. Chuỗi ký tự
được gọi là run và thường
được mã hóa (encoded) thành
2 bytes: byte đầu tiên biểu
diễn số lượng các ký tự trong
run và được gọi là run count.
Run count có thể chạy từ 1 đến
128 hoặc 256.
- Byte thứ hai là ký tự trong run
(từ 0 đến 255) và được gọi là
run value
+ Ví dụ: Nếu không nén ta cần
15 bytes để biểu diễn chuỗi
AAAAAAAAAAAAAAA (15 ký tự
A), nếu sử dụng RLE ta sẽ có
kết quả 15A, do đó chỉ cần 2
bytes để biểu diễn. 15A được
gọi là RLE packet
3.Shannon – Fano Algorithm
Ý tưởng: do xác suất xuất hiện
- Gán cho mỗi nhóm ký hiệu
mã 0 hoặc 1.
- Tiếp tục phân chia cho tới
khi trong các nhóm chỉ chứa
một ký hiệu.
Vd:
data elements) are stored as a
single data value and count,
rather than as the original
run.
a) Thuật toán mã hóa Run
Length Encoding (RLE).
Loại dư thừa đơn giản nhất
trong một tập tin là các
đường chạy dài gồm các kí tự
lặp lại, điều này thường thấy
trong các tập tin đồ hoạ
bitmap, các vùng dữ liệu hằng
của các tập tin chương trình,
một số tập tin văn bản...
4.Huffman Coding
Thuật toán bao gồm 2 bước
chính:
a. Giai đoạn thứ nhất:
Tính tần suất của các ký tự
trong dữ liệu gốc: duyệt tệp
gốc một cách tuần tự từ đầu
đến cuối để xây dựng bảng
mã. Tiếp sau đó là sắp xếp lại
bảng mã theo thứ tự tần suất
giảm dần.
b.Giai đoạn thứ hai: mã hóa:
Duyệt bảng tần suất từ cuối
lên đầu để thực hiện ghép 2
phần tử có tần suất xuất hiện
thấp nhất thành một phần tử
duy nhất. Phần tử này có tần
suất bằng tổng 2 tần suất
thành phần. Tiến hành cập
nhật lại bảng và đương nhiên
loại bỏ 2 phần tử đã xét. Quá
trình được lặp lại cho đến khi
bảng chỉ có một phần tử. Quá
trình này gọi là quá trình tạo
cây mã Huffman vì việc tập
hợp được tiến hành nhờ một
cây nhị phân 2 nhánh. Phần
tử có tần suất thấp ở bên
phải, phần tử kia ở bên trái.
Sau khi cây đã tạo xong, người
ta tiến hành gán mã cho các
nút lá. Việc mã hóa rất đơn
của các ký tự mã đã biết nên
mã hoá các ký tự có thể được
tối ưu hoá.
Các bước thực hiện thuật toán:
- Xác định các xác suất xuất
hiện của các ký tự trong bản
tin.
- Sắp xếp các ký tự theo trình
tự xác suất xuất hiện giảm
dần.
- Phân chia các ký tự thành hai
nhóm có tổng xác suất xấp xỉ
(nếu dùng mã nhị phân thì
phân chia làm hai nhóm, nếu
mã cơ số m thì chia làm m
nhóm).
Average bit number
5.Lempel-Ziv-Welch Algorithm
Phổ biến nhất là mã LempleZiv, ý tưởng của phương pháp
này là:
+ Sử dụng các từ mã có độ
dài cố định để biểu diễn các
các chuỗi có độ dài thay đổi
+ LZW encoder và LZW
decoder cùng xây dựng nên
một từ điển động (dictionary)
khi nhận được dữ liệu.
+ LZW đặt các đầu vào
(entries) dài hơn, lặp lại
nhiều lần vào trong từ điển
và sinh ra mã cho mỗi phần tử
nếu như phần tử này đã có
trong từ điển
Giải thuật LZW để nén dữ
liệu
Ưu điểm
- Cho phép thực hiện tốt với
hình ảnh cũng như text.
giản: mỗi lần xuống bên phải
ta thêm 1 bit “1” vào từ mã;
mỗi lần xuống bên trái ta
thêm một bit “0”.
Vd:
Giải thuật LZW thực hiện như
sau:
+ Bảng các mã sẽ là 1 2 4 5 2 3
4 6 1. Thay vì phải gửi đi xâu
“ABABBABCABABBA” (14 ký
tự) ta chỉ phải gửi đi 9 ký tự,
do đó tỷ lệ nén là 14/9=1.56
Giải thuật LZW để giải nén
như sau
- Tỷ lệ nén trung bình: 50%.
- Tốc độ nén nhanh.
Nhược điểm
- Trong một số tình huống khi
tần suất là rất thấp, ta có thể
không được lợi một chút nào,
thậm chí còn bị thiệt một ít bit.
- Bên nhận muốn giải mã
được thông điệp thì phải có
một bảng mã giống như bảng
mã ở bên gửi, do đó khi nén các
tập tin bé hệ số nén không
được cao.
Ví dụ: Giải nén mã 1 2 4 5 2 3 4
61
Ví dụ: Sử dụng LZW để nén
xâu “ABABBABCABABBA”
+ Bắt đầu bằng một từ điển
đơn giản được gọi là “string
table”, ban đầu từ điển này chỉ
gồm 3 ký tự với các mã như
sau:
Chương 6
Lossy Compression
Techniques. (Kỹ thuật nén
mất dữ liệu)
1.Khái niệm nén có mất mát
thông tin:
- Dữ liệu được nén không
giống với dữ liệu gốc nhưng
gần giống dữ liệu gốc
- Có tỷ lệ nén cao hơn nhiều
so với các phương pháp nén
không mất mát thông tin
2. Đánh giá sự biến dạng của
dữ liệu sau khi nén:
Có 3 đại lượng dùng đánh giá
sự biến dạng của dữ liệu
trong nén ảnh
a. Bình phương trung bình sai
số (Sai số quân phương) –
Mean Square Error-MSE
Trong đó: + xn là dãy dữ liệu
vào
+ yn là dãy dữ liệu
Đỉnh của tỷ lệ giữa tín hiệu và
tạp nhiễu –Peak Signal to
Noise Ratio – PNRS (dB):
3. Lượng hóa – Quantization
Giảm bớt các giá trị
đầu ra sai khác
Có 3 phương pháp để
lượng hóa:
+ Uniform: Bao gồm midrise
quantizer và midtreat quantizer
+ Nonuniform: companded
quantizer
+ Vector Quantization
Lượng tử hóa vô hướng
giống nhau – Uniform Scalar
Quantization:
+ Phân chia vùng dữ liệu vào
(input) thành các khoảng đều
nhau, ngoại trừ hai khoảng or
hai biên.
+ Giá trị của dữ liệu ra
(output) được lấy tại điểm
giữa của mỗi khoảng
+ Độ dài của mỗi khoảng được
Lượng tử hóa vô hướng
khác nhau – Nonuniform
Quantization
- Phân chia vùng dữ liệu vào
(input) thành các khoảng
không đều nhau. Các khoảng
cách có thể được lựa chọn để
tối ưu hóa SNR cho một kiểu
cụ thể của tín hiệu
- Một trong số các phương
pháp lượng tử hóa của
Nonuniform Quantization là
Companded Quantization
- Companded Quantization là
kết hợp của hai bước:
Compressed (bên phía gửi) và
Expanded (bên phía nhận)
+ Compressed sẽ làm cho tín
hiệu đầu vào có phân phối
đều (uniform distribution) do
đó có thể sử dụng uniform
quantization
+ Bên nhận khi nhận được
tín hiệu (compressed) sẽ tiến
hành giải nén dữ liệu
(expanded)
Lượng tử hóa vector – Vector
Quantization
- Các hệ thống nén dữ liệu sẽ
được xây dựng từ xn
+ N số lượng dữ liệu
b. Tỷ lệ giữa tín hiệu và tạp
nhiễu – Signal to Noise Ratio –
NRS (dB):
gọi là step size và được ký hiệu
là
+ Midrise quantizer có một số
lẻ các mức ra (output levels)
+ Midtreat quantizer có một số
chẵn các mức ra bao gồm cả số
0 như là một mức ra
Trong trường hợp =1 ta có
thể tính được các giá trị ra như
sau:
Trong đó:
là trung
bình bình phương cửa dãy dữ
liệu ban đầu và
MSE
làm việc tốt hơn nếu nó hoạt
động trên các vector hoặc các
nhóm của các mẫu hơn là làm
việc với các ký hiệu hay các
mẫu riêng lẻ
- Các vector được thành lập
bằng cách đặt các mẫu đầu
vào liên tiếp vào trong một
vector.
- Trong Vector Quantization
các vector mã (code vector)
với n thành phần được sử
dụng, các các vector mã này sẽ
tạo thành một codebook
là
Mã hóa biến đổi –
Transform
- Nếu Y là kết quả của một
pháp biến đổi tuyến tính T
của một vector đầu vào X sao
cho các thành phần của Y ít
tương quan đến nhau khi đó Y
có thể được mã hóa hiệu quả
hơn X.
- Nếu hầu hết các thông tin
được mô tả một cách chính
xác bởi một vài thành phần
đầu tiên của một vector đã
được biến đổi thì các thành
phần còn lại có thể được
lượng tử hóa thô hoặc được
đặt bằng 0 với một chút biến
dạng về tín hiệu
- Trong mã hóa biến đổi phép
biến đổi Cosine rời rạc –
Discrete Cosine Transform
(DTC) và phép biến đổi
Wavelet rời rạc là các phép
biến đổi quan trọng được áp
ựng nhiều trong nén ảnh
(tĩnh và động)
Tần số không gian (Spatial
Frequency) và DTC
- Tần số không gian sẽ chỉ ra
số lần giá trị của pixel thay
Trong đó:
Các hằng số C(u), C(v) được
định nghĩa như sau:
2D Discrete Cosine Transform
(2D DTC) được định nghĩa như
sau:
Trong đó : i, j, u, v =0,1,..,7,
C(u), C(v) được định nghĩa như
trên
- 2D Inverse Discrete Cosine
Transform (2D IDTC) được
Wavelet Transform
- Mục tiêu của phép biến đổi
Wavelet là phân rã tín hiệu
vào thành các thành phần có
thể xử lý được các thành
đổi qua một block ảnh
- DTC chỉ ra các nội dung của
bức ảnh thay đổi bao nhiêu
tương ứng với số vòng của
một sóng hình cosine trên
một khối ảnh
- Vai trò của DTC là phân ly tín
hiệu ban đầu thành các thành
phần DC và AC của nó. Vai trò
của IDTC là tái tạo lại tín hiệu
(reconstruct)
- Định nghĩa DTC:cho một
hàm vào f(i,j) i,j là các số
nguyên nhận giá trị trên một
phần của ảnh, phép biến đổi
2D DTC sẽ biến đổi f vào một
hàm F(u,v) mới với u,v có cùng
miền giá trị như i,j. Phép biến
đổi được định nghĩa như sau
định nghĩa như sau:
Trong đó: i, j, u, v
=0,1,..,7
- DTC là phép biến đổi tuyến
tính (linear). Một phép biến
đổi T được gọi là tuyến tính
nếu và chỉ nếu :
T(αp+ßq)= αT(p)+ßT(q)
Trong đó α, ß là các hằng số,
p,q là các biến
phần này có thể biểu diễn cụ
thể hay các thành phần có thể
loại bỏ được để đạt được
hiệu quả trong quá trình nén
dữ liệu
- Với những thành phần này
chúng ta có thể tái tạo lại tín
hiệu ban đầu (xấp xỉ)