Chương 2: Lý thuyết thông tin
2.3 Channel capacity (Năng suất kênh truyền)
Shannon đã đưa ra khái niệm năng suất kênh truyền, là giới hạn dữ liệu có
thể được truyền đi qua một môi trường. Nhiều lỗi trong việc vận chuyển thông tin
qua một môi trường phụ thuộc vào năng lượng của tín hiệu, năng lượng của nhiễu
và băng thông của kênh truyền. Nếu băng thông lớn, chúng ta có thể vận chuyển
được nhiều dữ liệu trên kênh truyền. Nếu năng lượng tín hiệu mạnh, thì ảnh hưởng
của nhiễu được giảm xuống. Theo Shannon, băng thông của kênh truyền, năng
lượng tín hiệu và năng lượng nhiễu phụ thuộc nhau qua công thức:
Trong đó:
C là tốc độ kênh truyền cực đại tình bằng bit per second (bps)
W là băng thông của kênh truyền tình bằng Hz
S/N là tỉ sổ giữa công suất nguồn và công suất nhiễu (SNR) . SNR thường
được đo bằng dB và sử dụng công thức:
Giá trị của tốc độ kênh truyền tính theo công thức này được cho là lớn nhất trên lý
thuyết. Ví dụ, xét một đường truyền âm thanh với W = 3100 Hz, SNR = 30 dB.
Theo trên, ta có: 30 = 10log(S/N)
log(S/N) = 3
S/N=1000
Vậy C=3100.log2(1+1000)=30.894 bps
Vì vậy chúng ta không thể vận chuyển dữ liệu với tốc độ nhanh hơn giá trị C
được.Một điểm quan trong cần được chú ý trong công thức trên là Shannon chỉ thừa
nhận sự tác động của nhiễu nhiệt.
Để tăng C, chúng ta có thể tăng W không ? Không vì tăng W thì sẽ làm tăng nhiễu
và SNR sẽ giảm. Để tăng C chúng ta có thể tăng SNR được không ? Không vì kết
quả là sẽ có nhiều nhiễu hơn và được gọi là sự điều biến qua lại của nhiễu.
Entropy của một nguồn tin và khả năng kênh truyền là hai khái niệm quan trọng,
dựa trên đó mà Shannon đã đưa ra định lý.
2.4 Định lý Shannon
Trong một hệ thống truyền thông sổ, mục đích của những người thiết kế là chuyển
đổi thông tin thành tín hiệu sổ, chuyển đi thông qua một môi trường truyền tin, nhận
thông tin tại trạm cuối và tái hiện lại tín hiệu sổ một cách chính xác. Để đạt được
mục đích này, hai yêu cầu quan trong được đặt ra là:
- Mã hóa nhiều loại thông tin thành định dạng sổ. Chú ý rằng mọi vật xung
quanh đều là một dạng tín hiệu tuần tự, hình ảnh cũng là tín hiệu tuần tự.
Chúng ta cần phải tìm ra cơ chế để chuyển đổi tín hiệu tuần tự thành tín
hiệu số. Nếu một nguồn được tạo bởi những kí hiệu (ví dụ như A, B),
chúng ta cần mã hòa những kí tự này thành một dòng bit. Việc mã hóa
phải được làm một cách có hiệu quả sao cho số bit mã hòa phải nhỏ nhất.
- Phải chắc chắn là dữ liệu gửi ra ngoài kênh truyền không bị sai. Chúng
ta không thể loại bỏ nhiễu trên kênh truyền và vì vậy chúng ta cần phải có
kỹ thuật mã hóa đặc biệt để khắc phục ảnh hưởng của nhiễu.
Hai khía cạnh này được đưa ra bởi Shannon trong bài báo “A Maththemathical
Theroy of Communication” xuất bản năm 1948 tại Bell System Technical Journal -
nơi đưa ra lý thuyết thông tin. Shannon đã giải thích hai khía cạnh này thông qua
định lý mã hóa nguồn và định lý mã hóa kênh truyền của ông.(Định lý mã hóa
nguồn của Shannon giải thích cách sinh mã bởi một nguồn được mã hóa một cách
có hiệu quả . Định lý mã hóa kênh truyền của Shannon giải thích cách mã hóa dữ
liệu để khắc phục được ảnh hưởng của nhiễu).
2.4.1 Định lý mã hóa nguồn
Định lý mã hóa nguồn phát biểu: “số bit yêu cầu để biểu diễn cho một nguồn tin
duy nhất có thể xấp xỉ lượng tin.
Xét nguồn tạo bởi các ký tự tiếng anh. Lượng tin (hoặc entropy) là 4.07 bits/kí tự.
Theo định lý mã hóa nguồn của Shannon, những kí tự được mã hóa theo cách này
thì mỗi ký tự chiếm 4.07 bits. Nhưng kỹ thuật mã hóa nào nên dùng ? Shannon
không nói rõ. Định lý của Shannon chỉ giới hạn số bit nhỏ nhất yêu cầu để mã hóa.
Đây là một giới hạn quan trọng; tất cả những kỹ sư truyền thông cố gắng đạt được
giới hạn này trong khoảng 50 năm gần đây.
Xét một nguồn tạo bởi hai ký tự A và B với xác suất bằng nhau:
Hai ký tự có thể được mã hóa như trên, A được biểu diễn bằng số 1 và B là 0.
Chúng ta yêu cẩu 1bit/ký tự.Bây giờ xét một nguồn được tạo bởi hai ký tự như trên.
Nhưng thay vì mã hóa A và B trực tiếp, chúng ta có thể mã hóa AA, AB, BA, BB.
Xác suất của những ký tự này và từ mã được thể hiện như sau:
Cách thức gán từ mã là ký tự với xác suất cao được gán cho từ mã ngắn và ký tự có
xác suất thấp được gán cho từ mã dài.
Chú ý: Việc gán từ mã ngắn với ký tự xác suất cao và từ mã dài với ký tự
xác suất thấp sẽ làm cho việc mã hóa có hiệu suất cao.
Trong trường hợp này, số bit trung bình yêu cầu cho một ký tự có thể được tính
bằng công thức:
Trong đó: P(i) là xác suất và L(i) là chiều dài của từ mã. Đối với ví dụ này thì:
L = (1 * 0.45 + 2 * 0.45 +3 * 0.05 + 3 * 0.05) = 1.65 bits/ký tự. Entropy của nguồn
là 1.469 bits/ký tự.
Vậy, nếu nguồn tạo bởi dãy kí tự nối tiếp sau: A A B A B A A B B B thì việc mã
hóa nguồn sẽ tương ứng với dòng bit: 0 110 110 10 111
Sơ đồ mã hóa này yều cầu yêu cầu trung bình 1.65 bits/ký tự. Nếu chúng ta mã hóa
ký tự trực tiếp mà không xét đến xác suất, sơ đồ mã hóa sẽ là:
AA 00
AB 01
BA 10
BB 11
Như vậy chúng ta cần 2 bits/ký tự. Cơ chế mã hóa yêu cầu xem xét xác suất là một
kỹ thuật mã hóa tốt hơn. Theo lý thuyết thì giới hạn số bits/ký tự là entropy có giá
trị là 1.469 bits/ký tự. Entropy của nguồn thì quyết định năng suất kênh truyền.
Nếu chúng ta đưa ra một mức entropy cao hơn, chúng ta có thể giảm số bits/ký tự
xuống thấp hơn nữa và có lẽ sẽ đạt được giới hạn của Shannon.
Dựa trên lý thuyết này, những văn bản tiếng Anh không thể nén xuống ít hơn 1.5
bits/ký tự mặc dù bạn có sử dụng những bộ mã và giải mã tinh vi.
Lý thuyết này đặt nền tảng cho việc mã hóa thông tin (văn bản, giọng nói, video)
thành số bít ít nhất có thể vận chuyển trên kênh truyền. Chúng ta sẽ học chi tiết về
mã hóa trong chương 4: “mã hóa văn bản, giọng nói, hình ảnh và tín hiệu hình ảnh”.
2.4.2 Định lý mã hóa kênh truyền