Kiến trúc xử lý video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 26 trang )

Kiến trúc xử lý video

Tích hợp hệ thống phòng thí nghiệm C3I
Liên bang Thụy Sĩ Viện Công nghệ, EPFL

Câu hỏi đầu tiên chúng tôi muốn trả lời là: chúng tôi có nghĩa là hiện nay để xử lý video? Trong quá khứ, nhiều
hơn hoặc ít hơn cho đến cuối những năm 80 có hai thế giới khác biệt: một thế giới truyền hình analog và một máy
tính thế giới kỹ thuật số. Tất cả các chế biến truyền hình từ máy ảnh để nhận được dựa trên xử lý tương tự,
tương tự điều chế và ghi âm analog. Với sự tiến bộ của công nghệ kỹ thuật số, một phần của quá trình chế biến
tương tự có thể được thực hiện bởi các mạch kỹ thuật số với các lợi thế phù hợp về khả năng tái của các mạch
dẫn đến chi phí và ổn định lợi thế, và nhạy cảm với tiếng ồn dẫn đến lợi thế chất lượng. Vào cuối những năm 80
hoàn toàn khả năng xử lý video mới trở nên khả thi bởi các mạch kỹ thuật số. Ngày nay, hình ảnh nén và giải nén
là chi phối xử lý video kỹ thuật số trong thời hạn tầm quan trọng và phức tạp của các chuỗi tất cả các TV.
Hình 1 Schematic đại diện của một chuỗi truyền hình.
Trong việc xử lý kỹ thuật số trong tương lai gần sẽ được sử dụng để vượt qua từ truyền hình độ phân giải tiêu
chuẩn HDTV nén và giải nén là phải, xem xét băng thông mà nó sẽ yêu cầu để truyền. Các ứng dụng khác sẽ
Đưc dịch
sang:
Tiếng Việt
Hiển thị văn bản gốc
Tùy chọn ▼
được tìm thấy ở cấp độ của máy ảnh để tăng chất lượng hình ảnh bằng cách tăng số bit từ 8 đến 10 hoặc 12 cho
mỗi điểm ảnh, hoặc bằng cách sử dụng xử lý thích hợp nhằm bồi thường các hạn chế cảm biến (tăng cường hình
ảnh của phi tuyến tính lọc và chế biến). Kỹ thuật số xử lý cũng sẽ nhập vào phòng thu để chỉnh sửa kỹ thuật số,
ghi âm và 50/60 Hz chuyển đổi tiêu chuẩn. Ngày nay, các thông tin liên lạc băng thông cao theo yêu cầu của
video kỹ thuật số không nén cần thiết để chỉnh sửa và ghi lại hoạt động, giữa các thiết bị phòng thu hạn chế việc
sử dụng video kỹ thuật số đầy đủ và xử lý video kỹ thuật số ở mức độ phòng thu.

Nén video
Tại sao nén video đã trở thành ứng dụng xử lý video chiếm ưu thế của truyền hình? Một kênh truyền hình analog
chỉ cần 5 MHz kênh analog để truyền, ngược lại trong trường hợp của video kỹ thuật số với 8-bit A / D, 720

pixels cho 576 dòng (54 MHz Tốc độ lấy mẫu), chúng tôi cần một kênh truyền dẫn với công suất 168,8 Mbit /
s! Trong trường hợp của HDTV kỹ thuật số công suất: 10 bit A / D, 1920 điểm ảnh 1.152 dòng tăng to1.1 Gbit
/ s! Không có ứng dụng giá cả phải chăng, về chi phí, do đó có thể mà không cần nén video.
Những lý do này cũng đã nêu lên sự cần thiết của các tiêu chuẩn trên toàn thế giới để nén video để đạt được khả
năng tương tác và khả năng tương thích giữa các thiết bị và các nhà khai thác. H.261 là tên cho các tiêu chuẩn
nén video kỹ thuật số đầu tiên thiết kế đặc biệt cho các ứng dụng hội nghị truyền hình, MPEG-1 là tên một trong
những thiết kế cho CD lưu trữ (lên đến 1,5 Mbit / s) ứng dụng, MPEG-2 cho truyền hình kỹ thuật số và HDTV
tương ứng từ 4 đến 9 Mb / s cho truyền hình, hoặc lên đến 20 Mb / s cho HDTV, H.263 cho hội nghị truyền
hình với tốc độ bit rất thấp (16 - 128 kb / s). Tất cả các tiêu chuẩn này có thể được coi là tốt hơn như là một gia
đình tiêu chuẩn chia sẻ các thuật toán xử lý khá giống nhau và các tính năng.
Tất cả đều được dựa trên triết lý cơ bản giống nhau:
Bộ giải mã phải đơn giản.
Đối với truyền hình HDTV trong khi chúng tôi có bộ mã hóa rất ít được sử dụng bởi các công ty đài
truyền hình (giới hạn chỉ cho mỗi kênh), chúng ta phải có một bộ giải mã trên mỗi bộ truyền hình.
Cú pháp giải mã hoàn toàn được quy định.
Điều này có nghĩa rằng bất kỳ video nén dòng bit có thể được giải mã mà không cần bất kỳ sự mơ hồ
mang lại kết quả cùng một đoạn video.
Một bộ giải mã phải được tuân thủ QTI.
Điều này có nghĩa là một bộ giải mã phải có khả năng để giải mã bất kỳ video bit dòng tôn trọng cú pháp
giải mã.
Cú pháp mã hóa được quy định cụ thể.
Điều này có nghĩa là một bộ mã hóa phải mã hóa nội dung video trong một cú pháp tuân thủ QTI.
Bộ mã hóa (tức là thuật toán mã hóa) không được quy định.
Điều này có nghĩa rằng các thuật toán mã hóa là một vấn đề cạnh tranh, bộ mã hóa có thể được tối ưu
hóa nhằm đạt được chất lượng cao của nén video hoặc nhằm đơn giản hóa các thuật toán mã hóa để có
bộ mã hóa đơn giản. Nó cũng có nghĩa là trong việc xử lý tương lai của sức mạnh xử lý hơn, chúng ta có
thể sử dụng nhiều hơn và tinh vi hơn và chế biến đòi hỏi các thuật toán mã hóa để tìm những lựa chọn tốt
nhất của các cú pháp mã hóa có sẵn.
Những nguyên tắc cơ bản của các tiêu chuẩn nén video có hậu quả rõ ràng mạnh mẽ trên kiến trúc thực hiện nén
video. Vì vậy, để hiểu việc xử lý chính và các vấn đề kiến trúc nén video chúng tôi một thời gian ngắn phân tích

chi tiết việc xử lý cơ bản của MPEG-2 tiêu chuẩn là gì.
Nén video MPEG-2
MPEG-2 là một tiêu chuẩn đầy đủ quy định cụ thể tất cả các giai đoạn từ việc mua lại video lên đến giao diện với
các giao thức truyền thông. Hình 2 báo cáo một sơ đồ như thế nào MPEG-2 cung cấp sau khi một lớp nén vận
chuyển. Âm thanh và video nén dòng suối bit được ghép và đặt trong các gói tin trong một định dạng phù hợp
với giao thông vận tải. Điều này một phần chế biến có thể không được phân loại như xử lý video, và không được
xem xét ở đây chi tiết.
Hình 2. MPEG-2 sơ đồ luồng giao thông.
Hình 3. xử lý cơ bản cho MPEG-2 nén.
Hình 4. MPEG-2 trước khi lọc và giảm dư thừa không gian của DCT.
Hình 5. MPEG-2 không gian dự phòng giảm do lượng tử hóa và mã hóa entropy.
Các thuật toán cơ bản xử lý video MPEG-2 được báo cáo trong hình 3. Các thuật toán này cũng được tìm thấy
với một số biến thể trong tất cả các tiêu chuẩn nén khác được đề cập trước. Giai đoạn đầu tiên là chuyển đổi
hình ảnh từ RGB định dạng để định dạng YUV và lọc tiếp theo và lấy mẫu của các thành phần chrominance để
mang lại màu sắc hình ảnh nhỏ hơn. Sau đó, hình ảnh được phân chia thành khối điểm ảnh kích thước 8x8 và
khối được nhóm lại trong vĩ mô khối kích thước 16x16 pixel. Hai quá trình chính được áp dụng sau đó. Một là
giảm sự dư thừa không gian, khác là giảm sự dư thừa thời gian.
Hình 6. MPEG-2 thời gian dự phòng giảm do dự đoán chuyển động bồi thường.
Sự dư thừa không gian được giảm áp dụng biến đổi DCT khối và sau đó entropy mã hóa bởi các bảng Huffman
lượng biến đổi hệ số. Thời gian dự phòng được giảm bồi thường chuyển động áp dụng đối với vĩ mô khối theo
nhóm IBBP của cấu trúc hình ảnh.
Trong biết thêm chi tiết (xem hình 4 và 5) dư thừa không gian được giảm áp dụng theo chiều ngang 8 lần và 8 lần
theo chiều dọc 1 8x1 DCT biến đổi. Sau đó, biến đổi hệ số được lượng tử hóa, làm giảm đến số không nhỏ hệ
số tần số cao, quét zig-zag để bắt đầu từ hệ số DC ở góc trên bên trái của khối và mã hoá bằng cách sử dụng
Huffman bảng gọi là Variable Length mã hóa (VLC).
Giảm thời gian dự phòng là quá trình làm giảm đáng kể tỷ lệ bit và cho phép để đạt được tỷ lệ nén cao. Nó được
dựa trên các nguyên tắc của việc tìm kiếm các khối vĩ mô hiện tại trong hình ảnh đã được truyền tại cùng một vị
trí trong hình ảnh hoặc thay thế bởi một vector chuyển động "được gọi là (xem hình 6). Kể từ khi một bản sao
chính xác của khối vĩ mô không được bảo đảm để được tìm thấy, vĩ mô khối có lỗi trung bình thấp nhất được
chọn làm tài liệu tham khảo khối vĩ mô. "Lỗi khối vĩ mô" sau đó được xử lý như vậy để giảm sự dư thừa không

gian, nếu có, bằng phương tiện của thủ tục nêu trên và truyền để có thể tái tạo lại mong muốn vĩ mô, khối xử lý
vector chuyển động "cho thấy các tài liệu tham khảo và các lỗi tương đối.
Hình 7 báo cáo được gọi là MPEG-2 Group Cơ cấu tổ chức Hình ảnh cho thấy hình ảnh được xếp vào loại I
(Intra), P (dự đoán) và B (Bi-hướng nội suy). Tiêu chuẩn này quy định cụ thể hình ảnh vĩ mô nội khối chỉ có thể
được xử lý để giảm sự dư thừa không gian, P hình ảnh khối vĩ mô cũng có thể được xử lý để giảm sự dư thừa
thời gian đề cập chỉ qua I hoặc P khung, hình ảnh B-block vĩ mô cũng có thể được xử lý bằng cách sử dụng một
suy của tài liệu tham khảo trong quá khứ và tương lai khối vĩ mô. Rõ ràng là B-block vĩ mô cũng có thể được mã
hóa như nội hoặc dự đoán nếu nó được tìm thấy thuận tiện cho việc nén. Lưu ý rằng kể từ khi B hình ảnh có thể
sử dụng như là tài liệu tham khảo trong quá khứ và tương lai hoặc các khung hình P, để truyền tải MPEG-2 hình
ảnh khác nhau từ thứ tự hiển thị, hình ảnh B được truyền đi trong nén dòng bit sau khi các hình ảnh tôi và P
tương đối.

Hình 7. Cấu trúc của một GOP MPEG-2, hiển thị các tài liệu tham khảo hình dự đoán chuyển động bồi thường
của P và B hình ảnh.
Phức tạp của xử lý Video MPEG
Vào cuối những năm 80 đã có rất nhiều cuộc thảo luận về sự phức tạp của việc thực hiện DCT biến đổi trong
thời gian thực với tốc độ video. Khối 8x8 đã được chọn thay vì 16x16 để làm giảm sự phức tạp của biến đổi.
Mục tiêu chính là để tránh chế biến phức tạp ở phía bộ giải mã. Với mục tiêu này, nhiều việc triển khai tối ưu
dành cho DCT đã xuất hiện trong cả hai hình thức của các chip chuyên dụng và phần mềm bằng cách sử dụng
giảm số lượng nhân và bổ sung.
Ngày nay, kỹ thuật số công nghệ đã có nhiều tiến bộ về tăng tốc độ và hiệu suất xử lý mà DCT mã hóa hoặc giải
mã không còn là một vấn đề quan trọng. Nếu chúng ta nhìn hình 8, chúng ta có thể tìm thấy một sơ đồ khối sơ đồ
mạch của một bộ giải mã MPEG-2 là rất tương tự như những người thân của các tiêu chuẩn nén khác. Một bộ
đệm là cần thiết để nhận được tại một hằng số tốc độ bit nén bit trong quá trình giải mã được không phải là "tiêu
thụ" với một tốc độ không đổi. VLD là một chế biến tương đối đơn giản có thể được thực hiện bằng cách nhìn
lên bảng hoặc những kỷ niệm. Là một chế biến bit-khôn ngoan, nó không thể được song song và kết quả khá
kém hiệu quả được thực hiện trong các bộ vi xử lý mục đích chung. Đây là lý do mà bộ vi xử lý đa phương tiện
mới như Philips "Trimedia" sử dụng đơn vị cụ thể VLC / VLD mã hóa entropy. Các yếu tố tốn kém hơn của các
bộ giải mã MPEG-2 là những kỷ niệm cho việc lưu trữ của khung tham chiếu trong quá khứ và tương lai và xử lý
các luồng dữ liệu giữa các đơn vị chuyển động bù người xen vào và những kỷ niệm video tham khảo.

Hình 8: Sơ đồ khối của một bộ giải mã MPEG-2.
Đối với một bộ mã hóa MPEG-2, xem hình 9, tình hình là rất khác nhau. Trước hết, chúng ta có thể nhận ra một
con đường thực hiện đầy đủ một bộ giải mã MPEG-2, cần thiết để tái tạo lại hình ảnh tham khảo khi chúng được
tìm thấy ở kích thước bộ giải mã. Sau đó, chúng ta có một khối dự toán chuyển động (Bi-hướng chuyển động
ước tính) có mục tiêu của việc tìm kiếm các vector chuyển động, và một khối lựa chọn và kiểm soát các phương
thức mã hóa khối vĩ mô. Như đã thảo luận trong đoạn văn trước đó, cách nào để tìm các vector chuyển động tốt
nhất cũng như cách để lựa chọn đúng mã hóa cho mỗi khối vĩ mô không được quy định theo tiêu chuẩn. Vì vậy,
các thuật toán rất đơn giản (với hiệu suất chất lượng hạn chế), hoặc cực kỳ phức tạp (với hiệu suất chất lượng
cao) có thể được thực hiện cho các chức năng này. Hơn nữa, MPEG-2 cho phép định nghĩa năng động của cấu
trúc đảng Cộng hòa làm cho khả năng có thể có nhiều chế độ mã hóa. Nói chung là những vấn đề quan trọng
của một bộ mã hóa MPEG-2: dự toán chuyển động xử lý và xử lý các luồng dữ liệu phức tạp với các vấn đề
băng thông tương đối giữa những kỷ niệm khung ban đầu và mã hóa, xử lý tính toán chuyển động và kiểm soát
các đơn vị mã hóa.
Chúng tôi cũng đã đề cập đến các phương thức mã hóa MPEG-2 là phức tạp hơn nhiều những gì có thể có vẻ
từ này mô tả ngắn gọn. Trong thực tế, truyền hình hiện tại dựa trên hình ảnh interlaced và xử lý tất cả các chế độ
mã hóa có thể được áp dụng theo những cách khác biệt "khung" các khối và các khối vĩ mô hoặc "lĩnh vực" các
khối và các khối vĩ mô. Cũng áp dụng cho dự toán chuyển động mà chúng ta có thể sử dụng cả hai vectơ hoặc
khung. Hơn nữa tất cả các tài liệu tham khảo cho dự đoán có thể được thực hiện trên các điểm ảnh hình ảnh
đúng sự thật hoặc trên điểm ảnh hình ảnh "ảo" thu được bằng cách nội suy song tuyến như trong hình 10.
Hình 9. Sơ đồ khối của một bộ mã hóa MPEG-2.

Hình 10: MPEG-2 khối tài liệu tham khảo vĩ mô có thể được thực hiện cũng "ảo" điểm ảnh (màu đỏ) thu được
bằng cách nội suy song tuyến tính, thay vì pixel hình ảnh từ raster ban đầu (màu xám).
Trong trường hợp này, vector chuyển động với một nửa độ chính xác điểm ảnh cần phải được ước tính. Khả
năng sử dụng tất cả các chế độ mã hóa này có thể phần lớn làm tăng chất lượng của video nén, nhưng nó có thể
trở nên cực kỳ yêu cầu về chế biến phức tạp.
Thách thức của nhà thiết kế MPEG-2 mã hóa là tốt nhất thương mại-off giữa sự phức tạp của thuật toán thực
hiện và chất lượng của video nén. Các vấn đề kiến trúc và thuật toán liên quan rất chặt chẽ trong kiến trúc bộ mã
hóa MPEG-2.

Video k thuật số và đồ họa máy tính
Trong video kỹ thuật số qua trên các máy tính là tương đương với đồ họa máy tính. Khác nhau từ thế giới truyền
hình tất cả các xử lý là rõ ràng là kỹ thuật số chủ yếu là xử lý hình ảnh tổng hợp từ 2-D hoặc các mô hình 3-D.
Khái niệm về thời gian thực ứng dụng đồ họa máy tính là xấp xỉ vì thường ứng dụng đã được dự định để chạy
càng nhanh càng tốt trên các bộ vi xử lý có sẵn bằng cách sử dụng song song trong các máy gia tốc đồ họa cho
các phép tính số học trên pixels.
Hình 11: Trình tự các bước xử lý đồ họa máy tính điển hình.
Hình 11 cho thấy một sơ đồ của các hoạt động đồ họa máy tính cơ bản. Đối với mỗi hình ảnh, 2-D và 3-D mô
hình bao gồm các hình tam giác hoặc đa giác được đặt trong không gian ảo bởi các ứng dụng có thể được tương
tác. Vị trí của mỗi đỉnh được tính theo sự biến đổi hình học của đối tượng và chiếu lên màn hình. Các kết cấu, lập
bản đồ trên hình đa giác mỗi, được chuyển đổi theo mô hình ánh sáng tương ứng với vị trí của đa giác trong
không gian. Các điểm ảnh trên màn hình tương ứng với raster màn hình thu được từ các điểm ảnh kết cấu "gốc"
trên hình đa giác bởi các hoạt động thích hợp lọc. Cuối cùng, đa giác được hiển thị trên màn hình.
Hình 12. xử lý yêu cầu của nội dung đồ họa 3-D về điểm ảnh và đa giác mỗi giây.
Ứng dụng máy tính đồ họa mạnh mẽ dựa trên hiệu suất của card tăng tốc chuyên để điều trị song song với một
mức độ cao của đường ống dẫn tất cả các hoạt động này rất nhiều nhưng đơn giản pixel. Hình 12 báo cáo một
sơ đồ của các yêu cầu chế biến của đa giác / s và điểm ảnh / s nội dung đồ họa khác nhau.

Truyền hình, đồ họa máy tính và đa phương tiện: MPEG-4?
MPEG-4 mới đa phương tiện tiêu chuẩn, được quy định như dự thảo tiêu chuẩn quốc tế ISO vào tháng 98, đang
cố gắng thách thức đầy tham vọng của thế giới của video và truyền hình tự nhiên với thế giới của đồ họa máy tính
và máy tính.
MPEG-4, chúng tôi có thể tìm thấy trong thực tế, cả video nén tự nhiên và 2-D và 3-D mô hình. Tiêu chuẩn này
dựa trên khái niệm của các dòng cơ bản đại diện và mang theo các thông tin của một "đối tượng" duy nhất có thể
là của bất kỳ loại "tự nhiên" hay "tổng hợp", âm thanh hoặc video.
Hình 13, báo cáo một ví dụ về những gì có thể là nội dung của một cảnh MPEG-4. Tự nhiên và 2-D và 3-D
tổng hợp âm thanh hình ảnh đối tượng được nhận được bao gồm trong một cảnh như của một người xem giả
thuyết.
Hình 13: Ví dụ về nội dung và xây dựng một cảnh MPEG-4.
Hình 14: Sơ đồ của MPEG-4 lớp hệ thống và giao diện với các lớp mạng.

Hai cấp độ ảo là cần thiết để giao diện "dòng tiểu học" cấp với cấp độ mạng. Đầu tiên là cần thiết để mỗi dòng
multiplex / demultiplex giao tiếp thành các gói và lần thứ hai để đồng bộ hóa từng gói tin và xây dựng các "tiểu
dòng" mang thông tin "đối tượng" như trong hình 14.
Xử lý liên quan đến MPEG-4 lớp Hệ thống có thể không được xem xét như xử lý video là rất tương tự như việc
xử lý gói tin điển hình để truyền thông mạng.
Một thiết bị MPEG-4 có thể được biểu đồ hóa như trong hình 15. Các mạng lưới thông tin liên lạc cung cấp các
dòng được demultiplexed vào một tập hợp các "tiểu dòng". Mỗi "tiểu dòng" được giải mã thành các đối tượng
âm thanh / video. Sử dụng mô tả cảnh truyền với các dòng tiểu đối tượng tất cả được "sáng tác" trong bộ nhớ
video tất cả cùng nhau theo kích thước, xem góc độ và vị trí trong không gian và sau đó "trả lại" trên màn hình,
có thể được tương tác và có nguồn gốc 1 thượng nguồn dữ liệu do sự tương tác người dùng và gửi trả lại cho
các bộ mã hóa MPEG-4.
MPEG-4 hệ thống, do đó thực hiện không chỉ là MPEG-2 giống như cổ điển nén / giải nén xử lý và chức năng
nhưng cũng xử lý đồ họa máy tính chẳng hạn như "thành phần" và "vẽ". Sự khác biệt chính so với video tự nhiên
của MPEG-1, MPEG-2, H.263, là sự ra đời của "mã hóa hình dạng" tạo điều kiện cho việc sử dụng của các đối
tượng video tùy tiện hình như minh họa trong Hình 16. Hình dạng thông tin mã hóa được dựa trên cấu trúc dữ
liệu vĩ mô, ngăn chặn và số học mã hóa thông tin đường viền liên quan tại mỗi khối ranh giới.
Hình 15. Tác giả của chế biến và chức năng thực hiện trong một thiết bị đầu cuối MPEG-4.
Hình 16. nén hình dạng thông tin là cần thiết cho các đối tượng tùy tiện hình.
Hình 17. bộ giải mã MPEG-4 sơ đồ khối, mã hóa hình dạng được mã hóa song song với các kết cấu dựa trên
DCT mã hóa. Mã hóa hình dạng có thể là loại "nội", hoặc có đền bù chuyển động và dự báo lỗi như mã hóa kết
cấu.
Sơ đồ khối của một bộ mã hóa MPEG-4 được mô tả trong hình 17. Nói chung là rất tương tự như kiến trúc cho
một sơ đồ khối bộ mã hóa MPEG-2. Chúng ta có thể nhận thấy một "hình dạng mã hóa" khối trong vòng lặp dự
toán chuyển động sản xuất thông tin hình dạng mã hóa truyền qua đường song song với thông tin cổ điển kết cấu
mã hóa.

Xử lý hình Kiến trúc: đề chung
Nói chung, chúng ta có thể phân loại các mạch thực hiện xử lý video trong bốn gia đình:
Ứng dụng cụ thể mạch tích hợp (ASIC).
Để nhóm này thuộc về các tất cả các mạch Hardwired thiết kế đặc biệt cho một nhiệm vụ xử lý duy nhất.

Mức độ của lập trình là rất thấp và các mạch thường được tốc độ ở tần số hoặc bội số của các đầu vào /
đầu ra tốc độ dữ liệu lấy mẫu.
Ứng dụng cụ thể xử lý tín hiệu k thuật số (AS-DSP).
Những kiến trúc này được dựa trên một lõi DSP cộng với chức năng đặc biệt (chẳng hạn như 1-D, các
bộ lọc 2-D, FFT, máy gia tốc đồ họa, ngăn chặn các công cụ phù hợp) cụ thể cho một ứng dụng được
chọn.
Bộ xử lý tín hiệu số (DSP).
Đây là những bộ vi xử lý kiến trúc cổ điển chuyên ngành và hiệu quả cho nhân-tích lũy hoạt động từ ngày
16-24-32 bit dữ liệu. Các gia đình cổ điển nổi tiếng là những người thân của Motorola và Texas
Instruments. Mức độ lập trình của những bộ vi xử lý này là rất cao. Họ cũng làm việc cho các ứng dụng
thời gian thực liên tục với đầu vào / đầu ra tỷ lệ.
Mục đích chung bộ xử lý (GPPs).
Đây là những bộ vi xử lý máy tính cổ điển (Intel, IBM PowerPC) và bộ vi xử lý máy trạm (Alpha kỹ thuật
số, Sun UltraSparc). Ban đầu chúng được thiết kế cho các ứng dụng phần mềm nói chung mục đích và nói
chung, mặc dù rất mạnh mẽ, không thực sự phù hợp cho xử lý video. Hơn nữa các hệ thống điều hành làm
việc không phải là thời gian thực hệ điều hành. Việc thiết kế các ứng dụng video thời gian thực trên các
kiến trúc không phải là một nhiệm vụ đơn giản như nó có thể xuất hiện.
Xem xét việc triển khai xử lý video của những năm qua, nói chung, chúng ta có thể quan sát xu hướng so với thời
gian được minh họa trong Hình 18. Nếu chúng ta xem xét các thuật toán xử lý video khác nhau (chỉ là Proc.1 vv
Proc.2, theo thứ tự ngày càng phức tạp.) Như DCT trên một khối 8x8 ví dụ, chúng ta tìm thấy đầu tiên trong
thời gian xuất hiện triển khai dựa trên các kiến trúc ASIC. Sau một vài năm với sự phát triển của công nghệ vi
mạch các chức năng này sau đó có thể được thực hiện trong thời gian thực AS DSP, sau đó bởi DSP tiêu chuẩn,
và sau đó bởi GPPs. Xu hướng này tương ứng với mong muốn chuyển sự phức tạp của quá trình chế biến từ các
kiến trúc phần cứng để thực hiện phần mềm. Tuy nhiên, xu hướng này không chỉ trình bày những thuận lợi và
không áp dụng cho tất cả các trường hợp thực hiện. Con số 19, 22 và 23 báo cáo minh họa của lợi thế và bất lợi
cho mỗi lớp của kiến trúc cần được xem xét từng trường hợp cụ thể. Hãy để chúng tôi phân tích chi tiết và thảo
luận về từng tính năng.
Hình 18: Xu hướng triển khai thực hiện thuật toán so với thời gian trên các kiến trúc khác nhau.
Hình 19. mâu thuẫn thương mại-off cho các gia đình kiến trúc.
Hình 19 cho thấy làm thế nào các gia đình kiến trúc khác nhau của hoạt động cho hai yêu cầu trái ngược nhau

của thời gian thực hiệu suất và tính linh hoạt / lập trình. Đối với tài nguyên cao yêu cầu chế biến không có nghi
ngờ rằng các mạch chuyên dụng có thể là thứ tự cường độ nhanh hơn GPPs, nhưng những ưu điểm của lập trình
và khả năng thay đổi các phần mềm để thực hiện các khả năng xử lý mới trở nên hấp dẫn đối với một số ứng
dụng. Ví dụ một GPP có thể giải mã bất kỳ tiêu chuẩn video H.261, H.263, MPEG-1 và MPEG-2 chỉ cần thay
đổi phần mềm tùy thuộc vào ứng dụng. Mặt khác thời gian thực hiện thực không dễ dàng như vậy được đảm
bảo trên hầu hết các nền tảng GPP và khó khăn của việc xử lý cùng một lúc, thời gian thực chế biến và các quá
trình khác có được đánh giá cẩn thận và xác minh. Hình 20 cho thấy với một ví dụ đơn giản khái niệm bộ lọc
FIR. Đối với một thực hiện chuyên dụng (ASIC), một bộ lọc có thể được thực hiện với mạch điện đơn giản và
cực kỳ nhanh. Kiến trúc dựa trên sổ đăng ký và số nhân của kích thước và tốc độ cần thiết cho việc xử lý ở bàn
tay được tuyển dụng. Bảo đảm thời gian thực chế biến là dễ dàng để đạt được bằng cách ép xung một cách thích
hợp các hệ thống dữ liệu đầu vào. Ngược lại, kết quả một giải pháp lập trình phức tạp hơn nhiều. Hình 21 báo
cáo các yếu tố chế biến khác nhau mà thường được tìm thấy: alus, những kỷ niệm cho các dữ liệu và hướng dẫn
chương trình thuật toán, xe buýt thông tin liên lạc, vv Hơn nữa, các thuật toán xử lý thậm chí đơn giản như một
bộ lọc FIR cần truy cập một số dữ liệu và chương trình kỷ niệm thời gian, báo cáo trong ví dụ hướng dẫn.
Những nhận xét này dẫn rõ ràng lợi thế về chi phí cho ASICs khi khối lượng cao được yêu cầu (xem hình 23).
Mạch đơn giản yêu cầu các khu vực bề mặt silicon nhỏ hơn là giải pháp đúng cho các hộp set-top và các ứng
dụng cho khối lượng cao (MPEG-2 bộ giải mã kỹ thuật số phát sóng truyền hình ví dụ). Trong những trường hợp
các chi phí phát triển cao và thiếu các công cụ gỡ lỗi và phần mềm cho các mô phỏng và thiết kế không phải là
một nhược điểm nghiêm trọng. Sửa đổi các thuật toán và giới thiệu những phiên bản mới là không thể, nhưng
không phải loại ứng dụng này. Ngược lại, đối với các ứng dụng khối lượng thấp, việc sử dụng các giải pháp lập
trình ngay lập tức có sẵn trên thị trường, cũng được hỗ trợ bởi trình biên dịch, gỡ rối và các công cụ mô phỏng
hiệu quả có thể tăng tốc độ thời gian phát triển và chi phí, có thể là giải pháp đúng. Chi phí cao hơn nhiều của các
bộ vi xử lý lập trình, trong một số trường hợp trở thành chấp nhận được đối với khối lượng tương đối thấp của
thiết bị.
Một xu hướng trái ngược nhau giữa các giải pháp Hardwired và lập trình có thể được tìm thấy bởi sự cần thiết
phải thiết kế các giải pháp năng lượng thấp cần thiết bởi tầm quan trọng ngày càng tăng của các ứng dụng thiết bị
cầm tay và cần thiết để giảm sức mạnh ngày càng tăng làm tiêu tan bởi các bộ vi xử lý hiệu suất cao (xem hình
24). Xu hướng này xung đột với nhu cầu chuyển nhượng ngày càng phức tạp của các thuật toán xử lý kiến trúc
phần mềm là dễ dàng hơn và nhanh hơn để được sửa đổi sửa chữa và sửa lỗi. Việc tối ưu hóa kích thước bộ
nhớ và truy cập, tần số đồng hồ, và các tính năng kiến trúc khác mà sản lượng điện năng tiêu thụ thấp chỉ có thể

có trên các kiến trúc ASICs.
Giảm tiêu thụ điện năng có thể đạt được truyền từ GPP một ASIC là gì? Đó là khó khăn để trả lời cho câu hỏi
này với một con số duy nhất, nó phụ thuộc kiến trúc kiến trúc, chế biến bằng cách xử lý. Đối với ví dụ Hình 24
báo cáo tản quyền lực của một chập 2-D với hạt nhân lọc 3x3 trên một hình ảnh 256x256 trên ba kiến trúc khác
nhau. Kết quả là một ARM RISC thực hiện, bên cạnh là chậm hơn các lựa chọn thay thế khác và do đó, cung
cấp một kết quả dưới ước tính, khoảng 3 lần đòi hỏi khắt khe hơn so với một FPGA và thực hiện 18 lần nhiều
hơn một trong những dựa trên ASIC. Ví dụ của chip IMAGE dự toán chuyển động được báo cáo ở phần cuối
của tài liệu này cho thấy rằng các yếu tố giảm cao hơn nhiều (thậm chí nhiều hơn hai bậc độ lớn) có thể đạt được
thấp công suất tối ưu hóa kiến trúc ASIC cho các nhiệm vụ xử lý cụ thể khi so sánh để GPPs cung cấp hiệu suất
tương tự.

Hình 20: Ví dụ về FIR lọc thực hiện trên một kiến trúc chuyên dụng.
Hình 21: Ví dụ về thực hiện lọc FIR trên một kiến trúc DSP.
Hình 22. mâu thuẫn thương mại-off cho các gia đình kiến trúc.
Hình 23. mâu thuẫn thương mại-off cho các gia đình kiến trúc.
Hình 24. điện tản giảm cho chế biến (2-D chập 3x3) trên ba kiến trúc khác nhau.
Một xem xét chung về hiệu quả của các kiến trúc khác nhau để xử lý video liên quan đến việc sử dụng bộ nhớ.
Video các ứng dụng xử lý, như chúng ta đã nhìn thấy chi tiết hơn cho MPEG-2, yêu cầu xử lý số lượng rất lớn
dữ liệu (pixel) mà cần phải được xử lý và truy cập một số thời gian trong một bộ mã hóa hoặc giải mã video.
Hình ảnh được lọc, mã hóa, giải mã, được sử dụng như là tài liệu tham khảo cho đền bù chuyển động và dự toán
chuyển động cho các khung hình khác nhau, nói cách khác truy cập để "ngẫu nhiên" nhiều lần trong một giai đoạn
nén / giải nén. Nếu chúng ta quan sát tốc độ của bộ vi xử lý và tốc độ truy cập bộ nhớ cache SRAM và Synch.
DRAM dữ liệu trong năm qua, chúng tôi quan sát thấy hai xu hướng khác nhau (xem hình 25). Tốc độ của bộ vi
xử lý tương tự như tốc độ truy cập bộ nhớ trong năm 1990, nhưng bây giờ nó là nhiều hơn gấp đôi và xu hướng
này là hướng tới một tỷ lệ tốc độ thậm chí còn cao hơn. Nó có nghĩa là các nút cổ chai hiệu suất của ngày nay
kiến trúc xử lý video được cho bởi hiệu quả của lưu lượng dữ liệu. Một thiết kế chính xác của phần mềm cho
GPPs và đánh giá cẩn thận của các băng thông bộ nhớ đạt được trong trao đổi dữ liệu khác nhau là cần thiết để
tránh nguy cơ phần lớn thời gian được sử dụng bởi các đơn vị xử lý chỉ để chờ đợi cho các dữ liệu chính xác để
được xử lý . Đối với các máy gia tốc đồ họa hiệu suất xử lý lưu lượng dữ liệu là mục tiêu cơ bản của quá trình
chế biến. Hình 26 báo cáo hiệu suất của một số trạng thái của các thiết bị nghệ thuật so với các nội dung đồ họa.

Hình 25: Sự phát triển của tốc độ xử lý của bộ vi xử lý, SRAM và Synch. DRAM trong năm qua. Bộ nhớ truy
cập tốc độ đã trở thành nút cổ chai hiệu suất của hệ thống xử lý dữ liệu chuyên sâu.
Hình 26. Hiệu suất và tản quyền lực của nhà nước của các máy gia tốc đồ họa nghệ thuật (AS-DSP) so với đa
giác và điểm ảnh / s.

Trường hợp nghiên cứu Motion Estimation
Dự toán khối chuyển động cho các ứng dụng nén video chất lượng cao (tức là phát sóng truyền hình kỹ thuật số,
nội dung đa phương tiện sản xuất ) là một ví dụ điển hình cho các kiến trúc GPP không phải là một lựa chọn tốt
cho việc thực hiện.
Dự toán chuyển động thực sự là giai đoạn tính toán đòi hỏi cao nhất của nén video ở phía bộ mã hóa. Đối với
truyền hình độ phân giải bình thường, chúng ta phải mã hóa 1620 vĩ mô, khối mỗi khung hình, với 25 khung hình
mỗi giây. Khoảng, để tìm kiếm một lỗi vector chuyển động, chúng ta cần phải thực hiện khoảng 510 phép tính số
học trên dữ liệu 8-16 bit. Số các displacements vector phụ thuộc vào kích thước cửa sổ tìm kiếm mà phải là lớn
để đảm bảo mã hóa chất lượng cao. Ví dụ chuỗi môn thể thao có kích thước khoảng 100x100 là cần thiết. Điều
này dẫn đến khoảng 206 x 10
9
phép tính số học trong một giây trên 8 để 16 dữ liệu. Ngay cả nếu chúng ta có
thể chọn một thuật toán tìm kiếm "thông minh", giảm từ một đến hai bậc độ lớn số lượng tìm kiếm chỉ số hoạt
động vẫn còn rất cao và không khả thi bởi nhà nước của các GPPs nghệ thuật. Hơn nữa, 32 hoặc 64 bit xử lý lõi
số học được lãng phí khi hoạt động chỉ trên 8 để 16 bit là cần thiết. Kiến trúc hoàn toàn khác nhau thực hiện một
mức độ cao song song ở cấp độ bit là cần thiết.
Nếu chúng ta muốn được chính xác hơn, chúng ta có thể nhận thấy rằng các hình ảnh B yêu cầu dự toán chuyển
động về phía trước và lạc hậu, và ví dụ cho các ứng dụng truyền hình mỗi khối vĩ mô có thể sử dụng tốt nhất
giữa các vectơ chuyển động dựa trên khung hoặc trên hiện trường đầy đủ hoặc một nửa cấp độ phân giải điểm
ảnh. Vì vậy, chúng tôi nhận ra rằng nhu cầu chế biến thực sự có thể tăng hơn 10 một yếu tố, nếu tất cả các
vector chuyển động có thể được ước tính.
Một lý do khác mà ASICS AP-DSP là một sự lựa chọn thú vị và thực tế cho dự toán chuyển động là cần thiết
vẫn chưa được giải quyết dự toán chuyển động cho màn hình TV. Màn hình TV lớn yêu cầu tăng gấp đôi tỷ lệ
làm mới để tránh hiện tượng nhấp nháy gây phiền nhiễu xuất hiện trên các phần phụ của màn hình lớn. Một
chuyển đổi của interlaced 50-100 Hz tăng gấp đôi đơn giản của từng lĩnh vực cung cấp các kết quả đạt yêu cầu

trong đó là không có chuyển động. Trong trường hợp đối tượng chuyển động chất lượng hình ảnh được cung cấp
bằng cách tăng gấp đôi lĩnh vực là thấp và bồi thường chuyển động nội suy là cần thiết để tái tạo lại các giai đoạn
chuyển động của hình ảnh nội suy. Một chuyển động giai đoạn ước lượng hiệu quả và chi phí thấp là cần thiết cho
việc chuyển đổi chất lượng cao lên trên màn hình TV.

IMAGE Chip ước tính chuyển động cho các ứng dụng MPEG-2.
Chúng tôi một thời gian ngắn mô tả các đặc tính của một con chip ước lượng chuyển động được thiết kế trong
phòng thí nghiệm C3I của EPFL trong khuôn khổ của dự án ATLANTIC châu Âu phối hợp với các của Snell
BBC, CSELT, Wilcox và Fraunhofer Institute. IMAGE là một acronim Kiến trúc MIMD tích hợp dự toán
chuyển động di truyền. Các yêu cầu về chip là để cung cấp các ước tính cho MPEG-2 mã hóa trong các cửa sổ
tìm kiếm rất lớn về phía trước, lạc hậu, lĩnh vực, dựa trên khung, PEL, một nửa PEL vectơ chuyển động chính
xác. Hình 27 và báo cáo 28 chuỗi MPEG-2 phát thanh truyền hình và đặc điểm kỹ thuật đầu vào-đầu ra chính
của chip. Cùng một con chip cũng được yêu cầu để cung cấp các kết quả của các chế độ bồi thường chuyển
động ứng cử viên (phía trước, lạc hậu, nộp, khung, nội bộ), và lựa chọn quyết định tốt nhất mã hóa tương ứng.
Vì tất cả những hoạt động vĩ mô khối dựa, họ chia sẻ cùng một mức độ song song các thuật toán dự toán
chuyển động.
Các ý tưởng kiến trúc cơ bản đã được thiết kế một động cơ xử lý cực kỳ hiệu quả trong việc có được sự khác
biệt trung bình tuyệt đối giữa vĩ mô khối (phù hợp với lỗi) với truy cập nhanh đến một phần hình ảnh lớn (kích
thước cửa sổ tìm kiếm). Bằng cách cực kỳ hiệu quả đó là có nghĩa là khai thác càng nhiều càng tốt song song nội
tại để hoạt động điểm ảnh trên khối 16x16 điểm ảnh và có thể truy cập ngẫu nhiên bất kỳ vị trí nào trong cửa sổ
tìm kiếm mà không có thời gian vô ích chờ đợi (tức là cung cấp động cơ với băng thông bộ nhớ đủ để khai thác
đầy đủ sức mạnh của nó chế biến). Hình 29 báo cáo sơ đồ khối của động cơ "khối kết hợp". Chúng ta có thể
nhận thấy ở trung tâm xử lý các "điểm ảnh" để thực hiện song song của sự khác biệt vĩ mô khối, hai bộ nhớ
cache các ngân hàng cho việc lưu trữ của khối vĩ mô hiện nay và cho các tài liệu tham khảo cửa sổ tìm kiếm, một
bộ xử lý RISC cho việc xử lý của dự toán thuật toán di truyền chuyển động và các thông tin liên lạc giữa các đơn
vị chế biến. Các đơn vị xử lý cơ bản của hình 29 sau đó được báo cáo trong kiến trúc chung của các chip được
báo cáo trong hình 30. Chúng ta có thể nhận thấy hai đơn vị chế biến vĩ mô khối song song, các mô-đun I / O
cho các giao tiếp với bộ nhớ khung hình bên ngoài và giao diện truyền thông để ghép chip cho dự toán chuyển
động về phía trước và lạc hậu và kích thước cửa sổ lớn hơn tìm kiếm. Khi thảo luận đề cập đến dữ liệu ứng dụng
chuyên sâu một trong những khó khăn chính của thiết kế chip là cân bằng chính xác của thời gian xử lý của các

đơn vị khác nhau và tối ưu hóa các thông tin liên lạc khác nhau giữa các mô-đun. Nó là cơ bản mà tất cả các xử
lý mô-đun được lên kế hoạch để tránh thời gian chờ đợi và các bus giao tiếp có băng thông cần thiết.
Tối ưu hóa điện năng thấp được tóm tắt trong hình 31. Chấm dứt hoạt của các đơn vị chế biến, đồng hồ gated
địa phương và thực hiện của một SRAM nội bộ có năng lượng thấp như bộ nhớ cache bộ nhớ được kích hoạt
để giữ tản quyền lực dưới 1W. Hình 32 báo cáo bố trí cuối cùng của chip với các thông số thiết kế chính.
Trong kết luận, IMAGE chip có thể được phân loại như AS-DSP cho lập trình cao của nó, nơi các ứng dụng cụ
thể cho một phần cứng đặc biệt được sử dụng là tính toán của các khối khác biệt vĩ mô. Hiệu quả của nó đối với
dự toán chuyển động cao hơn nhiều so với bất kỳ nhà nước của GPPs nghệ thuật và thu được với một con chip
tương đối nhỏ tiêu tan ít hơn 1W khi cung cấp dự toán chuyển động thời gian thực cho việc nén video MPEG-2.
Thông tin chi tiết về chip IMAGE có thể được tìm thấy trong: F. Mombers, M. Gumm và Al. "IMAGE: chi phí
thấp thấp điện bộ xử lý video chuyển động chất lượng cao dự toán mã hóa MPEG-2", IEEE Trans. Điện tử, Vol
44, số 3 tháng Tám năm 1998, trang 774-783.

Hình 27. Sơ đồ khối của một hệ thống phát sóng truyền hình dựa trên MPEG-2 nén.
Hình 28. Yêu cầu của chip chuyển động một ước lượng / dự báo lựa chọn MPEG-2 mã hóa.
Hình 29: Sơ đồ khối của "khối phù hợp với" bộ vi xử lý.
Hình 30. cao kiến trúc của chip IMAGE với các dấu hiệu cho thấy các đường dẫn truyền thông quan trọng.

Kiến trúc xử lý video

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về