Tải bản đầy đủ (.pdf) (73 trang)

Nghiên cứu kỹ thuật đánh chỉ số dựa vào phân cụm phục vụ tra cứu ảnh nhanh và ứng dụng trong tìm kiếm danh lam thắng cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 73 trang )

Header Page 1 of 73.

...

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG

Thái Xn Hồng

NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM
PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM
KIẾM ẢNH DANH LAM THẮNG CẢNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Ngun - Năm 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 2 of 73.

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG

Thái Xn Hồng

NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM
PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM


KIẾM ẢNH DANH LAM THẮNG CẢNH

Chuyên ngành: Khoa học máy tính
Mã số:
60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN HỮU QUỲNH

Thái Nguyên - Năm 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 3 of 73.

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng nội dung
đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung của Luận
văn, các phần trích lục các tài liệu là hồn tồn chính xác. Nếu có sai sót tơi hồn
tồn chịu trách nhiệm.
Thái Nguyên, Ngày 20 tháng 09 năm 2011
Học viên

Thái Xuân Hoàng


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 4 of 73.

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Hữu Quỳnh, Trưởng Khoa
Công nghệ Thông tin - Trường Đại học Điện lực, là cán bộ trực tiếp hướng dẫn luận
văn cho tôi.
Tôi xin trân trọng cảm ơn tới các Thầy cô trong Khoa công nghệ Thông tin Trường Đại học Thái Nguyên, các Thầy cô trong Viện Công nghệ Thông tin - Viện
Khoa học và Công nghệ Việt Nam đã tạo điều kiện giúp đỡ tơi trong suốt khóa học
cũng như trong suốt q trình làm luận văn.
Tơi xin gửi lời cảm ơn tới gia đình, bạn bè và các đồng nghiệp đã giúp đỡ tơi để
tơi có thể hồn thành khóa học Cao học này.

Thái Nguyên, ngày 20 tháng 09 năm 2011
Học viên

Thái Xn Hồng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 5 of 73.


i

MỤC LỤC

Chương 1. TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ ............4
1.1. Một số đặc trưng cơ bản của ảnh số ...........................................................................4
1.1.1. Khái niệm đặc trưng của ảnh số...........................................................................4
1.1.2. Đặc trưng về màu sắc...........................................................................................4
1.1.2.1. Lược đồ màu .................................................................................................4
1.1.2.2. Véc tơ gắn kết màu .......................................................................................5
1.1.2.3. Tương quan màu ...........................................................................................5
1.1.2.4. Các màu trội..................................................................................................6
1.1.2.5. Các Mômen màu ...........................................................................................6
1.1.3. Đặc trưng về không gian màu..............................................................................7
1.1.3.1. Giới thiệu về không gian màu.......................................................................7
1.1.3.2. Không gian màu RGB...................................................................................9
1.1.3.3. Không gian màu HSx....................................................................................9
1.1.3.4. Các không gian màu YUV và YIQ.............................................................10
1.1.3.5. Các không gian màu CIE XYZ và LUV.....................................................11
1.1.4. Đặc trưng về kết cấu ..........................................................................................11
1.1.4.1. Một số khái niệm về kết cấu .......................................................................11
1.1.4.2. Các đặc trưng Tamura.................................................................................12
1.1.4.3. Các đặc trưng Wold ....................................................................................13
1.1.4.4. Mơ hình tự hồi qui đồng thời SAR .............................................................14
1.1.4.5. Các đặc trưng lọc Gabor .............................................................................15
1.1.4.6. Các đặc trưng biến đổi sóng........................................................................16
1.1.5. Đặc trưng về hình dạng......................................................................................17
1.1.5.1. Một số khái niệm về hình dạng ảnh ............................................................17
1.1.5.2. Các bất biến Mơmen ...................................................................................17
1.1.5.3. Các góc uốn ................................................................................................18

1.1.5.4. Các ký hiệu mơ tả Fourier...........................................................................19
1.2. Tra cứu thông tin và thông tin trực quan ..................................................................20
1.2.1. Khái niệm...........................................................................................................20
1.2.2. Truy vấn người sử dụng.....................................................................................21
1.2.2.1. Truy vấn bởi ảnh mẫu (QBE) .....................................................................21
1.2.2.2. Truy vấn bởi đặc trưng (QBF) ....................................................................22
1.2.2.3. Truy vấn dựa vào thuộc tính .......................................................................22
1.3. Đánh chỉ số nhiều chiều............................................................................................22
1.3.1. Khái niệm...........................................................................................................22
1.3.2. Giảm số chiều ....................................................................................................23
1.3.3. Kỹ thuật đánh chỉ số nhiều chiều.......................................................................24
1.4. Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung ..............................25
1.5. Đánh giá hiệu năng tra cứu .......................................................................................26
1.6. Một số ứng dụng của tra cứu ảnh dựa vào nội dung.................................................28
1.7. Kết luận Chương 1 và hướng nghiên cứu .................................................................29
Chương 2. KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM ...................................30
2.1. Giới thiệu ..................................................................................................................30

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 6 of 73.

ii

2.2. Phân cụm ảnh............................................................................................................30
2.3. Biểu diễn ảnh và đo độ tương tự...............................................................................31
2.3.1. Biểu diễn ảnh .....................................................................................................31

2.3.2. So sánh độ tương tự ...........................................................................................32
2.3.2.1. Kỹ thuật tra cứu ảnh dựa vào đặc trưng màu..............................................32
2.3.2.2. Đo khoảng cách giữa các lược đồ màu .......................................................34
2.3.2.3. Đo độ tương tự............................................................................................37
2.4. Phân cụm có thứ bậc dựa vào kỹ thuật đánh chỉ số ..................................................39
2.4.1. Khái quát............................................................................................................39
2.4.1.1. Các bước phân cụm ....................................................................................39
2.4.1.2. Tính toán tâm cụm ......................................................................................42
2.4.2. Tối ưu tâm cụm..................................................................................................44
2.4.2.1. Loại bỏ các nút............................................................................................44
2.4.2.2. Thêm các nút...............................................................................................45
2.5. Kết luận Chương 2....................................................................................................46
Chương 3. XÂY DỰNG HỆ THỐNG TRA CỨU ẢNH NHANH .....................................47
3.1. Giới thiệu bài toán tra cứu ảnh danh lam thắng cảnh ...............................................47
3.2. Phân tích bài tốn......................................................................................................47
3.3. Thiết kế hệ thống ......................................................................................................48
3.3.1. Các chức năng của chương trình........................................................................49
3.3.2. Biểu đồ Use Case của hệ thống .........................................................................50
3.3.3. Biểu đồ trình tự và biểu đồ hoạt động................................................................51
3.3.3.1. Tác nhân Quản lý CSDL ảnh ......................................................................51
3.3.3.2. Tác nhân tra cứu ảnh...................................................................................53
3.3.4. Thiết kế CSDL ...................................................................................................55
3.3.4.1. Bảng Clusters ..............................................................................................55
3.3.4.2. Bảng Regions ..............................................................................................55
3.3.4.3. Bảng Cluster_Images ..................................................................................55
3.3.5. Sơ đồ liên kết các bảng trong CSDL .................................................................56
3.3.6. Giao diện chương trình ......................................................................................56
3.3.6.1. Giao diện chính của chương trình...............................................................56
3.3.6.2. Giao diện cập nhật ảnh................................................................................57
3.3.6.3. Giao diện phân cụm ảnh .............................................................................57

3.3.6.4. Giao diện tìm kiếm ảnh...............................................................................58
3.3.6.5. Giao diện so sánh hai ảnh ...........................................................................58
3.3.6.6. Giao diện duyệt CSDL ảnh .........................................................................59
3.4. Một số kết quả...........................................................................................................59
3.5. Kết luận Chương 3....................................................................................................61
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...........................................................................62
TÀI LIỆU THAM KHẢO ...................................................................................................64

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 7 of 73.

iii

DANH MỤC CÁC KÝ HIỆU VÀ TỪ NGỮ VIẾT TẮT

Viết tắt

Tiếng anh

Tiếng việt

CBIR

Content Based Images Retrieval

Tra cứu ảnh dựa vào nội dung


CCH

Cell Color Histogram

Lược đồ màu khối

CCV

Color Coherence Vectors

Véc-tơ gắn kết màu

CSDL

Data Base

Cơ sở dữ liệu

GCH

Global Color Histogram

Lược đồ màu toàn cục

LCH

Local Color Histogram

Lược đồ màu cục bộ


MRF

Markov Random Field

Trường ngẫu nhiên Markov

MRSAR

Multi-Resolution Simultaneous

Mơ hình tự hồi qui đồng thời SAR

Auto-Regressive
PCA

Principal Component Analysis

Phân tích thành phần chính

RGB

Red, Green, Blue

Đỏ, xanh lục, xanh lơ

TBIR

Text Based Image Retrieval


Tra cứu ảnh dựa vào văn bản mô tả

VIR

Visual Information Retrieval

Tra cứu thơng tin trực quan

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 8 of 73.

iv

DANH MỤC CÁC HÌNH TRONG LUẬN VĂN

Hình 1.1. Biểu diễn khơng gian màu RGB. ...........................................................................9
Hình 1.2. Trực quan hóa khơng gian màu HSV như một hình nón.....................................10
Hình 1.3. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung................................................26
Hình 2.1. Ba ảnh mẫu và lược đồ màu của chúng. ..............................................................33
Hình 2.3. Khoảng cách dạng Minkowski. ...........................................................................35
Hình 2.4. Khoảng cách dạng Quadratic. ..............................................................................35
Hình 2.5. Lược đồ giao của hai lược đồ. .............................................................................37
Hình 2.6. Biểu diễn một ví dụ phân cụm có thứ bậc với 8 ảnh. ..........................................40
Hình 2.7. Xóa nút 2 và nút 5 từ cluster C14. .......................................................................45
Hình 2.8. Thêm nút 2 vào cụm C12.....................................................................................46
Hình 3.1. Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung. .............................48

Hình 3.2. Mơ hình chi tiết của hệ thống tra cứu ảnh ...........................................................49
Hình 3.3. Biểu đồ Use Case đối với chức năng Quản trị hệ thống. .....................................50
Hình 3.4. Biểu đồ Use Case đối với chức năng Người dùng...............................................50
Hình 3.5. Biểu đồ trình tự của tác nhân xử lý dữ liệu..........................................................52
Hình 3.6. Sơ đồ hoạt động của tác nhân xử lý dữ liệu.........................................................52
Hình 3.7. Biểu đồ trình tự của tác nhân tra cứu ảnh. ...........................................................54
Hình 3.8. Sơ đồ hoạt động của tác nhân Tra cứu ảnh. .........................................................54
Hình 3.9. Sơ đồ liên kết các bảng dữ liệu trong CSDL. ......................................................56
Hình 3.10. Giao diện chính của hệ thống tra cứu ảnh dựa vào nội dung.............................56
Hình 3.11. Giao diện Cập nhật ảnh......................................................................................57
Hình 3.12. Giao diện Phân cụm ảnh. ...................................................................................57
Hình 3.13. Giao diện Tìm kiếm ảnh ....................................................................................58
Hình 3.14. Giao diện So sánh sự tương tự giữa hai ảnh thơng qua LCH. ...........................58
Hình 3.15. Giao diện Xem CSDL ảnh dưới dạng Preview..................................................59
Hình 3.16. Kết quả tìm kiếm với ảnh truy vấn có trong CSDL. ..........................................59
Hình 3.17. Kết quả tìm kiếm với ảnh truy vấn khơng có trong CSDL. ...............................60
Hình 3.18. Đánh giá kết quả giữa hai phương pháp tìm kiếm.............................................60

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 9 of 73.

1

LỜI NÓI ĐẦU

Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận được sự quan

tâm của nhiều người, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên
thơng dụng với mọi người, cùng với nó là các thiết bị lưu trữ ngày càng được cải
thiện về dung lượng và giá thành nên việc lưu trữ ảnh ngày càng thông dụng hơn,
chất lượng ảnh tốt hơn, thời gian lưu trữ lâu hơn, ....
Mặt khác, với sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là sự phát
triển của Internet làm cho số lượng ảnh số được lưu trữ và trao đổi qua Internet là
rất lớn. Do đó bài tốn thực tế đặt ra là cần phải có phương pháp tổ chức CSDL ảnh
phù hợp, phục vụ cho quá trình tìm kiếm và tra cứu ảnh nhanh hơn và có độ chính
xác cao hơn.
Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vô số các bức ảnh
thuộc đủ loại chủ đề và định dạng khác nhau là rất khó khăn, và khi số lượng ảnh
trong CSDL cịn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác
nhau giữa nhiều bức ảnh có thể thực hiện được bằng mắt thường, tuy nhiên khi số
lượng ảnh rất lớn thì việc so sánh này rất khó khăn, và do đó cần có các phương
pháp hiệu quả và phù hợp hơn.
Các ứng dụng tiềm năng của các hệ thống tra cứu ảnh tăng theo từng ngày. Cho
đến nay, sử dụng tra cứu ảnh phổ biến nhất là tìm kiếm trên web. Có một số hệ
thống tra cứu như: QBIC, Netra Simplicity, Yahoo! Picture Gallery, Google Image
Search ... Tạo thuận lợi tìm kiếm các ảnh từ web. Gần đây, tra cứu ảnh được ứng
dụng rất phổ biến trong lĩnh vực ngăn ngừa tội phạm. Các cơ sở dữ liệu chứa các
ảnh, vân tay và dấu chân có thể được sử dụng trong điều tra hình sự. Một ứng dụng
quan trọng khác là lĩnh vực chuẩn đoán bệnh. Tra cứu ảnh được sử dụng trong một
số kỹ thuật chuẩn đoán bệnh như chụp nhũ ảnh (mammography), chụp cắt lớp
(tomography) và mô bệnh học (histopathology). Tra cứu ảnh có thể rất hữu ích
trong nhận biết các trường hợp tương tự đã được điều trị trong quá khứ để đánh giá

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Header Page 10 of 73.

2

loại điều trị được biết. Tra cứu ảnh dựa vào nội dung cũng được sử dụng trong các
hệ thống thông tin địa lý và viễn thám. CBIR có thể được sử dụng cho tra cứu các
phần video như phim và trò chơi. Các ứng dụng khác bao gồm bảo tàng trực tuyến,
quảng cáo và thiết kế thời trang.
Việc tìm ra các phương pháp tổ chức dữ liệu ảnh và cách thức tra cứu, tìm kiếm
ảnh hiệu quả sẽ là điều kiện quan trọng để giải quyết các bài toán như trên, và điều
này trở thành vấn đề có tính thiết thực và có hiệu quả cao trong thực tiễn.
Kỹ thuật tra cứu ảnh được nhiều người quan tâm nghiên cứu hiện nay là kỹ thuật
"Tra cứu ảnh dựa theo nội dung". Kỹ thuật này cho phép trích rút các đặc trưng dựa
vào nội dung trực quan của bản thân ảnh như màu sắc, kết cấu, hình dạng, bố cục
không gian của ảnh, ... để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh.
Việc biểu diễn và trích rút đặc trưng để nhận dạng được bức ảnh mong muốn là rất
quan trọng và nhiều hướng nghiên cứu khác nhau đã được triển khai. Tuy nhiên, khi
CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều thời gian. Để
tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh
nhanh. Thực tế địi hỏi thời gian tìm kiếm khơng được tăng tuyến tính đối với số các
ảnh trong CSDL.
Đề tài "Nghiên cứu kỹ thuật đánh chỉ số dựa vào phân cụm phục vụ tra cứu
ảnh nhanh và ứng dụng trong tìm kiếm ảnh danh lam thắng cảnh" trình bày tổng
quan về tra cứu ảnh dựa vào nội dung và ứng dụng kỹ thuật đánh chỉ số ảnh dựa vào
phân cụm. Trong kỹ thuật này, tại thời điểm truy vấn, ảnh truy vấn không so sánh
với tất cả các ảnh trong CSDL, mà chỉ so sánh với một tập con rất nhỏ các ảnh. Trên
cơ sở đó thử nghiệm phương pháp cụ thể để xây dựng một chương trình phần mềm
đọc vào một ảnh danh lam thắng cảnh mẫu và tìm kiếm những ảnh danh lam thắng
cảnh tương tự với ảnh mẫu trong tập hợp các ảnh cho trước. Kết quả thực hiện đề

tài sẽ giúp cho việc tìm kiếm các ảnh danh lam thắng cảnh trong tập hợp các ảnh
được nhanh hơn, đồng thời là cơ sở cho việc xây dựng nên các hệ thống ứng dụng
có tính thực tiễn cao phục vụ cho nhu cầu phát triển của xã hội và cho cơng tác
nghiên cứu sau này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 11 of 73.

3

Bố cục trình bày của luận văn như sau:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, trình bày kỹ
thuật đánh chỉ số ảnh, một số đặc trưng cơ bản của ảnh số, các chức năng chính của
một hệ thống tra cứu ảnh dựa vào nội dung và một số ứng dụng của hệ thống tra cứu
ảnh dựa vào nội dung tiêu biểu.
Chương 2: Giới thiệu phương pháp phân cụm ảnh dựa vào kỹ thuật đánh chỉ số
ảnh để phục vụ cho quá trình tra cứu ảnh.
Chương 3: Thiết kế hệ thống tra cứu ảnh ứng dụng phương pháp phân cụm ảnh
dựa vào kỹ thuật đánh chỉ số ảnh để tra cứu ảnh danh lam thắng cảnh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 12 of 73.


4

Chương 1. TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ
1.1. Một số đặc trưng cơ bản của ảnh số
1.1.1. Khái niệm đặc trưng của ảnh số
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung. Theo nghĩa rộng,
các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng
trực quan. Các đặc trưng trực quan có thể được phân loại tiếp thành các đặc trưng
chung và các đặc trưng trong các lĩnh vực cụ thể. Các đặc trưng trực quan chung
gồm: màu, kết cấu, hình dạng, ...; các đặc trưng trong các lĩnh vực cụ thể phụ thuộc
vào các ứng dụng, ví dụ: mặt người, vân tay, .... Các đặc trưng lĩnh vực cụ thể bao
gồm nhiều tri thức lĩnh vực, ta khơng đề cập ở đây.
Nói chung, khơng tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho, và
tùy vào điều kiện cụ thể nên lựa chọn các đặc trưng ảnh một cách phù hợp.
1.1.2. Đặc trưng về màu sắc
Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất trong tra cứu
ảnh dựa vào nội dung. Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh
vực này, vì nó độc lập với kích thước và hướng của ảnh. Mỗi điểm ảnh có thể được
biểu diễn như một điểm trong không gian màu sắc ba chiều, với các không gian
màu thường dùng là RGB, HSV, CIE, ....
1.1.2.1. Lược đồ màu
Lược đồ màu H của một ảnh được xác định bởi véc tơ: H={H[0], H[1], H[2], ...,
H[N]}, trong đó H[i] là số các pixel có màu i trong ảnh, i biểu diễn một màu trong
lược đồ màu, tương ứng với một khối con trong không gian màu RGB, N là số các
bin trong lược đồ màu, mỗi bin biểu thị xác suất của các pixel trong ảnh. Để so sánh
các ảnh có các kích cỡ khác nhau, các lược đồ màu sẽ được chuẩn hóa. Lược đồ
màu chuẩn hóa H’ được xác định: H’={H’[0], H’[1], ..., H’[N]}, với H '[i] =

H [i ]

,
p

và P là tổng các pixel trong ảnh.
Đối với đặc trưng màu, lược đồ màu thường được sử dụng để thực hiện việc tra
cứu ảnh bằng cách tính toán để xác định tỉ trọng của các điểm ảnh, vì lược đồ màu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 13 of 73.

5

biểu thị xác suất chung của các cường độ của ba kênh màu. Có rất nhiều kỹ thuật đã
áp dụng thành công lược đồ màu trong việc tra cứu ảnh, ví dụ như Swain và Ballard
đề xuất lược đồ màu giao [18] để tính tốn sự tương tự giữa các lược đồ màu của
các ảnh, hay Stricker và Orengo đề xuất sử dụng các lược đồ màu tích lũy, hoặc sử
dụng phương pháp mơ-men khoảng màu [12], Smith và Chang đề xuất thiết lập bộ
màu như là một xấp xỉ với lược đồ màu [10], ... để khắc phục một số hạn chế của
lược đồ màu thông thường. Ở đây không gian màu được giả thiết là cố định, thông
tin không gian trong ảnh bị bỏ qua, và thông tin màu trong một ảnh tiêu biểu có thể
được xem như tín hiệu ba chiều đơn, điều này có thể dẫn tới khả năng các ảnh rất
khác nhau có thể có các phân bố màu giống nhau, nhất là trong các CSDL lớn. Để
giải quyết vấn đề này, một số cải tiến đã được đề xuất để kết hợp với thơng tin
khơng gian ảnh ngồi các thơng tin màu, mà phương pháp đơn giản nhất là phân
chia một ảnh thành các vùng (phân hoạch ảnh) và xác định lược đồ màu cho từng
vùng. Phân hoạch hay được dùng là phân hoạch hình chữ nhật, thậm chí phân hoạch

đối tượng. Việc tăng số các vùng con sẽ tăng thơng tin về vị trí, nhưng cũng tăng về
chi phí bộ nhớ và thời gian tính tốn khi thực hiện tra cứu ảnh.
1.1.2.2. Véc tơ gắn kết màu
Véctơ gắn kết màu CCV đề xuất mỗi bin lược đồ được phân thành hai loại là gắn
kết (khơng gắn kết) nếu nó thuộc (không thuộc) về một vùng màu đồng nhất [3].
Cho αi và βi biểu thị số các pixel gắn kết và không gắn kết trong bin màu thứ i của
một ảnh thì CCV của ảnh đó được định nghĩa bằng véctơ ((α1,β1),(α2,β2),..,(αN,βN)).
Lưu ý rằng (α1+β1,α2+β2,..,αN+βN) là lược đồ màu của ảnh. Do đã tính đến cả thơng
tin khơng gian nên CCV cho kết quả tra cứu tốt hơn lược đồ màu, đặc biệt với các
ảnh có sự tương đồng lớn về màu sắc và kết cấu. Không gian màu HSV cung cấp
các kết quả tra cứu tốt hơn không gian CIE L*u*v* và CIE L*a*b* [3].
1.1.2.3. Tương quan màu
Tương quan màu được đề xuất không chỉ để mô tả các phân bố màu của các
pixel, mà cịn tương quan khơng gian của các cặp màu [8]. Chiều thứ nhất và thứ
hai của lược đồ màu ba chiều là các màu của mọi cặp pixel và chiều thứ ba là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 14 of 73.

6

khoảng cách không gian của chúng. Một tương quan màu là một bảng được đánh
chỉ số bởi các cặp màu, ở đây mục thứ k cho (i,j) chỉ rõ xác suất tìm được một pixel
có màu j tại một khoảng cách k từ một pixel có màu i trong ảnh. Cho I biểu diễn
toàn bộ tập các pixel ảnh và Ic(i) biểu diễn tập các pixel có màu c(i) thì tương quan
màu được định nghĩa bằng:


γ ik, j =

Pr

p1∈I c ( i ) , p2∈I

[p

2

∈ I c ( j ) | p1 − p2 | = k

]

(1.1)

Ở đây i,j ∈ {1,2,..,N}, k ∈ {1,..,d}, |p1-p2| là khoảng cách giữa các pixel p1 và p2.
Nếu ta xét tất cả các kết hợp có thể của các cặp màu, thì cỡ của tương quan màu sẽ
rất lớn (bằng O(N2d)), do đó một phiên bản đơn giản hố, được gọi là tự tương quan
màu thường được sử dụng thay thế. Tự tương quan màu chỉ thu tương quan không
gian giữa các màu thuần nhất và vì thế giảm số chiều xuống còn O(Nd).
So sánh với lược đồ màu và véc tơ gắn kết màu, tự tương quan màu cho các kết
quả tra cứu tốt hơn, nhưng chi phí tính tốn cũng cao hơn do có tính tới thơng tin về
chiều cao trong không gian màu ba chiều.
1.1.2.4. Các màu trội
Các lược đồ màu thường rất thưa và thường chỉ cần một số nhỏ các màu là đủ để
miêu tả các thơng tin màu cần thiết, do đó các màu trội được dùng để mô tả nội
dung màu của một ảnh. Một phân cụm màu được thực hiện để thu các màu trội đại
diện và phần trăm tương ứng của nó. Mỗi bộ (màu đại diện, phần trăm tương ứng)

tạo ra một cặp các thuộc tính mơ tả các đặc trưng màu trong một vùng ảnh.
Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa:
F={{ci,pi}, i= 1..N}

(1-2)

Ở đây N là tổng số các cụm màu trong ảnh, ci là véc tơ màu ba chiều, pi là phần
trăm của nó ( ∑ pi = 1 ). Lưu ý rằng N có thể thay đổi từ ảnh này sang ảnh khác.
i

1.1.2.5. Các Mômen màu
Là các Mômen thống kê của các phân bố xác suất của các màu. Nó được sử dụng
thành công trong nhiều hệ thống tra cứu ảnh (ví dụ QBIC [7]), đặc biệt khi ảnh chứa
chính xác đối tượng. Các Mơmen màu bậc nhất (trung bình), bậc hai (phương sai)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 15 of 73.

7

và bậc ba (độ lệch), đã được chứng minh là hiệu quả trong biểu diễn các phân bố
màu của các ảnh.
Về mặt tốn học, ba Mơmen đầu tiên được định nghĩa bằng:
µi =

1

N

σi = (

N

∑f

1
N

1
si = (
N

j =1

(1-3)

ij

1

∑ ( fij − µi ) 2 ) 2
1
3 3

N

∑( f

j =1

(1-4)

ij

− µi ) )

(1-5)

Ở đây fij là giá trị của thành phần màu thứ i của pixel ảnh j và N là số các pixel
trong ảnh.
Thông thường Mômen màu thực hiện tốt hơn nếu nó được xác định bởi cả hai
không gian màu L*u*v* và L*a*b* chứ không chỉ duy nhất bởi không gian màu
HSV. Sử dụng thêm Mômen bậc ba sẽ cải tiến đáng kể hiệu năng tra cứu, tuy nhiên
Mômen bậc ba này thỉnh thoảng làm cho biểu diễn đặc trưng nhạy cảm hơn với sự
thay đổi của cảnh trong ảnh, và do đó có thể giảm hiệu năng.
Do chỉ 9 số (ba Mômen cho mỗi một trong ba thành phần màu) được sử dụng để
biểu diễn nội dung màu của mỗi ảnh, các Mômen màu là một biểu diễn rất nén so
với các đặc trưng màu khác, do đó có thể cũng giảm khả năng phân biệt. Thơng
thường, các Mơmen màu có thể được sử dụng như sơ duyệt lần đầu để giảm khơng
gian tìm kiếm trước khi các đặc trưng màu phức tạp khác được dùng để tra cứu.
1.1.3. Đặc trưng về không gian màu
1.1.3.1. Giới thiệu về không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó và
được dùng để sinh ra các biểu diễn màu, như trong việc in hoặc hiển thị điện tử số.
Mục đích của khơng gian màu là để đặc tả các màu theo một số cách chuẩn, được
chấp nhận chung. Có thể mơ tả các khơng gian màu sử dụng khái niệm đồng nhất
nhận thức - nghĩa là hai màu có khoảng cách bằng nhau trong khơng gian màu thì
cũng được nhận thức như nhau bởi người quan sát.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 16 of 73.

8

Có rất nhiều dạng khơng gian màu khác nhau, tùy thuộc vào từng ứng dụng và
từng nhà phát triển, ví dụ như khơng gian màu RGB, CMY, HSx, ....
Các ảnh với đặc tính màu và kết cấu tương tự nhau có thể được phân biệt khi
dùng các ràng buộc khơng gian, ví dụ: vùng bầu trời màu xanh và biển xanh có thể
có các lược đồ màu giống nhau, nhưng các vị trí khơng gian của chúng trong các
ảnh là khác nhau. Do đó, vị trí không gian giữa các vùng và quan hệ giữa các vùng
trong một ảnh rất có ích cho việc tra cứu ảnh, gọi là đặc trưng màu – không gian.
Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D được đề
xuất bởi Chang và cộng sự [10]. Nó được xây dựng bởi việc chiếu các ảnh dọc theo
các hướng x và y. Hai tập ký hiệu, V và A, được định nghĩa trên hình chiếu. Mỗi ký
hiệu trong V biểu diễn một đối tượng trong ảnh. Mỗi ký hiệu trong A biểu diễn một
loại quan hệ không gian giữa các đối tượng. Do sự biến đổi của nó, xâu 2DG cắt tất
cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ khơng
gian thành hai tập tốn tử không gian. Một tập định nghĩa các quan hệ không gian
cục bộ. Tập cịn lại định nghĩa quan hệ khơng gian tồn cục, chỉ ra rằng hình chiếu
của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị trí. Thêm nữa, xâu
2DG được đề xuất để cực tiểu hoá số các đối tượng cắt. Xâu 2D-B biểu diễn một
đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối tượng.
Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn: Truy vấn tìm tất cả các
ảnh chứa đối tượng O1, O2, .., On; Truy vấn tìm tất cả các ảnh chứa các đối tượng

có quan hệ với nhau, nhưng khoảng cách giữa chúng không đáng kể; và Truy vấn
tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác.
Ngồi các xâu 2D, cây tứ phân không gian [5] cũng được sử dụng cho biểu diễn
thơng tin khơng gian. Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ không gian
của các vùng cịn là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội dung,
do việc phân chia các đối tượng hoặc các vùng thường là không khả thi ngoại trừ
các ứng dụng rất giới hạn. Người ta thường dùng một số kỹ thuật khác để khắc phục
vấn đề này, ví dụ sử dụng phương pháp dựa vào biến đổi radon, ....

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 17 of 73.

9

1.1.3.2. Không gian màu RGB
Không gian màu RGB (Red, Green, Blue) là không gian màu được sử dụng nhiều
nhất cho đồ hoạ máy tính. Đây là không gian màu cộng: đỏ, xanh lục, và xanh lơ
được kết hợp lại để tạo ra các màu khác. Không gian này không đồng nhất về nhận
thức. Không gian màu RGB có thể được trực quan hố như một hình khối, như
được minh hoạ trong hình 1.1 sau:

Hình 1.1. Biểu diễn không gian màu RGB.
Mỗi trục màu (R, G, và B) có độ quan trọng như nhau, do đó mỗi trục nên được
lượng hố với cùng một độ chính xác. Khi khơng gian màu RGB được lượng hố,
số các bin ln là một hình khối. Thơng thường, 8 (23), 64 (43), 216 (63), 512 (83)
bin được sử dụng trong lượng hố khơng gian màu RGB. Có thể thực hiện chuyển

đổi sang ảnh đa cấp xám để tiện cho việc xử lý.
1.1.3.3. Không gian màu HSx
Các không gian màu HSx (như HSI, HSV, HSB, HSL, ...) là gần với nhận thức
của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức.
Các trục của không gian màu HSx biểu diễn các đặc trưng hue (màu), saturation
(độ bão hòa), lightness (độ sáng) (còn gọi là value, brightness và intensity). Sự khác
biệt giữa các không gian màu HSx là cách biến đổi từ không gian màu RGB. Chúng
thường được biểu diễn bởi các hình khác nhau (ví dụ hình nón, hình trụ).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 18 of 73.

10

Hình 1.2. Trực quan hóa khơng gian màu HSV như một hình nón.
Hue là thành phần màu của các không gian màu HSx. Hue là một góc giữa một
đường tham chiếu và điểm màu trong khơng gian RGB, phạm vi của giá trị này giữa
00 và 3600, ví dụ blue là 2400. Theo CIE, Hue là “thuộc tính của cảm giác trực quan
theo đó một vùng xuất hiện là tương ứng với một vùng màu được nhận thức, đỏ
(red), vàng (yellow), xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong
chúng”. Nói cách khác, hue là loại màu, như đỏ hoặc xanh lục. Cũng theo CIE, độ
bão hoà là “màu đầy của một vùng được xem xét tương xứng với độ sáng của nó”.
Trong hình nón, độ bão hồ là khoảng cách từ tâm của mặt cắt ngang của hình nón,
“chiều cao” nơi mặt cắt ngang này được được xác định bởi giá trị - Value, nó là
khoảng cách từ điểm cuối của hình nón. Giá trị là độ sáng của một màu, điều này
được định nghĩa bởi CIE như “thuộc tính của cảm giác trực quan theo đó một vùng

xuất hiện để phát ra nhiều hoặc ít ánh sáng”. Khi độ bão hồ được đặt đến 0, Hue
khơng được xác định.
1.1.3.4. Các không gian màu YUV và YIQ
Các không gian màu này được phát triển cho truyền hình vơ tuyến. Khơng gian
màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một mặt
phẳng quay 330 của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel và
là kênh duy nhất được sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho
YIQ là các thành phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299),
G(0.587), và B(0.144). Các không gian màu YUV và YIQ khơng là đồng nhất nhận

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 19 of 73.

11

thức. Khi các không gian màu YUV và UIQ được lượng hoá, mỗi trục được lượng
hoá với cùng độ chính xác.
1.1.3.5. Các khơng gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ.
Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của
R(0:212671), G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không
gian màu XYZ là không đồng nhất nhận thức. Trong lượng hố khơng gian màu
XYZ, mỗi trục được lượng hố với cùng độ chính xác.
Khơng gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là
đồng nhất nhận thức. Kênh L của khơng gian màu LUV là độ chói của màu. Các

kênh U và V là các thành phần màu, nên khi U và V được đặt bằng 0, kênh L biểu
diễn một ảnh cấp xám.
Trong lượng hố khơng gian LUV, mỗi trục được lượng hố với cùng độ chính
xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng hoá thường sử dụng 8
(23), 27 (33), 64 (43), 125 (53) bin.
1.1.4. Đặc trưng về kết cấu
1.1.4.1. Một số khái niệm về kết cấu
Kết cấu là một đặc tính quan trọng khác của ảnh. Các biểu diễn kết cấu đa dạng
đã được nghiên cứu trong nhận dạng mẫu và thị giác máy tính. Các phương pháp
biểu diễn kết cấu có thể được phân thành hai loại: cấu trúc và thống kê. Các phương
pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mơ tả kết cấu bởi nhận dạng cấu
trúc gốc và các luật sắp đặt của chúng. Chúng có chiều hướng hiệu quả nhất khi
được áp dụng với các kết cấu đều. Các phương pháp thống kê, gồm các kỹ thuật phổ
năng lượng Fourier, ma trận đồng khả năng, phân tích thành phần chính bất biến,
đặc trưng Tamura, phân rã Wold, MRF, mơ hình fractal, và lọc đa phân giải như
biến đổi Gabor và sóng, mô tả kết cấu bằng phân bố thống kê của cường độ ảnh.
Một số biểu diễn kết cấu [14] được sử dụng thường xuyên và đã được chứng minh
là hiệu quả trong tra cứu ảnh dựa vào nội dung.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 20 of 73.

12

1.1.4.2. Các đặc trưng Tamura
Bao gồm các đặc trưng Coarseness (thô), contrast (tương phản), directionality

(hướng), linelikeness (giống nhất), regularity (đều), và roughness (nhám), được thiết
kế phù hợp với các nghiên cứu tâm lý về nhận thức của người đối với kết cấu. Ba
đặc trưng đầu tiên được sử dụng trong một số hệ thống tra cứu ảnh như QBIC và
Photobook. Các tính tốn của ba đặc trưng này được cho như sau:
*. Thô (Coarseness): Thô là một độ đo tính chất hột của kết cấu. Để
tính tốn thơ, các trung bình động Ak(x,y) được tính đầu tiên sử dụng cỡ 2k*2k
(k=0..5) các cửa sổ tại mỗi pixel (x,y), tức là:
Ak ( x, y ) =

k −1
−1
x + 2 k −1 − 1 y + 2





g (i, j ) / 2 2 k

(1-6)

i = x − 2 k −1 j = y − 2 k −1

Ở đây g(i,j) là cường độ pixel tại (i,j).
Sau đó, các sự khác nhau giữa các cặp trung bình động khơng chồng theo hướng
ngang và đứng cho mỗi pixel được tính tốn, tức là:
Ek,h (x, y) = Ak (x + 2k−1, y) − Ak (x − 2k−1, y) và Ek,v (x, y) = Ak (x, y + 2k−1) − Ak (x, y − 2k−1) (1-7)

Sau đó, gía trị của k cực đại hoá E theo một trong hai hướng được sử dụng để đặt
cỡ tốt nhất cho mỗi pixel, tức là:

Sbest ( x, y ) = 2 k

(1-8)

Sau đó thơ được tính bằng trung bình Sbest trên tồn bộ ảnh, tức là:
Fcrs =

1 m n
∑∑ Sbest (i, j )
m × n i =1 j =1

(1-9)

Thay vì lấy trung bình của Sbest, một phiên bản được cải tiến của đặc trưng thơ có
thể thu được bởi sử dụng một lược đồ để mô tả phân bố của Sbest. So với sử dụng
một giá trị đơn để biểu diễn thô, sự cải tiến này có thể tăng đáng kể hiệu năng tra
cứu. Sự điều chỉnh này làm cho đặc trưng có khả năng xử lý với một ảnh hoặc vùng
có đa đặc tính kết cấu, và do đó là hữu ích hơn đối với các ứng dụng tra cứu ảnh.
*. Độ tương phản: Công thức tính tương phản như sau:
Fcon =

σ
α 41/ 4

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

(1-10)





Header Page 21 of 73.

13

Ở đây α4=µ4 / σ4, µ4 là Mơmen thứ tư về trung bình, và phương sai σ2. Cơng thức
này có thể được sử dụng cho cả toàn bộ ảnh và một vùng của ảnh.
*. Hướng: Để tính hướng, ảnh được chập với hai dãy 3*3 (tức là:
 − 1 0 1
 − 1 0 1


 − 1 0 1



1 1 1 
0 0 0 


 − 1 − 1 − 1

là một véc tơ gradient tại mỗi pixel được tính).

Độ lớn và góc của véc tơ này được định nghĩa bằng:
∆G = ( ∆ H + ∆V ) / 2 và θ = tan −1 (∆V / ∆ H ) + π / 2

(1-11)

Ở đây ∆H và ∆V là các khác biệt ngang và dọc của chập.

Sau đó, bằng lượng hố θ và đếm số các pixel với độ lớn tương ứng |∆G| lớn hơn
một ngưỡng, một lược đồ của θ, biểu thị bằng HD, có thể được xây dựng. Lược đồ
này sẽ cho biết các đỉnh bền vững cho các ảnh hướng cao và sẽ là tương đối phẳng
với các ảnh khơng có hướng bền vững. Sau đó tồn bộ lược đồ được tóm lược để
thu tồn bộ độ đo hướng dựa trên tính nhọn của các đỉnh:
np

Fdir = ∑ ∑ (φ − φ p ) 2 H D (φ )

(1-12)

p φ∈w p

1.1.4.3. Các đặc trưng Wold
Phân rã Wold [9] cung cấp một cách tiếp cận khác để mô tả các kết cấu về mặt
đặc tính nhận thức. Ba thành phần chính của Wold tương ứng với chu kỳ, hướng, và
tính ngẫu nhiên của kết cấu tương ứng. Đối với một trường ngẫu nhiên đều {y(m,n),
m,n Є Z2}, phân rã Wold cho phép trường được phân rã thành ba thành phần trực
giao lẫn nhau:

y(m, n) = u(m, n) + d (m, n) = u(m, n) + h(m, n) + e(m, n)

(1-13)

Ở đây u(m,n) là thành phần không xác định, d(m,n) là thành phần xác định và
thành phần tạm thời e(m,n) có thể được phân rã tiếp ra thành phần điều hoà h(m,n)
và thành phần tạm thời e(m,n). Trong miền tần số, một biểu diễn tương tự tồn tại:
Fy (ξ ,η ) = Fu (ξ ,η ) + Fd (ξ ,η ) = Fu (ξ ,η ) + Fh (ξ ,η ) + Fe (ξ ,η )

(1-14)


Ở đây Fy (ξ ,η ), Fu (ξ ,η ), Fd (ξ ,η ), Fh (ξ ,η ), Fe (ξ ,η ) là các hàm phân bố phổ (SDF)
của { y (m, n)}, {u (m, n)}, {d (m, n)}, {h(m, n)} và {e(m,n)} tương ứng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 22 of 73.

14

Trong miền không gian, ba thành phần trực giao có thể thu được bởi ước lượng
khả năng nhất, nó gồm sự điều chỉnh một q trình bậc cao, cực tiểu hoá hàm giá,
và giải một tập các phương trình tuyến tính. Trong miền tần số, các thành phần
Wold có thể thu được bởi ngưỡng tồn cục của các độ lớn phổ Fourier của ảnh.
Trong [15], một phương pháp sử dụng trích rút đỉnh điều hồ và mơ hình MRSAR
thiếu một phân rã thực sự của ảnh được giới thiệu. Phương pháp này được thiết kế
để dung sai sự đa dạng của các sự không đồng nhất trong các mẫu kết cấu tự nhiên.
1.1.4.4. Mơ hình tự hồi qui đồng thời SAR
Là một thể hiện của các mơ hình MRF, nó rất thành cơng về mơ hình kết cấu
trong những thập kỷ qua. So với MRF, SAR sử dụng ít các tham số hơn. Trong mơ
hình SAR, các cường độ pixel nhận được bằng các biến ngẫu nhiên. Cường độ
g(x,y) tại pixel (x,y) có thể được ước lượng bằng một kết hợp tuyến tính của các giá
trị pixel lân cận g(x’,y’) và một số hạng nhiễu cộng Σ(x,y), tức là:
g ( x, y ) = µ +

∑ θ ( x ' , y ' ) g ( x ' , y ' ) + ε ( x, y )


(1-15)

( x ', y ')∈D

Ở đây µ là giá trị xiên được xác định bởi trung bình của tồn bộ ảnh; D là tập lân
cận của (x,y); θ(x’,y’) là tập các trọng số được kết hợp với mỗi pixel lân cận; ε(x,y)
là biến ngẫu nhiên độc lập Gaussian với trung bình 0 và phương sai σ2. Các tham số
θ và σ được sử dụng để đo kết cấu. Ví dụ một giá trị σ cao hơn hàm ý tính chất hột
tốt hơn hoặc thô kém hơn; các giá trị θ(x,y+1) và θ(x,y-1) cao hơn chỉ ra rằng kết
cấu được hướng thẳng đứng. Kỹ thuật sai số bình phương tối thiểu hoặc phương
pháp ước lượng hợp lý cực đại thường được sử dụng để đánh giá các tham số của
mô hình SAR.
Mơ hình SAR là khơng bất biến quay. Để nhận được một mơ hình SAR bất biến
quay (RISAR), các pixel nằm trên các đường trịn có bán kính khác nhau có tâm tại
mỗi pixel (x,y) đáp ứng bằng tập D lân cận của nó. Như thế cường độ g(x,y) tại
pixel (x,y) có thể được ước lượng bằng:
g ( x, y ) = µ +

p

∑θ
i =1

i

( x , y ) li ( x , y ) + ε ( x , y )

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

(1-16)





Header Page 23 of 73.

15

Ở đây p là số lân cận. Để tạo chi phí tính tốn thấp và để thu được bất biến quay
tại cùng thời điểm, p không được q lớn hoặc q nhỏ. Thơng thường p=2.l(x,y) có
thể được tính tốn bởi:

li ( x, y ) =

1
∑ wi ( x' , y' ) g ( x' , y' )
8i ( x ', y ')∈N i

(1-17)

Ở đây Ni là lân cận tròn thứ i của (x,y), wi(x’,y’) là một tập các trọng số được
tính trước chỉ ra đóng góp của pixel (x’,y’) trong vịng trịn thứ i.
Để mơ tả các kết cấu có các tính chất hột khác nhau, mơ hình tự hồi qui đồng
thời đa phân giải MRSAR được đề xuất để cho phép phân tích kết cấu đa mức. Một
ảnh được biểu diễn bởi hình chóp Gaussian đa độ phân giải với lọc thông thấp và
lấy mẫu dưới được áp dụng tại một số mức liên tiếp, sau đó mơ hình SAR có thể
được áp dụng đối với mỗi mức của hình chóp.
1.1.4.5. Các đặc trưng lọc Gabor
Được sử dụng rộng rãi để trích rút các đặc trưng ảnh, đặc biệt là các đặc trưng kết
cấu. Nó tối ưu về mặt cực tiểu hố sự khơng chắc chắn chung trong miền không

gian và miền tần số, và thường được sử dụng như một hướng và tỷ lệ biên điều
hướng và phát hiện đường. Có nhiều cách tiếp cận đã được đề xuất để mô tả các kết
cấu của các ảnh dựa trên các lọc Gabor. Ý tưởng cơ bản của sử dụng các lọc Gabor
để trích rút các đặc trưng kết cấu như sau: Một hàm Gabor hai chiều g(x,y) được
định nghĩa bằng:
g ( x, y ) =

 1  x2 y2 

exp −  2 + 2  + 2πjWx 


2πσ xσ y
 2  σ x σ y 

1

(1-18)

Ở đây σx và σy là các độ lệch chuẩn của các bao Gauss theo hướng x và y. Sau đó
một tập các lọc Gabor có thể thu được bởi các giãn và quay thích hợp của g(x,y):
g mn ( x, y ) = a − m g ( x' , y ' )
x' = a −m (− x cos θ + y sin θ )

(1 − 19)

y ' = a −m (− x sin θ + y cos θ )

Ở đây a>1, θ=nπ / K, n=0,..,K-1, và m=0,..,S-1. K và S là số các hướng và các tỷ
lệ. Nhân tố tỷ lệ a-m là để đảm bảo rằng năng lượng là độc lập của m.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 24 of 73.

16

Một ảnh I(x,y) đã cho, biến đổi Gabor của nó được định nghĩa bằng:
*
Wmn ( x, y ) = ∫ I ( x, y ) g mn
( x − x1 , y − y1 )dx1dy1

(1-20)

Ở đây * chỉ ra số liên hợp phức. Sau đó trung bình µmn và độ lệch chuẩn σmn của
độ lớn Wmn(x,y), tức là, f=[µ00, σ00, .., µmn, σmn, Λ, µS-1 K-1, σS-1 K-1] có thể được sử
dụng để biểu diễn đặc trưng kết cấu của một vùng kết cấu thuần nhất.
1.1.4.6. Các đặc trưng biến đổi sóng
Tương tự với lọc Gabor, biến đổi sóng cung cấp một cách tiếp cận đa độ phân
giải đối với phân tích kết cấu và phân lớp. Các biến đổi sóng phân rã một tín hiệu
với một họ các hàm cơ sở ψmn(x) thu được thông qua dịch chuyển và sự giãn của
sóng mẹ ψ(x), tức là:
ψmn(x) = 2−m/ 2ψ(2−m x − n)

(1-21)

Ở đây, m và n là các tham số giãn và dịch chuyển. Một tín hiệu f(x) có thể được

biểu diễn bằng:
f ( x) = ∑ cmnψ mn ( x)

(1-22)

m ,n

Tính tốn các biến đổi sóng của một tín hiệu hai chiều gồm lọc đệ quy và lấy
mẫu. Tại mỗi mức, tín hiệu được phân thành bốn dải tần số con: LL, LH, HL và
HH, ở đây L biểu thị tần số thấp và H biểu thị tần số cao. Hai loại biến đổi sóng
chính được sử dụng cho phân tích kết cấu là biến đổi sóng cấu trúc hình chóp PWT
(pyramid structured wavelet transform) và biến đổi sóng cấu trúc hình cây TWT
(tree structured wavelet transform). PWT phân rã dải LL một cách đệ quy. Tuy
nhiên một số kết cấu thông tin quan trọng thường xuất hiện ở kênh có tần số chung.
Để khắc phục hạn chế này, TWT phân rã các dải khác như LH, HL hoặc HH khi
cần. Sau khi phân rã, các véc tơ đặc trưng có thể được xây dựng sử dụng trung bình
và độ lệch chuẩn của phân bố năng lượng của mỗi dải con tại mỗi mức. Với phân rã
ba mức, PWT đưa ra một véc tơ đặc trưng có 3*4*2 thành phần. Với TWT, đặc
trưng sẽ phụ thuộc vào dải con nào tại mỗi mức được phân rã. Một cây phân rã cố
định có thể thu được bởi phân rã liên tiếp các dải LL, LH, HL, và vì thế cho ra một

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Header Page 25 of 73.

17


véc tơ đặc trưng có 52*2 thành phần. Hơn nữa, theo so sánh của các đặc trưng biến
đổi sóng khác nhau, chọn riêng lọc sóng khơng là then chốt cho phân tích kết cấu.
1.1.5. Đặc trưng về hình dạng
1.1.5.1. Một số khái niệm về hình dạng ảnh
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong
nhiều hệ thống CBIR. So với các đặc trưng màu và kết cấu, đặc trưng này thường
được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Do
phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng
cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng
hoặc các vùng đã sẵn có. Các phương pháp state-of-art cho mơ tả hình có thể được
phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa
vào vùng. Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch
chuyển, quay và tỷ lệ. Chúng ta sẽ mơ tả ngắn gọn một số đặc trưng hình được sử
dụng phổ biến trong các ứng dụng tra cứu ảnh. Với một giới thiệu tổng quan ngắn
gọn về các kỹ thuật đối sánh hình.
1.1.5.2. Các bất biến Mơmen
Biểu diễn hình cổ điển sử dụng một tập các bất biến Mômen. Nếu đối tượng R
được biểu diễn như một ảnh nhị phân, thì các Mơmen trung tâm bậc p+q cho hình
của đối tượng R được định nghĩa:
µ p ,q =

∑ (x − x )

( x , y )∈R

c

p

( y − yc ) q


(1-23)

Ở đây ( xc , y c ) là tâm của đối tượng. Mơmen trung tâm này có thể được chuẩn
hố để bất biến tỷ lệ:
η p ,q =

µ p ,q
p+q+2
, γ =
γ
µ 0, 0
2

(1-24)

Dựa trên các Mơmen này, một tập các bất biến Mômen đối với dịch chuyển, quay
và tỷ lệ có thể tìm thấy trong:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




×