Cải tiến tra cứu ảnh thông qua kết hợp các bộ phân lớp không gian con ngẫu nhiên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (579.77 KB, 7 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00010

CẢI TIẾN TRA CỨU ẢNH THÔNG QUA KẾT HỢP CÁC BỘ PHÂN LỚP
KHÔNG GIAN CON NGẪU NHIÊN
Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, An Hồng Sơn2, Đào Thị Thúy Quỳnh3
Khoa Công nghệ thông tin, Trường Đại học Điện lực,
2
Trường Đại học Công nghiệp Việt Hung,
3
Khoa Cơng nghệ thơng tin, Trường Bưu chính Viễn thơng
, , ,
1

TĨM TẮT: Đã có nhiều phương pháp tra cứu ảnh phản hồi liên quan dựa vào phân lớp sử dụng máy véc tơ hỗ trợ (SVM). Tuy
nhiên, các phương pháp này chưa đề cập tới vấn đề quá khớp với mẫu phản hồi dẫn đến độ chính xác thấp. Trong bài báo này,
chúng tôi đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả gọi là RFRS(Image retrieval using relevance feedback
with random subspace), cho phép nâng cao hiệu năng của hệ thống tra cứu ảnh thông qua việc giải quyết vấn đề quá khớp. Phương
pháp của chúng tôi xây dựng nhiều bộ phân lớp máy véc tơ hỗ trợ dùng không gian con ngẫu nhiên thay vì một bộ và tổ hợp chúng
thành một luật quyết định mạnh. Chúng tôi cũng cung cấp các kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra
độ chính xác của phương pháp
Từ khóa: Tra cứu ảnh dựa vào nội dung, khơng gian con, máy véc tơ hỗ trợ, phản hồi liên quan, quá khớp.

I. GIỚI THIỆU
Trong những thập kỷ vừa qua, tra cứu ảnh dựa vào nội dung (CBIR) đã thu hút nhiều sự quan tâm của nhiều nhà
nghiên cứu [1, 2, 6, 7]. Các hệ thống CBIR truyền thống thường đo độ tương tự giữa ảnh truy vấn và các ảnh trong cơ
sở dữ liệu bằng cách đo độ đo khoảng cách trong một không gian nhiều chiều [1, 2, 6, 7]. Tuy nhiên, bằng cách đo độ
đo khoảng cách này trong không gian nhiều chiều thường không hiệu quả do khoảng trống giữa các đặc trưng mức thấp
và các khái niệm ngữ nghĩa mức cao.
Để thu hẹp khoảng trống ngữ nghĩa, các máy tính phải có khả năng học các đặc trưng mà mô tả tốt nhất các bức
ảnh trong suy nghĩ của người dùng trực tuyến; và kỹ thuật phản hồi liên quan được giới thiệu như một công cụ mạnh

để tăng cường hiệu năng của CBIR [10, 13]. Huang và cộng sự đã giới thiệu cả hai kỹ thuật đánh lại trọng số và dịch
chuyển điểm truy vấn [8, 12]. Một ánh xạ tự tổ chức được sử dụng để xây dựng các thuật toán RF [4]. Trong [11], máy
véc tơ hỗ trợ (SVM) một lớp đánh giá mật độ của các mẫu phản hồi tích cực. Tuy nhiên, tất cả các phương pháp này có
một số giới hạn. Chẳng hạn, phương pháp trong [8] và [12] được dựa vào kinh nghiệm, phương pháp ước lượng mật độ
trong [11] bỏ qua mọi thông tin chứa trong các mẫu phản hồi tiêu cực. Tuy nhiên, RF rất khác so với bài tốn phân lớp
truyền thống bởi vì các phản hồi được cung cấp bởi người dùng thường bị giới hạn trong các hệ thống tra cứu ảnh thực.
Do đó, các phương pháp học mẫu nhỏ là hứa hẹn cho RF.
Khi dữ liệu có chiều cao và cỡ của mẫu huấn luyện là nhỏ so với chiều của dữ liệu, nó khó có thể xây dựng một
bộ phân lớp tốt. Thông thường, một bộ phân lớp được xây dựng trên các tập dữ liệu huấn luyện nhỏ sẽ bị lệch và có có
sai số lớn do các tham số phân lớp bị ước lượng nghèo nàn. Do đó, một bộ phân lớp như thế có thể là yếu, có một hiệu
năng nghèo [9]. Hơn nữa, thường nó sẽ khơng ổn định: các thay đổi nhỏ trong tập huấn luyện gây ra các thay đổi lớn
trong bộ phân lớp. Nói chung, hiệu năng thấp của một bộ phân lớp có thể do các nhân tố khác nhau: các giả thiết về mơ
hình khơng chính xác khi xây dựng bộ phân lớp; các thiết lập cho các tham số phân lớp khơng chính xác; khơng ổn
định của bộ phân lớp; các bộ phân lớp phụ thuộc vào các mơ hình được giả thiết nào đó khơng ln đúng. Tuy nhiên,
trong tất cả các trường hợp khi có ý định cải tiến một “bộ phân lớp yếu”, người ta thường cải tiến hiệu năng của nó. Do
đó, mơ tả một “bộ phân lớp yếu” như một bộ phân lớp mà có một hiệu năng nghèo nàn dường như là một định nghĩa
chung nhất.
Để cải tiến một bộ phân lớp yếu (một bộ phân lớp mà có hiệu năng nghèo), người ta có thể sử dụng các cách
tiếp cận khác nhau. Một cách là ổn định sự quyết định của một bộ phân lớp yếu (do bộ phân lớp yếu thường không ổn
định) theo quy tắc (regularisation) [5] hoặc tiêm nhiều (noise injection) [3]. Cách tiếp cận khác là xây dựng nhiều bộ
phân lớp yếu thay vì một bộ và tổ hợp chúng thành một luật quyết định mạnh. Chúng tơi sẽ trình bày phương pháp tra
cứu ảnh mà kết hợp không gian con ngẫu nhiên và máy véc tơ hỗ trợ tạo ra nhiều bộ phân lớp yếu cùng một luật quyết
định mạnh cho phép nâng cao độ chính xác hệ thống tra cứu ảnh.
Phần còn lại bài báo này được tổ chức như sau: Trong phần II, chúng tơi trình bày phương pháp tra cứu ảnh đề
xuất. Phần III mô tả các thực nghiệm độ chính xác của chúng tơi và thảo luận các kết quả. Cuối cùng, chúng tôi đưa ra
kết luận trong phần IV.

Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh

73

II. PHƢƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT
Trong phần này, đầu tiên chúng tơi trình bày cách đo độ khác nhau giữa một mẫu được cho và ảnh truy vấn
trong phản hồi liên quan dựa vào máy véc tơ hỗ trợ truyền thống. Sau đó, trình bày chi tiết phương pháp đề xuất kết
hợp các bộ phân lớp với không gian con ngẫu nhiên cùng sơ đồ của phương pháp.
1. Máy véc tơ hỗ trợ
Đối với tập dữ liệu huấn luyện D ={
}, là véc tơ đặc trưng trong không gian
, m là số chiều
của không gian, cùng các nhãn tương ứng của chúng
,
.
Khoảng cách từ một điểm tới một siêu mặt phẳng. Trong không gian 2 chiều, ta biết rằng khoảng cách từ một điểm có
toạ độ

tới đường thẳng có phương trình

được xác định bởi:

Việc này có thể được tổng quát lên không gian nhiều chiều: Khoảng cách từ một điểm (vector) tới siêu mặt
phẳng (hyperplane) có phương trình

được xác định bởi:

SVM (Support Vector Machines) [2, 4] là một thuật toán phân lớp nhị phân rất hiệu quả. Xét bài toán phân lớp
nhị phân tách được tuyến tính (như Hình 1):

Hình 1. SVM cho bài tốn phân lớp nhị phân tách được tuyến tính.

và
ở đây

là một véc tơ n chiều và

(1)

là nhãn của lớp mà véc tơ thuộc về. SVM tách hai lớp bởi một siêu phẳng,

(2)
ở đây x là một véc tơ đầu vào, w là một véc tơ trọng số thích nghi, và b là độ lệch. SVM tìm các tham số w và b cho
siêu phẳng tối ưu để cực đại lề hình học

, thỏa mãn

(3)
Nghiệm có thể tìm được thơng qua bài tốn đối ngẫu Lagrangian:
(4)
S.t

,

Trong dạng đối ngẫu, các điểm dữ liệu chỉ xuất hiện dưới dạng tích vơ hướng. Để nhận được biểu diễn dữ liệu
tốt hơn, các điểm dữ liệu được ánh xạ sang một khơng gian tích vơ hướng Hilbert thông qua một phép thế:
(5)
ở đây K(.) là một hàm nhân. Sau đó chúng ta nhận được phiên bản nhân của bài tốn đối ngẫu Wolfe:
(6)
Do đó, với một hàm nhân được cho, bộ phân lớp SVM được cho bởi

CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN

74

(7)
ở đây

là hàm quyết định siêu phẳng đầu ra của SVM.

Nhìn chung, khi
với một mẫu đã cho là cao, giá trị dự đoán tương ứng sẽ cao. Trong khi, một
của
một mẫu được cho là thấp có nghĩa rằng mẫu gần với biên quyết định và giá trị dự đốn tương ứng của nó sẽ là thấp.
Do đó, đầu ra của SVM,
, được sử dụng để đo độ khác nhau [3,5] giữa một mẫu được cho và ảnh truy vấn, trong
phản hồi liên quan dựa vào SVM truyền thống. Điều này làm cho SVM có thể giúp sinh ra các trọng số ưa thích tự
động cho các ảnh liên quan. Các mẫu tích cực càng xa siêu phẳng tách, càng phân biệt so với các mẫu tiêu cực. Do đó,
các ảnh được người dùng ưa thích sẽ được gán các trọng số lớn hơn
2. Thuật tốn kết hợp các bộ phân lớp với khơng gian con ngẫu nhiên.
Phương pháp không gian con ngẫu nhiên là kỹ thuật kết hợp được đề xuất bởi Ho [9]. Phương không gian con
ngẫu nhiên điều chỉnh dữ liệu huấn luyện trong không gian đặc trưng. Giả sử mỗi ví dụ huấn luyện trong tập ví dụ
huấn luyện
là một véc tơ gồm p chiều, tức là
. Phương pháp lựa chọn ngẫu
nhiên r đặc trưng (rkhông gian đặc trưng p chiều ban đầu. Vì thế, tập huấn luyện được điều chỉnh
gồm các ví dụ huấn
luyện r chiều
với (i=1,...n), ở đây r thành phần được lựa chọn ngẫu nhiên từ p thành phần của
véc tơ huấn luyện (cùng một cách lựa chọn cho mỗi véc tơ huấn luyện). Sau đó, phương pháp xây dựng các bộ phân

lớp trong các không gian con ngẫu nhiên
và kết hợp chúng theo luật bầu cử số đông trong luật quyết định cuối
cùng. Dưới đây là thuật tốn phân lớp sử dụng khơng gian con ngẫu nhiên:
Thuật tốn ClassificationUseRandomSubspace
Input:
- Tập ví dụ huấn luyện
- Số chiều r
- Số không gian con ngẫu nhiên K
- Bộ phân lớp SVM
- Mẫu cần phân lớp x

với p chiều

Ouput:
- Nhãn và trọng số của mẫu x
1. For k=1,....K do
1.1 Lựa chọn một không gian con ngẫu nhiên r chiều
từ không gian đặc trưng p chiều ban đầu X.
1.2 Xây dựng một bộ phân lớp
trong
2. Kết hợp các bộ phân lớp
, k=1,....K, theo bầu cử số đông với một luật quyết định:

ở đây
và

là một nhãn lớp của bộ phân lớp.
Hình 2. Thuật tốn phân lớp sử dụng khơng gian con ngẫu nhiên

Phương pháp khơng gian con ngẫu nhiên có thể có ích từ các khơng gian ngẫu nhiên cho cả xây dựng và tích lũy

các bộ phân lớp. Khi số các đối tượng huấn luyện là tương đối nhỏ so với chiều dữ liệu, bằng việc xây dựng các bộ phân
lớp trong các khơng gian con ngẫu nhiên có thể giải quyết được vấn đề cỡ mẫu nhỏ. Chiều của không gian con ngẫu nhiên
nhỏ hơn không gian đặc trưng ban đầu, trong khi số các đối tượng huấn luyện cịn lại là như nhau. Do đó, cỡ mẫu huấn
luyện tăng lên. Khi dữ liệu có nhiều đặc trưng dư thừa, nó có thể thu được các bộ phân lớp tốt hơn trong các không gian
con ngẫu nhiên hơn là trong không gian đặc trưng gốc. Quyết định tổ hợp của nhiều bộ phân lớp như thế có thể giải quyết
tốt hơn một bộ phân lớp được xây dựng trên tập huấn luyện gốc trong không gian đặc trưng đầy đủ.
Như vậy, đến đây, chúng ta đã kết hợp thông qua nhiều bộ phân lớp không gian con ngẫu nhiêu thông qua tập
mẫu huấn luyện thu được từ thông tin phản hồi của người dùng qua thuật tốn ClassificationUseRandomSubspace. Do
đó, chúng ta có thể xây dựng được thuật tốn tra cứu ảnh để thực hiện tra cứu ảnh.
Hình 3 mơ tả thuật toán tra cứu ảnh phản hồi liên quan RFRS:
Thuật toán RFRS
Input: - Q Ảnh truy vấn
- NTopL Số lượng ảnh
-DB Tập các ảnh cơ sở dữ liệu
- r Số chiều
- K Số không gian con ngẫu nhiên
Ouput: -D Tập ảnh kết quả

Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh

75

D ← RetrievalTop (Q, NTopL , DB);
do {
D+ ← MarkRelevance(D);
← SetLabel(D+, 1);
D ← MarkIrrelevance(D);
← SetLabel (D-, -1);
+

X←D
D ;
Xlabel ←
;
for i 1 to DB.Count do
label,
weight> ← ClassificationUseRandomSubspace (X, X
label,
label
D ← Ranking(DB , DBweight, NTopL);
}
while (thỏa mãn nhu cầu người dùng);

, r, K);

Hình 3. Thuật tốn tra cứu ảnh RFRS

Thuật tốn RFRS trên Hình 3 đƣợc thực hiện nhƣ sau:
Đầu tiên, khi người dùng gửi vào một truy vấn trên giao diện truy vấn bởi mẫu, thuật toán sẽ lấy được tập ảnh D
gồm NTopL ảnh đầu tiên được phân hạng đầu tiên trong toàn bộ cơ sở dữ liệu DB thông qua hàm RetrievalTop(). Bước
tiếp được lặp lại cho đến khi người dùng thu được tập D thỏa mãn nhu cầu. Nếu chưa thỏa mãn, các ảnh trong tập D sẽ
được người dùng gán nhãn lựa chọn ảnh nào liên quan mang nhãn +1, không liên quan mang nhãn -1 thơng qua các
hàm MarkRelevance, MarkIrrelevance và SetLabel. Thuật tốn sẽ gộp cả hai tập liên quan và không liên quan này
thu được tập huấn luyện X cùng nhãn tương ứng Xlabel. Đến lúc này thuật toán sẽ kết hợp nhiều bộ phân lớp sử dụng K
không gian con ngẫu nhiên với r chiều của tập mẫu huấn luyện X để dự đốn nhãn và tính tốn trọng số của từng ảnh
trong cơ sở dữ liệu DB. Các ảnh trong cơ sở dữ liệu sau đó được phân hạng dựa vào nhãn cùng trọng số đã được tính
tốn trước đó thông qua hàm ClassificationUseRandomSubspace để lấy ra NTopL ảnh đầu tiên sau khi phân hạng.
Quá trình tra cứu ảnh đề xuất được mơ hình hóa như sơ đồ Hình 4
Tra cứu khởi tạo

Tập kết quả tra cứu khởi tạo

Tập phản hồi

Tập huấn luyện
phản
hồi

Không gian con ngẫu
nhiên 1

Không gian con ngẫu
nhiên 2

Không gian con ngẫu
nhiên K

Bộ phân lớp SVM 1

Bộ phân lớp SVM 2

Bộ phân lớp SVM K

Tổ hợp các bộ phân lớp thành luật
quyết định
Tra cứu ảnh theo luật quyết định mạnh

Tập kết quả

Tập kết quả cuối cùng

Hình 4. Sơ đồ của phương pháp tra cứu ảnh kết hợp không gian con ngẫu nhiên với SVM

Sơ đồ trên Hình 4 hoạt động như sau: Đầu tiên người dùng đưa vào một ảnh truy vấn, hệ thống sẽ so sánh đặc
trưng của ảnh truy vấn với đặc trưng tương ứng của mỗi ảnh trong cơ sở dữ liệu để trả lại một tập các ảnh kết quả (gọi

76

CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN

là tập kết quả tra cứu khởi tạo). Trên tập kết quả khởi tạo, người dùng sẽ gán nhãn các ảnh là tích cực hay tiêu cực. Sau
khi phản hồi của người dùng, chúng ta sẽ có một tập các ví dụ huấn luyện. Để khắc phục sự quá khớp, chúng ta dùng K
không gian con ngẫu nhiên. Với mỗi không gian trong K không gian con ngẫu nhiên, chúng ta xây dựng một bộ phân
lớp. Tiếp theo, dựa trên các bộ phân lớp đã có, chúng ta có tổ hợp các bộ phân lớp. Sau đó, chúng ta thực hiện tra cứu
ảnh với tổ hợp các bộ phân lớp theo nguyên tắc bầu cử để được tập các kết quả. Quá trình này được lặp lại cho đến khi
người dùng dừng phản hồi. Chúng ta có một tập ảnh kết quả cuối cùng.
III. ĐÁNH GIÁ THỰC NGHIỆM
A. Môi trường thực nghiệm
1. Cơ sở dữ liệu ảnh:
Trong thực nghiệm, chúng tôi sử dụng tập dữ liệu ảnh màu là tập con của tập Corel gồm 10800 ảnh để đánh giá
độ chính xác của phương pháp đề xuất. Các ảnh này được chia làm 80 chủ đề khác nhau như ngựa, hoa, hồng hơn, tàu
hỏa, xe hơi, xe buýt. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật. Đa số mỗi
nhóm đều gồm 100 ảnh, có một vài nhóm có hơn 100 hình ảnh. Cỡ của các ảnh có max (chiều rộng, chiều cao)=120 và
min (chiều rộng, chiều cao)=80
2. Véc tơ đặc trưng:
Đặc trưng chúng tôi sử dụng gồm hai loại đặc trưng: đặc trưng màu và kết cấu (xem chi tiết Bảng 1).
Bảng 1. Các loại đặc trưng

Các loại đặc trƣng
Loại đặc trưng

màu
Loại đặc trưng kết
cấu

Lược đồ màu
Tương quan màu
Mô men màu
Biến đổi wavelet
gabor Wavelet

Tên đặc trƣng
hsvHistogram
color auto correlogram
colorMoments
waveletTransform
gaborWavelet

Độ dài
32
64
6
40
48

Đối với đặc trưng màu chúng tơi trích rút 03 loại đặc trưng màu: đặc trưng màu đầu tiên là đặc trưng lược đồ
màu HSV được tính, trong đó kênh hue được lượng hóa thành 8 bin, cả hai kênh S và V đều được lượng hóa thành 2
bin do đó đặc trưng này có độ dài 32 chiều (8x2x2). Đặc trưng tiếp theo được chúng tơi trích rút là đặc trưng tương
quan màu có độ dài 64 chiều (4x4x4) trong khơng gian RGB. Đặc trưng cuối cùng là đặc trưng mô men màu trong
khơng gian RGB, trong đó gồm 2 mơ men: trung bình màu, độ lệch chuẩn trên mỗi kênh màu, do đó có độ dài 6 chiều
(2x3).

Đặc trưng kết cấu chúng tơi trích rút hai loại đặc trưng gồm: đặc trưng Gabor và đặc trưng biến đổi wavelet.
Đầu tiên, đặc trưng biến đổi wavelet có độ dài 40 chiều (2x20) gồm hai gắn kết trung bình, độ lệch chuẩn.. Cuối cùng,
đặc trưng kết cấu Gabor với độ dài 48 chiều (2x4x6) được trích rút gồm 4 tỷ lệ, 6 hướng với Mean-squared energy và
meanAmplitude sau khi chuyển ảnh thành ảnh đa cấp xám.
Kết hợp các loại đặc trưng trên thành một véc tơ đặc trưng có độ dài 190 chiều (tức là 32+64+6+48+40 = 190).
3. Biểu diễn ảnh:
Mỗi ảnh được sử dụng biểu diễn bởi năm đặc trưng trực quan gồm ba đặc trưng màu và hai đặc trưng kết cấu.
Các véc tơ đặc trưng tương ứng với mỗi kênh là một bảng hai chiều gồm 10800 dòng (mỗi dòng chứa một véc tơ đặc
trưng của ảnh) và 190 cột (độ dài tổng của một véc tơ đặc trưng).
4. Tập tin cậy nền (ground truth):
Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại
Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 3
cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1981320 dịng.
B. Chiến lược mơ phỏng phản hồi liên quan
Để bắt chước hành vi của con người, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu
tiên, một truy vấn khởi tạo sẽ được thực hiện để tạo ra kết quả truy vấn khởi tạo đồng thời tính tốn độ chính xác thu
được với phương thức tra cứu ảnh truyền thống Basic IR. Tiếp theo chúng tôi mô phỏng tương tác người dùng bằng
việc chọn 100 ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền. Lúc này chúng tôi chọn các ảnh liên
quan trong 100 ảnh đó cũng dựa vào tập tin cậy nền nghĩa là chúng có cùng khái niệm ngữ nghĩa với ảnh truy vấn hay
khơng? Sau đó hai tập ảnh liên quan và không liên quan được tạo ra: các ảnh được chọn mang nhãn +1 còn những ảnh
còn lại sẽ được gán nhãn -1. Hai tập ảnh này được chúng tôi sử dụng làm tập huấn luyện. Số không gian con ngẫu
nhiên được sử dụng đối với tập mẫu huấn luyện trong thực nghiệm là 15 (K = 15) với 143 chiều (r = 143).

Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh

77

Tập ảnh kết quả thu được sau khi lấy 100 ảnh được phân hạng đầu tiên theo nhãn và trọng số của mỗi ảnh trong
cơ sở dữ liệu được tính tốn thơng quan kết hợp 15 bộ phân lớp sử dụng không gian con ngẫu nhiên với 143 chiều theo

luật quyết định mạnh. Chúng tơi tính tốn kết quả độ chính xác tra cứu ảnh với phương pháp đề xuất RFRS, đồng thời
độ chính xác phương pháp RFSVM cũng được tính tốn khi thực hiện huấn luyện tập mẫu huấn luyện ban đầu thông
qua bộ phân lớp SVM hai lớp và phân hạng các ảnh trong cơ sở dữ liệu theo biên quyết định thi được sau khi huấn
luyện.
Tất cả 10800 ảnh trong tập ảnh được dùng làm các truy vấn. Độ chính xác trung bình ở mức 100 ảnh trả về được
sử dụng để đánh giá. Ba phương pháp khác nhau được sử dụng để so sánh bao gồm Basic IR (hệ thống CBIR truyền
thống), RFSVM, với hệ thống RFRS mà chúng tơi đề xuất
Có nhiều chỉ số đánh giá khác nhau được đề xuất để đánh giá hiệu quả của các hệ thống CBIR, chúng tôi sử
dụng độ đo cơ bản là độ chính xác (thực nghiệm là 100 ảnh trả về). Các kết quả, độ chính xác trung bình của 10800
truy vấn, được thể hiện bằng số liệu trong Bảng 2 và bằng đồ thị trong Hình 5 ở dưới. Do giới hạn về khơng gian bài
báo, chúng tơi chỉ trình bày trong bài báo này độ chính xác trung bình của từng phương pháp cịn chi tiết về độ chính
xác trung bình của từng 80 loại truy vấn xem tại địa chỉ http://117.6.134.238:368/results/RFRS.html
Bảng 2. Bảng kết quả của 3 phương pháp

Phƣơng pháp

Basic IR

RFSVM

Precision (%)

18.87

32.59

RFRS
32.97

Hình 5. So sánh độ chính xác

Nhìn vào kết quả thực nghiệm trên Hình 5 chúng tơi có thể đưa ra các kết luận: Độ chính xác của phương pháp
đề xuất tăng thêm 14.1% so với phương pháp tra cứu truyền thống. Độ chính xác phương pháp chúng tơi cũng tăng
đáng kể 0.38% so với độ chính xác khi chỉ phân lớp trên kết quả của tra cứu truyền thống.
IV. KẾT LUẬN
Chúng tôi đã đề xuất phương pháp tra cứu ảnh dựa vào nội dung cho cải tiến độ chính xác tra cứu của các hệ
thống tra cứu phản hồi liên quan sử dụng SVM truyền thống. Phương pháp của chúng tơi quan tâm đến việc q khớp
trong q trình huấn luyện làm cho hiệu quả của hệ thống thấp. Để giải quyết vấn đề này, chúng tôi tạo ra nhiều bộ
phân lớp sử dụng các không gian con ngẫu nhiên khác nhau để huấn luyện với tập mẫu thu được từ thông tin phản hồi
của người dùng tại mỗi lần lặp. Trên cơ sở giải quyết vấn đề quá khớp, phương pháp của chúng tôi tổ hợp kết quả của
các bộ phân lớp yếu thành một luật quyết định mạnh thu được tập ảnh kết quả có liên quan ngữ nghĩa với ảnh truy vấn.
Kết quả thực nghiệm của chúng tôi trên cơ sở dữ liệu đặc trưng gồm 10800 ảnh đã chỉ ra rằng phương pháp
được đề xuất RFRS cung cấp một độ chính xác cao hơn hẳn so với các phương pháp Basic IR (hệ thống CBIR truyền
thống), RFSVM
V. TÀI LIỆU THAM KHẢO
[1] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain, “Content-based image retrieval at the end of
the early years,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pp. 1349 -1380,
Dec. 2000.

78

CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN

[2] D. Tao, X. Tang, X. Li, and Y. Rui, “Direct kernel biased discriminant analysis: a new content-based image
retrieval relevance feedback algorithm,” IEEE Transactions on Multimedia, vol. 8, no. 4, pp. 716 -727, 2006.
[3] G. An, “The effects of adding noise during backpropagation training on a generalization performance”, Neural
Computation 1996; 8: 643-674.
[4] J. Laaksonen, M. Koskela, and E. Oja, “PicSOM: Self-organizing maps for content-based image retrieval”, inProc.
IJCNN, Washington, DC, 1999, pp. 2470-2473.
[5] JH. Friedman, “Regularized discriminant analysis”. J Am Statistical Assoc 1989; 84: 165-175.

[6] L. Shao, F. Zhu, and X. Li, “Transfer learning for visual categorization: A survey,” IEEE Transactions on Neural
Networks and Learning Systems, vol. 26, no. 5, pp. 1019-1034, May 2015.
[7] R. Datta, D. Joshi, J. Li, and J. Z. Wang, “Image retrieval: ideas, influences, and trends of the new age,” ACM
Computing Surveys, vol. 40, no. 2, pp. 1-60, May 2008.
[8] T. S. Huang and X. S. Zhou, “Image retrieval by relevance feedback: From heuristic weight adjustment to optimal
learning methods,” in Proc. IEEE ICIP, Thessaloniki, Greece, Oct. 2001, pp. 2-5.
[9] T. K. Ho, “The Random subspace method for constructing decision forests”, IEEE Trans Pattern Analysis and
Machine Intelligence 1998; 20(8): 832-844.
[10] X. Zhou and T. Huang, “Relevance feedback for image retrieval: A comprehensive review,”Multimedia Syst., vol.
8, no. 6, pp. 536-544, Apr. 2003.
[11] Y. Chen, X.-S. Zhou, and T.-S. Huang, “One-class SVM for learning in image retrieval,” inProc. IEEE ICIP,
2001, pp. 815-818.
[12] Y. Rui, T. S. Huang, and S. Mehrotra, “Content-based image retrieval with relevance feedback in MARS”, inProc.
IEEE Int. Conf. Image Process, 1997, vol. 2, pp. 815-818.
[13] Y. Rui, T.S. Huang, Ortega M and Mehrotra S. "Relevance feedback: A power tool in interactive contentbased
image retrieval". IEEE Tran. Circuits and Systems for Video Tech. 8(5): 644-655, Sep. 1998.

IMPROVED IMAGE RETRIEVAL THROUGH A COMBINATION OF RANDOM
SUBSPACE CLASSIFIERS
Cu Viet Dung, Nguyen Huu Quynh, An Hong Son, Dao Thi Thuy Quynh
ABSTRACT: There have been many methods image retrieval with relevance feedback using Support Vector Machines SVM.
However, these methods have not interested to overfitting with feedback examples so low accuracy. In this paper, we propose an
effective image retrieval with relevance feedback method, called RFRS(Image retrieval using relevance feedback with random
subspace), which improves the accuracy of image retrieval systems through solving the problem overfitting. Our method is to build
multiple SVM classifiers use of random space instead of one, and combine them into a strong decision rule. We also provided
empirical results on a database of 10,800 images to show the accuracy of the method
Keywords: Content based image retrieval, subspace, Support Vector Machines, relevance feedback, overfitting.

Cải tiến tra cứu ảnh thông qua kết hợp các bộ phân lớp không gian con ngẫu nhiên

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về