TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
_______________________________
BÀI TẬP LỚN
CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Đề tài:
TÌM HIỂU CHUYỂN NGỮ NGHĨA BỐI CẢNH TRÊN NGUỒN KHÔNG
ĐỒNG NHẤT CHO TÌM KIẾM VIDEO TƯƠNG ỨNG
Sinh viên thực hiện:
Trịnh Xuân Hinh
Trần Hậu Tin
Phạm Văn Thành
Nhóm 5
Lớp KHMT1-K4
Giảng viên hướng dẫn: Ths. Nguyễn Hương Lan
Hà Nội, 5/2013
MỤC LỤC
LỜI NÓI ĐẦU
Tìm kiếm video tự động dựa trên phát hiện khái niệm ngữ nghĩa gần đây đã nhận
được sự chú ý đáng kể. Vì số lượng các máy dò có sẵn là nhỏ hơn so với kích thước
của ngôn ngữ con người nhiều, một trong những thách thức lớn là lựa chọn thích
hợp để phát hiện các truy vấn người dùng phản ứng. Trong bài báo này, chúng tôi
đề xuất một phương pháp mới đó thúc đẩy nguồn tri thức không đồng nhất cho
miền tìm kiếm video thích nghi. Đầu tiên, thay vì sử dụng WordNet như công trình
hiện có hầu hết, chúng ta khai thác các thông tin ngữ cảnh kết hợp với hình ảnh
Flickr để ước lượng truy vấn tương tự phát hiện. Kết quả đo đạc, tên Flickr bối cảnh
tương tự (FCS), phản ánh số liệu thống kê xuất hiện đồng thời của các từ trong bối
cảnh hình ảnh hơn là ngữ liệu văn bản. Bắt đầu từ một máy dò ban đầu thiết lập
được xác định bởi FCS, cách tiếp cận của chúng tôi novelly chuyển bối cảnh ngữ
nghĩa học được từ miền thử nghiệm dữ liệu để thích nghi tinh chỉnh các truy vấn
tương tự máy dò. Bối cảnh ngữ nghĩa xuyên fer quá trình cung cấp một phương tiện
hiệu quả để đối phó với sự thay đổi miền giữa nguồn kiến thức bên ngoài (ví dụ,
Flickr ngữ cảnh) và dữ liệu thử nghiệm, mà là một vấn đề quan trọng trong tìm
kiếm video. Với sự hiểu biết của chúng tôi, công việc này đại diện cho nghiên cứu
đầu tiên nhằm giải quyết những vấn đề thách thức của sự thay đổi tên miền trong
tìm kiếm video. Thí nghiệm rộng rãi trên 120 truy vấn văn bản trên TRECVID
2005-2008 tập hợp dữ liệu chứng minh tính hiệu quả của chuyển bối cảnh ngữ
nghĩa cho miền tìm kiếm video thích nghi. Kết quả cũng cho thấy FCS là phù hợp
để đo truy vấn tương tự dò, sản xuất hiệu suất tốt hơn để các biện pháp phổ biến
khác.
Trang 3
I.
GIỚI THIỆU
Thúc đẩy bởi số lượng ngày càng tăng của video tích lũy từ một loạt các ứng
dụng, có một nhu cầu phát triển hệ thống tự động để tìm kiếm nội dung có
hiệu quả và hiệu quả. Khác nhau từ các tài liệu văn bản, trong đó từ những
thực thể tự nhiên để tìm kiếm ngữ nghĩa, một đoạn video có thể truyền đạt ý
nghĩa ngữ nghĩa hỗn hợp đó là khó khăn cho máy tính để nhận ra, ví dụ, có
một khoảng cách ngữ nghĩa cũng được biết đến giữa các tính năng cấp thấp
tính toán và ngữ nghĩa mức độ cao. Tiến bộ gần đây trong nghiên cứu đa
phương tiện đã cho thấy sự tiến bộ đáng khích lệ trong việc sử dụng một tập
hợp các mô tả trung gian, phát hiện khái niệm cụ thể là ngữ nghĩa, thu hẹp
khoảng cách ngữ nghĩa. Các máy dò là phân loại tự động chỉ mục nội dung
video với khái niệm ngữ nghĩa chung chung, chẳng hạn như cây và nước.
Việc lập chỉ mục của các khái niệm này cho phép người dùng truy cập vào
một cơ sở dữ liệu video bằng cách truy vấn văn bản. Trong quá trình tìm
kiếm, video clip có nhiều khả năng chứa các khái niệm ngữ nghĩa liên quan
đến các từ truy vấn được trả về cho người sử dụng. Kịch bản hồi video này
được gọi chung là dựa trên khái niệm
tìm kiếm video.
Tuy nhiên, do thiếu đào tạo tay dán nhãn mẫu và giới hạn các nguồn tài
nguyên tính toán,số lượng phát hiện khái niệm có sẵn cho đến nay vẫn còn
trong quy mô của hàng trăm, mà là nhỏ hơn nhiều so với kích thước của
ngôn ngữ con người. Vì vậy, một trong những vấn đề mở là cơ sở phương
pháp tìm kiếm này là sự lựa chọn của máy dò thích hợp cho các truy vấn, đặc
biệt là khi kết hợp trực tiếp từ thất bại. Ví dụ, cho một truy vấn tìm thấy bức
ảnh của một cái gì đó đốt cháy với ngọn lửa có thể nhìn thấy, cháy nổ và
khói có thể là phát hiện phù hợp. Đặc biệt, tìm kiếm video quy mô lớn mà
các thể loại dữ liệu thử nghiệm có thể thay đổi thời gian, mục tiêu đặc điểm
dữ liệu tên miền cần được xem xét trong quá trình lựa chọn dò. Ví dụ, một
máy dò quân đội có thể liên quan nhiều đến một truy tìm thấy những ảnh
phương tiện trong việc tìm kiếm tin tức phát sóng lưu trữ video do nhiều sự
kiện tin tức về cuộc chiến tranh (và do đó video hiển thị xe quân sự) ở Trung
Đông,, nhưng các mối quan hệ có thể không giữ trong video tài liệu. Điều
này mang lại một câu hỏi đầy thách thức: làm thế nào để thích nghi chọn dò
khái niệm dựa trên các dữ liệu tên miền mục tiêu? Bài viết này đề xuất một
phương pháp mới mà chuyển bối cảnh ngữ nghĩa giữa các nguồn không đồng
nhất cho miền tìm kiếm video tương ứng. Ở đây bối cảnh ngữ nghĩa có thể
là truy vấn máy dò tương tự hoặc dò từng cặp tương tự, suy ra từ các nguồn
kiến thức khác nhau. Khác nhau từ tác phẩm hiện có trong đó hầu hết các kỹ
Trang 4
thuật lý luận ngữ nghĩa dựa trên WordNet đã được sử dụng để lựa chọn máy
dò[27, 20, 19], chúng tôi khám phá thông tin ngữ cảnh gắn liền với hình ảnh
Flickr cho truy vấn máy dò tương tự ước lượng tốt hơn.
Hình 1: Kiến trúc hệ thống cho tên miền tìm kiếm video thích nghi, minh họa sử
dụng một truy vấn từ TRECVID 2007.Điểm giống nhau ngữ cảnh Flickr là thứ nhất
áp dụng cho chọn thiết lập máy dò liên quan, sau đó thích nghi hoàn thiện qua
chuyển bối cảnh ngữ nghĩa học từ miền dữ liệu mục tiêu. Năng suất tìm kiếm về mặt
chính xác trung bình trên top 10 ảnh chụp đoạn video được cải thiện 164% sau khi
thích ứng miền. Danh sách thứ hạng video chụp được được sắp xếp từ trái sang
phải và trên xuống dưới (false positives “khi một người dùng không có quyền truy
cập vẫn có thể truy cập vào được hệ thống thì được gọi là false positive” được
đánh dấu trong hộp màu đỏ)
Đo lường này, được đặt tên Flickr bối cảnh tương tự (FCS), là căn cứ trên số liệu
thống kê xuất hiện đồng thời của hai từ trong bối cảnh hình ảnh (ví dụ, thẻ, tiêu đề,
mô tả vv), mặc nhiên phản ánh đồng thời từ trong bối cảnh hình ảnh chứ không phải
là văn bản ngữ liệu. Lợi thế này của FCS cho phép một lựa chọn thích hợp hơn của
máy dò để tìm kiếm dữ liệu hình ảnh và video. Ví dụ, hai từ Cầu và Sân vận động
có sự liên quan ngữ nghĩa cao trong WordNet, vì cả hai đều rất gần với một xây
dựng tổ tiên chung trong hệ thống phân cấp WordNet. Tuy nhiên, khi người dùng
nâng mức truy vấn tìm bức ảnh của một cây cầu, sân vận động là rõ ràng không
phải là một phát hiện hữu ích vì nó hiếm khi xuất hiện với cây cầu trong hình ảnh /
video. Trong khi cho cùng một truy vấn, FCS có thể đề nghị một máy dò phù hợp
hơn Sông (x. Phần 3).
Để đối phó với sự thay đổi miền giữa nguồn kiến thức bên ngoài (ví dụ, Flickr ngữ
cảnh) và dữ liệu thử nghiệm, chúng tôi đề xuất một thuật toán mới mà hiệu quả lọc
ban đầu lựa chọn phát hiện dựa trên ngữ nghĩa bối cảnh học từ miền dữ liệu mục
Trang 5
tiêu. Chúng tôi xây dựng vấn đề này như một quá trình chuyển bối cảnh ngữ nghĩa
sử dụng kỹ thuật theo quy tắc đa dạng. Một nguyên tắc cơ bản của xây dựng của
chúng tôi là các máy dò lựa chọn phải phù hợp với mục tiêu đặc điểm dữ liệu tên
miền. Phương pháp của chúng tôi là rất chung chung theo nghĩa là nó có khả năng
học tập những kiến thức miền mục tiêu mà không cần bất kỳ dẫn chú thích thêm.
Hình 1 sử dụng một truy vấn từ TRECVID 2007 điểm chuẩn để minh hoạ thêm
thích ứng khung tìm kiếm video miền được đề xuất. Cho một truy vấn tìm thấy
những ảnh với một người đi bộ hoặc đi xe đạp, các máy dò khái niệm sau {xe đạp,
người, đi bộ, đi bộ Chạy, ngựa, chó, giao thông} bắt đầu được lựa chọn bởi FCS từ
một hồ bơi máy dò quy định tại LSCOM [18]. Mặc dù chúng tôi thấy rằng hầu hết
các máy dò được lựa chọn phù hợp, một vài trong số đó là không phù hợp với ý
nghĩa tổng thể của truy vấn này, chẳng hạn như ngựa và chó (được lựa chọn bởi
những lời truy vấn tương ứng cưỡi và đi bộ tương ứng). Thông qua chuyển ngữ
cảnh ngữ nghĩa tự động học được từ các dữ liệu thử nghiệm, phương pháp tiếp cận
của chúng tôi đảm bảo tính nhất quán ngữ nghĩa của các máy dò được lựa chọn.
Như thể hiện trong hình 1, nó loại bỏ thành công các khái niệm ngựa và chó, trong
khi đồng thời bổ sung thêm một phát hiện mới ban ngày ngoài trời vào các thiết lập
tinh tế bởi vì nó thường xuyên xuất hiện với hầu hết các khái niệm được lựa chọn
theo các thử nghiệm miền bối cảnh ngữ nghĩa. Quá trình thích ứng này được cải
thiện đáng kể hiệu suất tìm kiếm 164% về độ chính xác trung bình trong top 10 bức
ảnh phim được xếp hạng.
II.
CÔNG VIỆC LIÊN QUAN
Hệ thống tìm kiếm video truyền thống thường được chiết xuất tính năng cấp thấp
cho phù hợp với trực tiếp với người sử dụng truy vấn [26]. Cách tiếp cận này
thường xuyên phải đối mặt với những khó khăn trong việc xử lý các truy vấn ngữ
nghĩa do sự tồn tại của khoảng cách ngữ nghĩa.
Gần đây, dựa trên khái niệm tìm kiếm video đã được đề xuất bằng cách tổng hợp
một tập hợp các máy dò ngữ nghĩa trước khi được đào tạo để thu hẹp khoảng cách
ngữ nghĩa. Các khái niệm ngữ nghĩa bao gồm một loạt các chủ đề, chẳng hạn như
các đối tượng (ví dụ, ô tô và xe đạp), cảnh (ví dụ, núi và sa mạc), các sự kiện (ví dụ,
Hội nghị và giải trí lý) vv Các máy dò khái niệm có thể hoạt động hữu ích như ngữ
nghĩa các bộ lọc cho tìm kiếm video [27, 20, 29]. Một khuôn khổ tìm kiếm video
này liên quan đến hai nỗ lực quan trọng phát hiện khái niệm ẩn và lựa chọn trực
tuyến của các máy dò để tìm kiếm hiệu quả. Chung kỹ thuật phát hiện khái niệm đã
được nghiên cứu bởi nhiều nghiên cứu trong những năm gần đây [28, 12]. Để xác
định một tập hợp các khái niệm để phát hiện, nỗ lực hợp tác đã được gộp lại để
đánh giá tính hữu dụng, khả năng quan sát, và tính khả thi của khái niệm [18], dẫn
Trang 6
đến một quy mô lớn khái niệm bản luận cho đa phương tiện (LSCOM) trong đó bao
gồm một từ vựng của hơn 2000 khái niệm và chú thích của 449 khái niệm. Với
LSCOM, hai bộ phát hiện, Columbia374 [36] và VIREO-374 [12], đã được phát
hành, bao gồm cả tính năng cấp thấp, 374 phát hiện khái niệm (mô hình phân loại),
và điểm phát hiện trên TRECVID 2005, Äì2008 bộ dữ liệu. 374 khái niệm là một
tập hợp con của LSCOM với hơn 10 mẫu dương tính được chú thích. Ngoài ra, phát
hiện một thiết lập thường được sử dụng là MediaMill-101 [28], có-ing 101 phát
hiện khái niệm. Trên cơ sở bộ phát hiện, dựa trên khái niệm tìm kiếm video
được thực hiện thông qua các lựa chọn dò thích hợp để giải thích ngữ nghĩa truy
vấn. Việc lựa chọn có thể được thực hiện hoặc thông qua các văn bản phù hợp giữa
các từ truy vấn và tên khái niệm [27, 20], hoặc dựa trên điểm số phát hiện của các
máy dò để truy vấn ví dụ hình ảnh / video [4, 27, 29]. Chúng tôi chỉ tập trung vào
việc xem xét các lựa chọn dựa trên văn bản, vì thực tế nó sẽ là khá khó khăn cho
người sử dụng để có được những ví dụ cho các truy vấn của họ. Chúng tôi phân
chia rộng rãi công trình hiện có cho textbased truy vấn lập bản đồ dò thành hai loại
dựa trên nguồn kiến thức thông qua: 1) Mục đích chung bản thể học
[27, 20, 19, 30], 2) quy mô lớn Web ngữ liệu [20, 8]. Trước đây có giới hạn kiến
thức chuyên môn, trong khi sau này có tốt hơn vùng phủ sóng của nội dung, nhưng
nó cũng là ồn ào. Bản thể học lập bản đồ dựa trên là căn cứ trên mục đích chung
từ vựng như WordNet [6]. Thông qua việc sử dụng thông tin từ WordNet, ví dụ tần
số từ và cấu trúc phân cấp, một số kỹ thuật lập luận bản thể học đã được phát triển
để ước lượng Quan hệ ngôn ngữ của từ. Cho một truy vấn văn bản, các máy dò có
thể được chọn trực tuyến dựa trên họ hàng của chúng với những lời truy vấn. Cụ
thể, RES [24] trong đó sử dụng nội dung thông tin để đo lường Quan hệ từ được
thông qua trong [27, 20]. Ngoài ra, Lesk Quan hệ ngữ nghĩa [17] đã được sử dụng
trong [19] để lựa chọn phát hiện. Kỹ thuật lập bản đồ dựa trên bản thể học phổ biến
khác bao gồm Wu & Palmer (WUP) [34], và Jiang & Conrath (JCN) [10]. Với các
kỹ thuật lý luận bản thể học, một tác phẩm gần đây trong [30] xây dựng một không
gian vector, tên là bản thể học làm giàu không gian ngữ nghĩa (OSS), bằng cách
xem xét các cặp Quan hệ của các khái niệm. Trong cơ chế một cửa, cả hai từ truy
vấn và phát hiện khái niệm được biểu diễn như là vectơ, và đo lường Quan hệ suy
ra từ cơ chế một cửa có công đức của toàn cầu nhất quán. So với thông tin phong
phú có sẵn trên mạng, kiến thức trong WordNet có nguồn gốc từ nhỏ hơn nhiều và
lỗi thời corpora (ví dụ, nội dung thông tin được ước lượng từ điển Brown). Thiếu
sót lớn của corpora như vậy là phạm vi bảo hiểm thấp từ truy vấn phổ biến và ước
tính khả năng thiên vị của từ / khái niệm. tần số, kích thích nghiên cứu về khai thác
các cơ sở dữ liệu lớn nhất có sẵn trên trái đất. Trong [20], Neo và cộng sự mở rộng
các từ truy vấn sử dụng các bài báo internet để giải thích rõ hơn về ngữ nghĩa truy
vấn. Được mở rộng từ truy vấn này sau đó được sử dụng để lựa chọn phát hiện,
Trang 7
hoặc bằng cách phù hợp với văn bản trực tiếp hoặc dựa trên các kỹ thuật lý luận
ngữ nghĩa bản thể học. Một công việc gần đây hơn trong [8] cố gắng để ước tính nội
dung thông tin của các từ dựa trên hai trang web dựa trên corpora:
1) mẫu của các trang web mà đã được tải về sử dụng thuật ngữ trong WordNet như
các truy vấn;
2) tất cả các trang web lập chỉ mục của Google (khái niệm tần số ước tính hiệu quả
bằng cách truy cập trang Google).
Với các trang web dựa trên nội dung thông tin, lựa chọn khái niệm đã được thực
hiện sử dụng JCN [10] cho tìm kiếm video. Các công trình khác cho việc ước tính
quan hệ từ sử dụng thông tin từ các Web bao gồm khoảng cách Google bình
thường hóa (NGD) [5] và Flickr khoảng cách [33], mà đã không được thử nghiệm
trong bối cảnh về tìm kiếm video. Tương tự như [8], NGD cũng được sử dụng các
trang số truy cập được trả về bởi Google để ước tính quan hệ từ. Trong điểm cho
rằng tất cả các những phép đo này phổ biến đều được dựa trên tài liệu văn bản
và do đó có thể không phản ánh mối quan hệ xuất hiện đồng thời từ trong hình
ảnh / video, khoảng cách Flickr đã được đề xuất bằng cách đo tương tự hình ảnh
dựa trên các tính năng thị giác. Phương pháp này, mặc dù đầy hứa hẹn trong tiết
lộ xuất hiện đồng thời thị giác, là tính toán máy tính đắt tiền để ước tính Quan hệ
của cặp danh tất cả các từ truy vấn phổ biến mà một người sử dụng có thể sử
dụng. Trong bài báo này, như được mô tả trong phần tiếp theo, chúng tôi áp dụng
thông tin ngữ cảnh kết hợp với hình ảnh Flickr để đo Quan hệ từ, mà là hiệu quả
như NGD từ tìm kiếm web của Google và cũng phản ánh xuất hiện đồng thời hình
ảnh của các từ (x. Phần 5.2). Trong khi việc lựa chọn phát hiện đã được nghiên
cứu trong công trình khác nhau, vấn đề thay đổi tên miền trong tìm kiếm video
vẫn chưa được nghiên cứu đầy đủ. Trong cách tiếp cận hiện tại [27, 8, 19, 30], các
máy dò được chọn sẽ được áp dụng trực tiếp để đáp ứng một truy vấn mà không
xem xét dữ liệu đặc trưng của miền mục tiêu. Kể từ khi lựa chọn được thực hiện
dựa trên một trong hai bản thể học hoặc các nguồn web, thay đổi tên miền xảy ra
trong hầu hết các trường hợp trong tìm kiếm video. Trong bài báo này, chúng tôi
xem xét vấn đề đầy thách thức này thông qua các lựa chọn thích ứng phát hiện
dựa trên bối cảnh học ngữ nghĩa từ miền mục tiêu. Như một thực tế để nhận ra
tầm quan trọng của việc đối phó với thay đổi dữ liệu tên miền, có nhiều cách tiếp
cận miền truyền học phát triển trong máy học tập cộng đồng [2, 23] và lĩnh vực
ứng dụng khác nhau, chẳng hạn như phân loại văn bản [35], xử lý ngôn ngữ tự
nhiên [ 9], và gần đây nhất, ngữ nghĩa khái niệm phát hiện [37, 11]. Khác với
những tác phẩm được tất cả các thiết kế cho nhiệm vụ phân loại, phương pháp
Trang 8
tiếp cận của chúng tôi nhằm mục đích thích ứng với sự giống nhau truy vấn phát
hiện, không mô hình phân loại, cho tên miền tìm kiếm video thích nghi.
III.
FLICK BỐI CẢNH TƯƠNG TỰ( FCS):
Việc thực hành ngày càng tăng của chia sẻ hình ảnh trực tuyến đã dẫn đến
một số lượng lớn các hình ảnh người tiêu dùng có thể truy cập trực tuyến.
Ngoài các nội dung hình ảnh phong phú, một khía cạnh hấp dẫn của các hoạt
động chia sẻ hình ảnh như vậy là thông tin ngữ cảnh được tạo ra bởi người
sử dụng để mô tả các bức ảnh. Như thể hiện trong hình 2 (a), các thông tin
ngữ cảnh phong phú bao gồm tiêu đề, thẻ, mô tả và bình luận, mà đã được sử
dụng cho các ứng dụng khác nhau, chẳng hạn như biểu tượng của thế hệ hình
ảnh [16], từ khóa định hướng [32] ảnh, và dựa trên địa điểm tổ chức [1].
Trong phần này, chúng tôi khám phá thông tin bối cảnh như vậy để đo lường
tương tự từ, nhằm phản ánh của họ
Hình 2: (a) thông tin ngữ cảnh phong phú kết hợp với một hình ảnh Flickr. (b) Tổng
số hình ảnh quay trở lại sử dụng từ khóa tìm kiếm dựa trên trong bối cảnh hình ảnh
Flickr.
thống kê xuất hiện đồng thời trong dữ liệu hình ảnh chứ không phải là corpora văn
bản được sử dụng trong [27, 20, 19, 8, 5]. Với hai từ, chúng tôi tính toán họ hàng
của chúng dựa trên số lượng hình ảnh Flickr liên kết với chúng. Với số lượng kết
Trang 9
quả trả về của Flickr, chúng tôi áp dụng NGD bắt nguồn từ lý thuyết phức tạp
Kolmogorov để ước tính từ khoảng cách [5]:
trong đó h (x) là số hình ảnh liên quan với từ x trong bối cảnh của họ, và h (x, y) là
số hình ảnh liên quan đến cả hai từ x và y; N là tổng số các hình ảnh trên Flickr, đó
là tạm ước tính như 3,5 tỷ USD vào thời điểm chúng tôi đã làm các thí nghiệm. Các
NGD sau đó được chuyển lên Flickr bối cảnh tương tự (FCS) sử dụng một hạt nhân
Gaussian, được định nghĩa như:
đâu tham số ρ là theo kinh nghiệm bộ máy khi từng đôi số trung bình - khôn ngoan
NGD giữa ngẫu nhiên vũng tập hợp các từ. Đường tương tự của đặt ρ đã trưng bày
để có hiệu quả cho nhiệm vụ phân loại cơ sở nhân [ 38 ]. Thí dụ của tính FCS được
trình bày trong Hình 2 ( b ).
Ưu điểm chính của việc sử dụng thông tin ngữ cảnh đầy đủ thay vì thẻ mình là bảo
hiểm tốt hơn của từ. Hình 3 cho thấy tần số của 374 LSCOM khái niệm trong nhiều
nguồn khác nhau bao gồm cả Google tìm kiếm web, Flickr bối cảnh hình ảnh / thẻ,
và LSCOM dẫn các chú thích trên TRECVID 2005 bộ phát triển (43.873 bức ảnh).
Rõ ràng là Google tìm kiếm web có bảo hiểm tốt nhất: các khái niệm hiếm nhất vẫn
còn xuất hiện trong 2120 trang web. Ngoài ra, nó có thể được nhìn thấy rõ ràng rằng
phạm vi khái niệm về bối cảnh Flickr là tốt hơn nhiều so với thẻ Flickr. Chỉ có 2
khái niệm có tần số không trong bối cảnh, trong khi trong các thẻ, 53 khái niệm đã
không được tìm thấy. Mặc dù vùng phủ sóng của bối cảnh Flickr là không tốt như
tìm kiếm web của Google, như sẽ được hiển thị trong các thí nghiệm, nó có công
đức của phản ánh hình ảnh xuất hiện đồng thời của các từ.
Nó là đáng giá để chỉ ra rằng các nguồn dựa trên web có thực sự nhiễu. Ví dụ, độ
chính xác của các thẻ Flickr đã được tìm thấy vào khoảng 50% [15]. Vấn đề nhiễu
cũng tồn tại trong nhiều trang web được lập chỉ mục của Google. Một trang web có
thể chứa nhiều đoạn văn của văn bản thảo luận về chủ đề sự khác biệt, kết quả ước
tính sai lệch của từ xuất hiện đồng thời. Tuy nhiên, như đã được ghi nhận trong [5],
tiếng ồn như vậy có thể được một phần làm tăng kích thước cơ sở dữ liệu khổng lồ.
Điều này có thể được giải thích bằng trực giác bởi thực tế là hai từ không liên quan
có thể thỉnh thoảng cùng xảy ra do nhiễu, nhưng có lẽ không thường xuyên. Nói
cách khác, khi cơ sở dữ liệu tăng kích thước, số lượng xuất hiện đồng thời của hai
Trang 10
từ có liên quan chủ yếu sẽ tăng với tốc độ nhanh hơn nhiều so với giữa hai từ không
liên quan. Trong khi chúng tôi tin rằng các kỹ thuật như thẻ định hướng [32] và nội
dung dựa trên hình ảnh kiểm điểm (Flickr khoảng cách [33]) là đầy hứa hẹn để
giảm bớt vấn đề tiếng ồn, thực tế FCS là một cách dễ dàng hơn và rẻ hơn để đo
lường thị giác đồng sự xuất hiện của tất cả các từ trong từ vựng của con người.
IV.
NGỮ NGHĨA CHUYỂN BỐI CẢNH
Phần này mô tả thuật toán bối cảnh của chúng tôi chuyển ngữ nghĩa. Chúng tôi bắt
đầu bằng cách xác định một vài ký hiệu. Hãy để C = {c1, c2, • • •, cm} là một từ
vựng ngữ nghĩa của các khái niệm m và {Xtrn, Ytrn} là một dữ liệu huấn luyện
được thiết lập, trong đó Ytrn là nhãn tập dữ liệu chuẩn của Xtrn. Dựa trên tập huấn
luyện, một phân loại / máy phát hiện được phát triển cho từng khái niệm ci bằng
cách sử dụng bất kỳ thuật toán học có giám sát, chẳng hạn như SVMs. Một mảnh
thông tin hữu ích mà có thể được học từ tập huấn luyện là mối quan hệ giữa các
khái niệm, có thể dễ dàng tính toán dựa trên mối tương quan của nhãn tập dữ liệu
chuẩn. Chính thức, được biểu diễn như
{Xtrn , Ytrn } → {Wtrn , D},
(3)
trong đó D biểu thị một chức năng phát hiện khái niệm cho các khái niệm m và
Wtrn ∈ Rm × m biểu thị mối quan hệ khái niệm cặp. Wij giá trị lớn trong Wtrn có
nghĩa là hai khái niệm ci và cj thường xuyên cùng xảy ra (ví dụ, xe hơi và đường
bộ). Chức năng phát hiện sau đó được áp dụng cho một dữ liệu mục tiêu thiết lập
Xtgt chứa n mẫu thử và tạo ra số điểm phát hiện:
Với wq và phát hiện khái niệm Ftgt số điểm, số điểm liên quan của các mẫu ở Xtgt
để q được tính như:
trong đó f (q) ∈ R1 × được sử dụng để sắp xếp các mẫu truy vấn đáp ứng q.
Trong thực tế, nó không phải là cần thiết để xem xét tất cả các máy dò có sẵn m
cho mỗi từ truy vấn. Một phát hiện thực tế phổ biến là sử dụng một wq thưa thớt
bằng cách chọn k có liên quan dò cho mỗi từ truy vấn, và sau đó vùng chứa được
lựa chọn từ tất cả các từ để đánh giá f (q). Phương trình 5 trực tiếp áp dụng học
tương tự từ các nguồn bên ngoài, tức là, s (q, c), trộn lẫn các máy dò được huấn
luyện riêng lẻ từ một tập huấn luyện. Trong khi kiến thức bên ngoài là được thừa
Trang 11
hưởng một phần không thể thiếu quan trọng là s (q, ci) đang được thừa hưởng một
phần không thể thiếu quan trọng là s (q, ci) và f (ci) không xem xét các đặc điểm dữ
liệu của tên miền mục tiêu. Các Xtgt có thể là trong một lĩnh vực cụ thể hơn những
kiến thức bên ngoài, trong khi cũng khác nhau từ phân phối dữ liệu của Xtrn tập
huấn luyện. Phần này đề cập vấn đề này bằng cách trình bày thuật toán bước một
hai cuốn tiểu thuyết ngữ nghĩa chuyển ngữ cảnh. Cụ thể, thuật toán nhằm mục đích
chuyển bối cảnh ngữ nghĩa suy ra từ tên miền mục tiêu để thích ứng với f (ci) và s
(q, ci). Sự thích nghi trước đây là offline được tiến hành bởi các khi Xtgt đến, trong
khi sau này được tính toán trên bay khi truy vấn được phát hành. Chuyển ngữ nghĩa
bối cảnh offline.Do ban đầu phát hiện số điểm Ftgt và mối quan hệ khái niệm ma
trận Wtrn, trong đó có nguồn gốc từ tập huấn luyện Xtrn .chuyển bối cảnh ngữ
nghĩa offline thích ứng với mối quan hệ khái niệm Wtrn theo để nhắm mục tiêu
miền dữ liệu đặc trưng.Các mối quan hệ khái niệm thích nghi, Wtgt, tiếp tục lọc
phát hiện số điểm:
trong đó F là số điểm dò lọc. Bước này về cơ bản là một quá trình dựa trên bối cảnh
khái niệm hợp nhất, đó là đề xuất ban đầu trong [13], trong đó chúng ta đặt tên cho
nó như miền thích ứng phổ biến ngữ nghĩa.
Chuyển ngữ nghĩa bối cảnh trực tuyến. Vector w cho một truy vấn q được ước
lượng từ nguồn kiến thức bên ngoài, rõ ràng là không thể mô tả chính xác các truy
vấn dò tương tự trong một tên miền mới. Chuyển ngữ nghĩa bối cảnh trực tuyến
nhằm mục đích đồng thời thích nghi và cập nhật w f (q) dựa trên mục tiêu đặc điểm
dữ
liệu
miền,
được
định
nghĩa
như
trong đó w và f (q) có chứa các cập nhật tương tự truy vấn, phát hiện và lọc điểm
truy vấn liên quan tương ứng. này Trong phần tiếp theo, chúng tôi giới thiệu ngắn
gọn của chúng tôi xây dựng cho chuyển offline, trên cơ sở đó chúng tôi lấy được
thuật toán chuyển trực tuyến, mà là trọng tâm chính của bài viết này.
Trang 12
4.1
Dò lọc ngoại tuyến:
Trước tiên chúng ta xây dựng các chuyển bối cảnh ngữ nghĩa Offline cho các sàng
lọc của khái niệm máy dò điểm. xem xét thực tế là sự phân bố dữ liệu có thể thay
đổi giữa X và X, để xử lý vấn đề này, chuyển bối cảnh ngữ nghĩa nên được điều tra
để suy ra một khái niệm tốt hơn mối quan hệ W.
Để đạt được điều này, chúng tôi xác định một hàm mạo hiểm:
Trong đó: F là khái niệm máy dò điểm đã lọc wtgt mối quan hệ phù hợp
Cụ thể, hàm rủi ro có chứa hai thành phần: hạn chế thống nhất trong nội bộ miền và
thay đổi liên miền chính tắc, định nghĩa là:
trong đó f (ci) là số điểm dự đoán cho khái niệm về c trên mẫu thử nghiệm trong
phạm vi của mục tiêu; w và w đại diện cho các mối quan hệ của khái niệm c và c
trong huấn luyện và kiểm tra dữ liệu mục tiêu tương ứng; λ nắm bắt được sự cân
bằng giữa hai thuật ngữ.
Hàm rủi ro này có thể được giải thích trực quan như sau:
Thứ nhất, hạn chế thống nhất trong nội bộ miền đảm bảo điểm phát hiện khái niệm
tương tự nếu hai khái niệm liên quan chặt chẽ với nhau, ví dụ wij là lớn. Nói cách
khác, giảm thiểu J làm cho các điểm phát hiện phù hợp với các khái niệm mối quan
hệ. Thứ hai, sự thay đổi liên miền chính tắc có nghĩa là khái niệm phù hợp mối quan
hệ Wtgt không nên đi chệch quá nhiều từ ban đầu là một Wtrn. Giả thuyết tương tự
cũng được áp dụng trong phân loại phương pháp tiếp cận học tập chuyển giao như
[35]. Do đó làm giảm giá trị của J cho phép sàng lọc đồng thời cả số điểm phát hiện
và khái niệm mối quan hệ. Để giảm thiểu J, chúng tôi viết lại nó thành dạng ma
trận:
Trang 13
Phát sinh sự khác biệt một phần của J đối với Wtgt và bằng không:
Để lấy được tối ưu điểm phát hiện F, chúng tôi áp dụng độ chênh lệch ngẫu nhiên
để phục hồi sự thống nhất trong nội bộ miền. Với khái niệm mối quan hệ W trong
phạm vi mục tiêu, F có thể được cập nhật :
Trong đó
là sự khác biệt một phần của J đối với Ftgt với. Tham số η thường được gọi là tốc
độ học tập.
Lưu ý rằng trong phương trình 11 các khái niệm mối quan hệ W được tối ưu hóa
dựa trên số điểm hiển ban đầu F. Trên thực tế, phương trình 11 và 12 có thể được áp
dụng lặp đi lặp lại để dần dần thích ứng với các ma trận mối quan hệ khái niệm và
sau đó lọc các điểm phát hiện cho phù hợp (x. Thuật toán 1).
4.2
Thích ứng trực tuyến của truy vấn dò tương đồng
Bây giờ chúng ta xem xét vấn đề trực tuyến cập nhật các truy vấn dò wq tương tự
dựa trên mục tiêu miền dữ liệu đặc trưng. Nhắc lại w = {s(q, c )} =1 ··· ∈ R m×1
trong đó s (q, c) đại diện cho số điểm phù hợp của khái niệm c để truy vấn q, được
ước tính từ nguồn kiến thức bên ngoài như Flickr bối cảnh. Thúc đẩy bởi các kỹ
thuật theo quy tắc đa dạng trực tuyến trong không gian đặc trưng [7], chúng tôi đề
xuất ngữ nghĩa các thuật toán chuyển bối cảnh trực tuyến sau. Cụ thể, một nút mới
được thêm vào không gian khái niệm đại diện cho q. Chúng tôi xác định các điều
khoản mới như sau đầu tiên:
trong đó w là truy vấn, phát hiện vector tương tự thích nghi và f (q) ∈ R1 ×n được số
điểm liên quan ban đầu để q, tính bằng phương trình 5. Lưu ý rằng lọc điểm phát
hiện
và các điều chỉnh khái niệm mối quan hệ ma trận Wtgt được sử dụng như
Trang 14
là đầu vào về việc chuyển bối cảnh trực tuyến ngữ nghĩa. Các ma trận mới
và
cũng là đối xứng. Bây giờ chúng tôi ghi lại các hàm rủi ro trong phương trình
10 vào mẫu trực tuyến sau đây:
Trong đó Φ và Ω thể hiện phiên bản trực tuyến của nội bộ miền hạn chế nhất quán
và sự thay đổi liên miền chính tắc tương ứng. Rõ ràng, bằng cách xử lý truy vấn q
như một nút mới trong không gian khái niệm, giảm thiểu J đối với w với tạo điều
kiện cho sự thích nghi của các mối quan hệ phát hiện truy vấn. Ngoài ra, các truy
vấn mối quan hệ phát hiện thích nghi có thể được áp dụng để lọc truy vấn liên quan
điểm f (q).Các quá trình kép tương tự như sự thích ứng của khái niệm mối quan hệ
và sàng lọc điểm phát hiện khái niệm trong chuyển đổi offline. Để rút gọn phương
trình 14, chúng tôi đầu tiên mở rộng Φ như sau:
Tương tự như vậy, chúng tôi cũng mở rộng các phiên bản trực tuyến của sự thay đổi
liên miền chính tắc :
Trang 15
Với phương trình 15 và 16, chúng ta có thể dễ dàng lấy được từng phần của hàm rủi
ro J* đối với wq:
Thuật toán 1: Ngữ nghĩa chuyển bối cảnh:
Đầuvào: phát hiện ban đầu điểm Ftgt;
khái niệm ban đầu mối quan hệ ma trận W.
Khởi tạo:
Vòng lặp: t = 0, · · ·, T1
Đầu ra: Lọc số điểm phát hiện
;
Ma trận khái niệm mối quan hệ thích nghi Wtgt.
Chuyển trực tuyến:
Đầu vào: phát hiện tinh lọc điểm
các điều chỉnh khái niệm mối quan hệ ma trận Wtgt;
truy vấn ban đầu dò tương tự wq ban đầu của một truy vấn q mới
khởi tạo:
Vòng lặp: t = 0, · · ·, T2
Đầu ra: lọc số điểm truy vấn phù hợp
Quy về sự khác biệt giữa phần trên, các truy vấn tối ưu phát hiện tương tự được tính
như:
Trang 16
Với sự điều chỉnh truy vấn dò tương tự
cập nhật phù hợp:
, số điểm phù hợp truy vấn có thể được
Trong đó
là một vector hàng. Tương tự
*
như quá trình chuyển tuyến, J có thể dần dần giảm thiểu lặp đi lặp lại thông qua
cập nhật wq và f(q) như sau:
Các phương trình trên đạt được các sàng lọc trực tuyến đồng thời truy vấn phát hiện
tương tự và truy vấn số điểm liên quan. Lưu ý rằng trong việc thực hiện của chúng
tôi, để giữ cho w thưa thớt, chúng ta làm tròn thành phần trong
tuyệt đối nhỏ bằng không tại mỗi lần lặp.
với giá trị
Trang 17
V.
5.1
THỬ NGHIỆM
Bộ dữ liệu và đánh giá
Chúng tôi tiến hành thí nghiệm tìm kiếm video bằng cách sử dụng TRECVID 20052008 tập hợp dữ liệu (abbr. TV05/06/07/08), được sử dụng trong việc đánh giá
chuẩn hàng năm bởi NIST tổ chức. Tổng cộng, có 440 giờ của dữ liệu video và 120
truy vấn đánh giá chính thức. Các bộ dữ liệu được đi kèm với một tài liệu tham
khảo tiêu chuẩn của ranh giới bắn, tạo thành các đơn vị cơ bản để đánh giá. Mô tả
chi tiết dữ liệu của từng năm được liệt kê trong Bảng 1. Như thể hiện trong bảng,
TV05 và TV06 là phát sóng tin tức video từ Hoa Kỳ, Ả Rập, và các nguồn của
Trung Quốc, trong khi TV07 và TV08 chủ yếu là tài liệu
video từ Viện Hà Lan cho âm thanh và tầm nhìn.
Bảng 1: Mô tả các TV05-08 bộ dữ liệu. Tổng số bức ảnh video trong mỗi bộ dữ liệu
được hiển thị trong dấu ngoặc đơn. Các 160h (100h) dữ liệu từ TV05 (07) được sử
dụng như là dữ liệu phát triển cho TV06 (08).
Bảng 2 cho thấy ví dụ một số truy vấn bằng văn bản, thường rất ngắn và viết tắt với
một vài từ. Trong suốt thí nghiệm, chúng tôi chỉ xem xét các danh từ và động danh
từ trong các truy vấn để lựa chọn phát hiện, giả định rằng danh từ chỉ tên của địa
điểm, vật hay một người (ví dụ, máy tính), và động danh từ mô tả một hành động /
sự kiện (ví dụ, đi bộ). Trong việc đánh giá tiêu chuẩn, hầu hết các truy vấn cũng
được liên kết bởi một vài truy vấn hình ảnh / video ví dụ, trong khi trong các thí
nghiệm, chúng tôi chỉ sử dụng các truy vấn văn bản. So với truy vấn với các ví dụ
hình ảnh / video, điều này đại diện cho một kịch bản tổng quát hơn và thực tế tìm
kiếm video. Đối với các máy dò khái niệm ngữ nghĩa, chúng tôi sử dụng VIREO374
[12] cho TV05-07. VIREO-374 bao gồm máy dò cho 374 LSCOM khái niệm ngữ
nghĩa và điểm phát hiện của họ trên TV05-07 bộ kiểm tra. Các máy dò trong
Trang 18
VIREO-374 được huấn luyện sử dụng các thiết lập phát triển TV05. Mỗi phát hiện
có liên quan đến ba phân loại SVM huấn luyện sử dụng các tính năng hình ảnh khác
nhau (thời điểm màu sắc, kết cấu wavelet và túi từ hình ảnh) được chiết xuất từ các
khung hình video.
Các đầu ra của ba phân loại được kết hợp như số điểm phát hiện cuối cùng sử dụng
kết hợp trung bình. Cho TV08, chúng tôi sử dụng gần đây phát hành CUVIREO374 [14]. Dựa trên các điểm phát hiện, chúng tôi trực tiếp làm việc trên thử
nghiệm mỗi năm thiết lập để đánh giá hiệu quả của miền thích ứng phương pháp
tìm kiếm video. Đối với mỗi truy vấn, những bức ảnh đoạn video truy xuất được
xếp hạng theo điểm số để các máy dò khái niệm lựa chọn. Việc thực hiện tìm kiếm
được đánh giá sử dụng chính xác trung bình, định nghĩa là
trong đó R và Rj là tổng số mặt tích cực thực sự
trong tập kiểm tra toàn bộ và top j những bức ảnh tương ứng; Ij = 1 nếu j những bức
ảnh có liên quan và 0 nếu ngược lại. Để tổng hiệu suất các truy vấn nhiều hơn, có
nghĩa là độ chính xác trung bình (MAP) được sử dụng. Trong các thí nghiệm, trừ
khi có quy định khác, chúng tôi thiết lập k = 1000 sau tiêu chuẩn TRECVID. Trong
phần tiếp theo, chúng tôi đầu tiên so sánh FCS với một loạt các phép đo tương tự từ
hiện tại. Sau đó chúng tôi đánh giá hiệu quả của thuật toán chuyển bối cảnh ngữ
nghĩa của chúng tôi cho tên miền tìm kiếm video thích nghi.
5.2
Truy vấn dò Tương tự Đo lường
Để kiểm tra chất lượng của việc sử dụng bối cảnh Flickr để ước lượng truy vấn
tương tự phát hiện, chúng ta so sánh với FCS năm các biện pháp khác, bao gồm cả
khoảng cách Google bình thường (NGD) [5] sử dụng tìm kiếm trên web của Yahoo
như là nguồn kiến thức, và đo lường WordNet dựa trên bao gồm RES [24], JCN
[10], WUP [34], và Lesk [17]. RES và JCN sử dụng nội dung thông tin ước tính dựa
trên Corpus Brown lý các mối quan hệ truy vấn, phát hiện, trong khi Lesk và WUP
sử dụng lời chú giải và chiều dài / chiều sâu con đường trong hệ thống phân cấp
WordNet tương ứng. Đối với mỗi từ truy vấn, chúng tôi lựa chọn trên 3 phát hiện có
liên quan nhất. Kết quả tìm kiếm được trả về bởi những máy dò này sau đó tuyến
tính hợp nhất (phương trình 5). Tùy thuộc vào các biện pháp sử dụng, trọng lượng
của một máy dò được thiết lập bằng giống với các truy vấn tương ứng
Hình 4 cho thấy kết quả thực nghiệm chi tiết về MAP trên bộ thử nghiệm khác
nhau. Chúng ta thấy rằng hiệu suất của đo lường dựa trên web kiến thức, đặc biệt là
FCS, rõ ràng là tốt hơn so với dựa trên WordNet. Sự cải thiện này đặc biệt rõ ràng
cho TV05 và TV07 nơi có rất nhiều các từ truy vấn mà phát hiện với chính xác
cùng tên không thể được tìm thấy. Các trang web cung cấp thông tin cập nhật và
Trang 19
bảo hiểm tốt hơn của từ, mà thực sự là rất hữu ích cho trường hợp này. Ví dụ, cho
truy vấn hạn Condoleeza Rice1(Một tên công cụ phát hiện thực thể được áp dụng để
từ từ một tên sẽ không được coi là thuật ngữ truy vấn riêng biệt) mà không xuất
hiện trong WordNet, phát hiện Colin Powell và Donald Rumsfeld được đề xuất bởi
NGD và FCS tương ứng, kể từ khi cả hai người trong số họ thường xuyên cùng xảy
ra với Condoleeza Rice. Mặt khác, FCSalso liên tục nhanh hơn so với NGD với một
biên độ lớn (phạm vi cải thiện hiệu suất từ 7% lên 41%). Điều này thực sự khẳng
định lợi thế của việc sử dụng bối cảnh Flickr để ước lượng truy vấn máy dò tương
tự như chúng tôi thảo luận trong phần 3, nó có thể phản ánh các từ xuất hiện đồng
thời trong nội dung hình ảnh (hình ảnh) chứ không phải là ngữ liệu văn bản.
Bảng 2: lựa chọn dò bằng các phép đo tương tự truy vấn máy dò khác nhau. Các
máy dò được lựa chọn dựa trên các từ truy vấn được in đậm.
Bảng 2 đưa ra một vài ví dụ truy vấn để so sánh thêm các phép đo khác nhau. Do
hạn chế về không gian, chúng tôi chỉ liệt kê những phát hiện phù hợp nhất cho một
từ đã chọn từ mỗi truy vấn. Trong truy vấn ID-188, cho truy vấn từ ngọn lửa. Phát
hiện binh lính được lựa chọn bởi NGD và khói được chọn bởi FCS. Trong khi việc
lựa chọn người lính (ví dụ, trong cảnh chiến tranh) và không hút thuốc là có khả
năng hữu ích cho việc tìm kiếm video về ngọn lửa, mối quan hệ ngữ nghĩa như vậy
đã không bị bắt bởi WordNet. Quan sát tương tự cũng được dùng cho các truy vấn
ID-171/196/205. Thú vị hơn, so với NGD, chúng ta thấy rằng FCS có khả năng lựa
chọn dò phù hợp hơn. Ví dụ, trong truy vấn ID-205, xe được lựa chọn bởi NGD để
trả lời truy vấn đào tạo hạn bởi vì có rất nhiều trang web có chứa nội dung liên quan
đến cả các loại xe. Tuy nhiên, rõ ràng là xe hơi ít có khả năng rất hữu ích cho lấy xe
lửa vì họ hiếm khi cùng xảy ra trong dữ liệu hình ảnh / video.
Trong khi cho FCS, một máy dò phù hợp hơn, đường sắt, được chọn. Những quan
sát này một lần nữa khẳng định lợi thế của việc sử dụng FCS để lựa chọn phát hiện
trong tìm kiếm video. Tuy nhiên, lưu ý rằng mặc dù FCS lãm hứa hẹn kết quả trong
nhiều trường hợp, việc lựa chọn được thực hiện dựa trên kiến thức từ các trang web
mà không xem xét các đặc điểm dữ liệu trong lĩnh vực dữ liệu mục tiêu. Trong phần
Trang 20
tiếp theo, chúng tôi đã thử nghiệm rộng rãi để xem cách các thuật toán chuyển bối
cảnh ngữ nghĩa hoạt động để đối phó với thay đổi tên miền.
5.3
Ảnh hưởng của ngữ nghĩa ngữ cảnh Chuyển.
hiệu suất của chuyển bối cảnh ngữ nghĩa (SCT) trên bộ dữ liệu khác nhau được thể
hiện trong Bảng 3.
Bảng 3: Hiệu quả tìm kiếm trên TV05-08. MAP-k có nghĩa là MAP top k xếp hạng
bức ảnh
Hình 5: Hiệu suất của MAP trên TV05 bằng cách thay đổi số lần lặp để chuyển bối
cảnh ngữ nghĩa trực tuyến.
Để phân tích hiệu suất tốt hơn, chúng tôi liệt kê MAP trên đầu k = 10, 30, 100 và
1000 xếp hạng bức ảnh. Rõ ràng, SCT cho thấy tăng hiệu suất đáng kể cho hầu hết
các thiết lập thử nghiệm. Khi k = 1000, ngoại trừ trên TV07 rằng hiệu suất là như
nhau, sự cải thiện trên ba thử nghiệm khác đặt trong khoảng từ 8% đến 16%. Đây
không phải là hoàn toàn bất ngờ vì trong số tất cả các bộ kiểm tra, TV07 có số
lượng nhỏ nhất của mặt tích cực thực (196 cho mỗi truy vấn trên trung bình). Từ
những phân tích của chúng tôi về sự phân bố dương tính thực sự của danh sách xếp
hạng, cho TV07, bức ảnh có liên quan hơn được quan sát trong top 100, trong khi
đối với các bộ thử nghiệm khác, những bức ảnh có liên quan có xu hướng lan rộng
ra khắp các danh sách kết quả. Khi xem xét ít nhất k bức ảnh lấy ra, sự cải thiện của
MAP trở nên rõ ràng hơn. Ví dụ, trên TV07, sự cải thiện trong danh sách xếp hạng
top 10 là cao như 23%. Điều này là quan trọng vì thực tế cho hầu hết các ứng dụng
tìm kiếm, top 10 là một con số hợp lý của kết quả mà người dùng có thể duyệt.
Trang 21
Nghiên cứu ảnh hưởng của chuyển Offline chúng tôi tiến hành một thí nghiệm khác
trên TV08, trong đó chúng tôi chỉ áp dụng phương trình 11 và 12 để cập nhật số
điểm phát hiện, bỏ qua quá trình chuyển giao trực tuyến. Việc thực hiện về MAP1000 là 0.046, mà rõ ràng là thấp hơn so với khi trực tuyến chuyển giao được đồng
áp dụng (0.050). Như đã đề cập trong phần 4, đó là dễ hiểu vì trong tìm kiếm video
truy vấn tương tự phát hiện là rất quan trọng. Ngoài ra, nâng cao độ chính xác của
mỗi phát hiện khái niệm duy nhất không đảm bảo hiệu suất phản ứng tổng hợp tốt
hơn. Đạt được hiệu suất sử dụng được cải thiện dò tìm kiếm video tương tự như báo
cáo trong một nghiên cứu trước đây [31].
Để xác minh xem việc cải thiện hiệu quả là do cơ hội, chúng tôi tiến hành thử
nghiệm quan trọng dựa trên các AP cho mỗi truy vấn (k = 1000). Chúng tôi áp dụng
thử nghiệm ngẫu nhiên được đề xuất bởi TRECVID3, nơi số lượng mục tiêu của nó
erations được thiết lập là 10.000. Ở mức 0,05 có ý nghĩa, FCS + SCT là tốt hơn
đáng kể so với FCS, trong khi FCS cũng tốt hơn đáng kể so với các phép đo tương
tự từ khác.
5.3.1 Tham số độ nhạy:
Có bốn thông số chính trong thuật toán chuyển đổ ngữ nghĩa bối cảnh trên khuôn
đồng nhất, bao gồm λ, η, và số lần ngoại tuyến và trực tuyến tương ứng là T1 và
T2 .
Trong suốt các thí nghiệm, λ, η và T1 được thống nhất thiết lập tương ứng là 0.1,
0.05 và 20 , rút ra từ những phát hiện của chúng tôi trong [13].
Đối với số lần trao đổi trực tuyến lặp đi lặp lại (T2) , chúng tôi thực nghiệm và xác
định giá trị thích hợp của nó. Chúng tôi đánh giá độ nhạy của hiệu suất tìm kiếm T2
trên TV05. Như sự thể hiện trong hình 5,hiệu năng tăng đáng kể ngay từ đầu và sau
đó vẫn còn khá ổn định trong một vài lần lặp lại.
Ngoài ra,chúng ta thấy rằng với độ chính xác tốt nhất tốt nhất hoặc gần đạt được khi
T2 là khoảng 8. T2 tương tự cũng được áp dụng trong tất cả các thí nghiệm và tăng
hiệu suất phù hợp được quan sát so với các bộ kiểm tra TV06-08 (theo Bảng 3),
trong đó xác nhận sự ổn định hiệu suất của thuật toán đề xuất hơn thông số cài đặt.
5.3.2 Tốc độ hiệu quả
Tốc độ là một yêu cầu quan trọng cho tìm kiếm video trực tuyến. Các thuật toán
chuyển bối ngữ nghĩa bối cảnh trực tuyến của chúng tôi là rất hiệu quả. Sự phức tạp
của thuật toán theo tiêu chuẩn ISO (triệu), trong đó m là số lượng dò có sẵn và n là
số của bức ảnh thử nghiệm. Cụ thể hơn, tổng số thời gian chạy của 24 truy vấn trên
Trang 22
TV06 (79.484 bức ảnh video) là 30,2 giây trên một PC thông thường (Intel Core 2
Duo 2.2GHz CPU và RAM 2GB).
Nói cách khác, thực hiện chuyển giao trực tuyến với một truy vấn chỉ mất 1.26 giây.
Nó có thể được nhanh hơn nếu thực hiện trên một máy mạnh mẽ hơn với khả năng
tính toán song song. Rõ ràng, điều này đáp ứng nhu cầu tìm kiếm trực tuyến.
5.4
Thực hiện dựa trên các loại truy vấn:
Tiếp tục nghiên cứu hiệu quả của từng biện pháp tương tự và các thuật toán chuyển
bối cảnh ngữ nghĩa..Bây h chúng ta thảo luận về thực hiện tìm kiếm dựa trên các
loại truy vấn. Chúng ta có 120 truy vấn thành bốn loại: sự kiện, người + điều(TT),
địa điểm và tên thực thể (NE). Các nhóm dựa về phân loại truy vấn được đề xuất
bởi TRECVID [22]. Bởi vì hầu hết các truy vấn liên quan đến TT, chúng tôi loại trừ
một truy vấn từ PT bởi vì nó đã nằm trong ba thể loại khác.
Biểu đồ 6 cho thấy màn trình diễn của MAP-1000. Các biện pháp dựa trên web
(NGD và FCS) là đặc biệt tốt cho truy vấn theo tên thực thể. Đây là thực tế bởi hầu
hết các tên đơn vị không được định nghĩa trong WordNet. Nhìn chung, cách thực
hiện tốt nhất là của tất cả các lớp truy vấn của FCS + SCT.
Các quan sát cho thấy ưu điểm của sự ổn định của phương pháp tiếp cận của chúng
tôi
đối với các loại truy vấn khác nhau. Mặt khác, FCS ngoài việc thực hiện NGD và
Lesk, Nó tính toán dựa trên các trang web và từ vựng WordNet tương ứng. Để liên
tục xác minh tính nhất quán và cải thiện hiệu suất cho các loại truy vấn khác nhau,
chúng tôi cũng tiến hành kiểm tra ngẫu nhiên tại mức rất quan trọng là 0.05. Kết
quả được tóm tắt trong bảng 4.
Bảng 4: Ý nghĩa thử nghiệm dựa trên các loại truy vấn.
x>>y có nghĩa x là tốt hơn đáng kể so với y
Ngoại trừ NE, FCS + SCT là tốt hơn đáng kể so với FCS và FCS là hiệu quả hơn
NGD và Lesk. Với NE,nó không cải thiện được quan sát từ SCT vì những máy tìm
kiếm lựa chọn NGD / FCS đã rất thích hợp.
Trang 23
5.5
So sánh các phương pháp theo từng giai đoạn:
Trong phần này, chúng ta so sánh kết quả của chúng tôi cho một số nghiên cứu gần
đây dựa trên khái niệm tìm kiếm video [8, 20, 27, 31]. Dựa trên nội dung thông tin
trang web được sử dụng trong [8, 20] để lựa chọn phát hiện, và bản thể đo lường
tương tự dựa trên WordNet được thông qua trong [27]. Trong [31], một khuôn khổ
hợp đa cấp được phát triển xem xét ngữ nghĩa, có thể nhận biết, độ tin cậy và đa
dạng để phát hiện và lựa chọn. Lưu ý rằng một số lại kết quả báo cáo trong những
tác phẩm sử dụng bộ dò tìm khác nhau. Mục đích của việc so sánh là để hiển thị
như thế nào toàn bộ khuôn khổ đề xuất trong bài báo này thực hiện so sánh các
phương pháp theo từng giai đoạn. Bảng 5 liệt kê các hoạt động của mỗi phương
pháp tiếp cận trên bài kiểm tra TV05-08. Miền tìm kiếm khung hình video thích
hợp của chúng tôi và(FCS+SCT) thực hiện tốt nhất cho các bài kiểm tra tất cả bốn
năm.
Bảng 5: So sánh hiệu suất trên bộ thử nghiệm Tv05-08
Biểu đồ 7: So sánh MAP với top 50 (trong tổng 82) Bài kiểm tra chính thức nhiệm
vụ tìm kiếm video tự động trên TRECVID 200
Lưu ý rằng một số yếu tố hữu ích như đa dạng của các máy dò lựa chọn [31] đã
không được xem xét trong khuôn khổ hiện tại của chúng tôi và do đó có thể được áp
dụng để cải thiện hơn nữa.
Hình 7 tiếp tục so sánh kết quả của chúng tôi với các bài kiểm tra chính thức trong
TV08.
Trang 24
Trong số tất cả 82 nhiệm vụ nhỏ, đề xuất chỉ sử dụng FCS+ SCT để truy vấn văn
bản đứng hàng thứ năm, trong khi tất cả bốn phương pháp đứng trên đều chạy
thông qua cả hai truy vấn văn bản và các ví dụ hình ảnh / video mẫu, các hệ thống
thực hiện tốt nhất [29] có ba cách thực hiện : văn bản phù hợp , tìm kiếm dựa trên
khái niệm, và hình ảnh / video mẫu phù hợp.
Trang 25