Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Nâng cao chất lượng gom cụm kết quả tìm
kiếm video sử dụng kết hợp đặc trưng âm
thanh, đặc trưng thị giác và thông tin văn bản
Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngơ Đức Thành, Lê Đình Duy, Nguyễn Hồng Tú Anh
Phịng Thí nghiệm Truyền thơng Đa phương tiện
Đại học Cơng nghệ Thơng tin, ĐHQG-HCM
Thành phố Hồ Chí Minh, Việt Nam
Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn
Tóm tắt—Bài báo này đề xuất phương pháp sử dụng
kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông
tin văn bản để nâng cao chất lượng gom cụm kết quả tìm
kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng
đã được giới thiệu trong các lớp bài tốn như tìm kiếm
video (video retrieval), phân lớp video (video classification)
nhưng đóng góp chính của bài báo này là phân tích ưu
điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết
hợp đa đặc trưng và là cơng trình đầu tiên sử dụng kết
hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin
văn bản đi kèm video để giải quyết bài tốn gom cụm kết
quả tìm kiếm video. Các thí nghiệm được tiến hành trên
kết quả tìm kiếm video của YouTube với phương pháp kết
hợp đề xuất cho kết quả tốt hơn so với việc chỉ áp dụng
từng loại đặc trưng riêng lẻ trong q trình gom cụm
video.
Từ khóa—gom cụm video, đặc trưng âm thanh, đặc
trưng thị giác, độ tương tự kết hợp.
I. GIỚI THIỆU
Ngày nay, với sự phát triển mạnh mẽ của công nghệ
truyền thông và kỹ thuật số cùng với sự bùng nổ của
mạng Internet, số lượng video được chia sẻ trên Web
ngày càng nhiều. Để tìm kiếm video trên Web, người
dùng phải cung cấp từ khóa tìm kiếm trên các cơng cụ
tìm kiếm video (ví dụ như YouTube, Google Video). Kết
quả tìm kiếm được trình bày như một danh sách phẳng
với các video được xếp theo độ liên quan với từ khóa
truy vấn. Để tìm được video mong muốn, người dùng
phải “tốn cơng” duyệt qua tồn bộ danh sách. Hơn nữa,
các kết quả tìm kiếm là rất đa đạng và thường bị phân
mảnh hoặc bị chi phối bởi các video không phù hợp
(đặc biệt trong những trường hợp như người dùng gửi
truy vấn quá ngắn hoặc truy vấn mơ hồ do tính đa nghĩa
của từ khóa truy vấn).
Giả định người dùng đang quan tâm tới một vấn đề
cụ thể nhưng khơng đưa ra được từ khóa phù hợp. Do
đó, kết quả tìm kiếm video trả về có thể thuộc nhiều thể
130
ISBN: 978-604-67-0635-9
130
loại, chủ đề khác nhau và gây khó khăn trong việc tìm
kiếm. Trường hợp xấu hơn xảy ra khi kết quả của các
chủ đề khác áp đảo chủ đề mà người dùng quan tâm.
Trong kịch bản như vậy, việc gom cụm kết quả tìm kiếm
video là cần thiết nhằm giúp người dùng dễ dàng xác
định video cần tìm. Nói cách khác, thay vì phải duyệt
qua một danh sách phẳng kết quả tìm kiếm gồm nhiều
video thuộc nhiều chủ đề trộn lẫn với nhau thì người
dùng được cung cấp một cái nhìn trực quan hơn thơng
qua kết quả gom cụm video theo từng chủ đề cụ thể.
Qua đó, người dùng có thể dễ dàng xác định được video
mà họ quan tâm một cách nhanh chóng và bỏ qua các
cụm video khơng thích hợp.
Tóm lại, với một danh sách video trả về từ kết quả
tìm kiếm của một truy vấn bất kỳ trên các kênh video
trực tuyến, bài toán gom cụm kết quả tìm kiếm video là
xác định các video có nội dung tương tự nhau và gom
chúng lại trong cùng một cụm. Dữ liệu đầu vào và đầu
ra của bài tốn được minh họa trực quan ở Hình 1. Đầu
vào là danh sách video trả về từ kết quả tìm kiếm video
trên Web, đầu ra là các cụm video.
Gom cụm kết quả tìm kiếm trên Web được nghiên cứu
rộng rãi trước đây. Các cơng trình chủ yếu tập trung vào
dữ liệu văn bản (phổ biến là gom cụm trang Web) [6],
[8], [9] và dữ liệu hình ảnh [3], [5], [11]. Gần đây, có
một số cơng trình nghiên cứu gom cụm kết quả tìm kiếm
video [1], [7], [12]. So với dữ liệu dạng văn bản hay hình
ảnh thì dữ liệu video có cấu trúc phức tạp hơn. Nội
dung của video chứa đựng đồng thời các đặc trưng về
âm thanh (audio), thị giác (visual) hay văn bản (textual).
Điều này đặt ra nhiều thách thức trong việc biểu diễn
và so khớp video. Trong [12], tác giả biểu diễn video
dựa trên đặc trưng thị giác. Cụ thể, mỗi frame được biểu
diễn thành một véc tơ đặc trưng trong không gian màu
HSV (Hue Saturation Value). Sau đó, video được biểu
diễn bởi một véc tơ đặc trưng được tính bằng cách lấy
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Cơng Nghệ Thơng Tin (ECIT 2015)
Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài tốn
gom cụm kết quả tìm kiếm video.
trung bình tất cả các véc tơ biểu diễn cho các frame của
video. Độ tương đồng giữa các video được quy về việc
tính khoảng cách giữa các véc tơ biểu diễn chúng. Với
hướng tiếp cận này thì tính ngữ nghĩa trong thơng tin
văn bản đi kèm video (ví dụ như tiêu đề (title), mơ tả
(description), các thẻ từ khóa (tags)) khơng được xem
xét. Trong [1], [7], các tác giả đã khai thác các thơng
tin được trích xuất từ đặc trưng thị giác và thông tin văn
bản đi kèm video nhằm cải thiện chất lượng gom cụm
video. Tuy nhiên, các phương pháp rút trích đặc trưng
biểu diễn video được sử dụng vẫn còn khá đơn giản và
hiệu quả của từng loại đặc trưng trong q trình gom
cụm video chưa được phân tích rõ ràng.
Trong bài báo này, chúng tơi tập trung vào việc phân
tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở
cho việc kết hợp đa đặc trưng. Từ đó, đề xuất phương
pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác và
thông tin văn bản đi kèm video nhằm nâng cao chất
lượng gom cụm video.
Các mục tiếp theo của bài báo được tổ chức như sau:
mục II giới thiệu phương pháp kết hợp đặc trưng đề
xuất, mục III trình bày các thực nghiệm, mục IV thảo
luận về hướng phát triển.
khai thác nội dung ngữ nghĩa được trích xuất từ thơng tin
văn bản đi kèm video có thể giúp gom các video tương
đồng ngữ nghĩa về cùng một cụm. Do đó, đặc trưng thị
giác và thơng tin văn bản đi kèm video sẽ hỗ trợ, bổ
sung cho nhau để biểu diễn video một cách hiệu quả
giúp nâng cao chất lượng gom cụm video. Tuy nhiên,
việc tận dụng nội dung ngữ nghĩa của thông tin văn bản
đi kèm video sẽ thực sự hiệu quả khi chúng được mô tả
đúng với nội dung thực sự của video. Dữ liệu video trên
các kênh video trực tuyến thường được tải lên bởi nhiều
người dùng, các thông tin văn bản đi kèm video cũng
được người dùng khai báo. Trong thực tế, vì những mục
đích riêng (ví dụ như thu hút lượt xem) hoặc do cảm
nhận chủ quan, người dùng có thể mơ tả các thông tin
văn bản đi kèm không đúng với nội dung thực sự của
video. Trong những trường hợp tương tự như vậy, chúng
tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh
được trích xuất trực tiếp từ nội dung video (ví dụ như
những video về ca nhạc thường có các âm thanh như
tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm
thanh đi kèm là tiếng động cơ xe, ...) sẽ góp phần cải
thiện chất lượng gom cụm video.
Để làm rõ những phân tích trên, một ví dụ minh họa
được thể hiện ở Hình 2. Trong ví dụ này, cả bốn video
đều giới thiệu về “xe hơi” nên sẽ được gom vào cùng
một cụm. Video 1 và video 3 có thể hiện thị giác tương
đối giống nhau nên việc khai thác đặc trưng thị giác sẽ
giúp gom 2 video này với nhau. Tuy nhiên, video 2 và
video 4 có thể hiện thị giác khác so với video 1 và video
3. Khi đó, việc tận dụng thơng tin văn bản đi kèm video
cùng với đặc trưng âm thanh được trích xuất từ nội dung
video (như tiếng động cơ xe) sẽ giúp gom video 2 và
video 4 vào chung cụm với video 1 và video 3.
Từ những phân tích trên, chúng tơi đề xuất mơ hình
kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông
II. PHƯƠNG PHÁP ĐỀ XUẤT
A. Mơ hình kết hợp đặc trưng âm thanh, đặc trưng thị
giác và thông tin văn bản
Theo quan sát trực quan, các video có nội dung tương
tự nhau thường có thể hiện thị giác (sự xuất hiện của
các đối tượng, hình ảnh) giống nhau. Vì vậy, việc sử
dụng đặc trưng thị giác để gom cụm video sẽ trở nên
hiệu quả. Tuy nhiên, với sự đa dạng của dữ liệu video
trên Web, những video thuộc cùng một chủ đề có thể có
những đối tượng và hình ảnh khác nhau. Khi đó, việc
131
131
Hình 2. Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách
kết quả tìm kiếm video của truy vấn “Aston”.
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Cơng Nghệ Thơng Tin (ECIT 2015)
Hình 3. Mơ hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và
thơng tin văn bản giải quyết bài tốn gom cụm kết quả tìm kiếm video.
tin văn bản đi kèm video nhằm nâng cao chất lượng
gom cụm video (xem Hình 3).
B. Trích xuất đặc trưng, biểu diễn và so khớp video
1) Đặc trưng âm thanh (Audio): Như đã phân tích
ở trên, đặc trưng âm thanh đóng một vai trị quan
trọng trong q trình gom cụm video. Trong bài báo
này, chúng tơi sử dụng MFCC (Mel-Frequency Cepstral
Coefficients) [13] như là một loại đặc trưng âm thanh
được trích xuất từ video. Mượn ý tưởng từ mơ hình BoW
(Bag-of-Words) trong biểu diễn dữ liệu văn bản, sau khi
đặc trưng âm thanh (biểu diễn dạng tập các véc tơ) được
trích xuất từ tập dữ liệu video, quá trình gom cụm các
đặc trưng tạo từ điển được tiến hành. Cuối cùng, mỗi
video sẽ được biểu diễn bởi một véc tơ đặc trưng với
số chiều tương ứng với số từ trong từ điển. Độ tương tự
giữa các video được tính là khoảng cách giữa các véc
tơ đại diện chúng. Q trình tính độ tương tự video dựa
trên đặc trưng âm thanh được thể hiện ở Hình 4.
Hình 4. Minh họa q trình tính độ tương tự video dựa trên đặc trưng
âm thanh (MFCC) được biểu diễn theo mơ hình BoW.
2) Đặc trưng thị giác (Visual): Để tăng độ chính xác
so khớp video thì một trong những u cầu quan trọng
là các điểm đặc trưng cục bộ (local keypoint features)
được rút trích từ các frame phải bất biến với những biến
đổi về độ sáng, tỉ lệ co giãn, phép xoay, .... Một trong
những phương pháp rút trích và mô tả các đặc trưng cục
bộ đáp ứng yêu cầu trên được sử dụng phổ biến nhất
hiện nay là Scale-Invariant Feature Transform (SIFT) [4]
Hình 5. Minh họa q trình tính độ tương tự video dựa trên đặc trưng
thị giác (SIFT) được biểu diễn theo mơ hình BoW.
bao gồm các bước chính là phát hiện và mơ tả các điểm
đặc trưng. Các điểm đặc trưng sẽ được phát hiện và mô
tả trên từng frame của mỗi video. Để phát hiện các điểm
đặc trưng, chúng tôi sử dụng bộ phát hiện đặc trưng phổ
biến Hessian-Affine [10]. Với mỗi đặc trưng, một véc
tơ 128 chiều được tạo ra từ bộ mô tả SIFT. Như vậy,
mỗi frame của video sẽ được biểu diễn bao gồm một
tập các véc tơ đặc trưng 128 chiều. Video được biểu
diễn bằng tập hợp tập các véc tơ đặc trưng biểu diễn
cho từng frame.
Tương tự như quá trình biểu diễn video với đặc trưng
âm thanh, chúng tôi cũng sử dụng mơ hình BoW để biểu
diễn và tính độ tương tự video theo đặc trưng thị giác.
Q trình tính độ tương tự video dựa trên đặc trưng thị
giác được thể hiện ở Hình 5.
3) Thơng tin văn bản (Textual): Thơng tin văn bản đi
kèm video (ví dụ như tiêu đề (title), mơ tả (description),
các thẻ từ khóa (tags)) góp phần quan trọng thể hiện nội
dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm
video. Tuy nhiên, vấn đề đặt ra là thơng tin văn bản có
ý nghĩa tương tự nhau nhưng có thể được diễn đạt với
nhiều từ ngữ khác nhau (điều này chủ yếu là do tính linh
hoạt vốn có của ngơn ngữ tự nhiên cho phép người dùng
thể hiện cùng một nội dung nhưng với các ngôn từ khác
nhau). Trong bài báo này, chúng tôi đề xuất sử dụng từ
điển WordNet [2] để tính độ tương tự ngữ nghĩa giữa
các từ thể hiện trong thông tin văn bản đi kèm video.
Sau khi nghiên cứu rộng rãi một số phương pháp,
chúng tôi đề xuất sử dụng phương pháp của Li để tính
độ tương tự ngữ nghĩa giữa các từ, phương pháp này có
sự tương quan tốt nhất với sự đánh giá của con người về
mức độ tương tự ngữ nghĩa giữa các từ như được trình
bày trong báo cáo [15].
Độ tương tự giữa các video dựa trên thông tin văn
bản đi kèm sử dụng từ điển WordNet được thể hiện ở
Hình 6.
132
132
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Bảng I
BỘ DỮ LIỆU VIDEO THỬ NGHIỆM
Truy vấn
Số video
Số chủ đề
82
92
86
95
89
91
83
90
89
87
4
5
4
5
4
6
5
6
7
5
1. Aston
2. Cobra
3. Jaguar
4. Leopard
5. Lion
6. Lotus
7. Mustang
8. Scorpion
9. Venus
10. Viper
Hình 6. Minh họa q trình tính độ tương tự video dựa trên thơng tin
văn bản đi kèm sử dụng từ điển WordNet.
C. Gom cụm video
Quá trình gom cụm video dựa trên sự kết hợp đặc
trưng âm thanh, đặc trưng thị giác và thông tin văn bản
được thực hiện qua 3 bước sau:
Bước 1. Độ tương tự giữa các video theo từng đặc
trưng cụ thể sẽ được tính theo các phương pháp được
trình bày ở mục trước đó.
Bước 2. Với hai video bất kỳ X và Y , độ tương tự
kết hợp đa đặc trưng được tính theo cơng thức sau:
Sim (X, Y ) =
mỗi đặc trưng i
wi ∗ Simi (X, Y )
(1)
trong đó, Sim (X, Y ) là độ tương tự kết hợp đa đặc
trưng giữa hai video X và Y , Simi (X, Y ) là độ tương
tự giữa hai video X và Y theo đặc trưng i, wi là trọng
số của đặc trưng i.
Bước 3. Áp dụng thuật toán gom cụm dữ liệu để thực
hiện gom cụm video dựa trên độ tương tự kết hợp đa
đặc trưng.
III. THỰC NGHIỆM
A. Bộ dữ liệu video
Chúng tôi sử dụng phần mềm mã nguồn mở TubeKit1
để tải dữ liệu video thực từ YouTube thông qua YouTube
API. Chúng tôi tải về khoảng 80 đến 100 video (thời
lượng mỗi video từ 2 đến 10 phút) cho mỗi truy vấn và
thực hiện loại bỏ một số video biệt lập, ít liên quan đến
truy vấn tìm kiếm. Sự loại bỏ này là hợp lý bởi vì chúng
tơi đang thử nghiệm tính năng hậu xử lý gom cụm kết
quả tìm kiếm video chứ khơng phải là tìm kiếm chính
xác của một cơng cụ tìm kiếm video.
Thí nghiệm được tiến hành trên bộ dữ liệu gồm 884
video của 10 truy vấn với các từ khóa khác nhau. Thơng
tin chi tiết về bộ dữ liệu video được mô tả ở Bảng I.
B. Phương pháp đánh giá
Để đánh giá chất lượng gom cụm video. Chúng tôi
sử dụng 2 độ đo phổ biến là Entropy và Purity [14].
Entropy của mỗi cụm phản ánh sự phân tán video
thuộc các chủ đề trong mỗi cụm, giá trị Entropy đánh
giá chất lượng gom cụm tổng thể được tính là trung bình
cộng của tất cả các Entropy của các cụm. Với tập dữ
liệu gồm n video thuộc k loại (chủ đề) được gán nhãn
thủ công, ký hiệu là Cj , j = 1, ..., k và thuật toán gom
cụm n video vào k cụm Pi với i = 1, ..., k. Entropy
đánh giá chất lượng gom cụm toàn cục cho tất cả các
cụm được tính tốn theo cơng thức sau:
ni
nij
nij
Entropy = −
log
(2)
n
n
ni
i
i
j
trong đó ni là số video trong cụm Pi , nij là số video
trong cụm Pi thuộc chủ đề Cj và n là tổng số video
trong tất cả các cụm.
Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa
video thuộc cùng một chủ đề duy nhất. Khi đó, giá trị
Entropy sẽ bằng khơng. Nói một cách tổng quát, giá trị
Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.
Purity phản ánh độ tinh khiết của các cụm. Purity của
một cụm được xác định dựa trên số video thuộc chủ đề
mà xuất hiện nhiều nhất trong cụm đó. Purity đánh giá
chất lượng gom cụm tồn cục cho tất cả các cụm được
tính tốn theo cơng thức sau với các ký hiệu có ý nghĩa
tương tự như trong cơng thức tính Entropy:
ni
nij
(maxj
)
(3)
P urity =
n
ni
i
Ngược lại với Entropy, giá trị Purity càng lớn thì cho
kết quả gom cụm tốt hơn.
C. Cài đặt thực nghiệm
Nhằm mục đích so sánh, đánh giá kết quả gom cụm
video với phương pháp đề xuất, chúng tôi tiến hành cài
1 www.tubekit.org
133
133
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Cơng Nghệ Thơng Tin (ECIT 2015)
đặt các thí nghiệm sau:
• A (Audio): Gom cụm video dựa trên độ tương tự
theo đặc trưng âm thanh.
• V (Visual): Gom cụm video dựa trên độ tương tự
theo đặc trưng thị giác.
• T (Textual): Gom cụm video dựa trên độ tương tự
theo thông tin văn bản đi kèm video.
• A-V-T (Audio-Visual-Textual) (hướng tiếp cận của
chúng tôi): Gom cụm video dựa trên độ tương tự
kết hợp đặc trưng âm thanh, đặc trưng thị giác và
theo thông tin văn bản đi kèm video.
Để xem xét sự tương quan giữa các đặc trưng trong
mơ hình kết hợp, chúng tôi thử nghiệm phương pháp kết
hợp đặc trưng đề xuất với các bộ trọng số khác nhau
ứng với từng đặc trưng được thể hiện trong Bảng II.
Bảng II
TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG
Trọng
số
Âm
thanh
(Audio)
Thị giác
(Visual)
Văn bản
(Textual)
Tổng
tsA
tsB
tsC
0.60
0.35
0.20
0.30
0.50
0.60
0.10
0.15
0.20
1.00
1.00
1.00
Để gom cụm video, chúng tơi sử dụng thuật tốn KMedoids (một thuật tốn gom cụm phổ biến) vì hai lý
do sau: (i) trọng tâm của cụm là một đối tượng cụ thể
(tâm thật), (ii) độ tương tự giữa các đối tượng chỉ cần
tính một lần (điều này là phù hợp với đầu vào là độ đo
tương tự kết hợp đa đặc trưng giữa các video được xử
lý tính tốn trước đó).
Đối với bài tốn gom cụm tổng qt thì số cụm được
khai báo linh động bởi người dùng. Số cụm càng ít thì
tỷ lệ các đối tượng khác nhau được gom về cùng một
cụm càng cao, số cụm càng nhiều thì tỷ lệ các đối tượng
giống nhau được gom vào các cụm khác nhau càng lớn.
Trong bài báo này, để công bằng trong việc đánh giá
giữa các phương pháp thực nghiệm, chúng tơi tiến hành
thử nghiệm thuật tốn gom cụm với số cụm đầu vào
tương ứng với số chủ đề của mỗi truy vấn.
D. Kết quả thực nghiệm
Kết quả gom cụm video ứng với các truy vấn khác
nhau đánh giá theo Entropy và Purity được thể hiện ở
Hình 7 và Hình 8.
Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các
bộ dữ liệu video của các truy vấn, phương pháp sử dụng
đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho
kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp
hơn) so với phương pháp sử dụng thông tin văn bản
đi kèm (T). Điều này cho thấy xu hướng những video
134
134
Hình 7. Kết quả gom cụm video được đánh giá theo Entropy.
tương tự nhau (thuộc cùng chủ đề) thường có những đối
tượng hình ảnh cụ thể và âm thanh tương tự nhau. Tuy
nhiên, kết quả thí nghiệm cũng cho thấy rằng mỗi đặc
trưng đều có ưu thế riêng đối với mỗi bộ dữ liệu video
của từng truy vấn. Phương pháp kết hợp đa đặc trưng
của chúng tôi (A-V-T) được thử nghiệm với các bộ trọng
số khác nhau cho mỗi đặc trưng đều cho kết quả gom
cụm video tốt hơn so với các phương pháp sử dụng từng
đặc trưng riêng lẻ (A), (V), (T). Điều này chứng minh
tính hiệu quả của việc kết hợp đặc trưng âm thanh, đặc
trưng thị giác và thông tin văn bản đi kèm video trong
quá trình gom cụm video. Phương pháp A-V-T (tsA), AV-T (tsB) cho kết quả gom cụm video tốt nhất (đạt giá
trị Entropy thấp nhất chứng minh xác suất phân bố các
video thuộc cùng một chủ đề vào các cụm khác nhau là
thấp nhất). Điều này cho thấy rằng trong chiến lược kết
hợp đa đặc trưng giải quyết bài tốn gom cụm kết quả
tìm kiếm video thì đặc trưng âm thanh và đặc trưng thị
giác chiếm ưu thế hơn so với thông tin văn bản đi kèm
video.
Kết quả thể hiện ở Hình 8 cho thấy phương pháp A-VT (tsA), A-V-T (tsB) cũng cho kết quả gom cụm video
tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ
phân bố những video thuộc cùng một chủ đề vào cùng
một cụm là cao nhất).
Minh họa kết quả trực quan gom cụm video được thể
hiện ở Hình 9.
Kết quả gom cụm video thể hiện ở Hình 9 bao gồm
6 cụm video liên quan đến truy vấn “Scorpion”. Cụm
1 bao gồm những video ca nhạc thể hiện bởi ban nhạc
Scorpions. Cụm 2 bao gồm những video liên quan đến
động vật (con bọ cạp). Cụm 3 bao gồm những video
game. Cụm 4 gồm những video giới thiệu về mũ bảo
hiểm thương hiệu Scorpion. Cụm 5 gồm những video
tập Yoga (Scorpion Pose). Cụm 6 gồm những video liên
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
thấy rằng phương pháp kết hợp đề xuất giúp cải thiện
chất lượng gom cụm video so với các phương pháp sử
dụng từng đặc trưng riêng lẻ.
Hướng phát triển tiếp theo là có thể khai thác thêm
các thơng tin được trích xuất từ đặc trưng chuyển động
(motion features) của video. Thử nghiệm và đánh giá
kết quả gom cụm video dựa trên việc kết hợp các bộ
đặc trưng khác nhau nhằm xây dựng bộ đặc trưng phù
hợp cho bài tốn gom cụm kết quả tìm kiếm video.
LỜI CẢM ƠN
Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành
phố Hồ Chí Minh (ĐHQG-HCM) trong khn khổ Đề
tài mã số C2015-26-02.
Hình 8. Kết quả gom cụm video được đánh giá theo Purity.
TÀI LIỆU THAM KHẢO
Hình 9. Minh họa trực quan một phần kết quả gom cụm video với
truy vấn “Scorpion”.
quan đến một loại xe chuyên dụng thu hoạch gỗ thông
(Ponsse Scorpion). Từ kết quả trực quan gom cụm video,
chúng tôi quan sát thấy rằng đa số các video thuộc cùng
chủ đề đều được gom trong cùng một cụm. Thơng qua
kết quả gom cụm video, người dùng có thể xác định
được những video mà họ quan tâm một cách dễ dàng
hơn thay vì phải duyệt qua một danh sách phẳng các kết
quả tìm kiếm như trước đây.
IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong bài báo này, chúng tôi đề xuất phương pháp kết
hợp đặc trưng âm thanh, đặc trưng thị giác được trích
xuất trực tiếp từ nội dung video cùng với các thông tin
văn bản đi kèm video dựa trên những phân tích về ưu
điểm của từng loại đặc trưng. Kết quả thí nghiệm cho
[1] A. Hindle, J. Shao, D. Lin, J. Lu and R. Zhang, “Clustering Web
Video Search Results Based on Integration of Multiple Features,”
In WWW, pp. 53-73, 2011.
[2] C. Fellbaum, ed., “WordNet: An electronic lexical database,”
Language, Speech, and Communication. MIT Press, Cambridge,
USA, 1998.
[3] D. Cai, X. He, Z. Li, W.Y. Ma, J.R. Wen, “Hierarchical clustering
of www image search results using visual, textual and link
information,” In ACM Multimedia, pp. 952-959, 2004.
[4] D. G. Lowe, “Distinctive Image Features from Scale-Invariant
Keypoints,” International Journal of Computer Vision, 60, 2, pp.
91-110, 2004.
[5] F. Jing, C. Wang, Y. Yao, K. Deng, L. Zhang, W.Y. Ma, “Igroup:
web image search results clustering,” In ACM Multimedia, pp.
377-384, 2006.
[6] G. Mecca, S. Raunich, A. Pappalardo, “A new algorithm for
clustering search results,” Data Knowl, Eng.62(3), pp. 504-522,
2007.
[7] H. Huang, Y. Lu, F. Zhang, and S. Sun, “A multi-modal clustering
method for web videos,” In Trustworthy Computing and Services,
pp. 163-169, 2013.
[8] H. Zeng, Q. He, Z. Chen, W. Ma, and J. Ma, “Learning to cluster
web search results,” In Proceedings of ACM SIGIR ’04, 2004.
[9] J. Park, X. Gao, and P. Andreae, “Query directed web page
clustering using suffix tree and wikipedia links,” In Advanced
Data Mining and Applications, pp. 91-99, 2012.
[10] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J.
Matas, F. Schaffalitzky, T. Kadir, and L. Van Gool, “A comparison
of affine region detectors,” International journal of computer
vision, vol. 65, no. 1-2, pp. 43-72, 2005.
[11] M. Rege, M. Dong, and J. Hua, “Clustering Web Images with
Multi-modal Features,” In Proceedings of the 15th International
Conference on Multimedia, pp. 317-320, 2007.
[12] S. Liu, M. Zhu, Q. Zheng, “Mining similarities for clustering
web video clips,” In CSSE (4), pp. 759-762, 2008.
[13] U. Srinivasan, S. Pfeiffer, S. Nepal, M. Lee, L. Gu, S. Barrass,
“A Survey of Mpeg-1 Audio, Video and Semantic Analysis
Techniques,” Multimedia Tools and Applications, 27(1), pp. 105141, 2005.
[14] Y. Zhao, G. Karypis, “Criterion functions for document clustering: experiments and analysis,” Technical Report TR01-40,
Department of Computer Science, University of Minnesota, 2001.
[15] Y.H. Li, Z. Bandar and D. McLean, “An approach for measuring
semantic similarity using multiple information sources,” IEEE
Transactions on Knowledge and Data Engineering, vol. 15, no.
4, pp. 871-882, 2003.
135
135