Tải bản đầy đủ (.pdf) (64 trang)

TRUY vấn sản PHẨM đồ nội THẤT BẰNG ẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.33 MB, 64 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
—————  ★  —————

Trần Thành Tân

TRUY VẤN SẢN PHẨM ĐỒ NỘI THẤT BẰNG ẢNH

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

TP HỒ CHÍ MINH – NĂM 2017


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình độc lập của riêng tôi. Những nội
dung tham khảo trong luận văn này cũng được nêu rõ nguồn tham khảo và bộ dữ liệu
ảnh sử dụng để xây dựng hệ thống tìm kiếm sản phẩm đã được sự chấp thuận đồng ý
của công ty School Outfitters. Các kết quả nghiên cứ trong luận văn do tôi tự thực hiện,
phân tích một cách trung thực, khách quan theo đúng mục đích đánh giá của đề tài.

1


LỜI CẢM ƠN
Luận văn này là kết quả của suốt quá trình học tập. Bên cạnh những nỗ lực cá
nhân thì sự góp ý, hỗ trợ của thầy cô, bạn bè và đồng nghiệp đóng vai trò quan trọng để
luận văn này được hoàn thành đúng mục tiêu và thời hạn.
Trước tiên xin cảm ơn Tiến sĩ Ngô Đức Thành, những kiến thức đã thầy truyền
đạt cùng với sự khơi mở ý tưởng của thầy chính là động lực nền quan trọng thôi thúc


tôi thực hiện đề tài này. Đồng thời xin cảm ơn thầy Nguyễn Vinh Tiệp đã nhiệt tình hỗ
trợ, đóng góp ý kiến trong suốt quá trình tôi thực hiện luận văn. Nếu không có những
chia sẻ kinh nghiệm quý giá của thầy Tiệp, chắc chắn tôi sẽ cần thêm rất nhiều thời gian
để hoàn thành luận văn.
Cuối cùng xin gửi lời cảm ơn đến ông David Lewis, anh Huỳnh Sang và các anh
chị đồng nghiệp ở công ty School Outfitters đã tin tưởng và luôn tạo điều kiện tốt nhất
để nội dung của luận văn này được thực hiện sát với nhu cầu thực tiễn.
Thành phố Hồ Chí Minh, ngày 2 tháng 8 năm 2017
Học viên cao học Khoa học máy tính Khóa 9
TRẦN THÀNH TÂN

2


MỤC LỤC
Chương 1. Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh .................... 9
1.1.

Đặt vấn đề ............................................................................................ 9

1.2.

Mục tiêu, đối tượng và phạm vi nghiên cứu ..................................... 10

1.2.1. Mục tiêu nghiên cứu ..................................................................... 10
1.2.2. Đối tượng và phạm vi nghiên cứu................................................. 12
1.3.

Tính ứng dụng của đề tài ................................................................... 13


Chương 2. Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất .............. 15
2.1.

Những yêu cầu cho hệ thống truy vấn sản phẩm bằng ảnh ............... 15

2.1.1. Độ chính xác của hệ thống ............................................................ 15
2.1.2. Bộ dữ liệu ảnh và tốc độ tìm kiếm của hệ thống .......................... 16
2.1.3. Tính ổn định của hệ thống ............................................................ 19
2.2.

Các phương pháp cho bài toán truy vấn ảnh hiện nay ...................... 20

2.2.1. Tìm kiếm theo đặc trưng văn bản đi kèm ảnh .............................. 20
2.2.2. Tìm kiếm theo đặc trưng nội dung ảnh (CBIR) ............................ 22
2.2.3. Tìm kiếm theo đối tượng (OBIR) ................................................. 23
2.2.4. Kết hợp phương pháp máy học (machine learning)...................... 23
2.3.

Lựa chọn đặc trưng ảnh cho hệ thống tìm kiếm sản phẩm nội thất .. 24

2.3.1. Đặc trưng toàn cục ........................................................................ 24
2.3.2. Đặc trưng cục bộ ........................................................................... 25
2.3.3. Thử nghiệm với các đặc trưng SIFT, SURF và HoG ................... 27
Chương 3. Xây dựng hệ thống truy vấn sản phẩm nội thất ảnh ..................... 29
3.1.

Đặc trưng cục bộ bất biến SIFT ........................................................ 29

3.1.1. Tìm các điểm cực trị Scale-Space ................................................. 30
3



Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

3.1.2. Định vị các keypoints .................................................................... 32
3.1.3. Mô tả các keypoints ...................................................................... 33
3.1.4. Xác định hướng cho các keypoints đã được lựa chọn .................. 34
3.1.5. Độ đo tương đồng cho đặc trưng SIFT ......................................... 34
3.1.6. Phương pháp túi từ (Bag-of-Words, BoW)................................... 35
3.1.7. Phương pháp BoW cho bài toán truy vấn nội dung văn bản ........ 35
3.1.8. Phương pháp BoW cho bài toán truy vấn nội dung ảnh (CBIR) .. 37
3.2.

Cơ sở dữ liệu ảnh của hệ thống tìm kiếm sản phẩm đồ nội thất ....... 42

3.2.1. Tổ chức tập dữ liệu ảnh................................................................. 42
3.2.2. Cấu trúc tập tin dữ liệu .................................................................. 43
3.3.

Các modules trong hệ thống tìm kiếm sản phẩm bằng ảnh ............... 45

3.3.1. Search Engine ............................................................................... 46
3.3.2. Search Server ................................................................................ 47
3.3.3. Portal ............................................................................................. 48
Chương 4. Triển khai và đánh giá hệ thống .................................................... 49
4.1.

Giao diện chính của chương trình ..................................................... 49

4.2.


Đánh giá hệ thống .............................................................................. 50

4.2.1. Độ chính xác của hệ thống tìm kiếm sản phẩm bằng ảnh............. 52
4.2.2. Các kết quả thử nghiệm và đánh giá ............................................. 52
4.3.

Kết luận ............................................................................................. 56

4.3.1. Những vấn đề đã được giải quyết ................................................. 56
4.3.2. Những hạn chế của hệ thống và hướng giải quyết ........................ 56

4


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết đầy đủ

STT

Từ viết tắt

1

SO

School Outfitters

2


CBIR

Content Based Image Retrieval

4

QBIC

Query Based Image Content

5

SIFT

Scale-Invariant Feature Transform

6

SURF

Speeded-Up Robust Features

7

DoG

Difference-of-Gaussian

8


BoW

Bag-of-Words

9

BoVW

Bag-of-Visual Words

10

DoVW

Dictionary-of-Visual Words

5


DANH MỤC CÁC BẢNG
Bảng 2.1. Bảng so sánh độ chính xác của SIFT,SURF và HoG. ...................... 28
Bảng 3.1. Thử nghiệm với bộ dữ liệu sản phẩm ghế. ....................................... 40
Bảng 3.2. Thử nghiệm với bộ dữ liệu sản phẩm bàn. ....................................... 40
Bảng 4.1. Kết quả đánh giá độ chính xác với sản phẩm ghế............................. 53
Bảng 4.2. Kết quả đánh giá độ chính xác với sản phẩm bàn............................. 54

6


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Sự đa dạng của một loại đối tượng (ghế).[10]................................... 11
Hình 1.2. Sự đa dạng về góc nhìn của một đối tượng.[10] ............................... 12
Hình 1.3. Ảnh chụp của một sản phẩm (ghế) tại công ty SO.[19] .................... 13
Hình 2.1. Ứng dụng hỗ trợ chụp ảnh truy vấn cho hệ thống. ............................ 16
Hình 2.2. Phân cấp sản phẩm của công ty SO. .................................................. 17
Hình 2.3. Một chiếc bàn rất giống ghế.[19] ...................................................... 18
Hình 2.4. Sản phẩm kết hợp giữa bàn và ghế.[19] ............................................ 18
Hình 2.5. Kết quả tìm kiếm với từ khóa "Apple".[6] ........................................ 21
Hình 2.6. Ứng dụng Tag Galaxy.[20] ............................................................... 21
Hình 2.7. Ứng dụng Goggles.[7] ....................................................................... 23
Hình 2.8. Đặc trưng toàn cục histogram của ảnh.[18] ...................................... 25
Hình 2.9. Các keypoints rút trích bằng thuật toán Harris corner detector.[2] ... 26
Hình 2.10. Vấn đề invariance của một đối tượng.[2] ........................................ 27
Hình 3.1. Biểu đồ mô phỏng việc tính toán các DoG từ các ảnh kề mờ.[12] ... 31
Hình 3.2. Mỗi điểm ảnh được so sánh với 26 điểm ảnh láng giềng.[12] .......... 32
Hình 3.3. Quá trình loại bỏ các keypoints không phù hợp.[12] ........................ 33
Hình 3.4. Vector đặc trưng hướng và độ lớn cho các keypoints.[12] ............... 34
Hình 3.5. Các từ xuất hiện nhiều lần thể hiện nội dung chính của văn bản.[5] 35
Hình 3.6. Thể hiện hình ảnh khác nhau của từ “nón”.[6].................................. 37
Hình 3.7. Thu thập các visual word từ một ảnh.[5]........................................... 38
Hình 3.8. Histogram về các visual words của mỗi ảnh.[5] ............................... 38
Hình 3.9. Quá trình rút trích các visual words/codewords.[14] ........................ 39
Hình 3.10. Sự tương đồng loại và hình dáng sản phẩm tìm kiếm ..................... 41
Hình 3.11. Quá trình tạo và sử dụng các tập tin chỉ mục. ................................. 44
Hình 3.12. Các modules của hệ thống tìm kiếm sản phẩm bằng ảnh................ 46
Hình 4.1. Giao diện chính của Portal. ............................................................... 49
Hình 4.2. Minh họa một truy vấn ảnh. .............................................................. 50
7



MỞ ĐẦU
Những năm gần đây sự bùng nổ về dữ liệu đã thúc đẩy việc ứng dụng trí tuệ nhân
tạo xây dựng các ứng dụng hỗ trợ trải nghiệm người dùng tốt hơn. Dữ liệu nhiều dẫn
đến nhu cầu truy vấn dữ liệu là cấp thiết, đặc biệt là dữ liệu ảnh do tính trực quan, chứa
đựng nhiều thông tin. Đã có nhiều đề tài về truy vấn dữ liệu ảnh nhưng vẫn còn nhiều
hạn chế. Trong phạm vi của luận văn này sẽ thực hiện xây dựng một hệ thống dữ liệu
để hỗ trợ việc tìm kiếm một số loại sản phẩm bằng ảnh cho một công ty kinh doanh đồ
nội thất. Bố cục của bài luận văn này gồm bốn chương:
• Chương 1: Tổng quan về mục tiêu và phạm vi thực hiện của hệ thống tìm
kiếm sản phẩm bằng ảnh. Nhu cầu và tính ứng dụng của đề tài cũng sẽ được trình
bày tại chương này.
• Chương 2: Nêu ra những vấn đề mà hệ thống tìm kiếm sản phẩm bằng
ảnh cần phải giải quyết từ đó lựa chọn phương pháp xây dựng phù hợp.
• Chương 3: Chi tiết về tổ chức và cách xây dựng các thành phần hệ thống
tìm kiếm sản phẩm bằng ảnh.
• Chương 4: Đánh giá hệ thống tìm kiếm sản phẩm bằng ảnh về kết luận.

8


Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

Chương 1. Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh
1.1. Đặt vấn đề
Bài toán tìm kiếm bằng hình ảnh đã được đặt ra từ rất sớm cho ngành Thị giác
máy tính. Sự bùng nổ thiết bị các thiết bị di động hiện nay làm cho số lượng ảnh được
tải lên mạng Internet tăng lên một cách nhanh chóng. Theo thống kê của năm 2014,
mỗi ngày có 1,8 tỉ ảnh được chia sẻ và tải lên Internet [4]. Với số lượng ảnh lớn như
vậy, nhu cầu truy tìm kiếm, truy vấn thông tin trực quan bằng ảnh là cần thiết. Bên
cạnh đó trong việc nhu cầu mua sắm trực tuyến hiện nay, khách hàng tìm kiếm và đặt

mua các sản phẩm thông qua các mô tả văn bản (như tên sản phẩm, mã sản phẩm…)
sẽ bị hạn chế trong một số trường hợp như khi họ cần tìm trên website những sản
phẩm tương tự về màu sắc, kiểu dáng so với một sản phẩm nào đó. Trong quá trình
làm việc thực tế tại một công ty kinh doanh đồ nội thất trực tuyến, nhu cầu xây dựng
một hệ thống tìm kiếm sản phẩm bằng hình ảnh đã được đặt ra. Nếu có một phương
thức hỗ trợ khách hàng tìm kiếm sản phẩm bằng việc cung cấp một bức ảnh thì trải
nghiệm mua sắm sẽ thuận tiện và thú vị hơn.
Nhiều hệ thống thử nghiệm của các tập đoàn lớn đã được xây dựng như:
Google Image Search, Google Image Swirl, Bing, Yahoo… Các hệ thống này thực
hiện việc tìm kiếm ảnh với truy vấn đầu vào là văn bản (các từ khóa) được nhập từ
người dùng. Việc thực hiện tìm kiếm ảnh bằng ảnh do người dùng cung cấp hiện đã
nhận được nhiều sự quan tâm. Ví dụ như ứng dụng Goggles của Google... Tuy vậy,
khác với tìm kiếm văn bản, một trong những thách thức của việc tìm kiếm bằng ảnh
là sự đa dạng của dữ liệu, vì cùng một đối tượng nhưng sẽ có rất nhiều góc chụp khác
nhau cũng như là sự đa dạng của chính bản thân đối tượng (xe có rất nhiều loại xe
khác nhau). Để cải thiện kết quả tìm kiếm, các hệ thống kể trên được xây dựng để
phục vụ cho việc tìm kiếm các ảnh trong một lĩnh vực (domain) nhất định, hoặc sẽ
giới hạn lại lượng dữ liệu ảnh cần tìm kiếm (chỉ tìm trong một tập dữ liệu ảnh giới

9


Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

hạn). Ví dụ như Goggles chỉ nhận dạng tốt nếu ảnh là các đối tượng phổ biến, nổi
tiếng (tháp Eiffel, tượng Nữ thần tự do…).
Hiện nay đã có các hệ thống tìm kiếm ảnh cho một số lĩnh vực như sản phẩm
giày dép, tra cứu cây thuốc… nhưng trong lĩnh vực đồ nội thất (như bàn, ghế…) vẫn
chưa có. Những lý do nêu trên chính là động lực để luận văn này được thực hiện. Nội
dung chính của luận văn này là lựa chọn phương pháp phù hợp cho việc xây dựng và

triển khai một hệ thống tìm kiếm sản phẩm đồ nội thất đáp ứng được nhu cầu sử dụng
thực tế cho công ty kinh doanh đồ nội thất.

1.2. Mục tiêu, đối tượng và phạm vi nghiên cứu
1.2.1. Mục tiêu nghiên cứu
Mục tiêu chính của đề tài là xây dựng một hệ thống tìm kiếm sản phẩm đồ nội
thất bằng hình ảnh áp dụng được trong hoạt động thực tế của công ty School Outfitters
(SO). Cách hoạt động của hệ thống này như sau:
• Cơ sở dữ liệu ảnh sản phẩm: Mỗi sản phẩm của công ty có một ảnh
chụp trực diện từ phía trước của sản phẩm. Tập các ảnh này chính là cơ sở dữ
liệu ảnh để hệ thống sẽ thực hiện tìm kiếm.
• Dữ liệu đầu vào (input): Người dùng (khách hàng của công ty) sẽ cung
cấp một bức ảnh cho hệ thống thông qua việc tải lên website của công ty hoặc
một ứng dụng di động. Ảnh này sẽ được xem là ảnh mẫu để thực hiện tìm
kiếm trong cơ sở dữ liệu ảnh sản phẩm của công ty.
• Kết quả trả về (output): Sau khi xử lý, các ảnh nào có độ tương tự cao
nhất (tốp 10 ảnh đầu tiên) so với ảnh mẫu được cung cấp thì sẽ được liệt kê
lên website để khách hàng xem.
Bên cạnh đó, việc tìm hiểu các phương pháp phù hợp cho việc tìm kiếm ảnh
đồ nội thất cũng cần được thực hiện trước khi bắt tay xây dựng hệ thống. Một số
thách thức đặc trưng trong việc tìm kiếm sản phẩm đồ nội thất:
10


Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

• Đa dạng về các loại sản phẩm: Các sản phẩm nội thất không chỉ được
tạo ra để thực hiện một chức năng cụ thể mà đôi khi còn mang yếu tố trang trí,
thẩm mỹ (Hình 1.1). Vì vậy, sự đa dạng về hình dáng, màu sắc của sản phẩm
nội thất là một khó khăn cho việc tìm kiếm bằng ảnh.

• Đa dạng về góc chụp của ảnh đầu vào: Cùng một đối tượng nhưng với
các góc nhìn khác nhau cũng sẽ dẫn đến sự đa dạng cho việc thể hiện bằng
ảnh của đối tượng đó (invariance). Ví dụ với một chiếc ghế nhưng nếu ảnh
được chụp từ hai góc khác nhau sẽ cho ra những thông tin về nội dung ảnh rất
khác nhau (Hình 1.2).
• Tốc độ tìm kiếm và chi phí xử lý hiệu quả: Với sự đa dạng về dữ liệu
nêu trên, đây cũng là một thách thức khi đưa hệ thống vào sử dụng trong thực
tế. Nếu việc tìm kiếm ảnh quá lâu sẽ gây chán nản cho khách hàng. Còn nếu
chi phí xử lý quá cao sẽ làm hệ thống quá tải khi có nhiều truy vấn ảnh gửi
đến.

Hình 1.1. Sự đa dạng của một loại đối tượng (ghế).[10]

11


Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

Hình 1.2. Sự đa dạng về góc nhìn của một đối tượng.[10]

1.2.2. Đối tượng và phạm vi nghiên cứu
Đối tượng mà hệ thống tìm kiếm ảnh hướng đến chính là các sản phẩm của
công ty SO. Công ty có rất nhiều loại sản phẩm liên quan đến nội thất trường học,
tuy nhiên trong phạm vi của bài luận văn này sẽ tập trung vào hai mặt hàng chính là
ghế và bàn. Lý do lựa chọn hai mặt hàng này làm đối tượng chính vì đây là hai mặt
hàng phổ biến và cũng rất da dạng của công ty, nếu có thể lựa chọn một phương pháp
đáp ứng được việc tìm kiếm hai loại mặt hàng này thì việc mở rộng cho các loại mặt
hàng khác là khả dĩ.
Hiện tại, mỗi sản phẩm của công ty được phân biệt bởi một mã sản phẩm và
được thể hiện bởi một bức ảnh. Dữ liệu chính của hệ thống tìm kiếm ảnh sẽ là bộ dữ

liệu ảnh trên của các sản phẩm ghế và bàn. Vì mỗi sản phẩm chỉ có một ảnh thể hiện
nên đây cũng sẽ là một trở ngại cần xem xét để cải thiện độ chính xác của hệ thống.

12


Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

Hình 1.3. Ảnh chụp của một sản phẩm (ghế) tại công ty SO.[19]

Hệ thống sẽ thực hiện việc tìm kiếm sản phẩm theo mô tả sau:
• Người dùng truy cập vào hệ thống tìm kiếm sản phẩm bằng hình ảnh
tại website của công ty để cung cấp cho hệ thống tìm kiếm một ảnh của sản
phẩm cần tìm (ghế hoặc bàn), gọi là ảnh truy vấn (query image). Ảnh truy vấn
có thể được cung cấp bằng cách tải lên (upload) website hoặc được chụp trực
tiếp từ thiết bị di động của người dùng.
• Dựa vào cơ sở dữ liệu ảnh của các sản phẩm hệ thống sẽ chọn ra tốp
các sản phẩm có ảnh thể hiện tương đồng cao nhất (tốp 10 sản phẩm đầu tiên)
so với ảnh truy vấn thì sẽ được liệt kê lên website để khách hàng xem.

1.3. Tính ứng dụng của đề tài
Việc xây dựng hệ thống tìm kiếm sản phẩm bằng hình ảnh cung cấp một cách
thức giúp nâng cao trải nghiệm tìm mua sản phẩm khách hàng trong một số ngữ cảnh
mà việc mô tả bằng văn bản bị hạn chế. Tuy nhiên, nếu hệ thống có thể hoạt động
với một độ chính xác hợp lý thì sẽ rất hứa hẹn cho việc thay thế cách tìm kiếm truyền
thống theo nội dung văn bản. Rõ ràng việc dùng một thiết bị di động chụp một sản
phẩm và tìm kiếm thông tin mua bán sản phẩm trên website sẽ nhanh và tiện lợi hơn
so với việc gõ các từ khóa mô tả sản phẩm.
13



Chương 1. . Khái quát về truy vấn sản phẩm đồ nội thất bằng ảnh

Mặt khác, bài toán tìm kiếm bằng hình ảnh tuy không mới nhưng nội dung của
đề tài cũng sẽ đóng góp một phần vào việc tìm hiểu các đặc trưng nội dung ảnh những
mặt hàng nội thất trong ngữ cảnh thực tế của một công ty.

14


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

Chương 2. Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất
Hiện nay đã có nhiều phương pháp được đề xuất cho bài toán truy vấn dữ liệu
ảnh. Vì vậy việc đầu tiên để xây dựng hệ thống tìm kiếm sản phẩm bằng hình ảnh là
cần lựa chọn một phương pháp phù hợp để triển khai. Nội dung của chương này sẽ
trình bày một số phương pháp phổ biến hiện nay của bài toán truy vấn ảnh, sau đó
trình bày những yêu cần mà hệ thống tìm kiếm sản phẩm bằng ảnh cần phải giải
quyết, từ đó sẽ lựa chọn một phương pháp thích hợp nhất.

2.1. Những yêu cầu cho hệ thống truy vấn sản phẩm bằng ảnh
Mục tiêu của đề tài là xây dựng một hệ thống tìm kiếm sản phẩm bằng hình
ảnh để nâng cao trải nghiệm mua sắm của khách hàng vì vậy hệ thống phải đáp ứng
được một số yêu cầu sau:
• Sản phẩm tìm được phải phù hợp với nhu cầu tìm kiếm của khách hàng.
• Tốc độ tìm kiếm chấp nhận được, không thể quá lâu.
• Hệ thống phải có tính ổn định.
• Sự tương đồng của kết quả với ảnh truy vấn.

2.1.1. Độ chính xác của hệ thống

Với bài toàn truy vấn ảnh, kết quả của quá trình truy vấn phải phù hợp với nội
dung truy vấn. Các vấn đề ảnh hưởng đến độ chính xác như: sự đa dạng hình ảnh,
góc chụp của cùng một đối tượng; sự khác nhau về độ phân giải, kích thước của
ảnh… Thông thường các ảnh chụp một đối tượng nào đó sẽ có phần nền (background)
phía sau. Phần nền này đôi khi sẽ gây nhiễu vì làm cho trong ảnh sẽ có nhiều đối
tượng xuất hiện. Tất cả các ảnh trong bộ dữ liệu ảnh sản phẩm đều không có nền, tuy
nhiên với các ảnh truy vấn do người dùng cung cấp có thể sẽ có nền. Để hạn chế sự
nhiễu do nền ảnh, hệ thống sẽ có một tính năng hỗ trợ người dùng chụp ảnh trong

15


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

một khung nhìn xác định nhắm giúp cho ảnh tập trung hơn vào đối tượng cần chụp
(Hình 2.1).

Hình 2.1. Ứng dụng hỗ trợ chụp ảnh truy vấn cho hệ thống.

2.1.2. Bộ dữ liệu ảnh và tốc độ tìm kiếm của hệ thống
Bộ dữ liệu ảnh thu thập được là các ảnh đại diện cho sản phẩm ghế và bàn của
công ty SO. Thông qua việc đánh giá tình trạng của bộ dữ liệu này sẽ quyết định
phương pháp thiết kế và cách thức vận hành của hệ thống tìm kiếm.

2.1.2.1. Số lượng ảnh của bộ dữ liệu
Mỗi một sản phẩm ghế và bàn sẽ có một ảnh đại diện đi kèm. Toàn bộ dữ liệu
ảnh có 3714 ảnh gồm: 2253 ảnh sản phẩm ghế và 1461 ảnh sản phẩm bàn. Số lượng
ảnh này không quá lớn nhưng cũng cần phải xem xét đến các yếu tố về chi phí vận
hành của hệ thống tìm kiếm: thời gian thực hiện tìm kiếm và bộ nhớ dành cho hệ
thống.

Quá trình tìm kiếm là quá trình ảnh truy vấn sẽ được so với từng ảnh trong bộ
dữ liệu để xây dựng một danh sách thứ tự (ranked list) theo độ tương đồng của các
ảnh và ảnh truy vấn. Chi phí của toàn bộ quá trình trên phụ thuộc vào chi phí tính
toán độ tương đồng giữa hai ảnh, đây sẽ là cơ sở chính để lựa chọn phương pháp xây
dựng hệ thống tìm kiếm. Nếu thời gian thực hiện tìm kiếm của hệ thống quá chậm thì
sẽ làm giảm trải nghiệm của khách hàng. Bên cạnh đó trong suốt quá trình xử lý, hệ
thống tìm kiếm sẽ cần một lượng bộ nhớ lớn để quản lý, truy xuất các ảnh trong bộ
16


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

dữ liệu, vì vậy phương pháp được chọn để xây dựng hệ thống cũng phải đạt được
tính hiệu quả về bộ nhớ.

2.1.2.2. Áp dụng sự phân loại sản phẩm cho quá trình tìm kiếm
Đối tượng chính của hệ thống tìm kiếm là các sản phẩm ghế và bàn của công
ty. Cách tổ chức sản phẩm của công ty được phân cấp như sau:
Ghế

Bàn

Category
Ghế văn
phòng

Ghế học
sinh

Bàn làm

việc

Bàn học
sinh

Subcategory
Family


bánh xe

Xoay
được

Bằng
nhựa

Bằng
sắt

Có thể
tháo dở


bánh xe

Bằng gỗ

Có hộc
bàn


Hình 2.2. Phân cấp sản phẩm của công ty SO.

• Loại sản phẩm (category): Thể hiện các loại sản phẩm mà công ty kinh
doanh như ghế, bàn, tủ…
• Loại sản phẩm phụ (subcategory): Với mỗi loại sản phẩm sẽ có phân
chia thành các loại chi tiết hơn theo chức năng của sản phẩm. Ví dụ với ghế
thì sẽ có các loại ghế dành cho học sinh, dành cho văn phòng, ghế để chơi
đàn…
• Họ sản phẩm (family): Với các loại sản phẩm trong cùng một nhóm
chức năng sẽ được phân theo các tùy chọn về màu sắc, chất liệu: ghế văn
phòng có bánh xe, bàn vẽ bằng gỗ…
• Sản phẩm (product): Mỗi một sản phẩm cụ thể thuộc trực tiếp một họ
sản phẩm và phân biệt với nhau bằng các mã sản phẩm.
Các thông tin phân cấp sản phẩm này sẽ không tham gia trực tiếp vào quá trình
tìm kiếm sản phẩm của hệ thống, tuy nhiên có thể được tận dụng với vai trò hỗ trợ
nhằm tăng hiệu quả tìm kiếm của hệ thống. Do số lượng sản phẩm của hai loại ghế
17


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

và bàn có sự chênh lệch lớn (mục 2.1.2.1) nên nếu thực hiện việc tìm kiếm trên một
bộ dữ liệu ảnh thì danh sách kết quả trả về sẽ bị nhiễu. Ví dụ, khi thực hiện tìm kiếm
một chiếc ghế, do trong dữ liệu có những chiếc bàn có hình dáng rất giống ghế (Hình
2.3) cũng sẽ được trả về, điều này gây ra sự sai lệch lớn trong việc kinh doanh khi
người dùng đặt mua chiếc bàn này vì lầm tưởng đây là một chiếc ghế. Hay một trường
hợp khác là một sản phẩm kết hợp giữa bàn và ghế (Hình 2.4) thì lúc này việc kết
quả được xuất hiện khi người dùng tìm kiếm ghế hay bàn sẽ phụ thuộc vào chủ ý của
công ty sẽ xếp loại sản phẩm này là ghế hay bàn. Hai vấn đề này gọi chung là vấn đề

nhập nhằng phân loại sản phẩm.

Hình 2.3. Một chiếc bàn rất giống ghế.[19]

Hình 2.4. Sản phẩm kết hợp giữa bàn và ghế.[19]

Để giải quyết vấn đề nhập nhằng phân loại sản phẩm, phương pháp được đề
xuất là phân chia bộ dữ liệu ảnh thành các bộ nhỏ hơn theo các loại sản phẩm. Nghĩa
là thay vì hệ thống tìm kiếm chỉ sử dụng duy nhất một bộ dữ liệu thì bộ dữ liệu ấy sẽ
được chia thành hai bộ dữ liệu thành phần nhỏ hơn: một bộ dữ liệu về sản phẩm ghế
và một bộ dữ liệu về sản phẩm bàn. Theo cách này, dựa vào cách thức tổ chức phân
18


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

cấp sản phẩm của công ty mà một mặt hàng sẽ được quyết định là bàn hay ghế, do
đó ảnh đại diễn của sản phẩm sẽ có mặt trong bộ dữ liệu các sản phẩm bàn hay bộ dữ
liệu các sản phẩm ghế. Hiện giờ, mỗi một sản phẩm chỉ thuộc về một loại nhưng nếu
trong tương lai một sản phẩm có thể được tổ chức để thuộc về nhiều loại (cả bàn lẫn
ghế) thì chỉ việc thêm ảnh của sản phẩm vào tất cả các bộ dữ liệu tương ứng. Lúc này
việc sản phẩm sẽ xuất hiện trong kết quả tìm kiếm thế nào sẽ do công tuy chủ động
quyết định, đồng thời phương pháp này cũng giúp cải thiện tốc độ tìm kiếm do hệ
thống sẽ thực hiện tìm kiếm với những bộ dữ liệu nhỏ hơn so với một bộ dữ liệu tổng
hợp.
Tất nhiên cách làm này có thể thực hiện với các cấp subcategory và family,
tuy nhiên điều này không cần thiết. Do việc thực hiện tìm kiếm sản phẩm ở hai mức
này có thể làm cho một số sản phẩm sẽ không tiếp cận được người dùng. Thông
thường khi thực hiện tìm kiếm, người dùng mong muốn tìm một loại sản phẩm tương
tự với cấu trúc của sản phẩm trong ảnh truy vấn chứ không quá chi tiết về tính năng,

vật liệu của sản phẩm. Mặt khác, công ty muốn giới thiệu đến người dùng đa dạng
các sản phẩm, nên chỉ cần hạn chế vấn đề nhập nhằng phân loại sản phẩm ở mức
category. Việc thực hiện tìm kiếm theo mức subcategory và family nên xem như một
bộ lọc (filter) cho việc tìm kiếm nâng cao.
Vậy một vấn đề đặt ra thêm cho hệ thống tìm kiếm là phân loại ảnh truy vấn
là thuộc loại sản phẩm nào. Đây là một bài toán về phân lớp (classify) nên có thể
dùng một thuật toán phân lớp để cài đặt với bộ dữ liệu ảnh. Trong đó, mỗi ảnh trong
bộ dữ sẽ có nhãn là loại sản phẩm (category) mà sản phẩm đó thuộc về. Trong nội
dung của bài luận văn này việc phân lớp tự động chưa được cài đặt mà thay vào đó
người dùng sẽ cung cấp thông tin về loại sản phẩm cần tìm cho ảnh truy vấn.

2.1.3. Tính ổn định của hệ thống
Hệ thống tìm kiếm cần phải hoạt động liên tục để phục vụ nhu cầu tìm kiếm
sản phẩm. Trong quá trình hoạt động thì bộ dữ liệu ảnh có thể sẽ được bổ sung ảnh
19


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

mới, khi đó cần phải xem xét việc hệ thống sẽ được bảo trì sao cho thời gian ngừng
của hệ thống (downtime) là nhỏ nhất. Suốt thời gian bảo trì thì quá trình xây dựng,
huấn luyện lại bộ dữ liệu sẽ chiếm hiều thời gian nhất. Trong thực tế khi thực hiện
xây dựng thì khoảng thời gian này tỉ lệ thuận với số lượng ảnh của bộ dữ liệu, số
lượng ảnh càng lớn thì thời gian bảo trì càng dài. Một yếu tố khác cũng ảnh hưởng
đến thời gian bảo trì của hệ thống chính là phương pháp, đặc trưng ảnh được lựa chọn
để xây dựng hệ thống vì với các đặc trưng khác nhau sẽ có chi phí rút trích khác nhau.
Nội dung tiếp theo của chương này sẽ trình bày các phương pháp và đặc trưng
ảnh đã được xem xét, thử nghiệm và đánh giá để xây dựng hệ thống tìm kiếm sản
phẩm bằng ảnh.


2.2. Các phương pháp cho bài toán truy vấn ảnh hiện nay
Cho đến nay có hai phương pháp chính để thực hiện việc tìm kiếm ảnh, đó là
tìm kiếm theo đặc trưng văn bản đi kèm ảnh và tìm kiếm theo đặc trưng nội dung
ảnh. Ngoài ra còn có một số phương pháp khác như máy học (machine learning) hoặc
phương pháp kết hợp đặc trưng nội dung của ảnh cùng với các văn bản kèm theo ảnh.

2.2.1. Tìm kiếm theo đặc trưng văn bản đi kèm ảnh
Ảnh trên internet thường đi kèm với các nội dung văn bản như tên ảnh (title),
các thẻ (tags), bình luận (comment)… để mô tả thông tin ảnh. Có thể xem các nội
dung văn bản này như là các siêu dữ liệu (metadata) cho các ảnh và chúng thường
được tạo bởi người dùng nên đều mang một ý nghĩa nhất định. Bên cạnh đó, với các
loại văn bản khác nhau sẽ có độ quan trọng khác nhau trong quá trình tìm kiếm. Ví
dụ như các thẻ thường quan trọng hơn tên ảnh, tên ảnh lại quan trọng hơn các bình
luận.
Phương pháp tìm kiếm bằng đặc trưng văn bản đáp ứng nhanh nhu cầu của
người sử dụng, tuy nhiên với một số truy vấn có thể gây ra nhập nhằng cho kết quả

20


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

trả về. Ví dụ như với truy vấn “apple” là kết quả trả về có thể là hình ảnh các trái tạo
hoặc cũng có thể là các sản phẩm, logo của công ty Apple. (Hình 2.5)

Hình 2.5. Kết quả tìm kiếm với từ khóa "Apple".[6]

Một ứng dụng được xây dựng dựa vào phương pháp này là ứng dụng Tag
Galaxy. Đây là hệ thống tìm kiếm ảnh bằng thẻ (tag) với dữ liệu ảnh của Flickr. Khi
người dùng nhập vào một thẻ, hệ thống sẽ gợi ý các thẻ cụ thể hơn nữa để nâng cao

kết quả tìm kiếm. Ví dụ, khi nhập tag là “food” thì hệ thống sẽ gợi ý một số tag liên
quan về mùi vị, màu sắc như: green, red, dessert, fruit…

Hình 2.6. Ứng dụng Tag Galaxy.[20]

Mục tiêu của hệ thống tìm kiếm sản phẩm bằng hình ảnh, không nhằm mục
đích tìm kiếm ảnh đơn thuần. Đầu vào của hệ thống là một ảnh truy vấn, đầu ra sau
khi xử lý là danh sách các sản phẩm có ảnh thể hiện tương đồng. Vì vậy phương pháp
tìm ảnh theo đặc trưng văn bản đi kèm không phù hợp với mục tiêu của bài toán cần
giải quyết.
21


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

2.2.2. Tìm kiếm theo đặc trưng nội dung ảnh (CBIR)
Tìm kiếm theo đặc trưng nội dung ảnh Content Based Image Retrieval (CBIR)
hay truy vấn theo nội dung ảnh Query Based Image Content (QBIC) là một ứng dụng
Thị giác máy tính cho bài toán tìm kiếm. Nội dung ảnh ở đây là dựa vào các thông
tin, đặc trưng của một bức ảnh như: màu sắc (color), vân (texture), hình dạng
(shape)…
• Đặc trưng màu sắc: Màu sắc là thông tin được sử dụng phổ biến. Các
ảnh sẽ được tiến hành tính toán để có được biểu đồ màu (histogram) để xác
định tỉ lệ của mỗi giá trị màu có trong ảnh. Do có tính toàn cục (global) nên
nếu chỉ thực hiện tìm kiếm ảnh dựa trên biểu đồ màu có độ chính xác không
cao về bố cục, hình dáng. Tuy nhiên, do việc tính toán đơn giản nên đặc trưng
về màu sắc thường được chọn để thực hiện việc sàng lọc (filter) các dữ liệu.
• Đặc trưng vân: Vân thường là thông tin phản ánh về bề mặt, chất lượng
của một đối tượng trong ảnh. Khai thác vân là một mức cao hơn so với màu
sắc do sự phân bố cục bộ.

Minh họa cho phương pháp này là ứng dụng Goggles. Đây là một ứng dụng
tìm kiếm ảnh cho thiết bị di động. Từ hình ảnh lấy từ camera của thiệt bị, Goggles sẽ
tìm và trả về thông tin của đối tượng trong ảnh.
Thay vào đó phương pháp tìm kiếm ảnh dựa trên chính các đặc trưng nội dung
sẽ phù hợp hơn do các đặc trưng ảnh được sử dụng sẽ có chi phí rút trích và bảo trì
không quá cao. Đây sẽ là phương pháp để xây dựng hệ thống tìm kiếm sản phẩm nội
thất bằng ảnh.

22


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

Hình 2.7. Ứng dụng Goggles.[7]

2.2.3. Tìm kiếm theo đối tượng (OBIR)
Phương pháp tìm kiếm theo đối tượng Object Based Image Retrieval (OBIR)
rất gần với nhu cầu thường thấy cũng như là nhận thức của người sử dụng. Ví dụ, tìm
tất cả các ghê có bánh xe. Yếu tố quan trọng nhất của phương pháp này chính là xác
định được chính xác một đối tượng trong nhiều ảnh với nhau... Tuy nhiên, chi phí
cho việc dò tìm đối tượng trong các ảnh (bánh xe ở chân ghế) là không nhỏ[1]. Một
khó khăn khác là việc rút trích chính xác các đối tượng trong ảnh đúng với đối tượng
trong thực tế (ví dụ: bánh xe của chân ghế).
Phương pháp này không phải là lựa chọn phù hợp để xây dựng hệ thống vì sẽ
khó lòng đáp ứng được yêu cầu về tốc độ, tốt hơn chỉ có thể xem như là một phương
pháp cho việc tìm kiếm nâng cao hơn. Ví dụ như tìm một chiếc ghế có bánh xe màu
đen (bánh xe màu đen là đối tượng tìm kiếm).

2.2.4. Kết hợp phương pháp máy học (machine learning)
Phương pháp tiếp cận machine learning là một xu hướng rất phổ biến hiện

nay, đặc biệt là phương pháp deep learning với mô hình CNN [8]. Máy tính sẽ tự khai
thác được các deep features nên độ chính xác thường sẽ tốt hơn các hand-craft
23


Chương 2. . Đặc trưng ảnh cho bài toán tìm kiếm sản phẩm nội thất

features. Tuy nhiên, các mô hình deep learning sử dụng phương pháp học có giám
sát (supervised learning) và dữ liệu cần có gán nhãn. Nếu dùng vào bài toán tìm kiếm
sản phẩm đồ nội thất, mỗi ảnh trong bộ dữ liệu sẽ được gán nhãn là mã sản phẩm. Do
với bộ dữ liệu được sử dụng hiện tại, mỗi sản phẩm chỉ có một ảnh đại diện, nghĩa là
mỗi nhãn chỉ có một ảnh làm cho việc huấn luyện không khả thi. Mặt khác, chi phí
huấn luyện cho deep learning rất lớn, nên nếu trong trường hợp công ty có bổ sung
kinh doanh thêm các loại mặt hàng mới, các ảnh mới được thêm vào, thì việc phải
huấn luyện lại cho hệ thống là điều tất yếu. Khi đó hệ thống sẽ cần phải ngưng một
thời gian để bảo trì, không đáp ứng được yêu cầu về sự ổn định của hệ thống. Do đó
tiếp cận theo phương pháp machine learning cũng không phải là lựa chọn tốt cho việc
xây dựng hệ thống.
Một cách khác để sử phương pháp machine learning cho bài toán tìm kiếm sản
phẩm là theo dõi xem ảnh nào được người dùng chọn xem nhiều nhất trong các ảnh
kết quả được liệt kê, từ đó cải thiện việc sắp xếp thứ hạng của các kết quả trả về cho
người dùng.

2.3. Lựa chọn đặc trưng ảnh cho hệ thống tìm kiếm sản phẩm nội thất
Quá trình xây dựng hệ thống tìm kiếm theo đặc trưng ảnh gồm hai bước chính
sau:
• Rút trích đặc trưng nội dung của các ảnh trong tập dữ liệu ảnh.
• Biểu diễn các đặc trưng đã rút trích theo một cấu trúc dữ liệu để có thể
tính toán được khoảng cách tương đồng giữa các ảnh.
Có nhiều loại đặc trưng ảnh được chia thành hai nhóm chính là đặc trưng toàn

cục (global features) và đặc trưng cục bộ (local features).

2.3.1. Đặc trưng toàn cục
Các đặc trưng cục bộ được dùng để mô tả thông tin xét trên toàn bộ bức ảnh.
Ví dụ như đặc trưng về mật độ màu sắc (hoặc độ xám với ảnh trắng đen), histogram
24


×