i
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu khoa học độc lập của
riêng tôi và được sự hướng dẫn khoa học của TS. Nguyễn Thế Cường. Các nội
dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa cơng bố dưới
bất kỳ hình thức nào trước đây. Các số liệu sử dụng phân tích trong luận văn có
nguồn gốc rõ ràng, đã cơng bố theo đúng quy định. Những kết quả nghiên cứu
trong luận văn do tơi tự tìm hiểu, phân tích một cách trung thực, khách quan và
phù hợp với thực tiễn của Thanh Hoá. Các kết quả này chưa từng được công bố
trong bất kỳ nghiên cứu nào khác.
Tôi xin cam đoan./.
Ngƣời cam đoan
Trƣơng Viết Ngọc
ii
LỜI CẢM ƠN
Để có thể hồn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên
cạnh sự nỗ lực cố gắng của bản thân cịn có sự hướng dẫn nhiệt tình của q
Thầy Cơ, cũng như sự động viên ủng hộ của gia đình và bạn bè trong suốt thời
gian học tập nghiên cứu và thực hiện luận văn thạc sĩ.
Xin chân thành bày tỏ lòng biết ơn đến Thầy TS. Nguyễn Thế Cường
người đã hết lòng giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi hồn thành luận
văn này. Xin chân thành bày tỏ lịng biết ơn đến tồn thể q thầy cơ trong khoa
Cơng nghệ thông tin và Truyền thông, Trường Hồng Đức Thanh Hố đã tận tình
truyền đạt những kiến thức q báu cũng như tạo mọi điều kiện thuận lợi nhất
cho tôi trong suốt quá trình học tập nghiên cứu và cho đến khi thực hiện đề tài
luận văn.
Xin chân thành bày tỏ lịng biết ơn đến Phịng kỹ thuật hình sự, Phịng
Cảnh sát PCCC và CNCH Cơng an tỉnh Thanh Hố, Phịng Hậu cần, đội ngũ kỹ
sư thuộc cơng ty Cổ phần ThinkLABs đã không ngừng hỗ trợ và tạo mọi điều
kiện tốt nhất cho tôi trong suốt thời gian nghiên cứu và thực hiện luận văn.
Cuối cùng, tôi xin chân thành cảm ơn đến gia đình, các anh chị và các
bạn đồng nghiệp đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên
cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh
Thanh hoá, tháng 11 năm 2019
Học viên thực hiện
Trƣơng Viết Ngọc
iii
MỤC LỤC
LỜI CAM ĐOAN........................................................................................................... i
LỜI CẢM ƠN ............................................................................................................... ii
MỤC LỤC ....................................................................................................................iii
DANH MỤC HÌNH ẢNH ............................................................................................ v
MỞ ĐẦU ........................................................................................................................ 1
1. Tính cấp thiết của đề tài .............................................................................................. 1
2. Mục đích của đề tài ..................................................................................................... 2
3. Phương pháp nghiên cứu ............................................................................................ 3
4. Kết quả đạt được ......................................................................................................... 3
5. Nội dung nghiên cứu .................................................................................................. 3
CHƢƠNG 1: GIỚI THIỆU BÀI TOÁN..................................................................... 5
1.1. Hệ thống tiếp nhận và trả lời phản hồi công dân ..................................................... 5
1.2. Bài tốn phân loại phản hồi cơng dân dựa trên hình ảnh phản hồi ......................... 7
1.3. Những vấn đề cần lưu ý trong phân lớp ảnh ........................................................... 8
1.4. Kết luận chương .................................................................................................... 10
CHƢƠNG 2: TỔNG QUAN VỀ PHÂN LỚP ẢNH ................................................ 11
2.1. Bài toán phân lớp ảnh ............................................................................................ 11
2.1.1. Khái niệm ........................................................................................................... 11
2.1.2. Quá trình phân lớp ảnh ....................................................................................... 12
2.1.3. Ứng dụng của bài toán phân lớp ảnh trong thực tế ............................................ 13
2.2. Các phương pháp biểu diễn ảnh trong mơ hình phân lớp ..................................... 14
2.2.1. Tổng quan về biểu diễn ảnh ................................................................................ 14
2.2.2. Mơ hình “Bag of Words” ................................................................................... 15
2.3. Đặc trưng của ảnh .................................................................................................. 16
2.3.1. Đặc trưng hình ảnh và tìm kiếm ảnh theo nội dung ........................................... 17
2.3.2. Đặc trưng màu sắc .............................................................................................. 18
2.3.3. Đặc trưng kết cấu ................................................................................................ 20
2.3.4. Đặc trưng hình dạng ........................................................................................... 20
2.3.5. Đặc trưng cục bộ bất biến ................................................................................... 21
2.4. Lựa chọn đặc trưng ................................................................................................ 27
2.5. Các phương pháp tìm kiếm ảnh theo nội dung ...................................................... 28
iv
2.5.1. Phương pháp PageRank cho tìm kiếm ảnh sản phẩm ........................................ 28
2.5.2. CueFlik: Một phương pháp xếp hạng lại ảnh dựa trên luật của người dùng ...... 30
2.5.3. Phương pháp tìm kiếm ảnh dựa trên màu sắc, hình dạng, kết cấu của ảnh ........ 32
2.5.4. Phương pháp tìm kiếm ảnh dựa vào nội dung sử dụng các phân vùng ảnh như
mẫu truy vấn ................................................................................................................. 34
2.6. Các phương pháp phân lớp ảnh ............................................................................. 35
2.6.1. Phương pháp phân lớp K-means ........................................................................ 39
2.6.2. Phương pháp dựa trên định lý Bayes (Naïve Bayes) .......................................... 44
2.6.3. Phương pháp Support Vector Machine (SVM) .................................................. 46
2.6.4. Phương pháp K láng giềng gần nhất (K-Nearest Neighbor – KNN) ................. 47
2.6.5. Phương pháp Linear Least Square Fit (LLSF) ................................................... 48
2.6.6. Phương pháp centroid-based vector ................................................................... 49
2.7. Kết luận chương .................................................................................................... 50
CHƢƠNG 3: PHÂN LỚP DỰA TRÊN ĐA ĐẶC TRƢNG VÀ ỨNG DỤNG
PHÂN LOẠI PHẢN HỒI CÔNG DÂN .................................................................... 52
3.1. Phân lớp dựa trên đa đặc trưng .............................................................................. 52
3.1.2. Tổng quan ........................................................................................................... 52
3.1.2. Mơ hình phần lớp dựa trên tổ hợp đa đặc trưng ................................................. 56
3.2. IBM Watson Studio ............................................................................................... 59
3.2.1. Cấu trúc dữ liệu huấn luyện ................................................................................ 60
3.2.2. Cập nhật dữ liệu huấn luyện ............................................................................... 61
3.3.3. Quy định về kích thước dữ liệu .......................................................................... 62
3.3. Xây dựng dữ liệu huấn luyện ................................................................................ 62
3.4. Chức năng gợi ý phân loại phản hồi công dân ...................................................... 65
3.5. Kết luận chương .................................................................................................... 67
KẾT LUẬN & HƢỚNG PHÁT TRIỂN ................................................................... 69
TÀI LIỆU THAM KHẢO .......................................................................................... 70
v
DANH MỤC HÌNH ẢNH
Hình 1: Mơ hình tổng quan hệ thống tiếp nhận và trả lời cơng dân .............................. 6
Hình 2: Hình ảnh ơ nhiễm mơi trường (nguồn: Internet) .............................................. 8
Hình 3: Phân lớp đối tượng dựa trên nhận diễn các đối tượng trên ảnh [8] .............. 11
Hình 4: Mơ hình tổng quát của hệ thống phân lớp đối tượng ảnh [8] ........................ 12
Hình 5: Biểu đồ mơ phỏng việc tính tốn DoG ảnh từ các ảnh kề mờ [5] .................. 24
Hình 6: Mỗi điểm ảnh được so sánh với 26 láng giềng của điểm ảnh đó .................... 24
Hình 7: Quá trình lựa chọn các điểm hấp dẫn. a. Ảnh gốc, b. Các điểm hấp dẫn được
phát hiện, c. Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương phản thấp, d. Ảnh sau
loại bỏ các điểm hấp dẫn dọc theo cạnh. ..................................................................... 25
Hình 8: Biểu diễn các vector đặc trưng ....................................................................... 26
Hình 9: Tổng quan về mơ hình của hệ thống tìm kiếm ảnh theo màu sắc, kết cấu và hình
dạng [1] ......................................................................................................................... 32
Hình 10: Biểu diễn các đối tượng trong hệ toạ độ X, Y ............................................... 41
Hình 11: Biểu diễn các đối tượng và tâm nhóm trên hệ toạ độ ................................... 42
Hình 12: Biểu diễn lại các đối tượng và tâm của các nhóm đối tượng........................ 43
Hình 13: Ví dụ về mơ hình SVM (nguồn Internet)........................................................ 46
Hình 14: Các giai đoạn biểu diễn đặc trưng ảnh [2]................................................... 52
Hình 15: Biểu diễn đa đặc trưng ảnh [2] ..................................................................... 53
Hình 16: Phân lớp ảnh với m vector đặc trưng của ảnh [2] ........................................ 54
Hình 17: So sánh các cách tiếp cận: đơn đặc trưng và đa đặc trưng [3] .................... 54
Hình 18: Phân lớp ảnh được biểu diễn bởi m vector vào L lớp cho trước [3] ............ 56
Hình 19: Kiến trúc mơ hình phân lớp ảnh đa đặc trưng .............................................. 57
Hình 20: Các tiến trình hoạt động trong việc phân lớp có sử dụng chức năng nhận
dạng hình ảnh của Watson Studio (ibm.com) ............................................................... 60
Hình 21: Ví dụ về việc xây dựng các lớp phủ định....................................................... 61
Hình 22: Cập nhật dữ liệu huấn luyện ......................................................................... 61
Hình 23: Danh sách các lớp dữ liệu được huấn luyện trên Watson Studio ................. 63
Hình 24: Danh sách các ảnh thuộc tập dữ liệu huấn luyện về mơi trường ................. 63
Hình 25: Danh sách các ảnh thuộc tập dữ liệu huấn luyện về giao thơng .................. 64
Hình 26: Danh sách các ảnh thuộc tập dữ liệu huấn luyện về an ninh trật tự ............ 64
Hình 27: Danh sách các ảnh thuộc tập dữ liệu huấn luyện về du lịch ........................ 65
Hình 28: Danh sách các ảnh thuộc tập dữ liệu huấn luyện về du lịch ........................ 65
vi
Hình 29: Giao diện cho phép tải lên một ảnh bất kì .................................................... 66
Hình 30: Chức năng thể hiện mức độ phù hợp của ảnh tải lên với lĩnh vực mơi trường
...................................................................................................................................... 66
Hình 31: Chức năng thể hiện mức độ phù hợp của ảnh tải lên với lĩnh vực giao thơng
...................................................................................................................................... 67
Hình 32: Chức năng thể hiện mức độ phù hợp của ảnh tải lên với lĩnh vực môi trường
và có liên quan đến du lịch và an ninh trật tự .............................................................. 67
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Thanh Hố hiện là một trong các tỉnh mạnh việc áp dụng công nghệ
thông tin vào công tác quản lý, giảm các thủ tục hành chính, tăng tính kết nối
cho người dân và chính quyền. Hiện nay UBND Tỉnh đã ban hành nhiều quyết
định nhằm tạo nên khung pháp lý và tạo cơ sở pháp lý để các tổ chức, cá nhân
tham gia vào q trình xây dựng chính quyền điện tử và các dịch vụ thành phố
thông minh.
- Quyết định 2538/QĐ-UBND phê duyệt đề án xây dựng Chính quyền
điện tử và phát triển các dịch vụ thành phố thông minh tỉnh Thanh Hóa, giai
đoạn 2017 – 2020
- Quyết định 3089/QĐ-UBND ngày 22/8/2017 phê duyệt Kiến trúc Chính
quyền điện tử tỉnh Thanh Hóa
- Quyết định 1025/QĐ-UBND ngày 04/4/2017, về ban hành Kế hoạch
hành động đẩy mạnh cải cách hành chính, cải thiện mạnh mẽ môi trường đầu tư
kinh doanh, hỗ trợ phát triển doanh nghiệp và nâng cao năng lực cạnh tranh tỉnh
Thanh Hóa giai đoạn 2016 – 2020
Gần đây nhất Chính Phủ có Nghị quyết số 17/NQ-CP ngày 07/3/2019 của
Chính phủ, về một số nhiệm vụ, giải pháp trọng tâm phát triển Chính phủ điện
tử giai đoạn 2019 - 2020, định hướng đến 2025; Về phía tỉnh Thanh Hố tỉnh có
Quyết định số 1118/QĐ-UBND ngày 29/03/2019 Chủ tịch UBND về việc ban
hành kế hoạch hành động thực hiện Nghị quyết số 17/NQ-CP.
Tuy nhiên, hiện nay việc tiếp nhận các phản ánh để kịp thời giải quyết,
tháo gỡ khó khăn, vướng mắc, kiến nghị, đề xuất của doanh nghiệp, người dân
vẫn chỉ đang được thực hiện theo các kênh truyền thống như:
- Chủ tịch UBND tỉnh duy trì lịch tiếp doanh nghiệp và lịch tiếp công dân
định kỳ hàng tháng
2
- Thông qua kênh tiếp nhận và giải quyết bằng văn bản truyền thống.
- Thông qua báo đài và các phương tiện thông tin đại chúng, hay các đầu
mối tiếp dân ở địa phương.
Các kênh kết nối còn nhiều hạn chế, thủ tục phức tạp, và quá trình tiếp
nhận và xử lý tốn nhiều thời gian, cơng sức nên ít thu hút được sự chủ động
tham gia đóng góp ý kiến của người dân và doanh nghiệp. Vì vậy, yêu cầu thực
tế địi hỏi một hệ thống với mục đích tăng cường tính kết nối của người dân,
doanh nghiệp và chính quyền, giảm các thủ tục hành chính, tiết kiệm thời gian
và chi phí cho việc kết nối người dân và chính quyền. Một trong những vấn đề
cần phải giải quyết khi xây dựng hệ thống kết nối người dân là việc phân loại tự
động được các phản hồi của người dân. Việc phân loại tự động hỗ trợ hệ thống
giảm được thời gian xử lý các phản hồi, từ đó tăng được hiệu quả xử lý cơng
việc.
Từ u cầu đặt ra của thực tế, tôi chọn thực hiện đề tài “Nghiên cứu ứng
dụng các kĩ thuật thị giác máy hỗ trợ phân loại tự động phản hồi công dân”
nhằm tìm kiếm và xây dựng được giải pháp phân loại tự động được các phản
hồi của công dân dựa trên ảnh chụp làm dữ liệu đầu vào cho hệ thống tiếp nhận
và xử lý phản hồi công dân của Tỉnh Thanh Hố.
2. Mục đích của đề tài
- Nghiên cứu bài tốn phân loại ảnh nói chung và bài tốn phân loại phản
hồi công dân dựa trên ảnh chụp trong hoạt động của chính phủ điện tử nói riêng
- Nghiên cứu các thuật tốn học máy có giám sát được sử dụng trong
phân loại ảnh số
- Đề xuất giải thuật phân loại phản hồi công dân dựa trên ảnh chụp áp
dụng trong hoạt động tiếp nhận và xử lý phản hồi công dân
- Xây dựng bản demo của hệ thống và kiểm thử đánh giá
3
3. Phƣơng pháp nghiên cứu
Đề tài sử dụng hai phương pháp nghiên cứu chính: phương pháp nghiên
cứu lý thuyết và phương pháp nghiên cứu thực nghiệm
- Phương pháp nghiên cứu lý thuyết: nghiên cứu các tài liệu về quy trình
và các cơng nghệ liên quan; phân tích, tổng hợp tài liệu về các kỹ thuật học
máy, các phương pháp, kỹ thuật phân loại ảnh số
- Phương pháp nghiên cứu thực nghiệm: phân tích u cầu thực tế của bài
tốn và cách thức thu nhận thông tin phản hồi từ các cá nhân, các doanh nghiệp;
các phương pháp, các kỹ thuật phân loại văn bản; thiết kế, xây dựng, đánh giá
và kiểm tra kết quả hoạt động của thuật toán
4. Kết quả đạt đƣợc
- Áp dụng được thuật toán học máy có giám sát vào phân loại phản hồi
cơng dân dựa trên ảnh chụp trong hoạt động trong hệ thống tiếp nhận và trả lời
phản hồi công dân của Tỉnh Thanh Hố.
- Giải thuật hoạt động có độ chính xác cao, hiệu quả trong việc hỗ trợ
phân loại văn bản tự động, có thời gian xử lý đáp ứng được yêu cầu.
5. Nội dung nghiên cứu
Nội dung luận văn gồm các chương sau:
Chƣơng 1: Giới thiệu bài tốn
Luận văn trình bày tổng quan về bài tốn phân loại phản hồi cơng dân
dựa trên dữ liệu đầu vào là ảnh được cung cấp bởi những người dân hoặc các
doanh nghiệp. Luận văn cũng chỉ ra các vấn đề hiện nay cần xử lí đối với bài
tốn phân lớp ảnh.
Chƣơng 2: Tổng quan về phân lớp ảnh
Luận văn trình bày tổng quan về bài tốn phân lớp ảnh nói chung trong
đó q trình phân lớp các ảnh thường được dựa vào các đặc trưng của ảnh. Luận
4
văn cũng trình bày về đặc trưng ảnh, cách lựa chọn các đặt trưng và các phương
pháp tìm kiếm ảnh, phân lớp ảnh dựa trên đặc trưng.
Chƣơng 3: Phân lớp ảnh dựa trên đa đặc trƣng và ứng dụng phân
loại phản hồi cơng dân
Luận văn đã trình bày về tổng quan của phân lớp dựa trên đa đặc trưng.
Luận văn cũng giới thiệu về một dịch vụ phân lớp dựa trên đa đặc trưng đó là
IBM Watson Studio, dịch vụ cho phép tạo ra các bộ phân lớp dữ liệu ảnh được
xây dựng bởi người dùng. Luận văn cũng trình bày một cách tiếp cận bằng việc
sử dụng phân lớp trong việc phân loại các phản hồi công dân, qua đó hỗ trợ
cơng tác tiếp nhận phản hồi cơng dân của các cổng thông tin tiếp nhận phản ánh
và kiến nghị thuộc dịch vụ thành phố thông minh.
Kết luận và hƣớng phát triển.
5
CHƢƠNG 1: GIỚI THIỆU BÀI TOÁN
1.1. Hệ thống tiếp nhận và trả lời phản hồi công dân
Hệ thống tiếp nhận và trả lời phản hồi công dân là cầu nối hữu hiệu giữa
chính quyền và người dân, doanh nghiệp thơng qua việc nâng cao hiệu quả, tính
chuyên nghiệp, tinh thần trách nhiệm của công chức, viên chức trong việc tiếp
nhận, hướng dẫn, xử lý và trả lời các nhu cầu chính đáng của người dân, doanh
nghiệp, từ đó nâng cao chất lượng phục vụ người dân, doanh nghiệp trên địa
bàn tỉnh.
Nội dung tiếp nhận, xử lý và trả lời phản ánh, kiến nghị của người dân,
doanh nghiệp có thể liên quan đến nhiều lĩnh vực, có thể là: lĩnh vực giải quyết
thủ tục hành chính, dịch vụ cơng các cấp tỉnh – huyện – xã; lĩnh vực xử lý buôn
lậu, gian lận thương mại và hàng giả tỉnh Thanh hóa; lĩnh vực mơi trường, đất
đai; lĩnh vực an tồn thực phẩm và chất lượng vật tư nông nghiệp; lĩnh vực giao
thông; lĩnh vực hạ tầng cáp viễn thông; tiếp nhận cuộc gọi khẩn cấp cứu thương
(115) và chuyển cuộc gọi đến các số khẩn cấp của ngành y tế; các lĩnh vực khác
theo yêu cầu thực tế và khả năng của Hệ thống đường dây nóng.
Thanh hóa đang đẩy mạnh việc áp dụng công nghê thông tin vào công tác
quản lý, giảm các thủ tục hành chính, tăng tính kết nối cho người dân và chính
quyền. UBND tỉnh đã ban hành nhiều quyết định để xây dựng chính quyền điện
tử. Tuy nhiên, hiện nay việc tiếp nhận các phản ánh để kịp thời giải quyết, tháo
gỡ khó khăn, vướng mắc, kiến nghị, đề xuất của doanh nghiệp, người dân vẫn
chỉ đang được thực hiện theo các kênh truyền thống như:
Chủ tịch UBND tỉnh duy trì lịch tiếp doanh nghiệp và lịch tiếp công
dân định kỳ hàng tháng
Thông qua kênh tiếp nhận và giải quyết bằng văn bản truyền thống.
Thông qua báo đài và các phương tiện thông tin đại chúng, hay các đầu
6
mối tiếp dân ở địa phương.
Các kênh kết nối còn nhiều hạn chế, thủ tục phức tạp, và quá trình tiếp
nhận và xử lý tốn nhiều thời gian, công sức nên ít thu hút được sự chủ động
tham gia đóng góp ý kiến của người dân và doanh nghiệp. Vì vậy, yêu cầu thực
tế đòi hỏi một hệ thống với mục đích tăng cường tính kết nối của người dân,
doanh nghiệp và chính quyền, giảm các thủ tục hành chính, tiết kiệm thời gian
và chi phí cho việc kết nối người dân và chính quyền. Hệ thống là kênh thơng
tin tương tác giữa các cơ quan chức năng với người dân, du khách và doanh
nghiệp về các vấn đề môi trường, xã hội, đời sống dân sinh. Người dân dễ dàng
truy cập hệ thống từ máy tính, thiết bị di động được kết nối internet để gửi, theo
dõi, nhận kết quả trả lời phản ánh, kiến nghị của mình. Thơng qua hệ thống, cơ
quan quản lý nhà nước các cấp sẽ tiếp nhận, trả lời những phản ánh, kiến nghị
của người dân theo từng lĩnh vực, từng cơ quan xử lý; nghiên cứu tiếp thu
những đề xuất, xử lý các vấn đề kịp thời.
Hình 1: Mơ hình tổng quan hệ thống tiếp nhận và trả lời công dân
7
Ngƣời dân, Doanh nghiệp: là các tác nhân cung cấp thông tin phản hồi
đối với các vấn đề phát sinh trong q trình vận hành đơ thị, về sự hài lịng của
họ đối với chất lượng các dịch vụ cơng của Tỉnh.
Cán bộ xử lý: sẽ là những người trực tiếp tiếp nhận thông tin, xử lý các
vấn đề phát sinh theo vai trò và lĩnh vực nghiệp vụ tương ứng.
Lãnh đạo: sẽ là những người giám sát ở mức cao, được cung cấp các
thông tin, báo cáo tổng quan về số lượng, tình trạng các phản hồi, đóng góp của
Người dân, Doanh nghiệp; về tình trạng, tiến độ xử lý của các đơn vị chức năng.
1.2. Bài toán phân loại phản hồi cơng dân dựa trên hình ảnh phản hồi
Phân loại phản hồi công dân là việc xác định chủ đề cho các phản hồi do
công dân, đại diện các doanh nghiệp gửi đến hệ thống. Việc xác định chính xác
các chủ đề của các phản hồi tạo thuận lợi cho q trình phân cơng cơng việc tự
động và sắp xếp người chịu trách nhiệm xử lý công việc.
Khả năng loại bỏ các phản hồi bị trùng lặp cho cùng một vấn đề hoặc
phân loại các phản hồi theo cách danh mục cụ thể là một việc làm quan trọng
trong việc triển khai một hệ thống tiếp nhận, xử lí phản hồi. Hệ thống kiểm
duyệt phản hồi kết hợp với trí tuệ nhân tạo nhằm ngăn chặn những nội dung
xấu, thông tin sai lệch, nhờ vậy kiểm duyệt viên có thể kiểm duyệt nhanh hơn so
với hệ thống truyền thống. Tuy vậy, trí tuệ nhân tạo khơng hồn tồn thay thế
con người ở khâu kiểm duyệt bình luận này. Trí tuệ nhân tạo cho phép người
kiểm duyệt dự đốn được nội dung của phản ánh, chỉ ra những nội dung thù
hận, quấy rối hoặc bất cứ điều gì được xác định là khơng phù hợp đối với q
trình xử lí thơng tin phản hồi của người dân và doanh nghiệp.
Việc sử dụng các kỹ thuật xử lí ảnh, thị giác máy vào việc phân lớp các
hình ảnh được gửi đến bởi người dân là một hướng tiếp cận tốt cho quá trình
phân loại, gán các phản hồi với các lĩnh vực cần quan tâm hiện này. Ví dụ một
phản ảnh của cơng dân có thể thuộc một (hoặc một vài) chủ đề nào đó (như giáo
8
dục, môi trường, giao thông). Việc tự động phân loại phản hồi vào một chủ đề
nào đó giúp cho việc sắp xếp, lưu trữ và truy vấn tài liệu dễ dàng hơn về sau.
Ví dụ như người dân có thể phản ánh thông tin về ô nhiễm môi trường tại
một địa điểm nào đó (như Hình 2) cho các cấp có thẩm quyền được biết để xử
lí. Tuy nhiên, có thể vì một lí do nào đó người dân chưa thể chọn đúng được
lĩnh vực hoặc chủ đề mà người dân cần phản hồi. Hệ thống cần có những cơ chế
“thông minh” để xác định được chủ đề và người dân cần phản hồi. Với những
hình ảnh như vậy, chủ đề cần phản ánh có thể là “ơ nhiễm mơi trường”, “vệ sinh
nguồn nước”.
Hình 2: Hình ảnh ơ nhiễm mơi trường (nguồn: Internet)
1.3. Những vấn đề cần lƣu ý trong phân lớp ảnh
Để có thể áp dụng bài tốn phân lớp ảnh vào các ứng dụng thực tế trong
9
lĩnh vực xử lý ảnh, khơng những địi hỏi phải phân lớp với độ chính xác mà chi
phí tính tốn phải thấp. Chính vì vậy mà đã có rất nhiều kết quả đã được công
bố trong thời gian qua trên các tạp chí và hội nghị chun ngành có uy tín. Các
nghiên cứu nhằm để xây dựng, phát triển, hay cải tiến các kỹ thuật tính tốn
tốn học cao cấp nhằm nâng cao độ chính xác của q trình phân lớp, cũng như
giảm độ phức tạp của thuật toán trong cả q trình huấn luyện lẫn phân lớp để
có thể đáp ứng yêu cầu tốc độ ngày càng cao của người sử dụng.
Bài toán phân lớp ảnh là lĩnh vực nghiên cứu được sự quan tâm của các
nhà khoa học trong và ngồi nước, vì thế có nhiều hướng tiếp cận để giải quyết
bài toán này. Các hướng tiếp cận phổ biến hiện nay cho việc giải quyết bài toán
phân lớp là: sử dụng K-NN và K-Mean với các độ đo khác nhau, Support
Vector Machine (SVM) và mạng Nơron nhân tạo (ANN) …
Phương pháp phân lớp bằng K-NN và K-Mean rất phổ cập hiện nay thích
hợp với lớp bài tốn, trong đó khơng gian biểu diễn mẫu nhỏ. Tuy nhiên, trong
trường hợp khơng gian biểu diễn mẫu có kích thước lớn thì chi phí tính tốn của
hai phương pháp này cao.
Phương pháp Support Vector Machine (SVM) áp dụng khá tốt cho các
bài tốn phân lớp mẫu ngay cả khi khơng gian biểu diễn mẫu lớn. Với cách tiếp
cận của phương pháp này, cần thiết phải xác định các siêu phẳng để phân lớp
mẫu, và số lượng siêu phẳng cần xác định tăng tỷ lệ với số lượng lớp cần phân
loại. Điều này dẫn đến: thời gian tạo các siêu phẳng phân lớp thường cao trong
trường hợp số lượng lớp lớn (tốn kém chi phí tính tốn). Mặt khác, trường hợp
mẫu cần phân loại không thuộc L lớp cho trước, phương pháp SVM không xác
định được (cụ thể, SVM sẽ phân loại mẫu đó về một trong L lớp cho trước dựa
theo hệ số tính tốn, điều này cho một kết quả phân lớp sai).
Một cách tiếp cận khác khá phổ biến hiện nay là dùng mạng Nơron nhân
tạo cho bài toán phân lớp mẫu. Với cách tiếp cận này một mạng Nơron nhân tạo
sẽ được huấn luyện với tập mẫu để tìm ra bộ trọng số phục vụ cho quá trình
10
phân lớp. Cách tiếp cận này khắc phục được nhược điểm của SVM nhờ sử dụng
hệ số ngưỡng trong quá trình phân loại mẫu. Cụ thể, nếu mẫu cần phân loại
không thuộc L lớp cho trước, mạng Nơron nhân tạo xác định được và thơng báo
kết quả đối tượng đó nằm ngồi cơ sở dữ liệu các lớp đã có.
Với bài tốn phân lớp ảnh, kích thước của ảnh lớn (khơng gian biểu diễn
của ảnh lớn), do đó các phương pháp truyền thống K-NN, K-Mean là khơng
thích hợp. Hơn nữa, ảnh đầu vào của hệ thống phân lớp có thể thuộc hoặc không
thuộc L lớp đối tượng cho trước. Trong trường hợp ảnh đầu vào nằm ngoài L
lớp cho trước, phương pháp SVM sẽ cho kết quả sai (tự động phân loại ảnh về
lớp gần nhất). Trong trường hợp này sử dụng hệ số ngưỡng thích hợp của mạng
Nơron, một ảnh không nằm trong cơ sở dữ liệu sẽ không được phân loại về một
lớp nào.
Việc xác định được một phương pháp phân lớp phù hợp cho các ảnh được
cung cấp bởi người dùng là một vấn đề tương đối phức tạp vì dữ liệu người
dùng cung cấp thường rất đa dạng về chủng loại, chất lượng, kích thước và
thuộc nhiều lĩnh vực khác nhau.
1.4. Kết luận chƣơng
Trong chương này, luận văn đã trình bày tổng quan về bài tốn phân loại
phản hồi công dân dựa trên dữ liệu đầu vào là ảnh được cung cấp bởi những
người dân hoặc các doanh nghiệp. Luận văn cũng chỉ ra các vấn đề hiện nay cần
xử lí đối với bài tốn phân lớp ảnh. Trong chương tiếp theo chúng ta sẽ tập
trung nghiên cứu các phương pháp phân lớp ảnh.
11
CHƢƠNG 2: TỔNG QUAN VỀ PHÂN LỚP ẢNH
2.1. Bài toán phân lớp ảnh
2.1.1. Khái niệm
Bài toán phân lớp đối tượng trên ảnh được mô tả như sau: cho trước một
tập ảnh huấn luyện chứa các đối tượng thuộc các phân lớp xác định, nhận diện
sự xuất hiện của các đối tượng thuộc các phân lớp cho những bức ảnh mới đưa
vào.
Hình 3: Phân lớp đối tượng dựa trên nhận diễn các đối tượng trên ảnh [8]
Như vậy, nhiệm vụ của bài toán phân lớp đối tượng trên ảnh là cần xây
dựng mơ hình phân lớp để khi có một ảnh mới vào thì mơ hình phân lớp sẽ cho
biết ảnh đó thuộc lớp đối tượng nào. Phân lớp đối tượng ảnh có các loại sau:
Phân lớp nhị phân là quá trình tiến hành việc phân ảnh vào một trong
hai lớp khác nhau.
Phân lớp đa lớp là quá trình phân lớp với số lượng lớp lớn hơn hai. Tập
hợp ảnh trong miền xem xét được phân chia thành nhiều lớp chứ không đơn
thuần chỉ là hai lớp như trong bài toán phân lớp nhị phân. Về bản chất, bài toán
phân lớp nhị phân là trường hợp riêng của bài toán phân lớp đa lớp.
Phân lớp đa trị là mỗi ảnh trong tập huấn luyện cũng như các ảnh mới
12
sau khi được phân lớp có thể thuộc vào từ hai lớp trở lên.
Có nhiều phương pháp phân lớp đối tượng để giải quyết bài toán phân lớp
tùy thuộc vào cách thức xây dựng mơ hình phân lớp.
Sau q trình huấn luyện nếu độ chính xác của bộ phân lớp cao thì thuật
tốn huấn luyện được đánh giá là tốt. Một mơ hình phân lớp được xem là tốt
phải có chi phí thực thi thấp và độ chính xác cao.
2.1.2. Quá trình phân lớp ảnh
Quá trình phân lớp ảnh hiện nay thường được thực hiện thơng qua hai
bước chính: giai đoạn huấn luyện và giai đoạn kiểm thử.
Hình 4: Mơ hình tổng quát của hệ thống phân lớp đối tượng ảnh [8]
Giai đoạn 1: Huấn luyện (Training):
Đặc trưng thị giác (visual features) được rút trích từ các ảnh huấn luyện
và được lưu trữ theo một định dạng xác định. Tuy nhiên, việc lựa chọn các đặc
trưng thích hợp đối với từng kiểu dữ liệu ảnh sẽ giúp tăng tốc độ và mức độ
chính xác của hệ thống. Do đó, việc lực chọn và rút trích đặc trưng cần được
xem xét và chọn lựa các thuật toán phù hợp.
Các mơ hình máy học (learning model) sẽ được huấn luyện dựa trên
các đặc trưng thị giác được rút trích và nhãn của tập ảnh huấn luyện. Nhãn của
mỗi ảnh huấn luyện cho biết đối tượng thuộc phân lớp nào xuất hiện trong ảnh.
13
Với một số phương pháp, nhãn còn cần bao gồm thơng tin về vị trí chính xác
của đối tượng.
Giai đoạn 2: Kiểm thử (Testing)
Đặc trưng thị giác được rút trích từ ảnh mới do người dùng cung cấp.
Đặc trưng này sau đó được đưa vào các mơ hình máy học đã được huấn luyện
để nhận biết sự xuất hiện của các phân lớp đối tượng dựa trên đặc trưng toàn
cục hoặc cục bộ của ảnh.
2.1.3. Ứng dụng của bài toán phân lớp ảnh trong thực tế
Phân lớp ảnh được sử dụng nhiều trong các bài toán thực tế, đặc biệt là
trong các bài tốn liên quan đến tìm kiếm, truy vấn và phân tích ảnh. Cụ thể có
một số bài tốn sau:
Tìm kiếm ảnh và video theo phân lớp các đối tượng: người dùng cho hệ
thống truy vấn biết phân lớp đối tượng hiện đang quan tâm, hệ thống sẽ tự động
nhận diện được sự xuất hiện của các đối tượng thuộc phân lớp đó trong cơ sở dữ
liệu ảnh hoặc video đã được xây dựng sẵn và trả về kết quả tương ứng.
Phân tích video giám sát phục vụ an ninh quốc phòng: tự động phát
hiện sự xuất hiện của người, xe máy, xe hơi, các phương tiện qn sự, cơng
trình quốc phịng trong ảnh hoặc video thu nhận được trong quá trình do thám.
Phục vụ giám sát an ninh, an tồn giao thơng: xác định lưu lượng các
phương tiện giao thông di chuyển trên các cơng trình giao thơng, làm cơ sở cho
các ứng dụng giao thơng thơng minh.
Tự động phân tích và đánh chỉ mục cơ sở dữ liệu ảnh và video tài liệu
có kích thước lớn theo phân lớp cho trước.
Phân tích ảnh y khoa: nhận biết sự hiện diện của các khối u, các dị tật,
các điểm bất thường dựa trên các ảnh chụp X-quang, ảnh chụp Citi, RMI tại các
bệnh viên.
14
Với các đóng góp quan trọng trên, phân lớp đối tượng ảnh đã trở thành
một công cụ không thể thiếu trong cuộc sống hiện tại phục vụ trong mọi lĩnh
vực đời sống, giúp con người có thể xử lý một khối lượng ảnh đang tăng lên
một cách nhanh chóng do sự phát triển mạnh mẽ của công nghệ ảnh số.
2.2. Các phƣơng pháp biểu diễn ảnh trong mơ hình phân lớp
2.2.1. Tổng quan về biểu diễn ảnh
Để so sánh các ảnh với nhau hoặc phân lớp các ảnh, cách tiếp cận phổ
biến nhất là biểu diễn ảnh dưới dạng các đặc trưng. Đã có nhiều nghiên cứu về
các phương pháp rút trích và biểu diễn đặc trưng (feature presentation) nhằm
mơ tả các lớp đối tượng. Trong đó có thể phân làm 2 loại đặc trưng chính: đặc
trưng cấp thấp và đặc trưng cấp cao.
Đặc trưng cấp thấp là đặc trưng cơ bản được rút trích trực tiếp từ các
điểm ảnh như màu sắc, độ sáng. Các đặc trưng cấp thấp tiêu biểu gồm có: Color
Histogram (OH), Edge Orientation Histogram (EOH), Scale Invariant Feature
Transform (SIFT), Local Binary Pattern, Histogram of Gradients (HOG). Hạn
chế của các đặc trưng cấp thấp là khơng đủ tính tổng qt để mơ tả các phân lớp
trong đó các đối tượng cùng phân lớp có khác biệt lớn về đặc trưng thị giác.
Đặc trưng cấp cao là các đặc trưng mang tính ngữ nghĩa cao. Ví dụ, đối
với các phân lớp đối tượng là “động vật”, các đặc trưng cấp cao có thể là “đi
bằng bốn chân”, “có đi”, “biết bơi” hoặc “ăn cỏ”. Một số nghiên cứu sử dụng
đặc trưng cấp cao như Ali Farhadi đã tiến hành nhận dạng đối tượng với kết quả
trả về theo hướng mô tả đối tượng, Parikh đề xuất mơ hình xác định mức độ của
các đặc trưng cấp cao giữa các bức ảnh,… Các thách thức đối với các nghiên
cứu đặc trưng cấp cao bao gồm: làm sao tự động lựa chọn, định nghĩa các đặc
trưng phù hợp và làm cách nào phát hiện các đặc trưng này một cách hiệu quả,
chính xác nhất.
Bên cạnh đó, việc tích hợp thơng tin về ngữ cảnh, phân bố khơng gian
15
vào biểu diễn đối tượng cũng được chú ý. Mục đích của các nghiên cứu này
nhằm tăng cường các thơng tin mang tính riêng biệt, nổi trội của đối tượng,
giảm nhập nhằng trong biểu diễn đối tượng, và do đó giúp tăng độ chính xác
phân lớp. Ví dụ, ngữ cảnh (context) có thể là thơng tin về mơi trường mà đối
tượng thường xuất hiện (“chim” thường ở trên “cây”, “máy bay” thường bay
trên “trời”, “xe hơi” chạy trên “đường”) hoặc các đối tượng khác ln xuất hiện
kèm theo (“màn hình” và “bàn phím”, “bàn” và “ghế”). Và đặc tính phân bố
khơng gian, ví dụ như biểu diễn khn mặt người nhìn thẳng (frontal face):
vùng “mắt” ln ở 2 bên, phía trên “mũi” và “miệng”. Điển hình như nghiên
cứu của Carolina Galleguillos về việc xem xét đánh giá các cách tiếp cận khác
nhau dựa trên những thông tin về ngữ cảnh, từ đó đề xuất các định mức chung
nhất trong việc rút trích ngữ cảnh và mức độ ảnh hưởng qua lại của chúng. Khó
khăn lớn nhất trong việc tích hợp thông tin ngữ cảnh là việc xác định ngữ cảnh
mang tính tổng quát cho từng đối tượng do mỗi đối tượng có rất nhiều ngữ cảnh
riêng biệt.
2.2.2. Mơ hình “Bag of Words”
Có nhiều phương pháp để biểu diễn ảnh để xây dựng đầu vào cho bài
tốn phân lớp nhưng mơ hình Bag of Words được sử dụng phổ biến do tính
chính xác cao, đơn giản và dễ cài đặt. Mơ hình này được áp dụng thành cơng
trong bài tốn phân lớp văn bản. Trong đó, văn bản sẽ được mơ tả theo mơ hình
lược đồ tần suất xuất hiện của các từ trong văn bản đó.
Áp dụng mơ hình Bag of Words vào phân lớp ảnh, đầu tiên chúng ta xem
ảnh trong tập huấn luyện là các văn bản. Sau đó cần định nghĩa các từ cho văn
bản đó dựa vào việc xây dựng và mô tả các đặc trưng của ảnh. Các từ này được
gọi là “visual word” để phân biệt với các từ trong văn bản thông thường.
Biểu diễn ảnh theo mơ hình này gồm 3 bước:
Bƣớc 1: Xác định và mô tả đặc trưng cho từng ảnh trong tập dữ liệu. Các
thuật tốn rút trích đặc trưng cấp thấp được sử dụng do mơ hình này không khai
16
khai thác các ưu điểm của đặc trưng cấp cao. Hai hướng tiếp cận chính về biểu
diễn đặc trưng ảnh cấp thấp là:
- Đặc trưng toàn cục: Hướng tiếp cận này tuy đơn giản nhưng lại không
thật sự hiệu quả vì cách biểu diễn này khơng thích hợp với những biến đổi về
góc nhìn, biến đổi tỉ lệ, phép quay, độ sáng, sự che khuất, sự biến dạng, sự xáo
trộn của ảnh như Color Histogram (OH), Edge Orientation Histogram (EOH).
- Đặc trưng cục bộ: Hướng tiếp cận này khắc phục nhược điểm đã nêu
của đặc trưng toàn cục và đạt được kết quả cao trong các bài toán phân lớp ảnh.
Ví dụ như Scale Invariant Feature Transform (SIFT), Local Intensity Order
Pattern (LIOP). Trong đó thuật tốn SIFT được đánh giá cao do tính hiệu quả
mang lại cho mơ hình này.
Với việc sử dụng các đặc trưng cục bộ trên, tương ứng với mỗi ảnh sẽ rút
trích được một tập vector đặc trưng.
Bƣớc 2: Xây dựng từ điển codebook bằng cách gom cụm các vector tổng
hợp được ở bước 1 bằng các thuật tốn gom nhóm trong đó phổ biến nhất là KMeans. Trung tâm của mỗi cụm sẽ tương ứng với một từ. Như vậy, số lượng n
cụm sẽ cho ta từ điển codebook với n từ.
Bƣớc 3: Biểu diễn ảnh dưới dạng vector tần suất từ dựa vào codebook và
đây cũng chính là đầu vào của các bài tốn phân lớp ảnh.
2.3. Đặc trƣng của ảnh
Trích chọn đặc trưng là cơ sở của việc tìm kiếm ảnh dựa vào nội dung.
Theo nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn
bản và các đặc trưng trực quan như màu, kết cấu hay hình dạng. Trong phạm vi
đặc trưng trực quan, các đặc trưng có thể được phân loại tiếp thành các đặc
trưng chung và các đặc trưng trong từng lĩnh vực cụ thể. Các đặc trưng trực
quan chung gồm màu, kết cấu, và hình dạng trong khi các đặc trưng lĩnh vực cụ
thể là phụ thuộc ứng dụng. Các đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức
17
lĩnh vực.
Nhìn chung, khơng tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng
đã cho. Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ
các tình huống khác nhau.
2.3.1. Đặc trưng hình ảnh và tìm kiếm ảnh theo nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR)
hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng
dụng của thị giác máy tính đối với bài tốn tìm kiếm ảnh [10]. “Dựa vào nội
dung ảnh (Content- Based)” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực
sự của các bức ảnh. Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng,
kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thơng tin
nào có từ chính nội dung ảnh. Cụm từ CBIR được T.Kato đưa ra vào năm 1992
trong quá trình thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu
diễn màu sắc và hình dạng của ảnh. Tee Cheng Siew đã giới thiệu một số đặc
trưng nội dung ảnh [15]:
- Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng
phổ biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thơng tin
màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba
chiều. Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm
kiếm ảnh theo màu sắc tiến hành tính tốn biểu đồ màu cho mỗi ảnh để xác định
tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc). Các nghiên
cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm
mỗi quan hệ giữa các vùng này.
- Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mơ
hình trực quan của ảnh và cách thức chúng được xác định trong không gian. Kết
cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ
thuộc vào số kết cấu được phát hiện trong ảnh. Các tập này khơng chỉ xác định
các kết cấu mà cịn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu
18
đặc biệt trong ảnh đạt được chủ yếu bằng cách mơ hình các kết cấu như những
biến thể cấp độ xám 2 chiều.
- Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc
trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu.
Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính
hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng
đối tượng.
Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung
ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội
dung của ảnh.
2.3.2. Đặc trưng màu sắc
a. Lược đồ màu sắc
Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sử
dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phương
pháp đơn giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có
độ chính xác khơng cao. Đây có thể xem là bước lọc đầu tiên cho những bước
tìm kiếm sau. Một số lược đồ màu được sử dụng như: lược đồ màu RGB, lược
đồ màu HSI, lược đồ HSI cải tiến. Trong đó, lược đồ màu RGB được sử dụng
phổ biến nhất.
Lược đồ màu RGB:
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu
của ảnh xám. Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về
cường độ của ba kênh màu R, G, B. Luợc đồ màu này được định nghĩa như sau:
,
-
*
+
Trong đó N là số lượng điểm có trong ảnh.
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh,
19
sau đó đếm số điểm ảnh của mỗi màu. Khi mà số lượng màu là có hạng, để
thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị
duy nhất. Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3
lượt đồ riêng biệt
,-,
,-,
,-. Khi đó lược đồ được tính bằng cách đếm
kênh màu tương ứng trong mỗi điểm ảnh.
b. Độ đo tương đồng về màu sắc
Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách Ơclit, độ
đo Jensen-Shannon divergence (JSD).
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M. Khi
đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo
các loại độ đo tương ứng như sau:
Khoảng cách Ơclit
Đây là khoảng cách thông thường giữa các K điểm
( ( ) ( ))
∑ √(( ( )
( ))
Hoặc
( ( ) ( ))
∑| ( )
( )|
Độ đo Jensen-Shannon divergence (JSD)
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính
tốn độ tương đồng về màu sắc giữa 2 ảnh:
DJSD(
)
∑