HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
______________________________________
TIỂU LUẬN
MÔN:CHUYÊN ĐỀ
ĐỀ TÀI: KHAI PHÁ DỮ LIỆU ĐA PHƯƠNG TIỆN
Sinh viên thực hiên : NGUYỄN ĐẮC THƯỞNG
Lớp : D07CNPM1
Giáo viên hướng dẫn : Thầy TRẦN ĐÌNH QUẾ
Hà Nội, 4/2011
I. LỜI NÓI ĐẦU
1. Lý do chọn đề tài
Ngày nay xuất hiện nhiều loại thiết bị ghi điện tử số như máy quét, microphone,
máy ảnh và máy quay cũng như sư phát triển mạnh mẽ của của các bộ nhớ lưu trữ
của máy tính và sự phát triển mạnh mẽ của Internet làm cho hệ thống cơ sở dữ liệu
đa phương tiện vô cùng lớn và ngày càng tăng gồm: âm thanh, video, hình ảnh, đồ
thị, bài phát biểu, văn bản, tài liệu, và dữ liệu siêu văn bản mà gồm văn bản, văn
bản đánh dấu, và mối liên kết . . . Vì vậy việc khám phá các tri thức bên trong các
cơ sở dữ liệu đa phương tiên này có ý nghĩa rất quan trọng đối với một số lĩnh vực,
tổ chức, cũng như một số ứng dụng.
Có ứng dụng rộng rãi trong các lĩnh vức khác nhau gồm:
• Chuẩn đoán y học.
• Dự doán thời tiết.
• Sản xuất TV.
• Phương tiện tìm kiếm hình ảnh trên Web.
• Thương mại điện tử.
• Nghiên cứu thiên văn học.
• Nghiên cứu địa chấn học.
• Nghiên cứu địa chất học.
2. Mục đích
Nghiên cứu về khai phá dữ liệu multimedia và tập trung vào khai phá dữ liệu hình
ảnh, hướng dẫn cách thức khai phá dữ liệu multimedia.
3. Nội dụng
• Khai phá dữ liệu đa phương tiện là gì?
• Cách thức khai phá dữ liệu đa phương tiện gồm:
o Tìm kiếm tương tự trong dữ liệu đa phương tiện.
o Phân tích đa chiều của các dữ liệu đa phương tiện.
o Phân loại và dự doán phân tích của dữ liệu đa phương tiện.
o Khai phá các liên kết trong dữ liệu đa phương tiện.
o Khai phá dữ liệu âm thanh và hình ảnh.
II. NỘI DUNG
1. Khai phá dữ liệu đa phương tiện là gì?
Định nghĩa cổ điển của khai phá dữ liệu thì khai phá dữ liệu là tiến trình khám phá
thông tin tự động, mà cải thiện đưa ra quyết định và đem lại thuận lợi cho công ty
trên thị trường. Các định nghĩa khác thì khai phá dữ liệu là thăm dò và phân tích
bằng các phương tiện tự động hay bán tự động của số lượng lớn dữ liệu để khám
phá các mẫu và các luật có ý nghĩa. Nó được cho rằng các mẫu và các luật được
khám phá là có ý nghĩa cho các doanh nghiệp. Quả thực, khai phá dữ liệu được áp
dụng kỷ luật mà làm tăng nhận dạng các mẫu thống kê, học máy, và trí tuệ nhân
tạo và được kết hợp với đưa ra quyết định doanh nghiệp để tối ưu hóa và làm tăng
việc khai phá dữ liệu. Ban đầu, các kỹ thuật khai phá dữ liệu được áp dụng cho cấu
trúc dữ liệu từ cơ sở dữ liệu. Thuật ngữ “khám phá tri thức trong cơ sở dữ liệu” mà
trong thời điểm này nó là lỗi thời, phản ánh giai đoạn này. Tuy nhiên, trí thức làm
sáng tỏ ý nghĩa dữ liệu và khám phá tri thức vượt xa việc tìm kiếm các mẫu đơn
giản và tương quan trong dữ liệu để xác định các khái niện và tìm kiếm các quan
hệ. Trí thức dựa trên mô hình tạo nên bức tranh logic nhất quan của thế giới. Trong
những năm gần đây thuật ngữ “phân tích dự đoán” đã được sử dụng rộng rãi trong
thế giới doanh nghiệp.
Một mặt tăng sức mạnh máy tính thực hiện các công nghệ khai phá dữ liệu hợp
lý bởi các công ty nhỏ, nhưng mặt khác, xuất hiện bộ nhớ khủng lồ rẻ tiền và các
thiết bị ghi điện tử số, như là máy quét, micro, máy ảnh và máy quay, đã cho phép
số hóa tất cả các loại doanh nghiêp, chính phủ và các tài liệu riêng tư. Nhiều công
ty xem những tài liệu điện tử này như tài sản giá trị lớn và các nguồn khác của dữ
liệu cho khai phá dữ liệu. Ví dụ, thông điệp e-mail từ các khách hàng và các bản
ghi cuộc trò chuyện qua điện thoại giữa các khách hàng và các hoạt động có thể
phục vụ như nguồn có giá trị của tri thức về cả hai thứ đó là khách hàng cần và
chất lượng của dịch vụ. Sự phát triển thông tin mạnh mẽ trên Word Wide Web tạo
ra việc khai phá dữ liệu, một nguồn không thể thiếu của dữ liệu cho các nghiệp vụ
thông minh. Tuy nhiên, xử lý nguồn mới của thông tin bán cấu trúc( trang Web, tài
liệu XML) và phi cấu trúc (văn bản, hình ảnh, âm thanh và video) được yêu cầu
phương pháp và công cụ khai phá dữ liệu mới.
Gần đây, Hai nhánh của khai phá dữ liệu, khai phá dữ liệu văn bản và khai phá
dữ liệu Web, đã nổi lên. Chúng có lịch trình nghiên cứu của riêng mình, cộng đông
nghiên cứu, và các công ty hỗ trợ phát triển các công nghệ và công cụ. Không may,
ngày nay khai phá dữ liệu đa phương tiện vẫn trong giai đoạn phôi thai. Nó có thể
được giải thích bằng các công nghệ non nớt, chi phí cao và việc lưu trữ và xử lý dữ
liệu media, và thiếu những câu chuyện thành công mà thể hiện lợi ích và tỷ lệ cao
trở lại đầu tư vào khai phá dữ liệu đa phương tiện.
Để hiểu xâu sắc phai phá dữ liệu đa phương tiện, cho phép chúng ta xem xét mục
đích và phạm vi của nó. Thứ nhất, cho phép chúng ta mô tả phân loại cái gì của dữ
liệu thuộc về dữ liệu phương tiện: dữ liệu âm thanh, mà gồm âm thanh, tiếng nói,
và âm nhạc; dữ liệu hình ảnh( hình ảnh đen trắng và hình ảnh màu); dữ liệu video,
mà gồm thời gian liên kết chuỗi hình ảnh; và mực điện tử hay số, mà là một chuỗi
của thời gian liên kết 2D hoặc 3D phối hợp của một bút, bút đèn, gang tay dữ liệu
cảm biến, hay các thiết bị tương tự. Tất cả dữ liệu này được sinh bởi loại cảm biến
riêng.
Thứ hai, cho chúng ta có cái nhìn gần hơn về thuật ngữ khai phá dữ liệu đa
phương tiện. Từ đa phương tiện cho rằng rằng một vài nguồn dữ liệu của các cách
thức khác được xử lý tại cùng một thời điểm. Nó có thể hay không thể là các
trường hợp. Dự án khai phá dữ liệu có thể quyết định chỉ một cách thức của dữ
liệu, ví dụ, các bản ghi âm thanh hay video giám sát khách hàng. Nó sẽ là tốt hơn
để sử dụng thuật ngữ khai phá dữ liệu media để thay thế, nhưng từ media thường
không bao hàm đa số media như là radio và truyền hình, mà có thể hoặc không thể
là nguồn dữ liệu cho dự án khai phá dữ liệu. Thuật ngữ khai phá dữ liệu cảm biến
mở rộng phạm vi quá xa như các cảm biến radar, công tơ mét, đo gia tốc, định vi
tiếng vọng, nhiệt kế, vv….
Mục đích chính của khai phá dữ liệu đa phương tiện là xử lý dữ liệu media đơn,
hay trong một kết hợp với dữ liệu khác cho việc tìm các mẫu có ích cho doanh
nghiệp. Ví dụ, phân tích lưu lượng khách hàng trong cửa hàng bán lẻ sử dụng bản
ghi video để tìm vị trí tối ưu cho việc trưng bày sản phẩm mới. Bên cạnh các dự án
khai phá dữ liệu rõ ràng, kỹ thuật khai phá dữ liệu có thê được sử dụng như một
phần của các hoạt động phức tạp hay các tiến trình sản xuất. Ví dụ, sử dụng các
hình ảnh để tìm các sản phẩm bị lỗi hay chỉ rõ cơ sở dữ liệu cuộc họp của công ty.
Khai phá dữ liệu là một phần của công nghệ đa phương tiện, mà gồm các vùng
sau:
• Nén và lưu trữ media.
• Phân phối luồng media trên mạng với các chất lượng được yêu cầu của dịch vụ.
• Phục hồi, chuyển đổi, và chỉnh sửa media.
• Chỉ mục, tổng quan, tìm kiếm, lấy media.
• Tạo các hệ thống tương tác đa phương tiện cho việc học/ đào tạo và tạo các sản
phẩm nghệ thuật.
• Tạo giao diện người dùng đa phương tiện.
Trong phần này, nghiên cứu của chúng ta về khai phá dữ liệu đa phương tiện và
tập trung vào khai phá dữ liệu hình ảnh. Ở đây tôi hướng dẫn cách thức khai phá dữ
liệu đa phương tiện, gồm tìm kiếm tương tự trong dữ liệu đa phương tiện, phân tích
đa chiều, phân tích phân loại và dự doán, khai phá liên kết trong dữ liệu đa phương
tiện.
2. Cách thức khai phá dữ liệu
II.1. Tìm kiếm tương tự trong dữ liệu đa phương tiện.
“Khi tìm kiếm tương tự trong dữ liệu mutimedia, chúng ta có thể tìm trên mỗi mô tả
dữ liệu hay nội dung dữ liệu không?” Đó là đúng. Đối với tìm kiếm tương tự trong
dữ liệu đa phương tiện, chúng ta xem hai họ chính của hệ thống lập chỉ mục và
phục hồi đa phương tiện: (1)các hệ thống phục hồi dựa trên bản mô tả, chúng
xây dựng chỉ số và thực hiện phục hồi đối tượng dựa trên các bản mô tả hình ảnh,
như là các từ khóa, ghi chú, kích thước, và thời gian tạo; và (2) các hệ thống phục
hồi dựa trên nội dung, chúng hỗ trợ phục hồi dựa trên nội dung của hình ành, như
là biểu đồ màu, kết cấu, mẫu, cấu trúc liên kết hình ảnh, và hình dạng của các đối
tượng và cách bố trí chúng và vị trí trong hình ảnh. Phục hồi dựa trên bản mô tả là
công việc khó khăn nếu được thực hiện thủ công. Nếu được tự động, các kết quả
thường có chất lượng thấp. Ví dụ, phân công từ khóa cho các hình ảnh có thể là
nhiệm vụ tự ý và phức tạp. Gần đây phát triển các cách thức nhóm và phân loại
hình ành dựa trên nền Web đã cải thiện chất lượng của thu hồi hình ảnh Web dựa
trên bản mô tả, bởi vì thông tin văn bản của hình xung quanh cũng như thông tin
liên kết Web có thể được sử dụng để lấy ra các mô tả thích hợp và nhóm các hình
ảnh mô tả một chủ đề tương tự nhau.
Hệ thống phục hồi dựa trên nội dung sử dụng đặc điểm trực quan để chỉ rõ các
hình ảnh và đẩy mạnh phục hồi đựa trên các đặc điểm giống nhau, đó là điều rất
mong muốn trong nhiều ứng dụng.
Trong hệ thống phục hồi hình ảnh dựa trên nội dung, thường có hai loại truy vấn:
truy vấn đựa trên mẫu hình ảnh và truy vấn chỉ rõ đặc điểm hình ảnh. Truy vấn
dựa trên mẫu hình ảnh tìm tất cả các hình ảnh mà giống với mẫu đưa ra. Tìm
kiếm này so sánh vector đặc điểm( hay dấu hiệu) được lấy từ mẫu với các véc tơ
đặc điểm của các hình ảnh mà đã được lấy và được chỉ rõ trong cơ sở dữ liệu hình
ảnh. Dựa trên so sánh này, các hình ảnh mà gần với hình ảnh mẫu được trả lại.
Truy vấn chỉ rõ đặc điểm hình ảnh chỉ rõ và phác thảo các đặc điểm hình ảnh
giống như màu, kết cấu, hay hình dạng, mà được chuyển đổi thành vector đặc điểm
để phù hợp với các vector đặc điểm của hình ảnh trong cơ sở dữ liệu. Phục hồi dựa
trên nội dung có ứng dụng rộng rãi, gồm chuẩn đoán y học, dự doán thời tiết, sản
xuất TV, phương tiện tìm kiếm hình ảnh trên Web, và thương mại điện tử.Một số
hệ thống, như là OBIC(Query By Image Content: truy vấn bằng nội dụng hình
ảnh), hỗ trợ cả hai truy vấn dựa trên mẫu hình ảnh và truy vấn chỉ rõ đặc điểm hình
ảnh. Nó cũng là hệ thống mà hỗ trợ cả hai phục hồi được trên nội dung và phục hồi
dựa trên bản mô tả.
Một số cách tiếp cận đã được đề xuất và được nghiên cứu cho phục hồi dựa trên
tương tự trong cơ sở dữ liệu hình ảnh, dựa trên dấu hiệu hình ảnh:
Dấu hiệu dựa trên biểu đồ màu: trong cách tiếp cân này, dấu hiệu của một hình
ảnh gồm các biểu đồ màu dựa trên tập hợp màu của một hình ảnh về pham vi
hay định hướng của nó. Cách thức này không gồm một số thông tin về hình
dạng, cấu trúc liên kết hình ảnh, hay kết cấu. Thực vây, hai hình với tập hợp
mầu tương tự nhau nhưng có định dạng, hay cấu trúc khác nhau có thể được xác
định như tương tự, mặc dù chúng có thể hoàn toàn không liên quan về mặt ngữ
nghĩa.
Dấu hiệu bao gồm nhiều đặc điểm: Trong cách tiếp cận này, dấu hiệu của một
hình ảnh gồm thành phần của nhiều đặc điểm: biểu đồ màu, hình dạng, cấu trúc
liên kết hình ảnh và kết cấu. Việc lấy các đặc điểm của hình ảnh được lưu trữ
như siêu dữ liệu, và các hình ảnh được chỉ rõ dựa trên siêu dữ liệu như vậy.
Thường thì, các chức năng riêng biệt có thể được định nghĩa cho mỗi đặc điểm
và sau đó được kết hợp để lấy toàn bộ kết quả. Tìm kiếm đa chiều dựa trên nôi
dung thường sử dụng một hay một vài đặc điểm thăm dò để tìm kiếm các ảnh
chứa các đặc điểm như vậy. Bởi vậy, nó có thể được sử dụng để tìm kiếm các
hình ảnh tương tự. Cách tiếp cận này được sử dụng chủ yếu trong thực tế.
Dấu hiệu dựa trên số lần gợn: cách tiếp cận này sử dụng hệ số số lần gợn trội
của hình ảnh như dấu hiệu của nó. Số lần gợn thu thập hình dạng, kết cấu, thông
tin cấu trúc hình ảnh trong một nền thống nhất. điều này làm cải thiện hiệu quả
và giảm cần thiết cho cung cấp nhiều tìm kiếm nguyên thủy( không giống như
phương thức thứ hai ở trên). Tuy nhiên, từ khi phương thức này tính toán một
dấu hiệu cho toàn bộ hình ảnh, nó có thể sai để xác định các hình ảnh chứa các
đối tượng tương tự nơi mà các đối tượng khác nhau về vị trí và kích thước.
Dấu hiệu dựa trên số lần gợn với độ chi tiết theo vùng: trong cách tiếp cận
này, tính toán và so sánh các dấu hiệu ở độ chi tiết của các vùng, không phải
toàn bộ hình ảnh. Cách tiếp cận này đựa trên quan sát mà các hình ảnh tương tự
có thể chứa các vùng giống nhau, nhưng một vùng trong một hình ảnh có thể
được chuyển hay mở rông quy mô của một vùng tương ứng trong vùng khác.
Bởi vậy, thước đo tương đồng giữa truy vấn hình ảnh Q và mục tiêu hình ảnh T
có thể được định nghĩa theo thuật ngữ phần nhỏ của vùng của hai hình ảnh được
bao bọc bằng các cặp của vùng tử Q và T. Như vậy tìm kiếm tương tự dựa trên
vùng có thể tìm các hình ảnh chứa các đối tượng tương tự, nơi mà các đối tượng
có thể được chuyển đổi hay thu nhỏ lại.
II.2. Phân tích đa chiều của các dữ liệu đa phương tiện
“Chúng ta có thể xây dựng khối dữ liệu từ phân tích dữ liệu không?”. Để dễ dàng
phân tích đa chiều của cơ sở dữ liệu đa phương tiện lớn, khối dữ liệu đa phương
tiện có thể được thiết kế và được xây dựng theo cách tượng tự như đối với khối dữ
liệu giao dịch từ dữ liệu quan hệ. Khối dữ liệu đa phương tiện (Đa phương tiện
data cube) có thể chứa chiều và độ đo cho thông tin đa phương tiện, như là màu,
kết cấu, và hình dạng.
Hãy xem xét hệ thống khai phá dữ liệu đa phương tiện nguyên mẫu được gọi là
MultiMediaMiner mà được mở rộng hệ thống DBMiner bởi điều khiển dữ liệu đa
phương tiện. Một ví dụ cơ sở dữ liệu được kiểm tra trong hệ thống Multimedia
Miner được xây dựng như sau. Mỗi hình ảnh gồm hai mô tả: mô tả đặc điểm và mô
tả cách bố trí. Hình ảnh ban đầu không được lưu trữ trực tiếp trong cơ sở dữ liệu;
chỉ có các mô tả của nó được lưu trữ. Thông tin mô tả bao gồm các trường giống
như tên file hình ảnh, URL của hình ảnh, kiểu hình ảnh(ví dụ: gif, tiff, jpeg, mpeg,
bmp, avi), một danh sách tất cả các trang Web được biết đến tham chiếu tới hình
ảnh(tức là, cha me của URL), một danh sách các từ khóa, và hình thu nhỏ được sử
dụng bởi giao diện người dùng cho trình duyệt hình ảnh và video. Mô tả đặc điểm
là một tập các vector đối với từng đặc tính thị giác. Các vector chính là vector màu
chứa lượng biểu đồ màu tới 512 màu(8 x 8 x 8 cho R x G x B), Một vector
MFC(Most Frequent Color: màu thường xuyên), và một vector MFO(Most
Frequent Orientation: Hướng thường xuyên). Một MFC và MFO chứa năm màu
trọng tâm và năm hướng biên trọng tâm lần lượt cho năm màu thường xuyên và
năm hướng thường xuyên. Hướng biên được sử dụng là
°°°°°
90 ,67.5 ,45 ,22.5 ,0
. . .
Mô tả cách bố trí chứa vector bố trí màu và vector bố trí biên. Không chú ý kích
thước ban đầu của chúng, tất cả các hình ảnh được gán một lưới 8 x 8. Màu thường
xuyên với mỗi ô trong 64 ô được lưu trữ trong vector bố trí màu, và số các biên cho
mỗi hướng trong mỗi ô được lưu trữ trong vector bố trí biên. Kích thước khác của
lưới, giống như 4 x 4, 2 x 2, và 1 x 1, có thể dễ dàng được lấy.
Thành phần lấy hình ảnh của MultiMediaMiner sử dụng hình ảnh thông tin theo
ngữ cảnh, giống như các tiêu đề HTML trong các trang Web, để lấy từ khóa. Bằng
cách đi qua các cấu trúc thư mục trực tuyến, giống như thư mục của Yahoo!, nó có
thể tạo các phân cấp của từ khóa được ánh xa vào trong các thư mục trong đó hình
ảnh đã được tìm thấy. Những đồ thị này được sử dụng như khái niệm phân cấp về
từ khóa chiều trong khối dữ liệu đa phương tiện.
“Phân loại các chiều có thể của khối dữ liệu đa phương tiện bằng cái gì”. Khối
dữ liệu có thể có nhiều chiều. Sau đây là một số các ví dụ: kích thước của hình ảnh
hay video theo byte; chiều rộng và chiều cao của khung (hay ảnh), cấu tạo hai
chiều; dữ liệu trên hình ảnh hay video đã được tạo(hay sửa đổi lần cuối); kiểu định
dạng của hình ảnh hay video; dãy khung xuất hiện trong một giây; miền hình ảnh
hay video trên Internet; miền Internet của các trang tham chiếu hình ảnh hay
video( URL cha mẹ); các từ khóa; chiều của màu; chiều hướng biên; vân
vân….Khái niệm phân cấp cho nhiều số chiều có thể được định nghĩa tự động. Với
các chiều khác, như là với chiều miền Internet hay màu, các hệ thống phân cấp
được định nghĩa trước có thể được sử dụng.
Xây dựng khối dữ liệu đa phương tiện sẽ làm dễ dàng phân tích đa chiều của dữ
liệu đa phương tiện chủ yếu dựa trên nội dung trực quan, và khai phá nhiều loại trí
thức, bao gồm tổng hợp, so sánh, phân loại, liên kết, và phân nhóm. Mô đum phân
loại của MultiMediaMiner và đầu ra của nó được thể hiện trong hình bên dưới
Khối dữ liệu đa phương tiện được xem là mô hình quan trong cho phân tích đa
chiều của dữ liệu đa phương tiện. Tuy nhiên, chúng ta nên chú ý rằng nó là khó để
cài đặt hiệu quả khối dữ liệu cho số lượng lớn các chiều. Điều tồi tệ của số chiều là
đặc biệt nghiêm trong trong trường hợp của các khối dữ liệu đa phương tiện. Chúng
ta có thể muốn mô hình màu, hướng, kết cấu, từ khóa, vân vân như nhiều chiều
trong khối dữ liệu đa phương tiện. Tuy nhiên, nhiều thuộc tính được nhóm thành
tập thay vì là một giá trị. Ví dụ, một hình ảnh có thể tương dương một tập các từ
khóa. Nó có thể chứa một tập của các đối tượng, mỗi cái được liên kết với tập các
màu. Nếu chúng ta sử dụng mỗi từ khóa như một chiều hay mỗi màu được chi tiết
như môt chiều trong thiết kế khối dữ liệu, nó sẽ tạo số lượng rất lớn các chiều. Mặt
khác, không được làm như vậy vì có thể dẫn đến mô hình của hình ảnh khó khăn
hơn nhiều, giới hạn, phạm vi không chính xác. Nhiều nghiên cứu là cần thiết cho
cách thiết kế khối dữ liệu đa phương tiện mà có thể cân bằng giữa hiệu quả và sự
mạnh mẽ của đại diện.
II.3. Phân loại và dự doán phân tích của dữ liệu đa phương tiện
Mô hình phân loại và dự đoán được sử dụng cho khai phá dữ liệu đa phương tiện,
đặc biệt trong nghiên cứu khoa học, như là nghiên cứu thiên văn học, địa chấn học,
và địa chất học. Chủ yếu phương thức mẫu thống kê chiều sâu để phân biệt các đặc
điểm khó thấy và xây dựng các mô hình chất lượng cao.
Ví dụ:
Phân loại và phân tích dự đoán của thiên văn học. Lấy các hình ảnh bầu trời
được phân loại cẩn thận bởi các nhà thiên văn học như tập huấn luyện, chúng ta có
thể mô hình xây dựng cho nhân dạng của các thiên hà, ngôi sao, và các đối tượng
ngôi sao khác, dựa trên các đặc tính như độ lơn, vị trí, cường độ, tầm quan trọng
của ảnh, và định hướng. Số lượng lớn hình ảnh bầu trời lấy bằng kính thiên văn,
hay tàu thăm dò không gian có thể sau đó được kiểm tra ngược trở lại mô hình được
xây dựng để xác định thiên thể mới. Nghiên cứu tương tự đã thành công trong việc
xác định núi lửa trên sao Kim.
Tiền xử lý dữ liệu là quan trọng khi khai phá dữ liệu hình ảnh và có thể gồm làm
sạch dữ liệu, truyền dữ liệu, và lấy đặc điểm. Bên cạnh các phương thức chuẩn
được sử dụng trong nhân dạng mẫu, như là phát hiện biên và chuyển đổi Hough,
các kỹ thuật có thể được khai thác, như là phân tích các hình ảnh để eigenvector
hay dựa vào các mô hình xác xuất để giải quyết sự không chắc chắn. Từ khi dữ liệu
hình ảnh thường đặt trong khối lớn và có thể yêu cầu sức mạnh xử lý đáng kể, xử lý
song song và phân tán là hữu ích. Phân loại và phân cụm khai phá dữ liệu hình ảnh
được liên kết chặt chẽ để phân tích hình ảnh và khai phá dữ liệu khoa học, thực sự
có nhiều kỹ thuật phân tích hình ảnh và phương thức phân tích dữ liệu khoa học có
thể được áp dụng để khai phá dữ liệu hình ảnh.
Việc sử dụng phổ biến World Wide Web đã tạo nên kho chứa dữ liệu đa phương
tiện phong phú và khủng lồ của Web. Web không chỉ gồm số lượng lớn các ảnh,
tranh, album, các hình ảnh video trong các dạng thư viện trực tuyến, nhưng cũng có
vô số các ảnh, tranh và hình động, và các định dạng đa phương tiện khác trong hầu
hết mọi trang Web. Như tranh và ảnh được bao quanh bởi các mô tả văn bản, được
đặt ở các khối khác nhau của trang Web, hay được nhúng bên trong các bản tin hay
bài báo, có thể phục vụ nhiều mục đích khác nhau, được định dạng như là các thành
phần không tách rời của nội dung, phục vụ như một quảng cáo, hay đề xuất lựa
chọn chủ đề. Xa hơn, những trang Web này được liên kết với các trang Web khác
theo cách phức tạp. Như vậy, văn bản, vị trí hình ảnh, thông tin liên kết Web, nếu
được sử dụng phổ biến, có thể giúp hiểu các nội dung của văn bản hay hỗ trợ phân
loại và phân cụm các hình ảnh trên Web. Khai phá dữ liệu bằng cách sử dụng tốt
các vị trí liên quan và mối liên kết giữa các hình ảnh, văn bản, các khối trong trang,
và các liên kết trang trong Web trở thành một mục quan trọng trong phân tích dữ
liệu.
II.4. Khai phá các liên kết trong dữ liệu đa phương tiện
“Cái gì để phân biệt các luật có thể được khai phá trong dữ liệu đa phương tiện”
Các luật liên kết liên quan đến các đối tượng đa phương tiện có thể được khai phá
trong cơ sở dữ liệu hình ảnh và video. Tối thiểu 3 danh sách có thể được tiến hành:
Các liên kết giữa nội dung hình ảnh và các đặc điểm nôi dung phi hình ảnh:
Một luật giống như “Nếu tối thiểu 50% của phần trên của bức tranh là màu
xanh da trời, thì nó giống như đại diện cho bầu trời” theo danh sách này từ khi
nó liên kết nội dung hình ảnh tới từ khóa sky.
Các liên kết giữa nội dung hình ảnh mà không liên quan tới các quan hệ
không gian: Một luật giống như “Nếu nội dung của bức tranh chứa hai hình
vuông màu xanh da trời, thì nó cũng giống như chứa một hình tròn màu đỏ”
theo danh sách này từ khi các liên kết là tất cả về nội dung của hình ảnh.
Các liên kết giữa nội dung hình ảnh liên quan tới các quan hệ không gian:
Một luật giống như “Nếu một hình chữ nhật màu đỏ ở giữa hai hình vuông màu
vàng, thì nó giống như một hình bầu dục lớn bên dưới” theo danh sách này từ
khi nó liên kết với các đối tượng trong hình ảnh với các quan hệ không gian.
Để khai phá các liên kết giữa cá đối tượng đa phương tiện, chúng ta có thể xử lý
mỗi một hình ảnh như một giao dịch và tìm các mẫu thường xuyên xuất hiện giữa
các hình ảnh khác nhau.
“Sự khác nhau giữa các luật khai phá liên kết trong cơ sở dữ liệu đa phương
tiện với trong cơ sở dữ liệu giao dịch là gi?” Có một vài khác biệt khó thấy. Đầu
tiên, một hình ảnh có thể chứa nhiều đối tương, với mỗi đặc điểm như màu, hình
dạng, kết cấu, từ khóa, và các vị trí không gian, vì vậy có thể có nhiều khả năng liên
kết. Trong nhiều trương hợp, các đặc điểm được xem xét như cùng trong hai hình
ảnh ở mức giải quyết nào đó, nhưng khác nhau tại các mức giải quyết tốt hơn. Bởi
vậy, nó là cần thiết để tăng cách tiếp cận tinh tế của các giải pháp cải thiện. Đó
là,đầu tiên chúng ta có thể khai phá các mẫu xuất hiện thường xuyên tại mức có liên
quan đến giải quyết thô, và sau đó chỉ tập chung vào những cái mà lớn hơn ngưỡng
support nhỏ nhất khi khai phá tại mức giải quyết tốt hơn. Điều này là bởi vì các
mẫu mà không thường xuyên tại mức thô không thể là thường xuyên tại các mức tốt
hơn. Như vậy về thực chất các chiến lươc khai phá nhiều giả pháp làm giảm toàn bộ
chi phí khai phá dữ liệu mà không làm mất chất lượng và đầy đủ của kết quả khai
phá dữ liệu. Để đạt được phương pháp luận hiệu quả cho khai phá các itemset
thương xuyên và các liên kết trong cơ sở dữ liệu đa phương tiện lớn.
Thứ hai, bởi vì bức tranh chứa nhiều đối tượng tái diễn là một đặc điểm quan
trong trong phân tích hình ảnh, tái diễn cùng một đối tượng không nên phớt lờ trong
việc phân tích liên kết. Ví dụ, một bức tranh chứa hai vòng tròn vàng là được xử lý
khá khác từ từ đó chỉ chứa một. Điều này khá khác nhau từ trong cơ sở dữ liệu giao
dịch, nơi thực tế mà một người mua một hay 2 lít sữa có thể thường được xử lý
tương tự như “buys-milk”. Bởi vậy, định nghĩa liên kết đa phương tiện và độ do của
nó, như support và confidence, nên điều chỉnh cho phù hợp.
Thứ ba, Thường tồn tại các quan hệ không gian quan trọng giữa các đối tượng
đa phương tiện, như trên, bên dưới, giữa, gần đó, trái của và v v… Các đặc trưng
này là rất có ích cho việc khai thác các liên kết và tương phản của đối tượng. Các
quan hệ không gian cùng với các nội dung dựa trên đặc điểm đa phương tiện, như là
màu, hình dạng, kết cấu, khóa chính, có thể định dặng các liên kết quan trọng. Do
đó, phương thức khai phá dữ liệu không gian và thuộc tính topological của các quan
hệ không gian trở thành quan trọng của khai phá đa phương tiện.
II.5. Khai phá dữ liệu âm thanh và hình ảnh
Bên cạnh các hình ảnh, tổng số các thông tin âm thanh hình ảnh trở thành có
hiêu quả trong định dạng số, trong kiến trúc số, trong World Wide Web, trong phát
luông dữ liệu, và trong các cơ sở dữ liệu cá nhân và chuyên nghiệp. Các tổng số này
đang tăng nhanh chóng. Đó là đòi hỏi lớn về hiệu quả của các phương thức lấy và
khai phá dữ liệu dựa trên nọi dung cho dữ liệu âm thanh và video. Các ví dụ đặc
trưng gồm tìm kiếm và sửa đổi đa phương tiện của các clip video đặc trưng trong
TV studio, phát hiện người đáng ngờ hay quang cảnh trong quan sát video, tìm
kiếm các sự kiên tiêu biểu trong kho chứa đa phương tiện của cá nhân như là
MyLifeBits, phát hiện các mẫu và đầu ra trong các bản ghi của radar thời tiết, và
tìm kiếm giai điệu tiêu biểu trong album nhạc MP3 của bạn.
Để dễ dàng ghi, tìm kiếm, và phân tích âm thanh và thông tin video từ dữ liệu đa
phương tiện, nghành công nghiệp và ủy ban chuẩn đã tạo ra tiến bộ lớn, hướng phát
triển một tập các chuẩn cho mô tả và nén thông tin đa phương tiện. Ví dụ, MPEG-
k( được phát triển bởi MPEG: Moving Picture Expert Group ) và JPEG là chương
trình nén video tiêu biểu. Phát hành gần nhất đây là MPEG-7 tên “Đa phương tiện
Content Description Interface” là chuẩn cho mô tả nội dung dữ liệu đa phương tiện.
Nó hỗ trợ môt số trường giải thích ý nghĩa thông tin, mà có thể được truyền vào,
hay được truy cập bởi một thiết bị hay máy tính. MPEG-7 không nhắm đến bắt cứ
một ứng dụng nói riêng; đúng hơn, các thành phần mà chuẩn MPEG-7 hỗ trợ như
phạm vi ứng dụng rộng rãi có thể. Dữ liệu âm thanh hình ảnh trong MPEG-7 gồm
các bức tranh, video, đồ thị, âm thanh, tiếng nói, mô hình ba chiêu, thông tin về
cách mà các phần tử dữ liệu được kết hợp trong việc đưa ra đa phương tiện.
Sau đây là các phần tử của chuẩn MPEG trong MPEG-7: (1) tập các mô tả, nơi
mỗi mô tả định nghĩa một cú pháp và cá ngữ nghĩa của đặc điểm, như màu, hình
dạng, kết cấu, tô pô hình ảnh, chuyển động, hay tiêu đề; (2) một tập các lược đồ mô
tả, nơi mỗi lược đồ chỉ rõ cấu trúc và ngữ nghĩa của các quan hệ giữa các thành
phần của nó ( mô tả hay các lược đồ mô tả); (3) một tập các lược đồ mã hóa cho các
mô tả; (4) ngôn ngữ định nghĩa mô tả(DDL) để chỉ rõ các lược đồ và các mô tả.
Như vậy chuẩn làm cho nhiều dễ dàng để lấy video và khai phá dữ liệu video đựa
trên nội dung.
Nó là không thực tế để xử lý một video clip như một chuỗi dài các bức ảnh
riêng lẻ và phân tích mỗi bức ảnh từ nhiều bức tranh, và hầu hết các hình ảnh liền
kề là tương tự. Để nắm bắt được cấu trúc sự kiện của một video, nó là tốt hơn để xử
lý video clip như một tập của các hoạt động và các sự kiện trong thời gian và đoạn
tam thời đầu tiên của chúng vào các bức ảnh video. Một ảnh video là một nhóm các
khung hay bức ảnh nơi nội dung video từ một khung tới một khung liên kề khác
không được thay đổi bất ngờ. Hơn nữa, hầu hết khung đại điện trong một ảnh video
là được xem như khóa khung của ảnh video. Mỗi khóa khung có thể được phân tích
sử dụng lấy đặc điểm hình ảnh và các phương thức phân tích được nghiên cứu bên
trên trong việc lấy hình ảnh dựa trên nội dung. Sau đố một chuỗi các khóa khung sẽ
được sử dụng để định nghĩa chuỗi các sự kiện xảy ra trong video clip. Thực vậy,
phát hiện ảnh video và lấy khóa khung từ video clip trở thành nhiện vụ cần thiết
trong xử lý và khai phá video.
Khai phá dữ liệu video vẫn trong giai đoạn phôi thai. Vẫn còn một số vấn đề
nghiên cứu để được giải quyết trước khi nó trở thành thực tế chung. Tương tự dựa
trên tiền xử lý, nén, chỉ số, phục hồi, lấy thông tin, xóa dư thừa, phát hiện mẫu
thường xuyên, phân loại, phân cụm, xu hướng và phát hiện đầu ra là các nhiện vụ
quan trong của khai phá dữ liệu trong phần này.
III. TÀI LIỆU THAM KHẢO
[1] Data Mining: Concepts and Techniques [Jiawei Han and Micheline
Kamber]
[2] Multimedia Data Mining and Knowledge Discovery [Valery A. Petrushin
and Latifur Khan]