Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.27 MB, 27 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG</small>
<small>Lê Thị Thúy</small>
<small>CHUYEN NGANH: KHOA HOC MAY TINH</small>
<small>MA SO: 60.48.01.01 (Khoa hoc may tinh)</small>
<small>TOM TAT LUAN VAN THAC Si</small>
<small>HA NỘI - 2015</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>Người hướng dẫn khoa học:...--c c2 2222222211111 555111111113</small>
<small>(Ghi rõ học hàm, học vị)</small>
<small>Phản biện Ì:...- 2000020002020 00200201 21 51c n cv sẽ</small>
<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Cơng</small>
<small>nghệ Bưu chính Viễn thơng</small>
<small>Có thể tìm hiểu luận văn tại:</small>
<small>- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Trong những năm gan đây, với sự bùng nổ của khoa hoc kỹ thuat, các thiết bị thu ảnh số như máy ảnh, điện thoại di động trở nên thông dụng mọi người. Cùng với đó các thiết bị lưu trữ ảnh càng ngày càng được cải tiễn về dung lượng, chất lượng, thời gian lưu trữ ảnh. Bên cạnh đó sự phát triển của mạng Internet càng làm cho sé lượng ảnh được trao đổi và lưu trữ càng lớn hơn và phức tạp hơn. Với lượng dit liệu ảnh tăng nhanh chóng như vậy, việc phân chia loại anh trở nên khó khăn va phức tap. Van đề này có thé giải quyết băng các phương pháp học máy dé giảm thiểu công sức của con người.
<small>Phân cụm hay phân nhóm (clustering) là một phương pháp hoc máy khơng giám sat</small>
có thể giúp phân loại, quản lý dữ liệu. Phân cụm ln là một bài tốn khó vì sự thiếu thơng tin về các nhãn dữ liệu. Có rất nhiều cách tiếp cận bài toán phân cụm, trong đó phân
tích sau đó. Trong đó các cau trúc cây có thứ bậc là công cụ đơn giản và hiệu quả nhất dé trực quan hóa kết quả. Điều này đặc biệt cần thiết cho đữ liệu đa chiều như đữ liệu kiểu
độ lớn của các chiều dữ liệu. Các thuật toán khai phá cần được cải tiến dé tối ưu hóa thời
<small>gian tính tốn va chi phí.</small>
Vì vậy, việc nghiên cứu các phương pháp phân nhóm là cần thiết. Do vậy, đề tài “Nghiên cứu một số phương pháp phân cụm có thứ bậc và ứng dụng trong phân cụm các bộ dữ liệu ảnh” trong đề tài sẽ giới thiệu một số thuật tốn phân cụm đưa ra các mơ hình phân cấp (hierarchical structure) hay còn gọi là các cây (tree). Mơ hình được sử dụng nhiều nhất là Agglomerative Hierarchical Clustering (AHC), ngồi ra cịn một số phương <small>pháp khác như Minimum Spanning Tree, hay những thuật tốn mơ phỏng dựa vao đặc</small> tính sinh học như AntTree. Những thuật toán nay sử dụng các cách tiếp cận khác nhau dé xây dựng mơ hình phân cấp.
Luận văn gồm 3 chương có nội dung như sau:
Trong đó sẽ giới thiệu về phân cụm, phân cụm phân cấp, các kỹ thuật tiếp cận trong phân cụm, các cách đo độ tương tự, các cách đánh giá kết quả phân cụm.
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Chương 2. Một số thuật tốn trong phân cụm có thứ bậc
Trong chương 2 luận văn sẽ giới thiệu một số thuật tốn phân cụm phân cấp mà tập trung trình bày ba thuật tốn phân cụm phân cấp đó là AHC (Agglomerative Hierarchical Clustering), MST (Minimum Spanning Tree), AntTree nhằm giới thiệu các mơ hình phân cấp khác nhau.
<small>Chương 3. Xây dựng ứng dụng phân cụm có thứ bậc trong phân cụm bộ dữliệu ảnh.</small>
<small>Dựa các bộ dữ liệu ảnh áp dụng những thuật toán được giới thiệu trong chương 2</small> dé tiến hành xây dựng những mơ hình phân cấp khác nhau, và tiến hành đánh giá, phân tích các kết quả thu được.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Phân cụm dữ liệu là q trình nhóm các đối tượng sao cho các đối tượng trong
<small>cùng một nhóm là tương tự nhau (hoặc có liên quan với nhau) và khác (khơng liên quan)</small>
với các đối tượng trong các nhóm khác [1].
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar) và các đối tượng trong các cụm khác sẽ “không tương tự” (Dissimilar) với nhau. Số cụm dữ liệu được phân ở đây có thé xác định trước dựa theo kinh nghiệm, yêu cầu số cụm cần được xây dựng, hoặc có thể
<small>được tự động xác định qua phương pháp phân cụm đã chọn.</small>
Quan điểm về một cụm có thé nhập nhang, tùy theo từng trường hợp mà chúng ta <small>lựa chọn các tiêu chí phân cụm khác nhau như:</small>
<small>— Dựa vào khoảng cách.</small>
— Dựa vào khái niệm, tính chất.
Phân cụm, một phương pháp học khơng giám sát, được xem là một vấn đề quan trọng trong khai phá đữ liệu do sự thiếu thông tin về nhãn của lớp dữ liệu. Nhiệm vụ
<small>chính là khai phá những tri thức trong dữ liệu.</small>
Phân cum đữ liệu nhắm mục đích chính là khai phá cau trúc của mẫu dữ liệu dé
<small>thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó cho phép người ta đi xâu vào phân</small>
tích và nghiên cứu cho từng cụm dé liệu này nhằm khai phá và tìm kiếm các thơng tin tiềm ân, hữu ích phục vụ cho ra quyết định.
<small>Các bước cơ bản trong quá trình phân cụm dữ liệu:</small>
— Lựa chọn đặc trưng: Các đặc trưng phải được lựa chọn một cách thích hợp dé có thê mã hóa nhiều nhất thơng tin liên quan đến mục đích cơng việc.
<small>— Xây dựng ham tính độ tương tự: Lua chọn độ do chỉ ra mức độ tương tự haykhoảng cách giữa các vectơ đặc trưng.</small>
— Xây dựng các tiêu chuẩn phân cụm: Tiêu chuẩn phân cụm có thể được biểu diễn bở hàm chỉ phí hay một vài quy tắc khác.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">— Xây dựng thuật toán phân cụm: Xác lập các điều kiện khởi tạo, lựa chọn một sơ đồ thuật toán nhằm xây dựng cấu trúc phân cum của tap dir liệu.
Việc lựa chọn các đặc trưng, độ đo tương tự, tiêu chuẩn phân cụm khác nhau có thé dẫn đến các kết quả phân cụm khác nhau.
Hiện nay vẫn chưa có phương pháp phân cụm tổng quát nào có thé giải quyết trọn ven cho tat cả các dang cấu trúc dữ liệu. Với những dang dữ liệu hỗn hợp, đa chiều thì <small>việc phân cụm cảng khó khăn hơn và đây đang là một cách thức trong nghành khai phá dữ</small>
— Tối thiểu lượng tri thức cần cho xác định các tham số đầu vảo.
<small>— Khả năng thích nghi với đữ liệu nhiễu.</small>
— Ít nhạy cảm với thứ tự của các dữ liệu vào.
— Số chiều lớn: Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp dụng được cho đữ liệu có từ 3 chiều trở lên.
<small>— Phân cụm ràng buộc: Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng</small> thái phân cụm tốt và thỏa mãn các ràng buộc.
— Dễ hiểu và dé sử dụng.
Những kỹ thuật tiếp cận trong phân cụm đữ liệu. Hiện nay, các kỹ thuật phân cụm có thé phân loại theo các phương pháp tiếp cận chính như sau: Phân cụm phân hoạch (Partitioning Methods), phân cụm phân cấp (Hierarchical Methods), phân cụm dựa trên <small>mật độ (Density — Based Methods), phân cụm dựa trên lưới (Grid-Based Methods); phân</small>
<small>cụm dựa trên mơ hình phân cum (Model-Based Clustering Methods), phan cụm có dir liệu</small>
<small>ràng buộc (Binding data Clustering Methods) [4].</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Bài toán phân cum: Cho trước cơ sở dữ liệu gồm N đối tượng (Xj, X2,... Xn) hoặc các bộ dữ liệu, xây dựng phương pháp phân chia dé phân N đối tượng thành k tập dữ liệu con
(k<=N), mỗi tập con biểu diễn một cụm C¡, Cạ,... Cn.
<small>a. Phan cụm phân hoạch (Partitioning Methods)</small>
Phương pháp phan hoạch là phương pháp phân chia n đối tượng cho trước ra k
thường được sử dụng nhất đó là dựa vào khoảng cách. Các đối tượng trong cùng một nhóm thì có các đặc điểm giống nhau hoặc gần giống nhau, trong khi đó các đối tượng ở các nhóm khác nhau thì có các đặc tính rất khác nhau.
b. Phân cụm phân cấp (Hierarchical Methods)
Phương pháp phân cụm phân cấp là phương pháp phân cụm, trong đó các đối tượng được tách (hoặc nhóm) vào các cụm có cấu trúc dạng cây phân cấp, cây phân cấp
<small>này: Phân rã theo hướng tích tụ (agglomerative) và phân rã theo hướng phân chia</small>
(divisive). Tích tụ là cách phân cụm theo kiểu từ dưới lên (buttom — up) còn phân chia là cách phân cụm theo kiêu từ trên xuống (top- down)
<small>c. Phương pháp phan cụm dựa trên mật độ (Density — Based Methods)</small>
Phương pháp phân cụm này nhóm các đối tượng theo hàm mật độ xác định. Trong đó mật độ được định nghĩa như là số các đối tượng lân cận của một đối tượng dt liệu theo ngưỡng nào đó. Trong cách tiếp cận này, khi dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước. Phương pháp phân cụm dựa trên mật độ được sử dụng dé tim ra các cụm có hình dạng phức tạp va ở nhiều kiểu khác nhau. Phương pháp nhằm
vùng có mật độ đối tượng ít
<small>d. Phương pháp phân cụm dựa trên lưới (Grid - Based Methods):</small>
Phương pháp phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên
<small>thành các 6 tạo thành câu trúc dữ liệu lưới. Sau đó các thao tác phân cụm chỉ cân làm ciéc</small> với các đối tượng trong từng 6 trên lưới chứ không phải các đối tượng dit liệu.
<small>e. Phân cụm dựa trên mơ hình phân cụm (Model-Based Clustering Methods)</small>
Phương pháp phân cụm dựa trên mơ hình mà mơ hình đó cố gắng khớp các dữ liệu với mơ hình tốn học, nó dựa trên giả định rằng dữ liệu được tạo ra bang hén hop xac
suất cơ bản. Phương nay khám phá các phép x4p xi tốt của các tham số mơ hình sao cho khớp với đữ liệu một cách tốt nhất. Các thuật toán phân cụm dựa trên mơ hình có hai cách tiếp cận chính: Mơ hình thống kê và mạng noron.
<small>f. Phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)</small>
Để phân cum dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán
<small>phân cụm</small>
<small>1.1.4. Cac ứng dụng của phan cụm dữ liệu</small>
e Thuong mại: Xác định các nhóm khách hang sử dụng sản phẩm hay dich vụ của
e Tìm kiếm ảnh: Xác định các cụm ảnh tương đồng.
e Trong tin sinh học: Phân loại động vật, thực vật qua chức năng gene tương đồng
<small>của chúng.</small>
e Trong y tế: Chang hạn xác định các nhóm bệnh nhân nhằm cung cấp thông tin cho việc phối hợp các loại thuốc điều trị.
nhằm cung cấp thông tin cho quản lý, quy hoạch đô thị.
Phương pháp phân cụm phân cấp là một phương pháp phân cụm, trong đó các đối
Trong phương pháp phân cụm phân cấp các đối tượng sẽ được phân rã tạo ra một tập các cụm lồng nhau, với một phân cụm gốc ở trên cùng và các phân cụm con ở phía
quả của thuật tốn phân cụm theo thức bậc có thể tổ chức như một cây, được gọi là một
Phương pháp này không cần xác định số cụm từ đâu. Số cum sẽ do khoảng cách giữa các cụm hoặc điều kiện dừng quyết định. Phân cấp cụm thường được biéu diễn dưới dang đồ thị dang cây, dé dàng có được số lượng cụm mong muốn bang cách cắt cây phân cấp ở mức độ phù hợp.
Cây phân cấp này được xây dựng theo kỹ thuật đệ quy. Có hai cách tiếp cận phố biến của kỹ thuật này đó là: phân rã theo hướng tích tụ (agglomerative) là cách phân cụm theo kiểu từ đưới lên (buttom — up) hoặc phân rã theo hướng phân chia (divisive) là cách phân cụm theo kiểu từ trên xuống ( top - down) [2]
thực hiện cho đến khi mỗi nhóm chỉ cịn 1 đối tượng hoặc là cho đến khi số lượng cụm đạt đến một ngưỡng cho phép.
— Cách tiếp cận dưới lên (bottom - up): Quá trình ngược lại với tiếp cận trên xuống, ban dau, chúng ta xem mỗi đối tượng là 1 cụm và nhóm 2 đối tượng gan nhất thành 1 cụm. Quá trình này lặp lại cho đến khi tất cả các đối tượng được nhóm vào 1 cụm hoặc là cho đến khi số lượng cụm đạt đến một ngưỡng cho phép.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Các cách tính liên kết (khoảng cách) giữa các cụm thường dùng là:
— Liên kết đơn (Single-linkage): Được tính dựa trên khoảng cách ngắn nhất giữa các thành phần nằm thuộc vào các phân cụm tương ứng.
các thành phần nằm thuộc vào các phân cụm tương ứng.
— Liên kết trung bình nhóm (Average-linkage): Được tính dựa trên khoảng cách trung bình giữa các thành phần của các phân cụm tương ứng.
— Liên kết tâm (Centroid- linkage): Liên kết giữa hai phân cụm được tính dựa trên <small>khoảng cách giữa hai trọng tâm của hai cụm.</small>
Nhược điểm của phương pháp này là: Khi đã trộn hay tách các cụm lại thì sẽ khơng thé quay lại, thời gian thực hiện phân cụm lâu do phải tìm hết các phân cụm.
Phương pháp phân cụm phân cấp là phương pháp được sử dụng khá nhiều trong thực tế, được áp dụng cho các bài toán khai phá dữ liệu: Phân cụm, tra cứu ảnh, phân cụm các liệu tài liệu, web theo cấu trúc cây, phân cụm các tập dữ liệu miêu tả về cau trúc gen, và áp dụng cho kinh tế (dự đoán tài chính, thị trường chứng khốn...)
Trước khi dit liệu đưa vào huấn luyện, dữ liệu cần được tiền xử lý hoặc hậu xử lý dé
nâng cao hiệu xuất của thật toán.
<small>1.3.1. Xứ lý dữ liệu</small>
<small>Khai pha dữ liệu là một quá trình rút trích hay khai phá tri thức từ một lượng lớn dữliệu.</small>
<small>Quá trình khai phá dữ liệu được chia thành ba giai đoạn chính, đó là:</small> - Giai đoạn tiền xử ly (pre-processing)
<small>- Giai đoạn khai phá, xử lý dữ liệu (data mining)- Giai đoạn hau xử ly (post-processing)</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>Trong mỗi giai đoạn lại được chia thành các bước nhỏ khác nhau tùy theo mục đích</small>
<small>khai phá dữ liệu.</small>
Giai đoạn tiền xử lý (pre-processing), trong quá trình phân cụm dữ liệu thì vấn đề trở ngại lớn đó là nhiễu (noise). Vì vậy giai đoạn tiền xử lý là giai đoạn rất quan trọng. Giai đoạn tiền xử lý đữ liệu bao gồm 4 bược:
- Bước làm sạch (cleaning): Loại bỏ những dữ liệu dư thừa hoặc khơng đồng nhất. Bước tích hợp (Integration): Dữ liệu có thé được lay từ nhiều nguồn khác nhau, tại bước này tất cả đữ liệu sẽ được kết hợp lại với nhau.
<small>- Bước lựa chon dt liệu (Data selection): Trong bước này những dữ liệu được coi</small> là tốt nhất sẽ được lấy ra, chúng sẽ là dữ liệu đầu vào cho việc phân tích dữ liệu - _ Bước chuyền đổi (Transformation): Trong bước này dữ liệu sẽ được chuyền đổi
hoặc hợp nhất vào một đinh dạng phù hợp với việc kha phá dữ liệu sau này.
<small>pha. Các kỹ thuật được sử dụng trong giai đoạn này: Phân cum (clustering), khai phá luật</small>
kết hợp (association rule mining), khai phá mẫu tuần tự (sequential pattern mining)... Tùy
Giai đoạn hậu xử lý (post-processing), trong nhiều các ứng dụng không phải tất cả
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">các mẫu có được từ giai đoạn khai phá đều hữu dụng, do các mẫu sinh ra từ một giai đoạn xử lý phức tạp, với lượng lớn dữ liệu vì vậy trong giai đoạn này có thê tiến hành một số bước: Loại bỏ một số cụm nhỏ hoặc có thé tiến hành trộn một số các cụm gần
<small>(Evaluation) trong giai đoạn hậu xử ly dữ liệu. Ngoài ra trong giai đoạn nay cịn có bước</small>
là trình bày lai tri thức (Knowledge Presentation). Bước này sử dung các kỹ thuật về trình bày trực quan: Có thé là đưa ra các báo cáo, biéu đồ... nhăm giúp người dùng tiếp <small>cận với các tri thức đã được rút trích.</small>
<small>1.3.2. Độ đo tương tự</small>
giá trị hàm tính khoảng cách giữa hai đối tượng càng lớn thì sự giống nhau giữa chúng
<small>càng nhỏ.</small>
hoặc các thuộc tính tương ứng của đối tượng trong không gian RỶ (d là số chiều của dữ liệu). Giả sử f,; biểu thi mẫu thứ ¡ của đặc trưng thir, với 1 = l,...,N vàr= 1,..., d, do đó vector hàng được biéu diễn như:
Dưới đây là một số phép do độ tương tự và khoảng cách giữa các đối tượng thường <small>sử dụng trong các thuật toán phan cụm [5,13]</small>
e Khoảng cách Euclidean, mơ tả khoảng cách hình học giữa hai đối tượng
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>1.3.3. Thuat toan phan cum</small>
<small>a. Phan cum phan hoach (Partitioning Methods)</small>
pháp phân chia để phân n đối tượng thành k tập dữ liệu con (k<=N), mỗi tập con biểu
<small>K-medoids (Kaufman và Rousseew 1987), PAM (Partition Around Medoids), CLARA(Clustering Large Applications), CLARANS (Clustering Large Applications based on</small>
<small>RAndomized Search), CLASA (Clustering Large Applications based on SimulatedAnnealing)...</small>
Thuật toán K — Means: Thuật toán phân hoạch K — Means do MacQueen dé xuat năm 1967. Thuật toán dựa trên độ đo khoảng cách của các đối tượng dữ liệu đến phần tử
<small>trung tâm của cụm chứa nó.</small>
Thuật tốn K — Means có tham số đầu vào là k và phân chia một tập n đối tượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độ tương đồng ngoài cụm là thấp.
<small>Thuật toán K — Means đơn giản:</small>
1: Khởi tạo k centroid ban đầu
<small>2: Repeat</small>
3: Tạo k cụm băng cách gán các điểm tới centroid gần nhất
4: Tính lại centroid cho mỗi cụm
5: Until Cac centroid không đổi
</div>