HỌC VIỆN NÔNG NGHIỆP VIỆT NAM
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO TIẾN ĐỘ KHAI PHÁ DỮ LIỆU
ĐỀ TÀI: " Khai phá và phân tích dữ liệu clickstream để mua
sắm trực tuyến "
Giảng viên hướng dẫn
: Cô Nguyễn Thị Thủy
Bộ môn quản lý
: Khoa học máy tính
Họ và Tên sinh viên
: Lê Văn Quân – K63TH – 637856
: Lê Cao Tân – K63TH – 63776
HÀ NỘI – 2021
Phụ lục
…………...
4.3
Mơ tả thuật tốn sẽ sử
dụng………………………………………………………..
4.4
Dữ liệu và tiên sử lí dữ
liệu……………………………………………………….
4.5
Phân lớp
…………………………………………………………………………….
4.6
Phân cụm
……………………………………………………………………………
4.7
Kết quả, đánh giá sau khi phân tích
………………………………………………
I.
MỞ ĐẦU
I.1 Đặt vấn đề
-
Hiện nay, Thương mại điện tử phát triển nhanh theo xu thế tồn cầu hố.
Việc giao dịch thông qua các Website Thương mại điện tử tạo ra lượng dữ
liệu vơ cùng lớn. Dữ liệu này chính là thông tin về khách hàng cũng như các
sản phẩm giao dịch. Nếu có thể khai thác được nguồn dữ liệu này thì chúng
ta sẽ có một hệ thống thơng tin rất giá trị phục vụ cho phát triển Thương mại
-
điện tử. Tuy nhiên cơng việc này vẫn cịn là một thách thức.
Trong nỗ lực thúc đẩy giao dịch thông qua mạng máy tính, xây dựng hệ
thống khuyến cáo sản phẩm cho khách hàng là cơng việc khơng thể thiếu
-
được.
Vì Vậy nhóm em chọn đề tài Khai phá và phân tích dữ liệu clickstream để
mua sắm trực tuyến
I.2 Mục đích và yêu cầu
I.2.1 Mục đích
- Hiện nay, với sự phát triển vượt bật của công nghệ thông tin, các hệ thống
thơng tin có thể lưu trữ một khối lượng dữ liệu lớn. Trong kho dữ liệu lớn đó
khơng phải thơng tin nào cũng có ích. Vì vậy để khai thác được những tri
thức có ích đó các phương pháp Khai phá dữ liệu ra đời. Chúng cho phép
chúng ta trích xuất những thơng tin hữu ích mà chúng ta chưa biết. Các tri
thức vừa tìm thấy có thể vận dụng để cải thiện hiệu quả hoạt động của hệ
-
thống thông tin ban đầu.
Khai phá dữ liệu trong Thương mại điện tử nhằm phát hiện ra các tri thức
mới, tri thức có ích trong giao dịch Thương mại điện tử. Tri thức này có thể
là thơng tin về các bên giao dịch, thông tin về các sản phẩm giao dịch hay xu
thế mua hàng trong các phiên giao dịch giữa hai bên, .... Thương mại điện tử
đang phát triển mạnh mẽ theo xu thế tồn cầu hố, do vậy phát hiện tri thức
mới có rất nhiều ý nghĩa và được ứng dụng chủ yếu trên khía cạnh giao dịch
thơng qua mạng máy tính. Khai phá dữ liệu trong Thương mại điện tử thực
hiện trên cơ sở dữ liệu giao dịch giữa khách hàng và nhà cung cấp sản phẩm.
I.2.2 Yêu cầu
- Đọc, mơ tả , phân tích , import được dữ liệu vào trong weka
-
Đánh giá dữ liệu và tiền xử lí dữ liệu
Mơ tả bài toán
Hiểu và thực hành các kĩ thuật ,thuật toán phân lớp
+ Phân lớp với cây quyết định (decision tree)
+ Phân lớp với Naïve Bayesian
+ Phân lớp với k phần tử gần nhất (k-nearest neighbor)
+ Phân lớp với máy vector hỗ trợ (SVM)
+ Phân lớp với mạng neural (neural network)
+ Phân lớp dựa trên tiến hoá gen (genetic algorithms)
+ Phân lớp với lý thuyết tập thô, tập mờ (rough sets)
+ Phân lớp với lý thuyết tập mờ (fuzzy sets)…
-
Hiểu về khai phá luật kết hợp
Hiểu và thực hành các kĩ thuật, thuật tốn phân cụm
phương pháp học có giám sát
+ SVM
+ KNN
+ CART
+ LASSO
+ K láng giếng gần nhất
-
phương pháp học không giám sát
+ Kmean
+ ICA
+ PCA
II.
khai phá dữ liệu và đề tài
II.1 khai phá dữ liệu và tầm quan trọng của nó
- Trong thời đại kỹ thuật số, lợi thế chiến lược lớn nhất đến từ việc phân loại,
sắp xếp và phân tích và khai thác dữ liệu từ mọi góc độ có thể. Tuy nhiên,
không giống như tất cả các hoạt động liên quan đến dữ liệu, giá trị của các
hoạt động khai thác dữ liệu được gắn trực tiếp với chất lượng và phạm vi dữ
liệu có sẵn để khai thác. Và để làm việc từ dữ liệu gần đây nhất, sạch nhất và
được định dạng đúng, doanh nghiệp cần có cách để tổng hợp dữ liệu hiệu
quả và an toàn từ các nguồn và cấu trúc khác nhau vào một vị trí để có thể
-
khai thác và tối ưu dữ liệu tốt nhất.
Việc xử lý khai thác các dữ liệu khổng lồ được phát huy tác dụng trong
-
những ngành:
Tài chính: Phân tích dữ liệu sâu để tạo các mơ hình rủi ro chính xác cho việc
cho vay, sáp nhập / mua lại và khám phá các hoạt động gian lận
-
Hoạt động CNTT: Khai thác dữ liệu hỗ trợ thu thập, xử lý và phân tích khối
lượng dữ liệu ứng dụng, mạng và cơ sở hạ tầng để khám phá những hiểu biết
về bảo mật hệ thống CNTT và hiệu suất mạng.
-
Tiếp thị: Bề mặt trước đó ẩn các xu hướng hành vi của người mua và dự
đoán các hành vi khách hàng trong tương lai để xác định người mua chính
xác hơn. Từ đó tạo ra nhiều chiến dịch nhắm mục tiêu hơn để tăng sự tham
gia và quảng bá sản phẩm hoặc dịch vụ mới
-
Nhân sự: Khai phá dữ liệu từ hồ sơ của ứng viên, từ đó cung cấp cái nhìn
tồn diện về ứng viên. Xác định kết quả phù hợp nhất cho từng vai trò bằng
cách sử dụng phân tích dữ liệu để đánh giá trình độ, kinh nghiệm, kỹ năng,
chứng chỉ và vị trí cơng việc đã đảm nhiệm trước đây.
-
Khai thác dữ liệu là một điều bắt buộc để duy trì tính cạnh tranh và đạt được
lợi thế chiến lược trong kỷ nguyên số của kinh doanh.
II.2 Khai phá dữ liệu là gì
-
Khai thác mơ hình hay kiến thức thú vị (khơng tầm thường, tiềm ẩn, chưa
từng được biết và có khả năng hữu ích) từ số lượngrất lớn của dữ liệu Khai
-
thác dữ liệu: một cái tên nhầm lẫn?
Tên thay thế⁄khai phá tri thức trong cơ sở dữ liệu (KDD), khai thác kiến
thức, phân tích dữ liệu / mẫu, khai thác thông tin, kinh doanh thông minh, vv
II.3 Đề tài nghiên cứu
- Khai phá và phân tích dữ liệu clickstream để mua sắm trực tuyến
- Nhóm em sử dụng dữ liệu từ UCI để phân tích các dữ liệu có sẵn
- Với 6004 mẫu dữ liệu
- Link địa chỉ lấy dữ liệu
- />g#
III.
NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
III.1
Nguồn dữ liệu nghiên cứu
- />-
g#
Source:
Mariusz ÅapczyÅ„ski, Cracow University of Economics, Poland,
-
lapczynm '@' uek.krakow.pl
Sylwester Białowąs, Poznan University of Economics and Business,
Poland, sylwester.bialowas '@' ue.poznan.pl
III.2
Nội dung nghiên cứu
- Sử dụng bộ dữ liệu trên được thu thập từ tháng 4 đến thắng 8 năm 2008 trên
-
47 quốc gia và trang web với 6004 mẫu dữ liệu
Sử dụng các giải thuật phân lớp như:
Naive Bayes classifier.
SMO
Láng giềng gần
Cây quyết định
Cây m48
Rừng ngẫu nhiên
SVM
Các phương pháp phân cụm :
Kmean
So sánh các phương pháp phân lớp phân cụm thay đổi thông số và chọn ra
các giải thuật tốt nhất cho bộ dữ liệu
III.3
Phương pháp nghiên cứu
- Sử dụng phần mềm weka để phân tích dữ liệu
- Điều chỉnh thay đổi và lọc dư liệu thừa dữ liệu
-
Tiền xử lí làm sạch dữ liệu
Khai thác dữ liệu
Sử dụng các thuật tốn có sẵn trong weka để phân lớp , phân cụm dữ liệu
Sau đó chỉnh suear thơng số và chọn ra giải thuật có bộ phân lớp và bộ phân
cụm tốt nhất .
4) KẾT QUẢ VÀ THẢO LUẬN
4.1 MƠ TẢ BÀI TỐN
- Bài tốn khai phá dữ liệu mua quần áo thông qua bán hàng trực tuyến từ 42
quốc gia và 5 địa chỉ web dựa trên các yếu tố về sản phẩm , màu sắc, giá sản
phẩm, theo đo la và theo địa phương, vị trí đặt sản phẩm để đánh giá xem yếu tố
nào ảnh hưởng đến quyết định mua hàng sản phẩm online của khách hàng nhất
4.2 MÔ TẢ DỮ LIỆU
- Tên dữ liệu: e-shop clothing 2008
- các giá trị thống kê variable 14 giá trị
1.
2.
3.
4.
5.
Năm
Tháng
Ngày
Đặt hàng (order) chuỗi nhấp chuột trong 1 phiên
Quốc gia 42 quốc gia và 5 iền địa chỉ
1-Australia
2-Austria
3-Belgium
4-British Virgin Islands
5-Cayman Islands
6-Christmas Island
7-Croatia
8-Cyprus
9-Czech Republic
10-Denmark
11-Estonia
12-unidentified
13-Faroe Islands
14-Finland
15-France
16-Germany
17-Greece
18-Hungary
19-Iceland
20-India
21-Ireland
22-Italy
23-Latvia
24-Lithuania
25-Luxembourg
26-Mexico
27-Netherlands
28-Norway
29-Poland
30-Portugal
31-Romania
32-Russia
33-San Marino
34-Slovakia
35-Slovenia
36-Spain
37-Sweden
38-Switzerland
39-Ukraine
40-United Arab Emirates
41-United Kingdom
42-USA
43-biz (*.biz)
44-com (*.com)
45-int (*.int)
46-net (*.net)
47-org (*.org)
6
session id -> biến biểu thị id phiên ( bản ghi ngắn)
7
Các danh mục sản phẩm chính
-
1.Quần tây
2.Váy 2 dây
3.Áo 3 lỗ
4.sale
8 Trang 2 mẫu quần áo chứa thông tin về mã của từng sản phẩm
-
217 sản phẩm
9 Màu sắc ,màu của sản phẩm
-
1-beige
2-black
3-blue
4-brown
5-burgundy
6-gray
-
7-green
8-navy blue
9-of many colors
10-olive
11-pink
12-red
13-violet
14-white
10 vị trí ảnh trên trang
-
Trang đc chia thành 6 phần
1-top left
2-top in the middle
3-top right
4-bottom left
5-bottom in the middle
6-bottom right
11 chụp ảnh mẫu sản phẩm
-
Có hai thể loại
1. Mặt
2. Hồ sơ
12 giá
-
Giá dưới dạng đồng mĩ
13 PRICE 2 -> biến cho biết liệu giá của một sản phẩm cụ thể có cao hơn
giá trung bình cho toàn bộ danh mục sản phẩm
1-yes
2-no
13 số trang trong trang web của cửa hàng
Từ 1 đến 5
4.3 . MÔ TẢ THUẬT TOÁN SẼ SỬ DỤNG
-
4.3.1 CLASSIFI
-
Phân lớp với cây quyết định (decision tree)
+ Tốc độ học tương đối nhanh so với các phương pháp khác
+Có thể chuyển thành luật một cách dễ dàng⁄Sự chính xác cũng khá tốt
+Địi hỏi tiền xử lý đơn giản
+Node cha: phép kiểm thử (test) trên một thuộc tính
Node lá: nhãn
mô tả của một lớp (class label)
Nhánh từ một node cha: kết quả của một phép thử trên thuộc tính tương ứng
-
Phân lớp với Nạve Bayesian
+ X: một tuple
+đối tượng (evidence)
+H: giả thuyết (hypothesP(X|H): posterior probability
Xác suất của biến cố X với điều kiện biến cố H đã xảy ra.is)
+ P(H|X): posterior probability⁄Xác suất của biến cố H với điều kiện biến cố X
đã xảy ra.
-
Phân lớp với k phần tử gần nhất (k-nearest neighbor)
+ Thuật toán sẽ quyết định gán nhãn lớp cho phần tử mới ứng với lớp của phần
đông trong số các kphần tử lân cận với nó.
+Chọn k phần tử của tập mẫu huấn luyện gần phần tử mới X.
+Xác định nhãn của số đông của k phần tử này: C
+Gán nhãn C là nhãn của lớp phần tử mới.
4.3.2
-
Phân lớp với máy vector hỗ trợ (SVM)
CLUSTER
KMEAN:
+ Phân cụm/nhóm (Clustering) là phương pháp học khơng có giám sát được sử
dụng phổ biến nhất
+ Tồn tại các phương pháp học khơng có giám sát khác, ví dụ: Lọc cộng tác
(Collaborative filtering), Khai phá luậtkếthợp(Association rule mining)
(Associationrulemining), ...
+Học phân cụm
+Đầu vào : một tập dữ liệu không có nhãn ( các ví dụ khơng có nhãn lớp/giá
trịđầu ra mong muốn)
+Đầu ra: các cụm (nhóm) của các ví dụ
+Một cụm (cluster) là một tập các ví dụ
+Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó )
+Khác biệt với các ví dụ thuộc các cụm khác
DỮ LIỆU VÀ TIỀN XỬ LÍ DỮ LIỆU
4.4
- SỐ THUỘC TÍNH :14 THUỘC TÍNH
- SỐ MẪU 6004
- MẤT DỮ LIỆU : KHÔNG
- KIỂU NUMERIC
- YEAR: 2008
- MONTH: 4
- DAY : MIN:1
MAX:2
4.5
ORDER MIN:1
MAX60
MEAN:8,322
…
PHÂN LỚP
4.5.1 LaZY-IBK
Cho page1
- 66% train còn lại để test
- thời gian xây dựng mơ hình (model) 0.04s
- thời gian cần đề kiểm tra mơ hình trên tập test đã chia: 0.67s
- Hệ số tương quan 0,9921
- Sai số tuyệt đối trung bình 0,0069
- Lỗi bình phương gốc trung bình 0,1171
- Sai số tuyệt đối tương đối 0,8981%
-Lỗi bình phương tương đối gốc 12,5861%
-Tổng số mẫu
2041
Chạy chỉ số trên cho một số thuộc tính quyết định đến vc mua hàng của người sử
dụng
Cho order
-
Hệ số tương quan 0,1919
Sai số tuyệt đối trung bình 7.4343
Lỗi bình phương trung bình gốc 11.1952
-
Sai số tuyệt đối tương đối 117,478%
Lỗi bình phương tương đối gốc 130,1873%
Tổng số phiên bản 2041
Cho màu sắc
-
Hệ số tương quan 0,9924
Sai số tuyệt đối trung bình 0,0333
Lỗi bình phương trung bình gốc 0,5172
Sai số tuyệt đối tương đối 0,9095%
Lỗi bình phương tương đối gốc 12,3084%
Tổng số phiên bản 2041
Cho location
-
Hệ số tương quan 0,9977
Sai số tuyệt đối trung bình 0,0073
Lỗi bình phương gốc trung bình 0,115
Sai số tuyệt đối tương đối 0,4863%
Lỗi bình phương tương đối gốc 6,7424%
Tổng số phiên bản 2041
cho session id
-
Hệ số tương quan 0,767
Sai số tuyệt đối trung bình 131.477
Lỗi bình phương trung bình gốc 168.3357
Sai số tuyệt đối tương đối 61,0228%
Lỗi bình phương tương đối gốc 67,588%
Tổng số phiên bản 2041
Cho numpage
-
Hệ số tương quan 0,9921
Sai số tuyệt đối trung bình 0,0069
Lỗi bình phương gốc trung bình 0,1171
Sai số tuyệt đối tương đối 0,8981%
Lỗi bình phương tương đối gốc 12,5861%
Tổng số phiên bản 2041
4.5.2
Random forrest
chạy trên page
- 66% train còn lại để test
- thời gian xây dựng mơ hình (model) 1.28s
- thời gian cần đề kiểm tra mơ hình trên tập test đã chia: 0.17s
-
Hệ số tương quan 0,9975
-
Sai số tuyệt đối trung bình 0,0202
Lỗi bình phương trung bình gốc 0,0734
Sai số tuyệt đối tương đối 2,6488%
Lỗi bình phương tương đối gốc 7,8827%
Tổng số phiên bản 2041
Chạy trên location
66% train còn lại để test
- thời gian xây dựng mơ hình (model) 0.7s
- thời gian cần đề kiểm tra mơ hình trên tập test đã chia: 0.05s
-
Hệ số tương quan 0,9985
Sai số tuyệt đối trung bình 0,0213
Lỗi bình phương trung bình gốc 0,0937
Sai số tuyệt đối tương đối 1.4102%
Lỗi bình phương tương đối gốc 5,4951%
Tổng số phiên bản 2041
Chạy trên order
-
Mất 4.63 dây để xây dựng mơ hình
0,12s để test
Hệ số tương quan 0,2597
Sai số tuyệt đối trung bình 6.4465
Lỗi bình phương gốc trung bình 9.3406
Sai số tuyệt đối tương đối 101,8679%
Lỗi bình phương tương đối gốc 108,6204%
Tổng số phiên bản 2041
1. Naive Bayes
Naive Bayes
Cross – validation Folds: 10%
Thời gian xây dựng mơ hình: 0,02 giây
Các trường hợp được phân loại chính xác
5800
Các trường hợp được phân loại khơng chính xác 200
Thống kê Kappa 0,9419
Sai số tuyệt đối trung bình 0,0348
Lỗi bình phương trung bình gốc 0,107
Sai số tuyệt đối tương đối 15,2405%
96,6667%
3,3333%
Lỗi bình phương tương đối gốc 31,6797%
Tổng số phiên bản : 6000
=== Confusion Matrix ===
a
b
c
d
e <-- classified as
3559
10
38
1
3 |
a=1
17
1294
46
25
13 |
b=2
10
20
609
2
1 |
c=3
0
1
6
262
4 |
d=4
0
0
2
1
76 |
e=5
Đánh giá mơ hình:
-
Thời gian xây dựng mơ hình nhanh
-
Tỉ lệ phân loại chính xác cao : ~97%
-
Sai số và lỗi nhỏ
-
Mơ hình phân lớp đầy đủ 6000 dữ liệu
Mơ hình hiệu quả
TH2: Naive Bayes
Percentage splip: 66%
Thời gian thực hiện để kiểm tra mơ hình trong phần tách thử nghiệm: 0,02 giây
Các trường hợp được phân loại chính xác
1941
Các trường hợp được phân loại khơng chính xác 99
Thống kê Kappa 0.9148
Sai số tuyệt đối trung bình 0,0437
Lỗi bình phương gốc trung bình 0,1256
Sai số tuyệt đối tương đối 19,1899%
Lỗi bình phương tương đối gốc 37,3508%
Tổng số phiên bản 2040
a
b
c
d
e <-- classified as
1212
6
14
0
1|
a=1
7
434
30
18
1|
b=2
95,1471%
4,8529%
8
5
194
1
0|
c=3
1
0
3
79
0|
d=4
0
0
2
2
22 |
e=5
Đánh giá mơ hình:
-
Thời gian xây dựng mơ hình nhanh
-
Tỉ lệ phân loại chính xác cao : ~95%
-
Mơ hình phân lớp được 1/3 tổng dữ liệu
Mơ hình khơng hiệu quả
2. SMO
TH1: Cross – validation Folds: 10%
Thời gian xây dựng mơ hình: 97,29 giây
4.5.7 ĐÁNH GIÁ
- Việc sử dụng các bộ phân lớp để đánh giá theo các thuộc tính ta chọn bộ phân lớp
nạve bayes vì:
- Kết luận: Mơ hình phân lớp Naive Bayes với Cross – validation Folds: 10% là
mơ hình hiệu quả nhất vì
4.6
-
Thời gian xây dựng mơ hình nhanh
-
Tỉ lệ phân loại chính xác cao : ~97%
-
Sai số và lỗi nhỏ nhất trong các mô hình khác
-
Mơ hình phân lớp đầy đủ 6000 dữ liệu
Phân cụm cluster
Số cột : 6000
Thuộc tính : 16
year
month
day
order
country
session ID
page 1 (main category)
page 2 (clothing model)
colour
location
model photography
price
price 2
page
Chế độ kiểm tra: đánh giá trên dữ liệu đào tạo
Simple KMeans
VD1:
Simple KMeans
Use training set
Numclusters: 2
Mơ hình phân cụm: Simple KMeans
Số lần lặp lại: 3
Trong cụm tổng các lỗi bình phương: 12216.390405591053
Điểm xuất phát ban đầu (ngẫu nhiên):
Cluster 0: 2008,4,1,1,29,180,1,A15,14,5,2,33,2,1
Cluster 1: 2008,4,1,15,29,273,1,A18,4,6,1,38,2,1
Các trung tâm cụm cuối cùng:
Attribute
Cluster#
Full Data
0
1
(6000.0) (1584.0) (26%) (4416.0) (74%)
order
session ID
8.3238
438.76
9.5713
7.8764
460.9426
430.8032
page 1 (main category): 2.4267
2.7891
2.2966
page 2 (clothing model): B4
A15
B4
price
43.7238 38.9034
45.4529
price 2
1.4753
1.5549
1.4468
1.9949
1.5068
page
1.6357
Thời gian thực hiện để xây dựng mô hình (dữ liệu đào tạo đầy đủ): 0,1 giây
Phiên bản nhóm:
0
1584 ( 26%)
1
4416 ( 74%)
Đánh giá:
-
Mơ hình phân cụm chia đầy đủ 100% dữ liệu
-
Thời gian thực hiện mơ hình nhanh
-
Số lần lặp ít: 3
-
Dữ liệu được phân chia vào cụm chính xác cao
Mơ hình được đánh giá hiệu quả nhất
VD2:
Simple KMeans
Use training set
numClusters: 5
Số lần lặp lại: 27
Mô hình phân cụm: Simple KMeans
Trong cụm tổng các lỗi bình phương: 9765.569359451045
Phiên bản nhóm:
0
486 ( 8%)
1
1334 ( 22%)
2
1926 ( 32%)
3
1096 ( 18%)
4
1158 ( 19%)
Thời gian thực hiện để xây dựng mơ hình (dữ liệu đào tạo đầy đủ): 0,2giây
Đánh giá:
-
Mơ hình phân cụm chia 99% dữ liệu
-
Thời gian thực hiện mơ hình nhanh
-
Mơ hình 5 cụm khơng hiệu quả như mơ hình 2 cụm
-
Số lần lặp lớn
VD3 :
Simple KMeans
Percentage split : 66%
Số lần lặp lại: 3
Mơ hình phân cụm: Simple KMeans
Thời gian cần thiết để xây dựng mơ hình (chia tỷ lệ phần trăm): 0,01 s
Phiên bản nhóm:
0
2842 ( 53%)
1
2558 ( 47%).
Đánh giá:
-
Mơ hình khơng phân lớp được tất cả dữ liệu
-
Thời gian thực hiện mơ hình nhanh
Mơ hình khơng hiệu quả
VD4: Simple EM (expectation maximisation)
Số cụm được chọn bằng cách xác nhận chéo: 3
Số lần lặp được thực hiện: 1
-
Thời gian thực hiện để xây dựng mô hình (dữ liệu đào tạo đầy đủ): 14.61 s
-
Phiên bản nhóm:
-
0
1535 ( 26%)
1
1646 ( 27%)
2
2819 ( 47%)
Khả năng ghi nhật ký: -2.14794
Đánh giá mơ hình:
-
Mơ hình phân cụm chia đủ 100% dữ liệu
-
Thời gian thực hiện mơ hình chậm
-
Chỉ lặp lại duy nhất 1 lần
Mơ hình hiệu quả nhưng khơng hiệu quả như mơ hình VD1
Kết luận : Từ 4 trường hợp về phân cụm trên chúng ta thấy được mơ hình
phân cụm Simple Kmeans là mơ hình phân cụm hiệu quả nhất.
-
Thời gian thực hiện để xây dựng mơ hình nhanh
-
Số lần lặp lại ít
-
Dữ liệu được phân vào đúng cụm.