TRƯỜNG ĐẠI HỌC THƯƠNG MẠI
KHOA: HTTT KINH TẾ VÀ THƯƠNG MAI ĐIỆN TƯ
ĐỀ TÀÀ̀I THẢO LUẬN
MÔN: KHAI PHÁ DỮ LIỆỆ̣U TRONG KINH DOANH
Đề tài: Khai phá dữ liệu cho cơ sở dữ liệu khách hàng quyết định lựa chọn sản phẩm
tại Adidas.
Giảng viên hướng dẫn: PGS. TS. Nguyễn Thị Thu Thủy
Lớp học phần:
2102INFO2111
Nhóm thực hiện:
Nhóm 7
HÀÀ̀ NỘI, 2021
1
Người thực hiện: 9
BẢNG PHÂN CÔNG NHIỆỆ̣M VỤ VÀÀ̀ DANH SÁCH THÀÀ̀NH VIÊN NHĨM 7
Họ và tên
55. Đỗ Hải Nam
(nhóm trưởng)
56. Lê Đình Nam
57. Nguyễn Thị Nga
58.Mẫn Xuân Nghĩa
59. Trần Long Nhật
60. Trần Vũ Thảo Nhi
61. Nguyễn Thị Nhun
62. Trịnh Hoa Niên
63. Nguyễn Tiến Phú
2
Mục lục
CHƯƠNG I: KHẢO SÁT DỰ ÁN.......................................................................................................5
CHƯƠNG II: KẾẾ́T QUẢ NGHIÊN CÚU............................................................................................8
1.
Mơ tả thống kê...........................................................................................................................8
2.
Phân tích độ tin cậy qua hệ số Cronbach’s Alpha...................................................................8
3.
Kết quả phân tích nhân tố khám phá EFA............................................................................. 11
4.
Tương quan pearson................................................................................................................ 16
5.
Phân tích hồi quy đa biến........................................................................................................ 16
CHƯƠNG III: XÂY DỰNG CÂY QUYẾẾ́T ĐỊNH............................................................................ 18
CHƯƠNG IV: GIẢI PHÁP................................................................................................................. 28
3
LỜI MỞ ĐẦU
Những năm gần đây, khi nền kinh tế đất nước phát triển, chất lượng đời sống của
người dân Việt Nam đặc biệt là ở khu vực thành thị ngày càng nâng cao. Cùng với nhu
cầu “ăn ngon mặc đẹp” là nhu cầu có được một sức khỏe tốt, thân hình dẻo dai, cân đối.
Để thỏa mãn các nhu cầu trên thì việc có được đơi giày thể thao đẹp, phù hợp với các loại
hình thể thao là một điều cần thiết.
Hàng loạt các thương hiệu giày thể thao quốc tế lớn như Nike, Adidas và
Reebok… có nhà sản xuất gia công phần mềm của giày dép tại Việt Nam, đồng thời các
sản phẩm chính hãng cũng tham gia vào thị trường giày dép của Việt Nam. Nổi bật trong
đó là Adidas. Là thương hiệu nổi tiếng tồn cầu, Adidas tham gia thị trường dụng cụ thể
thao Việt Nam từ rất lâu. Năm 1993, Adidas đã có mặt tại Việt Nam nhưng phải đến năm
2009 Adidas mới chính thức thành lập Công ty Adidas Việt Nam, được sở hữu 100% vốn
bởi Adidas International B.V (Amsterdam, Hà Lan).
Adidas phát triển nhanh và mạnh tại thị trường Việt Nam. Chỉ sau 2 năm hoạt
động chính thức, Adidas đã mở tổng cộng 50 cửa hàng tại các thành phố lớn, trải dài từ
Bắc vào Nam. Adidas hiện đang có khoảng 80.000 lao động tại Việt Nam.
Để gia tăng khả năng khai thác thị trường sản phẩm giày thể thao, Adidas đã thực
hiện các chiến dịch marketing với quy mô lớn nhằm tác động đến hành vi mua của người
tiêu dùng. Thông qua việc chứng minh những ưu thế về tính năng sản phẩm, chất lượng
dịch vụ, làm gia tăng lợi ích về mặt tâm lí, xã hội cho người sử dụng,… Cơng ty kì vọng
những giá trị vượt trội đó sẽ gia tăng lượng khách hàng về cho cơng ty. Đây chính là
nguyên nhân chúng tôi chọn đề tài nghiên cứu: “Nghien cuu yeu to anh huong đen viec
lua chon san pham tai adidas”.
4
CHƯƠNG I: KHẢO SÁT DỰ ÁN
1. Dữ liệu đầu vào
Dữ liệu đầu vào là bảng dữ liệu thông tin và mức độ đồng ý của khách hàng về
các nhân tố ảnh hưởng đến quyết định lựa chọn sản phẩm tại Adidas.
2 Mục tiêu của bài toán
Từ những lựa chọn của khách hàng, xác định sự tương quan của các yếu tố ảnh
hưởng tới quyết định lựa chọn sản phẩm của Adidas. Từ đó thấy được mức độ ảnh hưởng
của các yếu tố và sự đưa ra quyết định mua các sản phẩm của Adidas.
3 Mẫu phiếu điều tra
Bảng câu hỏi khảo sát về các nhân tố ảnh hưởng đến quyết định mua sản phẩm của
Adidas.
BẢNG CÂU HỎI KHẢO SÁT VỀ CÁC YẾẾ́U TỐ ẢNH HƯỞNG ĐẾẾ́N VIỆỆ̣C
LỰA CHỌN SẢN PHẨM TẠI ADIDAS
Xin chào các bạn! Chúng tơi là nhóm nghiên cứu của trường đại học Thương Mại
đang thực hiện việc khảo sát về "các yếu tố ảnh hưởng đến quyết định lựa chọn sản
phẩm tại Adidas". Rất mong các bạn dành thời gian để trả lời một số câu hỏi khảo sát
của chúng tôi dưới đây.
Xin chân thành cảm ơn!
A.Giới thiệu chung
Giới thiệu đôi nét về bản thân bạn
5
1. Họ và ………………………………………………………….
2. Giới tính:
o
o
Nam
Nữ
3. Thu nhập hàng tháng của bạn là bao nhiêu
o
o
o
o
Dưới 1 triệu
Từ 1 đến 2 triệu
Trên 2 triệu
Khác
4. Bạn có sử dụng sản phẩm của Adidas khơng?
o
Có
o
Khơng
B. Các yếu tố ảnh hưởng đến việc lựa chọn Adidas
1 . Bạn thường chọn giày theo tiêu chí gì?
o
o
o
o
o
Màu sắc
Thể loại
Kích thước
Chất liệu
Khác
2 . Bạn chi bao nhiêu tiền cho một đôi giày Adidas?
o
o
o
o
Dưới 1 triệu
Từ 1 – 2 triệu
Trên 2 triệu
Khác
3 . Bạn thường mua giày Adidas ở đâu ?
o
o
o
o
o
Cửa hàng
Người bán hàng trên FB
Website
Các sàn TMĐT
Khác
6
4 . Bạn biết Adidas qua đâu ?
o
o
o
o
Được bạn bè, người thân giới thiệuNgười bán hàng trên FB
Thường xuyên xuất hiện trên tivi, mạng xã hội
Được thấy từ nhiều người sử dụng
Khác
(Chú giải: 1 - Hồn tồn khơng đồng ý; 2 - Khơng đồng ý; 3 - Bình thường; 4 Đồng ý; 5 - Hoàn toàn đồng ý)
CÁC PHÁT BIỂU
A. Hình thức, chất lượng sản phẩm
1
Giày có nhiều màu sắc, mẫu
mã đa dang để lựa chọn
2
Giày có đầy đủ kích cỡ phù
hợp vs người mua
3
Giày êm ái khi di chuyển
4
Giày có độ bền cao
B. Chất lượng dịch vụ
1
Thái độ nhân viên vui vẻ,
thân thiện và An ninh trật tự
tốt
2
Các cửa hàng phân phối giày
rộng rãi, mạng lưới đại lý
rộng khắp nên dễ dàng tìm
mua sản phẩm
3
Dịch vụ hậu mãi ở cửa hàng
tốt, chế độ bảo hành tốt và có
nhiều đợt sale
4
Khách hàng được cung cấp
nhiều thông tin về sản phẩm
7
C. Thương hiệu
1
Adidas là một thương
hiệu lớn
2
Adidas là một thương
hiệu uy tín
3
Mọi người xung
quanh đều sử dụng
D. Giá cả
1
Giày có giá cả cạnh
tranh trên thị trường
2
Giá có tương xứng
với chất lượng
3 Có nhiều mức giá để lựa chọn
4
Có giá cả hợp lý với
mỗi người tiêu dùng
Bạn sẽ giới thiệu cho mọi người xung quanh mua hàng tại Adidas?
o
o
Có
Khơng
Cảm ơn bạn đã giúp nhóm mình!
CHƯƠNG II: KẾẾ́T QUẢ NGHIÊN CÚU
1.
Mơ tả thống kê
Sau khi khảo sát được 148 phiếu khảo sát, nhóm 7 có được số liệu thống kê như
sau:
Trong 147 phiếu khảo sát thu được có: 88 người thuộc giới tính nữ
chiếm 59.86%, cịn lại 59 người là thuộc giới tính nữ chiếm 40.14%.
Thu nhập dưới 1 triệu có 27 người chiếm 18,36%, từ 1 đến 2 triệu có 72 người
chiếm 48,97% , trên 2 triệu có 43 chiếm 29,25% , khác có 5 người chiếm 3,4%
8
Số người chi dưới 1 triệu cho 1 đôi giày adidas có 52 người chiếm 35,37%, từ
1 đến 2 triệu có 65 người chiếm 44,2% , trên 2 triệu có 22 người chiếm 15%,
mục khác có 8 người chiếm 5,44%
Số người mua giày từ website có 30 người chiếm , số người mua gìay từ cửa
hàng có 50 người chiếm, số người mua giày từ các sàn thương mại điện tử có
19 người chiếm 12,92%, số người mua giày từ người bán hàng trên facebook
có 43 người chiếm 29,25%, mục khác có người mua giày từ các đơn vị bán
hàng khác hoặc chưa mua bao giờ có 5 người chiếm 3,4%
2.
Phân tích độ tin cậy qua hệ số Cronbach’s
Alpha - Ta quy ước như sau:
HTCLSP1: Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn
HTCLSP2: Giày có đầy đủ kích cỡ phù hợp vs người mua
HTCLSP3: Giày êm ái khi di chuyển
HTCLSP4: Giày có độ bền cao
CLDV1: Thái độ nhân viên vui vẻ, thân thiện và an ninh trật tự tốt
CLDV2: Các cửa hàng phân phối giày rộng rãi, mạng lưới đại lý rộng khắp
CLDV3: Dịch vụ hậu mãi ở cửa hàng tốt, chế độ bảo hành tốt và có nhiều
đợt sale
CLDV4: Khách hàng được cung cấp nhiều thông tin về sản phẩm
TH1: Adidas là một thương hiệu lớn
TH2: Adidas là một thương hiệu uy tín
TH3: Mọi người xung quanh đều sử dụng
GC1: Giày có giá cả cạnh tranh trên thị trường
GC2: Giá có tương xứng với chất lượng
GC3: Có nhiều mức giá để lựa chọn
GC4: Có giá cả hợp lý với mỗi người tiêu dùng
Hình thức chất lượng sản
phẩm: Reliability Statistics
9
HTCLSP
1
HTCLSP
2
HTCLSP
3
HTCLSP
4
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.789 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3). Tuy nhiên hệ
số Cronbach's Alpha if Item Deleted của biến “Giày có nhiều màu sắc, mẫu mã đa
dang để lựa chọn” (= 0.796) lớn hơn hệ số Cronbach’ Alpha chung nên ta loại bỏ
biến quan sát “Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn”.
Chất lượng dịch
vụ: Reliability Statistics
Cronbach's
Alpha
.757
CLDV
1
CLDV
2
CLDV
3
CLDV
4
10
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.757 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3).
Thương hiệu:
Reliability Statistics
Cronbach's
Alpha
TH1
TH2
TH3
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.719 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3). Tuy nhiên hệ
số Cronbach's Alpha if Item Deleted của biến “Mọi người xung quanh đều sử
dụng” (= 0.736) lớn hơn hệ số Cronbach’ Alpha chung nên ta loại bỏ biến quan sát
“Mọi người xung quanh đều sử dụng”.
Giá cả:
Reliability Statistics
Cronbach's
Alpha
GC1
11
GC2
GC3
G
C
4
11.66
11.67
11.86
4.568
4.290
4.214
.603
.614
.584
.746
.741
.759
Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.795 > 0.6, hệ số
tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3).
Kết luận: Sau khi tiến hành phân tích độ tin cậy bằng phương pháp
Cronbach’s Alpha, 15 biến quan sát rút lại còn 13 biến quan sát, loại bỏ các
biến quan sát là: “Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn”,
“Mọi người xung quanh đều sử dụng”.
3.
Kết quả phân tích nhân tố khám phá EFA
3.1. Kiểm định KMO và Bartlett’s Test
- Yêu cầu
+ Hệ số KMO ≥ 0.5
+ Sig. < 0.005
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Bảng giải thích tổng phương sai
Extraction Method: Principal Component Analysis.
Total Variance Explained
Nhận xét: Tiêu chuẩn của phương pháp phân tích nhân tố là chỉ số KMO phải lớn
hơn 0.5 (Garson, 2003) và kiểm định Barlett’s có mức ý nghĩa sig < 0.05 để chứng tỏ
dữ liệu dùng phân tích nhân tố là thích hợp và giữa các biến có tương quan với nhau.
Giá trị Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO)=0.858.
Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.858> 0.5, điều này chứng tỏ
dữ liệu dùng để phân tích nhân tố là hồn tồn thích hợp.
Kết quả kiểm định Barlett’s là 866.753 với mức ý nghĩa Sig. = 0.000< 0.05,lúc này bác
bỏ giả thuyết H0: các biến quan sát khơng có tương quan với nhau trong tổng thể.
12
Như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị
bác bỏ, tức là các biến có tương quan với nhau và thỏa điều kiện phân tích nhân tố.
3.2. Eigenvalues và phương sai trích
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax.
Kết quả cho thấy 13 biến quan sát ban đầu được nhóm thành 3 nhóm.
Giá trị tổng phương sai trích = 62.401% > 50%: đạt yêu cầu; khi đó có thể nói rằng
3 nhân tố này giải thích 62.401% biến thiên của dữ liệu.
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có
Eigenvalues thấp nhất là 1.015> 1
Total Variance Explained
Component
Extraction Sums of Squared
Rotation Sums of Squared
Loadings
Total
Total
Total
1
5.905
2
1.192
3
1.015
4
5
6
7
8
9
10
13
11
12
13
Extraction Method: Principal Component Analysis.
3.3. Ma trận xoay nhân số
Theo Hair & công sự (1998), Factor loading (hệ số tải nhân tố hay trọng số nhân
tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA.
Có 3 loại biến xấu:
+
Biến xấu 1 : Hệ số tải Factor Loading nhỏ hơn hệ số tải tiêu chuẩn.
+
Biển xấu 2 : Tải lên 2 hay nhiều nhóm nhân tố và chênh lệch hệ số tải nhỏ
hơn 0.5.
+
Biến xấu 3 : Nằm tách biệt duy nhất ở một nhân tố.
Từ bảng trên ta thấy loại 2 biến xấu: CLDV3, GC1
Rotated Component Matrixa
1
HTCLSP3
HTCLSP4
HTCLSP2
GC2
TH2
CLDV3
CLDV4
TH1
CLDV1
CLDV2
GC4
GC3
GC1
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser
Normalization.
a. Rotation converged in 7 iterations.
Ta bỏ các biến trên và thực hiện lại ta được:
14
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Ta thấy hệ số KMO của bài là 0.842 > 0.5 đủ để phân tích nhân tố là phù hợp.
Kiểm định Bartlett có ý nghĩa thống kê Sig. < 0.05, chứng tỏ các biến quan sát có
tương quan với nhau trong nhân tố.
Total Variance Explained
Componen
t
Rotation Sums of Squared Loadings
Total
Total
3.558
1
2.648
2
3
4
5
6
7
8
9
10
11
Extraction Method: Principal Component Analysis.
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax.
15
Kết quả cho thấy 11 biến quan sát ban đầu được nhóm thành 2 nhóm.
Giá trị tổng phương sai trích = 56.419% > 50%: đạt yêu cầu; khi đó có thể nói rằng
3 nhân tố này giải thích 56.419% biến thiên của dữ liệu.
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có
Eigenvalues thấp nhất là 1.167> 1
Ma trận xoay số
Rotated Component Matrixa
Component
1
GC3
GC2
HTCLSP3
HTCLSP4
HTCLSP2
GC4
TH2
CLDV4
TH1
CLDV1
CLDV2
Extraction Method: Principal
Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.
a. Rotation converged in 3 iterations.
Qua bảng trên ta khơng cịn thấy biến xấu nào để loại bỏ nữa. Kết thúc phân tích EFA.
Vậy sau khi phân tích nhân tố khám phá EFA ta loại 2 biến xấu:
CLDV3, GC1
4.
Tương quan pearson
Correlations
F_GC
16
F_CLDV
**. Correlation is significant at the 0.01 level (2-tailed).
Nhận xét: Sig kiểm định tương quan Pearson các giữa 2 biến độc lập F_GC,
F_CLDV đều nhỏ hơn 0.05. Như vậy, có mối liên hệ tuyến tính giữa 2 biến F_GC và
F_CLDV.
5. Phân tích hồi quy đa biến
Model Summaryb
Model
R
.114a
1
a. Predictors: (Constant), GC, CLDVTH, GCTH
b. Dependent Variable: HL
2
Giá trị R hiệu chỉnh bằng 0.008 cho thấy biến độc lập đưa vào chạy hồi quy ảnh hưởng
0.8% sự thay đổi của biến phụ thuộc, cịn lại là 99.2% là do các biến ngồi mơ hình và sai số ngẫu
nhiên.
Hệ số Durbin- Watson nằm trong khoảng 1.5 đến 2.5 nên khơng có hiện tượng tự
tương quan chuỗi bậc xảy ra
ANOVAa
Model
1
Regression
Residual
Total
a. Dependent Variable: HL
b. Predictors: (Constant), GC, CLDVTH, GCTH
Sig kiểm định F bằng 0.601 > 0.05
Coefficientsa
t
Model
17
Sig.
Collinearity Statistics
1
(Constant)
GCTH
CLDVTH
GC
a. Dependent Variable: HL
Hệ số VIF của các biến độc lập có 1 biến lớn lơn 2 nên có hiện tượng đa
cộng biến xảy ra
Các hệ số hồi quy đều lớn hơn 0. Như vậy tất cả các biến độc lập đưa vào
phân tích hồi quy đều tác động cùng chiều tới biến phụ thuộc. Dựa vào độ lớn của
hệ số hồi quy chuẩn hoá Beta, thứ tự mức độ tác động từ mạnh nhất tớ yếu nhất
của cá biến độc lập tới biến phụ thuộc HL là GCTH(0.030),CLDVTH(0.030) >
GC(0.011). Tương ứng với;
-
Biến Chất lượng dịch vụ và thương hiệu tác động mạnh nhất tới sự hài
lòng của khách hàng
-
Biến Giá cả tác động mạnh thứ 2 tới sự hài lòng của khách hàng
-
18
Giá cả trung bình Mean = -4.43E -16 gần bằng 0, độ lệch chuẩn là 0.990
gần bằng 1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩ. Do đó, có thể kết
luận rằng: Giả thiết phân phối chuẩn của phần dư khơng bị vi phạm
Phương trình hồi quy chuẩn hoá là
HL = 0.109 * GCTH + 0.102*CLDVTH+0.49*GC
CHƯƠNG III: XÂY DỰNG CÂY QUYẾẾ́T ĐỊNH
1. Tìm nút gốc
Attribute
Hình thức chất
lượng
Chất lượng dịch
vụ
Thương hiệu
Giá cả
1.1. Xét thuộc tính Hình thức chất lượng
19
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là T2, T3, T4, T5
Child node ứng với Hình thức chất lượng = 2 và = 3 có Entropy = 0 do tất cả các giá trị
đều là YES
Entropy(T2) = 0
Entropy(T3) = 0
− 1
1 45
Entropy(T4) = 46 log2 46 −
46 log2
45
46 =0,1511 ……002
− 4
4 91
91
1Entropy(T5) = 95 log2 95 −
95 log2
95 =0,2518
3
3
46
95
Entropy(HTCL,S) = 147 H (T 2)+ 147 H (T 3)+ 147 H (T 4)+ 147 H (T
5)=0,21
1.2. Xét thuộc tính Chất lượng dịch vụ Thuộc
tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là C2, C3, C4, C5
Child node ứng với Chất lượng dịch vụ = 2 và = 3 có Entropy = 0 do tất cả các giá trị đều
là YES
Entropy(C2) = 0
Entropy(C3) = 0
− 3
3 50
50
Entropy(C4) = 53 log2 53 − 53 log2
53 =0,3138
Entropy(C5) =
− 2
2 88
88
90 log2 90 −
90 log2
90 =0,1537
2
2
53
90
Entropy(CLDV,S) = 147 H (C 2)+ 147 H (C 3)+ 147 H (C 4)+ 147 H (C
5)=0,2072
1.3. Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 1,3,4,5
Gọi tập hợp điểm trong mỗi child node này là A1, A3, A4, A5
Child node ứng với Thương hiệu = 1 và = 3 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(A1) = 0
Entropy(A3) = 0
− 3
3 72
72
Entropy(A4) = 75 log2 75 − 75 log2
75 =0,2422
20
Entropy(A5) =
− 2
2 55
55
57 log2 57 − 57 log2
57 =0,2192
2
13
75
57
=> Entropy(TH,S) = 147 H ( A 1)+ 147 H (A 3)+ 147 H (A 4)+ 147 H ( A 5)=0,2085
1.4. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là G2, G3, G4, G5
Child node ứng với Thương hiệu = 2 và = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều
là YES
Entropy(G2) = 0
Entropy(G3) = 0
Entropy(G4) = 0
−5
5 129
129
Entropy(G5) = 134 log2 134 −
134 log2
134 =0,2298
2
2
9
134
Entropy(GC,S) = 147 H (G 2)+ 147 H (G3)+ 147 H (G 4 )+
147 H
(G5)=0,2094
Ta thấy Entropy (CLDV, S) = 0,2072 là nhỏ nhất vì thế nên ta chọn Chất lượng dịch vụ
làm node đầu tiên.
Với Chất lượng dịch vụ = 2 và Chất lượng dịch vụ = 3 tất cả các giá trị đều là YES vì
vậy ta thu được node YES ở nhánh 2 và 5.
2. Tìm các nút tiếp theo
Ta tiếp tục tính Entropy cho nhánh Chất lượng dịch vụ =5 và =4.
*Với Chất lượng dịch vụ = 4
2.1. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là T2, T3, T4, T5
Child node ứng với Hình thức chất lượng = 2 và = 3 có Entropy = 0 do tất cả các giá trị
đều bằng YES
21
Entropy(T2) = 0
Entropy(T3) = 0
− 1
1 27
27
Entropy(T4) = 28 log2 28 −
28 log2
28 =0,2222
Entropy(T5) =
− 2
2 20
20
22 log2 22 −
22 log2
22 =0,4394
1
2
28
22
Entropy(HTCL,S) = 53 H (T 2)+ 53 H (T 3)+
53 H (T 4)+
53 H (T
5)=0,2997
2.2. Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5
Gọi tập hợp điểm trong mỗi child node này là A3, A4, A5
Child node ứng với Thương hiệu = 3 có Entropy = 0 do tất cả các giá trị đều là
YES Entropy(A3) = 0
− 1
1 27
27
Entropy(A4) = 28 log2 28 −
28 log2
28 =0,2222
Entropy(A5) =
− 2
2 14
14
16 log2 16 − 16 log2
16 =0,5435
9
28
16
=> Entropy(TH,S) = 53 H ( A 3)+ 53 H ( A 4)+
53 H (A 5)=0,2814
2.3. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5
Gọi tập hợp điểm trong mỗi child node này là G3, G4, G5
Child node ứng với Thương hiệu = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(G3) = 0
Entropy(G4) = 0
− 3
3 44
44
Entropy(G5) = 47 log2 47 −
47 log2
47 =0,3424
2
4
47
Entropy(GC,S) = 53 H (G 3)+ 53 H (G 4)+
53 H (G5)=0,3036
Ta thấy, Entropy (TH, S) = 0,2814 là nhỏ nhất. Ta chọn Node tiếp theo là Thương hiệu.
22
2.4 Với Thương hiệu = 4
a. Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 4,5
Gọi tập hợp điểm trong mỗi child node này là T4, T5
Child node ứng với Hình thức chất lượng = 4 có Entropy = 0 do tất cả các giá trị đều là
YES
Entropy(T4) = 0
− 2
2
9
9
Entropy(T5) = 11 log2 11 − 11 log2 11 =0,684
5
11
Entropy(HTCL,S) = 16 H (T 4)+
16 H (T
5)=0,4702 b. Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 5
Gọi tập hợp điểm trong mỗi child node này là G5
− 2
2 14
14
Entropy(G5) = 16 log2 16 − 16 log2
16 =0,5225
Entropy(GC,S) = 0,5225
Ta thấy, Entropy (HTCL, S) = 0,4702 là nhỏ nhất. Ta chọn Node tiếp theo là Hình thức
chất lượng.
23