ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN
MƠN KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING
QUA CÁC THUẬT TOÁN TRÊN ORANGE
Giảng viên hướng dẫn: Trương Việt Phương
Mã học phần: 21C1INF50905911
Nhóm sinh viên thực hiện:
Dương Trọng Anh
31201022014
Lê Thị Kiều Diễm
31201022108
Thái Quang Hào
31201022773
Võ Thị Mỹ Ngọc
31201022281
Liễu Ngọc Khánh Tuyền
31201022715
TP Hồ Chí Minh, Tháng 12/2021
1
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
STT
Họ Và Tên
Nhiệm Vụ
Đánh giá
Dương Trọng Anh
Tìm bộ dữ liệu, thảo luận đề tài , giới
thiệu tổng quan về KHDL, nhận xét,
làm powerpoint.
100%
Lê Thị Kiều Diễm
Tìm bộ dữ liệu, thảo luận đề tài, cơ sở
lý thuyết, mơ tả các biến, nhận xét, kết
luận.
100%
3
Thái Quang Hào
Tìm bộ dữ liệu, thảo luận đề tài, cơ sở
lý thuyết, xử lý dữ liệu trên Orange,
tổng hợp trên Word.
100%
4
Võ Thị Mỹ Ngọc
Tìm bộ dữ liệu, thảo luận đề tài, cơ sở
lý thuyết, nhận xét, làm powerpoint.
100%
5
Liễu Ngọc Khánh Tuyền
Tìm bộ dữ liệu, thảo luận đề tài, giới
thiệu đề tài, nhận xét, kết luận.
100%
1
2
2
3
LỜI MỞ ĐẦU
Những năm gần đây, vai trò của các hệ thống thông tin trong các doanh nghiệp đã
ngày càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn
phịng, hệ thống thơng tin đã trở nên có vai trị chiến lược trong doanh nghiệp. Đặc biệt
những thành tựu trong công nghệ thông tin đã khiến doanh nghiệp ngày càng chú ý hơn
tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình.
Khoa học dữ liệu là thuật ngữ dần trở nên quen thuộc ở Việt Nam trong giai đoạn
ngày nay, và đang dần trở thành xu hướng được các doanh nghiệp hướng tới để đẩy mạnh
hoạt động kinh doanh nhờ việc sử dụng những thông tin được phân tích do cơng nghệ này
mang lại. Khi cuộc cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia và doanh nghiệp
đều phải dựa nhiều hơn vào khoa học công nghệ và dữ liệu.
Để phù hợp với chuyên ngành, chúng tơi đã tìm được bộ dữ liệu của một tổ chức
ngân hàng và xử lý thông tin thông qua cơng cụ Orange để nhìn nhận và tìm ra hướng
phát triển của tổ chức. Với mục tiêu phát triển chiến dịch tiếp thị qua cuộc gọi và dự đoán
liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay khơng ? Trong bài tiểu luận này nhóm
chúng tơi sẽ làm rõ vấn đề trên.
4
MỤC LỤC
5
LỜI CẢM ƠN
Hoàn thành được bài báo cáo về đề tài “Phân tích bộ dữ liệu Bank Marketing qua các
thuật tốn trên Orange” khơng chỉ có riêng sự cố gắng của các thành viên trong nhóm
mà cịn nhờ vào sự hỗ trợ của rất nhiều thầy cô. Chúng tôi xin được gửi lời cảm ơn chân
thành đến:
•
Thầy Trương Việt Phương - Giảng viên môn Khoa học dữ liệu đã tận tình
hướng dẫn chúng em về cách thức tiến hành đề tài nghiên cứu, để có thể
hồn thành tốt bài báo cáo này.
DANH MỤC BẢNG, HÌNH ẢNH
Bảng 1: Phân loại các phương pháp phân cụm.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế khơng liên quan
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange.
Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean.
Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với
nhãn ban đầu.
Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange.
Hình 12: Bảng kết quả cây quyết định.
Hình 13: Bảng đánh giá Test & Score.
Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic.
Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic.
Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel.
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về Khoa học dữ liệu:
Khoa học dữ liệu (DS) là khoa học về việc quản trị và phân tích dữ liệu, trích xuất
các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn
dắt hành động.
Khoa học dữ liệu gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu,
và chuyển kết quả phân tích thành giá trị của hành động. Việc phân tích và dùng dữ liệu
lại dựa vào ba nguồn tri thức: tốn học (thống kê tốn học), cơng nghệ thông tin (máy
học) và tri thức của lĩnh vực ứng dụng cụ thể. Cũng như các hình thức thí nghiệm khác,
khoa học dữ liệu sẽ yêu cầu thực hiện các quan sát, đặt câu hỏi, hình thành các giả thuyết,
tạo các bài kiểm tra, phân tích kết quả và đưa ra một khuyến nghị thực tế. Chính vì vậy
mà mục đích chính của Khoa học Dữ liệu là biến đổi một lượng lớn dữ liệu chưa qua xử
lý, làm thế nào để định vị được thành mơ hình kinh doanh, từ đó giúp đỡ các tổ chức tiết
giảm chi phí, gia tăng hiệu quả làm việc, nhìn nhận cơ hội, rủi ro trên thị trường và làm
gia tăng lợi thế cạnh tranh của doanh nghiệp.
Các lĩnh vực của khoa học dữ liệu: khai thác dữ liệu (Data mining), thống kê
(Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
Khoa học dữ liệu kết hợp nhiều lĩnh vực để chiết xuất giá trị từ dữ liệu. Những
người thực hành khoa học dữ liệu được gọi là data scientists và họ kết hợp một loạt các
kỹ năng để phân tích dữ liệu thu thập được từ web, điện thoại thông minh, khách hàng,
cảm biến và các nguồn khác để thu được những thơng tin chi tiết hữu ích. Nó chủ yếu
được thực hiện bởi data scientists lành nghề , mặc dù các nhà phân tích dữ liệu cấp thấp
hơn cũng có thể tham gia. Ngồi ra, nhiều tổ chức hiện dựa một phần vào citizen data
scientists , một nhóm có thể bao gồm các chun gia kinh doanh thơng minh (BI), nhà
phân tích kinh doanh, người dùng doanh nghiệp am hiểu dữ liệu, kỹ sư dữ liệu và những
người lao động khác khơng có nền tảng khoa học dữ liệu chính thức. Một nhà khoa học
dữ liệu cần phát triển 3 nhóm kỹ năng quan trọng là phân tích (Analytics), lập trình
8
(Programming), kiến thức chuyên ngành (Domain Knowledge) và một số kỹ năng quan
trọng khác.
1.2. Giới thiệu về đề tài
1.2.1. Lý do chọn đề tài
Hiện nay việc khai thác, phân tích dữ liệu đã trở nên không thể thiếu đối với các
ngành nghề, đặc biệt ở đây chúng tôi đề cập đến là trong kinh doanh, thương mại,... Một
loạt các dữ liệu khổng lồ từ khách hàng, hoạt động kinh doanh, đối tác,... khơng thể xử lý
bằng sức người, do đó việc số hóa các dữ liệu này là điều cần thiết, phải làm của các cơng
ty, các tập đồn lớn nhỏ. Việc phân tích các vấn đề kinh doanh: lấy dữ liệu làm trung tâm,
việc tạo và đánh giá các giải pháp khoa học dữ liệu cũng như đánh giá các chiến lược và
đề xuất khoa học dữ liệu chung.
Để có thể phân tích được các dữ liệu một cách tự động, chúng ta cần đến các phần
mềm cũng như là công cụ để hỗ trợ như: Excel, R và Python, Power BI,... Với bộ dữ liệu
mà nhóm đã thu thập được, chúng tôi sẽ sử dụng Orange để xây dựng quy trình khai thác
dữ liệu trực quan - đây là phần mềm khai thác dữ liệu phổ biến có thể được thực hiện mà
khơng cần lập trình.
Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng Bồ Đào Nha, dữ liệu có
liên quan đến các chiến dịch tiếp thị bằng các cuộc gọi, kêu gọi khách hàng đăng ký tiền
gửi có kỳ hạn của ngân hàng. Dữ liệu sau khi được phân tích bởi Orange, chúng tôi sẽ
đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích; đánh giá độ hiệu quả của và
đề xuất một số hướng phát triển dành cho chiến dịch tiếp thị qua cuộc gọi này. Và đó lý
do nhóm tác giả chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán
trên Orange”.
−
−
−
−
1.2.2. Mục tiêu nghiên cứu
Khám phá dữ liệu.
Làm sạch dữ liệu.
Phân cụm, phân lớp dữ liệu.
So sánh dựa trên nhãn “Subscribed” (đã đăng kí) cho việc ký gửi tiền.
9
− Dự đốn liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay khơng.
− Cung cấp cái nhìn tổng quan về hoạt động của ngân hàng, từ đó đưa ra nhận xét đánh giá
dựa trên dữ liệu đã phân tích.
1.2.3. Phương pháp thực hiện
Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm,
phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân
lớp.
− Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là Hierarchical
clustering và K-means.
+ Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoảng cách giữa các
phần tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan
sát trên Silhouette Plot.
+ Đối với phương pháp K-means nhóm quan sát chỉ số Silhouette trung bình khi phân dữ
liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có
sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành
chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
− Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” (đã đăng kí) cho việc gửi
tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết định
(Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic
Rgression). Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối
cùng là quan sát trên ma trận nhầm lẫn.
10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1. Tổng quan về phần mềm Orange:
Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE). Hệ
điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi x86 của
Intel hay AMD. Orange là một nền tảng được xây dựng để tạo các đường ống học máy
trên quy trình làm việc giao diện đồ họa người dùng (GUI). Orange là một công cụ khá
trực quan để nghiên cứu về các thuật toán machine learning và thực hành data
mining. Những người khơng có kỹ năng mã hóa có thể vận hành Orange một cách dễ
dàng. Người ta có thể thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh giá
mơ hình mà khơng cần viết một dòng mã nào. Orange là một giải pháp khai thác dữ liệu
giúp các doanh nghiệp từ nhỏ đến lớn tạo quy trình cơng việc phân tích và trực quan hóa
dữ liệu để tạo các phép chiếu tuyến tính, bản đồ nhiệt, MDS, cây quyết định,... trên nền
tảng tập trung.
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt
tay ngay vào phân tích dữ liệu gồm:
−
−
−
−
−
Data dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
Visualize dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.
Model gồm các hàm machine learning phân lớp dữ liệu.
Evaluate: các phương pháp đánh giá mơ hình máy học.
Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
2.2 Tổng quan về các phương pháp sử dụng
2.2.1. Tiền xử lý dữ liệu
Dữ liệu trong thực tế thường không sạch, và không nhất quán. Các kỹ thuật tiền xử
lý dữ liệu có thể cải thiện được chất lượng của dữ liệu, do đó nó giúp các q trình khai
phá dữ liệu chính xác và hiệu quả. Tiền xử lý dữ liệu là một bước quan trọng trong quá
trình khám phá tri thức, bởi vì chất lượng các quyết định phải dựa trên chất lượng của dữ
liệu. Quá trình tiền xử lý dữ liệu bao gồm: Làm sạch dữ liệu, tích hợp và biến đổi dữ liệu,
rút gọn dữ liệu.
11
2.2.1.1. Làm sạch dữ liệu
Dữ liệu trong thực tế thường khơng đầy đủ, nhiễu, và khơng nhất qn. Q trình
làm sạch dữ liệu sẽ cố gắng điền các giá trị thiếu, loại bỏ nhiễu, và sửa chữa sự không
nhất quán của dữ liệu.
− Với dữ liệu bị thiếu:
+ Bỏ qua bộ có giá trị thiếu: Phương pháp này thường được sử dụng khi nhãn lớp bị thiếu.
Phương pháp này rất không hiệu quả khi phần trăm giá trị thiếu trong từng thuộc tính là
đáng kể.
+ Điền vào bằng tay các giá trị thiếu: Cách tiếp cận này tốn thời gian và không khả thi khi
thực hiện trên tập dữ liệu lớn với nhiều giá trị thiếu.
+ Sử dụng một hằng số toàn cục để điền vào các giá trị thiếu: Thay thế tồn bộ giá trị thiếu
của các thuộc tính bằng một hằng số như "Unknown" hay vô cực.
+ Sử dụng giá trị trung bình của thuộc tính để điền các giá trị thiếu.
+ Sử dụng một giá trị trung bình của thuộc tính cho tất cả các mẫu thử thuộc về cùng một
lớp với bộ đã cho.
+ Sử dụng một giá trị có khả năng nhất để điền vào các giá trị thiếu: giá trị này có thể tìm ra
bằng phương pháp hồi qui, hay dựa trên các công cụ sử dụng hình thức Bayesian.
− Với dữ liệu nhiễu:
Nhiễu là một lỗi hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số. Các kỹ
thuật loại bỏ nhiễu bao gồm
+ Phương pháp Bining
12
Đầu tiên sắp xếp dữ liệu và phân hoạch dữ liệu thành những bin. Sau đó người
dùng có thể làm trơn dữ liệu bằng các giá trị trung bình của bin, bằng trung vị của bin,
bằng các biên của bin,… Bin có độ rộng càng lớn thì tập dữ liệu thu được sẽ càng "trơn".
+ Phương pháp hồi quy
Phương pháp hồi quy tuyến tính tìm một đường thẳng tối ưu để khít với 2 thuộc
tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đốn thuộc tính cịn lại.
+ Phân cụm
Các giá trị ngoại lai có thể được dị bởi sự phân cụm, trong đó các giá trị được tổ
chức thành các nhóm, hay cịn gọi là các "cluster". Bằng trực giác, các giá trị rơi ra ngồi
tập hợp của các cluster có thể được xem như là các giá trị ngoại lai.
2.2.1.2. Tích hợp và chuyển đổi dữ liệu
Khai thác dữ liệu thường đòi hỏi sự tích hợp dữ liệu tức là sự hợp nhất dữ liệu từ
nhiều kho chứa. Dữ liệu có thể được chuyển đổi sang các hình thức thích hợp cho khai
thác dữ liệu.
•
Phân tích dữ liệu:
Các tác vụ phân tích dữ liệu của bạn sẽ địi hỏi sự tích hợp dữ liệu, nó kết hợp dữ
liệu từ nhiều nguồn khác nhau thành một khối dữ liệu gắn kết, như trong quá trình xây
dựng và sử dụng KDL (data warehousing).
Một số vấn đề trong q trình tích hợp dữ liệu:
− Làm thế nào để những thực thể trong thế giới thực từ nhiều nguồn khác nhau có thể phù
hợp với nhau. Ví dụ: customer_id và cus_id chỉ là một thuộc tính chứ không phải hai.
− Siêu dữ liệu dùng để tránh sự phát sinh lỗi trong q trình tích hợp các lược đồ và chuyển
đổi dữ liệu.
− Sự dư thừa dữ liệu: Giá trị một thuộc tính có thể được tính tốn từ giá trị của các thuộc
tính khác. Sự khơng nhất qn trong việc đặt tên các thuộc tính cũng có thể gây ra kết
quả dư thừa trong tập dữ liệu.
• Biến đổi dữ liệu:
13
Trong biến đổi dữ liệu, dữ liệu được chuyển đổi hay hợp nhất về dạng phù hợp cho
việc khai thác dữ liệu. Biến đổi dữ liệu bao gồm những việc sau đây:
− Làm trơn, tức là loại bỏ nhiễu ra khỏi dữ liệu. Các kỹ thuật bao gồm: binning, regression,
và clustering.
− Kết hợp, trong đó các phép tốn tóm tắt (summary) hay các phép toán kết hợp
(aggregation) được áp dụng cho dữ liệu. Ví dụ, dữ liệu bán hàng hàng ngày có thể được
tính tốn theo tháng hay theo năm. Bước này có thể sử dụng trong việc xây dựng khối dữ
liệu của dữ liệu ở nhiều mức.
− Khái quát hóa dữ liệu, trong đó dữ liệu ở mức khái niệm thấp hay dữ liệu thô được tổng
hợp ở khái niệm mức cao hơn.
− Chuẩn hóa, trong đó thuộc tính dữ liệu được tính tỉ lệ sao cho nó nằm trong một khoảng
nhỏ nào đó ví dụ như -1 đến 1; 0 đến 1.
2.2.1.3. Rút gọn dữ liệu
Kỹ thuật rút gọn dữ liệu có thể được áp dụng để có được sự biễu diễn rút gọn của
tập dữ liệu mà nhỏ hơn nhiều về số lượng, mà vẫn giữ được tính nguyên vẹn của dữ liệu
gốc. Tức là, khai thác dữ liệu trên dữ liệu rút gọn sẽ hiệu quả hơn so với khai thác dữ liệu
trên dữ liệu gốc. Các giai đoạn rút gọn dữ liệu như sau:
− Tổng hợp khối dữ liệu, trong đó các phép tốn tổng hợp được áp dụng trên dữ liệu trong
cấu trúc của khối dữ liệu.
− Lựa chọn tập thuộc tính con, trong đó các thuộc tính hay các chiều khơng liên quan, liên
quan yếu, hay dư thừa có thể được tìm và xóa.
− Rút gọn chiều, trong đó cơ chế mã hóa được sử dụng để rút gọn kích thước tập dữ liệu.
− Giảm số lượng, trong đó dữ liệu được thay thế hay được đánh giá bởi dữ liệu khác, nhỏ
hơn về số lượng như các mơ hình tham số (chỉ cần lưu giữ các tham số mơ hình thay vì
phải lưu giữ dữ liệu thật) hay các phương pháp không dùng tham số (nonparametric
method) như clustering, lấy mẫu (sampling), và sử dụng các lược đồ (histograms).
− Rời rạc hóa và tạo các phân cấp khái niệm, trong đó các giá trị dữ liệu thơ của các thuộc
tính được thay thế bởi các dải hay các mức khái niệm cao hơn. Rời rạc hóa là những cơng
cụ mạnh mẽ cho khai thác dữ liệu, trong đó nó cho phép khai thác dữ liệu ở nhiều mức
khác nhau của khái niệm.
14
2.2.2. Phân cụm
2.2.2.1. Định nghĩa
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng hay dữ liệu có các đặc
điểm tương đồng vào các cụm/nhóm tương ứng, cịn các đối tượng hay dữ liệu thuộc các
cụm/nhóm khác nhau thì sẽ khơng tương đồng. Khơng giống như phân lớp dữ liệu, phân
cụm dữ liệu khơng địi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Chính vì
thế có thể coi việc phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ
liệu là học bằng ví dụ. Ngồi ra phân cụm dữ liệu cịn có thể được sử dụng như một bước
tiền xử lý cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có
tác dụng trong việc phát hiện ra các cụm.
2.2.2.2. Đặc điểm
− Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu.
− Phân cụm thuộc nhóm phương pháp học khơng giám sát (Unsupervised learning) vì
khơng biết trước được số nhóm.
− Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao
+ Độ tương đồng bên trong cụm cao.
+ Độ tương tự giữa các cụm thấp (khác biệt cao).
− Các ứng dụng điển hình:
+ Cơng cụ phân cụm dữ liệu độc lập.
+ Là giai đoạn tiền xử lý cho các thuật toán khác.
2.2.2.3. Các ứng dụng của phân cụm dữ liệu
Cụ thể, các kỹ thuật phân cụm dữ liệu đã được áp dụng cho một số ứng dụng điển
hình trong các lĩnh vực sau:
− Sinh học: phân loại động, thực vật qua các chức năng gen tương đồng của chúng.
− Thương mại: tìm kiếm nhóm các hành khách quan trọng dựa vào các thuộc tính đặc trưng
tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ sở dữ liệu.
15
− Bảo hiểm: nhận dạng nhóm tham gia bảo hiểm có chi phí u cầu bồi thường trung bình
cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt.
− Quy hoạch đơ thị: nhận dạng các nhóm nhà theo kiểu, vị trí địa lý, giá trị,... nhằm cung
cấp thông tin cho quy hoạch đô thị.
− Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài liệu quan
trọng, có nhiều ý nghĩa trong môi trường web. Các lớp tài liệu này hỗ trợ trong việc phát
hiện ra thông tin.
2.2.2.4. Các phương pháp phân cụm
Các phương pháp
Loại
Đặc điểm
Dựa trên phân cấp
điển hình
Phân cấp các đối tượng dựa trên một Diana, Agnes,
(Hierarchical approach)
số tiêu chí.
BIRCH,
CAMELEON.
Dựa trên phân hoạch
(Partitioning approach)
Xây dựng các phân hoạch khác nhau K-means, K-medoids,
và đánh giá chúng. Sau đó, tìm cách Fuzzy C-means.
tối thiểu hóa tổng bình phương độ
lỗi.
Dựa trên mật độ (Density- Dựa trên các kết nối giữa các đối DBSCAN, OPTICS,
based approach)
tượng và hàm mật độ.
DenClue.
Dựa trên lưới (Grid-based Dựa trên cấu trúc độ chi tiết nhiều STING, Wave Cluster,
approach)
cấp.
CLIQUE.
Dựa trên mơ hình (Model- Giả định mỗi cụm có một mơ hình và EM, SOM, COBWEB
based)
tìm cách fit mơ hình đó vào mỗi
cụm.
Bảng 1: Phân loại các phương pháp phân cụm.
Hai phương pháp phân lớp tiêu biểu nhất là phương pháp phân cấp và phương pháp
phân hoạch.
a) Phương pháp phân cấp
16
Quá trình thực hiện phân cụm theo phương pháp này được mơ tả bởi một đồ thị có
cấu trúc cây, vì vậy nó cịn được gọi là phương pháp phân cụm cây. Trong đó, tập dữ liệu
được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây phân cụm. Cây này có thể
được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát: phương pháp dưới
lên (bottom up) và phương pháp trên xuống (top down). Các thuật tốn theo phương pháp
dưới lên cịn gọi là các thuật toán trộn. Ban đầu, người ta khởi tạo mỗi đối tượng làm một
cụm và dùng thủ tục đệ quy để trộn hai cụm gần nhất với nhau trong mỗi bước để có kết
quả chia cụm mới. Thủ tục đệ quy kết thúc ta có tập duy nhất là tồn bộ dữ liệu. Các
thuật tốn phân biệt với nhau ở tiêu chuẩn đánh giá hai cụm nào là gần nhất dựa trên
khoảng cách các cụm chọn trước. Quy tắc để chọn các cụm trộn này được gọi là quy tắc
liên kết. Q trình thực hiện thuật tốn được biểu diễn thành cây và quyết định phân dữ
liệu thành bao nhiêu cụm sẽ do người dùng quyết định. Người dùng cũng dựa trên cây
này để nhận được kết quả phân cụm.
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình tự
ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành cụm
con theo quy tắc đánh giá và tách cụm cho trước. Phương pháp này phức tạp và lâu hơn
phương pháp dưới lên và thường chỉ được áp dụng khi người ta có thêm thơng tin về
phân bố cụm để có phương pháp tách phù hợp. Ta khơng đi sâu vào phương pháp này
Các quy tắc liên kết:
Với metric trong không gian đặc trưng xác định bởi một chuẩn ||.|| đã có, sau đây là
một số quy tắc liên kết thông dụng.
− Liên kết đơn (Single link)
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với hai
cụm:
− Liên kết đầy (Complete link)
Ký hiệu là FN (Furthest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách lớn nhất giữa hai mẫu tương ứng với hai cụ:
17
− Liên kết trung bình giữa các nhóm (Average link)
Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages).
Như tên gọi của nó, khoảng cách �(��,��) là trung bình của khoảng cách giữa các cặp đối
tượng thuộc hai cụm tương ứng:
Trong đó: � � và �� là số phần tử của các cụm �� , �� tương ứng.
− Liên kết trung bình trong phạm vi nhóm (Weighted link)
Ký hiệu là UWGMA (un-weighted within-group method using arithmetic averages).
Trong quy tắc này, khoảng cách �(�� ,��) là trung bình của khoảng cách giữa các đối
tượng trong nhóm mới sau khi đã trộn hai nhóm:
− Phương pháp Ward
Trong phương pháp này, khoảng cách giữa hai cụm là trung bình của bình phương
khoảng cách tới tâm trong phạm vi cụm:
Trong đó: m là tâm của cụm trộn.
b) Phương pháp phân hoạch
Trong các phương pháp phân hoạch, với số lượng cụm đã định, người ta lần lượt
phân các đối tượng dữ liệu vào các cụm, sau đó thực hiện lặp q trình điều chỉnh để cực
tiểu hàm mục tiêu được chọn. Thông dụng nhất là thuật tốn k-mean và các biến thể của
nó. Trong các thuật toán này, số lượng cụm k thường được xác định trước hoặc đặt dưới
dạng tham số. Với tập dữ liệu D gồm n đối tượng trong không gian d chiều, các đối tượng
được phân thành k cụm sao cho tổng bình phương độ lệch của mỗi mẫu tới tâm của nó là
nhỏ nhất. Và K-Mean là thuật tốn điển hình cho cho phương pháp phân cụm này.
18
2.2.3. Phân lớp
Có thể thấy phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai
phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con
người có thể trích rút ra các quyết định nghiệp vụ thông minh.
2.2.3.1. Định nghĩa
Phân lớp dữ liệu là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tượng
vào một trong các lớp đã được định nghĩa trước.
2.2.3.2. Quá trình phân lớp dữ liệu:
Gồm 2 bước chính
− Bước 1: Xây dựng mơ hình phân lớp: mơ tả một tập những lớp được định nghĩa trước.
Trong đó:
+ Dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý có thể là các mẫu
(sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case)
+ Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,…
− Bước 2: Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp dữ liệu
trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến.
Được chia thành 2 bước nhỏ:
+ Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình).
Nếu độ chính xác của mơ hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết
quả thu được là rất khả quan vì mơ hình ln có xu hướng “q vừa” dữ liệu.
+ Phân lớp dữ liệu mới:
Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào
những gì được huấn luyện ở bước 1.
19
2.2.3.3. Các vấn đề liên quan đến phân lớp dữ liệu
Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm khơng thể thiếu và có
vai trò quan trọng quyết định tới sự áp dụng được hay khơng của mơ hình phân lớp. Q
trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng
được của mơ hình phân lớp.
− Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi và giá trị thiếu trong
tập dữ liệu ban đầu
− Phân tích sự cần thiết của dữ liệu : nhằm mục đích loại bỏ những thuộc tính khơng cần
thiết, dư thừa khỏi q trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây ra
sự hiểu sai trong quá trình học dẫn tới một mơ hình phân lớp khơng dùng được.
2.2.3.4. Môt số phương pháp phân lớp
− Hồi quy logistic (Logistic Regression): là một kỹ thuật thống kê để xem xét mối liên hệ
giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị phân.
− Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị các
quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định. Trong
lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng
quát hóa tập dữ liệu cho trước.
− SVM (Support Vector Machine): SVM là một thuật toán có giám sát, SVM nhận dữ liệu
vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp
khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt
phân cách các lớp dữ liệu.
2.2.3.5. Các phương pháp đánh giá mơ hình phân lớp
Là các phương pháp nhằm kiểm tra tính hiệu quả của mơ hình phân lớp trên dữ liệu
có đặc thù cụ thể, từ đó quyết định có sử dụng mơ hình đó hay khơng.
− Ma trận nhầm lẫn (Confusion Matrix): là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực
sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào lớp nào.
− Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng.
− ROC và AUC:
20
+ ROC : Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị
phân.
+ AUC: Là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương nhỏ hơn hoặc
bằng 1. Giá trị này càng lớn thì mơ hình càng tốt.
2.2.3.6. Các ứng dụng phân lớp dữ liệu trong kinh tế
− Tài chính ngân hàng: dự báo chứng khốn, xếp hạng tín dụng cá nhân và tổ chức, đánh
giá rủi ro tài chính,...
− Sale & Marketing: dự báo doanh thu tương lai, dự báo khách hàng trung thành,....
− Kinh tế học: dự báo khủng hoảng kinh tế, cung cầu,...
CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Nhóm tác giả chọn dữ liệu “Bank Marketing” làm mơ hình nghiên cứu. Dữ liệu này
là chiến dịch marketing của một ngân hàng ở Bồ Đào Nha, họ thực hiện tính tốn dựa
trên các cuộc gọi điện thoại đã thực hiện. Chiến dịch này được thực hiện với mục đích
tìm hiểu xem khách hàng có đăng kí (yes) hay khơng có đăng kí (no) các sản phẩm của
ngân hàng mà sản phẩm chính ở đây đó là đăng kí gửi tiền có kỳ hạn.
Tiếp theo, nhóm tác giả tiến hành mơ tả dữ liệu và giải thích các thuộc tính của bộ
dữ liệu “Bank Marketing”.
1. Age là tuổi; được định dạng là biến định tính.
2. Job là nghề nghiệp của khách hàng; là biến định tính bao gồm quản trị viên (admin),
người lao động phổ thông (blue-collar), doanh nhân (entrepreneur), người giúp việc
(housemaid), nhà quản lý (management), người về hưu (retired), lao động tự do (selfemployed), dịch vụ (services), học sinh (student), kỹ thuật viên (technician), thất nghiệp
(unemployed), chưa biết (unknown).
3. Marital là tình trạng hơn nhân; được định dạng là biến định tính bao gồm ly hôn
(divorced), đã kết hôn (married), độc thân (single), chưa biết (unknown) .
4. Education là trình độ học vấn; được định dạng là biến định tính bao gồm 4 năm tiểu học
(basic.4y), 6 năm tiểu học (basic.6y), Trung học cơ sở (basic.9y), trung học phổ thông
21
(high school), khơng có đi học (illiterate), khố học chun nghiệp (professional course),
bậc đaị học (university degree), chưa biết (unknown).
5. Default là có tín dụng trong tình trạng vỡ nợ khơng?; được định dạng là biến định tính
bao gồm hai giá trị có (yes), khơng (no) và chưa biết (unknown).
6. Housing là có khoản vay mua nhà khơng?; được định dạng là biến định tính bao gồm hai
giá trị có (yes), khơng (no) và chưa biết (unknown).
7. Loan là có khoản vay cá nhân không?, được định dạng là biến định tính bao gồm hai giá
trị có (yes), khơng (no) và chưa biết (unknown).
8. Contact là hình thức liên lạc; được định dạng là biến định tính bao gồm điện thoại di
động (cellular) và điện thoại có dây (telephone).
9. Month là tháng liên lạc cuối cùng trong năm; được định dạng là biến định tính bao gồm
từ tháng 1 đến tháng 12, lận lượt là jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov,
dec.
10. Day of week là ngày liên lạc cuối cùng trong tuần; được định dạng là biến định tính bao
gồm thứ hai (mon), thứ ba (tue), thứ tư (wed), thứ năm (thu), thứ sáu (fri).
11. Duration là thời lượng liên lạc cuối cùng; được định dạng là biến định lượng và được
tính bằng giây Lưu ý quan trọng: thuộc tính này ảnh hưởng nhiều đến mục tiêu đầu ra vì
nếu thời lượng liên lạc bằng 0 thì kéo theo biến mục tiêu cũng bằng 0 và thời lượng liên
lạc được xác định thì biến mục tiêu cũng sẽ xác định được.
12. Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch này ;
được định dạng là biến định lượng bao gồm cả liên hệ cuối cùng.
13. Pdays số ngày sau khi khách hàng được liên hệ lần cuối từ một chiến dịch trước đó; là
biến định lượng và giá trị 999 có nghĩa là khách hàng chưa được liên hệ trước đó.
14. Previous số lần liên lạc đã thực hiện đối với khách hàng trong chiến dịch trước; được
định dạng là biến định lượng.
15. Poutcome kết quả của chiến dịch tiếp thị trước đó; là biến định tính bao gồm thất bại
(failure), không tồn tại (nonexistent), thành công (success).
16. emp.var.rate là tỷ lệ thay đổi việc làm - chỉ báo hàng quý.
17. cons.price.idx chỉ số giá tiêu dùng - chỉ báo hàng tháng.
18. cons.conf.idx chỉ số niềm tin của người tiêu dùng - chỉ báo hàng tháng.
19. euribor3m lãi suất euribor 3 tháng - chỉ số hàng ngày.
20. nr.employed số lượng nhân viên - chỉ số hàng quý .
Các biến thuộc thuộc tính bối cảnh kinh tế và xã hội đều được định dạng là biến định
lượng.
22
21. Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa? Biến này được định dạng
là biến mục tiêu bao gồm có đăng ký tiền gửi có kỳ hạn (yes) và khơng đăng kí (no).
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1. Tiền xử lý dữ liệu
4.1.1. Chọn số lượng khảo sát
Dữ liệu gốc ban đầu có hơn 40000 kết quả khảo sát (khơng có dữ liệu bị thiếu). Số
lượng trên là quá lớn để tiến hành khai thác, làm mất nhiều thời gian, đặc biệt khi tiến
hành phân cụm với phương pháp K- means thì chỉ chạy được tối đa 5000 instances. Vì
thế nhóm tác giả sử dụng công cụ Data Sampler để lấy ngẫu nhiên 4999 khảo sát để thỏa
điều kiện nói trên và tiến hành dễ dàng hơn.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
4.1.2. Loại bỏ các biến không phù hợp
Dữ liệu nhằm mục đích tìm hiểu sự lựa chọn của khách hàng về gửi tiền có kỳ hạn
nên ta lựa chọn biến Subscribed (đã đăng ký) là biến mục tiêu � Target.
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
23
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế khơng liên quan.
Từ hình 3 cho thấy: Đối với các biến emp.var.rate, cons.price.idx, cons.conf.idx,
euribor3m, nr.employed, đây là các biến liên quan đến tình hình chung bối cảnh kinh tế xã hội, không ảnh hưởng đến quyết định gửi tiền của khách hàng, nên nhóm quyết định
loại bỏ bằng cơng cụ Select Columns.
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
4.2. Phân cụm dữ liệu
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
4.2.1
Phương
pháp
Hierarchical
clustering
Hình 6:
Silhouette Plot
thể hiện phân
cụm theo
phương pháp
Hierarchical
Clustering.
Với
số
cụm là 2, nhóm
thực hiện phân
cụm
bằng
phương
pháp
pháp
Hierarchical
clustering và sử
24
dụng phương pháp tính bằng liên kết đơn (Single) thì cho ra kết quả phân cụm hợp lý
nhất. Cụm 1 (màu xanh) có giá trị Silhouette nằm trong khoảng từ 0.5 đến 0.83 và cụm 2
(màu đỏ) có giá trị Silhouette nằm trong khoảng từ 0.4 đến 0.83. Vì các khoảng này đều
nằm trong khoảng dương và tiến về 1 nên phương pháp phân cụm này là sát với thực tế.
Sau khi phân tích trên Orange, nhóm tiến hành xuất kết quả phân cụm dưới dạng
excel và so sánh với nhãn ban đầu.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân
cụm theo phương pháp Hierarchical Clustering bằng cách tính liên kết đơn xấp xỉ 0.9.
Đây là kết quả khá cao thể hiện độ chính xác khi phân cụm biến Subscribed theo phương
pháp này.
4.2.2. Phương pháp K-Mean
Nhóm tác giả tiến hành phân cụm dữ liệu theo phương pháp K-Mean. Sau khi chạy
dữ thiệu thì đã cho ra bảng kết quả như sau:
25