BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP.HCM
KHOA CƠNG NGHỆ THƠNG TIN KINH DOANH
----------
ĐỒ ÁN NHĨM CUỐI HỌC PHẦN MƠN
KHOA HỌC DỮ LIỆU
Tên dự án: DỰ ĐỐN KHẢ NĂNG KHÁCH HÀNG
RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN
HÀNG
Lớp: 23C1INF50905952 – SÁNG THỨ 2 (B2.104)
Mã học phần: 23C1INF50905952
Giảng viên hướng dẫn: Nguyễn Mạnh Tuấn
Nhóm thực hiện: Nhóm 6
TP. HỒ CHÍ MINH
Tháng 12, 2023
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN...........................................................1
1.1. Lý do chọn đề tài...............................................................1
1.2. Mục tiêu nghiên cứu..........................................................1
1.3. Đối tượng và phạm vi nghiên cứu của đề tài........................2
1.4. Phương pháp nghiên cứu....................................................2
1.4.1. Phương pháp nghiên cứu lý luận...............................2
1.4.2. Phương pháp nghiên cứu thực tiễn..........................3
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ.........................3
2.1. Mơ tả dữ liệu.....................................................................3
2.1.1. Mô tả tổng quát bộ dữ liệu.......................................3
2.1.2. Mô tả các thuộc tính................................................3
2.2. Tiền xử lý..........................................................................5
2.3. Bài tốn 1: Bài toán phát hiện các điểm đặc thù và xây dựng
dashboard...............................................................................6
2.3.1. Khái niệm dashboard...............................................6
2.3.2. Quy trình xây dựng dashboard.................................6
2.3.3. Các biểu đồ cụ thể trong dashboard........................ 6
2.3.4. Kết quả và đánh giá...............................................13
2.4. Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng
dịch vụ ngân hàng (Bài tốn phân lớp)....................................13
2.4.1. Mơ tả bài tốn.......................................................13
2.4.2. Mơ tả các phương pháp thực hiện bài toán..............13
2.4.2.1. Phân lớp dữ liệu...............................................13
2.4.2.2. Các bước thực hiện...........................................14
2.4.2.3. Một số phương pháp phân lớp..........................14
2.4.3. Chạy mơ hình và kết quả.......................................15
2.4.4. Kết quả và nhận xét...............................................17
2.4.5. Kết luận................................................................20
2.5. Bài toán 3: Phân loại những nhóm khách hàng tiếp tục sử
dụng hoặc chấm dứt, rời bỏ dịch vụ của ngân hàng (bài tốn
phân cụm)..............................................................................20
2.5.1. Mơ tả bài tốn.......................................................20
2.5.2. Mơ tả các phương pháp thực hiện bài toán..............21
2.5.2.1. Phân cụm dữ liệu...............................................21
2.5.2.2. Quy trình phân cụm dữ liệu................................21
2.5.2.3. Thực hiện bài tốn phân cụm dữ liệu..................22
2.5.3. Xây dựng mơ hình..................................................24
2.5.4. Kết quả mơ hình phân cụm.....................................25
2.5.5. Đánh giá và kết quả sau khi phân cụm....................26
2.5.6. Kết luận................................................................30
CHƯƠNG 3: KẾT LUẬN.............................................................30
3.1.Kết luận của các bài toán..................................................30
3.1.1...................................................................Bài toán 1
...............................................................................30
3.1.2...................................................................Bài toán 2
...............................................................................30
3.1.3...................................................................Bài toán 3
...............................................................................31
3.2.Hạn chế của bài nghiên cứu...............................................31
3.3.Giải pháp.........................................................................32
DANH MỤC HÌNH ẢNH
Hình 1. Các biến, đối tượng khảo sát.........................................5
Hình 2. Số liệu sau khi tiền xử lí................................................5
Hình 3. Dashboard....................................................................6
Hình 4. Biểu đồ tỉ lệ số dư của khách hàng theo giới tính............8
Hình 5. Biểu đồ tỉ lệ rời đi theo giới tính....................................8
Hình 6. Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc
rời đi.......................................................................................9
Hình 7. Số thẻ tín dụng theo quốc gia......................................10
Hình 8. Số thành viên hoạt động thường xuyên theo quốc gia...11
Hình 9. Số thẻ ngân hàng mà khách hàng đang sử dụng...........12
Hình 10. Số dư tài khoản của khách hàng theo thời gian sử dụng
và quốc gia............................................................................13
Hình 11. Tổng quan quy trình phân lớp dữ liệu.........................15
Hình 12. Màn hình dữ liệu huấn luyện......................................16
Hình 13. Màn hình dữ liệu dự báo............................................16
Hình 14. Kết quả đánh giá bài tốn qua SVM............................17
Hình 15. Kết quả đánh giá bài tốn qua LR..............................17
Hình 16. Kết quả đánh giá bài tốn theo Neural Network..........18
Hình 17. Kết quả Test and Score.............................................19
Hình18. Kết quả dự đốn của bài tốn.....................................20
Hình 19. Đánh giá kết quả dự báo............................................22
Hình 21. Nhập dữ liệu từ file....................................................23
Hình 22. Mơ hình xây dựng bài tốn 3......................................24
Hình 23. Kết quả phương pháp K-Means..................................24
Hình 24. Kết quả Silhouette Plot.............................................25
Hình 25. Dữ liệu trên DataTable với điểm Sihouette Plot cao nhất
.............................................................................................26
Hình 26. Biểu đồ thống kê số lượng khách hàng mang quốc tịch
Pháp, Đức, Tây Ban Nha..........................................................26
Hình 27. Biểu đồ thống kê số dư tài khoản của các khách hàng. 27
Hình 28. Biểu đồ về mức độ thu nhập của các khách hàng.........28
Hình 29. Biểu đồ so sánh........................................................29
NHĨM SINH VIÊN THỰC HIỆN ĐỒ ÁN
Nhóm 6
Tỉ lệ phần trăm
Họ và Tên
MSSV
Hồ Vũ Quốc An
31221020609
100%
Nguyễn Thị Quỳnh Anh
31221024400
100%
Dáng
31221025972
100%
Trần Phi Long
31221021007
100%
Cam Nhã Thy
31221023683
100%
Nguyễn
Đào
đóng góp
Duyên
MỨC ĐỘ LIÊN QUAN ĐẾN CHUYÊN NGÀNH
Mức
quan
Đề tài
độ
liên Liên quan
Liên quan gần
Không
liên
quan
x
Link thư mục google drive chứa thông tin liên quan đến bài:
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
1.1 Lý do chọn đề tài
Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranh
gay gắt. Các ngân hàng khơng ngừng tìm kiếm các giải pháp để thu hút
và giữ chân khách hàng. Trong đó, việc dự đốn khả năng khách hàng rời
bỏ sử dụng dịch vụ ngân hàng là một vấn đề quan trọng.
Về mặt kinh tế, khách hàng rời bỏ gây ra những tổn thất đáng kể cho
ngân hàng, bao gồm:
- Mất doanh thu từ phí và lãi suất. Khách hàng rời bỏ là một vấn đề
nan giải đối với các ngân hàng. Theo một nghiên cứu của Bain &
Company, một khách hàng rời bỏ có thể khiến ngân hàng mất đi từ 10%
đến 30% doanh thu trong tương lai.
- Tốn chi phí để tiếp thị và thu hút khách hàng mới
- Giảm lòng tin của khách hàng hiện tại
Về mặt chiến lược, khách hàng rời bỏ là dấu hiệu cho thấy ngân hàng
đang gặp vấn đề trong việc đáp ứng nhu cầu của khách hàng. Nếu
không giải quyết được vấn đề này, ngân hàng sẽ khó có thể phát triển
bền vững.
Về mặt xã hội, khách hàng rời bỏ có thể gây ra những tác động tiêu
cực đến nền kinh tế, chẳng hạn như:
- Giảm lượng tiền lưu thông trong nền kinh tế
- Tăng chi phí tài chính cho doanh nghiệp và cá nhân
Việc dự đoán khả năng khách hàng rời bỏ giúp ngân hàng có thể: Xác
định sớm những khách hàng có nguy cơ rời bỏ. Thực hiện các biện pháp
can thiệp kịp thời để ngăn chặn khách hàng rời bỏ. Cải thiện chất lượng
dịch vụ và sản phẩm để đáp ứng nhu cầu của khách hàng.
1
Với những lý do trên, đề tài " Dự đoán khả năng khách hàng rời bỏ
sử dụng dịch vụ ngân hàng" là một đề tài có tính thực tiễn và ứng
dụng cao.
1.2 Mục tiêu nghiên cứu:
Bài nghiên cứu “ Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ
ngân hàng” chủ yếu tập trung những mục tiêu chính như sau:
Tiến hành nghiên cứu và phân tích các lý thuyết tổng quan về khai
phá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu.
Thực hiện nghiên cứu về các phương pháp cụ thể, đặc biệt là phương
pháp phân lớp dữ liệu (phương pháp này cho phép dự báo, phân loại
và phân lớp các đối tượng). Nghiên cứu sẽ giới thiệu các phương
pháp phân lớp dữ liệu, và từ đó chọn ra phương pháp phù hợp và tối
ưu nhất để tiến hành dự báo dữ liệu.
Triển khai mơ hình thực nghiệm dựa trên thơng tin khách hàng để
đưa ra dự đoán về mức độ khách hàng rời bỏ ngân hàng cũng như
giải pháp tốt nhất để cải thiện mức độ này.
1.3 Đối tượng và phạm vi nghiên cứu của đề tài:
Đối tượng nghiên cứu gồm 10.000 khách hàng được khảo sát tại một
ngân hàng. Bao gồm nhiều thuộc tính khác nhau như : số dư, thời gian sử
dụng thẻ, khảo sát sử dụng thẻ ghi nợ, mức lương của chủ sở hữu,…
Dữ liệu được lấy tại một công ty được đăng tải trên trang web Kaggle :
/>Công cụ sử dụng: Orange, Excel.
1.4
Phương pháp nghiên cứu
1.4.1.
Phương pháp nghiên cứu lý luận
Thực hiện nghiên cứu thông tin và dữ liệu từ các nguồn như sách, báo, tài
liệu học tập, sau đó thu thập, lọc và phân tích để định rõ những khái
2
niệm và quan điểm chính xác nhất, nhằm xây dựng nền tảng lý thuyết
cho bài nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu và
xây dựng các mơ hình lý thuyết ban đầu.Bao gồm:
•
Phương pháp phân tích – tổng hợp lý thuyết: từ các nguồn tài liệu,
sách, báo có sẵn, sau đó đọc và tổng hợp để lọc, rút ra những nội dung
cần thiết cho luận điểm của bài nghiên cứu.
•
Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên
lý thuyết và áp dụng mơ hình để dự báo nhằm kiểm tra độ chính xác của
mơ hình.
1.4.2.Phương pháp nghiên cứu thực tiễn
Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phương
pháp nghiên cứu thực tiễn:
• Sử dụng phần mềm Orange - một công cụ khai phá dữ liệu phổ biến
hiện nay để phân tích, xử lý dữ liệu và làm rõ vấn đề nghiên cứu.
• Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện
có sẵn và so sánh các kết quả rút ra được với nhau nhằm chọn lựa mơ
hình phù hợp nhất giúp các nhà quản lý có quyết định chính xác hơn và
làm việc hiệu quả hơn.
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
2.1. Mô tả dữ liệu
2.1.1.
Mô tả tổng quát bộ dữ liệu
- Bộ dữ liệu được nhóm sử dụng cho nghiên cứu có tên là Bank-CustomerChurn-Prediction.
Size: 10.000 rows, 12 columns
11 features: 5 categorical, 6 numeric
Target with 2 values
No missing data
3
- Trong các cột dữ liệu, vì mục đích của bài nghiên cứu là nghiên cứu xem
hành vi của khách hàng liệu có ý định tiếp tục gắn bó với các dịch vụ tài
chính của ngân hàng hay khơng. Ngồi ra, còn để nghiên cứu xem yếu tố
nào là những yếu tố liên quan mật thiết đến việc tiếp tục hay rời bỏ của
khách hàng để ngân hàng có thể đưa ra các chính sách thích hợp. Vì vậy,
cột Churn là mục tiêu của bài nghiên cứu (target).
2.1.2.
Thuộc
Mô tả các thuộc tính
Ý nghĩa
Mơ tả
Id khách hàng: Miêu tả mã số khách hàng
Text
tính
Customer
id
Credit
Điểm tín dụng: Miêu tả điểm tín dụng của Number
score
khách hàng
Country
Quốc gia: Miêu tả quốc tịch của khách hàng
Text
Gender
Giới tính: Miêu tả giới tính của khách hàng
Female/
Male
Age
Tuổi : Miêu tả tuổi của khách hàng
Number
Tenure
Thời hạn: Miêu tả thời gian khách hàng sử dụng Number
thẻ
Balance
Số dư: Miêu tả số dư của khách hàng
Products
Số lượng: Miêu tả số lượng thẻ ngân hàng mà Number
number
khách hàng đang sở hữu
Credit
Thẻ tín dụng: Miêu tả khách hàng có sử dụng 1 or 0
4
Number
card
thẻ ghi nợ hay khơng
Active
Thành viên tích cực: Miêu tả khách hàng có 1 or 0
member
phải sử dụng các dịch vụ của ngân hàng
thường xun hay khơng
Estimated
Mức lương ước tính: Miêu tả mức lương của chủ Number
salary
sở hữu tài khoản ngân hàng
Churn
Rời bỏ: Miêu tả khách hàng liệu có tiếp tục sử 1 or 0
dụng dịch vụ hay rời bỏ không ?
2.2. Tiền xử lý dữ liệu
- Đầu tiên, ta tiến hành sử dụng bộ dữ liệu thô mà ta đang có với Churn
là biến phụ thuộc và ta bỏ qua biến CustomerID vì là thuộc tính định
danh, khơng ảnh hưởng đến việc phân tích, vì vậy loại bỏ đi thuộc tính
CustomerID sẽ làm đơn giản hố dữ liệu và dễ xử lý hơn.
5
Hình 1. Các biến, đối tượng khảo sát
Hình 2. Số liệu sau khi tiền xử lý
Vì khơng có dữ liệu bị Missing nên không cần thực hiện bước tiền xử lý dữ
liệu bằng cơng cụ Impute.
2.3.Bài tốn 1: Bài tốn phát hiện các điểm đặc thù và xây dựng
dashboard.
2.3.1.
Khái niệm dashboard
Dashboard (Bảng điều khiển) là một loại giao diện đồ họa thường cung
cấp cái nhìn tổng quan về các chỉ số hiệu suất chính (KPIs) liên quan đến
một mục tiêu hoặc quy trình kinh doanh cụ thể. Bằng cách cung cấp cái
nhìn tổng quan này, chủ doanh nghiệp có thể tiết kiệm thời gian và cải
thiện quyết định của mình bằng cách sử dụng các dashboard.
Hình 3. Dashboard
2.3.2.
Quy trình xây dựng Dashboard
Bước 1: Xác định mục tiêu và đối tượng
6
Mục tiêu của việc xây dựng Dashboard là để theo dõi, nghiên cứu, tính
tốn khả năng rời đi hay tiếp tục của những khách hàng tại một ngân
hàng. Để thực hiện quản lí và dự đốn khả năng đó cần có cái nhìn tổng
quan cũng như chi tiết về các đối tượng cần nghiên cứu là các khách
hàng với những đặc trưng đi kèm hành vi tương tự.
Bước 2: Chọn dữ liệu và nguồn dữ liệu
Việc theo dõi khả năng rời đi của khách hàng tại một ngân hàng cần
quan tâm đến những yếu tố như quốc tịch, giới tính, số dư tài khoản, mức
lương ước tính, thành viên hoạt động thường xuyên,…Dashboard được
xây dựng dựa trên nguồn dữ liệu từ Bank Customer Churn Dataset
(kaggle.com).
Bước 3: Chọn biểu đồ và bố trí
Lựa chọn loại biểu đồ phù hợp với dữ liệu. Các thông tin cần được sắp
xếp một cách khoa học và hợp lý.
Việc nghiên cứu khả năng rời đi của khách hàng dựa theo tỉ lệ giới tính,
quốc gia và mức thu nhập lẫn số dư tài khoản nên có thể chọn biểu đồ
trịn để biểu hiện tỉ lệ phần trăm và biểu đồ dạng cột hoặc thanh để biểu
diễn mức định lượng.
Bước 4: Xây dựng và tùy chỉnh
Tùy chỉnh giao diện gồm font chữ, màu sắc, các chú thích và tiêu đề phù
hợp.
Bước 5: Kiểm tra và cải thiện
Kiểm tra dữ liệu đã sử dụng để đảm bảo tính chính xác. Đồng thời kiểm
tra cách hiển thị trên các thiết bị khác nhau.
2.3.3.
Các biểu đồ cụ thể trong dashboard
7
Tỉ lệ số dư
Female
45%
Male
55%
Hình 4. Biểu đồ tỉ lệ số dư của khách hàng theo giới tính
Giới tính
Tởng số dư tài Tỉ lệ phần trăm
khoản
Female
343,720,514.0
45%
Male
421,138,378.9
55%
Tổng Cuối
764,858,892.9
100%
Nhận xét: Qua khảo sát có thể thấy số dư trong tài khoản của khách
hàng nam lớn hơn số dư trong tài khoản của khách hàng nữ 77,417,864.9
Tỉ số rời đi
Male
44%
Female
56%
(421,138,378.9 - 343,720,514.0)
8
Hình 5. Biểu đồ tỉ lệ rời đi của khách hàng theo giới tính
Giới tính
Tởng số khách hàng Tỉ
lệ
rời đi
trăm
Female
1139
56%
Male
898
44%
Tởng
2037
100%
phần
Nhận xét: Khách hàng nữ rời đi chiếm đa số trên tổng khách hàng chiếm
tỉ lệ 56% với 1139 trên tổng số 2037 khách hàng lựa chọn rời đi và 898
khách hàng nam rời đi chiếm 44%.
Mức lương ước tính
1
Spain
Germany
France
0
Spain
Germany
France
0
50,000,000 100,000,000 150,000,000 200,000,000 250,000,000 300,000,000
9
Hình 6. Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc
rời đi
Khách hàng tiếp tục
France
Female
Male
Tổng Cuối
339,773,90
454,442,90
794,216,813.
7.3
6.3
7
177,446,804. 239,661,873. 417,108,677.2
0
2
Germany
77,470,346.5 96,122,498.6 173,592,845.1
Spain
84,856,756.9 118,658,534. 203,515,291.4
5
Khách hàng rời đi
117,258,89
89,426,690. 206,685,585.
5.2
0
1
France
47,667,971.5 36,117,843.9 83,785,815.4
Germany
44,748,237.5 35,352,526.1 80,100,763.6
Spain
24,842,686.1 17,956,320.0 42,799,006.1
Tổng Cuối
457,032,80
543,869,59
1,000,902,39
2.5
6.3
8.8
Nhận xét: Khách hàng nữ rời đi nhiều hơn khách hàng nam và ngược lại
khách hàng nam lựa chọn tiếp tục nhiêu hơn khách hàng nữ ở cả 3 quốc
gia. Tổng số khách hàng lựa chọn tiếp tục cao gấp gần 4 lần khách hàng
lựa chọn rời đi.
Hình 7. Số thẻ tín dụng theo quốc gia
10
Credit Card
4000
3500
3000
2500
2000
1500
1000
500
0
France
Germany
Spain
Female
Male
Tổng Cuối
France
1578
1965
3543
Germany
843
948
1791
Spain
771
950
1721
Tổng Cuối
3192
3863
7055
Nhận xét: Số lượng khách hàng nam sử dụng thẻ tín dụng cao hơn hẳn
số lượng khách hàng nữ sử dụng thẻ tín dụng ở cả 3 nước Pháp, Đức và
Tây Ban Nha. Ngoài ra số lượng khách hàng sử dụng thẻ tín dụng giảm
Thành viên hoạt động
3,000
2,500
2,000
1,500
1,000
500
0
France
Germany
dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha.
11
Spain
Hình 8.Số thành viên hoạt động thường xuyên theo quốc gia
Female
Male
Tổng Cuối
France
1162
1429
2591
Germany
559
689
1248
Spain
563
749
1312
Tổng Cuối
2284
2867
5151
Nhận xét: Số lượng thành viên hoạt động thường xuyên nam cao hơn
hẳn số lượng khách hàng nữ hoạt động thường xuyên ở cả 3 nước Pháp,
Đức và Tây Ban Nha. Ngoài ra số lượng thành viên hoạt động thường
Tổng thẻ ngân hàng
Spain
Germany
France
0
500
1000
1500
2000
2500
3000
3500
4000
4500
xuyên giảm dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha.
Hình 9. Số thẻ ngân hàng mà khách hàng đang sử dụng
Femal
e
Male
Tổng
Cuối
France
3,499
4,177 7,676
Germany
1,803
2,010 3,813
12
Spain
1,713
2,100 3,813
Tổng Cuối
7,015
8,28
15,302
7
Nhận xét: Số thẻ ngân hàng được sử dụng ở Pháp cao đột biến, chiếm
gần 50% tổng số lượng khảo sát, trong khi đó, số thẻ ngân hàng ở Đức và
Tây Ban Nha gần như bằng nhau.
Số dư theo quốc gia
25,000,000
20,000,000
15,000,000
10,000,000
5,000,000
0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
France
Germany
Spain
Hình 10. Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc
gia
Nhận xét: Đa số khách hàng nam có số dư tài khoản cao hơn khách
hàng nữ, chỉ có cột đầu tiên của Pháp, 2 cột đầu và cuối của Đức cho số
liệu tài khoản khách hàng nữ có số dư cao hơn. Nhóm khách hàng nữ có
thời gian sử dụng thẻ ngân hàng ít hơn 1 năm thường có số dư tài khoản
cao hơn khách hàng nam có thời gian sử dụng thẻ ngân hàng tương tự.
Bên cạnh đó khảo sát cho thấy số dư tài khoản của khách hàng Pháp và
Đức khá cân bằng nhưng cao hơn hẳn khách hàng Tây Ban Nha.
2.3.4.
Kết quả và đánh giá
Kết quả xây dựng dashboard cho thấy, tỉ lệ khách hàng nữ rời bỏ ngân
hàng cao hơn khách hàng nam, mức độ hoạt động cũng như sử dụng các
dịch vụ của ngân hàng cao với nam giới, đồng thời mức lương ước tính
13