Tải bản đầy đủ (.docx) (42 trang)

DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN HÀNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.19 MB, 42 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP.HCM
KHOA CƠNG NGHỆ THƠNG TIN KINH DOANH

----------

ĐỒ ÁN NHĨM CUỐI HỌC PHẦN MƠN
KHOA HỌC DỮ LIỆU
Tên dự án: DỰ ĐỐN KHẢ NĂNG KHÁCH HÀNG
RỜI BỎ SỬ DỤNG DỊCH VỤ NGÂN
HÀNG
Lớp: 23C1INF50905952 – SÁNG THỨ 2 (B2.104)
Mã học phần: 23C1INF50905952
Giảng viên hướng dẫn: Nguyễn Mạnh Tuấn
Nhóm thực hiện: Nhóm 6

TP. HỒ CHÍ MINH
Tháng 12, 2023


MỤC LỤC
CHƯƠNG 1: TỔNG QUAN...........................................................1
1.1. Lý do chọn đề tài...............................................................1
1.2. Mục tiêu nghiên cứu..........................................................1
1.3. Đối tượng và phạm vi nghiên cứu của đề tài........................2
1.4. Phương pháp nghiên cứu....................................................2
1.4.1. Phương pháp nghiên cứu lý luận...............................2
1.4.2. Phương pháp nghiên cứu thực tiễn..........................3
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ.........................3
2.1. Mơ tả dữ liệu.....................................................................3
2.1.1. Mô tả tổng quát bộ dữ liệu.......................................3


2.1.2. Mô tả các thuộc tính................................................3
2.2. Tiền xử lý..........................................................................5
2.3. Bài tốn 1: Bài toán phát hiện các điểm đặc thù và xây dựng
dashboard...............................................................................6
2.3.1. Khái niệm dashboard...............................................6
2.3.2. Quy trình xây dựng dashboard.................................6
2.3.3. Các biểu đồ cụ thể trong dashboard........................ 6
2.3.4. Kết quả và đánh giá...............................................13
2.4. Bài toán 2: Dự đoán khách hàng rời bỏ hoặc tiếp tục sử dụng
dịch vụ ngân hàng (Bài tốn phân lớp)....................................13
2.4.1. Mơ tả bài tốn.......................................................13
2.4.2. Mơ tả các phương pháp thực hiện bài toán..............13


2.4.2.1. Phân lớp dữ liệu...............................................13
2.4.2.2. Các bước thực hiện...........................................14
2.4.2.3. Một số phương pháp phân lớp..........................14
2.4.3. Chạy mơ hình và kết quả.......................................15
2.4.4. Kết quả và nhận xét...............................................17
2.4.5. Kết luận................................................................20
2.5. Bài toán 3: Phân loại những nhóm khách hàng tiếp tục sử
dụng hoặc chấm dứt, rời bỏ dịch vụ của ngân hàng (bài tốn
phân cụm)..............................................................................20
2.5.1. Mơ tả bài tốn.......................................................20
2.5.2. Mơ tả các phương pháp thực hiện bài toán..............21
2.5.2.1. Phân cụm dữ liệu...............................................21
2.5.2.2. Quy trình phân cụm dữ liệu................................21
2.5.2.3. Thực hiện bài tốn phân cụm dữ liệu..................22
2.5.3. Xây dựng mơ hình..................................................24
2.5.4. Kết quả mơ hình phân cụm.....................................25

2.5.5. Đánh giá và kết quả sau khi phân cụm....................26
2.5.6. Kết luận................................................................30
CHƯƠNG 3: KẾT LUẬN.............................................................30
3.1.Kết luận của các bài toán..................................................30
3.1.1...................................................................Bài toán 1
...............................................................................30
3.1.2...................................................................Bài toán 2
...............................................................................30


3.1.3...................................................................Bài toán 3
...............................................................................31
3.2.Hạn chế của bài nghiên cứu...............................................31
3.3.Giải pháp.........................................................................32
DANH MỤC HÌNH ẢNH
Hình 1. Các biến, đối tượng khảo sát.........................................5
Hình 2. Số liệu sau khi tiền xử lí................................................5
Hình 3. Dashboard....................................................................6
Hình 4. Biểu đồ tỉ lệ số dư của khách hàng theo giới tính............8
Hình 5. Biểu đồ tỉ lệ rời đi theo giới tính....................................8
Hình 6. Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc
rời đi.......................................................................................9
Hình 7. Số thẻ tín dụng theo quốc gia......................................10
Hình 8. Số thành viên hoạt động thường xuyên theo quốc gia...11
Hình 9. Số thẻ ngân hàng mà khách hàng đang sử dụng...........12
Hình 10. Số dư tài khoản của khách hàng theo thời gian sử dụng
và quốc gia............................................................................13
Hình 11. Tổng quan quy trình phân lớp dữ liệu.........................15
Hình 12. Màn hình dữ liệu huấn luyện......................................16
Hình 13. Màn hình dữ liệu dự báo............................................16

Hình 14. Kết quả đánh giá bài tốn qua SVM............................17
Hình 15. Kết quả đánh giá bài tốn qua LR..............................17
Hình 16. Kết quả đánh giá bài tốn theo Neural Network..........18
Hình 17. Kết quả Test and Score.............................................19


Hình18. Kết quả dự đốn của bài tốn.....................................20
Hình 19. Đánh giá kết quả dự báo............................................22
Hình 21. Nhập dữ liệu từ file....................................................23
Hình 22. Mơ hình xây dựng bài tốn 3......................................24
Hình 23. Kết quả phương pháp K-Means..................................24
Hình 24. Kết quả Silhouette Plot.............................................25
Hình 25. Dữ liệu trên DataTable với điểm Sihouette Plot cao nhất
.............................................................................................26
Hình 26. Biểu đồ thống kê số lượng khách hàng mang quốc tịch
Pháp, Đức, Tây Ban Nha..........................................................26
Hình 27. Biểu đồ thống kê số dư tài khoản của các khách hàng. 27
Hình 28. Biểu đồ về mức độ thu nhập của các khách hàng.........28
Hình 29. Biểu đồ so sánh........................................................29


NHĨM SINH VIÊN THỰC HIỆN ĐỒ ÁN
Nhóm 6
Tỉ lệ phần trăm

Họ và Tên

MSSV

Hồ Vũ Quốc An


31221020609

100%

Nguyễn Thị Quỳnh Anh

31221024400

100%

Dáng

31221025972

100%

Trần Phi Long

31221021007

100%

Cam Nhã Thy

31221023683

100%

Nguyễn


Đào

đóng góp

Duyên


MỨC ĐỘ LIÊN QUAN ĐẾN CHUYÊN NGÀNH

Mức
quan
Đề tài

độ

liên Liên quan

Liên quan gần

Không

liên

quan
x

Link thư mục google drive chứa thông tin liên quan đến bài:



CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
1.1 Lý do chọn đề tài
Thị trường ngân hàng Việt Nam đang ngày càng phát triển cạnh tranh
gay gắt. Các ngân hàng khơng ngừng tìm kiếm các giải pháp để thu hút
và giữ chân khách hàng. Trong đó, việc dự đốn khả năng khách hàng rời
bỏ sử dụng dịch vụ ngân hàng là một vấn đề quan trọng.


Về mặt kinh tế, khách hàng rời bỏ gây ra những tổn thất đáng kể cho
ngân hàng, bao gồm:
- Mất doanh thu từ phí và lãi suất. Khách hàng rời bỏ là một vấn đề

nan giải đối với các ngân hàng. Theo một nghiên cứu của Bain &
Company, một khách hàng rời bỏ có thể khiến ngân hàng mất đi từ 10%
đến 30% doanh thu trong tương lai.
- Tốn chi phí để tiếp thị và thu hút khách hàng mới
- Giảm lòng tin của khách hàng hiện tại


Về mặt chiến lược, khách hàng rời bỏ là dấu hiệu cho thấy ngân hàng
đang gặp vấn đề trong việc đáp ứng nhu cầu của khách hàng. Nếu
không giải quyết được vấn đề này, ngân hàng sẽ khó có thể phát triển
bền vững.



Về mặt xã hội, khách hàng rời bỏ có thể gây ra những tác động tiêu
cực đến nền kinh tế, chẳng hạn như:
- Giảm lượng tiền lưu thông trong nền kinh tế
- Tăng chi phí tài chính cho doanh nghiệp và cá nhân


Việc dự đoán khả năng khách hàng rời bỏ giúp ngân hàng có thể: Xác
định sớm những khách hàng có nguy cơ rời bỏ. Thực hiện các biện pháp
can thiệp kịp thời để ngăn chặn khách hàng rời bỏ. Cải thiện chất lượng
dịch vụ và sản phẩm để đáp ứng nhu cầu của khách hàng.

1


Với những lý do trên, đề tài " Dự đoán khả năng khách hàng rời bỏ
sử dụng dịch vụ ngân hàng" là một đề tài có tính thực tiễn và ứng
dụng cao.
1.2 Mục tiêu nghiên cứu:
Bài nghiên cứu “ Dự đoán khả năng khách hàng rời bỏ sử dụng dịch vụ
ngân hàng” chủ yếu tập trung những mục tiêu chính như sau:


Tiến hành nghiên cứu và phân tích các lý thuyết tổng quan về khai
phá dữ liệu nhằm tập trung làm rõ những vấn đề của bài nghiên cứu.



Thực hiện nghiên cứu về các phương pháp cụ thể, đặc biệt là phương
pháp phân lớp dữ liệu (phương pháp này cho phép dự báo, phân loại
và phân lớp các đối tượng). Nghiên cứu sẽ giới thiệu các phương
pháp phân lớp dữ liệu, và từ đó chọn ra phương pháp phù hợp và tối
ưu nhất để tiến hành dự báo dữ liệu.




Triển khai mơ hình thực nghiệm dựa trên thơng tin khách hàng để
đưa ra dự đoán về mức độ khách hàng rời bỏ ngân hàng cũng như
giải pháp tốt nhất để cải thiện mức độ này.

1.3 Đối tượng và phạm vi nghiên cứu của đề tài:
Đối tượng nghiên cứu gồm 10.000 khách hàng được khảo sát tại một
ngân hàng. Bao gồm nhiều thuộc tính khác nhau như : số dư, thời gian sử
dụng thẻ, khảo sát sử dụng thẻ ghi nợ, mức lương của chủ sở hữu,…
Dữ liệu được lấy tại một công ty được đăng tải trên trang web Kaggle :
/>Công cụ sử dụng: Orange, Excel.
1.4

Phương pháp nghiên cứu

1.4.1.

Phương pháp nghiên cứu lý luận

Thực hiện nghiên cứu thông tin và dữ liệu từ các nguồn như sách, báo, tài
liệu học tập, sau đó thu thập, lọc và phân tích để định rõ những khái
2


niệm và quan điểm chính xác nhất, nhằm xây dựng nền tảng lý thuyết
cho bài nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu và
xây dựng các mơ hình lý thuyết ban đầu.Bao gồm:


Phương pháp phân tích – tổng hợp lý thuyết: từ các nguồn tài liệu,


sách, báo có sẵn, sau đó đọc và tổng hợp để lọc, rút ra những nội dung
cần thiết cho luận điểm của bài nghiên cứu.


Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên

lý thuyết và áp dụng mơ hình để dự báo nhằm kiểm tra độ chính xác của
mơ hình.
1.4.2.Phương pháp nghiên cứu thực tiễn
Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phương
pháp nghiên cứu thực tiễn:
• Sử dụng phần mềm Orange - một công cụ khai phá dữ liệu phổ biến
hiện nay để phân tích, xử lý dữ liệu và làm rõ vấn đề nghiên cứu.
• Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện
có sẵn và so sánh các kết quả rút ra được với nhau nhằm chọn lựa mơ
hình phù hợp nhất giúp các nhà quản lý có quyết định chính xác hơn và
làm việc hiệu quả hơn.
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
2.1. Mô tả dữ liệu
2.1.1.

Mô tả tổng quát bộ dữ liệu

- Bộ dữ liệu được nhóm sử dụng cho nghiên cứu có tên là Bank-CustomerChurn-Prediction.
 Size: 10.000 rows, 12 columns
 11 features: 5 categorical, 6 numeric
 Target with 2 values
 No missing data
3



- Trong các cột dữ liệu, vì mục đích của bài nghiên cứu là nghiên cứu xem
hành vi của khách hàng liệu có ý định tiếp tục gắn bó với các dịch vụ tài
chính của ngân hàng hay khơng. Ngồi ra, còn để nghiên cứu xem yếu tố
nào là những yếu tố liên quan mật thiết đến việc tiếp tục hay rời bỏ của
khách hàng để ngân hàng có thể đưa ra các chính sách thích hợp. Vì vậy,
cột Churn là mục tiêu của bài nghiên cứu (target).
2.1.2.
Thuộc

Mô tả các thuộc tính
Ý nghĩa

Mơ tả

Id khách hàng: Miêu tả mã số khách hàng

Text

tính
Customer
id
Credit

Điểm tín dụng: Miêu tả điểm tín dụng của Number

score

khách hàng


Country

Quốc gia: Miêu tả quốc tịch của khách hàng

Text

Gender

Giới tính: Miêu tả giới tính của khách hàng

Female/
Male

Age

Tuổi : Miêu tả tuổi của khách hàng

Number

Tenure

Thời hạn: Miêu tả thời gian khách hàng sử dụng Number
thẻ

Balance

Số dư: Miêu tả số dư của khách hàng

Products


Số lượng: Miêu tả số lượng thẻ ngân hàng mà Number

number

khách hàng đang sở hữu

Credit

Thẻ tín dụng: Miêu tả khách hàng có sử dụng 1 or 0
4

Number


card

thẻ ghi nợ hay khơng

Active

Thành viên tích cực: Miêu tả khách hàng có 1 or 0

member

phải sử dụng các dịch vụ của ngân hàng
thường xun hay khơng

Estimated

Mức lương ước tính: Miêu tả mức lương của chủ Number


salary

sở hữu tài khoản ngân hàng

Churn

Rời bỏ: Miêu tả khách hàng liệu có tiếp tục sử 1 or 0
dụng dịch vụ hay rời bỏ không ?

2.2. Tiền xử lý dữ liệu
- Đầu tiên, ta tiến hành sử dụng bộ dữ liệu thô mà ta đang có với Churn
là biến phụ thuộc và ta bỏ qua biến CustomerID vì là thuộc tính định
danh, khơng ảnh hưởng đến việc phân tích, vì vậy loại bỏ đi thuộc tính

CustomerID sẽ làm đơn giản hố dữ liệu và dễ xử lý hơn.
5


Hình 1. Các biến, đối tượng khảo sát
Hình 2. Số liệu sau khi tiền xử lý
Vì khơng có dữ liệu bị Missing nên không cần thực hiện bước tiền xử lý dữ
liệu bằng cơng cụ Impute.
2.3.Bài tốn 1: Bài tốn phát hiện các điểm đặc thù và xây dựng
dashboard.
2.3.1.

Khái niệm dashboard

Dashboard (Bảng điều khiển) là một loại giao diện đồ họa thường cung

cấp cái nhìn tổng quan về các chỉ số hiệu suất chính (KPIs) liên quan đến
một mục tiêu hoặc quy trình kinh doanh cụ thể. Bằng cách cung cấp cái
nhìn tổng quan này, chủ doanh nghiệp có thể tiết kiệm thời gian và cải
thiện quyết định của mình bằng cách sử dụng các dashboard.

Hình 3. Dashboard
2.3.2.

Quy trình xây dựng Dashboard

Bước 1: Xác định mục tiêu và đối tượng
6


Mục tiêu của việc xây dựng Dashboard là để theo dõi, nghiên cứu, tính
tốn khả năng rời đi hay tiếp tục của những khách hàng tại một ngân
hàng. Để thực hiện quản lí và dự đốn khả năng đó cần có cái nhìn tổng
quan cũng như chi tiết về các đối tượng cần nghiên cứu là các khách
hàng với những đặc trưng đi kèm hành vi tương tự.
Bước 2: Chọn dữ liệu và nguồn dữ liệu
Việc theo dõi khả năng rời đi của khách hàng tại một ngân hàng cần
quan tâm đến những yếu tố như quốc tịch, giới tính, số dư tài khoản, mức
lương ước tính, thành viên hoạt động thường xuyên,…Dashboard được
xây dựng dựa trên nguồn dữ liệu từ Bank Customer Churn Dataset
(kaggle.com).
Bước 3: Chọn biểu đồ và bố trí
Lựa chọn loại biểu đồ phù hợp với dữ liệu. Các thông tin cần được sắp
xếp một cách khoa học và hợp lý.
Việc nghiên cứu khả năng rời đi của khách hàng dựa theo tỉ lệ giới tính,
quốc gia và mức thu nhập lẫn số dư tài khoản nên có thể chọn biểu đồ

trịn để biểu hiện tỉ lệ phần trăm và biểu đồ dạng cột hoặc thanh để biểu
diễn mức định lượng.
Bước 4: Xây dựng và tùy chỉnh
Tùy chỉnh giao diện gồm font chữ, màu sắc, các chú thích và tiêu đề phù
hợp.
Bước 5: Kiểm tra và cải thiện
Kiểm tra dữ liệu đã sử dụng để đảm bảo tính chính xác. Đồng thời kiểm
tra cách hiển thị trên các thiết bị khác nhau.
2.3.3.

Các biểu đồ cụ thể trong dashboard

7


Tỉ lệ số dư

Female
45%

Male
55%

Hình 4. Biểu đồ tỉ lệ số dư của khách hàng theo giới tính
Giới tính

Tởng số dư tài Tỉ lệ phần trăm
khoản

Female


343,720,514.0

45%

Male

421,138,378.9

55%

Tổng Cuối

764,858,892.9

100%

Nhận xét: Qua khảo sát có thể thấy số dư trong tài khoản của khách
hàng nam lớn hơn số dư trong tài khoản của khách hàng nữ 77,417,864.9

Tỉ số rời đi

Male
44%

Female
56%

(421,138,378.9 - 343,720,514.0)
8



Hình 5. Biểu đồ tỉ lệ rời đi của khách hàng theo giới tính
Giới tính

Tởng số khách hàng Tỉ

lệ

rời đi

trăm

Female

1139

56%

Male

898

44%

Tởng

2037

100%


phần

Nhận xét: Khách hàng nữ rời đi chiếm đa số trên tổng khách hàng chiếm
tỉ lệ 56% với 1139 trên tổng số 2037 khách hàng lựa chọn rời đi và 898
khách hàng nam rời đi chiếm 44%.

Mức lương ước tính

1

Spain

Germany

France

0

Spain

Germany

France

0

50,000,000 100,000,000 150,000,000 200,000,000 250,000,000 300,000,000

9



Hình 6. Mức lương ước tính của 2 nhóm khách hàng tiếp tục hoặc
rời đi

Khách hàng tiếp tục

France

Female

Male

Tổng Cuối

339,773,90

454,442,90

794,216,813.

7.3

6.3

7

177,446,804. 239,661,873. 417,108,677.2
0


2

Germany

77,470,346.5 96,122,498.6 173,592,845.1

Spain

84,856,756.9 118,658,534. 203,515,291.4
5

Khách hàng rời đi

117,258,89

89,426,690. 206,685,585.

5.2

0

1

France

47,667,971.5 36,117,843.9 83,785,815.4

Germany

44,748,237.5 35,352,526.1 80,100,763.6


Spain

24,842,686.1 17,956,320.0 42,799,006.1

Tổng Cuối

457,032,80

543,869,59

1,000,902,39

2.5

6.3

8.8

Nhận xét: Khách hàng nữ rời đi nhiều hơn khách hàng nam và ngược lại
khách hàng nam lựa chọn tiếp tục nhiêu hơn khách hàng nữ ở cả 3 quốc
gia. Tổng số khách hàng lựa chọn tiếp tục cao gấp gần 4 lần khách hàng
lựa chọn rời đi.

Hình 7. Số thẻ tín dụng theo quốc gia
10


Credit Card
4000

3500
3000
2500
2000
1500
1000
500
0

France

Germany

Spain

Female

Male

Tổng Cuối

France

1578

1965

3543

Germany


843

948

1791

Spain

771

950

1721

Tổng Cuối

3192

3863

7055

Nhận xét: Số lượng khách hàng nam sử dụng thẻ tín dụng cao hơn hẳn
số lượng khách hàng nữ sử dụng thẻ tín dụng ở cả 3 nước Pháp, Đức và
Tây Ban Nha. Ngoài ra số lượng khách hàng sử dụng thẻ tín dụng giảm

Thành viên hoạt động
3,000
2,500

2,000
1,500
1,000
500
0

France

Germany

dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha.
11

Spain


Hình 8.Số thành viên hoạt động thường xuyên theo quốc gia
Female

Male

Tổng Cuối

France

1162

1429

2591


Germany

559

689

1248

Spain

563

749

1312

Tổng Cuối

2284

2867

5151

Nhận xét: Số lượng thành viên hoạt động thường xuyên nam cao hơn
hẳn số lượng khách hàng nữ hoạt động thường xuyên ở cả 3 nước Pháp,
Đức và Tây Ban Nha. Ngoài ra số lượng thành viên hoạt động thường

Tổng thẻ ngân hàng

Spain

Germany

France
0

500

1000

1500

2000

2500

3000

3500

4000

4500

xuyên giảm dần từ Pháp đến Đức và thấp nhất là Tây Ban Nha.

Hình 9. Số thẻ ngân hàng mà khách hàng đang sử dụng
Femal
e


Male

Tổng
Cuối

France

3,499

4,177 7,676

Germany

1,803

2,010 3,813

12


Spain

1,713

2,100 3,813

Tổng Cuối

7,015


8,28

15,302

7

Nhận xét: Số thẻ ngân hàng được sử dụng ở Pháp cao đột biến, chiếm
gần 50% tổng số lượng khảo sát, trong khi đó, số thẻ ngân hàng ở Đức và
Tây Ban Nha gần như bằng nhau.

Số dư theo quốc gia
25,000,000
20,000,000
15,000,000
10,000,000
5,000,000
0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
France
Germany
Spain

Hình 10. Số dư tài khoản của khách hàng theo thời gian sử dụng và quốc
gia
Nhận xét: Đa số khách hàng nam có số dư tài khoản cao hơn khách
hàng nữ, chỉ có cột đầu tiên của Pháp, 2 cột đầu và cuối của Đức cho số
liệu tài khoản khách hàng nữ có số dư cao hơn. Nhóm khách hàng nữ có
thời gian sử dụng thẻ ngân hàng ít hơn 1 năm thường có số dư tài khoản

cao hơn khách hàng nam có thời gian sử dụng thẻ ngân hàng tương tự.
Bên cạnh đó khảo sát cho thấy số dư tài khoản của khách hàng Pháp và
Đức khá cân bằng nhưng cao hơn hẳn khách hàng Tây Ban Nha.
2.3.4.

Kết quả và đánh giá

Kết quả xây dựng dashboard cho thấy, tỉ lệ khách hàng nữ rời bỏ ngân
hàng cao hơn khách hàng nam, mức độ hoạt động cũng như sử dụng các
dịch vụ của ngân hàng cao với nam giới, đồng thời mức lương ước tính
13



×