Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.36 MB, 59 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
THU NGHIEM PHAN LOAI KHACH HANG BANG
<small>Sinh viên thực hiện : Nguyễn Quang Huy</small>
<small>Mã sinh viên : 11192392</small>
Giảng viên hướng dẫn : Th§. Trần Chung Thủy
HÀ NOI - 2022
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">THU NGHIỆM PHAN LOẠI KHÁCH HANG BANG
<small>Sinh viên thực hiện : Nguyễn Quang Huy</small>
<small>Mã sinh viên : 11192392</small>
Giảng viên hướng dẫn : ThS. Trần Chung Thủy
HÀ NOI - 2022
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
Dé hồn thành khóa luận tốt nghiệp nay, đầu tiên, em xin chân thành cảm on
tài nghiên cứu, đề xuất phương pháp thực hiện và giúp em chỉnh sửa những sai
<small>sót trong q trình hoàn thiện bài làm.</small>
Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Đại học Kinh tế Quốc dân, đặc biệt là các thầy cơ khoa Tốn kinh tế đã giúp đỡ
<small>Em xin chân thành cảm ơn!</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
<small>MỤC LỤC</small>
<small>MUC LUC iiiiiaiắaắăắăaảäảá... il</small>
DANH MỤC TU VIET TAT...cessesssssssssssecessseecessnsecssnneeessnesessnecessneeesnneesesnness iv
DANH MỤC HINH ẢNH...-- (6 SE ‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrkerkrrrree vi
<small>2. _ Mục tiêu nghiÊn CỨU...- -- s1 E0 E191 ng rưy 2</small>
<small>1.1. RU1 10 tin MUNG... “43 5... 3</small>
<small>1.1.2. Rủi ro tin Ụng... - --- - - -c- s 1v ng ng rưy 3</small>
<small>1.1.4. Hậu quả của rủi ro tin Ụng...- --- - + s+++ xxx +Eekseeeseeserskese 6</small>
1.3. Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient Boosting)
<small>¬... 81.3.1. Mơ hình dạng cây (Tree Based Mod)... .- ---««+s«+++++sex++ 9</small>
<small>1.3.2. Thuật tốn Gradient Boosting ...- -- ¿+ +sss‡+sssevxeeerseessesss 11</small>
<small>1.4. Đánh gia độ chính xác của sự phan loại...---- --«++-««++s++sex+ss++ 14</small>
<small>1.4.1. Độ chính xác (ACCUTACY) ...-- Ác kg n riệt 141.4.2. Đường cong Receiver Operating Characteristic (R@C)... 15</small>
<small>0.\00)9160))00/969))89)0)) 6101... ... 17</small>
2.1. Các phương pháp phân loại khách hàng thường được sử dụng từ trước đến
<small>¡0 ...Ơ 17</small>
2.2. Xây dựng mơ hình phân loại khách hàng theo phương pháp thống ké ... 18 2.3. Mơ hình hồi quy Logistic ứng dụng trong phân loại khách hàng... 19 CHƯƠNG III: UNG DUNG MƠ HÌNH GRADIENT BOOSTING TRONG
<small>PHAN LOẠI KHACH HÀNG...-- Ác SH nHh HH HH Hư 20</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp
3.1.2. Các biến đầu vào là biến định lượng...---2- 2-2 2+secx+zszceez 22
<small>3.2. Trực quan hoá dữ liệu va làm sạch dữ liệu ...- --- «5s «++s«+2 23</small>
3.2.2. Các biến đầu vào là biến định lượng...---- - 2-2 2+secx+zszceez 27
<small>3.3. Xây dựng mơ hình Logistic... eee eseeeeseesececeeeeeeseeeeeeeeeeceeeeeeeeeeeeeaes 32</small>
<small>3.3.1. Tính tốn Information Value va Weight of Evidence... 32</small>
<small>3.3.2. Xây dựng mơ hình OBISẨTC... - - 5 + +*v+eeeeeerseeeseees 33</small>
3.4. Xây dựng mơ hình phân lớp khách hàng bằng Gradient Boosting... 35 3.4.1. Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting... 35
<small>3.4.2. Tinh chỉnh mơ hình ... -- ..-- <5 + 2+ 1E E*#EEEeEEseeseerreererereeere 38</small>
3.5. KẾT WAN ... tt tt 111 1515111115111 11111111 1111111111111 11111111. Al
<small>PHU LUC: CODE R 01117... ... 45</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>KH Khach hang</small>
<small>TCTD Tơ chức tín dụng</small>
<small>GBM Gradient Boosting Machine</small>
<small>CBNV Can bộ nhân viên</small>
Khoa Toỏn Kinh tế - ĐH KTOD Chuyờn đờ tốt nghiệp
Bảng 1: Cỏc biến trong bộ dữ liệu lending_club_ data ... 22
<small>Bảng 2: Thụng kờ mụ tả cỏc biờn định lượng trong bộ dữ liệuTending club_data 0.0.0.0... aˆoồồễồễđồđờâ"đ^... 23</small>
<small>Bang 3: Bang so sỏnh hiệu qua giữa cỏc mụ hỡnh 42</small>
Khoa Toán Kinh tế - ĐH KTOD Chun đê tốt nghiệp
Hình 1: Cấu trúc cơ bản của Cây quyết định...--- 2-2 2+ ecxecxexecxez 9 Hình 2: Đồ thị đường cong Gini và Entropy với bài tốn phân lớp nhị phân
<small>¬—... 10</small>
Hình 3: Minh hoa các bước tuần tự trong thuật toán Boosting ... 12 Hình 4: Minh hoạ về Gradient Descent ...-- 2 2-©525sccxczxczxeerxee 13
Hình 7: Biểu đồ cột thống kê kinh nghiệm làm việc (emp_length)... 25 Hình 8: Biểu đồ cột thống kê home_ownership...- 2-2 2s cxsxcx+z 26
<small>Hình10: Biểu đồ nhiệt tương quan giữa CC ... 27</small>
Hình11: Biểu đồ thống kê biến annual_inc...---s- 2 + z+xezxerxerxexee 28
<small>Hình12: Biểu đồ thống kê biến annual_inc sau khi đã loại bỏ outliers ... 29</small>
Hình13: Biểu đồ cột quan hệ giữa biến loan_status và in(_rate... 29
Hình17: Biểu đồ histogram credit_his theo từng trạng thái khoản vay ...32
<small>Hình 19: Đường cong ROC của mơ hình Logistic ...-. --- --- --- 35</small>
<small>Hình 20: Đường cong ROC của mơ hình GBM... --- 525 <S<<+<++ 38Hình 21: Bang relative influence trong GBM tỉnh chỉnh... 39Hình 22: Đường cong ROC của mơ hình GBM tỉnh chỉnh ... 41</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp GIỚI THIỆU CHUNG
Đi cùng với sự phát triển của nền kinh tế, nhu cầu tin dụng của các cá nhân/
doanh hay một dự án, ... là nhu cầu về vốn. Tín dụng là địn bây thiết yếu cho sự
<small>thành cơng của một mơ hình kinh doanh và cũng là một trong những phương pháp</small>
tốt nhất dé tối ưu hố lợi ích của tiền. Tuy nhiên, việc ra quyết định có nên cho một người vay tiền hay khơng là một q trình mang day tính rủi ro mà một người
(hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận và uy tín của tơ chức tin dụng đó, thậm chí ảnh hưởng tới nền kinh tế của cả một quốc gia. Nhưng dé đánh giá được khách hàng có trả được nợ hay không lại phụ thuộc rất nhiều yếu tố. Trong quá khứ, cách duy nhất dé tránh rủi ro vỡ nợ bên khách hang là đánh giá chủ quan của chuyên gia về khả năng trả nợ của khách hàng đó. Tuy nhiên, với nhu cầu về tín dụng ngày một gia
tập khách hàng rất lớn. Các mơ hình học máy là một trong các công cụ ấy và đang dần trở thành xu hướng trong tâm, nồi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi
<small>trong ngành tài chính nói chung và lĩnh vực cơng nghệ tài chính nói riêng, tạo ra những</small>
bứt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong cơng tác giám sát, dự báo.
Sức mạnh của một mơ hình phân loại tín dụng có tác động rất lớn đến kết quả hoạt động kinh doanh của một ngân hàng. Một mơ hình có mức độ chuẩn xác cao giúp
<small>các tơ chức tài chính giảm thiêu tỷ lệ nợ xâu, tránh được các khoản nợ thiêu hiệu</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp quả va đưa ra các chính sách sản phẩm tốt hon qua thời gian. Một trong những mơ hình được sử dụng phổ biến nhất là Gradient Boosting - một ứng dụng của học máy trong phân lớp tín dụng, đang được sử dụng phơ biến trên tồn thế giới
dữ liệu. Em đã quyết định lựa chọn đề tài “Thử nghiệm phân loại khách hang
trong phân loại khách hàng tại các tổ chức tín dụng.
<small>2. Mục tiêu nghiên cứu</small>
tại các tơ chức tín dụng.
- Phương pháp phân lớp khách hàng thực tế dang được sử dụng rộng rãi trên thé
<small>- Tinh ứng dụng của thuật toán Gradient Boosting trong phan lớp khách hang</small>
3. Đối tượng và phương pháp nghiên cứu
- Cac yêu t6 có anh hưởng đến tình trạng thanh tốn của khoản nợ.
- _ Các mơ hình học máy xếp hang (Classification): Hồi quy Logistic, Gradient
4. Tong quan về bộ dữ liệu
<small>- Bộ dữ liệu khoản vay của trên 50,000 khách hàng tại Lending Club được ghi</small>
nhận trong năm 2018.Trong đó đã bao gồm tình trạng thanh tốn chỉ tiết của từng khoản
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>1.1. Rủi ro tín dụng</small>
<small>1.1.1. Tín dụng</small>
chức tai chính đủ thâm quyền hoạt động tại một khu vực/ quốc gia. Sản phẩm vay có thé là hàng hóa hoặc tiền.
Mỗi khoản vay sẽ có những quy định và ràng buộc cụ thể để tạo sự tín
<small>nhiệm giữa người vay và người cho vay. Một khoản vay tín dụng sẽ ln đi kèm</small>
<small>di tài sản cua mình cho người vay trong một khoảng thời gian trong tương lai.</small>
Tín dụng có thể được phân loại theo nhiều cách:
- Theo khoảng thời gian: ngắn hạn, trung hạn, dai han.
- Theo đối tượng tín dụng bao gồm: Đối tượng sử dụng vốn lưu động và đối tượng sử dụng vốn cô định.
<small>- Theo mục đích sử dụng: Tín dụng hàng hóa, tín dụng tiêu dùng, vay</small>
kinh doanh, vay xây dựng cơ sở vật chat, vay đầu tu, ... - Theo kiểu vay: vay tín chấp, vay thế chấp.
<small>Tín dụng mang lại lợi ích lớn cho cả người vay và người cho vay; giúp thúc</small>
những dự án từ nhỏ đến lớn, từ đó ảnh hưởng và tác động đến nén kinh tế của cả
nhu cầu về vốn của cá nhân, tô chức... từ đó giải quyết khá nhiều khâu quan trọng
<small>như đâu tư, mua sam hoặc phát triên kinh tê từ trong dén ngoai nước.</small>
<small>1.1.2. Rui ro tín dung</small>
Rui ro tín dụng được định nghĩa như sau: “Rui ro tin dung là khoản lỗ tiềm năng khi ngân hàng cấp tín dụng cho một khách hàng (KH), nghĩa là luồng thu nhập dự tính mang lại từ khoản vay của ngân hàng khơng thể được thực hiện cả về số lượng và thời hạn” (Anthony Sauders, 2007).
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Theo khoản 1 điều 3 Thông tư số 02/2013/TT-NHNN: “Rủi ro tín dụng là
Rủi ro tín dụng ln tiềm tàng trong q trình cung cấp các sản phẩm tín dụng của ngân hàng cũng như các tổ chức tín dụng (TCTD) nói chung. Rủi ro tín
KH, mà còn phụ thuộc vào các bên đối tác khác và môi trường hoạt động của các ngành nghề, trách nghiệm và kinh nghiệm của người vay cũng như phương pháp
trọng lớn nhất trong các rủi ro ma TCTD phải đối mặt. 1.1.3. Nguyên nhân dẫn đến rủi ro tín dụng
Chính sách quản trị chưa chặt chẽ dé khiến cho TCTD gặp phải rủi ro tín dụng, các gói chính sách sản pham tin dụng không được viết day đủ, rõ ràng hoặc không được kiểm thử can thận khiến KH có thé lợi dụng những kẽ hở dé trục lợi bat chính.
Các TCTD vì chạy theo lợi nhuận mà mở rộng tín dụng qua mức có thể dẫn
minh.Cạnh tranh không lành mạnh nhằm thu hút KH giữa các TCTD ngày càng phức tạp khiến cho việc thầm định KH trở nên sơ sài, qua loa hơn hoặc hạ thấp tiêu chuẩn tín dụng, giảm thời gian thâm định... những hoạt động này đều có thể
<small>làm tăng thêm rủi ro trong hoạt động tín dụng.</small>
Rui ro có thé xuất hiện do tính tốn khơng chính xác hiệu quả đầu tư dự án,
bộ tín dụng cố ý tài trợ những dự án xin vay không hiệu quả, làm giả hồ sơ, vay
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp ké KH... sẽ gây ra rủi ro lớn cho TCTD. Nhiều TCTD quá chú trọng đến lợi nhuận
thơng tin, q trình xử lý thơng tin, cơ cau tơ chức năng lực công nghệ yếu.... đều
<small>gia tăng khả năng xảy ra rủ ro tín dụng.</small>
1.1.3.2. Về phía khách hàng
Trình độ yếu kém của người vay trong dự đoán các van đề kinh doanh, yêu
<small>kém trong quan ly, chủ định lừa dao cán bộ của TCTD,... là các nguyên nhân</small>
thường gặp nhất gây rủi ro tín dụng.
hoặc khơng có kha năng tính tốn kỹ lưỡng, khơng có khả năng thích ứng và khắc phục khó khăn trong kinh doanh sẽ dẫn tới vốn vay không được sử dụng hiệu quả, hiệu quả kinh doanh từ đó sa sút. Khách hàng khơng có khả năng hồn trả nợ gốc và lãi đầy đủ, đúng hạn cho TCTD.
Một số ít trường hợp, KH kinh doanh là kẻ xấu muốn lợi dụng khoản vay;
muốn trả nợ TCTD với hy vọng có thê quyt nợ hoặc sử dụng vốn vay càng lâu
kinh tế/ tài chính; thiên tai tự nhiên hay những bất ồn chính trị xã hội trong khu vực sinh sống và làm việc của KH. Những tác nhân này có ảnh hưởng tiêu cực tới các khoản tín dụng do làm thay đơi đột ngột các điều kiện tài chính cá nhân của KH, làm mất việc hoặc gây thiệt hại trực tiếp lên cơ sở vật chất, khiến cho KH dễ rơi vào tình trạng quá hạn nợ, nợ xấu do không đủ khả năng chi trả cho các khoản
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>1.1.4. Hậu quả của rủi ro tín dụng</small>
Trong trường hợp rủi ro tín dụng xảy ra, hậu quả của việc rút tiền là rất nghiêm trọng. Nó khơng chỉ ảnh hưởng đến những người đi vay cá nhân mà còn
<small>1.1.4.1. Tác động của rủi ro tín dụng đến hoạt động của Ngân hàng</small>
<small>cho vay, điều này có thé làm ngân hang mat đi cân đối thu chi. Ngồi ra, cịn dẫn</small>
đến lãi ngân hàng và thất thoát vốn. Khi mọi thứ trở nên nghiêm trọng, các ngân hàng thất bại và phá sản. Ngân hàng vỡ nợ do khơng có khả năng thu hồi nợ dẫn
<small>mơ hoạt động.</small>
<small>Nó cũng được cho là do ty lệ nợ xâu cao của ngân hàng, làm tơn hai đên uy</small>
<small>tín của ngân hàng và làm xói mịn lịng tin của khách hàng. Từ đó, khách hàng</small>
<small>hậu quả nghiêm trọng như sau:</small>
- Các ngân hàng thiếu vốn buộc phải vay ngân hàng khác hoặc ngân hàng quốc
- Mắt cân đối tiền tệ và bất ơn kinh tế.
Ngồi ra, trường hợp ngân hàng phá sản cũng có thể xảy ra. Điều này sẽ ảnh hưởng trực tiếp đến các hoạt động kinh doanh của các doanh nghiép, khién cho
nghiêm trọng đến toàn bộ nền kinh tế. Nó gây ra tình trạng suy thối của nền kinh
hoảng tài chính Nam Mỹ (2001-2002) đã làm rung chuyên thế giới. Mặt khác, quan hệ ngoại hối và đầu tư giữa các nước phát triên rất nhanh nên rủi ro tín dụng
<small>của một qc gia ảnh hưởng trực tiêp đên nên kinh tê của họ.</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>Hiện nay, có rất nhiều biện pháp nhăm hạn chế rủi ro tin dụng nói chung vàcác biện pháp hạn chế rủi ro trong cho vay của ngân hang và TCTD nói riêng.</small>
Hồn thiện được chính sách quản lý rủi ro tại các ngân hàng/ tơ chức tín dụng. Chính sách quản lý rủi ro phải bao quát toàn bộ những vấn đề xoay quanh một loại rui ro nhất định:
hàng/ TCTD có thê gặp phải hay dang gặp phải.
<small>+ Bước 2: Xác định hạn mức rủi ro: Xác định được rõ hạn mức rủi</small>
<small>bộ phận nghiệp vụ.</small>
rủi ro, giúp người điều hành biết được thứ tự ưu tiên theo dõi và kiếm
<small>SOát rui ro.</small>
<small>+ Bước 4: Kiểm sốt rủi ro.</small>
Hồn thiện hệ thơng xếp hạng tín dụng nội bộ: là một trong những chính
<small>hạng nội bộ phải rõ ràng, phù hop với ngân hang/ TCTD đó va ln</small>
Hệ thống xếp hang tín dụng nội bộ tối thiểu phải bao gồm: (i) Cơ sở pháp lý về liên quan đến nghành nghé kinh doanh/ công việc của khách hang; (ii) Các chỉ tiêu tổng hợp tình hình kinh doanh, tài chính, tài sản, khả năng thực hiện nghĩa vụ theo cam kết của khách hang; (iii) Uy tín
<small>với các TCTD khác; (iv) Các tiêu chi đánh giá thông tin cá nhân cua</small>
khách hàng, thường là bộ câu hỏi không mang trọng số. Ý tưởng về một
<small>khi ngân hàng và các tô chức tín dụng lớn nhân ra răng, thị trường có sự</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>gia tăng chóng mặt của các khoản vay vừa và nhỏ (vay chi tiêu hoặc</small>
kinh doanh quy mô nhỏ). Nếu tiếp tục sử dụng các phương pháp xếp hạng tín dụng cũ trên các khoản vay này sẽ gây ra tình trạng thất thốt
thơng tin tín dụng mất nhiều thời gian. Y tuong về một bộ cơng cụ dựa
<small>cậy hơn; giúp các ngân hàng giải ngân khoản vay nhanh hơn, phục vụ</small>
nhu cau lớn của khách hàng, vừa dam bảo được khả năng kiểm sốt rủi
phương pháp xếp hạng tín dụng sẵn có.
xảy ra những trường hợp thất thoát tài nguyên quốc gia, gây mất tín nhiệm tin
1.3. Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient
Trong hoc máy, bài toán phân loại (classification) thường được xử ly bang hồi quy Logistic hoặc mô hình Cây quyết định (Decision Tree). Thuật tốn Boosting có thê hiéu là thay vì xây dựng một mơ hình (có thé là decision tree) có
độ chính xác kém hơn khi đi riêng lẻ nhưng lại cao hơn khi kết hợp với nhau.
Khoa Toán Kinh tế - ĐH KTOD Chun dé tốt nghiệp
<small>1.3.1. Mơ hình dạng cây (Tree Based Model)</small>
Mơ hình dang cây là một cây phân cấp có cấu trúc được dùng dé phân lớp
thuộc nhiều kiểu khác nhau như nhị phân, định danh, thứ bac, định lượng và thuộc tính phân lớp phải là kiểu nhị phân hoặc thứ bậc. Xét tập đữ liệu bao gồm các
<small>Branch/ Sub-TreeSplitting * y fo An.</small>
(Nguồn: Nagesh Singh Chauhan, Kdnuggets)
<small>- Qua trình phân chia (Splitting): Quá trình phân chia một node thành hai</small>
hay nhiều node con.
<small>ra thành các node nhỏ hơn nữa.</small>
<small>chia nữa, thường được gọi là “lá” (“Teaf”’).</small>
- Nhánh (Branch/ Sub-tree): là một bộ phận nhỏ của cây quyết định, bao
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>- Node me và node con (Parent Node va Child Node): Node me là node</small>
được chia thành hai hay nhiều node nhỏ; node con là các node được chia
<small>ra bởi một node mẹ.</small>
<small>- Tia cây (Tree Prunning): Quá trình loại bỏ các node con khỏi một hay</small>
nhiều nhánh của cây quyết định.
một node trên tồn bộ dữ liệu dang có là lựa chon tốt nhất trên các node con có thé phân chia tại cùng cấp đó. Các mơ hình cây phổ biến nhất có thể ké đến là ID3, C4.5, CART, CHAID, MARS, ... Đề tìm được cách phân chia tốt nhất cho
<small>1 node, các mơ hình cây thơng thường thường sử dụng 2 thuật toán:</small>
- Hệ số Gini (Gini Impurity/ Gini Index):
<small>- Entropy:</small>
<small>i = (1,2,...,K) là phân lớp thứ i trong K phân lớp.</small>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Dựa trên đồ thị Gini và Entropy, ta thấy cả hai phương pháp này đều khá giống nhau. Trong mơ hình cây, cả hai thuật tốn đều được sử dụng dé đánh giá
là tốt hơn nếu một phía của node con (node kết quả sau khi được phân chia) có
các điểm đữ liệu có xác suất nằm hồn tồn về phân lớp 0 hoặc 1.
Mơ hình cây rat phổ biến trong giải quyết các bài tốn phân lớp do ý tưởng của mơ hình rất giống với quá trình ra quyết định của con người, điều đó giúp mơ hình cây dé hiểu và dễ giải thích. Ngồi ra, mơ hình cây cịn phổ biến bởi kha năng tuỳ biến chủ động băng tree prunning, giúp mơ hình thích nghi được với nhiều bộ đữ liệu trong nghiên cứu và cả ứng dụng thực tế.
<small>1.3.2. Thuật toán Gradient Boosting</small>
<small>1.3.2.1. Boosting và Gradient Descent</small>
learner) sau đó kết hợp lại thành một mơ hình tối ưu có độ chính xác cao. Các weak learner trong bài tốn phân loại bằng mơ hình cây chính là các Cây quyết
<small>thơng tin đã có từ cây phía trước.</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>Original Data Weighted Data Weighted Data</small>
<small>e6 eeâe6đ eee eee</small>
Hỡnh 3: Minh ho các bước tuần tự trong thuật toán Boosting
(Nguồn: geeksforgeeks.org) Gradient Descent là q trình tối ưu hố một hàm mục tiêu bất kỳ dựa trên
0 nhất. Điểm này chính là cực trị địa phương của hàm mục tiêu.
dau là 1 điểm bat kỳ có ƒ”(x¿) > 0, để điểm tiếp theo x;„¡ gần với x* (điểm cực
<small>trị có ƒ“(x) = 0 thì:</small>
<small>Xt41 = X_ +A</small>
gần x* thì f’(x;) càng gan 0 nên đại lượng A nên là một đại lượng tỷ lệ thuận với
hop ly nhất định dé dat duoc mục tiêu là tim được điểm gần cực trị x* nhất. Với
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>khiên tôc độ Gradient Descent trở nên rat cham, và có thê tìm sai diém x* từ điêmv °</small>
<small>xuât phát cô định với các hàm mục tiêu có nhiêu diém cực tri.</small>
<small>Ww WwW</small>
<small>Large Learning Rate Small Learning Rate</small>
Hinh 4: Minh hoa vé Gradient Descent
<small>1.3.2.2. Gradient Boosting</small>
Gradient Boosting là tim ra hàm F(x) gần hàm F*(x), sao cho những điểm dữ
<small>liệu có thuộc tính x được phân lớp với độ chính xác cao trong y. Gradient</small>
Boosting xây dựng mơ hình là xp xi của:
Các bước phát trién một mơ hình Gradient Boosting: - Bước 1: Tao hàm mat mát khởi động Fy (x):
- Bước 2: Xây dựng mơ hình tối wu Ø„„ hạ; (x)
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp <small>Tại bước này, ta áp dụng thuật toán Gradient Descent, coi mỗi h,, là một</small>
_ [AL (yi, F(x)
<small>Bước 3: Tinh tốn lại giá tri của trọng sơ p,, dựa trên mơ hình vừa huan</small>
Bước 4: Cập nhật mơ hình chính và lặp lại các bước trên có tuần tự.
Một trong những phương pháp giảm thiéu tinh trạng overfit và tăng cường tinh
<small>nhảy của quá trình Gradient Descent Fm(x) = F„_¡(x) + VPmhm(x) hoặcgiảm độ phức tạp của các mơ hình con (như prunning tree với bai tốn sử dụng</small>
<small>mơ hình cây).</small>
<small>1.4. Đánh giá độ chính xác của sự phân loại</small>
<small>Đánh giá mơ hình giúp chúng ta suy đoán được được độ phù hợp của mơ</small>
<small>được thước do đánh giá mơ hình phù hợp thì ta cân phải hiệu về ý nghĩa, ban chatvà trường hợp áp dụng của từng phương pháp đánh giá.</small>
<small>1.4.1. Độ chính xác (Accuracy, Precision và Recall)</small>
<small>Gia sử chúng ta xét một mô hình dự báo sự kiện với 2 kha nang positive</small>
<small>(tích cực) và negative (tiêu cực). Các kêt quả của model xảy ra sẽ rơi vào 4 nhóm</small>
<small>cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp nhận một sựkiện là positive khi bản chất sự kiện và negative). Thông thường xác xuất mắc sai</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp lầm loại II sẽ gây ra hậu quả lớn hơn. Mục đích chính của các mơ hình chuẩn đốn,
<small>cảnh báo hay quản trị rủi ro là cảnh báo sớm, phòng ngừa, loại bỏ các sự kiện xâunên việc tìm chính xác được sự kiện negative được ưu tiên hon positive.</small>
<small>Dựa trên các chỉ sơ này, chúng ta tính được đại lượng đo độ chính xác của</small>
<small>1.4.2. Duong cong Receiver Operating Characteristic (ROC)</small>
<small>ROC là đường cong biểu diễn kha năng phân loại của một mơ hình phân</small>
<small>loại tại các threshold khác nhau. Đường cong này dựa trên hai chỉ số :</small>
<small>- TPR (true positive rate): Là tỷ lệ các trường hợp phân loại true positive trên</small>
tổng số các trường hợp thực tế là positive. Giá trị TRR càng cao, mơ hình dự báo càng tốt trên nhóm positive.
<small>TPR =O</small>
<small>Tổng số quan sat positive</small>
<small>- FPR (fail positive rate): La tỷ lệ các trường hợp phân loại false positive trên</small>
tổng số các trường hợp thực tế là negative. Giá tri TRR càng cao, mơ hình
<small>Tổng số quan sat negative</small>
<small>FPR =</small>
<small>ROC curve 1</small>
<small>0 0.2 0.4 0.6 0.8 1</small>
<small>False positive rate</small>
(nguon: BMC Bioinformatics)
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp AUC là chỉ số được tính toán dựa trên đường cong ROC (receiving
<small>operating curve) nhằm đánh giá khả năng phân loại của mơ hình tốt hay khơng.</small>
Phần diện tích năm dưới đường cong ROC và trên trục hồnh là AUC (area under
<small>curve) có giá trị năm trong khoảng [0,1]. Khi diện tích này càng lớn thì đườngcong ROC có xu hướng tiệm cận đường thăng y = 1 va khả năng phân loại của</small>
<small>mơ hình càng tơt.</small>
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>TẠI CAC TO CHỨC TÍN DUNG</small>
<small>2.1. Các phương pháp phân loại khách hàng thường được sử dụng từ trướcđên nay</small>
<small>Hiện tại, có 3 loại phương pháp phân loại khách hàng sử dụng tín dụng đượcsử dụng rộng rãi; được lựa chọn dựa theo tính sẵn có của nguồn dữ liệu, cũng nhưđặc thù của từng phân khúc khách hàng, hoặc chính sách sản phẩm cho vay.</small>
e Phương pháp chuyên gia: Phương pháp chuyên gia sẽ dựa trên ý kiến
<small>trung thực của người vay vôn.</small>
<small>người cho vay. Tài sản chính là những giá trị mà ngân hàng có thé thuhồi khi người vay khơng trả được nợ. Nguồn vốn có thê là các chi phímà người vay đang phải chi trả như chi tiêu gia đình, chi phí th nha,</small>
kiệm được bao nhiêu và chi phí đó có đủ dé trang trải lãi vay hay
<small>Tài sản đảm bảo (collateral): Sẽ có 2 loại hình thức cho vay được</small>
phân chia dựa trên tài sản đảm bảo đó là vay thế chấp (có tài sản đảm
cũng sẽ khác biệt dé dam bao dung hòa giữa lợi nhuận và rủi ro đối với
<small>mức tín dụng mà ngân hàng sẽ cấp cho người vay. Rủi ro đối với các</small>
<small>khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách</small>
<small>hàng khơng có khả năng thanh tốn, ngân hàng được quyền thu hồi tàisản đảm bảo.</small>
Khả năng trả nợ (capacity): Là các thông tin liên quan trực tiếp đến
<small>khả năng tài chính của người vay đó là: nghê nghiệp, mức thu nhập,trạng thái hôn nhân, sô người phụ thuộc, ...</small>
tham chiếu tới điều kiện thị trường, bối cảnh tài chính, áp lực cạnh
<small>cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh. Do đó sẽ</small>
khiến lợi nhuận và khản năng thanh tốn của người vay xuống thấp hơn dự kiến.
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>cho quá trình thâm định sẽ tôn kém về thời gian, không phù hợp với nhu câu vốnliên tục gia tăng của các khoản vay kinh doanh vừa và nhỏ. Đồng thời ý kiến đánhgiá cũng khơng nhất qn giữa các chun gia. Do đó một phương pháp khác</small>
<small>chính là phương pháp mơ hình.</small>
¢ Phương pháp thống kê: Phương pháp thống kê sử dung mơ hình sẽ dựa
<small>gia. Một mơt hình có thê giải quyết sơ lượng hô sơ băng khôi lượngcông việc của hàng trăm chuyên gia.</small>
<small>cho các chuyên gia thâm định.</small>
- Kết quả đánh giá hé sơ là rất nhất quán dựa trên điểm số tín nhiệm là
<small>duy nhât, trong khi đó các chuyên gia có thê đưa ra kêt quả đánh giákhác nhau dựa trên cảm quan cua họ vệ rủi ro.</small>
- _ Mơ hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thé gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo. Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của
trên một số biến chính.
e Phương pháp hỗn hop (Hybrid): Là sự sử dụng kết hợp giữa phương
<small>được áp dụng cho các doanh nghiệp có quy mơ tương đối lớn hay đa</small>
ngành nghề bởi các doanh nghiệp này cần sự kiểm soát sát sao từ các kết
<small>qua thẩm định của chuyên gia cũng như phân loại dựa trên dữ liệu sẵn có</small>
<small>theo phương pháp mơ hình.</small>
<small>2.2. Xây dựng mơ hình phân loại khách hàng theo phương pháp thống kê</small>
<small>Theo như đề tài nghiên cứu chính của bai viết, ta muốntap trung vào nhómkhách hàng cá nhân, có nhu cau tin dụng cho chi tiêu, mua sắm hoặc kinh doanhvừa và nhỏ, vậy nên ta sẽ tạm thời chỉ tập trung vào phương pháp thống kê, với</small>
hợp với tập khách hàng này. Các bước đề thực hiện một
nghĩa được “nợ xấu”, ta sẽ thực hiện phân tích chun sâu các tập dữ liệu sẵn có,
<small>chi trả nợ của khách hang.</small>
Bước 3: Thực hiện kiểm tra trên các nhân tố có ảnh hưởng lớn đến rủi ro
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp sảng lọc thông qua bước 2 thực sự hoạt động trên thực te”. Người thiết kế mơ hình
được thực sự là nhân tố có ảnh hưởng đến tình trạng khoản vay, hay đó là sai lầm
hình thực tế.
Mơ hình Logistic là một mơ hình hồi quy với biến phụ thuộc là biến nhị
<small>phân (chỉ nhận giá trị 0 hoặc 1) và biến độc lập có thê là biến định lượng hoặc</small>
<small>rộng rãi nhất là đánh giá khả năng vỡ nợ của khách hàng. Trong mơ hình này, biếnphụ thuộc sẽ là Kha năng vỡ nợ (Default) của khách hang; Default nhận giá trị 1</small>
<small>khơng thé chỉ trả khoản nợ đã vay. Biến độc lập trong mơ hình là các trường thông</small>
<small>tin thu thập từ khách hàng làm căn cứ dé đánh giá khả năng vỡ nợ. Với đối tượng</small>
<small>khách hàng cá nhân (ndividual customers), các biến độc lập này thường là thơng</small>
<small>tin về tuổi, giới tính, trình độ học van, giá trị khoản ng, thu nhập trung bình, lich</small>
<small>® p;: xác st vỡ nợ của khách hang i</small>
e ø:hệ số chặn
Từ đây có thể thấy:
<small>đó khơng trả được tin dụng cảng lớn.</small>
<small>đó vỡ nợ tín dụng càng nhỏ.</small>
Kết hợp với phương pháp sử dụng giá trị thông tin (Information Value) và
nợ của các khách hàng có thê được phân chia thành bảng điểm scorecard. Đây là ứng dụng lớn nhất của mơ hình Logistic trong quản lý rủi ro tín dụng bởi sự dễ hiểu, dé thử dụng và chứa đựng nhiều thơng tin của nó.
Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp
<small>PHAN LOAI KHACH HANG</small>
<small>Bộ dữ liệu “Jending club_data” là dữ liệu công khai do Lending Club cung</small>
cấp phục vụ mục đích nghiên cứu và phân tích của các nhà đầu tư, nghiên cứu sinh, sinh viên, ... Bộ dir liệu gốc cung cấp bởi Lending Club là tập hợp dữ liệu
Với bài nghiên cứu cua mình, em chi su dụng một phần bộ di liệu trên, là dữ liệu thu thập trong năm 2018 với bộ lọc khách hàng chỉ bao gồm khách hàng
<small>kiện trả nợ (Charged Off).</small>
Tập dữ liệu bao gồm 26 trường thông tin. Được thê hiện trong bảng sau:
<small>Ky han khoan vay, bao gom 2 mức kỳ han:</small>
<small>3 term Term - 36 thang- 60 thang</small>
<small>int_rate Interest Rate Lai suat hàng tháng của khoản vay</small>
<small>installment Installment Khoản tiền lãi phải trả hàng tháng</small>
<small>emp_title Employment Title | Công việc hiện tai của khách hang</small>
<small>Số năm kinh nghiệm làm việc, được đánh số từ 1</small>
<small>năm đến 9 năm</small>
<small>emp_length Employment Những khách hàng chưa du 1 năm kinh nghiệm</small>
<small>Length được ghi nhận là “< 1 years”</small>
<small>Những khách hàng có trên 10 năm kinh nghiệmlàm việc được ghi nhận là “10+ years”</small>
<small>- OWN: Có sở hữu nhà</small>
Nguyễn Quang Huy — Khố 61 20 GVHD: ThS. Tran Chung Thuy
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">Chuyên đê tốt nghiệp
<small>- RENT: Hiện đang thuê nha</small>
<small>- MORTGAGE: Hiện đang được sử</small>
<small>dụng để thế chấp cho một khoản vay</small>
<small>- ANY: Khơng có thơng tin</small>
<small>9 annual_inc Annual Income Thu nhập bình quan năm của khách hang</small>
<small>Tình trạng khoản vay:</small>
<small>- Charged Off: khách hàng khơng cịn10 | loan_status Loan Status kha nang thanh toan</small>
<small>- Fully Paid: khách hàng đã thanh tốn</small>
<small>tồn bộ khoản vay</small>
<small>within 2 years gân đây của khách hàng</small>
<small>- Số tài khoản tín dụng/ thẻ tín dụng của khách hang</small>
<small>14 | open acc Opening Account ¬</small>
<small>hiện van đang hoạt động</small>
<small>l5 pub_rec Public Record Số lần vỡ nợ được ghi nhận công khai của khách</small>
<small>_bankruptcies Bankrupcies hang tại các tổ chức tin dung</small>
<small>Hạn mức tín dụng quay vịng: khoản tiền cịn chưa</small>
<small>thanh tốn trong tài khoản tín dụng quay vịng của</small>
<small>Credit Revolving | khách hang (Tin dung quay vòng được định nghĩa</small>
<small>16 | revol_bal</small>
<small>Balance là khoản hạn mức tín dụng được phê duyệt trước</small>
<small>cho khách hang và khách hang có tồn qun sửdung với điều kiện thanh tốn day đủ)</small>
<small>17 | revol_util Utilization/ Credit | Ty lệ han mức tín dụng quay vịng chưa thanh tốn</small>
<small>Utilization Ratio</small>
<small>Tong số tài khoản tin dụng đã từng được mở của</small>
<small>18 total_acc Total Account</small>
<small>khach hang</small>
<small>Total Payment „ ca </small>
<small>-19 | total_pymnt_inv Tông sô tiên phải trả trên khoản vayInvolve</small>
<small>Total Recorded „ TY,</small>
<small>20_ | total_rec_int Tông số tiên lãi đã trả của của khách hàng</small>
Nguyễn Quang Huy — Khoá 61 21 GVHD: ThS. Tran Chung Thuy
</div>