Tải bản đầy đủ (.pdf) (59 trang)

Khóa luận tốt nghiệp: Thử nghiệm phân loại khách hàng bằng phương pháp học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.36 MB, 59 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

TRUONG ĐẠI HỌC KINH TE QUOC DAN KHOA TOAN KINH TE

CHUYEN NGANH: TOAN KINH TE

DE TAI:

THU NGHIEM PHAN LOAI KHACH HANG BANG

PHUONG PHAP HOC MAY

<small>Sinh viên thực hiện : Nguyễn Quang Huy</small>

<small>Mã sinh viên : 11192392</small>

Lớp : Tốn Kinh Tế 61

Giảng viên hướng dẫn : Th§. Trần Chung Thủy

HÀ NOI - 2022

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN KHOA TOÁN KINH TE

KHOA LUẬN TOT NGHIỆP

CHUYEN NGÀNH: TOÁN KINH TE

ĐÈ TÀI:

THU NGHIỆM PHAN LOẠI KHÁCH HANG BANG

PHUONG PHAP HOC MAY

<small>Sinh viên thực hiện : Nguyễn Quang Huy</small>

<small>Mã sinh viên : 11192392</small>

Lớp : Toán Kinh Tế 61

Giảng viên hướng dẫn : ThS. Trần Chung Thủy

HÀ NOI - 2022

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

LOI CAM ON

Dé hồn thành khóa luận tốt nghiệp nay, đầu tiên, em xin chân thành cảm on

ThS. Trần Chung Thuỷ đã là người định hướng, giúp đỡ em từ việc lựa chọn đề

tài nghiên cứu, đề xuất phương pháp thực hiện và giúp em chỉnh sửa những sai

<small>sót trong q trình hoàn thiện bài làm.</small>

Em cũng xin gửi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của trường Đại học Kinh tế Quốc dân, đặc biệt là các thầy cơ khoa Tốn kinh tế đã giúp đỡ

em trong suốt quá trình học tập để em có đầy đủ nền tảng kiến thức hồn thành bài chuyên đề của mình.

Trong quá trình thực hiện chuyên đề tốt nghiệp, em nhận thấy mình vẫn cịn rất nhiều thiếu sót, rất mong nhận được những ý kiến đóng góp từ phía các thày, cơ dé em có thêm nhiều kinh nghiệm cho con đường học tập và sự nghiệp mai

<small>Em xin chân thành cảm ơn!</small>

Nguyễn Quang Huy — Khoá 61 i GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

<small>MỤC LỤC</small>

<small>MUC LUC iiiiiaiắaắăắăaảäảá... il</small>

DANH MỤC TU VIET TAT...cessesssssssssssecessseecessnsecssnneeessnesessnecessneeesnneesesnness iv

II .9)58Ẻ0098:79160202000055... V

DANH MỤC HINH ẢNH...-- (6 SE ‡EEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrkerkrrrree vi

GIỚI THIỆU CHƯNGG... - 2 St E‡EE£EEÊEE£EE+EEEEEEEEEEEEEEEEEEEEEEEESEEEErrkerkerkeree 1 1. _ Lý do chọn đề tài...--- 2-52 E2 2 XE EEEEEEE21E21121111 11c. |

<small>2. _ Mục tiêu nghiÊn CỨU...- -- s1 E0 E191 ng rưy 2</small>

3. Đối tượng và phương pháp nghiên cứu...--- 2 s s+s£+xezzzzezced 2 4. Tổng quan về bộ dit liệu...--- - ¿2 2+ £+EE+EE+EE£EE£EEEEEE2EE2EEEEEEEEerkerkerree 2 CHƯƠNG I: CƠ SỞ LÝ THUYÊT...-..-:-©252:2225+tt22EEvtttExtertrrrrersrrrerree 3

<small>1.1. RU1 10 tin MUNG... “43 5... 3</small>

<small>1.1.2. Rủi ro tin Ụng... - --- - - -c- s 1v ng ng rưy 3</small>

1.1.3. Nguyên nhân dẫn đến rủi ro tin dụng...--- 2-2 2 s+cs+rxersezez 4

<small>1.1.4. Hậu quả của rủi ro tin Ụng...- --- - + s+++ xxx +Eekseeeseeserskese 6</small>

1.2. Giảm thiêu rủi ro tín dụng bằng phương pháp phân loại khách hàng... 7

1.3. Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient Boosting)

<small>¬... 81.3.1. Mơ hình dạng cây (Tree Based Mod)... .- ---««+s«+++++sex++ 9</small>

<small>1.3.2. Thuật tốn Gradient Boosting ...- -- ¿+ +sss‡+sssevxeeerseessesss 11</small>

<small>1.4. Đánh gia độ chính xác của sự phan loại...---- --«++-««++s++sex+ss++ 14</small>

<small>1.4.1. Độ chính xác (ACCUTACY) ...-- Ác kg n riệt 141.4.2. Đường cong Receiver Operating Characteristic (R@C)... 15</small>

CHUONG II: PHUONG PHAP PHAN LOAI KHACH HANG PHO BIEN TAI

<small>0.\00)9160))00/969))89)0)) 6101... ... 17</small>

2.1. Các phương pháp phân loại khách hàng thường được sử dụng từ trước đến

<small>¡0 ...Ơ 17</small>

2.2. Xây dựng mơ hình phân loại khách hàng theo phương pháp thống ké ... 18 2.3. Mơ hình hồi quy Logistic ứng dụng trong phân loại khách hàng... 19 CHƯƠNG III: UNG DUNG MƠ HÌNH GRADIENT BOOSTING TRONG

<small>PHAN LOẠI KHACH HÀNG...-- Ác SH nHh HH HH Hư 20</small>

Nguyễn Quang Huy — Khoá 61 ii GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Khoa Toán Kinh tế - ĐH KTOD Chuyên đê tốt nghiệp

3.1. Tổng quan về bộ dit liệu...--- 2 2 £+EE+EE+EE+EEtEEEEEEEEEEEEEEerkrrkerkee 20 3.1.1. Các biến đầu vào là biến định tính... .-....---c:¿©cc+++ccxvssrxvesre 22

3.1.2. Các biến đầu vào là biến định lượng...---2- 2-2 2+secx+zszceez 22

<small>3.2. Trực quan hoá dữ liệu va làm sạch dữ liệu ...- --- «5s «++s«+2 23</small>

3.2.1. Các biến đầu vào là biến định tính... .-....---c:¿+cccc+ccvvssrrvrsre 23

3.2.2. Các biến đầu vào là biến định lượng...---- - 2-2 2+secx+zszceez 27

<small>3.3. Xây dựng mơ hình Logistic... eee eseeeeseesececeeeeeeseeeeeeeeeeceeeeeeeeeeeeeaes 32</small>

<small>3.3.1. Tính tốn Information Value va Weight of Evidence... 32</small>

<small>3.3.2. Xây dựng mơ hình OBISẨTC... - - 5 + +*v+eeeeeerseeeseees 33</small>

3.4. Xây dựng mơ hình phân lớp khách hàng bằng Gradient Boosting... 35 3.4.1. Xây dựng mô hình phân lớp khách hàng bằng Gradient Boosting... 35

<small>3.4.2. Tinh chỉnh mơ hình ... -- ..-- <5 + 2+ 1E E*#EEEeEEseeseerreererereeere 38</small>

3.5. KẾT WAN ... tt tt 111 1515111115111 11111111 1111111111111 11111111. Al

I.908)20095790.47. 0115... ... 44

<small>PHU LUC: CODE R 01117... ... 45</small>

Nguyễn Quang Huy — Khoá 61 iii GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

DANH MỤC TU VIET TAT

<small>KH Khach hang</small>

<small>TCTD Tơ chức tín dụng</small>

<small>GBM Gradient Boosting Machine</small>

<small>CBNV Can bộ nhân viên</small>

Nguyễn Quang Huy — Khoá 61 iv GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Khoa Toỏn Kinh tế - ĐH KTOD Chuyờn đờ tốt nghiệp

DANH MỤC BANG BIEU

Bảng 1: Cỏc biến trong bộ dữ liệu lending_club_ data ... 22

<small>Bảng 2: Thụng kờ mụ tả cỏc biờn định lượng trong bộ dữ liệuTending club_data 0.0.0.0... aˆoồồễồễđồđờâ"đ^... 23</small>

<small>Bang 3: Bang so sỏnh hiệu qua giữa cỏc mụ hỡnh 42</small>

Nguyễn Quang Huy — Khoỏ 61 M GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Khoa Toán Kinh tế - ĐH KTOD Chun đê tốt nghiệp

DANH MỤC HÌNH ANH

Hình 1: Cấu trúc cơ bản của Cây quyết định...--- 2-2 2+ ecxecxexecxez 9 Hình 2: Đồ thị đường cong Gini và Entropy với bài tốn phân lớp nhị phân

<small>¬—... 10</small>

Hình 3: Minh hoa các bước tuần tự trong thuật toán Boosting ... 12 Hình 4: Minh hoạ về Gradient Descent ...-- 2 2-©525sccxczxczxeerxee 13

Hình 5: Ví dụ về đường cong ROC...---5- 5s tt EEEErkerkerkerkee 15 Hình 6: Biểu đồ kỳ han khoản vay (term) ...-- 2 2-52 s+cssrxerscres 24

Hình 7: Biểu đồ cột thống kê kinh nghiệm làm việc (emp_length)... 25 Hình 8: Biểu đồ cột thống kê home_ownership...- 2-2 2s cxsxcx+z 26

Hình9: Biểu đồ cột thống kê tình trạng khoản vay (loan_ status)... 26

<small>Hình10: Biểu đồ nhiệt tương quan giữa CC ... 27</small>

Hình11: Biểu đồ thống kê biến annual_inc...---s- 2 + z+xezxerxerxexee 28

<small>Hình12: Biểu đồ thống kê biến annual_inc sau khi đã loại bỏ outliers ... 29</small>

Hình13: Biểu đồ cột quan hệ giữa biến loan_status và in(_rate... 29

Hình14: Biểu đồ điểm về quan hệ giữa 3 biến loan status và int_rate,

Hình17: Biểu đồ histogram credit_his theo từng trạng thái khoản vay ...32

Hình18: Biểu đồ WOE biến tofal_rec_ pFTCD... -- -- 575 S<c<+<ccesseerees 33

<small>Hình 19: Đường cong ROC của mơ hình Logistic ...-. --- --- --- 35</small>

<small>Hình 20: Đường cong ROC của mơ hình GBM... --- 525 <S<<+<++ 38Hình 21: Bang relative influence trong GBM tỉnh chỉnh... 39Hình 22: Đường cong ROC của mơ hình GBM tỉnh chỉnh ... 41</small>

Nguyễn Quang Huy — Khoá 61 vi GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp GIỚI THIỆU CHUNG

1. Lý do chọn đề tài

Đi cùng với sự phát triển của nền kinh tế, nhu cầu tin dụng của các cá nhân/

tổ chức quy mô từ nhỏ tới lớn là nhu cầu không thé thiếu. Tin dụng giải quyết được một trong những nhu cầu tất yếu của con người hay một hoạt động kinh

doanh hay một dự án, ... là nhu cầu về vốn. Tín dụng là địn bây thiết yếu cho sự

<small>thành cơng của một mơ hình kinh doanh và cũng là một trong những phương pháp</small>

tốt nhất dé tối ưu hố lợi ích của tiền. Tuy nhiên, việc ra quyết định có nên cho một người vay tiền hay khơng là một q trình mang day tính rủi ro mà một người

hay một tơ chức tín dụng nói chung phải cân nhắc thực sự kỹ càng trước khi giải

Trong quá trình hoạt động của các tổ chức tín dụng, những rủi ro trong hoạt động cho vay là điều không thé tránh khỏi. Việc một khách hàng vay nhưng không trả được nợ

(hoặc trả nợ chậm) sẽ ảnh hưởng rất lớn đến doanh thu và lợi nhuận và uy tín của tơ chức tin dụng đó, thậm chí ảnh hưởng tới nền kinh tế của cả một quốc gia. Nhưng dé đánh giá được khách hàng có trả được nợ hay không lại phụ thuộc rất nhiều yếu tố. Trong quá khứ, cách duy nhất dé tránh rủi ro vỡ nợ bên khách hang là đánh giá chủ quan của chuyên gia về khả năng trả nợ của khách hàng đó. Tuy nhiên, với nhu cầu về tín dụng ngày một gia

tăng thì đây khơng thể là một phương pháp tối ưu cho tất cả các khoản nợ nắm giữ bởi một tổ chức tài chính. Cùng với sự phát triển của khoa học dit liệu, các mơ hình phân loại khách hàng dựa trên phương pháp định lượng đang dần trở thành những công cụ tối ưu thay thế cho con người trong việc đánh giá không chỉ với từng khách hàng mà là trên một

tập khách hàng rất lớn. Các mơ hình học máy là một trong các công cụ ấy và đang dần trở thành xu hướng trong tâm, nồi bật, đã và dang được nghiên cứu, ứng dụng rộng rãi

<small>trong ngành tài chính nói chung và lĩnh vực cơng nghệ tài chính nói riêng, tạo ra những</small>

bứt phá mạnh mẽ về tính hiệu quả, kịp thời, chính xác trong cơng tác giám sát, dự báo.

Sức mạnh của một mơ hình phân loại tín dụng có tác động rất lớn đến kết quả hoạt động kinh doanh của một ngân hàng. Một mơ hình có mức độ chuẩn xác cao giúp

<small>các tơ chức tài chính giảm thiêu tỷ lệ nợ xâu, tránh được các khoản nợ thiêu hiệu</small>

Nguyễn Quang Huy — Khoá 61 1 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp quả va đưa ra các chính sách sản phẩm tốt hon qua thời gian. Một trong những mơ hình được sử dụng phổ biến nhất là Gradient Boosting - một ứng dụng của học máy trong phân lớp tín dụng, đang được sử dụng phơ biến trên tồn thế giới

với độ chính xác cao và đã giành chiến thắng trong rất nhiều cuộc thi về khoa học

dữ liệu. Em đã quyết định lựa chọn đề tài “Thử nghiệm phân loại khách hang

bằng phương pháp học máy” đề nghiên cứu về tính hiệu quả của mơ hình này

trong phân loại khách hàng tại các tổ chức tín dụng.

<small>2. Mục tiêu nghiên cứu</small>

- __ Tìm hiểu về các nhân tơ có thé ảnh hưởng đến rủi ro tín dụng của khách hàng

tại các tơ chức tín dụng.

- Phương pháp phân lớp khách hàng thực tế dang được sử dụng rộng rãi trên thé

<small>- Tinh ứng dụng của thuật toán Gradient Boosting trong phan lớp khách hang</small>

3. Đối tượng và phương pháp nghiên cứu

- Cac yêu t6 có anh hưởng đến tình trạng thanh tốn của khoản nợ.

- _ Các mơ hình học máy xếp hang (Classification): Hồi quy Logistic, Gradient

4. Tong quan về bộ dữ liệu

<small>- Bộ dữ liệu khoản vay của trên 50,000 khách hàng tại Lending Club được ghi</small>

nhận trong năm 2018.Trong đó đã bao gồm tình trạng thanh tốn chỉ tiết của từng khoản

Nguyễn Quang Huy — Khoá 61 2 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG I: CƠ SỞ LÝ THUYÉT

<small>1.1. Rủi ro tín dụng</small>

<small>1.1.1. Tín dụng</small>

Tin dụng là sự thé hiện cho mối quan hệ vay và cho vay. Trong đó, người vay có thé là cá nhân hoặc tơ chức, cịn người cho vay là ngân hàng hoặc các tơ

chức tai chính đủ thâm quyền hoạt động tại một khu vực/ quốc gia. Sản phẩm vay có thé là hàng hóa hoặc tiền.

Mỗi khoản vay sẽ có những quy định và ràng buộc cụ thể để tạo sự tín

<small>nhiệm giữa người vay và người cho vay. Một khoản vay tín dụng sẽ ln đi kèm</small>

với lãi suất được quy định trước dé bù đắp thiệt hại cho người cho vay, khi giao

<small>di tài sản cua mình cho người vay trong một khoảng thời gian trong tương lai.</small>

Tín dụng có thể được phân loại theo nhiều cách:

- Theo khoảng thời gian: ngắn hạn, trung hạn, dai han.

- Theo đối tượng tín dụng bao gồm: Đối tượng sử dụng vốn lưu động và đối tượng sử dụng vốn cô định.

<small>- Theo mục đích sử dụng: Tín dụng hàng hóa, tín dụng tiêu dùng, vay</small>

kinh doanh, vay xây dựng cơ sở vật chat, vay đầu tu, ... - Theo kiểu vay: vay tín chấp, vay thế chấp.

<small>Tín dụng mang lại lợi ích lớn cho cả người vay và người cho vay; giúp thúc</small>

đây đầu tư kinh doanh, sản xuất, .... Tin dụng góp một phan quan trọng trong

những dự án từ nhỏ đến lớn, từ đó ảnh hưởng và tác động đến nén kinh tế của cả

một quốc gia. Với những khoản tín dụng được chấp nhận đã góp phần đáp ứng

nhu cầu về vốn của cá nhân, tô chức... từ đó giải quyết khá nhiều khâu quan trọng

<small>như đâu tư, mua sam hoặc phát triên kinh tê từ trong dén ngoai nước.</small>

<small>1.1.2. Rui ro tín dung</small>

Rui ro tín dụng được định nghĩa như sau: “Rui ro tin dung là khoản lỗ tiềm năng khi ngân hàng cấp tín dụng cho một khách hàng (KH), nghĩa là luồng thu nhập dự tính mang lại từ khoản vay của ngân hàng khơng thể được thực hiện cả về số lượng và thời hạn” (Anthony Sauders, 2007).

Nguyễn Quang Huy — Khoá 61 3 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Theo khoản 1 điều 3 Thông tư số 02/2013/TT-NHNN: “Rủi ro tín dụng là

ton thất có khả năng xảy ra đối với nợ của tô chức tin dụng, chi nhánh ngân hang nước ngồi do KH khơng thực hiện hoặc khơng có khả năng thực hiện một phần hoặc tồn bộ nghĩa vụ của mình theo cam kết.”

Rủi ro tín dụng ln tiềm tàng trong q trình cung cấp các sản phẩm tín dụng của ngân hàng cũng như các tổ chức tín dụng (TCTD) nói chung. Rủi ro tín

dụng khơng chỉ sinh ra trong các nghiệp vụ về tín dụng giữa ngân hàng/ TCTD và

KH, mà còn phụ thuộc vào các bên đối tác khác và môi trường hoạt động của các ngành nghề, trách nghiệm và kinh nghiệm của người vay cũng như phương pháp

quản lý của ngân hàng/ TCTD. Có thể nói, rủi ro tín dụng là loại rủi ro chiếm tỷ

trọng lớn nhất trong các rủi ro ma TCTD phải đối mặt. 1.1.3. Nguyên nhân dẫn đến rủi ro tín dụng

1.1.3.1. Về phía TCTD

Chính sách quản trị chưa chặt chẽ dé khiến cho TCTD gặp phải rủi ro tín dụng, các gói chính sách sản pham tin dụng không được viết day đủ, rõ ràng hoặc không được kiểm thử can thận khiến KH có thé lợi dụng những kẽ hở dé trục lợi bat chính.

Các TCTD vì chạy theo lợi nhuận mà mở rộng tín dụng qua mức có thể dẫn

đến việc sang lọc KH kém kỹ càng, nhất là trong trường hợp thông tin không cân

xứng sẽ dễ dàng tạo ra sự lựa chọn đối nghịch, khả năng giám sát của cán bộ tín

dụng đối với việc sử dụng khoản vay giảm xuống, việc tuân thủ theo quy trình tín dụng bị lơi lỏng, các quy định về an tồn tín dụng sẽ khơng được thực hiện nghiêm

minh.Cạnh tranh không lành mạnh nhằm thu hút KH giữa các TCTD ngày càng phức tạp khiến cho việc thầm định KH trở nên sơ sài, qua loa hơn hoặc hạ thấp tiêu chuẩn tín dụng, giảm thời gian thâm định... những hoạt động này đều có thể

<small>làm tăng thêm rủi ro trong hoạt động tín dụng.</small>

Rui ro có thé xuất hiện do tính tốn khơng chính xác hiệu quả đầu tư dự án,

định giá sai dự án dẫn dé phê duyệt khoản vay quá cao so với chuẩn, hoặc do cán

bộ tín dụng cố ý tài trợ những dự án xin vay không hiệu quả, làm giả hồ sơ, vay

Nguyễn Quang Huy — Khoá 61 4 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp ké KH... sẽ gây ra rủi ro lớn cho TCTD. Nhiều TCTD quá chú trọng đến lợi nhuận

bất chấp những khoản vay khơng lành mạnh, thiếu an tồn hoặc có chất lượng

thơng tin, q trình xử lý thơng tin, cơ cau tơ chức năng lực công nghệ yếu.... đều

<small>gia tăng khả năng xảy ra rủ ro tín dụng.</small>

1.1.3.2. Về phía khách hàng

Trình độ yếu kém của người vay trong dự đoán các van đề kinh doanh, yêu

<small>kém trong quan ly, chủ định lừa dao cán bộ của TCTD,... là các nguyên nhân</small>

thường gặp nhất gây rủi ro tín dụng.

Khách hàng là khách hàng cá nhân yếu kém trong quản lý tài chính, khơng

hoặc khơng có kha năng tính tốn kỹ lưỡng, khơng có khả năng thích ứng và khắc phục khó khăn trong kinh doanh sẽ dẫn tới vốn vay không được sử dụng hiệu quả, hiệu quả kinh doanh từ đó sa sút. Khách hàng khơng có khả năng hồn trả nợ gốc và lãi đầy đủ, đúng hạn cho TCTD.

Một số ít trường hợp, KH kinh doanh là kẻ xấu muốn lợi dụng khoản vay;

kinh doanh, đầu tư có lãi song vẫn không trả nợ cho TCTD đúng hạn hoặc khơng

muốn trả nợ TCTD với hy vọng có thê quyt nợ hoặc sử dụng vốn vay càng lâu

càng tốt.

Các nguyên nhân khác: các nguyên nhân khác bao gồm những nguyên nhân khách quan về mơi trường có ảnh hưởng lớn tới rủi ro tín dụng như khủng hoảng

kinh tế/ tài chính; thiên tai tự nhiên hay những bất ồn chính trị xã hội trong khu vực sinh sống và làm việc của KH. Những tác nhân này có ảnh hưởng tiêu cực tới các khoản tín dụng do làm thay đơi đột ngột các điều kiện tài chính cá nhân của KH, làm mất việc hoặc gây thiệt hại trực tiếp lên cơ sở vật chất, khiến cho KH dễ rơi vào tình trạng quá hạn nợ, nợ xấu do không đủ khả năng chi trả cho các khoản

nợ du đã có kế hoạch rõ ràng nhưng chưa tính tốn đến những rủi ro trong vận

Nguyễn Quang Huy — Khoá 61 5 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

<small>1.1.4. Hậu quả của rủi ro tín dụng</small>

Trong trường hợp rủi ro tín dụng xảy ra, hậu quả của việc rút tiền là rất nghiêm trọng. Nó khơng chỉ ảnh hưởng đến những người đi vay cá nhân mà còn

ảnh hưởng đến các ngân hàng và toàn bộ nền kinh tế.

<small>1.1.4.1. Tác động của rủi ro tín dụng đến hoạt động của Ngân hàng</small>

Nếu ngân hàng gặp rủi ro tín dụng thì sẽ khơng thé thu được lãi từ khoản

<small>cho vay, điều này có thé làm ngân hang mat đi cân đối thu chi. Ngồi ra, cịn dẫn</small>

đến lãi ngân hàng và thất thoát vốn. Khi mọi thứ trở nên nghiêm trọng, các ngân hàng thất bại và phá sản. Ngân hàng vỡ nợ do khơng có khả năng thu hồi nợ dẫn

đến bị các ngân hàng quốc doanh soi mói, hạ điểm uy tín và ảnh hưởng đến quy

<small>mơ hoạt động.</small>

1.1.4.2. Tác động của rủi ro tín dụng doi với nên kinh tế ; ;

<small>Nó cũng được cho là do ty lệ nợ xâu cao của ngân hàng, làm tơn hai đên uy</small>

<small>tín của ngân hàng và làm xói mịn lịng tin của khách hàng. Từ đó, khách hàng</small>

đang có tiền gửi tiết kiệm tại ngân hàng đó sẽ rút tiền ra, có thể dẫn đến những

<small>hậu quả nghiêm trọng như sau:</small>

- Các ngân hàng thiếu vốn buộc phải vay ngân hàng khác hoặc ngân hàng quốc

- Mắt cân đối tiền tệ và bất ơn kinh tế.

Ngồi ra, trường hợp ngân hàng phá sản cũng có thể xảy ra. Điều này sẽ ảnh hưởng trực tiếp đến các hoạt động kinh doanh của các doanh nghiép, khién cho

đời sống của người lao động. Hơn nữa, cuộc khủng hoảng ngân hàng đã tác động

nghiêm trọng đến toàn bộ nền kinh tế. Nó gây ra tình trạng suy thối của nền kinh

tế, làm tăng giá cả, giảm sức mua, tăng tỷ lệ thất nghiệp và gây bat ôn định cho xã hội. Hơn nữa, rủi ro tín dụng cịn ảnh hưởng đến nên kinh tế tồn cầu vì ngày nay nền kinh tế của mỗi quốc gia phụ thuộc vào nền kinh tế khu vực và toàn cau.

Kinh nghiệm cho thấy cuộc khủng hoảng tài chính châu Á (1997) và cuộc khủng

hoảng tài chính Nam Mỹ (2001-2002) đã làm rung chuyên thế giới. Mặt khác, quan hệ ngoại hối và đầu tư giữa các nước phát triên rất nhanh nên rủi ro tín dụng

<small>của một qc gia ảnh hưởng trực tiêp đên nên kinh tê của họ.</small>

Nguyễn Quang Huy — Khoá 61 6 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

1.2. Giảm thiểu rủi ro tín dụng bằng phương pháp phân loại khách hàng

<small>Hiện nay, có rất nhiều biện pháp nhăm hạn chế rủi ro tin dụng nói chung vàcác biện pháp hạn chế rủi ro trong cho vay của ngân hang và TCTD nói riêng.</small>

Những van dé cấp thiết nhất trong hạn chế rủi ro tín dụng có thé kẻ tới là:

Hồn thiện được chính sách quản lý rủi ro tại các ngân hàng/ tơ chức tín dụng. Chính sách quản lý rủi ro phải bao quát toàn bộ những vấn đề xoay quanh một loại rui ro nhất định:

+ Bước 1: Nhận biết rủi ro: Xác định chính xác loại rủi ro mà ngân

hàng/ TCTD có thê gặp phải hay dang gặp phải.

<small>+ Bước 2: Xác định hạn mức rủi ro: Xác định được rõ hạn mức rủi</small>

ro mà ngân hàng/ TCTD đó có thể chấp nhận. Các hạn mức này phải được làm rõ, quản lý và có sự phê duyệt của các cấp lãnh đạo, HĐQT.

Sau đó, hạn mức này phải được thơng báo đến tồn thể CBNV các

<small>bộ phận nghiệp vụ.</small>

+ Bước 3: Dinh lượng rủi ro: Là việc dé ra và xem xét lại hạn mức

rủi ro, giúp người điều hành biết được thứ tự ưu tiên theo dõi và kiếm

<small>SOát rui ro.</small>

<small>+ Bước 4: Kiểm sốt rủi ro.</small>

Hồn thiện hệ thơng xếp hạng tín dụng nội bộ: là một trong những chính

sách quan trọng bậc nhất của ngân hàng và các TCTD, hệ thong xép

<small>hạng nội bộ phải rõ ràng, phù hop với ngân hang/ TCTD đó va ln</small>

được kiểm sốt, cập nhật liên tục.

Hệ thống xếp hang tín dụng nội bộ tối thiểu phải bao gồm: (i) Cơ sở pháp lý về liên quan đến nghành nghé kinh doanh/ công việc của khách hang; (ii) Các chỉ tiêu tổng hợp tình hình kinh doanh, tài chính, tài sản, khả năng thực hiện nghĩa vụ theo cam kết của khách hang; (iii) Uy tín

<small>với các TCTD khác; (iv) Các tiêu chi đánh giá thông tin cá nhân cua</small>

khách hàng, thường là bộ câu hỏi không mang trọng số. Ý tưởng về một

bộ công cụ chấm điểm tín dụng đã có từ những năm 70 của thế kỷ trước,

<small>khi ngân hàng và các tô chức tín dụng lớn nhân ra răng, thị trường có sự</small>

Nguyễn Quang Huy — Khoá 61 7 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

<small>gia tăng chóng mặt của các khoản vay vừa và nhỏ (vay chi tiêu hoặc</small>

kinh doanh quy mô nhỏ). Nếu tiếp tục sử dụng các phương pháp xếp hạng tín dụng cũ trên các khoản vay này sẽ gây ra tình trạng thất thốt

doanh thu do chi phí vận hành phương pháp cũ lớn, thời gian kiểm tra

thơng tin tín dụng mất nhiều thời gian. Y tuong về một bộ cơng cụ dựa

hồn tồn trên toán thống kê được cho rang sẽ giải quyết được van đề này một cách triệt dé nhất với ba tiêu chí: rẻ hơn, nhanh hon và đáng tin

<small>cậy hơn; giúp các ngân hàng giải ngân khoản vay nhanh hơn, phục vụ</small>

nhu cau lớn của khách hàng, vừa dam bảo được khả năng kiểm sốt rủi

ro tốt. Các mơ hình chấm điểm tín dụng từ đó được xây dựng ngày càng phức tạp, tiên tiến hơn và được sử dụng rộng rãi song song cùng với các

phương pháp xếp hạng tín dụng sẵn có.

Việc hạn chế rủi ro tín dụng trách nghiệm của mỗi ngân hàng, TCTD nhưng

<small>cũng là trách nghiệm của nhà nước. Chính phủ cũng phải thường xuyên thanh tra,</small>

kiểm tra và đưa ra những chỉ thị, đường lối đúng đắn, sát sao và kịp thời; tránh để

xảy ra những trường hợp thất thoát tài nguyên quốc gia, gây mất tín nhiệm tin

dụng trong mắt bạn bè quốc tế.

1.3. Xử lý bài toán phân loại bằng Extreme Gradient Boost (Gradient

Trong hoc máy, bài toán phân loại (classification) thường được xử ly bang hồi quy Logistic hoặc mô hình Cây quyết định (Decision Tree). Thuật tốn Boosting có thê hiéu là thay vì xây dựng một mơ hình (có thé là decision tree) có

độ chính xác tương đối dựa trên tập huấn luyện, ta xây dựng rất nhiều mơ hình có

độ chính xác kém hơn khi đi riêng lẻ nhưng lại cao hơn khi kết hợp với nhau.

Gradient Boosting hiện đang được xem là một trong những thuật toán học tối ưu nhất đề giải quyết các bài tốn học máy có giám sát bên cạnh những mơ hình học sâu thường được sử dụng cho các bài toán hồi quy với dit liệu đầu vào dạng định

Nguyễn Quang Huy — Khoá 61 8 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Khoa Toán Kinh tế - ĐH KTOD Chun dé tốt nghiệp

<small>1.3.1. Mơ hình dạng cây (Tree Based Model)</small>

Mơ hình dang cây là một cây phân cấp có cấu trúc được dùng dé phân lớp

các đối tượng dựa vào các quy luật. Các thuộc tinh (features) của đối tượng có thé

thuộc nhiều kiểu khác nhau như nhị phân, định danh, thứ bac, định lượng và thuộc tính phân lớp phải là kiểu nhị phân hoặc thứ bậc. Xét tập đữ liệu bao gồm các

thuộc tính của từng điểm đữ liệu và phân lớp nó thuộc về, mơ hình cây sẽ sinh ra các quy luật để dự đoán phân lớp của các điểm dữ liệu chưa biết.

<small>Branch/ Sub-TreeSplitting * y fo An.</small>

Hình 1: Cau trúc co bản của Cây quyết định

(Nguồn: Nagesh Singh Chauhan, Kdnuggets)

- Node sốc (ROOT Node): là tập dữ liệu sốc, sẽ được phân chia thành hai

hay nhiều tập con dựa trên các quy luật sinh ra.

<small>- Qua trình phân chia (Splitting): Quá trình phân chia một node thành hai</small>

hay nhiều node con.

- Node quyết định (Decision Node): Các node con mà còn được phân chia

<small>ra thành các node nhỏ hơn nữa.</small>

- Node cuối (Terminal Node/ Leaf): Cac node con khơng cịn được phân

<small>chia nữa, thường được gọi là “lá” (“Teaf”’).</small>

- Nhánh (Branch/ Sub-tree): là một bộ phận nhỏ của cây quyết định, bao

gom các node quyết định và hai hay nhiều leaf.

Nguyễn Quang Huy — Khoá 61 9 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

<small>- Node me và node con (Parent Node va Child Node): Node me là node</small>

được chia thành hai hay nhiều node nhỏ; node con là các node được chia

<small>ra bởi một node mẹ.</small>

<small>- Tia cây (Tree Prunning): Quá trình loại bỏ các node con khỏi một hay</small>

nhiều nhánh của cây quyết định.

Mơ hình cây sẽ phân lớp tập dữ liệu bằng cách dùng thuật toán dé đưa ra quyết định có nên phân chia một node hay khơng, trong đó quyết định phân chia

một node trên tồn bộ dữ liệu dang có là lựa chon tốt nhất trên các node con có thé phân chia tại cùng cấp đó. Các mơ hình cây phổ biến nhất có thể ké đến là ID3, C4.5, CART, CHAID, MARS, ... Đề tìm được cách phân chia tốt nhất cho

<small>1 node, các mơ hình cây thơng thường thường sử dụng 2 thuật toán:</small>

- Hệ số Gini (Gini Impurity/ Gini Index):

GI = XÊ1Pm¡(1 — Pmi) = 1— Ty Pini

<small>- Entropy:</small>

—i=1Pmi log(Pmi)

Trong đó, Pym; là ty lệ số quan sát được phân vào lớp i trên tổng số quan sát, với

<small>i = (1,2,...,K) là phân lớp thứ i trong K phân lớp.</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp Dựa trên đồ thị Gini và Entropy, ta thấy cả hai phương pháp này đều khá giống nhau. Trong mơ hình cây, cả hai thuật tốn đều được sử dụng dé đánh giá

chất lượng của một quá trình phân chia. Kết quả của quá trình phân chia được coi

là tốt hơn nếu một phía của node con (node kết quả sau khi được phân chia) có

entropy hoặc hệ số Gini gần 0 hơn do điều đó chứng tỏ tại phía đó của node con,

các điểm đữ liệu có xác suất nằm hồn tồn về phân lớp 0 hoặc 1.

Mơ hình cây rat phổ biến trong giải quyết các bài tốn phân lớp do ý tưởng của mơ hình rất giống với quá trình ra quyết định của con người, điều đó giúp mơ hình cây dé hiểu và dễ giải thích. Ngồi ra, mơ hình cây cịn phổ biến bởi kha năng tuỳ biến chủ động băng tree prunning, giúp mơ hình thích nghi được với nhiều bộ đữ liệu trong nghiên cứu và cả ứng dụng thực tế.

<small>1.3.2. Thuật toán Gradient Boosting</small>

<small>1.3.2.1. Boosting và Gradient Descent</small>

Boosting là một hướng di trong học máy kết hợp (ensemble learning) dé giải quyết bài toán phân lớp, thay thế cho 1 mơ hình dự đốn có độ chính xác tương đối như Cây quyết định. Boosting không lập tức xây dựng 1 mơ hình trên ROOT Node mà xây dựng tuần tự nhiều mơ hình có độ chính xác kém (weak

learner) sau đó kết hợp lại thành một mơ hình tối ưu có độ chính xác cao. Các weak learner trong bài tốn phân loại bằng mơ hình cây chính là các Cây quyết

định có độ chính xác thấp, mà mỗi cây được xây dựng sau sẽ kế thừa tồn bộ

<small>thơng tin đã có từ cây phía trước.</small>

Nguyễn Quang Huy — Khoá 61 11 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

S999 e “Se 0.

Ore) Ce : C@ Se = ee e

@.800@ | eđâ > eee 3 Cee Ceo ®<ee

<small>Original Data Weighted Data Weighted Data</small>

} } i

mm parm Classen:

L |

<small>e6 eeâe6đ eee eee</small>

Hỡnh 3: Minh ho các bước tuần tự trong thuật toán Boosting

(Nguồn: geeksforgeeks.org) Gradient Descent là q trình tối ưu hố một hàm mục tiêu bất kỳ dựa trên

các tham số cho trước nhằm tìm ngược về điểm có đạo hàm của hàm mục tiêu gần

0 nhất. Điểm này chính là cực trị địa phương của hàm mục tiêu.

Xét hàm số: f(x). Đạo hàm của f (x¿) được ký hiệu là f’(x;). Xét điểm bắt

dau là 1 điểm bat kỳ có ƒ”(x¿) > 0, để điểm tiếp theo x;„¡ gần với x* (điểm cực

<small>trị có ƒ“(x) = 0 thì:</small>

<small>Xt41 = X_ +A</small>

Trong đó, A là một đại lượng ngược dấu với đạo hàm ƒŒ,). Vì x; càng tiễn lại

gần x* thì f’(x;) càng gan 0 nên đại lượng A nên là một đại lượng tỷ lệ thuận với

ƒ'(x,). Từ đó, ta có thể viết lại công thức Gradient Descent như sau:

X:+¡ =X, +pXŒ()

Với p là tốc độ học (learning rate). Việc lựa chon learning rate cũng yêu cau su

hop ly nhất định dé dat duoc mục tiêu là tim được điểm gần cực trị x* nhất. Với

learning rate quá lớn, thuật toán Gradient Descent dễ bị thiếu chính xác do các bước nhảy liên tiếp có khoảng cách quá lớn. Trong khi, learning rate quá nhỏ

Nguyễn Quang Huy — Khoá 61 12 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

<small>khiên tôc độ Gradient Descent trở nên rat cham, và có thê tìm sai diém x* từ điêmv °</small>

<small>xuât phát cô định với các hàm mục tiêu có nhiêu diém cực tri.</small>

<small>Ww WwW</small>

<small>Large Learning Rate Small Learning Rate</small>

Hinh 4: Minh hoa vé Gradient Descent

(Nguon: Saugat Bhattarai)

<small>1.3.2.2. Gradient Boosting</small>

Là su kết hợp giữa hai hướng tiếp cận trên, thuật toán Gradient Boosting ra đời với mục tiêu kết hợp các mơ hình có độ chính xác thấp dé tạo ra mơ hình mới với độ chính xác cao hơn. Xét một bộ đữ liệu :D = {x;, y¡}]f, kết quả của quá trình

Gradient Boosting là tim ra hàm F(x) gần hàm F*(x), sao cho những điểm dữ

<small>liệu có thuộc tính x được phân lớp với độ chính xác cao trong y. Gradient</small>

Boosting xây dựng mơ hình là xp xi của:

Fin(X) = Fom—1)(*) + Pmhm(*)

Trong đó, ø„„ là trọng số của hàm thứ m. Các hàm tuần tự này là các mơ hình con

trong mơ hình kết hợp (ensemble).

Các bước phát trién một mơ hình Gradient Boosting: - Bước 1: Tao hàm mat mát khởi động Fy (x):

Fo(x) = argming (SỀ+1L(y 8)

- Bước 2: Xây dựng mơ hình tối wu Ø„„ hạ; (x)

(pmh„()) — argmim,w(XI+L(ị, Fm—1(%¡) + ph(,)))

Nguyễn Quang Huy — Khoá 61 13 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp <small>Tại bước này, ta áp dụng thuật toán Gradient Descent, coi mỗi h,, là một</small>

bước giống như một đại lượng A thêm vào hàm L(y, Em_J(X 0): Từ đó, mỗi h„ được huấn luyện trên một tập dữ liệu D = {x¿,rm¡}Ÿ, với Mm; là phan dư pseudo (pseudo-residuals) có dang:

_ [AL (yi, F(x)

<small>Bước 3: Tinh tốn lại giá tri của trọng sơ p,, dựa trên mơ hình vừa huan</small>

Bước 4: Cập nhật mơ hình chính và lặp lại các bước trên có tuần tự.

Một trong những phương pháp giảm thiéu tinh trạng overfit và tăng cường tinh

tuỳ biến cho Gradient Boosting là thêm /earning rate v dé kiểm soát các bước

<small>nhảy của quá trình Gradient Descent Fm(x) = F„_¡(x) + VPmhm(x) hoặcgiảm độ phức tạp của các mơ hình con (như prunning tree với bai tốn sử dụng</small>

<small>mơ hình cây).</small>

<small>1.4. Đánh giá độ chính xác của sự phân loại</small>

<small>Đánh giá mơ hình giúp chúng ta suy đoán được được độ phù hợp của mơ</small>

hình đối với bài tốn của mình hoặc so sánh giữa các mơ hình với nhau. Đề tìm

<small>được thước do đánh giá mơ hình phù hợp thì ta cân phải hiệu về ý nghĩa, ban chatvà trường hợp áp dụng của từng phương pháp đánh giá.</small>

<small>1.4.1. Độ chính xác (Accuracy, Precision và Recall)</small>

<small>Gia sử chúng ta xét một mô hình dự báo sự kiện với 2 kha nang positive</small>

<small>(tích cực) và negative (tiêu cực). Các kêt quả của model xảy ra sẽ rơi vào 4 nhóm</small>

FN tương đương với mắc sai lầm loại I (Bác bỏ sự kiện là positive va gan

<small>cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp nhận một sựkiện là positive khi bản chất sự kiện và negative). Thông thường xác xuất mắc sai</small>

Nguyễn Quang Huy — Khoá 61 14 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp lầm loại II sẽ gây ra hậu quả lớn hơn. Mục đích chính của các mơ hình chuẩn đốn,

<small>cảnh báo hay quản trị rủi ro là cảnh báo sớm, phòng ngừa, loại bỏ các sự kiện xâunên việc tìm chính xác được sự kiện negative được ưu tiên hon positive.</small>

<small>Dựa trên các chỉ sơ này, chúng ta tính được đại lượng đo độ chính xác của</small>

<small>1.4.2. Duong cong Receiver Operating Characteristic (ROC)</small>

<small>ROC là đường cong biểu diễn kha năng phân loại của một mơ hình phân</small>

<small>loại tại các threshold khác nhau. Đường cong này dựa trên hai chỉ số :</small>

<small>- TPR (true positive rate): Là tỷ lệ các trường hợp phân loại true positive trên</small>

tổng số các trường hợp thực tế là positive. Giá trị TRR càng cao, mơ hình dự báo càng tốt trên nhóm positive.

<small>TPR =O</small>

<small>Tổng số quan sat positive</small>

<small>- FPR (fail positive rate): La tỷ lệ các trường hợp phân loại false positive trên</small>

tổng số các trường hợp thực tế là negative. Giá tri TRR càng cao, mơ hình

dự báo càng tốt trên nhóm positive.

<small>Tổng số quan sat negative</small>

Đồ thi ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng:

<small>FPR =</small>

<small>ROC curve 1</small>

True positive rate

<small>0 0.2 0.4 0.6 0.8 1</small>

<small>False positive rate</small>

Hinh 5: Vi du về đường cong ROC

(nguon: BMC Bioinformatics)

Nguyễn Quang Huy — Khoá 61 15 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp AUC là chỉ số được tính toán dựa trên đường cong ROC (receiving

<small>operating curve) nhằm đánh giá khả năng phân loại của mơ hình tốt hay khơng.</small>

Phần diện tích năm dưới đường cong ROC và trên trục hồnh là AUC (area under

<small>curve) có giá trị năm trong khoảng [0,1]. Khi diện tích này càng lớn thì đườngcong ROC có xu hướng tiệm cận đường thăng y = 1 va khả năng phân loại của</small>

<small>mơ hình càng tơt.</small>

Nguyễn Quang Huy — Khố 61 16 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG II: PHƯƠNG PHÁP PHAN LOẠI KHACH HANG PHO BIEN

<small>TẠI CAC TO CHỨC TÍN DUNG</small>

<small>2.1. Các phương pháp phân loại khách hàng thường được sử dụng từ trướcđên nay</small>

<small>Hiện tại, có 3 loại phương pháp phân loại khách hàng sử dụng tín dụng đượcsử dụng rộng rãi; được lựa chọn dựa theo tính sẵn có của nguồn dữ liệu, cũng nhưđặc thù của từng phân khúc khách hàng, hoặc chính sách sản phẩm cho vay.</small>

e Phương pháp chuyên gia: Phương pháp chuyên gia sẽ dựa trên ý kiến

thâm định của các chuyên gia về rủi ro đối với một khoản tín dụng. Rủi ro sẽ được căn cứ trên các thơng tin chủ yếu đó là:

Đặc điểm của chủ thé vay (character): Thâm định danh tiếng, tinh

<small>trung thực của người vay vôn.</small>

Vốn (capital): Tham định sự chênh lệch giữa tài sản và nguồn vốn của

<small>người cho vay. Tài sản chính là những giá trị mà ngân hàng có thé thuhồi khi người vay khơng trả được nợ. Nguồn vốn có thê là các chi phímà người vay đang phải chi trả như chi tiêu gia đình, chi phí th nha,</small>

.. Sau khi trừ đi các chi phí chúng ta sẽ biết được người vay sẽ tiết

kiệm được bao nhiêu và chi phí đó có đủ dé trang trải lãi vay hay

<small>Tài sản đảm bảo (collateral): Sẽ có 2 loại hình thức cho vay được</small>

phân chia dựa trên tài sản đảm bảo đó là vay thế chấp (có tài sản đảm

bảo) và vay tín chấp (khơng có tài sản đảm bảo). Rủi ro của 2 hình

thức cho vay này là khác biệt nhau nên lãi suất và hạn mức giữa chúng

cũng sẽ khác biệt dé dam bao dung hòa giữa lợi nhuận và rủi ro đối với

ngân hàng. Đối với vay thế chấp ngân hàng sẽ phải định giá chính xác giá trị của các tài sản thế chấp. Gia trị các tài sản này sẽ quyết định hạn

<small>mức tín dụng mà ngân hàng sẽ cấp cho người vay. Rủi ro đối với các</small>

<small>khoản vay thế chấp là thấp hơn tín chấp vì trong trường hợp khách</small>

<small>hàng khơng có khả năng thanh tốn, ngân hàng được quyền thu hồi tàisản đảm bảo.</small>

Khả năng trả nợ (capacity): Là các thông tin liên quan trực tiếp đến

<small>khả năng tài chính của người vay đó là: nghê nghiệp, mức thu nhập,trạng thái hôn nhân, sô người phụ thuộc, ...</small>

Điều kiện (condition): Đánh giá sơ bộ trạng thái của người vay có

tham chiếu tới điều kiện thị trường, bối cảnh tài chính, áp lực cạnh

tranh, mục đích sử dụng vốn, ... Chăng hạn người vay là hộ dân trồng

<small>cafe nhưng năm vừa qua thị trường cafe giảm giá mạnh. Do đó sẽ</small>

khiến lợi nhuận và khản năng thanh tốn của người vay xuống thấp hơn dự kiến.

Nguyễn Quang Huy — Khoá 61 17 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

Phương pháp chuyên gia dựa nhiều trên kinh nghiệm của con người khiến

<small>cho quá trình thâm định sẽ tôn kém về thời gian, không phù hợp với nhu câu vốnliên tục gia tăng của các khoản vay kinh doanh vừa và nhỏ. Đồng thời ý kiến đánhgiá cũng khơng nhất qn giữa các chun gia. Do đó một phương pháp khác</small>

được khuyến nghị nham đưa ra các đánh giá nhanh chóng và nhất qn hơn. Đó

<small>chính là phương pháp mơ hình.</small>

¢ Phương pháp thống kê: Phương pháp thống kê sử dung mơ hình sẽ dựa

trên điểm số được lượng hóa từ các loại mơ hình học máy như Hồi quy

Logistic, mơ hình cây quyết định hay mạng neural nhân tạo. Phương pháp này có nhiều điểm tơi ưu hơn so với phương pháp chuyên gia:

- Năng suất thẩm định từ mơ hình cao hơn rất nhiều so với các chun

<small>gia. Một mơt hình có thê giải quyết sơ lượng hô sơ băng khôi lượngcông việc của hàng trăm chuyên gia.</small>

- _ Giảm thiêu chi phí lao động khi cắt giảm được một phan lương chi trả

<small>cho các chuyên gia thâm định.</small>

- Kết quả đánh giá hé sơ là rất nhất quán dựa trên điểm số tín nhiệm là

<small>duy nhât, trong khi đó các chuyên gia có thê đưa ra kêt quả đánh giákhác nhau dựa trên cảm quan cua họ vệ rủi ro.</small>

- _ Mơ hình sẽ xem xét toàn diện các biến số đầu vào và thậm chí có thé gia tăng số lượng biến tùy ý mà không ảnh hưởng tới thời gian dự báo. Trong khi phương pháp chuyên gia sẽ chịu hạn chế bởi khả năng của

con người là có hạn. Việc đánh giá hồ sơ đôi khi chỉ được nhận định

trên một số biến chính.

e Phương pháp hỗn hop (Hybrid): Là sự sử dụng kết hợp giữa phương

pháp chuyên gia và phương pháp thống kê. Phương pháp này thường

<small>được áp dụng cho các doanh nghiệp có quy mơ tương đối lớn hay đa</small>

ngành nghề bởi các doanh nghiệp này cần sự kiểm soát sát sao từ các kết

<small>qua thẩm định của chuyên gia cũng như phân loại dựa trên dữ liệu sẵn có</small>

<small>theo phương pháp mơ hình.</small>

<small>2.2. Xây dựng mơ hình phân loại khách hàng theo phương pháp thống kê</small>

<small>Theo như đề tài nghiên cứu chính của bai viết, ta muốntap trung vào nhómkhách hàng cá nhân, có nhu cau tin dụng cho chi tiêu, mua sắm hoặc kinh doanhvừa và nhỏ, vậy nên ta sẽ tạm thời chỉ tập trung vào phương pháp thống kê, với</small>

đặc trưng là giải ngân nhanh, giảm thiéu chi phí phát sinh khơng cân thiết; tất phù

hợp với tập khách hàng này. Các bước đề thực hiện một

Bước 1: Dinh nghĩa “nợ xấu”

Bước 2: Nhận định các nhân tố rủi ro trong bộ dữ liệu. Sau khi đã định

nghĩa được “nợ xấu”, ta sẽ thực hiện phân tích chun sâu các tập dữ liệu sẵn có,

dan dan tìm ra được một cơng thức phân tách các nhân tố đánh giá được khả năng

<small>chi trả nợ của khách hang.</small>

Bước 3: Thực hiện kiểm tra trên các nhân tố có ảnh hưởng lớn đến rủi ro

tín dụng. Một cách khác dé thé hiện điều nay là: “kiểm tra các nhân tổ rủi ro đượcNguyễn Quang Huy — Khoá 61 18 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp sảng lọc thông qua bước 2 thực sự hoạt động trên thực te”. Người thiết kế mơ hình

phải tìm được dẫn chứng trong thực tế để chứng minh rằng các nhân tố mới tìm

được thực sự là nhân tố có ảnh hưởng đến tình trạng khoản vay, hay đó là sai lầm

từ viéc gắn nhãn cho các biến, sang loc dit liệu khơng kỹ càng, ... Tóm lại, mơ hình cuối cùng không chỉ hiệu quả trên mặt thống kê, mà cịn phải hợp lý với tình

hình thực tế.

Bước 4: Tối ưu hố mơ hình

2.3. Mơ hình hồi quy Logistic ứng dụng trong phân loại khách hàng

Mơ hình Logistic là một mơ hình hồi quy với biến phụ thuộc là biến nhị

<small>phân (chỉ nhận giá trị 0 hoặc 1) và biến độc lập có thê là biến định lượng hoặc</small>

định tính. Áp dụng của mơ hình Logistic trong xếp hạng tín dụng được sử dụng

<small>rộng rãi nhất là đánh giá khả năng vỡ nợ của khách hàng. Trong mơ hình này, biếnphụ thuộc sẽ là Kha năng vỡ nợ (Default) của khách hang; Default nhận giá trị 1</small>

tức là khách hàng có khả năng trả nợ và nhận giá trị 0 nếu khách hàng có khả năng

<small>khơng thé chỉ trả khoản nợ đã vay. Biến độc lập trong mơ hình là các trường thông</small>

<small>tin thu thập từ khách hàng làm căn cứ dé đánh giá khả năng vỡ nợ. Với đối tượng</small>

<small>khách hàng cá nhân (ndividual customers), các biến độc lập này thường là thơng</small>

<small>tin về tuổi, giới tính, trình độ học van, giá trị khoản ng, thu nhập trung bình, lich</small>

<small>® p;: xác st vỡ nợ của khách hang i</small>

e_ X;: các biến độc lập chứa thông tin về khách hàng

e ø:hệ số chặn

e Ø,:hệ sỐ góc (i = 1,k)

Từ đây có thể thấy:

e B >0 thì x càng lớn xác suất dé Y = 1 càng lớn hay xác suất khách hang

<small>đó khơng trả được tin dụng cảng lớn.</small>

e < 0 thì x càng lớn xác suất dé Y = 1 càng nhỏ hay xác suất khách hang

<small>đó vỡ nợ tín dụng càng nhỏ.</small>

Kết hợp với phương pháp sử dụng giá trị thông tin (Information Value) và

Weight of Evidence, các giá trị đầu ra của mơ hình Logistic hay xác suất vỡ

nợ của các khách hàng có thê được phân chia thành bảng điểm scorecard. Đây là ứng dụng lớn nhất của mơ hình Logistic trong quản lý rủi ro tín dụng bởi sự dễ hiểu, dé thử dụng và chứa đựng nhiều thơng tin của nó.

Nguyễn Quang Huy — Khoá 61 19 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Khoa Toán Kinh tế - ĐH KTOD Chuyên dé tốt nghiệp

CHƯƠNG Ill: UNG DUNG MO HINH GRADIENT BOOSTING TRONG

<small>PHAN LOAI KHACH HANG</small>

3.1. Tổng quan về bộ dữ liệu

<small>Bộ dữ liệu “Jending club_data” là dữ liệu công khai do Lending Club cung</small>

cấp phục vụ mục đích nghiên cứu và phân tích của các nhà đầu tư, nghiên cứu sinh, sinh viên, ... Bộ dir liệu gốc cung cấp bởi Lending Club là tập hợp dữ liệu

lịch sử của trên một triệu khoản vay từ năm 2007 đến quý 3 năm 2020 bao gồm cả khoản vay với trạng thái được phê duyệt và bị từ chối; tình trạng khoản vay đã thanh toán hết/ vỡ nợ hay mới thanh toán được một phần/ trễ nợ; khách hàng vay tiền là cá nhân (individual) hay khoản vay chung nhiều người/ vay doanh nghiệp

Với bài nghiên cứu cua mình, em chi su dụng một phần bộ di liệu trên, là dữ liệu thu thập trong năm 2018 với bộ lọc khách hàng chỉ bao gồm khách hàng

cá nhân và đã hoàn trả toàn bộ khoản vay (Fully Paid) hoặc đã khơng cịn đủ điều

<small>kiện trả nợ (Charged Off).</small>

Tập dữ liệu bao gồm 26 trường thông tin. Được thê hiện trong bảng sau:

<small>Ky han khoan vay, bao gom 2 mức kỳ han:</small>

<small>3 term Term - 36 thang- 60 thang</small>

<small>int_rate Interest Rate Lai suat hàng tháng của khoản vay</small>

<small>installment Installment Khoản tiền lãi phải trả hàng tháng</small>

<small>emp_title Employment Title | Công việc hiện tai của khách hang</small>

<small>Số năm kinh nghiệm làm việc, được đánh số từ 1</small>

<small>năm đến 9 năm</small>

<small>emp_length Employment Những khách hàng chưa du 1 năm kinh nghiệm</small>

<small>Length được ghi nhận là “< 1 years”</small>

<small>Những khách hàng có trên 10 năm kinh nghiệmlàm việc được ghi nhận là “10+ years”</small>

<small>- OWN: Có sở hữu nhà</small>

Nguyễn Quang Huy — Khố 61 20 GVHD: ThS. Tran Chung Thuy

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Chuyên đê tốt nghiệp

<small>- RENT: Hiện đang thuê nha</small>

<small>- MORTGAGE: Hiện đang được sử</small>

<small>dụng để thế chấp cho một khoản vay</small>

<small>- ANY: Khơng có thơng tin</small>

<small>9 annual_inc Annual Income Thu nhập bình quan năm của khách hang</small>

<small>Tình trạng khoản vay:</small>

<small>- Charged Off: khách hàng khơng cịn10 | loan_status Loan Status kha nang thanh toan</small>

<small>- Fully Paid: khách hàng đã thanh tốn</small>

<small>tồn bộ khoản vay</small>

<small>within 2 years gân đây của khách hàng</small>

<small>- Số tài khoản tín dụng/ thẻ tín dụng của khách hang</small>

<small>14 | open acc Opening Account ¬</small>

<small>hiện van đang hoạt động</small>

<small>l5 pub_rec Public Record Số lần vỡ nợ được ghi nhận công khai của khách</small>

<small>_bankruptcies Bankrupcies hang tại các tổ chức tin dung</small>

<small>Hạn mức tín dụng quay vịng: khoản tiền cịn chưa</small>

<small>thanh tốn trong tài khoản tín dụng quay vịng của</small>

<small>Credit Revolving | khách hang (Tin dung quay vòng được định nghĩa</small>

<small>16 | revol_bal</small>

<small>Balance là khoản hạn mức tín dụng được phê duyệt trước</small>

<small>cho khách hang và khách hang có tồn qun sửdung với điều kiện thanh tốn day đủ)</small>

<small>17 | revol_util Utilization/ Credit | Ty lệ han mức tín dụng quay vịng chưa thanh tốn</small>

<small>Utilization Ratio</small>

<small>Tong số tài khoản tin dụng đã từng được mở của</small>

<small>18 total_acc Total Account</small>

<small>khach hang</small>

<small>Total Payment „ ca </small>

<small>-19 | total_pymnt_inv Tông sô tiên phải trả trên khoản vayInvolve</small>

<small>Total Recorded „ TY,</small>

<small>20_ | total_rec_int Tông số tiên lãi đã trả của của khách hàng</small>

Nguyễn Quang Huy — Khoá 61 21 GVHD: ThS. Tran Chung Thuy

</div>

×