Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.15 MB, 35 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>BỘ GIÁO DỤC VÀ ĐÀO TẠO</b>
<b>TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINHKHOA CƠNG NGHỆ THƠNG TIN KINH DOANH</b>
<b>ĐỒ ÁN NHĨM MƠN HỌC: KHOA HỌC DỮ LIỆU</b>
<b>ĐỀ TÀI: ĐÁNH GIÁ ĐIỀU KIỆN VAY VỐN CỦA KHÁCH HÀNG VÀ KHẢNĂNG THU HỒI CÁC KHOẢN VAY TỪ KHÁCH HÀNG</b>
<i><b>Giảng viên: ThS. Nguyễn Mạnh TuấnNhóm sinh viên thực hiện (Nhóm 6): </b></i>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>MỤC LỤC HÌNH ẢN</small>
<i>Hình 1: Mơ hình phân lớp dữ liệu...8</i>
<i>Hình 2: Ví dụ minh họa Logistic Regression...9</i>
<i>Hình 3: Ví dụ minh họa Decision Tree...10</i>
<i>Hình 4: Ví dụ minh họa Neural Network...11</i>
<i>Hình 5: Mơ hình phân cụm dữ liệu...12</i>
<i>Hình 6: Ví dụ minh họa Hierarchical Clustering...13</i>
<i>Hình 7: Ví dụ minh họa k-Means...14</i>
<i>Hình 8: Mơ hình tiền xử lý dữ liệu...17</i>
<i>Hình 9: Mơ hình bài tốn 1...18</i>
<i>Hình 10: Kết quả dự báo của bài tốn phân lớp khách hàng...24</i>
<i>Hình 11: Mơ hình bài tốn 2: Hierarchical Clustering...25</i>
<i>Hình 12: Mơ hình bài tốn 2: k-Means...26</i>
<i>Hình 13: Mơ hình bài tốn 3...28</i>
<b>MỤC LỤC BẢNG BIỂU</b> <i>Bảng 1: Mô tả biến...15</i>
<i>Bảng 2: Kết quả Ma trận nhầm lẫn của phương pháp Cây quyết định (Tree)...20</i>
<i>Bảng 3: Kết quả Ma trận nhầm lẫn của phương pháp Neural Network...21</i>
<i>Bảng 4: Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression...22</i>
<small>TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><i>Bảng 5: Kết quả Test and Score...23</i>
<small>TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>MỤC LỤC BIỂU ĐỒ</b>
<i>Biểu đồ 1: Kết quả Hierarchical Clustering...27</i>
<i>Biểu đồ 2: Kết quả k-Means...27</i>
<i>Biểu đồ 3: Tỷ lệ tình trạng khoản vay...29</i>
<i>Biểu đồ 4: Tỷ lệ tình trạng hôn nhân của khách hàng...30</i>
<i>1) Mục tiêu nghiên cứu...6</i>
<i>2) Đối tượng nghiên cứu...7</i>
2. Mô tả phương pháp...7
<i>1) Phân lớp dữ liệu (Classification)...7</i>
<i>2) Phân cụm dữ liệu...11</i>
3. Mô tả dữ liệu...14
<b>CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ...16</b>
1. Các kiến thức chuyên ngành có liên quan đến bài toán...16
2. Tiền xử lý dữ liệu...16
<i>1) Nội dung cần xử lý...16</i>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><i>2) Mơ hình xử lý...17</i>
<b>3. Bài toán số 1: Bài toán phân lớp (Liên quan gần)...17</b>
<i>1) Mơ tả bài tốn...17</i>
<i>2) Chạy mơ hình và kết quả...18</i>
<b>4. Bài toán số 2: Bài toán phân cụm (Liên quan gần)...24</b>
<i>1) Mơ tả bài tốn...24</i>
<i>2) Phương pháp Hierarchical Clustering...24</i>
<i>3) Phương pháp k-Means...25</i>
<i>4) Minh hoạ kết quả phân cụm...26</i>
<i>5) Đánh giá...27</i>
<b>5. Bài tốn số 3: Bài tốn so sánh (Khơng liên quan)...27</b>
<i>1) Mơ tả bài tốn...27</i>
<i>2) Chạy mơ hình và kết quả...28</i>
<b>CHƯƠNG III: KẾT LUẬN...33</b>
1. Những hạn chế trong quá trình làm dự án...33
2. Kết luận tổng...33
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>CHƯƠNG I: TỔNG QUAN1. Lý do chọn đề tài</b>
Ý nghĩ vay vốn là điều mà ít người Việt Nam dám nghĩ tới cách đây hơn chục năm về trước, nhưng giờ đây nó đã trở nên khá phổ biến. Người có nợ vay thậm chí cịn được nhiều người ví von là người giàu có. Hiện nay, các cá nhân và doanh nghiệp đã khơng cịn q xa lạ trước việc vay vốn từ ngân hàng hay các tổ chức tín dụng.
Vay vốn là số tiền mà một cá nhân hay một doanh nghiệp đi vay mượn từ các nguồn khác để sử dụng với điều kiện sẽ trả lại theo thời hạn cũng như yêu cầu mà bên cho vay đưa ra. Các doanh nghiệp sẽ có thể tiết kiệm thời gian, công sức và tiền bạc để tiếp cận các cơ hội mới và có được lợi thế cạnh tranh thơng qua sự hỗ trợ vốn nhanh chóng của các khoản vay.
Để duy trì khả năng cạnh tranh và phát huy hết tiềm năng của mình, một doanh nghiệp đang phát triển cần có khả năng tiếp cận với các nguồn vốn. Rất nhiều người khi kiếm được phần lớn doanh thu và lợi nhuận, trong thời điểm đó không ai muốn thất bại trong việc thực hiện kế hoạch tăng trưởng kinh doanh vì thiếu vốn lưu động (vốn có sẵn để làm việc). Chính vì vậy, các cá nhân và doanh nghiệp đã xem xét cách họ có thể tăng khả năng tiếp cận với nguồn tiền để chuẩn bị đầy đủ cho cả năm hoạt động như một phần trong kế hoạch kinh doanh của họ.
Nguồn vốn đi vay có thể thu được bằng nhiều cách. Cách tốt nhất cho từng người sẽ tuỳ thuộc vào hoạt động kinh doanh, tình hình tài chính, mục tiêu của cá nhân hoặc doanh nghiệp và mối quan hệ của bên đi vay vốn với các nhà cung cấp dịch vụ tài chính.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Vay theo sao kê thẻ tín dụng có thể là một lựa chọn cho một số trường hợp. Khoản vay thương mại là một lựa chọn khác. Khoản vay này ngồi việc có lãi suất cố định hoặc thả nổi, và lịch trả nợ vay đều đặn với một số tiền cố định mà người đi vay đồng ý trả cho người cho vay trong một thời hạn nhất định, chúng còn thường được sử dụng để cấp vốn tín dụng một lần. Tuy nhiên, ngay cả khi các khoản vay này được chấp thuận thì q trình này có thể mất vài tuần. Đối với những cá nhân kinh doanh nhỏ, lẻ, những khoản vay này thường mang tính bất ổn vì chúng có rủi ro cao.
Việc vay vốn kinh doanh là một quyết định lớn, vì vậy bạn nên xem xét các lựa chọn có sẵn từ các nhà cung cấp dịch vụ cho vay. Làm việc chăm chỉ và chỉ chọn những nhà cung cấp dịch vụ cho vay vốn có uy tín là điều tối trọng trước khi đưa ra quyết định vay vốn.
Ngày nay, việc vay vốn nay đã phổ biến hơn rất nhiều và mang lại nhiều lợi ích cho người đi vay khơng chỉ về vốn. Vì vậy, ở một mức độ nào đó, việc phân tích các điều kiện vay vốn tại Cơng ty tài chính Dream Housing có thể cung cấp
<i>cái nhìn sâu sắc về xu hướng thực tế của những bên cho vay khi xét duyệt hồ sơvay của khách hàng.</i> Ngoài ra, để <i>đánh giá khả năng thu hồi các khoản vay từkhách hàng có thể dự báo bằng cách sử dụng dữ liệu về các khoản vay đã được</i>
phê duyệt tại Cơng ty tài chính Dream Housing.
Chúng tơi đi sâu vào phân tích các hồ sơ vay vốn đã được xét duyệt tại một bên cho vay cụ thể là Cơng ty tài chính Dream Housing. Mục đích trọng yếu là đưa ra các yếu tố quan trọng cần chú ý khi cá nhân hoặc doanh nghiệp đi vay, để nắm bắt được nhu cầu của các bên cho vay, từ đó các cá nhân và doanh nghiệp có thể lựa chọn nơi cho vay và hình thức cho vay phù hợp với khả năng và yêu cầu của từng cá thể hoặc tập thể.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Đối với những bên cho vay, chúng tôi cũng tiến vào và phân tích các hồ sơ vay vốn đã được duyệt để các nhà cho vay có thể chú ý vào những khách hàng tiềm năng và tránh được những rủi ro khi thu hồi nợ. Thực tế có mn vàn loại khách hàng nên rủi ro là khó có thể tránh khỏi. Chúng tơi chỉ cung cấp những thơng tin khách quan để những nhà cho vay có thể dựa vào đó thu thập thêm kiến thức về những người đi vay vốn để không xảy ra những trường hợp không mong muốn và tránh những hoạt động kiện tụng pháp lý khơng đáng có, để việc cho vay và đi vay diễn ra suôn sẻ và dễ dàng hơn đối với mọi người.
Quan trọng hơn là, nhà khoa học dữ liệu Vikas Ukani đã thu thập dữ liệu từ bên thứ ba cung cấp bộ dữ liệu về hồ sơ những khách hàng đủ điều kiện vay vốn của Cơng ty tài chính Dream Housing và đăng tải chúng lên trên Kaggle một cách công khai và phi thương mại:
ZM.
Chúng tơi có thể thu thập dữ liệu từ thực tế một cách nhanh chóng và chính xác theo cách này. Xuất phát từ những lý do trên, chúng tôi đã lựa chọn đề tài
<b>“Đánh giá điều kiện vay vốn của khách hàng và khả năng thu hồi các khoảnvay từ khách hàng” làm báo cáo tổng kết môn học.</b>
<b>1) Mục tiêu nghiên cứu</b>
Bài nghiên cứu này giới thiệu hai phương pháp phân cụm phân cấp Hierarchical và k-Means để phân loại khách hàng theo các điều kiện xét duyệt khoản vay. Bên cạnh đó, ba phương pháp phân lớp khác nhau: Logistic Regression,
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Tree, Neural Network để xem xét khả năng thu hồi nợ cao hay thấp – nhằm dự đốn xem khách hàng có đủ điều kiện để vay hay khơng; sau đó lựa chọn phương pháp phân lớp thích hợp nhất để xây dựng mơ hình dự đốn sao cho sai số là nhỏ nhất đó là phương pháp Tree. Xác định mơ hình chẩn đốn chính xác nhất về danh sách khách hàng đủ điều kiện vay vốn trong tập dữ liệu này để đưa ra dự báo (Prediction) có độ chính xác cao để xem xét việc thu hồi vốn của Cơng ty tài chính Dream Housing. Cuối cùng là so sánh các điều kiện nhằm xác định được khả năng thu hồi khoản vay từ khách hàng.
<b>2) Đối tượng nghiên cứu</b>
Sử dụng bộ dữ liệu bao gồm các thông tin công khai về danh sách những khách hàng có nhu cầu vay vốn của Cơng ty tài chính Dream Housing.
<b>2. Mơ tả phương pháp</b>
<b>1)Phân lớp dữ liệu (Classification)</b>
<i><b>A. Định nghĩa</b></i>
Phân lớp dữ liệu là quá trình phân loại tập dữ liệu thành một hay nhiều lớp có sẵn nhờ một mơ hình phân lớp. Mơ hình phân lớp được xây dựng dựa trên một tập dữ liệu huấn luyện trước đó. Từ đó, mơ hình sẽ áp dụng cho tập dữ liệu kiểm thử và cho ra kết quả được gán nhãn theo lớp.
<i><b>B. Quá trình phân lớp dữ liệu</b></i>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i>Hình 1: Mơ hình phân lớp dữ liệu</i>
<b>Bước 1: Xây dựng mơ hình (giai đoạn “học”)</b>
- Đầu vào là các dữ liệu đã hoàn tất tiền xử lý và được gán nhãn.
- Sử dụng một số thuật toán phân lớp phổ biến: Decision Tree, SVM, Logistic Regression,…
- Kết quả sẽ cho ra phương án phân lớp của từng phương pháp, tùy vào đặc điểm của tập dữ liệu mà lựa chọn phương pháp phân lớp phù hợp.
<b>Bước 2: Đánh giá mơ hình phân lớp (kiểm tra và đo lường độ chính xác)- Đầu vào là tập dữ liệu mới đã hoàn tất tiền xử lý và gán nhãn.</b>
<b>- So sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả của mơ hình phân</b>
lớp để kiểm tra tính đúng đắn của mơ hình.
<i><b>C. Các phương pháp phân lớp được áp dụng</b></i>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><b>- Hồi quy logistic (Logistic Regression): Là một kĩ thuật phân tích dữ liệu bằng</b>
mơ hình xác suất nhằm dự đoán giá trị đầu ra rời rạc từ một tập giá trị đầu vào (biểu thị dưới dạng vector).
<i>Hình 2: Ví dụ minh họa Logistic Regression</i>
<b>- Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là một</b>
đồ thị các quyết định kèm theo các kết quả/hậu quả có thể xảy ra nhằm hỗ trợ q trình đưa ra quyết định. Ngồi ra, cây quyết định được dùng để mô tả, phân loại và tổng quát hóa tập dữ liệu.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><i>Hình 3: Ví dụ minh họa Decision Tree</i>
<b>- Mạng nơ-ron nhân tạo (Neural Network): Là phương pháp sử dụng các thuật</b>
tốn phức tạp để xử lý thơng tin bằng cách học theo mơ hình hoạt động của các tế bào thần kinh trong não người. Mạng nơ-ron nhân tạo tìm kiếm các mối quan hệ cơ bản trong tập dữ liệu, kết nối chúng tạo thành một mạng lưới.
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><i>Hình 4: Ví dụ minh họa Neural Network</i>
<b>2) Phân cụm dữ liệu</b>
<i><b>A. Định nghĩa</b></i>
Phân cụm dữ liệu là q trình gom cụm (nhóm) các đối tượng dữ liệu có đặc điểm tương đồng vào các cụm tương ứng. Các đối tượng được gom chung một nhóm sẽ có những đặc điểm, tính chất tương tự nhau và ngược lại. Dữ liệu sử dụng trong bài toán phân cụm là dữ liệu chưa được gán nhãn và cũng là loại dữ liệu tự nhiên, phổ biến trong thực tế.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><i><b>B. Quá trình phân cụm dữ liệu</b></i>
<i>Hình 5: Mơ hình phân cụm dữ liệu</i>
<i><b>C. Các phương pháp phân cụm được sử dụng</b></i>
<b>- Phân cụm phân cấp (Hierarchical clustering)</b>
Hierarchical Clustering sẽ xây dựng một cây phân cấp dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
Độ đo khoảng cách giữa các cụm (single link, complete link…)
Phương pháp này không cần xác định trước số cụm nhưng cần thiết lập điều kiện dừng.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><i>Hình 6: Ví dụ minh họa Hierarchical Clustering</i>
<b>- Thuật tốn k-means: là thuật tốn thuộc nhóm phân cụm dựa trên sự phân</b>
hoạch. k-Means xác định mỗi đối tượng trong tập dữ liệu là mỗi điểm trong không gian d chiều (với d là số lượng các thuộc tính của đối tượng)
Bước 1: Chọn k điểm bất kỳ trong không gian làm các điểm trung tâm ban đầu của mỗi cụm.
Bước 2: Nối mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. k-Means sẽ chạy cho đến khi các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước.
Bước 3: Đặt lại điểm trung tâm của từng cụm bằng cách lấy trung bình cộng của tất cả các điểm dữ liệu đã được nhóm vào cụm đó ở bước 2.
Bước 4: Trở lại bước 2.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><i>Hình 7: Ví dụ minh họa k-Means</i>
<b>3. Mơ tả dữ liệu</b>
<i>Mô tả bộ dữ liệu khai thác:</i>
Bộ dữ liệu được sử dụng là tổng hợp các điều kiện kiểm duyệt khoản vay của các khách hàng được lập ra bởi Cơng ty tài chính Dream Housing.
Thơng tin của các thuộc tính được liệt kê sau đây:
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Married Tình trạng hơn nhân Yes/No
CoapplicantIncome Thu nhập phụ của người đi vay
Số tiền (USD)
<i>Bảng 1: Mô tả biến</i>
Nhờ tự động hóa quy trình nhận biết những khách hàng đủ điều kiện cho vay mà Cơng ty có thể xác định phân khúc khách hàng, chọn lọc những đối tượng mục tiêu để cho vay và dự đoán khả năng những khoản vay đó trong tương lai có tỉ lệ thu hồi cao hay thấp.
<b>CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ1. Các kiến thức chuyên ngành có liên quan đến bài toán</b>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Kế toán là theo dõi quá trình hình thành, biến động vốn của doanh nghiệp cần phản ánh và được thể hiện dưới hai dạng: tài sản và nguồn vốn trong quá trình hoạt động kinh doanh. Kế tốn ngân hàng là cơng việc thu thập, kiểm tra, xử lý các số liệu nhằm cung cấp thơng tin về kinh tế, tài chính cho các ngân hàng nhằm quản lý hoạt động tiền.
Trong ngành này, việc đảm nhận vai trò như thế nào sẽ phụ thuộc vào cấp bậc, địa điểm khác nhau. Nhưng nhìn chung, cơng việc của một kế tốn viên sẽ bao gồm những hoạt động sau:
<b>- Tiếp nhận và xử lý các sự kiện kinh tế của doanh nghiệp.- Ghi chép, phân loại và tổng hợp các giao dịch.</b>
<b>- Lập báo cáo về tình hình hoạt động tài chính của doanh nghiệp đưa lên cho ban</b>
lãnh đạo.
<b>- Phân tích các báo cáo tài chính của doanh nghiệp cho người sử dụng, bên cạnh</b>
đó là tham mưu cho ban lãnh đạo.
Ở dự án lần này, chúng tôi đã áp dụng các kiến thức chuyên ngành để nghiên cứu và xác định mơ hình chẩn đốn chính xác nhất về danh sách khách hàng đủ điều kiện vay vốn của Cơng ty tài chính Dream Housing, mục đích là để cho các nhà cho vay có thể chú ý vào những khách hàng tiềm năng và tránh những rủi ro khi thu hồi nợ.
<b>2. Tiền xử lý dữ liệu1) Nội dung cần xử lý</b>
<b>- Sử dụng công cụ Preprocess trong phần mềm Orange để thêm các giá trị còn</b>
thiếu ở trong bảng dữ liệu bằng cách lấy giá trị trung bình của các thuộc tính. Ta có được bảng dữ liệu “LOAN” để phục vụ cho việc phân tích các bài toán.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b>- Từ bảng dữ liệu “LOAN” ta phân chia dữ liệu làm hai phần gồm “Loan-data”</b>
(chiếm 70%) và “Loan-forecast” (chiếm 30%) từ bộ dữ liệu “loan-train”.
<b>- Lưu hai phần dữ liệu đã chia để sử dụng cho bài tốn phân lớp.2) Mơ hình xử lý</b>
<i>Hình 8: Mơ hình tiền xử lý dữ liệu</i>
<b>3. Bài tốn số 1: Bài tốn phân lớp (Liên quan gần)1) Mơ tả bài toán (Phân lớp các khách hàng vay vốn)</b>
Dựa vào đặc điểm của dữ liệu tập huấn (dữ liệu đầu vào) tiến hành thiết lập mơ hình phân lớp các khách hàng vay vốn bằng các phương pháp phân lớp như: Tree, Neural Network, Logistic Regression,...
Thông qua kết quả từ Ma trận nhầm lẫn và Test and Score để đánh giá phương pháp dự đốn có tỷ lệ chính xác nhất đồng thời giảm thiểu tối đa sai lầm loại II.
Dùng phương pháp phân lớp được chọn để dự đoán được loại khách hàng vay vốn từ dữ liệu kiểm thử để đưa ra phương án kịp thời nhằm đảm bảo các khoản nợ cho vay thành công sẽ được thu hồi đúng hạn.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">Bài toán phân loại khách hàng được sử dụng cho hai mục đích, đối với bộ phận kinh doanh giúp dự đoán được khả năng khoản vay được duyệt, đồng thời cung cấp cho nhà quản lý một cái nhìn khách quan về khách hàng, và những thơng tin giúp cho bộ phận kế tốn có thể theo dõi các khoản nợ về sau này. Do đó, bài tốn 1 này có liên quan gần với chun ngành Kế tốn.
<b>2) Chạy mơ hình và kết quả</b>
<b>- Bước 2: Dùng ba phương pháp là: Tree, Neural Network và Logistic Regression</b>
để tiến hành phân loại các khách hàng và đánh giá hiệu quả của từng phương pháp nhằm tìm ra phương pháp tối ưu.
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><b>- Bước 3: Dùng phương pháp tối ưu và hiệu quả nhất để dự đoán cho File dữ liệu</b>
<i><b>C. Nhận xét Ma trận nhầm lẫn</b></i>
<b>- Sai lầm loại 2: Dự đoán khách hàng đủ điều kiện vay vốn (1), nhưng thực tế</b>
khách hàng không đủ điều kiện để vay vốn (0). Việc đánh giá sai về điều kiện của khách hàng ảnh hưởng đến hoạt động kinh doanh bởi vì nếu cho những khách hàng không đủ điều kiện vay vốn vay thì ta sẽ khó có thể thu hồi lại được khoản vay đã cho vay.
<b>- So sánh sai lầm loại 2 của các phương pháp:</b>
Tree = 54 < Neural Network = 73 < Logistic Regression = 125.
<i>Bảng 2: Kết quả Ma trận nhầm lẫn của phương pháp Cây quyết định (Tree)</i>
</div>