Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 61 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>Giảng viên hướng dẫn: THS.Nguyễn Mạnh Tuấn</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><i> Trước khi bước vào nội dung chính của dự án, nhóm 7 xin dành một lời cảm</i>
ơn sâu sắc đến giảng viên phụ trách giảng dạy chúng em môn Khoa học dữ liệu - thầy Nguyễn Mạnh Tuấn, vì những kiến thức hay, bổ ích mà thầy đã truyền đạt trong suốt 6 buổi học của học phần này. Đối với chúng em, môn Khoa học dữ liệu là một mơn khá khó và khơ khan, lại bao hàm nhiều kiến thức, đòi hỏi rất nhiều sự chăm chỉ, khả năng tiếp thu và nhạy bén đối với những dữ liệu. Tuy nhiên, qua cách giảng dạy của thầy, môn học này dần trở nên gần gũi và thú vị hơn. Quan trọng hơn hết, chúng em hiểu rõ được tính thực tiễn của mơn học. Nhờ những điều đó, nhóm mới có thể tiến hành thực hiện dự án cũng như có thêm nhiều kỹ năng để hỗ trợ chúng em trong suốt quá trình học tập và cơng việc sau này.
Bài tiểu luận được thực hiện bằng cả tâm huyết, tinh thần học hỏi, tìm tịi và vận dụng bài học trên lớp của các thành viên trong nhóm. Dù vậy, nhóm cũng biết rằng bài vẫn sẽ cịn nhiều thiếu sót do sự thiếu kinh nghiệm và kiến thức chuyên môn về lĩnh vực Khoa học dữ liệu. Thế nên, nhóm chúng em cũng mong sẽ nhận được lời góp ý quý báu từ thầy để mỗi thành viên có thêm kinh nghiệm thực hiện các dự án khác trong tương lai.
Lời cuối, nhóm 7 xin chúc thầy Nguyễn Mạnh Tuấn thật nhiều sức khỏe và gặt hái được nhiều thành công trong công việc giảng dạy. Chúng em rất biết ơn sự đồng hành của thầy trong suốt học phần vừa qua.
<b>BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA CỦA CÁC THÀNH VIÊN</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Báo cáo tài chính là bức chân dung tồn cảnh về tình hình tài chính của một doanh nghiệp, khơng chỉ kiểm tốn viên mà kế tốn và chuyên viên phân tích tài chính cũng rất coi trọng và được xem là mối quan tâm hàng đầu của họ. Vậy nên, dù khơng thuộc chun ngành Kiểm tốn, nhưng chúng em – các sinh viên ngành Tài chính và Kế tốn doanh nghiệp, ln cập nhật, theo dõi các thông tin liên quan đến vấn đề gian lận trong Báo cáo tài chính. Nhóm quyết định chọn đề tài
<i>“Ứng dụng khoa học dữ liệu vào phát hiện rủi ro gian lận báo cáo tài chính”, với</i>
mong muốn tiếp cận vấn đề này theo góc độ Kiểm tốn kết hợp với kiến thức chuyên ngành và những kiến thức được học trong mơn Khoa học dữ liệu. Với góc độ này, việc phát hiện rủi ro gian lận trong Báo cáo tài chính sẽ được phân tích rõ ràng và hợp lý hơn.
<b>- Bài toán 1 - Liên quan: Thực hiện dự báo về khả năng doanh nghiệp sẽ lợi</b>
<i>dụng các khoản thanh toán của khách hàng để che giấu công nợ nhằm gian lậntrên báo cáo tài chính (bài tốn phân lớp). Chun ngành Kế tốn doanh</i>
<i>nghiệp địi hỏi tính khách quan, trung thực trong việc trích lập các khoản dự</i>
phịng vì mọi nghiệp vụ phải có cơ sở kèm theo hóa đơn, chứng từ. Ở bài tốn này, nhóm đã vận dụng các ngun tắc kế toán cũng như Khoản phải thu khách hàng (TK131) và Dự phịng phải thu khó địi (TK2293) cùng với các kiến thức tìm hiểu thêm về kiểm tốn, làm cơ sở để thực hiện dự báo rủi ro gian lận của các doanh nghiệp. Từ đó, bộ phận kế tốn có thể vận dụng để đề phịng sự sai lệch và chủ động ngăn chặn gian lận đối với việc ghi nhận thông tin tài sản trong báo cáo tài chính của doanh nghiệp.
<b>- Bài tốn 2 - Liên quan gần: Phát hiện công ty gian lận trong nhóm các cơng</b>
ty cùng tính chất (bài tốn phân cụm). Bài toán này liên quan nhiều hơn đối
<i>với chuyên ngành Kiểm tốn, vì ngành Kế tốn thường làm việc với một hay</i>
rất ít cơng ty khác nhau nhằm đảm bảo chất lượng cơng việc. Đối với chun ngành Tài chính, việc phân dữ liệu của các công ty thành các cụm khác nhau từ những điểm bất hợp lý trong báo cáo tài chính cũng rất cần thiết. Qua đó, ta có thể hiểu rõ được tình hình tài chính của các công ty một dễ dàng và thuận tiện hơn giúp bộ phận tài chính đưa ra định hướng hoặc giải pháp đầu tư đúng đắn.
<b>- Bài toán 3 - Liên quan: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận</b>
trong dữ liệu bằng các công cụ thống kê của Orange. Với bài tốn này, nhóm
<i>vận dụng kiến thức Tài chính và Kiểm tốn nhiều hơn qua việc quan sát và</i>
đánh giá các biểu đồ liên quan đến rủi ro gian lận báo cáo. Đối với chuyên ngành Tài chính, việc vận dụng các biểu đồ thể hiện sự tương quan giữa các báo cáo, sự chênh lệch tình hình tài chính ở nhiều thời điểm khác nhau là vô cùng quan trọng. Vậy nên, kỹ năng phân tích đồ thị rất cần thiết trong việc tìm hiểu và nghiên cứu về lĩnh vực Tài chính doanh nghiệp.
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b><small>BẢNG BIỂU</small></b>
<i>Bảng 1.1: Bảng mơ tả cấu trúc của bộ dữ liệu về Credit Risk Dataset...9</i>
<i>Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data...10</i>
<b><small>HÌNH ẢNH</small></b> <i>Hình 1. 1: Biểu đồ: Tam giác gian lận của Cressey (1953)...2</i>
<i>Hình 1. 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm tốntrong năm 2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng)...4</i>
<i>Hình 2. 1: Minh họa phương pháp Phân lớp dữ liệu (Classification)...11</i>
<i>Hình 2. 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression)...13</i>
<i>Hình 2. 3: Minh họa Phân loại theo 2 nhóm...13</i>
<i>Hình 2. 4: Mơ hình phương pháp SVM (Support Vector Machine)...15</i>
<i>Hình 2. 5:Sơ đồ mơ hình sử dụng phương pháp SVM (Support Vector Machine)...15</i>
<i>Hình 2. 6:Minh họa phương pháp Cây quyết định (Decision Tree)...16</i>
<i>Hình 2. 7: Sơ đồ mơ hình sử dụng phương pháp Cây quyết định (Decision Tree)...17</i>
<i>Hình 2. 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering)...18</i>
<i>Hình 2. 9: Kết quả phân cụm của thuật tốn kmeans...20</i>
<i>Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree...21</i>
<i>Hình 2.11: Mơ tả xử lý những dữ liệu bị mất...24</i>
<i>Hình 2. 12: Mơ tả phân tách thành bộ dữ liệu huấn luyện 70%...25</i>
<i>Hình 2.13: Mơ tả phân tách thành bộ dữ liệu dự báo 30%...25</i>
<i>Hình 2.14: Mơ hình dự báo ở bài tốn 1...28</i>
<i>Hình 2.15: Kết quả đánh giá bài toán 1 theo Hồi quy Logistic (Logistic Regression)...29</i>
<i>Hình 2.16: Kết quả đánh giá bài tốn 1 theo Cây quyết định (Decision Tree)30Hình 2.17: Kết quả đánh giá bài tốn 1 theo SVM (Support Vector Machine)30Hình 2. 18: Kết quả đánh giá bài toán 1 qua Test and Score và quyết định chọn phương pháp nghiên cứu...31</i>
<i>Hình 2. 19: Kết quả nghiên cứu của bài toán 1...32</i>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><i>Hình 2. 20: Kiểm tra mức độ chính xác của dự báo bằng cơng cụ Excel...33</i>
<i>Hình 2. 21: Tổng quan mơ hình Decision Tree qua Tree Viewer...33</i>
<i>Hình 2. 22: Minh họa xây dựng mơ hình bài tốn 2...36</i>
<i>Hình 2. 23: Minh họa kết quả phân loại K-Means sau khi chạy mơ hình...36</i>
<i>Hình 2. 24: Minh họa đánh giá kết quả...37</i>
<i>Hình 2. 25: Minh họa kết quả phân cụm...37</i>
<i>Hình 2. 26: Bảng dữ liệu kết quả phân cụm...38</i>
<i>Hình 2. 27:Biểu đồ: Kết quả phân cụm theo thuộc tính Numbers...38</i>
<i>Hình 2. 28: Biểu đồ: Kết quả phân cụm theo thuộc tính Money_Value...39</i>
<i>Hình 2. 29: Biểu đồ: Kết quả phân cụm theo thuộc tính Total...39</i>
<i>Hình 2. 30: Kết quả phân cụm được tổng hợp trên Feature Statistics...40</i>
<i>Hình 2. 31: Minh họa xây dựng mơ hình bài tốn 3...41</i>
<i>Hình 2. 32: Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt A...42</i>
<i>Hình 2. 33:Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt B...42</i>
<i>Hình 2. 34:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo A...43</i>
<i>Hình 2. 35:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo B...43</i>
<i>Hình 2. 36:Biểu đồ: Chỉ số chênh lệch khác biệt trong quá khứ...44</i>
<i>Hình 2. 37:Biểu đồ: Chỉ số liên quan đến sai sót về tiền...45</i>
<i>Hình 2. 38:Tổng số lượng khác biệt của các báo cáo khác...45</i>
<i>Hình 2. 39:Bỏ qua các thuộc tính ngoại trừ Audit Risk...46</i>
<i>Hình 2. 40:Lọc đối tượng Audit_Risk với giá trị lớn hơn 1...46</i>
<i>Hình 2. 41:Bảng minh họa kết quả Risk khi Audit Risk lớn hơn 1...47</i>
<i>Hình 2. 42:Bảng tổng hợp biểu đồ Inherent_Risk, CONTROL_RISK, Detection_Risk và Audit_Risk theo biến phụ thuộc Risk...47</i>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b><small>MỤC LỤ</small></b>
<b>PHẦN I: KHÁI QUÁT ĐỒ ÁN---1</b>
<b>1. Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay---1</b>
1.1. Báo cáo tài chính---1
1.1.1. Khái niệm Báo cáo tài chính---1
1.1.2. Hệ thống báo cáo tài chính---1
1.2. Gian lận và sai sót trong báo cáo tài chính---2
1.2.1. Khái niệm---2
1.2.2. Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mơ hình Tam giác gian lận---2
1.2.3. Những hình thức gian lận báo cáo tài chính phổ biến---3
1.2.4. Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam3 1.2.5. Yêu cầu của kế toán và kiểm toán viên đối với gian lận và sai sót trong Báo cáo tài chính---4
<b>2. Lý do chọn đề tài---6</b>
<b>3. Mục tiêu nghiên cứu---7</b>
<b>4. Đối tượng nghiên cứu---7</b>
<b>5. Mô tả dữ liệu và cấu trúc dữ liệu---8</b>
<b>PHẦN II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ---11</b>
<b>1. Các phương pháp dự đốn và quy trình cụ thể---11</b>
1.1. Phân lớp dữ liệu (Classification)---11
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng các khoản thanh toán của khách hàng, từ đó che giấu cơng nợ nhằm gian lận
trên báo cáo tài chính.---26
a) Mơ tả bài toán---26
b) Các kiến thức chuyên ngành liên quan đến bài tốn---27
c) Xây dựng mơ hình và đánh giá kết quả---27
d) Kết quả dự báo---32
Bài toán 2: Phát hiện cơng ty gian lận trong nhóm các cơng ty cùng tính chất---35
a) Mơ tả bài tốn và tiền xử lý dữ liệu:---35
b) Các kiến thức chuyên ngành liên quan đến bài tốn:---35
c) Xây dựng mơ hình và đánh giá kết quả:---36
Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong dữ liệu---41
<b>PHẦN III: KẾT QUẢ VÀ KẾT LUẬN---48</b>
<b>1. Đánh giá các kết quả đạt được---48</b>
<b>2. Kết luận tổng quan về đề tài---48</b>
<b>3. Những hạn chế:---50</b>
<b>4. Giải pháp/ đề xuất hạn chế gian lận trong báo cáo tài chính:---50</b>
<b>PHẦN IV: TÀI LIỆU THAM KHẢO---52</b>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>1. Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay</b>
<b>1.1. Báo cáo tài chính</b>
<b>1.1.1. Khái niệm Báo cáo tài chính</b>
<i>- Báo cáo tài chính là</i>“một tập hợp gồm nhiều báo cáo do doanh nghiệp cung cấp, cho biết thơng tin về tình trạng tài chính, kết quả hoạt động và luồng tiền của doanh nghiệp nhằm giúp những đối tượng bên ngoài như nhà đầu tư, chủ nợ và những đối tượng khác có thơng tin để thực hiện quyết định kinh tế của mình.”
- Tại Việt Nam, Báo cáo tài chính là “hệ thống thơng tin kinh tế tài chính được đơn vị kế tốn cung cấp và trình bày theo mẫu biểu quy định tại Chuẩn mực kế toán (VAS) và Chế độ kế toán Việt Nam”.
<b>1.1.2. Hệ thống báo cáo tài chính</b>
<i>Hệ thống BCTC của các đơn vị kế toán thuộc hoạt động kinh doanh baogồm:</i>
<b>- Báo cáo tình hình tài chính (Bảng cân đối kế tốn): Báo cáo tài chính</b>
tổng hợp, thể hiện thơng tin về Tài sản và nguồn hình thành nên tài sản (Nguồn Vốn) của đơn vị tại một thời điểm nhất định.
<b>- Báo cáo kết quả hoạt động kinh doanh: Báo cáo tài chính phản ánh</b>
một cách tổng quát về tình hình và kết quả hoạt động của doanh nghiệp đó (bao gồm kết quả hoạt động kinh doanh thông thường và các kết quả khác) trong một thời kỳ nhất định.
<b>- Báo cáo lưu chuyển tiền tệ: Báo cáo tài chính phản ánh việc hình thành</b>
và sử dụng lượng tiền theo các hoạt động khác nhau trong một thời kỳ nhất định.
<small>1</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>- Bản thuyết minh báo cáo tài chính: Một bộ phận của BCTC, cung cấp</b>
thông tin bổ sung cho những báo cáo tài chính khác và cung cấp thêm những thơng tin cần thiết khác theo yêu cầu của Chuẩn mực kế toán.
<b>1.2. Gian lận và sai sót trong báo cáo tài chính1.2.1. Khái niệm</b>
<i>Theo như Chuẩn mực kiểm tốn Việt Nam (VSA 240), Gian lận được xem</i>
là hành vi cố ý do một cá nhân hay tập thể trong Ban quản trị, Ban Giám đốc, những nhân viên hoặc do bên thứ ba thực hiện bằng những hành vi gian dối nhằm thu lợi bất chính về cho bản thân hoặc có hành vi bất hợp pháp.
<b>1.2.2. Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mơ hình Tam giác gian lận</b>
<i>Năm 1950, ông Donald Cressey thực hiện nghiên cứu về vấn đề “gian lận,tham ô và biển thủ” bằng cách phỏng vấn khoảng 200 tội phạm kinh tế. Từ</i>
đó đưa ra kết luận rằng hành vi phạm tội được hình thành từ 3 yếu tố:
<b>“Động cơ – Cơ hội – Sự biện minh.”</b>
<i><small> Hình 1. 1: Biểu đồ: Tam giác gian lận của Cressey (1953)</small></i>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>- Động cơ/ Áp lực: Áp lực khi gặp các khó khăn gặp phải về mặt tài</b>
chính; áp lực về lợi ích kinh tế có thể đạt được, hay phải hồn thành được những chỉ tiêu mà doanh nghiệp đã đề ra nhằm duy trì chiều hướng phát triển tốt trước những cổ đông, chủ sở hữu cũng như công chúng có quan tâm đến doanh nghiệp, từ đó thu hút vốn đầu tư; Doanh nghiệp muốn giảm bớt gánh nặng thuế; Cải thiện tình hình sản xuất kinh doanh, tạo cho các chủ nợ (ngân hàng, người cho vay) niềm tin về triển vọng phát triển của doanh nghiệp để thu hút nguồn vốn.
<b>- Cơ hội: Cơ chế kiểm sốt lỏng lẻo, thiếu chặt chẽ; Cá nhân có một vị trí</b>
đáng tin cậy và hiểu rõ những khuyết điểm cụ thể của bộ phận kiểm soát nội bộ;...
<b>- Sự biện minh: Một số cá nhân có thái độ, tính cách hoặc hệ thống các</b>
giá trị đạo đức sai lệch (tham lam, xem thường pháp luật,...), điều này cho phép họ thực hiện một hành vi gian lận một cách cố ý. Họ luôn biết cách biện hộ để hợp lý hóa hành vi gian lận của mình.
<b>1.2.3. Những hình thức gian lận báo cáo tài chính phổ biến</b>
- Ghi nhận doanh thu, lợi nhuận ảo - Che giấu cơng nợ và các khoản chi phí - Định giá sai tài sản
- Ghi nhận sai thời điểm, sai niên độ
- Tăng vốn ảo thông qua việc lạm dụng các công ty con - Thực hiện các cuộc giao dịch khống
- Thiếu sót trong việc khai báo thông tin
<b>1.2.4. Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam</b>
Ngày nay, từ khóa “gian lận” đang được xem là một chủ đề “nóng hổi” mà các doanh nghiệp, chính phủ và nhà đầu tư luôn chú ý và quan tâm tới. Trong những năm gần đây, các tin tức về hàng loạt vụ gian lận báo cáo tài chính bị “phanh phui” khiến cộng đồng nhà đầu tư lo lắng, e ngại về tính xác thực và đáng tin cậy của các báo cáo tài chính được cung cấp bởi các
<small>3</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">doanh nghiệp, khi mà càng ngày càng có sự cách biệt lớn trong kết quả kinh doanh, chuyển từ lãi sang lỗ nặng sau khi thực hiện kiểm tốn.
<i><small>Hình 1. 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm toán trong năm2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng)</small></i>
Các doanh nghiệp thường đưa ra nhiều lời giải trình cho hiện tượng sai lệch nghiêm trọng trong báo cáo tài chính của mình bằng nhiều lí do khác nhau như: Thiếu khoản ghi nhận trích lập dự phịng; sự yếu kém, thiếu cẩn trọng của bộ phận kế toán; sự khác biệt trong phương thức kế toán giữa doanh nghiệp và kiểm tốn;… Nhưng dù là lí do gì thì điều này vẫn gây nên tổn thất nặng nề đối với lợi ích của các nhà đầu tư, tạo cho họ tâm lý hoang mang, thiếu an toàn khi bước vào thị trường đầu tư. Đây là một thực trạng đáng e ngại và cần có những biện pháp ngăn chặn để đảm bảo sự phát triển của nền kinh tế.
<b>1.2.5. Yêu cầu của kế toán và kiểm tốn viên đối với gian lận và sai sót trong Báo cáo tài chính</b>
Kế tốn và kiểm tốn viên là hai đối tượng làm việc trực tiếp với báo cáo tài chính. Vậy nên, cả hai vị trí kế tốn và kiểm tốn đều cần có sự đồng nhất, hợp tác với nhau trong việc chịu trách nhiệm và phát hiện ra những sai sót và gian lận trong Báo cáo tài chính.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">IFAC (Liên đồn Kế toán Quốc tế) nêu rõ các nguyên tắc cơ bản cho người
<b>hành nghề kế toán chuyên nghiệp và kiểm toán là “sự chính trực; tínhkhách quan; năng lực chun mơn; tính cẩn trọng; tính bảo mật; cáchhành xử chuyên nghiệp”.</b>
<b>- Sự chính trực: Thẳng thắn, trung thực, tách bạch rõ ràng các mối quan</b>
hệ chuyên môn và kinh doanh. Nghiêm túc tuân thủ các qui định của pháp luật và các nguyên tắc nghề nghiệp về gian lận và sai sót trong báo cáo tài chính.
<b>- Tính khách quan: Cơng bằng, nghiêm minh, không thiên vị hay để bất</b>
kỳ xung đột lợi ích nào chi phối những xét đốn chun môn liên quan đến hoạt động kinh doanh.
<b>- Năng lực chun mơn: Có nền tảng tốt và ln ý thức duy trì những kiến</b>
thức chuyên ngành và khả năng chuyên môn ở mức cần thiết nhằm đảm bảo tốt chất lượng của báo cáo tài chính và các cơng việc được giao ở mọi thời điểm. Bên cạnh đó, thường xuyên cập nhật các chuẩn mực mới về trình bày báo cáo tài chính cũng như phát hiện gian lận trong báo cáo tài chính.
<b>- Tính cẩn trọng: Cẩn thận, kịp thời, kỹ lưỡng và có trách nhiệm với các</b>
yêu cầu của công việc, đặc biệt là đối với các thơng tin được ghi nhận trong báo cáo tài chính.
<b>- Tính bảo mật: Phải có quy tắc bảo mật thơng tin từ các mối quan hệ</b>
chuyên môn và kinh doanh (khách hàng, nội bộ doanh nghiệp,…) cả trong và ngoài mơi trường làm việc, trừ khi có sự u cầu giải trình của pháp luật, các cơ quan quản lý hoặc tổ chức nghề nghiệp.
<b>- Tư cách nghề nghiệp: Tuân thủ pháp luật và các quy định có liên quan.</b>
Tránh những hành động thiếu chuyên nghiệp làm giảm uy tín nghề nghiệp của mình (Cường điệu về cơng việc, trình độ, kinh nghiệm; đưa thông tin sai lệch, so sánh tiêu cực gây ảnh hưởng xấu đến nghề nghiệp;…). Đặc biệt, phải có tinh thần cầu tiến, hợp tác, tránh gây ra các mâu thuẫn, xung đột giữa kế toán và kiểm tốn viên trong cơng tác kiểm sốt và sửa chữa khi có sai sót, gian lận báo cáo tài chính.
<small>5</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><b>2. Lý do chọn đề tài</b>
Trong bối cảnh ngày nay, báo cáo tài chính là rất quan trọng và cần thiết để các nhà quản lý, những nhà đầu tư, nhà cung cấp, các cơ quan quản lý,… đưa ra được quyết định sáng suốt nhằm giảm thiểu rủi ro và tối đa hóa lợi nhuận nhận được. Báo cáo tài chính mang đến một cái nhìn tổng quát về tình hình kinh doanh của doanh nghiệp, từ đó giúp chủ doanh nghiệp đánh giá được khả năng kinh doanh cũng như những vấn đề tiềm tàng cần được xử lý kịp thời, cũng như căn cứ vào các thông tin đã được báo cáo để điều hành các hoạt động kinh doanh diễn ra theo đúng tiến độ. Bên cạnh đó, dựa vào báo cáo tài chính mà các nhà đầu tư cũng như chủ nợ của doanh nghiệp có thể phán đốn được khả năng sinh lời và tín dụng của doanh nghiệp. Đồng thời, thể hiện rõ về tình hình vốn của doanh nghiệp cũng như nguồn vốn này đến từ đâu và khả năng sử dụng như thế nào, nhờ đó doanh nghiệp trở nên linh hoạt và kiểm sốt tình hình sử dụng vốn tốt hơn.
Báo cáo tài chính phản ánh sức khỏe của một doanh nghiệp, báo cáo tài chính càng minh bạch doanh nghiệp càng phát triển vững mạnh. Tuy nhiên, tình hình gian lận báo cáo tài chính trên thế giới đang lan rộng và trở nên nghiêm trọng hơn, gây ảnh hưởng lớn đến doanh nghiệp cũng như những nhà đầu tư. Đối với những đất nước có thị trường vốn thì việc gian lận báo cáo tài chính sẽ tác động lớn đến sự tin tưởng của những người đang quan tâm đến thông tin của thị trường trên.
Nhận thức được những ảnh hưởng tiêu cực mang lại, tại Việt Nam thì Bộ
<b>tài chính đã ban hành chuẩn mực kiểm toán số 240 (VSA 240) ban hành</b>
năm 2001 về trách nhiệm của kiểm toán viên liên quan đến gian lận trong q trình kiểm tốn báo cáo tài chính. Trong đó, gian lận là một khái niệm pháp lý tương đối rộng, nên kiểm toán viên chỉ quan tâm đến những gian lận dẫn đến sai sót trọng yếu. Mục tiêu cuối cùng của kiểm tốn viên và các cơng ty kiểm tốn trên thế giới là tìm và đánh giá rủi ro có sai sót trọng yếu trong báo cáo tài chính do hành vi gian lận gây ra, từ đó thu thập tồn bộ những bằng chứng kiểm toán phù hợp về những rủi ro có sai sót trọng yếu do gian lận đã được đánh giá. Thế nhưng quá trình áp dụng các chuẩn mực trên vào thực tế vẫn còn gặp nhiều khó khăn.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Những tác động xấu mà gian lận báo cáo tài chính gây ra là vô cùng nghiêm trọng. Đối với nhà đầu tư cũng như chủ nợ, họ sẽ khó phán đốn được khả năng sinh lời, thanh toán của doanh nghiệp, dẫn đến rủi ro và dễ dàng bị trục lợi từ chính doanh nghiệp mà mình tin tưởng. Khơng chỉ vậy, các cơ quan quản lý như cơ quan thuế sẽ khó kiểm soát được các khoản phải thu như tiền thuế khi doanh nghiệp đó báo cáo thấp hơn khoản lợi nhuận mà họ nhận được dẫn đến thuế phải nộp cũng giảm đi. Hay che giấu công nợ và chi phí làm giảm đi các khoản phải chi của doanh nghiệp, cũng như khơng ghi nhận các khoản dự phịng dẫn đến nâng khống giá trị tài sản khiến chủ nợ đánh giá sai về tính thanh khoản của doanh nghiệp.
Do đó, gian lận báo cáo tài chính là vấn đề mang tính cấp thiết có ảnh hưởng đến khơng chỉ mỗi cá nhân đang tham gia vào hoạt động kinh doanh, đầu tư, tài chính mà cịn đối với cả một nền kinh tế vĩ mơ. Do đó, trong thực tiễn cần có sự nghiên cứu cẩn thận nhằm đưa ra những bài toán dự báo và phát hiện gian lận trong báo cáo tài chính, để dễ dàng tiếp cận hơn cũng như đưa ra phán đoán về mức độ gian lận dựa trên các sai sót mang tính trọng yếu.
<b>3. Mục tiêu nghiên cứu</b>
<b>Mục tiêu nghiên cứu của nhóm em sẽ thơng qua 3 bài tốn sau:</b>
- Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng các khoản thanh toán của khách hàng từ đó che giấu cơng nợ nhằm gian lận trên báo cáo tài chính.
- Bài tốn 2: Phát hiện sự gian lận của một doanh nghiệp trong những nhóm doanh nghiệp có cùng tính chất.
- Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong dữ liệu
<small>7</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><b>4. Đối tượng nghiên cứu</b>
Đối tượng nghiên cứu của nhóm là những sự sai sót mang tính trọng yếu trong gian lận báo cáo tài chính của những doanh nghiệp có cùng tính chất với nhau.
<b>5. Mơ tả dữ liệu và cấu trúc dữ liệu</b>
Những dữ liệu mà nhóm sử dụng để phân tích được thu thập từ các trang web sau đây:
Credit Risk Dataset (kaggle.com)
Tập dữ liệu này chứa các cột mơ phỏng dữ liệu của phịng tín dụng về thông tin của các khách hàng, các khoản vay, khả năng thanh tốn và rủi ro tín dụng của những khách hàng trên. Qua đó, giúp kiểm sốt tốt các khoản phải thu cũng như dự đoán được khả năng gian lận trên báo cáo tài chính của doanh nghiệp có liên quan.
Bộ dữ liệu trong một năm từ 2015 đến 2016 của các công ty được thu thập từ Văn phịng Kiểm tốn tại Ấn Độ để xây dựng cơng cụ dự đốn nhằm phân loại các cơng ty đáng ngờ. Mục tiêu của nghiên cứu là giúp kiểm tốn viên xây dựng mơ hình phân loại có thể dự đốn cơng ty gian lận dựa trên những yếu tố rủi ro ở thời điểm hiện tại và đã xảy ra trong quá khứ.
<b>Credit Risk Dataset</b>
person_age Độ tuổi của từng khách hàng Số nguyên person_income Thu nhập hàng năm của khách
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">loan_status Tình trạng khoản vay tại ngân
<i><small>Bảng 1.1: Bảng mô tả cấu trúc của bộ dữ liệu về Credit Risk Dataset</small></i>
<b><small>Audit Risk Data</small></b>
Sector_score Giá trị điểm rủi ro lịch sử của
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">PARA_A Sự khác biệt được tìm thấy trong báo cáo của A
Số không nguyên
PARA_B Sự khác biệt được tìm thấy trong báo cáo của B
Số không nguyên
TOTAL Tổng số lượng chênh lệch được tìm thấy ở những báo cáo khác
Số khơng ngun
Numbers Những khác biệt trong lịch sử Số thực
District_Loss Dữ liệu mà quận đó mất đi Số thực
CONTROL_RI SK
<b>Audit Risk = Inherent Risk x Control Risk x Detection Risk (%)</b>
<i><small>Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data</small></i>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b>1.1. Phân lớp dữ liệu (Classification)</b>
<b>- Phân lớp dữ liệu (Classification):</b>“Là cách dùng để khai thác dữ liệu của các mục được chỉ định trong một tập hợp lớn các danh mục hoặc lớp. Mục tiêu để dự đốn chính xác các lớp mục tiêu cho mỗi trường hợp trong tập hợp.”
Trong Phân lớp dữ liệu, một chương trình học từ một tập dữ liệu hoặc các quan sát nhất định, sau đó phân loại các quan sát mới thành các lớp hoặc nhóm. Các lớp có thể được gọi là mục tiêu/ nhãn hoặc danh mục. "
Không giống như Hồi quy, biến đầu ra của Phân lớp dữ liệu là một danh mục, không phải giá trị, chẳng hạn như "Xanh lục hoặc Xanh lam", "Trái cây hoặc Động vật",... Vì Phân lớp là một kỹ thuật học có giám sát, vì vậy nó chứa đầu vào với đầu ra tương ứng.”
Trong thuật toán phân lớp dữ liệu, hàm đầu ra rời rạc y được ánh xạ tới biến đầu vào x.”
<i><small>Hình 2. 1: Minh họa phương pháp Phân lớp dữ liệu (Classification)</small></i>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><i>Ví dụ: Một mơ hình phân loại được sử dụng để xác định những người xin</i>
vay là rủi ro tín dụng thấp, trung bình hoặc cao.”
<b>Phân lớp dữ liệu có 2 loại:</b>
<b>+ Phân loại nhị phân: Nếu vấn đề phân loại chỉ có hai kết quả có</b>
thể xảy ra.”
<i>Ví dụ: CĨ hoặc KHƠNG, NAM hay NỮ, SPAM hoặc KHƠNG</i>
SPAM, CHĨ hoặc MÈO,....
<i>Ví dụ: Xác định xem sản phẩm đó được sản xuất ra đã đạt đủ tiêu</i>
chuẩn để có thể bán chưa, hay nhà máy nên loại bỏ nó (các thuộc tính để phân loại là tính đủ tốt).
<b>+ Phân loại nhiều nhãn: Nếu một bài tốn phân loại có nhiều hơn</b>
hai kết quả.
<i>Ví dụ: Phân loại các loại cây trồng, phân loại các loại âm nhạc.</i>
<b>- Hồi quy logistic (Logistic Regression): Là phương pháp phân lớp dựa</b>
trên xác suất; là một mơ hình hồi quy nhằm dự đoán giá trị đầu ra rời rạc (discrete target variable) ứng với một vectơ đầu vào x.
Đây là một mơ hình đơn giản (dễ diễn giải kết quả, huấn luyện đơn giản, dễ cài đặt), không cần thông tin để phân phối của các lớp trong khơng gian đặc trưng, phân lớp nhanh. Tuy nhiên, nó chỉ áp dụng với biến phụ thuộc rời rạc.
<small>13</small>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><i><small>Hình 2. 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression)</small></i>
<i>Ví dụ: Để xem một bức ảnh có chứa một con thỏ hay khơng. Ở đây ta đặt</i>
đầu ra với y = 1 nếu bức ảnh có một con thỏ và y = 0 nếu bức ảnh khơng có con thỏ nào. Đầu vào x ở đây sẽ là các pixel với một bức ảnh đầu vào.
<i><small>Hình 2. 3: Minh họa Phân loại theo 2 nhóm</small></i>
<b>Hồi quy logistic có thể được phân thành ba loại:</b>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22"><b>+ Nhị thức: Trong Hồi quy logistic nhị thức, chỉ có thể có hai loại</b>
biến phụ thuộc.
<i>Ví dụ: Thắng hoặc Thất bại,...</i>
<b>+ Đa thức: Trong Hồi quy logistic đa thức, có thể có 3 hoặc nhiều</b>
loại biến phụ thuộc khơng có thứ tự.
<i>Ví dụ: "Mèo", "Chó" hoặc "Cừu"</i>
<b>+ Thứ tự: Trong Hồi quy logistic thứ tự, có thể có 3 loại biến phụ</b>
thuộc được sắp xếp theo thứ tự trở lên.
<i>Ví dụ: "Thấp", "Trung bình" hoặc "Cao".</i>
<b>- Phương pháp SVM (Support Vector Machine): Là một thuật tốn học</b>
có giám sát, mơ hình sẽ tiếp nhận những dữ liệu đầu vào và xem các dữ liệu này là những vector trong khơng gian, sau đó phân chia chúng vào những lớp khác nhau từ việc xây dựng nên siêu phẳng trong không gian đa chiều để làm mặt phân cách cho những lớp dữ liệu.
Nếu muốn có được kết quả phân lớp một cách tối ưu thì chúng ta cần phải xác định được siêu phẳng (hyperplane) và đồng thời có khoảng cách tới những điểm dữ liệu (margin) ở tất cả những lớp xa nhất có thể đạt đến được. SVM sở hữu khả năng phân lớp nhanh và tiết kiệm bộ nhớ. Đây được xem như một công cụ hỗ trợ tối ưu và thường được áp dụng vào những bài toán chuyên về việc xử lý hình ảnh, cũng như phân tích các quan điểm. Nhờ vào việc sử dụng Kernel function đã góp phần giúp những phương pháp chuyển không gian này trở nên linh hoạt hơn so với trước kia. Tuy nhiên, khi đối mặt với kho dữ liệu lớn hay số chiều lớn hơn số mẫu dữ liệu huấn luyện thì trở nên kém hiệu quả, nhạy cảm với nhiễu hoặc thiếu thơng tin xác suất phân lớp.”
<small>15</small>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><i><small>Hình 2. 4: Mơ hình phương pháp SVM (Support Vector Machine)</small></i>
Ví dụ: Giả sử chúng ta thấy một con mèo cũng có một số đặc điểm của chó, vì vậy nếu chúng ta muốn một mơ hình có thể xác định chính xác đó là mèo hay chó thì có thể tạo mơ hình sử dụng thuật tốn SVM. Khi vectơ hỗ trợ tạo ranh giới quyết định giữa hai dữ liệu này (mèo và chó) và chọn các trường hợp cực đoan (vectơ hỗ trợ), nó sẽ thấy trường hợp cực đoan của mèo và chó. Trên cơ sở các vectơ hỗ trợ, nó sẽ phân loại đó là một con mèo.
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24"><i><small>Hình 2. 5:Sơ đồ mơ hình sử dụng phương pháp SVM (Support Vector Machine)</small></i>
<b>SVM có hai loại:</b>
<b>SVM tuyến tính: Thường được áp dụng cho những dữ liệu có thể phân</b>
tách tuyến tính, điều này đồng nghĩa rằng nếu tập dữ liệu đó có thể được phân loại thành hai lớp nhờ vào việc sử dụng một đường thẳng, thì những dữ liệu này sẽ được xem như những dữ liệu có thể phân tách tuyến tính.
<b>SVM phi tuyến tính: Trái ngược với SVM tuyến tính, mơ hình thường</b>
được áp dụng cho những dữ liệu được phân tách phi tuyến tính.
<b>- Phương pháp Cây quyết định (Decision Tree): Trong lĩnh vực quản trị,</b>
Cây quyết định được xem là đồ thị biểu diễn những quyết định đi kèm với các kết quả có thể xảy ra nhằm giúp trong q trình đưa ra quyết định. Ngồi ra, trong khai thác dữ liệu, Cây quyết định còn là phương pháp giúp mô tả, phân loại và đồng thời tổng quát hóa những dữ liệu đã được cho trước đó.
Với hình thức dễ dàng tiếp cận và khơng u cầu cao về q trình chuẩn hóa dữ liệu, nó giúp xử lý trong đa dạng kiểu kiến thức và xử lý một cách hiệu quả lượng dữ liệu tương đối lớn chỉ trong một khoản thời gian ngắn. Bên cạnh đó, vẫn cịn những hạn chế trong việc xử lý tình huống với các dữ liệu do thời gian và chi phí để xây dựng mơ hình trên vẫn cịn khá cao.
<i><small>Hình 2. 6:Minh họa phương pháp Cây quyết định (Decision Tree)</small></i>
<small>17</small>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><i>Ví dụ: Hãy tưởng tượng rằng bạn đang cố gắng đánh giá xem mình có nên</i>
đi lướt sóng hay khơng, bạn có thể sử dụng các quy tắc quyết định sau để đưa ra lựa chọn cho mình.
<i><small>Hình 2. 7: Sơ đồ mơ hình sử dụng phương pháp Cây quyết định (Decision Tree)</small></i>
<b>Các kiểu Cây quyết định:</b>
<b>Cây hồi quy: Là phương pháp ước lượng dành cho những hàm</b>
giá mang giá trị là số thực thay vì được áp dụng cho những cơng việc mang tính chất phân loại như những phương pháp khác.
<i>Ví dụ: Để ước tính trị giá phải trả của một căn chung cư cao cấp</i>
hoặc thời gian để xây dựng xong một ngôi trường.
<b>Cây phân loại: Với điều kiện y là một biến phân loại như: vay</b>
vốn (nên vay hay không nên vay), quyết định mua hàng (có hay khơng).
<b>1.2. Phân cụm dữ liệu</b>
<b>- Phân cụm dữ liệu (Clustering): Là q trình gom cụm hoặc gom nhóm</b>
những đối tượng hay những dữ liệu có đặc điểm tương đồng với nhau vào cùng một nhóm hoặc vào các cụm tương ứng. Do đó, sự tương đồng giữa những phần tử trong cùng một cụm; sẽ khác biệt với những phần tử trong các cụm khác.
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26"><i><small>Hình 2. 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering)</small></i>
Phân tích cụm là một quy trình linh hoạt với nhiều loại khác nhau có thể được ứng dụng tùy thuộc vào nhu cầu cụ thể của một nhiệm vụ. Dưới đây là một số loại phân tích cụm phổ biến:
<b>+ Phân cụm phân vùng: Kiểu phân cụm này chia dữ liệu thành một</b>
tập hợp các cụm loại trừ lẫn nhau. Phương pháp nổi tiếng nhất trong danh mục này là thuật toán phân cụm K-Means.
<b>+ Phân cụm theo cấp bậc: Kiểu phân cụm này tạo ra một cây cụm.</b>
Phân cụm theo cấp bậc khơng chỉ phân cụm dữ liệu mà cịn xây dựng một hệ thống phân cấp các cụm, giống như cấu trúc cây nhị phân.
Phân cụm theo cấp bậc có 2 hướng: Hội tụ (Bottom-Up) và Phân chia (Top-Down).
<b>+ Phân cụm theo mật độ: Các loại thuật toán sẽ tìm kiếm các khu</b>
vực trong khơng gian đặc trưng nơi có mật độ quan sát cao. Nổi tiếng nhất trong số đó là DBSCAN.
<small>19</small>
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27"><b>+ Phân cụm theo lưới: Thuật tốn lượng tử hóa khơng gian thành</b>
một số lượng ơ hữu hạn tạo hình thành nên cấu trúc lưới và thực hiện hầu hết những hoạt động phân cụm trên cấu trúc lưới thu được. Điểm cộng lớn nhất là thời gian xử lý nhanh, thường phụ thuộc vào số lượng ô trong mỗi chiều không gian lượng tử hóa.
<b>+ Phân cụm dựa trên mơ hình: Đưa ra giả thuyết về một mơ hình</b>
cho từng cụm và tìm ra dữ liệu phù hợp nhất với mơ hình nhất định. Ưu điểm là mơ hình cung cấp một khung xác suất để ước tính các đặc điểm của q trình tạo ra dữ liệu.
Ví dụ: Mơ hình hỗn hợp Gaussian và thuật tốn Tối đa hóa kỳ vọng.
<b>+ Phân cụm không gian con: Trong phân cụm tiêu chuẩn, một đối</b>
tượng thuộc về chính xác một cụm. Nhưng đối với trong phân cụm không gian con, một đối tượng có thể thuộc về nhiều cụm và mỗi cụm được liên kết với một tập hợp con của các thứ nguyên. Kiểu phân cụm này đặc biệt hữu ích cho dữ liệu đa chiều mà trong đó mỗi chiều đại diện cho một tính năng của dữ liệu.
<b>- Đặc điểm Phân cụm dữ liệu:</b>
Số cụm dữ liệu không được biết trước vì vậy việc phân cụm dữ liệu thuộc nhóm học Khơng giám sát (Unsupervised Learning). <small></small> Gồm nhiều cách tiếp cận và mỗi một cách sẽ có một vài kỹ thuật.
Những kỹ thuật khác nhau sẽ thường cho ra kết quả không giống nhau.
<b>- Đánh giá mô hình phân cụm:</b>
+ Một điểm cộng của phân cụm phân lớp là chúng ta không nhất thiết phải xác định trước số lượng cụm do đó tối ưu hơn so với việc dùng K-Means. Thế nhưng, nó vẫn sẽ có khuyết điểm đó là khơng thể xử lý tốt được với số lượng dữ liệu quá lớn.
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">+ Bên cạnh đó, phân cụm phân lớp cịn có thể được ứng dụng vào việc xác định, cũng như dự báo số cụm trước khi bắt đầu chạy thuật tốn K-Means ngay sau đó.
<i>Thuật tốn K-Means: Là một phương pháp được sử dụng trong phân tíchtính chất cụm của dữ liệu. Trong đó 'K' đề cập đến số lượng cụm được chỉđịnh trước. Thuật toán phân cụm K-Means sẽ thường được dùng nhiều ởnhững máy hỗ trợ trong việc tìm kiếm, phân loại khách hàng ở các doanhnghiệp, cũng như thống kê lại những dữ liệu đã có trước đó,…</i>
<i><small>Hình 2. 9: Kết quả phân cụm của thuật tốn kmeans</small></i>
<b>- Ý tưởng chính của thuật tốn K-Means: mỗi một đối tượng trong tập</b>
dữ liệu được coi là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
<small> Bước 1: Loại bỏ các hàng dữ liệu bị khuyết. Đây là bước thuộc</small> bước Tiền xử lý dữ liệu.
<small> Bước 2: Chọn k điểm bất kỳ làm trung tâm ban đầu của k cụm.21</small>
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29"><small> Bước 3: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất.</small> Nếu những điểm dữ liệu ở mỗi cụm vừa được phân tách không thay đổi so với kết quả của lần phân tách trước nó thì chúng ta nên dừng lại thuật toán trên.
<small> Bước 4: Cập nhật lại tình hình cho từng cụm, bằng cách lấy trung</small> bình cộng của tất cả những điểm dữ liệu đã được gán vào cụm đó sau khi đã phân tách trên bước 2.
Bước 5: Quay trở lại bước 2.
<b>- Các bước quy trình của SVM, Logistic Regression và Tree:</b>
+ Bước 1: Nhập dữ liệu cần huấn luyện vào Orange.
+ Bước 2: Nối widget dữ liệu huấn luyện và SVM, Tree, Logistic Regression với Test and Score, sau đó nối widget vào Confusion Matrix để bắt đầu quá trình đánh giá kết quả và đánh giá ma trận nhầm lẫn.
+ Bước 3: Sau khi chọn được phương pháp dự báo tốt nhất, nối dữ liệu huấn luyện vào SVM, hoặc Tree, hoặc Logistic Regression. Đồng thời nhập dữ liệu dùng để dự báo vào Orange.
<i><small>Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree</small></i>
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30"><b>2. Tìm hiểu về dữ liệu</b>
<i>Kaggle và UCI đều là những nguồn thu thập đáng tin cậy được dùng trong học</i>
tập và nghiên cứu, vậy nên nhóm quyết định lựa chọn 2 bộ dữ liệu từ 2 nguồn
<i><b>này để thực hiện dự án. Bộ dữ liệu thứ nhất (Credit Risk Dataset) được sửdụng để giải quyết bài toán 1, bộ dữ liệu cịn lại (Audit Risk Data) thì dùng</b></i>
<b>cho bài toán 2 và 3.</b>
<b>● Lý do lựa chọn 2 bộ dữ liệu khác nhau để thực hiện 3 bài toán là vì :</b>
+ Nhóm muốn đưa ra góc nhìn đa chiều hơn về rủi ro gian lận trong báo cáo tài chính của các doanh nghiệp. Nếu chỉ sử dụng bộ dữ liệu Audit Risk Data để thực hiện cả bài tốn phân lớp, nhóm chỉ có thể dự báo rủi ro gian lận của các doanh nghiệp một cách chung chung, mà không thể tiếp cận sâu hơn với các trường hợp cụ thể. Vậy nên, việc dùng thêm 1 bộ dữ liệu khác liên quan đến rủi ro thanh tốn của khách hàng, nhóm có thể phân tích và dự báo hành vi gian lận ở một khía cạnh mới.
+ Bên cạnh đó, với các kiến thức liên quan đến chun ngành kế tốn, tài chính của các thành viên trong nhóm, việc tiếp cận thơng tin về các khoản thanh toán nợ sẽ dễ dàng và gần gũi hơn so với kiến thức về các nghiệp vụ kiểm toán.
+ Từ việc ứng dụng cả hai bộ dữ liệu vào giải quyết bài toán đặt ra, ta thấy
<b>được mối tương quan giữa Các khoản thanh toán của khách hàng vớiRủi ro gian lận trong Báo cáo tài chính. Từ đó có thể đưa ra kết luận</b>
cuối cùng cho bài Dự án nghiên cứu của nhóm.
<b>2.1. Phân tích dữ liệu:</b>
<b>- Với bộ dữ liệu Audit_risk:</b>
+ Dữ liệu thô chứa 27 hàng (thuộc tính) và 776 (cột)
+ Trong mỗi đối tượng sẽ là một đại diện cho mỗi doanh nghiệp được chọn để cho vào rà soát về những rủi ro gian lận, mỗi thuộc tính đại diện những đặc trưng của từng đối tượng doanh nghiệp
+ Từ bộ dữ liệu, khi xét đến các cột dữ liệu hiển thị những đặc trưng, có 5 thuộc tính chính được tích hợp từ những thuộc tính cịn lại và có
<small>23</small>
</div>