Tải bản đầy đủ (.pdf) (31 trang)

Ứng dụng khoa học dữ liệu vào việc phân tích rủi ro trong gian lận báo cáo tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.05 MB, 31 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH DOANH </b>

KHOA K TOÁN <b>Ế</b>

<b>DỰ ÁN CUỐI KỲ </b>

<b>MÔN: KHOA HỌC DỮ LIỆU </b>

<b>Giả</b>ng viên gi<b>ảng dạy: TS. Nguyễn An Tế </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>MỤC LỤC </b>

<b>CHƯƠNG I : TỔNG QUAN DỰ ÁN ... 1 </b>

1. T ng quan v <b>ổề kiể</b>m toán và doanh nghi<b>ệp...1 </b>

1.1. Khái ni m BCTC<i>ệ</i> ... 1

1.2. Nghi p v <i>ệụ kiể</i>m toán ... 2

1.3. Th c tr ng gian l n c a công ty hi n nay<i>ựạậủệ</i> ... 3

2. Lý do ch<b>ọn đề tài...3 </b>

3. M c tiêu nghiên c<b>ụứu...4 </b>

<b>4. Đối tượng và phạm vi nghiên cứu...4 </b>

<i>4.1. Đối tượng nghiên cứu ... 4 </i>

4.2. Ph m vi nghiên c u<i>ạứ ... 4 </i>

5. Mô t d u và c u trúc d <b>ả ữ liệấữ liệu...4 </b>

<b>CHƯƠNG II QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ</b>: ... 6

<b>1. Các phương pháp dự đốn và quy trình cụ thể...6 </b>

3. BÀI TOÁN 1: PHÁT HI<b>ỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂ</b>N CÁC Y<b>ẾU </b> T GÂY RA GIAN L N TRONG BÁO CÁO TÀI CHÍNH<b>ỐẬ</b> ...10

<i>3.1. Mơ tả bài tốn. ... 10 </i>

<i>3.2. Các phương pháp thể hiện đánh giá dữ liệu.</i>- ... 10

<i>3.3. Phân tích dữ liệu... 10 </i>

<i>3.4. Đánh giá. ... 13 </i>

4. BÀI TOÁN 2:<b> DỰ BÁO NGUY CƠ GIAN LẬ</b>N C A CÁC CÔNG TY D A VÀO <b>ỦỰKHẢ NĂNG XẢY RA RỦI RO Ở CÁC BÁO CÁO TÀI CHÍNH (BÀI TỐN PHÂN LỚP )...</b>14

<i>4.1. Mơ tả phương pháp ... 14 </i>

4.2. Quy trình x lý:<i>ử</i> ... 14

4.3. <i>Đánh giá kế</i>t qu<i>ả: ... 15 </i>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

4.4. K<i>ết quả ự</i> d báo ... 18

4.5. <i>Các ki n th c chuyên ngành liên quanếứ</i> ... 18

5. BÀI TỐN 3: Phân lo<b>ại các nhóm có nguy cơ gian lậ</b>n báo các tài chính (Bài tốn <b>phân cụm)...</b>19

5.1. Mô t<i>ả phương pháp phân cụ</i>m (Clustering) ... 19

<i>5.2. Mô tả phương pháp K-Means ... 20 </i>

5.3. Quy trình th c hi n bài tốn phân c<i>ựệụm ... 20 </i>

5.4. K<i>ết quả</i> phân lo i K-<i>ạ</i> means ... 20

<b>CHƯƠNG III: KẾT LUẬN ... 25 </b>

<b>DANH MỤC TÀI LI U THAM KHỆẢO ... 0 </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC HÌNH ẢNH </b>

Hình 1: Mơ hình thực hi n bài tốn phát hi n ệ ệ Hình 2: Mơ hình quy trình xử lý bài tốn phân lớp Hình 3: Mơ hình quy trình xử lý bài tốn phân cụm

Hình 4: Phân bố khả năng gian lận và không gian l n dậ ựa trên các rủi ro trong BCTC DANH M C BI<b>ỤỂU ĐỔ </b>

Biểu đồ 1: Dữ liệu của Risk_0 và Risk_1 theo Control_Risk Biểu đồ 2: Dữ liệu của Risk_0 và Risk_1 theo Inherent_Risk Biểu đồ 3: Dữ liệu của Risk_0 và Risk_1 theo Audit Risk

Biểu đồ 4: Giá trị rủi ro của báo cáo A và báo cáo B trong quá khứ Biểu đồ 5: Tổng số lượng khác biệt trong các báo cáo khác Biểu đồ 6: Chỉ số chênh lệch khác bi t trong quá khứ ệ Biểu đồ 7: Giá trị tổn thất

Biểu đồ 8: Money_Value – Chỉ ốtiền liên quan đến sai sót Biểu đồ 9: Tổng hợp rủi ro

Biểu đồ 10: Phân bố khả năng gian lận và không gian lận dựa trên 4 rủi ro Biểu đồ 11: Kết quả của Feature Statistics

DANH M C B<b>ỤẢNG </b>

B ng 1: Phân tích thơng tin d u ả ữ liệ B ng 2: Kả ết quả ự d báo theo Test and Score

B ng 3: Kả ết quả ự d báo khi s dử ụng phương pháp Tree theo ma trận nh m l n ầ ẫ B ng 4: Kả ết quả ự d báo khi s dử ụng phương pháp SVM theo ma trận nh m l n ầ ẫ

B ng 5: Kả ết quả ự d báo khi s dử ụng phương pháp Logistic Regression theo ma tr n nhậ ầm lẫn B ng 6: Kả ết quả ự d báo c a Bài toán 2 t Prediction ủ ừ

B ng 7: Kả ết quả phân loại K-means B ng 8: Kả ết quả Silhouette Plot

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>LỜI CẢM ƠN </b>

Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến giảng viên trực tiếp giảng dạy bộ môn Khoa học dữ liệu là TS. Nguyễn An Tế vì đã dùng tri thức, thời gian và tâm huyết để có thể truyền đạt vốn kiến thức sâu rộng, uyên bác của mình cho chúng em cũng như các bạn trong suốt quá trình học. Trong khoảng thời gian được học tập với thầy, thứ chúng em học được không chỉ là kiến thức mà còn là cả sự tận tâm và chuyên chú đối với lĩnh vực mà mình nghiên cứu của thầy. Những điều đó sẽ là tấm gương sáng để chúng em học tập và hoàn thiện bản thân mình hơn, là hành trang vững chắc trên con đường học tập sau này của chúng em.

Môn Khoa học dữ liệu đối với chúng em là môn học thú vị, mới mẻ, vơ cùng bổ ích và có tính ứng dụng cao, cung cấp kiến thức để đáp ứng những nhu cầu thực tiễn của sinh viên. Khoa học dữ liệu vốn là một môn nhiều tính tốn, và tư duy logic, do đó một sinh viên kinh tế lần đầu tiếp xúc với mơn học sẽ gặp nhiều khó khăn trong q trình tiếp thu kiến thức và xử lý các bài tập thực hành. Từ đó chúng em khó tránh khỏi những thiếu sót khơng đáng có. Tuy nhiên nhóm chúng em đã cố gắng vận dụng những kiến thức mà thầy đã giảng trên lớp và cố gắng hoàn thiện bài đồ án hồn thiện nhất.

Để có thể hồn thành đồ án nhóm cuối kì một cách chỉnh chu thật sự khơng dễ dàng, địi hỏi chúng em phải dành rất nhiều thời gian, tâm huyết để tự nghiên cứu và học hỏi. Chúng em đã cố gắng vận dụng những kiến thức đã học được trong học kỳ qua để hồn thành đồ án nhóm, tuy nhiên, do chưa có nhiều kinh nghiệm làm đề tài cũng như kiến thức và khả năng lý luận còn nhiều thiếu sót và hạn chế, kính mong sự chỉ dẫn và đóng góp của thầy để đồ án của chúng em được hoàn thiện hơn.

Cuối cùng, chúng em xin chúc thầy thật nhiều sức khỏe, ln vui vẻ để có thể vững bước trên sự nghiệp trồng người. Chúng em xin chân thành cảm ơn.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

1

1. T ng quan v<b> ổề kiể</b>m toán và doanh nghi p <b>ệ</b>

1.1.<i> Khái niệ</i>m BCTC

Theo Khoản 1 Điều 3 Luật K toán s 88/2015/QH13ế ố , định nghĩa báo cáo tài chính như sau: “Báo cáo tài chính là hệ thống thơng tin kinh t , tài chính cế ủa đơn vị ế tốn được trình k bày theo bi u mể ẫu quy định t i chu n m c k toán và chạ ẩ ự ế ế độ ế tốn”. k Nói cách khác, Báo cáo tài chính là các thơng tin kinh tế được kế tốn viên trình bày dướ ại d ng b ng bi uả ể . Căn cứ vào Chuẩn m c VAS 21 Trình bày Báo cáo tài chính thì mự – ục đích lập báo cáo tài chính như sau: Báo cáo tài chính ph n ánh theo m t c u trúc ch t ch tình hình tài chính, k t qu kinh doanh ả ộ ấ ặ ẽ ế ả của m t doanh nghiộ ệp. Mục đích của báo cáo tài chính là cung cấp các thơng tin về tình hình tài chính, tình hình kinh doanh và các lu ng ti n c a m t doanh nghiồ ề ủ ộ ệp, đáp ứng nhu c u h u ích ầ ữ cho số đông những ngườ ử ụi s d ng trong việc đưa ra các quyết định kinh t . Báo cáo tài chính ế phải cung cấp nh ng thông tin c a m t doanh nghi p v : ữ ủ ộ ệ ề

1. Tài sản. 2. Nợ phải trả. 3. Vốn ch s h u. ủ ở ữ

4. Doanh thu, thu nhập khác, chi phí s n xu t kinh doanh và chi phí khác. ả ấ 5. Lãi, lỗ và phân chia k t qu kinh doanh. ế ả

6. Các lu ng ti n. ồ ề

Các thông tin này cùng v i các thơng tin trình bày trong B n thuy t minh báo cáo tài ớ ả ế chính giúp người sử dụng dự đốn được các luồng tiền trong tương lai và đặc biệt là thời điểm và mức độ chắc ch n c a vi c t o ra các lu ng ti n và các khoắ ủ ệ ạ ồ ề ản tương đương tiền. Báo cáo tài chính áp d ng cho tụ ất cả loại hình doanh nghiệp được thành l p và hoậ ạt động theo pháp luật Việt Nam. Định kỳ theo thời hạn quy định của Pháp luật về Kế tốn, Thống kê, Doanh nghiệp có nghĩa vụ lập và nộp báo cáo tài chính trung thực và chính xác cho các cơ quan nhà nước có thẩm quy n. Tùy t ng lo i hình, quy mơ doanh nghi p s có th i h n n p báo cáo và sề ừ ạ ệ ẽ ờ ạ ộ ố lượng báo cáo riêng phù hợp. Báo cáo tài chính có ý nghĩa quan trọng đố ới v i công tác qu n lý Doanh ả nghiệp cũng như đố ới các cơ quan chủi v quản và các đối tượng khác ngoài doanh nghiệp như nhà đầu tư hoặc người quan tâm. Báo cáo tài chính thể hiện đầy đủ các vấn đề như:

<small> </small> Báo cáo tài chính thể hiện rõ tình hình s n xu t kinh doanh c a doanh nghiả ấ ủ ệp đặc bi t là thông tin v khệ ề ả năng sinh lời, v tình hình biề ến động trong s n xu t kinh doanh ả ấ để người đọc đưa ra các đánh giá về thay đổi tiềm tàng c a các nguồn lực tài chính mà ủ doanh nghi p có th kiệ ể ểm sốt trong tương lai, đồng th i dờ ự đoán khả năng tạo ra các ngu n ti n cho doanh nghiồ ề ệp trên cơ sở ệ hi n có và việc đánh giá hiệu qu các ngu n lả ồ ực b sung mà doanh nghi p có th s d ng. ổ ệ ể ử ụ

<small> </small> Thông tin v s biề ự ến động tình hình tài chính c a doanh nghi p: Các chủ ệ ỉ tiêu như tình hình tài s n, ngu n v n, tình hình k t qu hoả ồ ố ế ả ạt động s n xu t kinh doanh, tình ả ấ hình lưu chuyển tiền tệ của doanh nghiệp tại một thời điểm hoặc của một thời kỳ được thể hiện rõ trong báo cáo tài chính.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

2

1.2. Nghi p v <i>ệụ kiể</i>m tốn

Cơng vi c c a ki m tốn chính là ki m tra, xác minh tính trung th c c a nh ng báo cáo ệ ủ ể ể ự ủ ữ tài chính đó, từ đó giúp cung cấp những thơng tin chính xác nhất về tình hình tài chính của tổ chức đó. Hay nói cách khác, kiểm tốn là q trình thu thập và đánh giá bằng chứng liên quan đến những thông tin tài chính được kiểm tra (cung cấp bởi kế toán) nhằm xác đinh và báo cáo v mề ức độ phù h p giợ ữa thông tin đó với các chu n mẩ ực đã được thi t l p. ế ậ

Có th nói, kiể ểm toán hướng đến r t nhiấ ều đối tượng, những người quan tâm t i tình ớ hình tài chính c a m t tủ ộ ổ chức nào đó nhưng khơng có nghiệp v v tài chính, kụ ề ế tốn; đó là lí do h cọ ần đến nh ng kiữ ểm tốn viên để tìm hiểu và đưa ra những đánh giá phù hợp giúp họ có nh ng quyữ ết định đúng đắn nh t. ấ

Nghiệp vụ kiểm tốn là cơng vi c ki m tra l i dệ ể ạ ữ liệu và s sách c a k tốn có tính xác ổ ủ ế thực và tuân thủ đúng quy định c a pháp luủ ật hay chưa. Dựa trên các chứng từ và cơ sở dữ liệu của doanh nghiệp cung cấp, th c hiự ện báo cáo tài chính cho doanh nghiệp… Nhìn chung nghi p v ki m toán s bao g m: l p k ho ch, xây dệ ụ ể ẽ ồ ậ ế ạ ựng chương trình, thu thập thơng tin, ghi chép, lập báo cáo.

V i hoớ ạt động đó, có thể thấy được hai chức năng chính của kiểm tốn, đó là: xác minh tính trung th c và tính pháp ự lý của các báo cáo tài chính. Đánh giá bằng việc đưa ra ý kiến v ề tính trung th c và mự ức độ ợ h p lý c a các thơng tin tài chính, k toán. ủ ế Tư vấn cho các nhà quản lý thông qua vi c ch ra nh ng sai sót và g i m ra nh ng biệ ỉ ữ ợ ở ữ ện pháp để kh c ph c, giúp các ắ ụ công ty hoạt động hi u qu ệ ả hơn.

Gian l n trên BCTC ậ là trường h p các thông tin trên báo cáo tài chính b bóp méo, phợ ị ản ánh khơng trung th c tình hình tài chính cự ủa doanh nghiệp. Tính “khơng trung thực và hợp lý” của báo cáo tài chính là khơng đảm bảo tn thủ các chuẩn mực kế tốn thay vì phản ánh thơng tin chính xác nh t vấ ề giá tr ịcông ty như mong đợ ủa thị trường tài chính. i c

Theo Hệ thống chu n m c Ki m toán Vi t Nam s 240: Trách nhi m c a ki m toán ẩ ự ể ệ ố ệ ủ ể viên liên quan đến gian l n trong q trình ki m tốn báo cáo tài chính ậ ể được quy định cụ thể: khi th c hi n ki m toán theo các chu n m c ki m toán Vi t Nam, ki m toán viên ch u trách ự ệ ể ẩ ự ể ệ ể ị nhiệm đạt được sự đảm b o h p lý r ng liả ợ ằ ệu báo cáo tài chính, xét trên phương diện t ng thổ ể, có cịn sai sót trọng y u do gian l n hoế ậ ặc nh m lầ ẫn hay khơng.

N u phát hi n có hành vi không tuân th pháp luế ệ ủ ật và các quy định, ki m toán viên phể ải báo cáo nh ng hành vi này vữ ới các cơ quan nhà nước có th m quy n, thông báo vẩ ề ới đại diện chủ ở s hữu của đơn vị được kiểm toán và các đối tượng bên ngồi đơn vị được kiểm tốn (nếu có). N u nghi ng có hành vi không tuân th pháp luế ờ ủ ật và các quy định, ki m toán viên phể ải thực hiện các th tủ ục kiểm toán bổ sung để làm rõ nh ng nghi ng này. ữ ờ

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

3

1.2.<i> Thực trạ</i>ng gian l n c a công ty hi n nay <i>ậủệ</i>

Trong n n kinh tề ế thị trường, báo cáo tài chính (BCTC) là m t ngu n cung c p thông tin ộ ồ ấ quan tr ng và không thọ ể thiếu, nh m k t n i doanh nghi p vằ ế ố ệ ới nhà đầu tư, các cơ quan quản lý và các bên liên quan. Trên thị trường ch ng khốn, BCTC có vai trò quan trứ ọng, là cơ sở để ạo t ni m tin cho công chúng hề để ọ đưa ra quyết định kinh tế đúng đắn. Tuy nhiên, th c t nh ng ự ế ữ năm qua, đã xảy ra nhiều vụ gian lận khi lập BCTC của các doanh nghiệp điển hình như: Công ty Dược Viễn Đông (năm 2011), Công ty Cổ phần Đầu tư khoáng sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Những vụ việc gian lận của các doanh nghiệp này đã làm d y lên nghi ng , lo ng i t phía cấ ờ ạ ừ ổ đơng và những đối tượng quan tâm về chất lượng của thơng tin trên BCTC.

Các cơng ty thường có xu hướng tăng cường hoạt động kinh doanh để đáp ứng các chỉ tiêu tài chính như doanh thu, lợi nhuận và tăng trưởng. Tuy nhiên, để đạt được mục tiêu này, m t sộ ố công ty đã sử ụ d ng những chiêu trị khơng đạo đức để làm đẹp báo cáo tài chính của mình. Các chiêu trị này có th bao g m vi c ghi nh n doanh thu khơng có th t, ghi nh n sai ể ồ ệ ậ ậ ậ niên độ kế tốn hay khơng khai báo đầy đủ thơng tin.

Để ngăn chặn tình trạng gian lận báo cáo tài chính, các cơ quan quản lý như Ủy ban Chứng khoán và Thị trường Ch ng khoán Viứ ệt Nam đã áp dụng nhi u bi n pháp ki m soát và ề ệ ể xử lý các trường h p vi phợ ạm. Ngồi ra, các cơng ty cũng cần tuân thủ đúng quy trình và tiêu chuẩn k ế toán để đả m bảo tính chính xác và minh bạch của báo cáo tài chính.

Tuy nhiên, để giải quyết triệt để ấn đề v này, cần có sự phối hợp giữa các cơ quan quản lý, các công ty và các nhà đầu tư. Các công ty cần tự giác và chịu trách nhiệm với việc báo cáo tài chính của mình, trong khi các nhà đầu tư cần có ki n th c và kinh nghiế ứ ệm để đánh giá tính kh ả thi và rủi ro của các khoản đầu tư.

Trong b i c nh kinh t hi n nay, vi c xây d ng m t thố ả ế ệ ệ ự ộ ị trường tài chính minh b ch và ạ đáng tin cậy là r t quan trấ ọng để thu hút đầu tư và phát triển kinh t . Viế ệc ngăn chặn và x lý ử các trường hợp gian lận báo cáo tài chính là một trong những nhiệm vụ cấp bách của cả nhà đầu tư và các cơ quan quản lý.

2. Lý do ch<b>ọn đề</b> tài

Gian l n báo cáo tài chính trên th gi i ngày ậ ế ớ càng gia tăng và trở thành vấn đề nghiêm trọng đối với các doanh nghiệp, chính phủ và các nhà đầu tư. Đặc biệt, tại các quốc gia có thị trường v n, gian lố ận báo cáo tài chính đã đe dọa đến niềm tin c a công chúng vào thông tin ủ trên thị trường. T i Vi t Nam, hàng lo t các v gian l n báo cáo tài chính c a các công ty niêm ạ ệ ạ ụ ậ ủ y t trên sàn chế ứng khoán đã gây ra tâm lý nghi ngờ cho các nhà đầu tư, ảnh hưởng t i hoớ ạt động c a th ủ ị trường vốn. Vì vậy, việc ứng dụng khoa h c dữ liệu vào việc phân tích r i ro trong ọ ủ gian lận báo cáo tài chính để những người quan tâm ti p cế ận và đánh giá chính xác hơn về các báo cáo tài chính.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

4

Gian l n BCTC là m t vậ ộ ấn đề nghiêm trọng trong lĩnh vực k tốn và tài chính. Có ế nhi u hình th c gian lề ứ ận khác nhau và các phương pháp truyền th ng có thố ể khơng đủ để phát hiện và ngăn chặn được. KHDL có khả năng xử lý và phân tích dữ liệ ớu l n, giúp tìm ra nh ng ữ m u t ẫ ổ chức có kh ả năng gian lận cao hơn và đưa ra các chỉ ố ủ s r i ro cần được quan tâm.

KHDL đã phát triển mạnh mẽ trong những năm gần đây và đã được áp dụng thành công trong nhiều lĩnh vực. Vi c áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th m ệ ụ ủ ậ ể ở ra nh ng khữ ả năng mới để nâng cao hi u quệ ả và độ chính xác c a q trình phát hi n gian l n. ủ ệ ậ Ngoài ra, BCTC thường ch a các thông tin cứ ấu trúc như số liệu tài chính, số liệu kế tốn, cũng như các thông tin phi cấu trúc khác như văn bản, email, tài liệu liên quan. KHDL có khả năng x lý c dử ả ữ liệu c u trúc và phi c u trúc, giúp t o ra cái nhìn tồn di n vấ ấ ạ ệ ề các nguy cơ và mẫu t ổ chức gian ậl n có thể khơng được phát hiện bằng các phương pháp truyền th ng. ố

Việc áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th mang l i l i ích ụ ủ ậ ể ạ ợ thiết th c cho các công ty kiự ểm tốn, các cơ quan quản lý tài chính và các tổ chức có nhu cầu ki m sốt r i ro tài chính. ể ủ Đề tài này có th giúp c i thi n tính minh b ch và tin c y trong quá ể ả ệ ạ ậ trình cơng bố BCTC.

3.<b> Mụ</b>c tiêu nghiên c u <b>ứ</b>

Mục tiêu nghiên cứu của đề tài tương ứng v i ba bài toán c n gi i quy ớ ầ ả ết:

Bài toán 1: Phát hiện các điểm đặc thù liên quan đến các y u t gây ra gian l n trong Báo ế ố ậ cáo tài chính.

Bài toán 2: Dự báo nguy cơ gian lận c a các công ty d a vào khủ ự ả năng xảy ra r i ro các ủ ở Báo cáo tài chính (bài tốn phân l p nh phân). ớ ị

Bài toán 3: Phân loại các nhóm có nguy cơ gian lận Báo cáo tài chính (bài tốn phân cụm). 4.<b> Đối tƣợ</b>ng và ph m vi nghiên c u <b>ạứ</b>

<i>4.1. Đối tượng nghiên cứu </i>

Đề tài ứng dụng Khoa h c Dữ liệu (KHDL) vào việc phân tích r i ro trong gian lận Báo ọ ủ cáo tài chính (BCTC) có đối tượng nghiên cứu là các báo cáo tài chính và các thơng tin liên quan đến giao dịch tài chính của doanh nghiệp.

4.2. Ph m vi nghiên c u<i>ạứ </i>

Phạm vi nghiên c u cứ ủa đề tài bao g m vi c s dồ ệ ử ụng các phương pháp và công cụ ủa c KHDL để phát hiện các dấu hiệu của gian lận trong BCTC, từ đó đưa ra các khuyến nghị để gi m thi u rả ể ủi ro cho các nhà đầu tư và ngườ ử ụi s d ng thơng tin tài chính.

5. <b> Mô tả ữ liệu và cấ</b> d u trúc d u <b>ữ liệ</b>

Nguồn d u mà nhóm thu th p phữ liệ ậ ục vụ cho nghiên c u: ứ

B dộ ữ liệu r i ro kiủ ểm tốn để phân lo i các cơng ty gian l n: B dạ ậ ộ ữ liệu g m các thông ồ

Sector_Score Giá trị r i ro trong l ch s qua quy trình phân tíchủ ị ử S ố thực

Para_A S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa ểki m tra v

báo cáo tóm t t A tính b ng Rs ắ ằ <sup>S </sup><sup>ố thự</sup><sup>c </sup>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

District_loss Tổn th t mà doanh nghi p trong qu n ph i ch u troấ ệ ậ ả ị

History Tổn thất lịch s trung bình mà cơng ty phử ải chịu tro

+ Rs: H s ệ ố tương quan thứ ậ b c Spearman + Score = (đơn vị) 10 tri u ệ

+ float: ki u s ể ố thực + integer: ki u s nguyên ể ố + char: ki u chu i ể ỗ + object: ki u phể ức hợp

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

6

1.<b> Các phương pháp dự đốn và quy trình cụ thể</b>

1.1. <i> Phân lớp dữ liệu</i>

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào). Bài tốn phân lớp là bài toán khá đơn giản để áp dụng vì vậy độ phổ biến của bài tốn này khá lớn.

Phân lớp dữ liệu được chia thành 3 loại dựa trên số lớp và số nhãn số liệu đó được gán vào. Phân lớp nhị phân (binary classification), đây là loại phân lớp đơn giản nhất chỉ với tổng số lớp là N=2. Các thuật toán phổ biến thường hay sử dụng với số lớp N=2 là: hồi quy logistic, Support Vector Machine (SVM), cây quyết định (decision trees), Naive Bayes.

Phân lớp dữ liệu nhị phân được dùng nhiều trong cuộc sống như: chẩn đốn y khoa, tín dụng, phát hiện gian lận, spam, …

Còn một loại phân lớp dữ liệu có số lớp lớn hơn 2 (N>2). Phân lớp đa lớp (multi-class classification), đây là phương pháp để có thể phân lớp từ dữ liệu gốc thành nhiều lớp (N>2). Có một số phương pháp phổ biến như: Random Forest, Gradient Boosting, Logistic Regression, Support Vector Machine, … Phân lớp đa lớp được ứng dụng nhận dạng khuôn mặt, nhận dạng chữ viết (Optical Character Recognition), nhận dạng giống loài sinh vật, …

Cuối cùng là phân lớp đa nhãn (multi label classification). Đây là phương pháp được cả- i biên từ phân lớp nhị phân và phân lớp đa lớp. Được ứng dụng nhiều vào phân loại ảnh, phân loại văn bản (chủ đề), …

Quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp gọi quá trình phân lớp dữ liệu.

<i><b>Quy trình 2 bước: </b></i>

+ S1: Xây dựng mơ hình phân lớp (Model Construction). + S2: Sử dụng mơ hình phân lớp (Model Usage).

S2.1: Đánh giá mơ hình phân lớp (độ chính xác, …). S2.2: Phân lớp những dữ liệu mới.

1.2. <i>Phân cụm dữ liệu</i>

Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng. Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì khơng q giống nhau.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

7

- Mơ hình phân cụm là mơ hình dự đốn khơng giám sát. Có nghĩa là nó khơng tập trung vào một biến mục tiêu. Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu. Do đó, dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn

1.2.1. <i>Quá trình phân cụm dữ liệu.</i>

Để đánh giá mơ hình phân cụm ta có thể đánh giá theo một số phương pháp bên dưới. Đánh giá cụm, đây là khâu quan trọng nhất trong kỹ thuật gom cụm, cũng là khâu quan trọng nhất của đề tài. Đánh giá, so sánh và chọn ra phương pháp gom cụm có chất lượng đủ tốt.

1.2.2. <i>Thuật tốn phân cụm dữ liệu.</i>

- Thuật toán phân cụm Means: thuộc nhóm thuật tốn phân cụm dựa trên phân hoạch, là một K-trong những thuật toán phân cụm dữ liệu được sử dụng nhiều trong khai phá dữ liệu.

- Thuật toán phân cụm phân cấp (Hierachical Clustering) không yêu cầu khai báo trước số lượng cụm. Thay vào đó, thuật tốn chỉ u cầu xác định trước thước đo về sự khác biệt giữa các cụm (không giao nhau), dựa trên sự khác biệt từng cặp giữa các quan sát trong hai cụm.

1.2.3. <i>Ứng dụng</i>

Phương pháp gom cụm được ứng dụng nhiều vào: kinh doanh, tiếp thị, xã hội, tìm kiếm thơng tin (Information Retrieval, Recommender System).

2.<b> Tìm hiểu dữ liêu</b>

2.1. <i>Phân tích dữ liệu và tiền xử lý dữ liệu</i>

Mỗi hàng đại diện cho 1 đối tượng doanh nghiệp và mỗi cột chứa các thuộc tính của đối tượng:

− Dữ liệu thô chứa 776 hàng (đối tượng) và 25 cột (đặc trưng).

− Trong cột dữ liệu về các thuộc tính bao gồm có 4 thuộc tính là: Inherent_Risk (Rủi ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) cả 4 thuộc tính cho ra kết quả ảnh hưởng phần lớn đến nguy cơ doanh nghiệp có gian lận (Risk1) hoặc khơng gian lận (Risk0). Nhìn chung, các đặc tính Inherent_Risk, Control_Risk, Audit_Risk đều có điểm chung là nếu các chỉ số càng nhỏ hoặc có giá trị nhỏ khơng đáng kể (xấp xỉ 0) thì khả năng xảy ra kết quả “Risk 0” càng cao. Mặt khác, các chỉ số càng lớn thì khả năng xảy ra kết quả “Risk1” càng cao, chứng tỏ doanh nghiệp có nguy cơ gian lận trong kiểm tốn. Nhóm sử dụng các thuộc tính nêu trên để đưa ra những dự đoán gian lận dựa trên các kết quả đưa ra. Sau khi phân tích chúng ta sẽ thực hiện bước tiền xử lý dữ liệu.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Dữ liệu cơ bản đã được xử lý, 11 đối với các dữ liệu bị thiếu, đối với các dữ liệu bị thiếu chúng em sử dụng công cụ Preprocess để xử lý các dữ liệu bằng cách thay thế các dữ liệu bị thiếu bằng giá trị trung bình của các giá trị trong thuộc tính đó.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

10

2.2.2. <i>Phân tách dữ liệu:</i>

− Lọc từ dữ liệu gốc “audit_risk”, nhóm đã sử dụng cơng cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hiện việc phân lớp dữ liệu như sau: Sử dụng 70% dữ liệu ban đầu để làm dữ liệu mẫu huấn luyện mô hình phân lớp dữ liệu (audit_risk.tab). Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (audit_risk_forecast.tab). − Xác định biến độc lập và biến phụ thuộc:

+ Biến phụ thuộc là “Risk”

+ Biến độc lập là các thuộc tính cịn lại.

3. BÀI TỐN 1: PHÁT HI<b>ỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂ</b>N CÁC Y U T <b>ẾỐ</b>

<i>3.1. Mơ tả bài tốn (slide)</i>

<i>3.2. Các phương pháp thể hiện đánh giá dữ liệu- </i> ( đọc cái này)

<small> </small> Biểu đồ thanh: thể hiện sự chênh lệch giữa các thuộc tính trong việc đưa ra kết quả “Có” hoặc “Khơng” xảy ra rủi ro gian lận trong báo cáo tài chính.

<small> </small> Biểu đồ histogram: phân bổ chỉ số điểm và tần suất xuất hiện của các chỉ số với kết quả lần lượt của hai loại công ty.

<small> </small> Biểu đồ scatter plot: thể hiện mối tương quan giữa hai thuộc tính.

<i>3.3. Phân tích dữ liệu ( đọc cái này)</i>

<small> </small> Para: chênh lệch giữa thuộc tính được thấy trong báo cáo tóm tắt và báo cáo cuộc điều tra.

<small> </small> Các chỉ số Para A (khác biệt A) của “Risk 0” tập trung từ mức 0-1 . Ngược lại, chỉ số Para A này với “Risk 1” lại được phân rải giảm dần từ mức 1-90 . Độ phủ của “Risk 1” hoàn toàn áp đảo “Risk 0”.

<small> </small> Risk A, Risk B: giá trị rủi ro của các báo cáo trong quá khứ.

<b>Biểu đồ 4: giá trị rủi ro của báo cáo A và báo cáo B trong quá khứ</b>

<small> </small> Có thể thấy rằng chỉ số chỉ số giá trị rủi ro gian lận trong báo cáo có xu hướng tỉ lệ thuận với giá trị khác biệt. Rủi ro gian lận trong báo cáo tài chính sẽ càng cao nếu chỉ số khác

</div>

×