Tải bản đầy đủ (.pdf) (87 trang)

Đánh giá sự thành công của các ico bằng text mining và lập mô hình máy học dự báo giá tiền điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.52 MB, 87 trang )

<span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

i

THƠNG TIN KHĨA LU N TẬ ỐT NGHI P Ệ Thông tin sinh viên

1. Phan Th Minh Phị ụng 18126046 2. Nguy n Th ễ ị Ngọc Trang 18126074 Thông tin đề tài

- Tên của đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mơ hình máy học dự báo giá tiền điện tử

- Đơn vị qu n lý: Bả ộ môn Thương Mại Điện Tử, Khoa Kinh Tế, Trường Đại Học Sư Phạm Kỹ Thuật Tp. Hồ Chí Minh.

- Thời gian th c hi n: T ự ệ ừ ngày 30/08/2021 đến ngày 31/05/2022 - Thời gian b o vả ệ trước hội đồng:

Lời cam đoan của sinh viên

Chúng tôi là Phan Th Minh Ph ng và Nguy n Thị ụ ễ ị Ngọc Trang cam đoan đồ án tốt nghiệp là cơng trình nghiên c u cứ ủa chúng tơi dướ ự hướng d n c a thi s ẫ ủ ạc sĩ Trần Kim To i và các tài li u tham khạ ệ ảo đính kèm ở cuối báo cáo. K t qu công bế ả ố trong đồ án tốt nghiệp là trung thực và khơng sao chép từ bất k cơng trình nào khác. ỳ

Tp. HCM, ngày … tháng …. năm 2022 Người thực hiện Người thực hiện

(Ký và ghi rõ h tên)ọ (Ký và ghi rõ h tên) ọ

Giảng viên hướng dẫn xác nhận quyển báo cáo đã được chỉnh sửa theo đề nghị được ghi trong biên bản của H i đồng đánh giá Khóa luận tốt nghiệp. ộ

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

ii

(Dùng cho giảng viên hướng dẫn)

Đề tài: Đánh giá sự thành công c a các ICO bằng text-mining và l p mơ hình ủ ậ máy h c d báo giá tiọ ự ền đi n tử ệ

Giảng viên hướng dẫn: ThS. Trần Kim Toại

1. Phan Th Minh Phị ụng 18126046 2. Nguy n Th ễ ị Ngọc Trang 18126074 Nhận xét bao gồm các nội dung sau đây:

1. Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực 2. Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:

Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết <small>[10]</small>; có phân tích và đánh giá phù hợp<small> [10]</small>; có tính mới và tính sáng tạo . <small>[5]</small>

... ... 3. Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ <small>[10]</small>; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ <small>[10]</small>; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy <small>[5]</small>.

... ... 4. Kết luận và đề xuất [10/100] :

Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn <small>[5]</small>; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục <small>[5]</small>.

... ...

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

iii

5. Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]:

Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu <small>[5]</small>; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt <small>[15]</small>.

... ... 6. Kỹ năng chuyên nghiệp và tính sáng t o: ạ Thể hi n các kệ ỹ năng giao tiếp, kỹ năng làm việc nhóm, và các k nỹ ăng chuyên nghiệp khác trong việc thực hiện đề tài 8. Đánh giá về sự trùng lặp của đề tài

Cần khẳng định đề tài có trùng l p hay khơng? Nặ ếu có, đề nghị ghi rõ mức độ, tên đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c . 10. Nh n xét tinh thậ ần, thái độ ọ ậ h c t p, nghiên c u cứ ủa sinh viên

Đề ngh của giảng viên ị

Ghi rõ “Báo cáo đạt / không đạt yêu cầu của một khóa luận tốt nghiệp cử nhân và được phép/ khơng được phép bảo vệ khóa luận t t nghiố ệp”

... Tp. HCM, ngày … tháng …. năm 2022

Người nhận xét (Ký và ghi rõ h tên) ọ

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

iv

(Dùng cho gi ng viên ph n biả ả ện)

Đề tài: Đánh giá sự thành công của các ICO bằng text-mining và lập mơ hình máy h c d báo giá tiọ ự ền đi n tửệ

Giảng viên hướng dẫn: ThS. Trần Kim Toại

1. Phan Th Minh Phị ụng 18126046 2. Nguy n Th ễ ị Ngọc Trang 18126074 Nhận xét bao gồm các nội dung sau đây:

1. Tính hợp lý trong cách đặ ấn đềt v và gi i quy t vả ế ấn đề; ý nghĩa khoa học và thực 2. Phương pháp thực hiện/ phân tích/ thiết kế [25/100]:

Phương pháp hợp lý và tin c y dậ ựa trên cơ sở lý thuyết <small>[10]</small>; có phân tích và đánh giá phù hợp<small> [10]</small>; có tính mới và tính sáng tạo . <small>[5]</small>

... ... 3. Kết quả thực hiện/ phân tích và đánh giá kết qu / kiả ểm định thiết kế [25/100]: Phù h p v i m c tiêu ợ ớ ụ <small>[10]</small>; phân tích và đánh giá / kiểm th ử thiết k h p lý ế ợ <small>[10]</small>; có tính sáng tạo/ kiểm định chặt chẽ và đảm bảo độ tin cậy <small>[5]</small>.

... ... 4. Kết luận và đề xuất [10/100]:

Kết luận phù h p vợ ới cách đặ ấn đề, đề xuất v t mang tính c i ti n và thả ế ực tiễn <small>[5]</small>; kết luận có đóng góp mới mẻ, đề xuất sáng tạo và thuyết phục<small>[5]</small>.

...

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

v

...

5. Hình th c trình bày, b cứ ố ục và chất lượng báo cáo [15/100]: Văn phong nhất quán, bố cục hợp lý, cấu trúc rõ ràng, đúng định dạng mẫu <small>[5]</small>; có tính hấp d n, th hiẫ ể ện năng lực tốt, văn bản trau chuốt <small>[15]</small>.

7. Đánh giá về sự trùng lặp của đề tài Cần khẳng định đề tài có trùng l p hay khơng? Nặ ếu có, đề nghị ghi rõ mức độ, tên đề tài, nơi công bố, năm công bố ủa đề tài đã công bố c . - Điểm (Quy về thang điểm 10 khơng làm trịn): ………./10.

- Xếp lo i chung ạ (Xuất sắc, Giỏi, Khá, Trung bình, Y u, Kém) ... ế

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

vi

Đề ngh c a giảng viên ph n biện ị ủ ả

Ghi rõ: “Báo cáo đạt/ khơng đạt u cầu của một khóa luận tốt nghiệp kỹ sư, và được phép/ không được phép bảo vệ khóa luận tốt nghiệp”

... Tp. HCM, ngày … tháng …. năm 2022

Người nhận xét (Ký và ghi rõ h tên)ọ

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

vii

Lời đầu tiên, chúng tôi xin chân thành g i l i cử ờ ảm ơn đến GVHD th y Tr n Kim ầ ầ Toại đã hướng d n nhóm m t cách tẫ ộ ận tình cũng như có những h ỗ trợ để nhóm có th ể hồn thành đồ án đúng tiến độ và hồn chỉnh nhất. Trong q trình thực hiện đồ án, thầy đã chỉ dẫn và cung cấp nhiều kiến thức mới trong lĩnh vực Machine Learning – một lĩnh vực mà đối với nhóm cịn khá mới mẻ. Đây là nền tảng rất tốt và vô cùng quan tr ng, giúp nhóm có th hoàn thiọ ể ện đồ án và hỗ trợ ề n n ki n thế ức cho các công việc và nghiên c u sau này.ứ

Đồng thời, nhóm cũng gửi lời cảm ơn đến các giảng viên trường Đạ ọc Sư i h Phạm Kỹ Thuật TP.HCM. Trong th i gian h c t p tờ ọ ậ ại trường, các giảng viên đã hỗ trợ, cung cấp nhiều kiến thức và kĩ năng, làm nền tảng để các thành viên trong nhóm có nền tảng để hồn thành được đồ án t t nghi p này.ố ệ

Lời cu i cùng, chúng tôi xin gố ửi đến quý Thầy, Cô trường Đại học Sư phạm K ỹ thuật TP.HCM l i chúc s c kh e dờ ứ ỏ ồi dào cũng như lời chúc tiếp tục nâng bước, h ỗ trợ cho nh ng th h ữ ế ệ sinh viên và đạt được nhiều hơn nữa thành công trong công việc

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI ... 1

1.1. GIỚI THIỆU ĐỀ TÀI ... 1

1.2. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ... 1

1.3. CÁC CƠNG TRÌNH NGHIÊN C U CĨ LIÊN QUAN ... 3 Ứ 1.4. NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI ... 6

2.2. THUẬT TOÁN KNN (K-NEAREST NEIGHBORS) ... 10

2.3. THUẬT TOÁN NAIVE BAYES ... 11

2.4. CONFUSION MATRIX ... 12

2.5. MƠ HÌNH RNN (RECURRENT NEURAL NETWORK)... 13

2.6. MƠ HÌNH LSTM (LONG SHORT - TERM MEMORY) ... 15

2.7. MƠ HÌNH CNN (CONVOLUTIONAL NEURAL NETWORK) ... 16

CHƯƠNG 3. PHƯƠNG PHÁP THỰC HIỆN ... 18

3.1. LƯU ĐỒ Ổ T NG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI ... 18

3.2. PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG C A CÁC ICO ... 18 Ủ 3.2.1. Thu thập whitepaper của các ICO ... 18

3.2.2. Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO ... 19

3.2.3. C u hình ph n c ng hu n luyấ ầ ứ ấ ện thu t toán ... 21 ậ 3.2.4. Xây d ng thuự ật toán KNN ... 21

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

ii

3.2.5. Xây d ng thuự ật tốn Naive Bayes ... 26

3.3. PHƯƠNG PHÁP DỰ BÁO GIÁ TIỀN ĐIỆN T ... 29 Ử 3.3.1. Thu thập dữ liệu giá tiền điệ ửn t ... 29

3.3.2. Lựa chọn các ICO thành cơng để ự đốn giá d ... 32

3.3.3. Lưu đồ thực hiện xây d ng các mơ hình d ự ự đốn giá ... 33 3.3.10. Tối ưu hĩa các tham số ... 41

CHƯƠNG 4. KẾT QUẢ THỰC HIỆN ... 43

4.1. KẾT QUẢ ĐÁNH GIÁ SỰ THÀNH CƠNG C A CÁC ICO ... 43 Ủ 4.1.1. Thuật tốn KNN ... 43

4.1.2. Thuật tốn Nạve Bayes ... 44

4.1.3. So sánh thu t tốn KNN và Nạve Bayes ... 45 ậ 4.2. KẾT QUẢ Ự D BÁO GIÁ TIỀN ĐIỆN TỬ ... 45

4.2.1. Kết quả ựa chọ l n mơ hình ... 45

4.2.2. Kết quả ối ưu hĩa các tham số ủ t c a mơ hình ... 46

4.2.3. Kết quả ự d báo giá trong 60 phút cu i ... 51 ố

5.2.1. Những h n ch ạ ế khi đánh giá sự thành cơng c a ICO ... 59 ủ 5.2.2. Những h n ch khi thạ ế ực hiện dự đốn giá tiền điệ ửn t ... 60

5.3. ĐỀ XUẤT HƯỚNG PHÁT TRIỂN TƯƠNG LAI ... 61

KẾT LUẬN ... 63

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

iii

TÀI LIỆU THAM KH O ... 64 Ả TIẾNG ANH ... 64 TIẾNG VIỆT ... 68

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

iv

Hình 2.1. Cấu trúc ma tr n Confusion Matrix ... 12 ậ Hình 2.2. Cấu trúc c a mủ ạng nơ-ron h i quy (RNN) ... 13 ồ

Hình 2.3. Hướng di chuyển luồng thơng tin của RNN và feedforward neural ... 14

Hình 2.4. Cấu trúc m ng LSTM ... 15 ạ Hình 2.5. Cấu trúc m ng ạ CNN ... 16

Hình 3.1. Lưu đồ tổng quan các bước thực hiện đề tài ... 18

Hình 3.2. Tổng h p sợ ố lượng ICO đã thu thập ... 19

Hình 3.3. Lưu đồ thực hiện đánh giá sự thành cơng của các ICO ... 20

Hình 3.4. Source code chuyển đổi dữ liệu sang dạng text ... 22

Hình 3.5. Source code sử d ng xpdf-ụ tools-win-4.03 đọc dữ liệu ... 22

Hình 3.6. Source code cài đặt tham số cho mơ hình ... 23

Hình 3.7. Source code xử lý tiền d u trong text-mining ... 23 ữ liệ Hình 3.8. Source code tạo ma tr n Bag of words ... 24 ậ Hình 3.9. Source code thiết lập nhĩm d ữ liệu theo TDM ... 24

Hình 3.10. Source code xếp ch ng d u (Nhĩm thồ ữ liệ ực hiện) ... 25

Hình 3.11. Source code phân chia dữ u ... 25 liệ Hình 3.12. Đưa dữ liệu vào thu t tốn KNN ... 25 ậ Hình 3.13. Source code chuyển d u sang text ... 26 ữ liệ Hình 3.14. Source code xử lý tiền d u ... 27 ữ liệ Hình 3.15. Source code xĩa các thì của từ ... 27

Hình 3.16. Source code phân chia d u ... 28 ữ liệ Hình 3.17. Xây dựng mơ hình Nạve Bayes ... 28

Hình 3.18. Quy trình thu thập d u giá tiữ liệ ền điệ ử ằn t b ng cơng c Coin-for-ụ rich 29 Hình 3.19. Sơ đồ chi tiết thu dữ li u b ng Coin-for-ệ ằ rich ... 29

Hình 3.20. Kéo thời gian để thu dữ liệu lịch sử t ừ REST APIs ... 30

Hình 3.21. Truy xuất dữ liệu đã thu được ... 30

Hình 3.22. Xuất dữ liệu đã thu được sang file csv ... 31

Hình 3.23. 20 dịng dữ liệu giá SOL trên sàn binance ... 32 Hình 3.24. Lưu đồ thiế ết k và xây dựng mơ hình dự đốn giá tiền điện t ... 33 ử

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

v

Hình 3.25. Sắp x p và phân loế ại dữ liệu đầu vào ... 35

Hình 3.26. Source code thực hiện chu n hĩa dẩ ữ liệu ... 36

Hình 3.27. Source code thực hiện chuy n chi u d u ... 36 ể ề ữ liệ Hình 3.28. Source code tính tốn các chỉ s hi u su ... 37 ố ệ ất Hình 3.29. Cấu trúc hoạt động m ng RNN ... 37 ạ Hình 3.30. Cấu trúc m ng RNN s dạ ử ụng để ự d báo giá tiền điệ ửn t ... 38

Hình 3.31. Source code mơ hình RNN ... 38

Hình 3.32. Cấu trúc hoạt động m ng LSTM ... 38 ạ Hình 3.33. Cấu trúc m ng LSTM s dạ ử ụng để ự d báo giá tiền điệ ửn t ... 39

Hình 3.34. Source code mơ hình LSTM ... 40

Hình 3.35. Cấu trúc m ng CNN ... 40 ạ Hình 3.36. Cấu trúc m ng CNN s dạ ử ụng để ự d báo giá tiền điệ ửn t ... 41

Hình 3.37. Source code mơ hình CNN ... 41

Hình 4.1. Ma tr n h n lo n th hi n kậ ỗ ạ ể ệ ết quả ủa thuậ c t tốn KNN ... 43

Hình 4.2. Ma trận h n lo n th hi n kỗ ạ ể ệ ết quả ủa thuậ c t tốn Nạve Bayes ... 44 Hình 4.3. Dự đốn giá 3 loại tiền điệ ửn t trong 60 phút cu i ... 52 ố Hình 4.4. Dự đốn giá 3 loại tiền điệ ửn t trong 20 phút cu i ... 55 ố

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

vi

DANH MỤC B NG BI U Ả Ể

Bảng 4.1. Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn KNN ... 43 Bảng 4.2. Kết quả phân loại các whitepaper khi sử ụ d ng thuật tốn Nạve Bayes . 44 Bảng 4.3. So sánh các chỉ s hi u suố ệ ất của thuật tốn KNN và Naive Bayes ... 45 Bảng 4.4. Kết quả so sánh các mơ hình c a 3 loủ ại tiền điệ ửn t ... 46 Bảng 4.5. Các giá trị tham số c n l a chầ ự ọn để cĩ được mơ hình CNN tối ưu ... 47 Bảng 4.6. Kết quả ối ưu tham số t mơ hình CN - data ETH ... 47 N Bảng 4.7. Kết quả ối ưu tham số t mơ hình CNN - data IOTA ... 48 Bảng 4.8. Kết quả ối ưu tham số t mơ hình CNN data SO ... 49 – Bảng 4.9. Kết quả ối ưu tham số ủa mơ hình CNN ... 50 t c Bảng 4.10. Kết quả các chỉ số c a mơ hình tủ ối ưu ... 51 Bảng 4.11. Giá g c và giá d báo c a ETH trong 20 dịng cu ... 52 ố ự ủ ối Bảng 4.12. Giá g c và giá d báo c a IOTA trong 20 dịng cu ... 53 ố ự ủ ối Bảng 4.13. Giá g c và giá d báo c a SOL trong 20 dịng cu i ... 54 ố ự ủ ố

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

vii

DANH MỤC CÁC T VI T T T Ừ Ế Ắ

ARIMA Autoregressive Integrated Moving Average

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

viii

TÓM T T Ắ

Bài nghiên c u xây d ng mơ hình dứ ự ự đốn sự thành công c a các ICO v i các ủ ớ thuật tốn KNN và Naive Bayes. Sau đó tiếp tục dự đốn giá các coin thành cơng thơng qua các mơ hình RNN, LSTM và CNN. Mục đích là tìm ra được mơ hình d ự đốn có hiệu suất cao, dự đốn giá chuẩn xác và sai số thấp nhất.

Dữ liệu text-mining thu th p t coinmarketcap và cryptorank. Bậ ừ ằng phương pháp th ủ cơng, thu được 150 whitepaper. Nhóm đã xây dựng mơ hình KNN và Naive Bayes. Dữ liệu dự đoán giá thu thập b ng Coin-for-ằ rich, thu được 3 b dộ ữ liệu giá của ETH, IOTA và SOL, m i b có 44640 dịng. Nhóm xây d ng mơ hình LSTM, ỗ ộ ự RNN, CNN và s dử ụng GridSearchCV để điều ch nh tham s phù h p v i mơ hình ỉ ố ợ ớ

Kết qu text-mining cho th y KNN là mơ hình có hi u su t cao nh t v i 96,89%. ả ấ ệ ấ ấ ớ Về ph n d ầ ự đốn giá, CNN là mơ hình phù h p nhợ ất, dự đốn chính xác 73,684% về sự tăng - gi m c a giá ETH, 84,211% v i IOTA và 63,168% v i SOL. ả ủ ớ ớ

Bài nghiên c u ch phân lo i s thành công c a ICO d a vào ROI, b i ROI ứ ỉ ạ ự ủ ự ở được các nhà đầu tư quan tâm, ảnh hưởng đến quyết định đầu tư. Thực tế còn nhiều yếu t ố ảnh hưởng đến vấn đề này. V ph n d ề ầ ự đoán giá, thời gian thu th p d ậ ữ liệu còn ngắn và số l n hu n luy n mơ hình ít nên ầ ấ ệ ảnh hưởng đến k t qu dế ả ự đốn.

Dự đốn sự thành cơng c a ICO v n còn m i m ủ ẫ ớ ẻ và chưa có nhiều nghiên c u. ứ Dự đoán giá tiền điện tử hiện nay nhận được nhi u s quan tâm. K t qu cề ự ế ả ủa đề tài nghiên c u này s là ngu n tham kh o h u ích cho nh ng nghiên c u ti p theo. ứ ẽ ồ ả ữ ữ ứ ế

Từ khóa: sách tr ng, dắ ự đốn, tiền điệ ử, khai thác văn bản t n, máy học.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

ix

ABSTRACT

This paper builds a model to predict the success of ICOs with KNN and Naive Bayes algorithms. Then continue to predict the price of successful ICOs through RNN, LSTM, and CNN models. The goal is to find a predictive model with high performance, accurate price prediction, and the lowest error.

Text-mining data collected from coinmarketcap and cryptorank. By the manual method, 150 whitepapers were obtained. The team built KNN and Naive Bayes models. Price prediction data collected with Coin-for-rich obtained 3 sets of price data of ETH, IOTA, and SOL, each with 44640 lines. The team builds LSTM, RNN, and CNN models and uses GridSearchCV to adjust parameters to fit the model.

Text-mining results show that KNN is the model with the highest performance with 96.97%. As for price prediction, CNN is the most suitable model, correctly predicting 73.684% for ETH price increase - decrease, 84.211% for IOTA, and 63.168% for SOL.

The study only classifies the success of ICOs based on ROI, because ROI is of interest to investors, affecting investment decisions. Many factors influence this issue. As for price prediction, the time to collect data is short and the number of times to train model is small, which affects the prediction results.

Predicting the success of ICOs is still quite new and not much research is available. Cryptocurrency price predictions are getting a lot of attention nowadays. The results of this study will be a useful reference for future studies.

Keywords: whitepaper, prediction, cryptocurrency, text-mining, machine learning.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

1

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI 1.1. GIỚI THIỆU Đ TÀI Ề

Theo Florysiak và Schandlbauer (2022), sách trắng được xem là ngu n thơng ồ tin h u ích cung cữ ấp cho các nhà đầu tư tiềm năng đợt phát hành coin đầu tiên (ICO) trong các d án trên, làm n n t ng làm cân b ng tính th c t thơng tin gi a nhà phát ự ề ả ằ ự ế ữ hành ICO và nhà đầu tư.

Feng và c ng sộ ự (2019) đã cho biế ằt r ng, ICO là m t ngu n tài li u vô cùng ộ ồ ệ quan trọng đối v i các nhà qu n lý trên kh p th gi i, chúng mang l i r t nhi u nguớ ả ắ ế ớ ạ ấ ề ồn thông tin quan tr ng và ọ ảnh hưởng đến quyết định đầu tư của các nhà đầu tư bởi vì chỉ có chúng m i mang l i nh ng ngu n thơng tin chính th ng v các coin s p ra m ớ ạ ữ ồ ố ề ắ ắt. Vậy đánh giá được độ thành công của một ICO có t m quan trầ ọng như thế nào? Cetingok và Deola (2018) đã thực hi n m t cu c kh o sát trong sệ ộ ộ ả ố 50 nhà đầu tư và kết quả chỉ ra r ng nằ ội dung của sách tr ng có ắ ảnh hưởng nhi u nhề ất đến quyết định đầu tư. Đánh giá được ICO nào thành công sẽ là một bước đệm lớn trong vấn đề dự đoán giá, lợi nhuận và những biến đổ ủa chúng, giúp cho nhà đầu tư có nhữi c ng cái nhìn khách quan hơn. Ngày nay, dự báo tiền điện tử thường được coi là một trong những vấn đề ự đoán chuỗ d i thời gian thách th c nh t do sứ ấ ố lượng lớn các y u t ế ố khơng th ể đốn trước liên quan và sự biến động đáng kể ủ c a giá tiền điệ ử ẫn đến t , d n sự ph ụ thuộc phức tạp theo thời gian.

Các mơ hình d ự báo giá đều d a trên nh ng k ự ữ ỹ thuật máy học sâu nâng cao như các l p b nh ng n h n (LSTM), ph c h p và dài h n. Các l p phù hớ ộ ớ ắ ạ ứ ợ ạ ớ ợp được s ử dụng để lọc nhiễu trong d u chu i th i gian ph c tữ liệ ỗ ờ ứ ạp cũng như trích xuất các tính năng có giá trị mới trong khi các lớp LSTM được sử dụng để nắm bắt hiệu quả các mẫu trình t ự cũng như các phụ thuộc dài hạn và ng n hắ ạn.

Dựa trên các cơng trình trước đó, mục tiêu của nghiên cứu này gồm hai phần: Thứ nhất, đánh giá thành công của ICO v i sách tr ng (phân lo i theo ROI) d a trên ớ ắ ạ ự thuật toán text-mining và th hai, dứ ự đốn giá cho các ICO thành cơng.

1.2. TÍNH CẤP THIẾT CỦA ĐỀ TÀI

Khai thác văn bản đã trở thành một lĩnh vực nghiên c u thú vị vì nó giúp khám ứ phá thơng tin có giá tr t ị ừ các văn bản phi c u trúc. Ngoài ra, phân lo i tài li u là mấ ạ ệ ột

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

2

mối quan tâm tr ng tâm trong các nghiên cọ ứu khai thác văn bản, b i vì sở ố lượng tài liệu trong m i ngành ngành nghỗ ề đều đạ ố lượt s ng r t lấ ớn và có tính liên đớ ớ ất i v i r nhiều ngành ngh ề khác, do đó việc sẽ gây ra ra r t nhiấ ều khó khăn nếu th c hi n các ự ệ quy trình phân lo i b ng tay (Ting và nnk., 2017). ạ ằ Việc xác định các phương pháp, thuật toán và kỹ thuật x lý chính xác là r t quan trử ấ ọng để trích xu t thơng tin b ng ấ ằ cách s dử ụng khai thác văn bản (Dang & Ahmad, 2014). Và trong lĩnh vực tài chính, khai thác văn bản đã được áp dụng trong một số hoạt động rộng lớn, chẳng hạn như dự đoán tỷ giá hối đoái, dựđoán thị trường ch ng khoán, ng dứ ứ ụng qu n lý quan h ả ệ khách hàng và an ninh m ng (Kumar & Ravi, 2016). Các thu t toán r t khác nhau ạ ậ ấ giữa các máy vectơ hỗ trợ, n-gram, bản đồ tự tổ chức, LDA, v.v. Bộ dữ liệu chủ yếu tập trung vào các bài báo, hồ sơ công ty và tweet.

Dựa trên nh ng k t qu nghiên c u trên thì vi c áp d ng vữ ế ả ứ ệ ụ ấn đề khai thác văn bản vào nhiều lĩnh vực s có thẽ ể đưa ra được nh ng k t qu chính xác và ti t kiữ ế ả ế ệm được nhiều th i gian. Chính vì vậy, việc ứng d ng viờ ụ ệc khai thác văn bản vào việc dự đốn thành cơng c a m t ICO là mủ ộ ột điều r t hấ ữu ích. Do đó, sử d ng text-mining ụ vào việc đánh giá ICO là một lĩnh vực nghiên cứu đầy tiềm năng. Đặc bi t, sau khi ệ dự đoán được d án ICO nào có kh ự ả năng thành cơng, việc tiến hành d ự đốn giá cho chúng sẽ mang l i rạ ất nhi u l i ích cho nhề ợ ững nhà đầu tư sau này.

Trong nhi u nghiên cề ứu trước đây về d báo s biự ự ến động của tiền điệ ử ằn t b ng mơ hình h i quy, dồ ựa trên giá trước đó mang lại hi u su t khơng cao b i vi c d ệ ấ ở ệ ự đoán này ch y u d a trên sai sủ ế ự ố trung bình bình phương (RMSE) ho c sai sặ ố phần trăm tuyệt đối trung bình (MAPE) giữa giá trị dự đốn và giá trị thực trong 1 mơ hình nào đó. Những giá tr c a RMSE thị ủ ấp chưa đủ nói lên vi c d ệ ự đốn mơ hình thực s mang ự lại hi u quệ ả. Do đó, việ ực l a ch n mơ hình nghiên c u sọ ứ ẽ ả h hưởn ng nhiều đến tính chính xác c a kủ ết quả cuối cùng.

RNN (Elman, 1990) là mơ hình máy h c có khọ ả năng xử lý đầu vào v i bớ ất kỳ độ dài nào, khi sử dụng mơ hình này khơng c n lo l ng v kích c mơ hình sầ ắ ề ỡ ẽ tăng lên theo kích cỡ đầu vào. Và đặc bi t, trong ệ suốt q trình tính tốn thì tr ng s s ọ ố ẽ được chia sẻ. Bên cạnh đó, mơ hình RNN cịn được sử dụng nhiều lĩnh vực xử lý ở ngôn ng t nhiên. M c dù, mơ hình RNN có kh ữ ự ặ ả năng ghi nhớ những thông tin trước đó, nhưng nó khơng thể nhớ được những bước ở xa do b mị ất mát đạo hàm. Chính vì

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

3

vậy, m t mơ hình c i tiộ ả ến để kh c phắ ục được tình trạng này ra đời, cĩ tên là LSTM (Hochreiter & Schmidhuber, 1997). Mơ hình này được thừa hưởng tồn b t mơ ộ ừ hình RNN nhưng nĩ sẽ tích hợp thêm các cổng tính tốn ở lớp ẩn để quyết định giữ lại các thơng tin nào.

Theo một nghiên c u gứ ần đây cho thấy r ng RNN và LSTM là hai mơ hình hoằ ạt động tốt hơn những mơ hình chu i th i gian d ỗ ờ ự đốn tiền điện t khác (Dutta và nnk.ử , 2020). Theo m t nghiên c u c a Hijazi và nnk. (2015) v s d ng CNN trong viộ ứ ủ ề ử ụ ệc nhận d ng hình nh, h ạ ả ọ đã khẳng định r ng CNN là thuằ ật tốn được sử ụ d ng r ng rãi ộ và mang l i nhi u l i th trong vi c x lý dạ ề ợ ế ệ ử ữ liệu hình nh so v i nh ng thu t tốn ả ớ ữ ậ khác.

Theo như nhiều nghiên cứu trước đây cho thấy rằng CNN, LSTM và RNN là những mơ hình mang l i nhi u lạ ề ợi th trong vi c dế ệ ự đốn tiền điệ ửn t so với nh ng ữ mơ hình Machine Learning khác. (Ji và nnk., (2019); Jiang, 2020; Li & Dai, 2020). Thơng qua nhi u nghiên cề ứu, cũng như dựa vào những ưu điểm phù h p cho vi c d ợ ệ ự đốn tiền ảo, chúng tơi chọn ra 3 mơ hình để thực hiện quá trình dự đốn xu hướng biến động của tiền điện tử là RNN, CNN và LSTM.

1.3. CÁC CƠNG TRÌNH NGHIÊN C U CĨ LIÊN QUAN Ứ

Hiện nay, cĩ r t nhi u nghiên c u v vi c s d ng text-ấ ề ứ ề ệ ử ụ mining cũng như dự đốn sự ến độ bi ng giá của tiền điện tử ở rất nhiều quốc gia. Chúng tơi đã tham khảo các nghiên c u v d báo tiứ ề ự ền điện tử (cụ thể là Bitcoin) và m t s nghiên c u v ộ ố ứ ề mơ hình khai thác văn bản để cĩ th ể hồn thành đề tài m t cách t t nh t. Các báo cáo cáo ộ ố ấ trước đây gồm:

• Bijalwan và nnk. (2014) đã thực hiện nghiên c u vứ ề việc phân loại các bài báo d a trên vi c tìm ki m t khĩa cự ệ ế ừ ủa người dùng bằng 3 mơ hình khai thác văn bản là: KNN, Nạve Bayes và Term Graph. K t qu cho thế ả ấy KNN cĩ độ chính xác tối đa so v i Naive Bayes và Term-Graph. H n ch ớ ạ ế đối với KNN là độ ph c t p v ứ ạ ề thời gian của nĩ cao.

• Ji và nnk. (2019) đã thực hiện một nghiên cứu dự đốn giá của Bitcoin dựa trên nh ng mơ hình máy hữ ọc khác nhau như DNN, LSTM, RNN và Resnets đã đưa ra k t lu n r ng khế ậ ằ ả năng dự đốn của mơ hình LSTM tốt hơn các mơ hình dự đốn

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

4

khác cho các bài tốn h i quy, cịn mơ hình d trên DNN hoồ ự ạt động t t nh t cho các ố ấ bài toán phân lo i. Hạ ọ cũng đã đã đánh giá hiệu su t dấ ự đoán về giá Bitcoin c a các ủ mơ hình h c sọ âu khác nhau như mạng LSTM, mạng nơ-ron ph c h p, mứ ợ ạng nơ-ron sâu, mạng dư sâu và sự ế ợ k t h p c a chúng. K t qu cho th y r ng mơ hình d a trên ủ ế ả ấ ằ ự DNN thần kinh sâu hoạt động tốt nhất đố ớ ự lên xuối v i s ng của giá trong khi các mơ hình LSTM hơi tốt hơn các mơ hình còn lại để dự báo giá Bitcoin.

▪ Li và Da (2020) đã thựi c hi n m t nghiên c u v dệ ộ ứ ề ự đốn giá dựa vào các mơ hình thuật tốn Machine Learning để có th tìm ra mơ hình nào trong s nh ng ể ố ữ mơ hình nghiên c u mang l i hi u su t dứ ạ ệ ấ ự đoán tốt nh t. K t qu cho th y m ng n -ấ ế ả ấ ạ ơ ron lan truyền ngược BP (Back Propagation Neural Network) có hi u suệ ất kém hơn khi đem nó đi so sánh với CNN và LSTM. Trong khi CNN có nhiều lợi thế hơn về chỉ số giá tr d ị ự đốn mà LSTM lại có các ch s ỉ ố theo hướng dự đoán tốt hơn. Và khi tạo ra h n hỗ ợp m ng CNN-ạ LSTM thì đưa ra chỉ ố ố s t t nh t cho c hai giá tr d ấ ả ị ự đoán và hướng dự đoán.

▪ Jiang (2020) đã dự đoán giá của Bitcoin bằng 4 phương pháp máy học là LSTM, GRU, MLP và RMM. K t qu cho th y r ng cế ả ấ ằ ả 4 mơ hình đều có hi u suệ ất gần nhau, vì v y các mơ hình khác nhau có thậ ể được ưu tiên trong các tình hu ng ố khác nhau. LSTM và GRU có hi u suệ ất t t nh t trên tố ấ ập dữ liệu th nghi m g c. Mơ ử ệ ố hình MLP u cầu ít năng lực tính tốn hơn trong khi nó có hiệu su t thấ ấp hơn một chút so với mơ hình RNN.

▪ Munim và nnk. (2019) đã so sánh hai mơ hình là trung bình động tích hợp tự hồi quy (ARIMA) và mơ hình tự động hồi quy mạng nơ ron (NNAR). Kết quả là mơ hình ARIMA hoạt động tốt hơn NNAR trong việc dự đoán giá Bitcoin.

▪ Dutta và nnk. (2020) đã dự đoán giá Bitcoin bằng phương pháp tiếp cận đơn vị nh k thông qua mơ hình RNN, GRU và LSTM. Kđị ỳ ết quả cho th y r ng mơ hình ấ ằ kết h p gi a RNN-GRU hoợ ữ ạt động tốt hơn LSTM và GRU cũng có xu hướng hoạt động tốt hơn LSTM trên dữ liệu đào tạo ít hơn.

▪ Livieris và nkk. (2020) đã đề xu t m t mơ hình m ng thấ ộ ạ ần kinh sâu đa đầu vào MICDL để dự đoán giá và chuyển động của tiền điệ ửn t . K t qu c a nghiên c u ế ả ủ ứ cho th y rấ ằng mơ hình đề xu t trên dấ ự đốn giá tin cậy hơn so với những mơ hình máy h c truy n th ng, ngồi ra mơ hình này có khọ ề ố ả năng khai thác hiệu qu dả ữ liệu

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

5

tiền điện tử hỗn hợp với chi phí thấp hơn.

▪ Phaladisailoed và Numnonda (2018) đã so sánh hai mơ hình GRU và mơ hình hồi quy Huber v tính hi u quề ệ ả và độ chính xác cao để ự đốn giá Bitcoin. Kế d t qu ả cho th y r ng Gấ ằ RU có độ chính xác hơn, tuy nhiên sẽ mất nhiều thời gian hơn so với Huber.

▪ Chuanjie và nnk. (2019) đã thực hi n m t nghiên c u v vi c phân lo i các ệ ộ ứ ề ệ ạ báo cáo chính th c có th ứ ể được th c hi n thơng qua mơ hình hóa chự ệ ủ đề ới mơ hình v phân b Dirichlet tiố ềm ẩn (LDA). K t qu c a mơ hình phân lo i tế ả ủ ạ ừ LDA đã cung cấp rất nhiều thông tin h u ích trong vữ ấn đề ự đốn ICO thành công. d

▪ Cetingok và Deola (2018) đã đưa ra một mơ hình khai thác văn bản b ng ằ thuật toán KNN trên sách tr ng nh m tắ ằ ự động hóa quyết định đầ tư vào dựu án. Kết quả cho thấy r ng mơ hình khơng mằ ắc bất kỳ sai l m nào trong viầ ệc dự đoán 10 ICO thành công và 7 ICO không thành công.

▪ Derbentsev và nnk. (2020) đã thực hi n m t bài nghiên cệ ộ ứu so sánh các đặc tính tiên lượng cho nhi m v d ệ ụ ự đoán ngắn h n v t giá hạ ề ỷ ối đoái tiền điện t c a mử ủ ột số mơ hình máy h c: thu t tốn BART, M ng th n kinh nhân t o (ANN) và cây quyọ ậ ạ ầ ạ ết định k t h p ế ợ — RF. K t qu c a nghiên c u này cho th y r ng các thu t toán Machine ế ả ủ ứ ấ ằ ậ Learning (cụ thể là ANN, C&RT và các t h p c a chúổ ợ ủ ng) đưa ra kết qu tả ốt hơn so với các thuộc tính th ng kê chuố ỗi thời gian so với các phương pháp thống kê và kinh tế lượng c ổ điển.

▪ Một nghiên c u so sánh gi a RNN và tứ ữ ự động hồi quy vectơ (VAR) được thực hi n b i El-ệ ở Abdelouarti Alouaret (2017) để ự đoán giá Bitcoin. K t qu c a h d ế ả ủ ọ cho thấy r ng các mơ hình RNN có hi u suằ ệ ất tốt hơn so với phương pháp VAR.

▪ Li và nnk. (2020) đã thực hi n nghiên c u dệ ứ ự đoán biến động giá Bitcoin bằng vi c s dệ ử ụng LSTM và một m ng nhúng. K t qu cho th y r ng mơ hình kạ ế ả ấ ằ ết hợp LSTM và mạng nhúng đạt hiệu suất vượt trội so với mơ hình LSTM căn bản.

▪ Mudassir và nnk. (2020) đã thực hi n m t bài nghiên c u các d báo giá ệ ộ ứ ự Bitcoin từ ngắn hạn đến trung h n b ng cách s d ng các mơ hình máy h c, bao gạ ằ ử ụ ọ ồm ANN, SANN, SVM và LSTM. K t qu cho th y rế ả ấ ằng các mơ hình đều đạt u cầu và hi u su t tệ ấ ốt. Trong đó LSTM đã cho thấy hi u su t t ng th t t nh t. Tuy nhiên ệ ấ ổ ể ố ấ đối với những dự báo hàng ngày thì MAPE đạt hiệu suất thấp nhất là 1,44%, trong

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

6

khi nĩ thay đổi từ 2,88% đến 4,10% cho thời hạn từ bảy đến chín mươi ngày. ▪ Greaves và Au (2015) đã thu thập các giao dịch Bitcoin để ự đốn giá d Bitcoin. Họ đã sử ụ d ng b n mơ hình phân lo i là: Baseline, h i quy logistic, SVM ố ạ ồ và mạng nơ ron. Kết quả thu được cho thấy các mơ hình cĩ độ chính xác gần như tương đương nhau, cao nhất là mơ hình mạng nơ-ron với 55,1%, mơ hình hồi quy logistic là 54,3%, SVM là 53,7% và 53,4% đối v i mơ hình Baseline. ớ

• Dai và c ng sộ ự (2007) đã thực hi n m t nghiên c u v phân loệ ộ ứ ề ại văn bản thơng qua mơ hình Nạve Bayes và họ đã đưa ra k t lu n v hi u qu phân loế ậ ề ệ ả ại văn bản của thuật tốn Nạve Bayes đạt hiệu su t sao ấ

• Jadhav và Channe (2014) đã thực hiện m t nghiên cộ ứu để đánh giá hiệu suất phân loại văn bản c a các thu t tốn KNN, Naive Bayes, Decision Tree và k t qu ủ ậ ế ả cho th y r ng mơ hình KNN mang l i hi u ầ ằ ạ ệ suất phán đốn tốt nh t so v i hai thuấ ớ ật tốn cịn l i, Naive Bayes mang l i k t qu ạ ạ ế ả phán đốn với thời gian hu n luy n nhanh ấ ệ nhất.

1.4. NHỮNG ĐIỂM MỚI CỦA ĐỀ TÀI

Thơng qua nh ng nghiên cữ ứu trước đây cĩ thể thấy rằng, đã cĩ nhiều nghiên cứu thành cơng nh áp d ng vờ ụ ấn đề khai thác văn bản cũng như dự đốn giá tiền điện tử. Vi c chúng tơi ti p tệ ế ục sử ụng text-mining vào việc đánh giá white paper là lĩnh d vực nghiên cứu đầy tiềm năng, vừa gĩp ph n phát tri n viầ ể ệc ứng dụng khai thác văn bản vào việc đánh giá các ICO. Điểm m i là chúng tơi k t h p viớ ế ợ ệc đánh giá sự thành cơng c ng thêm v i vi c d ộ ớ ệ ự đốn giá cho các ICO. Điều này s mang l i r t nhi u lẽ ạ ấ ề ợi ích và s tham kh o cho nhự ả ững nhà đầu tư. Tuy đề tài cịn hạn chế về nhiều mặt (sẽ được trình bày cụ thể ở chương 5), tuy nhiên cũng cĩ thể xem là tài liệu để các nhà nghiên c u cĩ chuyên mơn phát tri n thêm v ứ ể ề sau.

Theo chúng tơi tìm hiểu và nhận định nhi u nghiên cở ề ứu trước đây, dữ liệu d ự báo giá tiền điệ ử đượn t c thu th p trên nh ng trang web là khá h n chậ ữ ạ ế, khơng đáp ứng được độ chính xác của dự án. Tại nghiên cứu của tác giả Phạm Hồng Anh (2021), tác giả đã thực hiện dự báo giá của Bitcoin bằng cách thu thập dữ liệu giá Bitcoin theo t ng ngày b ng Coinmarket. Tuy k t qu thu v khá tích cừ ằ ế ả ề ực, nhưng các sai s c a mơ hình t t nh t cịn khá cao. Nh n thố ủ ố ấ ậ ấy điều đĩ, ở bài nghiên c u này, ứ

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

7

chúng tôi đã thu thập dữ liệu bằng công cụ Coin-for-rich của tác giả Trần Việt Anh và Vương Hoài Nam. Công cụ này giúp thu thập dữ liệu thực tế ngay t i thạ ời điểm thu cũng như thu dữ liệu lịch sử của các loại tiền điện tử từ REST APIs trên sàn Binance, qua các bi n s : giá m c a, giá cao, giá thế ố ở ử ấp, giá đóng cửa, số lượng giao dịch và giá tr v n hóa th ị ố ị trường. Các bi n s ế ố này được thu v v i s biề ớ ự ến động chênh lệch theo t ng phút. T t cừ ấ ả đều có sự tác động đố ới các giao dịch và hi v ầu như đều xuất hiện trên các sàn giao dịch tiền điện tử. Việc thu thập dữ liệ ự động hóa thơng u t qua API s giúp d ẽ ữ liệu thu được sạch hơn, giúp người dùng có th d dàng xây d ng ể ễ ự ứng dụng phân tích d liệu của riêng mình. Với cơng cụ này, người dùng có thể tùy ữ chỉnh th i gian thu thập dữ liệu và ng d ng theo ý mình, ch y mơ hình ngay trên ờ ứ ụ ạ database đã được kéo. Nhờ đó, chúng tơi có thể đưa ra những dự báo về giá thơng qua các mơ hình máy h c m t cách c ọ ộ ụ thể và chi tiết hơn.

1.5. MỤC TIÊU NGHIÊN C U Ứ

Với bài nghiên c u này, nhóm chúng tơi nhứ ận định c n ph i thầ ả ực hiện được các mục tiêu cụ thể sau:

Đánh giá sự thành công của một ICO thơng qua thuật tốn text-mining: Để có th ể đánh giá và phân loại được sự thành công c a m t ICO b t kủ ộ ấ ỳ thì c n ph i xác ầ ả định được yếu t nào s quyố ẽ ết định đến kh ả năng thành công. Đố ới v i các d ự án kinh tế nói chung và ICO nói riêng thì l i nhu n s là yợ ậ ẽ ếu t ố ảnh hưởng lớn đến quyết định rót v n cố ủa các nhà đầu tư, từ đó sẽ quyết định khả năng thành cơng hay không của một d ự án ICO. Do đó trước khi d ự đốn khả năng thành cơng của ICO thì ta ph i thu ả thập và phân loại được ROI c a ICO nào thành công và không thành công qua mủ ức độ % của ROI.

Chọn lọc được những ICO có khả năng thành cơng trong tương lai: Để có thể chọ ọc được ICO thành cơng trong tương lai thì phả ựa vào các ICO đã thànn l i d h công trong quá kh , d a vào trung bình %ROI cứ ự ủa các ICO đã nổi tiếng để có th ể làm n n t ng dề ả ự đốn được ICO thành cơng trong tương lai thông %ROI và chiều hướng tăng hay giảm của các ICO này.

Phân tích và d báo giá c a nh ng ICO thành công thông qua vi c tri n khai ự ủ ữ ệ ể và hu n luy n các mơ hình máy h c CNN, RNN và LSTM: ấ ệ ọ Để có th phân tích và ể dự báo, c n ph i thu thầ ả ập được bộ dữ liệu giá của các lo i tiạ ền điệ ừ ừ đó huấn n t , t

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

8

luyện chúng b ng các mơ hình máy h c. Sau quá trình hu n luy n, thằ ọ ấ ệ ực hiện so sánh các chỉ s hiố ệu suất nhằm để lựa chọn mơ hình d báo tự ốt nhất nhất, đồng thờ ối ưu i t các tham s cố ủa mô hình để mơ hình cu i cùng là chu n nh t, dố ẩ ấ ự báo được k t qu ế ả chính xác nhất.

So sánh biến động so v i giá th c tớ ự ế: T k t qu d báo giá, th c hi n so sánh ừ ế ả ự ự ệ thủ công để kiểm tra được s biự ến động và chênh l ch so v i th c t (so sánh s chênh ệ ớ ự ế ự lệch của giá d báo v i s chênh l ch c a giá th c t t bự ớ ự ệ ủ ự ế ừ ộ dữ liệu đã thu thậ ừp t trước). Từ đó đưa ra được phương án phù hợp và đề xuất hướng phát triển tốt hơn cho đề tài.

Trả lời được các câu h i nghiên cỏ ứu: Cùng v i các m c tiêu trên, trong bài ớ ụ nghiên cứu này, chúng tôi cũng sẽ thông qua việc xây d ng các thu t toán và thự ậ ực hiện chúng mà lần lượt giải đáp cho những câu hỏi dưới đây:

- Làm th ế nào để đưa ra được đánh giá được khả năng thành công của ICO bất kỳ thông qua ch s ROI và whitepaper c a các ICO? ỉ ố ủ

- Trong quá trình thu thập d u thì n n t ng nào cho cho phép vi c thu thữ liệ ề ả ệ ập các thông tin về ROI cũng như các whitepaper ICO?

- Việc đánh giá sự thành công c a whitepaper sủ ẽ được th c hi n trên mơ hình ự ệ máy h c nào? ọ

- Việc dự đoán giá dựa vào các dữ liệu thu th p b ng API s mang l i k t qu ậ ằ ẽ ạ ế ả như thế nào so với các data có sẵn từ các trang web tiền điện tử uy tín như coin market?

- Mơ hình thu t tốn dậ ự đốn giá Machine Learning nào s mang l i hi u qu ẽ ạ ệ ả tốt nh t, dấ ự đốn giá chính xác nhất cho các ICO đã được đánh giá là thành cơng trước đó?

1.6. ĐỐI TƯ NG, PHỢ ẠM VI, PHƯƠNG PHÁP NGHIÊN CỨU

Đối tượng, phạm vi nghiên cứu: Đồ án tập trung vào chỉ số ROI của các loại tiền o trên sàn Binance v i nh ng dả ớ ữ ữ ệu v s bili ề ự ến động giá được thu th p b ng ậ ằ cách kéo d ữ liệu l ch s t REST APIs cùng vị ử ừ ới 150 whitepaper được thu th p t nậ ừ ền tảng coinmarket.

Phương pháp nghiên cứu: Thông qua vi c thu th p d ệ ậ ữ liệu sơ cấp và th c p cứ ấ ủa nhiều lo i tiạ ền điệ ửn t ph bi n, k t hổ ế ế ợp với phân tích và x lý sử ố liệu để đưa ra kết

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

9

quả có tính chính xác cao. 1.7. B Ố C C CỤ ỦA ĐỀ TÀI

Ngồi phần tóm tắt đề tài, k t lu n, mế ậ ục l c, các danh m c hình ụ ụ ảnh, sơ đồ và tài liệu tham kh o, k t cả ế ấu đề tài bao g m 5 ồ chương:

Chương 1. Tổng quan đề tài Chương 2. Cơ sở lý thuyết Chương 3. Phương pháp thực hiện Chương 4. Kết quả thực hiện

Chương 5. Kết luận đề tài - đề xuất hướng phát triển

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

10

2.1. ICO LÀ GÌ?

ICO là vi t t t c a t Initial Coin ế ắ ủ ừ Offering được d ch ra là phát hành ti n mã ị ề hóa lần đầu. Đây là một cách để giúp các nhóm d án ti n mã hóa có thự ề ể huy động vốn trong nhóm những người am hi u và có khể ả năng đầu tư vào những d án tiự ền mã hóa. Trong mỗi đợt ICO, các nhóm d án s t o ra các ự ẽ ạ token trên blockchain để bán cho những người mua trước khi các lo i tiạ ền mã hóa này được phát hành để ọ h có th s dể ử ụng trước ho c s dặ ử ụng trong tương lai, bên cạnh đó các dự án này s ẽ được rót vốn để phát triển tốt hơn.

ICO n ra ph biổ ố ến vào năm 2014 và phương pháp này được nhiều người biết đến khi sử dụng để huy động vốn cho đồng tiền Ethereum và gây được nhiều tiếng vang đến hi n nay. T ệ ừ đó rất nhi u d ề ự án blockchain đã sử dụng phương pháp này để huy động vốn.

2.2. THUẬT TOÁN KNN (K-NEAREST NEIGHBORS)

KNN là m t k thu t hộ ỹ ậ ọc có giám sát, thường được s dử ụng để phân lo i quan ạ sát m i thơng qua vi c tìm kiớ ệ ếm các điểm tương đồng gi a quan sát m i v i nh ng ữ ớ ớ ữ dữ liệu sẵn có. Tuy mơ hình này đơn giản nhưng độ chính xác của nó cũng khá ổn định vì nó khơng có tham số như nhiều mơ hình máy học khác. Mơ hình sẽ khơng đưa ra bất cứ giả định nào trong việc phân bổ dữ liệu và mơ hình này được sử dụng trực tiếp để phục vụ phân loại đa lớp.

Zhang và nnk. (2018) cho rằng KNN là phương pháp phân loại trong khai thác dữ liệu và thống kê các điểm gần nhất với quy trình thực hiện đơn giản và hiệu suất phân loại đáng kể. M c dù thu t toán KNN s t n nhi u thặ ậ ẽ ố ề ời gian cho các bước xử lý tiền dữ ệu nhưng thuật toán này mang lli ại độ chính xác cao hơn các thuật toán khác (Bijalwan và nnk., 2014).

Thuật toán KNN sẽ đưa ra giả định r ng nh ng th có tính ch t gi ng nhau s ằ ữ ứ ấ ố ẽ nằm ở v trí gị ần nhau. Sau đó KNN sẽ phán đốn mức độ ống nhau c gi ủa 2 điểm d ữ liệu d a vào kho ng cách gi a gi a chúng thông qua vi c xây d ng cơng th c tốn ự ả ữ ữ ệ ự ứ học.

Ưu điểm của mơ hình này chính là q trình huấn luyện đơn giản và khơng tốn

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

11

nhiều th i gian. Vi c d ờ ệ ự đoán kết qu u ra cả đầ ủa data cũng không phứ ạc t p và không yêu cầu đưa ra giả ử ề ấn đề s v v phân phối của các class. Tuy nhiên, mơ hình này khi sử dụng cũng có khuyết điểm là n u tham s ế ố định nghĩa K nhỏ s s gây ra vi c nhiẽ ẽ ệ ễu kết qu cả ủa mô hình. Ngồi ra, KNN là thuật tốn có nh ng tính tốn trong q trình ữ dự đốn tập trung ở khâu test dữ liệu. Do v y, vi c tính kho ng cách cậ ệ ả ủa từng điểm dữ liệu của training set s tẽ ốn nhi u th i gian. Tham sề ờ ố K càng l n thì mớ ức độ phức tạp c a mơ hình s càng lủ ẽ ớn. N u viế ệc lưu trữ ữ liệ d u n m toàn b trong b nhằ ộ ộ ớ s ẽ ảnh hưởng đến hiệu suất của mơ hình.

2.3. THUẬT TỐN NAIVE BAYES

Theo Rish (2001) Naive Bayes cịn được gọi là mơ hình phân l p, có thớ ể đơn giản hóa vi c hu n luy n mơ hình mệ ấ ệ ột cách đáng kể ằ b ng vi c giệ ả định các bi n là ế độc lập. Đây là một mơ hình máy học dùng để phân loại các mẫu dựa vào các đặc tính đã được xác định trước đó. McCallum và Nigam (1998) đã khẳng định rằng mơ hình Naive Bayes là mơ hình phân loại đơn giản, b i trong quá trình phân loở ại đều giả định r ng t t c các thu c tính c a các biằ ấ ả ộ ủ ến độc l p v i nhau trong các l p d ậ ớ ớ ữ liệu. Theo Zhang và Gao (2011), Naive Bayes được ứng dụng nhiều trong lĩnh vực phân loại văn bản nhờ vào đặc trưng tính đượ ầc t n s xu t hi n c a m t t trong mố ấ ệ ủ ộ ừ ột văn bản cụ thể, dựa trên các điều ki n xác su t cệ ấ ủa các đối tượng c a thuủ ộc tính được chọn bằng các phương pháp lựa chọn đối tư ng. ợ

Mô hình này được xây dựng dựa trên nguyên lý Bayes trong xác suất thống kê (Efron, 2013).:

Theo công thức trên, người ta áp dụng định lý Bayes để tính tốn xác su t s ấ ự kiện A xảy ra khi đã biế ự ệt s ki n B x y ra, kí hi u là ả ệ P(A|B). Trong đó P(A) và P(B) lần lượt là xác suất xảy ra của 2 sự kiện A và B.

Mơ hình này có ưu điểm là khá đơn giản và d s d ng, v i kh ễ ử ụ ớ ả năng đoán nhãn của dữ liệu test đạt ở mức cao và có độ chính xác cao. Ngồi ra, Naive Bayes cũng đưa ra giả định các feature của dữ liệu mang tính độc l p v i nhau, nh ậ ớ ờ đó thuật tốn chạy r t nhanh so v i các thu t toán phân loấ ớ ậ ại văn bản khác. Tuy nhiên, trong quá trình test, mặc dù Naive Bayes đưa ra các dự đốn chính xác, nhưng khi chạy thuật

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

12

toán v i dớ ữ liệu training thì độ chính xác c a nó còn khá h n ch so v i nhi u thuủ ạ ế ớ ề ật toán khác. Ngồi ra thì trong th c t thì các bi n c a d ự ế ế ủ ữ liệu khơng th ể hồn tồn độc lập với nhau.

2.4. CONFUSION MATRIX

Confusion Matrix được gọi là ma trận nhầm lẫn hay ma tr n lậ ỗi. Krstinić và nnk. (2020) đã nhận định rằng ma tr n nh m l n là m t b n ghi chi tiậ ầ ẫ ộ ả ết đo lường hiệu suất ph c a quá trình phân loổ ủ ại văn bản bi n nhế ất và được s d ng ph bi n cho ử ụ ổ ế nhiều mơ hình máy học. Luque và nnk. (2019) đã đưa ra kết lu n r ng s d ng ma ậ ằ ử ụ trận l i không ch ỗ ỉ để đánh giá hiệu su t k t cùng mà các thu t toán mang l i mà ngồi ấ ế ậ ạ ra cịn d a vào nh ng ch s trong ma trự ữ ỉ ố ận để ối ưu mơ hình bằ t ng việc điều chỉnh các tham s c a thu t toán. Ma tr n l i hi n th d ng b c c bố ủ ậ ậ ỗ ể ị ở ạ ố ụ ảng để giúp hình dung hiệu su t c a m t mơ hình thu t toán c ấ ủ ộ ậ ụ thể và rõ ràng nh t. C ấ ụ thể, v i m i l p phân ớ ỗ ớ loại, m t confusion matrix g m có 4 ch s :: ộ ồ ỉ ố

Hình 2.1. C u trúc ma tr n Confusion Matrix (ấ ậ Luque và nnk, 2019) Trong đó, các ch sỉ ố quan trọng bao g m: ồ

TP (True Positive): Số lượng điểm c a l p ủ ớ positive được phân loại đúng là

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

13

thông qua Precision và Recall theo công thức (Krstinić và nnk, 2020):

Trong đó:

Precision: t l s ỉ ệ ố điểm TP trong t ng s nhổ ố ững điểm được phân lo i là Positive ạ Recall: t l s ỉ ệ ố điểm TP trong t ng s ổ ố những điểm thực sự là Positive. Với 2 ch s này, ta có thỉ ố ể tính được ch sỉ ố đánh giá độ chính xác cho c mơ ả hình theo cơng thức:

2.5. MƠ HÌNH RNN (RECURRENT NEURAL NETWORK)

RNN là m t mơ hình ngơn ng và tộ ữ ự động sinh văn bản, nó có th cho bi t xác ể ế suất c a m t t d a vào kh ủ ộ ừ ự ả năng nhớ các thơng tin được tính tốn trước đó. RNN là mơ hình khá ph biổ ến và được sử ụ d ng nhiều trong lĩnh vực x lý ngôn ng t nhiên ử ữ ự hay nh n d ng gi ng nói. ậ ạ ọ

Hình 2.2. Cấu trúc c a mủ ạng nơ-ron h quy (RNN) (Peng và nnk., 2020) ồi RNN có cách th c hoứ ạt động hồn tồn khác so v i mớ ạng Neuron thông thường (Feedforward Neural Network). Thông tin c a mủ ạng Neuron thông thường truyền theo một hướng th ng cẳ ố định t lừ ớp đầu vào sau đó qua lớ ẩp n và cu i cùng là l p ố ớ đầu ra. Do đó luồng thơng tin ch truyỉ ền theo một chiều và khơng có chiều ngượ ại. c l Vì th Feedforward Neural Network khơng có bế ộ nhớ cho lớp đầu vào, nó ch nh ỉ ớ được nh ng d ữ ữ liệu trong q kh và khơng có q trình hu n luy n. Nứ ấ ệ gượ ạc l i, RNN lại có luồng thơng tin được di chuy n theo mể ột vòng l p l i, liên t c n i ti p nhau ặ ạ ụ ố ế theo thời gian. Do đó khi RNN đưa ra dự đốn của mình thì nó s xem l i nh ng d ẽ ạ ữ ữ liệu nó đã được nhận trước đó dựa trên bộ nhớ.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

14

Hình 2.3. Hướng di chuyển luồng thông tin của RNN và feedforward neural (Greaves và Au, 2015)

Điểm đặc biệt của RNN so với nhiều mơ hình khác đó chính là nó có hai đầu vào và dữ liệu hi n t i có s xu t hi n c a dệ ạ ự ấ ệ ủ ữ liệu trong quá khứ. Điều này vô cùng hữu hi u vì ệ chuỗi dữ liệu lưu trữ những thơng tin x y ra trong quá kh s giúp thuả ứ ẽ ật toán đưa ra phán đoán tốt hơn. Đây là điều tạo nên sự khác biệt của RNN so với những thu t tốn khác. ậ

Ngồi ra, RNN có th x lý dể ử ữ liệu đầu vào với độ dài dữ liệu là vô hạn, đồng thời kích c c a mơ hình khơng ph ỡ ủ ụ thuộc vào kích c c a d ỡ ủ ữ liệu đầu vào. Tuy nhiên, tốc độ tính tốn c a RNN nhìn chung v n cịn ch m so v i m t s mơ hình khác. Viủ ẫ ậ ớ ộ ố ệc truy c p thông tin t m t kho n thậ ừ ộ ả ời gian dài trước đó bị hạn chế. Nó cũng không tận dụng được dữ liệu đầu vào trước đó cho q trình tính tốn hiện tại.

Đối v i mớ ạng Neuron truy n th ng, khơng có quá trình chia s tham s gi a các ề ố ẻ ố ữ tầng m ng. Tuy nhiên vạ ới RNN, mạng này đã sử dụng trạng thái ẩn trước đó (ht-1) để tính tốn tr ng thái n hi n tạ ẩ ệ ại (ht). Chính vì điều này mà k t qu u ra cu i cùng ế ả đầ ố sẽ ph ụ thuộc vào chu i d ỗ ữ liệu th i gian. Ví d ờ ụ như để tính được ht, ta ph i ph thuả ụ ộc vào ht-1, mà ht-1 s lẽ ại tiế ục phụp t thu c vào ht-ộ 2…. Chính vì dữ liệu mang ý nghĩa trình tự như thế nên nếu thay đổi trình t d ự ữ liệu s ẽ có kết quả u ra khác. Ngồi ra, đầ cũng vì sự tuần tự này mà khơng tận dụng được khả năng tính tốn song song của máy tính. Đây là một trong những hạn chế lớn của RNN.

Bên cạnh đó, RNN cịn gặp ph i 2 vả ấn đề gradient:

Vanishing gradient (đạo hàm b ịtriệt tiêu): Các hàm kích ho t là tanh và sigmoid ạ của RNN có kết quả đầu ra lần lượ ằm trong đoạt n n [-1,1] và [0,1]. Chính vì th mà ế đạo hàm của 2 hàm này đều bằng 0 tại cả 2 đầu. Điều này sẽ làm nút mạng tại điểm đó bị bão hòa, đồng nghĩa với việc các nút trước đó cũng bão hịa theo. Các giá trị nhỏ khi th c hi n phép nhân ma trự ệ ận đạo hàm s x y ra tình trẽ ả ạng đạo hàm bị triệt

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

15

tiêu chỉ sau vài bước. Khi đó làm cho mơ hình khơng thể ọc đượ h c những phụ thuộc xa và bị ảnh hưởng đến kết quả ọ h c và dự đoán.

Exploding gradient (bùng nổ đạo hàm): Vấn đề này x y ra khi nh ng giá tr cả ữ ị ủa ma tr n lậ ớn hơn 1. Khi xảy ra bùng n o hàm s ổ đạ ẽ làm cho chương trình học b d ng. ị ừ

2.6. MƠ HÌNH LSTM (LONG SHORT - TERM MEMORY)

LSTM là mạng b nh ng n hộ ớ ắ ạn, đây là một d ng cạ ủa RNN nhưng đã khắc phục được các vấn đề ề Gradient mà RNN gặp ph v ải. Mơ hình này được giới thiệu b i ở Hochreiter và Schmidhuber (1997), sau nhiều l n c i tiầ ả ến đã được s d ng khá r ng ử ụ ộ rãi. LSTM được thiết kế để khắc phục vấn đề phụ thu c xa của mơ hình ộ RNN. Đặc trưng của mơ hình này là khả năng nhớ được thơng tin trong thời gian là đặc tính cố định, không yêu cầu người dùng huấn luy n thì LSTM v n nhệ ẫ ớ được.

Hình 2.4. Cấu trúc m ng LSTM (Peng và nnk., 2020) ạ

LSTM hoạt động tương tự như mơ hình RNN, tuy nhiên nó có kh ả năng ghi nhớ đầu vào trong thời gian dài hơn. Bộ nhớ của mô hình LSTM có thể đọc, ghi và xóa thơng tin ra kh i b ỏ ộ nhớ ủ c a nó khá giống như bộ nhớ c a m t chi c máy tính. Và b ủ ộ ế ộ nhớ c a LSTM có khủ ả năng kiểm soát d a vào t m quan tr ng c a thông tin thông ự ầ ọ ủ qua tr ng sọ ố được gán vào mà nó sẽ đưa ra các quyết định lưu trữ hay xóa thơng tin. Điều này cho thấy rằng mơ hình được hu n luyấ ện theo th i gian sờ ẽ có thể tự động đưa ra quyết định thông tin nào quan trọng và không quan trọng.

Về cơ bản, mơ hình LSTM có cấu trúc tương tự như RNN nhưng được c i ti n, ả ế khắc ph c các vụ ấn đề ề v gradient mà RNN mắc phải nh b nh dài hờ ộ ớ ạn hơn, giúp sử dụng nh ng dữ ữ liệu đầu vào trước đó để dự đoán cho những dữ liệu hi n t i và luôn ệ ạ giữ cho các gradient đủ độ d c. Trong mơ hình LSTM s có 3 c ng là input gate, ố ẽ ổ

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

16

output gate và forget gate. Ba c ng này có nhi m vổ ệ ụ đưa ra quyết định đưa đầu vào mới vào cổng input gate, lo i b thông tin không c n thiạ ỏ ầ ết ở cổng forget và đưa ra đầu ra cổng output gate. ở

2.7. MƠ HÌNH CNN (CONVOLUTIONAL NEURAL NETWORK) CNN là mạng nơ ron tích chập, được biết đến là m t trong nh ng mơ hình Deep ộ ữ Learning tiên tiến nh t. Mơ hình có thấ ể cho phép ngườ ử ụi s d ng xây d ng các h ự ệ thống tự động thông minh với độ chính xác đạt ở mức độ cao. Ki n trúc c a CNế ủ N khá tương tự mơ hình kết nối của các nơ ron trong não người. Mơ hình này thường được s d ng nhiử ụ ều trong phương diện nh n dậ ạng đối tượng trong ảnh tr c quan hoự ặc được xây dựng để ử x lý d u thông qua nhi u m ng. ữ liệ ề ả

Hình 2.5. C u trúc m ng CNN (Phung & Rhee, 2018) ấ ạ

CNN sử d ng mụ ột lớp mạng đặc biệt có tên là Convolutional layer –Conv (lớp chập) có tác d ng làm giụ ảm độ phứ ạc t p c a hình ủ ảnh để ễ dàng hơn cho quá trình d xử lý nhưng vẫn khơng làm ảnh hưởng đến hiệu suất dự đốn của mơ hình. Ngồi Convolutional layer ra, mơ hình CNN cịn có một l p nớ ữa đó chính là pooling layer (lớp tổng h p), có tác d ng làm giảm tài nguyên cho phép tính, giải quyợ ụ ết được vấn đề overfitting khi th c hi n d ự ệ ự đốn của mơ hình. Nh ng giá tr c a l p poữ ị ủ ớ oling được đưa về một giá trị duy nhất. Việc chuyển đổi này có thể làm kích thước đầu vào cho những lớp tiếp theo. Do đó giảm tham s hố ọc là một điều cần thiết để tránh vấn đề mơ hình b overfitting. ị

Lớp cu i cùng c a CNN có tên là Fully connected layer (l p k t nố ủ ớ ế ối), được dùng để chuyển đổi các tính năng đã được trích xuất từ các lớp trước để hoàn thành được đầu ra sau cùng. Các thông tin sau khi đi qua mỗi lớp và hàm kích hoạt (ReLU) sẽ

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

17

tạo ra thông tin trừu tượng hơn cho những l p tiớ ếp sau đó. Và thơng qua q trình train model, các l p s tớ ẽ ự động h c các giá trọ ị thể ệ hi n qua nh ng l p filter. ữ ớ

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

18

CHƯƠNG 3. PHƯƠNG PHÁP THỰC HIỆN 3.1. LƯU ĐỒ TỔNG QUAN QUÁ TRÌNH THỰC HIỆN ĐỀ TÀI Dưới đây là lưu đồ toàn bộ quá trình thực hiện đềtài:

Hình 3.1. Lưu đồ ổng quan các bướ t c thực hiện đề tài (Nhóm thực hiện) Đầu tiên, chúng tôi thực hiện quá trình Xây dựng mơ hình đánh giá sự thành cơng của các ICO. Q trình này được th c hi n và coding b ng ngôn ng R, thao ự ệ ằ ữ tác trên Rstudio (trình bày cụ thể ở ph n 3.2). ầ Sau khi có được k t qu và l a ch n ế ả ự ọ được mơ hình phân loại ICO tốt nhất, nhóm lựa chọn ra các coin thành cơng, có chỉ số ROI cao, có tiềm năng phát triển và được nhiều nhà đầu tư quan tâm đầu tư để tiếp tục th c hiự ện quá trình d ự đốn giá của các coin đó. Q trình Xây d ng mơ hình d ự ự đoán giá các loại tiền điệ ửn t thành công và thực hiện coding b ng ngôn ng l p trình ằ ữ ậ Python, thao tác trực tiếp trên Google Colab (trình bày cụ thể ở phần 3.3)

3.2. PHƯƠNG PHÁP ĐÁNH GIÁ SỰ THÀNH CÔNG CỦA CÁC ICO 3.2.1. Thu thập whitepaper c a các ICO ủ

Chúng tôi th c hiự ện đánh giá sự thành công và không thành công c a 150 ICO ủ dựa vào y u tế ố ROI. Dữ liệu được thu thập thủ công từ hai nguồn là coinmarketcap và cryptorank. Trong đó cryptorank giúp thu th p thông tin v ROI c a các ICOậ ề ủ , coinmarketcap giúp thu th p các whitepaper. Mậ ục đích cuối cùng là tìm cách phân tích các d án ICO có kh ự ả năng đạt đượ ợc l i nhuận, được đầu tư và niêm yết sau mỗi lần bán k t thúc trên các sàn giao dế ịch tiền điệ ửn t uy tín m t cách tộ ự động. C ụ thể ở

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

19

đây, chúng tơi thực hiện tìm kiếm các ICO trên sàn giao d ch điện tử Binance. ị

Hình 3.2. T ng hổ ợp số lượng ICO đã thu thập (Nhóm thực hiện) Để đánh giá sự thành cơng của các ICO, chúng tơi chọn ra 62 ICO có ch số ỉ ROI đạt trên 100% từ đầu năm 2021 - 10/2021. Trong đó có những ICO đã và đang được nhiều nhà đầu tư quan tâm và mang lại lợi nhuận cao như Solana (SOL), Ethereum (ETH), IOTA,... V i nh ng ICO không thành công, chúng tôi th c hi n ớ ữ ự ệ lựa ch n nh ng ICO có chọ ữ ỉ số ROI <30%, đã ngừng hoạt động ho c ít nhặ ất đến khoảng thời gian 10/2021 không mang l i lạ ợi nhuận cho những nhà đầu tư. Số lượng ICO không thành công thu thập được là 48 ICO.

Để nâng cao được mức độ chắc chắn cho q trình phân tích và thực hi n text-ệ mining, chúng tôi t o thêm m t nhóm các ICO khơng thành cơng có ch s ROI <50% ạ ộ ỉ ố và ch s ỉ ố ATH ROI <100%. Trong đó, ATH là chỉ s ố thể hiện giá tr cao nh t c a mị ấ ủ ột loại tài sản nào đó so với giá tr hi n t i c a chính nó. N u mị ệ ạ ủ ế ức l i nhu n này <100%, ợ ậ tức là ICO không thành công.

Tổng kết lại, chúng tôi đã thu thập được whitepaper của 62 ICO thành công và 88 ICO không thành công. D a trên s phân loự ự ại cơ bản này, ti p t c th c hi n quá ế ụ ự ệ trình text-mining để đánh giá sự thành công của các ICO.

3.2.2. Lưu đồ thực hiện text-mining đánh giá sự thành công các ICO Với mục đích là nghiên cứu để xây dựng được mơ hình phân lo i các ICO ra ạ thành 2 loại thành công và không thành công, chúng tôi đã tham khảo nhi u nghiên ề cứu về phân loại t các bài nghiên cừ ứu trước đây. Cuối cùng, chúng tôi phát hiện các thuật toán v ề text-classification hay text-mining là kỹ thuật hợp lý để có th ể tiến hành

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

20

phân tích các whitepaper đã thu thập được. Dưới đây là lưu đồ xây d ng cho mơ hình ự text-mining:

Hình 3.3. Lưu đồ thực hiện đánh giá sự thành công c a các ICO (Nhóm thủ ực hiện) Dựa vào các dữ liệu là các whitepaper được phân loại theo ROI đã thu thập được, v ề cơ bản chúng ta đã biết được các ICO nào thành công hay không thành công. Bước tiếp theo, chúng tơi sẽ đưa những whitepaper đó vào mơ hình text mining để -thực hi n x lý d ệ ử ữ liệu phi cấu trúc và l y ma tr n s t ấ ậ ố ừ các whitepaper để làm thông tin cho các thuật toán:

Bước đầu tiên của quy trình text-mining là đọc dữ liệu data và xử lý dữ liệu. Chúng tôi ti n hành chuy n 150 file whitepaper ế ể ở d ng pdf sang dạ ạng text để mơ hình có thể đọc hiểu được.

Tiếp theo, chúng tôi th c hi n x lý ti n dự ệ ử ề ữ liệu. Đây là một bước quan tr ng, ọ giúp cho dữ liệu đầu vào được “sạch” hơn, q trình huấn luyện mơ hình cũng hiệu quả hơn. Ở bước này chúng tôi th c hi n lo i b nh ng tự ệ ạ ỏ ữ ừ khơng có ý nghĩa, cụ thể là lo i b các m o t , t k t h p, gi i tạ ỏ ạ ừ ừ ế ợ ớ ừ, đạ ừi t , URLs, chuy n hóa t t c các tể ấ ả ừ ở nhiều thì trở v thành t g c. Ví dề ừ ố ụ các từ “singing” hay “sings” sẽ được chuyển về dạng t gừ ốc là “sing”. Bước này s giúp cho q trình hu n luy n mơ hình tẽ ấ ệ ốt hơn, không ảnh hưởng đến hi u su ệ ất.

Chúng tôi th c hi n t o mơ hình bag of words (mơ hình Term Document ự ệ ạ Matrix). Khan và nnk. (2013) cho r ng bag of word là m t mơ hình túi tằ ộ ừ được s ử dụng trong lĩnh vực phân loại văn bản, nhằm để biểu diễn các từ trong văn bản một

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

21

cách đơn giản phục vụ việc truy v n thông tin khi hu n luy n các thu t toán. Cấ ấ ệ ậ ụ thể là s n hành t o m t c t cho m i t và m t hàng cho mẽ tiế ạ ộ ộ ỗ ừ ộ ỗi whitepaper. Bước này s ẽ chuyển đổi văn bản sang dạng định lượng để có thể phân tích từ kho dữ liệu có sẵn, loại bỏ sự thưa thớt trong d u và t o mơ hình túi t . ữ liệ ạ ừ Salman và Obaida (2021) đã đưa ra kết luận rằng mơ hình bag of word được sử dụng trong vấn đề xử lý tiền dữ liệu hay mã hóa văn bản sẽ giúp các thuật toán đưa ra kết qu sát v i th c t ả ớ ự ế hơn. C ụ thể, vi c t o mơ hình này th c ch t là t o m t ma trệ ạ ự ấ ạ ộ ận thưa thớt, giúp lọc đi những thuật ng ít xu t hi n trong ma tr n, tữ ấ ệ ậ ừ đó giúp q trình huấn luy n mơ hình s cho ệ ẽ ra kết quả dự báo chính xác hơn.

Sau khi d ữ liệu đã được “làm sạch”, tiếp tục th c hiự ện dán nhãn “successful” và “unsuccessful” cho dữ liệu (“thành công” và “không thành công”). Dữ liệu cũng được chia thành 2 ph n, 70% là training set, t c là dầ ứ ữ liệu dùng để hu n luyấ ện mơ hình, 30% là testing set, t c là dứ ữ liệu dùng để ể ki m tra lại quá trình huấn luy n. 70% data ệ đó sẽ đưa vào 2 thuật tốn là KNN và Naive Bayes để thực hi n phân loệ ại. Mỗi thuật tốn sẽ có cách phân loại khác nhau, từ đó chọn ra thuật tốn nào hoạt động tốt nhất. Bước cuối cùng là đưa qua ma trận confusion (ma trận hỗn loạn) để xem xét hiệu su t c a các thu t tốn. Thơng qua ma tr n s có thấ ủ ậ ậ ẽ ể so sánh được k t qu cế ả ủa q trình dự đốn thơng qua q trình thực nghi m so v i k t quệ ớ ế ả thự ế. Sau đó là c t đưa 30% testing set vào để kiểm tra lại và thu về kết quả cuối cùng. Ở bước này s ẽ kết luận được mơ hình nào là tốt nhất, mang lạ ếi k t quả kh quan nhả ất.

3.2.3. Cấu hình phần cứng huấn luyện thu t toán ậ

Để thực hi n xây d ng và hu n luy n các mô hình Text-mining (KNN và Naive ệ ự ấ ệ Bayes), chúng tôi quyết định l a ch n s dự ọ ử ụng các thư viện của R để triển khai các mơ hình trên. Q trình th c nghiự ệm được th c hi n v i RStudio m t cự ệ ớ – ộ hương trình có mơi trường phát triển tích hợp cho R. Chúng tôi sử dụng phiên bản RStudio 2022.02.2+485 trên Laptop Intel core i3, RAM 4GB để thực hiện xây d ng các mơ ự hình trên.

3.2.4. Xây d ng thu t toán KNN ự ậ Khai báo các thư viện cần thi t ế

Để tiến hành xây dựng thuật toán text-mining nói chung và KNN nói riêng ta phải cài đặt các các thư viện để hỗ trợ trong quá trình chạy dữ liệu. Một số thư viện

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

22

cần phải cài đặt trước khi th c hiự ện các bước training và test dữ liệu bao g m: ồ class, datasets.load NLP pdftools, , , plyr và tm.

RStudio ph c v cho vi c thụ ụ ệ ực hiện các source code ngơn ng R khơng có chữ ức năng đọc hiểu được dạng file pdf. Do đó các file whitepaper ở dạng pdf ần phải c chuyển sang d ng ạ text để có thể thực hiện các cơng đoạn xây d ng thu t tốn ti p ự ậ ế theo. Để có thể thực hiện việc chuyển dữ liệu sang dạng text ần khai báo 2 folder , c chứa whitepaper c a các ICO không thành cơng và thành cơng thơng qua dịng code ủ dest_sucessful và dest_unsucessful, sau đó mới thực hiện việc chuyển đổi dạng file của dữ liệu.

Hình 3.4. Source code chuyển đổ ữ liệi d u sang d ng text (Nhóm thạ ực hiện) Mặc dù đã chuyển đổi các whitepaper sang dạng file text, nhưng để thuật tốn KNN có th ể đọc được những dữ liệu đó thì ta cần cài đặt một công c h ụ ỗ trợ việc đọc hiểu các file này đó chính là xpdf-tools-win-4.03.

Hình 3.5. Source code s d ng xpdf-ử ụ tools-win-4.03 đọc dữ liệu (Nhóm thực hiện) Tiến hành cài đặt các tham số

Sau khi đã chuyển đổi các whitepaper sang dạng text, ta chỉ định duới dạng các tham s và ti n hành t o m t biố ế ạ ộ ến pathname để có th truy cể ập được v i các dớ ữ liệu whitepaper đã được lưu trữ trong máy tính để có th c hiự ện các bước x lý ti n d ử ề ữ liệu văn bản sau đó.

</div>

×