Tải bản đầy đủ (.pdf) (51 trang)

Nghiên cứu thị trường chứng khoán việt namvà áp dụng khoa học dữ liệu khoa học nhằm đưa ra quyết định đầu tư dài hạn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.54 MB, 51 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC UEHTRƯỜNG KINH DOANH</b>

<b>KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH</b>

<b>TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆUNGHIÊN CỨU THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM</b>

<b>VÀ ÁP DỤNG KHOA HỌC DỮ LIỆU KHOA HỌC NHẰMĐƯA RA QUYẾT ĐỊNH ĐẦU TƯ DÀI HẠN</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>MỤC LỤC</b>

<b>CHƯƠNG 1: GIỚI THIỆU 5</b>

<b>CHƯƠNG 2: CƠ SỞ LÝ LUẬN 6</b>

2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu 6

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

2.3.1.1. Khái niệm của Neural Network

<b>CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN 23</b>

<b>3.1.Tổng quan về thị trường chứng khoán Việt Nam (TTCKVN): 23</b>

<b>3.2. Phân cụm dữ liệu chưa có nhãn 25 </b>

<b>3.3 Mơ hình nghiên cứu 36</b>

<b> 3.3.1. Xây dựng biến số dùng để nghiên cứu 36</b>

3.3.2. Mơ hình nghiên cứu đề xuất 36

3.3.3. Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu 36

3.3.4. Mô tả bộ dữ liệu huấn luyện và dự báo 37

3.3.5 Kết quả của bộ dữ liệu huấn luyện và dự báo 38

3.3.6 Kết luận của kết quả nghiên cứu 44

<b>CHƯƠNG 4: KẾT LUẬN 45</b>

<b> 4.1 Kết luận 45</b>

4.2 Hạn chế của đề tài và hướng nghiên cứu tiếp theo 46

TÀI LIỆU THAM KHẢO 48

PHỤ LỤC 49

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>CHƯƠNG 1: GIỚI THIỆU1.1 Lý do chọn đề tài</b>

Do số hóa, kích thước của dạng dữ liệu điện tử đã tăng theo cấp số nhân trong vài thập kỷ qua. Việc Chính phủ cũng như các tập đoàn lớn muốn nghiên cứu những dữ liệu này để đưa ra quyết định tốt hơn là điều đương nhiên. Những tiến bộ gần đây trong lĩnh vực trí tuệ nhân tạo đã dẫn đến việc tạo ra các cơng cụ tốn học mới như học sâu và học tăng cường. Những công cụ này không chỉ hiệu quả trong việc khám phá các mẫu trong dữ liệu mà cịn rất hữu ích trong việc ra quyết định tự động. Do đó, trong hầu hết mọi ngành nghề, đều có cơ hội việc làm cho những người là chuyên gia về dữ liệu. Ngày nay, hầu hết tất cả các tổ chức lớn đều yêu cầu các nhà khoa học dữ liệu, kỹ sư dữ liệu và người quản lý dữ liệu. Vai trò của các chuyên gia này là nghiên cứu, phát triển, Dữ liệu tài chính là một thành phần lớn của tất cả các dữ liệu điện tử. Ví dụ: một sàn giao dịch chứng khốn trung bình tạo ra hàng nghìn tỷ Gigabyte (GB) dữ liệu sổ giao dịch và đặt hàng trong một tháng. Vì vậy, một cách tự nhiên, có rất nhiều ứng dụng của các công cụ khoa học dữ liệu và máy học trong lĩnh vực tài chính. Ví dụ, ở thị trường chứng khốn Ấn Độ, phần lớn các quyết định giao dịch được thực hiện thông qua các chương trình máy tính, cịn được gọi là giao dịch theo thuật toán. Nhiều chương trình máy tính giao dịch này rất phức tạp và đưa ra quyết định bằng cách sử dụng dữ liệu. Dưới đây là một số cam kết của các chuyên gia khoa học dữ liệu trên thị trường chứng khoán. Các thuật tốn khơng chỉ đưa ra lựa chọn mua/bán mà cịn giới thiệu sản phẩm. Ở phía sau, có các chương trình máy tính dựa trên một số mơ hình tốn học. Các chương trình này qt qua một lượng lớn dữ liệu để dự đốn chính xác lợi nhuận dự kiến. Để hiểu và lập mơ hình các thuật tốn này, người ta cần có nền tảng vững chắc trong lĩnh vực tốn học, thống kê, lập trình và tài chính. Hơn nữa, kiến thức về học sâu, học tăng cường sâu và các kỹ thuật học máy khác là cần thiết để tạo ra các thuật toán đưa ra quyết định chính xác.

Năm 2000 thị trường chứng khốn Việt Nam chính thức đi vào hoạt động, sự có mặt của nó góp phần hỗ trợ rất lớn cho các doanh nghiệp có thêm các kênh để huy động vốn, quản trị rủi ro cũng như là mang lại cơ hội cho các nhà đầu tư cá nhân trên thị trường tài chính. Mặc dù tuổi đời của thị trường vẫn còn khá non trẻ tuy nhiên sự tiến bộ về khoa học cũng như sự thích nghi của các công ty công nghệ đã giúp cho thị trường tại Việt Nam ngày càng nâng cấp rõ rệt. Nhưng thị trường chứng khốn của Việt Nam cịn sơ khai và bộc lộ nhiều hạn chế như: hạn chế về quy mô thị trường và cấu trúc thị trường, số lượng hàng hóa

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

cụ phân loại được ứng dụng rộng rãi nhất là mơ hình dự báo bằng các phương pháp là “Phân loại dữ liệu” (Classification). Dự án “Nghiên cứu thuật toán phân lớp dữ liệu và ứng dụng dự đoán các cổ phiếu trên thị trường chứng khoán Việt Nam”.

<b>2.1 Mục tiêu nghiên cứu</b>

Bài nghiên cứu tập trung các lý thuyết tổng quan về khoa học dữ liệu (Data Science), các kiến thức phá dữ liệu (Data Mining). Xây dựng các mơ hình vào dựa bộ dữ liệu huấn luyện có sẵn và lựa chọn mơ hình phù hợp nhất tiến hành dự báo đối với bộ dữ liệu dự báo được chọn. Từ đó góp phần tạo nền tảng cho các nghiên cứu sau này.

<b>3.1 Đối tượng và phương pháp nghiên cứu</b>

Mơ hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụng trong việc ra quyết định đầu tư trên thị trường chứng khoán một cách hiệu quả hơn.

Dữ liệu được thu thập từ Vietstock với thông tin được cập nhật trong tháng 12 năm 2022 của 310 công ty, bao gồm các chỉ số: giá trên thu nhập (P/E), thu nhập trên mỗi cổ phần (EPS), hệ số beta, tỷ suất sinh lợi trên tài sản (ROA), tỷ suất sinh lời trên vốn chủ sở hữu (ROE).

<b>4.1 Phương pháp nghiên cứu</b>

<b>4.1.Phương pháp nghiên cứu lý luận</b>

Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thơng tin bằng cách đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đốn các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận. Bao gồm các phương pháp sau:

• Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu.

• Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên lý thuyết và ứng dụng mơ hình để dự báo nhằm kiểm định tính chính xác của mơ hình.

<b>4.2.Phương pháp nghiên cứu thực tiễn</b>

Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn: Thơng qua các thuật tốn của phần mềm Orange - một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu.

Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mơ hình phù hợp nhất nhằm giúp các nhà đầu tư có quyết định chính xác hơn khi đầu tư hiệu quả.

<b>5.1 Cấu trúc bài nghiên cứu</b>

Phần 1: Giới thiệu Phần 2: Cơ sở lý luận Phần 3: Phân tích và thảo luận Phần 4: Kết luận

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>CHƯƠNG 2: CƠ SỞ LÝ LUẬN2.1. Khai phá dữ liệu</b>

<b>2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu</b>

Trong quá trình tìm hiểu kiến thức và khai phá nguồn dữ liệu, chúng ta cần biết cách chọn lọc và sử dụng thông tin một cách hiệu quả. Từ đó có thể đưa ra các quyết định chính xác trong việc phân tích dữ liệu. Có thể hiểu đơn giản, tìm hiểu kiến thức và khai phá nguồn dữ liệu đồng nghĩa với việc xác định được giá trị cơ bản, nền móng, các yếu tố tác động cũng như xu hướng phát triển của các bộ dữ liệu đã có sẵn. Q trình này được gọi là Quá trình phát hiện tri thức (Knowledge Discovery in Database – KDD), trong đó Khai phá dữ liệu là một kỹ thuật quan trọng cho phép chúng ta thu được những kiến thức mà mình muốn.

H nh 2.1. Quá tr nh KDD

Nguồn: Phantuanduy (2013). Quy tr nh Khai phá dữ liệu (Process of Data mining).

Quá trình KPDL bao gồm 5 bước cơ bản sau đây:

<b>• Bước 1: Chọn lọc dữ liệu (Selection): Giai đoạn này yêu cầu chúng ta thu thập các</b>

dữ liệu đã khai thác được vào một cơ sở dữ liệu (CSDL) riêng. Lưu ý chúng ta chỉ lọc và giữ lại những dữ liệu cần thiết ở các giai đoạn sau này. Tuy nhiên, cơng việc này thường khó khăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp nơi.

<b>• Bước 2: Tiền xử lý dữ liệu (Pre-processing): Khi tổng hợp dữ liệu ta sẽ thường có</b>

sai sót như dữ liệu thiếu logic, thiếu chính xác, chưa đầy liệu. Bên cạnh đó, dữ liệu được thu thập hiếm khi có tính nhất qn. Vì vậy, “tiền xử lý (pre)” là bước quan trọng sau đó giúp hạn

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>• Bước 4: Khai thác dữ liệu (Data mining): Giai đoạn này sử dụng các kỹ thuật để</b>

phát hiện ra các tri thức tiềm ẩn trong dữ liệu.

<b>• Bước 5: Đánh giá kết quả mẫu (Interpretation evaluation):Bước này cũng là</b>

bước cuối cùng trong quy trình . Các tiêu chí khác nhau đánh giá phù hợp sẽ được xem xét và chọn lựa và sử dụng sao cho sử dụng được các mẫu dữ liệu được trích xuất bởi phần mềm KPDL

Chúng ta có thể thấy từ quá trình khám phá tri thức rằng công nghệ khám phá tri thức đã trải qua một số giai đoạn và cách tiếp cận để đạt được kết quả cuối cùng. Đây là một quá trình liên tục, với đầu vào của giai đoạn sau bắt nguồn từ đầu ra của giai đoạn trước. Khai thác dữ liệu là rất cần thiết vì nó phát hiện ra kiến thức và thơng tin có cấu trúc tốt bị chôn vùi trong kho dữ liệu khổng lồ.

<b>2.1.2 Khái niệm khai phá dữ liệu</b>

Khai phá dữ liệu là quá trình sử dụng các cơng cụ phân tích để khám phá các mẫu dữ liệu hoặc các mẫu yêu cầu từ các góc độ khác nhau, từ đó rút ra thơng tin và tri thức từ cơ sở dữ liệu, cũng như quá trình quan hệ giữa các đối tượng trong cơ sở dữ liệu.

Dưới góc độ tư duy và mục đích ứng dụng, khai phá dữ liệu thực sự là một nhu cầu tất yếu trong thời đại 4.0, là sự đáp ứng cho những tìm tịi, khám phá cơng nghệ của thế giới. Đây là một khám phá vĩ đại mang lại nhiều lợi ích trong cuộc sống, đồng thời cũng đặt ra khơng ít khó khăn và thách thức cho các nhà nghiên cứu.

<b>2.1.3. Các tính năng chính của khai phá dữ liệu</b>

Có nhiều tham số quan trọng trong khai phá dữ liệu, chẳng hạn như các quy tắc về phân loại và phân cụm. Khai phá dữ liệu có 5 tính năng chính, cụ thể như sau:

• Dự đoán nhiều mẫu dựa trên tập dữ liệu đã được chuyển đổi.

• Tính tốn và dự báo kết quả.

• Tạo khối lượng lớn thông tin để phản hồi và phân tích.

• Tập dữ liệu rất lớn.

• Phân cụm dữ liệu một cách trực quan và sinh động.

<b>2.1.4. Quy trình khai phá dữ liệu</b>

Các bước quan trọng trong quá trình khai phá dữ liệu, bao gồm:

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

H nh 2.2: Quá tr nh khai phá dữ liệu

Nguồn: ThS. Trần Hùng Cường, ThS. Ngô Đức Vĩnh (2011). Tổng quan về phát hiện tri thức và khai phá dữ liệu. Khoa Công nghệ thông tin Trường Đại học Công nghiệp Hà Nội, 1 – 6

Quá trình khai phá dữ liệu bắt đầu bằng việc xác định chính xác vấn đề đang gặp phải, sau đó tìm hiểu các dữ liệu liên quan để phát triển giải pháp. Các dữ liệu cần thiết được thu thập cẩn thận và tiền xử lý thành dạng mà thuật toán khai phá dữ liệu có thể hiểu được. Mặc dù chỉ gồm một vài bước nhưng đây khơng phải là một quy trình đơn giản, chúng ta có thể gặp một số khó khăn khi tiến hành, chẳng hạn: nếu mơ hình cần chỉnh sửa dữ liệu thì tồn bộ q trình phải được lặp lại cho đến khi phù hợp, nếu không sẽ tốn thời gian trích xuất thêm dữ liệu để chiết xuất vào tệp, …

Thực hiện khai phá dữ liệu là bước tiếp theo sau khi chọn được thuật toán phù hợp để tìm ra các mẫu có ý nghĩa được biểu diễn dưới các dạng tương ứng.

Khía cạnh phổ biến của mẫu là nó mới (ít nhất là đối với hệ thống đó). Tính mới thường được đánh giá bằng cách sử dụng hàm logic hoặc hàm tính mới và được tính tốn tương ứng với sự thay đổi của dữ liệu (bằng cách so sánh giá trị tìm được với giá trị dự đốn hoặc giá trị trước đó) (mối quan hệ giữa phương pháp tìm kiếm cũ và phương pháp tìm kiếm mới). Hơn nữa, một khi các mẫu đã được xử lý và đầu ra đã được cung cấp, các kết quả phải được đánh giá bằng cách sử dụng hàm tiện ích để xác định tính hữu ích trong tương lai.

<b>2.1.5 Các kỹ thuật khai phá dữ liệu</b>

Có rất nhiều kỹ thuật được áp dụng trong việc khai phá dữ liệu, tuy nhiên trong nghiên cứu này chúng ta chỉ đề cập đến 3 kỹ thuật chính đã được biết đến và sử dụng rộng rãi:

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Kỹ thuật này được các doanh nghiệp sử dụng rộng rãi để phân tích hành vi mua sắm, dự đoán xu hướng trong giỏ hàng của khách hàng tiềm năng và dự đoán hành vi của người tiêu dùng trong lĩnh vực bán lẻ hoặc lĩnh vực Cơng nghệ thơng tin, đặc biệt là các chương trình Machine Learning.

<b>2.1.5.2. Phân lớp dữ liệu (Classification Data)</b>

Là quá trình phân loại một đối tượng dữ liệu thành một hoặc nhiều lớp (loại) nhất định bằng mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gắn nhãn trước đó.

Kỹ thuật này dùng để trích xuất các thơng tin cần thiết từ kho dữ liệu có sẵn. Do đó, đối với kỹ thuật này, chúng ta sẽ linh hoạt áp dụng các thuật tốn khác nhau tùy thuộc vào mục đích sử dụng.

Bên cạnh đó, đây cũng được coi là một kỹ thuật quan trọng trong việc dự đoán các quy luật, xu hướng, ... bằng cách mơ tả các thuộc tính liên quan đến các đối tượng được phân loại vào một lớp cụ thể.

<b>2.1.5.3. Phân cụm dữ liệu (Clustering Data)</b>

Là q trình gom các cụm/nhóm của các đối tượng hoặc dữ liệu có đặc điểm tương đồng vào các cụm hoặc nhóm tương ứng. Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ được xếp vào cùng một cụm và ngược lại. Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưa được gán nhãn và thường thấy trong thực tế.

H nh 2.3 : Mô tả quá tr nh phân cụm dữ liệu

<b>2.1.5.4. Phân cụm phân cấp (Hierarchical Clustering):</b>

Được xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

- Ma trận khoảng cách giữa các phần tử (similarity matrix or dissimilarity matrix) - Độ đo khoảng cách giữa các cụm (single link, complete link…)

Có 5 cách đo lường: Single, Average, Weighted, Complete, Ward

Một số phương pháp tính khoảng cách (Distance): Single-link, complete-link, average-link, mean, centroid, medoid.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>2.1.5.5. Phân cụm phân hoạch (Partitioning Clustering):</b>

Thuật toán K-means: là thuật toán quan trọng và được sử dụng một cách rộng rãi trong kỹ thuật phân cụm. Tư tưởng chính của thuật tốn K-Means đó chính là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm đã được xác định trước và K là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm là nhỏ nhất.

Các phương pháp đánh giá phân cụm dữ liệu:

- Phương pháp đánh giá ngoài (External validation): Đánh giá kết quả phân cụm dựa vào cấu trúc hoặc xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu - Phương pháp đánh giá nội bộ (Internal validation): Đánh giá kết quả của phân cụm

mà khơng có thơng tin từ bên ngoài, chỉ chủ yếu dựa vào các vector chính của dữ liệu thơng qua ma trận xấp xỉ (proximity matrix)

- Silhouette index: nằm trong khoảng [-1,1]. Trong đó,

Si ≥ 0.5 : Sát thực tế

0.25 ≤ Si < 0.5 : cần đánh giá lại (Theo kinh nghiệm của chuyên gia)

Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác

<b>2.1.6 Các ứng dụng của khai phá dữ liệu</b>

Mặc dù khai phá dữ liệu vẫn còn nhiều mặt hạn chế cần được cải thiện, nhưng chúng ta không thể phủ nhận tiềm năng hiện tại của nó. Đây là kỹ thuật thu hút được sự quan tâm của hầu hết các nhà nghiên cứu do nó khơng chỉ có tính ứng dụng rộng rãi và đa dạng trong đời sống xã hội tiêu biểu mà còn trong nhiều lĩnh vực khác nhau, cụ thể:

<b>• Lĩnh vực chứng khốn – phân tích thị trường: xây dựng mơ hình dự báo rủi ro tín</b>

dụng, các khoản nợ vay để hỗ trợ việc ra quyết định đầu tư chứng khoán. Đây cũng là hướng nghiên cứu chính của bài báo cáo này.

• <b>Lĩnh vực y tế:</b> phát hiện mối quan hệ giữa bệnh-chữa bệnh để tìm ra các loại thuốc phù hợp, dự đốn được các loại bệnh mà bệnh nhân có khả năng mắc phải dựa trên các yếu tố nguy cơ, rủi ro.

• <b>Thương mại điện tử:</b> phân tích thái độ cũng như hành vi mua sắm của khách hàng, từ đó có thể xây dựng chiến lược tiếp thị phù hợp với từng đối tượng khách hàng.

<b>• Lĩnh vực giáo dục: bên cạnh việc giúp phân tích dữ liệu trong mơi trường giáo dục</b>

để xác định tình hình học tập của mỗi học sinh thì cịn cho chúng ta dự báo được kết quả học

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>2.2. Phân lớp dữ liệu</b>

Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào). Kỹ thuật này dùng để rút trích các thơng tin cần thiết từ kho dữ liệu có sẵn. Vì thế, đối với kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng. Đây cũng là kỹ thuật có vai trị quan trọng trong việc dự báo các quy luật, xu hướng, … bằng cách mơ tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể.

2.2.1 Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm có hai bước chính:

· Bước 1: Xây dựng mơ hình phân lớp (hay còn gọi là giai đoạn “học’’ hoặc “ huấn luyện’’)

Q trình huấn luyện này nhằm mục đích xây dựng một mơ hình mơ tả dữ liệu đã có sẵn. Đầu vào của q trình này là một tập dữ liệu mẫu được gán nhãn và tiền xử lý, mỗi phần tử của dữ liệu đã được giả định thuộc về một phân lớp trước, lớp ở câu nói này có nghĩa là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn hoặc phân lớp. Mỗi bộ giá trị được gọi chung là mỗi phần tử dữ liệu (data tuple), cũng có thể là các mẫu, ví dụ, đối tượng hay các trường hợp khác. Từ đó cho ra kết quả là mơ hình phân lớp đã được huấn luyện.

Quá trình này được mơ tả ở hình 2.3:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

H nh 2.4: Xây dựng mô h nh phân lớp

Nguồn: Slides bài giảng môn Khoa học dữ liệu - thầy Trương Việt Phương - C4: Phân lớp dữ liệu

· Bước 2: Sử dụng mơ hình, trong đó chia thành 2 bước nhỏ:

· Bước 2.1: Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình)

Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý. Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn. Bước này dùng mơ hình đã xây dựng ở bước đầu tiên để phân lớp dữ liệu mới. Trước tiến độ chính xác mang tính chất dự đốn của mơ hình phân lớp vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các mẫu trong tập dữ liệu kiểm tra được mơ hình phân lớp đúng (so với thực tế). Tính đúng đắn của mơ hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mơ hình.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

H nh 2.5: Đánh giá mô h nh phân lớp

Nguồn: Slides bài giảng môn Khoa học dữ liệu - thầy Trương Việt Phương - C4: Phân lớp dữ liệu.

· Bước 2.2: Phân lớp dữ liệu mới

Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn). Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.

H nh 2.6: Quá tr nh phân lớp dữ liệu mới

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Nguồn: Slides bài giảng môn Khoa học dữ liệu - thầy Trương Việt Phương - C4: Phân lớp dữ liệu.

<b>2.2.2 Phân loại bài toán phân lớp</b>

Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước. Nếu: n = 2: Phân lớp nhị phân

n > 2: Phân lớp đa lớp

Mỗi đối tượng dữ liệu chỉ thuộc vào một lớp duy nhất được gọi là phân lớp đơn nhãn. Mỗi đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp với nhau được gọi là phân lớp đa nhãn

<b>2.2.3 Một số phương pháp phân lớp 2.2.3.1. Cây quyết định (Decision Tree)</b>

Tùy vào từng khía cạnh khác nhau mà phương pháp Cây quyết định này có khái niệm khác nhau.

· Trong lý thuyết quản trị, cây quyết định (Decision tree) là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm và là một dạng đặc biệt của cấu trúc cây. Nó được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu cũng như hỗ trợ việc đưa ra quyết định.

· Trong lĩnh vực KPDL, có thể nói đây chính là một sự kết hợp hoàn hảo giữa hai lĩnh vực: kỹ thuật tốn học và tính tốn nhằm hỗ trợ việc mơ tả, phân loại và tổng qt hóa các tập dữ liệu cho trước.

· Một tập dữ liệu có thể được biểu diễn bằng nhiều cây quyết định tương ứng với nó. Cây nào ngắn gọn nhất thì sẽ được lựa chọn (dựa trên nguyên lý Ockham’s Razor)

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

H nh 2.7: Minh họa phương pháp phân lớp Cây quyết định

Nguồn: "Cây Quyết Định (Decision Tree)," Trí tuệ nhân tạo” - 06/06/2019

<b>2.2.3.2. SVM (Support Vector Machine)</b>

Khái niệm: SVM là một khái niệm trong lĩnh vực khoa học máy tính và thống kê cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại chúng và phân tích hồi quy, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian đa chiều làm mặt phân cách các lớp dữ liệu. Trong thuật toán này, chúng ta sẽ vẽ đồ thị dữ liệu là các điểm trong n chiều (n là số lượng các tính năng mình có) với giá trị của mỗi tính năng là một phần của liên kết. Sau đó chúng ta sẽ thực hiện việc tìm “ đường bay” (hyperplane) phân chia các lớp. Hyperplane có thể hiểu một cách đơn giản là một đường thẳng có thể phân chia các lớp thành 2 phần khác nhau riêng biệt.

Margin là khoảng cách giữa siêu phẳng ( trong trường hợp không gian 2 chiều là đường thẳng) đến hai điểm dữ liệu gần nhất tương ứng với hai phân lớp.

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau. Các biến thể của SVM bao gồm:

· Hard margin SVM: 2 lớp cần phân lớp là có thể phân chia tuyến tính ( linearly separable)

· Soft margin SVM: 2 lớp cần phân lớp là “gần” phân chia tuyến tính

· Multi-class SVM: phân lớp đa lớp ( biên giữa các lớp là tuyến tính)

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

· Kernel SVM: Dữ liệu là phi tuyến

H nh 2.8 Minh họa thuật toán phân lớp SVM ( Support Vector Machine)

Nguồn: Lý thuyết về Machine Learning - Support Vector Machine (SVM)

<b>2.2.3.3. Hồi quy logistic (Logistic Regression)</b>

Phương pháp hồi quy logistic là một mơ hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào. Thuật toán này sử dụng các hàm được gọi là hàm logarit và được biểu diễn dưới dạng vector.

Phương pháp hồi quy logistic bắt đầu được áp dụng từ đầu thế kỷ XX trong lĩnh vực khoa học sinh học. Sau đó được mở rộng ra các ngành liên quan tới khoa học xã hội và được sử dụng khi biến phụ thuộc là phân loại.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

H nh 2.9: Minh họa phương pháp hồi quy Logistic (Logistic Regression)

Hàm logistic nó nhìn giống như một S lớn và chúng sẽ biến đổi bất kỳ giá trị nào sang khoảng (0,1). Điều này thực sự hữu ích bởi vì chúng ta có thể áp dụng một quy tắc cho đầu ra của hàm logistic để lấy các giá trị 0 và 1 và dự đoán một lớp giá trị.

<b>2.2.3.4 Mạng nơ-ron nhân tạo (Neural Network)</b>

Mạng noron nhân tạo (hoặc Mạng thần kinh nhân tạo) là mạng sử dụng một loạt các thuật toán phức tạp để phát hiện, xử lý và khám phá các mối tương quan cơ bản trong tập dữ liệu. Mạng nơ-ron là một mạng gồm các nút cơ bản, đôi khi được gọi là nơ-ron, được lấy cảm hứng từ mơ hình hoạt động của nơ-ron và khớp thần kinh trong não người. Một mạng lưới các nút được hình thành bởi một tập hợp các nút như vậy. Nói cách khác, đây là một hệ thống các tế bào thần kinh nhân tạo có thể có nguồn gốc sinh học hoặc nhân tạo.

<b>2.2.4 Một số phương pháp đánh giá mơ hình phân lớp2.2.4.1. Ma trận nhầm lẫn (Confusion Matrix) </b>

Ma trận nhầm lẫn là một bảng NxN tóm tắt các ước tính đúng và sai của mơ hình phân loại. Nhãn được dự đốn bởi mơ hình là một trục của ma trận nhầm lẫn, trong khi sự thật cơ bản là trục kia. N biểu thị số lớp (class).Đây là một trong những kỹ thuật đo lường

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

hiệu suất được sử dụng rộng rãi, đặc biệt là cho các mơ hình phân loại.

H nh 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)

(Nguồn: Sang Hà Ngọc (2021). Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi.)

Lấy ví dụ về dự án dự đốn thị trường chứng khốn. Trong đó lớp A là lớp thị trường chứng khốn tích cực và lớp B là lớp thị trường chứng khoán tiêu cực. Các thuật ngữ chính của

Confusion matrix trong trường hợp này như sau

Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực. Các thuật ngữ chính của ma trận nhầm lẫn như sau:

• TP (True Positive) : Số lượng dự đốn chính xác về thị trường chứng khốn biến động theo hướng tích cực.

• TN (True Negative) : Số lượng dự đốn chính xác về thị trường chứng khốn tiêu cực.

• FP (False Positive) : Số lượng dự đoán sai lệch về thị trường chứng khốn tiêu cực. Là khi mơ hình dự đốn thị trường tích cực nhưng thị trường khơng tích cực.

• FN (False Negative): Số lượng dự đoán sai lệch về thị trường tích cực. Là khi mơ hình

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

khơng chỉ ra được chính xác mỗi loại được phân lớp như thế nào, phân loại đúng nhiều nhất thuộc về lớp nào và dữ liệu thường bị phân loại nhầm vào lớp khác đang nằm ở lớp nào.

Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mơ hình trên một bộ dữ liệu. Độ chính xác càng cao thì mơ hình càng chuẩn xác.

<b>2.2.4.3. Precision, Recall, F1 - score </b>

Dựa vào hình 2.10:

• Precision (độ chính xác) cho biết tỉ lệ số điểm TP (True positive) trong số những điểm được phân loại (dự đoán) là positive (TP + FP).

• Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ lệ giữa số điểm TP (True Positive) trong số những điểm thực sự là tích cực (TP + FN).

• F1- score là giá trị trung bình điều hịa của hai độ đo Precision và Recall.

=> F1 có giá trị gần với giá trị nhỏ hơn giữa 2 giá trị Precision và Recall và F1 càng lớn nếu cả 2 giá trị Precision và Recall đều lớn cho thấy độ tin cậy của mơ hình cao hơn.

<b>2.2.4.4. (Receiver Operating Characteristic) và AUC (Area Under the Curve)</b>

ROC là đồ thị được sử dụng phổ biến trong đánh giá các mơ hình phân loại nhị phân. Đường cong này được sinh ra từ việc biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau. Một mơ hình được gọi là hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì mơ hình càng phù hợp.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

H nh 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic)

Nguồn: ResearchGate. COVID_MTNet: COVID-19 Detection with Multi-Task Deep Learning Approaches.

Còn AUC là phần diện tích nằm dưới đường cong ROC và có giá trị là một số dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì độ chính xác của mơ hình càng cao.

H nh 2.12: Minh họa phương pháp AUC (Area Under the Curve)

Nguồn: Joakim Warholm (2021). Detecting Unhealthy Comments in Norwegian using BERT. Faculty of Science and Technology Department of Physics and Technology, 3 – 67

<b>2.2.4.5. Cross Validation: K-fold và Holdout</b>

- Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhất định. Ví dụ, tập huấn luyện (training set) chiếm 70% và tập thử nghiệm (testing set) chiếm 30%.

- Phương pháp này khi sử dụng cho các tập dữ liệu lớn thường cho hiệu quả khả quan hơn. Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, kết quả của mơ hình chưa có độ chính xác

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

- Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold), trong đó sử dụng một trong các fold làm tập dữ liệu đánh giá và phần còn lại làm tập dữ liệu huấn luyện. Quá trình này lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá.

- So với Phương pháp Hold-out, phương pháp này thường được ưa chuộng hơn do mơ hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau. Từ đó tang độ tin cậy cho các độ đo đánh giá của mơ hình.

- Phương pháp Hold-out thường cho hiệu quả tốt trên các tập dữ liệu lớn. Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, hiệu quả của mơ hình sử dụng phương pháp này phụ thuộc nhiều vào cách chia cũng như tỷ lệ chia dữ liệu.

<b>2.3. Mơ hình khai phá dữ liệu sử dụng thuật tốn phân lớp Neural network2.3.1 Khái niệm và đặc điểm của Neural Network:</b>

<b>2.3.1.1. Khái niệm của Neural Network</b>

- Xuất phát từ lĩnh vực trí tuệ nhân tạo, Neural Network được định nghĩa là chuỗi thuật tốn nhằm tìm kiếm quan hệ trong tập hợp dữ liệu dựa theo cách thức hoạt động não bộ con người. Nghĩa là, ở não người, các dây thần kinh kết nối các nút gọi là tế bào thần kinh lại với nhau. Còn ở Neural Network, các nút này được gọi là nơ-ron nhân tạo liên kết với nhau trong một cấu trúc phân lớp tương tự như bộ não con người. Phương thức này tạo ra một hệ thống giúp máy tính sử dụng để học hỏi từ sai lầm của chúng và liên tục cải thiện. Vì vậy, Neural Network nhắm tới giải quyết các vấn đề phức tạp, chẳng hạn như tóm tắt tài liệu hoặc nhận diện khn mặt, với độ chính xác cao hơn và phổ biến trong hệ thống các giao dịch điện tử hiện nay.

<b>2.3.1.2. Đặc điểm của Neural network</b>

- Thứ nhất, Neural network vận hành giống như mạng noron trong não của con người. Mỗi noron đại diện cho tốn học, đóng vai trị thu thập và phân loại các dữ liệu

- Thứ hai, Mạng lưới thần kinh có nhiều điểm chung với các phương pháp thống kê như biểu đồ đường cong và phân tích hồi quy. Các lớp của các nút được liên kết bao gồm Mạng nơ-ron. Mỗi nút là một tri giác có cấu trúc tương tự như cấu trúc của hàm hồi quy đa tuyến tính. Chúng sẽ được tổ chức bên trong một perceptron nhiều lớp theo các lớp có liên quan với nhau. Lớp đầu vào thu thập các mẫu đầu vào, trong khi lớp đầu ra thu thập các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thể phản hồi lại.

<b>2.3.2 Kiến trúc của Neural network</b>

Neural network là sự kết hợp hoàn hảo của những tầng perceptron hay perceptron đa tầng,

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

gồm 3 kiểu tầng:

• Tầng in-put layer (tầng vào): Nằm ở bên trái cùng của mạng, đại diện cho các dữ liệu đầu vào của mạng.

• Tầng out-put layer (tầng ra): Là tầng bên phải cùng và thể hiện cho những dữ liệu đầu ra của mạng.

• Tầng hidden layer (tầng ẩn): Là tầng khá quan trọng, nằm giữa tầng vào và tầng ra có chức năng kích hoạt thông qua các nút trung gian phân chia không gian đầu vào thành các vùng có ranh giới (mềm) và thể hiện cho quá trình suy luận logic của mạng.

Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng có thể có rất nhiều tầng ẩn.

<b>2.3.3 Ưu, nhược điểm của Neural network</b>

- Ưu điểm: Neural network cho phép xây dựng một mơ hình tính tốn có khả năng học dữ liệu rất cao. Có thể NN là một hộp đen chứa nhiều đầu vào và nhiều đầu ra có khả năng học được sự liên kết tiềm ẩn giữa 2 bộ dữ liệu: đầu vào và đầu ra dựa trên dữ liệu được học.

- Nhược điểm: Mặc dù khả năng bắt chước dữ liệu mẫu khá xuất sắc, nhưng cách tiếp cận này chủ yếu dựa vào kiến thức của người vận hành khi chọn và lọc tập dữ liệu vì Mạng nơ-ron sẽ phản ứng nhanh chóng với các thay đổi. Ngay cả sự khác biệt dữ liệu nhỏ nhất cũng sẽ gây khó khăn cho việc tạo mơ hình phân tích. Mặc dù các mạng thần kinh rất xuất sắc trong việc thu thập lượng dữ liệu khổng lồ, nhưng chúng không hiệu quả khi xử lý lượng dữ liệu nhỏ.

<b>2.3.4 Ứng dụng của Neural network</b>

• Tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản phẩm.

• Các hoạt động kinh doanh khác như: tìm kiếm các giải pháp nhằm nghiên cứu Marketing, đánh giá rủi ro và phát hiện gian lận.

• Sử dụng nhiều trong lĩnh vực công nghệ và các ứng dụng khác như trị chơi điện tử, nhận dạng giọng nói, lọc mạng xã hội, dịch tự động và chẩn đoán y tế.

• Được sử dụng cho các hoạt động truyền thống và sáng tạo, như hội họa và nghệ thuật.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<b>CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN 3.1) Tổng quan về thị trường chứng khoán Việt Nam (TTCKVN):</b>

Thị trường chứng khoán tồn cầu đã khơng ngừng phát triển trong những năm qua để phục vụ tốt hơn nhu cầu của các nhà giao dịch cũng như nhà đầu tư. Các nhà giao dịch yêu cầu thị trường thanh khoản với giao dịch tối thiểu và chi phí trì hỗn bên cạnh tính minh bạch và đảm bảo hồn thành giao dịch. Dựa trên những yêu cầu cốt lõi này, một số cấu trúc thị trường chứng khoán đã trở thành cấu trúc thực hiện giao dịch thống trị trên thế giới.

Thị trường chứng khoán Việt Nam đã chứng kiến một đợt điều chỉnh mạnh trong thời gian gần đây, chủ yếu do các yếu tố kinh tế vĩ mô quốc tế, bao gồm lạm phát toàn cầu tăng cao và việc Liên bang Mỹ tăng lãi suất và cả những sai phạm của nhiều doanh nghiệp bất động sản lớn trong việc phát hành trái phiếu.

Sau khi phục hồi nhanh chóng vào năm 2021 với mức tăng trưởng 5,7%, các nền kinh tế toàn cầu đang đối mặt với những bất ổn do diễn biến phức tạp của đại dịch COVID-19; rủi ro tốn kém, đặc biệt là xung đột Nga-Ukraine; sự chậm lại của nền kinh tế Trung Quốc bị ảnh hưởng bởi chính sách "Zero-Covid"; và giá dầu tăng dẫn đến lạm phát cao kỷ lục ở nhiều nước trong đó có Việt Nam (ghi nhận trong tháng 11 năm nay, CPI tăng 3,02% so với cùng kỳ năm trước; lạm phát cơ bản tăng 2,38%).

Thống kê cho thấy, thị trường chứng khoán nước ta đã lao dốc mạnh, chạm đáy 4 giai đoạn trong lịch sử, gồm 2007-2008, 2011-2012, 2018-2019 và năm nay 2022. Tính chung nửa đầu năm 2022, chỉ số thị trường VN-Index từng đạt đỉnh ở mức 1528 điểm vào những ngày đầu tháng 1 trong năm, và chạm đáy ở mức 941 điểm vào giữa tháng 11. Các nhóm ngành về thép, bất động sản, vật liệu xây dựng là những nhóm giảm giảm điểm tương đối mạnh, có ảnh hưởng theo cách tiêu cực đến chỉ số VN-Index. TTCK bắt đầu xu hướng giảm sau khi Fed tăng lãi suất lần đầu tiên vào tháng Sáu.

Biểu đồ thể hiện chỉ số VN–INDEX của Việt Nam giai đoạn 2020 – 2022

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>3.2. Phân cụm dữ liệu chưa có nhãn</b>

Dữ liệu ban đầu bao gồm 310 công ty, được lấy ngẫu nhiên trên Vietstock dữ liệu thu thập trong quý 3 gồm các chỉ số ROA, ROE, PE, EPS, BETA

Ý nghĩa chỉ số:

● ROA: Tỷ suất sinh lợi ròng trên tài sản. Chỉ số ROA càng cao thì các nhà đầu tư càng thích.

● ROE: Tỷ suất sinh lợi trên VCSH. Hệ số ROE càng cao thì càng hấp dẫn các nhà đầu tư vì khi đó cơng ty đang sử dụng đồng vốn của cổ đông một cách hiệu quả ● PE: Hệ số giá trên thu nhập. Chỉ số PE càng thấp thì mức độ hấp dẫn cổ phiếu càng

cao và ngược lại.

● EPS: Tỷ suất thu nhập trên cổ phần. EPS càng cao thì sẽ giữ chân được các nhà đầu tư hơn.

● BETA: Các chứng khốn có beta lớn hơn 1 sẽ hấp dẫn các nhà đầu tư hơn ● Thực hành:

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

H nh 3.1. Khai báo thuộc tính cho các biến

Nghiên có có 4 biến được ký hiệu trong phần mềm Orange như sau: ● ROE: Tỷ suất sinh lợi trên bình quân vốn chủ sở hữu, đơn vị % ● ROA: Tỷ suất sinh lợi trên bình quân tổng tài sản

● EPS: Thu nhập trên mỗi cổ phần ● beta: Chỉ số tương quan thị trường ● PE: Hệ số giá trên lợi nhuận một cổ phiếu ● MCK: mã cổ phiếu hay mã chứng khoán

</div>

×