Tải bản đầy đủ (.pdf) (31 trang)

Ứng dụng orange vào phân nhóm và dự đoán 5000 khoản đầu tư trên sàn chứng khoán new york

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 31 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠO </b>

<b>TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINHKHOA CƠNG NGHỆ THÔNG TIN KINH DOANH </b>

<b>TIỂU LUẬN KẾT THÚC HỌC PHẦN</b>

MÔN KHOA HỌC DỮ LIỆU

<b>TÊN ĐỀ TÀI: ỨNG DỤNG ORANGE VÀO PHÂN NHĨM VÀ DỰ ĐỐN 5000 KHOẢN ĐẦU TƯ TRÊN SÀN CHỨNG KHOÁN NEW YORK</b>

<b>Giảng viên hướng dẫn: THS.Nguyễn Mạnh TuấnMã học phần: 22C1INF509059202222</b>

<b>Nhóm sinh viên thực hiện: </b>

Nguyễn Thị Minh Chi - 31201022099 Nguyễn Năng Hải Đăng - 3120102510 Đặng Thị Thu Hà - 31201022180 Hoàng Phương Liễu - 31201022362

TP. Hồ Chí Minh - 2022

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

1.3. Đối tượng nghiên cứu...7

1.4. Mơ tả bài tốn...7

1.5. Mơ tả dữ liệu...8

1.6. Tiền xử lý dữ liệu...10

1.7. Phân tích dữ liệu...10

PHẦN II: THỰC NGHIỆM DỮ LIỆU...12

2.1 Bài toán 1: Ứng dụng dự báo danh mục đầu tư của các cơng ty trên sàn chứng khốn New York...12

<i>2.1.1. Mơ tả bài tốn và tiền xử lý dữ liệu...12</i>

<i>2.1.2. Các kiến thức chuyên ngành liên quan đến bài toán...12</i>

<i>2.1.3. Chạy mơ hình và đánh giá kết quả...12</i>

2.2 Bài tốn 2: phân cụm các mã chứng khoán ngành ngân hàng...15

<i>2.2.1. Mơ tả bài tốn và tiền xử lý dữ liệu:...15</i>

<i>2.2.2. Các kiến thức chuyên ngành liên quan đến bài toán...15</i>

<i>2.2.3. Xây dựng mơ hình:...16</i>

2.3. Bài tốn 3: Xác định danh mục các cổ phiếu nên đầu tư hiện tại và không nên đầu tư hiện tại...19

<i>2.3.1. Mô tả bài toán và tiền xử lý dữ liệu:...19</i>

<i>2.3.2. Các kiến thức chun ngành liên quan đến bài tốn...20</i>

<i>2.3.3. Xây dựng mơ hình:...20</i>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

2.4. Bài tốn 4: Dự đốn tình trạng phục hồi của cơng ty đối với các rủi ro trên sàn chứng

khốn New York...21

<i>2.4.1. Mơ tả bài toán và tiền xử lý dữ liệu:...21</i>

<i>2.4.2. Các kiến thức chun ngành liên quan đến bài tốn:...22</i>

<i>2.4.3. Chạy mơ hình và đánh giá kết quả...22</i>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<i>Bảng 4: Thống kê số lượng giao dịch theo lĩnh vực……….………..11</i>

<i>Bảng 5: Kết quả Test & Score của bài toán 1……….13</i>

<i>Bảng 6: Kết quả Confusion Matrix của bài toán 1……….………14</i>

<i>Bảng 7: Kết quả chạy k-Means bài toán 2………..17</i>

<i>Bảng 8: Kết quả phân cụm bài toán 2……….….17</i>

<i>Bảng 9: Minh hoạ kết quả phân cụm bài toán 2……….…19</i>

<i>Bảng 10: Kết quả Test & Score của bài toán 4………..…23</i>

<i>Bảng 11: Kết quả Confusion Matrix của bài toán 4……….…25</i>

<i>Bảng 12 : Kết quả dự báo bài tốn 4………..….26</i>

<b>DANH MỤC HÌNH</b> <i>Hình 1: Mơ hình bài tốn 1………12</i>

<i>Hình 2: Kết quả dự báo của bài tốn 1………….………..…15</i>

<i>Hình 3: Mơ hình bài tốn 2………..…16</i>

<i>Hình 4: Mơ hình bài tốn 3………..…20</i>

<i>Hình 5: Minh hoạ kết quả phân cụm bài tốn 3………..…21</i>

<i>Hình 6: Mơ hình bài tốn 4……….…22</i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>PHẦN I: TỔNG QUAN1.1. Lý do chọn đề tài:</b>

Sàn Giao dịch Chứng khoán New York (NYSE - <i>New York Stock Exchange)</i>, được thành lập từ năm 1792. Đây là sàn giao dịch chứng khoán lâu đời và lớn nhất thế giới về kim ngạch thương mại và tổng giá trị vốn hóa. Ngày càng nhiều nhà đầu tư lựa chọn NYSE là nơi mua và bán cổ phiếu. Tại sàn NYSE, các nhà đầu tư nhận được nhiều cơng cụ tài chính để giao dịch; trang thiết bị tại NYSE ln ở mức cao nhất có thể, các giao dịch thực hiện khớp lệnh nhanh chóng và có quy mơ lớn với hơn 50 quốc gia và gần 3.500 công ty giao dịch.

NYSE là sàn giao dịch chứng khốn lâu đời, giá trị của nó vẫn không thay đổi trong nhiều năm. Đây là nơi hàng triệu nhà đầu tư khác nhau cạnh tranh, đặt lệnh mua và bán trực tiếp và khớp lệnh ngay lập tức trên sàn. Vì vậy, phân tích số liệu khoản đầu tư trên sàn chứng

<i>khốn New York - một khía cạnh nào đó - có thể nhận biết nhu cầu của các nhà đầu tư đối với</i>

<i>việc mua và bán cổ phiếu. </i>

<i>Bảng 1: Chỉ số S&P 500 (Nguồn: Macrotrends.net) </i>

Chỉ số S&P 500 dựa trên vốn hóa thị trường của 500 cổ phiếu lớn nhất trên sàn chứng khoán Mỹ. Qua bảng trên ta thấy sự tăng trưởng của thị trường chứng khốn trong giao đoạn từ 2012-2020, chính là mốc thời gian mà nhóm dùng để phân tích dữ liệu. Tuy trong thời điểm dịch bệnh 2020, chỉ số chứng khoán đã tăng vượt bậc, nhưng tác động của hậu COVID-19 gây ra đã dẫn đến sự gián đoạn chưa từng có đối với nền kinh tế Mỹ cũng như thế giới và cũng là

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

sự sụt giảm chưa từng có trên thị trường chứng khoán. Mặc dù đã dùng các biện pháp để hạn chế sự sụt giảm của thị trường chứng khoán vào tháng 3 năm 2020. Các nhà đầu tư đã chịu thiệt hại nặng nề do giá cổ phiếu lao dốc. Nỗi lo lắng về cuộc khủng hoảng và tác động của nó đối với nền kinh tế tồn cầu nhanh chóng lan sang phần cịn lại của thế giới. Theo báo cáo gần đây, chứng khoán Mỹ giảm điểm tồi tệ nhất kể từ năm 1987, sau khi thị trường Mỹ trải qua đợt giảm điểm tồi tệ nhất trong lịch sử, thị trường toàn cầu cũng chứng kiến sự sụt giảm tương tự. Hơn nữa, thị trường chứng khoán Mỹ là một nơi có chỉ số hàng đầu và ảnh hưởng lớn đến thị trường toàn cầu, đặc biệt trong những trường hợp như vậy. Do đó, nhóm chúng em chọn đề tài này để cung cấp một số dự báo và phân tích về thị trường chứng khốn ở sàn NYSE.

<i>Ngoài ra, dữ liệu về danh mục đầu tư có thể sử dụng để giúp các cơng ty nhìn nhận</i>

<i>chính xác hơn trong q trình lựa chọn danh mục đầu tư.</i>

Quan trọng, bộ dữ liệu về các khoản đầu tư trên sàn chứng khoán New York qua các năm được cung cấp công khai: Điều này giúp sinh viên thu thập nhanh chóng và chính xác nguồn dữ liệu từ thực tế.

Từ những lý do trên, sinh viên lựa chọn đề tài “Ứng dụng orange vào phân nhóm và

<b>dự đốn 5000 khoản đầu tư trên sàn chứng khốn New York” làm báo cáo kết thúc mơn</b>

học.

<b>1.2. Mục tiêu nghiên cứu </b>

1.2.1. Mục tiêu tổng quát

Mục tiêu tổng quát của bài báo cáo là đưa ra các chiến lược đầu tư hợp lý dựa vào việc dự báo và phân tích dữ liệu đầu tư trên sàn chứng khoán New York.

1.2.2. Các mục tiêu cụ thể

Bốn mục tiêu chính của đề tài tương ứng với bốn bài toán cần giải quyết:

<b>-</b> Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khốn New York qua đó giúp các cơng ty nhìn nhận chính xác hơn trong q trình lựa chọn danh mục đầu tư.

<b>-</b> Phân cụm các mã chứng khoán thuộc lĩnh vực ngân hàng để giúp cho việc phân bổ phần trăm (%) lên danh mục đầu tư tài chính một cách hiệu quả và rõ ràng hơn và từ đó xác định các yếu tố ảnh hưởng lên việc phân cụm lĩnh vực ngân hàng giúp đưa ra phương án đầu tư hiệu quả.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>-</b> Phát hiện các điểm đặc thù của dữ liệu để phân loại, xác định xu hướng chung của các danh mục cổ phiếu, các yếu tố giúp xác định, thống kê danh mục đó tốt hay xấu và đưa ra quyết định có nên tiếp tục đầu tư hay khơng.

<b>-</b> Dự đốn tình trạng phục hồi của cơng ty đối với các rủi ro trên sàn chứng khoán New York để giúp cho các nhà đầu tư có nhiều sự lựa chọn chắc chắn và đưa ra những quyết định đầu tư chuẩn xác hơn.

<b>1.3. Đối tượng nghiên cứu</b>

Sử dụng bộ dữ liệu bao gồm các thông tin công khai về danh sách khoản đầu tư trên sàn chứng khốn New York.

<b>1.4. Mơ tả bài tốn</b>

Sử dụng Excel và phần mềm Orange để xử lý dữ liệu và giải quyết các bài toán sau:

<b>- Bài toán 1 (Liên quan): Ứng dụng dự báo danh mục đầu tư của các cơng ty trên sàn</b>

chứng khốn New York. (Bài tốn phân lớp)

Liên quan đến chun ngành: Thơng qua các chỉ số tài chính có ảnh hưởng đến danh mục đầu tư kết hợp với bài toán phân lớp đã đưa ra những dự báo đầu tư tốt hoặc xấu cho các danh mục đầu tư.

- Bài toán 2 (Liên quan): Phân cụm các mã chứng khoán ngành ngân hàng. (Bài toán phân cụm)

Liên quan đến chuyên ngành: Kiến thức đầu tư tài chính để phân bổ danh mục hiệu quả, từ đó phịng ngừa rủi ro có thể ảnh hưởng đến tỉ suất sinh lợi cũng như lợi nhuận có thể đạt được. - Bài toán 3 (Liên quan): Xác định danh mục các cổ phiếu nên đầu tư hiện tại và không

nên đầu tư hiện tại. (Bài toán phát hiện các điểm đặt thù của dữ liệu).

Liên quan đến chuyên ngành: Kiến thức của mơn đầu tư tài chính của chun ngành, ta xác định được xu hướng chung của các danh mục cổ phiếu.

- Bài tốn 4 (Liên quan): Dự đốn tình trạng phục hồi của công ty đối với các rủi ro trên sàn chứng khoán New York. (bài toán phân lớp).

Liên quan đến chuyên ngành: các chỉ số thuộc ngành tài chính như: thước đo lợi nhuận, lợi tức kỳ vọng, khả năng phục hồi, hệ số giá trên lợi nhuận, tỷ số lợi nhuận trên tài sản, chỉ số định giá, tỷ lệ so sánh giá thị trường với giá trị sổ sách của cổ phiếu, tỷ lệ lợi nhuận sau thuế từ mỗi đồng doanh thu, tỷ số thanh khoản, tỷ số lợi nhuận trên tài sản, tỷ số lợi nhuận trên vốn

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

chủ sở hữu kết hợp với bài toán phân lớp để phân tích và trích xuất thơng tin có giá trị từ dữ liệu, nhằm dự báo khả năng phục hồi là cao hay thấp.

<b>1.5. Mô tả dữ liệu </b>

<b>Bộ dữ liệu được tổng hợp từ các tập dữ liệu về khoản đầu tư trên sàn chứng khoán NewYork giai đoạn 2012 đến 2020 - được truy xuất tại: </b>

Bộ dữ liệu gồm các thông tin:

1 company Tên mã chứng khoán 1 chuỗi ký tự chữ

3 horizon (days) Số ngày nắm giữ cổ phiếu

Số tự nhiên

7 price_BUY Giá mua chứng khoán Số thập phân 8 price_SELL Giá bán chứng khoán Số thập phân

9 sharpe Ratio Thước đo xem lợi nhuận thu được là bao nhiêu trên một đơn vị

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

12 investment Danh mục đầu tư tốt hoặc xấu

Chuỗi kí tự

13 resilience Đánh giá khả năng phục hồi đối với các rủi ro của công ty là nhuận sau thuế mà công ty thu được từ mỗi đồng doanh thu.

Số thập phân

19 current_ratio Tỷ số thanh khoản hiện thời, đo lường năng lực

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>1.6. Tiền xử lý dữ liệu</b>

<b>- Loại bỏ các biến không phù hợp: </b>

Nhận thấy biến company, date_BUY_fix, date_SELL_fix trong tập dữ liệu khơng ảnh hưởng đến các bài tốn mà nhóm thực hiện, do đó nhóm thực hiện bỏ qua (skip) các biến trên.

<b>-</b> Chọn số lượng khảo sát.

Dữ liệu gốc lúc đầu có hơn 400.000 khoản đầu tư (khơng có dữ liệu bị thiếu). Nhóm thực hiện thu gọn ngẫu nhiên dữ liệu và thu được 5004 mẫu.

<b>1.7. Phân tích dữ liệu</b>

Thống kê mô tả các dữ liệu đặc trưng nhất thông qua Excel như sau:

<i>Bảng 2: Thống kê mô tả dữ liệu</i>

Thống kê theo số ngày nắm giữ, ta thấy trung bình nhà đầu tư nắm giữ 182,81 ngày một mã cổ phiếu, ngắn nhất là 1 ngày và lâu nhất là 720 ngày.

Khối lượng đầu tư có trung bình đạt 7939,77 số lượng đơ la đầu tư. Trong đó, thấp nhất rơi vào mức 50 và nhiều nhất ở mức 720 số lượng đô la được đầu tư.

PE_ratio biểu thị hệ số giá trên thu nhập một cổ phiếu, có trung bình là 30,03% và độ lệch chuẩn là 80,19%. Giá trị lớn nhất của PE_ratio rơi vào 1116,57% và thấp nhất ở mức 0%.

Giá trị trung bình của hệ số giá trên lợi nhuận một cổ phiếu (EPS_ratio) là 3,35%với độ lệch chuẩn là 4,24%. Giá trị lớn nhất của EPS_ratio là 29,87% và giá trị nhỏ nhất là -6,56%.

Về biến tỷ số thanh khoản hiện thời, đo lường năng lực thanh toán nợ ngắn hạn của doanh nghiệp (current_ratio) có số trung bình ở mức 2,19%, độ lệch chuẩn khoảng 2,61%. Current_ratio có giá trị cao nhất tại 13,56% và nhỏ nhất tại 0,61%

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Từ các số liệu được trình bày trên, ta có được trung bình của tỷ số lợi nhuận trên tài sản (roa_ratio) là 5,57% với độ lệch chuẩn đạt 6,03%. Điều này cho thấy khơng có sự chênh lệch đáng kể về lợi nhuận trên tổng tài sản của các doanh nghiệp bất động sản. Doanh nghiệp có roa_ratio cao nhất đạt mức 38,13%và giá trị nhỏ nhất của roa_ratio ở mức -12,99%.

Tương tự, tỷ số lợi nhuận trên vốn chủ sở hữu (roe_ratio) có trung bình là 15,68%. Tuy nhiên, độ lệch chuẩn khá cao 17,68% chứng tỏ có sự chênh lệch cao trong mức độ hiệu quả từ việc sử dụng vốn chủ sở hữu của doanh nghiệp. Giá trị lớn nhất roe_ratio đạt mức 57,25% trong khi doanh nghiệp có roe_ratio thấp nhất ở mức -99,49%.

Thống kê mô tả lĩnh vực thông qua Excel như sau:

<i>Bảng 3: Thống kê số lượng giao dịch theo lĩnh vực.</i>

Còn bảng thống kê số lượng giao dịch cho thấy tỉ trọng giao dịch của lĩnh vực bán lẻ (RETAIL) là nhiều nhất với 23,34% theo sau đó là lĩnh vực công nghệ (TECH) chiếm 22,24% và lĩnh vực được đầu tư ít nhất đó chính là hàng tiêu dùng nhanh (FMCG). Qua đó cho thấy, thống kê trên sàn giao dịch NYSE thì những lĩnh vực được quan tâm nhất là bản lẻ (RETAIL), công nghệ (TEHC). Theo sau đó là ngân hàng (BANK), cuối cùng là hàng tiêu dùng nhanh (FMCG). Tuy nhiên khơng có sự chênh lệch đáng kể giữa các lĩnh vực, cho thấy tỉ trọng danh mục đầu tư trên sàn khá đồng đều và phân bổ tương đối bằng nhau.

<b>PHẦN II: THỰC NGHIỆM DỮ LIỆU</b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>2.1 Bài toán 1: Ứng dụng dự báo danh mục đầu tư của các công ty trên sàn chứng khốnNew York</b>

2.1.1. Mơ tả bài toán và tiền xử lý dữ liệu

- B1: Chọn dữ liệu File final_transactions_dataset.xlsx và chọn cột “investment” làm Target; Skip ba cột “feature 1”, “date_BUY_fix”, “date_SELL_fix”.

- B2: Dùng Data Sampler chia dữ liệu làm 2 phần (70%-30%). Đặt tên File dữ liệu lớn hơn là “Data train (70%)”, File nhỏ hơn là “Data forecast (30%)”.

- B3: Dùng 3 phương pháp: SVM, Neutral Network, Logistic Regression tiến hành phân loại đầu tư và đánh giá hiệu quả các phương pháp.

- B4: Chọn phương pháp được đánh giá tốt nhất, dùng phương pháp đó dự báo cho dữ liệu File “Data forecast (30%)”.

2.1.2. Các kiến thức chuyên ngành liên quan đến bài tốn

Từ những phân tích thơng qua các chỉ số tài chính liên quan đến chuyên ngành, các chỉ số đó có ảnh hưởng đến danh mục đầu tư kết hợp với bài toán phân lớp đã đưa ra những dự báo đầu tư tốt hoặc xấu cho các danh mục đầu tư, giúp các công ty hay nhà đầu tư đưa ra lựa chọn phù hợp trong việc ra quyết định đầu tư cho tương lai cũng như dự báo xu hướng đầu tư sắp tới. Qua đó thấy được tác động của các chỉ số tài chính ảnh hưởng đến việc phân loại danh mục đầu tư tốt xấu.

2.1.3. Chạy mơ hình và đánh giá kết quả

<i>Hình 1: Mơ hình bài tốn 1</i>

- Kết quả đánh giá phương pháp của Test & Score

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i>Bảng 4: Kết quả Test & Score của bài tốn 1</i>

- Đánh giá mơ hình dựa trên kết quả Confusion Matrix:

<b>●</b> Sai lầm loại 2: Dự báo danh mục đầu tư của công ty là tốt nhưng thực tế là xấu. Việc này sẽ khiến cho các nhà đầu tư đưa ra những quyết định sai lầm trong quyết định đầu tư, nghiêm trọng hơn có thể dẫn đến phá sản.

<b>●</b> Kết luận: Neural Network = 75 < Logistic Regression = 299 < SVM = 422

Vì vậy, nhóm nghiên cứu chọn phương pháp Neural Network để dự báo đầu tư và phân loại dữ liệu File “Data forecast (30%)”.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>Bảng 5: Kết quả Confusion Matrix của bài toán 1</i>

- Kết quả dự báo:

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>Hình 2: Kết quả dự báo của bài toán 1</i>

<b>2.2 Bài toán 2: phân cụm các mã chứng khốn ngành ngân hàng</b>

2.2.1. Mơ tả bài tốn và tiền xử lý dữ liệu:

Bài toán phân cụm các mã chứng khoán thuộc lĩnh vực ngân hàng để giúp cho việc phân bổ phần trăm(%) lên danh mục đầu tư tài chính một cách hiệu quả và rõ ràng hơn và từ đó xác định các yếu tố ảnh hưởng lên việc phân cụm lĩnh vực ngân hàng giúp đưa ra phương án đầu tư hiệu quả.

- B1: Chọn dữ liệu Final_transactions_dataset.xlsx, không chọn Target, skip ba cột “feature 1”, “date_BUY_fix”, “date_SELL_fix”.

- B2: Dùng Select Rows đặt để lấy cột ngành ngân hàng bằng cách đặt điều kiện Sector is Bank.

- B2: Dùng phương pháp k-Means để phân cụm dữ liệu.

- B3: Minh họa các cụm lĩnh vực Ngân hàng (Bank) bằng Sihouette Plot và Scatter Plot.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

2.2.2. Các kiến thức chuyên ngành liên quan đến bài toán

Trong chuyên ngành tài chính, vận dụng kiến thức đầu tư tài chính để phân bổ danh mục hiệu quả, từ đó phịng ngừa rủi ro có thể ảnh hưởng đến tỉ suất sinh lợi cũng như lợi nhuận có thể đạt được. Bài tốn sử dụng cách phân cụm một nhóm ngành cụ thể, qua đó có thể tìm ra sự tương đồng, từ đó tìm ra được danh mục nào nên đầu tư trước, danh mục nào nên đầu tư sau, tuỳ vào mức độ chấp nhận rủi ro và tín hiệu của thị trường.

2.2.3. Xây dựng mơ hình:

<i>Hình 3: Mơ hình bài tốn 2</i>

Đánh giá & kết quả

- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 5 cụm, chọn phân 2 cụm tương ứng với điểm Silhouette cao nhất là 0,273. Không chọn các trường hợp khác vì điểm số Silhouette thấp hơn.

</div>

×