TRƯỜNG ĐẠI HỌC MỞ
CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM
THÀNH PHỐ HỒ CHÍ MINH
KHOA QUẢN TRỊ KINH DOANH
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là:…Tiêu Khởi Mai……………..………………………………………
Ngày sinh:……01/12/1998……………… Nơi sinh:……TP HCM……………
Chuyên ngành: Kinh doanh quốc tế Mã sinh viên: …1654020119.………
Tôi đồng ý cung cấp toàn văn thông tin khóa luận tốt nghiệp hợp lệ về bản quyền cho
Thư viện Trường Đại học Mở Thành phố Hồ Chí Minh. Thư viện Trường Đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin khóa luận tốt nghiệp vào hệ
thống thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
(Ghi rõ họ và tên)
…………………………………
Ý KIẾN CHO PHÉP BẢO VỆ KHÓA LUẬN TỐT NGHIỆP
CỦA GIẢNG VIÊN HƯỚNG DẪN
Giảng viên hướng dẫn:............................................................................................................
Học viên thực hiện........................................................... Lớp................................................
Ngày sinh:......................................................................... Nơi sinh........................................
Tên đề tài: ..............................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
Ý kiến của giáo viên hướng dẫn về việc cho phép sinh viên:.................................................
được bảo vệ khóa luận trước Hội đồng:.................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
Thành phố Hồ Chí Minh, ngày .....tháng.......năm..............
Người nhận xét
.................................................
LỜI CẢM ƠN
Đầu tiên, tôi xin gửi lời tri ân đến TS Cao Minh Trí đã tận tình hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận. Thầy đã đưa ra những lời nhận xét để tôi có
thể hoàn thành đề tài một cách tốt nhất. Qua quá trình thực hiện và hoàn thành đề tài
dưới sự hướng dẫn của Thầy đã cho tôi học thêm nhiều kiến thức chuyên môn.
Trong quá trình hoàn thành đề tài, Tôi đã hết sức cố gắng nhưng vẫn không tránh
khỏi những thiếu sót. Tôi rất mong nhận được sự đóng góp ý kiến từ Quý Thầy Cô để
hoàn thiện thêm đề tài nghiên cứu này.
Tôi xin chân thành cảm ơn!
MỤC LỤC
DANH MỤC BẢNG BIỂU ........................................................................................ i
DANH MỤC HÌNH ...................................................................................................ii
DANH MỤC TỪ VIẾT TẮT ...................................................................................iii
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI ............................................................... 1
1.1 Lý do chọn đề tài nghiên cứu......................................................................... 1
1.2 Mục tiêu nghiên cứu ....................................................................................... 6
1.3 Phương pháp nghiên cứu ............................................................................... 7
1.3.1 Phương pháp tiếp cận ................................................................................. 7
1.3.2 Quy trình nghiên cứu ................................................................................. 7
1.4 Phạm vi và đối tượng nghiên cứu ................................................................. 9
1.5 Đóng góp của nghiên cứu ............................................................................... 9
1.6 Kết cấu của đề tài nghiên cứu ..................................................................... 10
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...................................................................... 11
2.1 Chuỗi thời gian ............................................................................................. 11
2.2 Mô hình ARIMA........................................................................................... 12
2.2.1 Tính dừng ................................................................................................. 12
2.2.1.1 Tính chất tự tương quan ........................................................... 12
2.2.1.2 Kiểm định nghiệm đơn vị ......................................................... 13
2.2.2 Quá trình tự hồi quy AR .......................................................................... 14
2.2.3 Quá trình trung bình trượt MA ................................................................ 15
2.2.4 Quá trình trung bình trượt và tự hồi quy ARMA ..................................... 15
2.2.5 Quá trình trung bình trượt, tích hợp tự hồi quy ARIMA ......................... 15
2.2.6 Định dạng mô hình – xác định các tham số p,d,q .................................... 16
2.2.6.1 Lược đồ tương quan và tự tương quan ..................................... 16
2.2.6.2 Tiêu chuẩn Akaike, Schwarz .................................................... 17
2.2.7 Ước lượng mô hình .................................................................................. 19
2.2.8 Kiểm định tính thích hợp của mô hình .................................................... 20
2.2.9 Dự báo và sai số dự báo ........................................................................... 21
2.3 Trích xuất đặc trưng bằng XGBoost .......................................................... 22
2.4 Học sâu .......................................................................................................... 23
2.4.1 Mạng neuron nhân tạo ............................................................................. 23
2.4.1.1 Kiến trúc mạng neural nhân tạo ............................................... 23
2.4.1.2 Mô hình hoạt động của mạng neural nhân tạo ......................... 24
2.4.1.3 Ứng dụng .................................................................................. 26
2.4.2 Mạng neuron hồi quy ............................................................................... 27
2.4.2.1 Kiến trúc mạng neuron hồi quy ................................................ 27
2.4.2.2 Phân loại bài toán ..................................................................... 28
2.4.2.3 Ứng dụng .................................................................................. 28
2.4.3 Mạng LSTM............................................................................................. 28
2.4.3.1 Kiến trúc mạng LSTM ............................................................. 28
2.4.3.2 Ứng dụng .................................................................................. 31
2.5 Độ đo đánh giá kết quả mô hình ................................................................. 32
2.5.1 Sai số tuyệt đối trung bình ....................................................................... 32
2.5.2 Sai số toàn phương trung bình ................................................................. 32
2.5.3 Căn bậc hai của sai số toàn phương trung bình ....................................... 32
CHƯƠNG 3: KẾT QUẢ......................................................................................... 33
3.1 Giới thiệu bộ dữ liệu ..................................................................................... 33
3.2 Mô hình ARIMA........................................................................................... 36
3.2.1 Kiểm định tính dừng của chuỗi thời gian ................................................ 36
3.2.2 Ước lượng tham số và lựa chọn mô hình ................................................. 38
3.2.3 Kiểm định tính dừng của phần dư ............................................................ 39
3.2.4 Kết quả thực nghiệm ................................................................................ 39
3.3 Mô hình LSTM ............................................................................................. 41
3.3.1 Xây dựng mô hình dự báo........................................................................ 41
3.3.1.1 Dữ liệu và trích xuất đặc trưng ................................................. 41
3.3.1.2 Cấu trúc mô hình LSTM .......................................................... 44
3.3.2 Kết quả thực nghiệm ................................................................................ 45
3.4 Đánh giá......................................................................................................... 48
CHƯƠNG 4: KẾT LUẬN ...................................................................................... 50
Tài liệu tham khảo ................................................................................................... 51
i
DANH MỤC BẢNG BIỂU
Bảng 2.1. Bậc p,q của ARIMA
17
Bảng 3.1. Bảng tóm tắt các đặc trưng thống kê giá đóng cửa từ thị trường Forex 34
Bảng 3.2. Bảng giá trị ACF và PACF của giá đóng cửa tại các độ trễ
37
Bảng 3.3. Kết quả ARIMA (p, d, q)
38
Bảng 3.4. Kết quả mô hình ARIMA (0,1,1)
38
Bảng 3.5. Kết quả mô hình ARIMA
40
Bảng 3.6. Đánh giá kết quả dự báo của mô hình ARIMA
41
Bảng 3.7. Bảng mô tả các đặc trưng đã chọn
43
Bảng 3.8. Sai số trên tập huấn luyện và tập đánh giá
46
Bảng 3.9. Kết quả mô hình LSTM
48
Bảng 3.10. Đánh giá kết quả dự báo của mô hình LSTM
48
Bảng 3.11. Kết quả
49
ii
DANH MỤC HÌNH
Hình 1.1. Lược đồ mô phỏng phương pháp học sâu
7
Hình 1.2. Lược đồ mô phỏng mô hình ARIMA
8
Hình 2.1. Kiến trúc mạng neural nhân tạo
24
Hình 2.2. Quá trình xử lý thông tin của một mạng neural nhân tạo.
24
Hình 2.3. Cấu trúc mạng RNN
27
Hình 2.4. Các dạng bài toán RNN
28
Hình 2.5. Mô hình LSTM
29
Hình 2.6. Trạng thái tế bào (cell state) trong LSTM
30
Hình 2.7. Mô hình LSTM
30
Hình 3.1. Đồ thị giá đóng cửa theo phiên 5 phút của giá bid EUR/USD
34
Hình 3.2. Biểu đồ hộp của giá đóng cửa theo phiên 5 phút của giá bid EUR/USD 35
Hình 3.3. Biểu đồ tần suất giá đóng cửa theo phiên 5 phút của giá bid EUR/USD
35
Hình 3.4. Đồ thị sai phân bậc một giá đóng cửa
36
Hình 3.5. Hàm tự tương quan và hàm tự tương quan riêng.
37
Hình 3.6. Đồ thị sai phân bậc 1 của phần dư
39
Hình 3.7. Đồ thị thể hiện kết quả dự báo sử dụng phương pháp ARIMA
40
Hình 3.8. Đồ thị các đặc trưng tài chính trong 1000 ngày.
41
Hình 3.9. Các đặc trưng dùng để dự báo
42
Hình 3.10. Cấu trúc mô hình
45
Hình 3.11. Đồ thị thể hiện xu hướng của sai số trên tập huấn luyện và tập đánh giá 47
Hình 3.12. Đồ thị thể hiện kết quả dự báo sử dụng phương pháp LSTM.
47
iii
DANH MỤC TỪ VIẾT TẮT
ACF
Autocorrelation Function
Hàm tự tương quan
ADF
Augmented Dickey–Fuller
Thống kê kiểm định Dickey-Fuller
AIC
Akaike information criterion
Tiêu chuẩn thông tin Akaike
ANN
Artificial Neural Network
Mạng Neural nhân tạo
AR
Auto Regressive
Quá trình tự hồi quy
ARMA Autoregressive Moving Average Quá trình trung bình trượt tự hồi quy
ARIMA Auto Regressive Integrated
Mô hình tự hồi quy tích hợp trung bình
Moving Average
trượt
BIC
Bayesian information criterion
Tiêu chuẩn thông tin Bayes
IID
Independent Identically
Phân phối đồng nhất độc lập
Distributed
LSTM
Long Short Term Memory
Mạng LSTM
MAE
Mean Absolute Error
Sai số tuyệt đối trung bình
MLE
Maximum likelihood estimation Ước lượng hợp lý cực đại
MSE
Mean Square Error
Sai số toàn phương trung bình
OLS
Ordinary least squares
Phương pháp bình phương nhỏ nhất
PACF
Partial Autocorrelation Function Hàm tự tương quan riêng
RMSE
Root Mean Square Error
Căn bậc hai sai số toàn phương trung bình
RNN
Recurent Neural Network
Mạng Neural hồi quy
1
TỔNG QUAN VỀ ĐỀ TÀI
1.1 Lý do chọn đề tài nghiên cứu
Bài toán dự báo giá chứng khoán luôn là một trong những vấn đề cổ điển được
nghiên cứu trên toàn thế giới. Nhiều nghiên cứu chỉ ra rằng giá chứng khoán bị tác
động bởi các yếu tố vĩ mô như lạm phát, tỷ giá hối đoái, tổng sản phẩm quốc nội, cung
tiền, lãi suất dài hạn và lãi suất ngắn hạn (Gan và cộng sự, 2006). Và cả yếu tố khác
như tin tức công ty, hiệu suất công ty, hiệu quả ngành, lãi suất, chính sách kinh tế, cú
sốc kinh tế, cú sốc chính trị. Do đó, việc dự báo giá chứng khoán gặp rất nhiều khó
khăn. Tuy vậy, một dự báo chính xác có thể mang lại nhiều lợi ích cho nhà đầu tư.
Bên cạnh đó, giá chứng khoán được nhìn nhận là một trong những thước đo hiệu quả
hoạt động kinh tế của một quốc gia. Chính vì vậy, một dự báo giá chính xác có thể
cung cấp nhiều thông tin hữu ích cho các nhà hoạch định chính sách.
Nghiên cứu sự thay đổi giá của chứng khoán đã thu hút nhiều sự chú ý của nhiều
học giả. Nhiều mô hình mô phỏng, dự đoán sự thay đổi giá chứng khoán đã được đề
xuất. Vào năm 1990, nhà toán học người Pháp, Louis Bachelier đã đưa ra giả định
rằng sự chuyển động của giá chứng khoán tuân theo chuyển động Brown (Brownian
motion) mặc dù nhiều nghiên cứu thực nghiệm đã chỉ ra rằng sự biến động của giá
chứng khoán trong tương lai là không thể đoán trước. Kendall (1953) lần đầu tiên sử
dụng thuật ngữ bước đi ngẫu nhiên trong lý thuyết tài chính, dựa trên quan sát 22 chỉ
số chứng khoán Anh và giá cả hàng hóa Mỹ để tìm ra chu kỳ giá thường xuyên.
Osborne (1959) đã chứng minh giá cổ phiếu Hoa Kỳ chuyển động ngẫu nhiên giống
như các hạt phân tử.
Vì giá chứng khoán chuyển động theo bước đi ngẫu nhiên nên các nhà nghiên
cứu lập luận rằng thông tin tài chính của công ty sẽ được phản ánh theo giá hiện tại
một cách có hệ thống. Fama (1965) đã thảo luận một số bằng chứng thực nghiệm hỗ
trợ lý thuyết bước đi ngẫu nhiên và đưa ra giả thuyết thị trường hiệu quả. Theo tác
giả, thị trường hiệu quả (Efficient Market Hypothesis – EMH) (Malkiel và Fama,
2
1970) là thị trường mà tại đó giá luôn phản ánh những thông tin sẵn có. Có ba dạng
của thị trường hiệu quả: dạng yếu (weak – form), dạng trung bình (semi-strong form)
và dạng mạnh (strong form). Đối với thị trường hiệu quả dạng yếu, giả định giá chứng
khoán phản ánh kịp thời toàn bộ thông tin có thể có được từ dữ liệu giao dịch trong
quá khứ như giá, khối lượng giao dịch và tỉ suất thu nhập được đề xuất. Ví dụ, nếu dữ
liệu giá trong quá khứ được công khai và nhà đầu tư có thể dễ dàng tiếp cận, họ sẽ
khai thác và sử dụng thông tin đó để tìm kiếm lợi nhuận. Giả thuyết thị trường hiệu
quả dạng trung bình giả định rằng tất cả thông tin liên quan tới công ty đã được công
bố rộng rãi và các thông tin quá khứ đều được phản ánh vào giá chứng khoán. Giả
thuyết thị trường hiệu quả dạng mạnh khẳng định tất cả các thông tin liên quan đến
chứng khoán bao gồm cả thông tin nội bộ cũng đã phản ánh vào giá chứng khoán.
Tuy nhiên, giả thuyết thị trường hiệu quả chỉ đúng với những cổ phiếu riêng lẻ
và không hoàn toàn đúng với toàn thị trường. Thị trường chứng khoán trong dài hạn
có những biến động mà nhiều nhà kinh tế học nhận định rằng nó bị ảnh hưởng một
phần nào đó tâm lý của những người tham gia. Dựa trên quan sát này, nhiều suy nghĩ
tiên phong đề xuất một lĩnh vực nghiên cứu tài chính hành vi để giải thích sự thay đổi
của thị trường chứng khoán một cách đầy đủ hơn. Tài chính hành vi đã trở thành nền
tảng của hai phương pháp tiếp cận cổ điển dùng để phân tích giá chứng khoán quen
thuộc: phân tích kỹ thuật và phân tích cơ bản (Shiller, 2003).
Phân tích kỹ thuật là dự báo biến động giá trong tương lai dựa trên biến động
giá trong quá khứ. Tuy nhiên, phân tích kỹ thuật cho rằng giá chứng khoán chỉ chịu
tác động của cung và cầu chứng khoán và chỉ hoạt động tốt dựa trên ba giả định.
(i) thanh khoản cao: các cổ phiếu giao dịch lớn cho phép các nhà đầu tư giao dịch
nhanh chóng và dễ dàng, mà không làm thay đổi đáng kể giá của cổ phiếu. Cổ phiếu
giao dịch nhỏ là khó khăn hơn, bởi vì không có nhiều người mua hoặc người bán hàng
tại bất kỳ thời điểm nào. Do đó người mua và người bán có thể phải thay đổi giá của
họ mong muốn đáng kể để thực hiện một giao dịch. Bên cạnh đó, cổ phiếu thanh
khoản thấp thường có giá rất thấp, có nghĩa là giá của chúng có thể dễ dàng bị thao
3
túng bởi các nhà đầu tư cá nhân. Các lực lượng bên ngoài hoạt động trên các cổ phiếu
có thanh khoản thấp làm cho chúng không phù hợp để phân tích kỹ thuật (ii) không
có hiện tượng giá giả: chia nhỏ, cổ tức và phân phối là những nguyên nhân phổ biến
nhất tạo ra giá giả. Mặc dù không có sự khác biệt về giá trị của khoản đầu tư nhưng
tạo ra giá giả có thể ảnh hưởng đáng kể đến biểu đồ giá và làm cho phân tích kỹ thuật
khó áp dụng và (iii) không có tin tức cực đoan: phân tích kỹ thuật không thể dự đoán
các sự kiện cực đoan, bao gồm các sự kiện kinh doanh và các sự kiện chính trị.
Theo Thomsett (1998), phân tích cơ bản là nghiên cứu về các yếu tố ảnh hưởng
đến cung và cầu. Dữ liệu quan trọng được sử dụng để phân tích cơ bản là dữ liệu của
các công ty như báo cáo tài chính, báo cáo hàng năm của công ty và bảng cân đối kế
toán. Tin tức cũng đóng một vai trò trong phân tích cơ bản vì nó phản ánh chuỗi cung
và cầu hiện tại trên thị trường. Các thông tin được xem xét như triển vọng tương lai,
so sánh ngành, môi trường thị trường và thay đổi chính sách của chính phủ.
Phương pháp phổ biến hơn là phân tích chuỗi thời gian bao gồm các phương
pháp để phân tích dữ liệu chuỗi thời gian nhằm trích xuất các thuộc tính thống kê có
ý nghĩa và các đặc điểm của dữ liệu. Phương pháp này sẽ nghiên cứu hành vi, khuôn
mẫu trong quá khứ của các biến số và sử dụng các thông tin này để dự đoán những
thay đổi trong tương lai. Phân tích chuỗi thời gian là một phương pháp ngoại suy phức
tạp.
Vì giá chứng khoán là chuỗi thời gian – biến số được quan sát theo trình tự thời
gian – nên để dự đoán các điểm dữ liệu, chúng ta cần nghiên cứu quy luật thay đổi
bằng cách mô hình hoá chuỗi này. Các chuỗi thời gian nói chung bao gồm 4 yếu tố:
xu thế, mùa, chu kỳ và các yếu tố bất quy tắc. Cách tiếp cận đầu tiên là phân tích cấu
thành chuỗi và phương pháp thường được sử dụng là phương pháp Holt – Winter hay
phương pháp Census II X-11. Tuy nhiên, các chuỗi thời gian trong kinh tế và kinh
doanh chứa đựng yếu tố thời vụ khá mạnh và đồng thời xuất hiện các yếu tố chu kỳ
bắt nguồn từ các chu kì kinh doanh. Chính vì vậy, bản chất các biến kinh tế là chuỗi
4
không dừng. Trong khi các phương pháp san mũ giản đơn dùng cho chuỗi thời gian
không có yếu tố xu thế và không có yếu tố thời vụ. Từ đó, việc nghiên cứu về các
chuỗi không dừng trong kinh tế là một trong những bước đột phá của kinh tế học hiện
đại. Phương pháp phân tích động thái của chuỗi do Box và Jenkins đề xuất hay còn
gọi là phương pháp ARIMA không dựa trên một hay nhiều phương trình mà dựa trên
phân tích tính chất ngẫu nhiên của chuỗi thời gian. Trong nghiên cứu thực nghiệm,
các phương pháp phân tích chuỗi thời gian trên vẫn được sử dụng nhiều vì mức độ
hiệu quả của chúng khi ứng dụng vào thực tế. Tuy nhiên, khi so sánh với các phương
pháp khác như sử dụng mạng Bayes vào dự báo xu hướng chứng khoán (Ben-Gal,
2007; Pearl and Russell, 2001). Kết quả cho thấy mạng Bayes mang lại kết quả dự
đoán cao hơn từ 15% đến 20% so với các phương pháp phân tích chuỗi thời gian (Zou
và Kita, 2012). Mặc dù, mô hình ARIMA vẫn có mức độ cạnh tranh cao khi so sánh
với các phương pháp học sâu nhưng độ chính xác vẫn thấp hơn so với các mô hình
học sâu như ANN (Adebiyi và cộng sự, 2014). Nghiên cứu của Adebiyi và cộng sự
ứng dụng trên bộ dữ liệu chứng khoán từ sàn giao dịch chứng khoán NYSE và sàn
giao dịch NSE. Tác giả sử dụng phương pháp Box-Jenkins để ước lượng mô hình
ARIMA phù hợp nhận xét mô hình ARIMA sẽ mang lại kết quả tốt hơn trong việc dự
đoán giá chứng khoán trong ngắn hạn. Hiệu quả của phương pháp học sâu – ANN –
được so sánh với ARIMA và đã thể hiện kết quả vượt trội hơn trong dự báo dữ liệu
chuỗi thời gian.
Các phương pháp học sâu được ứng dụng trong dự báo giá chứng khoán như
mạng neural nhân tạo (Arfitical Neural Network - ANN), mạng hồi quy (Recurent
Neural Network – RNN), mạng LSTM (Long Short-Term Memory – LSTM) và một
số phương pháp khác. Về mặt kỹ thuật, các phương pháp này sử dụng cơ chế xấp xỉ
một hàm liên tục và tự điều chỉnh dữ liệu với ít giả định hơn nên mang lại sự chính
xác cao và hiệu quả hơn trong việc giải quyết các vấn đề phi tuyến.
Đối với bài toán dạng chuỗi thời gian, phương pháp học sâu đặc biệt là mô hình
LSTM – mô hình học sâu với kiến trúc cho phép ghi nhớ các thông tin dài trong quá
5
khứ, là một phiên bản cải tiến của mạng RNN – mang lại hiệu quả cao. Các nghiên
cứu thực nghiệm khai khác sử dụng mô hình lai giữa LSTM và Gated Recurrent Unit
(GRU) đã cải thiện độ hiệu quả trên tập dữ liệu chỉ số S&P 500 từ năm 1950 đến 2016
(Houssain và cộng sự, 2018). Một nghiên cứu khác của Nelson và cộng sự (2017) đã
đề xuất mô hình LSTM bằng cách sử dụng các chỉ báo kỹ thuật để dự báo xu hướng
giá chứng khoán và áp dụng trên tập dữ liệu của các mã chứng khoán tại Brazil từ
năm 2008 đến năm 2015 và đạt kết quả cao nhất đối với mã Banco Bradesco SA với
độ chính xác là 55,9%. Milosevic (2016) áp dụng đồng thời phương pháp học sâu và
kỹ thuật trích xuất đặc trưng bằng thuật toán máy học và thực nghiệm trên 1739 mã
chứng khoán trong các danh mục S&P 1000, FTSE 1000 và S&P Europe 350 từ năm
2012 đến năm 2015 để dự báo xu hướng giá chứng khoán. Kết quả cho thấy sự vượt
trội của phương pháp học sâu khi kết hợp cùng thuật toán máy học Random Forest để
trích xuất đặc trưng của bộ dữ liệu khi đem lại độ chính xác lên tới 75.1%.
Trên thực tế, ngày càng nhiều công ty trên thế giới đã và đang đầu tư vào trí tuệ
nhân tạo. Hơn 250 công ty khởi nghiệp vào năm 2019 thuộc lĩnh vực công nghệ tài
chính (fintech) và 15% trong số các công ty đó được thành lập nhằm mục đích tự động
hoá giao dịch (CBInsight, 2018). Quỹ phòng hộ Man Group là một trong những công
ty đầu tiên áp dụng trí tuệ nhân tạo trong giao dịch và sau những lần thực nghiệm, hệ
thống dự đoán dựa trên các phuơng pháp máy học đã chứng minh được tính hiệu quả
khi đem lại lợi nhuận gấp bốn lần cho công ty (Kumar, 2017). Các chương trình dựa
trên phương pháp học máy được cung cấp tất cả dữ liệu cần thiết như các báo cáo
dòng tiền hiện tại, báo cáo về doanh thu các sản phẩm mới và các yếu tố bên ngoài
như tin tức, kinh tế và chính trị. Đồng thời dựa vào các biến động giá trong quá khứ
để phân tích tình hình hiện tại và dự đoán xu hướng tương lai. Theo Bloomberg, 58%
các nhà quản lý nghĩ rằng các phương pháp liên quan đến trí tuệ nhân tạo sẽ có tác
động từ trung bình đến rất lớn đối với ngành. Vì vậy, ứng dụng trí tuệ nhân tạo hay
cụ thể là các phương pháp máy học và học sâu được xem là bước đột phá trong lĩnh
vực giao dịch và đầu tư chứng khoán. Tuy nhiên, nhiều doanh nghiệp tại Việt Nam
6
vẫn chưa khai khác được vì độ phức tạp về thời gian cũng như kỹ thuật của công nghệ
này. Một số tập đoàn đa quốc gia trên thế giới đã nhanh chóng nắm bắt được như ứng
dụng Watstock, là một nền tảng giao dịch được phát triển với sự hợp tác của IBM
Watson bằng cách ứng dụng trí tuệ nhân tạo, học sâu và mạng LSTM để dự đoán giá
chứng khoán với độ chính xác cao.
Dựa trên các quan sát ở trên, tác giả nghiên cứu đề xuất đề tài nghiên cứu “Ứng
dụng phương pháp học sâu trong dự báo giá chứng khoán”. Nghiên cứu này sử
dụng kỹ thuật học sâu để tận dụng ưu thế đối với bài toán dữ liệu chuỗi thời gian.
1.2 Mục tiêu nghiên cứu
Nghiên cứu này được thực hiện để dự báo giá chứng khoán dựa trên phương
pháp học sâu. Hai mục tiêu nghiên cứu được đề xuất bao gồm:
1. Sử dụng các mô hình đề xuất để dự báo giá chứng khoán
2. Đánh giá, so sánh giữa các mô hình dự báo.
7
1.3 Phương pháp nghiên cứu
1.3.1 Phương pháp tiếp cận
Để đạt được mục tiêu nghiên cứu đề ra, nghiên cứu này được triển khai theo các
bước như sau:
1. Nghiên cứu lý thuyết: nghiên cứu tổng quan về giá chứng khoán, lược
khảo các nghiên cứu liên quan cả trong và ngoài nước để chọn lọc và tổng
hợp. Tìm hiểu, vận dụng và kế thừa một số nghiên cứu trước đây.
2. Thu thập, phân tích và đánh giá dữ liệu thứ cấp.
3. Khai khác sử dụng mô hình đã kiểm định để xây dựng và triển khai cho
các dữ liệu tương tự.
1.3.2 Quy trình nghiên cứu
Nghiên cứu sử dụng phương pháp học sâu để dự báo giá chứng khoán và được
thể hiện như hình 1.1.
Dữ liệu đào tạo
Huấn luyện và lựa
Mô hình
Dữ liệu
(Training data)
chọn mô hình
cuối cùng
mới
Dữ liệu
Dữ liệu kiểm thử
Dự báo
(Test data)
Tiền xử lý
Huấn luyện
Đánh giá
Hình 1.1. Lược đồ mô phỏng phương pháp học sâu
Dự báo
8
Nghiên cứu sử dụng thêm mô hình ARIMA để so sánh sự hiệu quả so với mô
hình học sâu. Để thuận tiện cho người đọc, mô hình ARIMA được mô hình hoá như
hình 1.2.
Dữ liệu
Không
Sai phân
Kiểm định tính
dừng của chuỗi
Có
Tính ACF và PACF
Xác định tham số
(p,d,q)
Chọn lựa và ước lượng các tham số
Không phù hợp
Kiểm định mô hình
Phù hợp
Phân tích, dự báo
Hình 1.2. Lược đồ mô phỏng mô hình ARIMA
9
1.4 Phạm vi và đối tượng nghiên cứu
Đối tượng nghiên cứu: giá đóng của của thị trường ngoại tệ Forex
Phạm vi nghiên cứu: giá chứng khoán trong giai đoạn 2008-2018.
1.5 Đóng góp của nghiên cứu
Đóng góp của nghiên cứu được thể hiện qua hai cách. Thứ nhất, nghiên cứu sử
dụng bộ dữ liệu mới nhất về giá đóng của thị trường ngoại tệ Forex trong giai đoạn
2008 - 2018. Tần suất dữ liệu là 5 phút được áp dụng trong nghiên cứu này. Thứ hai,
nghiên cứu ứng dụng phương pháp học sâu để cung cấp kết quả dự báo chính xác hơn.
10
1.6 Kết cấu của đề tài nghiên cứu
Đề tài gồm 4 chương, được chia thành các nội dung như sau:
Chương 1: Tổng quan về đề tài
Trình bày khái quát nội dung thực hiện dề tài, bao gồm: lý do chọn đề tài, phương
pháp nghiên cứu, phạm vi và đối tượng, đóng góp của nghiên cứu.
Chương 2: Cơ sở lý thuyết
Trình bày kiến thức tổng quan về chuỗi thời gian, mô hình tự hồi quy tích hợp
trung bình trượt (ARIMA - Autoregressive Integrated Moving Average), mô hình
LSTM (Long Short Term Memory networks) và độ đo để đánh giá kết quả giữa các
mô hình dự báo đề nghị.
Chương 3: Kết quả
Trình bày tổng quan, phân tích và đánh giá về bộ dữ liệu. Trình bày kết quả thực
nghiệm của các mô hình. Từ đó đánh giá và so sánh.
Chương 4: Kết luận
Tóm tắt kết quả chính của nghiên cứu, kiến nghị và định hướng nghiên cứu tiếp
theo.
11
CƠ SỞ LÝ THUYẾT
2.1 Chuỗi thời gian
Trong thống kê, xử lý tín hiệu, kinh tế lượng và toán tài chính, chuỗi thời gian
là dãy các quan sát về một biến số theo thời gian. Mẫu quan sát có thể xem như một
đoạn hữu hạn của một chuỗi vô hạn quan sát được biểu diễn theo công thức toán học
2.1.
(𝑦𝑡 )+
− = (. . . 𝑦−1 , 𝑦0 , 𝑦1 , 𝑦2 , . . . , 𝑦𝑛 , . . . )
(2.1)
Với số liệu chuỗi thời gian ta thường sử dụng chỉ số t để chỉ thứ tự các quan sát,
chẳng hạn 𝑥𝑡 , 𝑦𝑡 , 𝐺𝐷𝑃𝑡 , … trong đó t = 1,2,3,…,n. Số liệu chuỗi thời gian phải được
sắp xếp theo một trình tự thời gian nhất định, trong đó quan sát xảy ra sau luôn được
xếp ngay sau quan sát xảy ra trước nó: 𝑦𝑡 được xếp ngay sau 𝑦𝑡−1 .
Vì bản chất thứ tự của chuỗi số nên với số liệu chuỗi thời gian chúng ta còn
quan tâm đến hiện tượng sau:
Tính chất tự tương quan (autocorrelation): Chuỗi 𝑦𝑡 được gọi là có tự tương quan
bậc p nếu: 𝑐𝑜𝑟𝑟(𝑦𝑡 , 𝑦𝑡−𝑝 ) ≠ 0 với 𝑝 ≠ 0
Tính chất tự tương quan với số liệu chuỗi thời gian đôi khi còn được gọi là tương
quan chuỗi (serial correlation)
Một số đặc trưng của số liệu chuỗi thời gian:
-
Số liệu chuỗi thời gian và tính tự quan: chuỗi các quan sát trong số liệu chéo
thường được xem như là độc lập với nhau và do đó không tương quan với
nhau. Tuy nhiên với số liệu chuỗi thời gian, người ta thường thấy chúng có
tính tự tương quan: 𝑐𝑜𝑟𝑟(𝑦𝑡 , 𝑦𝑡−𝑝 ) ≠ 0
-
Số liệu chuỗi thời gian và yếu tố mùa vụ: các số liệu kinh tế xã hội thường
chịu tác động của yếu tố thời vụ: doanh thu về máy lạnh thường cao về mùa
12
hè, thấp về mùa đông; giá thực phẩm thường cao trong các dịp Tết, … Yếu
tố mùa vụ thường xuất hiện với các số liệu có tần suất xuất hiện.
-
Số liệu chuỗi thời gian và yếu tố xu thế: đa phần chuỗi thời gian còn có yếu
tố xu thế, chỉ xu thế tăng hay giảm trong thời kỳ khá dài của chuỗi số.
2.2 Mô hình ARIMA
2.2.1 Tính dừng
Chuỗi {𝑌𝑡 } được gọi là dừng khi thỏa ba điều kiện như sau:
(i) E(𝑌𝑡 ) là một hằng số tại tất cả các thời điểm t.
𝐸(𝑌𝑡 ) = 𝜇 ,
∀𝑡
(2.2)
(ii) Var(𝑌𝑡 ) là một hằng số cho tất cả các thời điểm t.
Var(Yt ) = E(Yt − μ)2 = σ2
(iii)
(2.3)
Cov(Yt , Yt+k ) là một hằng số cho tất cả các thời điểm t và k khác không.
𝐶𝑜𝑣(Yt , Yt+k ) = γ𝑘 = E[(Yt − μ)(Yt+k − μ)]
(2.4)
Hai phương pháp kiểm định tính dừng thường được sử dụng là giản đồ tự tương
quan và kiểm định nghiệm đơn vị.
2.2.1.1 Tính chất tự tương quan
Biểu đồ tự tương quan là một đồ thị biểu diễn mối quan hệ giữa hệ số tự tương
quan bậc k với độ trễ k tương ứng. Hệ số tự tương quan bậc k (ký hiệu là 𝑟𝑘 ) được xác
định theo công thức (2.5):
𝜌𝑘 =
̅
̅
∑𝑛
𝑡= 𝑘+1(Y𝑡− 𝑌 )(Y𝑡−𝑘 − 𝑌)
2
̅
∑𝑛
(Y
)
𝑡=1 𝑡− 𝑌
(2.5)
Nếu ta chia cả tử và mẫu của phương trình (2.5) cho n, thì hệ số tự tương quan
trên có thể được viết lại thành phương trình (2.6)
13
𝜌𝑘 =
𝐶𝑜𝑣(Y𝑡,Y𝑡−1 )
𝑉𝑎𝑟(Y𝑡)
(2.6)
Phương trình (2.5) và (2.6) được gọi là hàm tự tương quan, ký hiệu là ACF.
Do thực tế chúng ta chỉ có dữ liệu mẫu, nên ta chỉ có thể ước lượng được hệ số
tự tương quan mẫu theo công thức (2.7)
𝑟𝑘 =
̅
̅
∑𝑛
𝑡= 𝑘+1(Y𝑡 − 𝑌 )(Y𝑡−𝑘 − 𝑌)
𝑛
2
̅
∑𝑡=1(Y𝑡 − 𝑌 )
(2.7)
Trong đó, 𝑌̅ là giá trị trung bình mẫu của chuỗi Y𝑡 , k là độ trễ, n là số quan sát
của mẫu.
2.2.1.2 Kiểm định nghiệm đơn vị
Giả sử ta có phương trình tự hồi quy sau:
Y𝑡 = 𝜌Y𝑡−1 + u𝑡 (−1 < 𝜌 < 1)
(2.8)
Ta có giả thuyết:
𝐻0 : 𝜌 = 1 (Y𝑡 là chuỗi không dừng)
𝐻0 : 𝜌 < 1 (Y𝑡 là chuỗi dừng)
Phương trình (2.8) tương ứng với phương trình (2.9) sau đây:
Y𝑡 − Y𝑡−1 = 𝜌Y𝑡−1 − Y𝑡−1 + u𝑡 = (𝜌 − 1)Y𝑡−1 + u𝑡
∆Y𝑡 = 𝛿Y𝑡−1 + u𝑡
Như vậy, các giả thuyết trên có thể được viết lại như sau:
𝐻0 : 𝛿 = 1 (Y𝑡 là chuỗi không dừng)
𝐻0 : 𝛿 < 1 (Y𝑡 là chuỗi dừng)
(2.9)
14
Dickey-Fuller cho rằng giá trị t ước lượng của hệ số Y𝑡−1 sẽ theo phân phối xác
suất 𝜏. Kiểm định thống kê 𝜏 còn được gọi là kiểm định Dickey – Fuller (DF). Kiểm
định DF được ước lượng với ba hình thức:
− Khi Y𝑡 là một bước ngẫu nhiên không có hằng số.
∆Y𝑡 = 𝛿Y𝑡−1 + u𝑡
(2.10)
− Khi Y𝑡 là một bước ngẫu nhiên có hằng số.
∆Y𝑡 = 𝛽1 + 𝛿Y𝑡−1 + u𝑡
(2.11)
− Khi Y𝑡 là một bước ngẫu nhiên với hằng số xoay quanh một đường xu thế
ngẫu nhiên.
∆Y𝑡 = 𝛽1 + 𝛽2 𝑇𝐼𝑀𝐸 + 𝛿Y𝑡−1 + u𝑡
(2.12)
Tuy nhiên do có thể hiện tượng tương quan chuỗi giữa các u𝑡 do thiếu biến, nên
người ta thường sử dụng kiểm định DF mở rộng là ADF (Augmented Dickey Fuller
Test – ADF). Kiểm định này được thực hiện bằng cách đưa thêm vào phương trình
(2.12) các biến trễ của sai phân biến phụ thuộc ∆Y𝑡 và được trình bày thành phương
trình (2.13)
∆Y𝑡 = 𝛽1 + 𝛽2 𝑇𝐼𝑀𝐸 + 𝛿Y𝑡−1 + α𝑖 ∑ ∆Y𝑡−𝑖 + 𝜀𝑡
(2.13)
2.2.2 Quá trình tự hồi quy AR
Quá trình tự hồi quy AR (Autoregressive – AR) bậc p có dạng như sau:
𝑌𝑡 = 𝜃 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 +. . . + 𝜙𝑝 𝑌𝑡−𝑝 + 𝑢𝑡
(2.14)
trong đó 𝑢𝑡 là nhiễu trắng.
Điều kiện để quá trình AR(p) dừng là nghiệm của phương trình đặc trưng nằm
trong vòng tròn đơn vị.
15
2.2.3 Quá trình trung bình trượt MA
Quá trình trung bình trượt MA (Moving average – MA) bậc q có dạng như sau:
𝑌𝑡 = 𝑢𝑡 + 𝜃1 𝑢𝑡−1 + 𝜃2 𝑢𝑡−2 + . . . + 𝜃𝑞 𝑢𝑡−𝑞
(2.15)
trong đó 𝑢𝑡 là nhiễu trắng.
Điều kiện để chuỗi khả nghịch là −1 < 𝜃𝑖 < 1, 𝑖 = 1,2, . . . , 𝑞 hay nghiệm của
phương trình đặc trưng nằm trong vòng tròn đơn vị.
2.2.4 Quá trình trung bình trượt và tự hồi quy ARMA
Cơ chế để sản sinh ra Y không chỉ là AR hay MA mà còn có thể kết hợp cả hai
yếu tố này. Khi kết hợp cả hai yếu tố, mô hình được gọi là mô hình trung bình trượt
tự hồi quy ARMA. Yt là quá trình ARMA(1,1) nếu Y có thể biểu diễn dưới dạng:
𝑌𝑡 = 𝜃 + 𝜙1 𝑌𝑡−1 + 𝜃0 𝑢𝑡 + 𝜃1 𝑢𝑡−1
(2.16)
trong đó 𝑢𝑡 là nhiễu trắng.
Tổng quát, Yt là quá trình ARMA(p,q) nếu Y có thể biểu diễn dưới dạng:
𝑌𝑡 = 𝜃 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜃0 𝑢𝑡 + 𝜃1 𝑢𝑡−1 + . . . + 𝜃𝑞 𝑢𝑡−𝑞 (2.17)
2.2.5 Quá trình trung bình trượt, tích hợp tự hồi quy ARIMA
Một chuỗi thời gian có thể dừng hoặc không dừng. Chuỗi không dừng được gọi
là tích hợp bậc 1, được ký hiệu là I(1), nếu sai phân bậc nhất là chuỗi dừng. Chuỗi
được gọi là tích hợp bậc d, nếu sai phân bậc d là một chuỗi dừng, ký hiệu là I(d). Nếu
d = 0 thì chuỗi xuất phát là chuỗi dừng.
Nếu chuỗi 𝑌𝑡 tích hợp bậc d, áp dụng mô hình ARMA(p,q) cho chuỗi sai phân
bậc d thì có quá trình ARIMA(p,d,q). Trong ARIMA(p,d,q), d là số phần lấy sai phân
chuỗi 𝑌𝑡 để được một chuỗi dừng, p là bậc tự hồi quy, q là bậc trung bình trượt. p và
q là bậc tương ứng của chuỗi dừng.
16
AR(p) là trường hợp đặc biệt của ARIMA(p,d,q) khi d = 0 và q = 0. MA(q) là
trường hợp đặc biệt của ARIMA(p,d,q) khi d = 0 và p = 0.
ARIMA(2,1,2) – nghĩa là chuỗi 𝑌𝑡 có sai phân bậc 1 là chuỗi dừng, chuỗi sai
phân dừng này có thể biểu diễn dưới dạng ARMA(2,2)
∆𝑌𝑡 = 𝜃 + 𝜙1 ∆𝑌𝑡−1 + 𝜙2 ∆𝑌𝑡−2 + 𝜃0 𝑢𝑡 + 𝜃1 𝑢𝑡−1 + 𝜃2 𝑢𝑡−2
(2.18)
Như vậy nếu biết các tham số p,d,q khi đó ta có thể mô hình hoá được chuỗi.
Vấn đề đặt ra là xác định d,q,p và các tham số 𝜃, 𝜙.
2.2.6 Định dạng mô hình – xác định các tham số p,d,q
Để tìm được d, phải dùng điểm định nghiệm đơn vị ADF. Nếu chuỗi ban đầu
không dừng, khi đó ta tính sai phân cấp 1. Tiếp tục kiểm định tính dừng. Từ chuỗi
dừng nhận được, ta phải tìm các giá trị p và q, hay nói cách khác phải định dạng mô
hình ARMA cho chuỗi dừng. Có rất nhiều phương pháp để tìm được p và q. Nghiên
cứu này sử dụng phương pháp dựa vào lược đồ tương quan và tự tương quan và tiêu
chuẩn Akaike, Schwarz.
2.2.6.1 Lược đồ tương quan và tự tương quan
Lược đồ vẽ hàm tự tương quan (ACF) và hàm tự tương quan riêng (PACF) theo
độ dài của trễ. Dựa trên các lược đồ này ta biết được các hệ số tương quan và hệ số tự
tương quan riêng khác không với mức ý nghĩa 5%. Từ đó có thể đưa ra các đoán nhận
chuỗi dừng, các giá trị p và q của các quá trình AR(p) và MA(q).
Do 𝜌𝑘𝑘 đo mức độ kết hợp giữa 𝑌𝑡 và 𝑌𝑡−𝑘 sau khi đã loại bỏ ảnh hưởng của
𝑌𝑡−1 , … , 𝑌𝑡−𝑘+1 do đó nếu 𝜌𝑘𝑘 = 0 với k > p và 𝜌𝑖 , i =1,2,… , giảm theo hàm mũ hoặc
theo hình sin thì ta có quá trình AR(p).
Nếu các 𝜌𝑖𝑖 , 𝑖 = 1,2, …, giảm dần theo mũ hoặc hình sin, 𝜌𝑞 ≠ 0, 𝜌𝑘 = 0 với
k>q, thì có quá trình MA(q).