Tải bản đầy đủ (.pdf) (80 trang)

dự báo sản lượng và diện tích trồng lúa nước ta

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 80 trang )

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HOC TỰ NHIÊN
BỘ MÔN TOÁN
----  ----

LUẬN VĂN TỐT NGHIỆP

DỰ BÁO SẢN LƯỢNG VÀ DIỆN TÍCH
TRỒNG LÚA NƯỚC TA

Giảng viên hướng dẫn

Sinh viên thực hiện

TS. Võ Văn Tài

Nguyễn Ngọc Trinh

Bộ môn Toán – Khoa KHTN

MSSV: 1110182
Lớp: Toán Ứng Dụng K37

Cần Thơ, năm 2014


LỜI CẢM ƠN
---------Luận văn là bảng tổng hợp các kết quả thu được trong quá trình nghiên
cứu lý thuyết. Tuy nhiên để có được như vậy không phải là của cá nhân em.
Sự thành công của luận văn là kết quả của quá trình học đại học, của sự dạy dỗ
và dìu dắt của các Thầy, Cô trong bộ môn Toán Khoa Khoa học Tự nhiên của


Trường Đại Học Cần Thơ, sự giúp đỡ của bạn bè, của gia đình.
Trước hết, em xin gửi lời biết ơn sâu sắc đến TS. Võ Văn Tài, Thầy đã
dành rất nhiều thời gian chỉ bảo, động viên, truyền đạt những tri thức quý báu
và tận tình hướng dẫn cho em trong suốt quá trình làm luận văn.
Em xin chân thành gửi lời cảm ơn đến quý Thầy, quý Cô trong khoa
Khoa học Tự nhiên trường Đại học Cần Thơ đã tận tâm truyền dạy các kiến
thức cho em trong thời gian học tại trường.
Em xin cảm ơn cô cố vấn Lê Thị Mỹ Xuân đã động viên và giúp đỡ em
trong suốt quá trình học tập của mình. Xin cảm ơn các anh, chị đã đi trước,
cùng các bạn đã luôn sát cánh, ủng hộ và giúp đỡ tôi trong quá trình học tập
cũng như thời gian làm luận văn.
Em xin gửi lời cảm ơn chân thành và sâu sắc đến Gia đình em, đã luôn
giúp đỡ động viên và tạo điều kiện thuận lợi cho em trong thời gian qua.
Mặc dù, em đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và
năng lực của mình, tuy nhiên luận văn không thể tránh khỏi những thiếu sót.
Em rất mong nhận được những đóng góp quý báu của quý Thầy, Cô và các
bạn để luận văn được hoàn thiện.
Cần Thơ, ngày……tháng…….năm

NGUYỄN NGỌC TRINH

i


MỤC LỤC
LỜI CẢM ƠN ..................................................................................................... i
MỤC LỤC ......................................................................................................... ii
DANH MỤC BẢNG ......................................................................................... 1
DANH MỤC HÌNH, ĐỒ THỊ ........................................................................... 2
PHẦN MỞ ĐẦU ............................................................................................... 4

1. LÝ DO CHỌN ĐỀ TÀI ........................................................................... 4
2. MỤC ĐÍCH NGHIÊN CỨU .................................................................... 4
3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ......................................... 4
4. PHƯƠNG PHÁP NGHIÊN CỨU............................................................ 5
5. CẤU TRÚC LUẬN VĂN ........................................................................ 5
Chương 1: MÔ HÌNH CHUỖI THỜI GIAN .................................................... 6
1.1 KHÁI QUÁT VỀ CHUỖI THỜI GIAN ................................................ 6
1.1.1 Khái niệm về chuỗi thời gian ...................................................... 6
1.1.2 Độ trễ .......................................................................................... 8
1.1.3 Ồn trắng ...................................................................................... 8
1.2 MỘT SỐ VẤN ĐỀ QUAN TRỌNG TRONG MÔ HÌNH CHUỖI
THỜI GIAN ....................................................................................................... 8
1.2.1 Quá trình dừng ............................................................................ 8
1.2.2 Toán tử lùi và toán tử tiến ......................................................... 11
1.2.3 Hàm tự tương quan riêng .......................................................... 11
1.3 MỘT SỐ MÔ HÌNH DỰ BÁO THEO DÃY SỐ THỜI GIAN ........... 13
1.3.1 Mô hình tự hồi quy (AR) .......................................................... 13
1.3.2 Mô hình trung bình trượt (MA) ................................................ 15
1.3.3 Mô hình tự hồi quy trung bình trượt (ARMA) ......................... 15
1.3.4 Mô hình hợp nhất tự hồi quy trung bình trượt (ARIMA) ......... 16
1.4 TIÊU CHUẨN ĐÁNH GIÁ MÔ HÌNH DỰ BÁO CHUỖI THỜI
GIAN ............................................................................................................... 20
ii


1.4.1 Tiêu chuẩn Akaike Information Criterion (AIC) ...................... 20
1.4.2 Tiêu chuẩn Schwarz Information Criterion (SIC) .................... 21
1.4.3 Một số tiêu chuẩn đánh giá khác .............................................. 21
Chương 2: CÁC PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU BAN ĐẦU TRONG DỰ
BÁO ................................................................................................................. 23

2.1 GIỚI THIỆU ........................................................................................ 23
2.2 CÁC PHƯƠNG PHÁP LÀM TRƠN SỐ LIỆU .................................. 24
2.3 PHƯƠNG PHÁP MỜ HÓA SỐ LIỆU ............................................... 28
Chương 3: DỰ BÁO SẢN LƯỢNG LÚA CỦA NƯỚC TA .......................... 35
3.1 TỔNG QUAN VỀ SẢN LƯỢNG LÚA NƯỚC TA ........................... 35
3.2 TỔNG QUAN VẤN ĐỀ THỰC HIỆN ............................................... 35
3.2.1 Tình hình và ý nghĩa của việc dự báo sản lượng lúa ................ 35
3.2.2 Mục tiêu thực hiện .................................................................... 36
3.2.3 Nguồn số liệu ........................................................................... 37
3.3 DỰ BÁO SẢN LƯỢNG LÚA CỦA CẢ NƯỚC BẰNG CHUỖI THỜI
GIAN ............................................................................................................... 37
3.3.1 Dự báo từ số liệu gốc ................................................................ 37
3.3.2 Dự báo từ số liệu làm trơn ........................................................ 41
3.3.3 Dự báo từ số liệu mờ hóa .......................................................... 44
3.3.4 Dự báo bằng chuỗi thời gian mờ Abbasov-Mamedova ............ 47
3.3.5 Tổng hợp các mô hình dự báo .................................................. 52
Chương 4: DỰ BÁO DIỆN TÍCH TRỒNG LÚA CỦA NƯỚC TA .............. 55
4.1 TỔNG QUAN VỀ DIỆN TÍCH TRỒNG LÚA NƯỚC TA ................ 55
4.2 TỔNG QUAN VẤN DỀ THỰC HIỆN ............................................... 55
4.2.1 Tình hình và ý nghĩa của việc dự báo diện tích trồng lúa......... 55
4.2.2 Mục tiêu việc thực hiện ............................................................ 56
4.2.3 Nguồn số liệu ............................................................................ 57
4.3 DỰ BÁO DIỆN TÍCH TRỒNG LÚA CẢ NƯỚC BẰNG CHUỖI
THỜI GIAN ..................................................................................................... 57
iii


4.3.1 Dự báo từ số liệu gốc ................................................................ 57
4.3.2 Dự báo từ số liệu làm trơn ........................................................ 61
4.3.3 Dự báo từ số liệu mờ hóa .......................................................... 64

4.3.4 Dự báo bằng chuỗi thời gian mờ Abbasov-Mamedova ............ 66
4.3.5 Tổng hợp các mô hình dự báo .................................................. 72
KẾT LUẬN ..................................................................................................... 74
TÀI LIỆU THAM KHẢO ............................................................................... 75

iv


DANH MỤC BẢNG
Bảng 3.1. Thống kê sản lượng lúa cả nước từ năm 1995-2011 ....................... 37
Bảng 3.2. Bảng dự báo sản lượng lúa giai đoạn 2012-2020 bằng mô hình chuỗi
thời gian ........................................................................................................... 41
Bảng 3.3. Số liệu làm trơn và chỉ số ME của các phương pháp ...................... 42
Bảng 3.4. Bảng đánh giá các mô hình ARIMA từ số liệu làm trơn .................. 43
Bảng 3.5. Số liệu mờ hóa và chỉ số ME của các mô hình ............................... 44
Bảng 3.6. Bảng đánh giá các mô hình ARIMA từ số liệu mờ hóa ................... 46
Bảng 3.7. Sự thay đổi và mờ hóa các biến sản lượng lúa giai đoạn 1995-2011
......................................................................................................................... 48
Bảng 3.8. Kết quả mờ hóa sản lượng lúa cả nước giai đoạn 2003-2011 ......... 50
Bảng 3.9. Kết quả dự báo sản lượng lúa bằng mô hình Abbasov- Mamedova
giai đoạn 2012-2020 ........................................................................................ 51
Bảng 3.10. Các mô hình dự báo sản lượng lúa và chỉ số AIC ........................ 52
Bảng 3.11. Với các mô hình này ta có các dự báo đến năm 2020 như sau ..... 53
Bảng 4.1. Thống kê diện tích trồng lúa cả nước từ năm 1995-2011 ............... 57
Bảng 4.2. Bảng dự báo diện tích trồng lúa giai đoạn 2012-2020 .................... 61
Bảng 4.3. Số liệu làm trơn và chỉ số ME của các phương pháp ...................... 62
Bảng 4.4. Bảng đánh giá các mô hình ARIMA từ số liệu làm trơn .................. 63
Bảng 4.5. Số liệu mờ hóa và chỉ số ME của các mô hình ............................... 64
Bảng 4.6. Bảng đánh giá các mô hình ARIMA từ số liệu mờ hóa ................... 66
Bảng 4.7. Sự thay đổi và mờ hóa các biến diện tích lúa giai đoạn 1995-2011 ...

......................................................................................................................... 68
Bảng 4.8. Kết quả mờ hóa diện tích trồng lúa cả nước giai đoạn 2003-2011 .....
......................................................................................................................... 70
Bảng 4.9. Kết quả dự báo diện tích trồng lúa bằng mô hình AbbasovMamedova giai đoạn 2012-2020 ..................................................................... 71
Bảng 4.10. Các mô hình dự báo diện tích trồng lúa và chỉ số AIC ................ 72
Bảng 4.11. Với các mô hình này ta có các dự báo đến năm 2020 như sau ..... 72
1


DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 3.1. Biểu đồ thể hiện sự tăng trưởng sản lượng lúa qua các năm ............37
Hình 3.2. Đồ thị chuỗi dữ liệu sản lượng lúa nước ta năm 1995-2011 ........... 38
Hình 3.3. Đồ thị hàm tự tương quan ACF của số liệu ban đầu ........................38
Hình 3.4. Sai phân bậc 1 của sản lượng lúa từ năm 1995-2011 .......................38
Hình 3.5. Sai phân bậc 2 của sản lượng lúa từ năm 1995-2011 .......................38
Hình 3.6. Hàm ACF của sai phân bậc 2 (d=2) của sản lượng lúa ................... 39
Hình 3.7. Hàm PACF của sai phân bậc 2 (d=2) của sản lượng lúa ................. 39
Hình 3.8. Đồ thị các giá trị kiểm định cho mô hình ARIMA(0,2,1) của dữ liệu
sản lượng lúa .................................................................................................... 40
Hình 3.9. Đồ thị thể hiện sản lượng lúa dự báo của nước ta ............................41
Hình 3.10 Giá trị thực và giá trị dự báo của phép làm trơn số liệu ..................42
Hình 3.11. Sai phân bậc 3 của sản lượng lúa từ năm 1997-2009 .....................43
Hình 3.12. Hàm ACF của sai phân bậc 3 (d=3) của sản lượng lúa ..................43
Hình 3.13. Hàm PACF của sai phân bậc 3 (d=3) của sản lượng lúa ................43
Hình 3.14. Đồ thị các giá trị kiểm định cho mô hình ARIMA(0,3,2) của dữ
liệu sản lượng lúa ..............................................................................................44
Hình 3.15 Giá trị thực và giá trị dự báo của mô hình mờ .................................45
Hình 3.16. Sai phân bậc 3 của sản lượng lúa từ năm 1995-2011 .....................45
Hình 3.17. Hàm ACF của sai phân bậc 3 (d=3) của sản lượng lúa ..................46
Hình 3.18. Hàm PACF của sai phân bậc 3 (d=3) của sản lượng lúa ................46

Hình 3.19. Đồ thị các giá trị kiểm định cho mô hình ARIMA(1,3,4) của dữ
liệu sản lượng lúa ..............................................................................................47
Hình 3.20. Chức năng liên đới các tập giá trị mờ của biến thể ngôn ngữ “biến
đổi sản lượng lúa cao nhất” ..............................................................................49
Hình 3.21. Đồ thị sản lượng lúa của giá trị thực tế và dự báo bằng mô hình
Abbasov-Mamedova giai đoạn 2003-2020.......................................................52
Hình 3.22. Tổng hợp các mô hình dự báo sản lượng lúa .................................53
Hình 4.1. Biểu đồ thể hiện sự thay đổi diện tích trồng lúa qua các năm ..........57
2


Hình 4.2. Đồ thị chuỗi dữ liệu diện tích trồng lúa năm 1995-2011 .................58
Hình 4.3. Đồ thị hàm tự tương quan ACF của số liệu ban đầu ........................58
Hình 4.4. Sai phân bậc 1 của diện tích trồng lúa từ năm 1995-2011 ...............58
Hình 4.5. Sai phân bậc 2 của diện tích trồng lúa từ năm 1995-2011 ...............58
Hình 4.6. Sai phân bậc 3 của diện tích trồng lúa từ năm 1995-2011 ...............59
Hình 4.7. Hàm ACF của sai phân bậc 3 (d=3) của diện tích trồng lúa ............59
Hình 4.8. Hàm PACF của sai phân bậc 3 (d=3) của diện tích trồng lúa ..........59
Hình 4.9. Đồ thị các giá trị kiểm định cho mô hình ARIMA(1,3,1) của dữ liệu
diện tích trồng lúa .............................................................................................60
Hình 4.10. Đồ thị thể hiện diện tích trồng lúa dự báo của nước ta ...................61
Hình 4.11. Giá trị thực và giá trị dự báo của phép làm trơn .............................62
Hình 4.12. Sai phân bậc 3 của diện tích trồng lúa từ năm 1997-2009 .............63
Hình 4.13. Hàm ACF của sai phân bậc 3 (d=3) của diện tích trồng lúa ..........63
Hình 4.14. Hàm PACF của sai phân bậc 3 (d=3) của diện tích trồng lúa ....... 63
Hình 4.15. Đồ thị các giá trị kiểm định cho mô hình ARIMA(1,3,0) của dữ
liệu diện tích trồng lúa ......................................................................................64
Hình 4.16. Giá trị thực và giá trị dự báo của mô hình mờ................................65
Hình 4.17. Sai phân bậc 3 của diện tích trồng lúa từ năm 1997-2011 .............65
Hình 4.18. Hàm ACF của sai phân bậc 3 (d=3) của diện tích trồng lúa .........65

Hình 4.19. Hàm PACF của sai phân bậc 3 (d=3) của diện tích trồng lúa .......66
Hình 4.20. Đồ thị các giá trị kiểm định cho mô hình ARIMA(1,3,2) của dữ
liệu diện tích trồng lúa ......................................................................................66
Hình 4.21. Chức năng liên đới các tập giá trị mờ của biến thể ngôn ngữ “biến
đổi diện tích trồng lúa cao nhất” .......................................................................69
Hình 4.22. Đồ thị diện tích trồng lúa của giá trị thực tế và dự báo bằng mô
hình Abbasov-Mamedova giai đoạn 2003-2020 ..............................................71
Hình 4.23. Tổng hợp các mô hình dự báo diện tích trồng lúa ..........................73

3


PHẦN MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Trong thống kê, hai mô hình được sử dụng để dự báo số liệu theo thời
gian là mô hình hồi quy và mô hình chuỗi thời gian. Trong hai mô hình này,
chuỗi thời gian được xem có nhiều ưu điểm hơn. Chuỗi thời gian đang được
sử dụng phổ biến và hiệu quả trong nghiên cứu khoa học bởi vì rất nhiều số
liệu cần dự báo được thu thập theo thời gian. Các mô hình chuỗi thời gian như
tự hồi qui (AR), trung bình trượt (MA), tự hồi qui trung bình trượt (ARMA),
tự hồi qui tích hợp trung bình trượt (ARIMA),… đã được áp dụng rất phổ biến
trong các dự báo của kinh tế xã hội,… Tuy nhiên dự báo bằng mô hình chuỗi
thời gian sẽ không có hiệu quả nếu chuỗi dữ liệu không dừng và không tuyến
tính. Với sự kết hợp của lý thuyết tập mờ, những số liệu thu được của quá khứ
có sự liên kết xác suất theo một quy tắc nhất định. Chuỗi thời gian mờ tận
dụng sự liên kết số liệu này đã được chứng minh có nhiều ưu việt hơn trong dự
báo so với chuỗi thời gian không mờ. Nhiều mô hình chuỗi thời gian mờ đã
được đề nghị như mô hình của Heuristic, Chen, Chen và Hsu, Singh,… Theo
tìm hiểu của chúng tôi, chuỗi thời gian mờ chưa được quan tâm đúng mức ở
nước ta nên những dự báo cụ thể trong các lĩnh vực chưa được xem xét nhiều.

Là sinh viên ngành Toán ứng dụng, được trang bị các kiến thức liên
quan đến dự báo, em muốn sử dụng các kiến thức đã được trang bị để dự báo
đến hai số liệu quan trọng liên quan đến nông nghiệp nước nhà. Chính vì vậy
em chọn đề tài “Dự báo sản lượng và diện tích trồng lúa nước ta giai đoạn
1995-2011”.
2. MỤC ĐÍCH NGHIÊN CỨU
Tổng kết lý thuyết về mô hình chuỗi thời gian và các vấn đề liên quan,
từ đó tìm mô hình tối ưu trong dự báo sản lượng và diện tích trồng lúa nước ta,
tiến hành dự báo hai đại lượng trên đến năm 2020.
3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

 Đối tượng nghiên cứu: Các mô hình dự báo chuỗi thời gian và các
phương pháp xử lý số liệu ban đầu.

 Phạm vi nghiên cứu: Sản lượng lúa và diện tích trồng lúa cả nước giai
đoạn 1995-2011.

4


4. PHƯƠNG PHÁP NGHIÊN CỨU
- Phân tích, tổng hợp tài liệu, trình bày các vấn đề một cách rõ ràng, logic.
- Sử dụng số liệu thực để áp dụng cho các lý thuyết đã trình bày.
- Sử dụng phần mềm thống kê R để phân tích và xử lý.
5. CẤU TRÚC LUẬN VĂN
Luận văn gồm có phần mở đầu, nội dung và kết luận, trong đó phần nội
dung gồm có 4 chương:
Chương 1: Mô hình chuỗi thời gian
Chương này trình bày tổng quan về chuỗi thời gian, các mô hình dự báo
bằng chuỗi thời gian và tiêu chuẩn đánh giá để lựa chọn mô hình phù hợp.

Chương 2: Các phương pháp xử lý số liệu ban đầu trong dự báo
Chương này trình bày các phương pháp làm trơn, mờ hóa số liệu ban đầu
để dự báo được tốt hơn.
Chương 3: Dự báo sản lượng lúa cả nước
Phân tích số liệu, tìm kiếm các mô hình chuỗi thời gian từ số liệu thực
đã có. Sử dụng các tiêu chuẩn đánh giá để lựa chọn mô hình phù hợp nhất, từ
đó dự báo sản lượng lúa đến năm 2020.
Chương 4: Dự báo diện tích trồng lúa cả nước
Phân tích số liệu, tìm kiếm các mô hình chuỗi thời gian từ số liệu thực
đã có. Sử dụng các tiêu chuẩn đánh giá để lựa chọn mô hình phù hợp nhất, từ
đó dự báo diện tích trồng lúa đến năm 2020.

5


Chương 1

MÔ HÌNH CHUỖI THỜI GIAN
Dự báo có vai trò rất quan trọng trong các lĩnh vực kinh tế, y học, cũng
như trong các vấn đề xã hội khác. Dự báo được ứng dụng rất nhiều trong thực
tế, nên việc xây dựng các mô hình để dự báo là rất quan trọng. Hiện tại có rất
nhiều mô hình dự báo được đưa ra nhằm đáp ứng những nhu cầu khác nhau
của thực tế. Trong các mô hình dự báo, mô hình chuỗi thời gian được sử dụng
rộng rãi hiện nay. Chuỗi thời gian đang được sử dụng như một công cụ hữu
hiệu để phân tích trong kinh tế, xã hội cũng như trong nghiên cứu khoa học.
Một số mô hình dự báo cụ thể tiêu biểu của chuỗi thời gian là AR, MA, ARMA,
ARIMA.
1.1 KHÁI QUÁT VỀ CHUỖI THỜI GIAN
1.1.1 Khái niệm về chuỗi thời gian
Chuỗi thời gian là một dãy các giá trị quan sát được xếp theo thứ tự diễn

biến thời gian. Một chuỗi thời gian X có dạng X={X1,X2,…,Xn}, trong đó X t là
giá trị quan sát của X ở thời điểm t (t= 1, n ).
Một chuỗi thời gian chứa một vài hoặc tất cả các thành phần: Thành
phần xu hướng, thành phần mùa, thành phần chu kỳ và thành phần bất thường.
Thành phần xu hướng (T t ) là thành phần thể hiện xu hướng tăng giảm
của đại lượng X trong một khoảng thời gian dài. Nếu chuỗi thời gian không có
thành phần này thì đó là chuỗi thời gian có hiện tượng dừng. Về mặt đồ thị,
thành phần này có thể diễn tả một đường thẳng hay một đường cong. Nếu một
chuỗi thời gian có yếu tố xu hướng, thì các giá trị liên tiếp của nó có mối quan
hệ với nhau khá có ý nghĩa. Các hệ số tự tương quan của các độ trễ đầu tiên rất
lớn và sẽ giảm dần về 0 khi các độ trễ tăng lên. Một chuỗi có yếu tố xu hướng
được gọi là chuỗi không dừng. Thông thường khi phân tích các chuỗi không
dừng, chúng ta cần loại bỏ yếu tố xu hướng trước khi xây dựng mô hình dự
báo.
Có nhiều cách loại bỏ yếu tố xu hướng trong chuỗi thời gian, nhưng
thường nhất là lấy sai phân.
Giả sử ta có chuỗi dữ liệu Xt, thì sai phân Xt sẽ được định nghĩa như sau:
- Sai phân bậc 1: xt  xt  xt 1 .
6


- Sai phân bậc 2: 2 xt  xt  xt 1 .
- Sai phân bậc k: k xt  k 1 xt  k 1 xt 1 .
- Sai phân bậc 1 với độ trễ theo quý: xt  xt  xt 4 .
- Sai phân bậc 1 với độ trễ theo tháng: xt  xt  xt 12 .
Thành phần mùa (S t ) là thành phần thể hiện sự thay đổi của đại lượng
X theo các mùa trong năm (cũng có thể theo các tháng trong năm). Hay nói
cách khác, nếu một chuỗi có yếu tố mùa thì dạng dữ liệu của nó sẽ được lặp đi
lặp lại qua một khoảng thời gian nhất định (thường là một năm). Những yếu tố
ảnh hưởng đến hiện tượng mùa như thị hiếu khách hàng, mùa vụ, thời tiết…

Các quan sát trong các “mùa” giống nhau (ví dụ quý I năm 2010 và quý I năm
2011) có xu hướng tương quan với nhau. Nếu dữ liệu là theo quý, thì quý I
trông có vẻ giống nhau, quý II trông có vẻ giống nhau… Khi đó, các hệ số tự
tương quan với độ trễ k = 4 có ý nghĩa thống kê. Tương tự, nếu dữ liệu là theo
tháng thì khi đó các hệ số tương quan với độ trễ là k = 12 có ý nghĩa thống kê.
Chúng ta nên lưu ý thành phần theo mùa.
Thành phần chu kỳ (C t ) là thành phần thể hiện sự thay đổi giá trị của
đại lượng X theo chu kỳ. Sự khác biệt của thành phần này so với thành phần
mùa là chu kỳ của nó dài hơn một năm. Để đánh giá thành phần chu kỳ các giá
trị của chuỗi thời gian sẽ được quan sát hàng năm.
Thành phần bất thường (I t ) là thành phần thể hiện những sự thay đổi
bất thường của các giá trị của đại lượng X nhưng không xác định được chiều
hướng của nó. Sự thay đổi này không thể dự đoán bằng các số liệu kinh
nghiệm trong quá khứ. Ví dụ như những biến cố về chính trị, khí hậu, an
ninh,… sẽ ảnh hưởng đến chứng khoán. Bản chất của thành phần này là không
có chu kỳ.
Các thành phần của chuỗi thời gian có thể được kết hợp theo nhiều cách
khác nhau. Hai mô hình phổ biến là mô hình cộng và mô hình nhân:
Mô hình cộng có dạng: X t =T t +S t +C t +I t
Trong đó
X t là các giá trị của đại lượng X ở thời điểm t,
T t ,S t ,C t ,I t là các thành phần xu hướng, thành phần mùa, thành phần chu
kỳ và thành phần bất thường ở thời điểm t.
7


Nếu dữ liệu không chứa một trong số các thành phần trên thì giá trị của
đại lượng tương ứng của thành phần đó là 0 .
Mô hình nhân có dạng: X t =T t .S t .C t .I t
Nếu dữ liệu không chứa một trong số các thành phần trên thì giá trị của

đại lượng tương ứng của thành phần đó là 1 .
Trong nhiều trường hợp, để dự báo giá trị của đại lượng X, ta có thể kết
hợp cả hai mô hình trên.
1.1.2 Độ trễ
Trong phân tích chuỗi thời gian, chúng ta thường gặp hiện tượng biến
phụ thuộc ở thời điểm t phụ thuộc vào chính biến đó ở thời điểm t-1 và các
biến khác, hay nói một cách dễ hiểu biến của ngày hôm nay phụ thuộc vào
chính biến đó của ngày hôm qua.
Chẳng hạn khi nghiên cứu mối quan hệ giữa tiêu dùng và thu nhập,
chúng ta thấy rằng tiêu dùng ở thời điểm hiện tại chẳng những phụ thuộc vào
thu nhập mà còn phụ thuộc vào tiêu dùng ở thời điểm trước đó.
1.1.3 Ồn trắng
Quá trình ngẫu nhiên { t , t  } được gọi là ồn trắng nếu thỏa mãn 3
điều kiện sau:
i ) E   t   0,
ii )Var   t    2 ,
iii ) E   t  s   0 (t  s ).

Nói một cách khác, dãy  t , t Z là dãy các biến ngẫu nhiên độc lập có
kỳ vọng 0 và phương sai  2 không đổi được gọi là ồn trắng (hay còn được
gọi là một nhiễu trắng, hoặc ngẫu nhiên trắng).
1.2 MỘT SỐ VẤN ĐỀ QUAN TRỌNG TRONG MÔ HÌNH CHUỖI
THỜI GIAN
1.2.1 Quá trình dừng
Quá trình dừng đóng vai trò quan trọng trong nghiên cứu chuỗi thời
gian. Đây là quá trình nền tảng của các quá trình ARMA được xem xét ở phần
sau.

8



a) Hàm tự hiệp phương sai
Cho quá trình  X t , t  Z  với Var  X t   , t  Z . Hàm tự hiệp phương
sai  x (.,.) của X t được định nghĩa bởi:
 x  r , s   cov  X r , X s   E  X r  EX r  X s  EX s  ; r , s  Z .

b) Quá trình dừng

 Quá trình dừng mạnh
Chuỗi thời gian

 X t , t  

được gọi là dừng mạnh (hay dừng nghiêm

ngặt) nếu  X t , X t ,..., X t    X t h , X t h ,..., X t
d

1

2

k

1

2

k


h

 với t , t ,..., t , h  Z .
1

2

k

d

Trong đó “  ” kí hiệu cho bằng trong phân bố.
Một cách trực quan, quá trình dừng mạnh có nghĩa là quá trình đạt đến
một loại cân bằng thống kê và phân bố của quá trình không thay đổi nhiều.

 Quá trình dừng yếu
Chuỗi thời gian  X t , t   được gọi là dừng yếu hay dừng cấp hai nếu
thỏa 3 điều kiện sau đây:
i) E  X t    , t  Z ,
ii) E X t    , t  Z (tức là VarX t   x2 không đổi),
2

iii)  x (r, s)   x (r  t , s  t ) với mọi t, r, s  Z.
Về bản chất, quá trình dừng yếu là một quá trình có kì vọng, phương sai
là hằng số (không phụ thuộc vào thời điểm khảo sát) và có tự hiệp phương sai
không phụ thuộc vào thời điểm quan sát mà phụ thuộc vào khoảng cách giữa
hai thời điểm khảo sát.

 Chú ý:
- Quá trình dừng mạnh thì dừng yếu, nhưng ngược lại thì không đúng

ngoại trừ trường hợp của phân bố chuẩn.
- Trong luận văn này, nếu không nói gì thêm thì ta hiểu khái niệm dừng
được hiểu là dừng yếu.
c) Tính dừng
Một khái niệm quan trọng trong các quá trình phân tích chuỗi thời gian
là tính dừng. Nếu một dãy số liệu theo thời gian có giá trị trung bình và
9


phương sai không đổi theo thời gian thì dãy số được xem như có tính dừng
hay còn gọi là ổn định. Trong trường hợp ngược lại, ta nói dãy số liệu đó
không có tính dừng. Xét dãy số Xt , về mặt toán học, một dãy số liệu có tính
dừng phải thỏa mãn các điều kiện sau:
- E ( X t )  E ( X t m ) , với mọi t, m,
- Var  X t    , với mọi t,
- Cov( X t , X t  K )  E ( X t   )( X t  K   ) = hằng số.
Với tính chất như vậy ta có thể thấy một sai số ngẫu nhiên trắng là một
dãy số có tính dừng vì nó thỏa mãn tính chất trên.
Một dãy số thời gian có tính dừng khi nó đại diện của một quá trình
nghiên cứu ổn định. Nói một cách cụ thể hơn, đó là một dãy số không có tính
xu thế, không có tính chu kỳ.
d) Chuỗi dữ liệu dừng
Một chuỗi dữ liệu được gọi là dừng nếu nó có những đặc điểm sau:
- Thể hiện xu hướng trở lại trạng thái trung bình trong đó dữ liệu dao
động xung quanh một giá trị trung bình cố định trong dài hạn.
- Có một phương sai xác định không thay đổi theo thời gian.
- Có một giản đồ tự tương quan với các hệ số tự tương quan giảm dần khi
độ trễ tăng lên. Nghĩa là hệ số tự tương quan bậc một khác 0 một cách có ý
nghĩa thống kê, nhưng các hệ số tự tương quan bậc hai hoặc bậc ba bằng 0.
Như vậy khi quan sát giản đồ tự tương quan, ta thấy các hệ số tự tương quan

giảm xuống bằng 0 một cách rất nhanh sau 2 hoặc 3 độ trễ.
- Theo ngôn ngữ thống kê, các đặc điểm trên của một chuỗi thời gian Xt
được thể hiện như sau:
- E  X t  là một hằng số cho tất cả các thời điểm t : E  X t   .
- Var  X t  là một hằng số cho tất cả các thời điểm t : Var  X t    2 .
- Cov(Xt, Xt+k) là một hằng số cho tất cả các thời điểm t và k ở thời điểm
khác 0. Lưu ý, giá trị của hiệp phương sai giữa hai giai đoạn chỉ phụ thuộc vào
khoảng cách giữa hai giai đoạn.

 k =Cov(Xt, Xt+k)= E[(Xt -  )(Xt -  )]

10


Trong đó  k là hiệp phương sai ở độ trễ k nghĩa là hiệp phương sai giữa
các giá trị Xt và Xt+k. Tóm lại, nếu một chuỗi dừng thì giá trị trung bình,
phương sai và hiệp phương sai (ở các độ trễ khác nhau) sẽ giống nhau, điều
này có ý nghĩa là các đại lượng này không thay đổi theo thời gian.
1.2.2 Toán tử lùi và toán tử tiến
a) Định nghĩa
Toán tử lùi B liên kết với quá trình  X t , t  Z  là quá trình Yt , t  Z  sao
cho
Yt  BX t  X t 1

Nếu B là toán tử tuyến tính, khả nghịch thì toán tử nghịch đảo B1  F
gọi là toán tử tiến, được định nghĩa bởi
FX t  X t 1

b) Tính chất
Các toán tử B , F thỏa 3 điều kiện sau:

i) Bn X t  X t n ; F n X t  X t n ,


n



n



i 0

ii)   ai Bi  X t   ai X t i (tác động lên quá trình X t của một đa thức theo
 i 0

B ),
iii) Ánh xạ 1-  B là khả đảo nếu và chỉ nếu   1 .
1.2.3 Hàm tự tương quan riêng
a) Hàm tự tương quan ACF (hay SAC)
Hàm tự tương quan  k nhằm xác định sự tự tương quan của các dãy số
và chính nó tự lệch đi một chu kỳ k bất kì. Công thức xác định hàm tự tương
quan  k như sau:

 X
n

k 

t  k 1


t

X

 X

 X
n

i 1

t

t k

X

 X t k





Với X giá trị trung bình của chuỗi trên n chu kỳ.
Mục đích của phân tích hàm tự tương quan nhằm xác định khả năng có
tính tự tương quan trong dãy số khảo sát (thường là dãy sai số) hay không. Khi
11



chúng ta phân tích hàm tự tương quan của một dãy số thời gian, một câu hỏi
luôn luôn đặt ra là các hệ số  k nào khác 0. Thật vậy, nếu hoàn toàn không có
giá trị nào của  k khác 0 ta nói quá trình này là một nhiễu trắng, nó hoàn toàn
không có xu thế cũng như không có tính chu kỳ.
► Nhận xét: Dựa vào đồ thị ACF (hay SAC), chúng ta có thể kiểm tra được
tính dừng của chuỗi dữ liệu.
Tuy nhiên khi kiểm định trên dữ liệu thì dựa vào đồ thị ACF khó đảm
bảo nên để xem dãy giá trị sai số có phải là một sai số ngẫu nhiên trắng hay
không, ta kiểm định xem tất cả các giá trị  k có bằng 0 hay không.
H 0 : k  0
H1 :  k  0

Trong thực hành, Quenouille đã chứng minh được rằng với một mẫu có
kích thước tương đối lớn, hệ số  k tiến một cách tiệm cận về phân phối chuẩn
có giá trị trung bình bằng 0 và độ lệch chuẩn là

1
.
n

Khoảng tin cậy của hệ số  k như sau:
  0  t .
2

1
1
 0  1.96.
(n là số lượng quan sát).
n
n


Nếu hệ số  k nằm ngoài khoảng tin cậy thì ta bác bỏ giả thuyết H0 (dãy
giá trị sai số không phải là một sai số ngẫu nhiên trắng).
b) Hàm tự tương quan riêng PACF (hay SPAC)
Xét quá trình dừng {X t , t Z} có kỳ vọng 0. Trong trường hợp tổng quát
nhất, X 1 tương quan với X n1 thông qua {X 2 ,..., X n } .
Mối tương quan trực tiếp (nếu có) giữa X 1 và X n1 mà không qua các
biến ngẫu nhiên trung gian X 2 ,..., X n gọi là tương quan riêng cấp n giữa X 1
và X n1 , kí hiệu  (n) .
 Định nghĩa 1: Tự tương quan riêng cấp n giữa X 1 và X n1 , kí hiệu  (n) là
tương quan giữa X 1  Xˆ 1 và X n1  Xˆ n1 , tức là

 (n)  corr(X 1  Xˆ 1 , X n1  Xˆ n1 ) 

cov(X 1  Xˆ 1 , X n1  Xˆ n1 )
.
ˆ
ˆ
var( X 1  X 1 ). var( X n1  X n1 )
12


Ta có  (1)  corr(X1 X 2 )  1 .
Trong định nghĩa trên ta chưa chú ý đến tính dừng của quá trình X t có
kỳ vọng không và có cov(X k , X l ) không phụ thuộc vào k, l mà chỉ phụ thuộc

k  l . Một cách tổng quát, ta có định nghĩa sau:
 Định nghĩa 2: Cho quá trình dừng X t , t Z , có kỳ vọng 0. Tự tương quan
riêng cấp n của quá trình X t , kí hiệu  (n) , được cho bởi


cov(X t  Xˆ t , X t n  Xˆ t n )
,
var( X t  Xˆ t ). var( X t n  Xˆ t n )

 (n)  corr(X t  Xˆ t , X t n  Xˆ t n ) 

tức là

 ( n) 

cov(X t  Xˆ t , X t n  Xˆ t n )
,
var( X t  Xˆ t )

Hay

 ( n) 

cov(X t  Xˆ t , X t n  Xˆ t n )
,
var( X t n  Xˆ t n )

trong đó Xˆ t là xấp xỉ tuyến tính của X t .
1.3 MỘT SỐ MÔ HÌNH DỰ BÁO THEO DÃY SỐ THỜI GIAN
1.3.1 Mô hình tự hồi quy (AR)
AR tự hồi quy là biến phụ thuộc được hồi quy theo các biến trễ của nó. Đơn
giản nhất là mô hình AR(1) có dạng như sau:
X t  0  1 X t 1  ut

(1.1)


Xt trong mô hình (1.1) là một quá trình tự hồi quy bậc nhất, kí hiệu là
AR(1). Ở đây, giá trị của X tại thời điểm t phụ thuộc vào chính giá trị của nó ở
thời điểm trước đó, các giá trị X này được xem như là sự chênh lệch so với giá
trị trung bình.
Để đơn giản ta không đưa vào mô hình giá trị hằng số, -1< 1 <1, và ut là
số hạng đảm bảo tính nhiễu trắng. Các giá trị về ut cũng giống như các giả
định trong các mô hình hồi quy tuyến tính cổ điển.
Hàm ý của công thức (1.1) là chuỗi thời gian Xt phần lớn được xác định
bởi giá trị trước đó của chính chuỗi thời gian đó. Ví dụ, chỉ số giá tiêu dùng
(CPI) của tháng 2 năm 2009 có thể lớn phụ thuộc vào chỉ số giá tiêu dùng của
tháng 1 năm 2009, hoặc chỉ số giá chứng khoán hôm nay có thể phụ thuộc vào
chỉ số giá của ngày hôm qua.
13


Các mô hình tự hồi quy chỉ phụ thuộc với chuỗi dừng và hệ số  0 thể
hiện mức trung bình của chuỗi. Nếu dữ liệu dao động xung quanh giá trị 0
hoặc dạng sai phân thì không cần hệ số  0 trong mô hình (1.1).
Trong phương trình X t  0  1 X t 1  ut , ta ràng buộc -1< 1 <1 để đảm
bảo tính dừng của chuỗi thời gian X t . Nếu giá trị tuyệt đối của  >1, thì X t sẽ
có xu hướng ngày càng lớn hơn và vì thế có thể trở thành một chuỗi gia tăng
đột biến (chuỗi gia tăng đột biến là chuỗi không dừng).
Mô hình AR(2) có dạng như sau:
X t  0  1 X t 1  2 X t 2  ut

(1.2)

X t trong mô hình (1.2) là một quá trình tự hồi quy bậc 2, kí hiệu AR(2).


Có nghĩa là giá trị của X tại thời điểm t phụ thuộc vào giá trị của chính nó tại
hai thời điểm trước đó.
Mô hình AR(p) có dạng như sau:
X t  0  1 X t 1  2 X t 2  ...   p X t  p  ut

(1.3)

p

Hay dạng rút gọn của nó là: X t  0   t X t i  u1

(1.4)

i 1

trong đó Xt là một quá trình tự hồi quy bậc p, kí hiệu AR(p).
Hệ số  0 cũng được giải thích như đã được trình bày trong cơ chế AR(1).
Điều kiện để một chuỗi trong mô hình AR(p) là chuỗi dừng thì phải thỏa
điều kiện

p


i 1

t

 1.

Để xác định độ trễ của p ta sử dụng giản đồ tự tương quan theo cách

như sau: ACF sẽ có hướng bằng 0 ngay lập tức, trong khi đó, hệ số tự tương
quan riêng, kí hiệu là PACF, sẽ có xu hướng khác 0 một cách có ý nghĩa thống
kê cho đến độ trễ p đó. Vậy để tìm được các hệ số  thì ta đi tìm các hệ số tự
tương quan riêng để xác định mô hình AR(p) là được.
Như vậy, trong các mô hình ở trên các giá trị hiện tại và quá khứ của X
tự phụ thuộc vào nhau, cho nên không có biến giải thích nào trong mô hình cả.
Với đặc điểm này, người ta nói rằng chính các dữ liệu này tự giải thích cho
chính nó.

14


1.3.2 Mô hình trung bình trượt (MA)
Giả sử chúng ta có mô hình như sau:
X t    0ut  1ut 1

(1.5)

Trong đó  là một hằng số và u t là một nhiễu trắng. Ở đây, X tại thời
điểm t là một hằng số cộng với giá trị trung bình của sai số hiện tại và sai số
trong thời điểm trước đó. Vì vậy mô hình (1.5) được gọi là một quá trình trung
bình trượt bậc 1. Kí hiệu là MA(1).
Nếu X t có dạng: X t    0ut  1ut 1  2ut 2

(1.6)

thì nó được gọi là một quá trình trượt bậc 2, kí hiệu là MA(2).
Tổng quát hơn ta có
Yt     0 ut  1ut 1   2 ut 2  ...   q ut q


(1.7)

Yt trong mô hình (1.7) là một quá trình trượt bậc q. Kí hiệu là MA(q).

Nói tóm lại, một quá trình trung bình trượt chỉ đơn giản là một kết hợp tuyến
tính các sai số sai số ngẫu nhiên nhiễu trắng.
Để xác định độ trễ q ta sử dụng giản đồ tự tương quan theo cách sau đây:
ACF sẽ có xu hướng khác 0 một cách có ý nghĩa thống kê cho đến độ trễ q và
sẽ bằng 0 ngay sau độ trễ q đó. Điều này có nghĩa rằng, nếu chuỗi thời gian Xt
là một chuỗi theo MA(2) thì các hệ số ACF1 và ACF2 có ý nghĩa thống kê.
Trong khi đó PACF sẽ có xu hướng bằng không ngay lập tức.
Thông thường, ít có chuỗi thời gian nào thỏa mãn các điều kiện của mô
hình AR(p) hoặc MA(q) mà thường là kết hợp của hai mô hình này, có nghĩa
là một chuỗi dừng thì có thể tuân theo mô hình tổng quát ARMA(p,q).
1.3.3 Mô hình tự hồi quy trung bình trượt (ARMA)
Trong trường hợp này, dãy số X bao hàm những đặc điểm của cả AR và
MA nên người ta gọi nó là ARMA. Vì vậy, dãy số Xt được gọi là một quá trình
ARMA(1,1) nếu có dạng sau:
X t    1 X t 1  0ut  1ut 1

(1.8)

Mô hình (1.8) được gọi là mô hình tự hồi quy và trung bình trượt
ARMA(1,1), bởi vì nó bao gồm một quá trình tự hồi quy và quá trình trung
bình trượt. Trong mô hình này,  đại diện cho một giá trị cố định nào đó.
Nếu kết hợp mô hình AR(p) với mô hình MA(q) ta có mô hình
ARMA(p,q) có dạng như sau:
15



X t  0  1 X t 1  2 X t 2  ...   p X t  p  ut  1ut 1  2ut 2  ...  qu1q

(1.9)

Trong trường hợp này ta cần xác định độ trễ của p và q thích hợp theo
cách như đã trình bày ở các phần trên.
Nói tóm lại trong một quá trình ARMA(p,q) sẽ có quá trình tự hồi quy
bậc p và quá trình trung bình trượt bậc q.
1.3.4 Mô hình hợp nhất tự hồi quy trung bình trượt (ARIMA)
a) Mô hình
Mô hình ARIMA gồm 3 thành phần:
- AR: Tự hồi quy,
- MA: Trung bình trượt,
- Sai phân.
Kí hiệu tổng quát của mô hình này là ARIMA (p,d,q) với p là bậc tự hồi
quy; d là bậc sai phân (độ lệch), số lần lấy sai phân để chuyển dãy số X t từ
không dừng thành dừng, q là bậc trung bình trượt.
Phương trình khái quát của mô hình ARIMA (p,d,q) được trình bày dưới
dạng sau:
Z t    1 Z t 1   2 Z t 2  ...   p Z t  p  1   t 1  ...   q  t q  et

(1.10)

Với

 : Tham số tự hồi quy,
 : Tham số trung bình trượt,
   (1   2  ...   q ),
 : Giá trị trung bình của chuỗi thời gian,


et : Sai số dự báo, et  Yˆt  Y .

Ở đây ta cần lưu ý hai trường hợp đặc biệt sau:
 Nếu (1.10) có dạng:
Z t    1 Z t 1   2 Z t 2  ...   p Z t  p  et

(1.11)

thì mô hình (1.11) được gọi là mô hình tự hồi quy thuần ARIMA(p,d,0) hay
AR(p).
 Nếu (1.11) có dạng:
16


Z t    1 t 1  ...   q  t q  et

(1.12)

thì mô hình (1.12) được gọi là mô hình trung bình trượt thuần ARIMA(0,d,q)
hay MA(p).
Trong nghiên cứu, để tìm mô hình phù hợp nhất, ta phải xác định cụ thể
các giá trị p, d, và q. Liên quan đến các mô hình ARIMA khi nghiên cứu trên
dãy số thời gian có một phương pháp thông dụng, đó là phương pháp BoxJenkins.
b) Phương pháp Box-Jenkins
Hai tác giả Box-Jenkins đề nghị một phương pháp cho phép nghiên cứu
một cách có hệ thống các dạng khác nhau của chuỗi thời gian dựa vào tính
chất của nó. Mục tiêu của phương pháp là tìm trong số tất cả các dạng của mô
hình ARIMA một mô hình thích hợp nhất với bộ số liệu của hiện tượng đang
nghiên cứu. Phương pháp này gồm các bước cơ bản được tóm tắt trong sơ đồ
sau:

Nhận dạng mô hình: xác định các hệ số p,d,q của mô hình
Ước lượng hệ số của mô hình
Kiểm tra mô hình: phân tích các hệ số và sai số (sai số ngẫu nhiên)
Dự báo
Chúng ta trình bày cụ thể từng bước sau đây:
Bước 1: Nhận dạng mô hình
Đây là bước quan trọng và cũng là bước khó nhất. Nó cho phép nhận
biết được trong tất cả các mô hình ARIMA, mô hình nào có khả năng thích
hợp nhất. Điều đó có nghĩa là ở bước này ta phải xác định một cách chính xác
các giá trị của p, d và q. Các nguyên tắc sau đây nhằm xác định các thông số p,
d và q của mô hình ARIMA.
Xác định p, d và q của mô hình ARIMA nhờ vào biểu đồ tương quan
riêng phần mẫu (PACF) và tự tương quan mẫu (ACF) :
- Nếu biểu đồ tương quan riêng phần (PACF) có giá trị cao tại độ trễ 1,
2, …, p và giảm nhiều sau p hay chỉ có p giá trị đầu tiên là khác 0 (thường lấy
p = 3 là lớn nhất) và các giá trị của biểu đồ tương quan giảm từ từ ta có thể
tiên đoán có một AR(p).
17


- Nếu biểu đồ tương quan (ACF) chỉ có q giá trị đầu tiên là khác 0
(thường lấy q = 3 là lớn nhất) và các giá trị của biểu đồ tương quan riêng phần
giảm từ từ ta có thể tiên đoán có một MA(q).
Tóm lại:
Loại mô hình

Dạng đồ thị ACF

Dạng đồ thị PACF


AR(p)

Giảm dần

Có đỉnh ở p

MA(q)

Có đỉnh ở q

Giảm dần

ARMA(p,q)

Giảm dần

Giảm dần

Trong thực hành, phương pháp phân tích đồ thị chỉ cho ta tìm được p, q
trong các trường hợp đơn giản. Trong trường hợp tổng quát, ta có thể áp dụng
các tiêu chuẩn AIC hoặc SIC đã được giới thiệu ở phần trên để xác định các
thông số p, q trong một mô hình ARMA.
- Tiêu chuẩn Akaike Information Criterion (AIC):
AIC  n  ln( et2 )  2 z

Trong đó
n: số quan sát của chuỗi
z: số tham số ước lượng
et  X t  Xˆ t


- Tiêu chuẩn Schwarz Information Criterion (SIC):
SIC  n  ln( et2 )  z ln(n)

Trong trường hợp lí tưởng, giá trị chọn p, q tương ứng với các trường
hợp cho ta các giá trị AIC hoặc SIC cực tiểu. Trong khi áp dụng ta có thể gặp
trường hợp ở đó giá trị p, q đề nghị không làm cho hai tiêu chuẩn này đồng
thời cực tiểu. Tuy vậy, thường các tiêu chuẩn này cho ta các giá trị p, q tối ưu
không khác nhau lớn. Trong trường hợp này ta sẽ khảo sát từng tổ hợp (p, q)
cụ thể để quyết định chọn mô hình hợp lý nhất.
Bước 2: Ước lượng các hệ số của mô hình
Dựa vào mô hình đã chọn, chúng ta dùng các phần mềm thống kê để
chạy mô hình và xác định các hệ số ước lượng một cách dễ dàng, hoặc việc
xác định các hệ số ước lượng thông thường ta dùng phương pháp bình phương
nhỏ nhất sao cho:

(X

t

 Xˆ t ) 2  min

 t  X t  Xˆ t

Bước 3: Kiểm định mô hình
18


Sau khi các thông số của mô hình được xác định, chúng ta sẽ thực hiện
kiểm định trên các kết quả của ước lượng thu được.
Các hệ số của mô hình phải khác 0 (kiểm định t). Nếu có một hay nhiều

hệ số không thỏa mãn, ta sẽ loại bỏ nó ra khỏi mô hình AR hoặc MA đang xét.
Phân tích các giá trị sai số được thực hiện từ hai tiêu chuẩn sau:
i) Giá trị trung bình của sai số bằng 0, trong trường hợp ngược lại ta nên thêm
một hằng số vào mô hình.
ii) Dãy giá trị sai số là một sai số ngẫu nhiên trắng. Các giá trị thống kê của
Box-Pierce và của Liung-Box cho phép kiểm định tính chất này. Nếu nó không
phải là một sai số ngẫu nhiên trắng ta kết luận mô hình là không hoàn chỉnh và
ta phải thêm vào mô hình các bổ sung cần thiết.
Ta có các phương pháp kiểm định :
 Kiểm tra sai số ngẫu nhiên trắng, kiểm tra phần dư giữa các kết quả dự báo
^

và số liệu thực tế (et  X t  X t ) .
+ Để xem dãy giá trị sai số có phải là một sai số ngẫu nhiên trắng hay
không, ta kiểm định xem tất cả các giá trị  k có bằng 0 hay không.
H 0 : k  0
H1 :  k  0

+ Trong thực hành, Quenouille đã chứng minh được rằng với một mẫu
có kích thước tương đối lớn, hệ số  k tiến một cách tiệm cận về phân phối
chuẩn có giá trị trung bình bằng 0 và độ lệch chuẩn là

1
.
n

Khoảng tin cậy của hệ số  k như sau:
  0  t .
2


1
1
(n là số lượng quan sát).
 0  1.96.
n
n

Nếu hệ số  k nằm ngoài khoảng tin cậy thì ta bác bỏ giả thuyết H0 (dãy
giá trị sai số không phải là một sai số ngẫu nhiên trắng).
 Tham số thống kê Box-Pierce Q  n'  t2
 Tham số thồng kê Ljung-Box LB  n' (n'  2) t2 / (n' 1)
Với n'  n  d , n là số quan sát của chuỗi thời gian, d là bậc phương sai,
pt2 là tự tương quan mẫu của những phần dư ở trễ 1.

19


Bước kiểm định mô hình rất quan trọng, ta phải trở lại bước 1 nếu mô
hình đề nghị không thích hợp.
 Chú ý:
Kiểm định là phân tích phần dư (residual) từ việc làm phù hợp cho dấu
hiệu không ngẫu nhiên. Việc này được thực hiện bằng cách dựa vào ACF của
residual mô hình được làm phù hợp. Nếu ACF mẫu của residual nằm trong
giới hạn 1.96 N (khoảng tin cậy 95%), trong đó N là số các quan sát, thì
phần dư là ồn trắng và chứng tỏ rằng mô hình được làm phù hợp tốt.
Bước 4: Dự báo
Một khi mô hình đã được kiểm định, ta có thể sử dụng nó để tiến hành
dự báo cho tương lai. Một trong những lý do làm cho mô hình ARIMA được
thông dụng là nhờ vào sự thành công của nó trong việc dự báo.
Trong hầu hết các trường hợp dự báo bằng phương pháp này cho kết quả

đáng tin tưởng hơn các phương pháp dự báo cổ điển trước đó, nhất là dự báo
ngắn hạn.
1.4 TIÊU CHUẨN ĐÁNH GIÁ MÔ HÌNH DỰ BÁO CHUỖI THỜI
GIAN
1.4.1 Tiêu chuẩn Akaike Information Criterion (AIC)
Akaike Hirotsugu (05/11/1927 - 04/08/2009) là nhà thống kê người
Nhật. Vào đầu thập niên 1970 ông đã làm đưa ra tiêu chuẩn để đánh giá mô
hình được gọi là Tiêu chuẩn thông tin Akaike (AIC). Năm 2006, Akaike được
thưởng Giải Kyoto cho công trình này.
Ta có công thức:
AIC  n  ln   et2   2 z

(1.13)

Trong đó
n: số quan sát của chuỗi,
z: số tham số ước lượng,
et  X t  Xˆ t .

1.4.2 Tiêu chuẩn Schwarz Information Criterion (SIC)
Tương tự như AIC, tiêu chuẩn thông tin Schwarz (Schwarz imformation
Criterion) được định nghĩa như sau:
20


×