ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA THỐNG KÊ – TIN HỌC
ĐỀ ÁN MÔN HỌC
CÁC MÔ HÌNH DỰ BÁO THEO PHƯƠNG PHÁP
BOX-JENKINS (MÔ HÌNH ARIMA)
GVHD: Hà Thị Phương Thảo
---oOo--SVTH : Phan Thị Tư ( Lớp 38k05)
TP.Đà Nẵng, 04/ 2015
Mục lục
Chương 1: Giới thiệu
Theo lời một giám đốc chiến lược chuỗi cung ứng của công ty Motts North
America như sau : “Tôi tin chắc rằng dự báo có lẽ là khả năng đống góp vào giá trị
của một doanh nghiệp nhiều hơn bất kỳ một hoạt động nào khác trong chuỗi cung ứng
vì dự váo đúng sẽ làm cho mọi thứ khác trong chuỗi cung ứng được tiến hành một
cách dễ dàng hơn”1.
Dự báo các chỉ số kinh tế và kinh doanh đóng một vai trò rất quan trọng trong quá
trình ra quyết định kinh doanh của doanh nghiệp, phân tích chính sách, và trong rất
nhiều nghiên cứu kinh tế ứng dụng. Hầu như một tổ chức, lớn hay nhỏ, công hay tư
đều đang thực hiện dự báo theo một cách nào đó bởi vì hoạch định luôn lôn là một
trong những chức năng cơ bản nhất của bất kỳ tổ chức nào. Nhu cầu dự báo ngày cang
gia tăng ở hầu hết các bộ phận chức năng của tổ chức để thực hiện các dự báo cho các
quyết định về tài chính, tiếp thị, nhân sự, sản xuất,…
Có rất nhiều phương pháp và mô hình dự báo được phát minh ra để giúp đỡ cho
các nhà quyết định, trong đôcs một lớp các mô hình dựa trên sự phân tích thống kê các
dữ liệu trong quá khứ để đưa ra dự báo. Sự phát triển của công nghệ thông tin giúp
cho việc thu thập, lưu trũ và tính toán thống kê trên một lượng lớn dữ liệu dễ dàng
hơn, làm cho các mô hình thống kê trở nên phổ biến. Công việc của các nhà dự báo là
lựa chọn một mô hình phù hợp với bài toán của mình. Bài viết này sẽ giới thiệu về
cách xây dựng và kiểm định mô hình ARIMA, một phương pháp dự báo chuỗi thời
gian được sử dụng khá phổ biến trong việc dự báo các chỉ báo kinh tế có độ nhạy cao
như lãi suất, chỉ số giá chứng khoán, giá vàng, giá dầu…của thị trường trong nước và
thế giới.
1
Wilson, J. Holton & Barry Keating, 2007, Business Forecasting
Chương 2 : Chuỗi thời gian và các thành phần của chuỗi thời
gian
1.
1.1
-
Chuỗi thời gian
Khái niệm
Dữ liệu chuỗi thời gian là các dữ liệu mà các biến quan sat được thu thập
theo từng khoảng thời gian thống nhất tùy theo đặc điểm của từng đối tượng
nghiên cứu.
Với mỗi chuỗi thời gian, ta thường biểu thị trong một mặt phẳng với trục hoảnh
biểu thị thời gian và trục tung biểu thị giá trị biến quan sát.
Nghiên cứu chuỗi thời gian với mục đích nhận dạng và tập hợp lại các yếu tố,
những biến đổi theo thời gian mà nó có ảnh hưởng đến giá trị của biến quan sát.
Ví dụ :
Chuỗi thời gian theo ngày : chứng khoán, lãi suất, tỷ giá hối đoái…
Chuỗi thời gian theo tháng : tỷ lệ thất nghiệp, tỷ lệ lạm phát, tỷ giá hối đoái…
Chuỗi thời gian theo năm : ngân sách chính phủ, tốc dộ tăng trưởng kinh tế…
Bảng 01: mẫu dữ liệu về chuỗi thời gian
Quan sát
1
2
3
.
.
49
50
Nguồn IMF,2009
Tháng
2005-T1
2005-T2
2005-T3
.
.
2009-T1
2009-T2
X1
80.38089
83.5175
95.45541
.
.
82.30484
78.27128
X2
39.63368
44.61313
50.65714
.
.
85.77211
81.46765
X3
54.20863
57.64914
60.31371
.
.
68.26367
67.22247
X4
556.9369
549.3329
545.1831
.
.
464.5935
449.7209
Khó khăn và thử thách khi nghiên cứu về dữ liệu chuỗi thời gian là dữ liệu
thường rất lớn, phụ thuộc nhiều vào yếu tố chủ quan của người dùng và tập dữ
liệu khi đánh giá mức độ tưng quan giữa các chuỗi, dữ liệu không đồng nhất.
Trong mỗi chuỗi thời gian thường các giá trị ở những thời điểm khác nhau
có mối tương quan với nhau. Sự tương quan này được đánh giá bằng hệ số tự
tương quan.
1.2 Tự tương quan
Tự tương quan là sự tương quan giữa một biến với chính nó theo những độ
trễ thời gian khác nhau.
Ta tính hệ số tự tương quan của biến Xt với độ trễ k theo công thức
ρk =
Với
ρk
µ
ρk
E[( X t − µ )( X t + k − µ )]
Var ( X t )Var ( X t + k )
là hệ số tự tương quan của X ở độ trễ k
là trung bình của Xt
Nếu
≠ 0 thì giữa Xt và Xt+k có sự tương quan với nhau.
Để biểu diễn sự tương quan của một biến theo nhiều độ trễ khác nhau một cách
trực quan, ta dùng hàm tự tương quan.
Hàm tự tương quan là một đồ thị biểu diễn các hệ số tự tương quan theo các
độ trễ.
Trong thực tế ta chỉ có thể tính được hệ số tự tương quan lấy mẫu và dùng
thống kê để ước lượng các hệ số tự tương quan của đám đông.
Công thức tính hệ số tự tương quan lấy mẫu:
rk =
Với
rk
X
∑
T −k
t =1
( X t − X )( X t + k − X )
∑
T
2
(
X
−
X
)
t
t =1
là hệ số tự tương quan lấy mẫu ở độ trễ k
là trung bình mẫu của
Xt
T là số phần tử của mẫu
Để kiểm tra xem hệ số tự tương quan ở độ trễ k của một chuỗi thời gian có
khác không, ta dùng phép thử t:
t=
rk
k −1
1 + 2∑ ri 2
i =1
n
Với
ri
là hệ số tự tương quan mẫu ở độ trễ i
k là độ trễ
n là kích cỡ mẫu
Nếu
ρk
= 0 thì t sẽ có phân phối student với n-1 bậc tự do. Đối với mẫu có kích
±2 / n
thước lớn, với mức ý nghĩa 5%, nếu hệ số tương quan mẫu nằm trong khoảng
thì ta có thể kết luận hệ số tự tương quan của đám đông bằng không với mức ý nghĩa
5%.
2
•
-
-
-
Việc đánh giá hệ số tự tương quan có ý nghĩa quan trọng trong việc phân
tích chuỗi thời gian. Hàm tự tương quan của dữ liệu giúp ta xác định được các
thành phần của chuỗi thời gian từ đó có thể lựa chọn mô hình dự báo hợp lý
cũng như việc đánh giá tính đầy đủ của mô hình.
Các thành phần của chuỗi thời gian
Xu hướng dài hạn (xu thế ) T : thể hiện sự tăng trưởng hoặc giảm sút của một
biến số theo thời gian với khoảng thời gian đủ dài. Nói cách khác, một chuỗi
thời gian được cho là có yếu tố xu thế nếu giá trị trung bình nó thay đổi theo thời
gian (có thể tăng hoặc giảm)
Ví dụ : tốc dộ tăng dân số Việt Nam có xu hướng giảm, tỷ trọng nông nghiệp
trong GDP của Việt Nam có xu hướng giảm, mức giá có xu hướng tăng…
Các kỹ thuật dự báo với chuỗi xu thế phù hợp trong các trường hợp sau đây:
Tăng năng suất hay thay đổi công nghệ dẫn đến thay đổi trong lối sống. Ví dụ,
nhu cầu mua sắm các thiết bị điện tử gai tăng khi công nghệ máy tính phát triển
nhanh chóng, nhu cầu sử dụng phương tiện đi lại bằng đường sắt giảm khi
ngành hàng không phát triển.
Gia tăng dân số làm tăng nhu cầu hàng hóa và dịch vụ. Ví dụ, doanh số các hàng
hóa tiêu dùng, nhu cầu năng lượng, và các nguyên vật liệu có xu hướng tăng.
Sức mua của đồng tiền ảnh hưởng đến nhiều chỉ báo kinh tế do yếu tố lạm phát.
Ví dụ, tiền lương, chi phí sản xuất, và giá hàng hóa có xu hướng tăng do lạm
phát.
Sự chấp nhận của thị trường gia tăng. Ví dụ, trong giai đoạn tăng trưởng của
một sản phẩm trong chu kỳ kinh doanh của một sản phẩm mới.
Các kỹ thuật dự báo phù hợp với dạng dữ liệu này đang dữ liệu này bao gồm các
mô hình di động, san bang Holt, hồi quy đơn, mô hình hàm xu thế, mô hình
ARIMA.
•
Thời vụ S : biến động của thời vụ của biến số kinh tế là sự thay đổi lặp đi
lặp lại tại từng thời điểm cố định trong năm của chuỗi thời gian. Đối với một
chuỗi thời gian có tính thời vụ thì giá trị tại thời điểm cố định tại thời điểm cố
định theo từng năm sẽ có sự tương quan với nhau. Các kỹ thuật dự báo sử dụng
khi:
-
-
Thời tiết, văn hóa và lễ hội ảnh hưởng đến biến số cần dự báo. Ví dụ, lượng tiêu
thụ điện, các hoạt động theo mùa đông hoặc mùa hè (thể thao, du lịch), thời
trang, sản xuất nông nghiệp.
Niên lịch ảnh hưởng đến biến số cần dự báo. Ví dụ, doanh số bán lẻ chịu ảnh
hưởng bởi các kỳ nghỉ, ngày nghỉ cuối tuần, hoặc niên học.
Các kỹ thuật phù hợp với dạng dữ liệu này bao gồm các mô hình phân tích,
san bằng mũ Winters, hồi quy bội, các mô hình ARIMA.
Hình 01: xu hướng và thời vụ
Nguồn: Problem set 7, Analytic method for Policy Making, Chương trình Giảng dạy Kinh tế Fulbright Việt Nam 2000.
•
-
•
Chu kỳ C : đó là thời gian mà hiện tượng sẽ lặp lại nó phối hợp với xu thế T
trong chu kỳ nhiều năm. Các dạng dữ liêij có tính chu kỳ thường rất khó mô
hình hóa bởi vì các dạng dữ liệu không có tính ổn định. Các kỹ thuật dự báo này
thường được sử dụng trong các trường hợp sau đây:
Chu kỳ kinh doanh ảnh hưởng đến biến cần dự báo. Via dụ, các yếu tố kinh tế,
thị trường và cạnh tranh có thể ảnh hưởng đến doanh số.
Xảy ra các xu hướng dịch chuyển trong sở thích của người tiêu dùng. Ví dụ như
thời trang, âm nhạc, ẩm thực.
Xảy ra các dịch chuyển trong dân số. Ví dụ như chiến tranh , nghèo đói, bệnh
dịc và thiên tai.
Xảy ra các dịch chuyển tron vòng đời sản phẩm.
Các kỹ thuật phù hợp với dạng dữ liệu này bao gồm các mô hình phân tích,
các mô hình kinh tế lượng, hồi quy bội, và các mô hình ARIMA.
Việc xác định một chuỗi thời gian có xu thế hay có tính thời vụ không rất
quan trọng trong bài toán dụ báo chuỗi thời gian. Nó giúp chúng ta lựa chọn
được mô hình dự báo phù hợp hay giuos cải thiện mô hình đã có chính xác hơn.
Ngẫu nhiên I : là sự biến đổi ngẫu nhiên không thể đoán được của chuỗi thời
gian.
Hình 02 : chu kỳ và ngẫu nhiên – Tăng trưởng kinh tế của Hoa Kỳ giai đoạn
1961 – 1999
Nguồn : World Development Indicator CD-Rom 2000, World Bank.
3
-
Chuỗi thời gian dừng và chuỗi không dừng
3.1
Chuỗi thời gian dừng
Một khái niệm quan trọng trong các quy trình phân tích chuỗi thời gian là
tính dừng. Một chuỗi dừng có đặc điểm sau:
Thể hiện xu hướng trở lại trạng thái trung bình theo một cách trong đó dữ liệu
dao đọng xung quanh một giá trị trung bình cố định trong dài hạn.
Có một giá trị phương sai xác định không thay đổi theo thời gian.
Có một giản đồ tự tương quan với các hệ số tự tương quan sẽ giảm dần khi độ
trễ tăng lên.
Cụ thể :
E(Yt) là một hằng số cho tất cả các thời điểm t
E(Yt) = µ
(1)
Var(Yt) là một hằng số cho tất cả các thời điểm t
Var(Yt) = E(Yt-µ)2=σ2
(2)
Cov(Yt,Yt+k) là một hằng số cho tất cả các thời điểm t và k khác không. Gía trị
của hiệp phương sai giữa hai đoạn chỉ phụ thuộc vào khoảng cách giữa hai giai
đoạn.
Cov(Yt,Yt+k)=γk=E[(Yt-µ)(Yt+k-µ)
(3)
Trong đó, γk là hiệp phương sai ở độ trễ k, là hiệp phương sai giữa các giá trị
Yt và Yt+k nghĩa là, giũa hai giá trị Y cách nhau k giai đoạn. Nếu k=0, ta có γ 0, đó
cũng chính là phương sai của Y (σ 2), nếu k=1, γ1 là hiệp phương sai giữa 2 giá
tri Y liền kề.
Tại sao chuỗi thời gian dừng lại có tính quan trọng? Theo Gujarati (2003) cho
rằng, nếu một chuỗi thời gian không dừng, chúng ta chỉ có thể nghiên cứu hành
vi của nó chỉ rong khoảng thời gian đang được xem xét. Vì thế, mỗi một mẫu dữ
liệu thời gian sẽ mang một tình tiết nhất định và chỉ thể hiện những hành vi cụ
thể trong một khoảng thời gian xem xét. Kết quả là chúng ta không thể khái quát
hóa cho các giai đoạn thời gian khác. Đối với mục đích dự báo, các chuỗi thời
gian không dừng như vậy có thể sẽ không có giá trị thực tiễn. Vì như chúng ta
đã biết, trong dự báo chuỗi thời gian, chúng ta luôn gải định rằng xu hướng vận
động của dữ liệu trong quá khứ và hiện tại được duy trì cho các giai đoạn tương
lai. Và như vậy chúng ta không thể đự báo được điều gì cho tương lai nếu như
bản thân dữ liệu luôn thay đổi. Hơn nữa, đối với phân tích hồi quy , nếu chuỗi
thời gian không dừng thì tất cả các kết quả điển hình của một phân tích hồi quy
tuyến tính cổ điển sẽ không có giá trị cho việc dự báo, và thường được gọi là
hiện tượng “hồi quy giả mạo”. Do vậy, điều kiện có bản nhất cho việc dự báo
một chuỗi thời gian đó là nó phải có tính dừng.
Các kỹ thuật dự báo với dữ liệu dừng được sử dụng khi :
-
3.2
Các nhân tố tạo nên chuỗi dữ liệu có tính ổn định và môi trường trong đó chuỗi
dữ liệu tồn tại tương đối không đổi.
Một mô hình dự báo đơn giản nhất được sử dụng bởi vì thiếu dữ liệu hoặc nhằm
dễ giả thích cho người sử dụng kết quả dự báo, hoặc dễ thực hiện việc dự báo.
Có thể đạt được sự ổn định bằng cách thực hiện các điều chỉnh giản đơn các yếu
tố như tốc độ tăng dân số hay lạm phát.
Chuỗi dữ liệu có thể được chuyển hóa sang một chuỗi có tính ổn định hơn.
Dữ liệu là một tập hợp các sai số dự báo từ một kỹ thuật dự báo nào đó cũng
được xem như có tính ổn định.
Các kỹ thuật dự báo có thể phù hợp với dạng dữ liệu này bao gồm các mô
hình dự báo thô, các phương pháp trung bình giản đơn, các mô hình trung bình
di động, các mô hình ARIMA.
Chuỗi không dừng
Một chuỗi thời gian không thỏa mãn ba tính chất (1), (2) và (3) gọi là chuỗi
không dừng. Việc biểu diễn một chuỗi thời gian không dừng bằng một mô hình
đại số đơn giản là không dễ nhưng trong thực tế ta rất thường gặp các chuỗi thời
gian không tĩnh do bản chất của chuỗi có yếu tố xu thế hoặc ngẫu nhiên, do đó
ta cần biến đổi một chuỗi thời gian không dừng về thành phần của chuỗi dừng.
-
Ví dụ cổ điển về trường hợp chuỗi không dừng là mô hình bước ngẫu
nhiên.Kinh tế lượng chuỗi thời gian thường chia bước ngẫu nhiên thành hai loại:
bước ngẫu nhiên không có hằng số và bước ngẫu nhiên có hằng số.
Bước ngẫu nhiên không có hằng số
Giả sử µt là một hạng nhiễu trắngvowis trung bình bằng 0 và phương sai bằng
σ2. Thì chuỗi Yt được gọi là một bước ngẫu nhiên nếu:
Yt = Yt-1 + µt
(4)
E(Yt) = E(Yt-1) + E(µt) = E(Yt-1)
(5)
Điều này có nghĩa kỳ vọng toán của Yt không đổi.
Ta hãy xem phương sai của Yt
Y 1 = Y0 + µ 1
Y 2 = Y 1 + µ 2 = Y 0 + µ 1 + µ2
.........................
Y t = Y 0 + Σ µt
Do Y0 là hằng số, các µi độc lập với nhau, có phương sai không đổi là σ2 nên :
Var(Yt) = t. σ2
(6)
Điều này chứng tỏ Yt là chuỗi không dừng.
Yt = Yt-1 + µt
Sai phân bậc nhất của Yt : ΔYt = Yt - Yt-1 = µt
(7)
(8)
Trong trường hợp này, ΔYt là chuỗi dừng. Điều này rất có ý nghĩa trong việc
phân tích và dự báo các chuỗi thời gian không dừng, cụ thể là nhà dự báo có thể
biến một chuỗi không dừng thành một chuỗi dừng nhằm phục vụ cho quá trình
dự báo theo một trình tự nhất định mà mô hình ARIMA là một trong những
công cụ có khả năng thích nghi cho chuỗi không dừng sau khi lấy sai phân.
-
Bước ngẫu nhiên có hằng số
Nếu ta điều chỉnh phương trình (4) theo cách sau đây:
Yt = ẟ + Yt-1 + µt
Trong đó, ẟ được gọi là một hằng số. Hằng số ẟ này có ý nghĩa như
ΔYt = Yt - Yt-1 = ẟ + µt
Như vậy, Yt sẽ vận động lên hay xuống tùy thuộc vào ẟ dương hay âm.
(9)
(10)
Một bước ngẫu nhiên có hằng số có đặc điểm sau đây :
E(Yt) = E(ẟ + Y0 + Σµt) = Y0 + t. ẟ
(11)
Và Var(Yt) = t.σ2
Tóm lại, một bước ngẫu nhiên có hằng số bản thân nó là một chuỗi không dừng.
3.3
-
Chuỗi dừng sai phân
Như đã đề cập ở trên , một bước ngẫu nhiên là một chuỗi không dừng, nhưng
sai phân bậc một của nó là một chuỗi dừng. Như vậy, ta có thể nói một bước
ngẫu nhiên là một chuỗi dừng sai phân bậc một, và được ký hiệu là I(1). Lập
luận tương tự, nếu một chuỗi thời gian không dừng ở sai phân bậc một nhưng
dừng ở sai phân bậc hai thì ta gọi đó là chuỗi dừng sai phân bậc hai và được ký
hiệu là sai phân bậc hai I(2). Một cách tổng quát, nếu một chuỗi dừng sai phân
bậc d , thì ký hiệu là I(d). Và một chuỗi dừng cũng có thể gọi là chuỗi dừng ở sai
phân bậc 0, ký hiệu là I(0). Tuy nhiên , theo kinh nghiệm của các nhà dự báo thì
d thông thường cao nhất thường không vượt quá 2.
Đặc điểm của các chuỗi dừng sai phân:
Nếu Xt ~ I(0) và Yt ~ I(1), thì Zt = (Xt + Yt) = I(1)
Nếu Xt ~ I(d) và Zt = (a + bXt) = I(d)
Nếu Xt ~ I(d1) và Yt ~ I(d2) thì Zt = (aXt + bYt)~I(d2) với d1
Nếu Xt ~ I(d) và Yt ~ I(d) thì Zt = (aXt + bYt)~I(d*) với d* có thể bằng d hoặc khi
có d* < d do hiện tượng đồng liên kết.
Các đặc điểm này rất quan trọng. Nhớ rằng, trong mô hình hồi quy đơn ta có:
β2=…….
Nếu Yt ~ I(0) và Xt ~ I(1), thì có thể rất khó xác định phân phối xác suất của β 2.
Như vậy, chúng ta sẽ rất khó suy diễn thống kê cho các ước lượng OLS
Chương 3 : Kiểm định tính dừng
1. Gỉan đồ tự tương quan
Theo định nghĩa tính dừng thì Yt là dừng nếu :
E(Yt) = µ
Var(Yt) = E(Yt-µ)2=σ2
Cov(Yt,Yt+k) = γk = E[(Yt- µ)(Yt+k- µ)]
Để kiểm định tính dừng này, một trong các kiểm định đơn giản là kiểm định
dựa hàm tự quan quan ρk (autocorrelation function)
n
pk =
∑ (Y − Y )(Y
t −k
t
t = k +1
n
∑ (Y − Y )
−Y)
=
2
t
t =1
Cov(Yt , Yt − k )
Var (Yt )
(12)
Phương trình () được gọi là hàm tự tương quan, ký hiệu là AFC.
n
rk =
∑ (Y − Y )(Y
t = k +1
t −k
t
n
∑ (Y − Y )
t =1
−Y)
2
t
Do thực tế chúng ta chỉ có dữ liệu mẫu, nên ta chỉ có thể ước
lượng được hệ số tương quan mẫu theo công thức sau:
(13)
Y
Trong đó , là giá trị trung bình mẫu của chuỗi Y t, k là độ trễ, n là số quan sát của
mẫu. Có hai phương pháp kiểm định xem hệ số tương quan có ý nghĩa thống kê hay
không là : thống kê t và thống kê Q.
I.1
I.2
Thống kê t
Gọi ρk là hệ số tự tương quan tổng thể (rk là ước lượng không chệch của ρk) ta có
cặp giả thuyết cần kiểm định :
Gỉa thuyết H0 : ρk = 0
Đối thuyết H1 : ρk ≠ 0
Nếu một chuỗi thời gian ngẫu nhiên thì các hệ số tự tương quan là một biến ngẫu
nhiên và có phân phối chuẩn với trung bình là 0 và phương sai là 1/N. Với sai số
chuẩn của hệ số tự tương quan se(r k) là , ta có thể xây dựng khoảng tin cậy cho ρ k
(Prob[rk–se(rk)*tα/2<ρk < rk+se(rk)*tα/2]) hoặc tìm được giá trị thống kê t tính toán ở một
mức ý nghĩa xác định (). Nếu ρk nằm ngoài khoảng tin cậy đó hoặc giá trị t tính toán
lớn hơn giá trị t quan sát ta bác bỏ giả thuyết H0 .
Thống kê Q
Cặp giả thuyết cần kiểm định:
Giả thuyết H0 : ρ1 = …= ρm = 0
Đối thuyết H1 : ít nhất một số tương quan khác 0
Tính trị trống kê Q :
(14)
-
Với cỡ mẫu lớn, Q có phân phối chuẩn theo χ 2 với bậc tự do bằng số độ trễ. Nếu
giá trị thống kê Q (χ2~ ) lớn hơn giá trị thống kê Q tra bảng (χ 2 tra bảng) ở một mức ý
nghĩa xác định thì bác bỏ giả thuyết H0.
Sử dụng Eviews để xét tính dừng của chuỗi dữ liệu:
Nếu hệ số tự tương quan đầu tiên khác 0 nhưng các hệ số tự tương quan tiếp theo bằng
0 có ý nghĩa thống kê thì đó là một chuỗi dừng.
Nếu một số hệ số tự tương quan khác 0 một cách ý nghĩa thống kê thì đó là một chuỗi
không dừng.
Ví dụ : cho các số liệu về Y = CPI89 là chỉ số giá tiêu dùng tính theo quý của Việt
Nam từ quý I/1991 đến quý IV/1997.
Date: 04/20/15 Time: 10:19
Sample: 1 28
Included observations: 28
Autocorrelation
. |******|
. |***** |
. |***** |
. |**** |
. |*** |
. |*** |
. |**. |
. |* . |
. |* . |
. | . |
. | . |
. *| . |
Partial Correlation
. |******|
. *| . |
. | . |
. | . |
. | . |
. | . |
. *| . |
. | . |
. | . |
. *| . |
. *| . |
. | . |
1
2
3
4
5
6
7
8
9
10
11
12
AC
PAC
Q-Stat
Prob
0.875
0.746
0.626
0.525
0.443
0.365
0.281
0.197
0.122
0.041
-0.051
-0.137
0.875
-0.083
-0.031
0.003
0.013
-0.042
-0.075
-0.056
-0.026
-0.095
-0.131
-0.061
23.806
41.769
54.955
64.616
71.790
76.869
80.026
81.654
82.312
82.392
82.522
83.508
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
Bảng 01 : Giản dồ tự tương quan chuỗi gốc của CPI89
Date: 04/20/15 Time: 10:38
Sample: 1 28
Included observations: 27
Autocorrelation
. |*** |
. | . |
. | . |
. |**. |
. *| . |
***| . |
.**| . |
. | . |
. | . |
. *| . |
. | . |
. |**. |
Partial Correlation
. |*** |
.**| . |
. |**. |
. | . |
***| . |
. | . |
. *| . |
. |* . |
. *| . |
. | . |
. |* . |
. | . |
1
2
3
4
5
6
7
8
9
10
11
12
AC
PAC
Q-Stat
Prob
0.434
-0.055
0.044
0.216
-0.150
-0.396
-0.262
0.034
-0.060
-0.196
0.026
0.306
0.434
-0.301
0.280
0.060
-0.413
-0.055
-0.147
0.156
-0.115
-0.037
0.181
0.004
5.6835
5.7797
5.8434
7.4371
8.2328
14.068
16.756
16.804
16.961
18.723
18.755
23.651
0.017
0.056
0.119
0.115
0.144
0.029
0.019
0.032
0.049
0.044
0.066
0.023
Bảng 02 : Gian đồ tự tương quan chuỗi sai phân bậc một của CPI89
Nhìn vào hình 01 và 02 ta có thể kết luận, bản thân chỗi CPI89 là một chuỗi không
dừng nhưng sai phân bậc 1 của CPI89 là một chuỗi dừng. Hay nói cách khác, CPI89 là
một chuỗi sai phân bậc 1.
2.
-
Kiểm định nghiệm đơn vị
Một tiêu chuẩn khác để kiểm định tính dừng là kiểm định nghiệm đơn vị (unit root
test).
Xét mô hình sau :
Yt = ρYt-1 + ut (-1≤ ρ ≤ 1)
(15)
Nếu như ρ = 1, khi đó Yt là một bước ngẫu nhiên và Yt là một chuỗi dừng. Do đó
để kiểm định tính dừng của Yt ta xây dựng cặp giả thuyết cần kiểm định sau :
Giả thuyết H0 : ρ = 1 (Yt là chuỗi không dừng)
Đối thuyết H1 : ρ ≠ 1 (Yt là chuỗi dừng)
Phương trình (15) tương đương với phương trình (15) sau đây:
ΔYt=Yt –Yt-1 = (ρ-1)Yt-1 + ut
= ẟYt-1 + ut
(16)
Như vậy, cặp giả thuyết trên được viết lại như sau:
Giả thuyết H0 : ẟ = 0 (Yt là chuỗi không dừng)
Đối thuyết H1 : ẟ ≠ 0 (Yt là chuỗi dừng)
Nếu H0 được chấp nhận thì : ΔYt=Yt –Yt-1 = ut
Do đó chuỗi Yt là dừng vì ut là nhiễu trắng.
Để tìm ra chuỗi Yt là không dừng thì hoặc là chúng ta sẽ ước lượng mô hình (15)
và kiểm định giả thuyết H0 : ρ = 1 hoặc ước lượng mô hình (16) và kiểm định giả
thuyết : H0 : ẟ = 0.
Trong cả hai mô hình này đều không sử dụng được tiêu chuẩn t (kiểm định
student) nay cả trong trường hợp mẫu lớn.
Dickey – Fuller đã đưa ra tiêu chuẩn kiểm định như sau :
Giả thuyết H0 : ρ =1
Đối thuyết H1 : ρ ≠ 1
Ta ước lượng mô hình (15) , có phân phối chuẩn theo quy luật Dickey-Fuller (DF).
Nếu |τ| >|τα| thì bác bỏ giả thuyết H0 . Trong trường hợp này chuỗi là dừng.
Tiêu chuẩn DF được áp dụng cho các mô hình sau:
Khi Yt là một bước ngẫu nhiên không có hằng số: ΔYt = ẟYt-1 + ut
(17)
Khi Yt là một bước ngẫu nhiên không có hằng số: ΔYt = β1 + ẟYt-1 + ut (18)
Khi Yt là một bước ngẫu nhiên có hằng số xoay quanh một đường xu thế ngẫu nhiên :
ΔYt = β1 + β2TIME + ẟYt-1 + ut
(19)
Đối với các mô hình trên, giả thuyết H0: ẟ =0 (chuỗi không dừng – hay có nghiệm đơn
vị).
Nếu các ut lại tự tương quan thì cải biến mô hình (19):
ΔYt = β1 + β2TIME + ẟYt-1 + αiΣ ΔYt-1 + ɛt
(20)
Tiêu chuẩn DF áp dụng cho(20) được gọi là tiêu chuẩn ADF (Augumented DickeyFuller)
Lưu ý : D là toán tử sai phân trong Eviews
Ví dụ : với dữ liệu tổng sản phẩm quốc nội (GDP) từ những số liệu thu thập được từ
quí I-1970 – IV-1991 của Hoa Kỳ.
Bảng 03: kiểm định nghiệm đơn vị cho phương trình (17)
Null Hypothesis: GDP has a unit root
Augmented Dickey-Fuller test statistic
Test critical values:
1% level
5% level
10% level
t-Statistic
Prob.*
3.308977
-2.593468
-1.944811
-1.614175
0.9997
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(GDP)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
GDP(-1)
D(GDP(-1))
0.003920
0.350077
0.001185
0.105298
3.308977
3.324617
0.0014
0.0013
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.101357
0.090124
35.26823
99507.87
-407.5051
2.079471
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
24.48415
36.97368
9.987930
10.04663
10.01150
Vậy Yt là chuỗi dừng
Bảng 04: kiểm tra nghiệm phương trình với mô hình (18)
Null Hypothesis: GDP has a unit root
Augmented Dickey-Fuller test statistic
Test critical values:
1% level
5% level
10% level
t-Statistic
Prob.*
-0.628320
-3.512290
-2.897223
-2.585861
0.8576
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(GDP)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
GDP(-1)
D(GDP(-1))
C
-0.003887
0.340358
31.29047
0.006186
0.105144
24.33940
-0.628320
3.237080
1.285589
0.5316
0.0018
0.2023
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.119772
0.097488
35.12523
97468.75
-406.6562
5.374752
0.006479
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
24.48415
36.97368
9.991616
10.07967
10.02697
2.084703
Vậy Yt là chuỗi không dừng
Bảng 05: Kiểm định nghiệm phương trình với mô hình (19)
Null Hypothesis: GDP has a unit root
Augmented Dickey-Fuller test statistic
Test critical values:
1% level
5% level
10% level
t-Statistic
Prob.*
-2.415315
-4.073859
-3.465548
-3.159372
0.3691
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(GDP)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
GDP(-1)
D(GDP(-1))
C
@TREND("1")
-0.096351
0.385933
283.2723
2.477854
0.039892
0.104103
110.0452
1.056786
-2.415315
3.707213
2.574145
2.344707
0.0181
0.0004
0.0119
0.0216
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.177728
0.146102
34.16611
91051.21
-403.8637
5.619716
0.001534
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
24.48415
36.97368
9.947896
10.06530
9.995031
2.155067
Vậy Yt là chuỗi không dừng
Chương 4: các mô hình tự hồi quy
1.
Mô hình tự hồi quy bậc p, AR(p)
Mô hình AR(p) có dạng như sau:
Yt = ϕ0 + ϕ1Yt-1 + ϕ2Yt-2 + …+ ϕpYt-p + ut
(21)
Yt = ϕ0 + + ut
(22)
Dạng rút gọn như sau:
Hệ số ϕ0 thể hiện mức trung bình của chuỗi . Nếu dữ liệu dao động xung quanh giá
trị 0 hoặc dạng sai phân thì không cần hệ số ϕ0 trong mô hình.
Điều kiện để một chuỗi trong mô hình AR(p) là chuỗi dừng phải thõa mãn điều kiện
sau:
Để xác định số độ trễ p ta sử dụng giản đồ tự tương quan theo cách như sau :ACF
sẽ có xu hướng bằng 0 ngay lập tức, trong khi đó, hệ số tự tương quan riêng, ký hiệu
là PACF sẽ có xu hướng khác 0 một cách có ý nghĩa thống kê cho đến độ trễ P và sẽ
bằng 0 ngay sau độ trễ p đó. PACFk là gì? Nó được sử dụng để đo lường mức độ quan
hệ giữa Yt và Yt-k, khi các ảnh hưởng của các độ trễ từ 1 đén k-1 đã được loại trừ. Mục
đích phổ biến của việc xác đingj PACFk là để xác định mô hình ARIMA thích hợp.
Hệ số tự tương quan riêng bậc m được định nghĩa như hệ số tự hồi quy cuối cùng
của mô hình AR(m). Ví dụ, các phương trình dưới đây được sử dụng để xác định các
mô hình AR(1), AR(2),…,AR(m). Hệ số cuối cùng của Y trong mỗi phương trình này,
1,2,…,m là hệ số tự tương quan riêng.
Yt = 1Yt-1 + et
Yt = 1Yt-1 +2Yt-2 + et
Yt = 1Yt-1 +2Yt-2 + …+ mYt-m + et
Nếu quá trình tạo ra một chuỗi theo mô hình AR(1), thì chỉ có các hệ số , 1 có ý
nghĩa thống kê trong khi các hệ số , 2, 3,…, m đều không có ý nghĩa thống kê. Nếu quá
trình tạo ra một chuỗi theo mô hình AR(2), thì chỉ có các hệ số , 1và2 có ý nghĩa thống
kê trong khi các hệ số 3,…, m đều không có ý nghĩa thống kê. Lập luận tương tự với
các mô hình AR(3), AR(4),…,AR(p).
Ví dụ minh họa: với dữ liệu tổng sản phẩm quốc nội (GDP) từ những số liệu thu thập
được từ năm 1990 đến năm 2006
Bước 1 : vẽ giản đồ tự tương quan
Date: 04/24/15 Time: 03:01
Sample: 1 84
Included observations: 83
Autocorrelation
. |**
. |**
.|.
.|.
.*| .
.|.
.|.
.*| .
.*| .
.*| .
.*| .
**| .
.*| .
.*| .
.*| .
.|.
.|.
. |*.
. |*.
. |*.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Partial Correlation
. |**
. |*.
.*| .
.|.
.|.
.|.
. |*.
.*| .
.|.
.*| .
.*| .
.*| .
.|.
.*| .
.|.
.|.
.|.
.|.
. |*.
.|.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
AC
PAC
Q-Stat
Prob
0.337
0.250
0.010
-0.035
-0.068
-0.063
0.027
-0.137
-0.100
-0.198
-0.171
-0.209
-0.145
-0.184
-0.134
-0.051
0.034
0.114
0.190
0.199
0.337
0.153
-0.131
-0.049
-0.017
-0.021
0.077
-0.185
-0.054
-0.105
-0.080
-0.111
-0.055
-0.155
-0.057
-0.005
0.039
0.038
0.101
0.039
9.7799
15.202
15.210
15.322
15.744
16.107
16.176
17.939
18.883
22.675
25.532
29.857
31.962
35.426
37.295
37.564
37.687
39.101
43.068
47.524
0.002
0.000
0.002
0.004
0.008
0.013
0.024
0.022
0.026
0.012
0.008
0.003
0.002
0.001
0.001
0.002
0.003
0.003
0.001
0.000
.|.
.|.
.|.
.|.
. |*.
.|.
.|.
.*| .
.|.
.*| .
.*| .
.*| .
.|.
.|.
.*| .
. |*.
|
|
|
|
.*| .
.|.
.|.
.*| .
. |*.
.*| .
.|.
.|.
. |*.
.*| .
.|.
.|.
.|.
.|.
.*| .
.|.
|
|
|
|
|
|
|
|
|
|
|
|
|
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.001
0.018
-0.011
-0.061
0.088
-0.014
0.034
-0.099
0.044
-0.167
-0.121
-0.108
-0.048
0.021
-0.071
0.087
-0.175
-0.033
-0.006
-0.149
0.112
-0.136
-0.022
-0.058
0.110
-0.201
-0.031
-0.042
0.050
0.017
-0.147
0.009
47.524
47.563
47.578
48.023
48.956
48.979
49.128
50.374
50.623
54.339
56.338
57.955
58.282
58.346
59.079
60.222
0.001
0.001
0.002
0.003
0.003
0.004
0.006
0.006
0.008
0.004
0.004
0.003
0.004
0.006
0.007
0.007
Bảng 06: giản đồ tự tương quan
Gỉan đồ tự tương quan này cho thấy chỉ có hệ số tự tương quan riêng (PAC 1) bậc
một có ý nghĩa thống kê, vậy có thể thích hợp với mô hình AR(1).
Bước 2 : ước lượng mô hình AR(1)
Dependent Variable: GDP
Method: Least Squares
Date: 04/24/15 Time: 03:05
Sample (adjusted): 2 84
Included observations: 83 after adjustments
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
GDP(-1)
31.84191
0.997980
25.23600
0.006445
1.261765
154.8418
0.2107
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.996633
0.996591
37.17608
111946.9
-416.8599
23975.98
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
3888.007
636.7621
10.09301
10.15129
10.11643
1.309594
Bảng 07: kết quả ước lượng mô hình AR(1)
Phương trình ước lượng được viết lại :
t
= 31.84191 + 0.99798Yt-1
Bước 3 : đánh giá mô hình
Bảng 08: so sánh mô hình AR(1) và AR(2)
AR(1)
Root Mean Squared Error
Mean Absolute Error
Mean Abs. Percent Error
Theil Inequality Coefficient
AR(2)
115.6669
90.74476
2.365613
0.014661
Root Mean Squared Error
Mean Absolute Error
Mean Abs. Percent Error
Theil Inequality Coefficient
127.6066
98.25352
2.547943
0.016098
Các tiêu chí đánh giá độ chính xác của dự báo ở mô hình AR(1) nhỏ hơn ở mô hình
AR(2). Như vậy, AR(1) có thể là mô hình thích hợp hơn trong trường hợp này.
2.
Mô hình bình quân di động bậc q, MA(q)
Mô hình MA(q) có dạng như sau:
Yt = µ + ut + θ1ut-1 + θ2ut-2 +…+ θqut-q
(23)
Dạng rút gọn như sau:
Yt = µ + µt + ut-j
(24)
Giá trị Y tại thời điểm t không chỉ phụ thuộc vào các thông tin hiện tại mà còn phụ
thuộc vào các thông tin trong quá khứ. Tuy nhiên các thông tin gần nhất có ý nghĩa
nhiều hơn so với các thông tin trước đó. Như vậy, các mô hình MA cung cấp giá trị dự
báo của Yt trên cơ sở kết hợp tuyến tính của các giá trị sai số quá khứ trong khi đó,
các mô hình AR dự báo Yt như một hàm tuyến tính của các giá trị quá khứ của bản
thân Yt.
Các phương trình có thể được viết lại theo một cách khác nhau như sau:
Yt - µ = ut + θ1ut-1 + θ2ut-2 +…+ θqut-q
Yt+1 - µ = ut+1 + θ1ut + θ2ut-t +…+ θqut-q+1
Nói cách khác, độ lệch của Y t là một hàm tuyến tính của các sai số hiện tại và quá
khứ.
Để xác định độ trễ q ta sử dụng giản đồ tự tương quan theo cách sau đây: ACF sẽ
có xu hướng khác 0 một cách có ý nghĩa thống kê cho đến độ trễ q và sẽ bằng 0 ngay
sau độ trễ đó. Điều này có nghia rằng, nếu chuỗi thời gian Y t là một chuỗi thời gian
theo MA(2) thì các hệ số ACF1 và ACF2 có ý nghĩa thống kê, các hệ số khác không có
ý nghĩa thống kê. Trong khi đó, PACF sẽ có xu hướng bằng 0 ngay lập tức.
Thông thường, ít có chuỗi thời gian nào thõa mãn các điều kiện của mô hình AR(p)
hoặc mô hình MA(q), mà thường là kết hợp của hai mô hình này, có nghĩa là một
chuỗi dừng thì có thể tuân theo mô hình tổng quát là ARMA(p,q).
Ví dụ minh họa:
Bước 1 : vẽ giản đồ tự tương quan
Nhìn vào giản đổ tự tương quan ở bảng … cho có thể hai số tự tương quan AC 1,
AC2 khác không một cách có ý nghĩa thống kê. Tuy nhiên để biết mô hình MA(1),
MA(2) phù hợp hơn ta nên thực hiện tất cả rồi so sánh kết quả.
Bước 2 : Ước lượng mô hình MA(1), MA(2),
Bảng 09: kết quả ước lượng mô hình MA(1)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
MA(1)
3889.815
0.975274
70.99345
0.010993
54.79118
88.71787
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.740302
0.737135
329.4300
8898978.
-605.1573
233.7509
0.000000
Inverted MA Roots
-.98
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
3875.921
642.5344
14.45613
14.51400
14.47939
0.055413
Bảng 10: kết quả ước lượng mô hình MA(2)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
MA(1)
MA(2)
3901.999
1.651292
0.913680
75.37630
0.045678
0.045439
51.76692
36.15103
20.10783
0.0000
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.911126
0.908931
193.9013
3045414.
-560.1207
415.2005
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
Inverted MA Roots
-.83-.48i
-.83+.48i
3875.921
642.5344
13.40764
13.49445
13.44254
0.457744
Bước 3: So sánh kết quả:
Bảng 11: so sánh mô hình MA(1) và mô hình MA(2)
Chỉ tiêu
MA(1)
MA(2)
RMSE
631.6499
623.8866
MAE
540.0685
534.6618
MAPE
14.34096
14.17654
Theil’s U
0.080852
0.079805
Như vậy, mô hình MA(2) có vẻ tốt hơn các mô hình khác vì sai số dự báo nhỏ hơn.
Vậy phương trình dự báo được viết lại như sau:
3.
Mô hình ARMA
Nếu kết hợp mô hình AR(p) với mô hình MA(q) ta có mô hình ARMA(p,q) có dạng
như sau:
Yt = ϕ0 + ϕ1Yt-1 + ϕ2Yt-2 + …+ ϕpYt-p + ut + θ1ut-1 + θ2ut-2 +…+ θqut-q
(25)
Dạng rút gọn của ARMA(p,q) như sau:
Yt = ϕ0 + + ut + ut-j
(26)
Tương tự như các mô hình AR(p) và MA(q), các mô hình ARMA(p,q) chỉ thích
hợp cho các chuỗi dừng. trong trường hợp này, ta cần phải xác định độ trễ p và q thích
hợp theo cách như đã trình bày ở các phần trên.
Chương 5: Mô hình ARIMA
Box và Jenkins là những người đầu tiên giới thiệu các mô hình ARIMA, trong đó:
AR : Autogressive (tự hồi quy)
I : Integrated (chuỗi dừng sau khi chuyển sang dạng sai phân)
MA : Moving average (bình quân di động)
Mô hình tự hồi quy kết hợp với trung bình di động (ARIMA) là một lớp mô hình
tuyến tính có khả năng biểu diễn cả chuỗi thời gian tĩnh lẫn không tĩnh. Mô hình
ARIMA dựa vào các mẫu tự tương quan trong bản thân của chuỗi thời gian để sinh ra
dự đoán. Hệ thống các phương pháp dùng để xác định, kiểm tra và cải tiến mô hình
ARIMA có sự đóng góp rất lớn của hai nhà thống kê G.E.P.Box và G.M.Jenkins. Do
đó việc mô hình và dự đoán dựa trên mô hình ARIMA còn được gọi là phương pháp
luận Box-Jenkins.
1. Quy trình lựa chọn mô hình ARIMA(p,d,q)
Quy trình lựa chọn mô hình ARIMA thường thông qua ba bước là : nhận dạng,
ước lượng và kiểm tra chuẩn đoán.
Bước 1: Nhận dạng :
- Thống kê mô tả để kểm tra xem dữ liệu có những yếu tố bất thường , thiếu dữ liệu hay
có thay đổi cấu trúc hay không.
- Xác định xem dữ liệu có phải là chuỗi dừng hay không? Nếu nó không dừng thì
thường là lấy sai phân bậc 1.
- Khi đã có chuỗi dừng, cần phải xác định dạng mô hình sẽ được sử dụng:
• Đối với mô hình MA(q) , ACF sẽ có xu hướng khác không một cách có ý nghĩa thống
kê cho đến độ trễ q và sẽ bằng 0 ngay sau độ trễ q đó. Trong khi đó, PACF sẽ có xu
hướng bằng 0 ngay lập tức.
• Đối với mô hình AR(p) thuần túy sẽ ngược lại so với mô hình MA(q).
•
Nếu cả p và q đều khác 0, ta sử dụng mô hình ARMA cho dữ liệu đã chuyển đổi sang
chuỗi dừng. trong trường hợp này, ta khó xác định số bậc chính xác của AR và MA
nên ta phải sử dụng nhiều mô hình khác nhaurồi tiến hành so sánh lựa chọn.
Dạng ACF và PACF cho các mô hình ARMA (p,q) tóm tắt như sau:
Bảng 12: lựa chọn độ trễ phù hợp:
Mô hình
MA(1)
AR(1)
ARMA(1,1)
ARMA(p,q)
2.
-
ACF
Có ý nghĩa ở độ trễ thứ nhất
Bằng 0 ngay lập tức
Bằng 0 sau độ trễ thứ nhất
Bằng 0 sau độ trễ thứ q
PACF
Bằng 0 ngay lập tức
Có ý nghĩa ở độ trễ thứ nhất
Bằng 0 sau độ trễ thứ nhất
Bằng 0 sau độ trễ thứ p
Bước 2 : ước lượng
Ước lượng từng mô hình có thể có :
Sử dụng các tiêu chí AIC , SBC để so sánh giữa các mô hình.
Kiểm tra dấu và thống kê t của từng hệ số.
Bước 3 : phân tích và chuẩn đoán.
Vẽ đồ thị phần dư theo theo phần dư hoặc đồ thị tần suất.
Kiểm tra tính ngẫu nhiên của phần dư bằng giản đồ tự tương quan.
Quan sát và so sánh đồ thị giá trị dự báo với giá trị thực tế.
Các kiểm định thống kê khác.
Kiểm tra sai số dự báo.
Phương pháp Box-Jenkins
Quy trình sáu bước của Box-Jenkins
Bước 1:
Tính ACF và PACF của dữ liệu gốc, kiểm tra xem chuỗi gốc có dừng không. Nếu
dừng thì chuyển sang bước 3.
Bước 2:
Lấy log rồi lấy sai phân bậc một của dữ liệu gốc sau đó tính ACF và PACF của dữ
liệu chuyển đổi này. Nếu dữ liệu ít biến động, ta có thể lấy sai phân trực tiếp mà
không cần chuyển sang dạng log. Việc lấy log nhằm hỗ trợ nhận dạng các độ trễ p và
q dễ dàng hơn. Sau khi đã xác định độ trễ thích hợp, chúng ta có thể ước lượng dạng
sai phân bậc một của dữ liệu gốc mà không nhất thiết phải ước lượng theo sai phân
bậc một của log dữ liệu gốc.
Bước 3:
Phân ích giản đồ tự tương quan để xác định các mô hình có thể có.
Bước 4: Ước lượng các mô hình dự kiến.
Bước 5: Đối với mỗi mô hình được ước lượng:
Kiểm định hệ số của độ trễ cao nhất xem có ý nghĩa thống kê hay không. Nếu không,
giảm bớt độ trễ của p hoặc q.
-
Kiểm tra ACF và PACF đối với phần dư. Nếu mô hình đúng thì các giá trị đó không
có ý nghĩa thống kê.
Kiểm tra AIC, SBC và R2 điều chỉnh để xem mô hình nào phù hợp hơn.
So sánh các sai số dự báo.
Phân tích đồ thị phần dư (đồ thị tần suất, giản đồ tự tương quan)
Phân tích đồ thị giá trị dự báo và giá trị thực tế.
Khi đánh giá các mô hình ARIMA, người phân tích nên so sánh giữa các mô hình với
nhau chứ không nên phân tích một cách riêng rẽ.
Bước 6: Nếu có thay đổi trong mô hình gốc thì quay lại bước 4.
Ví dụ minh họa:
Bước 1: khảo sát chuỗi dữ liệu gốc
Như đã biết thì chuỗi GDP là một chuỗi không dừng.
Bước 2: lấy log và sai phân bậc một của log
Bảng 13: giản đồ tự tương quan của d[log(GDP)].
Date: 04/24/15 Time: 08:52
Sample: 1 84
Included observations: 83
Autocorrelation
. |**
. |**
.|.
.|.
.*| .
.*| .
.|.
.*| .
.*| .
.*| .
.*| .
.*| .
.*| .
.*| .
.*| .
.*| .
.|.
. |*.
. |**
. |**
.|.
.|.
.|.
.|.
. |*.
.|.
.|.
.*| .
.|.
.*| .
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Partial Correlation
. |**
. |*.
.*| .
.|.
.|.
.|.
.|.
.*| .
.*| .
.*| .
.*| .
.*| .
.|.
.*| .
.*| .
.|.
.|.
.|.
. |*.
.|.
.*| .
.|.
.|.
.*| .
. |*.
.*| .
.|.
.|.
. |*.
.*| .
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
AC
PAC
Q-Stat
Prob
0.303
0.253
0.008
-0.035
-0.085
-0.070
0.013
-0.156
-0.138
-0.202
-0.199
-0.201
-0.127
-0.168
-0.128
-0.077
0.045
0.102
0.229
0.238
0.027
0.033
0.005
-0.056
0.117
0.011
0.072
-0.080
0.056
-0.150
0.303
0.178
-0.124
-0.060
-0.037
-0.018
0.070
-0.193
-0.101
-0.085
-0.109
-0.102
-0.048
-0.166
-0.089
-0.051
0.042
0.029
0.112
0.061
-0.196
-0.055
0.014
-0.154
0.142
-0.123
-0.013
-0.027
0.108
-0.165
7.8953
13.489
13.494
13.601
14.250
14.702
14.718
17.012
18.822
22.769
26.647
30.680
32.297
35.182
36.891
37.513
37.727
38.866
44.648
50.998
51.081
51.208
51.211
51.584
53.247
53.261
53.907
54.730
55.142
58.154
0.005
0.001
0.004
0.009
0.014
0.023
0.040
0.030
0.027
0.012
0.005
0.002
0.002
0.001
0.001
0.002
0.003
0.003
0.001
0.000
0.000
0.000
0.001
0.001
0.001
0.001
0.002
0.002
0.002
0.002
.*| . |
.*| . |
.|. |
.|. |
.*| . |
.|. |
.|.
.|.
.|.
.|.
.*| .
.|.
|
|
|
|
|
|
31
32
33
34
35
36
-0.122
-0.104
-0.066
-0.006
-0.106
0.069
-0.048
-0.048
0.033
0.046
-0.152
0.027
60.179
61.664
62.269
62.274
63.911
64.620
0.001
0.001
0.002
0.002
0.002
0.002
Sai phân bậc 1 của GDP là một chuỗi dừng. Tiếp theo ta sẽ xác định mô hình
ARIMA phù hợp để dự báo sai phân của GDP , sau đó sẽ dự báo GDP từ giá trị dự
báo của sai phân GDP.
Bước 3: Xác định p và q
p = 1 và q = 2
Bước 4: ước lượng 2 mô hình có thể có
Bảng 14: kết quả ước lượng mô hình ARMA(1,2)
Dependent Variable: DLGDP
Method: Least Squares
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
AR(1)
MA(1)
MA(2)
0.006388
-0.772763
1.079150
0.234471
0.001374
0.135630
0.174825
0.117119
4.648395
-5.697574
6.172738
2.001983
0.0000
0.0000
0.0000
0.0488
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.155637
0.123161
0.009543
0.007104
267.1557
4.792435
0.004072
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
0.006485
0.010191
-6.418431
-6.301030
-6.371297
1.871254
Bảng 15: kết quả ước lượng mô hình ARMA(1,1)
Dependent Variable: DLGDP
Method: Least Squares
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
AR(1)
MA(1)
0.006522
0.537625
-0.247906
0.001764
0.273809
0.315797
3.698083
1.963504
-0.785017
0.0004
0.0531
0.4348
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.103923
0.081238
0.009769
0.007539
264.7185
4.581034
0.013111
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
Bước 5: phân tích chuẩn đoán và lựa chọn mô hình
0.006485
0.010191
-6.383378
-6.295327
-6.348027
2.022636
Việc chuẩn đoán mô hình nhằm chứng minh phần dư của mô hình tuân thủ tính
chất của nhiễu trắng.
Lựa chọn mô hình có các lieu chí sau :
-
3.
Kiểm tra tính dừng của biến GDP bằng giản đồ tự tương quan và kiểm định nghiệm
đơn vị. như đã biết thì, GDP là một chuỗi không dừng.
Tạo biến sai phân bậc 1 của GDP và đặt tên là dGDP. Kết quả kiểm định cho thấy
dGDP là một chuỗi dừng.
Xác định các độ trễ p và q cho mô hình ARIMA với chuỗi dGDP .Kết quả khảo sát
cho thấy các độ trễ khả dĩ của p và q.
Giả sử thực hiện và so sánh kết quả ước lượng hai mô hình ARMA với các độ trễ khả
dĩ trên.
Sử dụng các tiêu chí dưới đây để đánh giá lựa chọn các mô hình vừa ước lượng:
• Phần dư của mô hình dự báo phải là một chuỗi ngẫu nhiên.
• Tiêu chí AIC/SBC/HQ.
• Sai số dự báo càng nhỏ càng tốt.
• So sánh giá trị dự báo với giá trị thực tế.
• Hệ số hồi quy có ý nghĩa thống kê hay không.
Chọn mô hình tốt nhất, chúng ta sử dụng mô hình này cho mục đích dự báo GDP ở
giai đoạn t+1.
Ước lượng mô hình ARIMA trên thực tế.
Theo kinh nghiệm, chúng ta nên chọn các độ trễ p,q để các giá trị AC và PAC
nằm ngoài đường viền trong giản đồ tự tương quan thì đó là mô hình ARIMA tốt nhất.
Nếu dữ liệu có yếu tố mùa thì chúng ta có thể sử dụng mô hình SARIMA.
Kết luận.
-
-
Mô hình ARIMA là một mô hình tổng quát có thể sử dụng cho nhiều loại chuỗi
thời gian trong thực tế, kể cả những chuỗi có tính xu thế và thời vụ. Tuy nhiên mô
hình ARIMA cũng có một số hạn chế:
Để xây dựng mô hình ARIMA cần phải có nhiều dữ liệu. với những chuỗi không có
tính mùa vụ cần có 40 quan sát trỏ lên, với chuỗi dữ liệu có tính mùa vụ dữ liệu thu
thập trong khoảng 6-10 năm.
Không dễ cập nhật khi có thêm mô hình mới, thường là mô hình sẽ được xây dựng.
Việc xây dựng mô hình ARIMA đầy đủ tốn nhiều thời gian và tài nguyên hơn các
phương pháp truyền thống khác chẳng hạn như phương pháp làm trơn.
Tài liệu tham khảo:
1.
2.
3.
Sách dự báo và phân tích dữ liệu trong kinh tế và tài chính của tác giả Nguyễn
Trọng Hoài, Phùng Thanh Bình.
Chuỗi thời gian không dừng của Ths.Phạm Chí Cao.
Báo cáo thực tập công nghệ phần mềm “Tìm hiểu mô hình ARIMA để dự báo
cho chuỗi thời gian” của các dinh viên:Ngô Duy Khánh Vân và Đinh Kim
Ngân.