Tải bản đầy đủ (.pdf) (7 trang)

Bài giảng Kinh tế lượng: Chương 6 - ThS. Trần Quang Cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (444.92 KB, 7 trang )

Thu nhập Sự giàu có Chi tiêu
80
810
70
100
1009
65
120
1273
90
140
1425
95
160
1633
110
180
1876
115
200
2052
120
220
2201
140
240
2435
155
260
2686
150



CHƯƠNG 6
HIỆN TƯỢNG ĐA CỘNG TUYẾN
(MULTICOLLINEARITY)

Nguồn: Ramu Ramanathan

1

4

4

ĐA CỘNG TUYẾN

1. Hiểu bản chất và hậu quả của
đa cộng tuyến

MỤC
TIÊU

2. Biết cách phát hiện đa cộng
tuyến và biện pháp khắc phục

5

2

2


5

NỘI DUNG
1

Bản chất, nguyên nhân của đa cộng tuyến

2

Ước lượng các tham số

3

Hậu quả

4

Phát hiện đa cộng tuyến

5

Khắc phục đa cộng tuyến

3

3

6

6


1


6.1 Bản chất của đa cộng tuyến
VD
X2

10

15

18

24

30

X3

50

75

90

120

150


X*3
V

52
2

75
0

97
7

129
9

152
2

X3i = 5X2i, vì vậy có cộng tuyến hoàn hảo giữa
X2 và X3 ; r23 = 1
X2 và X3* không có cộng tuyến hoàn hảo,
nhưng hai biến này có tương quan chặt
chẽ.
7

7

10

10


6.1 Bản chất của đa cộng tuyến

6.1 Bản chất của đa cộng tuyến

Khi lập mô hình hồi quy bội

Yˆi  ˆ1  ˆ 2 X 2 i  ˆ3 X 3i  ...  ˆ k X ki
Có sự phụ thuộc tuyến tính cao giữa các biến
giải thích gọi là đa cộng tuyến.
a. Đa cộng tuyến hoàn hảo
Tồn tại 2, 3,… k không đồng thời bằng 0
sao cho
2X2 + 3X3 + …+ kXk = 0
Nói cách khác là xảy ra trường hợp một biến
giải thích nào đó được biểu diễn dưới dạng một
tổ hợp tuyến tính của các biến còn lại.

Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến

8

11

8

11

6.1 Bản chất của đa cộng tuyến


6.1 Bản chất của đa cộng tuyến

b. Đa cộng tuyến không hoàn hảo
2X2 + 3X3 + …+ kXk + vi= 0
Với vi là sai số ngẫu nhiên thì ta có hiện tượng đa
cộng tuyến không hoàn hảo giữa các biến giải
thích.
Nói cách khác là một biến giải thích nào đó có
tương quan với một số biến giải thích khác.

Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
9

9

12

12

2


6.1 Nguyên nhân của đa cộng tuyến

6.2 Ước lượng các tham số khi có đa cộng tuyến

Một số nguyên nhân gây ra hiện tượng
đa cộng tuyến
- Khi chọn các biến độc lập mối quan có
quan hệ nhân quả hay có tương quan

cao vì đồng phụ thuộc vào một điều kiện
khác.
- Khi số quan sát nhỏ hơn số biến độc lập.
- Cách thu thập mẫu: mẫu không đặc
trưng cho tổng thể
- Chọn biến Xi có độ biến thiên nhỏ.

ˆ 2 
ˆ2 

2
3i

 y x x  y x x
 x  x  ( x x )
i

2i

2
2i

i

2
3i

3i

2i


2i
2

x3 i

3i

  yi x3i  x32i    yi x3i  x3i x3i 0

2  x32i  x32i  2  x32i  x32i
0

 Các hệ số ước lượng không xác định: chúng ta không
tách rời tác động của từng biến Xi lên Y do không thể
giả định X2 thay đổi trong khi X3 không đổi.
16

13

13

16

6.2 Ước lượng khi có đa cộng tuyến

6.2 Ước lượng các tham số khi có đa cộng tuyến

1. Trường hợp có đa cộng tuyến hoàn hảo
Xét mô hình hồi qui 3 biến dưới dạng sau:

Yi = 2 X2i + 3 X3i + ei
giả sử X3i = X2i, mô hình được biến đổi thành:
Yi = (2+ 3)X2i + ei = 0 X2i + ei
Phương pháp OLS
ˆo  ( ˆ2  ˆ3 )  

x2 i yi

x

2
2i

2. Trường hợp có đa cộng tuyến không hoàn hảo
• Đa cộng tuyến hoàn hảo thường không xảy ra trong
thực tế.
• Xét mô hình hồi qui 3 biến dưới dạng sau:
yi = 2 x2i + 3 x3i + ei
Giả định x3i =  x2i + vi
Với   0 và vi là sai số ngẫu nhiên.
• Trong trường hợp này, các hệ số hồi qui 2 và
3 có thể ước lượng được:

ˆ2 , ˆ3

 Không thể tìm được lời giải duy nhất cho

14

14


17

17

6.2 Ước lượng khi có đa cộng tuyến

ˆ 2 
ˆ2 

2
3i

6.2 Ước lượng các tham số khi có đa cộng tuyến

 y x x  y x x
 x  x  ( x x )
i

2i

2
2i

i

2
3i

3i


2i

2i
2

x3 i

3i

  yi x3i  x32i    yi x3i  x3i x3i 0

2  x32i  x32i  2  x32i  x32i
0

Ta có thể ước lượng được các ˆ này nhưng s.e.
sẽ rất lớn.

 Các hệ số ước lượng không xác định
 Phương sai và sai số chuẩn của 2 và 3
là vô hạn
15

15

18

18

3



6.3 Hậu quả của đa cộng tuyến

6.3 Hậu quả của đa cộng tuyến

Nếu có cộng tuyến gần hoàn hảo:


Nếu có cộng tuyến gần hoàn hảo:

Các ước lượng vẫn BLUE, nhưng:

3. Tỉ số t "không có ý nghĩa".

1. Phương sai và hiệp phương sai của các ước
lượng OLS lớn.

Khi kiểm định giả thuyết H0: 2 = 0, chúng ta sử
dụng tỷ số t.
t 

r23 là hệ số tương
quan giữa X2 và
X3.

ˆ 2

se ( ˆ 2 )


và so sánh giá trị ước lượng của t với giá trị tra bảng
(tới hạn) của t.
Trong trường hợp cộng tuyến cao thì sai số chuẩn
sẽ rất lớn và do đó làm cho giá trị t sẽ nhỏ đi, kết
quả là sẽ làm tăng chấp nhận giả thuyết H0.

Khi r23  1, các giá
trị trên  
19

19

22

22

6.3 Hậu quả của đa cộng tuyến

6.3 Hậu quả của đa cộng tuyến

Nếu có cộng tuyến gần hoàn hảo:

Nếu có cộng tuyến gần hoàn hảo:

2. Khoảng tin cậy rộng hơn.

4. R2 cao nhưng tỉ số t ít có ý nghĩa.

Khoảng tin cậy của 2 và 3 (với độ tin cậy 1 – )
là:

^
^
2 =  2  t /2 se (  2);
^
^
3 =  3  t /2 se (  3);
trong đó:


^
^
se (  2) =
se (  3) =
2
2
2
2





(1 r23)x2i

(1 r23)x3i

Đa cộng tuyến cao:




- một hoặc một số tham số tương quan (hệ
số góc riêng) không có ý nghĩa về mặt thống




- R2 trong những trường hợp này lại rất cao
(trên 0,9).



- kiểm định F thì có thể bác bỏ giả thuyết cho
rằng 2 = 3 = … = k = 0.

20

20

23

23

6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:

Giá trị của r23 Khoảng tin cậy 95% của B2
ˆ2 1.96* 1.33* A

0.5
0.995


ˆ2 1.96* 100* A

0.999

ˆ2 1.96* 500* A

A

6. Dấu của các ước lượng của các hệ số hồi qui có
thể sai

ˆ2 1.96* 10.26 * A

0.95

21

5. Các ước lượng OLS và sai số chuẩn của chúng
trở nên rất nhạy với những thay đổi nhỏ trong
dữ liệu.

ˆ2 1.96* A

0

7. Thêm vào hay bớt đi các biến cộng tuyến với các
biến khác, mô hình sẽ thay đổi về dấu hoặc
thay đổi về độ lớn của các ước lượng.


2

x

2
2i
21

24

24

4


Ví dụ: Bảng 2 do nhập sai số liệu nên
xảy ra đa cộng tuyến
Bảng 1
Y
1
2
3
4
5

X2
2
0
4
6

8

X3
4
2
12
0
16

Bảng 2
Y
1
2
3
4
5

X2
2
0
4
6
8

6.4 Cách phát hiện đa cộng tuyến
1. R2 lớn nhưng tỷ số t nhỏ
Nếu R2 cao, chẳng hạn, >0,8 và F test bác bỏ giả
thuyết 2 = 3 = … = k = 0, nhưng t test cho
từng i lại chấp nhận H0.


X3
4
2
0
12
16

2. Tương quan cặp giữa các biến giải thích cao

Yˆi  1 .193  0 .446 X 2 i  0.003 X 3i
R 2  0.81; r23  0 .5523 ; cov( ˆ2 , ˆ3 )   0 .00868

Yˆi  1.210  0.401X 2i  0.027X 3i
R2  0.81; r23  0.8285; cov(ˆ2 , ˆ3 )  0.0282

Se (0.7736) (0.1848) (0.0850)
t (1.543) (2.415) (0.0358)

Se (0.7480) (0.2720) (0.1252)
t
(1.618) (1.4752) (0.2152)

 (X
 (X

rXZ 

i
i


 X )( Z i  Z )
 X )2 (Zi  Z )2

Trong đó X, Z là 2 biến giải thích trong mô hình
25

25

28

28

6.4 Cách phát hiện đa cộng tuyến
3. Sử dụng mô hình hồi quy phụ
Hồi qui một biến giải thích X nào đó theo các biến
còn lại.

Đa cộng tuyến là một hiện tượng theo
mẫu, nghĩa là cho dù các biến độc lập
Xi không tương quan tuyến tính trong
tổng thể nhưng chúng có thể tương
quan tuyến tính trong một mẫu cụ thể
nào đó. Do đó cỡ mẫu lớn thì hiện
tượng đa cộng tuyến ít nghiêm trọng
hơn cỡ mẫu nhỏ

Xˆ 2 i  ˆ1  ˆ3 X 3i  ...  ˆk X mi
Tính

R2


và F cho mỗi mô hình theo công thức:

F 

R 2 (n  m )
( 1  R 2 )( m  1 )

Lập giả thiết H0: R2 = 0 ~ H0: không có đa cộng tuyến
Nếu F > F(m-1,n-m): bác bỏ H0 => có đa cộng tuyến
Nếu F < F(m-1,n-m): chấp nhận H0 => không có đa
cộng tuyến
26

26

29

29

6.4 Cách phát hiện đa cộng tuyến

6.4 Cách phát hiện đa cộng tuyến
VD: Cho doanh số bán (Y), chi phí chào hàng (X2)
và chi phí quảng cáo (X3) trong năm 2001 ở 12
khu vực bán hàng của 1 công ty. Có hiện tượng
đa cộng tuyến không?
Hồi quy biến chi phí chào hàng với chi phí quảng
cáo, ta có kết quả
X2 =42,012 + 0,387 *X3

R2 = 0,22922 F= 2,9738
Với mức ý nghĩa α=5%, tra bảng F0.05 (1,10)=
4,96. Ta thấy F < F0.05 (1,10) nên chấp nhận Ho
hay không có đa cộng tuyến.

1. Hệ số R2 lớn nhưng tỷ số t nhỏ
2. Tương quan cặp giữa các biến giải thích cao
3. Sử dụng mô hình hồi qui phụ
4. Sử dụng yếu tố phóng đại phương sai (VIF)

27

27

30

30

5


6.4 Cách phát hiện đa cộng tuyến

6.5 Cách khắc phục

4. Sử dụng nhân tử phóng đại phương sai (VIF)
Đối với hàm hồi quy 2 biến giải thích, VIF được định nghĩa
như sau:

VIF 


1. Dùng thông tin tiên nghiệm
Ví dụ
Yi=1 + 2X2i+ 3X3i + ui
Biết 3=0.12

1
(1  r232 )

Đối với trường hợp tổng quát, có (k-1) biến giải thích thì:

VIF 

Biến đổi

1
(1  R 2j )

R2j: là giá trị R2 trong hàm hồi quy của Xj theo (k-1) biến giải
thích còn lại. Thông thường khi VIF > 10, thì biến này được
coi là có cộng tuyến cao

var( ˆ 2 ) 

2

x

2
2i


Yi=1 + 2X2i+ 0.12X3i + ui
Yi=1 + 2Xi+ ui
Với Xi=X2i+ 0.1X3i

.VIF
31

34

31

34

Giá trị của r23
0
0.5
0.7
0.8
0.9
0.95
0.97
0.99
0.995
0.999

A

VIF
1

1.33
1.96
2.78
5.76
10.26
16.26
50.25
100
500

2

x

2
2i

;B 

Var ( ˆ 2 )

Cov ( ˆ 2 , ˆ 3 )

1A
1.33A
1.96A
2.78A
5.76A
10.26A
16.92A

50.25A
100A
500A

0
0.67B
1.37B
2.22B
4.73B
9.74B
16.4B
49.75B
99.5B
499.5B


2
2i

6.5 Cách khắc phục
2. Loại trừ một biến giải thích ra khỏi mô
hình
B1: Xem cặp biến giải thích nào có quan hệ
chặt chẽ. Giả sử X2, X3…Xk là các biến độc lập,
Y là biến phụ thuộc và X2, X3 có tương quan
chặt chẽ với nhau.
B2: Tính R2 đối với các hàm hồi quy: có mặt cả
2 biến; không có mặt một trong 2 biến
B3: Loại biến mà giá trị R2 tính được khi không
có mặt biến đó là lớn hơn.


2

x x

2
3i
32

32

35

35

6.5 Cách khắc phục

6.5 Cách khắc phục

1. Dùng thông tin tiên nghiệm
Ví dụ khi hồi quy mô hình sản xuất Cobb-Douglas

3. Bổ sung thêm dữ liệu hoặc chọn mẫu mới

Y i  AL i 3 K i 2 e u i
Ln(Yi)=1 + 2ln(Ki)+ 3ln(Li) + ui
Có thể gặp hiện tượng đa cộng tuyến do K và L
cùng tăng theo quy mô sản xuất. Nếu ta biết là hiệu
suất không đổi theo quy mô tức là 2+3=1.
Ln(Yi)=1 + 2ln(Ki)+ (1-2)ln(Li) + ui

Ln(Yi) – Ln(Li) = 1 + 2[ln(Ki) - ln(Li)] + ui
Ln(Yi /Li ) = 1 + 2ln(Ki /Li) + ui
=> mất đa cộng tuyến (vì đây là mô hình hồi quy
đơn).
33

33

36

36

6


X2
80
100
120
140
160
180
200
220
240
260

6.5 Cách khắc phục
4. Dùng sai phân cấp 1
Ví dụ từ hàm hồi qui: yt = 1 + 1x1t + 2x2t + ut

ta suy ra
yt-1 = 1 + 1x1,t-1 + 2x2,t-1 + ut-1
Trừ hai vế cho nhau, ta được:
yt – yt – 1 = 1(x1,t – x1,t – 1) + 2(x2,t – x2,t – 1) + (ut – ut – 1)
Hay:

yt = 1  x1,t + 2  x2,t + et,
Mặc dù, x1 và x2 có quan hệ tuyến tính, nhưng
không có nghĩa sai phân của chúng cũng như
vậy.

Y
70
65
90
95
110
115
120
140
155
150

Nguồn: Ramu Ramanathan

37

37

X3

810
1009
1273
1425
1633
1876
2052
2201
2435
2686

40

40

6.5 Cách khắc phục
5. Đổi biến
Ví dụ : yt = 1 + 1x1t + 2x2t + ut
Với Y: tiêu dùng
X1: GDP
X2: dân số
Vì GDP và dân số theo thời gian có xu hướng
tăng nên có thể cộng tuyến.
Biện pháp: chia các biến cho dân số

1. Ước lượng mô hình hồi quy Y= β1 + β2.
X2 + β3.X3 +U
Nhận xét ban đầu: Theo lý thuyết kinh tế thì
chi tiêu cho tiêu dùng (Y) có xu hướng
tăng theo thu nhập (X2) và sự giàu có

(X3) nên dấu của các hệ số hồi quy riêng
là dương.
Kết quả hồi quy trên Eviews như sau:

Yt


u
 1  1  2  t
X 2 t X 2 t X 2t
X 2t
38

38

41

41

Ví dụ 1
Khảo sát chi tiêu tiêu dùng, thu nhập và sự giàu có,
ta có bảng số liệu sau.
Gọi Y: chi tiêu tiêu dùng (USD) X2: thu nhập (USD)
X3: sự giàu có (USD)
Yêu cầu:
1. Ước lượng mô hình hồi quy Y= β1 + β2. X2 +
β3.X3 +U
2. Mô hình có xảy ra đa cộng tuyến không? Vì
sao?
3. Nếu xảy ra đa cộng tuyến, hãy tìm cách khắc

phục.
39

39

42

42

7



×