Tải bản đầy đủ (.doc) (11 trang)

Kinh tế lượng - ĐA CỘNG TUYẾN pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (223.98 KB, 11 trang )

ĐA CỘNG TUYẾN
Chương: ĐA CỘNG TUYẾN
(Multicollinearity)
1. Giới thiệu đa cộng tuyến trong kinh tế lượng.
Trong bài thuyết trình trước chúng ta xét mô hình hồi quy bội với giả thiết
các biến giải thích Xi độc lập tuyến tính với nhau và liệu rằng giả định trên luôn
đúng trong mọi mô hình hồi quy bội ? để làm rõ những nghi ngờ này, chúng ta sẽ
xét bài toán hồi quy bội khi giả thiết về tính độc lập tuyến tính đó bị phá vỡ và sẽ
đưa ra cách thức phát hiện cũng như biện pháp khắc phục hiện tượng giả thiết đó
bị vi phạm.
Trong mô hình hồi quy ở bài trước thì các hệ số hồi quy đối với một biến
cụ thể là số đo tác động riêng phần của biến tương ứng khi tất cả các biến khác
trong mô hình được giữ cố định. Nếu tính độc lập bị phá vỡ, tức là các biến giải
thích có tương quan thì chúng ta không thể chỉ cho một biến thay đổi và giữ các
biến còn lại cố định. Do vậy sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các
biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm
số.
Xét mô hình nhiều biến độc lập:
E(Y/Xi ) = β1 + β2X2i + +βkXki (k ≥ 3)
Hiện tượng đa cộng tuyến xảy ra khi một biến là tổ hợp tuyến tính của các
biến còn lại và một sai số ngẫu nhiên, hay nói cách khác là có một biến biểu diễn
xấp xỉ tuyến tính qua các biến còn lại.
1.1 Bản chất và nguyên nhân.
Bản chất:
Là sự tương quan lẫn nhau giữa các biến độc lập với nhau. Cov(XiXj) <> 0.
Nguyên nhân:
a/ Do phương pháp thu thập dữ liệu.
Thu thập số liệu ít, số quan sát nhỏ hơn số biến độc lập, không toàn diện.
1
ĐA CỘNG TUYẾN
Các giá trị của các biến độc lập phụ thuộc lẫn nhau trong mẫu, nhưng


không phụ thuộc lẫn nhau trong tổng thể.
Ví dụ: người có thu nhập cao hơn khuynh hướng sẽ có nhiều của cải hơn.
Điều này có thể đúng với mẫu mà không đúng với tổng thể.
Trong tổng thể sẽ có các quan sát về các cá nhân có thu nhập cao nhưng
không có nhiều của cải và ngược lại.
b/ Do bản chất của các biến độc lập trong mô hình là tương quan nhau.
Các biến giải thích được xuất hiện trong mô hình kinh tế lượng thường xuất
phát từ lý thuyết hoặc hiểu biết căn bản về hành vi chúng ta cố gắng thiết lập mô
hình, cũng như từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát
từ những kinh nghiệm không kiểm soát và thường tương quan với nhau. Điều này
đặc biệt đúng đối với các biến chuỗi thời gian thường có những xu hướng tiềm ẩn
thông thường. ví dụ , dân số và tổng sản phẩm quốc nội là hai chuỗi dữ liệu tương
quan chặt lẫn nhau.
Chú ý: hiện tượng đa cộng tuyến thường diễn ra đối với số liệu chuỗi thời
gian (time series) giữa hai biến độc lập với nhau.
c/ Do một số dạng mô hình sản sinh ra đa cộng tuyến.
Ví dụ: hồi qui dạng các biến độc lập được bình phương (dạng hàm) sẽ xảy
ra đa cộng tuyến và đặc biệt khi phạm vi giá trị ban đầu của biến độc lập là nhỏ.
1.2. Phân biệt: đa cộng tuyến hoàn hảo và đa cộng tuyến không hoàn hảo.
1.2.1 Đa cộng tuyến hoàn hảo
Bài toán
Các biến X2 ,X3 , ,X k gọi là các đa cộng tuyến hoàn hảo hay còn gọi là
đa cộng tuyến chính xác nếu tồn tại λ2 , ,λk không đồng thời bằng không sao cho:
λ2X2 + λ3X 3+ + λkX k = 0 (1.1)
Đa cộng tuyến hoàn hảo thường rất ít khi xảy ra trong thực tế. Trừ trường
hợp chúng ta rơi vào bẫy biến giả (dummy trap)
1.2.2. Đa cộng tuyến không hoàn hảo (gần đa cộng tuyến)
Bài toán
2
ĐA CỘNG TUYẾN

Các biến X2 ,X3 , ,X k gọi là các đa cộng tuyến không hoàn hảo nếu tồn
tại λ2 , ,λk không đồng thời bằng không sao cho:
λ2 X2 + λ3 X3 + + λ k X k + v
i
= 0 (1.2)
trong đó v
i
là sai số ngẫu nhiên.
Đa cộng tuyến không hoàn hảo thường hay xảy ra trong thực tế (Near
collinearity) khi các biến độc lập tương quan khá cao.
Trường hợp nay chúng ta có thể ước lượng các hệ số hồi qui.
Tuy nhiên sai số chuẩn rất lớn và vì vậy hệ số hồi qui ước lượng không
chính xác, kiểm định t ít có ý nghĩa thống kê và dễ dàng chấp nhận giả thuyết
“không”.
1.3. Ước lượng khi có đa cộng tuyến hoàn hảo.
Chúng ta sẽ thấy rằng khi có hiện tượng đa cộng tuyến hoàn hảo thì các hệ
số hồi quy có thể không xác định và sai số tiêu chuẩn của chúng có thể bằng vô
cùng. Để đơn giản chúng ta xét mô hình hồi quy 3 biến:
= + + + , (i= ) (1.3)
Đặt = - , = - , = -
Ta cũng có = + + (1.4)
Trong phần hồi quy bội ta đã có các ước lượng , là :
= (1.5)
= (1.6)
Nếu xảy ra hiện tượng đa cộng tuyến hoàn hảo thì :
= λ => = .
Thay vào biểu thức (1.5) và (1.6) ta có :
3
ĐA CỘNG TUYẾN
= = (1.7)

Rõ ràng biểu thức trên là không xác định => trong trường hợp đa cộng tuyến hoàn
hảo chúng ta không thể ước lượng được các hệ số hồi quy riêng , cho mô
hình (1.3)
1.4. Ước lượng khi có đa cộng tuyến không hoàn hảo.
Trong thực tế hiếm khi xảy ra trường hợp đa cộng tuyến hoàn hảo vì các
biến độc lập hiếm khi có quan hệ thực sự tuyến tính với nhau. Vì vậy nếu có hiện
tượng đa cộng tuyến thì thường chỉ xảy ra hiện tượng đa cộng tuyến không hoàn
hảo. Để đơn giản, ta cũng xét mô hình hồi quy 3 biến với đa cộng tuyến không
hoàn hảo:
= + + + (1.8) ( i = )
Với là các nhiễu ngẫu nhiên không tương quan với các biến độc lập.Khi đó giữa
hai biến độc lập , có sự đa cộng tuyến không hoàn hảo nghĩa là :
= λ + (1.9)
Với λ ≠ 0 , là các nhiễu ngẫu nhiên không tương quan với và tức là
= 0 , = 0
Từ (1.9) ta cũng có = λ + (1.10) và ta có ước lượng cho là :
=
Tương tự ta cũng có biểu thức của .
2. Hậu quả của hiện tượng đa cộng tuyến:
4
ĐA CỘNG TUYẾN
Xét trường hợp mô hình có hiện tượng đa cộng tuyến không hoàn hảo, tức
biến độc lập có thể xấp xỉ tuyến tính theo các biến , , . Đối với mô hình
hồi quy đa biến thì có thể theo nghĩa là hệ số tương quan riêng có giá trị
tuyệt đối xấp xỉ 1. Trong chương mô hình hồi quy bội ta đã có biểu thức :
Var ( ) =
Đồng thời với độ tin cậy 95% ta có khoảng ước lượng cho , là :
); +1.96Se( )
Với Se( ) = , (i=2,3)
ta thấy rằng khi xấp xỉ 1 thì:

Phương sai Var( ), Var( ) gần với
Khoảng ước lượng lớn hay nói cách khác là khoảng ước lượng tiến tới (-
.Vì vậy ước lượng hệ số trở lên khó có hiệu lực, tức là không có ý nghĩa,
vì khoảng ước lượng quá lớn .
5
ĐA CỘNG TUYẾN
Để kiểm định giả thuyết = 0 ,i = 2, 3 ta dùng các tiêu chuẩn thống kê =
, i= 2, 3.
Tuy nhiên cả 2 thống kê này đều tiến dần tới 0 do Se( ) vì vậy khả năng
chấp nhận giả thuyết là rất lớn. Điều này mâu thuẫn với thực tế vì rõ ràng mức
tiêu dung nội địa phụ thuộc vào các nguồn thu , .
Từ ví dụ trên ta rút ra được một số hậu quả của đa cộng tuyến như sau:
2.1. Ước lượng phương sai trở nên kém chính xác. Hệ số phóng đại phương sai
(VIF)
2.2 Giá trị tới hạn t trở nên nhỏ hơn so với thực tế trong khi R2 là khá cao.
Kiểm định t và F trở nên kém hiệu quả
2.3. Các giá trị ước lượng biến động mạnh khi thay đổi số liệu trong mô hình. (n
N) sẽ làm giảm khả năng xảy ra đa cộng tuyến.
2.4. Các giá trị của các ước lượng có khả năng biến động mạnh khi thay đổi
(rút ra hoặc thêm vào) các biến có tham gia vào hiện tượng đa cộng tuyến.
3. Cách phát hiện đa cộng tuyến:
Ta đã thấy hậu quả của hiện tượng đa cộng tuyến trong mô hình hồi quy. Vì
vậy vấn đề quan trọng là làm thế nào để phát hiện ra hiện tượng đa cộng tuyến và
biện pháp khắc phục ra sao?
Một số quy tắc để phát hiện ra hiện tượng đa cộng tuyến:
a/ Hệ số xác định R2 lớn nhưng giá trị của thống kê t lại nhỏ: Khi thấy trong mô
hình hồi quy có hệ số xác định R2 khá cao (R2 > 0.8) nhưng các giá trị thống kê
ti thấp và xác suất ý nghĩa tương ứng tương đối cao thì có thể kết luận đã có hiện
tượng đa cộng tuyến.
b/ Hệ số tương quan giữa các biến độc lập có giá trị tuyệt đối lớn: Ta có thể tính

các hệ số tương quan rij giữa các biến độc lập. Nếu rij khá gần 1 thì kết luận có
6
ĐA CỘNG TUYẾN
hiện tượng đa cộng tuyến.Hệ số tương quan từ 0.8 trở lên là cao, từ 0.9 trở lên là
rất cao.
c/ Dùng mô hình hồi quy phụ, nếu R2 của mô hình hồi quy phụ cao hơn mô hình
hồi quy chính thì mô hình hồi quy chính có xảy ra hiện tượng đa cộng tuyến. Hồi
qui giữa một biến độc lập nào đó theo các biến độc lập còn lại với nhau và quan
sát hệ số R2 của các hồi qui phụ Thực hiện tính thống kê F
F = [R2/(k-1)] /[(1-R2)/(n-k)]
- k số biến độc lập trong hồi qui phụ
- Nếu F > F∝ thì chúng ta có thể kết luận rằng R2 khác không theo ý nghĩa
thống kê và điều này có nghĩa là có đa cộng tuyến trong mô hình.
d/ Dùng chỉ sổ phóng đại phương sai, nếu VIF ≥10, mô hình xảy ra hiện tượng đa
cộng tuyến rất cao. Từ 5 trở lên là có hiện tượng ĐCT cao. VIF = 1/(1-rtj2)
- rtj2 là hệ số tương quan giữa hai biến độc lập trong mô hình.
- Khi rtj tăng làm VIF tăng và làm tăng mức độ đa cộng tuyến.
- Rule of thumb: VIF ≥ 10 có hiện tượng đa cộng tuyến giữa hai biến độc lập
trong mô hình
4. Các giải pháp khắc phục Đa cộng tuyến.
- Sử dụng thông tin tiên nghiệm
Mấu chốt của hiện tượng đa cộng tuyến là thông tin mẫu vì vậy một trong những
biện pháp khắc phục là sử dụng thông tin tiên nghiệm (là các thông tin đã biết từ
trước về mô hình) hoặc thông tin bên ngoài để ước lượng các hệ số hồi quy. Các
mô hình KTL trong trong các nghiên cứu này có tính khả thi và có thể khắc phục
được thì tiến hành.
Ta xét ví dụ sau :Thiết lập một phương trình sản xuất của một quá trình sản
xuất ta có phương trình :
= (1.11)
7

ĐA CỘNG TUYẾN
trong đó là lượng sản phẩm được sản xuất ở thời kỳ thứ i, là lượng lao động
ở thời kỳ thứ i, là nguồn vốn có được trong thời kỳ thứ i, là nhiễu ngẫu
nhiên, là các hằng số cần ước lượng. Lấy lôgarit 2 vế của (1.11) ta có:
ln = ln + ln( ) + ln( ) + (1.12)
đặt = ln ; = ln ) ; = ln( ) khi đó phương trình (1.11) trở thành
= ln + + + (1.13)
Nếu tương quan giữa K và L cao tức là xảy ra hiện tượng đa cộng tuyến khi đó
phương sai của các hệ số ước lượng , sẽ lớn.Tuy nhiên, nếu biết được từ
nguồn thông tin bên ngoài là ngành sản xuất này có quy mô không đổi, tức là +
=conts thì khi đó ta có :
= ln + +(1- ) + = ln + ( - ) +
- = ln + ( - ) + (1.14)
Đặt = - , = - khi đó phương trình (1.11) được đưa về
dạng = ln + +
Đây là phương trình hồi quy đơn do đó ta có thể ước lượng được các hệ số ln ,
và từ đó tính được ước lượng của .
- Thu thập thêm số liệu (n →N)có thể khắc phụ được hiện tượng đa cộng
tuyến. Tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Nếu mẫu lớn hơn mà vẫn còn
8
ĐA CỘNG TUYẾN
multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn
và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
- Loại bỏ biến gây ra hiện tượng đa cộng tuyến. Chọn biến ít có ý nghĩa
thống kê hơn loại ra trước. (điều này chỉ mang tính tương đối). Biện pháp bỏ biến
trong mô hình đa cộng tuyến là biện pháp đơn giản nhất. Ta thấy rằng hiện tượng
đa cộng tuyến xảy ra khi biến độc lập nào đó có biểu diễn tuyến tính hoặc gần
tuyến tính qua các biến độc lập khác. Vì thế ta hãy loại biến đó ra khỏi mô
hình,nhưng vấn đề đặt ra là không chỉ có một biến biểu diễn tuyến tính qua các
biến khác mà có nhiều biến như vậy. Vì vậy ta cần dựa vào một số quy tắc để

quyết định bỏ biến nào trong số các biến độc lập của mô hình. Hai quy tắc thường
được áp dụng trước tiên khi gặp phải hiện tượng đa cộng tuyến là khảo sát hệ số
tương quan cặp giữa các biến độc lập và sử dụng các mô hình hồi quy phụ.
Cụ thể:
o Khi giữa hai biến độc lập nào đó có mối tương quan tuyến tính mạnh (hệ số
tương quan giữa hai biến có giá trị tuyệt đối rất gần 1), ta có thể dựa vào ý nghĩa
thực tế để cân nhắc loại bỏ một trong hai biến đó ra khỏi phương trình hồi quy.
o Các mô hình hồi quy phụ với một biến độc lập nào đó được hồi quy theo các
biến độc lập còn lại có thể được sử dụng để xác định biến cần loại bỏ khỏi mô
hình. Nếu hệ số xác định của mô hình hồi quy phụ có giá trị lớn (trên 80% chẳng
hạn), ta có thể khẳng định biến được giải thích trong mô hình hồi quy phụ được
xấp xỉ tuyến tính qua các biến độc lập còn lại, do đó có thể bị loại ra khỏi danh
sách các biến độc lập của mô hình hồi quy chính.
Ví dụ: Bỏ biến của cải ra khỏi mô hình hàm tiêu dùng.
Điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và
biến độc lập loại bỏ mô hình.
Nếu lý thuyết khẳng định có mối quan hệ với biến dự định loại bỏ thì việc loại bỏ
này sẽ dẫn đến loại bỏ biến quan trọng và chúng ta mắc sai lầm về nhận dạng mô
hình (specification error).
9
ĐA CỘNG TUYẾN
- Kết hợp giữa số liệu chuổi thời gian và số liệu chéo có thể khắc phục được
hiện tượng đa cộng tuyến.
- Dùng mô hình sai phân
B1: xây dựng mô hình hồi quy gốc ban đầu
B2: xây dựng mô hình hồi quy thứ hai, trong đó, loại bỏ một quan sát đầu tiên. (do
mô hình hồi quy đúng với t quan sát thì cũng đúng với t-1 quan sát).
B3: Dùng mô hình ở B1 – B2 ta có mô hình sai phân bậc 1.
Đặc điểm: Mô hình sai phân B3 có thể giảm hiện tượng đa cộng tuyến của các
biến độc lập.

KẾT LUẬN:
Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải
thích, các biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống
như vậy, các hệ số hồi quy tương ứng với các biến độc lập không thể ước lượng
một cách duy nhất.Nếu với biến giải thích là gần đa cộng tuyến, các ước lượng
OLS vẫn không thiên lệch, nhất quán và là ước lượng không thiên lệch tuyến tính
tốt nhất (BLUE). Do đó các dự báo cũng không thiên lệch và là nhất quán. Hơn
nữa, tất cả các kiểm định của giả thuyết đều hiệu lực.
Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi quy và
giảm các giá trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ
số kém ý nghĩa hơn nếu không có sự đa cộng tuyến. Do đó nên chú ý khi rút ra suy
luận và không đưa ra kết luận rằng mọi biến không có ý nghĩa nên bị loại bỏ.
Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa
các biến giải thích . Vì các biến chuỗi thời gian có chiều hướng phát triển cùng
nhau, các mô hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là
các mô hình chéo. Nếu bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả,
chắc chắn sự đa cộng tuyến là nguyên nhân.
Không có giải pháp duy nhất nếu loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự
báo ,đa cộng tuyến có thể thường được bỏ qua vì khả năng dự báo thường không
10
ĐA CỘNG TUYẾN
bị tác động nhiều. Nếu các biến tự do có mặt trong mô hình thì nên loại bỏ các
biến thừa và các biến có thể bị loại là những biến có giá trị t thấp.
Tuy nhiên, việc loại bỏ các biến quan trọng sẽ gây ra sự thiên lệch. Để khác phục
ta nên dùng các kiến thức lý thuyết để quyết định nên hay không giữ một biến lại
mặc dù các vấn đề của đa cộng tuyến có thể có.
11

×