Tải bản đầy đủ (.pdf) (4 trang)

Các giả định của mô hình hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (182.49 KB, 4 trang )

9/15/21, 2:38 PM

Các giả định của mơ hình hồi quy tuyến tính – How to STATA

How to STATA
A set of guides and tutorials for beginners on using Stata
effectively

Các giả định của mơ hình hồi quy tuyến tính
Posted on April 19, 2020March 18, 2021 by Chung Mai
Chào các bạn,
Trong một bài viết trước, mình đã giới thiệu sơ lược về tính chất của một mơ hình OLS tốt
( Bài viết ngày hơm nay có
nội dung khá tương đồng, nhưng mình muốn giới thiệu một cách tổng quan nhất để giúp các bạn nắm rõ các
giả định của mơ hình hồi quy tuyến tính. Việc hiểu các giả định này là vơ cùng quan trọng, vì khi mơ hình thỏa
mãn các giả định thì chúng ta mới có thể tự tin đưa ra kết luận về các kết quả ước lượng. Nếu mô hình vi phạm
bất cứ một giả định nào, kết quả ước lượng có thể bị sai lệch (biased) và/hoặc khơng đồng nhất (inconsistent)
và/hoặc không hiệu quả (inefficient). Chúng ta không thể sử dụng hệ số ước lượng để giải thích cho mối quan
hệ mà chúng ta đang nghiên cứu.
Trước tiên, mình muốn giải thích hai tính chất khá quan trọng của một ước lượng – đó là tính khơng sai lệch
(unbiased) và tính đồng nhất (consistent).
Unbiased: nghĩa là khi chúng ta thực hiện hồi quy nhiều lần cho một mô hình trên nhiều mẫu nghiên cứu có
cùng quy mơ là N quan sát, giá trị trung bình của các hệ số ước lượng sẽ thể hiện cho giá trị thực (true value)
của hệ số hồi quy. Chúng ta có thể dùng lệnh simulate trong STATA để thực hiện công đoạn này.
Consistent: nghĩa là khi chúng ta càng gia tăng quy mô của mẫu nghiên cứu, hệ số ước lượng sẽ tiến về giá trị
thực của hệ số hồi quy.
Ngoài ra, tính hiệu quả (efficient) của ước lượng có nghĩa là ước lượng mà chúng ta có được là ước lượng tốt
nhất của một phương pháp hồi quy nhất định. Ví dụ, nếu chúng ta sử dụng phương pháp ước lượng OLS, ước
lượng tốt nhất phải là các giá trị của hệ số hồi quy làm cho tổng bình phương sai số là nhỏ nhất. Các bạn có thể
xem lại bài viết giới thiệu về phương pháp ước lượng OLS trong bài viết này
( nhé.


Có nhiều cách để nhóm các giả định này, nhưng trong bài viết này thì mình chia thành 7 giả định chính.
1. Đây là mơ hình hồi quy tuyến tính nên các hệ số hồi quy ở dạng hằng số (linear in the parameters)
Điều này nghĩa là trong thiết kế mơ hình mà các bạn chạy, các hệ số hồi quy phải là các hằng số, chứ nó khơng
nằm ở  được có dạng số mũ, dạng log, hay tỷ số.
/>
1/4


9/15/21, 2:38 PM

Các giả định của mơ hình hồi quy tuyến tính – How to STATA

Ví dụ: Y = a + bX
Hệ số hồi quy sẽ không ở dạng tuyến tính nếu hàm số bạn ước lượng có dạng sau:
Y = a + X^b hoặc là Y = a + X/b
Nếu vậy, bạn cần phải biến đổi mơ hình để hệ số hồi quy trở về dạng tuyến tính trước khi chạy mơ hình. Lưu ý,
đừng nhầm lẫn điều này với dạng của các biến các bạn nhé. Các biến độc lập và phụ thuộc có thể ở dạng mũ,
dạng log hay dạng tỷ số đều được. Các bạn có thể xem lại bài viết giới thiệu về các dạng mơ hình hồi quy tuyến
tính tại đây ( nhé.
2. Biến độc lập là cố định hoặc phi ngẫu nhiên (fixed or nonstochastic)
Điều này nghĩa là giá trị của biến độc lập sẽ không thay đổi khi thay đổi mẫu nghiên cứu. Điều kiện này rất khó
để đáp ứng trong các nghiên cứu vì khi chúng ta chọn mẫu khác nhau thì khả năng cao là biến độc lập sẽ thay
đổi, ví dụ như dữ liệu ở Việt Nam sẽ khác với dữ liệu ở Mỹ, hay dữ liệu năm 2000 sẽ khác với dữ liệu năm 2019.
Vậy nên, biến độc lập có thể khơng nhất thiết là biến cố định hay là biến phi ngẫu nghiên, miễn sao biến độc lập
và sai số của mơ hình khơng có quan hệ với nhau là được.
3. Các biến độc lập có phương sai lớn hơn 0
Phương sai thì ở dạng bình phương nên nó ln ln lớn hơn 0 rồi. Tuy nhiên nếu nó bằng 0 thì có nghĩa là ko
có sự khác biệt giữa các biến X. Nếu vậy, sẽ rất khó để xác định được X ảnh hưởng như thế nào đến Y. Ví dụ
như ta muốn nghiên cứu ảnh hưởng của thu nhập đến chi phí thức ăn của các gia đình. Nếu các gia đình trong
mẫu nghiên cứu đều có thu nhập là 7 triệu, chi phí thức ăn của họ có thể như nhau. Vậy nên chúng ta cần một

sự đa dạng trong các giá trị X mà mình nghiên cứu. Ví dụ có gia đình 7 triệu, có gia đình 10 triệu, 20 triệu,v.v…
Khi đó, ảnh hưởng của thu nhập đến chi phí cho thức ăn có thể khác nhau.
Khi 3 điều kiện này được đáp ứng, nó sẽ đảm bảo sự tồn tại của hệ số hồi quy tuyến tính.
Các giả định tiếp theo sẽ đảm bảo cho hệ số hồi quy không bị chệch, nhất quán và hiệu quả. 
3. Giá trị trung bình của các sai số (theo các giá trị đã cho của X/conditional on X) bằng không: E(u|X) = 0
Sai số của mơ hình thể hiện cho ảnh hưởng của các yếu tố khác đến Y mà chúng ta không quan sát được. Sai số
này là hiệu số giữa giá trị thực của Y (giá trị quan sát được) và giá trị ước lượng của Y (tính tốn dựa trên mơ
hình Y = a + bX).
Mình minh hoạ theo ví dụ sau nhé:
Y

X

a

b

Y^

u

7

4

1

2

9


-2

10

5

1

2

11

-1

15

7

1

2

15

0

20

9


1

2

19

1

9

3

1

2

7

2

16

7.5

1

2

16


0

/>
2/4


9/15/21, 2:38 PM

Các giả định của mơ hình hồi quy tuyến tính – How to STATA

Giả sử chúng ta có giá trị của Y và X như trên Khi chạy mơ hình có dạng Y = a + bX + u, ta thu được a =1 và
b=2. Theo đó, ta có thể tính được giá trị ước lượng Y^ và tính được sai số cho từng quan sát. Các sai số này
không nhất thiết phải bằng 0, nhưng giá trị trung bình của chúng thì bằng 0.
4. Phương sai của các sai số là một hằng số (homoskedasticity – phương sai sai số không đổi): Var(u|X) = σ^2
Giả định này nhằm đảm bảo rằng ảnh hưởng của X lên biến Y là như nhau giữa các quan sát, tránh trường
hợp hệ số ước lượng bị “kéo” bởi một nhóm quan sát nhất định. Nếu giả định này bị vi phạm thì ước lượng
OLS vẫn là ước lượng khơng thiên lệch nhưng sẽ khơng cịn là ước lượng tốt nhất nữa. Hiện tượng lỗi này của
mơ hình được gọi là phương sai sai số thay đổi (heteroskedasticity).
5. Các sai số không được có mối quan hệ với nhau ( No autocorrelation): Cov(ui,uj) = 0
Giả định này thông thường bị vi phạm khi chúng ta thực hiện hồi quy trên dữ liệu theo thời gian. Đây là dữ liệu
cho một đối tượng nhưng trên nhiều khoảng thời gian, nên quan sát ở năm t thường hay có mối quan hệ với
quan sát ở năm t-1. Khi giả định này bị vi phạm, hệ số ước lượng vẫn sẽ không thiên lệch và nhất qn, nhưng
khơng cịn là ước lượng hiệu quả nữa. Hiện tượng lỗi này của mơ hình gọi là tự tương quan (autocorrelation).
6. Các biến độc lập của mơ hình khơng được có mối quan hệ tuyến tính hồn hảo với nhau (no
multicollinearity). 
Nếu chúng ta có X1 = 2X2 + 5X3, điều này có nghĩa là các biến độc lập có mối quan hệ tuyến tính với nhau. Ảnh
hưởng của biến X1, X2, X3 đến Y sẽ rất khó được tách rời. Khi giả định này bị vi phạm, khả năng bác bỏ các hệ
số hồi quy cao hơn và mơ hình trở nên khơng có ý nghĩa. Hiện tượng lỗi này của mơ hình được gọi là đa cộng
tuyến (multicollinearity)

7. Đúng dạng hàm cho mơ hình hồi quy (no specification error)
Giả định này có nghĩa là chúng ta khơng bỏ sót biến quan trọng, khơng đưa các biến thừa vào mơ hình, dạng
mơ hình là đúng, các biến được đo lường chính xác, khơng có các outlier trong mơ hình, v.v…
Lỗi sai phạm quan trọng nhất trong các trường hợp trên là việc bỏ sót biến quan trọng (omission bias). Khi một
biến quan trọng nào đó bị bỏ sót, ảnh hưởng của biến đó sẽ nằm trong sai số của mơ hình và có thể có quan hệ
với các biến độc lập trong mơ hình. Đây là một lỗi vơ cùng nghiêm trọng của mơ hình vì khi biến độc lập và sai
số của mơ hình có quan hệ với nhau (Cov(X, u) ≠ 0), các ước lượng sẽ bị thiên lệch và không nhất quán. Hiện
tượng lỗi này được gọi tên là hiện tượng nội sinh (endogeneity). Đây là một trong những hiện tượng khó xử lý
nhất trong kinh tế lượng và trở thành mối quan tâm lớn nhất khi ước lượng các mơ hình, đặc biệt là đối với hồi
quy dữ liệu bảng.
Cuối cùng thì mình cũng hoàn thành xong các bài viết giới thiệu về bản chất của mơ hình hồi quy tuyến tính.
Trong bài viết này, mình đã giới thiệu khá nhiều thuật ngữ về lỗi của mơ hình. Hy vọng các bạn sẽ hiểu và nắm
rõ các thuật ngữ này. Mình sẽ tiếp tục với các chủ đề giới thiệu về từng lỗi một, cách thức nhận biết và cách
thức xử lý chúng. See ya.
 
 


Posted in Kinh tế lượng căn bảnTagged bỏ sót biến, giả định, mơ hình hồi quy tuyến tính, ngoại sinh,
phương sai sai số thay đổi, tự tương quan, đa cộng tuyến

/>
3/4


9/15/21, 2:38 PM

Các giả định của mơ hình hồi quy tuyến tính – How to STATA

5 thoughts on “Các giả định của mơ hình hồi quy tuyến tính”

1. Pingback: Hiện tượng phương sai sai số thay đổi (Heteroskedasticity) – How to STATA
2. Hương says:December 20, 2020 at 12:40 am
Chị ơi chị có thể viết bài về phương pháp xử lý hiện tượng nội sinh đối với dữ liệu bảng được không ạ? Em
đã cố gắng tìm đọc một số phương pháp như GMM nhưng thật sự là khó hiểu, các bài viết của chị đi từ
basic nên em rất dễ hiểu, em đã học được rất nhiều từ các bài viết của chị ạ! Em cảm ơn chị nhiều ạ!
Reply
Chung Mai says:December 20, 2020 at 7:05 am
Okay em. Đây là một nội dung kiến thức mà mình nên giới thiệu trên website. Em chờ bài viết nhé.
Reply
3. hntien says:March 18, 2021 at 8:53 am
Ad xem lại chỗ này nhé “Hiện tượng lỗi này được gọi tên là hiện tượng ngoại sinh (endogeneity)”: Đây là
hiện tượng nội sinh hay ngoại sinh? (ngoại sinh là Exdogeneity).
Reply
Chung Mai says:March 18, 2021 at 9:15 am
Cảm ơn bạn đã chỉ ra lỗi này nhé. Mình đã sửa lại là hiện tượng nội sinh rồi.
Reply

Website Powered by WordPress.com.

/>
4/4



×