Chương 6: BIẾN ĐỘC LẬP
ĐỊNH TÍNH (HOẶC BIẾN GIẢ)
Prepared by Thanh Thai
Prepared by Thanh Thai
Economics Faculty - NTU
Economics Faculty - NTU
I. Hồi qui với biến độc lập đều là
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
Ví dụ, giữa hai ngôi nhà có cùng các đặc trưng, một có hồ bơi
trong khi ngôi nhà còn lại không có. Tương tự, giữa hai nhân viên của
một công ty có cùng tuổi, học vấn, kinh nghiệm, một người là nam và
người kia là nữ…
Để phát triển về mặt lý thuết, chúng ta lấy ví dụ về lương và đặt
Y
i
là tiền lương hàng tháng của nhân viên thứ i trong công ty. Để đơn
giản về mặt sư phạm, ở đây chúng ta bỏ qua các biến khác có ảnh hưởng
đến lương và chỉ tập trung vào giới tính. Vì biến giới tính không phải là
một biến định lượng một cách trực tiếp được nên chúng ta định nghĩa một
biến giả gọi là D (Dummy variables), biến giả này là biến nhị nguyên chỉ
nhận giá trị 1 với nam nhân viên và 0 với nữ nhân viên. Lưu ý là cách
định nghĩa này là hoàn toàn ngẫu nhiên. Nhóm mà giá trị D bằng 0 gọi là
nhóm điều khiển (Control group).
Đối với nam: (6.2)
1 2
( / 1)E Y D
β β
= = +
Bây giờ chúng ta sẽ thiết lập và ước lượng một mô hình sử
dụng biến giả như một biến giải thích. Dạng đơn giản nhất của mô hình
như sau:
1 2i i i
Y D U
ββ
=+ +
(6.1)
I. Hồi qui với biến độc lập đều là
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
Chúng ta giả sử là sai số ngẫu nhiên thỏa mãn các giả thiết của
mô hình hồi qui tuyến tính cổ điển. Chúng ta có thể lấy kỳ vọng có
điều kiện của Y với D cho trước và được các phương trình sau:
Đối với nữ: (6.3)
1
( / 0)E Y D
β
= =
I. Hồi qui với biến độc lập đều là
biến định tính.
1. Trường hợp các biến định tính chỉ có hai lựa chọn
Vậy, β
1
là lương trung bình của nhóm điều khiển (nhân viên nữ)
và β
2
là khác biệt kỳ vọng của lương trung bình của hai nhóm cho cả
tổng thể (chênh lệch về lương trung bình của một nhân viên nam so với
nhân viên nữ).
Để xét xem giữa hai nhân viên có sự phân biệt về giới hay không
ta tiến hành kiểm định giả thiết H
0
: β
2
=0 và H
1
:β
2
≠ 0. Kiểm định thích
hợp là kiểm định t với bậc tự do df = n-2.
Lưu ý: Thủ tục ước lượng phương trình (6.1) được tiến
hành bình thường như những mô hình ở các chương trước
bằng phương pháp OLS.
I. Hồi qui với biến độc lập đều là
biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Số các lựa chọn có thể có của một biến định tính có thể nhiều hơn
hai. Xét ví dụ sau đây:
Gọi Y
i
là tiền tiết kiệm của một hộ gia đình thứ i. Chúng ta kỳ
vọng rằng các hộ gia đình thuộc các nhóm tuổi khác nhau sẽ có mức tiết
kiệm khác nhau. Nếu chúng ta có tuổi chính xác của người chủ hộ, biến
này có thể đưa vào mô hình như là biến định lượng. Tuy nhiên, nếu
chúng ta chỉ có nhóm tuổi (ví dụ người chủ hộ thuộc nhóm tuổi dưới 25,
từ 25 đến 55 và trên 55), chúng ta xem xét biến định tính "nhóm tuổi của
chủ hộ" như thế nào?. Thủ tục ở đây là chọn một trong những nhóm này
làm nhóm kiểm soát và xác định các biến giả cho hai nhóm còn lại. Cụ
thể hơn, chúng ta định nghĩa:
I. Hồi qui với biến độc lập đều là
biến định tính.
2. Trường hợp các biến định tính có nhiều hơn hai lựa chọn
Nhóm điều khiển là nhóm mà cả D
1i
và D
2i
đều bằng 0, có nghĩa
là tất cả những hộ gia đình mà chủ hộ dưới 25 tuổi. Một mô hình đơn
giản mô tả quan hệ giữa tiền tiết kiệm và nhóm tuổi như sau:
1 2 1 3 2i i i i
Y D D U
ββ β
=+ + +
1 nếu chủ hộ từ 25 đến 55 tuổi
0 nếu chủ hộ thuộc nhóm tuổi khác
D
1i
=
1 nếu chủ hộ trên 55 tuổi
0 nếu chủ hộ thuộc nhóm tuổi khác
D
2i
=
I. Hồi qui với biến độc lập đều là
biến định tính.
2. Trường hợp các biến định tính có nhiều hơn
hai lựa chọn
Giả sử mô hình thỏa mãn các giả thiết của mô hình hồi qui tuyến tính cổ
điển. Chúng ta lấy kỳ vọng có điều kiện của Y với điều kiện của các
biến D cho trước ta được các mô hình sau:
Đối với hộ gia đình dưới 25 tuổi: (6.4)
1 2 1
( / 0)
i i
E Y D D
β
= = =
Đối với hộ gia đình từ 25 đến 55 tuổi:
(6.5)
1 2 1 2
( / 1, 0)
i i
E Y D D
β β
= = = +
Đối với hộ gia đình trên 55 tuổi: (6.6)
1 2 1 3
( / 0, 1)
i i
E Y D D
β β
= = = +
Như vậy, (6.4) cho chúng ta biết tiền tiết kiệm trung bình một
tháng của một hộ gia đình mà chủ hộ dưới 25 tuổi. Tương tự, (6.5) cho
chúng ta biết tiền tiết kiệm trung bình một tháng của một hộ gia đình mà
chủ hộ từ 25 đến 55 tuổi và (6.6) cho chúng ta biết tiền tiết kiệm trung
bình một tháng của một hộ gia đình mà chủ hộ trên 55 tuổi.
I. Hồi qui với biến độc lập đều là
biến định tính.
- β
2
biểu thị chênh lệch về tiền tiết kiệm trung bình một tháng của
một hộ gia đình mà chủ hộ thuộc nhóm tuổi từ 25 đến 55 tuổi so với
nhóm tuổi dưới 25.
- β
3
biểu thị chênh lệch về tiền tiết kiệm trung bình một tháng của
một hộ gia đình mà chủ hộ thuộc nhóm tuổi trên 55 so với nhóm tuổi
dưới 25.
Chú ý: Để tránh trường hợp bẫy biến giả (dummy variables
trap), số các biến giả luôn luôn ít hơn một biến so với số các lựa chọn.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1. Trường hợp có một biến định tính với 2 lựa chọn:
Bước tiếp theo trong phân tích là thêm các biến độc lập có thể
định lượng được. Để minh họa, ta lấy lại ví dụ về tiền lương ở trên.
- Đặt Y
i
: là tiền lương hàng tháng của nhân viên thứ i.
- Gọi X
i
: là kinh nghiệm của nhân viên thứ i
- Với D
i
=1 : nhân viên nam
- Với D
i
=0 : nhân viên nữ
Bây giờ, ta bỏ qua yếu tố giới tính, chỉ xét mối quan hệ giữa tiền
lương hàng tháng và kinh nghiêm, một mô hình hồi quy đơn cho quan hệ
này là:
(6.7)
1 2i i i
Y X U
ββ
=+ +
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1. Trường hợp có một biến định tính với 2 lựa chọn:
Lưu ý là bây giờ ta có thể kiểm soát được kinh nghiệm và có thể
hỏi "Giữa hai nhân viên có cùng kinh nghiệm, có sự khác biệt trong tiền
lương tháng do giới tính không?". Một cách đơn giản để trả lời câu hỏi
này là đặt tung độ gốc β
1
trong phương trình (6.7) khác nhau đối với nam
và nữ. Thực hiện việc này bằng cách giả sử là: β
1
= β
3
+ β
4
D
i
và thay
vào (6.7) ta có mô hình kinh tế lượng:
(6.8)
3 4 2i i i i
Y D X U
ββ β
=+ + +
Lưu ý là β
2
, β
3
và β
4
được ước lượng bằng cách
hồi quy Y theo một hằng số, biến D và X. Các quan hệ được ước lượng
cho hai nhóm là:
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1. Trường hợp có một biến định tính với 2 lựa chọn:
Đối với Nữ: (6.9)
µ
µ
¶
3 2i i
Y X
β β
= +
Đối với Nam: (6.10)
µ
µ
¶
( )
¶
3 4 2i i
Y X
β β β
= + +
Một giả thiết tự nhiên cần kiểm định là "không có sự khác biệt
trong quan hệ giữa hai nhóm". So sánh phương trình (6.9) và (6.10),
chúng ta thấy là các quan hệ sẽ như nhau nếu β
4
=0. Vì vậy, chúng ta
kiểm định giả thiết H
0
: β
4
=0 và H
1
: β
4
≠0. Kiểm định thích hợp nhất là
kiểm định t với bậc tự do là df = n-3.
2. Trường hợp có một biến định tính với
nhiều hơn 2 lựa chọn:
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Lấy lại ví dụ về tiền tiết kiệm của các hộ gia đình ở trên, bây giờ ta
thêm một biến định lượng vào mô hình đó là thu nhập của họ (được ký
hiệu là X).Từ đó, chúng ta có thể xây dựng một mô hình kinh tế lượng
như sau:
1 2 1 3 2 4i i i i i
Y D D X U
ββββ
=++++
Giả sử mô hình thỏa mãn các giả thiết của mô hình hồi qui tuyến tính
cổ điển. Chúng ta lấy kỳ vọng có điều kiện của Y với điều kiện đã cho
của thu nhập X và của các biến D cho trước ta được các mô hình sau:
2. Trường hợp có một biến định tính với
nhiều hơn 2 lựa chọn:
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Đối với hộ gia đình dưới 25 tuổi:
(6.11)
1 2 1 4
( / , 0)
i i i i
E Y X D D X
β β
= = = +
Đối với hộ gia đình từ 25 đến 55 tuổi:
(6.12)
1 2 1 2 4
( / , 1, 0)
i i i i
E Y X D D X
β β β
= = = + +
Đối với hộ gia đình trên 55 tuổi:
(6.13)
1 2 1 3 4
( / , 0, 1)
i i i i
E Y X D D X
β β β
= = = + +
2. Trường hợp có một biến định tính với
nhiều hơn 2 lựa chọn:
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Một số giả thuyết rất thú vị. Để kiểm định giả
thuyết gia đình ở nhóm tuổi cao hơn có hành vi giống gia đình ở nhóm
tuổi trẻ hơn, chúng ta đơn giản chỉ tiến hành kiểm định t đối với các hệ
số β
2
hoặc β
3
bằng 0. Để kiểm định giả thuyết "không có sự khác biệt
trong hàm tiết kiệm theo độ tuổi", giả thuyết là H
0
: β
2
=β
3
=0 và giả
thuyết đối là H
1
: ít nhất một trong các hệ số khác không. Giả thuyết này
được kiểm định bằng kiểm định Wald. Hoặc để kiểm định giả thuyết
"không có sự khác biệt trong hành vi giữa hai nhóm tuổi trung niên và
cao tuổi", nghĩa là β
2
=β
3
. Giả thuyết này có thể được kiểm định bằng
nhiều phương pháp khác nhau.
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Phân tích biến giả dễ dàng mở rộng cho trường
hợp trong đó có nhiều biến định tính. Để minh họa, hãy xem xét hàm tiết
kiệm được mô tả trước đây, trong đó Y là tiền tiết kiệm của hộ gia đình
và X là thu nhập của hộ gia đình. Có thể đưa ra giả thuyết là ngoài tuổi
của chủ hộ, các yếu tố khác như sở hữu nhà, trình độ học vấn, tình trạng
nghề nghiệp, cũng là các yếu tố xác định tiết kiệm của hộ gia đình.
Giả sử ta có thông tin là chủ hộ có trình độ sau đại học, có trình độ
đại học, chỉ tốt nghiệp trung học; Chủ hộ có thể làm một trong những
nghề sau: quản lý, công nhân lành nghề, công nhân không có tay nghề,
thư ký, kinh doanh tự do. Cũng tương tự, ta không biết chính xác tuổi
của chủ hộ nhưng biết được ông/bà ta thuộc nhóm tuổi nào,…
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Chúng ta có thể xác định số biến giả được đưa vào mô hình như
sau:
1
( 1)
k
i
i
n n
=
= −
∑
Trong đó: n - là số biến giả cần thiết đưa vào
mô hình
k - là số biến định tính
n
i
- là số lựa chọn của biến định tính
thứ i
Áp dụng công thức trên, bây giờ ta định nghĩa các biến giả
cho ví dụ trên như sau:
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1 nếu chủ hộ từ 25 đến 55 tuổi
0 nếu chủ hộ thuộc nhóm tuổi khác
D
1i
=
1 nếu chủ hộ trên 55 tuổi
0 nếu chủ hộ thuộc nhóm tuổi khác
D
2i
=
1 nếu chủ hộ sở hữu căn nhà
0 nếu điều kiện khác
D
3i
=
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1 nếu chủ hộ có trình độ sau đại học
0 nếu điều kiện khác
D
4i
=
1 nếu chủ hộ có trình độ đại học
0 nếu điều kiện khác
D
5i
=
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1 nếu chủ hộ là nhà quản lý
0 nếu điều kiện khác
D
6i
=
1 nếu chủ hộ là công nhân lành nghề
0 nếu điều kiện khác
D
7i
=
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
1 nếu chủ hộ là thư ký
0 nếu điều kiện khác
D
8i
=
1 nếu chủ hộ kinh doanh tự do
0 nếu điều kiện khác
D
9i
=
3. Trường hợp có nhiều hơn một biến định tính.
II. Hồi qui với các biến độc lập định
lượng và các biến định tính.
Một mô hình kinh tế lượng được xây dựng như sau:
1 2 1 3 2 4 3 5 4 6 5 7 6 8 7 9 8 10 9 11i i i i i i i i i i i i
Y D D D D D D D D D X U
βββββββββββ
=+++++++++++
Nên lưu ý là đặc điểm của nhóm điều khiển như sau: chủ hộ có
độ tuổi dưới 25, là công nhân không có tay nghề, với trình độ học vấn
chỉ ở bậc trung học và không sở hữu nhà. Một cách rất dễ dàng, chúng ta
cũng có thể ước lượng mô hình trên và tính được tiền tiết kiệm trung
bình của một hộ gia đình với những điều kiện của biến X và các biến D
cho trước và nêu ý nghĩa của nó.
III. Sử dụng biến giả trong phân
tích mùa.
Như chúng ta đều biết, nhiều chuỗi thời gian trong kinh tế cũng
như trong các lĩnh vực khác có tính chất mùa vụ rõ rệt. Một ví dụ về
việc sự dụng biến giả xuất hiện trong ước lượng tác động mùa của các
biến độc lập. Chúng ta xem xét quan hệ E = α + βT +U, đây là quan hệ
giữa việc tiêu thụ điện năng và nhiệt độ. Trong mùa hè khi nhiệt độ
tăng, nhu cầu máy lạnh sẽ đẩy việc tiêu thụ điện năng lên cao. Do vậy,
chúng ta kỳ vọng β có dấu dương, cho ra một quan hệ dương giữa E và
T. Tuy nhiên, vào mùa đông khi nhiệt độ tăng nhu cầu cho việc sưởi ấm
nhà thấp hơn và từ đó chúng ta mong đợi β có dấu âm về mùa đông,
cho ra quan hệ âm giữa E và T. Bằng cách nào chúng ta có thể ghi nhận
tác động mùa lên E của biến định tính "mùa" có bốn loại: xuân, hạ, thu
và đông? Việc này được thực hiện bằng cách sử dụng 3 biến giả được
gọi là biến giả theo mùa. Mùa thu được sử dụng làm mùa điều khiển:
III. Sử dụng biến giả trong phân
tích mùa.
1 nếu là mùa đông
0 nếu là mùa khác
D
1i
=
1 nếu là mùa xuân
0 nếu là mùa khác
D
2i
=
1 nếu là mùa hạ
0 nếu là mùa khác
D
3i
=
III. Sử dụng biến giả trong phân
tích mùa.
Bây giờ ta đặt : α = α
1
+α
2
D
1i
+α
3
D
2i
+α
4
D
3i
Và : β = β
1
+β
2
D
1i
+β
3
D
2i
+β
4
D
3i
. Đặc trưng tổng quát thu
được bằng cách thay thế những biểu thức này vào quan hệ giữa E và T
ta được:
E = α
1
+α
2
D
1i
+α
3
D
2i
+α
4
D
3i
+β
1
T+β
2
D
1i
T+β
3
D
2i
T+β
4
D
3i
T+U (6.14)
Những mô hình ước lượng cho từng mùa như sau:
Mùa thu:
µ
µ
µ
1 1
E T
α β
= +
Mùa đông:
µ
µ
¶
µ
¶
1 2 1 2
( ) ( )E T
α α β β
= + + +
Mùa xuân:
µ
µ
µ
µ
µ
1 3 1 3
( ) ( )E T
α α β β
= + + +
Mùa hạ:
µ
µ
¶
µ
¶
1 4 1 4
( ) ( )E T
α α β β
= + + +
IV. Kiểm định sự thay đổi về
cấu trúc.
Mối quan hệ giữa biến phụ thuộc và các biến độc lập
có thể có một sự thay đổi về mặt cấu trúc (còn được gọi là sự
bất ổn định về cấu trúc hay những gián đoạn về cấu trúc), có
nghĩa là, mối quan hệ giữa biến phụ thuộc và các biến độc lập
có thể thay đổi từ thời đoạn này sang thời đoạn khác. Sự thay
đổi đó thể hiện ở sự khác nhau giữa hệ số độ dốc, hệ số tung
độ gốc hoặc cả hai. Để tìm hiểu vấn đề này chúng ta xét ví dụ
sau:
Số liệu tiết kiệm (Y) và thu nhập cá nhân (X) ở nước
Anh từ năm 1946 đến năm 1963 cho ở bảng sau (đơn vị tính:
triệu pound)