Tải bản đầy đủ (.doc) (110 trang)

Kinh tế lượng tuấn anh new

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.71 MB, 110 trang )

209

MỞ ĐẦU

210
Bước 1. Đặt vấn đề cần khảo sát của lý thuyết kinh tế liên
quan đến giả thuyết về các mối quan hệ giữa các biến kinh tế.

Kinh tế lượng với thuật ngữ tiếng Anh là “Econometrics”
được Giáo sư Kinh tế học người Na Uy, A.K. Ragnar Frisch
(Nobel kinh tế năm 1969), sử dụng đầu tiên vào khoảng năm
1930. Từ này được ghép từ hai từ gốc là “Econo” có nghóa là
kinh tế và “Metrics” có nghóa là đo lường.

Ví dụ, ta khảo sát giả thuyết của kinh tế học vó mô cho rằng
mức tiêu dùng của các hộ gia đình có quan hệ cùng chiều với
thu nhập khả dụng của họ.

Từ đó, kinh tế lượng có thể hiểu là “đo lường kinh tế” mặc
dù ngày nay phạm vi của kinh tế lượng đã được mở rộng hơn
nhiều và người ta đã đưa ra nhiều đònh nghóa khác nhau để
giải thích. Tuy nhiên, phạm vi của giáo trình này tự giới hạn
trong nỗ lực trình bày một khía cạnh quan trọng của kinh tế
lượng :

Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng một
hộ gia đình và biến X chỉ thu nhập khả dụng của hộ gia đình
đó, ta thành lập một mô hình tuyến tính dạng

Xác đònh về thực nghiệm các quy luật kinh tế.
Các lý thuyết kinh tế thường nêu ra các giả thuyết về chất


(đònh tính) và khi đó, kinh tế lượng cố gắng lượng hóa các giả
thuyết này (bằng cách đònh lượng các quan hệ). Chẳng hạn,
kinh tế học vi mô khẳng đònh rằng khi các điều kiện khác
không thay đổi, nếu giảm giá một loại hàng hóa nào đó thì sẽ
làm tăng lượng cầu về loại hàng hóa này và ngược lại. Giả
thuyết này cho biết quan hệ giữa giá cả và lượng cầu là nghòch
biến và kinh tế lượng cố gắng lượng hóa chúng, chẳng hạn cho
biết lượng cầu sẽ tăng/giảm bao nhiêu khi ta giảm/tăng một
đơn vò giá cả. Nói khác đi, kinh tế lượng quan tâm đến việc
kiểm đònh về mặt thực nghiệm các lý thuyết kinh tế.
Để làm điều này, kinh tế lượng sử dụng các số liệu thống kê
và các phương pháp thống kê toán để tìm ra bản chất mối quan
hệ giữa các đại lượng.
1. Phương pháp Kinh tế lượng.
Nội dung của phương pháp kinh tế lượng thường gồm các
bước sau :

Bước 2. Thiết lập mô hình toán học để mô tả mối quan hệ
giữa các biến kinh tế khảo sát.

Y = β1 + β2 X + ε ,
trong đó β1 và β2 là các tham số cần ước lượng mà ta gọi là
các tham số của mô hình và ε là yếu tố ngẫu nhiên mà nguồn
gốc tồn tại của nó là do quan hệ giữa các biến kinh tế nói
chung là ngẫu nhiên, không chính xác.
Bước 3. Sử dụng các số liệu thống kê thu thập được để ước
lượng các tham số của mô hình.
Chẳng hạn, dựa trên mẫu thống kê khảo sát trên n hộ gia
đình, ta được n cặp số liệu ( X i , Yi ) , với 1 ≤ i ≤ n , trong đó X i
và Yi lần lượt là lượng thu nhập khả dụng và lượng chi tiêu

cho tiêu dùng của hộ gia đình thứ i. Dùng một phương pháp
thống kê toán, mà người ta gọi là phương pháp hồi quy, nhằm
ước lượng các tham số β1 và β2 .
Bước 4. Phân tích kết quả dựa trên giả thuyết kinh tế.
Ví dụ, với mô hình Y = β1 + β2 X + ε nêu trong bước 2 và với
mẫu thống kê trong bước 3 được dùng để ước lượng tham số,
nếu ước lượng 0 < β2 < 1 được kiểm đònh chấp nhận, ta thấy nó
phù hợp với giả thuyết kinh tế trong bước 1 vì β2 > 0 cho thấy
khi lương thu nhập khả dụng tăng (X tăng) thì lượng chi tiêu
cho tiêu dùng tăng (Y tăng) đồng thời β2 < 1 phù hợp với giả


209
thuyết lượng chi tiêu cho tiêu dùng hộ gia đình không vượt quá
mức thu nhập khả dụng của hộ gia đình đó ( Y < X ). Khi đó, ta
có thể nói rằng mô hình toán học trong bước 2 là phù hợp về
mặt kinh tế. Trường hợp mô hình đã chọn không phù hợp về
mặt kinh tế, ta cần trở lại bước 2 để thành lập một mô hình
khác với mong muốn rằng mô hình này sẽ tốt hơn.
Bước 5. Khai thác kết quả.
Khi mô hình nhận được phù hợp với giả thuyết kinh tế, ta có
thể dùng mô hình này để :
- Dự báo kết quả.
- Kiểm tra hay đề ra chính sách.
Ví dụ, với mô hình Y = β1 + β2 X + ε được chấp nhận và với
một mức thu nhập khả dụng X cho trước của một hộ gia đình,
ta dự báo lượng chi tiêu cho tiêu dùng của hộ gia đình đó.

210


( 140, 95) , ( 140,103) , ( 140,108) ,
( 160,102) , ( 160,107 ) , ( 160,110) ,
( 160,125) , ( 180,110) , ( 180,115) ,
( 180,135) , ( 180,140) , ( 200,120) ,
( 200,144 ) , ( 200,145) , ( 220,135) ,
( 220,152) , ( 220,157 ) , ( 220,160) ,
( 240,145) , ( 240,155) , ( 240,165) ,
( 260,150) , ( 260,152) , ( 260,175) ,
( 260,185) , ( 260,191) .

( 140,113) ,
( 160,116) ,
( 180,120) ,
( 200,136) ,
( 220,137 ) ,
( 220,162) ,
( 240,175) ,
( 260,178) ,

( 140,115) ,
( 160,118) ,
( 180,130) ,
( 200,140) ,
( 220,140) ,
( 240,137 ) ,
( 240,189) ,
( 260,180) ,

Biểu diễn các điểm này trên trục tọa độ với trục hoành chỉ
thu nhập và trục tung chỉ chi tiêu như trong hình 1.


Ta minh họa các bước trên qua ví dụ số cụ thể sau :
Bước 1. Giả thuyết kinh tế : mức chi tiêu cho tiêu dùng của
các hộ gia đình có quan hệ cùng chiều với thu nhập khả dụng
của họ.
Bước 2. Xét mô hình Y = β1 + β2 X + ε , với Y chỉ lượng chi
tiêu cho tiêu dùng và X chỉ lượng thu nhập khả dụng của một
hộ gia đình, β1 và β2 là các tham số cần ước lượng.
Bước 3. Thu thập một mẫu thống kê gồm các cặp ( X, Y ) ,
trong đó X chỉ lượng thu nhập khả dụng của hộ gia đình (đơn vò
ngàn đồng) và Y chỉ lượng chi tiêu cho tiêu dùng của hộ gia
đình đó (đơn vò ngàn đồng) trong cùng một đơn vò thời gian, ta
có các số liệu

( 80, 55) , ( 80, 60) , ( 80, 65) , ( 80, 70) , ( 80, 75) , ( 100, 65) ,
( 100, 70) , ( 100, 74 ) , ( 100, 80) , ( 100, 85) , ( 100, 88) , ( 120, 79) ,
( 120, 84 ) , ( 120, 90) , ( 120, 94 ) , ( 120, 98) , ( 140, 80) , ( 140, 93) ,

Hình 1
Rõ ràng với cùng một mức thu nhập khả dụng X như nhau,
chi tiêu cho tiêu dùng Y là một biến ngẫu nhiên lấy nhiều giá
trò khác nhau và điều này giải thích sự tồn tại tham số ngẫu
nhiên ε trong mô hình khảo sát sự liên hệ của chi tiêu Y theo
thu nhập X. Một trong những giải thuật đơn giản để xác đònh
các tham số β1 và β2 là ứng với mỗi giá trò của X, ta thay thế
các giá trò Y tương ứng bằng giá trò trung bình của nó (điểm


209
đánh dấu

trong hình 2) và tìm đường thẳng đi qua các điểm
này. Chẳng hạn, với giá trò X = 80 , ta có các giá trò Y tương
ứng là
55, 60, 65, 70 và 75

(

)

Bước 5. Ta có thể dùng mô hình nhận được trong Bước 3 để
dự báo. Chẳng hạn, nếu biết thu nhập khả dụng của một hộ gia
đình là X = 300 , ta dự đoán chi tiêu cho tiêu dùng trung bình
của hộ gia đình này là Y ≈ 171.3233 .
Các bước trên cần được thực hiện tuần tự và mỗi bước có
một vai trò khác nhau trong quá trình phân tích một vấn đề
kinh tế. Tuy nhiên, việc tìm ra bản chất một vấn đề kinh tế là
không đơn giản. Do đó, quá trình nêu trên thường được lặp đi
lặp lại nhiều lần cho đến khi ta thu được một mô hình chấp
nhận được. Quá trình phân tích kinh tế lượng như thế có thể
biểu diễn bằng sơ đồ sau

và trung bình của nó là
E Y X = 80 ≡

210

55 + 60 + 65 + 70 + 75
= 65 .
5


Hình 2
Bây giờ, với đường thẳng đi qua điểm đầu cuối,
( 260,173) , ta có

( 80, 65)



X − 80
Y − 65
=
260 − 80 173 − 65
và do đó ta được phương trình
Y ≈ 26.3333 + 0.4833X .
Bước 4. Do hệ số β2 = 0.4833 thỏa điều kiện 0 < β2 < 1 nên
kết quả này phù hợp với giả thuyết kinh tế trong Bước 1.

Hình 3
Hơn nữa, cần nhấn mạnh rằng thành công của bất kỳ một
quá trình phân tích kinh tế nào cũng đều phụ thuộc vào việc sử
dụng các số liệu thích hợp cũng như phương pháp sử lý các số
liệu đó. Có ba loại số liệu : Số liệu theo thời gian (chuỗi thời
gian), số liệu chéo và số liệu hỗn hợp.
Số liệu theo thời gian là các số liệu thu thập tại từng thời
điểm nhất đònh. Chẳng hạn như số liệu về GDP bình quân của


209
Việt Nam theo các năm từ 1998 – 2006 được cho trong bảng
sau :



1998

1999

2000

2001

2002

2003

2004

2005

2006

m
GDP

360

374

401

413


440

489

553

618

655

Bảng 1 : Số liệu theo thời gian
Số liệu chéo là số liệu thu thập tại một thời điểm ở nhiều
nơi, đòa phương, đơn vò, khác nhau. Chẳng hạn như số liệu về
GDP bình quân trong năm 2006 của các nước Brunei,
Campuchia, Indonesia, Lào, Malaysia, Myanmar, Philippines,
Singapore, Thái Lan, Việt Nam được cho như sau
Nước

GDP

Nước

GDP

Brunei

30376

Myanmar


230

Campuchia

459

Philippines

1361

Indonesia

1581

Singapore

30162

Lào

570

Thái Lan

2959

Malaysia

5570


Việt Nam

655

Nước

1998 1999 2000 2001 2002 2003 2004 2005 2006

Brunei

13065 14511 18465 16820 17135 18788 21989 25759 30376
281

285

302

317

333

373

516

746

807


773

928

1100 1176 1283 1581

Lào

255

286

329

326

329

378

Malaysia

3254 3485 3844 3665 3884 4161 4652 5042 5570

Myanmar

134

173


178

129

130

197

199

Philippines

910

1019

994

914

966

982

1049 1168 1361

432

485


570

219

230

Singapore

21009 20909 23075 20724 21210 22157 25345 26839 30162

Thái Lan

1829 1985 1967 1836 1999 2233 2484 2659 2959

Việt Nam

360

374

401

413

440

489

553


618

655

Các số liệu này thường là các số liệu về lượng, nghóa là
chúng có thể đònh lượng bằng những con số như giá cả, thu
nhập, v.v... Đối với các số liệu về chất, nghóa là số liệu đònh
tính như nam/nữ, có/chưa có gia đình, nông thôn / thành thò,
v.v ..., người ta thường lượng hóa các biến này bằng các biến
giả (dummy), chẳng hạn biến X, với X = 0 chỉ nam, hay có gia
đình và X = 1 chỉ nữ, hay chưa có gia đình, v.v...

Số liệu hỗn hợp là số liệu tổng hợp của hai loại trên, nghóa
là các số liệu thu thập tại nhiều thời điểm khác nhau ở nhiều
đòa phương, đơn vò khác nhau. Chẳng hạn như số liệu về GDP
bình quân của các nước, từ 1998 – 2006

255

Indonesia

Bảng 3 : Số liệu tổng hợp. Nguồn : Tổng hợp báo cáo IMF
và ASEAN

Bảng 2 : Số liệu chéo

Campuchia

210


430

459

Ví dụ 1. Số liệu cho trong bảng sau cho biết tiền lương (Y :
đơn vò USD) trong một tháng của 49 nhân viên, được so sánh
bởi giới tính ( D = 0 : Nữ , D = 1 : Nam)
Y

D

Y

D

Y

D

Y

D

Y

D

1345

0


1234

0

1345

0

2365

0

3307

1

2435

1

1345

0

2167

1

1345


0

3833

1

1715

1

1345

0

1402

1

1839

0

1839

1


209


1461

1

3389

1

2115

1

2613

1

1461

0

1639

1

1839

1

2218


1

2533

1

1433

1

1345

0

981

1

3575

1

1602

0

2115

0


1602

0

1345

0

1972

1

1839

0

1839

1

1144

0

1566

0

1234


0

2218

1

1288

1

1566

1

1187

0

1926

1

1529

0

1288

0


1496

1

1345

0

2165

0

1461

1

Bảng 4
Chú ý rằng, trong kinh tế cũng như trong các ngành khoa
học xã hội, các số liệu thường là phi thực nghiệm, nghóa là các
số liệu thu thập được thường không xuất phát từ cùng một điều
kiện như nhau. Do đó, chất lượng của các số liệu thu thập được
thường không tốt xuất phát từ nhiều nguyên nhân khách quan
cũng như chủ quan, chẳng hạn do sai số của phép đo, sai số do
quan sát hay bỏ sót quan sát, v.v...

210
Ta xét tham số hiệp phương sai, σ X,Y , của chúng, được đònh
nghóa là kỳ vọng của tích số ( X − µ X ) ( Y − µ Y ) ,
1
σ X,Y = E ( X − µ X ) ( Y − µ Y )  =

n

n

∑ ( X i − µ X ) ( Yi − µ Y ) .
i =1

Một cách trực quan, khi σ X,Y > 0 , đa số những giá trò của X
lớn hơn giá trò trung bình của nó, X i − µ X > 0 , đi kèm với
những giá trò của Y lớn hơn giá trò trung bình của nó,
Yi − µ Y > 0 , và ta có thể nói rằng X, Y có quan hệ đồng biến
với nhau.
Ngược lại, khi σ X,Y < 0 , đa số những giá trò của X lớn hơn
giá trò trung bình của nó, X i − µ X > 0 , đi kèm với những giá trò
của Y nhỏ hơn giá trò trung bình của nó, Yi − µ Y < 0 , và ta nói
X, Y có quan hệ nghòch biến với nhau.

2. Đánh giá sơ bộ số liệu thống kê.
Khi có các số liệu thống kê, trước hết người ta có thể biểu
diễn chúng bằng các điểm trên một hệ trục tọa độ để có một
nhận đònh sơ bộ gọi là biểu đồ rời rạc (hay biểu đồ phân tán số
liệu). Ngoài ra, người ta còn có thể ước lượng mối quan hệ giữa
chúng bằng một số các tham số thống kê.
Xét các bộ số liệu ( X i , Yi ) , i = 1, ..., n , của hai biến ngẫu
nhiên X, Y với các trung bình
µ X = E(X) =

1
n


n


i =1

X i , µ Y = E(Y) =

1
n

n


i =1

Yi .

Quan hệ đồng biến.

Quan hệ nghòch biến.
Hình 4

Để xét trường hợp σ X,Y = 0 , ta chú ý rằng khi X và Y là hai
biến số ngẫu nhiên độc lập, nghóa là
P ( X = x; Y = y ) = P ( X = x ) P ( Y = y ) ,
thì X − µ X và Y − µ Y cũng là hai biến số ngẫu nhiên độc lập
và do đó σ X,Y = 0 .


209

Ngoài ra, khi X và Y có quan hệ tuyến tính với nhau mà ta
còn gọi là có hiện tượng cộng tuyến giữa X và Y, nghóa là tồn
tại α ≠ 0 sao cho Y = αX + β , thì vì Yi = αX i + β , với mọi i, ta
suy ra
µ Y = E(Y) = E ( αX + β ) = αE(X) + β = αµ X + β .
Do đó

( X − µ X ) ( Y − µ Y ) = ( X − µ X ) ( ( αX + β ) − ( αµ X
= α ( X − µX )

+ β) )

3.35
3.61
3.83
3.56
3.43
3.52
3.14
3.19

3.22
2.53
2.37
3.12
2.54
3.56
3.25
2.32


3.33
3.56
3.25
4.05
3.27
3.12
4.06
3.61

3.43
3.22
2.82
2.64
2.4
1.77
3.13
2.65

3.15
3.41
3
3.45
4
3.28
2.81
3.29

2.86
2.56
3.28

2.34
2.67
2.62
2.54
2.04

3.7
3.5
3.61
3.16
3.64
3.93
3.89
3.52

Quan hệ phi tuyến.

Ví dụ 2. Khảo sát mối quan hệ giữa điểm điểm trung bình ở
PTTH và Đại học của 50 học sinh ở một trường đại học của Mỹ
ta có bảng số liệu sau :
PTTH ĐH
4.05 2.33
3.57
3.8

2.34
3.13
3.46
2.92
2.15

3
2.42
1.77

Trước hết, ta vẽ đồ thò phân tán của X theo Y (trên cùng
một đồ thò) bằng cách dùng một phần mềm máy tính. Chẳng
hạn với Eview, ta được

Hình 5
Từ các nhận xét nêu trên, ta thấy rằng khi X và Y có quan hệ
tuyến tính với nhau thì σ X,Y ≠ 0 . Do đó, khi σ X,Y = 0 , ta kết
luận rằng X và Y không có quan hệ tuyến tính với nhau. Khi đó,
chúng có thể độc lập hay có quan hệ phi tuyến với nhau.

PTTH ĐH
3.42 2.66
3.56 2.96

3.13
3.27
3.38
4.13
3.95
3.81
4.33
2.85

Bảng 5

σ X,Y = E ( X − µ X ) ( Y − µ Y )  ≠ 0 .


ĐH
2.8
3.54

2.88
2.15
2.22
3.31
2.13
2.39
3.01
2.68

2

cho

Độc lập.

210

PTTH ĐH
3.38
3
4.16 3.71

PTTH ĐH
4.31 2.74
3.69 2.41


PTTH
3.79
3.5

Hình 6
Đồ thò trên cho thấy không có mối quan hệ tuyến tính giữa
DTBDH và DTBPTTH. Trong trường hợp này người ta cho rằng
chúng độc lập nhau.
Ví dụ 3. Bảng sau cho số liệu về tỷ lệ lạm phát và tỷ lệ thất
nghiệp của Mỹ từ năm 1959 đến 1995
Năm
1959
1960

TLLP TLTN
0.69
5.2
1.72
5.4

Năm
1971
1972

TLLP
4.38
3.21

TLTN

5.9
5.6

Năm
1983
1984

TLLP
3.21
4.32

TLTN
9.6
7.5


1961
1962
1963
1964
1965
1966
1967
1968
1969
1970

1.01
1
1.32

1.31
1.61
2.86
3.09
4.19
5.46
5.72

6.4
5.2
5.7
5.2
4.5
3.8
3.8
3.6
3.5
4.9

1973
1974
1975
1976
1977
1978
1979
1980
1981
1982


6.22
11.04
9.13
5.76
6.5
7.59
11.35
13.5
10.32
6.16

4.9
5.6
8.5
7.7
7.1
6.1
5.8
7.1
7.6
9.7

1985
1986
1987
1988
1989
1990
1991
1992

1993
1994
1995

3.56
1.86
3.65
4.14
4.82
5.4
4.21
3.01
2.99
2.56
2.83

209

210

7.2
7
6.2
5.5
5.3
5.5
6.7
7.4
6.8
6.1

5.6

người ta dùng hệ số tương quan tuyến tính, hay vắn tắt là hệ
số tương quan, rX,Y , xác đònh bởi
σ X,Y
rX,Y =
,
σX σY
trong đó σ X và σ Y lần lượt là độ lệch chuẩn của X và Y,
2
2
σ2Y = E ( Y − µ Y )  và σ2X = E ( X − µ X )  .





Bảng 6
Tương tự, ta có đồ thò phân tán sau

Hệ số tương quan có một số tính chất căn bản sau :
(i) rX,Y luôn luôn cùng dấu với σ X,Y (do σ X , σ Y > 0 ).
(ii) −1 ≤ rX,Y ≤ 1 và rX,Y = 0 khi và chỉ khi σ X,Y = 0 .
(iii) Nếu X và Y có quan hệ tuyến tính với nhau, nghóa là
Y = α + β X , thì do µ Y = α + βµ X , σ2Y = β2σ2X , nghóa là

ta suy ra

βσ
σY =  X

 −βσ X

khi β > 0
,
khi β < 0

2
σ X,Y = E ( X − µ X ) ( Y − µ Y )  = E β ( X − µ X )  = βσ2X


và do đó
σ X,Y
khi β > 0
1
rX,Y =
=
.
σ X σ Y −1 khi β < 0

Từ đó, ta có các đánh giá sơ bộ sau :
Hình 7
Đồ thò trên cho thấy không có mối quan hệ tuyến tính giữa
TLLAMPHAT và TLTHATNGHIEP. Trong trường hợp này
người ta cho rằng chúng có quan hệ phi tuyến với nhau.
Tuy nhiên ta không thể chỉ dựa vào đồ thò phân tán để đánh
giá mối hệ giữa các bộ số liệu, mà ta còn sử dụng các công cụ
của toán học để đánh giá các quan hệ trên. Chẳng hạn, để đo
lường mức độ chặt chẽ của sự tương quan giữa hai biến số ngẫu
nhiên, độc lập với đơn vò đo lường của các biến số ngẫu nhiên,


(i) Khi rX,Y = 0 , ta nói X và Y độc lập (hay có quan hệ phi
tuyến với nhau).
(ii) Khi rX,Y ≈ 1 , ta nói X và Y có quan hệ chặt chẽ với
nhau. Nếu rX,Y > 0 , nghóa là rX,Y ≈ 1 , thì X và Y có quan hệ
đồng biến chặt. Ngược lại, nếu rX,Y < 0 , nghóa là rX,Y ≈ −1 , thì
X và Y có quan hệ nghòch biến chặt.


209

210

Ví dụ 4 : Ta khảo sát dữ liệu về giá vàng (GP), chỉ số giá
tiêu dùng (CPI) và chỉ số chứng khoán trên thò trường chứng
khoán NewYork (NYSE) từ năm 1977 đến năm 1991 ở Mỹ.
Năm

GP

CPI

NYSE

1977
1978
1979
1980
1981
1982
1983

1984
1985
1986
1987
1988
1989
1990
1991

147.98
193.44
307.62
612.51
459.61
376.01
423.83
360.29
317.30
367.87
446.50
436.93
381.28
384.08
362.04

60.60
65.20
72.60
82.40
90.90

96.50
99.60
103.90
107.60
109.60
113.60
118.30
124.00
130.70
136.20

53.69
53.70
58.32
68.10
74.02
68.93
92.63
92.46
108.90
136.00
161.70
149.91
180.02
183.46
206.33

Bảng 7
Ta lần lượt khảo sát sự tương quan giữa giá vàng (GP) và
chỉ số giá tiêu dùng (CPI) cũng như sự tương quan giữa chỉ số

chứng khoán (NYSE) và chỉ số giá tiêu dùng (CPI).
Trước hết, ta vẽ đồ thò rời rạc của GP theo CPI và của NYSE
theo CPI, ta được

Hình 8
Hình 9
Đồ thò cho thấy không có sự tương quan chặt giữa GP và
CPI. Ngược lại, có sự tương quan đồng biến chặt giữa NYSE và
CPI. Bằng công cụ thống kê, ta có
rGP,CPI = 0.388 và rNYSE,CPI = 0.932 .
Ta thấy rNYSE,CPI ≈ 1 nên NYSE và CPI có quan hệ đồng
biến chặt. Ngược lại, rGP,CPI = 1 nên GP và CPI không có
quan hệ tuyến tính chặt.
Người ta thường hình dung hóa các số liệu về hệ số tương
quan như sau :
Khoảng 39% số liệu giữa GP và CPI cho thấy quan hệ giữa
chúng là tuyến tính; khoảng 94% số liệu giữa NYSE và CPI
cho thấy quan hệ giữa chúng là tuyến tính.
Ví dụ 5 : Người ta khảo sát hai lý thuyết khác nhau liên
quan đến hành vi tiêu dùng của dân chúng :
- Theo Keynes, tổng tiêu dùng, CONS (Consumption
Expenditure), có quan hệ đồng biến với tổng thu nhập (khả
dụng), YD (Disposable Income).
- Trong khi đó, các nhà kinh tế học cổ điển tin rằng tiêu
dùng có quan hệ nghòch biến với lãi suất, RR (Real Interest
Rate), trong nền kinh tế.


209
Bằng cách thu thập số liệu về CONS, YD và RR từ năm 1955

đến năm 1986, người ta có số liệu sau
Năm
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982

1983
1984
1985
1986

CONS
873.80
899.80
919.70
932.90
979.40
1005.10
1025.20
1069.00
1108.40
1170.60
1236.40
1298.90
1337.70
1405.90
1456.70
1492.00
1538.80
1621.90
1689.60
1674.00
1711.90
1803.00
1883.80
1961.00

2004.40
2000.40
2024.20
2050.70
2146.00
2246.30
2324.50
2418.60

YD
944.50
989.40
1012.10
1028.80
1067.20
1091.10
1123.20
1170.20
1207.30
1291.00
1365.70
1431.30
1493.20
1551.30
1599.80
1668.10
1728.40
1797.40
1916.30
1896.60

1931.70
2001.00
2066.60
2167.40
2112.60
2214.30
2248.60
2261.50
2331.90
2470.60
2528.00
2603.70
Bảng 8

RR
3.43
1.86
0.33
1.06
3.57
2.81
3.34
3.21
3.05
3.09
2.77
2.27
2.63
1.98
1.66

2.12
3.09
3.91
1.21
-2.40
0.31
2.66
1.57
1.07
-1.63
-1.58
3.80
7.66
8.82
8.45
7.80
7.10

210
trong đó, đơn vò tính của CONS và DI là tỷ đô la và của RR là
phần trăm (%).
Với các đại lượng CONS và YD, ta có đồ thò rời rạc sau

Hình 10
và hệ số tương quan giữa chúng là rCONS,YD = 0.998 .
Tương tự, với CONS và RR, ta có đồ thò rời rạc

Hình 11
và hệ số tương quan rCONS,RR = 0.348 .
Từ đồ thò rời rạc cũng như hệ số tương quan, ta kết luận :



209

210

Với mô hình của Keynes : Giả thuyết CONS đồng biến theo
YD là đúng. Khoảng 99% bộ số liệu của CONS và YD khẳng
đònh giả thuyết này.

Ngoài ra, để tiện ký hiệu cho nhiều trường hợp, với biến số
ngẫu nhiên X lấy các giá trò X1 , X 2 , ..., X n và có trung bình
X , ta đònh nghóa biến số ngẫu nhiên x tương ứng bởi

Với mô hình kinh tế học cổ điển : Giả thiết CONS nghòch
biến theo RR không chính xác. Khảng 35% bộ số liệu của
CONS và RR cho thấy quan hệ giữa chúng là tuyến tính (nhưng
lại là quan hệ đồng biến).

x i = X i − X , y i = Yi − Y , i = 1, 2, ..., n.

3. Các ký hiệu chung.
Với X, Y, Z, ... hay X1 , X 2 , X 3 , ... để chỉ các biến số ngẫu
nhiên, các giá trò của chúng lần lượt được ký hiệu là X j , Yj ,
Z j , ... hay X1, j , X 2, j , X 3, j , ..., trong đó chỉ số j chỉ số liệu thứ
j của biến tương ứng. Đặc biệt đối với chuỗi thời gian, người ta
thường dùng chỉ số t thay cho j, nhằm nhấn mạnh yếu tố thời
gian, chẳng hạn Yt và X1,t lần lượt chỉ số liệu của các biến Y
và X1 tại thời điểm t.
Với biến số ngẫu nhiên X lấy các giá trò X1 , X 2 , ..., X n ,

trung bình (mean), hay kỳ vọng (expectation) của biến số ngẫu
nhiên X, ký hiệu E ( X ) , µ X hay X , xác đònh bởi
1
E(X) =
n
phương sai (variance) của X, ký

σ X,Y = E ( X − µ X ) ( Y − µ Y ) 
=

∑ Xi ,
i =1

hiệu σ2X
2

hay var(X) , được đònh

var(X) = E ( X − E(X) )

2

),

và căn bậc hai của phương sai, ký hiệu σ X hay se(X) , được gọi
là độ lệch chuẩn (standard error) của X,
se(X) = var(X) .

1
n


n

∑ ( X i − µX ) ( Yi − µ Y )
i =1

=

1
n

n

∑ xi y i ,
i =1

và hệ số tương quan (correlation), ký hiệu rX,Y hay ρ(X, Y) , là
rX,Y =

σ X,Y
σX σY

=

cov(X, Y)
.
se(X)se(Y)

Chương 1


MÔ HÌNH HỒI QUY HAI BIẾN

n

nghóa là kỳ vọng của biến ( X − E(X) ) , nghóa là

(

Với vectơ ngẫu nhiên ( X, Y ) lấy các giá trò ( X i , Yi ) ,
i = 1, 2, ..., n , hiệp phương sai (covariance), ký hiệu σ X,Y hay
cov(X, Y) , được đònh nghóa là kỳ vọng của tích
( X − µ X ) ( Y − µ Y ) , nghóa là

Hồi quy với thuật ngữ tiếng Anh là “Regression” được
Francis Galton sử dụng vào năm 1886 trong một công trình
nghiên cứu nổi tiếng của ông về chiều cao của những đứa trẻ có
cha cao hoặc thấp không bình thường sinh ra. Ông quan sát sự
phụ thuộc về chiều cao của các cháu trai vào chiều cao cha của
chúng. Lập đồ thò phân bố, ông thấy
• Với chiều cao cho trước của người cha thì chiều cao của
các cháu trai tương ứng sẽ nằm trong một khoảng, dao
động quanh giá trò trung bình.



Chiều cao của cha tăng thì chiều cao trung bình của các
cháu trai tương ứng cũng tăng.


209

Hơn nữa, ông còn nhận thấy rằng chiều cao trung bình của
các cháu trai của nhóm có cha cao nhỏ hơn chiều cao của cha và
chiều cao trung bình của các cháu trai của nhóm có cha thấp
lớn hơn chiều cao của cha.

210
Ta có thể đưa ra rất nhiều ví dụ về sự phụ thuộc của một
biến vào một hay nhiều biến khác. Kỹ thuật phân tích hồi quy
giúp ta nghiên cứu mối quan hệ như vậy giữa các biến. Ta
thường ký hiệu
Y chỉ biến phụ thuộc hay biến được giải thích,
X i chỉ biến độc lập hay biến giải thích thứ i.
Phân tích hồi quy giải quyết các vấn đề sau :

Trong công trình nghiên cứu của mình, Galton dùng cụm từ
“regression to mediocrity”, quy về trung bình, để chỉ xu hướng
này mà sau này người ta gọi là luật Galton. Từ đó, vấn đề hồi
quy được nhiều người quan tâm và hoàn thiện, đồng thời hầu
hết các ứng dụng của phân tích hồi quy đã có nội dung rộng
hơn nhiều.
1. Phân tích hồi quy.
Phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một
biến, gọi là biến phụ thuộc hay biến được giải thích, theo một
hay nhiều biến khác, gọi là các biến độc lập hay biến giải
thích.
Chẳng hạn, trong nghiên cứu của Galton, biến “chiều cao
con” là biến phụ thuộc, biến “chiều cao cha” là biến độc lập và
phân tích hồi quy của Galton nhằm nghiên cứu mối liên hệ
giữa hai biến này.




Ước lượng và dự đoán giá trò trung bình của biến phụ
thuộc với giá trò đã cho của biến độc lập.



Kiểm đònh giả thiết về bản chất sự phụ thuộc.

Chú ý rằng trong mô hình hồi quy, biến độc lập là biến
không ngẫu nhiên, nó có giá trò xác đònh, còn biến phụ thuộc là
biến ngẫu nhiên có phân phối xác suất, nghóa là ứng với mỗi
giá trò của biến độc lập, biến phụ thuộc có thể lấy nhiều giá trò
khác nhau nhưng các giá trò này tuân theo một luật phân phối
xác suất xác đònh, thường là phân phối chuẩn.
Chẳng hạn, trong phân tích hồi quy hai biến, ta xét
Y là biến phụ thuộc,
X là biến độc lập,
biến độc lập X lấy các giá trò xác đònh X1 , X 2 , ..., X n và ứng
với mỗi giá trò của X i của X, với i = 1, 2, ..., n , ta có m(i) giá trò
tương ứng của Y, Yi,1 , Yi,2 , ..., Yi,m(i) trình bày trong bảng 1.
Như vậy, ứng với một giá trò X1 của X, ta có m(1) số liệu tương
ứng của Y, ứng với giá trò X 2 của X, ta có m(2) số liệu tương
ứng của Y, ..., ứng với giá trò X n của X, ta có m(n) số liệu
tương
ứng
của
Y,

do

đó
ta

cả
thảy

(

)

m(1) + m(2) + ... + m(n) = k bộ số liệu X j, Yj .
X
Y

X1

X2

...

Xi

...

Xn


209
Y1,1


Y2,1

...

Yi,1

...

Yn,1

Y1,2

Y2,2

...

Yi,2

...

Yn,2

...

...

...

...


...

...

...

Y2,m(2)

...

...

...

...

...

...

...

...

...

...

...


Yn,m(n)

Y1,m(1)

Yi,m(i)
Bảng 1
Chẳng hạn, với phân tích hồi quy thu nhập/chi tiêu giới
thiệu trong chương mở đầu, ta có biến độc lập X chỉ lượng thu
nhập khả dụng của một hộ gia đình và biến phụ thuộc Y chỉ
lượng chi tiêu cho tiêu dùng hộ gia đình đó.
X lấy các giá trò xác đònh là 80, 100, 120, 140, 160, 180, 200,
220, 240 và 260 và

210
Ứng với X = 220 , Y lấy các giá trò là 135, 137, 140, 152,
157, 160 và 162,
Ứng với X = 240 , Y lấy các giá trò là 137, 145, 155, 165, 175
và 189,
Ứng với X = 260 , Y lấy các giá trò là 150, 152, 175, 178,
180, 185 và 191.
Ta có bảng số liệu
X

80

100

120

140


160

180

200

220

240

260

55

65

79

80

102

110

120

135

137


150

60

70

84

93

107

115

136

137

145

152

65

74

90

95


110

120

140

140

155

175

70

80

94

103

116

130

144

152

165


178

75

85

98

108

118

135

145

157

175

180

113

125

160

189


185

Y

88

162

Ứng với X = 80 , Y lấy các giá trò là 55, 60, 65, 70 và 75,
Ứng với X = 100 , Y lấy các giá trò là 65, 70, 74, 80, 85 và
88,
Ứng với X = 120 , Y lấy các giá trò là 79, 84, 90, 94 và 98,
Ứng với X = 140 , Y lấy các giá trò là 80, 93, 95, 103, 108 và
113,
Ứng với X = 160 , Y lấy các giá trò là 102, 107, 110, 116, 118
và 125,
Ứng với X = 180 , Y lấy các giá trò là 110, 115, 120, 130, và
135,
Ứng với X = 200 , Y lấy các giá trò là 120, 136, 140, 144 và
145,

191

Bảng 2
2. Mô hình hồi quy.
2.1. Hàm hồi quy tổng thể.
Giả sử ta có các bộ số liệu

( X i , Yi, j )


cho tổng thể, với

i = 1, 2, ..., n , j = 1, 2, ..., m(i) . Ứng với mỗi giá trò của X, X = X i ,
với i = 1, 2, ..., n , ta có thể có nhiều giá trò của Y tương ứng nên
quan hệ của Y theo X không là quan hệ “hàm số”. Tuy nhiên,
ứng với mỗi giá trò của X, X = X i , ta có duy nhất giá trò trung
bình E ( Y X = X i ) , nên quan hệ này trở thành quan hệ hàm số
E ( Y X = Xi ) ≡ f ( Xi )

(2.1.1)


209
và hàm số này được gọi là hàm hồi quy tổng thể , PRF
(Population Regression Functions) mà trong trường hợp này, ta
còn gọi là hàm hồi quy đơn (hồi quy hai biến ), do nó chỉ có một
biến độc lập. Trường hợp có nhiều hơn một biến độc lập, ta gọi
là hàm hồi quy bội.

210
ngẫu nhiên ε được ngầm hiểu và khi đó, hàm hồi quy tổng thể
(ngẫu nhiên) được viết tắt là
Y = β1 + β2 X .
2.2. Hàm hồi quy mẫu.
Cũng như vấn đề về mẫu và tổng thể trong lý thuyết thống
kê, chúng ta hoặc không có tổng thể, hoặc có nhưng không thể
nghiên cứu được toàn bộ tổng thể. Do đó, ta chỉ có thể ước
lượng hàm hồi quy tổng thể với những thông tin từ các mẫu
ngẫu nhiên lấy ra từ tổng thể.


Trước hết, giả sử PRF là hàm tuyến tính
E ( Y X = X i ) = β1 + β2 X i
mà ta còn viết là
E ( Y X ) = β1 + β2 X ,
trong đó β1 và β2 là các tham số chưa biết nhưng cố đònh, được
gọi là các hệ số hồi quy; β1 gọi là hệ số tự do hay hệ số chặn,
β2 gọi là hệ số góc (nó cho biết tỷ lệ thay đổi của Y đối với X).
Tính tuyến tính ở đây đúng đối với cả tham số cũng như đối
với các biến. Điều này không đúng trong nhiều trường hợp
2
khác, chẳng hạn hàm E ( Y X ) = β1 + β2 X tuyến tính đối với
tham số nhưng không tuyến tính (phi tuyến) đối với biến.
Ngược lại, hàm E ( Y X ) = β1 + β2 X tuyến tính đối với biến
nhưng phi tuyến đối với tham số.

Hàm hồi quy xây dựng trên cơ sở của một mẫu ngẫu nhiên
được gọi là hàm hồi quy mẫu, SRF (Sample Regression
Function), hay hồi quy mẫu.
Rõ ràng là với nhiều mẫu khác nhau, ta có nhiều SRF khác
nhau. Do đó, vấn đề đặt ra là cần ước lượng PRF bằng SRF tốt
nhất theo nghóa là SRF này có các tính chất : tuyến tính,
không chệch, có độ lệch chuẩn nhỏ nhất.
Cụ thể, với hàm hồi quy tổng thể tuyến tính, hàm hồi quy
mẫu có dạng
µˆ = β$ˆ + β$ˆ X ,
Y
1
2


Chú ý rằng trong phân tích hồi quy tuyến tính, hàm hồi quy
tổng thể được hiểu là tuyến tính đối với tham số nhưng không
nhất thiết tuyến tính theo các biến.

ˆ
µ là ước lượng điểm của E ( Y X ) , β$1 là ước lượng
trong đó Y
ˆ
điểm của β$1 và β$2 là ước lượng điểm của β2 .

Ngoài ra, do Y là biến số ngẫu nhiên, nên ứng với quan sát
thứ i trong tổng thể, X = X i , giá trò Y = Yi tương ứng sai khác
với giá trò trung bình β1 + β2 X i một đại lượng sai số ngẫu
nhiên, ký hiệu ε i . Do đó, ta còn viết

3. Phương pháp bình phương nhỏ nhất.

Y = β1 + β2 X + ε ,

(2.1.2)

trong đó ε là một đại lượng ngẫu nhiên và (2.1.2) được gọi là
hàm hồi quy tổng thể ngẫu nhiên . Thông thường, đại lượng

Phương pháp bình phương nhỏ nhất, OLS (Ordinary Least
Square), do nhà toán học Đức Carl Fredrich Gauss đưa ra. Với
phương pháp này, kèm theo một vài giả thiết, các ước lượng thu
được có một số tính chất đặc biệt mà nhờ đó nó trở thành
phương pháp hồi quy mạnh và phổ biến nhất.
3.1. Nội dung phương pháp OLS.



209
Giả sử Y = β1 + β2 X là PRF cần tìm. Ta tìm cách ước lượng
nó bằng cách xây dựng SRF dạng
µˆ = β$ˆ + β$ˆ X
Y
1
2

210
Giá trò nhỏ nhất của f, nếu có, phải đạt tại điểm dừng của
$ˆ $ˆ
nó, nghóa là khi ∇f β1 , β2 = ( 0, 0) . Do đó, ta nhận được hệ

(

phương trình

từ một mẫu gồm n quan sát ( X i , Yi ) , với i = 1, 2, ..., n .

Phương pháp OLS nhằm xác đònh các tham số

(

ˆ ˆ
β$1 , β$2

)


sao

cho tổng bình phương các phần dư, Σni =1e2i , là nhỏ nhất. Chú ý
rằng tổng bình phương các phần dư này là hàm theo hai biến
ˆ ˆ
β$1 , β$2 ,

)

ˆ ˆ
f β$1 , β$2 ≡

(

ˆ

ˆ

) ∑ e2i = ∑ ( Yi − β$1 − β$2X i )
i =1
i =1

2

(

n




= −2

i =1

) ∑ (
i =1





= −2

i =1

∑ X i Yi

=

i =1

ˆ
β$2 =

n

n


i =1


n

X i Yi −
n


i =1

X 2i

n

n

∑ ∑
i =1

Xi

Yi

i =1
2

 n

−
Xi ÷


÷
 i =1 





n

∑ ( X i − X ) ( Yi − Y )

= i =1

n

∑(
i =1

Xi − X

)

2

ˆ
ˆ
β$1 = Y − β$2 X ,

(3.1.1)


(3.1.2)

n

i =1

n

.

Chú ý rằng công thức (3.1.1) có thể viết lại là (xem phần
phụ lục)

ˆ
ˆ n
$
$
Yi + 2nβ1 + 2β2
Xi,

) ∑
i =1

i =1

X 2i

trung bình của X, Y.
ˆ
β$2 nhận được bằng các công thức trên

được gọi là các ước lượng bình phương nhỏ nhất của β1 và β2 .

)

n
ˆ
ˆ
∂f $ˆ $ˆ
ˆ β1 , β2 = − 2X i Yi − β$1 − β$2 X i
∂β2

(



i =1
n

trong đó X , Y là các
ˆ
Các giá trò β$1 và

với đạo hàm riêng theo các biến
n
ˆ
ˆ
∂f $ˆ $ˆ
ˆ β1 , β2 = − 2 Yi − β$1 − β$2 X i
∂β1


ˆ
+ β$2

i =1
n

∑ Yi

=

Giải hệ phương trình trên, ta được

mà ta gọi là các phần dư.

n

n





µˆ = Y − β$ˆ − β$ˆ X ,
ei ≡ Yi − Y
i
i
1
2 i

n


ˆ n
+ β$2
Xi

 ˆ
nβ$1

 n
 $ˆ
Xi
β1
 i =1

Khi đó, ứng với mỗi i, sai biệt giữa giá trò chính xác, Yi , và
µˆ = β$ˆ + β$ˆ X , là
giá trò ước lượng, Y
i
1
2 i

(

)

(

∑ ( X i − X ) ( Yi − Y )

ˆ

β$2 = i =1

)

ˆ n
ˆ n 2
X i Yi + 2β$1
X i + 2β$2
Xi .


i =1


i =1

n

∑ ( Xi − X )
i =1

2

=

σ X,Y
S2X

= rX,Y


SY
,
SX

(3.1.3)


209
trong đó σ X,Y , rX,Y lần lượt là hiệp phương sai, hệ số tương
quan của X, Y và SX , SY lần lượt là độ lệch chuẩn (không hiệu
chỉnh) của X, Y.
Ví dụ 1. Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ
lệ lạm phát (X) trong năm 1988 ở 9 nước
X
Y

7.2
11.9

4.0
9.4

3.1
7.5

1.6
4.0

4.8
51.0 2.0

6.6
4.4
11.3 66.3 2.2 10.3
7.6
Giả sử rằng sự phụ thuộc E ( Y X ) là tuyến tính. Ước lượng

hàm hồi quy mẫu.
Giải. Dùng máy tính (xem phần phụ lục), ta được một số đại
lượng sau :

∑ X 2 = 2770.97 ; ∑ X = 84.7 ; n = 9 ;
∑ Y 2 = 4994.29 ; ∑ Y = 130.5 ; ∑ XY = 3694.29 ;
X = 9.411111111 ; Xσn = 14.80933973 ; Xσn − 1 = 15.70767682 ;
Y = 14.5 ; Yσn = 18.56532012 ; Yσn − 1 = 19.69149563 ;
A = 2.74169485 ; B = 1.249406687 ; r = 0.996637168 .

và từ đó suy ra hệ số hồi quy
ˆ
β$2 = B ≈ 1.249407 ,

ˆ
β$1 = A ≈ 2.741695 .

Ta nhận được SRF :
ˆ
Y = 2.741695 + 1.249407 ×X .
Từ hàm hồi quy mẫu này, ta kết luận rằng khi X thay đổi
một đơn vò thì Y thay đổi 1.249407 đơn vò. Nói khác đi, khi tỷ
lệ lạm phát tăng/giảm 1% thì lãi suất ngân hàng tăng/giảm
1.249407%.

Chú ý tính đúng đắn của các kết quả nhận được khi so sánh
với các công thức (3.1.1-3.1.3). Từ

210
SX = Xσn = 14.80933973 ; SY = Yσn = 18.56532012 ;
rX,Y = r = 0.996637168 ;
ta suy ra
ˆ
S
18.56532012
β$2 = rX,Y Y = 0.996637168
= 1.249406686 ;
SX
14.80933973
ˆ
ˆ
β$1 = Y − β$2 X = 14.5 − 1.249406686 × 9.411111111
= 2.741694855.

3.2. Các giả thiết của mô hình.
Để có thể dùng các công cụ của thống kê toán nhằm đánh
giá chất lượng của mô hình hồi quy tuyến tính, ta cần các giả
thiết sau trên biến số X và đại lượng sai số ngẫu nhiên ε ,
Giả thiết 1. Biến giải thích X là biến phi ngẫu nhiên, nghóa
là các giá trò của nó được hoàn toàn xác đònh. Giả thiết này
đương nhiên được thỏa trong mô hình hồi quy tuyến tính.
Giả thiết 2. Kỳ vọng của sai số ngẫu nhiên ε bằng 0, nghóa
là E ( ε i ) = E ( ε X = X i ) = 0 . Giả thiết này có nghóa là các yếu tố
không xuất hiện trong mô hình, được đại diện bởi đại lượng
ngẫu nhiên ε , không ảnh hưởng một cách có hệ thống đến giá

trò trung bình của Y.
Giả thiết 3. Phương sai của sai số không đổi (phương sai

( )

2
thuần nhất), nghóa là Var ( ε i ) = Var ε j = σ , với mọi i, j. Giả

thiết này có nghóa là các giá trò cụ thể của Y tương ứng với
cùng một giá trò của X đều được phân bố xung quanh giá trò
trung bình của nó với cùng một mức độ phân tán như nhau.
Giả thiết 4. Không có tương quan giữa các sai số, nghóa là
cov(ε i , ε j ) = 0 , với mọi i, j. Giả thiết này có nghóa là sai số ở số
liệu quan sát này không ảnh hưởng gì tới sai số ở số liệu quan
sát khác.


209
Giả thiết 5. Sai số và biến giải thích không có tương quan,
nghóa là cov(ε, X) = 0 . Giả thiết này là cần thiết vì nó cho phép
tách bạch ảnh hưởng của X và của các yếu tố không xuất hiện
trong mô hình đến các giá trò của Y. Giả thiết này đương nhiên
được thỏa do X là phi ngẫu nhiên.

210
trong đó σ2 là phương sai của sai số ngẫu nhiên (thuần nhất),
σ2 = var(ε) .

Trong các công thức (3.3.1-3.3.2), khi σ2 chưa biết, ta thay
$ˆ2 của nó,

σ2 bằng ước lượng không chệch σ

3.3. Tính chất của các ước lượng bình phương nhỏ nhất.

$ˆ2 =
σ

Với các giả thiết cho trong 3.2, ta có
3.3.1. Đònh lý Gauss – Markov. Với các giả thiết 1-5 của mô
hình hồi quy tuyến tính, các ước lượng cho bởi phương pháp
OLS là các ước lượng tuyến tính, không chệch và có phương sai
nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.

(3.3.3)

n

∑ ( Xi − X )
i =1

3.3.2. Tính chất các hệ số hồi quy

mẫu gồm n cặp quan sát ( X i , Yi ) . Ứng với các mẫu khác nhau,
chúng có giá trò khác nhau.
ˆ
ˆ
ii) β$1 và β$2 là các ước lượng điểm của β1 và β2 và là các
đại lượng ngẫu nhiên với phương sai cho bởi
n


∑ X 2i

ˆ
var β$1 =

( )

n

n

i =1

∑ ( Xi − X )

2

σ

2

n

∑ e2i .
i =1

Công thức (3.3.1-3.3.3) còn có thể viết dưới dạng khác, dựa
vào các đẳng thức

Phần chứng minh được trình bày trong phần phụ lục.

Các hệ số hồi quy có các tính chất sau :
ˆ
ˆ
i) β$1 và β$2 được xác đònh một cách duy nhất ứng với mỗi

1
n−2

2

= nS2X ,

n

∑ X 2i = nS2X + nX 2 ,
i =1

ta suy ra
ˆ
nS2X + nX 2 2  1
X2  2
var β$1 =
σ = +
σ ,
2
n2S2X
 n nSX 

( )


ˆ
σ2
var β$2 =
.
nS2X

( )

$ˆ2 =
σ

1
n−2

n

ˆ

σ2

∑ ( Xi − X )
i =1

ta suy ra
2

,

2


i =1

(

n

ˆ

∑ ( Yi − β$1 − β$2 X i )

.

ˆ
ˆ
Mặt khác do Y = β$1 + β$2 X nên bằng cách viết
ˆ
ˆ
ˆ
Yi − β$1 − β$2 X i = Yi − Y − β$2 X i − X ,



( )

(3.3.5)

ˆ
ˆ
Đối với công thức (3.3.3), do ei = Yi − β$1 − β$2 X i , ta có


(3.3.1)

i =1

ˆ
var β$2 =

(3.3.4)

(3.3.2)

)

(

)


209
$ˆ2 =
σ

1
n−2

n

ˆ

∑ ( ( Yi − Y ) − β$2 ( X i − X ) )


i =1
 n

∑(

)

∑(

∑(

ta được các ước lượng điểm cho phương sai của các hệ số hồi
quy mẫu
ˆ
var β$1 = 0.155982333 × 2.975456987 = 0.464118722 ,

2

ˆ n
2
1

Yi − Y − 2β$2
Xi − X
n−2
i =1
 i =1
n
ˆ2

2
+ β$2
Xi − X ÷
÷
i =1

ˆ
1  2
$ σ
$ˆ2S2 
=
nS

2n
β
+
n
β
Y
X,Y

2
2 X÷
n−2

n  2

$ˆ2 2 
=
 SY − 2β2σ X,Y + β2SX ÷

n−2

=

) ( Yi − Y ) +
.

)

(

ta được biểu thức khác cho (3.3.3), (xem phần phụ lục)

)

(

)

n
n
2
2
S2Y − rX,Y
S2Y =
1 − rX,Y
S2Y . (3.3.6)
n−2
n−2


Chẳng hạn, với số liệu trong ví dụ 1, ta có
1
ˆ
9.4111111112  2
2
var β$1 =  +
 σ = 0.155982333σ ,
2
9
9 × 14.80933973 


( )

ˆ
var β$2 =

( )

σ2

2

9 × 14.80933973

= 0.0005066243954σ2 .

và với ước lượng điểm cho σ2 ,

(


)

9
× 1 − 0.9966371682 × 18.565320122
9−2
= 2.975456987

$ˆ2 =
σ

= 0.001507439097.

ˆ
ˆ
i) SRF đi qua trung bình mẫu X, Y , nghóa là Y = β$1 + β$2 X .

ˆ
σ X,Y
S
σ X,Y = rX,Y S Y SX và β$2 = rX,Y Y =
,
SX
S2X

(

( )
ˆ
var ( β$2 ) = 0.0005066243954 × 2.975456987


3.3.3. Tính chất cho hàm hồi quy mẫu
ˆ ˆ
ˆ
Hàm hồi quy mẫu Y = β$1 + β$2 X có các tính chất

Dùng các đẳng thức

$ˆ2 =
σ

210

)

µ bằng với giá trò trung bình quan
ii) Giá trò trung bình của Y
ˆ
µ = Y.
sát Y, nghóa là Y
iii) Giá trò trung bình của phần dư e bằng 0, nghóa là

e = n1 ∑ ni =1 ei = 0 .

iv) Phần dư e và

µi
∑ ni =1 ei Y

µ

Y

không

tương quan, nghóa là

= 0.

iv) Phần dư e và X không tương quan, nghóa là ∑ ni=1 ei X i = 0 .


209
4. Hệ số xác đònh mô hình.
Gọi TSS (Total Sum of Squares) là tổng bình phương các sai
số giữa giá trò quan sát Yi với giá trò trung bình của chúng,
TSS =

n

∑ ( Yi − Y )
i =1

2

210
Ngược lại, nếu hàm hồi quy mẫu kém phù hợp với các số liệu
quan sát thì RSS sẽ lớn so với ESS.
Các nhận xét này được minh họa bởi hình sau

.


ESS (Explained Sum of Squares) là tổng bình phương các sai
lệch giữa giá trò của Y tính theo hàm hồi quy mẫu với giá trò
trung bình,
ESS =

n

∑(
i =1

n
2
µ i − Y 2 = β$ˆ2
Y
Xi − X .
2

)

∑(

)

i =1

RSS (Residual Sum of Squares) là tổng bình phương các sai
lệch giữa giá trò quan sát của Y và các giá trò nhận được từ
hàm hồi quy mẫu,
RSS =


n


i =1

e2i

n

=

∑ ( Yi − Yµ i )
i =1

2

.

Khi đó,
TSS đo độ chính xác của số liệu thống kê,

Hình 2
Với các nhận xét trên, ta dùng hệ số xác đònh (coefficient of
determination)
R2 =

ESS đo độ chính xác của hàm hồi quy so với trung bình, và
RSS đo độ chính xác của hàm hồi quy mẫu so với hàm hồi
quy tổng thể.


ESS
TSS

để đo mức độ phù hợp của hàm hồi quy.

(

Ta có 0 ≤ R 2 ≤ 1 và R 2 = rX,Y

Nhận xét rằng
TSS = ESS + RSS .

Nếu các số liệu quan sát của Y đều nằm trên SRF thì
RSS = 0 và ESS = RSS .
Nếu hàm hồi quy mẫu phù hợp tốt với các số liệu quan sát
thì ESS sẽ lớn so với RSS.

(3.3.7)

)

2

, với rX,Y là hệ số tương

quan giữa X và Y. Do đó,
Khi R 2 = 1 , ta được đường hồi quy “hoàn hảo”, mọi sai lệch của
Y (so với trung bình) đều giải thích được bởi mô hình hồi quy.
Khi R 2 = 0 , X và Y không có quan hệ tuyến tính.



209
Các tham số liên quan đến hệ số xác đònh mô hình còn có
thể tính bằng các công thức sau :
TSS =

n

∑ ( Yi − Y )

2

=

i =1

nS2Y ;

(3.3.8)

ˆ2 n
ˆ2
2
ESS = β$2
X i − X = nβ$2S2X ;

∑(

)


i =1

(3.3.9)

SY

và vì β2 = rX,Y S nên
X

ˆ2 

2
RSS = TSS − ESS = n  S2Y − β$2S2X ÷ = n S2Y − rX,Y
S2Y



(

(

)

)

2
= n 1 − rX,Y
S2Y .


(3.3.10)

210
R2 =

ESS
= 0.993285647 .
TSS

2
2
(so sánh với rX,Y = 0.996637168 = 0.993285644 ).

Bây giờ, trong ứng dụng, người ta nói rằng biến X giải thích
được trên 99% sự thay đổi của biến Y. Nói khác đi, sự thay đổi
của tỷ lệ lạm phát giải thích được trên 99% sự thay đổi của lãi
suất ngân hàng.
Nhìn chung các kết quả tính toán trên khá phức tạp khi số
liệu quan sát lớn hay trong các mô hình khác. Trên thực tế,
người ta thường dùng các phần mềm kinh tế lượng để hỗ trợ
cho việc tính toán. Chẳng hạn, với phần mềm Eview (xem
phần phụ lục), ta được các kết quả cho trong bảng sau

Chú ý rằng từ (3.3.7-3.3.9), ta nhận được đẳng thức

(

R 2 = rX,Y

)


2

, với rX,Y là hệ số tương quan giữa X và Y. Ngoài

ra, đẳng thức (3.3.6) còn được viết lại thành (xem phụ lục)
$ˆ2 =
σ

(

)

n
RSS
2
1 − rX,Y
S2Y =
n−2
n−2

Chẳng hạn, với số liệu trong ví dụ 1, ta có
TSS = nS2Y = 9 × 18.565320122 = 3.102.04 ;
ˆ2
ESS = nβ$2S2X = 9 × 1.2494066872 × 14.809339732
;
= 3081.211809

(


)

Hình 3 : Bảng kết quả hồi quy

2
RSS = n 1 − rX,Y
S2Y

(

)

= 9 × 1 − 0.9966371682 × 18.809339732 ;
= 21.37932225
và ta được hệ số xác đònh mô hình

Giải thích các kết quả trong bảng
Dependent Variable : Biến phụ thuộc là Y
Method : Phương pháp ước lượng là phương pháp OLS
Date – Time : Ngày giờ thực hiện


209

210

Sample : Số liệu mẫu 1 – 9.

-


Akaike info criterion : Tiêu chuẩn Akaike

Included observations : Cở mẫu là 9

-

Schwarz info criterion : Tiêu chuẩn Schwarz

-

F – Statistic : Giá trò của thống kê F = 1035.543

-

Prob( F – Statistic) : Giá trò p-value của thống kê F
tương ứng

Cột Variable : Các biến giải thích có trong mô hình (trong đó
C là biến số tự do)
Cột Coefficient : Giá trò các hệ số hồi quy
β$1 = 2.741695 và β$2 = 1.249407 .
Cột Std. Error : Độ lệch chuẩn của các hệ số hồi quy
ˆ
se β$1 = var(β1 ) = 0.681263
ˆ
se β$2 = var(β2 ) = 0.038826


( )
( )


Cột t – Statistic : Giá trò thống kê t tương ứng
T=

β$1
β$2
= 4.024432 và T =
= 32.17985
se(β$1 )
se(β$2 )

(Trong đó T là đại lượng ngẫu nhiên có phân phối Student
với bậc tự do (n – 2)).

P(F > 1035.543) ≈ 0.0000 . Với F là biến ngẫu nhiên có phân
phối Fisher có bậc tự do (k − 1, n − k) .
5. Phân phối xác suất của các ước lượng.
Như trình bầy trong phần 2.2 về hàm hồi quy mẫu, ứng với
mỗi một mẫu khác nhau, ta nhận được một hàm hồi quy mẫu
với các hệ số hồi quy khác nhau. Ví dụ, ta coi như số liệu trong
phần 1 về sự tương quan giữa biến X chỉ lượng thu nhập khả
dụng của một hộ gia đình và biến phụ thuộc Y chỉ lượng chi
tiêu cho tiêu dùng hộ gia đình đó như là số liệu của tổng thể
cần xác đònh. Từ số liệu tổng thể này, ta lấy ba mẫu khác
nhau:
Mẫu 1 :

Cột Prob. : Giá trò p – value của thống kê t tương ứng
P( T > 4.024432) ≈ 0.0050 và . P( T > 32.17985) ≈ 0.0000
2


R – Squared : Hệ số R = 0.993286
Adjusted R – Squared : Hệ số R 2 điều chỉnh
$ = 1.724951
S.E. of regression : Giá trò ước lượng cho σ : σ

X

80

100

120

140

160

180

200

220

240

260

55
60

65
70

65
70
74
80

79
84
90
94

80
93
95
103

102
107
110
116

110
115
120
130

120
136

140
144

135
137
140
152

137
145
155
165

150
152
175
178

Y

ta được

n = 40 ; X = 170 ; SX = 57.44562647 ;

Sum squared resid : Tổng bình phương các phần dư ( RSS )

Y = 113.2 ; SY = 33.54787624 ;

Log likelihood : Tiêu chuẩn ước lượng hợp lý


A = 17.02121212 ; B = 0.565757575 ;

Durbin – Watson stat : Thống kê Durbin – Watson

r = 0968773645 .

Mean dependent var : Giá trò trung bình của biến phụ thuộc
S.D. dependent var : Độ lệch chuẩn của biến phụ thuộc

µ = 17.02 + 0.57X .
và hàm hồi quy cho mẫu 1 : Y
Mẫu 2 :


209
X

80

100

120

140

160

180

200


220

240

260

55
60
65
70

74
80
85
88

84
90
94
98

95
103
108
113

110
116
118

125

115
120
130
135

136
140
144
145

140
152
157
160

155
165
175
189

175
178
180
185

210

Y


ta được

n = 40 ; X = 170 ; SX = 57.44562647 ;
Y = 122.675 ; S Y = 37.24472278 ;
A = 14.55757576 ; B = 0.635984848 ;

r = 0.980932205 .
µ = 14.56 + 0.64X .
và hàm hồi quy cho mẫu 2 : Y
Hình 4

Mẫu 3 :
X

80

100

120

140

160

180

200

220


240

260

60
65
70
75

70
74
80
85

84
90
94
98

93
95
103
108

107
110
116
118


115
120
130
135

136
140
144
145

137
140
152
157

145
155
165
175

152
175
178
180

Y

ta được

n = 40 ; X = 170 ; SX = 57.44562647 ;

Y = 119.275 ; SY = 34.3525745 ;
A = 20.12121212 ; B = 0.583257575 ;
r = 0.975344564 .

µˆ = 20,12 + 0, 58X .
và hàm hồi quy cho mẫu 3 : Y
Đồ thò ba hàm hồi quy này cho trong hình sau :

Hơn nữa, mục đích của phân tích hồi quy không chỉ là suy
đoán về các hệ số hồi quy tổng thể β1 , β2 cũng như hàm hồi
quy tổng thể (PRF) bằng các hệ số hồi quy mẫu cũng như hàm
hồi quy mẫu (SRF) mà còn phải kiểm tra bản chất sự biến
thiên của các hệ số hồi quy mẫu. Ngoài ra, người ta còn cần
thiết phải khai thác các thông tin nhận được từ hàm hồi quy
mẫu, chẳng hạn như thực hiện các dự báo hay kiểm đònh các
giả thuyết về mô hình đặt ra. Để làm được các điều này, cần
ˆ
ˆ
thiết phải biết các phân phối xác suất của β$1 và β$2 . Các phân
phối xác suất này phụ thuộc vào phân phối xác suất của các ε i
và ta cần thêm giả thiết sau

(

)

2
Giả thiết 6. εi : N 0; σ .

ˆ

ˆ
$ˆ2 có các tính chất sau :
Khi đó, các ước lượng β$1 , β$2 và σ
i) Chúng là các ước lượng không chệch, có phương sai nhỏ
nhất và khi số quan sát đủ lớn thì các ước lượng này xấp xỉ với
các giá trò β1 , β2 và σ2 tương ứng.


209

2 

ii) β1 : N  β1 ; σβ$ˆ ÷ ,

1 
ˆ
β$ − β1
Z1 = 1
:
σ $ˆ
β1

iii) χ2 =

ˆ2

( n − 2) σ$

(


σ

2

ˆ


β$2 : N  β2 ; σ2$ˆ ÷ . Từ đó suy ra
β2 

ˆ
β$2 − β2
N ( 0;1) và Z2 =
: N ( 0;1) .
σˆ

5.3. Khoảng tin cậy cho σ2 .
Từ thống kê
ˆ2

( n − 2) σ$

β$2

σ

: χ2 ( n − 2 ) .

)


Với thông tin trên các phân phối xác suất liên quan đến các
hệ số hồi quy nêu trên, ta có thể tìm các khoảng tin cậy cũng
như tiến hành kiểm đònh các giả thiết liên quan đến các hệ số
hồi quy.
5.1. Khoảng tin cậy cho β2 .

ˆ
β$2 − β2
: N ( 0;1) và vì ta ước
Xuất phát từ thống kê Z2 = σ ˆ
$
β2

$ˆ2 nên ta dùng thống kê
lượng σ2 bằng σ
ˆ
β$2 − β2
T=
ˆ : St(n − 2) .
se β$

( 2)

( )

2

: χ2 ( n − 2 ) ,

(5.3)


ta suy ra khoảng tin cậy cho σ2 với độ tin cậy γ cho trước.

2
iv) Yi : N β1 + β2 X i ; σ .

ˆ

Do β$2 và se β2

210

(5.1)

tính được từ mẫu nên từ độ tin cậy γ cho

trước, ta suy ra khoảng tin cậy cho T và từ đó suy ra khoảng
tin cậy cho β2 .
5.2. Khoảng tin cậy cho β1 .

( )

ta suy ra khoảng tin cậy cho β1 với độ tin cậy γ cho trước.

( )

( )

Từ đó suy ra
ˆ

se β$1 =

ˆ
var β$1 ≈ 0.6813 ;

( )

Do

( )

ˆ
se β$2 =

( )

ˆ
var β$2 ≈ 0.0388 .

( )

ˆ
β$1 − β1 2.741695 − β1
T=
: St(9 − 2) ;
ˆ =
0.6813
se β$1

( )


ˆ
β$2 − β2 1.249407 − β2
T=
: St(9 − 2)
ˆ =
0.0388
se β$

( 2)

nên với độ tin cậy γ = 0.9 , tra bảng phân phối Student với
n = 9 − 2 = 7 độ tự do, ta được giá trò C = 1.895 và suy ra
khoảng tin cậy cho β1 và β2 lần lượt là
β1 = 2.741695 ± 1.895 × 0.6813 , và
β2 = 1.249407 ± 1.895 × 0.0388 .

Tương tự, từ thống kê

ˆ
β$1 − β1
T=
ˆ : St(n − 2) ,
se β$1

Chẳng hạn, từ bảng tính của ví dụ 1, ta có
ˆ
ˆ
var β$1 = 0.464118722 , var β$2 = 0.001507439097 .


(5.2)

$ˆ2 = 2.975456987 , dùng thống kê
Tương tự, với σ
χ

2

ˆ2

( n − 2) σ$
=
σ

2

=

( 9 − 2) × 2.975456987 :
σ

2

χ2 ( 9 − 2 )


209

210
ˆ

β$2
T=
ˆ
se β$

với độ tin cậy γ = 0.9 , tra bảng phân phối chi-bình phương với
n = 9 − 2 = 7 độ tự do, ta được khoảng tin cậy cho χ2 là

[ 2.167;14.067] . Do

( 9 − 2) × 2.975456987 ≤ 14.067
2.167 ≤
σ2

,

ta suy ra

( 9 − 2) × 2.975456987
14.067

( 9 − 2) × 2.975456987
≤ σ2 ≤
2.167

( 2)


5.5. So sánh β1 với β1 cho trước.


Ta có bài toán kiểm đònh
H : β1 = β1∗

∗.
H : β1 ≠ β1

Ngoài ra, cũng từ các thống kê (5.1), (5.2) và (5.3), ta có thể
kiểm đònh một số giả thiết liên quan đến các hệ số hồi quy
β1∗

Ta có bài toán kiểm đònh
H : β2 =

H : β2 ≠

1.249407
≈ 32.2 .
0.0388

Với nguy cơ sai lầm α = 0.05 , tra bảng phân phối Student
với n = 9 − 2 = 7 độ tự do, ta được giá trò C = 2.365 . Vì T > C
nên ta bác bỏ H, chấp nhận H và ta kết luận rằng tỷ lệ lạm
phát có ảnh hưởng đến lãi suất ngân hàng, với nguy cơ sai lầm
α = 0.05 .

và nhận được khoảng ước lượng cho σ2 là [ 1.48; 9.61] , với độ
tin cậy γ = 0.9 .


5.4. So sánh β2 với β2 cho trước.


=

Dùng thống kê (5.2). Với nguy cơ sai lầm α cho trước, nếu
nằm trong khoảng tin cậy của β1 với độ tin cậy γ = 1 − α , ta

chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
β∗2
β∗2

.

2
5.6. So sánh σ2 với σ0 cho trước.

Ta có bài toán kiểm đònh

Dùng thống kê (5.1). Với nguy cơ sai lầm α cho trước, nếu
β∗2 nằm trong khoảng tin cậy của β2 với độ tin cậy γ = 1 − α , ta

H : σ2 = σ20

2
2.
H : σ ≠ σ0

chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
Đặc biệt, với β∗2 = 0 , giả thiết H có nghóa là “biến độc lập X

không ảnh hưởng gì tới biến phụ thuộc Y”. Khi đó, thống kê

tương ứng là
ˆ
β$2
T=
ˆ : St(n − 2) .
se β$

( 2)

Chẳng hạn, với số liệu của ví dụ 1, ta có

σ20

Dùng thống kê (5.3). Với nguy cơ sai lầm α cho trước, nếu
nằm trong khoảng tin cậy của σ2 với độ tin cậy γ = 1 − α ,

ta chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
6. Kiểm đònh sự phù hợp của hàm hồi quy. Phân tích hồi
quy và phân tích phương sai.
Trong phần này, ta khảo sát việc phân tích hồi quy theo
quan điểm của phân tích phương sai. Việc phân tích này cung


209
cấp cho ta một phương pháp hữu ích khác trong việc giải quyết
vấn đề phán đoán thống kê.
Xuất phát từ tính chất
TSS = ESS + RSS và R 2 =
ta suy ra


ESS
,
TSS

(

)

2
ESS = R TSS và RSS = 1 − R TSS .
2

Ngoài ra, vì

nên

ˆ

n

σ

Do đó
ˆ

S1

β$2 − β2 )
(


σ

2

2

: χ2 (1)


S2

ˆ2

( n − 2) σ$

σ2

=

1

n



σ 2 i =1

e2i

2


: χ (n − 2) .

Từ đó suy ra
F≡

S1
1
S2
n −2

2
ˆ
β$2 − β2 nS2X
=
: F(1, n − 2) .
ˆ
σ2

(

ˆ2
ESS
R2TSS
β$2nS2X
( n − 2) R2
1
1
F=
=

=
=
RSS
$ˆ2
( 1− R2 ) TSS 1 − R2 .
σ
n −2
n −2

Do đó, quá trình phân tích phương sai cho phép ta đưa ra các
phán đoán thống kê về độ thích hợp của hàm hồi quy.

F=

: N ( 0;1) .

nS2X

Chú ý rằng khi đó, nghóa là khi (H) đúng, giá trò F còn có
thể được tính bằng công thức

Chẳng hạn, với số liệu của ví dụ 1, ta có

ˆ
2 

β$2 : N  β2 ; σ 2 ÷
nSX 



( β$2 − β2 ) SX

210

)

Từ thống kê này, ta cũng có thể kiểm đònh giả thiết
 H : β2 = 0
,

 H : β2 ≠ 0
nghóa là kiểm đònh giả thiết cho rằng biến độc lập X không
ảnh hưởng gì đến biến phụ thuộc Y.

( n − 2) R2
1−R

2

=

( 9 − 2) × 0.9933 ≈ 1037.7761
1 − 0.9933

.

Với nguy cơ sai lầm α = 0.05 , tra bảng phân phối Fisher với
độ tự do ( 1, 9 − 2 ) = ( 1, 7 ) , ta được C = 5.59 . Vì F > C nên ta bác
bỏ H, chấp nhận H , nghóa là biến độc lập X (tỷ lệ lạm phát) có
ảnh hưởng đến biến phụ thuộc Y (lãi suất ngân hàng).

Ngoài phương pháp kiểm đònh các hệ số hồi quy bằng
khoảng tin cậy, ta còn có phương pháp kiểm đònh bằng giá trò
p – value được thực hiện như sau :
β$i − β*i
T
=
Bước 1 : Tính giá trò 0
se β$i

( )

Bước 2 : Tính p − value = P( T > T0 ) , trong đó T : St(n − 2)
Bước 3 : So sánh giá trò p – value với mức ý nghóa α cho
trước, nếu
p − value < α : Bác bỏ giả thuyết H.
Tương tự cho bài toán kiểm đònh sự phù hợp của mô hình,
với giá trò
F=

( n − 2) R2
1 − R2

: F(1, n − 2) .


209
Thường thì gía trò p–value được tính bằng phần mềm Eview.
Chẳng hạn như trong ví dụ 1, ta có p–value
= P( T > 32.17985) ≈ 0.0000 < 0.05 nên ta bác bỏ giả thuyết H.
7. Ứng dụng phân tích hồi quy vào dự báo.

Ta có thể dùng hàm hồi quy mẫu để dự báo giá trò của biến
phụ thuộc Y tương ứng với một giá trò của biến độc lập X. Có
hai loại dự báo

210
Từ thống kê này, ta suy ra ước lượng khoảng cho giá trò
trung bình E ( Y X = X 0 ) .
7.2. Dự báo giá trò riêng biệt Y0 .
Nếu muốn dự báo giá trò riêng biệt Y0 khi X = X 0 , ta chú ý
µˆ là đại lượng ngẫu nhiên có phân phối chuẩn với
rằng Y0 − Y
0
trung bình là 0 và phương sai

7.1. Dự báo trung bình.
Với X = X 0 , ta muốn dự báo giá trò trung bình của Y khi biết
X lấy giá trò X 0 ,
E ( Y X = X 0 ) = β1 + β2 X 0 .
µˆ = β$ˆ + β$ˆ X ,
Hàm hồi quy mẫu cho ta ước lượng điểm là Y
0
1
2 0
ˆ
µ là ước lượng điểm, không chệch và có phương sai
trong đó Y
0
µˆ vẫn sai khác so với
nhỏ nhất của E ( Y X = X 0 ) . Tuy nhiên, Y
0

giá trò thực của nó. Để có khoảng tin cậy cho E ( Y X = X 0 ) , ta
µˆ có phân phối chuẩn với trung bình β1 + β2 X 0 và
chú ý rằng Y
0
phương sai
2

X 0 − X 
ˆ
2 1
µ
var Y 0 = σ
+
n
.
nS2X



(

( )

)

$ˆ2 , của nó,
Bằng cách thay σ2 bằng ước lượng không chệch, σ
ta được
µˆ − β + β X
Y

0 ( 1
2 0)
T=
: St(n − 2) .
ˆ
µ
se Y

( )
0

Do đó,

(

)

(

Dự báo trung bình có điều kiện của Y ứng với X = X 0 .
Dự báo giá trò cá biệt của Y ứng với X = X 0 .

2

X 0 − X 
ˆ
2
1
µ
$

var Y0 − Y 0 = σ 1 + +

.
n
nS2X



)

µˆ − 0
−Y
0
: N ( 0;1) .
µˆ
se Y0 − Y
0

(Y
Z=

)

0

(

)

µˆ

Ngoài ra, do trong công thức của se Y0 − Y 0 , ta thay σ2

(

)

$ˆ2 , nên ta được thống kê
chưa biết bằng σ
µˆ − 0
µˆ
Y0 − Y
0
Y0 − Y
0
T=
=
ˆ
ˆ : St(n − 2) .
µ
µ
se Y0 − Y 0
se Y0 − Y 0

(

(

)

)


(

)

Từ phân phối này, ta suy ra ước lượng khoảng cho giá trò
riêng biệt Y0 .
Chẳng hạn, với số liệu của ví dụ 1, ta xét các vấn đề :
Dự báo mức lãi suất trung bình nếu tỷ lệ lạm phát là
X 0 = 5% .
Dự báo mức lãi suất nếu tỷ lệ lạm phát là X 0 = 5% .
Kết luận với α = 0.1 .
ˆ
ˆ
Ta có β$1 + β$2 X 0 = 2.741695 + 1.2494067 × 5 ≈ 8.9887285 ,


×