Tải bản đầy đủ (.pdf) (26 trang)

Báo cáo Đề tài: Mô hình hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (585.94 KB, 26 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

Báo cáo mơn Phân tích số liệu

Đề tài: Mơ hình hồi quy tuyến tính

Giảng viên hướng dẫn: TS. Lê Xuân Lý
Nhóm sinh viên thực hiện: Nhóm 4
Vũ Thị Tâm
Phạm Thị Thu Hương
Nguyễn Thị Diệu Linh
Nguyễn Thị Nga
Phạm Huy Hồng
Nguyễn Quang Hiếu
Nguyễn Bình Ngun
Nguyễn Quang Minh
Hồng Thế Văn

......
......
......
......
......
......
......
......
......

20185403
20185367


20180815
20185387
20185361
20185351
20185389
20185385
20185425

Hà Nội, tháng 12/2020


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Bảng phân cơng nhiệm vụ
1. Giới thiệu mơ hình hồi quy
tuyến tính
2. Ước lương bình phương cực
tiểu
- Mệnh đề 2.1
- Tính chất ước lương bình
phương cực tiểu
- Định lý Gauss
- Hệ số xác định R
- Khoảng tin cậy các hệ số hồi
quy(ví dụ)
Ví dụ
- Bài tập , Excel


- Kiểm định các hệ số
- Ước lương hàm hồi quy
3. Kiểm định giả thiết các hệ
số hồi quy
- Tiêu chuẩn F
- Khảo sát các phần dư

4. Mơ hình hồi quy tuyến tính
với sai số tương quan
5. Các bước tiến hành trong
phân tích hồi quy

- Chuẩn bị nội dung, thuyết
trình

- Chuẩn bị nội dung thuyết
trình, làm slide
-Chứng minh định lý/ mệnh
đề
- Chuẩn bị nd, thuyết trình

Vũ Thị Tâm

Vũ Thị Tâm
Nguyễn Thị Diệu Linh
Nguyễn Quang Minh

- Giải thích, chứng minh

Nguyễn Quang Minh


- Trình bày ví dụ
- Chuẩn bị nd bài tập
- Trình bày VD, Chạy trên
Excel
- Chuẩn bị nd slide
- Thuyết trình
- Giải thích chứng minh

Vũ Thị Tâm
Nguyễn Quang Hiếu

-

Nguyễn Bình Nguyên
Nguyễn Quang Hiếu
Nguyễn Thị Nga
Phạm Huy Hồng

Chuẩn bị nd, thuyết trình
Làm slide
Chứng minh giải thích
Thuyết trình

Phạm Thị Thu Hương
Nguyễn Quang Hiếu
Phạm Thị Thu Hương
Nguyễn Quang Hiếu

Chuẩn bị nội dung


Nguyễn Thị Nga

- Thuyết trình

Hồng Thế Văn

Tổng hợp slide và làm báo
cáo

Vũ Thị Tâm

Trang 1


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Mục lục
1 Giới thiệu về mơ hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
2.1 Mệnh đề về ước lượng bình phương cực tiểu . . . . . . . . . .
2.2 Tính chất ước lượng bằng phương pháp bình phương cực tiểu
2.3 Định lý Gauss về ước lượng bình phương cực tiểu . . . . . . .
2.4 Hệ số xác định R . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Khoảng tin cậy của các hệ số hồi quy βj . . . . . . . . . . . .
2.5.1 Ví dụ 2.5.1 . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 Bài tập 2.5.1 . . . . . . . . . . . . . . . . . . . . . . .
2.5.3 Bài tập 2.5.2 . . . . . . . . . . . . . . . . . . . . . . .

2.6 Kiểm định giả thiết về các hệ số hồi quy . . . . . . . . . . . .
2.7 Ước lượng hàm hồi quy tuyến tính . . . . . . . . . . . . . . .
3 Kiểm tra sự phù hợp của mơ hình
3.1 Tiêu chuẩn F . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Ví dụ 3.1(Xét ví dụ 2.1) . . . . . . . . . . . . . . . . .
3.2 Khảo sát các phần dư . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Tiêu chuẩn Student . . . . . . . . . . . . . . . . . . . .
3.2.2 Khảo sát đồ thị của các phần dư . . . . . . . . . . . .
3.2.3 Kiểm định tính khơng tương quan của εj theo thời gian
3.2.4 Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk . . . .

3

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.

4
5
6
8
9
9
12
13
14
16
17

.
.
.

.
.
.
.

18
18
19
20
20
21
21
23

4 Mô hình hồi quy tuyến tính với sai số có tương quan

24

5 Các bước tiến hành trong phân tích hồi quy

25

Trang 2


Nhóm 4: Phân tích số liệu

1

Mơ hình hồi quy tuyến tính


Giới thiệu về mơ hình hồi quy tuyến tính cổ điển

Giả sử X1 , X2 , . . . , Xk là k biến độc lập dùng để dự báo (Predictor variables)
Y là biến phụ thuộc cần dự báo (Response Variables)
Mơ hình hồi quy tuyến tính như sau:
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk +
với

(1.1)

là sai số ngẫu nhiên, các hệ số β1 , β2 , . . . , βk là các hệ số chưa biết

Ta tiến hành n quan sát độc lập về k + 1 biến X1 , ..., Xk , Y .
y1 = β0 + β1 x11 + · · · + βk x1k +
y2 = β0 + β1 x21 + · · · + βk x2k +
...
yn = β0 + β1 xn1 + · · · + βk xnk +

1
2

(1.2)
n

Mơ hình (2) có thể viết dưới dạng ma trận như sau:
  
   
y1
1 x11 x12 · · · x1k

β0
1
 y2  1 x21 x22 · · · x2k   β1   2 
  
   
 ..  =  .. .. .. . .
  . .  +  .. 
..
 .  . . .
  .  . 
. .
yn
1 xn1 xn2 · · · xnk
βk
n
hoặc đơn giản hơn:
Y =
n×1

với

X

.

β

n×(k+1) (k+1)×1

+


(1.3)
n×1



1 x11 x12 · · · x1k
1 x21 x22 · · · x2k 


X =  .. .. .. . .

.
. . .

. ..
1 xn1 xn2 · · · xnk

được gọi là ma trận thiết kế
Y = [y1 , ..., yn ]T ; β = [β0 , ..., βk ]T ; [ε1 , ..., εn ]T

E(ε) = 0
cov(ε) = E(εεT ) = σ 2 In

Trang 3


Nhóm 4: Phân tích số liệu

2


Mơ hình hồi quy tuyến tính

Ước lượng bình phương cực tiểu

Bài tốn đầu tiên đặt ra là dựa vào bộ số liệu quan sát được X, Y hãy ước lượng tham số β, σ 2 .
Nếu ta sử dụng giá trị b là giá trị thử cho β thì giữa các quan sát yj và b0 + b1 xj1 + ... + bk xjk
sẽ có độ lệch (sai số):
yj − b0 − (b1 xj1 + ... + bk xjk )
Phương pháp bình phương tối thiểu là cách chọn giá trị véctơ b sao cho:
n

(yj − b0 − b1 xj1 − · · · − bk xjk )2

S(b) =
j=1

= (Y − Xb)T (Y − Xb) → min

(2.1)

Đại lượng βˆ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của
β,
Ta có:
ε“j = yj − (β“0 + β“1 xj1 + · · · + β“k xjk ), j = 1 ÷ n

(2.2)

gọi là các phần dư của phép hồi quy.
Vì biểu thức theo X1 , ..., Xk là tuyến tính nên phương trình:

“ = β“0 + β“1 X1 + · · · + β“k Xk
Y

(2.3)

được gọi là phương trình hồi quy tuyến tính mẫu
Đặt:
y“j = β“0 + β“1 xj1 + · · · + β“k xjk
Y = (“
y1 , ..., y“n )

(2.4)

T

Trang 4


Nhóm 4: Phân tích số liệu

2.1

Mơ hình hồi quy tuyến tính

Mệnh đề về ước lượng bình phương cực tiểu

Mệnh đề 2.1
Nếu ma trận thiết kế X khơng ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương
cực tiểu có dạng:
β = (XT X)−1 XT Y


(2.5)

“ = Xβ = X(XT X)−1 Y = HY
Y

(2.6)

Khi đó
trong đó:
H = X(XT X)−1 XT cấp (n × n)
“ = (In − H)Y
ε=Y−Y

(2.7)

“T ε = 0, (β T XT ε = 0)
XT ε = 0 và Y

(2.9)

(2.8)

thỏa mãn:
Tổng các phần dư:
n

ε“2j = εT ε = YT Y − YT Xβ

(2.10)


j=1

Chứng minh mệnh đề
n

(yj − b0 − b1 xj1 − · · · − bk xjk )2 là hàm bậc hai theo b nên dễ thấy β

Vì phiếm hàm S(b) =
j=1

có thể tìm được từ hệ phương trình sau:
∂S
= 0, i = 0 ÷ k
∂bi
ta có kết quả:
n

n

(b0 + b1 xj1 + · · · + bk xjk ) =
j=1
n

n

b0

xj1 + b1
j=1

n

b0

n

x2j1

+ · · · + bk

j=1
n

xjk xj1 =
j=1

j=1

j=1

yi xj1
j=1
n

n

x2jk =

xj1 xjk + · · · + bk


xj1 + b1

yi
j=1
n

j=1

yi xjk
j=1

Nếu đặt xj0 = 1, j = 1 ÷ n ta có phương trình sau:


n

x2j0

 j=1
 n

 xj1 xj0
j=1

 ···
 n

xjk xj0
j=1


n

n

xj0 xj1 · · ·
j=1
n

x2j1

j=1

···
n

xjk xj1
j=1





n

yj xj0



xj0 xjk   



j=1

 b0
n

   y x 

···
xj1 xjk 
b1  j=1 j j1 

=
 

j=1


 ...  
..


···
··· 
.

 n

n
bk




···
x2jk
yj xjk
j=1
n

j=1

j=1

Trang 5


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

hoặc dưới dạng ma trận:
XT Xb = XT Y

(2.11)

Phương trình (2.11) gọi là phương trình chuẩn.
Do rank(X) = k + 1 nên XT X có nghịch đảo, ta suy ra nghiệm:
b = β = (XT X)−1 XT Y
Ta thấy β là biểu thức tuyến tính theo Y.
Để chứng minh β cực tiểu hóa S(b) và thỏa mãn (2.9), (2.10) ta chú ý rằng ma trận H có tính

chất sau:
(I − H) là ma trận đối xứng: (I − H)T = (I − H)
(I − H)2 = (I − H) tức là I − H là ma trận lũy đẳng

(2.12)

X(I − H) = XT (I − X(XT X)−1 XT ) = XT − XT = 0

(2.13)

Dễ dàng thấy rằng:
S(b) = (Y − Xb)T (Y − Xb) = (Y − Xβ + Xβ − Xb)T (Y − Xβ + Xβ − Xb)
= (Y − Xβ)T (Y − Xβ) + (β − b)T XT X(β − b)
+(β − b)T XT (I − H)Y + YT (I − H)T X(β − b)
= (Y − Xβ)T (Y − Xβ + (β − b)T XT X(β − b)
≥ (Y − Xβ)T (Y − Xβ) = S(β)
Dấu "=" xảy ra khi β = b. Hơn nữa:
n
j=1

ε“j 2 = S(β) = (Y − Xβ)T (Y − Xβ) = YT (I − H)(I − H)Y

= YT (I − H)Y(tính chất 2) = YT Y − YT HY = YT Y − (YT X)β
Đây chính là cơng thức (2.10).
n

Từ (2.8),(2.9),(2.10) ta nhận được: YT Y =

yj2 = YT Y + εT ε


j=1

hoặc:

n

n

yj2
j=1

2.2

n

yj2

=
j=1

ε2j

+

(2.14)

j=1

Tính chất ước lượng bằng phương pháp bình phương cực tiểu


❼ Ước lượng β là ước lượng không chệch với:

❼ Phần dư ε có tính chất:

E(β) = β; cov(β) = σ 2 (XT X)−1

(2.15)

E(ε) = 0; cov(ε) = σ 2 (I − H)

(2.16)

n
ε2j
εT ε
❼ σ =
=
là ước lượng không chệch của σ 2 , tức là E(σ 2 ) = σ 2
n − k − 1 j=1 n − k − 1
2

❼ β, ε là không tương quan, tức là:

cov(β, ε) = 0; cov(β, σ 2 ) = 0

(2.17)

Trang 6



Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Chứng minh mệnh đề
1)
E β = E(XT X)−1 XT Y = (XT X)−1 XT E(Y)
= (XT X)−1 XT Xβ = β
cov(β) = (XT X)−1 XT cov(Y)X(XT X)−1
= σ 2 (XT X)−1 XT IX(XT X)−1
= σ 2 (XT X)−1
2) Do ε = (I − H)Y (theo (2.8)) nên:
E(ε) = (I − H)E(Y) = (I − H)Xβ = 0,
cov(ε) = (I − H)I(I − H)σ 2 = σ 2 (I − H).
3) Từ (2) ta suy ra:
n
T

E ε“2j = tr(cov(ε)) = σ 2 tr(In − H)

E(ε ε) =
1
2

= σ (n − tr(H))
Mặt khác,
tr(H) = tr(X(XT X)−1 XT ) = tr((XT X)−1 XT X) = tr(Ik+1 ) = k + 1
⇒ E(εT ε) = σ 2 (n − k − 1).
4) Ta có:
cov(β, ε) = cov((XT X)−1 XT Y(In − H)Y)

= (XT X)−1 XT cov(Y)(In − H)
= σ 2 (XT X)−1 XT (In − H) = 0

Trang 7


Nhóm 4: Phân tích số liệu

2.3

Mơ hình hồi quy tuyến tính

Định lý Gauss về ước lượng bình phương cực tiểu

Định lý 2.1 (Định lý Gauss)
rong mơ hình tuyến tính cổ điển (??),(??) với hạng đầy đủ k + 1 ≤ n thì ước lượng:
cT β = c0 β“0 + c1 β“1 + · · · + ck β“k

(2.18)

của cT β = c0 β0 + c1 β1 + · · · + c0 β0 là ước lượng không chệch với phương sai bé nhất so
với bất kỳ ước lượng tuyến tính không chệch nào dạng aT Y = a1 y1 + · · · + an yn Nếu thêm
giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT β là một ước lượng khơng chệch với
phương sai cực tiểu của cT β so với bất kỳ ước lượng không chệch nào khác.

Chứng minh Định lý Gauss
1) Do tính chất tuyến tính của kỳ vọng nên rõ ràng cT β là ước lương không
chệch của cT β. Hơn nữa giả sử aT Y là một ước lượng khơng chệch của cT β
thì:
E(aT Y) = aT E(Y) = aT Xβ ≡ cT β ⇔ (aT X − cT )β ≡ 0

với mọi β, đặc biệt khi β T = aT X − cT ta có:
β T β = 0 ⇔ aT X − cT = 0 ⇔ aT X = cT

(2.19)

cT β = cT (XT X)−1 XT Y = a∗ T Y

(2.20)

Chú ý rằng
với a∗ T = cT (XT X)−1 XT Y ⇔ a∗ = X(XT X)−1 c.
D(aT Y) = aT cov(Y)a = σ 2 aT a
= σ 2 (a − a∗ + a∗ )T (a − a∗ + a∗ )
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 (a∗ T a∗ ) + 2(a − a∗ )T a∗ σ 2
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 a∗ T a∗ ≥ D(a∗ Y)

(2.21)


(a − a∗ )T a∗ = aT a∗ − a∗ T a∗
= aT X(XT X)−1 c − cT (XT X)−1 XT X(XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c = 0
Trong (2.21) dấu"=" xảy ra khi và chỉ khi a = a∗ .
2) Xem Thống kê toán - Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Trang 8


Nhóm 4: Phân tích số liệu


2.4

Mơ hình hồi quy tuyến tính

Hệ số xác định R

Đại lượng
“T Y
“ − n(y)2
Σn1 yj2 − n(y)2
Y
= n 2
R := T
Y Y − n(y)2
Σ1 yj − n(y)2
2

(2.22)

gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của các biến yj
được giải thích bởi các biến xj1 , ..., xjk .
Từ (2.14) ta có:
n

n

ε2j
j=1

yj2 − n(y)2 (1 − R2 ) = ns2y (1 − R2 )


=

(2.23)

j=1

ta nhận được phương trình để tính sai số bình phương trung bình.
2.5

Khoảng tin cậy của các hệ số hồi quy βj

Trong phần này ta xét mơ hình hồi quy cổ điển (??),(??), với giả thiết thêm
rằng: các εj có cùng phân phối chuẩn N (0, σ 2 ) và độc lập, tức là ε = (ε1 , ..., εn )T
có phân bố chuẩn Nn (0, σ 2 In )
Mệnh đề 2.2
1. β có phân bố chuẩn Nk+1 (β, σ 2 (XT X)−1 )
Σnj=1 ε2j
(n − k − 1)σ 2
2.
=
có phân bố χ2 với (n-k-1) bậc tự do.
2
2
σ
σ
3. β, σ 2 là độc lập.
Chứng minh mệnh đề 2.2 Theo (2.7), (2.10) thì β = (XT X)−1 XT Y; ε =
(I − H)Y là các tổ hợp tuyến tính của vecto Y có phân bố chuẩn Nn (Xβ, σ 2 In ).
−1

Vì vậy, β có phân bố chuẩn Nk+1 (β, σ 2 (XT X )), ε có phân bố chuẩn N (0, σ 2 (I −
H)), cov(β, ε) = 0 và (β, ε)T có phân bố chuẩn đồng thời chuẩn.
Nên theo tính chất của phân bố chuẩn, ta có :
εT ε
=
σ2

n

j=1

εj 2
σ2

có phân bố χ2 với n − k − 1 bậc tự do. Thật vậy,

Trang 9


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

(i) Vì (I − H) là ma trận lũy đẳng nên nếu ta ký hiệu λ và ε là cặp giá trị
riêng và vecto riêng của (I − H), ta sẽ có:
(I − H)e = λe ⇒ (I − H)2 e = λ(I − H)e = λ2 e
hoặc (I − H)e = λ2 e = λe. Do đó λ = λ2 . Vậy λ = 0 hoặc 1.
Vì tr(I − H) = n − k − 1 = λ1 + ... + λn nên n − k − 1 giá trị riêng đầu
tiên của I − H là 1 cònk + 1 giá trị riêng còn lại bằng 0.
(ii) Giả sử e1 , ...en−k−1 là n − k − 1 vecto riêng ứng với giá trị riêng là 1 còn

k + 1 vecto riêng ứng với giá trị riêng 0 của ma trận I − H. Theo công
thức khai triển phổ của ma trận ta có:
I − H = e1 eT1 + ... + en−k−1 eTn−k−1
Đặt


V1
V2
..
.





eT1 ε
eT2 ε
..
.




 


 

V =
=



 

T
Vn−k−1
en−k−1 ε
Khi đó V có phân bố chuẩn với E(V ) = 0, cịn
ß 2
σ (i = j)
cov(Vi , Vj ) = eTi (σ 2 I)ei =
0 (i = j)
nên V1 , ..., Vn−k−1 có phân bố chuẩn độc lập N (0, 1) và V có N (0, σ 2 In−k−1 ).
Do đó
2
(n − k − 1)σ 2 = εT ε = εT (I − H)ε = V T V = V12 + ... + Vn−k−1

(n − k − 1)σ 2
có phân bố χ2 với n − k − 1 bậc tự do. Mệnh đề được

σ2
chứng minh.
Mệnh đề 2.3 Xét mơ hình hồi quy tuyến tính cổ điển Y = Xβ + ε với X có
hạng là k + 1 ≤ n và ε ∼ N (0, σ 2 In ). Khi đó miền tin cậy đồng thời mức (1 − α)
của β xác định bởi:
(β − β)T XT X(β − β) ≤ (k + 1)σ 2 Fk+1,n−k−1 (α)

(2.24)

trong đó Fk+1,n−k−1 (α) là phân vị trên mức α của phân bố F với bậc tự do là

k + 1, n − k − 1. Nói cách khác, với độ tin cậy (1 − α), giá trị chân thực β phải
nằm trong Ellipsoid:
(x − β)T XT X(x − β) = (k + 1)σ 2 Fk+1,n−k−1 (α)
Trang 10


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Hơn nữa khoảng tin cậy đồng thời mức (1 − α) của các βi , i = 0 ÷ k được xác
định bởi các mút:
»
“ βi )(k + 1)Fk+1,n−k−1 (α)
βi ± D(
(2.25)
“ βi ) ký hiệu phần tử thứ i trên đường chéo chính của ma trận
trong đó D(
σ 2 (XT X)−1 và là ước lượng không chệch của D(β)
Chứng minh mệnh đề 2.3 Xét ma trận căn bậc hai đối xứng (X T X)1/2 và
đặt
U = (X T X)1/2 (β − β).
Ta có:
E(U ) = 0
cov(U ) = (X T X)1/2 cov(β)(X T X)1/2
= σ 2 (X T X)1/2 (X T X)−1 (X T X)1/2 = σ 2 Ik+1
Vậy U có phân bố chuẩn N (0, σ 2 Ik+1 ). Do đó
β) có phân phối χ2 với k + 1 bậc tự do.

1 T

1
U
U
=
(β − β)T (X T X)(β −
2
2
σ
σ

σ2
Hơn nữa, theo mệnh đề 2.1, (n − k − 1) 2 có phân bố χ2 với n − k − 1bậc
σ
tự do và độc lập với β, tức là độc lập với U T U . Vì vậy đại lương
(β − β)T XT X(β − β)/(k + 1)
U T U/(k + 1)σ 2
F =
=
σ2
(n − k − 1)σ 2 /(n − k − 1)σ 2
có phân bố F với k + 1 và n − k − 1 bậc tự do. Từ đó
P {F ≤ Fk+1,n−k−1 (α)} = 1 − α
hoặc
P (β − β)T XT X(β − β) ≤ (k + 1)σ 2 Fk+1,n−k−1 (α) = 1 − α
Å

ã
α
α
Mệnh đề 2.4 Giả sử tn−k−1

là phân vị trên mức
của
2(k + 1)
2(k + 1)
phân bố Student với n − k − 1 bậc tự do. Khi đó đồng thời ta có các khoảng
tin cậy của βi , với mức tin cậy (1 − α) cho bởi các đầu mút:
Å
ã»
α
“i ± tn−k−1
“ βi )
β
D(
(2.26)
2(k + 1)

Trang 11


Nhóm 4: Phân tích số liệu

2.5.1

Mơ hình hồi quy tuyến tính

Ví dụ 2.5.1

Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí
tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12
thời kỳ, kết quả ta có bảng sau:

STT x0 x1 x2 y STT x0 x1 x2 y
1
1 18 10 127
7
1 25 14 161
2
1 25 11 149
8
1 16 12 128
3
1 19 6 106
9
1 17 12 139
4
1 24 16 163 10
1 23 12 144
5
1 15 7 102 11
1 22 14 159
6
1 26 17 180 12
1 15 15 138
Giả sử các chi phí này tn theo mơ hình tuyến tính cổ điển, khi đó:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 12
Ta sẽ ước lượng các hệ số hồi quy bằng phương pháp bình phương cực tiểu.

 

n nx1 nx2
12 245 146

XT X =  . nx21 nx1 x2  =  . 5195 3055
.
.
1900
. .
nx22


2, 439963 −0, 883875 −0, 045374
(XT X)−1 = 
.
0, 006765 −0, 004040
.
.
0, 010509

 

ny
1696
T
X Y = nx1 .y  = 3546
nx .y
2140
  2


β“0
32, 2777
 

β = β“1  = (XT X)−1 XT Y =  2, 5057 
4, 7587
β“2
Vậy phương trình hồi quy tuyến tính mẫu là:
y = 32, 2777 + 2, 5057x1 + 4, 7587x2
n
1

Tổng bình phương các phần dư là:
ε“j 2 =

n
1

yj2 − YT Xβ = 144, 3734

n
144, 3734
1
ε“j 2 =
= 16, 0415
σ =
n−k−1 1
9
Ta thấy mơ hình khá phù hợp vì sai số bình phương trung bình là
144,3734
≈ 12 khá nhỏ (so với các giá trị y nhận từ 102 đến 180).
12
Sau đây là bảng tính các giá trị y“j , ε“j
2


1 n 2
“j
12 Σi ε

=

Trang 12


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

STT yj
y“j
ε“j
STT yj
y“j
ε“j
1
127 124,9666 2,033
7
161 161,5420 -0,542
2
149 147,2659 1,734
8
128 129,4733 -1,473
3
106 108,4382 -2,438

9
139 131,979 7,021
4
163 168,5537 -5,554 10 144 147,0132 -3,013
5
102 103,1741 -1,174 11 159 154,0249 4,975
6
180 178,3238 1,676
12 138 141,2437 -3,244
Tổng phần dư bằng 0,002.
12

Từ đó tính trực tiếp ta được
1

ε“j 2 = 144, 2298

Ta có:
»
“ β“0 ) = 6, 2562
D(
»


“ β“1 ) = 0, 3287
D(β1 ) = 16, 0415 × 0, 006765 = 0, 10830 ⇒ D(
»


“ β“3 ) = 0, 4106

D(β2 ) = 16, 0415 × 0, 010509 = 0, 16860 ⇒ D(

“ β“0 ) = 16, 0415 × 2, 439963 = 39, 1407 ⇒
D(

Khoảng tin cậy của β0 , β1 , β2 mức 0,95: (theo (2.4))
Å
ã»
0,
05
“ β“0 ) = 32, 2777 ± 2, 933 × 6, 2562 = 32, 2777 ± 18, 3494
D(
β“0 ± t9
2×3
Å
ã»
0,
05
“ β“1 ) = 2, 5057 ± 2, 933 × 0, 3287 = 2, 5057 ± 0, 9641
β“1 ± t9
D(
2×3
ã»
Å
0,
05
“ β“2 ) = 4, 7587 ± 2, 933 × 0, 3287 = 4, 7578 ± 1, 2043
β“2 ± t9
D(
2×3

Do đó ta có kết quả:
β0 ∈ (13, 9283; 50, 6271)
β1 ∈ (1, 5416; 3, 4698)
β2 ∈ (3, 5544; 5, 963)
2.5.2

Bài tập 2.5.1

Cho dãy số liệu thống kê:
x1 10 5 7 19 11 8
y 15 9 3 25 7 13
1. Hãy xác định các ước lượng β“0 , β“1 của các hệ số hồi quy tuyến tính trong
mơ hình dưới đây:
yj = β0 + β1 xj1 + εj , j = 1 ÷ 6
Trang 13


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính
n

2. Tính giá trị y“j , ε“j , từ đó tính

j=1

ε“j 2

ï



ï

6 60
1
−0, 08333333
T
−1
X X=
→ (X X) =
60 720
−0, 08333333 0, 08333333
ï ò
72
XT Y =
872
ï
ò ï −2 ò
−0.66666667
3
→ β = (XT X)−1 XT Y =
= 19
1.26666667
15
19
Vậy phương trình hồi quy tuyến tính mẫu là: y = −2
3 + 15 x
n
ε“2j = YT Y − YT Xβ = 101, 46666667 σ 2 =
Tổng bình phương các phần dư:

T

j=1

n
1
101, 46666667
ε“j 2 =
= 25, 36666667
n−k−1 1
4
Bảng tính các giá trị y“j , ε“j
STT yj
y“j
ε“j
STT yj
y“j
ε“j
1
15
12
3
4
25
23,4
1,6
2
9 5,6666667 3,333333
5
7 13,266667 -6,26666667

3
3
8,2
-5.2
6
13 9,4666667 3,5333333
Tổng phần dư bằng 0,00000037.
12

Từ đó tính trực tiếp ta được
1

ε“j 2 = 101, 4666643

Ta có:
»
“ β“0 ) = 5, 036533
“ β“0 ) = 25, 36666667 × 1 = 25, 36666667 ⇒ D(
D(
»
“ β“1 ) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒ D(
“ β“1 ) = 1, 453921
D(
Khoảng tin cậy của β0 , β1 mức 0,95:
Å
ã»
0,
05
“ β“0 ) = −0, 6666667 ± 3, 56 × 5, 036533 = −0, 6666667 ± 17, 93005
β“0 ± t4

D(
2×2
Å
ã»
0, 05

“ β“1 ) = 1, 26666667 ± 3, 56 × 1, 453921 = 1, 26666667 ± 5, 175965
β1 ± t4
D(
2×2

2.5.3

Cho
x1
x2
y

Bài tập 2.5.2

dãy
10
2
15

số
5
3
9


liệu thống kê:
7 19 11 8
3 6 7 9
3 25 7 13
Trang 14


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

1. Hãy xác định các ước lượng bằng phương pháp bình phương cực tiểu các
hệ số hồi quy tuyến tính trong mơ hình dưới đây:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 6
n

2. Tính giá trị y“j , ε“j , từ đó tính

j=1

ε“j 2




 
6
60
30
72

T
T



X X = 60 720 319 , X Y = 872
30 319188
382


1, 33361118 −0, 0678733 −0, 0976423
→ (XT X)−1 = −0, 0678733 0, 00904977 −0, 00452489
−0, 0976423 −0, 00452489 0, 02857823


−0, 46487259
→ β = (XT X)−1 XT Y =  1, 2760181 
−0, 05906168
Vậy phương trình hồi quy tuyến tính mẫu là: y = −0, 46487 + 1, 276018x1 −
0, 05906x2
n
ε“2 = YT Y − YT Xβ = 101, 3444605 σ 2 =
Tổng bình phương các phần dư:
j=1

j

n
1
101, 3444605

= 38, 781486
ε“j 2 =
n−k−1 1
3
Bảng tính các giá trị y“j , ε“j
STT yj
y“j
ε“j
STT yj
y“j
ε“j
1
15 12,17718504 2,822815
4
25 23.42510121 1,57489879
2
9 5,73803286 3,26196714
5
7 13.15789474 -6,15789474
3
3 8.29006906 -5,290069
6
13 9.21171708 3,78828292
Tổng phần dư bằng 0,000000011.
12

Từ đó tính trực tiếp ta được
1

ε“j 2 = 101, 3446055


Ta có:
»
“ β“0 ) = 7, 1916217
D(
»


“ β“1 ) = 0, 5924217
D(β1 ) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒ D(
»

“ β“1 ) = 1.05276

D(β1 ) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒ D(

“ β“0 ) = 38, 781486 × 1, 33361118 = 51, 719423 ⇒
D(

KhoảngÅtin cậyã của β0 , β1 mức 0,95:
»
0,
05
“ β“0 ) = −0, 46487259 ± 5, 061 × 7, 1916217 = −0, 464873 ±
β“0 ± t3
D(
2×3
36, 39679
Trang 15



Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Å

ã
0, 05 » “ “
D(β1 ) = 1, 2760181 ± 5, 061 × 0, 5924217 = 1, 276018 ±
2×3
2, 998246
Å
ã»
0,
05
“ β“2 ) = −0, 059061681 ± 5, 061 × 1.05276 = −0, 05906168 ±
β“2 ± t3
D(
2×3
5, 32801
β“1 ± t3

2.6

Kiểm định giả thiết về các hệ số hồi quy

Xét mơ hình HQTT cổ điển
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ε


(2.27)

Khi thiết lập phương trình, ta giả sử rằng mọi biến độc lập X1 , ..., Xk đều tham
gia phương trình hồi quy. Tuy nhiên, trên thực tế, có một vài biến sẽ khơng
tham gia vào phương trình hồi quy, tức là hệ số βi của nó bằng 0. Tuy vậy, các
hệ số ước lượng có thể khác 0.
Bài tốn đặt ra là kiểm định xem khi nào hệ số ước lượng được xem là bằng
0 thực sự.
Ta có bài tốn kiểm định giả thiết
H0 : βp+1 = ... = βk = 0(0 < p < k)

(2.28)

với đối thiết K : ∃i ∈ {p + 1, ..., k} sao cho βi = 0
Giả thiết H0 có nghĩa là các biến độc lập khơng tham gia vào biểu thức tuyến
tính, ngược lại đối thiết K nói rằng có ít nhất một trong các biến này có liên
quan đên mơ hình.
Tổng qt hơn ta xét bài toán kiểm định giả thiết dạng:

c10 β0 + c11 β1 + · · · + c1k βk = a1



c20 β0 + c21 β1 + · · · + c2k βk = a2
⇔ Cβ = a
H0 :
·
·
·




ck−p,0 β0 + ck−p,1 β1 + · · · + ck−p,k βk = ak−p

(2.29)

trong đó C = [cij ]k−p,k+1 ; a = [a1 , ..., ak−p ]T
Bài toán
 đang xét ((2.28)) là trường
 hợp riêng của ((2.29)) với:
..
0 0 ··· 0 . 1 0 ··· 0


0 0 · · · 0 ... 0 1 · · · 0
..

C=
 ... ... . . . ... ... ... ... . . . ...  = [0.Ik−p ]


..
0 0 ··· 0 . 0 0 ··· 1
Quy tắc kiểm định:
Bác bỏ giả thiết H0 : Cβ = 0 nếu:
(C β)(C(XT X)−1 C T )−1 C β/σ 2 > (k − p)Fk−p,n−k−1 (α)

(2.30)
Trang 16



Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Ta có thể sử dụng
về khoảng tin cậy của βp+1 , ..., βk
Å mệnh đềã(2.4)
»
α
“i ± tn−k−1
“ βi ) để kiểm định giả thiết (2.24).
D(
với các đầu mút β
2(k + 1)
Điều đó có nghĩa là nếu tồn tại chỉ số i ∈ {p + 1, ..., k} thỏa mãn:
Å
ã»
α
“i | > tn−k−1
“ βi )

D(
2(k − p)
Nhận xét

thì ta coi βi = 0
2.7

Ước lượng hàm hồi quy tuyến tính


Bài tốn đặt ra là ước lượng hàm hồi quy tuyến tính:
E(Y |X) = β0 + β1 X1 + ... + βk Xk
tại điểm X 0 = (1, X10 , ..., Xk0 ) tức là ước lượng tổ hợp tuyến tính sau:
T

E(Y |X) = β0 + β1 X10 + ... + βk Xk0 = X 0 β

(2.31)

T

Theo định lý Gauss, X 0 β là ước lượng tuyến tính với phương sai cực tiểu
T
T
T
Nếu ε ∼ N (0, In σ 2 ) thì X 0 β ∼ N (X 0 β, σ 2 X 0 (XT X)−1 X 0 ) và do đó khoảng
T
tin cậy mức (1 − α) của X 0 β chính là:
α » 0 T T −1 0
0T
X β ± tn−k−1 ( ) σ X (X X) X
(2.32)
2

T
“ 0 β)
D(X

hoặc


»
α
“ 0 T β)
X β ± tn−k−1 ( ) D(X
2
0T

(2.33)

Ta xét lại ví dụ sau:
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí
tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12
thời kỳ, kết quả ta có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1
1 18 10 127
7
1 25 14 161
2
1 25 11 149
8
1 16 12 128
3
1 19 6 106
9
1 17 12 139
4
1 24 16 163 10
1 23 12 144

5
1 15 7 102 11
1 22 14 159
6
1 26 17 180 12
1 15 15 138
Giả sử:

Trang 17


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ n, n = 12
với {εj } là dãy độc lập có phân bố chuẩn N (0, σ 2 ). Khi đó ta có thể dùng
phương trình hồi quy tuyến tính mẫu:
y = 32, 777 + 2, 5057x1 + 4, 7587x2
T

để dự đoán hàm hồi quy E(Y |X1 = 20, X2 = 13) = β0 + 20β1 + 13β2 = X 0 β,
T
tại X 0 = (1, 20, 13). Ta có: 
 
2, 439963 −0, 883875 −0, 045374
1
0T
T
−1 0




X (X X) X = [1, 20, 13] −0, 883875 0, 006765 −0, 004040 20
−0, 045374 −0, 004040 0, 010509
13
= 0,0946
Ta có:
T

σ 2 X 0 (XT X)−1 X 0 = 16, 0415 × 0, 0946 = 1, 5175259
Mặt khác:
y“0 = 32, 777 + 2, 5057 × 20 + 4, 7587 × 13 = 144, 2548
T

Vì vậy khoảng tin cậy mức 0,95 của X 0 β là:
»
y“0 ± t9 (0, 05/2) σ 2 X 0 T (XT X)−1 X 0 = 144, 2548 ± 2, 262 1, 5175259
= 144, 2548 ± 2, 7865

3
3.1

Kiểm tra sự phù hợp của mơ hình
Tiêu chuẩn F

Kiểm tra sự phù hợp của mơ hình Xét mơ hình HQTT (1.2). Mơ hình
QHTT sẽ phụ hợp với dãy số liệu đang quan sát nếu các sai số εi quả thật chỉ
do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu nhiên độc lập và
có cùng phân phối. Vì mơ hình đang xét có phân phối chuẩn nên ta cần phải

kiểm tra xem các sai số có phân phối chuẩn N (0, σ 2 In ) hay không? Để kiểm tra
ta xét các tiêu chuẩn sau:

Tiêu chuẩn F

Xét đại lượng:
(n − k − 1)R2
F =
k(1 − R2 )

(3.34)

Trang 18


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Mệnh đề 3.1. Nếu sai số ε có phân bố chuẩn N (0, σ 2 In ) và nếu βi = 0, i = 1÷k
thì F cho bởi (3.1) có phân bố F với k, n − k − 1 bậc tự do.
Từ mệnh đề trên ta đưa ra quy tắc:

Nếu F quá lớn hoặc quá gần 0 ta cần bác bỏ giả thiết ε có phân bố chuẩn
N (0, σ 2 In ) hay bác bỏ giả thiết β1 = · · · = βk = 0.
Cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0, 02
❼ Tra bảng phân phối F với bậc tự do là k và n − k − 1 ta được giá trị

Fk,n−k−1 (α/2) = Fk,n−k−1 (0, 01)
❼ Nếu F > Fk,n−k−1 (0, 01) hoặc F <


1
Fk,n−k−1 (0, 01)

ta cần bác bỏ giả thiết

β1 = β2 = · · · = βk = 0
3.1.1

Ví dụ 3.1(Xét ví dụ 2.1)

Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí
tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12
thời kỳ, kết quả ta có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1
1 18 10 127
7
1 25 14 161
2
1 25 11 149
8
1 16 12 128
3
1 19 6 106
9
1 17 12 139
4
1 24 16 163 10
1 23 12 144

5
1 15 7 102 11
1 22 14 159
6
1 26 17 180 12
1 15 15 138
Giả sử các chi phí này tn theo mơ hình tuyến tính cổ điển, khi đó:
y = 32, 2777 + 2, 5057x1 + 4, 7587x2
ε“j T ε“j =
s2y

n
1

ε“j 2 = 144, 3734

Å
ã2
245626
1696

= 493, 7222
= y 2 − (y) =
12
12
Vậy 144, 3734 = 12 ∗ 493, 7222(1 − R2 ) → (1 − R2 ) = 0, 0224 → R = 0, 9756
2

F =


0, 9756 × (12 − 2 − 1)
= 179, 6292
2 ∗ 0, 0244
Trang 19


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Tra bảng F ta được:
F2,9 (0, 01) = 8, 02
Ta thấy F > F2,9 (0, 01), do đó ta cần bác bỏ giả thiết rằng β1 = · · · = βk = 0,
tức là có sự phụ thuộc tuyến tính vào các biến độc lập.
3.2

Khảo sát các phần dư

3.2.1

Tiêu chuẩn Student

Ta đã biết rằng phần dư của phép hồi quy được thể hiện qua công thức
“ = (I − H)ε
ε=Y −Y
Nếu giả thiết H0 nói rằng ε có phân phối chuẩn N (0, σ 2 In ) là đúng thì ε cũng
có phân phối chuẩn N (0, σ 2 (I − H))
Tuy nhiên, ta nhận thấy ma trận (I −H) là ma trận suy biến có hạng là n−k−1
và n − k − 1 giá trị riêng bằng 1; k + 1 giá trị riêng còn lại bằng 0
⇒ Do đó, khơng thể biểu diễn ε qua ε

Ta ký hiệu như sau:
- e1 , ..., en−k−1 là (n − k − 1) véctơ riêng ứng với giá trị riêng là 1
- en−k , ..., en là k + 1 véctơ riêng ứng với giá trị riêng bằng 0
{e1 , ..., en } tạo thành một cơ sở trực chuẩn của Rn .
Khi đó ta có: I − H = P ΛP T trong đó Λ = diag{1, 1, ..., 1, 0, ..., 0} là ma trận
chéo có đường chéo gồm n − k − 1 số 1 và k + 1 số 0, P = [e1 , ..., en ] = [eij ]n×n .
Xét véctơ ngẫu nhiên:
ε∗ = P T ε = (ε∗1 , ..., ε∗n )

(3.35)

Khi đó với ε có phân bố chuẩn N (0, σ 2 In ) ta có:
E(ε∗ ) = P T E(ε) = 0
cov(ε∗ ) = P T cov(σ 2 [In − H])P = σ 2 P T P ΛP T P = σ 2 Λ
Do đó nếu H0 đúng thì ε∗1 , ..., ε∗n−k−1 là các biến ngẫu nhiên độc lập có phân
bố chuẩn N (0, σ 2 ) còn ε∗n−k = · · · = ε∗n = 0 hầu chắc chắn. Vì vậy
n−k−1
j=1

Đặt

n

ε∗j ,

ε∗j 2 =

j=1
n


ε∗

=
j=1

Ta có

nε∗

n−k−1

n

ε∗j =

j=1

ε∗j 2 hầu chắc chắn.

j=1

ε∗j /n; ε‹∗

n−k−1

=

= (n − k −

ε∗j /(n − k − 1).


j=1
1)ε‹∗ khi

H0 đúng.

Trang 20


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Xét thống kê:
n(n − k − 2)1/2 ε∗

T =
(n − k −

1)1/2



Σnj=1 ε∗j 2



n2 (ε∗ )2 /(n

− k − 1)


ó1/2

(3.36)

Tổng hợp lại: nếu giả thiết H0 đúng thì:
(n − k − 1)(n − k − 2)1/2 ε‹∗

T =

ó1/2

n−k−1 ∗ 2
εj − n − k − 12 (ε‹∗ )2 /(n − k − 1)
(n − k − 1)1/2 Σj=1
(n − k − 1)1/2 ε‹∗

=



ó1/2
∗−ε
∗ )2 /(n − k − 2)

Σn−k−1

j=1
j


có phân bố Student với n − k − 2 bậc tự do. Vậy tiêu chuẩn với mức ý nghĩa α
là:
α
bác bỏ H0 nếu |T | > tn−k−2
.
2
3.2.2

Khảo sát đồ thị của các phần dư

Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε khơng có phân bố chuẩn
N (0, σ 2 In ) thì có thể xảy ra các khả năng sau:
❼ Các sai số εj khơng có phương sai là hằng số
❼ Các sai số εj có thể tương quan với nhau
❼ các sai số εj có thể khơng có phân bố chuẩn.

Để đánh giá xem mơ hình có khả năng rơi vào dạng nào, người ta tiến hành
khảo sát đồ thị của các điểm (“
εj , y“j )
Để kiểm tra xem εj có độc lập và có cùng phân bố chuẩn N (0, σ 2 ), ta có thể
kiểm tra tính chuẩn của εj dựa vào hệ số tương quan:
r=

Σn1 (qj − q)(ε(j) − ε)
Σn1 (qj − q)2 Σn1 (ε(j) − ε2

1/2

=


Σn1 (qj − q)ε
Σn1 (qj



q)2 Σn1 ε“2j

1/2

trong đó qj là nghiệm của phương trình Φ(qj ) = (j − 1/2)/n
3.2.3

Kiểm định tính khơng tương quan của εj theo thời gian

Giả sử yj được theo dõi theo thời gian j = 1, 2, ... Trường hợp này thường xảy
ra khi khảo sát các đại lượng kinh tế. Khi đó rất thường xảy ra trường hợp các
εj có tương quan với nhau. (Auto correlation)
Trang 21


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

Để phát hiện tính tự tương quan của các sai số ε ta sử dụng tiêu chuẩn DurbinWatson như sau:
Đặt:
Σnj=2 ε‘
“j
j−1 ε
r1 =

(3.37)
Σnj=1 ε“j 2
Khi đó đại lượng:
n

n

ε“j 2 = 2(1 − r1 )

2

(“
εj − ε‘
j−1 ) /

DW =
j=2

(3.38)

j=2

sẽ tuân theo phân phối Durbin-Watson
Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm được hai số d1 (k, n, α) <
d2 (k, n, α), khi đó so sánh DW với d1 , d2 ta rút ra các kết luận sau:
❼ Nếu 0 ≤ DW < d1 thì các εj có tự tương quan dương
❼ Nếu d1 ≤ DW ≤ d2 thì khơng thể nói gì được
❼ Nếu d2 < DW < 4 − d2 thì các εj khơng có tự tương quan
❼ Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì khơng thể kết luận được
❼ Nếu 4 − d1 < DW ≤ 4 thì các εj có tự tương quan âm.


Ta xét lại ví dụ sau:
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí
tiếp thị X2 người ta điều tra ngẫu nhiên doanh thu của 12 cơng ty trong 12
thời kỳ, kết quả ta có bảng sau:

Tính tốn có thể có sai lầm hoặc bỏ sót
thành phần β0

Phương sai D(εj ) sẽ thay đổi theo j

Sai số εj số là sai số hoàn toàn ngẫu nhiên

Trang 22


Nhóm 4: Phân tích số liệu

STT x0
1
1
2
1
3
1
4
1
5
1
6

1

x1
18
25
19
24
15
26

x2
10
11
6
16
7
17

Mơ hình hồi quy tuyến tính

y STT x0
127
7
1
149
8
1
106
9
1

163 10
1
102 11
1
180 12
1

Ta đã tính được:

n

Tổng bình phương các phần dư
⇒ r1 =

Σnj=2 ε‘
“j
j−1 ε

1

x1
25
16
17
23
22
15

x2
14

12
12
12
14
15

y
161
128
139
144
159
138

ε“j 2 = 144, 2298

−45,3437
144,2298

= −0, 3144
Σnj=1 ε“j
⇒ DW = 2(1 − r1 ) = 2, 6288
Với α = 0, 05; n = 12; k = 2, tra bảng phân phối Durbin-Watson ta tìm được:
2

=

d1 = 0, 81; d2 = 1, 58
4 − d1 = 3, 19; 4 − d2 = 2, 42


Vậy 4 − d2 = 2, 42 < DW = 2, 6288 < 4 − d1 = 3, 19 nên ta khơng thể kết luận
gì được.
3.2.4

Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk

Các biến X1 , ..., Xk được gọi là đa cộng tuyến nếu tồn tại các hằng số c0 , c1 , ..., ck
k

k

không đồng thời bằng 0 thỏa mãn c0 +

ci Xi = 0 và do đó c0 +
i=1

ci Xji = 0
i=1

với j = 1, 2, ..., n.
Trong trường hợp này X có hạng ≤ k và không tồn tại ma trận nghịch đảo
(XT X)−1 .
Trên thực tế, khi |XT X| ≈ 0, người ta có thể coi X1 , ..., Xk có hiện tượng đa
cộng tuyến tính. Khi đó ước lượng β = (XT X)−1 XT Y thường khơng ổn định và
có phương sai rất lớn hay các khoảng tin cậy sẽ rất rộng.
Hiện tượng đa cộng tuyến thường được thể hiện qua các dấu hiệu sau:
+) Một số phần tử trên đường chéo chính của ma trận V = (XT X)−1 tỏ ra rất
lớn.

+) Các hệ số tương quan tuyến tính mẫu của các cặp Xi , Xj là rij = sij / sii sjj

tỏ ra lớn (|rij ≥ 0, 7|.
Để khắc phục hiện tượng đa cộng tuyến người ta làm như sau:

Trang 23


Nhóm 4: Phân tích số liệu

Mơ hình hồi quy tuyến tính

1. Đặt r0i là hệ số tương quan tuyến tính mẫu giữa Y và Xi , cụ thể là:

r0i = s0i / sii s00
1 n
yj xji − y × xi
n j=1
Khi đó nếu thấy |rij | ≥ 0, 7 thì:
sẽ loại biến Xi ra khỏi mơ hình nếu |r0i | < |r0j |,
sẽ loại biến Xj ra khỏi mơ hình nếu |r0i | > |r0j |.
trong đó s0 = s2y ; s0i =

2. Thực hiện hồi quy theo các thành phần chính của véctơ (X1 , ..., Xk )
3. Thực hiện hồi quy từng bước

4

Mơ hình hồi quy tuyến tính với sai số có tương quan

Xét mơ hình (3.1.3): Y = βX + ε với giả thiết các sai số có tương quan khác
khơng. Ta giả thiết rằng hiệp phương sai của sai số có dạng:

cov(ε) = σ 2 Σ

(4.1)

trong đó Σ = [σij ]n×n là ma trận xác định dương đã biết. Nhân cả 2 vế với
Σ−1/2 ta được:
Σ−1/2 Y = Σ−1/2 Xβ + Σ−1/2 ε
(4.2)
hay là:
Y = Xβ + ε

(4.3)

với Y = Σ−1/2 Y, X = Σ−1/2 X, ε = Σ−1/2 ε. Khi đó ta có:
cov(ε) = Σ−1/2 εΣ−1/2 = σ 2 Σ−1/2 ΣΣ−1/2 = σ 2 In
(3.4.3) là mơ hình hồi quy tuyến tính cổ điển và ta có thể áp dụng các kết quả
của mục 3.2 và 3.3.
Hơn nữa nếu X có hạng k + 1 thì X cũng có hạng k + 1 và ta có ước lượng
bằng phương pháp bình phương cực tiểu của mơ hình (3.4.3) là:
β = (XT X)−1 XT Y = (XT Σ−1/2 Σ−1/2 X)−1 XT Σ−1/2 Σ−1/2 Y
tức là:
β = (XT Σ−1 X)−1 (XT Σ−1 Y)
(4.4)
Từ biểu thức này dễ dàng tính được:
D(β) = σ 2 (XT Σ−1 X)−1

(4.5)

Thơng thường các mơ hình thực tế hay gặp là ma trận Σ đường chéo
Σ = diag(σ11 , ..., σnn )


(4.6)

tức là các εj vẫn khơng tương quan nhưng vì lý do độ chính xác của kỹ thuật
nên phương sai thay đổi.
Trang 24


×