Thiết kế thí nghiệm
92
N
ế
u tính tu
ầ
n t
ự
theo (8.3) thì:
8889,4
9
44
2
==
X
s
;
1111,3
9
28
2
==
Y
s
;
7778,1
9
16
cov ==
XY
4558,0
1111,38889,4
7778,1
=
×
=
XY
r
6.3. Hồi quy tuyến tính
V
ẽ
các
ñ
i
ể
m quan sát M
i
(x
i
,y
i
) trên h
ệ
to
ạ
ñộ
vuông góc, các
ñ
i
ể
m này h
ọ
p thành m
ộ
t
ñ
ám
mây quan sát nhìn chung có d
ạ
ng m
ộ
t elíp (tr
ừ
m
ộ
t vài
ñ
i
ể
m tách ra xa g
ọ
i là
ñ
i
ể
m ngo
ạ
i lai),
n
ế
u r
XY
g
ầ
n b
ằ
ng 1 thì elíp r
ấ
t d
ẹ
t, n
ế
u r
XY
v
ừ
a ph
ả
i thì elíp b
ầ
u b
ĩ
nh, n
ế
ur
XY
g
ầ
n
b
ằ
ng không thì có 2 kh
ả
n
ă
ng: ho
ặ
c
ñ
ám mây quan sát t
ả
n m
ạ
n trên m
ộ
t ph
ạ
m vi r
ộ
ng (không
quan h
ệ
), ho
ặ
c
ñ
ám mây quan sát không còn d
ạ
ng elíp mà t
ậ
p trung thành m
ộ
t hình cong (phi
tuy
ế
n).
Tr
ườ
ng h
ợ
p r
XY
g
ầ
n 1 elíp
ñ
ám mây quan sát khá d
ẹ
t.
ðể
gi
ả
i thích s
ự
thay
ñổ
i c
ủ
a Y khi
cho X thay
ñổ
i ng
ườ
i ta th
ườ
ng
ñư
a ra mô hình h
ồ
i quy tuy
ế
n tính Y = a + bX.
Có th
ể
tìm hi
ể
u mô hình h
ồ
i quy tuy
ế
n tính theo hai cách sau
ñ
ây:
6.3.1. ðường trung bình của biến ngẫu nhiên Y theo X trong phân phối chuẩn 2 chiều
Kh
ả
o sát
ñồ
ng th
ờ
i 2 bi
ế
n ng
ẫ
u nhiên
ñị
nh l
ượ
ng (nh
ư
ñ
ã làm t
ừ
ñầ
u ch
ươ
ng này). C
ặ
p bi
ế
n
X,Y th
ườ
ng tuân theo lu
ậ
t chu
ẩ
n hai chi
ề
u, khi
ấ
y n
ế
u theo dõi bi
ế
n X tr
ướ
c thì
ứ
ng v
ớ
i m
ỗ
i
giá tr
ị
x c
ủ
a bi
ế
n ng
ẫ
u nhiên X có vô s
ố
giá tr
ị
c
ủ
a bi
ế
n Y, các giá tr
ị
này có giá tr
ị
trung bình
lý thuy
ế
t là k
ỳ
v
ọ
ng M(Y/ x).
Khi x thay
ñổ
i k
ỳ
v
ọ
ng M(Y/x) thay
ñổ
i theo và các
ñ
i
ể
m P(x,M(Y/ x)) ch
ạ
y trên m
ộ
t
ñườ
ng
th
ẳ
ng g
ọ
i là
ñườ
ng h
ồ
i quy tuy
ế
n tính Y theo X.
N
ế
u theo dõi bi
ế
n Y tr
ướ
c thì
ứ
ng v
ớ
i m
ộ
t giá tr
ị
y c
ủ
a Y có vô s
ố
giá tr
ị
c
ủ
a bi
ế
n X có trung
bình là k
ỳ
v
ọ
ng M(X/ y).
ð
i
ể
m Q(y, M(X/ y) ch
ạ
y trên m
ộ
t
ñườ
ng th
ẳ
ng g
ọ
i là
ñườ
ng h
ồ
i quy
tuy
ế
n tính X theo Y.
Nh
ư
v
ậ
y, v
ề
m
ặ
t lý thuy
ế
t, khi có phân ph
ố
i chu
ẩ
n hai chi
ề
u các
ñườ
ng h
ồ
i quy tuy
ế
n tính Y
theo X và h
ồ
i quy tuy
ế
n tính X theo Y chính là các
ñườ
ng k
ỳ
v
ọ
ng có
ñ
i
ề
u ki
ệ
n M(Y/x) và
M(X/y).
Trong tr
ườ
ng h
ợ
p t
ổ
ng quát c
ủ
a phân ph
ố
i hai chi
ề
u các
ñườ
ng k
ỳ
v
ọ
ng có
ñ
i
ề
u ki
ệ
n có th
ể
là
ñườ
ng th
ẳ
ng ho
ặ
c
ñườ
ng cong và
ñượ
c g
ọ
i là h
ồ
i quy Y theo X (hay X theo Y). Trong th
ự
c
nghi
ệ
m chúng ta kh
ả
o sát 2 bi
ế
n
ñị
nh l
ượ
ng b
ằ
ng cách l
ấ
y m
ẫ
u v
ớ
i dung l
ượ
ng n khá l
ớ
n.
Thay cho
ñườ
ng h
ồ
i quy tuy
ế
n tính lý thuy
ế
t có
ñườ
ng h
ồ
i quy th
ự
c nghi
ệ
m. G
ọ
i (x, y) là to
ạ
ñộ
c
ủ
a m
ộ
t
ñ
i
ể
m ch
ạ
y trên
ñườ
ng th
ẳ
ng h
ồ
i quy,
_
x
và
_
y là trung bình c
ộ
ng c
ủ
a X và Y, s
x
và
s
y
là
ñộ
l
ệ
ch chu
ẩ
n c
ủ
a X và Y, ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính th
ự
c nghi
ệ
m có d
ạ
ng:
)( xx
s
s
ryy
X
Y
XY
−=− (6.4)
Chương 6 Tương quan và hồi quy
93
N
ế
u vi
ế
t ph
ươ
ng trình
ñườ
ng th
ẳ
ng d
ướ
i d
ạ
ng y = a + bx thì:
h
ệ
s
ố
góc
X
Y
XY
s
s
rb =
tung
ñộ
g
ố
c
−−
−= xbya
(6.5)
N
ế
u dùng công th
ứ
c (6.2)
ñể
tính h
ệ
s
ố
t
ươ
ng quan thì:
h
ệ
s
ố
góc
∑
∑
∑
∑
∑
−
−
=
n
x
x
n
yx
yx
b
i
i
ii
ii
2
2
)(
tung
ñộ
g
ố
c
n
xby
a
ii
∑
∑
−
= ( 6.6)
N
ế
u dùng công th
ứ
c (8.1)
ñể
tính h
ệ
s
ố
t
ươ
ng quan thì:
h
ệ
s
ố
góc
∑
∑
−
−−
−
−−
=
2
)(
))((
xx
yyxx
b
i
ii
tung ñộ gốc
−−
−= xbya
(6.7)
ðường hồi quy tuyến tính thực nghiệm X theo Y có phương trình:
x -
_
x
= d (y -
_
y ) với hệ số góc d =
Y
X
XY
s
s
r
Nếu viết dưới dạng x = c + dy thì hoành ñộ gốc c =
_
x
- c
_
y
Nếu nhân hệ số góc b của hồi quy tuyến tính Y theo X với hệ số góc d của hồi quy tuyến tính
X theo Y thì ñược r
2
xy
:
b x d = r
2
XY
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng
y (gram) của một loại trứng gà. Tiến hành ño ñường kính lớn và cân khối lượng của 10 quả
trứng. Số liệu thu thập ñược như sau:
Ta ñã có:
_
x
= 56;
_
y = 58; s
2
x
= 4,8889; s
2
y
= 3,1111; r
XY
= 0,4558
Hồi quy tuyến tính Y theo X
y - 58 =
)56(
8889,4
1111,3
4558,0 −x
Viết dưới dạng y = a + bx thì
Nếu tính theo (5.5) ta có:
hệ số góc
3636,0
8889,4
1111,3
4558,0 ==b và tung
ñộ
g
ố
c a = 58 - 0,3636. 56 = 37,6384
N
ế
u tính theo (5.6) ta có:
h
ệ
s
ố
góc
3636,0
44
16
==b
và tung
ñộ
g
ố
c
6384,37
10
5603636,0580
=
×
−
=a
Thiết kế thí nghiệm
94
6.3.2. ðường thẳng gần ñúng của Y theo X
Xét bài toán th
ườ
ng g
ặ
p trong các thí nghi
ệ
m nông nghi
ệ
p và sinh h
ọ
c sau:
M
ộ
t bi
ế
n X
ñị
nh l
ượ
ng có các giá tr
ị
x
i
(i = 1, n), bi
ế
n này ho
ặ
c do chúng ta ch
ủ
ñộ
ng
ñ
i
ề
u
khi
ể
n ví d
ụ
th
ờ
i gian cai s
ữ
a, m
ứ
c protein trong kh
ẩ
u ph
ầ
n, m
ậ
t
ñộ
nuôi trong chu
ồ
ng, li
ề
u
l
ượ
ng thu
ố
c, . . . , ho
ặ
c quan sát trong t
ự
nhiên nh
ư
tu
ổ
i c
ủ
a v
ậ
t nuôi, th
ờ
i gian ti
ế
t s
ữ
a, s
ố
con
ñẻ
ra trên l
ứ
a, s
ố
con cai s
ữ
a, tiêu t
ố
n th
ứ
c
ă
n . . .
Bi
ế
n th
ứ
hai là m
ộ
t bi
ế
n Y mà qua quan sát th
ấ
y thay
ñổ
i theo X, ví d
ụ
kh
ố
i l
ượ
ng v
ậ
t nuôi
thay
ñổ
i theo tu
ổ
i, n
ă
ng su
ấ
t s
ữ
a trong m
ộ
t chu k
ỳ
thay
ñổ
i theo th
ờ
i gian ti
ế
t s
ữ
a, ch
ỉ
tiêu Y
v
ề
ph
ả
n x
ạ
c
ủ
a chu
ộ
t thay
ñổ
i theo l
ượ
ng thu
ố
c X
ñ
ã tiêm
V
ấ
n
ñề
ñặ
t ra là tìm m
ộ
t hàm c
ủ
a X
ñể
tính g
ầ
n
ñ
úng các giá tr
ị
c
ủ
a Y.
Hàm này th
ườ
ng ch
ọ
n trong các l
ớ
p hàm: b
ậ
c nh
ấ
t (tuy
ế
n tính), b
ậ
c hai, lôgarít, m
ũ
. . . hàm
ph
ả
i
ñơ
n gi
ả
n và d
ễ
lý gi
ả
i v
ề
m
ặ
t chuyên môn.
N
ế
u dùng x
i
làm hoành
ñộ
, y
i
làm tung
ñộ
thì có n
ñ
i
ể
m quan sát M
i
(x
i
,y
i
) và bài toán
ở
ñ
ây là
dùng m
ộ
t
ñườ
ng th
ẳ
ng,
ñườ
ng parabôn,
ñườ
ng lôgarít,
ñườ
ng m
ũ
, . . .
ñể
lý gi
ả
i s
ự
thay
ñổ
i
c
ủ
a Y theo X,
ñườ
ng này không bu
ộ
c ph
ả
i
ñ
i qua t
ấ
t c
ả
các
ñ
i
ể
m mà ch
ỉ
c
ầ
n
ñ
i “sát”,
ñ
i “g
ầ
n”
các
ñ
i
ể
m quan sát M
i
.
Trong ph
ầ
n hàm nhi
ề
u bi
ế
n c
ủ
a toán h
ọ
c cao c
ấ
p sau khi tính
ñạ
o hàm riêng có
ñề
c
ậ
p
ñế
n
ñườ
ng th
ẳ
ng “t
ố
t” nh
ấ
t theo nguyên t
ắ
c (hay ph
ươ
ng pháp) bình ph
ươ
ng bé nh
ấ
t.
200
Y
150
100
80
80 100
120 140
160 180
200 220
240 X
H
ồ
i quy tuy
ế
n tính Y theo X
Gi
ả
s
ử
ch
ọ
n
ñườ
ng g
ầ
n
ñ
úng là
ñườ
ng th
ẳ
ng z = a + bx ta có mô hình tuy
ế
n tính sau:
y
i
= z
i
+ e
i
= a + bx
i
+ e
i
(6.8)
e
i
là
ñộ
chênh l
ệ
ch gi
ữ
a giá tr
ị
th
ự
c y
i
và giá tr
ị
t
ươ
ng
ứ
ng z
i
trên
ñườ
ng th
ẳ
ng (th
ườ
ng g
ọ
i e
i
là sai s
ố
hay ph
ầ
n d
ư
).
Theo nguyên t
ắ
c bình ph
ươ
ng bé nh
ấ
t thì
ñườ
ng “t
ố
t” nh
ấ
t trong các
ñườ
ng th
ẳ
ng dùng làm
ñườ
ng g
ầ
n
ñ
úng là
ñườ
ng có t
ổ
ng bình ph
ươ
ng các ph
ầ
n d
ư
Σe
2
i
nh
ỏ
nh
ấ
t.
Dùng cách tính c
ự
c tr
ị
c
ủ
a hàm hai bi
ế
n
ñể
tìm min Σe
2
i
thu
ñượ
c h
ệ
hai ph
ươ
ng trình (g
ọ
i là
h
ệ
ph
ươ
ng trình chu
ẩ
n)
ñể
tìm a và b.
an + b Σx
i
= Σy
i
aΣx
i
+ b Σx
2
i
= Σx
i
y
i
Chương 6 Tương quan và hồi quy
95
Có nhi
ề
u cách gi
ả
i h
ệ
hai ph
ươ
ng trình b
ậ
c nh
ấ
t v
ớ
i hai
ẩ
n s
ố
. N
ế
u dùng
ñị
nh th
ứ
c
ñể
gi
ả
i thì
có ngay k
ế
t qu
ả
sau:
∑
∑
∑
∑
∑
−
−
=
n
x
x
n
yx
yx
b
i
i
ii
ii
2
2
)(
n
xby
a
ii
∑
∑
−
=
(6.9)
trùng v
ớ
i công th
ứ
c (5.6)
ñ
ã dùng
ñể
tính các h
ệ
s
ố
h
ồ
i quy a và b
ở
ph
ầ
n a/
N
ế
u các
biến ngẫu nhiên
e
i
trong mô hình tuy
ế
n tính (5.8) phân ph
ố
i chu
ẩ
n tho
ả
mãn 3
ñ
i
ề
u
ki
ệ
n:
a/ K
ỳ
v
ọ
ng b
ằ
ng 0
b/ Ph
ươ
ng sai b
ằ
ng nhau (6.10)
c/
ðộ
c l
ậ
p v
ớ
i nhau.
thì sau khi tính các h
ệ
s
ố
theo (5.9) có th
ể
tính
ñượ
c sai s
ố
c
ủ
a các h
ệ
s
ố
, phân tích và
ñ
ánh
giá các ngu
ồ
n bi
ế
n
ñộ
ng, phân tích sai s
ố
d
ự
báo.
ðườ
ng th
ẳ
ng g
ầ
n
ñ
úng t
ố
t nh
ấ
t v
ừ
a tìm
ñượ
c theo (8.9) trong tr
ườ
ng h
ợ
p này c
ũ
ng
ñượ
c g
ọ
i
là
ñườ
ng h
ồ
i quy tuy
ế
n tính Y theo X.
(
ðể
phân bi
ệ
t có khi ng
ườ
i ta g
ọ
i
ñườ
ng này là
ñườ
ng h
ồ
i quy tuy
ế
n tính d
ạ
ng I, còn
ñườ
ng
trung bình trong mô hình phân ph
ố
i chu
ẩ
n hai chi
ề
u
ở
a/ là
ñườ
ng h
ồ
i quy tuy
ế
n tính d
ạ
ng II).
Trong mô hình h
ồ
i quy tuy
ế
n tính d
ạ
ng I bi
ế
n X (không ng
ẫ
u nhiên)
ñượ
c g
ọ
i là bi
ế
n
ñộ
c l
ậ
p,
bi
ế
n gi
ả
i thích hay bi
ế
n
ñ
i
ề
u khi
ể
n còn bi
ế
nY (ng
ẫ
u nhiên) thay
ñổ
i theo X
ñượ
c g
ọ
i là bi
ế
n
ph
ụ
thu
ộ
c, bi
ế
n k
ế
t qu
ả
hay bi
ế
n
ñ
áp.
Tr
ở
l
ạ
i
ñườ
ng h
ồ
i quy tuy
ế
n tính
ở
ph
ầ
n a/, n
ế
u ch
ọ
n tr
ướ
c bi
ế
n ng
ẫ
u nhiên X và coi nh
ư
bi
ế
n
ñộ
c l
ậ
p thì bi
ế
n thay
ñổ
i theo Y trong phân ph
ố
i chu
ẩ
n hai chi
ề
u tho
ả
mãn các
ñ
i
ề
u ki
ệ
n v
ừ
a
nêu
ở
(5.10). Nh
ư
v
ậ
y
ñườ
ng h
ồ
i quy tuy
ế
n tính d
ạ
ng II, theo ngh
ĩ
a
ñườ
ng trung bình c
ủ
a
bi
ế
n Y theo bi
ế
n X, c
ũ
ng chính là
ñườ
ng h
ồ
i quy tuy
ế
n tính theo ngh
ĩ
a v
ừ
a trình b
ầ
y: “
ñườ
ng
th
ẳ
ng g
ầ
n
ñ
úng t
ố
t nh
ấ
t
ñố
i v
ớ
i bi
ế
n Y”, t
ứ
c là
ñườ
ng h
ồ
i quy tuy
ế
n tính d
ạ
ng I.
Tóm l
ạ
i khi c
ầ
n tính h
ồ
i quy tuy
ế
n tính theo ngh
ĩ
a “
ðườ
ng th
ẳ
ng g
ầ
n
ñ
úng t
ố
t nh
ấ
t
ñố
i v
ớ
i
bi
ế
n Y thì dù X là bi
ế
n không ng
ẫ
u nhiên v
ớ
i các sai s
ố
e
i
c
ủ
a mô hình tho
ả
mãn
ñ
i
ề
u ki
ệ
n
(5.10), hay X là bi
ế
n ng
ẫ
u nhiên trong mô hình phân ph
ố
i chu
ẩ
n hai chi
ề
u ta
ñề
u có th
ể
tính
các h
ệ
s
ố
a và b b
ằ
ng cách dùng các công th
ứ
c (5.5), (5.6), (5.7) ho
ặ
c gi
ả
i h
ệ
2 ph
ươ
ng trình
chu
ẩ
n.
Vi
ệ
c tính sai s
ố
c
ủ
a a và b, vi
ệ
c phân tích bi
ế
n
ñộ
ng chung thành bi
ế
n
ñộ
ng do h
ồ
i quy và
bi
ế
n
ñộ
ng do sai s
ố
, vi
ệ
c tính và
ñ
ánh giá d
ự
báo hoàn toàn gi
ố
ng nhau.
Với ví dụ 6.1:
Nghiên c
ứ
u m
ố
i quan h
ệ
tuy
ế
n tính gi
ữ
a
ñườ
ng kính l
ớ
n x (mm) và kh
ố
i l
ượ
ng
y (gram) c
ủ
a m
ộ
t lo
ạ
i tr
ứ
ng gà. Ti
ế
n hành
ñ
o
ñườ
ng kính l
ớ
n và cân kh
ố
i l
ượ
ng c
ủ
a 10 qu
ả
tr
ứ
ng. S
ố
li
ệ
u thu th
ậ
p
ñượ
c nh
ư
sau:
Ta
ñ
ã có: n = 10; n = 10; Σx
i
= 560; Σy
i
= 580 ; Σx
i
2
= 31404; Σx
i
y
i
= 32496
10a + 560b = 580
560a + 31404b = 32496
Thiết kế thí nghiệm
96
Gi
ả
i h
ệ
ph
ươ
ng trình ta
ñượ
c a = 37,6 ; b = 0,364. Nh
ư
v
ậ
y h
ồ
i quy tuy
ế
n tính kh
ố
i l
ượ
ng
theo
ñườ
ng kính l
ớ
n c
ủ
a tr
ứ
ng là:
y = 37,6 + 0,364x
6.4. Kiểm ñịnh ñối với hệ số tương quan và các hệ số hồi quy
Trong mô hình phân ph
ố
i chu
ẩ
n hai chi
ề
u thì h
ệ
s
ố
t
ươ
ng quan m
ẫ
u là m
ộ
t th
ố
ng kê có k
ỳ
v
ọ
ng là h
ệ
s
ố
t
ươ
ng quan lý thuy
ế
t ρ.
ðể
ki
ể
m
ñị
nh gi
ả
thi
ế
t H
0
: ρ = 0 v
ớ
i
ñố
i thi
ế
t H
1
: ρ ≠ 0
ph
ả
i tính giá tr
ị
T
TN
theo công th
ứ
c:
T
TNR
=
2
1
2
−
−
n
r
r
r
ồ
i so v
ớ
i giá tr
ị
t
ớ
i h
ạ
n t(α/2,n-2) (6.11)
Kết luận:
N
ế
u | T
TN
| ≤ t(α/2,n-2) thì ch
ấ
p nh
ậ
n H
0
, ng
ượ
c l
ạ
i thì bác b
ỏ
H
0
Với ví dụ 6.1:
Nghiên c
ứ
u m
ố
i quan h
ệ
tuy
ế
n tính gi
ữ
a
ñườ
ng kính l
ớ
n x (mm) và kh
ố
i l
ượ
ng
y (gram) c
ủ
a m
ộ
t lo
ạ
i tr
ứ
ng gà.
Ta
ñ
ã có: n = 10; r = 0,4558
T
TN
= 448,1
210
4558,01
4558,0
2
=
−
−
; t(0,025;8)= 2,306
Kết luận:
ch
ấ
p nh
ậ
n H
0
: ρ=0
ðể
ki
ể
m
ñị
nh gi
ả
thi
ế
t H
0
: ρ = ρ
0
v
ớ
i
ñố
i thi
ế
t H
1
: ρ ≠ ρ
0
th
ườ
ng th
ự
c hi
ệ
n phép bi
ế
n
ñổ
i
)
1
1
ln(
2
1
r
r
z
−
+
=
Bi
ế
n này phân ph
ố
i chu
ẩ
n v
ớ
i k
ỳ
v
ọ
ng
−
+
ρ
ρ
1
1
ln
2
1
và ph
ươ
ng sai 1/(n-3)
T
ừ
ñ
ó có quy t
ắ
c ki
ể
m
ñị
nh:
Z
TN
=
+−
−+−
=
−
+
−
−
+−
)1)(1(
)1)(1(
ln
2
3
)
1
1
ln()
1
1
ln(
2
3
0
0
0
0
ρ
ρ
ρ
ρ
r
rn
r
rn
so v
ớ
i giá tr
ị
t
ớ
i h
ạ
n z(α/2) c
ủ
a phân ph
ố
i chu
ẩ
n t
ắ
c
Kết luận:
N
ế
u |Z
TN
| ≤ z(α/2) thì ch
ấ
p nh
ậ
n H
0
, ng
ượ
c l
ạ
i thì bác b
ỏ
H
0
Trong mô hình h
ồ
i quy tuy
ế
n tính y = a + bx các sai s
ố
ñượ
c gi
ả
thi
ế
t phân ph
ố
i chu
ẩ
n
N(0,
σ
2
).
Chương 6 Tương quan và hồi quy
97
Sau khi tính các h
ệ
s
ố
a và b c
ủ
a
ñườ
ng h
ồ
i quy có th
ể
tính
ñượ
c chênh l
ệ
ch gi
ữ
a giá tr
ị
quan
sát (y
i
) và giá tr
ị
t
ươ
ng
ứ
ng trên
ñườ
ng h
ồ
i quy (y
H
i
)
y
H
i
= a + bx
i
e
i
= y
i
- y
H
i
= y
i
- (a + bx
i
)
Ph
ươ
ng sai σ
2
ñượ
c
ướ
c l
ượ
ng b
ở
i se
2
SE
2
=
)2(
))((
1
2
−
+−
∑
=
n
bxay
n
i
ii
(6.12)
SE
ñượ
c g
ọ
i là sai s
ố
c
ủ
a m
ộ
t quan sát trong mô hình h
ồ
i quy tuy
ế
n tính.
Tung
ñộ
g
ố
c a có sai s
ố
:
SE(a) =
∑
∑
=
=
−
n
i
i
n
i
i
xxn
x
SE
1
2
1
2
)(
(6.13)
H
ệ
s
ố
góc b có sai s
ố
:
SE(b) =
∑
=
−
n
i
i
xx
se
1
2
)(
(6.14)
Với ví dụ 6.1:
Nghiên c
ứ
u m
ố
i quan h
ệ
tuy
ế
n tính gi
ữ
a
ñườ
ng kính l
ớ
n x (mm) và kh
ố
i l
ượ
ng
y (gram) c
ủ
a m
ộ
t lo
ạ
i tr
ứ
ng gà.
x y y
H
i
= 37,6+0,364x
i
e
i =
y
i
- y
H
i
e
2
i
57 61 58,36 2,64 6,95
54 59 57,27 1,73 2,98
55 58 57,64 0,36 0,13
52 56 56,55 -0,55 0,30
55 57 57,64 -0,64 0,40
60 59 59,45 -0,45 0,21
56 56 58,00 -2,00 4,00
56 58 58,00 0,00 0,00
57 56 58,36 -2,36 5,59
58 60 58,73 1,27 1,62
560 580 580 0,00 22,18
Ta có: Σ e
2
i
= 22,182; SE
2
= 22,182 / (10-2) = 2,773; se = 1,664;
Σx
2
i
= 31404; (x
i
-
_
x )
2
= 44
SE(a) =
=
× 4410
31404
664,1
14,07 và SE(b) =
=
44
664,1
0,251
Thiết kế thí nghiệm
98
T
ừ
ñ
ó có quy t
ắ
c ki
ể
m
ñị
nh
ñố
i v
ớ
i các h
ệ
s
ố
a và b
Gi
ả
thi
ế
t H
0A
: a = 0
ñố
i thi
ế
t H
1A
: a ≠ 0
Tính T
TNA
=
)(as
a
s
o v
ớ
i giá tr
ị
t
ớ
i h
ạ
n t(α/2, n-2)
Kết luận:
N
ế
u |T
TNA
| ≤ t(α/2, n-2) thì ch
ấ
p nh
ậ
n H
0A
, n
ế
u ng
ượ
c l
ạ
i thì bác b
ỏ
H
0A
Gi
ả
thi
ế
t H
0B
: b = 0
ñố
i thi
ế
t H
1B
: b ≠ 0
Tính T
TNB
=
)(bs
b
và so v
ớ
i giá tr
ị
t
ớ
i h
ạ
n t(α/2, n-2)
Kết luận:
N
ế
u |T
TNB
| ≤ t(α/2, n-2) thì ch
ấ
p nh
ậ
n H
0B
, n
ế
u ng
ượ
c l
ạ
i thì bác b
ỏ
H
0B
Với ví dụ 6.1:
Nghiên c
ứ
u m
ố
i quan h
ệ
tuy
ế
n tính gi
ữ
a
ñườ
ng kính l
ớ
n x (mm) và kh
ố
i l
ượ
ng
y (gram) c
ủ
a m
ộ
t lo
ạ
i tr
ứ
ng gà.
T
TNA
= 37,6 / 14,07 = 2,672 t(0,025 ;8) = 2,306 K
ế
t lu
ậ
n: a ≠ 0
T
TNB
= 0,364 / 0,251 = 1,450 t(0,025,5) = 2,306 K
ế
t lu
ậ
n: b = 0
6.5. Dự báo theo hồi quy tuyến tính
Khi có
ñườ
ng h
ồ
i quy tuy
ế
n tính thì có th
ể
dùng
ñườ
ng
ñ
ó
ñể
d
ự
báo giá tr
ị
Y
M
ứ
ng v
ớ
i giá
tr
ị
x
M
ngoài các giá tr
ị
x
i
ñ
ã có c
ủ
a m
ẫ
u quan sát:
y
M
= a + b x
M
(6.15)
Trong ví d
ụ
6.1 h
ồ
i quy kh
ố
i l
ượ
ng theo
ñườ
ng kính l
ớ
n c
ủ
a tr
ứ
ng là
y = 37,6 + 0,364x
Dùng
ñườ
ng h
ồ
i quy
ñể
d
ự
báo kh
ố
i l
ượ
ng m
ộ
t qu
ả
tr
ứ
ng có
ñườ
ng kính l
ớ
n là 59mm
y
59
= 37,6 + 0,364×59 = 59,076gram
Các d
ự
báo này cho ta m
ộ
t giá tr
ị
d
ự
báo y
M
và có th
ể
tính
ñượ
c sai s
ố
d
ự
báo, sai s
ố
này l
ớ
n
d
ầ
n n
ế
u
ñ
i
ể
m d
ự
báo x
M
ở
xa giá tr
ị
__
x , nh
ư
v
ậ
y d
ự
báo xa
__
x không t
ố
t vì sai s
ố
quá l
ớ
n.
Sai s
ố
d
ự
báo SE
M
= SE
∑
=
−
−
++
n
i
i
M
xx
xx
n
1
2
2
)(
)(1
1 (6.16)
V
ớ
i ví d
ụ
1 ta có sai s
ố
d
ự
báo là SE
59
=1,664
44
)5659(
10
1
1
2
−
++ = 1,834
Chương 6 Tương quan và hồi quy
99
6.6. Phân tích phương sai và hồi quy
D
ự
a theo ý t
ưở
ng c
ủ
a ph
ươ
ng pháp phân tích ph
ươ
ng sai có th
ể
kh
ả
o sát t
ổ
ng bình ph
ươ
ng
toàn b
ộ
(bi
ế
n
ñộ
ng toàn b
ộ
c
ủ
a y)
SS
TO
=
∑
=
−
n
i
i
yy
1
2
)(
Có th
ể
tách SS
TO
thành hai t
ổ
ng bình ph
ươ
ng: 1) t
ổ
ng bình ph
ươ
ng do h
ồ
i quy SS
R
và 2)t
ổ
ng
bình ph
ươ
ng do sai s
ố
SS
E
SS
R
=
∑
=
−
n
i
H
i
yy
1
2
)(
v
ớ
i y
H
i
= a + bx
i
(giá tr
ị
trên
ñườ
ng h
ồ
i quy)
SSE
=
∑ ∑
= =
=−
n
i
n
i
i
H
ii
eyy
1 1
22
)(
T
ừ
ñ
ó có b
ả
ng phân tích ph
ươ
ng sai sau:
Ngu
ồ
n bi
ế
n
ñộ
ng df SS MS F
TN
F t
ớ
i h
ạ
n
H
ồ
i quy 1 SS
R
MS
R
= SS
R
/df
R
MS
R
/ MS
E
F(α,df
R
,df
E
)
Sai s
ố
n-2 SS
E
MS
E
= SS
E
/df
E
= se
2
Toàn b
ộ
n-1 SS
TO
Gi
ả
thi
ế
t H
0
: Không có h
ồ
i quy (h
ệ
s
ố
h
ồ
i quy b = 0) v
ớ
i
ñố
i thi
ế
t H
1
: h
ệ
s
ố
b ≠ 0
N
ế
u F
TN
≤ F(α,df
R
,df
E
) thì ch
ấ
p nh
ậ
n H
0
ng
ượ
c l
ạ
i thì ch
ấ
p nh
ậ
n H
1
Chia SS
R
cho SS
TO
ñượ
c
2
r
SS
SS
TO
R
=
và SS
E
cho SS
TO
ñượ
c
2
1 r
SSTO
SSE
−=
r
2
ñượ
c g
ọ
i là h
ệ
s
ố
xác
ñị
nh (6.16)
Ta còn có F
TN
=
2
1
2
2
−
−
=
n
r
r
msE
msR
= T
2
tnR
(6.17)
Nh
ư
v
ậ
y ki
ể
m
ñị
nh F t
ươ
ng
ñươ
ng v
ớ
i ki
ể
m
ñị
nh T
ñố
i v
ớ
i h
ệ
s
ố
t
ươ
ng quan r và t
ươ
ng
ñươ
ng v
ớ
i ki
ể
m
ñị
nh T
ñố
i v
ớ
i h
ệ
s
ố
góc b.
Với ví dụ 6.1:
Nghiên c
ứ
u m
ố
i quan h
ệ
tuy
ế
n tính gi
ữ
a
ñườ
ng kính l
ớ
n x (mm) và kh
ố
i l
ượ
ng
y (gram) c
ủ
a m
ộ
t lo
ạ
i tr
ứ
ng gà.
T
ừ
ñ
ó có b
ả
ng phân tích ph
ươ
ng sai sau:
Ngu
ồ
n bi
ế
n
ñộ
ng df SS MS F
TN
F t
ớ
i h
ạ
n
H
ồ
i quy 1 5,818 5,818 2,10 0,185
Sai s
ố
8 22,182 2,773
Toàn b
ộ
9 28,000
K
ế
t lu
ậ
n : Vì F
TN
> F t
ớ
i h
ạ
n cho nên gi
ả
thi
ế
t H
0
b
ị
bác b
ỏ
F
TN
= 5,818 / 2,773 = 2,10 = (1,449)
2
= (T
TNB
)
2
= (T
TNR
)
2
Thiết kế thí nghiệm
100
6.7. Bài tập
6.7.1
Xác
ñị
nh m
ố
i liên h
ệ
gi
ữ
a kh
ố
i l
ượ
ng c
ủ
a gà mái (kg) và thu nh
ậ
n th
ứ
c
ă
n trong m
ộ
t n
ă
m
(kg). Ti
ế
n hành quan sát trên 10 gà mái và thu
ñượ
c k
ế
t qu
ả
nh
ư
sau :
Kh
ố
i l
ượ
ng gà mái 2,3 2,6 2,4 2,2 2,8 2,3 2,6 2,6 2,4 2,5
Kh
ố
i l
ượ
ng th
ứ
c
ă
n 43 46 45 46 50 46 48 49 46 47
Xây d
ự
ng ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính và tính h
ệ
s
ố
t
ươ
ng quan.
6.7.2
M
ộ
t thí nghi
ệ
m
ñượ
c ti
ế
n hành
ñể
xác
ñị
nh m
ố
i liên h
ệ
gi
ữ
a kh
ố
i l
ượ
ng thân th
ị
t l
ợ
n (kg) và
ñộ
dày m
ỡ
l
ư
ng (mm). Ti
ế
n hành xác
ñị
nh các ch
ỉ
tiêu v
ừ
a nêu trên 8 thân th
ị
t l
ợ
n, k
ế
t qu
ả
thu
ñượ
c nh
ư
sau :
Kh
ố
i l
ượ
ng thân th
ị
t 100 130 140 110 105 95 130 120
ðộ
dày m
ỡ
l
ư
ng 42 38 53 34 35 31 45 43
Xây d
ự
ng ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính và tính h
ệ
s
ố
t
ươ
ng quan.
6.7.3
ðể
xác
ñị
nh kh
ố
i l
ượ
ng c
ủ
a c
ừ
u (kg) thông qua chu vi l
ồ
ng ng
ự
c, ti
ế
n hành cân
ñ
o trên 66
c
ứ
u. S
ố
li
ệ
u thu
ñượ
c nh
ư
sau :
Kh
ố
i l
ượ
ng (Y) và chu vi l
ồ
ng ng
ự
c (X) c
ủ
a c
ừ
u
Y X Y X Y X Y X Y X Y X
30 76 20 63 28 77 29 73 18 62 19 67
24 71 28 70 25 71 30 74 28 70 27 69
20 63 22 65 27 72 21 64 27 71 31 74
25 69 28 72 28 74 28 74 30 73 23 67
25 67 25 67 25 65 48 89 28 72 22 63
19 62 20 62 20 64 17 60 22 69 35 75
35 77 35 78 35 78 46 86 48 90 44 84
37 84 43 81 32 73 43 84 31 73 31 73
39 78 36 81 33 80 44 82 39 80 45 86
43 88 41 87 36 82 43 80 33 79 35 78
38 78 36 76 35 74 39 81 34 74 39 76
Xây d
ự
ng ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính.
Chương 7
Kiểm ñịnh một phân phối và bảng tương liên
Biến ngẫu nhiên liên tục bằng tổng bình phương của nhiều biến ngẫu nhiên ñộc lập, phân phối
chuẩn tắc là biến Khi bình phương χ
2
. Biến này ñược khảo sát tỷ mỷ và lập bảng phân phối
(bảng 4). Biến χ
2
có nhiều ứng dụng khác nhau ở ñây chúng ta chỉ ñề cập ñến hai ứng dụng
ñối với các biến ñịnh tính.
7.1. Kiểm ñịnh một phân phối
ðể khảo sát một biến ñịnh tính X ta lấy mẫu quan sát gồm N cá thể và căn cứ vào sự thể hiện
của biến X ñể phân chia thành k lớp như bảng sau:
(L
i
là lớp thứ i, O
i
là số lần quan sát thấy X thuộc lớp i).
Biến X L
1
L
2
. . . L
k
Tổng
Tần số Oi O
1
O
2
. . . O
k
N=ΣO
i
Từ một lý thuyết nào ñó, có thể là một lý thuyết ñã ñược xây dựng chặt chẽ, có giải thích cơ
chế, cũng có thể chỉ là một lý thuyết mang tính kinh nghiệm, ñúc kết từ những quan sát trước
ñây về biến X, người ta ñưa ra một giả thiết H
0
thể hiện ở dãy các tần suất lý thuyết f
1
, f
2
, . . . ,
f
k
của biến X( có nghĩa là dãy tần suất này ñược tính từ lý thuyết ñã nêu trên). Căn cứ vào tần
suất lý thuyết f
i
và tần số thực tế m
i
chúng ta phải ñưa ra một trong hai kết luận:
1) Chấp nhận H
0
tức là coi tần số thực tế m
i
phù hợp với lý thuyết ñã nêu thể hiện ở tần suất f
i
.
2) Bác bỏ H
0
tức là dãy tần số thực tế m
i
không phù hợp với lý thuyết ñã nêu.
Việc kiểm ñịnh ñược thực hiện với mức ý nghĩa α , tức là nếu giả thiết H
0
ñúng thì xác suất
ñể bác bỏ một cách sai lầm H
0
bằng α.
Các bước thực hiện:
1) Tính các tần số lý thuyết theo công thức: E
i
= N. f
i
(7.1)
2) Tính khoảng cách giữa hai số O
i
và E
i
theo cách tính khoảng cách
χ
2
=
(
)
i
ii
E
EO
2
−
Thiết kế thí nghiệm
102
3) Tính khoảng cách giữa hai dãy tần số thực tế m
i
và tần số lý thuyết t
i
theo công thức :
χ
2
TN
=
(
)
∑
=
−
k
i
i
ii
E
EO
1
2
(7.2)
4) Tìm giá trị tới hạn trong bảng 4 (cột α, dòng k-1, ký hiệu là χ
2
(α,k-1))
5) Nếu χ
2
tn
≤ χ
2
(α,k-1) thì chấp nhận H
0
: “Tần số thực tế O
i
phù hợp với lý thuyết ñã nêu”.
Nếu χ
2
tn
> χ
2
(α,k-1) thì bác bỏ H
0
, tức là “Tần số thực tế O
i
không phù hợp với lý thuyết ñã
nêu”.
ðể sử dụng phép thử χ
2
, cần thoả mãn các ñiều kiện sau:
1) Các Oi là các quan sát ñộc lập
2) Tất cả các Ei ñều phải lớn hơn hoặc bằng 5
3) Các Oi và Ei không phải là các tỷ lệ phần trăm.
Ví dụ 7.1: Số liệu thống kê năm 1995 cho thấy, tỷ lệ màu lông (fi) trắng, nâu và ñen trắng
của thỏ trong một quần thể tương ứng là 0,36; 0,48 và 0,16. Năm 2005, từ 400 con thỏ rút một
cách ngẫu nhiên từ quần thể nêu trên có 140 con màu lông trắng, 240 con màu nâu và 20 con
màu ñen trắng. Câu hỏi ñặt ra: Sau 10 năm (từ 1995 ñến 2005) tỷ lệ màu lông của thỏ trong
quần thể có thay ñổi hay không?
Giả thiết H
0
: Tỷ lệ màu lông của thỏ trong quần thể sau 10 năm không thay ñổi
Ta có thể tóm tắt số liệu quan sát thu ñược năm 2005 như sau:
Màu lông Trắng Nâu ðen trắng Tổng số
Tần số (O
i
) 140 240 20 400
Dựa vào tỷ lệ ban ñầu (năm 1995) ta có các tần suất lý thuyết (ti)
Màu lông Trắng Nâu ðen trắng Tổng số
fi 0,36 0,48 0,16 1
Ei
400×0,36= 144 400×0,48= 192 400×0,16= 64
400
χ
2
TN
=
(
)
∑
=
−
k
i
i
ii
E
EO
1
2
=
(
)
(
)
361,42
64
)6420(
192
192240
144
144140
2
22
=
−
+
−
+
−
Bậc tự do df = (3 - 1) = 2; giá trị tới hạn χ
2
(0,05; 2) = 5,991
Kết luận: χ
2
TN
< χ
2
(0,05, 2) nên bác bỏ giả thiết H
0
. Chứng tỏ tỷ lệ màu lông thỏ trong quần
thể sau 10 năm có sự thay ñổi.
Chương 7 Kiểm ñịnh một phân phối và bảng tương liên
103
Ví dụ 7.2: Giả sử chúng ta ñiều tra giới tính của một quần thể cho trước. Trong một mùa nhất
ñịnh trong năm người ta thấy tỷ lệ giới tính lúc sinh ra có xu hướng con cái cao hơn. ðể giải
ñáp câu hỏi trên tiến hành chọn ngẫu nhiên 297 con chim mới sinh thì thấy có 167 con cái.
Liệu yếu tố mùa có làm ảnh hưởng ñến tỷ lệ giới tính hay không?
ðối với trường hợp giới tính, ta luôn thừa nhận tỷ lệ ñực cái là 1:1 hay 0,5:0,5. Nếu mùa
không làm ảnh hưởng ñến tỷ lệ giới tính thì theo ước tính lý thuyết từ 297 con chim quan sát
ta sẽ có số chim ñực và số chim cái bằng nhau và bằng 297 × 0,5 = 148,5.
Ta có bảng tổng hợp sau:
ðực Cái Tổng số
Tần số quan sát (Oi) 130 167 297
Tần số lý thuyết (Ei) 148,5 148,5 297
χ
2
TN
=
(
)
∑
=
−
k
i
i
ii
E
EO
1
2
χ
2
TN
=
(
)
∑
=
−
k
i
i
ii
E
EO
1
2
=
(
)
(
)
61,4
5,148
5,148167
5,148
5,148130
22
=
−
+
−
Bậc tự do df = (2 - 1) = 1; giá trị tới hạn χ
2
(0,05; 1) = 3,84
Kết luận: χ
2
TN
< χ
2
(0,05, 1) nên bác bỏ giả thiết H
0
. Chứng tỏ tỷ lệ giới tính không tuân theo
tỷ lệ ñực cái 1:1. ðiều kiện khí hậu ñã làm thay ñổi tỷ lệ này.
Hiệu chỉnh Yate
(
)
∑
=
−−
=
k
i
i
ii
E
EO
1
2
2
5,0
χ
Hệ số 0,5 trong công thức nêu trên gọi là hệ số hiệu chỉnh Yate hay còn gọi là hiệu chỉnh tính
liên tục ñể loại bỏ sự thiên lệch. Hiệu chỉnh Yate sẽ ñược trình bày chi tiết ở phần tiếp theo
Theo ví dụ trên ta có giá trị χ² hiệu chỉnh là:
χ
2
TN
=
(
)
∑
=
−
k
i
i
ii
E
EO
1
2
=
(
)
(
)
36,4
5,148
5,05,148167
5,148
5,05,148130
22
=
−−
+
−−
Giá trị χ² hiệu chỉnh (4,36) bé hơn giá trị χ² trước khi hiệu chỉnh (4,61), tuy nhiên giá trị hiệu
chỉnh vẫn lớn hơn giá trị tới hạn (3,84) cho nên ta vẫn có kết luận tương tự như trên.
7.2. Bảng tương liên l ×
××
× k
Có 2 biến ñịnh tính, biến X chia ra k lớp, biến Y chia ra l lớp, qua khảo sát thu ñược bảng hai
chi
ều chứa các số quan sát ñược của các ô O
ij
(gọi là bảng tương liên):
Thiết kế thí nghiệm
104
Bảng các tần số Oij
Y
X Y
1
Y
2
. . . Y
l
TH
i
X
1
O
11
O
12
. . . O
1l
TH
1
X
2
O
21
O
22
. . . O
2l
TH
2
. . . . . . . . . . . . . . . . . .
X
k
O
k1
O
k2
. . . O
kl
TH
k
TC
j
TC
1
TC
2
. . . TC
l
N
Các số O
ij
thường ñược gọi là các tần số thực tế. Bài toán ñặt ra ở ñây là biến X(hàng) và biến
Y(cột) có quan hệ hay không?
Giả thiết H
0
: “hàng và cột không quan hệ” với ñối thuyết H
1
: “hàng và cột có quan hệ”.
ðể kiểm tra giả thiết này phải thực hiện các bước sau:
1) Từ giả thiết hàng và cột không quan hệ suy ra các số ở trong ô về lý thuyết phải bằng tổng
hàng (TH
i
) nhân với tổng cột (TC
j
) chia cho tổng số quan sát N (trong thí dụ 7.4 chúng ta sẽ
lý giải vấn ñề này). Gọi tần số lý thuyết là E
ij
ta có :
N
TCTH
E
ji
ij
×
=
(7.3)
2) Tính khoảng cách giữa 2 tần số O
ij
và E
ij
theo cách tính khoảng cách χ
2
ij
ijij
E
EO
2
)( −
3) Tính khoảng cách giữa 2 dãy m
ij
và t
ij
bằng χ
2
tn
:
∑∑
−
=
k l
ij
ijij
tn
t
tm
1 1
2
2
)(
χ
(7.4)
4) Chọn mức ý nghĩa α và tìm giá trị tới hạn trong bảng 4 χ
2
(α,(k-1)(l-1)) tương ứng với cột
α và bậc tự do (k-1)(l-1)
5) Kết luận:
Ở mức ý nghĩa α nếu χ
2
tn
≤ χ
2
(α,(k-1)(l-1)) chấp nhận H
0
, ngược lại thì bác bỏ H
0
Bài toán về bảng tương liên thường thể hiện dưới hai dạng:
1) X và Y là hai tính trạng, giả thiết H
0
: “Hai biến X, Y không có quan hệ” hay còn phát biểu
một cách khác là “X và Y ñộc lập”. Thường gọi bài toán này là bài toán kiểm ñịnh tính ñộc
lập của hai biến ñịnh tính, hay kiểm ñịnh tính ñộc lập của hai tính trạng.
2) Hàng X là các ñám ñông, cột Y là các nhóm, việc phân chia ñám ñông thành các nhóm căn
cứ vào một tiêu chuẩn nào ñó. Bài toán này thường ñược gọi là bài toán kiểm ñịnh tính thuần