Nếu H
1
đúng tức µ
x
- µ
y
> D
0
, khi đó W
α
:
T
s
s
btd
y
y
x
x
nn
Dyx
T
α
>
+
−−
=
2
,
2
,
0
Nếu H
1
đúng tức µ
x
- µ
y
< D
0
, khi đó W
α
:
btd
y
y
x
x
T
n
s
n
s
Dyx
T
α
−<
+
−−
=
2
'
2
'
0
Nếu H
1
đúng tức µ
x
- µ
y
≠ D
0
, khi đó W
α
:
btd
y
y
x
x
T
n
s
n
s
Dyx
T
2
2
'
2
'
0
α
−<
+
−−
=
Tính hệ số quan sát, so sánh với W
α
và kết luận .
Ví dụ: Kiểm tra chiều dài trung bình của một chi tiết được chế tạo từ hai thiết bị khác nhau
một cách ngẫu nhiên, ta có : mẫu ngẫu nhiên 15 chi tiết của thiết bị thứ nhất có chiều dài trung
bình là 100 cm và độ lệch chuẩn hiệu chỉnh là 5 cm ; mẫu ngẫu nhiên 10 chi tiết của thiết bị thứ
hai có chiều daì trung bình là 110 cm và độ lệch chuẩn hiệu chỉnh là 3cm. Với mức ý nghĩa
α
=
0,05, hãy kết luận xem kích thước trung bình của chi tiết trên được chế tạo ở hai thiết bị trên có
như nhau hay không. Biết chiều dài trung bình của chi tiết trên là đại lượng ngẫu nhiên phân
phối chuẩn.
Giải: Áp dụng phương pháp kiểm định sự khác biệt giữa hai trung bình tổng thể theo luật phân
phối chuẩn (chưa biết
σ
và n
x
, n
y
<30).
Gọi chiều dài trung bình của chi tiết được chế tạo trên hai thiết bị lần lượt là
µ
x
,
µ
y
với
µ
x
,
µ
y
là
các đại lượng ngẫu nhiên phân phối chuẩn. Theo đề bài, chúng ta cần phải kiểm tra xem kích
thước của chi tiết được chế tạo trên hai thiết bị có như nhau hay không.
B1. Giả thiết và đối thiết:
H
0
: µ
x
- µ
y
= 0
H
1
: µ
x
- µ
y
≠ 0
B2. Chọn mức ý nghĩa
α
B3. Xác định phương pháp kiểm định: Phương pháp kiểm định sự khác biệt tham số trung bình
giữa hai mẫu (độc lập),
σ
chưa biết.
B4. Tiêu chuẩn kiểm định:
074,2
22
025,0
2
2
'
2
'
0
==≥
+
−−
= TT
n
s
n
s
Dyx
T
btd
y
y
x
x
α
Trong đó bậc tự do được xác định theo công thức :
144
84,22
9
)
10
9
(
14
)
15
25
(
)
10
9
15
25
(
22
2
=
+
+
=btd
Minh họa bằng hình vẽ:
Miền bác bỏMiền bác bỏ
-6,242
2
,
074-2
,
074
Kết luận: k
qs
∈
W
α
, ta bác bỏ giả thiết H
0
và chấp nhận đối thuyết H
1
, nghĩa là chiều dài trung
bình của chi tiết được chế tạo ở hai thiết bị trên là khác nhau.
Hai biến (mẫu) phối hợp từng cặp
Điều kiện áp dụng: Khi tiến hình so sánh sự khác nhau giữa trung bình hai tổng thể, hai mẫu cần
thỏa mãn điều kiện là dữ liệu phải tuân theo quy luật phân phối chuẩn và phương sai của hai mẫu
phải bằng nhau.
B1. Giả thuyết và đối thuyết:
Đối x
ứng Phải Trái
Giả thiết
H
0
: µ
x
- µ
y
= D
0
H
1
: µ
x
- µ
y
≤ D
0
H
0
: µ
x
- µ
y
≥ D
0
Đối thiết
H
1
: µ
x
- µ
y
≠ D
0
H
1
: µ
x
- µ
y
> D
0
H
1
: µ
x
- µ
y
< D
0
B2. Lựa chọn mức ý nghĩa α
B3. Lựa chọn phương pháp kiểm định: Phương pháp kiểm định sự khác nhau trung bình của hai
tổng thể (mẫu phối hợp từng cặp), chúng ta dùng bảng phân phối chuẩn (nếu mẫu lớn hơn hoặc
bằng 30) hay phân phối T-student (nếu mẫu nhỏ hơn 30)
B4. Tiêu chuẩn kiểm định
d
s
nDx
DK
'
)(
0
−
=≡
với x và s’
d
là trung bình và độ lệch chuẩn của n khác biệt.
B5. Miền bác bỏ với α cho trước:
Nếu H
0
: µ
x
- µ
y
> D
0
, khi đó W
α
: T
d
s
nDx
'
)(
0
−
=
> U
1-α
(hoặc -T
(n-1);α
nếu n<30)
Nếu H
0
: µ
x
- µ
y
< D
0
, khi đó W
α
: T
d
s
nDx
'
)(
0
−
=
< U
1-α
(hoặc -T
(n-1);α
nếu n<30)
Nếu H
0
: µ
x
- µ
y
≠ D
0
, khi đó W
α
: ⏐T⏐
d
s
nDx
'
)(
0
−
=
≥ U
1-α/2
(hoặc T
(n-1);α/2
nếu n<30)
Tính hệ số quan sát k
qs
để so sánh với miền bác bỏ và kết luận.
Mô hình của bài toán kiểm định sự khác biệt giữa hai tham số trung bình có thể tóm lược ở biểu
sau:
145
Ví dụ: Một công ty hóa mỹ phẩm đã tiến hành một chiến dịch khuyến mãi nhằm mục đích tăng
doanh số. Để đánh giá xem việc khuyến mãi có thực sự làm tăng doanh số hay không, công ty đã
chọn ngẫu nhiên 15 cửa hàng trong hệ thống phân phối sản phẩm của mình và khảo sát sự khác
biệt về doanh số bán trong tuần lễ trước và sau chiến dịch khuyến mãi. Số liệu thu thập được thể
hiện trong bảng sau:
Doanh số trong tuần (triệu đồng)
Cửa hàng
Trước khuyến mãi Sau khuyến mãi
d
i
=(x
i
-y
i
)
(di- x )
2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
57
61
12
38
12
69
5
69
88
9
92
26
14
70
22
60
54
20
35
21
70
1
65
79
10
90
32
19
77
29
-3
7
-8
3
-9
-1
4
4
9
-1
2
-6
-5
-7
-7
3,24
67,24
46,24
17,64
60,84
0,04
27,04
27,04
104,04
0,04
10,24
23,04
14,44
33,64
33,64
-18 468,40
x =-1.2
s’
d=
5,78
KIỂM ĐỊNH THAM SỰ KHÁC NHAU HAI TRUNG BÌNH TỔNG THỂ
(dựa trên sự phân phối từng cặp)
1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
x
- µ
y
=D
0
H
0
: µ
x
- µ
y
≤ D
0
H
0
: µ
x
- µ
y
≥ D
0
Đối thiết
H
1
: µ
x
- µ
y
≠ D
0
H
1
: µ
x
- µ
y
> D
0
H
1
: µ
x
- µ
y
< D
0
2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm sự khác nhau của hai trung bình tổng thể - Bảng phân
phối chuẩn hoặc T-student (nếu n<30)
4. Tiểu chuẩn kiểm định T hoặc U:
x và s’
d
là trung bình và độ lệch chuẩn điều chỉnh của n khác biệt
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
- T
(n-1);1-α/2
và T
(n-1);1-
α/2
T
(n-1);1-α
- T
(n-1);1-α
Miền bác bỏ
D<- T
(n-1);1-α/2
và D>T
(n-1);1-α/2
D>T
(n-1);1-α
D<-T
(n-1);1-α
Mô hình
BB CN BB
-T
(n-1);1-α/2
T
(n-
BB
-T
(n-1);1-α
BB
T
(n-1);1-α
d
qs
s
nDx
Tk
'
)(
0
−
=≡
146
Với mức ý nghĩa
α
=0,05, có thể kết luận chiến dịch khuyến mãi đã làm tăng doanh số hay
không?
Giải:
Gọi
µ
x
,
µ
y
lần lượt là doanh số trung bình sau và trước khi thực hiện chiến dịch khuyến mãi,
µ
x
,
µ
y
là đại lượng ngẫu nhiên tuân theo quy luật phân phối T-student (vì n=15<30)
B1. Giả thiết và đối thiết:
H
0
:
µ
x
-
µ
y
≤
0
H
1
:
µ
x
-
µ
y
> 0
B2. Mức ý nghĩa
α
=0,05.
B3. Phương pháp kiểm định: Kiểm định sự khác nhau giữa hai trung bình của tổng thể (hai mẫu
phối hợp từng cặp).
B4. Tính giá trị kiểm định:
d
qs
s
nDx
Dk
'
)(
0
−
=≡
với x và s’
d
là trung bình và độ lệch chuẩn của n khác biệt.
Từ số liệu trên, ta tính được x =-1,2 và s’
d
= 5,78. Khi đó K
qs
sẽ là:
803,0
78,5
152,1
)(
'
0
−=
−
=
−
=
d
qs
s
nDx
k
B4. Miền bác bỏ và kết luận:
Với H
1
:
µ
x
-
µ
y
> 0, khi đó W
α
: T
d
0
's
n)Dx( −
=
>T
(n-1);
α
= T
(14),0,05
= 1,761
Minh họa bằng hình vẽ:
Miền bác bỏ
1,761
-0,803
Kết luận: vì k
qs
không thuộc W
α
nên chưa có cơ sở để bác bỏ giả thiết H
0
và chấp nhận giả
thuyết đối H
1
ở mức ý nghĩa
α
=0,05, hay chiến dịch khuyến mãi của công ty vẫn chưa làm
tăng doanh số.
Kiểm định sự khác nhau giữa trung bình từ hai mẫu trở lên – Phân tích ANOVA (Gồm một
biến định lượng và một biến phân loại (biến định tính))
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung
bình mẫu, đây là hình thức mở rộng của kiểm định T-student. Trong trường hợp biến phân loại có
nhiều hơn 2, chúng ta th
ường sử dụng phân tích phương sai (ANOVA – Analysis of variance).
Tại sao vây?, bởi vì khi sử dụng kiểm định t đối với hai mẫu độc lập, trong trường hợp biến phân
loại có 3 hoặc nhiều hơn 3 nhóm, chúng ta phải thực hiện rất nhiều cặp (k) so sánh lẫn nhau từng
đôi một, điều này dẫn đến một tình trạng là sai số của kiểm định sẽ lớn hơn rất nhiều so với mong
muốn ban
đầu. Ví dụ, mỗi một kiểm định Z hay t (kiểm định sự khác nhau tham số trung bình
giữa hai mẫu độc lập) chứa đựng một sai số dạng I, tổng sai số của dạng I đối với k đôi giá trị
trung bình bằng I=1-(1 - α)
k
. Trong một trường hợp cụ thể, giả sử chúng ta có một biến phân loại
147
với 5 giá trị lựa chọn và α = 0,05, khi đó chúng ta sẽ có 10 so sánh nếu chúng ta dùng phương
pháp kiểm định t. Sai số dạng I của kiểm định t khi đó sẽ là:
I =1 – (1- α)
k
= 1- (1-0,05) = 1-(0,95)
10
= 0.40
Trong trường hợp này, sai số để chúng ta bác bỏ giả thuyết H
0
về bằng nhau của các giá trị trung
bình ngay cả khi H
0
đúng là 40% chứ không phải là 5% như ban đầu.
Các điều kiện sử dụng: Các mẫu được rút ra theo cách ngẫu nhiên và độc lập (điều kiện này phải
được đảm bảo), các tổng thể có phân phối chuẩn (hoặc gần phân phối chuẩn) và các tổng thể có
cùng phương sai.
Phân tích phương sai một chiều: (One-Way Analysis of Variance)
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố định lượng đế
n
một nhân tố định tính (dạng phân loại).
Giả sử từ một biến phân loại, chúng ta có thể chia tổng thể thành k nhóm tuân theo quy luật phân
phối chuẩn và có phương sai bằng nhau dựa trên k mẫu ngẫu nhiên độc lập gồm n
1
, n
2
, , n
k
quan
sát.
Gọi x
ij
là giá trị của biến định lượng đang nghiên cứu tại quan sát thứ j của nhóm thứ I, khi đó,
1
x
,
2
x
,…,
k
x
là giá trị trung bình của các nhóm, x là trung bình chung của tất cả các nhóm theo
biến định lượng đang nghiên cứu.
Gọi giá trị trung bình của các nhóm trong tổng thể là µ
1
, µ
2
,…, µ
k
thì phương pháp phân tích
phương sai sẽ cho phép chúng ta so sánh sự khác nhau giữa tham số trung bình của 2 hay nhiều
nhóm có trong mẫu để suy rộng lên tổng thể.
B1. Giả thiết và đối thiết trong phân tích phương sai một chiều được phát biểu như sau:
H
0
: µ
1
= µ
2
=… = µ
k
H
1
: Tồn tại ít nhất một giá trị trung bình của nhóm thứ I (µ
i
) khác với ít nhất một giá trị trung
bình của nhóm còn lại.
B2. Lựa chọn mức ý nghĩa α
B3. Bài toán phân tích phương sai một chiều (One-way ANOVA).
B4. Tính tiêu chuẩn kiểm định
Để tính tiêu chuẩn kiểm định trong phân tích phương sai (ANOVA), chúng ta cần tiến hành tính
các chỉ tiêu sau:
- Tổng độ lệch bình phương giữa các nhóm (Sum of squares between groups): phản ánh biến
thiên của biến định lượng đánh nghiên cứu do tác động của biến phân loại đang xem xét
∑
=
−=
k
i
i
xxSSG
1
2
)(
- Tổng độ lệch bình phương trong nội bộ nhóm (Sum of squares within groups) phản ánh biến
thiên ngẫu nhiên do ảnh hưởng của các yếu tố khác không xem xét ở mẫu.
∑∑
==
−=
k
i
n
j
i
ij
i
xxSSW
11
2
)(
- Tổng các độ lệch bình phương toàn bộ (Total sum of squares): phản ánh toàn bộ biến thiên của
biến định lượng đang nghiên cứu.
148
∑∑
==
−=
k
i
n
j
ij
i
xxSST
11
2
)( hay SST = SSW + SSG.
- Phương sai giữa các nhóm (Mean squares between groups):
1−
=
k
SSG
MSG
- Phương sai trong nội bộ các nhóm (Mean squares within groups):
k
n
SSW
MSW
−
=
Lúc đó tiêu chuẩn kiểm định F (Fisher) được tính bằng:
M
SW
MSG
F =
Chúng ta có thể tóm gọn cách tính thông qua bảng sau:
ANOVA
Sum of Squares df Mean Square F Sig.
Between
Groups
∑
=
−=
k
i
i
xxSSG
1
2
)(
k-1
1−
=
k
SSG
MSG
M
SW
MSG
F =
P(F)
Within
Groups
∑∑
==
−=
k
i
n
j
i
ij
i
xxSSW
11
2
)(
n-1
k
n
SSW
MSW
−
=
Total
∑∑
==
−=
k
i
n
j
ij
i
xxSST
11
2
)(
(SST=SSG+SSW)
B5. Miền bác bỏ:
Với α cho trước, chúng ta bác bỏ H
0
nếu F>F
k-1,n-k,α
với k-1 là bậc tự do của tử số và n-k là
bậc tự do của mẫu số.
Ví dụ: Công ty A là công ty chuyên phân phối bột giặt cho thị trường Thành phố Đà Nẵng,
hiện tại công ty phân phối đến khách hàng thông qua 4 của hàng 1, 2, 3, 4. Để đưa ra những
quyết định marketing phù hợp, công ty muốn xem xét có sự khác nhau trong doanh số bán của
các cửa hàng hay không, số liệu thu thập trong một năm tại các cửa hàng được thể hiện ở bảng
sau:
ĐVT: triệu đồng
Cửa hàng số 1 Cửa hàng số 2 Cửa hàng số 3 Cửa hàng số
4
Tháng 1 120 123 112 119
Tháng 2 123 143 127 134
Tháng 3 134 132 156 245
Tháng 4 123 153 176 256
Tháng 5 132 143 145 364
Tháng 6 111 164 204 373
Tháng 7 176 174 275 367
Tháng 8 192 184 284 283
149
150
Tháng 9 145 142 195 293
Tháng 10 133 165 143 274
Tháng 11 126 102 134 246
Tháng 12 138 123 127 234
B1. Giả thuyết và đối thiết:
H
0
: Doanh số bán trung bình hàng tháng của các cửa hàng là bằng nhau (
µ
1
=
µ
2
=
µ
3
=
µ
k
)
H
1
: Tồn tại ít nhất một cửa hàng có doanh số bán khác với ít nhất một cửa hàng còn lại.
B2. Mức ý nghĩa
α
=0,05
B3. Phương pháp kiểm định : Thực hiện phương pháp phân tích phương sai một chiều.
B4. Tính tiêu chuẩn kiểm định :
- Doanh số trung bình của cửa hàng số 1: 137,75 triệu
- Doanh số trung bình của cửa hàng số 2: 145,67 triệu
- Doanh số trung bình của cửa hàng số 3: 173,17 triệu
- Doanh số trung bình của cửa hàng số 4: 265,67 triệu
- Doanh số trung bình của hàng tháng của công ty là 180,56 triệu
- Tham số SSG = 124176,56
- Tham số SSW = 121275,25
- Bậc tự do k-1=3
- Bậc tự do n-k = 44
- Tham số MSG = 41392,18
- Tham số MSW= 2756,25
- Hệ số Fisher (F) = 15,01
B5. Miền bác bỏ và kết luận:
- Ta có F
k-1;n-k;
α
= F
3;47;0,05
= 2,816
- Vì F = 15,01 > 2,816 nên chúng ta bác bỏ H
0
, chấp nhận H
1
có nghĩa là tồn tại ít nhất một của
hàng có doanh số bán khác với doanh số bán của ít nhất một của hàng còn lại.
Hồi quy tương quan (mối quan hệ giữa hai hay nhiều biến định lượng)
Khi nghiên cứu mối quan hệ giữa hai hay nhiều biến định lượng, chúng ta có thể sử dụng phương
pháp hồi quy, trong đói có một biến nguyên nhân (biến độc lập) và một biến kết quả (biến phụ
thuộc). Trong phương pháp này người ta có thể tìm ra được mối quan hệ và mức độ tác động của
biến nguyên nhân đến biến kết quả như thế nào. Giả sử chúng ta kiểm tra mối quan hệ tuyến tính
giữa số năm làm việc trong doanh nghiệp với thu nhập. Khi đó, ta có thể thấy rằng biến phụ thuộc
là biến thu nhập (biến Y) và biến độc lập là biến số năm làm việc (biế
n X)
Điều kiên ứng dụng
- Giá trị của biến X là hoàn toàn độc lập so với biến Y
- Sai số trong mô hình phải tuân theo quy luật phân phối chuẩn
- Trung bình các sai số của mô hình phải bằng không
- Phương sai của sai số là một hằng số và độc lập với giá trị X
Đồ thị
Trước khi xem xét mối quan hệ tương quan giữa hai biến này, chúng ta cần phải xây dựng đồ thị
giữa hai biến số để chúng ta có thể dự đoán hàm số thích hợp để mô tả mối quan hệ.
Qua đồ thị, chúng ta có thể dự đoán được, có thể dùng phương trình đường thẳng để mô tả mố
i
quan hệ giữa hai biến X, Y. Khi đó, mô hình hồi quy giản đơn trên tổng thể có thể được biểu hiện
như sau:
Y
i
= β
0
+ β
1
X
i
+ ε
i
(1)
Trong đó: X
i
là số năm làm việc của người thứ i
Y
i
là thu nhập hàng năm của người thứ i
β
0
giá trị của mô hình (giá trị của biến Y) khi giá trị của biến độc lập X bằng 0
β
1
đo lường mức độ thay đổi của biến Y khi biến X thay đổi một đơn vị
Nam lam viec
20181614121086
Thu nhap nam (trieu)
100000
80000
60000
40000
20000
0
Kiểm tra sự phù hợp của mô hình
Phân tích phương - ANOVA (kiểm tra sự tồn tại mối quan hệ trong mô hình)
Một mô hình tuyến tính được xây dựng khi nó tồn tại mối quan hệ giữa biến độc lập và biến phụ
thuộc, phân tích phương sai sẽ cho phép kiểm định mối quan hệ tuyến tính giữa hai biến.
- Gọi SST là tổng bình phương các biến động (giữa giá trị thực tế và giá trị trung bình của biến
y). Khi đó ta có:
∑
=
−=
n
i
i
yySST
1
2
)(
- Gọi SSR là tổng bình phương hồi quy, là đại lượng biến động của giá trị thực tế y
i
được giải
thích bởi giá trị hồi quy,
∑
=
−=
n
i
i
yySSR
1
2
)
ˆ
(
151
- Gọi SSE là tổng bình phương biến động giữa giá trị thực tế và giá trị hồi quy, khi đó ta có thể
tính được
∑
=
−=
n
i
ii
yySSE
1
2
)
ˆ
(
Khi đó trung bình bình phương hồi quy sẽ là
k
SSR
=MSR
với k là số biến (trong trường hợp này
k=1) và trung bình bình phương phân dư
k
n
SSE
−
=MSE
Giá trị kiểm định F =
MSE
MSR
có phân phối F (Phân phối Fisherr) dùng để kiểm định ý nghĩa của
mô hình hồi quy, do vậy, giá trị F càng lớn (hay P(F) càng nhỏ hơn α) thì mô hình càng có ý
nghĩa.
Hệ số R
2
(s-square)
Hệ số R
2
dùng để đo lường sự phù hợp của mô hình tuyến tính và nó thường gọi là hệ số xác định
(coefficient of determination). Hệ số này biểu hiện tỷ lệ phần trăm biến đội của biến y được giải
thích bởi các biến x. Khi đó
SST
SSE
SST
SSR
R −== 1
2
.
Tuy nhiên, R
2
của mẫu có khuynh hướng là ước lượng lạc quan của thước đo sự phù hợp của mô
hình đối với tổng thể. Do vậy, R
2
a
(gọi là R
2
điều chỉnh) được sử dụng để phản ánh chính xác hơn
sự phù hợn của mô hình với tổng thể và:
1
)1(
2
22
−−
−
−=
kn
Rk
RR
a
Tính các hệ số trong mô hình
Ở phương trình (1) chúng ta quan tâm chú ý đến hai hệ số β
0
và β
1
, yêu cầu của mô hình hồi quy
là làm nhu thế nào để tìm được các hệ số này, chúng ta có thể thể tính toán các giá trị tương ứng
của β
0
và β
1
là b
0
và b
1
trên mẫu để ứng lượng lên tổng thể. Đặt (x
1
, y
1
), (x
2
, y
2
), , (x
n
,y
n
) là mẫu
gồm n cặp quan sát trên đường hồi qui tổng thể có dạng:
y
i
= b
0
+ b
1
xi + e
i
Theo phương pháp bình phơng bé nhất, ta có thể ước lượng các hệ số β
0
và β
1
từ các hệ số b
0
và
tham số b
1
của mẫu sao cho tổng bình phương sai số của phương trình sau đây là bé nhất:
∑∑
==
−−==
n
i
n
i
iii
xbbyeSSE
11
2
10
2
)(
Khi đó các giá trị b
0
và b
1
được tính như sau:
∑∑
∑∑∑
==
===
−
−
=
n
i
n
i
ii
n
i
n
i
i
n
i
iii
xxn
yxyxn
b
11
22
111
1
)(
)()(
và
xbyb
i0
−=
Với
n
y
y
n
i
i
∑
=
=
1
và
n
x
x
n
i
i
∑
=
=
1
152
Hệ số hồi quy chuẩn hóa (standardized regression coefficient)
Hệ số hồi quy chuẩn hóa, kí hiệu là Beta biểu hiện độ dốc của đường thẳng (tìm được theo
phương pháp bình phương bé nhất) khi cả hai biến X và Y được biểu diễn bằng thang đo chuẩn
hóa, nó được tính bằng:
y
x
s
s
Beta
1
β
= với s
x
và s
y
là độ lệch chuẩn của biến X và biến Y.
Ước lượng các tham số của tổng thể
Phân tích hồi quy không chỉ mô tả các dữ kiện quan sat được mà công cho phép suy rộng các kết
luận về mối quan hệ trong mẫu lên tổng thể. Suy rộng các kết quả của mẫu cho các giá trị của
tổng thể dựa vào các giả định sau:
- Với bất kì một giá trị X nào thì phân phối chuẩn của biến Y phải là phân phối chuẩn
- Các giá trị Y độc lập đối với nhau tức là quan sát này không bị ảnh hưởng bởi các quan sát
khác.
- Tất cả các trị trung bình µ
y
khi X xảy ra đều nằm trên một đường thẳng – đó là đường hồi quy
tổng thể.
Khi chúng ta biết các giá trị b
0
và b
1
trên mẫu, chúng ta sẽ suy rộng giá trị này lên tổng thể cho
các giá trị β
0
và β
1
.
Nếu đặt σ
2
e
và s
2
e
là phương sai của sai số của mẫu (e) và tổng thể (ε), ta có:
12
1
2
2
−
=
−
=
∑
=
n
SSE
n
e
s
n
i
i
e
Nếu đặt β
1
là giá trị ước lượng của b
1
trên tổng thể thì phương sai của b
1
sẽ là:
∑∑
==
−
=
−
=
n
i
i
e
n
i
i
e
b
xnx
s
xx
s
s
1
2
2
2
1
2
2
2
)(
1
Khi đó độ lệch chuẩn của sai số sẽ là:
∑
=
−
==
n
i
i
e
bb
xnx
s
ss
1
2
2
2
2
11
Suy ra ước lượng không chệch của σ
2
b1
sẽ được xác định:
∑
=
−
=
n
i
i
e
b
xnx
s
1
2
2
2
2
1
σ
Giả sử t sai số hồi quy (e
i
) tuân theo quy luật phân phối chuẩn thì biến ngẫu nhiên (t) là giá trị
dùng để kiểm định:
1
11
b
s
b
T
β
−
=
153
Gọi α là mức ý nghĩa thì ta luôn luôn tìm được một khoảng tin cậy của β
1
, khi đó:
2
2
11
2
2
1
11
−−
+≤≤−
n
b
n
b
tsbtsb
αα
β
Kiểm định các tham số của tổng thể
B1. Giả thiết và đối thiết
Đối xứng Phải Trái
Giả thiết
H
0
: β
1
= β
1o
H
0
: β
1
≤ β
1o
H
0
: β
1
≥ β
1o
Đối thiết
H
1
: β
1
≠ β
1o
H
1
: β
1
> β
10
H
1
: β
1
< β
1o
B2. Xác định mức ý nghĩa α
B3. Phương pháp kiểm định: Kiểm định t-student đối với mối quan hệ giữa hai biến.
B4. Tính tiêu chuẩn kiểm định:
1
0
11
b
qs
s
b
Tk
β
−
=≡
B5. Miền bác bỏ và kết luận: Giả thiết H
0
được bác bỏ khi:
1
2
−
≥
n
tT
α
(kiểm định đối xứng)
1−
≥
n
tT
α
(kiểm định phía phải)
1−
−<
n
tT
α
(kiểm định phía trái)
Dự đoán giá trị
Khi chúng ta có các hệ số b
0
và b
1
, chúng ta có thể thành lập được mô hình, thay các giá trị x
n+1
vào thì ta có thể tính được giá trị dự đoán của mô hình.
y
i
= b
0
+ b
1
xi + e
i
Với mỗi giá trị của x
i
chúng ta sẽ tìm được các giá trị dự đoán của y
i
tương ứng luôn này trong
khoảng
2n
2
1
y
ˆ
tsY
ˆ
−
α
−
± , với sai của dựa đoán sẽ là:
2
2
1
ˆ
)1(
)(
1
x
n
ey
sn
xx
n
ss
−
−
+=
+
KIỂM ĐỊNH CHI BÌNH PHƯƠNG VỀ TÍNH PHỤ THUỘC HAY ĐỘC LẬP CỦA CÁC
BIẾN
Kiểm định giả thiết về quy luật phân phối của tổng thể
Kiểm định giả thiết về sự phân phối của tổng thể hay có thể gọi là kiểm định sự phù hợp là kiểm
định nhằm xem xét dữ liệu thu thập được phù hợp (thích hợp) đến mức nào vớ
i giả định về phân
phối của tổng thể.
154
Giả sử có mẫu ngẫu nhiên n quan sát được chia thành k nhóm khác nhau, mỗi quan sát phải và
chỉ thuộc về một nhóm thứ i nào đó (i=1,2,…,k).
Khi đó O
i
là số lượng quan sát ở nhóm thứ i, vấn đề đặt ra là ta sẽ dùng mẫu quan sát này để kiểm
định giả thiết H
0
thể hiện các xác suất p
i
để một quan sát nào đó thuộc về nhóm thứ i. Chúng ta
cần tính:
Tính số lượng quan sát thuộc về nhóm thứ i trong trường hợp giả thiết H0 đúng, nghĩa là tính các
giá trị mong muốn E
i
theo công thức: E
i
=n*p
i
Nhóm 1 2 … k
Σ
GT thực tế (O
i
)
XS theo H
0
Giá trị mong muốn (E
i
)
O
1
p
1
E
1
O
2
p
2
E
2
… O
k
p
k
E
k
n
1
n
∑
=
−
=
k
i
i
ii
df
E
EO
1
2
2
)(
χ
Tiêu chuẩn kiểm định:
Trong đó: O
i
: tần số quan sát được trong thực tế
E
i
: tần số theo lí thuyết
df = k-1: mức độ tự do trong phép kiểm định.
k : số loại tính chất hay số khoảng đã dùng phân loại tính chất
p
i
: thông số được ước định từ số liệu thu thập được.
KIỂM ĐỊNH CHI BÌNH PHƯƠNG
(kiểm định về sự phân phối tổng thể)
1. Giả thiết và đối thiết:
Giả thiết ……………….là bằng nhau
Đối thiết ………………là khác nhau
2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm Chi bình phương.
4. Tính tiêu chuẩn:
5. Điểm tới hạn và miền bác bỏ:
Là kiểm định một đuôi (df=k-1) với:
Điểm tới hạn
λ
2
df;α
Miền bác bỏ
λ
2
> λ
2
df;α
Mô hình
BB
λ
2
df;
α
∑
=
−
=
k
i
i
ii
E
EO
1
2
2
)(
χ
155
Ví dụ 1: Trong một đợt ra đề thi trắc nghiệm môn Kinh tế vi mô, người ta tin tưởng rằng
60% sinh viên tham gia thi sẽ đạt điểm đậu trên bài thi trắc nghiệm này với độ tin cậy 95%.
Chọn một cách ngẫu nhiên 200 sinh viên tham gia thi và tiến hành điều tra. Kết quả thu được có
105 sinh viên đạt và 95 sinh viên không đạt. Hỏi kết quả này có trái với kết quả mong đợi hay
không ?
Giải: Gọi p là tỉ lệ sinh viên đạt điểm đậu, khi đó 1-p là tỉ
lệ sinh viên không đạt
B1. Giả thiết và đối thiết
H
0
: p=0,6
H
1
: H
0
không đúng hay p≠0,6
Chỉ tiêu Lí thuyết Thực tế
Đạt 0,6*200 = 120 105
Không đạt 0,4*200 = 80 95
B3. Chọn phương pháp kiểm định
α
=0,05.
B3. Xác định phương pháp kiểm định: Phương pháp kiểm định sự phù hợp Chi bình phương. Vì
df= k-1= 2-1= 1 nên với độ tin cậy 95% ta có
843,3
2
05,0);1(
2
);(
==
χχ
α
df
B4. Tính tiêu chuẩn kiểm định
Minh họa bằng hình vẽ
69,481,288,1
80
)8095(
120
)120105(
22
2
=+=
−
+
−
=
df
χ
156
Kết luận: Vì 4,69 > 3,843 nên bác bỏ H
0
ở mức ý nghĩa 0,05 và kết quả thi trái với tin tưởng
của nhà soạn câu hỏi.
4,69
3,843
BB
Ví dụ 2: Để chọn một bí thư đoàn cho một trường đại học người ta đề cử 3 ứng viên và chúng
ta phải kiểm tra xem tỉ lệ các đoàn viên bỏ phiếu cho mỗi ứng viên có khác nhau hay không. Một
mẫu 150 cử tri hợp lệ được chọn ngẫu nhiên từ danh sách của trường đại học ấy.
Kết quả kiểm phiếu thu được như sau:
- Ứng viên 1: 61
- Ứng viên 2: 53
- Ứng viên 1: 36
Giả
i:
Gọi p
1
, p
2
,p
3
lần lượt là tỷ lệ phiếu bầu của các đoàn viên cho lần lượt các ứng viên.
B1. Phát biểu giả thiết và đối thiết
Giả thiết H
0
: p1= p2 =p3 =1/3
Đối thiết H
1
: Ít nhất một trong các tỷ lệ nhỏ hơn 1/3
B2. Mức ý nghĩa
α
=0,05
B3. Xác định phương pháp kiểm định: Phương pháp kiểm định sự phù hợp Chi bình phương. Vì
df= k-1= 3-1= 2 nên với độ tin cậy 95% ta có
9914,5
2
05,0,2
2
,df
=χ=χ
α
B4. Tính tiêu chuẩn kiểm định:
Nếu giả thiết H
0
đúng thì số cử tri theo lí thuyết bầu cho các ứng viên đều là 50. Khi đó:
B5. Kết luận: Vì 6,52>5,9914 nên chúng ta có thể bác bỏ H
0
tức là các đaòn viên đã bỏ phiểu
cho một ứng viên nhiều hơn ít nhất một ứng viên còn lại.
52,6
50
)5036(
50
)5053(
50
)5061(
222
2
=
−
+
−
+
−
=
χ
Kiểm định chi bình phương về tính chất độc lập hay phụ thuộc (kiểm định hàng cột hay
kiểm định mối quan hệ giữa hai biến biểu danh)
Ở trên ta xem xét trường hợp dữ liệu thu thập được xếp theo một tiêu chí hay một yếu tố. Bây giờ
chúng ta xem xét trường hợp dữ li
ệu được xếp theo hai tiêu chí, nghĩa là được phân theo hai yếu
tố có mối liên hệ hay không. Ví dụ, trong phân tích nghiên cứu tiếp thị, chúng ta thường tìm có
tồn tại hay không mối liên hệ giữa giới tính và hành vi tiêu dùng, giữa giới tính và mức độ hoàn
thành công việc, giữa tuổi tác và giới tính
157
i và cột thứ j, khi đó ta có:
ố cột -1)*(số hàng-1)
Gọi O
ij
là số lượng quan sát ứng với hàng thứ i và cột thứ j và E
ij
là số lý thuyết ứng với hàng thứ
Khi đó độ tự do sẽ là df= (s
n
c*r
E
máùucuíalåïnâäüTäøng
)
j
cäütTäøn
g
(
x
)
ihaìn
g
Täøn
g
(
E
ji
ij
ij
=
−−−−
−−−−
=
KIỂM ĐỊNH CHI BÌNH PHƯƠNG
. Giả thiết và đối thiết:
g có mối liên hệ giữa hai biến trong tổng thể
(Kiểm định mối liên hệ)
1
Giả thiết Khôn
Đối thiết Có mối liên hệ giữa hai biến trong tổng thể
2. X ức ý
)*(c-1)) với:
χ
2
df;α
ác định m nghĩa α
m Chi bình phương. 3. Phương pháp kiểm nghiệ
4. Tính tiêu chuẩn:
n và miền bác bỏ: 5. Điểm tới hạ
Là kiểm định một đuôi (df=(r-1
Điểm tới hạn
Miền bác bỏ
χ
2
χ
2
α
>
df;
∑∑
11
2
2
χ
)(
i
c
j
ij
ijij
E
EO
==
=
r
Mô hình
BB
χ
2
df;α
158
í dụ 1: Một nhà nghiên cứu thị trường muốn xác định mối tương quan có thể có giữa kích cỡ xe
Hãng chế tạo
V
ô tô và hãng sản xuất đối với các xe mới được mua trong thời gian gần đây. Một mẫu 1000 xe
mới mua trong nước đã chọn ngẫu nhiên và phân loại theo kích cỡ và hãng sản xuất. Dữ liệu thu
được:
Loại xe
A D
Tổng cột j
B C
(cj)
Nhỏ
Trung bình
157
Lớn
126
58
65
82
45
181
142
60
10
46
28
413
396
191
Tổ i) ng i (rhàng 341 192 383 84 1000
Nh hực tế sát đượ giá trị lý thuyết như sa ư vậy các giá trị t quan c và u:
Hãng chế tạo
Loại xe
A D
Tổng cột j
B C
(cj)
Nhỏ
Trung bình
157
(14
(7 9
181
(15
10
(3 9
Lớn
0,833)
126
(135,036)
58
(65,131)
65
9,2 6)
82
(76,032)
45
(36,672)
8,179)
142
(151,668)
60
(73,153)
4,6 2)
46
(33,264)
28
(16,044)
413
396
191
Tổng hàng i (ri) 1000 341 192 383 84
húng ta dùng phép kiểm định chi bình phương để so sánh giá trị qua sát được và giá trị lí thuyết
hiết và đối thiết
hân loại độc lập nhau trong tổng thể
ể
B2.
ểm định Chi bình phương về mối quan hệ giữa hai
B4. Tính tiêu chuẩn kiểm
)=(3-1)*(4-1)=6 nên
Vậ
ỡ xe và hãng sản xuất xe do khách hàng chọn lựa là những
C
với các bước sau:
B1. Phát biểu giả t
Giả thiết H
0
: Hai yếu tố dùng p
Đối thiết H
1
: Hai yếu tố dùng phân loại phụ thuộc nhau trong tổng th
Xác định mức ý nghĩa
α
=0,05.
B3. Phương pháp kiểm định: Phương pháp ki
biến.
định
B5. Kết luận : Vì df= (r-1)*(c-1
5916,12
2
05,0);6(
=χ
81,45
)(
2
2
=
−
=
∑
ij
ij
ijij
E
EO
χ
5916,1281,45
2
,0);6(
2
=χ>=χ
05
y ta bác bỏ giả thiết H
0
tức là kích c
những biến phụ thuộc lẫn nhau chứ không phải độc lập.
CÁC PHƯƠNG PHÁP KIỂM ĐỊNH PHI THAM SỐ
Kiểm định phim tham số là các loại kiểm định ít đòi hỏi các giả thiết về phân phối của dữ kiệnn.
Thông thường, kiểm định phí tham số phù hợp nhất trong các trường hợp chúng ta không thể
dùng các kiểm định tham số ví dụ dữ liệu mà chúng ta thu thập là loại dữ liệu định tính (biểu
danh hay thứ tự) hoặc khi các dữ liệu thuộc thang đo lường kho
ảng cách (interval) nhưng khi
kiểm định phân phối chuẩn không thỏa. Trong những trường hợp như vậy, chúng ta thường sử
dụng phương pháp kiểm định phi tham số. Trong phần này sẽ đề cập đến những kiểm định sau:
Kiểm định hai mẫu phụ thuộc (Dấu, Wilcoxon, Nemar)
Ở phần kiểm định tham số ta đã đề cập đến việc so sánh trung bình của hai tổng thể với giải định
tổng thể phân phối chuẩn và có phương sai bằng nhau. Khi các điều kiện này không thỏa mãn ta
thực hiện kiểm định dấu.
Ứng dụng: Dữ liệu mẫu từng cặp phối hợp, tổng thể không phân phối chuẩn và có thể phương sai
khác nhau. Việc kiểm định dấu thường được dùng khi phân tích dự liệu từ mẫu phối hợp. Tuy
nhiên, người ta ít dùng kiểm định dấu do nói không làm sáng tỏ được giá tr
ị của khác biệt, kết
quả không thuyết phục lắm nên người ta thường thực hiện kiểm định Wilcoxon.
Trường hợp mẫu nhỏ (n<30)
Cách thức thực hiện kiểm định Wilcoxon trong trường hợp mẫu nhỏ như sau:
B1. Tính các chênh lệch D=x
1
- x
2
KIỂM ĐỊNH WILCOXON
(mẫu nhỏ)
1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
1
= µ
2
H
0
: µ
1
≤ µ
2
H
0
: µ
1
≥ µ
2
Đối thiết
H
1
: µ
1
≠ µ
2
H
1
: µ
1
> µ
2
H
1
: µ
1
< µ
2
2. Xác định mức ý nghĩa σ
3. Phương pháp kiểm nghiệm Wilcoxon - Phân phối Wilcoxon.
4. Tính tiêu chuẩn:
D = x
1
- x
2
(xét dấu)
Tiêu chuẩn
W = min [Σ(+), Σ(-)]
W = min [Σ(-)]
W = min [Σ(+)]
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
W
2α
W
α
W
α
Miền bác bỏ
W < W
2α
W < W
α
W < W
α
Mô hình
BB
W
2α
BB
W
α
BB
W
α
B2. Chọn mức ý nghĩa α
B3. Phương pháp kiểm định : Phương pháp kiểm định Wilcoxon
B4. Tính tiêu chuẩn kiểm định :
- Xếp hạng giá trị tuyết đối các chênh lệch D theo thứ tự tăng dần, các giá trị bằng nhau sẽ nhận
hàng trung bình (bỏ qua các trường hợp chênh lệch bằng 0).
159
- Tính tổng cộng hạng. Giá trị W của kiểm định là: W= min [Σ(+), Σ(-)]
B5. Tham chiếu với giá trị ở bảng Wilconxon trong bảng phân phối, so sánh với giá trị kiểm định
để đưa ra kết luận.
Ví dụ: Mẫu 9 khách hàng được chọn ngẫu nhiên và yêu cầu họ cho biết sở thích của họ về hai
loại kem đánh răng A, B khác nhau thông qua một thang điểm từ 1 (rất không thích) đến 5 (rất
thích). Kết quả như sau:
KH Kem A Kem B Ch. lệch Hạng TQ Hạng (+) Hạng (-)
1 4 3 1 1,5 1,5
2 5 5 0
3 2 5 -3 5 5
4 3 2 1 1,5 1,5
5 3 5 -2 3 3
6 1 5 -4 7 7
7 3 3 0
8 2 5 -3 5 5
9 2 5 -3 5 5
3 25
Đánh giá xem có hay không mức độ ưa chuộng giữa hai loại kem đánh răng A, B với mức ý
nghĩa 5%.
B1. Giả thiết và đối thiết:
H0: Không có sự khác biệt trong mức độ ưa chuộng giữa A, B trong tổng thể
H1: Có sự khác biệt trong mức độ ưa chuộng giữa A, B trong tổng thể
B2. Lựa chọn mức ý nghĩa
α
=0,05
B3. Xác định phương pháp kiểm định : Phương pháp kiểm định Wilcoxon
B4. Tính tiêu chuẩn kiểm định: Đây là loại kiểm định dạng hai đuôi (đối xứng). Theo bảng tính ta
có: K
qs
= W = min [3,25]=3
Tra bảng phân phối của kiểm định Wilcoxon với mức ý nghĩa 5% ta có
W
2
α
=W
2*0,05
=W
0,1
= 4
Miền bác bỏ
W
2
α
=4
W=3
Vì W<W
2
α
nên ta chưa có cơ sở để bác bỏ H
0
tức là chưa có cơ sở để chứng minh có sự khác
biệt trong ưa chuộng của người tiêu dùng giữa sản phẩm A, B trong tổng thể
Trường hợp mẫu lớn (n
≥
30)
Trong trường hợp mẫu lớn, dùng phân phối chuẩn thay thế cho phân phối của kiểm định
Wilcoxon. Giá trị trung bình và phương sai của hai mẫu được tính:
160
24
)12)(1(
4
)1(
2
++
=
+
=
nnn
nn
T
T
σ
µ
KIỂM ĐỊNH WILCOXON
(mẫu lớn)
1. Giả thiết và đối thiết:
Đối xứng Phải Trái
Giả thiết
H
0
: µ
1
= µ
2
H
0
: µ
1
≤ µ
2
H
0
: µ
1
≥ µ
2
Đối thiết
H
1
: µ
1
≠ µ
2
H
1
: µ
1
> µ
2
H
1
: µ
1
< µ
2
2. Xác định mức ý nghĩa
3. Phương pháp kiểm nghiệm Wilcoxon – Tham chiếu phân phối chuẩn.
4. Tính tiêu chuẩn:
T
T
qs
T
Zk
σ
µ
−
=≡
5. Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Điểm tới hạn
U
1-α/2
U
1-α
U
1-α
Miền bác bỏ
Z <U
1-α/2
Z < -U
1-α
Z <U
1-α
Mô hình
BB
U
1-α/2
BB
-U
1-α
BB
U
1-α
Ví dụ: Công ty sản xuất dầu gội đầu nhãn hiệu P thực hiện một chiến dịch quảng cáo rầm rộ
trong mục tiêu xâm nhập thị trường ở một thành phố. Để kiểm tra xem chiến dịch quảng cáo này
có tạo ra được nhận biết về nhãn hiệu nới khách hàng hay không, trước và sau khi thực hiện
chiến dịch quảng cáo, mẫu 200 người ở mỗi địa bàn trong 50 địa bàn dân cư (phường, xã) củ
a
thành phố được chọn và yêu cầu kể tên 5 loại dầu gội đầu.
Ở từng địa bàn, trước và sau khi thực hiện chiến dịch quảng cáo, số lần dầu gội đầu nhãn hiệu P
được kể tên được ghi nhận lại. Chênh lệch về số lần dầu gội đầu nhãn hiệu P được kể tên giữa
trước và sau khi quảng cáo được tính toán, xếp hạng theo giá trị tuyệt đối của chúng (không có
chênh lệch 0). Tổng cộng hạng của các chênh lệch dương có giá trị nhỏ hơn và bằng 625. Thực
hiện kiểm định Wilcoxon, ta sẽ xem xét xem sau chiến dịch quảng cáo, dầu gội đầu nhãn hiệu P
có được khách hàng biết đến nhiều hơn trước hay không với mức ý nghĩa 5%?
Giải:
B1. Giả thiết và đối thiết
H
0
: Sự nhận biết nhãn hiệu dầu gội đầu P trước và sau chiến dịch quảng cáo là giống nhau
H
1
: Sau chiến dịch quảng cáo, dầu gội đầu nhãn hiệu P được khách hàng biết đến nhiều hơn
B2. Lựa chọn mức ý nghĩa
α
=0,05
B3. Lựa chọn phương pháp kiểm định : Kiểm định Wilcoxon với tham chiếu là tham chiếu phân
phối chuẩn (Z) vì n=50>30
B4. Tính tiêu chuẩn kiểm định
Với mẫu n=50 ta có:
161
5,673
4
)49(50
4
)1(
==
+
=
nn
T
µ
25,10731
24
101*51*50
24
)12)(1(
2
==
++
=
nnn
T
σ
Áp dung công thức:
1206,0
5917,103
5,637625
−=
−
=
−
=
T
T
T
Z
σ
µ
Ta có Z=-0,1206 < U
0,95
= 1,65 nên chúng ta chưa có cơ sử để bác bỏ giả thiết H
0
tức là
chưa có cơ sở để chấp nhận H
1
Kiểm định nhiều hơn hai mẫu phụ thuộc (Friedman, Kendall’s W, Cochran’s Q)
Thang đo lương và phương thức thực hiện tương tự như Wilcoxon như mở rộng cho nhiều hơn 2
sản phẩm, tình huống và kết quả được trình bày ở phần hướng dẫn SPSS
Kiểm định cho hai mẫu độc lập (Mann-Whitney U)
Kiểm định không yêu cầu các giả định về hình dạng của phân phối, nó được dùng để các giả thiêt
về hai mẫu độc lập có xuất phát từ hai tổng thể có phân phối có thể không giống nhau. Kiểm định
này gần giống như kiểm định wilconxon vì các biến phải có thể xếp hạng (trong kiểm định
wilcoxon ta phải xét cả dấu và hạng còn trong kiểm định Mann-Whitney U ta chỉ xét thứ hạng mà
không cần xét dấu. Tình huống và kết quả được mô tả ở phần SPSS.
Kiểm định nhiều hơn hai mẫu
độc lập (Kruskal-Wallis H)
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm k quan sát, nếu ta sắp xếp các quan sát
này thành từng nhóm mà mỗi nhóm có phân phối tuân theo quy luật phân phối chuẩn và phương
sai của chúng bằng nhau thì chúng ta có thể dùng phương pháp kiểm định tham số (ANOVA) để
phân tích.
Tuy nhiên, có một số trường hợp, mẫu không thoải mãn những điều kiện để sử dụng ANOVA thì
chúng ta sử dụng phương pháp kiểm định phi tham số vớ
i phương pháp Kruskal-Wallis.
Từ tổng thể n quan sát ta sắp xếp các hạng một cách liên tục từ nhỏ đến lớn, nếu giá trị quan sát
trùng nhau thì hạng xếp giống nhau bằng cách dùng số trung bình cộng các hạng của chúng.
Gọi R
1
, R
2
, , R
k
là tổng của các hạng được xếp theo thứ tự, khi đó từ n quan sát ta có của k
nhóm.
B1. Giả thiết và đối thiết
H
0
: µ
1
= µ
2
= = µ
k
: Tham số trung bình của k nhóm đều bằng nhau
H
1
: Tồn tại ít nhất một tham số trung bình của nhóm i khác với ít nhất một tham số trung bình
của nhóm còn lại.
B2. Xác định mức ý nghĩa α
B3. Phương pháp kiểm định Kruskal- Wallis
B4. Tiêu chuẩn kiểm định W được tính bằng
∑
=
+−
+
=≡
k
i
i
i
qs
n
n
R
nn
Wk
1
2
)1(3
)1(
12
B5. Miền bác bỏ và kết luận :
162
Trong trường hợp này chúng ta dùng phân phối Chi bình phương với bậc tự do là k-1, khi đó
chúng ta sẽ bác bỏ H
0
nếu .
2
,1k
W
α−
χ>
XỬ LÍ DỮ LIỆU CÙNG SPSS
KIỂM ĐỊNH THAM SỐ
Kiểm định t đối với tham số trung bình mẫu
Như chúng ta đã biết, thu nhập trung bình của các đối tượng phỏng vấn là 33,224 triệu/năm, có
giả thiết cho rằng thu nhập của đối tượng mà chúng ta phỏng vấn trên tổng thể là 32 triệu/năm,
chúng ta cần kết luận nhận định đó có đúng không.
Khi đó, giả thiết củ
a bài toán là:
H
0
: µ = µ
0
= 32 (triệu) và H
1
: µ ≠ µ
0
= 32 (triệu)
& Nhấn Analyze – Compare Means – One sample T test.
& Chọn biến cần phân tích vào ô Test Variable(s), đặt giá trị µ
0
vào ô Test Value.
Nhấn Option để thiết đặt độ
tin cậy
(g
iả sử đ tin cậ
y
là 95%
)
& Bấm Continue và bấm OK ở hộp hội thoại ban đầu, kết quả thu được như sau:
Descriptive Statistics
200 10750 82500 33224.00 12932.72
200
Thu nhap nam (trieu)
Valid N (listwise)
N Minimum Maximum Mean Std. Deviation
One-Sample Statistics
200 33224.00 12932.72 914.48
Thu nhap nam (trieu)
N Mean Std. Deviation Std. Error Mean
163