Mục lục
Lời nói đầu
2
1 Lý thuyết
1.1 Mẫu ngẫu nhiên, hàm phân phối mẫu và các số đặc trưng mẫu
1.1.1. Mẫu ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Hàm phân phối mẫu . . . . . . . . . . . . . . . . . . .
1.1.3. Các số đặc trưng mẫu . . . . . . . . . . . . . . . . . .
1.2 Ước lượng tham số . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1. Ước lượng điểm . . . . . . . . . . . . . . . . . . . . . .
1.2.2. Phương pháp hợp lý cực đại để tìm ước lượng . . . . .
1.2.3. Ước lượng khoảng . . . . . . . . . . . . . . . . . . . . .
1.3 Kiểm định giả thiết . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Thiết lập bài toán . . . . . . . . . . . . . . . . . . . .
1.3.2. Một số bài toán kiểm định giả thiết . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
3
3
6
6
8
9
12
12
14
Lời nói đầu
.
Trong đời sống hiện nay, thống kê đang ngày càng trở nên cần thiết và quan trọng
đối với mọi ngành kinh tế xã hội. Thống kê giúp ta phân tích các số liệu một cách
khách quan và rút ra nhiều thông tin ẩn chứa trong các số liệu đó. Thống kê học có
thể được định nghĩa một cách khái quát như là khoa học, kỹ thuật hay nghệ thuật
của việc rút ra thông tin từ dữ liệu quan sát được, phân tích, giải thích hoặc thảo
luận về một vấn đề nào đó nhằm giải quyết các bài toán từ thực tế cuộc sống. Việc
rút ra thông tin đó có thể là kiểm định một giả thiết khoa học, ước lượng một đại
lượng chưa biết hay dự đoán một sự kiện trong tương lai.
Có thể kể tên một số mục đích chính của thống kê như sau:
- Mô tả số liệu
- Ước lượng và dự đoán các đại lượng
- Kiểm định các giả thuyết
Thống kê học là ngành lớn với nhiều phương pháp khác nhau để dùng cho các tình
huống khác nhau (có người ví các phương pháp thống kê như là các cách nấu ăn, rất
đa dạng, phong phú) và có nhiều điểm cần chú ý để khỏi dẫn đến các kết luận thống
kê sai lệch (hoặc là bị mắc lừa bởi những người cố tình làm thống kê theo các phương
pháp sai lệch).
2
Chương 1
Lý thuyết
1.1
1.1.1.
Mẫu ngẫu nhiên, hàm phân phối mẫu và các số
đặc trưng mẫu
Mẫu ngẫu nhiên
Định nghĩa 1.1.1. Mẫu ngẫu nhiên là một dãy n biến ngẫu nhiên (X1 , . . . , Xn ) từ
phân phối F (x, θ), n được gọi là kích thước mẫu. Các giá trị của mẫu được ký hiệu
bằng chữ thường x1 , . . . , xn . Về mặt hình học, một mẫu (X1 , . . . , Xn ) được xem như
một điểm trong không gian Rn chiều. Không gian Rn được gọi là không gian mẫu.
Ví dụ 1.1.1. Để đo một đại lượng chưa biết θ nào đó, ta tiến hành n thí nghiệm. Kết
quả của n thí nghiệm này được đặc trưng bởi dãy n biến ngẫu nhiên X1 , X2 , . . . , Xn
mà phân phối đồng thời là F (x1 , . . . , xn , θ) phụ thuộc vào tham số θ.
(X1 , X2 , . . . , Xn ) được gọi là một mẫu ngẫu nhiên từ phân phối F (x, θ).
1.1.2.
Hàm phân phối mẫu
Cho mẫu ngẫu nhiên (X1 , X2 , . . . , Xn ) từ phân phối F (x) hoặc F (x, θ).
Định nghĩa 1.1.2. Hàm phân phối mẫu (hay hàm phân phối thực nghiệm) là tỷ số
m
, trong đó n là kích thước mẫu, m là số giá trị mẫu Xi < x; x ∈ R và ký hiệu:
n
m
Fn (x) = , x ∈ R.
n
1.1.3.
Các số đặc trưng mẫu
a) Trung bình mẫu
¯ = X1 + X2 + · · · + Xn được gọi là trung bình mẫu.
Định nghĩa 1.1.3. X
n
3
Chương 1. Lý thuyết
4
i) Nếu mẫu ngẫu nhiên cho dưới dạng:
Xi
ni
X1
n1
X2
n2
Xk
nk
...
...
Thì trung bình mẫu được tính theo công thức:
¯ = n1 X 1 + n2 X2 + · · · + nk X k .
X
n1 + n2 + · · · + nk
ii) Nếu mẫu ngẫu nhiên cho dưới dạng khoảng thì trung bình mẫu được tính theo
công thức:
n1 X1∗ + n2 X2∗ + · · · + nk Xk∗
¯
X =
.
n1 + n2 + · · · + nk
Xi + Xi+1
.
2
Xi là mút trái của khoảng thứ i;
Xi+1 là mút phải của khoảng thứ i.
Trong đó: Xi∗ =
b) Phương sai mẫu
∗ Công thức tính phương sai mẫu:
Sn2 (X)
1
=
n
n
i=1 (Xi
¯ 2= 1
− X)
n
n
i=1
Xi2
¯2 = 1
−X
n
n
i=1
Xi2
−
(
n
i=1
n
Xi ) 2
.
∗ Phương sai mẫu hiệu chỉnh:
Sn∗ 2 (X) =
1
n−1
n
i=1 (Xi
¯ 2.
− X)
∗ Trong trường hợp mẫu ngẫu nhiên cho dưới dạng khoảng thì phương sai mẫu
được tính theo công thức:
Sn∗ 2 (X)
1
=
n−1
n
¯ 2 ].
[ni (Xi∗ − X)
i=1
Chương 1. Lý thuyết
5
c) Hệ số tương quan mẫu
Cho mẫu ngẫu nhiên (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) đối với cặp biến ngẫu nhiên
(X, Y).
Hệ số tương quan mẫu của (X, Y ) được tính theo công thức:
1
r= n
=
[n
n
i=1 (Xi
¯ i − Y¯ )
− X)(Y
Sn (X)Sn (Y )
n ni=1 Xi Yi − ( ni=1 Xi )( ni=1 Yi )
n
n
n
2
2
2
i=1 Xi − (
i=1 Xi ) ][n
i=1 Yi − (
n
i=1
Yi )2 ]
.
d) Mômen mẫu
- Mômen gốc mẫu bậc k của đại lượng ngẫu nhiên X được định nghĩa như
sau:
s
k
1 n
i=1 ni Xi
k
X
=
.
mk =
s
n i=1 i
i=1 ni
- Mômen trung tâm mẫu bậc k của đại lượng ngẫu nhiên X :
1
ak =
n
n
i=1 (Xi
¯ k=
− X)
s
i=1
¯ k
ni (Xi − X)
.
s
i=1 ni
e) Mod
Nếu số liệu được cho dưới dạng khoảng thì công thức tính mod mẫu là:
xmod = AM o + h ×
nM o − nM o−1
,
2nM o − nM o−1 − nM o+1
trong đó : AM o là mút trái của khoảng mod ;
h là khoảng cách giữa các quan sát Xi ;
nM o là số lần xuất hiện khoảng mod ;
nM o−1 là số lần xuất hiện của khoảng trước khoảng mod ;
nM o+1 là số lần xuất hiện của khoảng sau khoảng mod.
Nếu số liệu sắp xếp theo các giá trị khác nhau của các Xi thì xmod chính là
giá trị của X mà tần suất xuất hiện giá trị đó là lớn nhất.
Chương 1. Lý thuyết
6
f) Trung vị mẫu
Nếu mẫu ngẫu nhiên cho dưới dạng (X1 , X2 , . . . , Xn ), thì ta sắp xếp các quan sát
Xi , i =1, n , theo thứ tự tăng dần:
X (1) < X (2) < · · · < X (q−1) < X (q) < X (q+1) < · · · < X (n) .
i) Nếu n là số chẵn, tức là n = 2q thì trung vị là:
XM e =
X (q) + X (q+1)
.
2
ii) Nếu n là số lẻ, tức là n = 2q − 1 thì:
XM e = X (q) .
Nếu mẫu quan sát được cho dưới dạng khoảng thì số trung vị được tính theo công
thức:
xM e
n
− mM e
= AM e + h × 2
;
nM e
trong đó : AM e là đầu mút trái của khoảng trung vị ;
h là khoảng cách giữa các quan sát Xi ;
nM e là số lần xuất hiện khoảng trung vị ;
mM e là số lần xuất hiện các khoảng trước khoảng trung vị.
1.2
1.2.1.
Ước lượng tham số
Ước lượng điểm
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối f (x, θ), tham số θ ∈ U .
a) Ước lượng điểm
Định nghĩa 1.2.1. Ước lượng điểm của tham số θ là đại lượng ngẫu nhiên
Tn (X) = ϕ(X1 , X2 , . . . , Xn ) chỉ phụ thuộc vào các quan sát Xi và không phụ thuộc
vào tham số θ.
Chương 1. Lý thuyết
7
Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn
dạng N (a; σ 2 ).
¯ = 1 n Xi là ước lượng điểm của kỳ vọng a. Ta thấy
X
n i=1
¯ không có mặt a mà chỉ chứa các X1 , . . . , Xn .
trong biểu thức của X
∗ Đại lượng
1 n
1
n
∗2
¯ 2
¯ 2
(Xi − X)
i=1 (Xi − X) hoặc Sn (X) =
n
n − 1 i=1
là các ước lượng điểm của σ 2 . Ta thấy trong các biểu thức của Sn2 (X), Sn∗ 2 (X)
không có mặt σ 2 , mà chỉ có các quan sát X1 , X2 , . . . , Xn .
∗ Đại lượng Sn2 (X) =
b) Ước lượng không chệch
Định nghĩa 1.2.2. Ước lượng Tn được gọi là ước lượng không chệch của tham số θ
nếu ETn = θ.
¯ = 1
Ví dụ 1.2.2. X
n
n
i=1
Xi là ước lượng không chệch của a.
Sn∗ 2 (X) là ước lượng không chệch của σ 2 .
c) Ước lượng vững
Định nghĩa 1.2.3. Ước lượng Tn của tham số θ được gọi là ước lượng vững của tham
p
số θ nếu Tn →
−
θ theo xác suất khi n → ∞ , nghĩa là với ε > 0 cho trước tùy ý có:
lim P [|Tn − θ| < ε] = 1.
n→∞
Ví dụ 1.2.3. - Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn
n
1
2
¯
dạng N (a; σ ), X =
Xi là ước lượng vững của a.
n i=1
- Giả sử k là số lần xuất hiện biến cố A trong dãy n phép thử Bernoulli.
P(A) là xác suất xuất hiện biến cố A trong mọi phép thử, không đổi và bằng p. Khi
k
đó : là ước lượng vững của p.
n
Chương 1. Lý thuyết
8
d) Ước lượng không chệch tốt nhất
Định nghĩa 1.2.4. Ước lượng Tn của tham số θ được gọi là ước lượng không chệch
tốt nhất nếu :
+ E(Tn ) = θ
+ DTn ≤ DTˆn với Tˆn là ước lượng không chệch bất kỳ của θ.
1.2.2.
Phương pháp hợp lý cực đại để tìm ước lượng
Định nghĩa 1.2.5. (Hàm hợp lý)
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối f (x, θ), θ ∈ U.
Gọi tích L(X/ θ) = f (X1 , θ)f (X2 , θ). . . f (Xn , θ) là hàm hợp lý.
Định nghĩa 1.2.6. (Ước lượng hợp lý cực đại)
Ước lượng θˆ (X1 , X2 , . . . , Xn ) được gọi là ước lượng hợp lý cực đại của tham số θ nếu
ˆ
L(X/ θ(X))
≥ L(X/ θ) với mọi θ ∈ U.
Phương pháp tìm ước lượng :
ˆ
ˆ
Tìm giá trị θ(X)
của θ sao cho L(X/θ) đạt cực đại tại θ(X).
Trường hợp θ là một số:
Ta tìm:
∂L(X/θ)
= 0.
∂θ
(1)
ˆ Sau đó xét dấu của L hoặc L θ xem θˆ có phải là
Giải phương trình (1) ta tìm được θ.
θ
θ
điểm để L(X/θ) đạt cực đại hay không. Nếu tại θˆ mà L(X/ θ) đạt cực đại thì θˆ là ước
lượng phải tìm. Nếu f (x, θ) > 0 thì L(X/θ) > 0. Ta có thể viết:
1 ∂L
∂lnL
.
=0⇔
=0⇔
L ∂θ
∂θ
n
i=1
∂lnf (Xi , θ)
= 0.
∂θ
(2)
ˆ
Giải phương trình (2) ta được θ(X).
Lý luận tương tự trên ta nhận được ước lượng
phải tìm.
Trường hợp θ = (θ1 , θ2 , . . . , θr ):
Tương tự như trường hợp tham số là một số. Ở đây có r ẩn, do đó ta phải lập được
hệ r phương trình:
∂L
=0
∂θ1
...
∂L
=0
∂θr
Chương 1. Lý thuyết
9
Giải hệ này ta tìm được θˆ = (θˆ1 , . . . , θˆr ) thường hay gặp hàm mật độ có dạng hàm
mũ. Dó đó đạo hàm của hàm mũ lũy thừa vẫn còn dạng hàm số mũ.
Việc giải phương trình có chứa hàm số mũ thường phức tạp. Vì vậy, giống như trường
hợp tham số là một số, ta cũng nhận được hệ r phương trình:
∂lnf (Xi , θ1 , θ2 , . . . , θr )
n
=0
i=1
∂θ1
...
n ∂lnf (Xi , θ) = 0
i=1
∂θr
ˆ
Giải hệ này ta tìm được θ(X)
= (θˆ1 (X), . . . , θˆr (X)).
1.2.3.
Ước lượng khoảng
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối f (x, θ), θ ∈ U.
Định nghĩa 1.2.7. Khoảng ( θˆ1 (X1 , . . . , Xn ); θˆ2 (X1 , . . . , Xn )), (θˆ1 < θˆ2 ), được gọi là
khoảng ước lượng của tham số θ với độ tin cậy 1 - α nếu:
P[θˆ1 (X) < θ < θˆ2 (X)] = 1 - α .
a) Khoảng ước lượng của kỳ vọng a
Bài toán :
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn dạng N (a; σ 2 ). Tìm
khoảng ước lượng của a với độ tin cậy 1 - α.
Giải :
Trường hợp σ đã biết:
√
¯ −a
X
ε n
¯ − a|< ε] = P
Xét xác suất P[|X
<
σ
= 1 - α.
σ
√
n
¯ −a
σ2
X
¯
Vì X có sự phân phối chuẩn dạng N a;
nên σ có phân phối chuẩn dạng
n
√
n
√
ε n
N (0; 1). Đặt xα =
, ta có:
σ
¯ − a|√n
|
X
¯ − a| < ε] = P
P[|X
< xα = 2Φ(xα ) - 1 = 1 - α.
σ
Chương 1. Lý thuyết
Vậy Φ(xα ) = 1 -
10
α
. Từ đây ta tìm xα bằng cách tra bảng giá trị hàm phân phối chuẩn
2
N (0; 1).
¯ − a)√n|
|(X
Giải
< xα , ta nhận được:
σ
¯ + xα √σ .
¯ − xα √σ < a < X
X
n
n
¯ ± xα √σ .
hoặc có thể viết: a = X
n
Đây là khoảng ước lượng phải tìm.
Trường hợp σ chưa biết:
¯ − a| < ε] = 1 - α.
Ta cũng xét xác suất P[|X
√
¯ − a)√n|
n
|(
X
ε
¯ − a| < ε] = P
Ta có P[|X
<
t
=
1
α,
trong
đó:
t
=
.
α
α
∗ (X)
∗ (X)
S
S
n
n
¯ − a)√n
(X
có phân phối Student với n − 1 bậc tự do.
Đại lượng
Sn∗√
(X)
¯ − a| n
|X
Vậy P
< tα = 2ϕ(t, n − 1) – 1 = 1 - α.
Sn∗ (X)
α
Vậy ϕ(t, n − 1) = 1 - . Từ đây ta tìm tα bằng cách tra bảng phân phối Student với
2
n − 1 bậc tự do và √
mức ý nghĩa α (bảng tiêu chuẩn hai phía). Theo định lý giới hạn
¯ − a) n
(X
trung tâm
có phân phối tiệm cận là phân phối chuẩn N (0; 1). Vì vậy với
Sn∗ (X)
n khá lớn, n > 30, ta có thể tra ở bảng phân phối chuẩn N(0; 1) sao cho
α
Φ(tα ) = 1 - .
2
¯ − a)√n|
|(X
< tα ta được:
Giải
Sn∗ (X)
∗
∗
¯ − tα S√n (X) < a < X
¯ + tα S√n (X) .
X
n
n
∗
¯ ± tα Sn√(X) với S∗n 2 (X) = 1
hoặc viết: a = X
n−1
n
n
¯ 2.
(Xi − X)
i=1
i) Nếu n ≥ 30 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
α
Φ(tα ) = 1 - .
2
ii) Nếu n < 30 thì tα tra ở bảng phân phối Student với n − 1 bậc tự do và mức
ý nghĩa α( bảng tiêu chuẩn hai phía).
b) Khoảng ước lượng của phương sai σ 2 trong mẫu từ phân phối chuẩn
Người ta tìm được khoảng ước lượng của phương sai σ 2 với độ tin cậy 1 - α là:
Chương 1. Lý thuyết
11
(n − 1)Sn∗ 2 (X)
(n − 1)Sn∗ 2 (X)
< σ2 <
t2
t1
trong đó: t1 , t2 tra trong bảng phân phối χ2 với n − 1 bậc tự do sao cho
α
,
2
1
S∗n 2 (X) =
n−1
P[χ2 > t2 ] =
P[χ2 > t1 ] = 1 -
n
α
,
2
¯ 2.
(Xi − X)
i=1
c) Khoảng ước lượng của hiệu hai trung bình của hai mẫu độc lập từ phân
phối chuẩn
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng
N (a1 ; σ12 ) và (Y1 , Y2 , . . . , Ym ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng
N (a2 ; σ22 ).
X, Y là độc lập. Người ta tìm khoảng ước lượng của hiệu hai kỳ vọng a1 − a2 như sau:
Trường hợp σ1 , σ2 đã biết:
Khoảng ước lượng của hiệu 2 trung bình a1 − a2 với độ tin cậy 1 - α là:
¯ − Y¯ ± xα
a1 − a2 = X
σ12 σ22
+ ,
n
m
với xα tra ở bảng phân phối chuẩn N (0; 1) sao cho Φ(xα ) = 1 -
α
.
2
Trường hợp DX, DY chưa biết, ta phải giả thiết DX = DY.
Khi đó khoảng ước lượng của hiệu hai trung bình a1 − a2 với độ tin cậy 1 - α là :
1
1
+
n m
m
n
2
(
i=1 Xi )
+
Yi2 −
n
i=1
¯ − Y¯ ± tα S
a1 − a2 = X
1
trong đó: S =
n+m−2
n
Xi2
2
i=1
−
(
m
i=1
Yi )2
m
i) Nếu n + m ≤ 60 thì tα tra ở bảng phân phối Student với n + m − 2 bậc tự
do và mức ý nghĩa α( bảng tiêu chuẩn hai phía).
ii) Nếu n + m > 60 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
α
Φ(tα ) = 1 - .
2
Chương 1. Lý thuyết
12
d) Khoảng ước lượng của xác suất p trong phân phối nhị thức
k
−p <ε = P
n
n
.
p(1 − p)
Xét xác suất P
Đặt xα = ε
k − np
np(1 − p)
<ε×
n
p(1 − p)
= 1 - α.
k − np
< xα ≈ Φ(xα ) (Định lý giới hạn trung tâm của Laplace),
np(1 − p)
Φ(xα ) là hàm phân phối chuẩn N (0; 1).
k − np
Vậy P
< xα ≈ 2Φ(xα ) − 1 = 1− α.
np(1 − p)
α
Ta suy ra Φ(xα ) = 1 - . Vậy xα tra ở bảng phân phối chuẩn N (0; 1) sao cho
2
α
k
Φ(xα ) = 1 - . Thay p trong np(1 − p) bằng tần suất pˆ = và giải
2
n
k − np
< xα ta nhận được:
nˆ
p(1 − pˆ)
Ta biết P
pˆ − xα
pˆ(1 − pˆ)
< p < pˆ + xα
n
pˆ(1 − pˆ)
.
n
e) Khoảng ước lượng của hiệu hai xác suất trong hai dãy phép thử
Bernoulli
Xét hai dãy phép thử Bernoulli.
Dãy thứ nhất có n phép thử; xác suất để biến cố A xuất hiện trong mỗi phép thử của
dãy I là P(A) = p1 ; X là số lần xuất hiện biến cố A trong dãy I.
Dãy thứ hai có m phép thử; xác suất để biến cố A xuất hiện trong mỗi phép thử của
dãy II là P(A) = p2 ; Y là số lần xuất hiện biến cố A trong dãy II.
Người ta tìm được khoảng ước lượng của hiệu hai xác suất p1 − p2 với độ tin cậy
1 - α là:
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
+
< p1 −p2 < pˆ1 − pˆ2 +xα
+
pˆ1 − pˆ2 −xα
n
m
n
m
1.3
1.3.1.
Kiểm định giả thiết
Thiết lập bài toán
- Giả thiết thống kê: Giả sử đại lượng ngẫu nhiên X có phân phối F (x) hoặc
F (x, θ), θ ∈ U.
Những giả thiết về phân phối F (x) gọi là giả thiết thống kê, ký hiệu: H0 .
Chương 1. Lý thuyết
13
Những giả thiết cũng về phân phối F (x) nhưng khác với giả thiết H0 được
gọi là đối thiết (hoặc giả thiết chọn), ký hiệu là K.
Khi phân phối F (x, θ) phụ thuộc vào tham số θ thì những giả thiết về phân
phối F (x, θ) được chuyển sang giả thiết về tham số θ.
- Kiểm định giả thiết thống kê: là việc chọn một trong hai quyết định bác bỏ
giả thiết H0 hoặc chấp nhận giả thiết H0 .
- Tiêu chuẩn kiểm định giả thiết: Để có được quyết định chấp nhận hoặc bác
bỏ giả thiết H0 ta phải dựa trên một tiêu chuẩn nào đó. Vậy tiêu chuẩn
kiểm định giả thiết được hiểu như sau:
Tiêu chuẩn kiểm định giả thiết là một đại lượng ngẫu nhiên Z phụ thuộc
vào các quan sát X1 , X2 , . . . , Xn và không phụ thuộc tham số θ, nghĩa là
Z = Z(X1 , X2 , . . . , Xn ) xác định trên không gian mẫu Rn , nhờ nó ta có
thể kiểm định được giả thiết. Vì Z(X) xác định trên không gian mẫu Rn
nên Rn được chia thành hai bộ phận. Một bộ phận W của Rn mà mẫu
(X1 , X2 , . . . , Xn ) rơi vào đó thì ta bác bỏ giả thiết H0 . W được gọi là miền
tiêu chuẩn.
Vậy miền tiêu chuẩn W là bộ phận của Rn mà ta bác bỏ giả thiết.
- Tiêu chuẩn kiểm định giả thiết thể hiện ở một trong ba dạng sau:
Đặt X = (X1 , X2 , . . . , Xn )
[X ∈ W] ⇔ Z(X) > Cu bác bỏ giả thiết H0 .
[X ∈ W] ⇔ Z(X) < Cv bác bỏ giả thiết H0 .
[X ∈ W] ⇔ Z(X) > Cu hoặc Z(X) < Cv bác bỏ giả thiết H0 .
Cu , Cv được gọi là điểm tiêu chuẩn, Cu có thể là +∞, Cv có thể là -∞.
Hai tiêu chuẩn đầu được gọi là tiêu chuẩn 1 phía(có 1 điểm tiêu chuẩn).
Tiêu chuẩn thứ ba được gọi là tiêu chuẩn 2 phía.
∗ Muốn tìm miền tiêu chuẩn W hay tiêu chuẩn thống kê Z(X) ta dựa trên
hai loại sai lầm sau :
- Sai lầm loại I : Nếu giả thiết H0 là giả thiết đúng mà bác bỏ H0 thì ta mắc
sai lầm. Sai lầm đó được gọi là sai lầm loại I. P[W/H0 đúng] là xác suất
mắc sai lầm loại I.
- Sai lầm loại II : Nếu giả thiết H0 là giả thiết sai mà chấp nhận H0 thì cũng
mắc sai lầm. Sai lầm đó được gọi là sai lầm loại II. P[Rn - W/H0 sai] là xác
suất mắc sai lầm loại II.
Để tìm tiêu chuẩn kiểm định giả thiết ta phải đồng thời hạn chế tới mức
tối thiểu khả năng mắc hai loại sai lầm trên, nghĩa là ta phải đồng thời cực
tiểu hóa các xác suất sai lầm loại I và loại II.
Chương 1. Lý thuyết
1.3.2.
14
Một số bài toán kiểm định giả thiết
a) Kiểm định về xác suất p trong phân phối nhị thức (tỷ lệ phần trăm)
Bài toán:
Giả sử trong dãy n phép thử Bernoulli biến cố A xuất hiện X lần. Gọi p = P (A) là
xác suất để A xuất hiện trong mỗi phép thử.
H0 : p = p0
Kiểm định giả thiết
ở mức α.
K : p = p0
Giải:
Người ta tìm được tiêu chuẩn để kiểm định giả thiết H0 với đối thiết K và tiêu chuẩn
này được phát biểu như sau:
Giả thiết H0 bị bác bỏ ở mức α nếu:
|Z| =
|X − np0 |
np0 (1 − p0 )
> xα .
Còn |Z| < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối
α
chuẩn N(0; 1) sao cho Φ(xα ) = 1 - .
2
* Tiêu chuẩn 1 phía:
X
Nếu tần suất
> p0 .
n
H0 : p ≤ p0
ở mức α.
Ta đi đến kiểm định giả thiết
K : p > p0
Giải:
Tiêu chuẩn này được phát biểu như sau:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
X − np0
np0 (1 − p0 )
> xα .
Còn Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối chuẩn
N (0; 1) sao cho Φ(xα ) = 1 - α.
X
< p0 .
Nếu tần suất
n
H0 : p ≥ p0
Ta đi đến kiểm định giả thiết
ở mức α.
K : p < p0
Ta tìm được tiêu chuẩn để kiểm định giả thiết này như sau:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
np0 − X
np0 (1 − p0 )
> xα
Còn Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1) sao cho
Φ(xα ) = 1 - α.
Chương 1. Lý thuyết
15
b) So sánh hai xác suất trong phân phối nhị thức
Tiêu chuẩn này chủ yếu áp dụng giải các bài toán so sánh tỷ lệ xuất hiện đặc tính A
của các cá thể trong hai đám đông khác nhau.
Bài toán: Xét hai dãy phép thử Bernoulli.
Dãy I có n phép thử, X là số lần xuất hiện biến cố A trong dãy I, P(A) = p1 là xác
suất để biến cố A xuất hiện trong mỗi phép thử của dãy I.
Dãy II có m phép thử , Y là số lần xuất hiện biến cố A trong dãy II, xác suất để biến
cố A xuất hiện trong mỗi phép thử của dãy II là P(A) = p2 .
Hãy so sánh hai xác suất p1 , p2 ở mức α.
Ta đưa về kiểm định giả thiết:
H0 : p1 = p2
ở mức α.
K : p1 = p2
Giải:
Người ta chứng minh được rằng: tồn tại tiêu chuẩn để kiểm định giả thiết
H0 : p1 = p2
ở mức α.
K : p1 = p2
Tiêu chuẩn này được phát biểu như sau:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Y
X
−
n
m
|Z| =
1
1
+
n m
X +Y
n+m
> xα .
1−
X +Y
n+m
Còn nếu |Z| < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1)
α
sao cho Φ(xα ) = 1 - .
2
* Tiêu chuẩn 1 phía:
X
Y
Nếu
>
thì đưa về bài toán kiểm định giả thiết:
n
m
H0 : p1 ≤ p2
ở mức α.
K : p1 > p2
Giải:
Người ta chứng minh được rằng tồn tại tiêu chuẩn để kiểm định giả thiết
H0 : p1 ≤ p2
và tiêu chuẩn này được phát biểu dưới dạng:
K : p1 > p2
Giả thiết H0 bác bỏ ở mức α nếu:
Chương 1. Lý thuyết
16
Z=
1
1
+
n m
X
Y
−
n
m
X +Y
n+m
> xα .
X +Y
1−
n+m
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối
chuẩn N (0; 1) sao cho Φ(xα ) = 1 - α.
Y
X
<
thì đưa về bài toán kiểm định giả thiết:
Nếu
n
m
H0 : p1 ≥ p2
ở mức α.
K : p1 < p2
Tương tự như phần trên, người ta cũng chỉ ra được rằng tồn tại tiêu chuẩn để kiểm
H0 : p1 ≥ p2
định giả thiết
và tiêu chuẩn này được phát biểu dưới dạng:
K : p1 < p2
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
1
1
+
n m
Y
X
−
m
n
X +Y
n+m
> xα .
X +Y
1−
n+m
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối
chuẩn N (0; 1) sao cho Φ(xα ) = 1 - α.
c) Kiểm định về trung bình
Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng N (a; σ 2 ).
H0 : a = a0
Kiểm định giả thiết
ở mức α.
K : a = a0
Giải:
Người ta chứng minh được rằng: tồn tại tiêu chuẩn để kiểm định giả thiết
H0 : a = a0
ở mức α và tiêu chuẩn này được phát biểu dưới dạng:
K : a = a0
Trường hợp σ đã biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ − a0 |√n
|X
|Z| =
> xα .
σ
Chương 1. Lý thuyết
17
Còn nếu |Z| < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối
α
chuẩn N (0; 1) sao cho Φ(xα ) = 1 - .
2
Trường hợp σ chưa biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ − a0 |√n
|X
|Z| =
> tα .
Sn∗ (X)
Còn nếu |Z| < tα thì chấp nhận H0 , trong đó: Sn∗ 2 (X) =
1
n−1
n
i=1 (Xi
¯ 2 , còn tα
− X)
thì tra bảng như sau:
i) Nếu n ≤ 30 thì tα tra ở bảng phân phối Student với n − 1 bậc tự do và mức
ý nghĩa α (bảng tiêu chuẩn hai phía).
ii) Nếu n > 30 thì tα tra ở bảng giá trị hàm phân phối chuẩn N (0; 1) sao cho
α
Φ(tα ) = 1 - .
2
* Tiêu chuẩn 1 phía:
¯ > a0 thì ta đưa đến bài toán kiểm định giả thiết:
Nếu X
H0 : a ≤ a0
ở mức α.
K : a > a0
Người ta chứng minh được rằng: tồn tại tiêu chuẩn để kiểm định giả thiết này và tiêu
chuẩn này được phát biểu dưới dạng:
Trường hợp σ đã biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ − a0 )√n
(X
Z=
> xα .
σ
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng giá trị của hàm phân phối
chuẩn N (0; 1) sao cho Φ(xα ) = 1 - α.
Trường hợp σ chưa biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ − a0 )√n
(X
Z=
> tα .
Sn∗ (X)
Còn nếu Z < tα thì chấp nhận H0 , trong đó Sn∗ 2 (X) =
thì tra bảng như sau:
1
n−1
n
i=1 (Xi
¯ 2 , còn tα
− X)
Chương 1. Lý thuyết
18
i) Nếu n ≤ 30 thì tα tra ở bảng giá trị tiêu chuẩn Student với n − 1 bậc tự do
và mức ý nghĩa α (bảng tiêu chuẩn 1 phía).
ii) Nếu n > 30 thì tα tra ở bảng giá trị hàm phân phối chuẩn N (0; 1) sao cho
Φ(tα ) = 1 - α.
¯ < a0 thì ta đưa đến bài toán kiểm định giả thiết:
Nếu X
H0 : a ≥ a0
ở mức α.
K : a < a0
Tương tự như trường hợp trên, người ta cũng chứng minh được rằng: tồn tại tiêu
chuẩn để kiểm định giả thiết và tiêu chuẩn này được phát biểu dưới dạng:
Trường hợp σ đã biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ √n
(a0 − X)
> xα
Z=
σ
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1)
sao cho Φ(xα ) = 1 - α.
Trường hợp σ chưa biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
¯ √n
(a0 − X)
Z=
> tα
Sn∗ (X)
Còn nếu Z < tα thì chấp nhận H0 , trong đó tα thì tra như sau:
i) Nếu n ≤ 30 thì tα tra ở bảng giá trị tiêu chuẩn Student với n − 1 bậc tự do
và mức ý nghĩa α (bảng tiêu chuẩn 1 phía).
ii) Nếu n > 30 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
Φ(tα ) = 1 - α.
d) So sánh trung bình của hai mẫu độc lập
Ta cần nghiên cứu một tính trạng X của các cá thể trong hai đám đông. Ta chọn mẫu
(X1 , X2 , . . . , Xn ) từ đám đông I và một mẫu (Y1 , Y2 , . . . , Ym ) từ đám đông II. Giả sử
hai mẫu này độc lập và có phân phối chuẩn dạng tổng quát tương ứng N (a1 , σ12 ) và
N (a2 , σ22 ), tức là EX = a1 , EY = a2 , DX = σ12 , DY = σ22 .
H0 : a1 = a2
Kiểm định giả thiết
ở mức α.
K : a1 = a2
Giải:
Chương 1. Lý thuyết
19
Người ta chứng minh được rằng: tồn tại tiêu chuẩn để kiểm định giả thiết này và tiêu
chuẩn này được phát biểu dưới dạng:
Trường hợp phương sai DX, DY đã biết:
Giả thiết H0 bị bác bỏ ở mức α nếu:
|Z| =
¯ − Y¯ |
|X
σ12 σ22
+
n
m
> xα .
Còn nếu |Z| < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1)
α
sao cho Φ(xα ) = 1 - .
2
Trường hợp DX, DY chưa biết, ta phải giả thiết DX = DY:
Giả thiết H0 bị bác bỏ ở mức α nếu:
|Z| =
¯ − Y¯ |
|X
> tα .
1
1
S
+
n m
(*)
Còn nếu |Z| < tα thì chấp nhận H0 , trong đó:
1
m
n
¯ 2
¯ 2
S2 =
i=1 (Yi − Y ) , tα thì tra bảng như sau:
i=1 (Xi − X) +
n+m−2
i) Nếu n + m ≤ 60 thì tα tra ở bảng phân phối Student với n + m − 2 bậc tự
do và mức ý nghĩa α(bảng tiêu chuẩn hai phía).
ii) Nếu n + m > 60 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
α
Φ(tα ) = 1 - .
2
* Tiêu chuẩn 1 phía:
¯ < Y¯ thì ta đưa về bài toán kiểm định giả thiết:
Nếu X
H0 : a1 ≥ a2
ở mức α.
K : a1 < a2
Trường hợp σ12 , σ22 đã cho:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
¯
Y¯ − X
σ12 σ22
+
n
m
> xα .
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1)
sao cho Φ(xα ) = 1 - α.
Trường hợp σ12 , σ22 chưa biết, ta phải giả thiết σ12 = σ22 :
Giả thiết H0 bị bác bỏ ở mức α nếu:
Chương 1. Lý thuyết
20
Z=
¯
Y¯ − X
> tα .
1
1
S
+
n m
Còn nếu Z < tα thì chấp nhận H0 , trong đó tα thì tra bảng như sau:
i) Nếu n + m ≤ 60 thì tα tra ở bảng phân phối Student với n + m − 2 bậc tự
do và mức ý nghĩa α (bảng tiêu chuẩn 1 phía).
ii) Nếu n + m > 60 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
Φ(tα ) = 1 - α.
¯ > Y¯ thì ta đưa về bài toán kiểm định giả thiết:
Nếu X
H0 : a1 ≤ a2
ở mức α.
K : a1 > a2
Trường hợp σ12 , σ22 đã cho:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
¯ − Y¯
X
σ12 σ22
+
n
m
> xα .
Còn nếu Z < xα thì chấp nhận H0 , trong đó xα tra ở bảng phân phối chuẩn N (0; 1)
sao cho Φ(xα ) = 1 - α.
Trường hợp σ12 , σ22 chưa biết, ta phải giả thiết σ12 = σ22 :
Giả thiết Ho bị bác bỏ ở mức α nếu:
Z=
¯ − Y¯
X
> tα .
1
1
S
+
n m
Còn nếu Z < tα thì chấp nhận H0 , trong đó tα thì tra bảng như sau:
i) Nếu n + m ≤ 60 thì tα tra ở bảng phân phối Student với n + m − 2 bậc tự
do và mức ý nghĩa α (bảng tiêu chuẩn 1 phía).
ii) Nếu n + m > 60 thì tα tra ở bảng phân phối chuẩn N (0; 1) sao cho
Φ(tα ) = 1 - α.
Chú ý:
Khi nhận được các kết quả thí nghiệm là hai mẫu ngẫu nhiên độc lập (X1 , X2 , . . . , Xn )
và (Y1 , Y2 , . . . , Ym ) từ phân phối chuẩn, nhưng chưa biết gì về phương sai DX, DY; để
so sánh được sự bằng nhau của hai trung bình EX, EY bằng tiêu chuẩn (*) ta phải
xét xem hai phương sai DX, DY có bằng nhau hay không. Muốn vậy ta phải giải bài
Chương 1. Lý thuyết
21
toán kiểm định giả thiết
H0 : DX = DY
K : DX = DY
ở mức α.
Giải:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
Trong đó: fbảng (
Sn∗ 2 (X)
α
> fbảng ( , n − 1, m − 1).
∗
Sm (Y )
2
α
, n − 1, m − 1) tra ở bảng phân phối F với n − 1, m − 1 bậc tự do và
2
mức α.
e) So sánh hai trung bình của 2 mẫu phụ thuộc từ phân phối chuẩn
Giả sử (X1 , X2 , . . . , Xn ) và (Y1 , Y2 , . . . , Ym ) là hai mẫu ngẫu nhiên từ phân phối chuẩn.
X, Y là phụ thuộc. Hãy so sánh hai trung bình EX và EY ở mức α.
H0 : EX = EY
Ta đưa về bài toán kiểm định giả thiết
ở mức α.
K : EX = EY
Ta giải bài toán theo các bước sau:
Tính các di = Xi − Yi , i =1, n.
n
( ni=1 di )2
1 n
1
1
n
2
2
2
¯
¯
d=
di và Sd =
(di − d) =
.
i=1 di −
n i=1
n − 1 i=1
n−1
n
Kết luận:
Giả thiết H0 bị bác bỏ ở mức α nếu:
√
|d¯ n|
> tα .
|Z| =
Sd
Còn nếu |Z| < tα thì chấp nhận H0 , trong đó tα tra ở bảng phân phối Student với n − 1
bậc tự do và mức ý nghĩa α (bảng tiêu chuẩn 2 phía).
f) Tiêu chuẩn χ2 (khi bình phương) kiểm định về phân phối
Giả sử đại lượng ngẫu nhiên X nhận giá trị trong không gian S nào đó. Ta chia không
gian S thành q phần rời nhau, không nhất thiết phải bằng nhau S1 , S2 , . . . , Sq
(S1 ∪ S2 ∪ · · · ∪ Sq = S).
Giả sử (X1 , . . . , Xn ) là mẫu quan sát đối với đại lượng ngẫu nhiên X.
Gọi nk là số các giá trị mẫu Xi của biến ngẫu nhiên X rơi vào bộ phận Sk .
Ta có n1 + n2 + · · · + nk = n.
Và pk là xác suất để một giá trị x của X rơi vào bộ phận Sk (nghĩa là
pk = P [ω : X ∈ Sk ]).
Hãy kiểm định giả thiết:
H0 : p1 = po1 , p2 = po2 , . . . , pq = poq
ở mức α.
K : p1 = po1 , p2 = po2 , . . . , pq = poq
Chương 1. Lý thuyết
22
Trong đó các poi có thể là các con số, hoặc có thể là các phân phối đã cho, chẳng hạn
như: phân phối chuẩn, phân phối nhị thức, phân phối Poisson . . .
Trường hợp các poi , i = 1, q là các con số.
Người ta chứng minh được: tồn tại tiêu chuẩn để kiểm định giả thiết H0 .
Tiêu chuẩn này được phát biểu dưới dạng:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
q
k=1
(nk − npok )2
= −n +
npok
q
k=1
n2k
> Cα .
npok
Còn nếu Z < Cα thì chấp nhận H0 , Cα là hằng số tra ở bảng phân phối χ2 với q − 1
bậc tự do và mức ý nghĩa α.
Trường hợp các pok là những phân phối đã cho và giả sử pok = pok (θ), θ = (θ1 , . . . , θr ).
Ta tiến hành các bước sau:
i) Tìm ước lượng của tham số θ là θˆ (có thể dùng phương pháp hợp lý cực đại)
ˆ
ii) Tính ước lượng của po (θ) : pˆo = po (θ).
k
k
k
iii) Kết luận:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z=
q
k=1
(nk − nˆ
pok )2
= −n +
nˆ
pok
q
k=1
n2k
> Cα .
nˆ
pok
Còn nếu Z < Cα thì chấp nhận H0 , Cα tra ở bảng phân phối χ2 với q − 1 − r bậc tự
do và mức ý nghĩa α.
g) Tiêu chuẩn χ2 (khi bình phương) kiểm định tính độc lập và tính thuần
nhất
* Kiểm định tính độc lập
Ta xét n phép thử độc lập, trong mỗi phép thử có một và chỉ một trong các biến cố
A1 , A2 , . . . , Ar và một trong các biến cố B1 , B2 , . . . , Bv xảy ra.
Đặt P(Ai , Bj ) = pij ; i = 1, r; j = 1, v.
Ta có thể viết dãy xác suất này dưới dạng bảng sau:
Chương 1. Lý thuyết
23
B
A
A1
A2
...
Ar
Tổng
Ta có P (Ai ) =
đến bài toán:
Kiểm định giả thiết:
v
j=1
B1
p11
p21
...
pr1
p.1
pij , P (Bj ) =
B2
p12
p22
...
pr2
p.2
r
i=1
. . . Bv
. . . p1v
. . . p2v
... ...
. . . . prv
. . . p.v
Tổng
p1.
p2.
...
pr.
1
pij . Để xét tính độc lập của A và B ta đi
H0 : P (Ai Bj ) = P (Ai )P (Bj ); i = 1, r
.
K : P (Ai Bj ) = P (Ai )P (Bj ); j = 1, v
Gọi Xij là số lần xuất hiện biến cố tích Ai Bj trong n phép thử. Ta có bảng quan sát
sau:
B
A
A1
A2
...
Ar
Tổng
B1
X11
X21
...
Xr1
X.1
B2
X12
X22
...
Xr2
X.2
Bv
X1v
X2v
...
Xrv
X.v
...
...
...
...
...
...
Tổng
X1.
X2.
...
Xr.
n
Người ta chứng minh được rằng: tồn tại tiêu chuẩn để kiểm định giả thiết
H0 : P (Ai Bj ) = P (Ai )P (Bj ); i = 1, r
.
K : P (Ai Bj ) = P (Ai )P (Bj ); j = 1, v
Tiêu chuẩn được phát biểu dưới dạng:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z = n×
r
i=1
v
j=1
Xi. X.j
Xij −
n
Xi. X.j
2
> Cα ((r − 1)(v − 1)).
Chương 1. Lý thuyết
24
Nếu Z < Cα thì chấp nhận giả thiết H0 , Cα tra ở bảng phân phối χ2 với (r − 1)(v − 1)
bậc tự do và mức ý nghĩa α.
Chú ý:
- Tiêu chuẩn này áp dụng tốt trong trường hợp mẫu lớn.
Xi. X.j
≥ 5.
- Đảm bảo điều kiện
n
* Kiểm định tính thuần nhất
Nếu một thí nghiệm có thể thực hiện được trong những điều kiện khác nhau thì
nó xác định các phép thử khác nhau: G1 , G2 , . . . , Gv (các quy luật xác suất của các
phép thử đó khác nhau một cách tiên quyết).
Vấn đề đặt ra là tìm xem các xác suất của một hệ sự kiện đầy đủ A1 , A2 , . . . , Ar
có như nhau trong v phép thử, tức là kiểm định giả thiết.
H0 : “xác suất pij của biến cố Ai trong phép thử Gj là một số pi không phụ thuộc
vào j”; hoặc ta còn xét sự thuần nhất của nhiều tập con.
Xét đám đông Q các cá thể có các biến dạng A1 , A2 , . . . , Ar của một đặc tính A
và một phép phân hoạch đám đông Q thành v đám đông nhỏ Q1 , Q2 , . . . , Qv . Trong
các đám đông Q1 , Q2 , . . . , Qv được gọi là thuần nhất đối với đặc tính A nếu việc khảo
sát đặc tính đó không cho phép ta phân biệt được các đám đông nhỏ.
Chấp nhận hay bác bỏ sự thuần nhất của Q tức là kiểm định giả thiết H0 : “Xác
suất pij của các cá thể có biến dạng Ai của đặc tính A trong đám đông Qj là một số
pi không phụ thuộc j”.
Một cách tổng quát, ta xét hai đặc tính A và B. Chia A thành r mức A1 , A2 , . . . , Ar
và B thành v mức B1 , B2 , . . . , Bv .
Ký hiệu P (Ai , Bj ) = pij với i = 1, r; j = 1, v.
Kiểm
định giả thiết về sự thuần nhất đối với B là:
H0 : p11 = p12 = · · · = p1v
...
ở mức α.
pr1 = pr2 = · · · = prv
K : pi1 = pi2 = · · · = piv , i = 1, r
Người ta cũng tính được tiêu chuẩn để kiểm định giả thiết như sau:
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z =n×
r
i=1
v
j=1
ni. n.j
n
ni nj
2
nij −
> Cα .
Còn nếu Z < Cα thì chấp nhận giả thiết H0 , Cα tra ở bảng phân phối χ2 với (r−1)(v−1)
bậc tự do và mức ý nghĩa α.
Ta nhận thấy lời giải của bài toán kiểm định tính thuần nhất giống như lời giải của
bài toán kiểm định tính độc lập.
Chương 1. Lý thuyết
25
Xét trường hợp đặc biệt r = v = z.
Giả thiết H0 bị bác bỏ ở mức α nếu:
Z =n×
(ad − bc)2
> Cα (1).
(a + c)(b + d)(a + b)(c + d)
B
A
A1
A2
Tổng
B1
B2
Tổng
a
b
a+b
c
d
c+d
a+c b+d
n
Cα (1) tra ở bảng phân phối χ2 với 1 bậc tự do và mức ý nghĩa α.
h) Kiểm định của phân phối chuẩn Jarque – Bera
Bài toán trị số p cho kiểm chứng giả thuyết thường được dựa trên giả thiết phân
bố chuẩn.
Do đó, phép thử kiểm định của giả thiết phân phối chuẩn tắc có thể hữu ích để kiểm
tra. Nhiều kiểm định của phân phối chuẩn đã được phát triển bởi những nhà thống kê
khác nhau.
Chúng tôi xin được đề cập đến phép thử Jarque - Bera trong khuôn khổ luận văn.
Xét hai thống kê mới là: hệ số bất đối xứng và độ nhọn.
* Hệ số bất đối xứng được định nghĩa là:
1
S=
n
n
i=1 (Xi −
(˜
σ 2 )3/2
¯ 3
X)
với
σ
˜2 =
1
n
n
i=1 (Xi
¯ 2.
− X)
Hệ số bất đối xứng còn được tính theo công thức:
µ3
γ1 = 3
σ
Ở đây: µ3 là mômen trung tâm mẫu bậc 3 và σ là độ lệch chuẩn.
Hình 1.1: Đồ thị biểu diễn hệ số bất đối xứng
Hệ số bất đối xứng là một đại lượng đo lường mức độ đối xứng của những quan sát
về trung bình. Với phân phối chuẩn, giá trị của hệ số bất đối xứng bằng 0.
- Phân phối lệch về bên phải là bất đối xứng dương. Khi đó, số mode nhỏ hơn số
trung vị và số trung vị lại nhỏ hơn số trung bình.