TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
KHOA TOÁN
======
LÊ THỊ MINH HẠNH
KIỂM ĐỊNH PHI THAM SỐ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Ngƣời hƣớng dẫn khoa học:
TS. TRẦN TRỌNG NGUYÊN
HÀ NỘI, 2015
LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành khóa luận này, em đã nhận
được sự quan tâm, động viên, khích lệ của các thầy giáo, cô giáo trong tổ
Toán ứng dụng nói riêng và các thầy cô trong khoa Toán trường Đại học
sư phạm Hà Nội 2 nói chung. Em xin bày tỏ lòng biết ơn sâu sắc đối với
các thầy giáo, cô giáo, đặc biệt là TS.Trần Trọng Nguyên người đã tận
tình hướng dẫn em trong suốt thời gian qua để em hoàn thành khóa luận
này.
Hà Nội, ngày 2 tháng 5 năm 2015
Sinh viên
Lê Thị Minh Hạnh
LỜI CAM ĐOAN
Em xin cam đoan đề tài này là do em thực hiện, đó là kết quả quá
trình nghiên cứu của em dưới sự hướng dẫn của TS.Trần Trọng Nguyên
và đề tài này không trùng với các kết quả của tác giả khác.
Hà Nội, ngày 2 tháng 5 năm 2015
Sinh viên
Lê Thị Minh Hạnh
MỤC LỤC
LỜI MỞ ĐẦU .............................................................................................. 1
1. Lí do chọn đề tài .................................................................................... 1
2. Mục đích nghiên cứu ............................................................................. 1
3. Phương pháp và công cụ nghiên cứu ..................................................... 1
4. Cấu trúc khóa luận ................................................................................. 2
Chƣơng 1. KIẾN THỨC CHUẨN BỊ ........................................................ 3
1.1. Mẫu ngẫu nhiên .................................................................................. 3
1.1.1. Tổng thể nghiên cứu và phương pháp mẫu .................................. 3
1.1.1.1. Tổng thể nghiên cứu .............................................................. 3
1.1.1.2. Các tham số đặc trưng của tổng thể ....................................... 3
1.1.1.3. Phương pháp mẫu .................................................................. 4
1.1.2. Mẫu ngẫu nhiên ............................................................................ 5
1.1.3. Các phương pháp chọn mẫu ......................................................... 7
1.1.3.1. Mẫu ngẫu nhiên đơn giản ...................................................... 7
1.1.3.2. Mẫu ngẫu nhiên hệ thống ...................................................... 7
1.1.3.3. Mẫu chùm .............................................................................. 8
1.1.3.4. Mẫu phân tổ ........................................................................... 8
1.1.3.5. Mẫu nhiều cấp ........................................................................ 8
1.1.4. Thang đo các giá trị mẫu .............................................................. 9
1.1.4.1. Thang định danh .................................................................... 9
1.1.4.2. Thang thứ bậc ........................................................................ 9
1.1.4.3. Thang đo khoảng ................................................................... 9
1.1.4.4. Thang đo tỉ lệ ......................................................................... 9
1.1.5. Các phương pháp mô tả số liệu mẫu ............................................ 9
1.1.6. Một số thống kê đặc trưng của mẫu ........................................... 10
1.1.6.1.Trung bình mẫu ..................................................................... 10
1.1.6.2. Tổng bình phương các sai lệch và độ lệch bình phương trung
bình.................................................................................................... 11
1.1.6.3. Phương sai mẫu S2 và phương sai S*2 ................................. 11
1.1.6.4. Hệ số bất đối xứng ............................................................... 12
1.1.6.5. Hệ số nhọn .......................................................................... 12
1.2. Bài toán kiểm định giả thuyết thống kê ............................................ 12
1.2.1. Giả thuyết thống kê .................................................................... 12
1.2.2. Kiểm định giả thuyết thống kê ................................................... 14
1.2.3. Tiêu chuẩn kiểm định giả thuyết thống kê ................................. 15
1.2.4. Miền bác bỏ giả thuyết ............................................................... 15
1.2.5. Giá trị quan sát của tiêu chuẩn kiểm định .................................. 15
1.2.6. Quy tắc kết luận kiểm định giả thuyết thống kê ........................ 16
1.2.7. Sai lầm trong kiểm định ............................................................. 16
1.2.8.Thủ tục kiểm định giả thuyết thống kê ....................................... 17
1.2.8.1. Kiểm định với giá trị cho trước của α ................................. 17
1.2.8.2. Kiểm định với giá trị cho trước của α và β .......................... 18
1.2.9. Phương pháp P – value............................................................... 19
1.2.9.1. Ý nghĩa của trị số P – value ................................................. 19
1.2.9.2. Sử dụng phương pháp p – value trong kiểm định giả thuyết
thống kê ............................................................................................. 20
Chƣơng 2. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH PHI THAM SỐ ......... 22
2.1. Kiểm định giả thuyết về tính độc lập của hai dấu hiệu định tính ..... 22
2.2. Kiểm định tính chuẩn của biến ngẫu nhiên ...................................... 30
2.2.1.Tiêu chuẩn phù hợp Kolmogrov ................................................. 30
2.2.2. Kiểm định Lilliefors về dạng phân phối chuẩn .......................... 32
2.2.3. Kiểm định Jarque – Bera về dạng phân phối chuẩn................... 39
2.2.4. Sử dụng phần mềm Eviews vào việc giải các bài toán kiểm định
định tính chuẩn của biến ngẫu nhiên .................................................... 46
KẾT LUẬN ................................................................................................ 51
TÀI LIỆU THAM KHẢO ........................................................................ 52
PHỤ LỤC ................................................................................................... 53
LỜI MỞ ĐẦU
1. Lí do chọn đề tài
Trong chương trình đại học, ở các trường sư phạm đối với chuyên
ngành toán ứng dụng, do khuôn khổ chương trình, chúng ta chỉ được tìm
hiểu về một số bài toán kiểm định giả thuyết về các tham số đặc trưng của
biến ngẫu nhiên với giả thiết, biến ngẫu nhiên gốc tuân theo một quy luật
phân phối nào đó, đây được gọi là bài toán kiểm định tham số; các bài toán
kiểm định về dạng phân phối, hoặc về tính độc lập của các biến ngẫu nhiên
mà được gọi chung là bài toán kiểm định phi tham số thì chúng ta chưa
được tìm hiểu. Cũng giống như bài toán kiểm định tham số, mục đích của
bài toán kiểm định phi tham số là đi kiểm định tính đúng sai của giả thuyết
dựa vào những mẫu số liệu quan sát; tuy nhiên, tùy thuộc vào từng bài toán
cụ thể mà người ta sử dụng những tiêu chuẩn kiểm định khác nhau. Với
lòng yêu thích và mong muốn tìm hiểu sâu về nội dung này trong phạm vi
của một khóa luận tốt nghiệp, em xin trình bày những hiểu biết của mình về
đề tài “ Kiểm định phi tham số”.
2. Mục đích nghiên cứu
- Nghiên cứu một số bài toán kiểm định phi tham số: Kiểm định tính
độc lập, kiểm định tính chuẩn của biến ngẫu nhiên;
- Ứng dụng các phần mềm thống kê để giải các bài toán kiểm định.
3. Phƣơng pháp và công cụ nghiên cứu
- Nghiên cứu tổng hợp tài liệu;
- Nghiên cứu thực nghiệm với dữ liệu thực tế;
- Sử dụng phần mềm Eviews trong việc kiểm định tính chuẩn của
biến ngẫu nhiên.
1
4. Cấu trúc khóa luận
Nội dung đề tài bao gồm các chương sau:
Chương 1: Kiến thức chuẩn bị
Chương 2: Một số bài toán kiểm định phi tham số:
+ Kiểm định tính độc lập của hai dấu hiệu định tính;
+ Kiểm định tính chuẩn của biến ngẫu nhiên.
2
Chƣơng 1. KIẾN THỨC CHUẨN BỊ
1.1. Mẫu ngẫu nhiên
1.1.1. Tổng thể nghiên cứu và phƣơng pháp mẫu
1.1.1.1. Tổng thể nghiên cứu
Định nghĩa 1.1: Toàn bộ tập hợp các phần tử đồng nhất theo một
dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng thể
nghiên cứu hay tổng thể.
+ Số lượng các phần tử của tổng thể được gọi là kích thước của tổng
thể kí hiệu là N (kích thước N của tổng thể là hữu hạn).
+ Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà
thông qua một hay nhiều dấu hiệu đặc trưng. Chúng được gọi là dấu hiệu
nghiên cứu, kí hiệu là .
1.1.1.2. Các tham số đặc trƣng của tổng thể
* Trung bình tổng thể
Giả sử trong tổng thể có kích thước N dấu hiệu định lượng nhận
1 N
các giá trị x1, x2 ,..., xN . Khi đó m xi được gọi là trung bình của tổng
N i1
thể nghiên cứu (trung bình số học).
Nếu các giá trị xi (i 1, k ) có tần số tương ứng là Ni (i 1, k ) thì trung
k
N
1 k
bình tổng thể m xi Ni pi xi với pi i (i 1, k ) .
N
N i1
i 1
* Phương sai tổng thể
Phương sai tổng thể, kí hiệu là 2 , là trung bình số học của bình
phương các sai lệch giữa các giá trị của dấu hiệu trong tổng thể và trung
bình tổng thể.
3
1 N
( xi m)2
N i1
2
Nếu các giá trị x1, x2 ,..., xk của dấu hiệu có các tần số tương ứng là
N1, N2 ,..., Nk với
k
N
i 1
i
N thì:
k
1 k
2
Ni ( xi m) pi ( xi m)2
N i1
i 1
2
Nếu lấy căn bậc hai của phương sai ta sẽ thu được độ lệch chuẩn:
2
1 N
( xi m)2
N i 1
* Tần suất của tổng thể
Người ta thường nghiên cứu tổng thể có kích thước N , trong đó M
phần tử mang dấu hiệu nghiên cứu, còn N M phần tử còn lại không mang
dấu hiệu đó. Lúc đó, tần suất của tổng thể là tỷ số giữa số phần tử mang
dấu hiệu nghiên cứu và kích thước của tổng thể:
p
M
.
N
1.1.1.3. Phƣơng pháp mẫu
Trong thực tế, ta thường phải nghiên cứu một tập hợp các phần tử
đồng nhất theo một hay nhiều dấu hiệu định tính hoặc định lượng đặc trưng
cho phần tử đó. Để nghiên cứu tập hợp các phần tử này theo một dấu hiệu
nhất định, đôi khi người ta sử dụng phương pháp nghiên cứu toàn bộ tổng
thể. Tuy nhiên, trên thực tế việc áp dụng phương pháp này gặp phải rất
nhiều khó khăn:
+ Nếu quy mô của tập hợp quá lớn, thì việc nghiên cứu toàn bộ sẽ dẫn
đến tốn kém chi phí vật chất và thời gian.
4
+ Nếu quy mô của tập hợp quá lớn có thể xảy ra trường hợp tính
trùng lặp hoặc bỏ sót các phần tử của nó.
+ Quy mô nghiên cứu lớn mà trình độ tổ chức nghiên cứu lại hạn chế,
dẫn đến các sai sót trong quá trình thu thập thông tin ban đầu, hạn chế độ
chính xác của kết quả phân tích.
+ Trong nhiều trường hợp không thể nắm được toàn bộ các phần tử
của tập hợp cần nghiên cứu, do đó không thể tiến hành nghiên cứu toàn bộ
được.
+ Nếu các phần tử của tập hợp lại bị phá hủy trong quá trình nghiên
cứu, thì việc nghiên cứu toàn bộ trở nên vô nghĩa.
Vì vậy, phương pháp nghiên cứu toàn bộ thường chỉ được áp dụng
với các tập hợp có quy mô nhỏ, còn đối với tập hợp có quy mô lớn thì
người ta chủ yếu sử dụng phương pháp nghiên cứu chọn mẫu (phương
pháp mẫu).
Phương pháp mẫu là phương pháp mà từ tập hợp cần nghiên cứu
chọn ra một số phần tử, phân tích các phần tử này và dựa vào đó mà suy ra
các kết luận về tập hợp cần nghiên cứu.
1.1.2. Mẫu ngẫu nhiên
Khi nghiên cứu về một tổng thể, các đặc tính của tổng thể có thể xác
định được một cách trực tiếp nếu áp dụng phương pháp nghiên cứu toàn bộ
tổng thể, song do quy mô quá lớn của tổng thể hay mức độ kém tin cậy của
số liệu điều tra nên việc tính toán vừa khó khăn, tốn kém mà vẫn không thu
được kết quả chính xác. Vì vậy, người ta thường áp dụng phương pháp mẫu
bằng cách nghiên cứu n phần tử được chọn ra từ tổng thể nghiên cứu. Tập
hợp n phần tử này được gọi là mẫu kích thước n.
5
Mẫu được tạo lập với những giả thiết sau:
+ Lấy lần lượt từng phần tử vào mẫu;
+ Mọi phần tử của tổng thể đều được lấy vào mẫu với khả năng như
nhau;
+ Trước khi lấy phần tử thứ k thì trả lại tổng thể phần tử thứ (k-1) mà
ta đã nghiên cứu xong (k 2, n).
Mẫu được lấy ra theo nguyên tắc đơn giản, ngẫu nhiên và hoàn lại
nên ta có thể mô hình hóa mẫu được chọn như sau:
Gọi X i (i 1, n) là giá trị của dấu hiệu đo lường được trên phần tử
thứ i của mẫu. Vì có thể mô hình hóa dấu hiệu bằng một biến ngẫu
nhiên X với một quy luật phân phối xác suất nào đó nên việc chọn mẫu
kích thước n theo nguyên tắc trên có thể xem như tiến hành n phép thử
độc lập đối với X , lúc đó các giá trị X i của dấu hiệu thu được trên mẫu có
thể xem như các biến ngẫu nhiên thu được qua việc tiến hành n phép thử
độc lập đối với biến ngẫu nhiên X . Từ đó ta có các định nghĩa sau:
Xét biến ngẫu nhiên X , k chiều: X ( X 1, X 2 ,..., X k )
k 1.
+ Định nghĩa 1.2: Mẫu ngẫu nhiên kích thước n về biến ngẫu nhiên
gốc X (hoặc về quy luật phân bố gốc mà X tuân theo) là một biến ngẫu
nhiên:
W( X ) ( X1, X 2 ,..., X n )
trong đó X i (i 1, n) là các biến ngẫu nhiên i.i.d (độc lập và có cùng quy
luật phân phối xác suất với X ).
+ Định nghĩa 1.3: Cho mẫu ngẫu nhiên có kích thước n :
W( X ) ( X1, X 2 ,..., X n )
trong đó X i (i 1, n) là các biến ngẫu nhiên i.i.d (độc lập và có cùng phân
phối xác suất với X).
6
Mỗi X i gọi là một thành phần mẫu
Tập hợp {x ( x1, x2 ,..., xn )} trong đó xi là giá trị có thể có của
X i (i 1, n) được gọi là không gian mẫu.
Mỗi điểm x ( x1, x2 ,..., xn ) của không gian mẫu được gọi là một giá
trị có thể có của mẫu ngẫu nhiên X .
1.1.3. Các phƣơng pháp chọn mẫu
1.1.3.1. Mẫu ngẫu nhiên đơn giản
Là loại mẫu được chọn trực tiếp từ danh sách đã đánh số của tổng thể.
Từ một tổng thể có kích thước N người ta rút ra n phần tử của mẫu theo
một bảng số ngẫu nhiên nào đó.
Các bảng số ngẫu nhiên có thể sử dụng là:
- Các bảng của Tippett gồm các số có bốn chữ số;
- Các bảng của Fisher và Yates;
- Các bảng của Kendall và Babington Smith gồm các số có 5 chữ số;
- Các bảng của Burke Haton;
- Các bảng của công ty Rand…
Ưu điểm: + Cho phép thu được một mẫu có tính đại diện cao;
+ Cho phép suy rộng các kết quả của mẫu cho tổng thể với
một sai số xác định.
Nhược điểm: Phải có được toàn bộ danh sách của tổng thể nghiên cứu
và chi phí chọn mẫu sẽ khá lớn.
1.1.3.2. Mẫu ngẫu nhiên hệ thống
Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ có
phần tử đầu tiên được chọn một cách ngẫu nhiên, sau đó dựa trên danh sách
đã được đánh số của tổng thể để chọn ra các phần tử tiếp theo vào mẫu theo
một thủ tục nào đó.
7
Ưu điểm: Cách thức đơn giản.
Nhược điểm: Dễ mắc sai số hệ thống khi danh sách của tổng thể
không được sắp xếp một cách ngẫu nhiên, mà lại theo một trật tự chủ quan
nào đó.
1.1.3.3. Mẫu chùm
Là loại mẫu quy diện nghiên cứu về một khu vực nhất định chứ
không để cho các phần tử của mẫu phân tán quá rộng.
Theo phương pháp này, trước tiên tổng thể điều tra được chia thành
nhiều chùm theo nguyên tắc:
- Mỗi phần tử của tổng thể được phân vào một chùm;
- Mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu
nghiên cứu, sao cho nó có độ phân tán cao như của tổng thể;
- Phân chia sao cho các chùm tương đối đồng đều nhau về quy mô.
Ưu điểm: Đỡ tốn kém chi phí và thích hợp với việc nghiên cứu theo
nhiều dấu hiệu cùng một lúc.
Nhược điểm: Sai số cao hơn phương pháp chọn ngẫu nhiên đơn với
cùng kích thước mẫu.
1.1.3.4. Mẫu phân tổ
Mẫu phân tổ là loại mẫu mà người ta phân chia tổng thể ra thành các
tổ có độ thuần nhất cao để chọn ra các phần tử đại diện cho từng tổ.
1.1.3.5. Mẫu nhiều cấp
Nếu các phần tử của tổng thể phân tán quá rộng và thiếu thông tin về
chúng, người ta thường chọn mẫu theo nhiều cấp.
Việc chọn mẫu ở mỗi cấp có thể tiến hành theo phương pháp mẫu
ngẫu nhiên đơn, mẫu ngẫu nhiên hệ thống, mẫu chùm hay mẫu phân tổ.
8
1.1.4. Thang đo các giá trị mẫu
1.1.4.1. Thang định danh
Là việc đánh số những tính chất hoặc phạm trù cùng loại, thường
dùng để đếm tần số của các hiện tượng xảy ra.
1.1.4.2. Thang thứ bậc
Là loại thang định danh mà giữa các phạm trù đã có quan hệ thứ bậc
hơn kém.
1.1.4.3. Thang đo khoảng
Là thang đo thứ bậc có các khoảng cách đều nhau giữa các bậc, dùng
để đánh giá sự khác biệt giữa các phạm trù và có thể dùng để tính các tham
số đặc trưng như trung bình, phương sai,…
Các thang đo định danh, thứ bậc và thang đo khoảng dùng để đặc
trưng các giá trị của dấu hiệu nghiên cứu định tính.
1.1.4.4. Thang đo tỉ lệ
Là thang đo khoảng với một điểm gốc tuyệt đối, được dùng để đặc
trưng các giá trị của dấu hiệu nghiên cứu định lượng.
1.1.5. Các phƣơng pháp mô tả số liệu mẫu
Giả sử từ tổng nghiên cứu ta rút ra một mẫu ngẫu nhiên gốc X có
kích thước n: W ( X1, X 2 ,..., X n ).
Giả sử các giá trị của mẫu ngẫu nhiên x1 xuất hiện với tần số n1 , x2
xuất hiện với tần số n2 ,…, xk xuất hiện với tần số nk . Sau khi các xi được
sắp xếp theo thứ tự tăng dần thì các giá trị của mẫu cụ thể được mô tả bằng
bảng phân phối tần số thực nghiệm:
9
xi
x1
x2
…
xi
…
xk
ni
n1
n2
…
ni
…
nk
n
0 ni n
k
với
n
i 1
i
Kí hiệu fi
ni
là tần suất xuất hiện giá trị xi thì lúc đó các giá trị của
n
mẫu cụ thể w còn được mô tả bằng bảng phân phối tần suất thực nghiệm:
xi
x1
x2
…
xi
…
xk
fi
f1
f2
…
fi
…
fk
k
với
f
i 1
i
1
0 fi 1.
1.1.6. Một số thống kê đặc trƣng của mẫu
1.1.6.1.Trung bình mẫu
Từ tổng thể nghiên cứu của một biến ngẫu nhiên gốc X , ta rút ra một
mẫu ngẫu nhiên có kích thước n:
W ( X1, X 2 ,..., X n )
Trung bình mẫu là một thống kê, kí hiệu là X :
1 n
X Xi
n i1
Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w ( x1, x2 ,..., xn ) thì
trung bình mẫu cũng nhận giá trị cụ thể:
1 n
x xi
n i 1
hay
x
10
1 k
ni xi .
n i 1
1.1.6.2. Tổng bình phƣơng các sai lệch và độ lệch bình phƣơng trung
bình
Cho mẫu ngẫu nhiên có kích thước n được xây dựng từ biến ngẫu
nhiên gốc X:
W ( X1, X 2 ,..., X n )
n
Khi đó SS ( X i X ) được gọi là tổng bình phương các sai lệch
i 1
giữa các giá trị của mẫu và trung bình mẫu.
Nếu ta đem chia SS cho kích thước mẫu (giả sử mẫu có kích thước n)
ta được:
MS
1 n
( Xi X )
n i 1
gọi là độ lệch bình phương trung bình.
Trên thực tế với mẫu cụ thể ms thường được tính bằng công thức:
1 n 2
ms xi
n i 1
hoặc
1 k
ms ni xi2
n i 1
1.1.6.3. Phƣơng sai mẫu S 2 và phƣơng sai S*2
Phương sai mẫu kí hiệu là S 2 và được xác định bởi công thức:
2
1 n
1 n 2
1 k
n
2
(
X
X
)
X
nX
ni ( xi X )
MS .
i
i
n 1 i1
n 1 i1
n
1
n
1
i
1
n
k
1
1
S *2 ( X i m)2 ni ( xi m)2 được gọi là phương sai.
n i1
n i1
S2
Giá trị của của phương sai mẫu S 2 và phương sai S *2 trên một giá trị
cụ thể của mẫu là những số xác định, kí hiệu là s 2 và s*2 .
11
Nếu lấy căn bậc hai của phương sai mẫu S 2 thì ta thu được thống kê
gọi là độ lệch chuẩn mẫu, kí hiệu là S:
1 n
S
( X i X )2
n 1 i 1
còn giá trị của nó trên một mẫu cụ thể là một số xác định, kí hiệu là s.
1.1.6.4. Hệ số bất đối xứng
Hệ số bất đối xứng kí hiệu là a3 , được xác định bởi công thức:
1 n
( X i X )3
n
a3 i 1 3
S
Giá trị của a3 càng gần 0 thì phân phối thực nghiệm của các giá trị
của mẫu càng đối xứng qua giá trị trung bình mẫu.
1.1.6.5. Hệ số nhọn
Hệ số nhọn kí hiệu là a4 và được xác định bởi công thức:
1 n
( X i X )4
n
a4 i 1 4
S
1.2. Bài toán kiểm định giả thuyết thống kê
Khi nghiên cứu về một lĩnh vực nào đó trong thực tế, ta thường đưa
ra những nhận xét khác nhau về đối tượng quan tâm. Những nhận xét như
vậy được gọi là giả thuyết. Mỗi giả thuyết như vậy có thể đúng, cũng có thể
sai. Việc xác định tính đúng sai của một giả thuyết được gọi là kiểm định.
1.2.1. Giả thuyết thống kê
Giả sử dấu hiệu nghiên cứu trong tổng thể có thể xem như là biến
ngẫu nhiên X, khi nghiên cứu hai hay nhiều biến ngẫu nhiên thuộc các tổng
thể khác nhau hay thuộc cùng một tổng thể ta thường phải xét xem chúng
độc lập hay phụ thuộc nhau, các tham số của chúng có bằng nhau hay
12
không. Nếu chưa biết một cách chắc chắn song có cơ sở để nhận định về
các vấn đề đó cũng có thể đưa ra các giả thuyết tương ứng.
Từ đó ta có định nghĩa về giả thuyết thống kê như sau:
Định nghĩa1.3: Giả thuyết thống kê là giả thuyết về dạng phân phối
xác suất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu
nhiên hoặc về tính độc lập của các biến ngẫu nhiên.
Ta kí hiệu: H0 là giả thuyết thống kê được đưa ra và được gọi là giả
thuyết gốc;
H1 là giả thuyết đối của giả thuyết H0 .
Tức là, nếu bác bỏ giả thuyết H0 thì ta chấp nhận giả thuyết H1 và
ngược lại; H0 và H1 tạo thành cặp giả thuyết thống kê.
Chẳng hạn, ta nghiên cứu về tỉ lệ nảy mầm của hạt thóc trong điều
kiện môi trường nào đó. Ta có thể đưa ra các cặp giả thuyết thống kê sau:
H 0 : Tỉ lệ nảy mầm của hạt thóc là p 90% , khi đó giả thuyết đối
tương ứng với giả thuyết H0 có thể là:
H1 : p 90%, H1 : p 90%, H1 : p 90%
H 0 : Tỉ lệ nảy mầm của hạt thóc không phụ thuộc vào điều kiện môi
trường; khi đó ta có giả thuyết đối là H1 : Tỉ lệ nảy mầm của hạt thóc phụ
thuộc vào điều kiện môi trường.
Trên thực tế giả thuyết được chia làm hai loại:
+ Giả thuyết đơn là giả thuyết chỉ chứa một mệnh đề;
+ Giả thuyết hợp là giả thuyết chứa đựng nhiều mệnh đề (chứa đựng
một số hữu hạn hoặc vô hạn các giả thuyết đơn).
Ở đây ta chỉ nghiên cứu giả thuyết gốc là giả thuyết đơn.
13
1.2.2. Kiểm định giả thuyết thống kê
Vì các giả thuyết thống kê có thể đúng hoặc sai nên ta cần phải đi
kiểm định, tức là tìm ra kết luận về tính thừa nhận hay không thừa nhận của
giả thuyết đó, việc kiểm định như vậy được gọi là kiểm định giả thuyết
thống kê.
Đối với kiểm định giả thuyết thông kê, người ta thường chia làm hai
loại:
+ Loại 1: Kiểm định tham số là bài toán kiểm định giả thuyết về các
tham số đặc trưng của biến ngẫu nhiên.
Ví dụ 1.1: Cho biến ngẫu nhiên X có phân phối xác suất cho trước
nhưng tham số đặc trưng chưa biết. Yêu cầu kiểm định giả thuyết:
" 0 " , với 0 là hằng số đã biết.
+ Loại 2: Kiểm định phi tham số là các bài toán kiểm định các giả
thuyết còn lại.
Ví dụ 1.2: Cho biến ngẫu nhiên X chưa rõ phân phối xác suất, song
có cơ sở để giả thiết rằng X có phân phối theo quy luật A nào đó, từ đó
người ta đưa ra giả thuyết H0 : X phân phối theo quy luật A. Yêu cầu kiểm
định giả thuyết H0 .
Phương pháp chung để kiểm định giả thuyết thống kê:
+ Giả sử giả thuyết gốc H0 là đúng;
+ Dựa vào thông tin của mẫu rút ra từ tổng thể nghiên cứu, ta tìm
được một biến cố A nào đó sao cho xác suất xảy ra biến cố A bằng bé
đến mức có thể coi A không xảy ra trong một phép thử về biến cố này;
+ Trên một mẫu cụ thể thực hiện một phép thử đối với biến cố A:
Nếu A xảy ra thì chứng tỏ H0 sai và ta bác bỏ giả thuyết H 0 ;
Nếu A không xảy ra thì ta chưa có cơ sở để bác bỏ giả thuyết H0 .
14
1.2.3. Tiêu chuẩn kiểm định giả thuyết thống kê
Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên có kích thước n
W ( X1, X 2 ,..., X n )
và chọn lập thống kê G f ( X1, X 2 ,..., X n ,0 )
trong đó 0 là tham số liên quan đến giả thuyết cần kiểm định.
Điều kiện đặt ra đối với thống kê G là nếu giả thuyết H0 là đúng, thì
quy luật phân phối xác suất của G là hoàn toàn xác định. Thống kê G được
gọi là tiêu chuẩn kiểm định.
1.2.4. Miền bác bỏ giả thuyết
Sau khi đã chọn được tiêu chuẩn kiểm định G thì với một xác suất
khá bé bằng cho trước, ta có thể tìm được miền W tương ứng sao cho
với điều kiện giả thuyết H0 là đúng, xác suất để G nhận giá trị thuộc miền
W bằng :
P(G W / H0 )
trong đó: được gọi là mức ý nghĩa;
W được gọi là miền bác bỏ của giả thuyết H0 với mức ý nghĩa .
Miền giá trị còn lại của G, kí hiệu là W được gọi là miền không bác
bỏ giả thuyết ( miền thừa nhận giả thuyết).
1.2.5. Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện một phép thử đối với mẫu ngẫu nhiên có kích thước
n : W ( X1, X 2 ,..., X n ), ta thu được một mẫu cụ thể w ( x1, x2 ,.., xn ) và
tính được một giá trị của tiêu chuẩn kiểm định Gqs f ( x1, x2 ,..., xn , ) được
gọi là giá trị quan sát của tiêu chuẩn kiểm định.
15
1.2.6. Quy tắc kết luận kiểm định giả thuyết thống kê
Sau khi tính được giá trị quan sát Gqs ta đi so sánh giá trị này với miền
bác bỏ W :
+ Nếu Gqs W thì chứng tỏ H0 sai và do đó ta bác bỏ giả thuyết H0
(giả thuyết gốc), thừa nhận giả thuyết H1 ( giả thuyết đối);
+ Nếu Gqs W thì ta chưa khẳng định được rằng H0 sai, do đó chưa có
cơ sở để bác bỏ H0 ( trên thực tế thì ta thừa nhận H0 ).
Đây chính là kết luận chung trong phương pháp miền bác bỏ để giải
các bài toán kiểm định giả thuyết.
1.2.7. Sai lầm trong kiểm định
Với quy tắc kiểm định như trên ta có thể mắc hai loại sai lầm sau:
+ Sai lầm loại 1: Bác bỏ giả thuyết H0 trong khi H0 đúng hay giá trị
quan sát Gqs thuộc vào miền bác bỏ H0 trong khi H0 đúng.
Xác suất để mắc sai lầm này là:
P(G W / H0 )
Khi đó xác suất để không mắc sai lầm loại một là:
P(G W / H0 ) 1
trong đó là mức ý nghĩa.
+ Sai lầm loại 2: Thừa nhận giả thuyết H0 trong khi H0 sai hay giá trị
quan sát Gqs không thuộc vào miền bác bỏ W trong khi H1 đúng.
Xác suất để mắc sai lầm này ta kí hiệu là :
P(G W / H1 )
Khi đó xác suất để không mắc sai lầm loại hai là:
P(G W / H1 ) 1
1 được gọi là lực kiểm định.
16
Quan hệ giữa kiểm định giả thuyết và các loại sai lầm có thể mô tả
qua bảng sau:
Tình huống
đúng
sai
Quyết định
Bác bỏ H0
Không bác bỏ H0
Sai lầm loại 1;
Quyết định đúng;
Xác suất
Xác suất=1
Quyết định đúng;
Sai lầm loại 2;
Xác suất 1
Xác suất
Nhận xét: Sai lầm loại một và sai lầm loại hai mâu thuẫn nhau, cụ
thể khi ta giảm thì đồng thời sẽ làm tăng và ngược lại, chẳng hạn nếu
lấy 0 thì sẽ không bác bỏ bất kì giả thuyết nào kể cả giả thuyết sai, như
vậy sẽ đạt cực đại.
Sau khi ấn định một mức ý nghĩa và với mẫu có kích thước n xác
định thì ta tìm được vô số miền bác bỏ W , ta chọn ra miền bác bỏ W sao
cho là nhỏ nhất hay1 là lớn nhất. Vì vậy, cần tìm miền bác bỏ thỏa
mãn điều kiện sau:
P(G W / H0 ) cho trước
và
P(G W / H1 ) 1 max.
1.2.8.Thủ tục kiểm định giả thuyết thống kê
1.2.8.1. Kiểm định với giá trị cho trƣớc của α
Dùng để kiểm soát khả năng mắc sai lầm loại một, thủ tục kiểm định
được tiến hành như sau:
Bước 1: Xây dựng giả thuyết H0 cần kiểm định;
Bước 2: Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên có kích thước n;
17
Bước 3: Chọn tiêu chuẩn kiểm định G và xác định quy luật phân
phối với điều kiện giả thuyết H0 là đúng;
Bước 4: Với mức ý nghĩa cho trước xác định miền bác bỏ tốt nhất
tùy thuộc vào giả thuyết đối H1 ;
Bước 5: Lập mẫu cụ thể và tìm được giá trị tiêu chuẩn kiểm định trên
mẫu;
Bước 6: So sánh giá trị quan sát của tiêu chuẩn kiểm định với miền
bác bỏ và kết luận;
Bước 7: Đánh giá xác suất mắc sai lầm loại hai theo các giá trị khác
nhau của H1 .
1.2.8.2. Kiểm định với giá trị cho trƣớc của α và β
Dùng để kiểm soát khả năng mắc cả hai sai lầm (sai lầm loại một và
sai lầm loại hai), thủ tục kiểm định được tiến hành như sau:
Bước1: Xây dựng giả thuyết gốc H0 cần kiểm định;
Bước 2: Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối
xác suất của nó với điều kiện giả thuyết H0 là đúng;
Bước 3: Với và cho trước, xác định kích thước mẫu cần điều
tra để việc kiểm định phạm hai sai lầm trên với xác suất không vượt quá
mức cho trước;
Bước 4: Dựa vào kết quả ở bước 3 ta đi điều tra một mẫu cụ thể và
tiến hành tiếp như ở trường hợp trước.
18
1.2.9. Phƣơng pháp P – value
1.2.9.1. Ý nghĩa của trị số P – value
Trong mỗi bài toán kiểm định giả thuyết thống kê, với mỗi mức ý
nghĩa cố định thì kết luận thống kê sẽ bị ảnh hưởng bởi một thay đổi dù rất
nhỏ của thống kê mẫu. Do đó, thay vì xác định mức ý nghĩa ta sẽ xét đến
khái niệm p – value.
Định nghĩa 1.4: (Trị số p – value)
Trị số p (p- value) của một giá trị mẫu cụ thể là giá trị nhỏ nhất của
xác suất bác bỏ giả thuyết H0 dựa trên giá trị thống kê kiểm định được tính
trên mẫu đó, tức p – value là giá trị nhỏ nhất của mức ý nghĩa cho phép ta
bác bỏ giả thuyết H0 dựa trên mẫu được chọn nếu ta coi giá trị thống kê
kiểm định được tính trên mẫu đó là giá trị giới hạn miền bác bỏ giả thuyết
H0 .
Trong thực tế, một kết luận thống kê được coi là có ý nghĩa thống kê
nếu p – value <0,05.
19