CÂU 1:
1. ĐỀ BÀI
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 - 50 tuổi và nhóm
từ 50 - 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930.
Nhóm tuổi
0-1
71
54
40-50
50-60
1-2
430
324
Thu nhập
2-3
3-4
1072
1609
894
1202
4-6
1178
903
>=6
158
112
Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân lành
nghề này không?
Mức ý nghĩa α = 5%
2. DẠNG BÀI
Kiểm định tính độc lập (so sánh các tỷ lệ)
3. PHƯƠNG PHÁP GIẢI
a. Giả thuyết:
- H: P = P , P , … , P <=>"Các cặp Pi và Pi,0 bằng nhau"
- H: "Có ít nhất một cặp Pi và Pi,0 khác nhau"
b. Giá trị thống kê
χ =
O −E
E
Trong đó:
Oij - tần số thực nghiệm của ô thuộc hàng i, cột j (Observed Frequency)
Eij - tần số lý thuyết của ô thuộc hàng i, cột j (Expacted Frequency)
r - số hàng
c - số cột
c. Biện luận:
-Nếu: χ > χ
−1
− 1 => Bác bỏ giả thiết H và ngược lại
χ
-Giá trị
theo hàm CHITEST:
Xác suất P X > χ với bậc tự do df = (r-1)(c-1)
Nếu P X > χ > α => chấp nhận giả thiết H và ngược lại
4. CÔNG CỤ GIẢI
-Dùng MS-EXCEL:
Hàm tính tổng SUM và CHITEST
5. TÍNH TOÁN VÀ KẾT QUẢ
-Tỷ lệ hai nhóm tuổi là như nhau α = 5%
-Bảng số liệu nhập vào:
1
40-50
50-60
0-1
71
54
1-2
430
324
2-3
1072
894
3-4
1609
1202
4-6
1178
903
>=6
158
112
-Tính tần số thực nghiệm:
+Tính tổng các hàng và các cột
+Dùng hàm SUM với cú pháp =SUM(number 1, number 2)
+Sau đó dùng con trỏ chuột kéo nút tự điền cho các hàng hoặc cột tương tự
cần tính
+Ví dụ tính tổng hàng từ B58 đến G58
Ta dùng cú pháp: =SUM(B58:G58)
-Xuất ra tần số thực nghiệm:
40-50
50-60
TC
0-1
71
54
125
1-2
430
324
754
-Tính tần số lý thuyết
+Tần số lý thuyết:
2-3
1072
894
1966
,
=
3-4
1609
1202
2811
4-6
1178
903
2081
>=6
158
112
270
TH
4518
3489
8007
.
ổ
ộ
+Nhóm 40-50; thu nhập 0-1: Chọn ô B71 và nhập =H58*B60/H60
+Tương tự cho các ô còn lại
-Xuất ra tần số lý thuyết:
40-50
50-60
0-1
1-2
2-3
3;4
4;6
>=6
70.53203 425.4492 1109.33 1586.12 1174.22 152.349
54.46797 328.5508 856.672 1224.88 906.783 117.651
-Áp dụng hàm CHITEST:
-Chọn ô B77 và nhập =CHITEST(B58:G59,B71:G72)
Giá trị P: 0.511582
P X>χ
= 0.51158 > α = 0.05
=> Chấp nhận H
6. KẾT LUẬN
Không có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi 40-50 và 50-60 trong số các
công nhân lành nghề ở Thụy Điển năm 1930
2
CÂU 2:
1. ĐỀ BÀI
Trước một chiến dịch quảng cáo, tỷ lệ phòng có khách ở trong một khách sạn được theo
dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81 90 76 80 91 85 89
77 91 và 83 phần trăm. Sau khi kết thúc chiến dịch quảng cáo người ta theo dõi tỷ lệ này
trong 15 ngày và thu được kết quả là 88 94 97 99 89 93 92 98 89 90 97 91 87 80 và 96 phần
trăm. Giả sử tỷ lệ phòng có khách là phân phối chuẩn. Hãy ước lượng với độ tin cậy 95% tỷ
lệ phòng có khách trước và sau chiến dịch quảng cáo. Với mức ý nghĩa 5% hãy cho ý kiến
là chiến dịch quảng cáo có thành công hay không?
2. DẠNG BÀI
-Ước lượng khoảng của trung bình tổng thể a
-Kiểm định giá trị trung bình
3. PHƯƠNG PHÁP GIẢI
a. Ước lượng khoảng của trung bình tổng thể a
+Chưa biết phương sai tổng thể và n < 30
+Giá trị trung bình: ̅ = ∑
+Độ lệch chuẩn:
=
+Tra bảng:
(n-1)
+Giới hạn tin cậy:
=
+Khoảng ước lượng:
̅−
<
< ̅+
b. Kiểm định giá trị trung bình
+Chưa biết phương sai tổng thể và các mẫu kích thước < 30
+Kiểm định giả thiết:
H: a < a
H: a = a
+Tra giá trị ngưỡng:
( + − 2)
−
+ =
+
+Nếu T < −T
T ≥T
n + n − 2 ⇒ a < a : chấp nhận giả thiết H
n + n − 2 ⇒ a = a : bác bỏ giả thiết H
4.CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL
+Ước lượng trung bình: dùng chương trình Descriptive Statistics để tìm giá trị
trung bình (Mean) và giới hạn tin cậy (Confidence Level)
+Kiểm định giá trị trung bình: dùng chương trình "t-Test: Two-Sample
Assuming Unequal Variances" để tìm tiêu chuẩn kiểm định (t Stat) và phân vị
một phía (t Critical one-tail)
3
5. TÍNH TOÁN VÀ KẾT QUẢ
a. Ước lượng trung bình:
-Nhập bảng số liệu:
Trước QC Sau QC
86
88
92
94
83
97
88
99
79
89
81
93
90
92
76
98
80
89
91
90
85
97
89
91
77
87
91
80
83
96
-Thiết lập bảng Descriptive Statistics
+Data -> Data Analysis -> Descriptive Statistics
+Xuất hiện bảng Descriptive Statistics:
Input range (phạm vi đầu vào): $C$125:$D$140
Grouped By: columns
Confidence Level for Mean: 95%
-Bảng số liệu xuất ra:
Trước QC
Mean
Standard Error
Median
Mode
Standard Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count
Largest(1)
Smallest(1)
Confidence Level(95.0%)
Sau QC
84.73333333
1.381740333
85
83
5.3514573
28.63809524
-1.320089191
-0.18766807
16
76
92
1271
15
92
76
2.963538273
Mean
Standard Error
Median
Mode
Standard Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count
Largest(1)
Smallest(1)
Confidence Level(95.0%)
92
1.316561177
92
97
5.099019514
26
0.622472202
-0.682593564
19
80
99
1380
15
99
80
2.823742887
4
-Khoảng ước lượng: ε = x(Mean) ± ε (Confidence Level)
Trước QC
Sau QC
x
−
ε
x+ε
x−ε
x+ε
81.7698 87.69687 89.1763 94.8237
b. Kiểm định giá trị trung bình:
-Thiết lập bảng t-Test: Two-Sample Assuming Unequal Variances:
+Data->Data Analysis->t-Test: Two-Sample Assuming Unequal Variances
+ Xuất hiện bảng t-Test: Paired Two Sample for Means
Variable 1 Range: $C$125:$C$140
Variable 2 Range: $D$125:$D$140
Alpha: 0.05
-Bảng số liệu xuất ra:
t-Test: Two-Sample Assuming Unequal Variances
Mean
Variance
Observations
Hypothesized Mean Difference
df
t Stat
P(T<=t) one-tail
t Critical one-tail
P(T<=t) two-tail
t Critical two-tail
Trước QC
84.733333
28.638095
15
0
28
-3.80744
0.0003512
1.7011309
0.0007025
2.0484071
Sau QC
92
26
15
t= −3.80744 < −t
+ − 2 = −1.7011309
⇒ a < a : Chấp nhận giả thiết H
6. KẾT LUẬN
-Tỷ lệ phòng có khách của khách sạn trước và sau quảng cáo là:
Trước QC: 81.7698 < a < 87.6969
Sau QC: 89.176 < a < 94.824
-Chiến dịch quảng cáo của khách sạn thành công
5
CÂU 3:
1. ĐỀ BÀI
Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu nhiên được cho
trong bảng sau đây:
X
Y
14
100
1
83
9
7
9
112 152 104
12
90
1
92
3
85
14
110
1
73
9
7
9
132 122 134
12
98
1
82
3
65
Tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X. Với mức
ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có
tuyến tính không?)? Tìm đường hồi quy tuyến tính của Y đối với X. Tính sai số tiêu chuẩn
của đường hồi quy.
2. DẠNG BÀI
-Phân tích tương quan
-Hồi quy tuyến tính
3. PHƯƠNG PHÁP GIẢI
a. Phân tích tương quan
-Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, tuy
nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung
-Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có một
mối quan hệ phi tuyến tính rất chặt chẽ
-Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu nhiên X
người ta đưa ra khái niệm tỷ số tương quan
-Hệ số tương quan:
n(∑ xy) − (∑ x)(∑ y)
r=
n∑x − ∑x
n∑y − ∑y
-Hệ số xác định: r
SSF
-Tỷ số tương quan: η / =
SST
SSF =
n (x − x)
SST =
− ̅
: tổng các chênh lệch bình phương giữa các nhóm
: tổng các chênh lệch bình phương toàn bộ
b. Hồi quy tuyến tính:
-Đường hồi quy tuyến tính: y = ax+b
n ∑ xy − (∑ x)(∑ y)
a=
n ∑x − ∑x
∑y − a∑x
b = y − ax =
n
6
-Kiểm định tương quan tuyến tính:
+Giả thiết: H: ρ = 0 X, Y không tương quan
H: ρ ≠ 0
r n−2
+T =
1−r
+Nếu T < c ⇒ Chấp nhận H và ngược lại
Trong đó c là phân vị mức α/2 của phân bố Student với bậc tự do n-2
-Kiểm định tương quan phi tuyến:
+Giả thiết: H: η − ρ ≠ 0 không có tương quan phi tuyến
( − )( − )
+F =
(1 − )( − 2)
+Nếu F > c ⇒ Bác bỏ H và ngược lại
Trong đó c là phân phối Fisher với bậc tự do là (k-2)(n-k)
4. CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL:
+Phân tích tương quan: dùng chương trình Correlation
+Hồi quy tuyến tính: dùng Anova: Single Factor và Regression
5. TÍNH TOÁN VÀ KẾT QUẢ
a. Phân tích tương quan:
-Nhập bảng số liệu:
X
Y
14
100
1
83
9
112
7
152
9
104
12
90
1
92
3
85
14
110
1
73
9
132
7
122
9
134
12
98
1
82
3
65
7
-Thiết lập bảng Correlation:
+Data -> Data -> Correlation
+Xuất hiện bảng Correlation
Input Range (phạm vi đầu vào): $B$274:$C$290
Grouped by (nhóm dữ liệu theo): Columns (cột)
Output Range: $B$303
-Bảng số liệu xuất ra:
X
Y
X
1
Y
0.466627
1
+Hệ số tương quan: r = 0.466627
+Hệ số xác định:
r = 0.218
-Kiểm định tương quan tuyến tính:
+Giả thiết: H: ρ = 0 X, Y không tương quan
r n−2
+T =
= 1.974050155
1−r
+Phân phối Student với α = 0.05 và bậc tự do n-2 = 14
Tra bảng ta được: c = 2.145 (=TINV(0.05,14))
+ T < c ⇒ Chấp nhận H
+Vậy X, Y không có tương quan tuyến tính
b. Phân tích tương quan phi tuyến:
-Sắp xếp lại và nhập bảng số liệu:
X
Y
1
73
82
83
92
3
65
85
7
122
152
9
104
112
132
134
12
90
98
14
100
110
-Thiết lập bảng Anova: Single Factor
+Data -> Data Analysis -> Anova: Single Factor
Input Range (phạm vi đầu vào): $A$321:$G$325
Grouped by: Columns
Output Range: $A$340
-Bảng số liệu xuất ra:
8
Anova: Single Factor
SUMMARY
Groups
1
3
7
9
12
14
Count
4
2
2
4
2
2
ANOVA
Source of Variation
Between Groups
Within Groups
Total
Sum
Average Variance
330
82.5 60.3333
150
75
200
274
137
450
482
120.5 219.667
188
94
32
210
105
50
SS
6943.75
1572
8515.75
df
MS
F
P-value
5 1388.75 8.83429 0.00196
10
157.2
F crit
3.32583453
15
-Tỷ lệ tương quan:
+Tổng chênh lệch bình phương các giữa nhóm: SSF = 6943.75
+Tổng chênh lệch bình phương toàn bộ: SST = 8515.75
SSF 6943.75
η / =
=
= 0.815401
SST 8515.75
η
/
= 0.903
-Kiểm định tương quan phi tuyến:
+Giả thiết: H: η − ρ ≠ 0 không có tương quan phi tuyến
( − )( − )
+F =
= 8.094031
(1 − )( − 2)
+Phân phối Fisher với α = 0.05; k-2 = 4; n-k = 10
Tra bảng ta được c = 3.47805 (=FINV(α, k-2, n-k))
+F > c ⇒ Bác bỏ H
+Vậy X, Y có tương quan phi tuyến
9
c. Đường hồi quy tuyến tính:
-Nhập lại bảng số liệu:
X
Y
14
100
1
83
9
112
7
152
9
104
12
90
1
92
3
85
14
110
1
73
9
132
7
122
9
134
12
98
1
82
3
65
-Thiết lập bảng Regression
+Data -> Data Analysis -> Regression
Input Y Range (phạm vi đầu vào Y): $B$388:$B$403
Input X Range (phạm vi đầu vào X): $C$388:$C$403
Output Range: $A$412
-Bảng số liệu xuất ra:
SUMMARY OUTPUT
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error
Observations
0.466627
0.21774
0.161865
21.81337
16
ANOVA
df
Regression
Residual
Total
SS
MS
F
1 1854.224 1854.22 3.89687
14 6661.526 475.823
15 8515.75
Significance F
0.068444012
10
Observation Predicted Y
1 118.4721
2 88.11324
3 106.7956
4
102.125
5 106.7956
6 113.8015
7 88.11324
8 92.78382
9 118.4721
10 88.11324
11 106.7956
12
102.125
13 106.7956
14 113.8015
15 88.11324
16 92.78382
Residuals
-18.4721
-5.11324
5.204412
49.875
-2.79559
-23.8015
3.886765
-7.78382
-8.47206
-15.1132
25.20441
19.875
27.20441
-15.8015
-6.11324
-27.7838
X Line Fit Plot
Y
Intercept
X Variable 1
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
85.777941 9.915316165 8.651 5E-07 64.51170306 107.0442 64.5117031 107.044179
2.3352941 1.182996344 1.974 0.068 -0.20198069 4.872569 -0.2019807 4.87256893
160
140
120
100
80
60
40
20
0
Y
Predicted Y
0
5
10
15
X
-Hệ số góc: a = 2.335294
-Hệ số tự do: b = 85.77794
-Vậy đường hồi quy tuyến tính là: Y = 2.335294X + 85.77794
6. KẾT LUẬN
-Tỷ số tương quan: η / = 0.903
-Hệ số tương quan: r = 0.466627
-Hệ số xác định:
= 0.217741
-X, Y không có tương quan tuyến tính và có tương quan phi tuyến với α = 5%
-Phương trình đường hồi quan tuyến tính Y = 2.335294X + 85.77794
11
CÂU 4:
1. ĐỀ BÀI
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số
liệu về doanh thu trung bình như sau:
Ngành nghề kinh doanh
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học
Q1
5.7
5
3.8
Khu vực kinh doanh
Q2
Q3
3.1
4.4
15
9.5
1.8
1.3
Q4
5
17.5
4.8
Mức ý nghĩa α = 10%
2. DẠNG BÀI
Phân tích phương sai hai yếu tố (không lặp)
3. PHƯƠNG PHÁP GIẢI
a. Giả thiết:
- H: μ = μ = ⋯ = μ : Các giá trị doanh thu trung bình bằng nhau
- H:
: Có ít nhất hai giá trị doanh thu trung bình khác nhau
≠
b. Giá trị thống kê:
Bảng ANOVA
Nguồn sai số
Bậc tự do
Tổng số
bình phương
Bình phương trung
Giá trị
gian
thống kê
SSB
MSB
MSB =
Yếu tố A (hàng)
r-1
SSB
F =
r−1
MSE
SSF
MSF
Yếu tố B (cột)
c-1
SSF
MSF =
F =
c −1
MSE
SSE
SSE=SSTMSE =
Sai số
(r-1)(c-1)
(r − 1)(c − 1)
(SSF+SSB)
Tổng cộng
rc-1
SST
c. Biện luận:
-Nếu: F < F r − 1, r − 1 c − 1
-Nếu: F < F c − 1, r − 1 c − 1
⇒Chấp nhận giả thiết H (yếu tố A)
⇒ Chấp nhận giả thiết H (yếu tố B)
4. CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL:
Dùng chương trình "Anova: Two-Factor Without Replication"
12
5. TÍNH TOÁN VÀ KẾT QUẢ
-Nhập bảng số liệu:
Khu vực kinh doanh
Q1
Q2
Q3
Q4
Điện lạnh
5.7
3.1
4.4
5
Vật liệu xây dựng
5
15
9.5
17.5
Dịch vụ tin học
3.8
1.8
1.3
4.8
-Thiết lập bảng Anova: Two-Factor Without Replication
+Data -> Data Analysis -> Anova: Two-Factor Whithout Replication
+Xuất hiện bảng Anova: Two-Factor Without Replication
Input Range (phạm vi đầu vào): $B$46:$F$50
Labels (nhãn dữ liệu)
Alpha: 0.1
Ngành nghề kinh doanh
-Bảng số liệu xuất ra:
Anova: Two-Factor Without Replication
SUMMARY
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học
Q1
Q2
Q3
Q4
Count
4
4
4
Sum Average Variance
18.2
4.55 1.21667
47
11.75 31.4167
11.7
2.925 2.72917
3
3
3
3
14.5 4.83333 0.92333
19.9 6.63333 52.9233
15.2 5.06667 17.1433
27.3
9.1
52.93
ANOVA
Source of Variation
Rows
Columns
Error
SS
176.4817
34.72917
71.35833
df
MS
F P-value
2 88.2408 7.41953 0.02387
3 11.5764 0.97337 0.46482
6 11.8931
Total
282.5692
11
F crit
3.46330407
3.288761563
-Kết quả biện luận:
F = 7.4195 > F r − 1, r − 1 c − 1 = 3.4633
⇒ Bác bỏ giả thiết H (yếu tố nghành nghề)
F = 0.9734 < F c − 1, r − 1 c − 1 = 3.2888
⇒ Chấp nhận giả thiết H (yếu tố khu vực)
6. KẾT LUẬN
Doanh thu ở 4 quận nội thành không phụ thuộc khu vực kinh doanh mà phụ thuộc vào
ngành nghề
13