TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
--o0o—
BÀI TẬP LỚN
Môn học: Phân tích và thống kê số liệu
Đề tài: Phân tích ảnh hưởng của 3 yếu tố Số giờ nắng, độ ẩm không khí,
lượng mưa ảnh hường đến nhiệt độ không khí của khu vực Hà Nội những
năm 2011 – 2016
Giảng viên hướng dẫn: Th.s Nguyễn Thị Thanh Huyền
Lớp:
Khoa học máy tính 2
Nhóm:
4
Sinh viên thực hiện:
--Hà Nội – 2017—
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
Giáo trình môn phân tích và thống kê số liệu
CHƯƠNG 2: THU THẬP DỮ LIỆU ĐỂ PHÂN TÍCH
2.1
Dữ liệu thu thập
- Bảng Lượng mưa trung bình của các tháng trong năm từ năm 2011-2016 của khu
vực Hà Nội
- Bảng số giờ nắng trung bình của các tháng trong năm từ năm 2011-2016 của khu
vực Hà Nội
- Bảng Độ ẩm không khí trung bình của các tháng trong năm từ năm 2011-2016
của khu vực Hà Nội
- Bảng Nhiệt độ không khí trung bình của các tháng trong năm từ năm 2011-2016
của khu vực Hà Nội
2.2
Chọn phương pháp để phân tích dữ liệu
- Đề tài: Phân tích sự ảnh hưởng của 3 yếu tố: số giờ nắng, độ ẩm không khí, lượng
mưa đến nhiệt độ không khí của khu vực Hà Nội.
- Tập dữ liệu: 4 tập lấy từ Tổng cục thống kê, 4 đối tượng.
- Phân tích cho bài toán:
+ Phân tích đặc trưng.
+ Phân tích hồi qui tuyến tính đơn, đa biến.
+ Phân tích chuỗi thời gian.
a) Phương pháp phân tích đặc trưng
Phương sai (Variance)
σ2 hoặc S2 = 2
Với N’ = N khi N > 30 () , N’ = N – 1 khi N < 30 ()
- Bảng phương sai của lượng mưa( năm 2011-2016)
Năm
Trung bình
Phương sai
2011
135.925
24422.2
2012
126.667
15084.9
2013
138.383
14849.9
2014
161.225
30262.4
2015
150.1
31315.1
2016
149.6
16612.2
- Bảng phương sai của số giờ nắng (năm 2011-2016)
Năm
Trung bình
Phương sai
2011
111.65
2457.3
2012
110.167
2955.01
2013
97.3333
2800.79
2014
102.317
2539.37
2015
75.8083
3061.86
2016
88.6333
2606.2
- Bảng phương sai của độ ẩm không khí (năm 2011-2016)
Năm
Trung bình
Phương sai
2011
74.5833
39.1742
2012
78.3333
23.5152
2013
78.5
36.8182
2014
78.3333
27.1515
2015
78.5
7.90909
2016
77.3333
19.8788
- Bảng phương sai của nhiệt độ không khí (năm 2011-2016)
Năm
Trung bình
Phương sai
2011
24.8417
26.0845
2012
25.3333
23.8606
2013
24.55
27.1427
2014
24.3917
24.819
2015
24.3333
31.2152
2016
23.35
33.0082
Số trung vị (Median):
Số trung vị của tập N số lẻ:
Med =
Số trung vị của tập N số chẵn:
Med =
- Bảng trung vị của lượng mưa (năm 2011-2016)
Năm
Trung vị
2011
96.0
2012
85.5
2013
112.75
2014
65.4
2015
44.75
2016
127.4
- Bảng trung vị của độ ẩm không khí (năm 2011-2016)
Năm
Trung vị
2011
74.5
2012
78
2013
79
2014
80.5
2015
78.5
2016
79.0
- Bảng trung vị của số giờ nắng (năm 2011-2016)
Năm
Trung vị
2011
124.4
2012
107.65
2013
113.4
2014
104.65
2015
99.7
2016
99.15
Độ lệch chuẩn (Standard deviation):
hoặc Sf =
- Bảng độ lệch chuẩn của lượng mưa (năm 2011-2016)
Năm
Độ lệch chuẩn
2011
156.276
2012
122.82
2013
121.86
2014
173.961
2015
176.961
2016
128.888
- Bảng độ lệch chuẩn của số giờ nắng (năm 2011-2016)
Năm
Độ lệch chuẩn
2011
49.5712
2012
54.36
2013
52.9225
2014
50.3921
2015
52.3556
2016
51.0509
- Bảng độ lệch chuẩn của độ ẩm không khí (năm 2011-2016)
Năm
Độ lệch chuẩn
2011
6.25893
2012
4.84924
2013
6.0678
2014
5.21071
2015
2.81231
2016
4.45856
- Bảng độ lệch chuẩn của nhiệt độ không khí (năm 2011-2016)
Năm
Độ lệch chuẩn
2011
5.1073
2012
4.88473
2013
5.20987
2014
4.98187
2015
5.58705
2016
5.74527
Độ sai chuẩn (Standard error):
hoặc Sx =
- Bảng độ sai chuẩn của nhiệt độ không khí (năm 2011-2016)
Năm
Sai chuẩn
2011
1.47435
2012
1.4101
2013
1.50396
2014
1.43814
2015
1.61284
2016
1.65852
- Bảng sai chuẩn của lượng mưa ( năm 2011-2016)
Năm
Sai chuẩn
2011
45.113
2012
35.4552
2013
35.178
2014
50.2182
2015
51.0842
2016
37.2069
- Bảng độ sai chuẩn của độ ẩm không khí (năm 2011-2016)
Năm
Sai chuẩn
2011
1.8068
2012
1.39986
2013
1.75162
2014
1.5042
2015
0.811844
2016
1.28708
- Bảng sai chuẩn của số giờ nắng (năm 2011-2016)
Năm
Sai chuẩn
2011
14.31
2012
15.6924
2013
15.2774
2014
14.547
2015
15.9736
2016
14.7371
b) Kiểm định dữ liệu bằng phương pháp hồi qui đơn biến
Dữ liệu: lượng mưa trung bình các tháng và nhiệt độ không khí trung bình các
tháng năm 2011
b = = =0.0189754, a = = 22.2624
y = 22.2624+0.0189754 * x
Kiểm định một phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B < 0 hoặc B > 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 1.812
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -1.812 hay ttính > 1.812
Để tính toán các số liệu thống kê thí nghiệm ta cần các giá trị của S, b và SSxx:
ttính = = 13.0886
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05 = 1.812, nên ta bác bỏ H0 và kết luận
rằng độ dốc B > 0 hoặc B < 0. Ở mức = 0.05, các dữ liệu mẫu cung cấp bằng
chứng đủ để kết luận rằng:
Lượng mưa trung bình các tháng có ảnh hưởng đến nhiệt độ không khí
trung bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến tính.
Kiểm định hai phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 2.228
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -2.262 hay ttính > 2.228
ttính = = 13.0886
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05/2 = 2.228, nên ta bác bỏ H0 và kết luận
rằng độ dốc B 0. Ở mức = 0.025, các dữ liệu mẫu cung cấp bằng chứng đủ để kết
luận rằng:
Lượng mưa trung bình các tháng có ảnh hưởng đến nhiệt dộ không khí trung
bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến tính.
Dữ liệu: Số giờ nắng trung bình các tháng và nhiệt độ không khí trung bình các
tháng năm 2011
b = = =0.0784903, a = =16.0782
y =16.0782 +0.0784903 * x
Kiểm định một phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B < 0 hoặc B > 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 1.812
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -1.833 hay ttính > 1.812
Để tính toán các số liệu thống kê thí nghiệm ta cần các giá trị của S, b và SSxx:
ttính = =6.27938
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05 = 1.812, nên ta bác bỏ H0 và kết luận
rằng độ dốc B > 0 hoặc B < 0. Ở mức = 0.05, các dữ liệu mẫu cung cấp bằng
chứng đủ để kết luận rằng:
Số giờ nắng trung bình các tháng có ảnh hưởng đến nhiệt dộ không khí trung
bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến tính.
Kiểm định hai phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 2.228
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -2.262 hay ttính > 2.228
ttính = = 6.27938
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05/2 = 2.228, nên ta bác bỏ H0 và kết luận
rằng độ dốc B 0. Ở mức = 0,025, các dữ liệu mẫu cung cấp bằng chứng đủ để kết
luận rằng:
Số giờ nắng trung bình các tháng có ảnh hưởng đến nhiệt dộ không khí trung
bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến tính.
Dữ liệu: Độ ẩm không khí trung bình các tháng và nhiệt độ không khí trung
bình các tháng năm 2011
b = = =0.017895, a = =26.1729
y =26.1729+0.017895* x
Kiểm định một phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B < 0 hoặc B > 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10và =>tbảng = 1.812
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -1.812 hay ttính > 1.812
Để tính toán các số liệu thống kê thí nghiệm ta cần các giá trị của S, b và SSxx:
ttính = =1.3559
Vì giá trị ttính là nhỏ hơn giá trị tra bảng t 0.05 = 1.812, nên ta chấp nhận H0 và bác bỏ
Ha và kết luận rằng độ dốc B = 0. Ở mức = 0.05, các dữ liệu mẫu cung cấp bằng
chứng không đủ để kết luận rằng:
Độ ẩm không khí của năm 2011ảnh hưởng đến nhiệt độ trung bình cả năm
của các năm ở Hà Nội bằng cách sử dụng mô hình tuyến tính.
Kiểm định hai phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 2.228
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -2.262 hay ttính > 2.228
ttính = = 1.3559
Vì giá trị ttính là nhỏ hơn giá trị tra bảng t 0.05/2 = 2.228, nên ta bác bỏ H a và kết luận
rằng độ dốc B = 0. Ở mức = 0,025, các dữ liệu mẫu cung cấp bằng chứng không đủ
để kết luận rằng:
Độ ẩm không khí trung bình của năm 2011 ảnh hưởng đến nhiệt dộ trung
bình năm 2011 ở Hà Nội bằng cách sử dụng mô hình tuyến tính.
Vì dữ liệu không đáng tin cậy nên sử dụng dữ liệu: năm 2015
Dữ liệu: Độ ẩm không khí trung bình các tháng và nhiệt độ không khí trung
bình các tháng năm 2015
b = = =-1.65862, a = =154.535
y =154.535-1.65862* x
Kiểm định một phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B < 0 hoặc B > 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10và =>tbảng = 1.812
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -1.812 hay ttính > 1.812
Để tính toán các số liệu thống kê thí nghiệm ta cần các giá trị của S, b và
SSxx:
ttính = =5.68967. Vì giá trị t tính là lớn hơn giá trị tra bảng t 0.05 =
1.812, nên ta bác bỏ H0 và kết luận rằng độ dốc B > 0 hoặc B<0. Ở mức = 0.05,
các dữ liệu mẫu cung cấp bằng chứng đủ để kết luận rằng:
Độ ẩm không khí của năm 2015 ảnh hưởng đến nhiệt độ trung bình năm
2015 ở Hà Nội bằng cách sử dụng mô hình tuyến tính.
Kiểm định hai phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 2.228
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -2.262 hay ttính > 2.228
ttính = = 5.68967
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05/2 = 2.228, nên ta bác bỏ H0 và kết luận
rằng độ dốc B 0. Ở mức = 0,025, các dữ liệu mẫu cung cấp bằng chứng đủ để kết
luận rằng độ ẩm không khí trung bình của năm 2015 ảnh hưởng đến nhiệt dộ trung
bình năm 2015 ở Hà Nội bằng cách sử dụng mô hình tuyến tính.
c) Kiểm định dữ liệu bằng phương pháp hồi qui đa biến
Dữ liệu: lượng mưa(x1), số giờ nắng(x2), độ ẩm không khí(x3), nhiệt độ không
khí (y)của năm 2011
B1 = ==- 0.000910157
B2= ==0.127887
B3= ==0.6187
B0= = 24.8417-135.925*(- 0.000910157)-111.65*0.127887
-74.5833*0.6187= -35.4579
=> y== -35.4579 - 0.000910157*x1+0.127887*x2+0.6187*x3
Nhietdokk.Nam2011 = -35.4579 - 0.000910157*Luongmua.Nam2011 +
0.127887*Sogionang.Nam2011 + 0.6187*Doamkk.Nam2011.
Kiểm định một phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B < 0 hoặc B > 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 1.812
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -1.812 hay ttính > 1.812
Để tính toán các số liệu thống kê thí nghiệm ta cần các giá trị của S, b và SSxx:
ttính = =-2.91828
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05 = 1.812, nên ta bác bỏ H0 và kết luận
rằng độ dốc B > 0 hoặc B < 0. Ở mức = 0,05, các dữ liệu mẫu cung cấp bằng
chứng đủ để kết luận rằng độ ẩm không khí trung bình các tháng có ảnh hưởng đến
nhiệt dộ không khí trung bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến
tính.
Kiểm định hai phía:
Để kiểm tra giả thuyết về B ta đặt:
H0: B = 0
Ha: B 0
Với n = 12 và = 0.05
tbảng dựa trên df = (n - 2) = 10 => v = 10
tra bảng T với v = 10 và =>tbảng = 2.228
Vì vậy, chúng ta bác bỏ H0 nếu ttính < -2.262 hay ttính > 2.228
ttính = = = =-2.91828
Vì giá trị ttính là lớn hơn giá trị tra bảng t0.05/2 = 2.228, nên ta bác bỏ H0 và kết luận
rằng độ dốc B 0. Ở mức = 0,025, các dữ liệu mẫu cung cấp bằng chứng đủ để kết
luận rằng độ ẩm không khí trung bình các tháng có ảnh hưởng đến nhiệt dộ không
khí trung bình năm 2011 Hà Nội bằng cách sử dụng mô hình tuyến tính.
CHƯƠNG 3: PHÂN TÍCH VÀ DỰ BÁO DỰA VÀO PHẦN MỀM
STATGRAPHCS
3.1 Các đại lượng đặc trưng.
Các bước thực hiện trong phần mềm statgraphics: Analyze -> Variable Data ->
One –Variable Analysis… Sau khi hiển thị hộp thoại One –Variable Analysis. Chọn cột
muốn thực hiện -> chọn Data -> Ok.
Hộp thoại sau xuất hiện: -> OK
Kết quả sẽ được như sau:
- Các đại lượng đặc trưng của Số giờ nắng của các năm:
Năm 2011
Năm 2016
- Các đại lượng đặc trưng của lượng mưa qua các năm:
Năm 2011
Năm 2016
- Các đại lượng đặc trưng của độ ẩm không khí qua các năm:
Năm 2011
Năm 2016
- Các đại lượng đặc trưng của độ ẩm không khí qua các năm:
Năm 2011
Năm 2016
3.2. Mô hình hồi quy đơn biến.
Các bước thực hiện: Improve -> Regression Analysis -> One Factor ->
Simple Regression… Sau khi hộp thoại Simple Regression xuất hiện thì ô Y chọn cột là
biến phụ thuộc còn X thì chọn cột là biến độc lập ->OK.
Hộp thoại sau xuất hiện -> chọn dữ liệu cần -> OK
Kết quả sẽ thu được như sau:
- Nhiệt độ không khí phụ thuộc vào số giờ nắng:
Năm 2011