Tải bản đầy đủ (.doc) (28 trang)

phương pháp thích hợp, vẽ biểu đồ istogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm đường hồi qui và đánh giá năng lực dự báo c

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (314.96 KB, 28 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
----------o0o----------

BÀI TẬP LỚN MÔN
Phân tích và thống kê số liệu
Nhóm Sinh viên:
1. Nguyễn sỹ Mạnh
2. Bùi Thị Trang

Giáo viên hướng dẫn: Th.S. Nguyễn Phương Nga
Hà nội


Lời Nói Đầu
Trước kia việc nghiên cứu, tính toán..cho một tập dữ liệu là một công việc
tương đối khó khăn và mất thời gian. Nhưng ngày nay, với sự trợ giúp của
CNTT thì các công việc đó đơn giản hơn rất nhiều.
Đặc biệt SPSS for Windows cung cấp một hệ thống quản lý dữ liệu, và phân
tích thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả
(menu) và các hộp thoại (dialogue box) đơn giản để thực hiện hầu hết các
công việc cho bạn. Phần lớn các nhiệm vụ có thể được hoàn thiện bằng cách
rê và nhắp chuột.
Trong phần trình bày này, nhóm chúng tôi xin đưa ra một số bài tập, phân
tích các tham số mô tả đặc trưng bằng phương pháp thích hợp, vẽ biểu đồ
histogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một
khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm
đường hồi qui và đánh giá năng lực dự báo của mô hình,…Bằng việc sử
dụng phần mềm SPSS.
Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế. Chính vì vậy bài
Trình bày không tránh được những sai sót, rất mong nhận được sự đóng góp


của cô giáo và các bạn.
Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga đã tận tình hướng
dẫn nhóm chúng em làm bào báo cáo này
Nhóm chúng em xin chân thành cảm ơn!


I.

Một số bài tập sử dụng phần mền SPSS

Bài1:
Cho một tập số liệu kết quả thực nghiệm:
33
33

32
33

30
25

31
34

22
26

29
29


32
35

24
33

34
34

X8
31
X17
34

X9
32
X18
35

A. Hãy tính các đại lượng đặc trưng của tập số liệu trên
B. Phân tích, đánh giá tập số liệu
Bài Làm:
Sắp xếp tập số liệu theo giá trị tăng dần
X1
22
X10
32

X2
24

X11
33

X3
25
X12
33

X4
26
X13
33

X5
29
X14
33

X6
29
X15
34

A. Tính các đại lượng đặc trưng của tập số liệu

X7
30
X16
34



• Dùng kiểm định Alalyze→Descriptives→frequencies
1. Bảng phân bổ tần suất

Xi
Cumulative
Frequency
Valid

Percent

Valid Percent

Percent

22

1

5.6

5.6

5.6

24

1

5.6


5.6

11.1

25

1

5.6

5.6

16.7

26

1

5.6

5.6

22.2

29

2

11.1


11.1

33.3

30

1

5.6

5.6

38.9

31

1

5.6

5.6

44.4

32

2

11.1


11.1

55.6

33

4

22.2

22.2

77.8

34

3

16.7

16.7

94.4

35

1

5.6


5.6

100.0

18

100.0

100.0

Total


2. Các đại lượng đặc trưng của tập số liệu
Statistics
Xi
N

Valid
Missing

18
0

Mean ( Trung bình)

30.5000

Std. Error of Mean


.91555

Median (Trung vị)

32.0000

Mode (Số trội)

33.00

Std. Deviation (Độ lệch chuẩn)

3.88436

Variance (Phương sai)

15.088

Range (khoảng cách)

13.00

Minimum

22.00

Maximum

35.00


Sum
Percentiles

549.00
25

28.2500

50

32.0000

75

33.2500

- M0 = 33
- Med = ½ * [Xn/2 + X(n/2+1)] = 32
X = 30,5
2
- S = 15,088. Đặc trưng cho sự sai biệt của tập kết quả và đặc trưng
cho độ phân tán của tập số liệu với giá trị trung bình
Phương sai càng lớn thì sai biệt và độ phân tán xung quanh càng lớn
- Sf =
S2 = 3,9. có ý nghĩa như phương sai
- Cv = 12,7%

B. Phân tích đánh giá tập số liệu mẫu



- Khoảng chính xác tin cậy của tập số liệu là: Δx (p,f) = X- μ= t(p,f)* S¯x
= 1,94
- Khoảng giới hạn tin cậy của tập số liệu là:
¯X - t(p,f) * Sf< Xi < ¯X + t(p,f) * Sf
28,57 < Xi < 32,43 (với độ tin cậy thống kê là 95%)

Bài2:
Sử dụng 4 phương pháp nghiên cứu A, B, C và D. Kết quả làm lặp lại theo
mỗi phương pháp 6 lần thu được bảng
N
1
2
3
4
5
6

Ph2A
18,00
18,05
17,95
18,15
17,95
18,20

Ph2B
18,55
17,60
18,00

18,30
18,25
17,90

Ph2C
17,65
17,70
17,90
17,65
17,85
17,75

Ph2D
19,10
18,40
18,10
18,70
18,80
18,50

A. Tính giá trị trung bình, phương sai của mỗi phương pháp và nhận xét
B. Biết giá trị thật là 18,1. Phân tích đánh giá sai số của mỗi phương pháp

Bài làm:
A.




Dùng phần mềm SPSS


Statistics
ph2A
N

ph2B

ph2C

ph2D

Valid

6

6

6

6

Missing

0

0

0

0


18.0500

18.1000

17.7500

18.6000

Std. Error of Mean

.04282

.13723

.04282

.14142

Std. Deviation

.10488

.33615

.10488

.34641

.011


.113

.011

.120

108.30

108.60

106.50

111.60

25

17.9500

17.8250

17.6500

18.3250

50

18.0250

18.1250


17.7250

18.6000

75

18.1625

18.3625

17.8625

18.8750

Mean

Variance
Sum
Percentiles

Ta được
X
S2

Ph2A
18,05
0.012

Ph2B

18,10
0.112

Ph2C
177,75
0.018

Ph2D
18,60
0.120

Theo kết quả phân tích ta thấy
Nếu nghiên cứu theo cả 4 phương pháp A, B , C và D thì sự sai biệt của các
số liệu trong kết quả thực nghiệm và độ phân tán xung quanh giá trị trung
bình là tương đối nhỏ. Tuy nhiên với phương pháp A thì nhỏ nhất
B. Phân tích đánh giá sai số của mỗi phương pháp
- Phương pháp A
ta = 0,354 << tbảng(95,5) >> = 2,57
→x ≡ μ → sai số ngẫu nhiên. Xi phân bố đều hai phái của giá trị thực trên
trục số. Sai số này bao giờ cũng gặp phải và ta chỉ có thể giảm sai số ngẫu
nhiên
- Phương pháp B
tB = 0 < tb = 2,57 → mắc sai số ngẫu nhiên
- Phương pháp C


tc = 6,48 >> tbảng(95,5) = 2,57
→x ≠ μ → sai số hệ thống. Xi Tập trung về một phía của giá trị thực trên trục
số. Ta có thể loiaj bỏ được sai số này nếu tìm ra được nguyên nhân
tD = 3,54 → mắc sai số hệ thống


Bài 3: Hai nghiên cứu A và B thu được kết quả như sau
A
B
A
B
A
B

4,40
4,42
4,75
4,29
4,60
-

4,56
4,47
4,72
4,52
4,36
-

4,42
4,70
4,53
4,57
4,75
-


4,59
4,72
4,66
4,56
4,22
-

4,55
4,53
4,90
4,66

4,45
4,55
4,50
-

4,55
4,60
4,45
-

4,39
4,64
4,66
-

A. Phân tích các đại lượng đặc trưng của tập kết quả thực nghiệm trên
B. So sánh giá trị trung bình và giá trị phương sai của 2 thực nghiệm A
và B

Bài làm:
A.Các đại lượng đặc trưng của tập số liệu
Theo phân tích SPSS ta có

B.
Ta thấy F = 2,12 < Fb(95,12,19) = 2,54
Vậy ta chấp nhận Ho bác bỏ Ha. Tức là chấp nhận S2A = S2B

Theo kết quả phân tích ta có
Kết quả A:
- Khoảng của tập số liệu:R= 0,68


- Giá trị trung bình: ¯X = 4,56
- Độ lệch chuẩn Sf = 0,17
- Phương sai S2 = 0,03
Kết quả B:
- Khoảng của tập số liệu:R= 0,43
- Giá trị trung bình: ¯X = 4,54
- Độ lệch chuẩn Sf = 0,12
- Phương sai S2 = 0,14
B. So sánh phương sai
Ta thấy F= S2A/S2B = 2,12→Chấp nhận S2A = S2B tức là chấp nhận H0 bác bỏ Ha .Điều này chứng tỏ độ
sai biệt giữa kết quả nghiên cứu A và B là giống nhau

Bài 4: Cho kết quả nghiên cứu của A và B
A
B


33,5
31,1

33,9
39,9

33,5
32,8

34,9
31,9

34,1
33,0

33,2
31,6

33,2
32,1

31,1
31,5

31,0
31,0

Phân tích đánh giá và phân tích so sánh hai kết quả nghiên cứu trên
Bài làm:


Descriptive Statistics
N

Mean

Std. Deviation

Variance

A

10

33.0100

1.31272

1.723

B

10

31.8900

.78662

.619

Valid N (listwise)


10

Nhìn bảng phân tích SPSS ta có
XA = 33.1

31,7
31,0


S2A = 1,723
XB = 31,89
S2B = 0,619
* Không liên quan với nhau từng đôi một
H0 = 2 kết quả nghiên cứu không khác nhau
Ha = 2 kết quả khác nhau
d = 33,01-31,89 = 1,12
tt = 1,9 < tb(0,95,18) = 2,101
Vậy chấp nhận H0 tức là hai kết quả nghiên cứu không khác nhau.
* Liên quan với nhau đôi một
d = 0,83
Sd = 0,667
t = 3,2 > tt(0,95,9) = 2,26. Vậy hai kết quả nghiên cứu là khác nhau.

Bài 5: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?
Mức
nghiên
cứu

a1
a2
a3

Lần lặp
1
1
4
9

2
4
9
16

3
9
16
23

Ta có: SS1 = 12 + 42 + 92 + 42 + 92 + 162 + 92 + 162 + 232 =1812
SS2 = 1/3 (142+ 292 + 482) = 1113,7
SS3 = 1/6 (14 + 29 + 48)2 = 1380,2
Có S2A = 133,25
S2TN = 71,97
→ F tính = 1,85
F bảng(95, 2,6) = 5,14
Ta thấy F tính < F bảng . Vậy nhân tố A không ảnh hưởng tới kết quả thực
nghiệm



Bài 6: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?
Mức
nghiên
cứu
A
B
C

Lần lặp
1
3
5
2

2
6
7
3

3
1
4
2

4
2
6

2

Ta có: SS1 = 32 + 62 + 12 + 22 + 52 + 72 + 42 + 62 + 22 + 32 + 22 + 22 =197
SS2 = 1/4 (122+ 222 + 92) = 177,25
SS3 = 1/9 (12 + 22 + 9)2 = 200,67
Có S2A = 11,7
S2TN = 0,41
→ F tính = 28,54
F bảng(95, 2,6) = 5,14
Ta thấy F tính >> F bảng . Vậy nhân tố A ảnh hưởng mạnh tới kết quả thực
nghiệm

Bài 7: Trung tâm nghiên cứu lúa gạo quốc tế tại Philippines muốn xem xét
sự liên quan giữa năng xuất lúa mỳ Y, với mật độ gieo trồng X. Họ thực hiện


các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi quy tuyến tính giữa
X và Y (quan hệ hàm giữa chúng)
Năng suất lúa mỳ
4,862
5,244
5,128
5,052
5,298
5,410
5,234
5,608

Mật độ trồng
160

175
192
195
238
240
252
282

Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation
Ta có hệ số tương quan r = b = 0.728 = 0.853
Ta chọn X là biến phụ thuộc
Y là biến độc lập
Statistics
X
N

Mean

Y

Valid

8

8

Missing

0


0

216.75

5.22950

a = X - b Y = 216,75– 0,853 *5,23 = 212,29
Vậy phương trình đường hồi quy sẽ là X = 212,29 + 0,853*Y


Model Summary and Parameter Estimates
Dependent Variable:X
Model Summary
Equation
Linear

R Square
.728

F
16.036

df1

Parameter Estimates
df2

1


Sig.
6

.007

Constant
-618.657

b1
159.749

The independent variable is Y.

Nhìn đồ thị ta thấy các điểm không nằm trên đường hồi quy. Điều này có
nghĩa là kết quả nghiên cứu giữa năng xuất lúa mỳ y với mật độ gieo trồng x
là không liên quan tới nhau.


Bai 8 : Xét quan hệ thân nhiệt ( nhiệt độ x) và nhịp đập của tim(mạch
đập y) Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi
quy tuyến tính giữa X và Y (quan hệ hàm giữa chúng)
Trẻ em
1
2
3
4
5
6
7
8

9
10

Nhiệt độ (x)
68
65
70
62
60
55
58
65
69
63

Mach đập(y)
2
5
1
10
9
13
10
3
4
6

Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation
Ta có hệ số tương quan r = b = 0,886 = 0,94

Ta chọn x là biến độc lập
Y là biến phụ thuộc


Model Summary and Parameter Estimates
Dependent Variable:nhietdo
Model Summary

Equatio
n
Linear

R Square
.886

F

df1

62.265

Parameter Estimates
df2

Sig.

1

8


Constant

.000

70.736

b1
-1.149

The independent variable is machdap.

Statistics
nhietdo
N

Valid
Missing

Mean

machdap

10

10

0

0


63.50

6.30

Ta có
a = Y - b X = 63,5 – 0,886*6.3 = 57,9
Vậy phương trình đường hồi quy sẽ là
Y = 57,9 X + 0,886
Nhìn đồ thị ta thấy có một điểm nằm trên đường hồi quy. Điều này có nghĩa
là kết quả nghiên cứu giữa nhiệt độ và mạch đập gần như là không tương
quan tới nhau.


II. Chọn 2 tập dữ liệu (Thuộc 1 cột nào đó của file đã cho), 1
tập có n<30 và 1 tập có n>30. Với mỗi tập đó hãy phân tích các
tham số mô tả đặc trưng bằng phương pháp thích hợp và vẽ
biểu đồ histogram của nó.
Từ kết quả, có nhận xét gì về mỗi tập dữ liệu?

Bài làm: Ta tiến hành chọn tập A và B thuộc cột B của file đã cho


A
B
A
B
A
B
A
B


1
5
7
9
9
11
17
4
11
25

2
9
9
10
7
4
18
17
9
26

3
10
8
11
5
7
19

5
6
27

4
7
7
12
10
5
20
9
7
28

5
7
5
13
11
5
21
6
5
29

6
7
9
14

7
9
22
8
4
30

7
6
19
15
5
11
23
5
4
31

8
6
11
16
7
10
24

7

6


8

5

12

7

9

7

Ta có bảng phân bổ tần suất của tập dữ liệu A
A
Cumulative
Frequency
Valid

Total

Valid Percent

Percent

4

1

3.2


4.3

4.3

5

4

12.9

17.4

21.7

6

3

9.7

13.0

34.8

7

6

19.4


26.1

60.9

8

1

3.2

4.3

65.2

9

3

9.7

13.0

78.3

10

2

6.5


8.7

87.0

11

1

3.2

4.3

91.3

15

1

3.2

4.3

95.7

17

1

3.2


4.3

100.0

23

74.2

100.0

8

25.8

31

100.0

Total
Missing

Percent

System

Bảng phân bổ tần suất của tập dữ liệu B

5
32



B
Cumulative
Frequency
Valid

Percent

Valid Percent

Percent

4

3

9.7

9.7

9.7

5

6

19.4

19.4


29.0

6

2

6.5

6.5

35.5

7

6

19.4

19.4

54.8

8

2

6.5

6.5


61.3

9

5

16.1

16.1

77.4

10

1

3.2

3.2

80.6

11

4

12.9

12.9


93.5

12

1

3.2

3.2

96.8

19

1

3.2

3.2

100.0

31

100.0

100.0

Total



Ta có các tham số đặc trưng của 2 tập số liệu

A
N

Valid

B
23

31

8

0

Mean

7.91

7.81

Std. Error of Mean

.659

.565

Median


7.00

7.00

7

5a

Std. Deviation

3.161

3.146

Variance

9.992

9.895

13

15

182

242

25


6.00

5.00

50

7.00

7.00

75

9.00

9.00

Missing

Mode

Range
Sum
Percentiles

a. Multiple modes exist. The smallest value is shown

Từ kết quả phân tích ta thấy
Ftính= S2A/ S2B = 1 < F bảng . Vậy chấp nhận H0 bác bỏ Ha
S2A = S2B đáng tin cậy



Biểu đồ Histogram của tập A


Biểu đồ histogram của tập B


III. Chọn 1 cột nào đó trong số hơn 300 thuộc tính mô tả và 1
cột thuộc tính phụ thuộc, hãy tìm đường hồi qui và phân tích
chất lượng đường hồi qui đó qua việc tính các hệ số xác định,
hệ số tương quan và phân tích qua việc kiểm định giả thuyết
đối với độ dốc B của mô hình. Từ kết quả nhận được, hãy cho
biết mô hình đó có dùng để dự báo được không? tại sao?
Hãy tìm khoảng tin cậy 95% đối với độ dốc B. Ý nghĩa của
khoảng này là gì?
Hày tìm một khoảng tin cậy 95% đối với giá trị trung bình của
biến phụ thuộc khi cho biến độc lập x=1
Bài làm:
Ta chọn cột thuộc tính mô tả S (X)và cột thuộc tính phụ thuộc T(Y)

Statistics
X
N

Valid

Y
816


816

1

1

1.53

5.90

Std. Deviation

1.282

3.821

Variance

1.643

14.598

Sum

1248

4817

Missing
Mean


Model Summary and Parameter Estimates
Dependent Variable:X
Model Summary
Equation
Linear

R Square
.134

F
126.473

The independent variable is Y.

df1

Parameter Estimates
df2

1

Sig.
814

.000

Constant
.803


b1
.123


- Hệ số xác định: r2 = 0,134
- Ta có hệ số tương quan r = b = 0,134 = 0,37
a = Y – b X = 5,90 – 0,37 * 1,53 = 5,33
Vậy đường hồi quy tuyến tính sẽ là Y = 5,33 + 0,37X

- Ta tiến hành kiểm tra năng lực của mô hình bằng kiểm tra giả thuyết
H0: B = 0
Ha: B ≠ 0
n = 816 và α = 0,05 (chọn độ tin cậy là 95%)
df = 816-2 = 814
tα/2 = 160, s = S 2= 1,28
→ SSxx =

∑ ( xi − X ) 2= ∑ Xi 2 – ( ∑ Xi )2/N =…

- (1248)2/816


Từ đó ta tính được ttính =

b
S / SSxx

=…

Ta so sánh t với tα/2 = 160

Nếu ttính < tα/2 ta bác bỏ H0 và kết luận độ dốc B ≠ 0
Chứng tỏ rằng ở mức α= 0,05 các dữ liệu mẫu cung cấp bằng chứng đủ để
kết luận rằng Y đóng góp thông tin hữu ích cho dự đoán của mức X bằng
cách sử dụng mô hình tuyến tính. Trong trường hợp này mô hình có thể
dùng để dự báo được
Còn ngược lại nếu ttính > tα/2
- Khoảng tin cậy 95% đối với độ dốc B là
b ± tα/2 [

S
SSxx

] = 0,37 ± 160* …

Nếu khoảng trên lớn hơn 0 và nhỏ hơn 1 thì X (y),E(y) tăng khi X tăng
(thuận)
Nếu khoảng trên lớn hơn -1 và nhỏ hơn 0 thì X (y),E(y) tăng khi X
giảm(nghịch)
- Khi X= 1 khoảng tin cậy 95% đối với giá trị trung bình của biến phụ thuộc
khi cho biến độc lập x là
Y ^ ± tα/2

1 (1 − X )2
+
n
SSxx

Trong đó Y^ = 5,33 + 0,37*1 = 5,7
1 - X = 0,53


IV. Lấy độ 5 cột biến độc lập và 1 cột biến phụ thuộc, thực hiện
tìm đường hồi qui và đánh giá năng lực dự báo của mô hình.
Hãy tìm khoảng tin cậy 95% đối với độ dốc Bi. Ý nghĩa của
khoảng này là gì?


Bài làm:
Ta chọn tập dữ liệu sau
Độc lập1 Độc lập2 Độc lập3
4
2
2
5
1
4
5
0
3
3
4
6
1
2
5
3
2
4

Độc lập4
1

1
2
6
3
5

Độc lập5
3
4
1
0
0
2

Phụthuộc
0
4
0
1
2
6

A. Ta thấy hệ số tương quan r = b = 0,019 = 0,138
- Ta có mô hình tuyến tính giả thuyết hình thức: Y = B 0 + B1X1 + B2X2 +
B3X3 + B4X4 + B5X5 +e
* Sử dụng các dữ liệu mẫu để tìm phương trình tính toán dựa trên bình
phương cực tiểu.
-Sử dụng công thức bình phương cực tiểu để tìm B0, B1, B2, B3, B4, B5
Ta có
54 

67 
 
23 
B = (X`X)XY =  
12 
98 
 
108

Vậy B0 = 54, B1 =67, B2 = 23, B3 = 12, B4 = 98, B5 = 108
Ta có phương trình tính toán dựa trên bình phương cực tiểu
Y^ = 54 + 67X1 + 23X2 +12X3 + 98X4 + 108X5
* Ta kiểm định năng lực của mô hình xem có phù hợp với dữ liệu không

Tức là ta tính hệ số xác định R2 = 0,019


×