TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
- - -- - -
BÁO CÁO
MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU
Đề tài: Phân tích số giờ nắng của các tháng năm 2011
Giảng viên HD
: Th.S. Nguyễn Phương Nga
Lớp
: Đại học Khoa học máy tính 2 - K7
Sinh viên TH
: Nhóm 16
HÀ NỘI - 2015
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
- - -- - -
BÁO CÁO
MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU
Đề tài: Phân tích số giờ nắng của các tháng năm 2011
Giảng viên HD: Th.S. Nguyễn Phương Nga
Sinh viên TH : Nhóm 16
Trương Minh Công
Nguyễn Đức Mạnh
Đặng Văn Đoàn
Mục lục
LỜI NÓI ĐẦU
“Phân tích thống kê số liệu” là một ngành khoa học có ứng dụng tương đối rộng
rãi trong các lĩnh vực của đời sống như nông nghiệp, kinh tế, y học, các ngành khoa
học…. Nó giúp chúng ta có những đánh giá, dự báo về một sự kiện, một đối tượng nào
đó, từ đó giúp chúng ta đưa ra được những giải pháp đúng đắn để phát huy cũng như
hạn chế, khắc phục những ưu và nhược điểm của sự kiện, đối tượng đó.
Đối với Nhóm 16 - ĐH Khoa học máy tính 2_K7 thì “Phân tích thống kê
số liệu” là một môn mới và xa lạ. Tuy nhiên trong quá trình học và nghiên cứu môn
nhóm đã được tìm hiểu và được sự hướng dẫn của cô giáo Nguyễn Phương Nga. Do
vậy nhóm đã quyết định chọn đề tài bài tập lớn là: “Phân tích số giờ nắng của các
tháng năm 2011” để nghiên cứu. Vận dụng những kiến thức đã học được nhóm đã
nghiên cứu và đưa ra những dự báo, đánh giá về tình hình số giờ nắng của một số
vùng miền trên cả nước, thấy được sự chênh lệch giữa các vùng miền, từ đó sẽ đưa ra
các dự báo thích hợp.
Nhóm 16 xin chân thành cảm ơn cô giáo Nguyễn Phương Nga đã tận tình giúp
nhóm hoàn thành bài tập lớn này.
4
CHƯƠNG I: LÝ THUYẾT TÌM HIỂU
I
KHÁI NIỆM:
Mặt lượng của hiện tượng thường xuyên biến động qua thời gian. Trong thống
kê để nghiên cứu sự biến động này ta thường dựa vào dãy số thời gian.
Dãy số thời gian là dãy số các trị số của chỉ tiêu thống kê được sắp xếp theo thứ
tự thời gian.
Mỗi dãy số thời gian có hai thành phần:
- Thời gian: có thể là ngày, tuần, tháng, quí, năm, . . .
. Độ dài giữa hai thời
gian liền nhau được gọi là khoảng cách thời gian.
- Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối, số tương
đối, số bình quân. Trị số của chỉ tiêu còn gọi là mức độ của dãy số.
II. PHÂN LOẠI DÃY SỐ THỜI GIAN
Căn cứ vào tính chất thời gian của dãy số, có thể phân biệt thành 2 loại:
1
Dãy số thời kỳ:
Là dãy số biểu hiện mặt lượng của hiện tượng qua từng thời kỳ nhất định
2
Dãy số thời điểm:
Là loại dãy số biểu hiện mặt lượng của hiện tượng qua các thời điểm nhất định.
Dãy số này còn được phân biệt thành 2 loại:
- Dãy số thời điểm có khoảng cách thời gian đều nhau.
III. CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN BIẾN ĐỘNG THỜI GIAN
1.
Biến động có xu hướng.
2. Biến động theo thời vụ.
3. Biến động theo chu kỳ.
4. Biến động bất thường.
5
IV.CÁC CHỈ TIÊU PHÂN TÍCH
Để phản ánh đặc điểm biến động qua thời gian của hiện tượng nghiên cứu,
người ta thường tính các chỉ tiêu sau đây:
1. Mức độ trung bình theo thời gian:
Chỉ tiêu này phản ánh mức độ đại biểu của các mức độ tuyệt đối trong một dãy
số thời gian. Mức độ trung bình theo thời gian được xác định theo các công thức khác
nhau, tùy theo tính chất thời gian của dãy số.
Đối với dãy số thời kỳ:
Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số
các mức độ, tức là:
n
y + y2 + y3 + ... + yn
y= 1
=
n
∑y
i =1
1
n
Trong đó:
Yi (i = 1,…, n): các mức độ của dãy số thời kỳ
n: số mức độ của dãy số
Đối với dãy số thời điểm:
* Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo
công thức sau:
y
= (y1 /2 + y2 + y3 + … + yn-1 + yn / 2) / (n -1)
Trong đó: yi (i=1,2, . . . ,n) là các mức độ của dãy số thời điểm. n: số mức độ của
dãy số
Từ ví dụ (2) ta tính
y
y
:
= (256 / 2 + 364 + 370 + 352 /2) = 362,666
Có nghĩa là hàng hóa tồn kho trung bình của quý I là 362,666 triệu đồng.
6
* Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bình
được tính theo công thức:
n
y t + y t + y t + ... + ynt n
y= 11 2 2 3 3
=
t1 + t2 + t3 + ... + tn
∑yt
i =1
n
i i
∑t
i =1
i
Trong đó: yi (i=1,2,3, . . ., n): các mức độ của dãy số thời điểm.
ti (i=1,2, . . . , n): độ dài của các khoảng cách thời gian.
2. Lượng tăng hoặc giảm tuyệt đối
Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời gian
nghiên cứu. Tùy theo mục đích nghiên cứu ta có:
Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn)
Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳ
liền nhau.
Công thức tính:
δ = yi − yi −1
yi : mức độ của kỳ nghiên cứu
yi-1 :mức độ của kỳ đứng liền trước đó.
* Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là
(n-1) lượng tăng (giảm) tuyệt đối từng kỳ.
Lượng tăng (hoặc) giảm tuyệt đối định gốc
Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua một
thời gian dài.
Công thức tính:
∆ y = yi − y1
yi : mức độ của kỳ nghiên cứu.
y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số).
7
+ Mối quan hệ giữa
∆y
và
δy
Tổng đại số của các lượng tăng (giảm) tuyệt đối từng kỳ bằng lượng tăng (giảm)
tuyệt đối định gốc:
∆ y = ∑ δ yi
Lượng tăng giảm tuyệt đối trung bình
Chỉ tiêu này phản ánh lượng tăng (giảm) tuyệt đối điển hình của hiện tượng trong
cả thời kỳ nghiên cứu:
δ y = ∑ δ yi / (n − 1) = ∆ y / (n − 1) = ( yn − y1 ) / (n − 1)
3. Tốc độ phát triển
Là một số tương đối (thường được biểu hiện bằng lần hoặc %) phản ánh tốc độ
và xu hướng biến động của hiện tượng qua thời gian. (tuỳ theo mục đích nghiên cứu ta
có tốc độ phát triển sau đây:)
Tốc độ phát triển từng kỳ (liên hoàn)
Chỉ tiêu này phản ánh hiện tượng đã phát triển với tốc độ phát triển cụ thể là bao
nhiêu qua 2 kỳ liền nhau:
ki = yi / (yi -1) (ĐVT: lần hoặc %)
* Nhận xét: dãy số thời gian có n mức độ, chỉ có thể tính được nhiều nhất là (n-1)
tốc độ phát triển từng kỳ.
Tốc độ phát triển định gốc
Chỉ tiêu này đánh giá nhịp độ phát triển của hiện tượng nghiên cứu qua 1 thời
gian dài.
K = yn / y1 (lần)
hoặc K= yn x100/ y1 (%)
Trong đó: yi : mức độ từng kỳ nghiên cứu (i=2,3, . . .
8
.,n)
yi : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số).
* Mối quan hệ giữa K và k: tích số của các tốc độ phát triển từng kỳ bằng tốc độ
phát triển định gốc.
k1.k2.. .
. . . kn-1. = K
Tốc độ phát triển trung bình
Chỉ tiêu này phản ánh tốc độ phát triển điển hình của hiện tượng trong cả thời kỳ
nghiên cứu:
k=
n −1
k1.k2 .k3 ...kn −1 =
n
n −1
∏ ki = n−1
i =1
yn
y1
(lần hoặc %)
4. Tốc độ tăng hoặc giảm
Là chỉ tiêu cho thấy nhịp độ tăng trưởng của hiện tượng nghiên cứu qua thời gian.
. Tốc độ tăng (giảm) liên hoàn (từng kỳ)
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua
2 thời kỳ nghiên cứu liền nhau
a=
δy
y −y
= i i −1 = k − 1
yi −1
yi −1
hoặc a =
k − 100
(%)
Tốc độ tăng giảm định gốc
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua
1 thời gian dài.
b=
∆y
y1
=
yi − y1
= K −1
y1
(lần)
hoặc b = K – 100 (%)
5.2.4.3. Tốc độ tăng (giảm) trung bình
9
Chỉ tiêu này cho thấy nhịp độ tăng (giảm) điển hình của hiện tượng trong cả thời
kỳ nghiên cứu.
a = k −1
hoặc
(lần)
a = k − 100
(%)
5. Trị tuyệt đối của 1% tăng (hoặc giảm)
Chỉ tiêu này dùng để đánh giá trị số tuyệt đối tương ứng với 1% của tốc độ tăng
(hoặc giảm) từng kỳ.
c=
δ y yi − yi −1 yi −1
=
=
a
k − 100 100
(ĐVT trùng với ĐVT của lượng biến)
CHƯƠNG II: TRIẾN KHAI VỚI BÀI TOÁN ỨNG DỤNG
10
I.THU THẬP DỮ LIỆU
Qua việc tìm hiểu trên sách báo và các trang thống kê nhóm đã thu thập được
dữ liệu số giờ nắng của các tĩnh năm 2011
Không gian mẫu là 12 tháng được lựa chọn trong số liệu thống kê. Nhóm nhận
thấy không gian mẫu tương đối nhỏ nhưng đủ mức tin cậy để sử dụng các mô hình
thống kê.
Tháng
Hà nội
Đà nẵng
Nha trang
Nhiet do
trung binh
80.4
Luongmua
trung binh
(mm)
64
1
4.0
39.8
2
37.9
161.9
214.7
17.5
27.6
3
15.0
113.0
112.9
71.0
28.3
4
57.0
174.8
257.9
18.2
29.1
5
138.5
258.7
285.9
123.9
29.5
6
127.2
222.9
269.1
171
28.5
7
151.4
232.8
275.1
125.8
27.9
8
151
231.1
293.2
194.8
28.4
9
102.7
105.5
192.6
407.6
28.1
10
76.8
107.7
193.0
441.3
28.1
11
106.5
115.3
154.3
464.8
28.1
12
95.6
18.1
45.2
168.7
27.2
26.9
II.XÁC ĐỊNH BÀI TOÁN
1.Yêu cầu của bài toán
Bài toán “Phân tích số giờ nắng của các tháng năm 2011” với mục đích nghiên cứu về
số giờ nắng của các tháng qua đó đưa ra được ảnh hưởng của số giờ nắng và dự đoán
trong các năm tiếp theo, đưa ra được nhận xét về quá trình chuyển dịch cơ cấu số giờ
nắng tới diện tích gieo trồng lúa.
2.Mô hình dữ liệu
X: Là biến các tháng năm 2011
HaNoi: Là biến số giờ nắng ở Hà nội
11
DaNang: Là biến số giờ nắng ở Đà Nẵng
NhaTrang: Là biến số giờ nắng ở Nha Trang
luongmua: Là biến lượng mưa trung binh các tháng năm 2011
nhietdo:Là biến nhiệt độ trung bình các tháng năm 2011
III:PHƯƠNG PHÁP ÁP DỤNG
1.Phân tích đặc trưng
Chúng ta tiến hành phân tích từng thành phần số liệu riêng của từng sản lượng
của từng yếu tốvà rút ra các bảng kết quả sau:
Chú thích
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Count: Số lượng mẫu.
Average: Số trung bình.
Median: Trung vị.
Mode: Số trội.
Variance: Phương sai.
Standard deviation: Độ lệch chuẩn.
Coeff. of variation: Hệ số biến thiên.
Standard Error: Sai số chuẩn.
Minimum: Trị số quan sát bé nhất.
Maximum: Trị số quan sát lớn nhất.
Range: Độ biến thiên.
Skewness: Độ lệch của phân bố.
Kurtosis: Độ nhọn của phân bố.
Sum: Tổng các trị số quan sát.
Analyze > Variable Data > One – Variable Analysis…
12
2. Mô hình hồi quy đơn biến
2.1 Khái niệm
Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tính
khi tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽ
một đường cũng được “làm khớp ” cho một tập dữ liệu. Tuy nhiên vấn đề là: Làm thế
nào vẽ một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so với
đường thẳng được làm khớp.
Các giải pháp cho vẫn đề:
Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị trung bình
của y tương ứng với giá trị của x. Đồ thị là đường thẳng và các điểm đi chệch so với
đường thẳng này do ngẫu nhiên, và bằng e, tức là:
y=A+Bx+e
Trong đó: A và B là các tham số chưa biết trong xác định mô hình. Nếu ta giả
xử giá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
y= A+Bx
Do đó, xét giá trị trung bình của y tương ứng giá trị xác định của x, đồ thị là
đường thẳng.
Viết dạng tổng quát, với một mô hình tuyến tính đơn giản, ta có
y= A+Bx+e
Trong đó :
- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp ứng)
- x là biến độc lập
- e là lỗi ngẫu nhiên
- A hệ số tự do
- B độ nghiêng của đường thẳng
13
2.2 Tính hệ số tự do(A), độ nghiêng(B) theo phương pháp bình phương cực tiểu
Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B
của mô hình hồi quy dựa trên một dữ liệu mẫu.
Giả sử chúng ta có một mẫu của n điểm dữ liệu (x1,y1), (x2,y2),.., (xn,yn). Mô hình
đường thẳng cho các y tương ứng với x là:
y=AB + x+e
Đường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữ liệu
mẫu . Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước lượng
của A và B tương ứng. Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trị quan
sát của y là yi và các giá trị dự đoán của y sẽ là:
và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:
Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương pháp
bình phương cực tiểu của các tham số quần thể A và B và phương trình dự báo được
gọi là đường bình phương cực tiểu.
Công thức tính toán cho đường bình phương cực tiểu:
14
2.3 Đánh giá phương sai ()
Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết
và phải được ước tính từ dữ liệu mẫu. Với đo phương sai của cá giá trị y về đường hồi
quy, trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp.
2.4 Kiểm định về năng lực mô hình
Kiểm định 1 phía
Kiểm định thống kê:
Vùng bác bỏ
( dựa trên bậc tự do df = (n-2))
Kiểm định 2 phía
Kiểm định thống kê:
Vùng bác bỏ
( dựa trên bậc tự do df = (n-2))
3 Hồi quy đa biến
3.1 Giới thiệu các mô hình tuyến tính tổng quát
Một số mô hình:
Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
Đặt
15
Trở thành mô hình bậc nhất:
Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến.
Mô hình tuyến tính đa biến tổng quát
Trong đó:
-
y: biến phụ thuộc (biến được mô hình hóa)
x1, x2, ….., xk: biến độc lập
e: lỗi ngẫu nhiên
Bi: xác định sự đóng góp của các biến độc lập xi
a Giả định
Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến
Trong đó e là sai số ngẫu nhiên :
Đối với các giá trị bất kỳ của x1, x2,…, xk lỗi ngẫu nhiên e có phân bố
chuẩn với trung bình bằng 0 và phương sai bằng
Các lỗi ngẫu nhiên là độc lập
b Phương pháp bình phương tối thiểu
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản.
Giả sử ta có bảng dữ liệu mẫu:
Điể
m
d
ữ
li
ệ
u
Giá
tr
ị
y
x1
x2
…
xk
1
y1
x11
x21
…
xk1
2
y2
x12
x22
…
xk2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N
yn
.
.
.
…
x1
x2
xk
n
n
n
16
Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B0, B1, B2,…., Bk sao
cho cực tiểu.
SSE =
=
Chúng ta có có thể viết ngắn gọn:
Y=, X=, b=
Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:
(X’X)b = X’Y
Trong đó X’ là chuyển vị của X
Suy ra : b = (X’X)-1 XY
c Đánh giá phương sai
Vì phương sai sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ liệu
mẫu để ước tính giá trị của nó
Ước lượng của , phương sai trong mô hình hồi quy đa biến
Trong đó
d Đánh giá và kiểm định
Kiểm định một phía:
H0: Bi=0; Ha: Bi<0 (hoặc Bi>0)
Kiểm định thống kê
t=
Vùng loại bỏ
t < -tα (hoặc t > t α)
Kiểm định hai phía:
H0: Bi=0; Ha: Bi≠0
Kiểm định thống kê
17
t=
Vùng loại bỏ
t < -tα/2 (hoặc t > tα/2
e Kiểm tra năng lực của mô hình
Kiểm tra năng lực của mô hình:
E(y) = B0 + B1x1 + … + Bkxk
H0: Bi=0; Ha: Bi≠0
Kiểm định thống kê:
F=
Vùng bác bỏ: F > Fα
f Sử dụng mô hình để ước lượng và dự báo
Một khoảng tin cậy(1-α)100% đối với E(y)
tα/2 s
Trong đó:
= b0+b1x1*+b2x2*+…+bχxχ*
x*=(1 x1* x2* … xχ*)’ là một giá trị cụ thể của x
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
Một khoảng dự báo(1-α)100% đối với E(y)
tα/2 s
Trong đó:
= b0+b1x1*+b2x2*+…+bχxχ*
x*=(1 x1* x2* … xχ*)’ là một giá trị cụ thể của x
s và (X’X)-1 đạt được từ phân tích bình phương cực tiểu
tα/2 dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
3.2 Mô hình tương quan
3.2.1 Tổng quan
Để mô tả độ tương quan giữa hai biến, chúng ta cần phải ước tính hệ số tương
quan (coefficient of correlation). Và, để hiểu “cơ chế” của hệ số tương quan, chúng ta
cần làm quen với khái niệm hiệp biến(covariance). Chúng ta biết rằng với một
biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung (mean), và phương
18
sai (variance), mà tôi đã bàn qua trong bài ‘Độ lệch chuẩn hay sai số chuẩn?’. Nhưng
để mô tả mối tương quan giữa hai biến X và Y, chúng ta cần đến hiệp biến.
Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng cho
một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí
Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia:
Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức
tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau:
Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập
với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai
của X cộng với phương sai của Y:
var(X + Y) = var(X) + var(Y)
trong đó, “var” là viết tắt của phương sai (tức variance). Chú ý rằng X+Y là một biến
mới. Chúng ta cũng chú ý rằng công thức này tương đương với Định lí Pythagoras
cho tam giác vuông.
Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng
một công thức khác với hiệp biến:
var(X + Y) = var(X) + var(Y) + 2×Cov(X,Y)
trong đó, “Cov” là viết tắt của hiệp biến (tức covariance). Chúng ta chú ý rằng công
thức này tương đương với công thức của tam giác thường, và cũng chú ý rằng công
thức trên giống như nhị thức:
Trên đây là khái niệm. Bây giờ để đi vào chi tiết toán, chúng ta cần một số kí
hiệu để viết tắt các chỉ số trên. Gọi xi và yi là hai biến quan sát được của X và Y cho cá
nhân i. Giả sử chúng ta có n đối tượng thì i = 1, 2, 3, …., n. Gọi
19
và
là hai số trung
bình của biến quan sát được x và y;
và
lần lược là phương sai của hai biến, được
định nghĩa như sau:
Do đó, nếu X và Y độc lập, chúng ta có thể viết:
Nhưng nếu X và Y có liên hệ với nhau, công thức trên không đáp ứng được vấn
đề mô tả. Chúng ta cần tìm một chỉ số khác mô tả mối liên hệ giữa hai biến, bằng
cách nhân độ lệch của biến x từ số trung bình,
biến y,
, cho độ lệch của
, thay vì bình phương độ lệch từng biến riêng lẻ như công thức [1].
Nói cách khác, tích số hai độ lệch chính là hiệp biến. Đối với mỗi cá nhân, hiệp biến
là:
Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia
cho số đối tượng:
Công thức [2] chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng ta có
thể rút ra vài nhận xét sơ khởi:
o
Phương sai lúc nào cũng là số dương, bởi vì chúng được tính toán từ
bình phương, nhưng hiệp biến có thể âm mà cũng có thể dương vì được ước tính từ
tích của hai độ lệch.
20
Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo
o
chiều hướng thuận với y.
Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo
o
chiều hướng nghịch với y.
Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì
o
với nhau.
Một cách để “chuẩn hóa” hiệp biến và phương sai là lấy tỉ số của hai chỉ số này, và đó
chính là định nghĩa củahệ số tương quan. Hệ số tương quan thường được kí hiệu
bằng r:
(Chú ý rằng căn số bậc hai của phương sai là độ lệch chuẩn, tức
là:
, cho nên công thức trên được mô tả bằng độ lệch
chuẩn, thay vì phương sai). Với vài thao tác đại số, có thể viết lại công thức [3] như
sau:
Công thức còn được biết đến như là hệ số Pearson (Pearson’s correlation
coefficient) để ghi nhận cống hiến của nhà thống kê học nổi tiếng Karl Pearson, người
đầu tiên phát triển lí thuyết về tương quan vào đầu thế kỉ 20.
Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị
của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại.
Nếu r = 1 hay r = -1 (Biểu đồ 1a và 1b), mối liên hệ củay và x được hoàn toàn xác
định; có nghĩa là cho bất cứ giá trị nào của x, chúng ta có thể xác định giá trị
của y.Nếu r = 0 (Biểu đồ 1c), hai biến x và y hoàn toàn độc lập, tức không có liên hệ
với nhau.
21
Biểu đồ 1: Mối liên hệ giữa x và y: (a) r = 1, (b) r = -1, và (c) r = 0 (độc lập).
Biểu đồ 1: Mối liên hệ giữa x và y: (d) r = 0.80; (e) r = -0.80, và (f) r = 0.001
Tất nhiên, trong thực tế khoa học thực nghiệm, ít khi nào chúng ta có những
mối liên hệ xác định như vừa trình bày. Vì sai số trong đo lường, vì các lí do dao động
sinh học, mối liên hệ giữa x và y thường dao động cao hơn -1 và thấp hơn 1, như Biểu
đồ 1d, 1e và 1f.
Vấn đề đặt ra là diễn dịch ý nghĩa của hệ số tương quan như thế nào? Có thể
xem hệ số tương quan như là một “hệ số ảnh hưởng” (effect size). Nếu hệ số ảnh
hưởng càng cao, thì mối liên hệ có ý nghĩa lâm sàng thực tế. Tuy nhiên, vì ý nghĩa
lâm sàng còn tùy thuộc vào bộ môn khoa học. Chẳng hạn như đối với các bộ môn
khoa học đòi hỏi độ chính xác cao, hệ số tương quan phải trên 0.8 mới có thể xem là
“có ý nghĩa”; nhưng đối với các bộ môn khoa học lâm sàng và y tế công cộng, một hệ
số tương quan 0.6 cũng có thể là có ý nghĩa.
Sau đây là những qui ước chung về cách diễn dịch hệ số tương quan trong lâm
sàng và y tế công cộng.
22
Bảng 2. Ý nghĩa của hệ số tương quan
Hệ số tương quan
Ý nghĩa
±0.01 đến ±0.1
Mối tương quan quá thấp, không đáng kể
±0.2 đến ±0.3
Mối tương quan thấp
±0.4 đến ±0.5
Mối tương quan trung bình
±0.6 đến ±0.7
Mối tương quan cao
±0.8 trở lên
Mối tương quan rất cao
Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không có
nghĩa là những “tiêu chuẩn vàng” để ứng dụng.
3.2.2 Khoảnh tin cậy 95 % của hệ số tương quan
Cũng như các thông số thống kê khác như số trung bình và độ lệch chuẩn, hệ
số tương quan cũng chịu ảnh hưởng của dao động giữa các mẫu. Do đó, chúng ta cần
phải ước tính khoảng tin cậy 95% của hệ số tương quan. Xin nhắc lại rằng, chúng ta
không biết hệ số tương quan thật (tức là hệ số trong quần thể, và hãy gọi hệ số này là
ρ) là bao nhiêu, nên phải sử dụng hệ số r để ước tính ρ.
Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ lệch chuẩn
của r.
Lý thuyết thống kê cho biết độ lệch chuẩn của r là: . Khó khăn ở đây, như công
thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính độc lập. Do
đó, cần phải tìm một phương pháp khác sao cho khách quan hơn. Nhà thống kê học
(và cũng là cha đẻ của khoa học thống kê hiện đại và cha đẻ của lí thuyết di truyền
hiện đại) Ronald A. Fisher chứng minh rằng thay vì tính độ lệch chuẩn của r, có thể
tính độ lệch chuẩn của một hàm số của r và sẽ đạt được mục tiêu khách quan.
23
Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán chuyển r sang
một chỉ số mới z, qua công thức sau đây:
Và, có thể chứng minh rằng độ lệch chuẩn của z là:
Do đó, khoảng tin cậy 95% của z là: z ± 1.96*sz . Tất nhiên, sau khi đã ước tính
được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại cho khoảng tin
cậy 95% của ρ.
3.2.3 Kiểm định 2 hệ số tương quan
Giả sử chúng ta có hai hệ số tương quan r1 và r2, là ước số của hai hệ số ρ1
và ρ2 trong một quần thể. Hai hệ số r1 và r2 được ước tính từ hai mẫu độc
lập n1 và n2 đối tượng. Để kiểm định giả định rằng ρ1=ρ2 và giả định
ρ1≠ρ2 , chúng ta trước hết cần phải hoán chuyển r thành chỉ số z:
Gọi d = z1-z2 , chúng ta có thể chứng minh rằng phương sai của d là:
Hay, nói cách khác, độ lệch chuẩn của d là:
Và kiểm định cho giả thuyết ρ1=ρ2 có thể tính toán chỉ số t như sau:
24
Có thể chứng minh rằng nếu giả thuyết ρ1=ρ2 là đúng thì t tuân theo luật phân
phối chuẩn với trung bình 0 và phương sai 1. Điều này có nghĩa là nếu giá trị
của t thấp hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan khác nhau
có ý nghĩa thống kê.
4 Chuổi thời gian
4.1 Định nghĩa
• Chuỗi thời gian là tập hợp các giá trị của một biến ngẫu nhiên được sắp xếp
theo thứ tự thời gian
• Chuỗi thời gian còn được gọi là dãy số thời gian. Đơn vị thời gian có thế là
ngày, tháng, quý, năm
• Phân tích chuỗi thời gian có mục đích là làm rõ cấu trúc của chuỗi thời
gian( túc là các thành phần của nó) trong sự biến động của bản thân no. Trên cơ
sở đó có thể thẩy rõ bản chất cũng như quy luật của các hiện tượng thông qua
một chỉ tiêu cụ thể, từ đó có thể dự báo ngắn hạn giá trị của chuôi đó.
• Phương pháp phân tích chuỗi thời gian có:
Phương pháp phân rã
Phương pháp Box – Renkins
4.2 Phương pháp phân rã
4.2.1 Phân tích xu thế
Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sử dụng số liệu
hàng năm để phân tích. Một cách tổng quát ta cần phải có một chuỗi dài ra ít ra là
10-15 năm.
25