TỔNG HỢP VÀ TRÌNH BÀY SỐ LiỆU
Hoàng Thị Hải Vân
Bộ môn Thống kê Tin học Y học
Viện Đào tạo YHDP&YTCC
ĐT: 0912693335
Email:
Mục tiêu
1. Phân biệt được các khái niệm tần số, tỷ lệ, tỷ
số, tỷ suất, giá trị trung bình, trung vị, mốt, độ
lệch chuẩn và hệ số biến thiên
2. Tổ chức và tổng hợp được các loại số liệu cho
các biến định tính và định lượng.
3. Liệt kê được các loại bảng, biểu đồ thị và các
chức năng của chúng
4. Lựa chọn cách tổng hợp và biểu thị thích hợp
với 1 bộ số liệu cụ thể.
www.ipmph.edu.vn
1
Qun th ớch
Lựa chọn
Mẫu xác suất
- Ngẫu nhiên đơn
- Ngẫu nhiên hệ thống
- Mẫu phân tầng
- Mẫu chùm
- Mẫu nhiều bậc
Kết luận ngoại suy
Quần thể
nghiên cứu
Mẫu không xác suất
- Mẫu kinh nghiệm
- Mẫu thuận tiện
- Mẫu chỉ tiêu
- Mẫu có mục đích.
- Khung chọn mẫu
- ơn vị quan sát
- ơn vị mẫu
- Các chỉ số
Tham số quần thể
(à, , P...)
Suy luận
thông kê
(Chỉ áp
dụng cho
mẫu xác
suất với
cỡ mẫu đủ
lớn)
Chọn
mẫu
Mẫu
Biến số
Ước lợng
điểm
khoảng
Kiểm định
giả thuyết
Giá trị p
Tham số mẫu
( X , s, p...)
Các test
thống kê
Mô tả các tham số mẫu
(trỡnh by kt qu nghiờn cu)
www.ipmph.edu.vn
S liu
nh tớnh
nh lng
www.ipmph.edu.vn
2
TỔNG HỢP SỐ LIỆU VỚI CÁC BIẾN
ĐỊNH TÍNH
www.ipmph.edu.vn
Tổng hợp số liệu với các biến định tính
•
•
•
•
Tần suất
Tỷ lệ
Tỷ số
Tỷ suất
www.ipmph.edu.vn
3
1. Tần suất (frequency)
• Biểu thị số lần xuất hiện của 1 quan sát nào đó
• Ví dụ: Phân bố trình độ học vấn của 30 bà mẹ có
con dưới 5 tuổi tại 1 xã (số liệu giả định).
Gi¸ Giá
trÞtrị biến§Õm
số sè lÇn xuÊt
Số lần xuấtTÇn
hiệnsè
hiÖn
biÕn
(Tần suất)
Tiểu học
(cấp I)
Kinh
Trung học cơ sở (Cấp II)
Tµytrung học (Cấp III)
Phổ thông
Cao đẳng/Đại học
Nïng
Tổng số
12
8
6
4
30
Tæng céng
4
12
6
22
www.ipmph.edu.vn
2. Tỷ số (ratio):
• Là phân số mà mẫu số
không bao hàm tử số
a
--- x k
b
• Tử số và mẫu số có thể khác nhau về
đơn vị đo lường
•Hệ số k có thể là 1, 10, 100, 1000...
Ví dụ: tỷ số giới tính khi sinh
www.ipmph.edu.vn
4
• Ví dụ về tỷ số giới tính khi sinh của Việt
Nam
Nguồn: Bộ Kế hoạch đầu tư, Tổng cục Thống kê (2011).
Tổng điều tra dân số và nhà ở Việt Nam 2009.
www.ipmph.edu.vn
3. Tỷ lệ (proportion)
• Là 1 phân số mà mẫu số bao hàm
tử số, do vậy cả mẫu và tử đều
phải cùng đơn vị
a
------- x k
a+b
• Hệ số k có thể là 1, 10, 100, 1000...
• Khi k = 100, ta có tỷ lệ phần trăm (percentage)
• Ví dụ:
số sinh viên nam
Tỷ lệ sinh viên nam = ----------------------tổng số sinh viên
www.ipmph.edu.vn
5
• Ví dụ về tỷ lệ phần trăm: Tỷ lệ phần trăm trình
độ văn hóa của các bà mẹ có con dưới 5 tuổi
(số liệu giả định)
Trình độ văn hóa
Tần suất
120
Tỷ lệ %
Trung học cơ sở (Cấp II)
80
26.7
Phổ thông trung học (Cấp III)
60
20.0
Cao đẳng/Đại học
40
13.3
Tổng số
300
100,0
Tiểu học (cấp I)
40.0
www.ipmph.edu.vn
4. Tỷ suất (rate):
• Là một dạng của tỷ số hay tỷ lệ tuy nhiên có
kèm theo yếu tố thời gian
• Công thức:
số biến cố xẩy ra trong 1 khoảng thời gian
------------------------------------------------------------ x k
dân số trung bình trong khoảng thời gian đó
• Hệ số k có thể là 1, 10, 100, 1000...
• Ví dụ:
số người bị sốt rét tại huyện A năm 2000
------------------------------------------------------------- x 100
dân số trung bình của huyện A trong năm đó
www.ipmph.edu.vn
6
TỔNG HỢP SỐ LIỆU VỚI BIẾN
ĐỊNH LƯỢNG
www.ipmph.edu.vn
Tổng hợp số liệu với biến định lượng
• Đo lường độ tập trung
– Trung bình
– Trung vị
– Mốt
• Đo lường độ phân tán
– Khoảng số liệu
– Hệ số biến thiên
www.ipmph.edu.vn
7
Trung bình số học (Arthmetic mean)
• Trung bình số học hay còn gọi là giá trị trung
bình được tính bằng tổng số các giá trị quan
sát của một tập hợp chia cho số giá trị quan sát
của tập hợp đó.
• Giá trị trung bình chỉ tính được với các số dạng
liệu số (biến định lượng)
n
X + X 2 + ... + X n
X = 1
=
n
∑
Xi
i =1
n
www.ipmph.edu.vn
• Ví dụ: tính trung bình cân nặng của 20 sinh viên
Sinh viên số
1
2
3
4
5
6
7
8
9
10
Cân nặng
60.0
62.5
62.5
65.0
65.0
67.5
67.5
67.5
67.5
70.0
Sinh viên số
11
12
13
14
15
16
17
18
19
20
Cân nặng
70.0
70.0
72.5
72.5
72.5
75.0
75.0
77.5
77.5
80.0
Cân nặng trung bình của cỡ mẫu nghiên cứu trên là:
= 1397.5 / 20 = 69.8 kg
www.ipmph.edu.vn
8
Trung vị (Median)
• Là giá trị giữa của 1 bộ số liệu khi chúng được
sắp xếp theo thứ tự tăng dần hoặc giảm dần.
• Chia sự phân bố của số liệu thành hai phần bằng
nhau
• Trong trường hợp bộ số liệu có số quan sát là số
lẻ, giá trị trung vị là giá trị của quan sát thứ (n+1)/2
• Trong trường hợp bộ số liệu có số quan sát là số
chẵn, giá trị trung vị được tính bằng giá trị trung
bình cộng của hai giá trị quan sát ở giữa bộ số
liệu là quan sát thứ n/2 và (n/2+1)
www.ipmph.edu.vn
• Ví dụ: ta có bộ số liệu: 47, 41, 44, 43, 42, 40, 72
kg.
• để tính trung vị, trước hết sắp xếp số liệu theo
thứ tự: 40, 41, 42, 43, 44, 47, 72 kg.
• trung vị sẽ là giá trị của quan sát thứ (n+1)/2,
tức là (7+1)/2 =4, và giá trị thứ 4 = 43 kg là trung
vị.
• Với bộ số liệu: 40, 41, 42, 43, 44, 47, 49 và 72
thì trung vị là giá trị trung bình cộng của giá trị
thứ 4 và thứ 5 = (43+44)/2 = 43,5
www.ipmph.edu.vn
9
Đặc điểm giá trị trung vị:
• Trung vị thường được áp dụng khi một số số
liệu quá lớn hay quá nhỏ so với những số liệu
còn lại (phân bố lệch)
• Trung vị không bị ảnh hưởng bởi các giá trị quá
lớn hoặc quá nhỏ trong bộ số liệu vì trung vị là
giá trị ở giữa của bộ số liệu
www.ipmph.edu.vn
Mốt (Mode)
• Là giá trị quan sát được nhiều lần nhất trong bộ số
liệu
• Mốt ít có giá trị trong đo lường độ tập trung của bộ số
liệu khi ở dạng định lượng, nhưng có giá trị với bộ số
liệu phân nhóm, hoặc biến định tính
• Ở ví dụ 1 ta có giá trị mốt bằng 67.0 kg, có nghĩa là
tập hợp sinh viên của của nhóm nghiên cứu này phổ
biến có cân nặng là 67kg
• Ở ví dụ 2 ta có giá trị mốt bằng 64.0 kg, có nghĩa là
tập hợp sinh viên của nhóm nghiên cứu này phổ biến
có cân nặng là 64.0kg
www.ipmph.edu.vn
10
• Trong một bộ số liệu có thể không có Mốt
khi tất cả các giá trị xuất hiện với cùng một
tần số.
• Một bộ số liệu có thể có một mốt, hai mốt
hoặc nhiều mốt.
www.ipmph.edu.vn
Phân biệt giá trị trung bình, trung vị
và mốt
Mốt
Trung vị
Trung bình
www.ipmph.edu.vn
11
• Giá trị trung bình chứa đựng nhiều thông tin hơn vì giá trị
của mỗi quan sát đều nằm trong tính toán giá trị trung
bình.
• Khi bộ số liệu phân bố lệch (không chuẩn) thì giá trị trung
bình có thể bị ảnh hưởng bởi các giá trị quá lớn hoặc quá
nhỏ, trong khi giá trị trung vị và mốt thì không bị ảnh
hưởng.
• Khi số liệu phân bố chuẩn, giá trị trung bình, trung vị và
mốt đều bằng nhau và nằm ở trung tâm của phân bố.
• Khi phân bố có các giá trị cực thấp (nghiêng trái) và cực
cao (nghiêng phải) thì các giá trị này nằm ở các vị trí khác
nhau
www.ipmph.edu.vn
TỔNG HỢP SỐ LiỆU
VỚI BiẾN ĐỊNH LƯỢNG
2. Đo lường độ phân tán
(Measure of dispersion)
www.ipmph.edu.vn
12
Khoảng số liệu (range)
• Khoảng số liệu (range):
• Là hiệu giữa hai giá trị đo lường cao nhất và thấp nhất
trong một bộ số liệu.
• Khoảng số liệu (R) = Xmax – Xmin
• Ví dụ: nếu cân nặng của 7 phụ nữ là 40, 41, 42, 43, 44,
47 và 72 kg, khoảng quan sát sẽ là 72 - 40 = 32 kg.
Phương sai (variance)
Là tổng bình phương các khoảng
cách giữa giá trị chia cho số các
quan sát trừ đi 1.
n
∑ ( Xi − X )
s2 =
2
i =1
n −1
Độ lệch chuẩn (standard deviation)
s2
s=
www.ipmph.edu.vn
Ví dụ
97 98 99 00 01 Σ
Tỷ lệ phụ nữ làm kinh tế giỏi (Xi)
4
6
5
8
7
30
Khoảng chênh lệch so với giá trị
trung bình
( Xi − X )
-2
0
-1
2
1
0
Bình phương khoảng chênh lệch
giữa giá trị quan sát so với giá trị
trung bình
( Xi − X ) 2
4
0
1
2
1
10
X
6
n
∑ ( Xi − X )
s2 =
i =1
n −1
2
=
10
= 2 ,5
4
⇒ s=
2 ,5 = 1,58
www.ipmph.edu.vn
13
Hệ số biến thiên (coeficient of
variation)
• Là tỷ số giữa độ lệch chuẩn và trị tuyệt đối của giá trị
s
trung bình
CV =
X
• Hệ số biến thiên được biểu thị bằng tỷ lệ phần trăm
(%) và biểu thị mức độ biến thiên của độ lệch chuẩn so
với giá trị trung bình
• Giúp cho việc so sánh mức độ phân tán của nhiều bộ
số liệu với nhau:
• Ví dụ:
• CV của cân nặng nam =12/60 = 20%
• CV của cân nặng nữ = 8/54 = 15%
• Vậy bộ số liệu của cân nặng nam phân tán hơn
www.ipmph.edu.vn
Ưu điểm của phân tích số liệu định
lượng
200 trẻ
300 trẻ
A
2500 gr
300 trẻ
200 trẻ
B
2500 gr
PA = PB = 60%
X A >> X B
www.ipmph.edu.vn
14
Ưu điểm của phân tích số liệu định
lượng
300 trẻ
200 trẻ
A
2500 gr
300 trẻ
200 trẻ
B
2500 gr
PA = PB = 40%
XA ≈ XB
sB >> sA
www.ipmph.edu.vn
Trình bày số liệu
bằng bảng
www.ipmph.edu.vn
15
Một số bảng thường dùng
• Để biểu thị tần số các quan sát theo các nhóm,
loại khác nhau của 1 biến hoặc nhiều biến
Kết quả điều trò
Thuốc A
Thuốc B
Tổng
Khỏi bệnh
12
26
38
Có cải thiện
8
15
23
Không thay đổi
30
9
39
Tổng
50
50
100
www.ipmph.edu.vn
Một số bảng thường dùng
Có thể biểu thị cả các tỷ lệ hoặc giá trị trung bình,
KQ điều trò
Thuốc A
Thuốc B
Trung bình
Đường huyết
trước ĐT
X ± s
X ± s
X ± s
Đường huyết sau
ĐT
X ± s
X ± s
X ± s
Trung bình
X ± s
X ± s
X ± s
www.ipmph.edu.vn
16
Mt s bng thng dựng
Khi bng cha cỏc ch, ký hiu thỡ c goi l bng
ma trn (matrix)
Nhóm
tuổi
Ăn sam
lần đầu
Loại thức ăn
Nhóm bà
mẹ trẻ
(20-30)
Thay đổi
4-7 tháng
TB: 6
tháng
Bột
Bột với đậu đỗ
Bột với khoai
tây và rau
Nhóm bà
mẹ qua
tuổi sinh
đẻ (> 45
tuổi)
Thay đổi:
5-11 tháng
Bột
Nớc hoa quả
Số lần ăn/ngày
TB: 8.5
tháng
1-2 lần/ngày
Tuỳ vào mẹ có nhà hay có
ngời trông trẻ
Tuỳ thuộc vào khi nào trẻ
thích ăn
1-2 lần/ngày
Tuỳ thuộc vào bà mẹ có
nhà hay ngời trông trẻ
Tuỳ thuộc vào khi nào trẻ
thích ăn
www.ipmph.edu.vn
Bng 1 chiu
Trình độ văn
hoá
Tần số
tuyệt đối
Tần số
cộng dồn
Tần suất
tơng đối
Tần suất
cộng dồn
Cấp I
320
320
48.0
48.0
Cấp II
155
475
23.0
71.0
Cấp III
168
643
25.0
96.0
Đại học và sau
ĐH
24
667
4.0
100.0
Tổng cộng
667
100.0
Ch biu th giỏ tr ca 1 bin s
Ch cú 1 ct (hoc dũng) tng cng
Cho phộp mụ t chi tit v 1 bin s nhng khụng th
hin c s liờn quan gia cỏc bin khỏc nhau
www.ipmph.edu.vn
17
Bảng 2 chiều
Con
SDD
B×nh
th−êng
Qu¸ c©n
Tæng céng
Mï ch÷
9
35
1
45
V¨n ho¸ cÊp 1
10
80
5
95
V¨n ho¸>cÊp 1
3
51
6
60
Tæng céng
22
166
12
200
MÑ
• Biểu thị giá trị của 2 hay nhiều biến số trong 1 bảng
• Có cả cột và dòng tổng cộng
• Ngoài tần số, trong bảng có thể biểu thị cả tỷ lệ theo cột
và dòng
• Cho phép thể hiện được sự liên quan giữa các biến khác
nhau, mà chủ yếu là quan hệ nhân quả.
www.ipmph.edu.vn
Bảng giả (bảng trống)
Là bảng chỉ có tên dòng, tên cột mà chưa có số
liệu trong bảng
Con
MÑ
SDD
B×nh
th−êng
Qu¸
c©n
Tæng céng
Mï ch÷
V¨n ho¸ cÊp 1
V¨n ho¸>cÊp 1
Tæng céng
Thường được phát triển trong giai đoạn lập đề cương
nghiên cứu để biết được ý đồ phân tích số liệu và tránh
bỏ sót biến số
• Cũng có thể là đơn đặt hàng mà người nghiên cứu
muốn người phân tích số liệu điền số liệu vào
www.ipmph.edu.vn
18
Trình bày số liệu bằng
biểu đồ và đồ thị
www.ipmph.edu.vn
Tiêu chuẩn của 1 biểu đồ tốt
• Phải có đầy đủ tên biểu đồ, sơ đồ, tên và đơn
vị đo lường trên các trục số, các chú thích
cần thiết
• Thích hợp với loại số liệu muốn trình bày
• Rõ ràng, dễ xem, dễ hiểu và có khả năng tự
giải thích cao nhất
www.ipmph.edu.vn
19
Bài tập: chọn loại biểu đồ thích hợp
Ví dụ: Số người được tập huấn về giới
Giới
§Tỉnh
Hà Nội
Thanh Hóa
Hà Tây
Hưng Yên
Bắc Ninh
Hà Nam
Tổng cộng
Nam
15
25
40
28
45
36
189
Nữ÷
37
41
28
11
38
42
197
www.ipmph.edu.vn
Khi chuyển sang dạng biểu đồ
www.ipmph.edu.vn
20
Phân bố tình trạng suy dinh dưỡng của
trẻ em dưới 5 tuổi
§é suy dinh d−ìng
Tû lÖ phÇn tr¨m
§é I
25
§éII
18
§é III
7
www.ipmph.edu.vn
Phân bố tình trạng CHA theo
nhóm tuổi
www.ipmph.edu.vn
21
Ví dụ khác
• So sánh tỷ lệ khỏi, bong hàn, sâu kế phát, biến
chứng giữa 2 phương pháp hàn răng khác
nhau.
• So sánh số bệnh nhân được chẩn đoán là
thương hàn nằm điều trị tại Khoa Lây bệnh viện
Thanh Nhàn theo giới và theo tháng trong năm
1995.
• Biểu thị mối tương quan giữa huyết áp tâm
trương và lượng Cholesterol trong máu trong số
người già trên 60 tuổi tại cộng đồng A
www.ipmph.edu.vn
Biểu đồ cột rời
Số ca mắc bệnh tiêu chảy theo khu vực
năm 1996
www.ipmph.edu.vn
22
Biểu đồ cột rời
Tỷ lệ mắc bệnh tiêu chảy theo khu vực
năm 1996
www.ipmph.edu.vn
Biểu đồ cột rời
Trung bình và độ lệch chuẩn về điểm kiến
thức của phụ nữ trong 6 xã
www.ipmph.edu.vn
23
Biểu đồ cột rời
Số ca mắc thương hàn được báo cáo trong
2 năm 1995 và 1996
www.ipmph.edu.vn
Biểu đồ cột tròn
Tình trạng dinh dưỡng của trẻ em dưới 5
tuổi tại xã H
www.ipmph.edu.vn
24
Biểu đồ hình cột chồng
Tình trạng dinh dưỡng của trẻ em dưới 5
tuổi tại 3 xã A, B và C
www.ipmph.edu.vn
Biểu đồ cột rời
Tình trạng dinh dưỡng của trẻ em dưới 5
tuổi tại 3 xã A, B và C
www.ipmph.edu.vn
25