9
Chương 2- PHÂN TỔ THỐNG KÊ
2.1. KHÁI NIỆM:
Phân tổ thống kê là một nghiệp vụ thống kê được dùng để phân chia tổng thể
phức tạp thành nhiều tổng thể bộ phận hoặc nhiều tổ (>=2) khác nhau trên từng tiêu
thức nhất đònh, trong từng biểu hiện thời gian và không gian xác đònh.
Cơ sở để tiến hành phân tổ bao gồm:
1. Mục đích yêu cầu quản lý hoặc yêu cầu phân tích.
2. Tính chất của hiện tượng nghiên cứu, tính chất của tiêu thức nghiên cứu.
3. Cơ cấu nội tại của đồng thể phức tạp và mối quan hệ giữa chúng.
4. Tính lòch sử của đối tượng quản lý và trình độ quản lý của từng thời kỳ.
Phân tổ thống kê được dùng để giải quyết các vấn đề cơ bản sau đây:
1. Xác đònh loại hình cơ cấu của tổng thể phức tạp.
2. Xác đònh qui mô của tổng thể phức tạp và qui mô của từng tổng thể bộ phận cấu
thành nên tổng thể phức tạp đó.
3. Nghiên cứu mối quan hệ nhân quả giữa các hiện tượng trong 1 hệ thống quản lý.
4. Xác đònh các cơ sở để sắp xếp các cột, dòng trong biểu bảng thống kê tổng hợp.
5. Phân tổ thống kê được dùng làm cơ sở để sắp xếp các đơn vò tổng thể theo một trật
tự nhất đònh.
Tùy theo từng mục đích yêu cầu nghiên cứu mà phân chia thành các loại phân tổ
thống kê sau đây:
1- Nếu theo số lượng tiêu thức được dùng làm cơ sở để tiến hành phân tổ thì chia làm
3 loại:
+ Phân tổ đơn: Phân chia tổng thể phức tạp, thành các tổ, tiểu tổ trên từng tiêu thức
nghiên cứu.
+ Phân tổ kết hợp: Phân chia tổng thể phức tạp thành nhiều tổ, tiểu tổ trên cơ sở kết
hợp nhiều tiêu thức nghiên cứu với nhau.
+ Phân tổ liên hệ: Sắp xếp các tiêu thức nghiên cứu hoặc các chỉ tiêu nghiên cứu vào
các cột, các dòng của biểu bảng thống kê để trình bày nội dung nghiên cứu, mục đích
nghiên cứu.
2- Nếu theo tính chất của tiêu thức nghiên cứu thì dùng làm 2 loại:
+ Phân tổ phân loại: Thường dùng đối với tiêu thức thuộc tính.
+ Phân tổ kết cấu: Thường dùng đối với tiêu thức số lượng.
2.2. PHƯƠNG PHÁP PHÂN TỔ THỐNG KÊ:
Để phân tổ thống kê phải thực hiện tuần tự các bước sau đây:
2.2.1. Xác đònh tiêu thức phân tổ:
Tiêu thức phân tổ là tiêu thức được chọn để làm cơ sở tiến hành phân tổ. Nó chính là
thực thể phản ánh bản chất của hiện tượng và do đó, nó phải phù hợp với mục đích
nghiên cứu và phân tích trong từng điều kiện thời gian và không gian xác đònh.
Để lựa chọn tiêu thức phân tổ, chúng ta thường dựa vào lý thuyết chuyên ngành, kinh
nghiệm của những chuyên gia, các nghiên cứu đã thực hiện trong ngành.
2.2.2. Xác đònh số tổ và độ lớn của mỗi tổ trong một tổng thể phức tạp.
2.2.2.1. Trường hợp phân tổ đơn:
10
a. Đối với tiêu thức thuộc tính:
Số tổ được chia phụ thuộc vào tính chất của loại hình (biểu hiện của tiêu thức) và
mục đích nghiên cứu.
a.1. Trường hợp số loại hình ít (hoặc không nhiều): Thường thì mỗi loại hình xếp vào
một tổ.
Ví dụ: Phân tổ sinh viên đang học các hệ đào tạo theo độ tuổi hoặc theo giới tính;
Phân tổ nhân viên theo trình độ học vấn; Phân tổ các trường đại học theo khối ngành
đào tạo, theo hình thức thành lập (công lập, bán công hay dân lập), v.v…
a.2. Trường hợp phức tạp: Số loại hình quá nhiều, tỉ mỉ, phức tạp, khó quản lý; ta tiến
hành ghép một số loại hình có tính chất giống nhau hoặc gần giống nhau vào một tổ.
Ví dụ: Phân tổ chi tiết sản phẩm công nghiệp theo các kích thước, hoặc phân
tổ năng suất cây trồng theo các loại cây công nghiệp hay cây nông nghiệp; phân tổ
các máy phát theo công suất vận hành, v.v…
* Chú ý: Trong thực tế, người ta còn thường dựa vào các đường lối chủ trương chính
sách của Đảng và Nhà nước hoặc của các ngành, bộ, đòa phương đã qui đònh dưới
hình thức văn bản chỉ thò hay danh mục vv… để tiến hành xác đònh số tổ được chia.
b. Đối với tiêu thức số lượng: Số tổ được chia phụ thuộc vào tính chất của dãy số
lượng biến và trình độ quản lý.
b.1. Đối với dãy số lượng biến rời rạc và sự biến thiên giữa các lượng biến ít thì mỗi
lượng biến xếp vào một tổ. Sau khi xác đònh được số tổ cần chia thì phải sắp xếp số
đơn vò tổng thể vào các tổ tương ứng, tức là xác đònh số lần xuất hiện của từng lượng
biến hoặc của từng tổ trong từng tiêu thức phân tổ.
Ví dụ 1: Để nghiên cứu chất lượng lao động của công nhân trong một doanh
nghiệp người ta tiến hành phân tổ theo tiêu thức bậc thợ như sau:
Bảng 2.1
Bậc thợ Số công nhân (người)
1
2
3
4
5
6
7
25
40
80
150
75
20
10
Tổng cộng 400
Ví dụ 2: Để đánh giá tình hình thực hiện kế hoạch hoá gia đình ở một đòa
phương người ta tiến hành phân tổ theo tiêu thức số con trong mỗi hộ gia đình như
sau:
11
Bảng 2.2
Số con trong mỗi hộ Số hộ gia đình
0
1
2
3
4
5
50
250
600
40
15
5
Tổng cộng 960
b.2. Đối với dãy số lượng biến rời rạc hoặc đối với dãy số lượng biến liên tục và sự
biến thiên về mặt lượng giữa các lượng biến khá lớn thì ta tiến hành phân tổ có
khoảng cách tổ: tức là ghép một số lượng biến có mặt chất giống nhau vào một tổ
theo nguyên tắc lượng tích luỹ đến một mức độ nào đó thì chất thay đổi, khi chất thay
đổi thì lượng biến đổi theo để hình thành tổ mới.
Phân tổ có khoảng cách tổ tức là trong mỗi tổ sẽ có 2 giới hạn, giới hạn dưới là lượng
biến nhỏ nhất và giới hạn trên là lượng biến lớn nhất của tổ đó. Biến nào lớn hơn
giới hạn trên sẽ được xếp vào tổ tiếp theo. Do đó, độ lớn của mỗi tổ (khoảng cách tổ)
được xác đònh bằng hiệu giữa giới hạn trên và giới hạn dưới của mỗi tổ. Độ lớn của
mỗi tổ phụ thuộc vào khoảng biến thiên về mặt lượng của từng loại hình mặt chất.
Ví dụ: Phân tổ học sinh theo điểm thi/ xếp loại học tập như sau:
Bảng 2.3
Xếp loại Điểm thi (rời rạc) Số sinh viên (người)
Xuất sắc
Giỏi
Khá
Trung bình
Yếu kém
8.5 – 10
7.5 – 8.4
6.0 – 7.4
5.0 – 5.9
0.0 – 4.9
5
60
200
535
350
Tổng cộng 1150
Ví dụ: Phân tổ học sinh theo chiều cao như sau:
Bảng 2.4
Chiều cao (liên tục) Số sinh viên (người)
< 1.40
1.40 – 1.50
1.50 – 1.65
1.65 – 1.75
> 1.75
75
245
550
255
25
Tổng cộng 1150
* Chú ý:
- Trong phân tổ có khoảng cách tổ nếu là dãy số lượng biến liên tục thì giới hạn trên
và giới hạn dưới của 2 tổ liền nhau phải ghi giống nhau. Ưu điểm về việc chọn giá trò
giới hạn trên và dưới hạn dưới trong trường hợp này là giúp cho ta có thể sắp xếp
12
được tất cả các lượng biến có giá trò liên tục, nhưng có nhược điểm là phải chú thích
thêm những lượng biến trùng với giá trò của giới hạn trên (hoặc giới hạn dưới của tổ
kế tiếp) thì phải được đặt vào tổ nào? (hoặc phải ghi rõ: từ
x
min
đến cận
x
max
).
Còn đối với dãy số có lượng biến rời rạc thì ghi cách nhau một đơn vò. Việc ghi giới
hạn giới của của kế tiếp lớn hơn giới hạn trên của tổ trước đó 1 đơn vò giúp ta phân
biệt rõ ràng, dễ dàng sắp xếp các lượng biến, nhưng trường hợp này không thể sắp
xếp cho các lượng biến liên tục.
- Nếu độ lớn giữa các tổ bằng nhau gọi là phân tổ đều, ngược lại gọi là phân tổ
không đều. Trong một tổ nếu chỉ có một giới hạn thì gọi là tổ mở, còn nếu có đủ 2
giới hạn gọi là tổ đóng.
Phân tổ đều được áp dụng đối với tổng thể đồng chất và sự biến thiên về mặt lượng
giữa các lượng biến tương đối đều đặn.
Trong phân tổ đều, trò số khoảng cách tổ
h
được xác đònh bằng công thức như sau:
@ Đối với dãy số lượng biến liên tục thì trò số khoảng cách tổ đều được xác đònh
bằng công thức:
N
xx
h
lg322,31
minmax
+
−
=
hoặc
3
minmax
2n
xx
h
−
=
Trong đó:
-
x
max
và
x
min
là lượng biến lớn nhất và lượng biến nhỏ nhất trong dãy số lượng biến
của tiêu thức phân tổ.
- N là qui mô của tổng thể phức tạp hoặc số đơn vò tổng thể và n là số quan sát.
- 1+3,322lgN hay
3
2n : là những công thức toán được dùng để xác đònh số tổ cần
chia theo kinh nghiệm.
Trong thực tế, có nhiều trường hợp số tổ cần chia k được xác đònh một cách chủ quan
(ấn đònh sẵn); Khi đó,
h
được tính đơn giản như sau:
k
xx
h
minmax
−
= .
Người ta thường làm tròn số khi tính
h
; Sau khi xác đònh được
h
thì phải xác đònh giới
hạn dưới và giới hạn trên của một tổ theo một trật tự nhất đònh từ nhỏ đến lớn hoặc
từ lớn đến nhỏ.
+ Nếu xếp theo từ nhỏ đến lớn, giới hạn dưới của tổ nhỏ nhất chính bằng
x
min
, giới
hạn trên của tổ này bằng giới hạn dưới cộng với trò số khoảng cách tổ đều
h
.
x
t1
= x
min
+ h
Tổ tiếp theo sẽ nhận giá trò giới hạn trên của tổ trước đó làm giá trò dưới của mình và
khi đó, giới hạn trên của tổ này được xác đònh như sau:
x
ti
= x
di
+ h = x
ti-1
+h
+ Nếu xếp theo từ lớn đến nhỏ, giới hạn trên của tổ lớn nhất chính bằng x
max
, giới
hạn dưới của tổ này bằng giới hạn trên trừ đi trò số khoảng cách tổ đều
h
.
x
d1
= x
max
– h
Tổ tiếp theo sẽ nhận giới hạn dưới của tổ trước đó làm giới hạn trên của mình và khi
đó, giới hạn dưới của tổ này được xác đònh bằng:
x
di
= x
ti
– h = x
di-1
- h
@ Đối với dãy lượng biến rời rạc thì trò số khoảng cách tổ đều được xác đònh bằng
công thức như sau:
n
nxx
h
1
minmax
+
−
−
= ; và ta thường làm tròn
h
trong các tính toán.
13
Trong đó:
- n là số tổ cần chia một cách khách quan hoặc chủ quan.
-
x
max
và
x
min
được xác đònh giống như đối với dãy số lượng biến liên tục, nó chỉ khác
ở chỗ
x
max
và
x
min
của hai tổ liền nhau phải ghi cách nhau 1 đơn vò.
Ví dụ: Để đánh giá sản lượng thu hoạch lúa của tỉnh X với diện tích gieo trồng 2.000
ha, người ta tiến hành điều tra chọn mẫu để xác đònh năng suất thu hoạch lúa bình
quân trong tỉnh trên số liệu điều tra của 64 xã như sau:
Trước hết, ta xác đònh khoảng cách tổ đều
h
như sau:
@ Theo công thức kinh nghiệm
N
xx
h
lg322,31
minmax
+
−
= ta có: 2999,1
64lg322,31
3852
≈=
+
−
=h
Khi đó, ta có bảng phân tổ như sau:
Bảng 2.5
Năng suất bình quân mỗi xã
(tạ/ha)
Số xã
38 – 40
40 – 42
42 – 44
44 – 46
46 – 48
48 – 50
50 – 52
52 – 54
10
7
10
8
9
7
10
3
Tổng cộng 64
@ Theo công thức kinh nghiệm
3
minmax
2n
xx
h
−
= ta có: 3778,2
128
3852
3
≈=
−
=h ; Khi đó, ta
có bảng phân tổ như sau:
Bảng 2.6
Năng suất bình quân mỗi xã
(tạ/ha)
Số xã
38 – 41
41 – 44
44 – 47
47 – 50
50 – 53
15
12
14
10
13
Tổng cộng 64
Sau khi phân tổ, ta tính năng suất lúa bình quân mỗi xã trong toàn tỉnh rồi nhân với
diện tích luá gieo trồng cả tỉnh sẽ tính được tổng sản lượng thu hoạch.
Ví dụ 2: Giả sử rằng qui mô của xí nghiệp được phân là nhỏ, trung bình, lớn và
14
rất lớn. Để quản lý qui mô xí nghiệp trong một ngành sản xuất ở đòa phương, người ta
lựa chọn tiêu thức phân tổ là số công nhân và tiến hành điều tra số công nhân trên 30
xí nghiệp của ngành với số liệu giả thiết như sau:
Ta nhận thấy đây là dãy lượng biến rời rạc; và số tổ cần được chia là n = 4. Do đó,
khoảng cách tổ đều được xác đònh theo công thức:
n
nxx
h
1
minmax
+−
−
= hay ta có:
65025,649
4
144003000
≈=
+
−−
=h ; Và ta có bảng phân tổ như sau:
Bảng 2.7
Qui mô Số công nhân (người) Số xí nghiệp
Nhỏ
Vừa
Lớn
Rất lớn
400 – 1.050
1.051 – 1.701
1.702 – 2.352
2.353 – 3.003
11
8
5
6
Tổng cộng 30
Phân tổ không đều: được áp dụng đối với tổng thể phức tạp không đồng chất. Độ lớn
của mỗi tổ được xác đònh phụ thuộc vào loại hình về mặt chất của tiêu thức thuộc
tính có liên quan.
Ví dụ: Để quản lý tình hình học sinh đến trường ở một đòa phương, người ta tiến hành
phân tổ theo tiêu thức độ tuổi đến trường như sau:
Bảng 2.8
Độ tuổi đến trường
Loại hình
đào tạo
Liên tục
(tháng năm)
Rời rạc
(năm)
Số học sinh
đến trường
Nhà trẻ
Mẫu giáo
Cấp 1
Cấp 2
Cấp 3
Cao hơn
<
3
3 – 6
6 – 11
11 – 15
15 – 18
> 18
<
3
4 – 6
7 – 11
12 – 15
16 – 18
> 19
40
300
650
500
480
250
Tổng cộng 2.220
2.2.2.2. Phân tổ kết hợp
Cơ sở để tiến hành phân tổ kết hợp đó là phương pháp phân tổ đơn và khi kết hợp
nhiều tiêu thức phân tổ với nhau thì phải theo một trật tự nhất đònh sau đây: Tiêu
thức nào xảy ra trước tiến hành phân tổ trước và ngược lại.
Ví dụ: Nghiên cứu mối quan hệ giữa trình độ lao động và năng suất lao động
của công nhân trong một doanh nghiệp người ta tiến hành phân tổ như sau:
15
Bậc
NSLĐ
Bậc 1 Bậc 2 Bậc 3 Bậc 4 Bậc 5 Bậc 6 Bậc 7 Tổng cộng
50 – 60
61 – 75
76 – 80
5
3
-
7
6
-
12
8
2
20
15
6
10
40
18
-
14
38
-
-
14
54
86
78
Tổng cộng 8 13 22 41 68 52 14 218
2.3. Trình bày dữ liệu bằng bảng tần số
Từ bảng 2.1, ta có thể tóm tắt dữ liệu theo bảng tần số như sau:
Bậc thợ Tần số (người) Tần suất (%)
1
2
3
4
5
6
7
25
40
80
150
75
20
10
6,25
10,00
20,00
37,50
18,75
5,00
2,50
Tổng cộng 400 100,00
Từ bảng 2.3, ta có bảng tần số như sau:
Xếp loại
Điểm thi
(rời rạc)
Tần số
(người/sv)
Tần suất
(%)
Tần suất
tích luỹ (%)
Xuất sắc
Giỏi
Khá
Trung bình
Yếu kém
8.5 – 10
7.5 – 8.4
6.0 – 7.4
5.0 – 5.9
0.0 – 4.9
5
60
200
535
350
0,43
5,22
17,39
46,52
30,43
0,43
5,65
23,04
69,57
100,00
Tổng cộng 1150 100,00
Trong bảng tần số trên, con số 17,39% có nghóa rằng: trong 1150 sinh viên được khảo
sát thì có 17,39% sinh viên đạt loại khá; còn con số 23,04% phản ánh phần trăm sinh
viên đạt từ loại khá trở lên trong số sinh viên được khảo sát.
2.4. Tóm tắt dữ liệu bằng các đại lượng thống kê mô tả (Descriptive statistics)
@ Nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu:
+ Trung bình cộng (Mean);
+ Giá trò lớn nhất (Max); Giá trò nhỏ nhất (Min);
+ Trung vò (Median);
+ Mốt (Mode); v.v…
@ Nhóm các đại lượng thể hiện mức độ phân tán của dữ liệu:
+ Khoảng biến thiên;
+ Độ lệch tuyệt đối bình quân;
+ Phương sai (Variance);
+ Độ lệch chuẩn (Standard Deviation);
16
+ Hệ số biến thiên; v.v…
Các đại lượng thống kê này sẽ được nghiên cứu trong chương tiếp theo.
Ví dụ: Ta sử dụng dữ liệu của cuộc điều tra về sản lượng thu hoạch lúa của tỉnh X ở
64 xã mà ta đã xét trên đây:
thì ta có bảng các đại lượng thống kê mô tả như sau:
N Minimum Maximum Mean Mode Std.Dev Variance
Nsuất 64 38 52 44,75 50 4,335 18,794
2.5. Trình bày dữ liệu bằng bảng kết hợp:
Sinh viên tham khảo trang 39 – 45 của
sách “Giáo trình Lý thuyết thống kê” của Hà Văn Sơn, NXB Thống kê 2004.
6. Trình bày kết quả tóm tắt dữ liệu bằng biểu đồ: SV tham khảo trang 46 – 54 của
sách “Giáo trình Lý thuyết thống kê” của Hà Văn Sơn do NXB Thống kê 2004.
Bài tập chương 2
Bài 1: Có tài liệu sau của các công nhân tại nhà máy X trong tháng 1/2001 như sau:
Tổ
Số CN
(người)
Nsuất BQ
(sp/tổ/ngày)
Tổ
Số CN
(người)
Nsuất BQ
(sp/tổ/ngày)
1 15 2835 11 8 1440
2 24 4728 12 16 3168
3 18 3636 13 6 1170
4 9 1845 14 18 3654
5 23 4416 15 26 5070
6 12 2508 16 30 6120
7 14 2814 17 22 4422
8 20 3880 18 25 5075
9 17 3043 19 16 3264
10 28 5460 20 21 4305
Yêu cầu:
1/ Căn cứ vào năng suất lao động bình quân một công nhân, hãy phân tổ số công
nhân trên thành 4 nhóm có khoảng cách tổ đều. Trong mỗi nhóm hãy tính số công
nhân và số lượng sản phẩm.
2/ Căn cứ theo tiêu thức số công nhân, hãy phân tổ 20 tổ lao động trên thành 4 nhóm
có khoảng cách tổ đều. Trong mỗi nhóm hãy tính số tổ lao động, số sản phẩm sản
xuất được.
Bài 2:
Có số liệu về mức thu nhập và số nhân viên của các văn phòng đại diện tại thành
phố X trong năm 2008 như sau:
17
STT
Thu nhập bình quân
(triệu đồng/người/tháng)
Số nhân viên
(người)
STT
Thu nhập bình quân
triệu đồng/người/tháng
Số nhân viên
(người)
1 8,05 12 16 11,05 14
2 7,08 14 17 12,75 15
3 6,90 15 18 9,50 17
4 7,80 12 19 8,65 16
5 6,50 18 20 7,95 22
6 9,40 10 21 8,25 18
7 8,45 12 22 8,00 16
8 9,65 8 23 8,50 25
9 10,75 10 24 9,00 21
10 12,25 11 25 11,15 18
11 7,90 15 26 10,10 15
12 8,85 16 27 12,45 12
13 6,95 20 28 11,25 10
14 7,85 19 29 9,75 17
15 6,95 17 30 8,45 19
Yêu cầu:
1/ Căn cứ vào thu nhập bình quân một nhân viên, hãy phân tổ các văn phòng trên
thành 3 tổ có khoảng cách tổ đều (với đơn vò tính tiền là 1.000đ), trong mỗi tổ hãy
tính số văn phòng, số nhân viên và tổng thu nhập.
2/ Tương tự như trên nhưng phân thành 4 tổ.
3/ Căn cứ vào số nhân viên, hãy phân tổ các văn phòng trên thành 4 tổ, trong mỗi tổ,
hãy tính số văn phòng, thu nhập bình quân, tần số và tần số tích luỹ của các tổ.
Các anh chò có nhận xét gì về mối liên hệ giữa qui mô của văn phòng đại diện với
thu nhập bình quân của nhân viên?