Tải bản đầy đủ (.pdf) (55 trang)

TRỰC QUAN hóa dữ LIỆU DỊCH BỆNH TAY CHÂN MIỆNG KHẢO sát tập dữ LIỆU TỈNH BÌNH DƯƠNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.47 MB, 55 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



Võ Tấn Lực

TRỰC QUAN HÓA DỮ LIỆU DỊCH BỆNH TAY CHÂN MIỆNG
KHẢO SÁT TẬP DỮ LIỆU TỈNH BÌNH DƯƠNG

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

TP HỒ CHÍ MINH – NĂM 2016


ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



Võ Tấn Lực

TRỰC QUAN HÓA DỮ LIỆU DỊCH BỆNH TAY CHÂN MIỆNG
KHẢO SÁT TẬP DỮ LIỆU TỈNH BÌNH DƯƠNG

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH


Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS.TRẦN VĨNH PHƯỚC

TP HỒ CHÍ MINH – NĂM 2016


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã
được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.
TP. Hồ Chí Minh, ngày 19 tháng 04 năm 2016
Người thực hiện

Võ Tấn Lực


LỜI CẢM ƠN
Trong suốt quá trình học tập và hoàn thành luận văn này, tôi đã nhận được sự
hướng dẫn, giúp đỡ rất quý báu của quý thầy cô, gia đình, bạn bè và đồng nghiệp.
Với lòng biết ơn sâu sắc tôi xin gửi lời cám ơn đến Thầy PGS.TS Trần Vĩnh
Phước, Thầy đã hết lòng tận tình hướng dẫn và hỗ trợ tôi trong suốt quá trình
nghiên cứu và thực hiện luận văn này.
Tôi xin cảm ơn quý thầy cô giảng viên và chuyên viên tại trường Đại học
Công nghệ Thông tin đã truyền đạt những kiến thức quý báu cũng như hỗ trợ cho
tôi trong những công tác học vụ trong suốt thời gian học tập vừa qua.
Tôi xin chân thành cảm ơn sâu sắc đến ban lãnh đạo và các anh chị tại trung
tâm khí tượng thủy văn tỉnh Bình Dương, trung tâm y tế dự phòng thị xã Thuận An
và trung tâm y tế dự phòng tỉnh Bình Dương đã hỗ trợ tôi về mặt dữ liệu bệnh tay

chân miệng, dữ liệu khí tượng và những ý kiến đóng góp trong lĩnh vực quản lý
bệnh tay chân miệng trên địa bàn Tỉnh Bình Dương.
Cuối cùng tôi xin gửi lời cám ơn đến gia đình, đồng nghiệp và người vợ của
tôi đã luôn bên cạnh hỗ trợ động viên và tạo điều kiện thuận lợi cho tôi hoàn thành
luận văn.


MỤC LỤC
DANH MỤC BẢNG ...................................................................................................3
DANH MỤC HÌNH VẼ ..............................................................................................4
GIỚI THIỆU ...............................................................................................................5
CHƯƠNG 1. TỔNG QUAN VỀ TRỰC QUAN HÓA VÀ NHỮNG CÔNG
TRÌNH NGHIÊN CỨU LIÊN QUAN ........................................................................7
1.1.

Khái niệm về trực quan hóa ...........................................................................7

1.2.

Các công trình nghiên cứu liên quan .............................................................8

CHƯƠNG 2. BIỂU DIỄN TRỰC QUAN DỮ LIỆU BỆNH TAY CHÂN MIỆNG
VÀ CÁC YẾU TỐ KHÍ HẬU ..................................................................................10
2.1.

Biến dữ liệu..................................................................................................10

2.2.

Biến trực quan..............................................................................................11


2.2.1.

Hình dạng ..............................................................................................12

2.2.2.

Vị trí ......................................................................................................12

2.2.3.

Màu sắc .................................................................................................15

2.3.

Các phép biến đổi từ biến dữ liệu thành biến trực quan ..............................15

2.4.

Phân cụm dữ liệu bệnh tay chân miệng và dữ liệu khí hậu .........................19

2.5.

Kết luận ........................................................................................................23

CHƯƠNG 3. CHƯƠNG TRÌNH MÔ PHỎNG.......................................................24
3.1.

Giới thiệu .....................................................................................................24


3.2.

Thu thập dữ liệu và thiết kế cơ sở dữ liệu ...................................................24

3.2.1.

Dữ liệu bệnh tay chân miệng ................................................................24

3.2.2.

Dữ liệu khí hậu .....................................................................................26

3.3.

Thiết kế cơ sở dữ liệu ..................................................................................28

1


3.4.

Chương trình mô phỏng...............................................................................32

3.5.

Kết luận ........................................................................................................40

CHƯƠNG 4. KIỂM CHỨNG TƯƠNG QUAN CỦA BỆNH TAY CHÂN MIỆNG
VỚI CÁC YẾU TỐ KHÍ HẬU TỈNH BÌNH DƯƠNG BẰNG HỆ SỐ TƯƠNG
QUAN SPEARMAN ................................................................................................42

4.1.

Giới thiệu .....................................................................................................42

4.2.

Kết quả thực hiện kiểm chứng bằng hệ số tương quan Spearman ..............42

4.3.

Kết luận ........................................................................................................45

CHƯƠNG 5. KẾT LUẬN........................................................................................47
5.1.

Kết luận ........................................................................................................47

5.2.

Hướng phát triển ..........................................................................................48

TÀI LIỆU THAM KHẢO .........................................................................................49

2


DANH MỤC BẢNG
Bảng 2. 1. Bảng dữ liệu bệnh tay chân miệng và các yếu tố khí hậu theo đơn vị tuần
tại khu vực a trong năm y ..........................................................................................10
Bảng 2. 2. Kết quả phân cụm dữ liệu bệnh tổng hợp của tỉnh Bình Dương ............20

Bảng 2. 3. Kết quả giá trị nhỏ nhất và giá trị lớn nhất trong từng cụm của dữ liệu
bệnh tổng hợp tại Tỉnh Bình Dương sau khi đã hiệu chỉnh ......................................20
Bảng 2. 4. Kết quả phân cụm dữ liệu bệnh tại tất cả các huyện thị trong tỉnh .........21
Bảng 2. 5. Số lượng bệnh nhân lớn nhất và nhỏ nhất trong từng cụm khi phân cụm
số liệu tất cả các huyện thị ........................................................................................21
Bảng 2. 6. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng
lượng mưa trên toàn địa bàn tỉnh ..............................................................................21
Bảng 2. 7. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng
lượng mưa trên các khu vực huyện thị ......................................................................22
Bảng 2. 8. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ
trung bình trên toàn địa bàn tỉnh ...............................................................................22
Bảng 2. 9. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ
cao nhất trung bình trên toàn địa bàn tỉnh .................................................................22
Bảng 2. 10. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu độ ẩm
trung bình trên toàn địa bàn tỉnh ...............................................................................23
Bảng 3. 1. Dữ liệu bệnh tay chân miệng tại tỉnh Bình Dương trong tuần thứ 1 năm
2012 ...........................................................................................................................25
Bảng 3. 2. Giá trị độ ẩm trung bình năm 2012 đo tại Trung tâm khí tượng thủy văn
tỉnh Bình Dương ........................................................................................................26
Bảng 3. 3. Giá trị lượng mưa đo được trong năm 2014 tại Thị xã Thuận An tỉnh
Bình Dương ...............................................................................................................27
Bảng 3. 4. Bảng “locations_tbl” lưu trữ thông tin về huyện thị xã trong địa bàn tỉnh
Bình Dương ...............................................................................................................28
Bảng 3. 5. Bảng “environmental_tbl” lưu trữ thông tin về khí hậu và bệnh tay chân
miệng tại các khu vực theo thời gian ........................................................................30
Bảng 4. 1. Bảng danh sách các biến được sử dụng trong kiểm chứng tương quan
bằng hệ số tương quan Spearman .............................................................................43
3



DANH MỤC HÌNH VẼ
Hình 1. 1. Quy trình trực quan hóa dữ liệu ................................................................7
Hình 2. 1. Hệ trục tọa độ 3 chiều Oxyz ....................................................................13
Hình 2. 2. Bản đồ tỉnh Bình Dương gồm 7 huyện thị năm 2013 .............................13
Hình 2. 3. Biểu diễn các biến dữ liệu theo độ cao ....................................................14
Hình 2. 4. Biểu diễn giá trị các biến dữ liệu theo độ cao và màu sắc ......................15
Hình 3. 1. Giao diện chính của chương trình thử nghiệm biểu diễn trực quan dữ liệu
bệnh tay chân miệng và các yếu tố khí hậu khảo sát tại tỉnh Bình Dương ...............34
Hình 3. 2. Minh họa đổi màu trạng thái và hiển thị thông tin cơ bản của khu vực
đang được di chuyển chuột .......................................................................................35
Hình 3. 3. Khối thời gian nhiều biến biểu diễn các biến dữ liệu theo trục thời gian36
Hình 3. 4. Số người nhiễm bệnh bắt đầu trên 100 ca một tuần khảo sát năm 2012 .37
Hình 3. 5. Số người nhiễm bệnh bắt đầu xuống dưới 100 ca một tuần khảo sát năm
2012 ...........................................................................................................................37
Hình 3. 6. Khảo sát mối tương quan giữa bệnh tay chân miệng và các yếu tố khí
hậu trên toàn tỉnh Bình Dương từ năm 2012 đến 2014 .............................................39
Hình 3. 7. Thay đổi góc quan sát khối thời gian nhiều biến bằng thao tác xoay .....39
Hình 4. 1. Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2012 ...................43
Hình 4. 2. Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2013 ...................44
Hình 4. 3. Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2014 ...................44

4


GIỚI THIỆU
Bệnh tay chân miệng là một bệnh truyền nhiễm lây từ người sang người, dễ
gây thành dịch do hai nhóm tác nhân gây bệnh thường gặp là Coxsackie virus A16
và Enterovirus 71 (EV71). Bệnh có thể gây nhiều biến chứng nguy hiểm như viêm
não-màng não, viêm cơ tim, phù phổi cấp dẫn đến tử vong nếu không được phát
hiện sớm và xử trí kịp thời. Hiện tại bệnh vẫn chưa có thuốc cũng như vắc xin

phòng bệnh đặc hiệu, các biện pháp điều trị chủ yếu là chăm sóc và bổ sung dinh
dưỡng cho bệnh nhân. Bên cạnh đó tình hình biến đổi khí hậu toàn cầu và ô nhiễm
môi trường là một nguy cơ tiềm ẩn cho sự bùng phát bệnh tay chân miệng, ảnh
hưởng rất nhiều đến sức khỏe của cộng đồng. Trước các biểu hiện nguy hiểm của
bệnh và tình hình biến đổi khí hậu, việc xác định thời điểm bệnh tăng cao trong năm
và mối tương quan giữa bệnh với các yếu tố khí hậu là yêu cầu cấp thiết. Điều này
sẽ hỗ trợ ngành y tế và người dân có đầy đủ thông tin kịp thời, góp phần tích cực
trong việc ngăn ngừa bệnh xảy ra.
Mục tiêu chính của đề tài là đề xuất một mô hình biểu diễn trực quan dữ liệu
bệnh tay chân miệng và các yếu tố khí hậu như nhiệt độ trung bình, nhiệt độ cao
nhất, độ ẩm trung bình, và tổng lượng mưa trên khối thời gian nhiều biến. Khối thời
gian nhiều biến này sẽ hỗ trợ người dùng trong việc xác định tương quan giữa dữ
liệu bệnh, thời gian, và các yếu tố khí hậu. Ngoài ra, đề tài còn xây dựng một
chương trình mô phỏng trực quan khối thời gian nhiều biến với bộ dữ liệu được thu
thập tại Trung tâm y tế dự phòng và Trung tâm khí tượng thủy văn tỉnh Bình
Dương. Kết quả trực quan hóa này đã hỗ trợ các chuyên gia dịch tễ đánh giá sự
tương quan của các tác nhân của bệnh hoặc theo dõi diễn biến tình hình dịch.
Để thực hiện mục tiêu trên, luận văn được cấu trúc thành 5 chương như sau:
Chương 1. Tổng quan về trực quan hóa và những công trình nghiên cứu
liên quan. Giới thiệu khái niệm về trực quan hóa dữ liệu. Giới thiệu về các mô hình
trực quan hóa như khối không gian thời gian, tọa độ song song và khối nhiều biến.
Giới thiệu tình hình biểu diễn thống kê bệnh tay chân miệng tại Việt Nam và việc
xác định tương quan với các yếu tố khí hậu.

5


Chương 2. Biểu diễn trực quan dữ liệu bệnh tay chân miệng và dữ liệu khí
hậu. Trong chương này chúng tôi sẽ trình bày khái niệm biến dữ liệu và biến trực
quan được sử dụng trong mô hình trực quan dữ liệu bệnh tay chân miệng và dữ liệu

khí hậu. Định nghĩa các ánh xạ biến các bộ giá trị như thời gian - địa điểm, thời gian
- địa điểm - loại biến dữ liệu sang giá trị biến dữ liệu và giá trị màu sử dụng trong
trực quan hóa dữ liệu. Đồng thời chúng tôi ứng dụng thuật toán phân cụm K-Means
trong thực hiện phân cụm giá trị của các loại biến dữ liệu theo nhu cầu sử dụng.
Chương 3. Chương trình mô phỏng trực quan dữ liệu bệnh tay chân
miệng và dữ liệu khí hậu – khảo sát tập dữ liệu tỉnh Bình Dương. Cài đặt chương
trình mô phỏng với bộ dữ liệu được thu thập trong tỉnh Bình Dương từ năm 2012
đến 2014.
Chương 4. Sử dụng hệ số tương quan Spearman kiểm tra tương quan của
dữ liệu bệnh tay chân miệng và dữ liệu khí hậu. Kiểm định kết quả được rút ra sau
khi trả lời một số câu hỏi về sự tương quan của các biến dữ liệu bằng chương trình
mô phỏng với kết quả được thực hiện bằng sử dụng hệ số tương quan Spearman.
Chương 5. Kết luận và hướng phát triển. Đánh giá kết quả đã thực hiện và
đề xuất hướng phát triển của đề tài.

6


CHƯƠNG 1. TỔNG QUAN VỀ TRỰC QUAN HÓA VÀ NHỮNG
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
1.1.

Khái niệm về trực quan hóa
Trực quan hóa dữ liệu là thuật ngữ chung dùng để mô tả các tác vụ biểu diễn

diễn dữ liệu thành các dạng có thể quan sát được nhằm hỗ trợ người dùng hiểu được
những tính năng quan trọng của dữ liệu thông qua các tương tác bằng thị giác. Các
mô hình, xu hướng và mối tương quan có thể không được phát hiện thông qua các
dữ liệu biểu diễn dựa trên văn bản hoặc con số nhưng có thể được khám phá và
phân tích dễ dàng hơn thông qua các dạng biểu đồ hoặc hình ảnh đại diện trực quan

[6].

Hình 1. 1. Quy trình trực quan hóa dữ liệu
(Nguồn: Trích dẫn từ [7])

Các kỹ thuật trực quan hóa dữ liệu sẽ biểu diễn dữ liệu sang các dạng hiển
thị khác, người dùng sẽ sử dụng những kiến thức và kinh nghiệm của mình phối
hợp với dữ liệu quan sát được để phân tích và khám phá dữ liệu [6]. Ưu điểm của
phương pháp trực quan hóa dữ liệu là người sử dụng các dữ liệu đã được trực quan
hóa có thể đóng góp tri thức và kinh nghiệm của mình vào trong việc đưa ra kết quả
phân tích dữ liệu.
7


1.2.

Các công trình nghiên cứu liên quan
Dữ liệu về bệnh tay chân miệng và các yếu tố khí hậu lần lượt được thu thập

từ Trung tâm Y tế Dự phòng và Trung tâm Khí tượng Thủy văn Tỉnh Bình Dương.
Dữ liệu bao gồm số người nhiễm bệnh, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng
lượng mưa, độ ẩm trung bình theo từng tuần tại các khu vực khảo sát khác nhau.
Các biến dữ liệu này sẽ được áp dụng các kỹ thuật trực quan hóa để biểu diễn trực
quan đến người dùng.
Hiện tại, một số kỹ thuật trực quan hóa đã được ứng dụng để biểu diễn trực
quan dữ liệu như mô hình khối không gian thời gian, tọa độ song song, và khối
nhiều biến. Các loại mô hình trực quan hóa khác nhau sẽ đáp ứng cho các mục tiêu
trực quan hóa khác nhau. Mỗi mô hình biểu diễn sẽ có những ưu khuyết điểm riêng
và vẫn chưa có mô hình nào có thể đáp ứng được tất cả các yêu cầu rất đa dạng của
người sử dụng.

Tọa độ song song là một kỹ thuật phổ biến trong trực quan hóa và phân tích
dữ liệu nhiều biến. Trong kỹ thuật này mỗi chiều dữ liệu tương ứng với một trục,
các trục được bố trí song song và cách đều với nhau. Một bộ dữ liệu n chiều sẽ được
biểu diễn trên n trục, và các các điểm trên các trục liền kề sẽ được nối với nhau
bằng đoạn thẳng [8, 9]. Hạn chế của kỹ thuật này là không thể biểu diễn trực quan
được dữ liệu không gian 2 hoặc 3 chiều, không thể áp dụng các chỉ thị màu trong
phân cụm các cấp độ giá trị của dữ liệu. Việc xác định mối tương quan giữa nhiều
biến dữ liệu sẽ gặp hạn chế vì mỗi biến dữ liệu dữ liệu chỉ có 2 biến dữ liệu khác
liền kề trước và sau.
Mô hình khối không gian thời gian cung cấp một kỹ thuật biểu diễn dữ liệu
không gian và thời gian trên một hệ trục tọa độ thẳng góc 3 chiều [10, 11]. Trong đó
dữ liệu về không gian được biểu diễn trên mặt phẳng Oxy và trục Oz được sử dụng
để biểu diễn dữ liệu thời gian. Mô hình khối không gian thời gian cơ bản có thể giải
quyết được hạn chế của tọa độ song song trong việc biểu diễn được dữ liệu không
gian. Tuy nhiên khối không gian thời gian bị giới hạn trong không gian 3 chiều
Oxyz nên sẽ không thể biểu diễn thêm được những biến dữ liệu liên quan khác liên

8


quan do bị giới hạn về số chiều. Một số công trình nghiên cứu đã đề xuất việc tích
hợp nhiều khối không gian thời gian để biểu diễn thêm được nhiều biến dữ liệu.
Khối nhiều biến là một phương pháp tiếp cận trực quan hóa dữ liệu dựa trên
việc kết hợp nhiều hệ tọa độ 2 chiều với khối không gian thời gian 3 chiều, trong đó
trục thời gian và mặt phẳng không gian biểu diễn địa điểm, khu vực sẽ được sử
dụng chung cho các biến dữ liệu. Khối nhiều biến giải quyết được khuyết điểm về
sự giới hạn số chiều trong khối không gian và thời gian [12, 13, 14].
Các mô hình trực quan hóa đã được ứng dụng trong nhiều lĩnh vực như hỗ
trợ suy luận trên thông tin không gian và thời gian [6], trực quan hóa dữ liệu di
chuyển [13, 14], ,… Trong lĩnh vực y tế, trực quan hóa được sử dụng để biểu diễn

dữ liệu dịch bệnh nhằm hỗ trợ các chuyên gia y tế hiểu rõ về diễn biến của dịch
bệnh cũng như sự tương quan của dịch bệnh với các yếu tố liên quan khác từ đó đưa
ra các chương trình phòng chống dịch bệnh hiệu quả, giảm thiểu ảnh hưởng của
dịch bệnh đến xã hội.
Một số công trình nghiên cứu trực quan hóa dữ liệu bệnh tay chân miệng đã
được thực hiện, tuy nhiên việc biểu diễn thống kê số lượng người nhiễm bệnh tay
chân miệng chỉ được thực hiện với khảo sát trên không gian 2 chiều. Việc xác định
sự tương quan giữa số ca bệnh và các yếu tố khác chỉ được thực hiện bằng khảo sát
nhiều mô hình biểu diễn 2 chiều và kết hợp với hệ số tương quan trong thống kê.
Tại Việt Nam, dữ liệu được khảo sát chủ yếu chỉ là số người nhiễm bệnh theo thời
gian diễn ra bệnh trên địa bàn các tỉnh [1, 2] mà chưa có xác định sự tương quan với
các yếu tố khí hậu như các công trình nghiên cứu quốc tế [15, 16, 17]. Do đó một
mô hình trực quan hóa dữ liệu có thể hỗ trợ phân tích dữ liệu bệnh bệnh với các yếu
tố khí hậu tương ứng tại Việt Nam là yêu cầu cấp thiết.
Thách thức của mô hình trực quan hóa dữ liệu dịch bệnh tay chân miệng và
các yếu tố khí hậu là việc xác định mô hình biểu diễn phù hợp hỗ trợ phân tích dữ
liệu. Một mô hình biểu diễn phù hợp sẽ hỗ trợ tốt cho người sử dụng hệ thống dễ
dàng hơn trong việc hiểu được chính xác thông tin, xác định sự tương quan, và các
nguyên nhân ẩn chứa trong các biến dữ liệu. Mô hình phải có khả năng hỗ trợ giải
đáp những câu hỏi phân tích của các chuyên gia.
9


CHƯƠNG 2. BIỂU DIỄN TRỰC QUAN DỮ LIỆU BỆNH TAY
CHÂN MIỆNG VÀ CÁC YẾU TỐ KHÍ HẬU
2.1.

Biến dữ liệu
Các trung tâm y tế dự phòng theo dõi diễn biến của dịch bệnh bằng việc ghi


nhận dữ liệu dịch bệnh trong suốt các khoảng thời gian như theo ngày, tuần, tháng
hoặc năm được xem như một đơn vị thời gian. Dữ liệu bệnh tay chân miệng và các
yếu tố khí hậu tại khu vực khảo sát được ghi nhận thành dạng một bảng dữ liệu bao
gồm số người nhiễm bệnh, giá trị độ ẩm trung bình, nhiệt độ cao nhất trung bình,
nhiệt độ trung bình, tổng lượng mưa theo tuần và năm khảo sát tương ứng. Với mỗi
khu vực được khảo sát sẽ có tập hợp các dòng dữ liệu dữ liệu dịch bệnh và môi
trường tương ứng. Tại mỗi dòng của bảng dữ liệu, một đơn vị thời gian kết hợp với
các dữ liệu của bệnh như khu vực và số người nhiễm bệnh.
Bảng 2. 1. Bảng dữ liệu bệnh tay chân miệng và các yếu tố khí hậu theo đơn vị tuần tại
khu vực a trong năm y
Tuần

Số người

Độ ẩm trung

Nhiệt độ cao nhất trung

Nhiệt độ trung

Tổng lượng

nhiễm bệnh

bình

bình

bình


mưa

(người)

(%)

(°C)

(°C)

(mm)

𝑤1

𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡1𝑎

𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦1𝑎

𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒1𝑎

𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒1𝑎

𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙1𝑎

𝑤2

𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡2𝑎

𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦2𝑎


𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒2𝑎

𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒2𝑎

𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙2𝑎













𝑤𝑗

𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡𝑗𝑎

𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦𝑗𝑎

𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒𝑗𝑎

𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒𝑗𝑎

𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙𝑗𝑎


(tuần)

Trong đó a và 𝑤𝑗 với j  1, 2,..,52 lần lượt là khu vực và tuần trong năm
tương

ứng.

Các

𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡𝑗𝑎 ,

biến

𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦𝑗𝑎 ,

𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒𝑗𝑎 , 𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒𝑗𝑎 , 𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙𝑗𝑎 lần lượt là số
người bệnh nhiễm bệnh, độ ẩm trung bình, nhiệt độ cao nhất trung bình, nhiệt độ
trung bình và tổng lượng mưa trong tuần thứ j tại khu vực a năm y. Dựa trên tính
chất đặc trưng, các biến sẽ được phân làm hai loại là biến độc lập và biến phụ thuộc.
Trong đó biến độc lập là biến được dùng để giải thích cho một hiện tượng hoặc sự
10


vật, biến độc lập thường là các giá trị có sẵn hoặc cố định. Biến phụ thuộc là các
biến được giải thích từ biến độc lập.
Từ dữ liệu thu thập được tại trung tâm y tế dự phòng và trung tâm khí trượng
thủy văn thì số người nhiễm bệnh và các biến về khí hậu được xem xét như các biến
phụ thuộc vào khu vực (tỉnh, huyện, thị xã) trong một đơn vị thời gian (tuần) trong
khi các biến thời gian và khu vực được xem như các biến độc lập. Do đó các biến
dữ liệu cần được khảo sát của bệnh tay chân miệng bao gồm số người nhiễm bệnh,

thời gian, khu vực, tổng lượng mưa, độ ẩm trung bình, nhiệt độ trung bình và nhiệt
độ cao nhất trung bình.
Để tổng quát hóa các biến dữ liệu được khảo sát đối với bệnh tay chân
miệng, chúng tôi phân chia các biến dữ liệu này vào trong 3 tập cơ bản bao gồm tập
khu vực L, tập thời gian T và tập các biến dữ liệu P. Trong đó tập khu vực L bao
gồm danh sách các khu vực như huyện, thị xã hoặc tỉnh thành phố. Các khu vực này
được biểu diễn bằng các hình dạng đặc trưng như tập hợp điểm, tập hợp đường. Tập
thời gian T là một tập hợp các giá trị thời gian được khảo sát theo đơn vị tuần. Mỗi
phần tử trong tập biến dữ liệu P có các tính chất đặc trưng riêng, các tính chất này
được biểu diễn là giá trị của các biến như số người nhiễm bệnh và các yếu tố khí
hậu.

2.2.

Biến trực quan
Trong trực quan hóa dữ liệu, các nhà trực quan hóa đã phân các loại biến trực

quan thành hai loại là biến phẳng và biến thị giác [18]. Trong đó biến phẳng còn là
chiều, trong một hệ trục tọa độ thì đó chính là các trục tọa độ. Biến thị giác nhằm
mục đích tăng cường sự cảm nhận khi quan sát và phân biệt sự thay đổi của các
biến dữ liệu. Các kiểu biến thị giác được bao gồm các loại như độ lớn, độ sáng, độ
mịn, màu sắc, hướng, và hình dạng.
Mô hình trực quan được xây dựng với mục tiêu biểu diễn trực quan, hỗ trợ
phân tích và xác định được sự tương quan giữa các biến dữ liệu. Các biến dữ liệu
được xác định bao gồm Thời gian - tuần, 𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡, 𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦,
𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒, 𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒, 𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙. Mỗi biến dữ liệu
sẽ được biểu diễn thành biến phẳng và các biến thị giác tương ứng. Người dùng mô
11



hình trực quan sẽ dễ dàng hơn trong việc khảo sát sự tương quan của các biến dữ
liệu đồng thời trả lời được một số câu hỏi phân tích. Các biến trực quan được sử
dụng trong mô hình gồm có hình dạng, vị trí, và màu sắc.

2.2.1. Hình dạng
Một trong những biểu đồ phổ biến nhất được sử dụng trong việc so sánh các
giá trị là biểu đồ hình cột. Biểu đồ hình cột thường được sử dụng để biểu diễn dữ
liệu rời rạc có xu hướng phụ thuộc vào thời gian hoặc một chuỗi giá trị. Vì ưu điểm
trong việc phân tích dữ liệu nên biểu đồ hình cột sử dụng biểu diễn các giá trị của
các biến dữ liệu như số người nhiễm bệnh, nhiệt độ trung bình, nhiệt độ cao nhất
trung bình, độ ẩm trung bình và tổng lượng mưa trong một thời điểm và khu vực
tương ứng. Các cột chỉ khác nhau về độ cao và màu sắc, khoảng cách giữa các cột
phải tương ứng với tỉ lệ thời gian được phân chia trên trục thời gian. Bề ngang của
các cột cũng được biểu diễn bằng nhau, không có sự chênh lệnh giữa các biến dữ
liệu.

2.2.2. Vị trí
Đối với biểu đồ hình cột trong không gian 2 chiều gặp nhiều, các biến dữ
liệu sẽ được biểu diễn liên tục trên 1 trục liên tục nhau, điều này gây hạn chế trong
việc phân tích và xác định ra các sự tương quan khi số lượng biến dữ liệu nhiều. Để
xác định sự tương quan của bệnh tay chân miệng và các yếu tố khí hậu thì tất cả các
biến dữ liệu đều phải được biểu diễn trên cùng một mô hình trực quan. Nhằm giải
quyết hạn chế của biểu đồ hình cột trong không gian 2 chiều, hệ trục tọa độ 3 chiều
xyz sẽ được sử dụng. Các cột đại diện cho từng biến dữ liệu tại một đơn vị thời
gian, chúng tôi sử dụng hệ trục tọa độ 3 chiều xyz, trong đó trục hoành x biểu diễn
thời gian theo đơn vị tuần, trục tung y biểu diễn lần lượt các biến dữ liệu và trục cao
z biểu diễn giá trị của từng biến dữ liệu. Trục x có gốc tọa độ mang giá trị 1, đại
diện cho tuần thứ 1 trong khoảng thời gian được khảo sát, mỗi một đơn vị là một
tuần, các tuần được biểu diễn là các số tự nhiên. Tên các biến dữ liệu sẽ được biểu
diễn lần lượt trên trục tung y. Trục tung y sẽ là một tập hợp tên các biến dữ liệu.

Mỗi cặp giá trị biến dữ liệu và tuần sẽ được biểu diễn thành một vị trí trên mặt
phằng Oxy.
12


Hình 2. 1. Hệ trục tọa độ 3 chiều Oxyz

Bên cạnh các giá trị các biến dữ liệu theo thời gian được biểu diễn trên hệ
trục tọa độ 3 chiều, các khu vực khảo sát cũng được biểu diễn trực quan thành một
bản đồ 2 chiều riêng biệt nhằm giúp người dùng xác định được mối tương quan
giữa các khu vực với nhau. Bản đồ thể hiện địa giới hành chính của 7 huyện thị
trong tỉnh Bình Dương bao gồm Thành phố Thủ Dầu Một, Thị xã Thuận An, Thị xã
Dĩ An, Huyện Bến Cát, Huyện Tân Uyên, Huyện Phú Giáo, Huyện Dầu Tiếng. Tập
hợp tất cả 7 huyện thị chính là địa giới hành chính của tỉnh Bình Dương, đây cũng
được xem như một khu vực cần được khảo sát.

Hình 2. 2. Bản đồ tỉnh Bình Dương gồm 7 huyện thị năm 2013
13


Trong hình 2.1. “Hệ trục tọa độ 3 chiều xyz”, cao độ z biểu diễn giá trị của
từng loại biến dữ liệu như số người bị bệnh, nhiệt độ, độ ẩm và lượng mưa tại từng
khu vực trong một đơn vị thời gian trên một hệ trục tọa độ. Mỗi bộ giá trị (biến dữ
liệu, tuần, giá trị) sẽ được biểu diễn thành một cột trong không gian 3 chiều xyz.
Trong đó vị trị trên mặt phẳng Oxy được xác định từ cặp giá trị (biến dữ liệu, tuần).
Độ cao của một loại biến dữ liệu thể hiện hiện sự thay đổi giá trị theo thời gian. Sự
chênh lệch về độ cao giữa hai biến dữ liệu tại một thời điểm không dùng để so sánh
giá trị giữa hai biến dữ liệu với nhau vì chúng có sự khác biệt về đơn vị đo. Mối
tương quan về độ cao của các biến dữ liệu sẽ hỗ trợ người dùng trong việc xác định
mối liên hệ giữa các các biến dữ liệu trong một khoảng thời gian.

Nhằm thể hiện rõ nét bản chất của biến thời gian và các biến dữ liệu khi
được biểu diễn trong hệ trục tọa độ 3 chiều Oxyz, chúng tôi gọi khối hình học dùng
để biểu diễn biến thời gian và các biến dữ liệu là khối “Thời gian nhiều biến”. Các
trục tọa độ Ox, Oy, và Oz lần lượt được gọi là trục tuần, trục biến dữ liệu, và trục
giá trị.

Hình 2. 3. Biểu diễn các biến dữ liệu theo độ cao

14


2.2.3. Màu sắc
Một trong những mục tiêu của phân tích dữ liệu là phân biệt sự khác nhau, sự
thay đổi giá trị, và sự liên quan giữa những thay đổi của các biến dữ liệu. Độ đậm
nhạt màu sắc được sử dụng để so sánh bên cạnh giá trị độ cao của từng biến dữ liệu
sẽ làm tăng cường và làm rõ thêm các các thông tin muốn được hiển thị. Tùy theo
giá trị độ cao của từng loại biến dữ liệu, màu sắc sẽ được sử dụng cho biểu diễn trực
quan cho các giá trị, đối với các khoảng giá trị khác nhau các cột dữ liệu sẽ mang
những giá trị màu sắc tương ứng. Người dùng có thể dựa vào mối tương quan giữa
màu sắc của các biến dữ liệu trong từng thời điểm để xác định mối liên hệ. Mỗi biến
dữ liệu sẽ được định nghĩa một số màu sắc cố định, giá trị cao thấp của một biến dữ
liệu sẽ quyết định độ đậm nhạt của biến tại thời điểm đó.

Hình 2. 4. Biểu diễn giá trị các biến dữ liệu theo độ cao và màu sắc

2.3.

Các phép biến đổi từ biến dữ liệu thành biến trực quan
Các biến dữ liệu của bệnh tay chân miệng gồm số người nhiễm bệnh, độ ẩm


trung bình, lượng mưa trung bình, nhiệt độ trung bình, nhiệt độ cao nhất trung bình,
15


thời gian và khu vực. Trong đó thời gian và khu vực là hai biến độc lập. Các biến
dữ liệu còn lại như số người nhiễm bệnh, độ ẩm trung bình, tổng lượng mưa, nhiệt
độ trung bình và nhiệt độ cao nhất trung bình là các biến phụ thuộc vào thời gian và
khu vực. Các mối quan hệ giữa tập biến dữ liệu và tập biến trực quan sẽ được biểu
diễn một cách rõ ràng theo mô hình toán với các định nghĩa của các tập giá trị như
sau:
Thời gian được khảo sát đối với bệnh tay chân miệng tại các trung tâm y tế
dự phòng của tỉnh được sử dụng theo đơn vị tuần, mỗi tuần có 7 ngày, mỗi năm có
52 tuần bắt đầu từ tuần số 1 đến tuần số 52. Trong trường hợp các tuần không đủ 7
ngày sẽ được gộp chung với tuần không đủ 7 ngày của năm trước hoặc sau năm
đang xét. Tập tuần khảo sát được đặt là tập T ⊂ N* với N* là tập các số tự nhiên
khác 0. Có tất cả 8 khu vực được khảo sát là toàn tỉnh Bình Dương và 7 huyện thị
trong tỉnh bao gồm Tp Thủ Dầu Một, Thị xã Thuận An, Thị xã Dĩ An, Huyện Bến
Cát, Huyện Dầu Tiếng, Huyện Phú Giáo, Huyện Tân Uyên. Các huyện thị được
tổng quát hóa thể hiện trong một tập vị trí L = {Tỉnh Bình Dương, Tp Thủ Dầu Một,
Thị xã Thuận An, Thị xã Dĩ An, Huyện Bến Cát, Huyện Dầu Tiếng, Huyện Phú
Giáo, Huyện Tân Uyên}, mỗi khu vực khảo sát được xem như một phần tử trong tập
vị trí.
Tập các biến dữ liệu 𝑃 chứa các biến dữ liệu như số người nhiễm bệnh, nhiệt
độ trung bình, độ ẩm trung bình, tổng lượng mưa, và nhiệt độ cao nhất trung bình là
các biến phụ thuộc vào thời gian và khu vực. Số người nhiễm bệnh là giá trị nguyên
thuộc tập số tự nhiên trong khi đó các yếu tố khí hậu là các giá trị thuộc tập số thực
ℝ.
Gọi θ là ánh xạ đi từ tập không gian 𝑇 × 𝐿 × 𝑃 vào ℝ lần lượt biến bộ giá trị
thời gian, vị trí, và loại biến dữ liệu (𝑡, 𝑙, 𝑝) thành giá trị của biến dữ liệu cần khảo
sát tại khu vực l và thời gian t tương ứng.

Ta có:

: T  L  P 
(t,

 (t, l, p)

l, p)

16

(2.1)


Với θ(𝑡, 𝑙, 𝑝) ∈ ℝ là giá trị của biến dữ liệu p tại khu vực l tại thời điểm t.
Gọi 𝐶 là tập màu được sử dụng trong trực quan hóa, số phần tử trong tập
màu là một số mã màu cố định được định nghĩa trước. Mỗi phần tử trong tập màu là
một mã màu trong không gian màu RGB. Từ viết tắt của R là red – đỏ, G là green –
xanh lá cây, và B là blue – xanh lam [19]. Mỗi màu trong không gian màu RGB là
một tổ hợp thích hợp các giá trị của 3 màu trên. Ví dụ RGB(153,255,153) là một
màu trong không gian màu RGB được tổ hợp từ giá trị R = 153, giá trị G = 255, và
giá trị B = 153.
Ta gọi ánh xạ biến giá trị của biến dữ liệu thành một mã màu tương ứng
trong tập màu C là φ. Khi đó ánh xạ φ được biểu diễn như sau:

φ: R  × P × L  C

z ,

p , l


φ  z, p, l 

(2.2)

Với φ(z, 𝑝, 𝑙) là mã màu trong tập màu C ứng với giá trị biến dữ liệu p tại khu vực
l. Các khoảng phân chia màu của từng biến dữ liệu được thực hiện từ việc phân cụm
toàn bộ dữ liệu của biến dữ liệu theo khu vực tương ứng bằng thuật toán phân cụm
K-Means với số cụm là 3 tương ứng với 3 mức độ quan tâm là thấp, trung bình, và
cao. Chi tiết quá trình thực hiện phân cụm dữ liệu sẽ được trình bày trong mục 3 của
chương hiện tại. φ(z, 𝑝, 𝑙) được xác định như sau:
 Nếu biến dữ liệu p = “Độ ẩm trung bình” thì:
𝑅𝐺𝐵(153,255,153) 𝑛ế𝑢 𝑧 < 78,5
𝜑(𝑧, 𝑝, 𝑙) = { 𝑅𝐺𝐵(51,255,51) 𝑛ế𝑢 78 ≤ 𝑧 < 85
𝑅𝐺𝐵(0,153,0) 𝑛ế𝑢 85 ≤ 𝑧

(2.3)

 Nếu biến dữ liệu p = “Nhiệt độ trung bình” thì:
𝑅𝐺𝐵(229,232,118) 𝑛ế𝑢 z < 26,37
φ(z, 𝑝, 𝑙) = {𝑅𝐺𝐵(247,255,139) 𝑛ế𝑢 26,37 ≤ 𝑧 < 28,5
𝑅𝐺𝐵(254,209,96) 𝑛ế𝑢 28,5 ≤ 𝑧

 Nếu biến dữ liệu p = “Nhiệt độ cao nhất trung bình” thì:

17

(2.4)



𝑅𝐺𝐵(204,255,51) 𝑛ế𝑢 z < 32,5
φ(z, 𝑝, 𝑙) = {𝑅𝐺𝐵(255,255,102) 𝑛ế𝑢 32.5 ≤ 𝑧 < 34,77
𝑅𝐺𝐵(255,153,0) 𝑛ế𝑢 34,77 ≤ 𝑧

(2.5)

 Nếu biến dữ liệu p = “Tổng lượng mưa” thì:
𝑅𝐺𝐵(255,255,255) 𝑛ế𝑢 ( z < 210 𝑣à 𝑙 = "Tỉnh Bình Dương" )
ℎ𝑜ặ𝑐 (𝑧 < 33.2 𝑣à 𝑙 ≠ "𝑇ỉ𝑛ℎ 𝐵ì𝑛ℎ 𝐷ươ𝑛𝑔")
𝑅𝐺𝐵(107,146,255) 𝑛ế𝑢 ( 210 ≤ 𝑧 < 520 𝑣à 𝑙 = "Tỉnh Bình Dương")
φ(z, 𝑝, 𝑙) =
ℎ𝑜ặ𝑐 ( 33,2 ≤ 𝑧 < 93,4 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" )
𝑅𝐺𝐵(0,39,145) 𝑛ế𝑢 520 ≤ 𝑧 𝑣à 𝑙 = "Tỉnh Bình Dương"
hoặc ( 93,4 ≤ 𝑧 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" )
{

(2.6)

 Nếu biến dữ liệu p = “Tổng bệnh nhân nhiễm bệnh” thì:
𝑅𝐺𝐵(255,204,204) 𝑛ế𝑢 ( z < 39 𝑣à 𝑙 = "Tỉnh Bình Dương" )
ℎ𝑜ặ𝑐 (𝑧 < 7 𝑣à 𝑙 ≠ "𝑇ỉ𝑛ℎ 𝐵ì𝑛ℎ 𝐷ươ𝑛𝑔")
𝑅𝐺𝐵(255,102,102) 𝑛ế𝑢 ( 40 ≤ 𝑧 < 95 𝑣à 𝑙 = "Tỉnh Bình Dương")
φ(z, 𝑝, 𝑙) =
ℎ𝑜ặ𝑐 ( 7 ≤ 𝑧 < 18 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" )
𝑅𝐺𝐵(255,0,0) 𝑛ế𝑢 95 ≤ 𝑧 𝑣à 𝑙 = "Tỉnh Bình Dương"
hoặc ( 18 ≤ 𝑧 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" )
{

(2.7)


Khối thời gian nhiều biến dùng để biểu diễn biến thời gian và các biến
dữ liệu là tập 𝑉 = 𝑇 × 𝑃 × ℝ. Với 𝑇 là tập thời gian, 𝑃 là tập các loại biến dữ liệu
được khảo sát, ℝ và 𝐶 lần lượt là là tập số thực chứa các giá trị của biến dữ liệu và
tập màu tương ứng từng giá trị của biến dữ liệu tại một đơn vị thời gian và khu vực
được khảo sát. Ta gọi 𝜎 là ánh xạ biến bộ giá trị thời gian, khu vực, và loại biến dữ
liệu vào trong khối thời gian nhiều biến 𝑉. Khi đó ánh xạ 𝜎 được xác định như sau:

 :T  P  L  V  T  P 

t ,

p, l 



  t , p, z 

(2.8)

Với z = θ(𝑡, 𝑙, 𝑝), ta viết lại ánh xạ 𝜎 như sau:

 :T  P  L  V  T  P 

t,

p, l 



  t, p, θ  t ,  l , p   


18

(2.9)


2.4.

Phân cụm dữ liệu bệnh tay chân miệng và dữ liệu khí hậu
Tập C được định nghĩa là tập chứa các mã màu của từng loại biến dữ liệu.

Vấn đề được đặt ra là ánh xạ biến giá trị của từng biến dữ liệu tại từng khu vực sang
mã màu được xác định như thế nào. Trong mục 2, ánh xạ φ biến bộ giá trị (z, 𝑝, 𝑙)
sang mã màu trong tập C. Các khoản giá trị z của biến dữ liệu được tính toán thông
qua thuật toán phân cụm K-Means.
Cho đến thời điểm hiện tại nước ta chưa có quy định cụ thể nào về việc phân
cụm các cấp độ số lượng bệnh nhân cho bệnh tay chân miệng. Do đó phân cụm số
lượng bệnh nhân vào các nhóm cấp độ là điều cấp thiết và hỗ trợ tốt cho các nhà
quản lý y tế theo dõi số lượng bệnh nhân từng thời điểm để có các chiến lược phòng
chống bệnh hiệu quả. Được sự tư vấn của các chuyên gia quản lý dịch bệnh tại
Trung tâm Y tế dự phòng Thị xã Thuận An tỉnh Bình Dương, số lượng cụm dữ liệu
của bệnh và các yếu tố khí hậu chỉ nên là 3 cụm cho từng loại biến dữ liệu. Số
lượng cụm này đáp ứng được 3 cấp độ quan tâm của nhà quản lý đối với số lượng
người nhiễm bệnh là số lượng thấp, số lượng trung bình, và số lượng cao. Ứng với
từng cấp độ bệnh sẽ có những phương thức tuyên truyền cảnh báo phòng bệnh khác
nhau. Đồng thời việc phân thành 3 cụm dữ liệu thuận tiện cho người dùng, rõ ràng
trong việc khảo sát dữ liệu, không bị rối vì quá nhiều cấp độ giá trị của các biến dữ
liệu.
Đối với dữ liệu bệnh tay chân miệng, dữ liệu số người nhiễm bệnh trên toàn
địa bàn tỉnh Bình Dương và số người nhiễm bệnh tại các huyện thị trên địa bàn tỉnh

được phân cụm riêng. Đối với cấp độ quản lý trên toàn tỉnh thì số lượng người
nhiễm bệnh sẽ cao hơn số lượng người nhiễm bệnh trên khu vực huyện thị xã, vì
vậy khi dùng chung số liệu phân cụm thì sẽ không hợp lý. Thực hiện phân cụm 2
bảng số liệu là bảng số liệu bệnh tổng hợp của tỉnh Bình Dương và bảng số liệu
bệnh tại các huyện thị từ năm 2012 đến năm 2014 với số cụm là 3 bằng phần mềm
thống kê R Software ta thu được kết quả sau:

19


Bảng 2. 2. Kết quả phân cụm dữ liệu bệnh tổng hợp của tỉnh Bình Dương dựa vào số liệu
thực tế từ năm 2012 đến năm 2014

Cụm

Kích Điểm trung
thước
tâm

Giá trị nhỏ
Giá trị lớn nhất
nhất trong cụm
trong cụm

1

81

28,1358


5

39

2

64

50,5625

40

85

3

11

131,7273

100

170

Để cho số lượng người nhiễm bệnh giữa các cụm liên tục với nhau, giá trị
lớn nhất trong cụm số 2 và giá trị nhỏ nhất trong cụm số 3 được thay bằng giá trị
trung bình (85 + 100)/2 = 95,2. Điều này vẫn không làm thay đổi số lượng bênh
nhân của các cụm vì không có số lượng bệnh nhân nằm trong khoảng từ 86 đến 99
được ghi nhận trong từ năm 2012 đến 2014. Trong cụm số 1, số giá trị bệnh nhân
nhỏ nhất là 5 được thay thế là 0 cũng không làm thay đổi về số lượng của bệnh nhân

trong từng cụm đồng thời có thể xác định được màu trong trường hợp số bệnh nhân
nhỏ hơn 5 có thể xảy ra trong các năm tiếp theo. Khi đó các khoảng phân chia dữ
liệu sẽ có kết quả như sao:
Bảng 2. 3. Kết quả giá trị nhỏ nhất và giá trị lớn nhất trong từng cụm của dữ liệu bệnh tổng
hợp tại Tỉnh Bình Dương sau khi đã hiệu chỉnh

Cụm

Giá trị nhỏ
Giá trị lớn nhất
nhất trong cụm
trong cụm

1

0

39

2

40

95

3

96




Thực hiện tương tự với dữ liệu bệnh tay chân miệng tổng trên địa bàn tỉnh
Bình Dương, bảng kết quả phân cụm dữ liệu bệnh tại tất cả các huyện thị trong tỉnh
như sau:

20


Bảng 2. 4. Kết quả phân cụm dữ liệu bệnh tại tất cả các huyện thị trong tỉnh

Cụm

Kích Điểm trung
thước
tâm

Giá trị nhỏ
Giá trị lớn nhất
nhất trong cụm
trong cụm

1

36

29,111111

21

50


2

303

11,158416

8

20

3

753

3,366534

0

7

Khi đó để tổng quát hóa dữ liệu lớn nhất trong cụm số 1, thì giá trị lớn nhất
sẽ được tăng từ 50 thành ∞ để có thể phủ được trong trường hợp số bệnh nhân lớn
hơn 50 trong các năm tiếp theo trong các huyện thị xã. Khi đó bảng số lượng bệnh
nhân lớn nhất và nhỏ nhất theo từng cụm tại tất cả các huyện thị như sau:
Bảng 2. 5. Số lượng bệnh nhân lớn nhất và nhỏ nhất trong từng cụm khi phân cụm số liệu
tất cả các huyện thị

Cụm


Giá trị nhỏ
Giá trị lớn nhất
nhất trong cụm
trong cụm

1

0

7

2

8

20

3

21



Đối với dữ liệu tổng lượng mưa, tương tự với số người nhiễm bệnh trên khu
vực từng huyện thị và trên toàn địa bàn tỉnh. Bảng số liệu giá trị lớn nhất và nhỏ
nhất trong từng cụm của dữ liệu tổng lượng mưa trên các khu vực huyện thị và bảng
số liệu tổng lượng mưa trên toàn địa bàn tỉnh như sau:
Bảng 2. 6. Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng lượng mưa
trên toàn địa bàn tỉnh


Cụm

Giá trị nhỏ
Giá trị lớn nhất
nhất trong cụm
trong cụm

1

0

214,75

2

214,76

534,5

3

534,6


21


×