Tải bản đầy đủ (.docx) (25 trang)

Trí tuệ nhân tạo Ứng dụng học máy dự đoán chất lượng không khí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (808.26 KB, 25 trang )

MỤC LỤC


DANH MỤC CHỮ VIẾT TẮT
Tiếng Anh

Tiếng Việt

AI

Artificial Intelligent

Trí tuệ nhân tạo

ANN

Artificial neural netwwork

Mạng nơron nhân tạo

AQI

Air quality index

Chỉ số chất lượng khơng khí

AR

Autoregressive

Mơ hình tự hồi quy



ARIMA

Autoregressive integrated moving
average

Mơ hình tự hồi quy tích hợp
trung bình trượt

CLKK

Chất lượng khơng khí

CNN

Convolution neural network

Mạng nơron tích chập

FFNN

Feed-forward neural network

Mạng nơron truyền thuận

FL

Fuzzy – logic

Logic mờ


FN

Fully connected network

Mạng nơron kết nối đầy đủ

GA

Genetic algorithm

Thuật giải di truyền

IQR

Inter quartile range

Khoảng phân vị

KF

Kalman filter

Bộ lọc Kalman

LR

Linear regression

Hồi quy tuyến tính


LSTM

Long – short term memory

Khối bộ nhớ dài – ngắn

MA

Moving average

MAE

Mean absolute error

Mơ hình trung bình trượt
Trị trung bình của các sai tuyệt
đối

MLP

Multi-layer perceptron

Mạng nơron đa lớp

Q1

Quartile 25th

Phân vị 25%


Q3

Quartile 75th

Phân vị 75%

RM

Regression model

Mơ hình hồi quy

RMSE

Root mean square error

Sai số quân phương

SVM

Support vector machine

Máy véc tơ hỗ trợ


LỜI MỞ ĐẦU
Cũng giống như thời tiết, chất lượng không khí ảnh hưởng trực tiếp đến sức khỏe
con người. Khi nồng độ các chất ô nhiễm vượt quá ngưỡng cho phép, tiếp xúc với thời
gian ngắn có thể gây ra các phản ứng cấp tính như giảm tầm nhìn, khó thở, cay mắt…,

tiếp xúc với thời gian dài có thể gây ra các bệnh mạn tính về hơ hấp, tim mạch và có thể
cả ung thư. Ngồi ra, ơ nhiễm khơng khí cịn gây ra các ảnh hưởng xấu đến các hệ sinh
thái tự nhiên. Do đó, bên cạnh cơng tác quan trắc thì dự báo được nồng độ các chất ơ
nhiễm khơng khí, cũng như diễn biến của chúng có ý nghĩa vơ cùng quan trọng trong việc
đánh giá các mối nguy cơ tiềm tàng của ô nhiễm không khí. Chính vì vậy, trong hơn một
thập kỷ trở lại đây, các nghiên cứu ứng dụng các mơ hình dự báo chất lượng khơng khí tại
Việt Nam đã tăng lên đáng kể và đạt được nhiều thành tựu.
Trong thập kỷ vừa qua, các mơ hình dự báo thống kê CLKK sử dụng mạng nơron
nhân tạo đã được nghiên cứu và ứng dụng thành công tại nhiều quốc gia trên Thế giới, có
thể kể đến ở đây như dự báo nồng độ bụi PM10, dự báo nồng độ ôzôn, hoặc một số chất ô
nhiễm khác như SO2, NOx, VOC… sử dụng các kiến trúc mạng nơron kết nối đầy đủ FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP hay như một số mơ hình ứng
dụng mạng nơron hồi quy thông thường (RNN) như mạng tự hồi quy phi tuyến với biến
ngoại sinh (NARX) và Vanilla RNN. Trong những năm gần đây, các kỹ thuật học sâu
phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêu tốn tài ngun máy và tăng độ
chính xác đặc biệt có thể kể đến ở đây như mạng nơron tích chập (CNN), mạng bộ nhớ
dài – ngắn (LSTM)…
Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặc biệt
là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo cịn khá mới mẻ và theo hiểu
biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này.
Xuất phát từ thực tế đó, đề tài “Ứng dụng kỹ thuật học máy trong dự báo các chỉ
số chất lượng không khí.” đã được lựa chọn nhằm khởi động và thúc đẩy hướng nghiên
cứu mới này tại Việt Nam, góp phần vào công tác quản lý và bảo vệ môi trường khơng
khí ở nước ta.


CHƯƠNG 1: TỔNG QUAN
1.1. Chất lượng khơng khí
1.1.1. Chất lượng khơng khí và ảnh hưởng của nó đến sức khỏe
Chất lượng khơng khí đã và đang là một trong những vẫn đề được quan tâm của
các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đến

sức khỏe người dân và hệ sinh thái. Theo tổ chức Y tế Thế giới – WHO, ước tính trong
năm 2012, ơ nhiễm khơng khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm 10%
trong số các ca tử vong do tất cả các ngun nhân. Trong đó, theo ước tính có khoảng 9%
do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do các nguyên nhân
như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ơ nhiễm khơng khí, và 9% do
nhiễm trùng đường hơ hấp.
Chất lượng khơng khí, là một thuật ngữ liên quan đến thành phần hóa học của khí
quyển. Trong đó, bụi (PM), ôzôn (O3), NO2, các hợp chất hữu cơ dễ bay hơi (VOC), CO
và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm của chúng đến sức
khỏe. Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ ra rằng sự gia tăng
nồng độ của O3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số ca nhập viện do các
nguyên nhân hen và viêm phổi. Một kết quả đáng lưu ý được báo cáo bởi Di và cộng sự
nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y tế (Medicare) tại Mỹ trong giai
đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ của PM 2.5 tăng lên 10 μg/m3 , thì tỷ lệ
tử vong do mọi nguyên nhân tăng lên 7,3%, còn khi nồng độ O 3 tăng lên 10 ppb thì tỷ lệ
tử vong tăng lên 1,1%. Ngồi ra, một phân tích tổng hợp được nghiên cứu tại nhiều thành
phố của Trung Quốc, trong nhiều gian đoạn khác nhau cũng đã quan sát được rằng khi
nồng độ của PM2.5 tăng lên 10 μg/m3 thì tỷ lệ tử vong do các nguyên nhân tăng lên 0,38%;
tăng 0,51% tỷ lệ tử vong do các bệnh liên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong
do các bệnh tim mạch. Tương tự, ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/m3 thì
tỷ lệ gia tăng tỷ lệ tử vong tương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và
0,48%; tỷ lệ tử vong do các bệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các
bệnh tim mạch 0,85%, 1,46% và 0,45%. Còn với CO, nghiên cứu này cũng quan sát được
rằng khi nồng độ của CO tăng lên 1mg/m3 (1000 μg/m3 ) thì tỷ lệ tử vong do tất cả các
nguyên nhân tăng lên 3,7% và do các bệnh tim mạch tăng lên 4,77%.


Tại Việt Nam, nghiên cứu tại thành phố Hồ Chí Minh từ 2004 đến hết 2007 cũng
cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm và số ca nhập
viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng độ của mỗi chất

PM10, NO2 và SO2 lên 10 μg/m3 thì tỷ lệ gia tăng các ca nhập viện do hô hấp tăng lên
tương ứng là 0,7%, 8% và 2%, trong khi, O 3 không gây tác động đáng kể nào. Trong báo
cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu gồm PM 10, NO2, SO2
và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn theo thang đo của WHO
(chiếm 79% thời gian nghiên cứu). Đối tượng nhạy cảm hơn cả với CLKK là nhóm người
già và trẻ em, hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện do các bệnh liên quan
đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong đó có 2462/3351 ngày có
nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khi khoảng cách giữa các phân vị
(IQR – interquartile range) của nồng độ của O3 tăng lên 86 μg/m3 thì tỷ lệ ra viện của
bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng với PM 10 là 61,5 μg/m3 thì tỷ lệ ra
viện giảm 6%.
Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với dự
báo khí tượng thì sẽ giúp người dân có thể chủ động hơn với các hoạt động giảm thiểu
mức độ ảnh hưởng tiêu cực của ơ nhiễm khơng khí đến sức khỏe, nâng cao hiểu biết và ý
thức bảo vệ môi trường, đặc biệt là khơng khí. Ngồi ra, dựa vào đó, các cơ quan có các
chính sách và chiến lược quản lý CLKK kịp thời hơn.

1.2. Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng khơng khí
1.2.1. Trên thế giới
Từ thập niên 90 của thế kỷ XX đến nay, cùng với sự phát triển vượt bậc của công
nghệ thông tin và những bước đột phá trong các nghiên cứu về ứng dụng AI trong khoa
học thống kê, công tác phân tích và dự báo thống kê theo chuỗi thời gian mới thực sự
phát triển mạnh và được ứng dụng trong nhiều ngành, trong đó có dự báo CLKK. Do tính
linh hoạt cũng như khả năng “học tập” từ dữ liệu một cách mạnh mẽ mà các công cụ AI,
đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dự báo CLKK. Ngay từ
những năm 1990, một mơ hình dự báo nồng độ đỉnh của ôzôn trong ngày ứng dụng ANN
đã được Junsub Yi và cộng sự xây dựng và phát triển thành công cho thành phố Dallas,
bang Texas, Mỹ. Mặc dù thời điểm này tác giả sử dụng một kiến trúc mạng nơron truyền



thuận (FFNN) khá đơn giản gồm 01 lớp đầu vào, 01 lớp ẩn và 01 lớp đầu ra. Tuy nhiên,
kết quả được báo cáo trong nghiên cứu này là rất khả quan.
Trong những năm gần đây, các kỹ thuật AI thường được thiết kế và ứng dụng cho
mục đích khai thác các bộ dữ liệu lớn (bigdata), và dữ liệu CLKK cũng là một trong số
đó. Để làm việc với các bộ dữ liệu lớn hơn thì địi hỏi kiến trúc mạng ANN phải nhiều
lớp hơn (sâu hơn) – còn gọi là mạng nơron sâu (DNN). Tuy nhiên, kiến trúc kết nối đầy
đủ như ANN thơng thường khơng cịn phù hợp do lượng tham số sử dụng trong mơ hình
q lớn, chúng tiêu tốn quá nhiều tài nguyên máy tính. Từ thực tế trên, để giảm số lượng
các tham số của mạng, cách tiếp cận khả thi đã được sử dụng thành công là cố gắng giảm
chiều dữ liệu qua các lớp của mạng. Một kiến trúc mạng nơron đặc biệt được gọi là mạng
nơron tích chập – CNN hồn chỉnh lần đầu tiên được giới thiệu và ứng dụng bởi Yann
LeCunn và cộng sự năm 1998 dựa trên cách tiếp cận như vậy để nhận diện ký tự.
Nhờ ưu điểm này, cho đến nay CNN trở thành một trong những ANN được ứng
dụng nhiều nhất cho các bài toán khai thác dữ liệu lớn, theo thống kê từ hệ thống Google
Scholar nghiên cứu này được trích dẫn 28.998 lần (truy cập lúc 16 giờ 15’ ngày 17 tháng
8 năm 2020). Trong lĩnh vực dự báo CLKK, CNN cũng đã được ứng dụng thành công.
Tuy nhiên, cũng giống như các ANN thông thường, hạn chế của CNN trong khai thác dữ
liệu theo chuỗi thời gian như dữ liệu CLKK, đó là đầu vào của mơ hình là các mẫu dữ
liệu rời rạc, trong quá trình huấn luyện các mẫu này được đưa vào huấn luyện một cách
ngẫu nhiên không theo trình tự thời gian. Điều này có thể làm mất thông tin về chu kỳ
diễn biến của nồng độ chất ô nhiễm theo thời gian (ngày, tuần, mùa, …). Mặt khác, các
mơ hình lai kết hợp giữa CNN-LSTM cũng đã được nghiên cứu ứng dụng trong các mơ
hình dự báo CLKK đặc biệt là phát triển mơ hình dự báo CLKK cho các đô thị thông
minh cho kết quả rất khả quan. Điều này cho thấy tiềm năng ứng dụng AI nói chung,
ANN nói riêng và đặc biệt các mạng ANN học sâu để xây dựng các mơ hình dự báo
thống kê CLKK là rất lớn.
1.2.2. Ở Việt Nam
Trong 15 năm trở lại đây, do ý thức được tầm quan trọng của công tác quản lý và
bảo vệ CLKK đặc biệt là cơng tác dự báo. Chính vì vậy, các mơ hình dự báo CLKK đã
được nghiên cứu và ứng dụng như mơ hình phát thải giao thơng SMOKE, mơ hình

CMAQ để dự báo CLKK cho một số tỉnh phía Bắc và thành phố Hồ Chí Minh, mơ hình


DPSIR hoặc mơ hình TAPOM với kết quả rất khả quan. Tuy nhiên, tựu chung lại các mơ
hình đã được nghiên cứu và ứng dụng tại Việt Nam hầu hết là các mơ hình phát thải (như
SMOKE, MOBILE), mơ hình quang hóa (CMAQ, TAPOM) hoặc mơ hình động lực học
(DPSIR). Như đã phân tích ở phần trên, các loại mơ hình này có ưu điểm là độ chính xác
cao, đánh giá sâu sắc các vấn đề liên quan đến sự biến động nồng độ các chất ơ nhiễm
khơng khí như q trình khí tượng, các q trình biến đổi hóa học…áp dụng được với
quy mơ rộng lớn và có thể kết hợp với các mơ hình khí tượng đã được ứng dụng tại Việt
Nam như MM5, FVM… Tuy nhiên, nhược điểm chung của các mơ hình này đó là khối
lượng tính tốn lớn, phức tạp vì vậy địi hỏi một hệ thống cơ sở hạ tầng về công nghệ
thông tin đủ mạnh. Thêm nữa, việc vận hành các mơ hình loại này địi hỏi có chun mơn
tương đối cao, bởi nếu khơng những sai sót trong thiết lập (setup) mơ hình cũng có thể
gây ra sai số khơng mong muốn. Nhìn vào hiện trạng trên có thể thấy rằng các mơ hình
ứng dụng trí tuệ nhân tạo trong dự báo và khai thác dữ liệu mơi trường khơng khí tại Việt
Nam còn rất hạn chế.
Cùng với sự phát triển chung của Thế giới, các kỹ thuật trí tuệ nhân tạo cũng đã
được nghiên cứu và áp dụng trong rất nhiều lĩnh vực tại Việt Nam. Theo dữ liệu học liệu
mở trên cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 cho đến nay có thể kể
đến như đối với ứng dụng trong công nghệ thông tin, trong điều khiển và kiểm sốt các
q trình cơng nghệ, trong lĩnh vực dự báo nhu cầu năng lượng, trong dự báo lũ, trong
xây dựng và đặc biệt là ứng dụng trong dự báo kinh tế… Trong lĩnh vực quản lý và bảo
vệ môi trường việc ứng dụng các kỹ thuật trí tuệ nhân tạo cũng đã bước đầu có những kết
quả tương đối khả quan. Điều này cho thấy, tiềm năng ứng dụng các kỹ thuật của trí tuệ
nhân tạo trong thực tế quản lý và sản xuất là rất lớn.
Đối với quản lý và dự báo CLKK việc ứng dụng trí tuệ nhân tạo mặc dù chưa có
nghiên cứu nào, tuy nhiên vấn đề này đã thử nghiệm sử dụng ANN để bổ khuyết số liệu
quan trắc CLKK trạm Láng, Hà Nội, mặc dù mới chỉ là thử nghiệm, nhưng kết quả thu
được là tương đối khả quan, cho thấy việc ứng dụng ANN nói riêng và các kỹ thuật trí tuệ

nhân tạo nói chung tại Việt Nam là rất có tiềm năng.


1.3. Mơ hình trí tuệ nhân tạo
1.3.1. Mơ hình ARIMA
Mơ hình ARIMA được Box và Jenkins đề xuất năm 1970, là một mơ hình phân
tích dữ liệu theo chuỗi thời gian được kết hợp bởi hai thành phần (mơ hình con) gồm mơ
hình tự hồi quy (Autoregressive - AR) và mơ hình trung bình trượt (Moving average –
MA), được mơ tả tóm tắt dưới đây:
+ Mơ hình tự hồi quy (Autoregressive – AR):

+ Mơ hình trung bình trượt (Moving average – MA

Kết hợp hai mơ hình trên thành một mơ hình có tham số (p, q) được gọi là ARMA,
trong đó p là tham số của mơ hình AR và q là tham số của mơ hình MA, được trình bày
trong phương trình dưới đây:

1.3.2. Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và Pitt
(1943), là một cấu trúc tốn học mơ tả lại hệ thần kinh sinh học. Chúng được tạo thành từ
các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh). Mỗi nơron nhận tín hiệu
từ các nơron khác hoặc từ bên ngồi thơng qua synape. Tại đây, thông tin được xử lý
thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đến nơron khác
dựa trên kinh nghiệm đã được học tập trước đó. Mơ hình tốn của ANN được thể hiện
trong Hình 1.1.


Hình 1. 1 Mơ hình tốn của một nơron

Hình 1. 2. Kiến trúc cơ bản của một ANN

1.3.3. Máy hỗ trợ véc tơ (SVM)
Thuật toán SVMs được phát triển bởi Vapnik (1995) dựa trên lý thuyết thống kê,
ban đầu được sử dụng trong các bài toán phân lớp dữ liệu. Thuật tốn SVMs sử dụng các
mơ hình tuyến tính để phân chia ranh giới giữa các lớp phi tuyến bằng cách mô tả dữ liệu
đầu vào bằng một ánh xạ phi tuyến, nói cách khác đó là sự biến đổi không gian ban đầu
thành một không gian mới. SVMs là thuật tốn cơ sở của mơ hình tuyến tính đặc biệt: Lề
tối đa siêu phẳng. Trong đó, các lề siêu phẳng này chính là ranh giới phân chia các lớp dữ
liệu. Mục tiêu chính của bài tốn chính là hồi quy gần đúng một hàm g(x) từ một bộ mẫu
1.3.4. Mạng nơron tích chập (CNN)
Mạng nơron tích chập (convolutional neural network) là một loại mạng nơron
nhân tạo đã được chứng minh tính hiệu quả của nó trong nhiều lĩnh vực phức tạp như xe


tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển rô bốt. Được giới thiệu và
phát triển trong thập niên 90 của thế kỷ XX, kiến trúc LeNet được đề xuất bởi Yann
LeCun được coi là một trong những mạng nơron tích chập đầu tiên và được thiết kế trong
mơ hình nhận dạng chữ in và viết tay được gọi là LeNet5 đã giúp thúc đẩy sự phát triển
mạnh mẽ của lĩnh vực học sâu (deeplearning). Một số kiến trúc mạng tích chập mới được
đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụng các khái niệm và
phương pháp tiếp cận chính từ LeNet.
1.3.5. Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp
Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và hai
cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felix khi
thêm cổng quên (foget gate) và các kết nối giám sát (peephole conections). LSTM chứa
một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên (foget gate),
sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân tích sự phụ thuộc
của dữ liệu trong thời gian dài, điều mà các RNN thông thường không thể giải quyết
được. Ngoài ra, một vấn đề gặp phải phổ biến trong các mạng nơron sâu (nhiều lớp) được
gọi là mất độ dốc (gradient descent), tức là, tốc độ học của các lớp ẩn phía trước chậm

hơn các lớp ẩn sâu hơn. Hiện tượng này thường làm giảm độ chính xác khi số lớp ẩn tăng
lên. Tuy nhiên, với cấu trúc ơ nhớ của LSTM có thể giải quyết hiệu quả vấn đề suy giảm
độ dốc trong quá trình lan truyền ngược (backpropagation) và có thể phân tích chuỗi dữ
liệu đầu vào với bước thời gian dài hơn. Do đó, LSTM thường được sử dụng để giải
quyết các vấn đề phân tích dữ liệu theo chuỗi thời gian.

CHƯƠNG 2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình nghiên cứu
Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các bước chính
được tóm tắt dưới đây:
Bước 1. Thu thập dữ liệu từ trạm quan trắc CLKK.
Bước 2. Làm sạch và chuẩn bị dữ liệu:
- Xử lý dữ liệu ngoại vi.


- Bổ khuyết dữ liệu.
- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết.
Bước 3. Xây dựng và đánh giá mơ hình nghiên cứu.
- Xây dựng kiến trúc mơ hình.
- Huấn luyện mơ hình.
- Đánh giá độ tin cậy của mơ hình.
- Cải thiện hiệu suất mơ hình
Bước 4. Thực hiện mơ hình

2.2. Thu thập dữ liệu
2.2.1. Địa điểm và thời gian thu thập dữ liệu
a. Địa điểm thu thập dữ liệu
Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ trung bình
giờ của các thơng số CLKK được đo tại trạm quan trắc CLKK tự động thuộc quyền quản
lý của Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môi trường đặt tại số

556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ 21°02'55.6"N và
105°52'57.4"E.
b. Thời gian thu thập dữ liệu
Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm,
Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) ghi lại các phản ứng của
thiết bị cảm biến hóa học chất lượng khơng khí được triển khai tại hiện trường.
2.2.2. Thơng số kỹ thuật và phương pháp đo đạc tại trạm quan trắc
Chúng ta có thể sử dụng Bộ dữ liệu chất lượng khơng khí UCI ML để chứng minh
ảnh hưởng của hướng kime đối với việc phân tích dữ liệu theo chiều dọc. Các dữ liệu
chất lượng khơng khí bao gồm 9358 phản hồi trung bình hàng giờ từ một loạt 5 cảm biến
được nhúng trong Thiết bị đa cảm biến hóa học chất lượng khơng khí. Các phép đo này
được thực hiện tại một khu vực ô nhiễm đáng kể trong khoảng thời gian một năm (tháng


3 năm 2018 đến tháng 2 năm 2019). Các tính năng bao gồm Nồng độ cho CO,
Hydrocacbon không Metan, Benzen, Tổng Nitơ Oxit (NOx) và Nitrogen Dioxit (NO2).
Các thuộc tính trong tệp CSV bao gồm:


Ngày (DD / MM / YYYY)



Thời gian (HH.MM.SS)



Nồng độ trung bình hàng giờ thực sự CO tính bằng mg/m 3 (máy phân tích tham
chiếu)




PT08.S1 (thiếc oxit) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu CO
trên danh nghĩa)



Nồng độ tổng thể của Hydro-cacbon khơng Metan trung bình thực theo giờ tính
bằng microg/m3 (máy phân tích tham chiếu)



Nồng độ Benzen trung bình thực theo giờ tính bằng microg/m 3 (máy phân tích
tham chiếu)



PT08.S2 (Titania) phản hồi cảm biến trung bình hàng giờ (được nhắm mục tiêu
NMHC trên danh nghĩa)



Nồng độ NOx trung bình hàng giờ thực tính bằng ppb (máy phân tích tham chiếu)



PT08.S3 (oxit vonfram) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu
NOx trên danh nghĩa)




Nồng độ NO2 trung bình hàng giờ thực tính bằng microg/m3 (máy phân tích tham
chiếu)



PT08.S4 (oxit vonfram) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu
NO2 danh nghĩa)



PT08.S5 (indium oxide) phản hồi cảm biến trung bình hàng giờ (được nhắm mục
tiêu O3 trên danh nghĩa)


2.3. Ngôn ngữ, công cụ sử dụng
2.3.1. Ngôn ngữ lập trình R
R là một cơng cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu. Nó là một
ngơn ngữ lập trình. Ngơn ngữ R là một platform-independent do đó chúng ta có thể sử
dụng nó cho bất kỳ hệ điều hành nào. Việc cài đặt R cũng miễn phì vì thế chúng ta có thể
sử dụng mà khơng cần phải mua bản quyền.
R có chứa nhiều loại kỹ thuật thống kê (mơ hình hóa tuyến tính và phi tuyến, kiểm
thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm...) và đồ họa. R,
giống như S, được thiết kế xoay quanh một ngôn ngữ máy thực thụ, và nó cho phép
người dùng thêm các tính năng bổ sung bằng cách định nghĩa các hàm mới. Cũng có một
số khác biệt quan trọng đối với S, nhưng nhiều mã viết bằng S vẫn chạy được mà không
cần thay đổi. Nhiều hệ thống trong R được viết bằng chính ngơn ngữ của nó, giúp cho
người dùng dễ theo dõi các giải thuật. Để thực hiện công việc chun về tính tốn, R có
thể liên kết được với ngơn ngữ C, C++ và Fortran để có thể được gọi trong khi chạy.
Người dùng thơng thạo có thể viết mã C để xử lý trực tiếp các đối tượng của R.

R cũng có tính mở rộng cao bằng cách sử dụng các gói cho người dùng đưa lên cho
một số chức năng và lĩnh vực nghiên cứu cụ thể. Do được thừa hưởng từ S, R có nền tảng
lập trình hướng đối tượng mạnh hơn đa số các ngơn ngữ tính tốn thống kê khác. Việc
mở rộng R cũng dễ dàng nhờ các luật đóng khối từ vựng.
Một điểm mạnh khác của R là nền tảng đồ họa của nó, có thể tạo ra những đồ thị
chất lượng cao cùng các biểu tượng tốn học. R cũng có đinh dạng văn bản riêng tương
tự như LaTeX, dùng để cung cấp tài liệu hướng dẫn tồn diện, có trực tuyến ở các định
dạng khác nhau và cả bản in.
Dù R được dùng chủ yếu bởi những nhà thống kê và những người sử dụng khác địi
hỏi một mơi trường tính tốn thống kê và phát triển phần mềm, nó cũng có thể dùng làm
một cơng cụ tính tốn ma trận tổng quát với các kết quả đo đạc cạnh tranh so với GNU
Octave và đối thủ thương mại của nó, MATLAB. Giao diện RWeka đã được thêm vào
phần mềm khai phá dữ liệu phổ biến Weka, cho phép đọc/ghi định dạng arff vì vậy cho
phép sử dụng tính năng khai phá dữ liệu trong Weka và thống kê trong R.


2.3.2. Công cụ sử dụng
RStudio là một môi trường phát triển tích hợp (IDE) cho R, một ngơn ngữ lập
trình cho tính tốn thống kê và đồ họa. Nó có sẵn ở hai định dạng: RStudio Desktop là
một ứng dụng máy tính để bàn thơng thường trong khi RStudio Server chạy trên một máy
chủ từ xa và cho phép truy cập RStudio bằng trình duyệt web.
RStudio IDE có sẵn với Giấy phép Công cộng GNU Affero phiên bản 3. AGPL v3
là một giấy phép nguồn mở đảm bảo quyền tự do chia sẻ mã.
RStudio Desktop và RStudio Server đều có sẵn trong các phiên bản miễn phí và tính
phí (thương mại). Hỗ trợ hệ điều hành phụ thuộc vào định dạng / phiên bản của IDE. Các
bản phân phối đóng gói sẵn của RStudio Desktop có sẵn cho Windows, macOS và Linux.
RStudio Server và Server Pro chạy trên Debian, Ubuntu, Red Hat Linux, CentOS,
openSUSE và SLES.



CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Kết quả phân tích và xử lý dữ liệu đầu vào
3.1.1. Tình trạng của bộ dữ liệu thu thập được
Kết quả từ Hình 3.1 cho thấy, lượng dữ liệu trống (không đo đạc được) là rất lớn
(từ 6,7% đến 83,2%). Trong đó, có những thơng số có lượng dữ liệu trống lên đến trên
50% tổng số giờ quan trắc tập trung vào nhóm các thông số hydrocarbon, cụ thể CH 4,
NMHC, THC, benzene, toluen, ethyl-benzen, mp-xylen và o-xylen có tỷ lệ dữ liệu trống
tương ứng lần lượt là 81,9%; 82,1%; 83,2%; 49,2%; 56,8%; 49,1% và 53% trên tổng số
78.888 giờ quan trắc.
Trong bước xử lý dữ liệu tiếp theo, các giá trị được xác định là ngoại vi sẽ được
coi là dữ liệu trống (dữ liệu trống – missing values), vì vậy, lượng dữ liệu trống sau bước
xử lý ngoại vi có thể sẽ cịn tăng lên đáng kể. Điều này có thể sẽ làm ảnh hưởng lớn đến
việc lựa chọn và độ tin cậy của các phương pháp bổ khuyết dữ liệu, ví dụ như làm sai
lệch bản chất của phân bố dữ liệu, tính chu kỳ của diễn biến nồng độ chất ơ nhiễm….
Chính vì vậy, mặc dù khơng phải tồn bộ các thông số quan trắc nồng độ các
hydrocacbon của các tất cả đều vượt quá 50% như benzen (49,2%) và MP-xylen (49,1%),
tuy nhiên, qua quan sát bước đầu cho thấy, chất lượng dữ liệu cịn lại của các thơng số
này không cao, tồn tại nhiều lỗi do phần lớn các dữ liệu cịn lại có giá trị bằng nhau. Do
vậy, Báo cáo sẽ không nghiên cứu tiếp các thông số quan trắc nồng độ các hydrocacbon
gồm CH4, NMHC, THC, benzene, toluene, ethyl-benzen, mp-xylen và o-xylen trong các
bước tiếp theo.


Hình 3. 1 Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu nguồn.
3.1.2. Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi
Như đã trình bày ở trên, biểu đồ hộp đã được sử dụng để phát hiện các giá trị ngoại
vi (dị thường) trong bộ dữ liệu. Trong đó, trong đó, những điểm dữ liệu có giá trị lớn hơn
Q3 + 1,5*IQR và nhỏ hơn Q1 - 1,5*IQR (trong đó, Q1 và Q3 lần lượt là phân vị 25% và
phân vị 75%, IQR = Q3-Q1) tạm được nghi ngờ là dữ liệu ngoại vi, kết quả phân tích
được trình bày trong Hình 3.2.


Hình 3. 2 Biểu đồ hộp xác định các dữ liệu ngoại vi.
Hình 3.2 cho thấy, số lượng các điểm dữ liệu xác định là ngoại vi được phát hiện
là không nhỏ. Tuy nhiên, trong số các dữ liệu này có thể cịn chứa các dữ liệu đột biến bất


thường mà khơng phải lỗi. Do đó, dựa trên ngun lý, khi xảy ra một sự kiện nào đó làm
nồng độ trong thời gian này cao bất thường dù thời gian ngắn hay dài thì diễn biến nồng
độ của bất kỳ một chất ô nhiễm nào phát sinh bởi một sự cố do ảnh hưởng của cả yếu tố
khí tượng và yếu tố hóa học sẽ có xu hướng giảm khi sự cố kết thúc.
Xu thế này có thể diễn ra trong thời gian ngắn (vài phút) hay dài (nhiều giờ) phụ
thuộc vào thời gian xảy ra của sự cố và điều kiện khí tượng tại thời điểm đó. Chính vì
vậy, để chính xác hơn trong cơng tác làm sạch dữ liệu trong Báo cáo này tất cả các dữ
liệu được phát hiện là ngoại vi bằng biểu đồ hộp còn được đối chiếu với dữ liệu gốc (dữ
liệu trung bình 5 phút). Sau khi đối chiếu, trong số các dữ liệu được nghi ngờ là dữ liệu
ngoại vi được phát hiện bằng biểu đồ hộp, có một phần dữ liệu dị thường do các nguyên
nhân khác nhau mà không phải do lỗi đo đạc.
Điều này được thể hiện rõ trên biểu đồ hộp thống kê các thông số CLKK sau khi
đã loại bỏ dữ liệu ngoại vi Hình 3.3. Có thể thấy, vẫn cịn tồn tại một số lượng các giá trị
vẫn được phương pháp nghi ngờ là dữ liệu ngoại vi, đây là các giá trị nồng độ “dị
thường” của các chất ô nhiễm không phải do lỗi đo đạc. Các dữ liệu được xác định là
ngoại vi (bất thường do lỗi đo đạc hoặc do máy móc) sẽ được coi là dữ liệu trống.

Hình 3. 3 Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi
Kết quả thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi được
trình bày trong Bảng 3.2 cho thấy, tỷ lệ dữ liệu trống của các thông số quan trắc CLKK
tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội tăng lên đáng kể sau bước xử lý


dữ liệu ngoại vi (trung bình tăng lên khoảng 3.94 % tổng lượng dữ liệu quan trắc). Trong

đó, cá biệt có những thơng số có tỷ lệ dữ liệu ngoại vi được phát hiện và xử lý lên đến
trên 5%, cụ thể là các thông số: O3, SO2 và CO lần lượt là 6,49%; 6,95% và 5,12%, tương
ứng với trên 4000 điểm dữ liệu bị loại bỏ.
3.2. Phản hồi trung bình hàng giờ
Năm cảm biến đã ghi lại nồng độ thực tế trên mặt đất của carbon monoxide (CO),
Hydrocacbon không metan (NMHC), Benzen (C6H6), nitơ oxit (NOx) và nitơ đioxit
(NO2). Ngoài ra, năm cảm biến này cũng ghi lại các phép đo của một hạt bổ sung; do đó,
ta xem xét mối quan hệ giữa hạt chính và hạt thứ cấp được đo bởi mỗi cảm biến.
Cảm biến 1, nhắm mục tiêu CO ghi lại các phép đo oxit thiếc S nO2. Cột trong dữ
liệu có nhãn PT08.S1. Khi vẽ biểu đồ CO so với S nO2, nhận thấy rằng có một mối quan
hệ tuyến tính cao giữa chúng, vì chúng có hệ số tương quan khoảng 0,94. Điều này ngụ ý
rằng việc biết một cái có thể dự đốn cái kia, và có cả hai làm yếu tố dự đốn nhiệt độ là
khơng cần thiết.

Tương tự, cảm biến 2 chủ yếu thực hiện phép đo NMHC nhưng cũng sử dụng vật
liệu mà các nhà nghiên cứu gọi là titania, chỉ là titan điơxít TiO 2. Mối quan hệ giữa
NMHC và TiO2 dường như theo cấp số nhân, xác nhận bằng cách vẽ biểu đồ (NMHC) so
với TiO2, cho mối tương quan khoảng 0,93. Một lần nữa, vì TiO 2 hóa học thứ cấp có liên
quan nhiều đến NMHC hóa học chính, ta chỉ xem xét NMHC.


Cảm biến 3 thực hiện các phép đo chủ yếu về tổng số ơxít nitơ NO x, mà cịn của
ơxít vonfram WO3. Giống như NMHC, có một mối quan hệ theo cấp số nhân giữa NO x và
WO3, mà nhận thấy bằng cách vẽ biểu đồ (NO x) so với WO3, cho một hệ số tương quan.
trong khoảng -0,90. Vì vậy, ta chỉ xem xét NOx cho hồi quy.

Cảm biến 4 chủ yếu ghi nhận NO 2, nhưng cũng ghi nhận oxit vonfram thứ hai.
Mối tương quan rất tuyến tính, với một hệ số tương quan. trong khoảng 0,81. Không thấy
mối quan hệ theo cấp số nhân giữa cả hai, vì vậy cũng khơng lấy log (NO2).



Cuối cùng, cảm biến 5 đã ghi lại các phép đo của oxit indium In 2O3, nhưng trên
danh nghĩa nó nhắm mục tiêu vào ozone, O 3. Nhưng vì dữ liệu không chứa cột cho O 3,
nên không cần phải xem xét mối quan hệ của nó với oxit indium.
Do đó, khơng xem xét các hạt thứ cấp khi tạo mơ hình cho Nhiệt độ, vì hạt chính
sẽ là đủ nhằm tránh bất kỳ tác động chéo nào. Một yếu tố khác cần lưu ý là một trong các
cột của dữ liệu ghi lượng nitơ điơxít, NO2, và một cột khác ghi lượng ơxít nitơ tổng, NOx;
vì NO2 là một dạng oxit nitơ, điều này ngụ ý rằng hai biến có thể liên quan với nhau. Để
kiểm tra điều này, tôi vẽ biểu đồ của chúng và nhận thấy hệ số tương quan của chúng là
khoảng 0,86. Vì có một mối quan hệ tuyến tính mạnh mẽ, tơi quyết định loại bỏ NO 2 để
phân tích và chỉ xem xét NOx.

Tương tự, kiểm tra mối quan hệ giữa độ ẩm tương đối (RH) và độ ẩm tuyệt đối
(AH). Thấy rằng chúng tương quan tuyến tính yếu, với hệ số khoảng 0,48, vì vậy tơi
muốn loại trừ RH khỏi mơ hình hồi quy, vì sẽ có tác động chéo yếu giữa RH và AH.


3.3. Dự đốn với hồi quy tuyến tính
Đầu tiên, thử một mơ hình hồi quy tuyến tính, trong đó mọi hạt chính cùng với Độ
ẩm tuyệt đối được sử dụng làm yếu tố dự báo và tìm cách chỉ giữ lại những hạt có ý nghĩa
thống kê. Khi xem xét giá trị p được tính tốn của một hóa chất, coi giá trị p nhỏ hơn 0,05
là có ý nghĩa. Nhận thấy rằng NMHC, In2O3 và AH đều có giá trị p = lớn hơn, vì vậy
loại bỏ chúng trong lần lặp tiếp theo. Đưa ra một mơ hình có 3 biến giải thích CO, C6H6,
NOx. Mơ hình này dường như là một cơng cụ dự đốn khá chính xác về nhiệt độ trung
bình, như hình dưới đây:

Tuy nhiên, nếu muốn kiểm tra tác động chéo giữa các hạt này và Độ ẩm Tuyệt đối,
AH ta thêm vào thuật ngữ cho mỗi biến từ mơ hình đa điểm với AH, cùng với chính AH.
Một lần nữa, kiểm tra mức ý nghĩa và nhận thấy rằng độ ẩm tuyệt đối và bất kỳ số hạng



chéo nào đều khơng có ý nghĩa trong hồi quy, như được hiển thị bên dưới, vì tất cả các
giá trị p của chúng đều lớn hơn 0,05.

Tiếp tục sử dụng phiên bản thứ hai của mơ hình hồi quy, vì đây là mơ hình có số
lượng dự báo có ý nghĩa thống kê ít nhất. Sử dụng mơ hình này, đưa ra dự đốn nhiệt độ
và tính tốn phần trăm sai số cho giá trị thực. Sử dụng các hệ số được đưa ra bởi hồi quy,
ta có phương trình:
T = 15,31 - 3,37c + 1,33b - 0,04n
Trong đó: T là nhiệt độ tính bằng C.
c là lượng cacbon monoxit (CO).
b là lượng benzen (C6H6).
n là tổng lượng nitơ oxit (NO Muốn tính tốn phần trăm lỗi trung bình mà mơ hình đạt được khi ước tính nhiệt
độ. Sử dụng dữ liệu đã cho, ta tính tốn ước tính, sau đó là phần trăm chênh lệch giữa giá


trị thực và giá trị được tính tốn. Sau đó, lấy trung bình tất cả các giá trị này để thấy rằng
phần trăm chênh lệch trung bình giữa nhiệt độ thực tế và ước tính là khoảng -6,57%.
Điều này ngụ ý rằng mơ hình ln đánh giá thấp nhiệt độ chính xác. Hơn nữa, nhìn vào
độ lớn của sai số phần trăm cũng cho một câu chuyện tương tự: nó xấp xỉ 21,2%, có
nghĩa là trung bình mơ hình khơng dự đoán được nhiệt độ thực tế là +/- 21,2%.
Để khắc phục sự cố này, một giải pháp có thể là bao gồm nhiều biến giải thích
hơn; giá trị của bình phương R đã điều chỉnh cho mơ hình này là khoảng 0,37 và giải
thích điều này theo ngữ cảnh, điều này có nghĩa là chỉ khoảng 37% phương sai của nhiệt
độ có thể được giải thích bằng các biến giải thích. Vì thêm nhiều biến sẽ làm tăng hiệu
quả của mơ hình.
Quay trở lại và xem xét phương pháp, ta thấy rằng bao gồm các yếu tố dự đoán đã
loại bỏ ban đầu, tức là, các hóa chất thứ cấp được đo bằng 4 trong số 5 cảm biến, nhận
thấy rằng bao gồm tất cả chúng và sau đó loại bỏ những chất không đáng kể. Đã cải thiện

giá trị bình phương R đã điều chỉnh của mơ hình lên hơn 95%. Điều này có nghĩa là hồi
quy hoạt động tốt hơn nhiều trong việc điều chỉnh các thông số với nhiệt độ. Tương tự
như vậy, khi tính tốn sai số phần trăm trung bình, thấy rằng nó giảm đáng kể xuống
khoảng -0,03%, rất tốt.
Tóm lại, mặc dù có thể có mối quan hệ hoặc tương quan chặt chẽ giữa các biến
trong tập dữ liệu, nhưng việc bỏ qua chúng có thể gây bất lợi cho mơ hình hồi quy.



KẾT LUẬN
Báo cáo sử dụng ngơn ngữ lập trình R đã ứng dụng bộ dữ liệu chất lượng khơng khí
UCI ML để chứng minh ảnh hưởng của hướng kime đối với việc phân tích dữ liệu theo
chiều dọc
Thu được bộ dữ liệu CLKK tại trạm quan trắc số 556, Nguyễn Văn Cừ, Gia Lâm,
Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) hoàn chỉnh, liên tục theo
thời gian dài và có độ tin cậy nhất định góp phần giúp các nhà quản lý, các nhà nghiên
cứu dễ dàng hơn trong công tác quản lý và các hoạt động nghiên cứu.
Kết quả cho thấy, dữ liệu nồng độ trung bình giờ của các chất ơ nhiễm khơng khí
được quan trắc tại trạm quan trắc Nguyễn Văn Cừ, quận Long Biên, Hà Nội tuân theo các
luật phân bố Weibull, gamma và lognormal. Một mặt, luật phân bố xác suất của một
thông số được quan trắc tại cùng một địa điểm có thể khác nhau ở các năm khác nhau.
Mặt khác, luật phân phối đối với các thông số khác nhau cũng có thể khác nhau mặc dù
chúng được quan trắc tại cùng một thời gian và địa điểm.
Đã xác định được đặc trưng diễn biến nồng độ của các chất ô nhiễm SO2, NO,
NO2, O3 và CO theo thời gian trong ngày, và trong năm (theo mùa) tại khu vực quan trắc
ở Hà Nội. Đồng thời, cũng đã xác định được xu hướng diễn biến dài hạn nồng độ các chất
ô nhiễm này tại khu vực nghiên cứu trong giai đoạn từ tháng 3 năm 2018 đến tháng 2
năm 2019 (một năm).



×