🗞
Báo cáo cải thiện mơ hình học
sâu cho việc dự báo nồng độ
bụi mịn PM 2.5
Nhóm 11: Các thành viên
Nguyễn Văn Tú - 19021381
Phạm Thanh Vĩnh - 19021396
Bùi Văn Toán - 19021372
Nguyễn Mạnh Tuấn - 19021384
Giới thiệu và xem xét vấn đề
Giới thiệu
Các cách tiếp cận trước đó
Cách tiếp cận cải tiến
Nghiên cứu
Khu vực nghiên cứu
Dữ liệu khảo sát
Nồng độ PM2.5
Khí tượng
Mơ hình
Tổng quan
Xây dựng mơ hình
1. Tiền xử lý
2. MLP tạo PM2.5 có trọng số cho K khu vực lân cận
3. LSTM để trích xuất đặc trưng khơng - thời gian
4. MLP dự đoán nồng độ PM2.5 vùng trung tâm trong ngày tiếp theo
5. Đánh giá, kết quả và thảo luận
Mở rộng vấn đề
Tham khảo
Từ khóa quan trọng
Nhóm 11: Các thành viên
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
1
Nguyễn Văn Tú - 19021381
Phạm Thanh Vĩnh - 19021396
Bùi Văn Toán - 19021372
Nguyễn Mạnh Tuấn - 19021384
Giới thiệu và xem xét vấn đề
Giới thiệu
Tốc độ tăng trưởng kinh tế nhanh chóng trên tồn thế giới đã gây ra tình trạng ô
nhiễm không khí nghiêm trọng. Một thành phần quan trọng tạo nên sự ơ nhiễm
khơng khí mà đang rất được quan tâm gần đây là bụi mịn PM2.5. Loại bụi mịn
này chỉ có đường kính 2.5μm nên dễ dàng thâm nhập vào phổi từ đó gây ra
những bệnh về hơ hấp, tim mạch.
Việc dự đoán được nồng độ PM2.5 trên các địa phương sẽ giúp ích rất nhiều
cho việc kiểm soát và đưa ra khuyến cáo, hướng giải quyết kịp thời, nhằm nâng
cao đời sống, sức khỏe mọi người.
Để đạt được mục đích này, nghiên cứu đề xuất mơ hình mở rộng mạng LSTM có
trọng số (WLSTME).
Các cách tiếp cận trước đó
1. Sử dụng mơ hình lý-hóa để mơ phỏng lại hiện tương khuếch đại của khơng khí ơ
nhiễm
⟶ Phụ thuộc vào kiến thức của chuyên gia ⟶ Dễ mắc phải thiếu sót
2. Sử dụng những mơ hình học từ dữ liệu thực tế
Mơ hình hóa mối quan hệ tuyến tính giữa các đặc trưng của dữ liệu quan sát
và nồng độ PM2.5 của trạm trung tâm ⟶ Quá đơn giản dẫn đến underfit
Biểu diễn bằng mối quan hệ phi tuyến thông qua MLP, SVR, RNN, LSTM.
LSTM dùng biểu diễn phụ thuộc thời gian giữa tập giữa dữ liệu trong quá
khứ và dữ liệu hiện tại
Dựa vào dữ liệu của những trạm hàng xóm có mối quan hệ mật thiết để đưa
ra dự đoán (KNN). Dữ liệu của trạm hàng xóm sẽ được đánh trọng số dựa
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
2
trên khoảng cách và hướng gió, tốc độ gió của dữ liệu thu được trong lịch sử
so với dữ liệu của trạm trung tâm
⟹ Sử dụng đặc trưng khoảng cách địa lý và các đặc điểm về hướng, tốc độ gió là
một đại lượng đánh giá tương quan khơng gian khá tốt. Tuy nhiên tương quan này
đang được mô tả qua quan hệ tuyến tính → Có thể cải tiến
Cách tiếp cận cải tiến
Trên thực tế, mối tương quan giữa trạm trung tâm và các trạm
lân cận không chỉ đơn thuần là mối quan hệ tuyến tính giữa
khoảng cách địa lý và đặc điểm của gió, mà nó cịn bị ảnh hưởng
bởi sự phụ thuộc mật độ giữa các trạm, do phân bố các trạm
khơng đồng đều
Cần một mơ hình phức tạp hơn nữa để có
⇒
thể mơ phỏng đặc điểm mật độ giữa các trạm
TUYẾN
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
⇒ MƠ HÌNH PHI
3
Đề xuất mơ hình mở rộng mạng LSTM có trọng số (WLSTME), giải quyết vấn đề làm
thế nào để xem xét ảnh hưởng của mật độ phân bố các trạm và điều kiện gió lên mối
tương quan về mặt khơng gian của ơ nhiễm khơng khí.
Đầu tiên, chọn K trạm lân cận ở xung quanh trạm trung tâm.
Đánh trọng số dựa trên khoảng cách, nồng độ ô nhiễm và đặc trưng gió. Trọng
số này được sinh bởi một mạng MLP ⟶ Tạo ra tương quan không gian giữa
trạm trung tâm và trạm lân cận.
Sau đó, kết hợp với lịch sử về nồng độ PM2.5 của trạm trung tâm và chuỗi dữ
liệu PM2.5 có trọng số của K trạm lân cận được để làm đầu vào cho mạng
LSTM ⟶ Tạo thành đặc trưng không - thời gian tốt hơn.
Cuối cùng, một MLP khác được sử dụng để tích hợp các đặc trưng khơng - thời
gian được trích xuất ở trên với các đặc trưng phụ khác của trạm trung tâm (dự
báo điều kiện khí tượng hơm sau) ⟶ Tạo ra các dự báo về nồng độ PM2.5
trong tương lai của khu vực trung tâm.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
4
💡
Cách tiếp cận trên gọi là Weighted Long - Short Term Memory neuron
network extended model (WLSTM)
Nghiên cứu
Khu vực nghiên cứu
Khu vực Bắc Kinh – Thiên Tân – Hà Bắc (BTH) của Trung Quốc là một trong những
khu vực kinh tế và năng động nhất ở Trung Quốc, bao gồm Bắc Kinh, Thiên Tân và
11 thành phố của tỉnh Hà Bắc. Theo Bộ Bảo vệ Môi trường (MEP) (2018), trong số
20 thành phố ơ nhiễm nhất, có 9 thành phố thuộc tỉnh Hà Bắc, Thiên Tân và Bắc
Kinh lần lượt xếp thứ 15 và 19. Do đó, nghiên cứu này đã sử dụng vùng BTH làm
vùng nghiên cứu để xây dựng mơ hình dự báo nồng độ PM2.5.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
5
Vị trí các trạm và chất lượng khơng khí trong vùng BTH. Màu sắc đại diện cho thứ hạng và nồng độ
PM2.5 trung bình hàng ngày trong thời gian từ ngày 1 tháng 1 năm 2015 đến ngày 31 tháng 12 năm
2017.
Dữ liệu khảo sát
Nồng độ PM2.5
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
6
Khảo sát 110 trạm quan trắc ơ nhiễm khơng khí được phân bố trong khu vực nghiên
cứu, giúp thu thập:
Nồng độ hàng giờ của PM2.5, PM10, CO, NO2, O3 và SO2.
Vĩ độ và kinh độ của trạm, tháng và tuần quan sát.
Khí tượng
Ta sẽ quan sát thêm các những biến khí tượng như:
Độ ẩm tuyệt đối (Absolute humidity): khối lượng hơi nước trong một thể tích khí
có thể giữ được ở nhiệt độ nhất định
Tổng cột hơi nước (Total column water vapor): tổng hơi nước trong một cột khí
lấy trong khí quyển. Hơi nước thì giữ nhiệt tốt hơn CO2, khi di chuyển có ảnh
hưởng đến sự chuyển đổi nhiệt giữa các khu vực khác nhau và ảnh hưởng đến
lượng mưa. (Thời tiết càng ẩm thì càng ít ơ nhiễm khơng khí)
Nhiệt độ điểm sương (Dew point temperature): là nhiệt độ ở đó hơi nước chuyển
sang thể lỏng
Nhiệt độ (MOD11A1 - dữ liệu vệ tinh và ECMWF)
Áp suất khí quyển
Tốc độ gió, hướng gió
toˊ
ˆc độ gioˊ =
hướng gioˊ =
u2 + v2
π
v
− tan−1
2
u
u, v : tốc độ gió địa đới và kinh tuyến
Mơ hình
Tổng quan
Khung tổng thể của mơ hình WLSTME được đề xuất là một mơ hình kết hợp tích
hợp ba mạng nơ-ron:
Một mạng MLP để tạo ra PM2.5 có trọng số bằng cách kết hợp tốc độ và hướng
gió, khoảng cách địa lý với nồng độ PM2.5 lịch sử.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
7
Một mạng LSTM để giải quyết đồng thời sự phụ thuộc khơng gian thời gian và
trích xuất các đặc trưng không - thời gian.
Một mạng MLP khác để tối ưu hóa dự đốn bằng cách tích hợp các tính năng
cơng nghệ không gian và dữ liệu dự báo thời tiết.
Xây dựng mơ hình
1. Tiền xử lý
Loại bỏ những trạm lân cận thiếu 10% dữ liệu nồng độ PM2.5
Chuẩn hóa dữ liệu đầu vào về μ =
0, σ = 1
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
8
Sử dụng dữ liệu nhiệt độ (MOD11A1 - dữ liệu vệ tinh và ECMWF) cung cấp bởi
dữ liệu vệ tinh do có độ phân giải khơng gian cao hơn, và sử dụng phép nội suy
từ ECMWF cho những trạm không có dữ liệu vệ tinh (R2
= 0.91)
csM = 0.953842 ∗ csE − 0.074635
Cuối cùng, dữ liệu nhiệt độ được thu thập từ tập dữ liệu MOD11A1 và ECMWF
đã được hợp nhất với nhau để nâng cao độ tin cậy của nó.
2. MLP tạo PM2.5 có trọng số cho K khu vực lân cận
Các chất ô nhiễm được vận chuyển giữa các khu vực dựa vào
gió, ơ nhiễm khơng khí của các khu vực trung tâm có mối tương
quan về mặt không gian với các khu vực lân cận. Nhưng, các
trạm quan trắc có phân bố khơng đồng đều, khoảng cách giữa
các vị trí lân cận và vị trí trung tâm là khác nhau đối với các vị trí
trung tâm khác nhau.
💡
MLP ba lớp tích hợp khoảng cách và gió của các vị trí lân cận với PM2.5
của nó để tạo ra dữ liệu PM2.5 có trọng số cho mỗi vị trí lân cận j của vị
trí trung tâm i.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
9
Các dữ liệu ta sẽ đưa vào trong mơ hình:
PM2.5jt : biểu diễn sự tập trung của PM2.5 của vùng lân cận j tại thời
điểm t
vjt : vẫn tốc gió của vùng lân cận j tại thời điểm t
dij : khoảng cách giữa vùng trung tâm i và lân cận j
θijt : góc hướng gió từ vùng lân cận j với cạnh ij tại thời điểm t
Những đại lương trên có liên quan đến tương quan khơng gian giữa trạm trung
tâm và những trạm lân cận:
Theo dõi nồng độ PM2.5 giúp xem xét tương quan nồng độ bụi giữa 2 trạm
nếu giống nhau thì trọng số sẽ lớn hơn.
Khoảng cách địa lý thì do ơ nhiễm khơng khí lan sang những nơi khác dựa
vào gió do đó cần xem xét vận tốc gió và hướng gió tại các trạm địa
phương.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
10
Khi đã xây dựng được mơ hình, ta thu được các số liệu của bụi PM2.5 cho K
khu vực lân cận được đánh trọng số theo mức độ tương quan khơng gian.
3. LSTM để trích xuất đặc trưng khơng - thời gian
LSTM là một mạng nơ-ron hồi quy đặc biệt (RNN), nó có khả
năng nắm bắt đồng thời các phụ thuộc dài và ngắn trong dữ liệu
chuỗi thời gian.
Mơ hình LSTM được sử dụng là LSTM trạng thái hai lớp, sử dụng trạng thái của lô
mẫu LSTM hiện tại làm trạng thái ban đầu của lơ mẫu tiếp theo.
Mơ hình LSTM hai lớp
Kết hợp giữa dữ liệu lịch sử PM2.5 có trọng số từ MLP và các dữ liệu ơ nhiễm
vùng trung tâm và lân cận để đưa vào LSTM với mục đích trích xuất đặc điểm
khơng gian - thời gian.
Dữ liệu được hợp nhất thành ma trận r × (K + 1): K là số vùng lân cận, r là
chuỗi thời gian tương ứng và giá trị mỗi cột là nồng độ của vùng trung tâm hoặc
lân cận.
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
11
4. MLP dự đoán nồng độ PM2.5 vùng trung tâm trong ngày tiếp
theo
Các biến phụ trợ: nhiệt độ, tốc độ gió, nhiệt độ điểm sương, áp suất khí quyển,
tổng cột hơi nước, dữ liệu thời gian (ngày trong tuần và tháng trong năm), và vĩ
độ của trạm trung tâm tại thời điểm t.
Kết hợp các biến phụ trợ với đặc trưng không thời gian từ LSTM và đưa vào
MLP ta có dự đoạn nồng độ PM2.5 ngày hơm sau của vị trí trung tâm.
5. Đánh giá, kết quả và thảo luận
Ba tiêu chí được dùng để đánh giá hiệu quả mơ hình:
Sai số tuyệt đối trung bình (MAE)
Sai số bình phương trung bình căn (RMSE)
Chỉ số độ chính xác tổng (p)
Vì nồng độ PM2.5 theo từng mùa sẽ khác nhau, nên việc chia tập dữ liệu theo từng
năm là thiết yếu. Ta sẽ lấy dữ liệu năm 2015 và 2016 để đào tạo xây dựng mơ hình
và năm 2017 để đánh giá hiệu suất mơ hình.
Biểu đồ so sánh giữa các mơ hình theo các mùa
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
12
Biểu đồ sai số bình phương trung bình căn theo khơng gian
Vị trí các trạm và chất lượng
khơng khí trong vùng BTH. Màu
sắc đại diện cho thứ hạng và nồng
độ PM2.5 trung bình hàng ngày
trong thời gian từ ngày 1 tháng 1
năm 2015 đến ngày 31 tháng 12
năm 2017.
Mở rộng vấn đề
Trong tương lai, nên tập trung vào dự đoán về sự gia tăng đột ngột của PM2.5,
đặc biệt là vào mùa đơng khi tất cả các mơ hình hoạt động kém.
Ảnh hưởng bởi các chính sách của chính phủ và số lượng nhà máy trong khu
vực.
Các phương pháp phức tạp hơn để xem xét mật độ của các địa điểm.
Tham khảo
1. An improved deep learning model for predicting daily PM2.5 concentration
Từ khóa quan trọng
MLP, RNN, LSTM, WLSTM, zontal and meridional, R2 − value, RMSE, MAE,
partial autocorrelation, inverse distance weight method, interpolate, ECMWF,
MOD11A1, KNN, spatialtemporal correlation, RSMprop optimizer
Báo cáo cải thiện mơ hình học sâu cho việc dự báo nồng độ bụi mịn PM 2.5
13