Tải bản đầy đủ (.pdf) (7 trang)

Dự báo mực nước sông Cần Thơ dựa vào đặc trưng dòng chảy và phương pháp tập hợp mô hình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (505.39 KB, 7 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0041

DỰ BÁO MỰC NƯỚC SƠNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG
DỊNG CHẢY VÀ PHƯƠNG PHÁP TẬP HỢP MƠ HÌNH
Trần Nguyễn Minh Thư1, Nguyễn Duy Khương2, Phạm Xuân Hiền1, Nguyễn Hồng Hải3
1
Khoa CNTT&TT, Trường Đại học Cần Thơ
2
Trường Đại học kỹ Thuật - Công nghệ Cần Thơ
3
Trung tâm Thủy văn sông Cửu Long
, , ,
TĨM TẮT: Với mơ hình LSTM, mực nước sơng có thể được dự báo dựa vào mực nước của các thời điểm trước đó. Tuy
nhiên, mực nước sơng cịn chịu ảnh hưởng bởi độ trễ của dòng chảy giữa các trạm và lượng mưa tại thời điểm thu thập dữ liệu để
dự báo. Hệ thống dự báo mực nước dựa trên các phương pháp tập hợp mơ hình và đặc trưng dòng chảy được thực nghiệm và đề
xuất trong nghiên cứu này. Mực nước tại trạm Cần Thơ được dự báo dựa trên thông tin mực nước của các trạm trước đó đặt tại Tân
Châu, Châu Đốc, Vàm Nao và Mỹ Thuận. Dữ liệu mực nước và lượng mưa thu thập hàng giờ trong năm 2012-2015 được dùng để
huấn luyện mơ hình; dữ liệu năm 2016 và 2020 dùng để kiểm tra đánh giá mơ hình đề xuất. Dữ liệu mực nước của 72 giờ trước đó
của 1 trạm, 5 trạm, kết hợp độ trễ hay kết hợp thông tin lượng mưa được sử dụng để dự đoán mực nước trạm Cần Thơ cho 1h, 12h,
24h tiếp theo. Kết quả cho thấy sai số RMSE cho mơ hình Stacking dự đoán 12h là 8.2; 24h là 8.6 so với mơ hình LSTM đã đề xuất
trong nghiên cứu trước đó cho lần lượt dự đoán 12h, 24h là 9.9 cm và 9.7 cm.
Từ khóa: Phương pháp tập hợp mơ hình, dự báo mực nước.

I. GIỚI THIỆU
Trong những năm gần đây, dưới sự tác động của con người nhằm cải tạo, thay đổi những quy luật của tự nhiên
thì tình trạng hạn hán và ngập lụt tăng cao, mực nước sông thay đổi phức tạp và khó đốn. Việc xây dựng một hệ thống
dự báo mực nước để có sự chuẩn bị ứng phó các tác động xấu, giảm sự thiệt hại về kinh tế và đời sống của người dân là
thực sự cần thiết.
Các giải thuật máy học được sử dụng để xây dựng những hệ thống dự đoán mực nước áp dụng vào thực tế góp
phần giảm thiểu các thiệt hại có thể xảy ra. Trong nghiên cứu của Carl Steidley và các cộng sự [1] đã áp dụng mơ hình


mạng nơron nhân tạo để dự báo mực nước tại trạm Rockport, Texas, Tây Nam Hoa Kỳ. Nghiên cứu này kết hợp dữ
liệu mực nước 24 giờ trước đó tại trạm Rockport, Bob Hall Pier và tốc độ gió và hướng gió 12 giờ trước đó tại Bob
Hall Pier để dự báo biến đổi mực nước thủy triều của trạm Rockport trong 3 giờ, 12 giờ, 24 giờ và 48 giờ tiếp theo. Tập
dữ liệu TCOON thu thập trong khoảng thời gian năm 1997-2001 được sử dụng để huấn luyện và kiểm thử mơ hình.
Hiệu quả của mơ hình được đánh giá dựa trên chí số trung bình tần số trung tâm (CF) - một số liệu thống kê đánh giá
đề xuất bởi “National Ocean Service”. Chỉ số CF chính là tỷ lệ dự đốn nằm trong phạm vi ±X cm so với số đo thực tế
và trên 90% kết quả thực nghiệm phải đạt trong phạm vi này. Các kết quả thu được cho thấy khả năng dự đốn của
ANN mang tính khả thi với độ chính xác là 99,59% cho dự báo 3 giờ, 99,20% cho dự báo 12 giờ, 97,85% cho dự báo
24 giờ và 91,33% cho dự báo 48 giờ với CF (X=15 cm).
Năm 2007, Bang-Fuh Chen và cộng sự [2] đã sử dụng mực nước của 1 trạm để huấn luyện mơ hình ANN nhằm
dự báo mực nước của 1 trạm khác có cùng chế độ thủy triều cho mực nước ven biển. Mô hình Kaohsiung (KH) Manila (ML), sử dụng số liệu thủy triều của năm 1994 (8757 giá trị mực nước) của trạm KH làm dữ liệu đầu vào, dữ
liệu đầu ra là trạm ML, tập dữ liệu được chia ra nhiều phần để sử dụng cho huấn luyện và kiểm thử mơ hình, đánh giá
mơ hình bằng hệ số tương quan r và sai số RMSE lần lượt là r = 0.931, RMSE = 3-12 cm.
Nhằm khắc phục những hạn chế của mơ hình ANN đối với dữ liệu chuỗi thời gian, mơ hình LSTM (Long shortterm memory) được ứng dụng để dự báo mực nước tại trạm Quang Phục và Cửa Cấm, Hải Phòng [3]. Trong nghiên
cứu này, các tác giả đã thiết lập mơ hình để dự báo mực nước trước 5 giờ với sai số RMSE=17,7 cm cho trạm Quang
Phục và RMSE= 18,5 cm cho trạm Cửa Cấm. Dữ liệu đầu vào cho mơ hình LSTM là mực nước thực đo tại các trạm
thuỷ văn trong 6 giờ trước đó với số lượng lớp ẩn là 10, 20, 50 và số lượng Epoch là 10.000, 20.000 và 50.000.
Bên cạnh những giải thuật dựa trên mạng nơron, các phương pháp tập hợp mơ hình cũng được sử dụng để cải
thiện những hạn chế của mơ hình đơn nhằm nâng cao hiệu quả dự đoán cũng được thực hiện. Nghiên cứu của Nguyên
Thanh Tùng và Nguyễn Khắc Tiên Phước [4] về dự đốn mực nước trên sơng Mê Kơng. Nghiên cứu sử dụng mơ hình
hồi quy phi tuyến rừng ngẫu nghiên với tập dữ liệu huấn luyện thu thập được trong mùa lũ các năm 1994 - 1997 và tập
dữ liệu đánh giá thu thập từ năm 1998 - 2000. Kịch bản được tác giả đưa ra là dự đoán mực nước 5 ngày sau tại trạm
Thakhek từ thông tin dữ liệu 3 ngày trước tại trạm Thakhek, NongKhai và lượng mưa trung bình trên lưu vực giữa
Nơng Khai và Thakhek của 3, 5 và 7 ngày gần nhất. Kết quả thực nghiệm thu được cho dự đoán mực nước 5 ngày tiếp
theo có sai số là MAE = 53,91 cm. Năm 2020, tác giả Changhyun Choi và các cộng sự, sử dụng phương pháp tập hợp
mơ hình để dự báo mực nước tại vùng đầm lầy Upo, Hàn Quốc [5]. Nghiên cứu sử dụng dữ liệu mực nước tại Upo từ
ngày 01 tháng 4 năm 2009 đến 31 tháng 3 năm 2015 với mỗi lần đo cách nhau 10 phút để thực nghiệm và đánh giá mơ
hình đề xuất. Dữ liệu từ 2009 đến 31 tháng 3 năm 2013 được sử dụng làm dữ liệu huấn luyện và dữ liệu còn lại làm dữ



44

DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DỊNG CHẢY…

liệu kiểm tra. Ngồi dữ liệu mực nước, tác giả cũng kết hợp với nhiều dữ liệu độc lập khác như nhiệt độ trung bình
hằng ngày, nhiệt độ tối thiểu hằng ngày, nhiệt độ tối đa hằng ngày, lượng mưa hàng ngày, tốc độ gió tức thời tối đa
hàng ngày, tốc độ gió trung bình hàng ngày của trạm Changnyeong và dữ liệu mực nước được đo tại bờ kè Mokpo và
trạm bơm thốt nước Shindang. Mơ hình xây dựng sử dụng dữ liệu của 3 ngày trước đó để dự đốn cho mực nước 1
ngày sau đó. Kết quả thực nghiệm thu được cho thấy, mơ hình Random Forest với 492 cây đạt kết quả tốt nhất với sai
số dự đoán RMSE = 9 cm so với máy học vectơ hỗ trợ (RMSE = 12 cm); mạng nơron (RMSE = 15 cm) và cây quyết
định (RMSE = 13 cm).
Trong nghiên cứu trước đây, chúng tôi đã áp dụng mơ hình Long short-term memory networks (LSTM) và dữ
liệu quan trắc của 5 trạm trên sông Mê Kông để dự báo biến đổi mực nước tại Cần Thơ trong 6 giờ tiếp theo [6]. Dữ
liệu được thu thập trong 5 năm từ ngày 01 tháng 01 năm 2012 đến ngày 31 tháng 12 năm 2016 với khoảng thời gian
giữa 2 lần quan trắc là 1 giờ đã được sử dụng để huấn luyện và kiểm thử mơ hình LSTM. Kết quả thu được dựa trên
mực nước của 24 giờ trước đó để dự báo cho 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ và 6 giờ sau đó cho thấy tính khả thi của
mơ hình LSTM thơng qua chỉ số Root Mean Squared Error - RMSE được sử dụng để đánh giá độ chính xác với 1 trạm
đầu vào (trạm Cần Thơ) là 5.46 cm và với 4 trạm đầu vào (4 trạm còn lại) là 4.96 cm. Mơ hình đưa ra dự đốn tương
đối chính xác. Tuy nhiên, tác giả chỉ sử dụng giá trị mực nước tại năm trạm đo để dự báo mực nước tại trạm Cần Thơ
mà không sử dụng các đặc trưng khác như: thủy triều, vị trí địa lý, lượng mưa,….
Với mong muốn nâng cao độ chính xác của dự báo, trong nghiên cứu này, chúng tôi bổ sung thêm các yếu tố
khác ảnh hưởng mực nước như độ trễ dòng chảy theo địa lý, cũng như sử dụng dữ liệu lượng mưa để tăng độ chính xác
của q trình dự đoán cũng như sử dụng tiếp cận dựa trên các phương pháp tập hợp mơ hình thay vì LSTM để xây
dựng mơ hình dự báo mực nước sơng tại trạm Cần Thơ. Các giả thiết này được thực nghiệm dựa trên dữ liệu thực tế
quan trắc tại các trạm Cần Thơ, Tân Châu, Châu Đốc, Vàm Nao và Mỹ Thuận trong khoảng thời gian 2011-2016 và
năm 2020.
Phần tiếp theo của bài viết được tổ chức như sau: đặc điểm của dữ liệu mực nước sông Mê Kông và các phương
pháp tập hợp mơ hình trong Phần 2; thực nghiệm và đánh giá mơ hình được giới thiệu ở Phần 3; và cuối cùng là kết
luận và hướng phát triển của nghiên cứu.
II. DỰ BÁO MỰC NƯỚC SỬ DỤNG PHƯƠNG PHÁP TẬP HỢP MƠ HÌNH

Để dự báo mực nước tại trạm Cần Thơ, các đặc trưng về dữ liệu mực nước sơng Cửu Long được tìm hiểu trước
khi nghiên cứu phương pháp dự đốn. Thơng tin độ trễ của dịng chảy cũng như lượng mưa được đặc biệt quan tâm.
Các phương pháp tập hợp mơ hình được ứng dụng để dự đốn mực nước dựa trên thơng tin mực nước của các trạm
thượng nguồn với những kịch bản đầu vào khác nhau.
A. Các đặc trưng dữ liệu mực nước sông Cửu Long
Sông Mê Kông dài khoảng 4.900 km, bắt nguồn từ vùng núi cao tỉnh Thanh Hải, theo suốt chiều dài tỉnh Vân
Nam (Trung Quốc), qua các nước Myanmar, Thái Lan, Lào, Campuchia trước khi vào Việt Nam rồi đổ ra Biển Đông.
Sông Mê Kông chảy vào Việt Nam chia làm 2 nhánh là Sông Tiền và Sông Hậu với chiều dài khoảng 270 km đổ ra
biển Đông bằng 9 cửa nên cịn gọi là sơng Cửu Long. Dịng chảy vào Đồng bằng sơng Cửu Long chịu tác động lớn của
dịng chảy thượng nguồn, tốc độ chảy và truyền triều ở các trạm đo khác nhau do các đặc trưng thuỷ động lực học và
môi trường [7, 8]. Trên sông bố trí rất nhiều các trạm đo đạc các yếu tố thủy văn để phục vụ cho phát triển kinh tế
trong vùng, trong đó có 5 trạm thủy văn cơ bản quan trắc đầy đủ các yếu tố như mực nước, lưu lượng, chất lơ lửng là
Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ Thuận nằm trên các tỉnh An Giang, Vĩnh Long và Cần Thơ (hình 1).
Đây là dữ liệu quan trắc mực nước tại 5 trạm thủy văn có thể đại diện cho 80 % số trạm hiện có của hệ thống quan trắc
ở Đồng bằng sơng Cửu Long, dữ liệu được quan trắc hàng giờ theo tiêu chuẩn ngành: 94 TCN 1-2003 “Quy phạm quan
trắc mực nước và nhiệt độ nước sơng”.

Hình 1. Vị trí các trạm thủy văn quan trọng trên sông Mê Kông


Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải

45

Dữ liệu mực nước quan trắc được tại 5 trạm như đã đề cập ở trên được tổ chức thành 6 cột: cột 1 là thời điểm
quan trắc với định dạng “dd/mm/yyyy HH:00”, 5 cột tiếp theo là mực nước quan trắc được tương ứng 5 trạm theo thời
điểm ở cột 1. Trị số mực nước này tính bằng “cm” biểu diễn độ cao của mực nước trên sông so với mặt chuẩn quốc gia.
Khoảng thời gian giữa 2 lần quan trắc là 1 giờ, một năm (365 ngày) một trạm có 8760 trị số mực nước, tập dữ liệu đầu
vào có độ lớn là 5 năm với 43.848 dịng dữ liệu. Bảng 1 là trích dữ liệu thu thập được từ 0h ngày 31/12/2013 đến 4h
ngày 31/12/2013 tại 5 điểm Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ và Mỹ Thuận.

Bảng 1. Dữ liệu mực nước quan trắc tại 5 trạm trên sông Mê Kông
Thời gian

Tân Châu

Châu Đốc

Vàm Nao

Cần Thơ

Mỹ Thuận

1

31/12/2013 0:00

167

146

125

116

105

2

31/12/2013 1:00


162

141

124

140

133

3

31/12/2013 2:00

160

139

136

155

144

4

31/12/2013 3:00

164


144

157

151

142

5

31/12/2013 4:00

179

165

176

130

120

STT

Theo vị trí địa lý của các trạm quan trắc như hình 1, giá trị mực nước tại trạm Cần Thơ sẽ chậm hơn giá trị mực
nước tại tạm Tân Châu, Châu Đốc và Vàm Nao. Để tìm ra tương quan mực nước giữa các trạm, “cross correlation” được
sử dụng [13]. Để tìm mối tương quan giá trị mực nước đo được giữa trạm Cần Thơ và Châu Đốc, từng chuỗi giá trị mực
nước 24 giờ của trạm Cần Thơ và trạm Châu Đốc trong năm 2015 được sử dụng. Cửa sổ trượt cho chuỗi 24 giờ là 12 giờ.
Vị trí của giá trị “cross correlation” lớn nhất sẽ cho biết độ trễ của mực nước của trạm Cần Thơ so với trạm Châu Đốc. Ví

dụ trong hình 2 cho thấy qua 10 lần quan sát mực nước trong khoảng 24 giờ của cả 2 trạm Châu Đốc và Cần Thơ thì mực
nước trạm Cần Thơ trễ hơn mực nước trạm Châu Đốc là 4h theo một mẫu quan sát 24 giờ của 2 trạm này.

Cross correlation Cần Thơ và Châu Đốc

200000
150000
100000
0

-50000

-23
-21
-19
-17
-15
-12
-10
-8
-6
-4
-2
0
2
4
6
8
10
12

14
16
18
20
22
24

50000

1

2

3

4

5

6

7

8

9

Hình 2. Tương quan mực nước giữa trạm Cần Thơ và Châu Đốc

10


Tương tự như cách tính tương quan trạm Cần Thơ và Châu Đốc, dựa vào quan sát của cả năm 2015, với mỗi cửa
sổ quan quát là 24 giờ, chúng ta có được số liệu tổng kết độ trễ của các quan sát như hình 3. Với trục hồnh là giá trị
lệch giữa các trạm (đơn vị tính là giờ), trục tung là số lượt quan sát được, phần lớn quan sát cho thấy độ lệch tập trung
ở vị trí có giá trị 3 cho trạm Vàm Nao và 4 cho trạm Tân Châu và Châu Đốc. Vì vậy, độ trễ của mực nước giữa Cần
Thơ và Châu Đốc, Tân Châu được chúng tôi sử dụng là 4 giờ và Cần Thơ và Vàm Nao được sử dụng là 3 giờ.
500

400
300
200
100

0

-20 -18 -16 -14 -12 -10 -8 -6 -4 -2
Châu Đốc

0

2

Vàm Nao

4

6

8 10 12 14 16 18 20


Tân Châu

Hình 3. Tương quan mực nước sông giữa trạm Cần Thơ và các trạm Châu Đốc, Tân Châu, Vàm Nao


DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DỊNG CHẢY…

46

Bên cạnh sự ảnh hưởng của dịng chảy, lượng mưa cũng là một yếu tố quan trọng trong các vấn đề về mực
nước. Thành phố Cần Thơ nằm ở trung tâm ĐBSCL với đặc điểm là nắng nhiều và nhiệt độ cao quanh năm, mùa mưa
kéo dài từ tháng 5 đến tháng 11, mùa khô từ tháng 12 đến tháng 4 năm sau. Biểu đồ hình 4 hiển thị lượng nước mưa
năm 2016 đo được tại trạm Cần Thơ. Vào mùa mưa, lượng mưa đổ xuống các sông là tương đối lớn làm cho mực nước
tại thời điểm này tương đối cao so với mùa khác trong năm.

Lượng mưa

600
500
400
300
200
100

0

1

2


3

4

5

6

7

8

9

10 11 12

Hình 4. Lượng mưa tại Cần Thơ các tháng trong năm 2016

B. Áp dụng phương pháp tập hợp mơ hình dự đốn mực nước sơng Cần Thơ
Phương pháp tập hợp mơ hình với ưu điểm kết hợp các mơ hình dự đốn yếu để tạo nên một mơ hình dự đốn
mạnh. Trong nghiên cứu này, một số phương pháp tập hợp mơ hình Bagging [9], Random Forest [10], AdaBoost [11]
và Stacking [12] được thử nghiệm để dự đoán mực nước tại trạm Cần Thơ tại các thời điểm t+1, t+2, t+3, t+4, t+5, t+6,
t+12, t+24. Với mong muốn so sánh đánh giá với nghiên cứu [6], dữ liệu mực nước tạm trạm Cần Thơ (kịch bản 1) và
dữ liệu mực nước của 5 trạm Tân Châu, Châu Đốc, Vàm Nao, Mỹ Thuận và Cần Thơ (kịch bản 2) được thực nghiệm
để kiểm chứng hiệu quả của phương pháp tập hợp mơ hình so với mơ hình LSTM. Như đã đề cập ở phần giới thiệu, dữ
liệu lượng mưa được bổ sung vào dữ liệu đầu vào với mục tiêu tăng độ chính xác của mơ hình đề xuất. Kịch bản 3, sử
dụng mực nước 72 giờ trước đó của trạm Cần Thơ và lượng mưa của trạm Cần Thơ trong 1 tuần trước đó để dự đốn
mực nước tại trạm Cần Thơ. Bên cạnh đó, như phân tích dữ liệu mực nước tương quan giữa trạm Cần Thơ và các trạm
còn lại, kịch bản 4 được đề xuất. Kịch bản này sử dụng độ trễ của dòng chảy: độ trễ của mực nước giữa Cần Thơ và
Châu Đốc, Tân Châu là 4 giờ và Cần Thơ và Vàm Nao là 3 giờ để dự đoán mực nước trạm Cần Thơ. Với mỗi kịch bản

đề xuất, 4 phương pháp tập hợp mơ hình Bagging, Random Forest, AdaBoost và Stacking được huấn luyện và kiểm thử
để đánh giá tính hiệu quả của các phương pháp tập hợp mơ hình (hình 5).

Hình 5. Mơ hình dự đốn mực nước trạm Cần Thơ


Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải

47

III. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Thực nghiệm sử dụng thư viện Scikit-learn để xây dựng mơ hình dự báo với các thông số được thiết lập cho các
mô hình như sau: với mơ hình Bagging, mơ hình cơ sở được sử dụng là SVR và số lượng mô hình cơ sở n = 70. Mơ
hình Random Forest có số lượng cây con được xây dựng là n = 800, độ sâu tối đa là 100. Mơ hình AdaBoost được cài
đặt với mơ hình cơ sở là DecisionTreeRegressor khơng giới hạn độ sâu với n = 100. Mơ hình Stacking sử dụng các mơ
hình cơ sở: SVR, RidgeCV, KNeighborsRegressor với k = 7, MLPRegressor với max_inter = 500.
Tập dữ liệu mực nước thu thập từ năm 2012 và 2016 chia thành 2 phần theo tỷ lệ 70% (30,693) để huấn luyện
mơ hình và - 30% (13,155) để kiểm tra đánh giá mơ hình. Bên cạnh đó dữ liệu lượng mưa hàng giờ trong khoảng thời
gian từ năm 2012 đến năm 2016 cũng được sử dụng bổ sung vào một trong những kịch bản đề xuất. Để đánh giá tính
thích nghi của mơ hình theo thời gian, dữ liệu mực nước thu thập vào năm 2020 cũng được sử dụng. Chỉ số Root Mean
Squared Error - RMSE được sử dụng để đánh giá hiệu quả của giá trị mực nước dự đốn được thơng qua các mơ hình
đề xuất.
1

RMSE = � ∑𝑛𝑖=1(p𝑖 − 𝑟𝑖 )2
𝑛

Trong đó: p𝑖 là giá trị dự đoán đánh giá của mục i và 𝑟𝑖 là giá trị đánh giá thực tế của mục i.

Với 4 kịch bản đề xuất, kết quả dự đoán mức nước trạm Cần Thơ cho các thời điểm 1 giờ, 2 giờ, 3 giờ, 4 giờ,

5 giờ, 6 giờ, 12 giờ và 24 giờ giờ tiếp theo dựa trên chỉ số RMSE được trình bày trong bảng 2. Với mỗi kịch bản đề
xuất, phương pháp tập hợp mơ hình Bagging, Random Forest, AdaBoost và Stacking được huấn luyện và đánh giá. Kết
quả trong bảng 2 cho thấy, kịch bản 2, 3, 4 thì mơ hình Stacking có sai số thấp nhất cho tất cả các thời điểm đốn; kịch
bản 1 thì mơ hình Stacking chỉ có sai số cao hơn mơ hình Bagging cho dự đốn thời điểm 2 giờ tiếp theo, cịn tất cả các
trường hợp cịn lại thì mơ hình Stacking vẫn dự đốn tốt hơn. Kết quả thu được trên bảng 2 cho ta thấy, kết quả dự báo
tốt nhất tại thời điểm t+1 và sai số tăng dần khi thời gian dự báo càng xa. Bên cạnh đó, phương pháp Stacking cho kết
quả tốt nhất trong cả 4 kịch bản và tốt nhất khi sử dụng mực nước và lượng mưa 7 ngày tại trạm Cần Thơ (kịch bản 3).
Bảng 2. Sai số dự đoán của các phương pháp tập hợp mơ hình với 4 kịch bản
RMSE (cm)
1h
2h
3h
4h
5h
6h
Dữ liệu đầu vào: mực nước của 5 trạm trong 72 giờ trước đó (kịch bản 1)
4.86
7.814
8.356
8.657
8.773
6.849
6.137
8.427
8.882
9.04
9.093
9.111
6.104
8.300

8.811
8.954
9.079
9.035

12h

24h

8.89
9.15
9.102

9.097
9.126
9.071

8.801

8.591

1.
Bagging
Random Forest
AdaBoost
Stacking
2.
Bagging

4.464


7.747

6.968

7.709

8.072

8.019

Dữ liệu đầu vào: Mực nước của trạm Cần Thơ trong 72 giờ trước đó (kịch bản 2)
5.089

7.2

8.172

8.677

8.93

9.026

9.152

9.358

Random Forest


5.84

8.256

8.751

8.93

8.996

9.019

9.063

9.043

AdaBoost

5.861

8.206

8.731

8.876

8.980

9.010


9.071

9.103

Stacking

3.902
6.056
7.079
7.258
7.698
7.996
8.241
8.619
Dữ liệu đầu vào: Mực nước trạm Cần Thơ trong 72 giờ và lượng mưa của 168 giờ trước đó (kịch bản 3)
Bagging
5.089
7.198
8.171
8.675
8.931
9.028
9.153
9.359
Random Forest
5.866
8.275
8.758
8.938
9.004

9.026
9.071
9.048
3.

AdaBoost

5.934

8.250

8.754

8.947

9.029

9.051

9.087

9.091

Stacking

4.004

5.675

6.757


8.394

7.517

7.725

8.221

8.561

4. Dữ liệu đầu vào: Mực nước trạm Cần Thơ trong 72 giờ và chênh lệch mực nước so với trạm Cần Thơ (kịch bản 4)
Bagging
4.831
6.809
7.739
8.258
8.557
8.675
8.749
9.078
Random Forest

6.007

8.334

8.82

8.985


9.045

9.055

9.115

9.108

AdaBoost

6.083

8.262

8.735

8.94

8.994

9.047

9.05

9.09

Stacking

4.228


5.93

6.769

7.538

7.763

7.88

8.073

8.593

Kết quả thực nghiệm thu được trong bảng 2 cho thấy rằng mơ hình AdaBoost, Bagging và Random Forest cho
kết quả tương đối tốt, tuy nhiên, mơ hình Stacking là mơ hình cho kết quả dự báo tốt nhất trên tất cả 4 kịch bản. Hình 6
thể hiện kết quả tổng hợp sai số RMSE của 4 kịch bản đề xuất sử dụng mơ hình Stacking. Từ biểu đồ trong hình 6, mơ
hình dự báo tốt nhất cho thời điểm t+1 với RMSE = 0.039 m đối với kịch bản 2 (chỉ sử dụng mực nước tại Cần Thơ).
Kết quả thực nghiệm cũng cho thấy, kịch bản 3 và 4 có sai số thấp và ổn định so với các kịch bản còn lại trong tất cả
các thời điểm dự báo t+2h đến t+24h. Kết quả sai số của kịch bản 3 và 4 thấp cho thấy việc sử dụng thông tin chênh
lệch mực nước giữa các trạm hay kết hợp thông tin lượng mưa như đề xuất của nghiên cứu mang lại hiệu quả cho mơ
hình dự báo.


DỰ BÁO MỰC NƯỚC SÔNG CẦN THƠ DỰA VÀO ĐẶC TRƯNG DÒNG CHẢY…

RMSE (cm)

48


10
9
8
7
6
5
4
3
2
1
0

1 giờ

2 giờ

3 giờ

Kịch bản 1

4 giờ

Kịch bản 2

5 giờ
Kịch bản 3

6 giờ


12 giờ

24 giờ

Kịch bản 4

Hình 6. Biểu đồ tổng hợp sai số dự báo mực nước RMSE sử dụng mơ hình Stacking

Trong nghiên cứu [5], các tác gỉả cũng sử dụng dữ liệu của 3 ngày trước đó để dự đốn cho mực nước 1 ngày
sau đó với mơ hình rừng ngẫu nhiên có sai số dự đoán RMSE = 9 cm để dự đoán mực nước tại vùng đầm lầy Upo, Hàn
Quốc. Trong nghiên cứu này, mơ hình rừng ngẫu nhiên cũng có sai số RMSE từ 9.06 cm đến 9.15 cm cho 4 kịch bản
đề xuất. Sai số giữa 2 nghiên cứu gần tương đương nhau mặc dù dữ liệu thu thập từ nghiên cứu [5] nhiều hơn vì cùng
là dữ liệu trong 3 ngày tuy nhiên dữ liệu thu thập 10 phút 1 lần cho nghiên cứu [5] và 60 phút 1 lần cho nghiên cứu đề
xuất trong bài báo này. Và mơ hình rừng ngẫu nhiên có sai số cao hơn so với mơ hình Stacking được thực nghiệm
trong nghiên cứu này.
Để đánh giá tính ổn định của mơ hình đề xuất, mơ hình Stacking được xây dựng dựa trên tập dữ liệu thu thập
năm 2012-2015 đánh giá khả năng dự đoán trên tập dữ liệu thu thập năm 2020. Với dữ liệu mực nước của năm 2020,
chúng tôi thử nghiệm trên 2 kịch bản: đầu vào là dữ liệu mực nước tại 5 trạm đo: Tân Châu, Châu Đốc, Vàm Nao, Cần
Thơ, Mỹ Thuận của 72 giờ trước đó, dữ liệu mực nước tại 5 trạm đo: Tân Châu, Châu Đốc, Vàm Nao, Cần Thơ, Mỹ
Thuận của 72 giờ trước đó có tính độ trễ dịng chảy giữa các trạm với trạm Cần Thơ. Kết quả dự đốn với mơ hình
Stacking trên tập dữ liệu năm 2020 được mơ tả trong bảng 3. So sánh kết quả dự đoán của năm 2020 (bảng 3) và năm
2016 (bảng2) thì sai số RMSE không quá chênh lệnh. Dữ liệu trong bảng 3 cũng cho thấy đề xuất ban đầu của nghiên
cứu áp dụng độ trễ của dòng chảy giữa các trạm giúp giảm sai số của kết quả dự đoán. Và kết quả thể hiện rõ sự khác
biệt khi dự đoán mực nước ở thời điểm xa hơn thời điểm đang xét (dự đoán mực nước ở thời điểm t+12 và t+24), mơ
hình có tính tới độ trễ của dịng chảy hoạt động tốt hơn.
Bảng 3. Kết quả dự đoán mực nước sử dụng mơ hình Stacking đánh giá trên dữ liệu năm 2020
RMSE (cm)
1h

2h


3h
1.

4.362

6.328

7.430

2.
4.628

6.408

4h
5h
6h
Dữ liệu mực nước tại 5 trạm

12h

24h

8.268

9.242

10.048


9.1

9.823

8.518

8.942

Dữ liệu mực nước tại 5 trạm theo độ trễ dòng chảy

7.512

8.268

8.647

8.870

Song song với việc đánh giá sai số dự báo của mơ hình đề xuất, chúng tơi cũng so sánh kết quả dự báo của mơ
hình đề xuất trong nghiên cứu này (Stacking) với mơ hình đã thử nghiệm trong nghiên cứu trước đó (LSTM) [6]. Tập
dữ liệu học và kịch bản đánh giá 1 (sử dụng mực nước của trạm Cần Thơ trong 72 giờ trước đó) được sử dụng để so
sánh hiệu quả của 2 mơ hình. Sai số RMSE của kết quả dự đốn của 2 mơ hình được trình bày trong bảng 4 cho thấy
mơ hình LSTM tốt hơn Stacking cho dự đoán mực nước ở thời điểm t+2 - > t+6 (mơ hình Stacking khơng tốt bằng
LSTM)
Bảng 4. Sai số dự đoán bằng Stacking và LSTM từ dự liệu mực nước trạm Cần Thơ

Stacking
LSTM

1h

3.902
4.53

2h
6.056
4.40

RMSE (cm)
3h
4h
7.079
7.258
4.8
5.05

5h
7.698
5.25

6h
7.996
5.58

Để đánh giá khả năng dự đoán cho thời gian xa hơn của mơ hình LSTM và Stacking, chúng tơi cũng cài đặt lại
mơ hình LSTM tại thời điểm t+12 và t+24 trên cùng tập dữ liệu và thông số cài đặt mơ hình như nghiên cứu trước của
tác giả Trần Nguyễn Minh Thư và các cộng sự [6]. Kết quả sai số của dự đoán cho thời điểm t+12 và t+24 được trình
bày trong bảng 5. Qua kết quả trên cho thấy, phương pháp tập hợp mơ hình Stacking có sai số RMSE thấp hơn mơ hình
LSTM cho các dự đốn trong thời gian dài.



Trần Nguyễn Minh Thư, Nguyễn Duy Khương, Phạm Xuân Hiền, Nguyễn Hồng Hải

49

Bảng 5. Sai số mực nước dự báo giữa mơ hình Stacking và LSTM với mực nước trạm Cần Thơ
RMSE (cm)
12h

24h

Stacking

8.241

8.619

LSTM

9.899

9.733

IV. KẾT LUẬN
Trong nghiên cứu này, các phương pháp tập hợp mơ hình: Stacking, Bagging, Random Forest, AdaBoost được
thử nghiệm để đánh giá mực nước của trạm Cần Thơ tại các thời điểm 1 giờ, 2 giờ, 3 giờ, 4 giờ, 5 giờ, 6 giờ, 12 giờ,
24 giờ tiếp theo thời điểm đang xét. Dữ liệu sử dụng để xây dựng mơ hình thu thập được đo đạc hàng giờ tại các trạm
Tân Châu, Châu Đốc, Vàm Nao, Mỹ Thuận và Cần Thơ trong khoảng thời gian từ năm 2012-2015. Dữ liệu mực nước
của năm 2016 và 2020 được sử dụng để đánh giá hiệu quả dự đoán của mơ hình. Qua q trình thực nghiệm đánh giá,
mơ hình Stacking có thể xem là phương pháp phù hợp nhất trong việc dự báo mực nước sông Cần Thơ trong 4 phương
pháp đề xuất. Bên cạnh đó nghiên cứu cũng cho thấy các yếu tố như lượng mưa hay độ trễ của dịng chảy giữa các trạm

cũng góp phần ảnh hưởng tới q trình dự đốn mực nước. Kết quả nghiên cứu cũng cho thấy phương pháp tập hợp mơ
hình Stacking ổn định hơn so với mơ hình LSTM khi dự đoán mực nước ở thời điểm xa hơn (12 giờ, 24 giờ sau đó)
thay vì 6 giờ sau đó như nghiên cứu [6] đã đề xuất trước đây.
Trong tương lai, chúng tơi triển khai thử nghiệm mơ hình dự báo mực nước cho trạm Cần Thơ đã đề xuất tại
Trung tâm Thủy văn sông Cửu Long. Trong quá trình triển khai sẽ cải tiến và hồn thiện để có thể triển khai cũng như
áp dụng mơ hình đề xuất để dự đoán mực ở những trạm đo đạc khác.
TÀI LIỆU THAM KHẢO
[1] Carl Steidley, Alex Sadovski, Phillipe Tissot, Ray Bachnak, Zack Bowles, “Water Level Prediction with Artificial Neural
Network Models”, 2005.
[2] Bang-Fuh Chen, Han-Der Wang and Chih-Chun Chu, 2007. Wavelet and artificial neural network analyses of tide forecasting
and supplement of tides around Taiwan and East Sea. Ocean Engineering 34: 2161–2175.
[3] Lê Xuân Hiền, Hồ Việt Hùng, “Ứng dụng mạng long short-term memory (LSTM) để dự báo mực nước tại trạm Quang Phục và
Cửa Cấm, Hải Phòng, Việt Nam, Khoa học kỹ thuật thuỷ lợi và môi trường, số 62, pp. 9-15, 9/2018.
[4] Nguyễn Thanh Tùng, Nguyễn Khắc Tiên Phước. “Dự báo mực nước trên sơng Mê-Kơng dùng mơ hình hồi quy phi tuyến
Random Forests”, hội nghị khoa học thường niên Đại học Thủy lợi 2020. Tr.450
[5] Choi, C.; Kim, J.; Han, H.; Han, D.; Kim, H.S. Development of Water Level Prediction Models Using Machine Learning in
Wetlands: A Case Study of Upo Wetland in South Korea. Water 2020, 12, 93.
[6] Trần Nguyễn Minh Thư, Nguyễn Hồng Hải, Phạm Trường An. “Dự báo mực nước sông MEKONG sử dụng LSTM và dữ liệu
quan trắc thượng nguồn”, hội nghị FAIR 2019, Huế.
[7] Nguyễn Ngọc Tiến, Nguyễn Trung Thành, Vũ Hải Đăng (2015), “Các đặc trưng thủy động lực và môi trường mùa khơ tại vùng
biển ven bờ cửa sơng Hậu”, Tạp chí Khoa học và Công nghệ Biển 15 (3), tr.235-241.
[8] Trần Hồng Thái, Hoàng Minh Tuyển, Lương Hữu Dũng, Nguyễn Xuân Tiến, Trần Đức Anh (2014), “Diễn biến dòng chảy ở
Đồng bằng sơng Cửu Long”. Tạp chí Khí tượng thủy văn 643, 19-23.
[9] L.Breiman, Bagging Predictors. Machine Learning 24, 123–140 (1996).
[10] L. Breiman, "Random Forests", Machine Learning Journal Paper, vol. 45, (no.1), p. 5-32. Oct. 2001, 2001.
[11] Yoav Freund and Robert E. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting.
Journal of Computer and System Sciences, 55(1):119-139, August 1997.
[12] Wolpert, David. (1992). Stacked Generalization. Neural Networks. 5. 241-259. 10.1016/S0893-6080(05)80023-1.
[13] Bracewell, R. "Pentagram Notation for Cross Correlation." The Fourier Transform and Its Applications. New York: McGrawHill, pp. 46 and 243, 1965.


FORECASTING THE WATER LEVEL OF THE CANTHO RIVER BY USING FLOW CHARACTERISTICS
AND THE ENSEMBLE-BASED LEARNING
Tran Nguyen Minh Thu, Nguyen Duy Khuong, Pham Xuan Hien, Nguyen Hong Hai
ABSTRACT: Based on LSTM model, the water level can be forcasted by using the previous water levels. However, the
water level is also affected by the delay of the river flow between the stations and the rainfall at the time of collecting dataset for
forecasting. Forecaste water level system is based on the ensemble-based learning and characteristics of the river flow and rainfall.
The water level of Can Thơ river is predicted based on the water level of 4 stations on the Mekong River located in Tan Chau, Chau
Doc, Vam Nao and My Thuan. The 2012-2015 dataset of water level and rainfall collected per hour is used to train the model and
the 2016 &2020 dataset is used to test and to evaluate the model. To forecaste water level for 1 hour, 12 hours and 24 hours later,
the water level of 72 hours before of one station, 5 stations combining with rainfall and delay of the river flow is used. With the
water level of 5 input stations, the experimental results showed that the predicted value has RMSE = 8.2 cm for 12 hours and RMSE
= 8.6 cm for 24 hours comparing with LSTM in previous research as RMSE= 9.9 for 12 hours and RMSE=9.7 for 24 hours.



×