Tải bản đầy đủ (.pdf) (26 trang)

Nghiên cứu xây dựng mô hình dự báo lưu lượng nước đến hồ thủy điện a lưới dựa trên thuật toán máy học (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (689.53 KB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HỮU HUY

NGHIÊN CỨU XÂY DỰNG MƠ HÌNH DỰ BÁO
LƯU LƯỢNG NƯỚC ĐẾN HỒ THỦY ĐIỆN A LƯỚI
DỰA TRÊN THUẬT TOÁN MÁY HỌC

Chuyên ngành: Quản lý xây dựng
Mã số: 8580302

TÓM TẮT LUẬN VĂN THẠC SĨ
QUẢN LÝ XÂY DỰNG

Đà Nẵng – Năm 2022
Cơng trình được hoàn thành tại
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: PGS. TS. PHẠM ANH ĐỨC

Phản biện 1: PGS. TS. ĐẶNG CÔNG THUẬT
Phản biện 2: TS. ĐẶNG VIỆT DŨNG

Luận văn đã được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp Thạc sĩ ngành Quản lý Xây dựng họp tại Trường Đại học


Bách khoa vào ngày 27 tháng 03 năm 2022.

Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học
Bách khoa.
- Thư viện Khoa Quản lý Dự án, Trường Đại học Đà Nẵng –
ĐHĐN.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


1

MỞ ĐẦU
1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Biến đổi khí hậu đã có nhiều ảnh hưởng tác động đến sự thay
đổi lưu lượng tại các vùng, lưu vực trên thế giới nói chung và Việt
Nam nói riêng, trong đó lượng mưa có ảnh hưởng trực tiếp đến diễn
biến dịng chảy, tác động tới công tác quản lý vận hành hồ chứa trên
cả nước, đây là một thách thức ngày càng lớn trong điều kiện biến
đổi khí hậu, địi hỏi cần phải giải quyết bài toán về dự báo trước lưu
lượng đến hồ để xây dựng quy trình vận hành hồ hợp lý có ý nghĩa
rất quan trọng trong cơng tác quản lý vận hành hệ thống hồ chứa
thủy lợi nói chung và vận hành hồ chứa thủy điện nói riêng trong
việc phát điện.
Do nhiều yếu tố ảnh hưởng và sự biến đổi rất lớn của thiên
nhiên, dự báo dòng chảy là một bài tốn phức tạp, khối lượng tính
tốn lớn và cần nhiều thơng số đầu vào. Vì vậy, các nhà quản lý vận

hành luôn nghiên cứu cải tiến các phương pháp để đưa ra phương
pháp dự báo mới hạn chế lệ thuộc nhiều yêu tố đầu vào để tính tốn.
Tại Việt Nam, một số mơ hình dự báo đã được đưa vào áp
dụng như ETA, RAMS, WRF. Mỗi mô hình đều có các sai số sinh ra
do số liệu ban đầu, do q trình tham số hóa chưa chuẩn xác. Do đó
trước khi áp dụng một mơ hình cần phải phân tích được những ưu
nhược điểm để khai thác và khắc phục, mang lại hiệu quả cao cho
công tác dự báo.
Xây dựng mơ hình dự báo lưu lượng nước về hồ chứa dựa
trên thuật toán máy học là một hướng đi mới sẽ có nhiều ưu điểm vì
nó là một mơ hình tính tốn mơ phỏng hoạt động của não người. Đây
là mơ hình có tính mềm dẻo, chấp nhận thơng tin khơng chính xác,
dễ thích nghi, làm giảm đáng kể độ phức tạp và thời gian tính tốn.
Luận văn này sẽ xây dựng mơ hình dự báo lưu lượng nước

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


2

về Hồ thủy điện A Lưới, tỉnh Thừa Thiên Huế dựa trên thuật tốn
máy học, xác định các thơng số hợp lý của mạng, các thông số huấn
luyện mạng theo thuật toán lan truyền ngược bằng thực nghiệm, trên
cơ sở đó lập hệ dự báo để dự báo một cách nhanh chóng sự biến đổi
của các số thơng số khí tượng.
Xuất phát từ những lý do trên, tác giả kiến nghị lựa chọn đề
tài: “Xây dựng mơ hình dự báo lưu lượng nước về hồ thủy điện A
Lưới dựa trên thuật toán máy học” để nghiên cứu.

2. MỤC TIÊU NGHIÊN CỨU
Nghiên cứu ứng dụng các thuật toán máy học để xây dựng mơ
hình dự báo lưu lượng về hồ thủy điện A Lưới, huyện A Lưới, tỉnh
TT Huế.
3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
- Đối tượng nghiên cứu: Lưu lượng nước về hồ thủy điện A
Lưới.
- Phạm vi nghiên cứu: Hồ chứa cơng trình thủy điện A Lưới,
huyện A Lưới, tỉnh Thừa Thiên Huế.
4. NỘI DUNG NGHIÊN CỨU
- Thu thập tài liệu thủy văn về lượng mưa và lưu lượng nước về
trên lưu vực hồ chứa cơng trình thủy điện A Lưới;
- Nghiên cứu cơ sở lý thuyết của các thuật tốn máy học để xây
dựng mơ hình dự báo lưu lượng nước đến hồ thủy điện A Lưới, tỉnh
Thừa Thiên Huế.
5. PHƯƠNG PHÁP NGHIÊN CỨU
- Nghiên cứu tổng quan về các phương pháp dự báo.
- Phương pháp phân tích dữ liệu: Thu thập, đánh giá dữ liệu lưu
lượng nước về hồ thủy điện A Lưới theo các tháng trong năm. Bao
gồm: chuỗi dữ liệu lưu lượng nước về hồ, lượng mưa giai đoạn lập
thiết kế dự án (31 năm) và chuỗi dữ liệu lưu lượng về hồ, lượng mưa

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


3

giai đoạn vận hành (12 năm).

- Phương pháp xây dựng mơ hình: Ứng dụng các thuật tốn máy
học để xây dựng mơ hình dự báo (Prediction model) lưu lượng nước
về hồ thủy điện A Lưới dựa trên các mơ hình trí tuệ nhân tạo như
support vector machine, artficial neural network, evolutionary
multivariate regression…
6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Kết quả nghiên cứu sẽ cung cấp thêm một phương pháp mới
dựa trên các thuật tốn máy học để xây dựng mơ hình dự báo lưu
lượng nước về hồ chứa. Qua đó giúp cho Chủ đầu tư Nhà máy thủy
điện chủ động trong công tác quản lý vận hành hồ chứa, điều tiết
nước hợp lý phát điện và chủ động hơn trong việc xây dựng kế hoạch
sản xuất điện hằng năm.
CHƯƠNG 1
TỔNG QUAN VỀ PHƯƠNG PHÁP NGHIÊN CỨU
1.1. Các phương pháp nghiên cứu dự báo lưu lượng nước hiện
nay
Trong thời kỳ đầu (khoảng năm 1960-1975), các phương
pháp dự báo mưa-dòng chảy chủ yếu dựa trên các phân tích diễn biến
lịch sử, đường cong lũy tích chu kỳ nguồn nước, phân tích xu thế. Từ
năm 1975, cơng tác dự báo đã có nhiều bước tiến mới, ứng dụng các
kỹ thuật máy tính phát triển các phương trình đơn lẻ phân tích thống
kê các phương trình hồi quy tương quan dịng chảy với mưa và với
các đặc trưng dòng chảy theo thời gian…Trong giai đoạn này, Sử
dụng một số phương pháp dự báo biến động dịng chảy như:


Mơ hình thống kê đa biến,




Mơ hình nhận dạng,



Sử dụng hàm điều hịa,

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


4



Phân tích chuỗi thời gian như mơ hình ARIMA,



Mơ hình mạng thần kinh nhân tạo ANN…lập tương

quan dòng chảy với dự báo dòng chảy tháng trong cả
mùa lũ và mùa cạn đã được sử dụng trên các lưu vực
sông.
1.2. Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài ở
trong và ngồi nước
1.2.1. Ứng dụng trí tuệ nhân tạo trong các lĩnh vực
1.2.2. Ứng dụng thuật toán máy học dự báo lưu lượng nước trên
thế giới
1.2.3. Ứng dụng thuật toán máy học dự báo lưu lượng nước trong

nước
Cho đến nay, trong các nghiên cứu về dự báo lưu lượng vào hồ
chứa nói riêng, hay dự báo hoặc mơ phỏng lưu lượng/q trình mưadịng chảy đều sử dụng các mơ hình thủy văn phân bố hay bán phân
bố khác nhau. Các mơ hình loại này dược xây dựng để mơ phỏng đặc
tính vật lý và q trình của dịng chảy. Do khả năng mơ phỏng có độ
chính xác cao các q trình vật lý và phân tích độ nhạy cảm một cách
tồn diện, hơn nữa các mơ hình này rất hữu ích cho các nhà khoa học
trong việc giải thích được tồn bộ q trình ẩn đẳng sau, do đó các
mơ hình loại này được áp dụng khá rộng rãi ở nhiều khu vực trên thế
giới Tuy nhiên, việc sử dụng các mơ hình này thường u cầu một
lượng dữ liệu chi tiết về đặc tính của lưu vực như các số liệu thơng
tin địa lý, mưa, dịng chảy, địa chất… Bên cạnh nó việc hiệu chỉnh
và kiểm định mơ hình cũng rất phức tạp và địi hỏi nhiều thời gian,
kinh nghiệm và kiến thức của người chạy mô hình đối với từng lưu
vực cụ thể. Vì vậy, khả năng áp dụng loại mơ hình này ở nhiều khu
vực và trong các bài toán dự báo thời đoạn ngắn vẫn còn bị hạn chế .
Những hạn chế của các mơ hình truyền thống nêu trên đã

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


5

khuyến khích sự phát triển của các mơ hình dựa vào số liệu (datadriven models), mà phổ biến nhất gần đây có thể kể đến là phương
pháp máy học (Machine Learning - ML). Các mơ hình ML là cơng
cụ tiềm năng trong việc dự báo dịng chảy do các mơ hình này có thể
được xây dựng dựa nhanh chóng, dễ dàng, khơng địi hỏi phải có sự
hiểu biết về các q trình vật lý ẩn đằng sau. Ngồi ra, lượng dữ liệu

yêu cầu tối thiểu, cùng với khả năng tính toán, hiệu chỉnh và kiểm
định nhanh hơn so với các mơ hình vật lý truyền thống, và cách sử
dụng ít phức tạp hơn là những ưu điểm lớn mà các mơ hình dựa vào
số liệu mang lại.
Trong những năm qua, với sức mạnh cuộc cách mạng 4.0, trí
tuệ nhân tạo đã được ứng dụng trong nhiều lĩnh vực hoạt động của
doanh nghiệp và công tác quản lý. Với nội dung đề tài nghiên cứu đã
có nhiều chủ đầu tư các nhà máy thủy điện, hồ chứa thủy lợi đã ứng
dụng trí tuệ nhân tạo trong việc dự báo lưu lượng nước về hồ chứa,
hữu ích trong cơng tác quản lý kế hoạch sản xuất kinh doạnh, an toàn
hồ đập trong lưu vực sơng, phục vụ phịng tránh giảm nhẹ thiên tai,
cụ thể:
Nhà máy thủy điện Hịa Bình: Nghiên cứu phương pháp Deep
learning để phân tích, dự báo trung hạn lưu lượng nước đổ về hồ Hịa
Bình trước 10 ngày [49, 50], từ đó giúp hỗ trợ cơng tác ra quyết định
trong điều hành hồ chứa. Các phương pháp học máy nổi tiếng khác
như LASSO, cây hồi quy, K láng giềng, véc-tơ hỗ trợ hồi quy, rừng
ngẫu nhiên đã được nghiên cứu, cài đặt thử nghiệm và so sánh với
Deep learning để đánh giá hiệu năng của các mơ hình dự báo. Kết
quả thực nghiệm cho thấy phương pháp Deep learning cho kết quả
dự báo tốt nhất với R2 đạt 92% và vượt trội so với các phương pháp
khác khi so sánh dựa trên R2 và RMSE
Các hồ chứa trên lưu vực Sơng Ba: Áp dụng mơ hình trí tuệ

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


6


nhân tạo và dự báo lưu lượng đến hồ lưu vực Sơng Ba [1]. Trong
nghiên cứu này, hai mơ hình AI là Random Forest (RF) và Support
Vector Machine (SVM/SVR) đã được áp dụng thử nghiệm đối với
một hồ chứa lớn - hồ Sông Hinh trên lưu vực Sông Ba, Việt Nam. Ba
trường hợp tính tốn là dự báo lưu lượng trung bình 3 ngày, 7 ngày
và 1 tháng (tương ứng với ngắn, trung và dài hạn) đến hồ sử dụng số
liệu khí tượng, thủy văn trong khu vực đã được xây dựng để kiểm
nghiệm khả năng dự báo của hai mơ hình RF và SVR. Kết quả cho
thấy, cả hai mơ hình đều đưa ra kết quả dự báo với độ chính xác cao
thể hiện qua chỉ số NSE trung bình đạt trên 0,8, đặc biệt trong một số
trường hợp tính tốn như dự báo lưu lượng trung hạn và dài hạn, chỉ
số NSE trung bình trên 0,9.
Thủy điện Bn Kuốp: Ứng dụng trí tuệ nhân tạo để dự báo
lũ sớm. Với mục tiêu hoàn thiện hệ thống cảnh báo lũ, Công ty Thủy
điện Buôn Kuốp [51] (Tổng công ty Phát điện 3) đã tích cực triển
khai chuyển đổi số đối với hệ thống thu thập dữ liệu thủy văn, cảnh
báo lũ và xây dựng bản đồ số vùng hạ du các nhà máy thủy điện
Buôn Tua Srah, Buôn Kuốp, Srêpốk 3. những kỹ sư của Công ty
Thủy điện Buôn Kuốp tự nghiên cứu và xây dựng. Dựa trên dữ liệu
đã thu thập, các kỹ sư đã ứng dụng AI (trí tuệ nhân tạo) để phân tích,
dự báo tình hình và cung cấp cảnh báo sớm. Đến nay, mơ hình thu
được những kết quả khá khả quan. Qua quá trình đối chiếu, so sánh
với số liệu đo đạc và tình hình thực tế, mơ hình dự báo lưu lượng về
hồ Bn Tua Srah hiện có độ chính xác khoảng 75% so với thực tế
và trở thành một kênh hữu ích để công ty tham khảo. Đối với vùng
hạ du, hệ thống cảnh bảo xả lũ của Công ty Thủy điện Buôn Kuốp đã
vận hành từ năm 2009 và dần chuyển sang cảnh báo từ xa qua sóng
điện thoại di dộng. Hiện 20 trạm cảnh báo đã bố trí dọc theo bờ sông
vùng hạ du, đảm bảo các thông báo về tình hình chạy máy, thơng báo


THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


7

điều tiết xả nước của nhà máy đến được với chính quyền và người
dân trong vùng.
Hồ chứa nước Cửa Đạt, tỉnh Thanh Hóa có nhiệm vụ cấp
nước tưới cho nơng nghiệp và kết hợp phát điện, khi thiết kế chưa đề
cập đến yếu tố biến đổi khí hậu nên những năm gần đây biến đổi khí
hậu đã ảnh hưởng xấu đến việc vận hành hồ chứa. Bên cạnh đó, theo
đà phát triển của xã hội thì nhu cầu nước sẽ thay đổi, theo xu hướng
tăng, dẫn đến sự thay đổi trong vận hành, phân phối nước. Vì vậy,
yêu cầu đặt ra là cần dự báo được lượng nước đến hồ phục vụ cho
việc vận hành, phân phối nước an toàn và hiệu quả [2]. Kết quả dự
báo lưu lượng nước đến hồ chứa Cửa Đạt trên cơ sở ứng dụng mạng
thần kinh nhân tạo truyền thẳng nhiều lớp (ANN) sử dụng thuật toán
lan truyền ngược đã đem lại một hướng đi mới trong công tác dự
báo. Nghiên cứu này là ứng dụng mạng thần kinh nhân tạo truyền
thẳng nhiều lớp (ANN) sử dụng thuật toán lan truyền ngược để dự
báo lưu lượng nước đến hồ chứa Cửa Đạt trước 3 ngày trên cơ sở
phân tích, đánh giá hai kịch bản: (1) Dự báo lưu lượng đến hồ chỉ xét
đến yếu tố lưu lượng dòng chảy và (2) xét đến yếu tố lưu lượng dòng
chảy và yếu tố lượng mưa. Kết quả cho thấy, khi có xét thêm yếu tố
lượng mưa cho độ chính xác cao hơn. Cụ thể, với dữ liệu của trạm
Cửa Đạt, sai số quân phương RMSE giảm từ 75.04091 m3/s xuống
còn 56.35318 m3/s và chỉ số xác định R2 nâng cao từ 0.68 lên 0.72,

tương tự với trạm Cẩm Thủy, sai số RMSE cũng giảm xuống và chỉ
số xác định R2 tăng lên. Kết quả nghiên cứu cung cấp một phương
pháp hữu ích trong bài tốn dự báo, đặc biệt có ý nghĩa trong cơng
tác quản lý nguồn nước và góp phần quan trọng trong việc xây dựng
các phương án quản lý vận hành hồ chứa được chủ động hơn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


8

CHƯƠNG 2
CƠ SỞ LÝ THUYẾT CƠ BẢN CÁC THUẬT TOÁN
MÁY HỌC NÂNG CAO
2.1. Cơ sở lý thuyết các thuật toán máy học
2.1.1. Mơ hình mạng nơ-ron nhân tạo (ANN)
2.1.2. Mơ hình máy học vectơ hỗ trợ (Support Vector
Machine Model)
2.1.3. Cây phân loại và hồi quy (CART TREE)
2.1.4. Tự động phát hiện tương tác Chi-squared (CHAID)
2.1.6. Thuật toán Machine Learning Hồi quy tuyến tính (
Ordinary Least Squares Regression)
2.1.7. Kết hợp nhiều phương pháp (Ensemble Methods)
2.2. Nguồn dữ liệu và các tham số đầu vào mơ hình nghiên cứu
2.2.1. Nguồn dữ liệu
a) Đặc điểm dữ liệu:
Bộ dữ liệu bao gồm lượng mưa X (mm) và lưu lượng nước
về trên lưu vực hồ thủy điện A Lưới Q (m3/s). Bao gồm dữ liệu 02

giai đoạn:


Chuỗi dữ liệu lưu lượng nước về hồ, lượng mưa giai
đoạn lập thiết kế, thi công dự án (34 năm: từ năm 1977
đến 2011), dữ liệu X, Q giai đoạn này được tính tốn
chuyển đổi theo phương pháp lưu vực tương tự.



chuỗi dữ liệu lưu lượng về hồ, lượng mưa giai đoạn vận
hành (09 năm: từ năm 2012 đến 2020), dữ liệu X, Q giai
đoạn này là giá trị thưc đo tại lưu vực hồ A Lưới trong
quá trình vận hành khai thác hồ chứa.
b) Xử lý, phân tích dữ liệu:
c) Dữ liệu sau khi xử lý:
Dữ liệu sau khi xử lý được tổng hợp thành 01 file excel và

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


9

dể dàng truy xuất mối quan hệ giữa lượng mưa ngày và lưu
lượng nước về hồ ngày trong chuỗi dữ liệu quá khứ 43 năm.
Kết quả gom cụm và phân tích dữ liệu được lập quan hệ giữa
lượng mưa và lưu lượng nước theo đơn vị ngày như bảng sau:
Bảng 2.1. Dữ liệu lượng mưa và lưu lượng nước quá khứ hồ thủy

điện A Lưới cho phương án dự báo trước trung bình 03 và 07 ngày.

2.2.2. Tham số đầu vào mơ hình
Dữ liệu TH1: Dự báo lưu lượng nước về hồ trung bình trước
03 ngày cho bộ dữ liệu từ tháng 7, tháng 8 trong chuỗi dữ liệu 43
năm: Dữ liệu huấn luyện gồm lượng mưa X và lưu lượng Q của
tháng 7 (1977 đến 2020), tháng 8 (2012 đến 2020); Dữ liệu năm
2021 để dự báo thực tế đánh giá bộ thông số được tối ưu lựa chọn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


10

Bảng 2.2. Lựa chọn biến số dự báo lưu lượng nước về hồ trung bình
trước 03 ngày
Ký hiệu
Đầu vào
X1
X2
X3

X4`

Q1
Q2
Q3
Q4

Y+03day

Thuộc tính
Mưa trung bình 02 ngày
hiện tại và sau liền kề
Mưa trung bình 03 ngày
trước liền kề
Mưa trung bình 06 ngày
trước liền kề
Mưa ngày bình 03 ngày
hiện tại và sau liền kề
(Lấy từ nguồn Windy dự
báo)
Lưu lượng trung bình 02
ngày hiện tại và sau liền
kề
Lưu lượng trung bình 03
ngày trước liền kề
Lưu lượng trung bình 06
ngày trước liền kề
Lưu lượng ngày dự báo
Lưu lượng dự báo trung
bình trước 3 ngày

Đơn
vị
mm
mm
Mm


(Xt+X(t-1))/2
(X(t-1)+X(t-2)+X(t-3)/3
(X(t-1)+X(t-2)+...+X(t6)/6
(Xt+X(t+1)+X(t+2)/3

Mm
(Qt+Q(t-1))/2
m3/s
m3/s
m3/s
m3/s
m3/s

(Q(t-1)+Q(t-2)+Q(t-3)/3
(Q(t-1)+Q(t-2)+...+Q(t6)/6
Qday
(Qday+Q(t+1)+Q(t+2))/3

Dữ liệu TH2: dự báo lưu lượng nước về hồ trung bình trước
07 ngày cho bộ dữ liệu từ tháng 7 đến tháng 8 trong chuỗi dữ liệu 43
năm: Dữ liệu huấn luyện gồm lượng mưa X và lưu lượng Q của
tháng 7 (1977 đến 2020), tháng 8 (2012 đến 2020); Dữ liệu năm
2021 để kiểm tra bộ thông số được lựa chọn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


11


Bảng 2.3. Lựa chọn biến số dự báo lưu lượng nước về hồ trung bình
trước 07 ngày
Ký hiệu
Đầu vào
X1
X2
X3

X4`

Q1
Q2
Q3
Q4
Y+07day

Thuộc tính
Mưa ngày dự báo
Mưa trung bình 07
ngày trước liền kề
Mưa trung bình 14
ngày trước liền kề
Mưa ngày bình 07 ngày
hiện tại và tương lai
liền kề (lấy từ nguồn
Windy dự báo)
Lưu lượng ngày dự báo
Lưu lượng trung bình
07 ngày trước liền kề

Lưu lượng trung bình
14 ngày trước liền kề
Lưu lượng 02 ngày
trước liền kề
Lưu lượng dự báo
trung bình trước 7 ngày

Đơn
vị
mm
mm
Mm

Xday
(X(t-1)+X(t-2)+..+X(t-7)/7
(X(t-1)+X(t-2)+...+X(t14)/14
(Xt+X(t+1)+…+X(t+6)/7

Mm
m3/s
m3/s
m3/s
m3/s
m3/s

Qday
(Q(t-1)+Q(t-2)+..+Q(t-7)/7
(Q(t-1)+Q(t-2)+...+Q(t14)/14
(Qt+Q(t-1))/2
(Qt+Q(t+1)+…+Q(t+6))/7


CHƯƠNG 3
PHÂN TÍCH LỰA CHỌN THUẬT TỐN MÁY HỌC ĐỂ XÂY
DỰNG MƠ HÌNH DỰ BÁO LƯU LƯỢNG NƯỚC VỀ HỒ
THỦY ĐIỆN A LƯỚI
3.1. Các thuật toán máy học trong đề tài nghiên cứu
Dự báo lưu lượng nước về hồ chứa trong thời gian ngắn hạn
trung bình 03 ngày và trung bình 07 ngày có ý nghĩa rất quan trọng
trong việc chủ động vận hành phát điện, cảnh báo lưu lượng lũ để

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


12

vận hành xả tràn và tham gia đăng ký sản lượng điện phát trong thị
trường điện cạnh tranh.
Mục tiêu chính của khái phá dữ liệu có được bằng cách kết
hợp các phương pháp công nghệ của nhiều lĩnh vực khác nhau, bao
gồm khoa học máy tính, thống kê, phân tích dữ liệu trực tuyến, máy
học và các hệ thống chuyên gia [67]. Ứng dụng các thuật toán máy
học ANN: Mạng Nơ ron thần kinh; SVM: náy hỗ trợ véc tơ;
REGRESSION: Hồi quy tuyến tính; CHAID: tự động phát hiện
tương tác Chi-Squared; C&R TREE: Phân hoại và hồi quy và các
thuật tốn kết hợp như đã trình bày ở chương 2 để dự báo lưu lượng
nước về hồ chứa thủy điện A Lưới, tỉnh TT Huế trong các thời đoạn:
trung bình 03 ngày và trung bình 07 ngày.


Hình 3.1. Sơ đồ khối mơ hình dự báo lưu lượng nước đến hồ thủy
điện A Lưới
Các thuật toán trên được sử dụng trong chương trình SPSS của
IBM [68]. Năm 1965, Nilsson giới thiệu ý tưởng mơ hình kết hợp
cho các vấn đề phân loại dự liệu. Kỹ thuật mơ hình tổng hợp, tổ hợp
các điểm mạnh của mơ hình riêng lẻ với mục đích tạo ra một mơ
hình dự báo tốt hơn. Bởi vì được kết hợp nhiều mơ hình riêng lẻ sẽ
tạo được mơ hình dự báo mạnh và tính tổng qt cao. Nghiên cứu

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


13

này sử dụng các kết quả thu được từ mô hình riêng lẻ tốt nhất sau đó
được tổng hợp và xây dựng các mơ hình kết hợp để dự báo lưu lượng
nước đến hồ thủy điện A Lưới. Mơ hình tổng hợp này sử dụng thuật
toán logic chéo k-fold trên bộ dữ liệu đã được thu thập trước.
3.2. Các phương pháp đánh giá mơ hình
3.2.1. Các chỉ tiêu đánh giá mơ hình (Performance Measures)
Các phương pháp đo lường dưới đây được sử dụng để đánh
giá độ chính xác của các mơ hình dự đốn đề xuất:
• Hệ số tương quan tuyến tính (Linear Correlation Coefficient - R)
R=

n  y. y '− (  y )(  y ')

(14)


n (  y ) − (  y ) 2 n (  y '2 ) − (  y ') 2
2

Trong đó y ' là giá trị dự đốn; y là giá trị thực đo; và n số lượng
điểm đo hay kích thước mẫu đo.
• Sai số phần trăm tuyệt đối trung bình (Mean Absolute Percentage
Error - MAPE)

MAPE =

1 n y − y'
 y
n i =1

(15)

• Sai số tuyệt đối trung bình (Mean Absolute Error - MAE)

1 n
MAE =  y − y '
n i =1

(16)

• Sai số bình phương trung bình (Root Mean Squared Error RMSE)

RMSE =

1 n

( y '− y )2

n i =1

(17)

Hơn nữa, để nhận được một đánh xếp hạng giá tổng hơn thì
chỉ số tổng hợp (Synthesis Index - SIx) được sử dụng thông qua 4 đại

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


14

lượng đo lường (1-R, MAPE, MAE, và RMSE), công thức của chỉ
tiêu tổng hợp được trình bày như (18):

1 m Pi − Pmin,i
SIx =  (
)
m i =1 Pmax,i − Pmin,i

(18)

Trong đó, m = số lượng các chỉ tiêu đo lường; và Pi = chỉ tiêu
đo lường thứ ith. Khoảng giá trị của SIx nằm trong khoảng 0–1; giá
trị SIx tiến đến 0 biểu thị cho độ chính xác của mơ hình dự đốn tốt
hơn.

3.2.2. Thuật tốn đánh giá chéo (Cross-fold Validation Algorithm)
Độ chính xác của hai hay nhiều mơ hình thường được so sánh
bởi thuật tốn k-fold cross-validation nhằm tối thiểu hóa độ chệch
liên quan đến việc chia dữ liệu trong q trình huấn luyện mơ hình.
Nghiên cứu của Kohavi (1995) cho thấy rằng dữ liệu được chia thành
10 folds là tốt nhất [69].
Vì mục đích này, việc chia 10-fold được đề xuất để đảm bảo
khả năng quát tổng hóa của mơ hình. Tồn bộ dữ liệu được chia
thành 10 tập con riêng biệt (subsets hoặc folds), một tập con được sử
dụng để đánh giá mơ hình, 9 tập con cịn lại được sử dụng để huấn
luyện mơ hình (Hình 8). Cách thực hiện này được lặp 10 lần, vì thế
tất cả 10 tập con đều được đánh giá. Kết quả cuối cùng nhận được là
giá trị trung bình của 10 lần thực hiện [70] Các chỉ tiêu đánh giá kết
quả của mơ hình đề xuất là R, RMSE, MAE và MAPE. Giá trị R cao
và các giá trị RMSE, MAE và MAPE thấp được xem như là những
chỉ số báo hiệu kết quả của mơ hình đề xuất tốt.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


15

Hình 3.2. Phương pháp đánh giá chéo 10-fold.
3.3. Huấn luyện và kiểm định dữ liệu
3.3.1. Phương pháp khai phá dữ liệu
Thu thập dữ liệu lượng mưa ngày (Xmm) và lưu lượng nước
trung bình ngày về hồ thủy điện A Lưới (Q m3/s) từ hồ sơ thiết kế
cơng trình 1977-2011 và từ các năm vận hành nhà máy 2012 đến hết

năm 2020; Lọc, làm sạch dữ liệu khơng phù hợp; Tính toán các biến
đầu vào: Lượng mưa X1, X2, X3, X4; Lưu lượng nước Q1, Q2, Q3,
Q4 theo các bảng 2,3,4 nêu trên; Lập file chạy dữ liệu, trong đó chia
dữ liệu thành 10 fold gồm dữ liệu huấn luyện (training)và dữ liệu
kiểm tra (testing).
3.3.2. Huấn luyện mơ hình
- Sử dụng phần mềm Clementine 12 để khai phá dữ liệu [71]
- Nhánh training: Dữ liệu được huấn luyện theo 10 fold.
- Nhánh testing: Dữ liệu được kiểm tra lại, lựa chọn bộ thông

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


16

số của 05 mơ hình máy học: ANN (N); REGRESSION (E);
SVM (S); C&R TREE (R); CHAID (R1).
3.3.3. Huấn luyện mô hình Fold 01 trường hợp dự báo trước 03
ngày:
a. Khai phá dữ liệu cho các mơ hình đơn:
b. Khai phá dữ liệu cho các mơ hình kết hợp:
Trình tự các bước thực hiện khai phá dữ liệu tìm ra các bộ
thơng số thuật tốn nhánh training và testing như mục b nêu trên,
riêng các thuật toán được kết hợp dựa trên các chỉ số đánh giá cao
nhất và thực hiện các bước như hình sau:

Hình 3.3. Các thuật tốn phối hợp tổng thể
Các kết quả dự báo theo các thuật toán đơn và kết hợp này sẽ

được lưu dữ liệu thành file excel để tính tốn các chỉ số đánh giá lựa
chọn mơ hình tối ưu.
Việc thực hiện cho các fold còn lại được thực hiện tương tự
như trên
3.3.4. Kết quả huấn luyện và kiểm định mơ hình:
a) Trường hợp 1: Dự báo lưu lượng nước về hồ trước
trung bình 03 ngày

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


17

Bảng 3.1. Dữ liệu huấn luyện
Attributes
X1
X2
X3
X4
Q1
Q2
Q3
Q4
Y+03day

Unit
mm
mm

mm
mm
m3/s
m3/s
m3/s
m3/s
m3/s

Minimum
0.00
0.00
0.00
0.00
1.93
2.01
2.29
1.33
2.01

Maximun
98.10
65.50
37.17
65.50
82.02
71.13
61.31
109.68
71.13


Average
5.30
5.30
5.32
5.29
10.38
10.38
10.37
10.38
10.38

Bảng 3.2. Tổng hợp tính tốn hệ số tương quan các mơ hình
Performance
measure

R (%)
Dataset 4

Predictive technique
N: NORON
S: SVM
E: REGRES
R: C&R TREE
R1: CHAID1
N+E
S+E
N+R1
S-R1
E+R1


Best
Accuracy
0.92
0.93
0.94
0.92
0.90
0.93
0.93
0.93
0.93
0.94

Testing set
Average
Accuracy
0.87
0.89
0.90
0.84
0.84
0.89
0.89
0.88
0.88
0.90

Best fold
5
5

5
5
3
5
5
5
5
5

Bảng 3.3. Tổng hợp kết quả tính tốn chỉ số sai số căn quân phương RMSE
Performance
measure

Predictive technique

RMSE (m3/s)
Dataset 1

N: NORON
S: SVM
E: REGRES
R: C&R TREE
R1: CHAID1
N+E
S+E
N+R1
S-R1
E+R1

Best

Accuracy
2.67
2.15
2.33
2.83
2.57
2.55
2.42
2.44
2.08
2.26

Testing set
Average
Accuracy
3.85
3.59
3.10
3.90
3.79
3.28
3.50
3.49
3.43
3.13

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Best fold
7

3
10
3
3
3
7
7
3
3

Lưu hành nội bộ


18

Bảng 3.4. Tổng hợp kết quả tính tốn chỉ số sai số phần trăm tuyệt
đối trung bình MAPE
Performance
measure

MAPE (%)
Dataset 2

Predictive technique
N: NORON
S: SVM
E: REGRES
R: C&R TREE
R1: CHAID1
N+E

S+E
N+R1
S-R1
E+R1

Best
Accuracy
0.18
0.18
0.15
0.17
0.15
0.16
0.17
0.14
0.15
0.14

Testing set
Average
Accuracy
0.29
0.21
0.17
0.19
0.18
0.22
0.24
0.21
0.18

0.16

Best fold
1
1
1
5;6;9
1
1
1
1
1
1

Bảng 3.5. Tổng hợp kết quả tính tốn chỉ số sai số tuyệt đối trung
bình MAE
Performance
measure

Predictive technique

MAE (M3/S)
Dataset 3

N: NORON
S: SVM
E: REGRES
R: C&R TREE
R1: CHAID1
N+E

S+E
N+R1
S-R1
E+R1

-

Best
Accuracy
1.89
1.68
1.51
1.79
1.63
1.75
1.72
1.60
1.48
1.43

Testing set
Average
Accuracy
2.64
2.09
1.78
2.09
2.01
2.07
2.20

2.10
1.86
1.73

Best fold
7
3
10
3
10
3
3
3
3
10

Lựa chọn bộ thông số tối ưu: Bộ thông số tối ưu thỏa mãn
các điều kiện R đạt max; RMSE, MAPE và MAE đạt min, cụ
thể:

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


19

Bảng 3.6. Đánh xếp hạng giá tổng hơp theo chỉ số tổng hợp
(Synthesis Index - SIx)
`


N

S

E

R

R1

N+E S+E N+R1 S-R1 E+R1 Min Max

R

0.92 0.93 0.94 0.92 0.90 0.93 0.93

0.93

0.93

0.94 0.90 0.94

RMSE

2.67 2.15 2.33 2.83 2.57 2.55 2.42

2.44

2.08


2.26 2.08 2.83

MAPE

0.18 0.18 0.15 0.17 0.15 0.16 0.17

0.14

0.15

0.14 0.14 0.18

MAE

1.89 1.68 1.51 1.79 1.63 1.75 1.72

1.60

1.48

1.43 1.43 1.89

0.79 0.48 0.21 0.76 0.62 0.48 0.55

0.32

0.19

0.07


10.00 5.00 3.00 7.00 6.00 4.00 4.00

3.00

2.00

1.00

SI
Rank

b) Trường hợp 2: Dự báo lưu lượng nước về hồ trước
trung bình 07 ngày
Bảng 3.7. Dữ liệu huấn luyện
Attributes

Unit

Minimum

Maximun

Average

X1
X2

mm
mm


0.00
0.00

151.60
34.21

5.30
5.31

X3
X4

mm
mm

0.00
0.00

23.05
34.21

5.28
5.30

Q1

m3/s

1.33


109.68

10.38

Q2
Q3

m3/s
m3/s

2.27
2.46

59.60
40.58

10.34
10.31

Q4
Y+07day

m3/s
m3/s

1.93
2.27

82.02

59.60

10.38
10.39

Bảng 3.8. Tổng hợp tính tốn hệ số tương quan các mơ hình
Performance

Predictive

measure

technique

R (%)
Dataset 4

Testing set
Best
Accuracy

Average
Accuracy

Best fold

N: NORON

0.83


0.79

4

S: SVM

0.85

0.81

4

E: REGRES

0.85

0.81

4

R: C&R TREE

0.82

0.79

1;3

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.


Lưu hành nội bộ


20

Performance
measure

Predictive
technique

Testing set
Best
Accuracy

Average
Accuracy

Best fold

R1: CHAID1

0.84

0.76

3

N+S


0.84

0.80

4

N+R

0.84

0.82

3

N+R1

0.86

0.81

3

S-R

0.85

0.82

3


S+R1

0.86

0.80

3

Bảng 3.9. Tổng hợp kết quả tính toán chỉ số sai số căn quân phương
RMSE
Performance
measure

RMSE (m3/s)
Dataset 1

Testing set
Predictive technique

Best
Accuracy

Average
Accuracy

Best fold

N: NORON

3.66


4.59

8

S: SVM

2.90

4.06

6

E: REGRES

2.92

3.66

6

R: C&R TREE

2.90

3.83

6

R1: CHAID1


2.97

4.01

6

N+S

3.31

4.05

6

N+R

3.25

3.83

1

N+R1

3.30

3.93

1


S-R

2.73

3.69

6

S+R1

2.71

3.79

6

Bảng 3.10. Tổng hợp kết quả tính tốn chỉ số sai số phần trăm tuyệt
đối trung bình MAPE
Performance
measure

MAPE (%)

Testing set
Predictive technique

N: NORON

Best

Accuracy

Average
Accuracy

Best fold

0.24

0.37

9

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


21

Performance
measure

Dataset 2

Testing set
Predictive technique

Best
Accuracy


Average
Accuracy

Best fold

S: SVM

0.19

0.22

8

E: REGRES

0.20

0.24

8

R: C&R TREE

0.21

0.24

8


R1: CHAID1

0.20

0.23

3;6

N+S

0.22

0.27

8

N+R

0.20

0.27

9

N+R1

0.20

0.27


3

S-R

0.18

0.21

8

S+R1

0.18

0.21

8

Bảng 3.11. Tổng hợp kết quả tính tốn chỉ số sai số tuyệt đối trung
bình MAE
Performance
measure

MAE (M3/S)
Dataset 3

-

Testing set
Predictive technique


Best

Average

Accuracy

Accuracy

N: NORON

2.47

3.38

8

S: SVM

2.02

2.47

6

E: REGRES

2.00

2.40


6

R: C&R TREE

2.10

2.45

6

R1: CHAID1

2.03

2.48

6

N+S

2.34

2.70

8

N+R

2.14


2.60

8

N+R1

2.14

2.63

8

S-R

1.89

2.27

6

S+R1

1.89

2.29

6

Best fold


Lựa chọn bộ thông số tối ưu: Bộ thông số tối ưu thỏa mãn
các điều kiện R đạt max; RMSE, MAPE và MAE đạt min, cụ
thể:

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


22

Bảng 3.12. Đánh xếp hạng giá tổng hơp theo chỉ số tổng hợp
(Synthesis Index - SIx)
`

N

S

E

R

R1

N+S N+R N+R1 S-R

S+R1 Min Max


R

0.83 0.85 0.85 0.82 0.84 0.84 0.84

0.86 0.85

0.86 0.82 0.86

RMSE

3.66 2.90 2.92 2.90 2.97 3.31 3.25

3.30 2.73

2.71 2.71 3.66

MAPE

0.24 0.19 0.20 0.21 0.20 0.22 0.20

0.20 0.18

0.18 0.18 0.24

MAE

2.47 2.02 2.00 2.10 2.03 2.34 2.14

2.14 1.89


1.89 1.89 2.47

0.96 0.18 0.28 0.51 0.39 0.61 0.41

0.36 0.11

0.02

10.00 3.00 3.00 6.00 4.00 5.00 4.00

3.00 2.00

1.00

SI
Rank

3.4. Bình luận về các kết quả phân tích:
Qua phân tích, huấn luyện, kiểm định các mơ hình thuật tốn
máy học cho 02 trường hợp dự báo lưu lượng nước trung bình về hồ
thủy điện A Lưới trước 3 ngày và 7 ngày nêu trên, nhận thấy:
a. Trường hợp dự báo lưu lượng nước về hồ trước 03 ngày:
- Các thuật toán đơn cho kết quả sai số phần trăm tuyệt đối
trung bình (MAPE) trong khoảng từ 15% đến 18%; Hệ số
tương quan tuyến tính R trong khoảng từ 90%-94% và chỉ số
tổng hợp SI trong khoảng từ 0.21 đến 0.79.
- Các thuật toán kết hợp cho kết quả sai số phần trăm tuyệt đối
trung bình (MAPE) trong khoảng từ 14% đến 16%; Hệ số
tương quan tuyến tính R trong khoảng từ 93%-94% và chỉ số
tổng hợp SI trong khoảng từ 0.07 đến 0.55.

b. Trường hợp dự báo lưu lượng nước về hồ trước 07 ngày:
- Các thuật toán đơn cho kết quả sai số phần trăm tuyệt đối
trung bình (MAPE) trong khoảng từ 18% đến 22%; Hệ số
tương quan tuyến tính R trong khoảng từ 82%-86% và chỉ số
tổng hợp SI trong khoảng từ 0.11 đến 0.96.
- Các thuật toán kết hợp cho kết quả sai số phần trăm tuyệt đối
trung bình (MAPE) trong khoảng từ 18% đến 24%; Hệ số
tương quan tuyến tính R trong khoảng từ 82%-86% và chỉ số

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


23

tổng hợp SI trong khoảng từ 0.02 đến 0.61.
Với điều kiện mơ hình thuật tốn tối ưu nhất khi có giá trị R cao
và các giá trị RMSE, MAE và MAPE . Do vậy theo các bảng tổng
hợp trên sẽ chọn mơ hình thuật tốn E+R1 (Regression – CHAID1)
để dự báo lưu lượng nước về hồ trước 03 ngày và thuật toán S+R1
(SVM+ CHAID1) để dự báo lưu lượng nước về hồ trước 07 ngày.
KẾT LUẬN VÀ KIẾN NGHỊ
1. Kết luận
Cơng trình thủy điện A Lưới, tỉnh Thừa Thiên Huế đã được
vận hành hồ chứa để phát điện từ năm 2012, hơn 9 năm thực tế vận
hành, vấn đề dự báo lưu lượng đến hồ chứa đã được Công ty quan
tâm để chủ động trong việc vận hành phát điện và chào giá bán điện
trên thị trường điện cạnh tranh.
Đề tài đã có một phương pháp nghiên cứu mới để dự báo lưu

lượng nước đến hồ thủy điện A Lưới dựa trên cơ sở bộ dữ liệu lượng
mưa (Xmm) và lưu lượng nước (Q m3/s) trung bình ngày về lưu vực
trong các năm quá khứ, đề tài đã nghiên cứu ứng dụng các thuật toán
máy học để dự báo lưu lượng nước về hồ thủy điện A Lưới trước
trung bình 03 ngày và trước trung bình 07 ngày. Kết quả nghiên cứu
đã lựa chọn được thuật toán tối ưu như sau:
Bảng Trường hợp dự báo lưu lượng nước về hồ chứa thủy điện A
Lưới trước trung bình 03 ngày
Mơ hình dự đoán
REGRESSION
CHAID1

+

R

MAE

RMSE

MAPE

(%)

(MPa)

(MPa)

(%)


94

1.43

2.26

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

14

Lưu hành nội bộ


×