Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
PHÂN TÍCH LỰA CHỌN HÀM PHÂN PHỐI XÁC SUẤT
CHO DỮ LIỆU MƯA THUỘC LƯU VỰC SÔNG CÁI
TỈNH NINH THUẬN
Đặng Đồng Nguyên1, Triệu Ánh Ngọc1, Đỗ Văn Đạo1, Nguyễn Đăng Tâm1
1
Cơ sở 2 Đại học Thuỷ lợi, email:
Kết quả từ việc phân tích tần suất mưa sẽ
được phục vụ cho rất nhiều cơng việc khác
nhau (ví dụ, quy hoạch và quản lý hệ thống
thuỷ lợi, thiết kế cơng trình, v.v...). Việc lựa
chọn phân phối xác suất (PPXS) không phù
hợp sẽ ảnh hưởng rất nhiều đến kết quả tần
suất mưa. Ví dụ như giá trị cường độ mưa
thiết kế có thể lệch rất nhiều so với giá trị thực
đo (thiên lớn hoặc thiên bé). Đặc trưng số liệu
mưa của các lưu vực khác nhau thì sẽ có
những hàm PPXS phù hợp khác nhau. Do đó,
lựa chọn phân phối xác suất mô tả tốt nhất số
liệu mưa thực đo cần phải phân tích lựa chọn
từ nhiều dạng hàm PPXS khác nhau.
Lưu vực sơng Cái là một trong những vùng
có đặc điểm khí hậu khắc nghiệt so với các
lưu vực sơng khác. Chế độ mưa biến đổi rất
mạnh theo không gian và thời gian. Vùng phía
ven biển và đồng bằng thì có lượng mưa
tương đối ít. Trong khi đó vùng núi lại có mưa
lớn và thường xuyên gây ra lũ cho lưu vực.
Do đó việc lựa chọn hàm PPXS đặc trưng cho
từng vùng của lưu vực sơng sẽ có ý nghĩa
quan trọng trong việc quy hoạch và quản lý hệ
thống cơng trình thuỷ lợi cho toàn lưu vực.
Trong nghiên cứu này, nhiều hàm PPXS sẽ
được lựa chọn đánh giá để lựa ra hàm phù
hợp nhất cho từng vùng dựa vào các chỉ tiêu
thống kế (AIC, BIC và ADC) và phương
pháp đồ thị (PP, QQ, CDF và PDF).
2. VÙNG NGHIÊN CỨU VÀ DỮ LIỆU
2.1. Vùng nghiên cứu
Lưu vực Sông Cái thuộc tỉnh Ninh Thuận
Sơng dài L = 119 km, chiều rộng trung bình
lưu vực Btb = 31,6km và diện tích lưu vực tính
đến cửa sơng F = 3,043km2. Nhìn chung, hệ
thống sơng suối có lưu vực nhỏ, sơng hẹp và
ngắn. Do đặc điểm địa hình, lượng mưa phân
bố khơng đều trong lưu vực và có xu hướng
giảm dần từ vùng núi cao xuống đồng bằng
ven biển. Lượng mưa 1 ngày lớn nhất đạt
321,8mm tại Phan Rang, tại Tân Mỹ đạt
325,2mm và tại Khánh Sơn đạt 360mm. Lượng
mưa này đã gây lũ lớn trong lưu vực (Hình 1).
300
Mua Ngay Lon Nhat (mm)
1. GIỚI THIỆU CHUNG
Tram Do Mua
Bathap
Phanrang
Nhiha
Tanmy
Songpha
Khanhson
Quanthe
Cana
200
100
1990
2000
Nam
2010
Hình 1. Boxplot mưa một ngày lớn nhất
cho tất cả các trạm
2.2. Dữ liệu
Dữ liệu mưa ngày từ các trạm đo mưa
Phan Rang, Nhị Hà, Ba Tháp, Tân Mỹ, Sông
Pha, Khánh Sơn, Quán Thẻ và Cà Ná sẽ được
dùng để phân tích trong nghiên cứu này.
3. PHƯƠNG PHÁP NGHIÊN CỨU
3.1. Các hàm phân phối xác suất
Các hàm PPXS sẽ được sử dụng trong
nghiên cứu này bao gồm: hàm giá trị cực hạn
tổng quát (Generalized Extreme Value:
GEV), hàm phân phối logarit chuẩn tổng quát
(Generalized Log-Normal: LN), hàm giá trị
cực hạn loại I (GUMBEL), Pearson loại 3
706
Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
Số liệu tại trạm Ba Tháp cho thấy rằng xét
về mức độ phù hợp của đường kinh nghiệm
và tần suất tích luỹ cũng như là hàm mật độ
xác suất thì phân phối P3 bám sát các điểm
kinh nghiệm so với các hàm PPXS cịn lại
(Hình 2). Tương tự như vậy, các đồ thị PP và
QQ thì hàm PPXS P3 cũng cho kết quả tốt
hơn so với các hàm PPXS khác.
50
100
150
200
200
P3
LN
GEV
GUMBEL
Normal
100
Empirical quantiles
P3
LN
GEV
GUMBEL
Normal
Q-Q plot
50
0.8 1.0
Empirical and theoretical CDFs
CDF
Có rất nhiều phương pháp để ước lượng các
tham số thống kê của hàm PPXS. Method of
Moment, L-moments và Maximum Likelihood
(ML) được sử dụng phổ biến trên thế giới.
Trong nghiên cứu này, ML được sử dụng để
ước lượng các tham số thống kê bởi vì phương
pháp này cho kết quả tốt với những chuỗi dữ
liệu ngắn và các tham số ước lượng thường
phù hợp với phân phối chuẩn. Thêm vào đó,
ML cũng dễ dàng tính tốn so với các phương
pháp khác (Strupczewski, Singh et al. 2001).
4. KẾT QUẢ NGHIÊN CỨU
0.2 0.4 0.6
3.2. Phương pháp ước lượng các tham
số thống kê
N là số lượng mẫu, k là số lượng tham số,
L (|X) hàm lớn nhất khả năng. i, j và j là
hệ số phụ thuộc.
0.0
(P3) và hàm phân phối chuẩn (Normal). Đây
là những hàm PPXS hay được sử dụng khi
phân tích tần suất thuỷ văn trong nước cũng
như trên thế giới (Bezak, Brilly et al. 2014,
Cheng, AghaKouchak et al. 2014, Chí Cơng
2017, Trường Huy, Hồng Lâm et al. 2017).
250
0
100
data
3.3. Phương pháp lựa chọn hàm PPXS
phù hợp
BIC
ADC
Bảng 1. Công thức xác định
các chỉ tiêu thống kê
BIC 2 log L | X ln N 2k
AD , j i
ADC j 000403 0.116
j
1.2 i AD , j
0.2i
ADC j 000403 0.116
j
i
0.861 AD , j 0.2i
,
j
nếu 1.2i AD , j
AIC
i
0.861
, nếu
AIC 2 log L | X 2k
P-P plot
0.8
0.6
0.2
0.4
P3
LN
GEV
GUMBEL
Normal
0.0
Empirical probabilities
0.008
P3
LN
GEV
GUMBEL
Normal
0.004
Density
300
1.0
Histogram and theoretical densities
0.000
Để đánh giá lựa chọn hàm PPXS phù hợp
với dữ liệu thực đo thì phương pháp so sánh
trực quan bằng đồ thị (Probability-Probability
(PP), Quantile-Quantile (QQ), Cumulative
Distribution Function (CDF) và Probability
Density Function (PDF)) hay được sử dụng.
Bên cạnh đó, các tiêu chí thống kê thường
dùng như Akaike Information criterion (AIC),
Bayesian Information Criteria (BIC) và
Anderson-Darling Criteria (ADC) cũng hay
được sử dụng để lựa chọn hàm PPXS phù hợp
nhất (Di Baldassarre, Laio et al. 2009). Mơ
hình tốt nhất được chọn với giá trị AIC, BIC và
ADC nhỏ nhất. Chi tiết về cơng thức xác định
các tiêu chí thống kê được trình bày ở Bảng 1.
200
Theoretical quantiles
50
100
150
data
200
250
0.0
0.2
0.4
0.6
0.8
1.0
Theoretical probabilities
Hình 2. So sánh biểu đồ các hàm PPXS
tại trạm Ba Tháp
Mặc dù, lựa chọn hàm PPXS bằng đồ thị
có ưu điểm là cung cấp biểu đồ trực quan cho
người đọc xem xét và so sánh để lựa chọn
hàm PPXS phù hợp nhất. Tuy nhiên, có nhiều
trường hợp kết quả tính tốn so sánh giữa các
hàm PPXS là rất nhỏ rất khó khăn nếu chỉ
căn cứ dựa trên bằng đồ thị. Ví dụ, tại trạm
Cà Ná, chỉ có hàm PPXS Normal cho kết quả
khơng tốt với tất cả các hàm cịn lại (Hình 3).
Tuy nhiên lại rất khó để so sánh và lựa chọn
hàm PPXS cịn lại (GUMBEL, P3, LN và
GEV). Do đó các hàm chỉ tiêu thống kê cũng
nên áp dụng song song cùng với phương
pháp bằng đồ thị để lựa chọn hàm tốt nhất.
Kết quả tính tốn chỉ ra rằng hàm PPXS
Pearson 3 được xem là phù hợp nhất cho hầu
hết số liệu đo mưa trên lưu vực sông Cái (Ba
Tháp, Phan Rang, Nhị Hà, Tân Mỹ, Quán Thể
và Cà Ná). LN được cho là phù hợp với số
liệu đo mưa tại trạm Sông Pha và Khánh Sơn.
707
Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8
100
150
200
250
200
100
Empirical quantiles
P3
LN
GEV
GUMBEL
Normal
50
0.8 1.0
CDF
0.4 0.6
0.0 0.2
P3
LN
GEV
GUMBEL
Normal
50
300
0
50
data
100
150
200
1.0
0.8
0.6
0.4
P3
LN
GEV
GUMBEL
Normal
0.0
0.2
0.004
0.000
Empirical probabilities
0.008 0.012
P-P plot
P3
LN
GEV
GUMBEL
Normal
50
100
150
250
Theoretical quantiles
Histogram and theoretical densities
Density
5. KẾT LUẬN
Q-Q plot
300
Empirical and theoretical CDFs
200
250
300
0.0
data
0.2
0.4
0.6
0.8
1.0
Theoretical probabilities
Hình 3. So sánh biểu đồ các hàm PPXS
tại trạm Cà Ná
Ba tiêu chí thống kê (AIC, BIC và ADC)
đưa ra kết quả hàm PPXS phù hợp nhất gần
như giống nhau (Bảng 2). Do vậy trong
nghiên cứu này chúng tôi lựa chọn AIC như
là chỉ tiêu thống kê chính để tìm hàm PPXS
phù hợp nhất.
Bảng 2. Tổng hợp các tiêu chí thống kê
(AIC, BIC, ADC) của các trạm mưa
PPXS
GEV
P3
LP3
LN
GUMBEL
PPXS
GEV
P3
LP3
LN
GUMBEL
PPXS
GEV
P3
LP3
LN
GUMBEL
PPXS
GEV
P3
LP3
LN
GUMBEL
Ba Thap
AIC BIC ADC
350.4 354.8 0.032
346.8 351.2 0.019
349.8 354.2 0.026
347.9 350.8 0.022
349.9 352.8 0.082
Song Pha
AIC BIC ADC
328.2 332.6 0.201
326.9 331.3 0.29
327.7 332.1 0.164
326.4 329.3 0.18
326.5 329.5 0.202
Nhi Ha
AIC BIC ADC
322.2 326.6 0.127
320.2 324.6 0.109
321.5 325.9 0.109
324.3 327.2 0.191
324.9 327.9 0.208
Quan The
AIC BIC ADC
330.8 335.2 0.206
327.4 331.8 0.138
330.5 334.9 0.196
329.3 332.3 0.108
330.2 333.2 0.132
Phan Rang
AIC BIC ADC
332.6 337 0.151
331.3 335.7 0.178
331.6 336 0.100
336.1 339 0.473
339.3 342.2 0.777
Khanh Son
AIC BIC ADC
362.7 367.1 0.161
362.2 366.6 0.099
362.2 366.6 0.122
360.9 363.8 0.103
360.8 363.8 0.121
Tan My
AIC BIC ADC
345.5 349.9 0.103
343.4 347.8 0.285
345.3 349.7 0.099
345.6 348.5 0.278
348.3 351.2 0.566
Ca Na
AIC BIC ADC
327.1 331.5 0.080
325.6 330 0.184
327.2 331.6 0.092
326.7 329.7 0.127
328.4 331.3 0.188
Các chỉ tiêu thống kê (AIC, BIC và ADC)
cùng với phương pháp bằng đồ thị được sử
dụng để lựa chọn hàm PPXS phù hợp nhất cho
dữ liệu mưa thuộc lưu vực sơng Cái. Kết quả
chỉ ra rằng chỉ có P3 và LN trong 5 hàm PPXS
được xem xét là phù hợp nhất cho lưu vực sông
Cái. Tuy nhiên, hàm PPXS P3 được xem xét là
phù hợp với nhiều số liệu mưa nhất (6 trên 8
trạm). Do đó, nghiên cứu này kiến nghị rằng
hàm PPXS P3 nên lựa chọn như là mặc định
khi tính tốn tần suất mưa tại lưu vực sơng Cái.
Bên cạnh đó, nghiên cứu cũng chỉ ra rằng
nên kết hợp cả hai phương pháp đồ thị và chỉ
tiêu để thống kê để lựa chọn hàm PPXS phù
hợp nhất cho chuỗi số liệu thực đo.
6. TÀI LIỆU THAM KHẢO
[1] Bezak, N., et al. (2014). "Comparison
between the peaks-over-threshold method
and the annual maximum method for flood
frequency analysis." 59(5): 959-977.
[2] Cheng, L., et al. (2014). "Non-stationary
extreme value analysis in a changing
climate." 127(2): 353-369.
[3] Chí Cơng, N. (2017). "Xây dựng bản đồ
mưa ngày lớn nhất cho tỉnh Quảng Nam
dựa trên phân tích tần suất mưa vùng và suy
luận Bayesian." Tạp chí Khoa học kỹ thuật
Thuỷ lợi và Môi trường(56): 65.
[4] Di Baldassarre, G., et al. (2009). "Design
flood estimation using model selection
criteria." 34(10-12): 606-611.
[5] Strupczewski, W. G., et al. (2001). "Nonstationary approach to at-site flood
frequency
modelling
I.
Maximum
likelihood
estimation."
Journal
of
Hydrology 248(1): 123-142.
[6] Trường Huy, N., et al. (2017). "Chọn hàm
phân phối xác suất đại diện cho phân phối
mưa 1 ngày Max ở Việt Nam." Tạp chí
Khoa học kỹ thuật Thuỷ lợi và Môi
trường(56): 72.
708