Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 443-451
Tạp chí Khoa học Nơng nghiệp Việt Nam 2021, 19(4): 443-451
www.vnua.edu.vn
HƯỚNG TIẾP CẬN HỒI QUY MỚI CHO DỰ BÁO TỐC ĐỘ GIĨ
Nguyễn Hồng Huy*, Hồng Thị Thanh Giang
Khoa Cơng nghệ thơng tin, Học viện Nông nghiệp Việt Nam
*
Tác giả liên hệ:
Ngày nhận bài: 20.07.2020
Ngày chấp nhận đăng: 08.09.2020
TÓM TẮT
Trong bài báo này, chúng tôi giới thiệu một hướng tiếp cận sử dụng hồi quy tuyến tính (Linear Regression - LR)
trong hai bước, được gọi là two-step LR, để dự báo cho dữ liệu có cấu trúc khơng - thời gian (spatio - temporal data).
Ở bước đầu tiên tất cả các đặc trưng được chia thành các nhóm con và sử dụng hồi quy tuyến tính cho mỗi nhóm
con đặc trưng để có các giá trị hồi quy tương ứng với mỗi nhóm. Bước hai áp dụng hồi quy tuyến tính một lần nữa
cho các giá trị hồi quy thu được ở bước một để tạo ra giá trị hồi quy cuối cùng. Cách tiếp cận sử dụng two-step LR
có hiệu năng tốt nhất khi dự báo tốc độ gió. Dự báo tốc độ gió hữu ích cho tích hợp năng lượng gió vào lưới điện bởi
vì năng lượng gió được sinh bởi tuabin gió, có mối quan hệ mật thiết với tốc độ gió. Sự khó dự đốn trước và thay
đổi liên tục của tốc độ gió là một trong những khó khăn căn bản nhất của việc tích hợp này.
Từ khóa: Dữ liệu khơng - thời gian, dữ liệu số chiều cao, dự báo tốc độ gió.
A Novel Regression Approach for wind Speed Forecasting
ABSTRACT
The paper presents a spatio-temporal data forecasting approach using Linear Regression (LR) in two steps
called two-step LR. In the first step, all features were divided into subgroups and Linear Regressions was utilized
to obtain a regression value for each feature subgroup. In the second step, Linear Regressions was applied again
to these regression values to generate the final regression value. The approach using two -step LR had state-ofthe-art performance for a wind speed forecasting problem. Wind speed forecasting would be useful for the
integration of wind energy into the power grid because wind power generated by wind turbines has an intimate
relationship with wind speed and unpredictability and variability of wind speed is one of the fundamental diff iculties
of this integration system.
Keyworks: spatio-temporal data, high dimensional data, wind speed forecasting.
1. ĐẶT VẤN ĐỀ
Các hệ thống thu thêp dĂ liệu hiện ọi cú
khõ nởng sõn sinh lỵng ln d liu, trong a s
trỵng hp s cho s lỵng ln c trỵng ng vi
mi mộu d liu. Trong mt s trỵng hp, cỏc
mộu d liu ỵc thu thờp trong thi gian di có
thể dén đến phân bố khơng ổn đðnh, hay thêm
chí l d liu khụng liờn quan, vớ dý nhỵ EEG
(Nguyen Hoang Huy & cs., 2014), hoặc dĂ liệu
vên tốc gió (Lei & cs., 2009). Trong nhng
trỵng hp ny, chỳng ta có thể phân tích dĂ
liệu trong không thąi gian ngín hn, vi s
lỵng mộu d liu ớt hn, lm phân bố dĂ
liệu ổn đðnh hĄn (Nguyen Hoang Huy & cs.,
2014). Tuy nhiên trong các bài toán hồi quy
thăc tế, vỗn ny s dộn n tỡnh trọng l s
lỵng mộu d liu n khụng ỷ ln so vi s
lỵng c trỵng d (vỗn d liu s chiu cao).
Khụng may, khi n khụng ỷ ln so vi d, vỗn đề
hồi quy thống kê trong câ lý thuyết và thăc tế sẽ
khó giâi quyết hĄn (Bai & cs., 2019; Bickel &
Levina, 2008; Cai & Zhang, 2019; Hastie & cs.,
2009; Lei & cs., 2018).
Mt s hỵng tip cờn ó ỵc ỵa ra
giõi quyt vỗn hi quy d liu s chiều cao
nòi trên (nghïa là khi n lĆn hĄn so vi d). Hổu
ht cỏc phỵng phỏp ny s dýng cỏc mơ hình
443
Hướng tiếp cận hồi quy mới cho dự báo tốc giú
n giõn vi s tham s ớt hn, nhỵ naive
Bayes, hay hi quy thỵa (sparse regression)
(Bickel & Levina, 2004; Hastie & cs., 2009;
Hastie & cs., 2015), để tránh việc phõi ỵc lỵng
quỏ nhiu tham s trong cỏc mụ hỡnh hồi quy.
Tuy nhiên, trong thăc tế dĂ liệu không phâi lỳc
no cỹng thúa món cỏc giõ thit cỷa phỵng
phỏp ny. Vớ dý nhỵ trong nhiu tỡnh hung d
liu khụng thúa món giõ thit thỵa, thờm chớ
ngay cõ khi giõ thit ny ỵc thúa món thỡ
phỵng phỏp hi quy da trờn giõ thit thỵa,
cỹng khụng õm bõo s hoọt ng tt do vỗn
tỵng tỏc gia cỏc c trỵng (Cai & Liu, 2011).
Khi d liu khụng thúa món giõ thit thỵa,
mt tớnh chỗt quan trng khỏc cỷa d liu s
chiu cao thỵng thúa món trong thc t v
ỵc khai thỏc ũ là tính khâ tách (trong dĂ liệu
khơng - thąi gian) (Bai & cs., 2019; Genton,
2007). Lội dĂ liệu này có ma trờn hip phỵng
sai phồn tỏch ỵc, nghùa l cũ th vit thnh
tớch tensor cỷa ma trờn hip phỵng sai khụng
gian v ma trờn hip phỵng sai thi gian. Cho
n nay, chợ cú mt vi phỵng phỏp s dýng
tớnh chỗt này để giâi quyết các bài tốn phân
lội hoặc hồi quy đối vĆi dĂ liệu số chiều cao,
tuy nhiên nhĂng phỵng phỏp ny yờu cổu
thờm cỏc giõ thit nhỵ mụ hình trung bình cộng
tính (Huizenga & cs., 2002; Leiva & Roy, 2014).
Hoang & cs. (2014) ó xuỗt phỵng phỏp
two-step LDA trỏnh vic phõi ỵc lỵng ng
thi nhiu tham số khi áp dýng mơ hình phân
tích khác biệt tuyến tớnh (LDA). Two-step LDA
ỏp dýng LDA trong hai bỵc thay vỡ mt lổn
duy nhỗt cho tỗt cõ cỏc thuc tớnh. ổu tiờn,
LDA ỵc ỏp dýng cho cỏc tờp con c trỵng.
Sau ũ LDA ỵc ỏp dýng vo cỏc giỏ tr kt
quõ thu ỵc t bỵc th nhỗt. Two-step LDA
yờu cổu tính tốn ít hĄn bći vì nó khơng cỉn trâi
qua cỏc quy trỡnh ti ỵu cỏc tham s nhỵ tham
s chỵnh hóa trong phân tích khác biệt tuyến
tính chỵnh hóa (regularized LDA), v cú hiu
nởng tt nhỗt trong phõn loọi EGG. i vi d
liu cú tớnh chỗt khõ tỏch (d liu thúa món giõ
thit ma trờn hip phỵng sai khõ tỏch), chỳng
tụi ó chng minh ỵc t l li lý thuyt cỷa
two-step LDA tỵng ỵng vi phỵng phỏp
Bayes vi tợ l li ti ỵu nhỗt, ng thi ỵa ra
444
hỵng dộn cỏch nhũm cỏc c trỵng trong bỵc
ổu tiờn cỷa two-step LDA.
Trong khi two-step LDA ỵc thit k
giõi quyt bi tốn phân lội dĂ liệu số chiều
cao có tính khâ tỏch, nhỵ trong d liu khụng thi gian EEG v vộn l cõu húi m, nu phỵng
phỏp ny cú th ỵc m rng cho bi toỏn hi
quy. Trong bi ny, chúng tôi mć rộng two-step
LDA thành two-step LR để xā lý dĂ liệu không
- thąi gian khâ tách số chiều cao. Ging nhỵ
two-step LDA khi phõn loọi d liu EEG, chúng
tơi chỵ ra bìng thăc nghiệm rìng two-step LR
hiệu q vĆi bài tốn dă báo tốc độ gió (dĂ liệu
khơng - thi gian), cho kt quõ tt hn phỵng
phỏp mi nhỗt da vo hỵng tip cờn hc sõu
(Deep Learning).
Cổn lỵu ý rìng, dă báo tốc độ gió là một
trong nhĂng bi toỏn quan trng trong khoa hc
khớ tỵng (Lei & cs., 2009). Gổn ồy ó cũ nhiu
hỵng tip cờn da vào dĂ liệu để giâi quyết bài
toán này tÿ các phỵng phỏp phồn tớch thng kờ
theo chui thi gian nhỵ Persistence Forecasting,
Autoregressive Model cho đến sā dýng mäng
thæn kinh nhân tọo nhỵ Wavelet TransformBased Artificial Neural Networks (WT-ANN),
ANN-based ST v LS-based ST (Bali & cs., 2019;
Sanandaji & cs., 2015; Tascikaraoglu & cs.,
2016). Trong khi ANN-based ST, LS-based ST l
nhng phỵng phỏp khai thỏc cỗu trỳc khụng thi gian (ST) cỷa dĂ liệu tốc độ gió, sā dýng
mäng thỉn kinh nhân tọo, bỡnh phỵng ti thiu
(LS). Gổn ồy thỡ cỏc tỏc giõ trong bi bỏo
Ghaderi & cs. (2017) ó ỵa mụ hình học sâu
LTSM cho tồn bộ dĂ liệu để dă bỏo tc giú,
m bú qua vic xem xột cỗu trỳc khụng - thi
gian. Nũ ỵc coi l phỵng phỏp tt nhỗt hin
nay giõi quyt bi toỏn d bỏo tốc độ gió (Bali
& cs., 2019; Ghaderi & cs., 2017).
2. PHƯƠNG PHÁP NGHIÊN CỨU
Trong nghiên cĀu này, chúng tôi phân tích,
tổng hợp läi cĄ sć lý thuyết cûa hồi quy tuyn
tớnh, ri trờn c s ũ chỳng tụi xuỗt phỵng
phỏp hi quy mi two-step LR. Trong mụ hỡnh
hi quy tuyn tớnh, giõ s cú cỏc mộu huỗn luyn
c lờp {(xs, ys) ∈ Rd x R, s = 1, „, n} tÿ một đám
Nguyn Hong Huy, Hong Th Thanh Giang
ụng chỵa xỏc nh có phân bố P(x, y) nào đị.
Cho một méu mĆi x cûa đám đơng trên, chúng ta
cỉn tìm hàm hồi quy y f
*
x
cho vector c
trỵng x, cú th d oỏn giỏ tr y chỵa bit ng
vi quan sỏt mĆi x càng chính xác càng tốt. Trong
nghiên cĀu này, chúng tôi mć rộng two-step LDA
(Hoang & cs., 2014) thành two-step LR để xác
đðnh hàm hồi quy tuyến tính f
*
x . Tỵng t
nhỵ two-step LDA, two-step LR ỏp dýng hi quy
tuyn tớnh trong hai bỵc.
n
2.1. Hi quy tuyn tính
arg min y i xTi
Hồi quy tuyến tính đã chĀng minh hiệu quâ
cao cho nhiều tờp d liu khỏc nhau nu ỷ
nhiu mộu huỗn luyn, sao cho
l vector li ngộu nhiờn kớch thỵc n ì 1 vĆi các
phæn tā ϵ1, „, ϵn là các biến ngéu nhiên độc lêp
có cùng phân bố và E[ϵi] = 0, Var (ϵi) = 2 < ∞, d
có thể lĆn hĄn n (d = 0(n)). Để đĄn giân hóa và
khơng mỗt tớnh tng quỏt, chỳng ta cú th giõ
s h số tă do cûa hàm hồi quy và giá trð trung
bỡnh cỷa tỗt cõ cỏc bin u bỡng 0. Giõ thit
ny cú th ọt ỵc bỡng cỏch trung tõm húa bći
trung bình méu. Hệ số cûa mơ hình hồi quy
tuyến tớnh (LR) cú th ỵc xỏc nh bỡng
phỵng phỏp bỡnh phỵng ti tiu, nghùa l tỡm
lm ti tiu li
d log d
n
0,
xem Bickel & Levina (2008) và Hastie & cs.
(2009). Tuy nhiên nếu n không đû lĆn so vĆi d
thỡ phỵng phỏp ny cũ hiu nởng khụng tt,
thờm chớ ngay cõ khi phõn b d liu xỗp xợ hay
l phân bố chuèn. Chính xác hĄn, khi n < d +1
ma trờn hip phỵng sai mộu l ma trờn kỳ
dð, và hồi quy tuyến tính méu là khơng xác
đðnh. Mt s phỵng phỏp ó ỵc ỵa ra
giõi quyt vỗn ny nhỵ Hastie & cs. (2009)
v Lei & cs. (2018). Cỏc phỵng phỏp ph bin
thỵng da vo k thuờt chợnh hũa, nhỵ hi quy
Ridge v hi quy tuyn tớnh Lasso. Cỏc phỵng
phỏp Lasso da trờn giõi thit thỵa. Tuy nhiên,
có nhĂng thuộc tính có thể làm giâm tỵ lệ lỗi cûa
hồi quy tuyến tính Lasso hoặc phân tích khỏc
bit Lasso thụng qua mi tỵng quan vi nhng
c trỵng khỏc mc dự mi thuc tớnh ũ khụng
cú õnh hỵng gì lên hàm phân biệt hoặc hồi quy.
Trọng tâm cûa nghiờn cu ny l ỵa ra
hỵng tip cờn mi cho xây dăng hàm hồi quy
cho các mơ hình tuyến tính trong khơng gian số
chiều trung bình:
y = Xβ + ϵ
trong đò y = (y1, „, yn)T, X là ma trên thit
k Gaussian kớch thỵc n ì d, vi mi hng độc
lêp sinh tÿ cùng một phân bố xi ~ N(0, ), l
vector tham s thc s vi kớch thỵc d × 1, và ϵ
Rd
2
i 1
Để tối tiểu lỗi này, lỗy ọo hm tỵng ng
vi ỵc h phỵng trỡnh gm n phỵng
trỡnh, d ốn. Nu d n, giõi h phỵng trỡnh ny
ta ỵc:
X T X 1X T y 1 n
d
Khi d + 2 > n, XTX l mt ma trờn kớch
thỵc d ì d, nhỵng họng cỷa nú thỗp hn n. Nu
n d , ma trờn XTX khụng khõ nghch, thờm
chớ iu kin xỗu (ill-conditioned) vĆi hỉu hết
các giá trð riêng bìng 0. Xây dng mụ hỡnh hi
quy tuyn tớnh s dýng phỵng phỏp bỡnh
phỵng ti tiu trong trỵng hp ny hon ton
thỗt bọi. Cỏch n giõn nhỗt x lý trỵng
hp ny l thay thế ma trên nghðch đâo bìng
ma trên giâ nghðch õo Moore-Penrose. Mt vi
hỵng tip cờn khỏc l da trờn k thuờt chợnh
hũa nhỵ hi quy Ridge, hi quy Lasso cỹng ó
ỵc ỵa ra. Chỳng tụi xuỗt hỵng tip cờn
mi, ỵc gi l two-step LR.
2.2. Phng phỏp two-step LR
Tỵng t nhỵ two-step LDA (Nguyen
Hoang Huy & cs., 2014), two-step LR cỹng x lý
trong hai bỵc. bỵc ổu tiờn two-step LR
phõn chia tỗt cõ cỏc c trỵng thnh q các têp
con rąi nhau xg, xsg ∈ Rpg, g = 1, „, q, s = 1,„, n,
T
T
T
T
, p1 + „ + p q =
x x1T ,...,xqT , xs xs1
,...,xsq
d. Cách xác đðnh các têp con c trỵng l rỗt
quan trng v chỳng tụi k thÿa tÿ two-step
LDA. Để đĄn giân hóa, trong bài báo này chúng
445
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
tơi thiết lêp p1 = „ = pq và d = pq. Sau ũ hi quy
tuyn tớnh ỵc ỏp dýng cho mi tờp con c
trỵng xg ỵc hàm hồi quy tuyến tính f xg
f xg xgT g
trong ũ, g ỵc xỏc nh bỡng cỏch ỏp
dýng phỵng phỏp bỡnh phỵng ti thiu trờn
cỏc mộu huỗn luyện:
{xsg Rp, g = 1,„, q; s = 1,„, n}
Trong trỵng hp p + 2 > n, ma trờn nghch
õo cụng thc (1) ỵc thay th bi ma trờn giõ
nghch õo Moore-Penrose xỏc nh g. Trong
bỵc hai, hi quy tuyn tớnh ỵc ỏp dýng mt
lổn na vi im kt quõ tớnh bỵc mt:
T
z f x1 ,...,f xq , zs f xs1 ,...,f xsq
T
vĆi s = 1,„, n để ỵc hm hi quy two-step
f*(x) cui cựng. iu ũ cũ nghùa f*(x) xỏc nh
nhỵ sau:
f * x f f x1 ,...,f x q
trong đò f là hàm hồi quy tuyến tính. Hình
2 mơ tâ lỵc cỷa quỏ trỡnh thc hin twostep LR.
2.3. D bỏo d liu khụng - thi gian da
trờn two-step LR
Tỵng tă two-step LDA (Nguyen Hoang
Huy & cs., 2014), khi áp dýng two-step LR cho
dĂ liệu không - thąi gian, chúng tụi s dýng d
liu t tỗt cõ cỏc a im täi tÿng thąi điểm để
dă báo täi một thąi điểm cý th bỵc ổu tiờn.
Sau ũ tỗt cõ kt quõ d oỏn bỵc ổu tiờn
ỵc kt hp täo ra kết quâ dă báo cuối cùng
täi một thąi im xỏc nh. Trong phổn ny
chỳng tụi ỵa ra quy trình áp dýng two-step LR
để dă báo dĂ liệu täi các đða điểm khác nhau,
täi h thąi điểm tiếp theo s dýng d liu l thi
im trỵc ũ. Chỳng tụi thc hin iu ũ bỡng
h bỵc sau:
Bỵc 1: D báo dĂ liệu ć mỗi đða điểm, täi
thąi điểm t + 1 bìng cách áp dýng two-step LR
cho khối dĂ liệu täi l thąi điểm, tÿ thąi điểm
t – l + 1 n t, tỗt cõ cỏc a im.
Bỵc 2: Dă báo dĂ liệu ć mỗi đða điểm, täi
thąi điểm t + 2 bìng cách áp dýng two-step LR
cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 1
thąi điểm tÿ t – l + 2 đến t, tỗt cõ cỏc a im,
gp vi d liu ỵc d bỏo tọi thi im t + 1,
ồy l kt quõ t bỵc 1.
Bỵc 3: D bỏo d liu ć mỗi đða điểm, täi
thąi điểm t + 3 bìng cách áp dýng two-step LR
cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 2
thąi điểm tÿ thąi im t l + 3 n t, tỗt
cõ các đða điểm, gộp vĆi dĂ liệu dă báo täi 2
thąi điểm tÿ t + 1 đến t + 2, ồy l kt quõ t
bỵc 1, 2.
Hỡnh 2. Lc của two-step LR
446
Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang
CĀ tiếp týc lặp lọi nhỵ vờy cho n bỵc h
Bỵc h: D oỏn dĂ liệu ć mỗi đða điểm, täi
thąi điểm t + h bìng cách áp dýng two-step LR
cho khối dĂ liệu bao gồm dĂ thăc täi l – h + 1
thąi điểm tÿ thąi điểm t – l + h đến t, tỗt cõ
cỏc trọm, gp vi d liu d báo täi h – 1 thąi
điểm tÿ t + 1 đến t + h - 1, đåy là kết quâ t cỏc
bỵc 1, 2,, h 1. Quỏ trỡnh d bỏo trong h bỵc
cho h thi im sau thi im t, s dýng d liu
tọi l thi im trỵc ũ ỵc mụ tõ nhỵ sau:
sd
t l i
Two Step LD
,...,sd t ,sd t 1 ,...,sd t i 1
sd t i
i = 1, 2,„, h
trong đò h, l l nhng tham s cho trỵc,
sdt, sd t lổn lỵt l khi d liu thc v d oỏn
tọi tỗt câ các đða điểm (spatial data) vào thąi
điểm t.
3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Bài toán dự báo tốc độ giú
Nởng lỵng giũ ó ỵc phỏt trin nhanh
chúng v ngy cng tr thnh nởng lỵng tỏi
tọo quan trng nhiu vựng trờn th gii, c
bit nhng nỵc chõu u (Lei & cs., 2009).
Tớch hp nởng lỵng giũ vo lỵi điện trên diện
rộng là thiết yếu và nhiều thách thĀc do bõn
chỗt ngộu nhiờn cỷa giú. S tớch hp s thuờn
tin hn nu d bỏo chớnh xỏc ỵc nởng lỵng
giú trong ngớn họn (Ghaderi, 2017). Cú nhiu
hỵng tip cờn d oỏn nởng lỵng giú, tuy
nhiờn hỵng tip cờn da vo d oỏn tc giú
vộn ỵc xem l hỵng tip cờn ni bờt nhỗt
(Tascikaraoglu & cs., 2016).
Nhiu phỵng phỏp d bỏo tc giũ ỵc
ỵa ra, cũ th chia lm 2 loọi: phỵng phỏp vờt
lý, v phỵng phỏp thng kờ (Lei & cs., 2009).
Phỵng phỏp vờt lý khai thỏc nhiu thuc tớnh
vờt lý nhỵ a hỡnh, ỏp suỗt, nhit độ, có lợi thế
trong dă báo tốc độ gió dài họn. Phỵng phỏp
thng kờ thỵng da vo giỏ tr lch s, nhỵ mụ
hỡnh ARMA, v thỵng cho kt quõ tt trong dă
báo tốc độ gió ngín hän. Bài báo này têp trung
vào dă báo tốc độ gió ngín hän dăa vào dĂ liệu
tốc độ gió lðch sā.
Mơ hình ARMA và mt s trỵng hp c
bit nhỵ mụ hỡnh AR, mụ hỡnh Persistence rỗt
thụng dýng trong d bỏo tc giú (Lei & cs.,
2009). Chỳng ỵc xem l cỏc mụ hỡnh chui
thi gian n giõn nhỗt nhỵng cũ th vỵt tri
nhiu mơ hình phĀc täp khác trong dă báo tốc
độ gió ngín hän (Sanandaji & cs., 2015;
Tascikaraoglu & cs., 2016). Để cõi tin chớnh
xỏc d oỏn, nhiu mụ hỡnh tỵng quan khụng
gian ỵc ỵa ra khai thỏc mi quan hệ tốc
độ gió ć nhĂng vð trí khác nhau. Tuy nhiờn
chỳng chợ gổn nhỵ ỏp dýng cỏc phỵng phỏp
hc mỏy nhỵ mọng nron nhồn tọo (ANN-based
ST), phỵng phỏp bỡnh phỵng ti tiu (LSbased ST) i vi tỗt cõ d liu khụng - thi
gian hoc vi d liu ó ỵc bin đổi thông qua
biến đổi Wavelet (WT-ANN),„ (Lei & cs., 2009;
Sanandaji & cs., 2015; Tascikaraoglu &
Uzunoglu, 2014; Tascikaraoglu & cs., 2016).
Gæn ồy cỏc thuờt toỏn hc sồu nhỵ Deep
Learning-based Spatio-Temporal Forecasting
(DL-STF) ỵc s dýng d bỏo tc giú
(Ghaderi & cs., 2017; Yu & cs., 2019; Wu & cs.,
2019). Tỵng t nhng phỵng phỏp trờn, nũ
khai thỏc ton b d liu khụng - thi gian nhỵ
d liu ổu vo cho thuêt toán dă đoán, sā dýng
Recurrent Neural Networks (RNN) và Long
Short Term Memory (LSTM) (Ghaderi & cs.,
2017). Phỵng phỏp ny vỵt tri cỏc kt quõ
d bỏo tc giú gổn ồy. Tuy nhiờn, tỗt cõ cỏc
phỵng phỏp trờn u khụng da vo cỗu trỳc
khụng - thi gian bờn trong cỷa d liu tc
giũ, nhỵ tớnh khõ tỏch cỷa ma trờn hip
phỵng sai.
3.2. Mụ t d liu
3.2.1. Tp d liu NCHMF
Têp dĂ liệu gió NCHMF tÿ trung tâm dă
báo khí tỵng thỷy vởn quc gia Vit Nam ỵc
o 13 träm thąi tiết Hà Giang, Cao Bìng,
Tun Quang, Hđa Bình, Nam Đðnh, Hà Đông,
Phú Liễn, Läng SĄn, Bãi Cháy, Tiên Yên, Mòng
Cái, Bäch Long Vï, Hội Xuân. NhĂng träm này
ć miền bíc Việt Nam vĆi kinh độ tÿ 104.044220
đến 107.848208, vù t 20.020846 n
22.401052, nhỵ trong hỡnh 3. Tc độ gió ć träm
Bäch Long Vï thay đổi nhanh và khụng n nh
nhỵ cỏc trọm khỏc khỏc. D liu quan sỏt t
ngy 01/10/2016 n 01/01/2019. Tc giũ ỵc
o ba gią một læn.
447
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Hình 3. Vị trí trạm khí tượng đo tốc độ gió
của Trung tâm Dự báo khí tượng thủy văn quốc gia Việt Nam
Hình 4. Vị trí trạm đo dữ liệu tốc độ gió METAR
3.2.2. Tập dữ liệu METAR
3.3. Kết quả ứng dụng two-step LR
Têp dĂ liệu tốc độ gió hng gi METAR
ỵc thu thờp t cỏc bỏo cỏo thi tiết täi 57
câng sân bay ć bą biển phía đơng Hoa Kỳ, bao
gồm Massachusetts, Connecticut, New York,
New Hampshire. Hình 4 cho thỗy v trớ cỷa cỏc
cõng sõn bay ny. Dỗu đó là sân bay ACK, nìm
trên một hđn đâo. Tốc giú õo ũ thay i
rỗt nhanh, tỵng t nhỵ nhng gỡ trọm thi
tit Bọch Long Vù cỷa Việt Nam, một trong 13
träm thąi tiết ć hình 3. Tc giú t 06/01/2014
n 20/02/2014 ỵc s dýng kim tra hiu
nởng cỷa cỏc phỵng phỏp hc mỏy ỵc nghiên
cĀu. Đåy là thąi điểm, tốc độ gió khơng ổn nh
hn tỗt cõ cỏc khoõng thi gian khỏc.
Tỵng t two-step LDA (Nguyen Hoang
Huy & cs., 2014), two-step LR xác đðnh cỏc
nhũm con c trỵng gm tỗt cõ cỏc c trỵng tọi
mi thi im. Chỳng tụi cỹng khụng ỏp dýng
bỗt k k thuờt hc mỏy no nhỵ chợnh hũa
nõng cao hiu nởng cỷa hi quy tuyn tớnh ỵc
thc hin mi bỵc. Do ũ khụng cũ s thit
lờp siờu tham số nào khác cûa two-step LR. HĄn
nĂa độ phĀc täp tính tốn cûa two-step LR
giâm đi do chỵ áp dýng hi quy tuyn tớnh trờn
mi nhũm con c trỵng.
448
Bõng 1 so sỏnh hiu suỗt cỷa phỵng phỏp
ỵc chỳng tụi ỵa ra vi cỏc phỵng phỏp khỏc
trờn tờp d liu METAR. Để so sánh sai số cûa
Nguyn Hong Huy, Hong Th Thanh Giang
cỏc phỵng phỏp, chỳng tôi sā dýng ba độ đo
thông dýng là MAE, RMSE và NRMSE. Trong
thā nghiệm này chúng tôi chọn l = 12, h = 6 theo
Ghaderi (2017), đåy là tham số cho hiu nởng
tt nhỗt cỷa DL-STF trờn tờp d liu METAR.
Lăa chọn l = 12, h = 6 cò nghïa l two-step LR
v cỏc phỵng phỏp khỏc s dýng d = 684 = 57 ×
12 giá trð quan tríc (đặc trỵng) t 57 trọm v 12
thi im (gi) trỵc ũ để dă đốn giá trð tốc độ
gió trong 6 gią tiếp theo. Chúng tơi sā dýng dĂ
liệu tốc độ gió tÿ 6.012 gią liên tiếp (250,5 ngày),
hình thành 6.000 méu huỗn luyn hc mụ
hỡnh d bỏo v cỏc mộu kiểm tra là tốc độ gió
trong giai độn khơng ổn nh nhỗt t
06/01/2014 n 20/02/2014 nhỵ ó nờu trong bi
bỏo cỷa Ghaderi & cs. (2017). Cý th hn v cỏc
phỵng phỏp khỏc ỵc trỡnh by cý th trong
cỏc bi bỏo cûa Sanandaji & cs. (2015) và
Tascikaraoglu & cs. (2016).
Bâng 2 trỡnh by 3 sai s trung bỡnh cỷa tỗt
cõ cỏc trọm trờn tờp d liu METAR. Chỳng ta
cú th thỗy hiu nởng d oỏn trờn ACK hoc
tỗt cõ cỏc trọm cỷa two-step LR tri hn DLSTF, phỵng phỏp tt nhỗt hiện nay.
Hình 5 biểu diễn dĂ liệu tốc độ gió thc t
(ỵng mu xanh) v tc giú d oỏn (ỵng
mu ú) t d liu kim tra trờn 16 trọm quan
sát. Đồ thð đỉu tiên trong hình Āng vĆi träm
quan sát ć câng sân bay ACK.
Trong têp dĂ liệu NCHMF, có 3 giá trð tốc
độ gió bð thiếu và chúng tơi đã thay thế chúng
bìng giá trð tốc độ giị o tọi thi im trỵc ũ
(3 ting trỵc), cựng träm. Bâng 3 biểu diễn
hiệu nëng cûa DL-STF và two-step LR khi s
dýng tỗt cõ d liu t 13 trọm thąi tiết vĆi
l = 12, h = 6. Bìng cách này thì DL-STF và twostep LR có thể khai thác tỗt cõ cỏc thụng tin
tỵng tỏc ốn gia cỏc trọm. Qua bõng 3, chỳng
ta cú th thỗy two-step LR cú hiệu nëng dă báo
tốc độ gió tốt hĄn hoặc bìng phỵng phỏp ang
cho kt quõ tt nhỗt hin nay l DL-STF, xem
bài báo Ghaderi & cs. (2017).
Bảng 1. Sai số của các phương pháp khác nhau trên trạm ACK
Method
MAE (m/s)
RMSE (m/s)
NRMSE (%)
Persistence Forecasting
2,14
2,83
16,86
AR of order 1
2,07
2,76
16,44
AR of order 3
2,07
2,76
16,40
WT-ANN
1,82
2,47
14,68
ANN-based ST
1,80
2,30
13,69
LS-based ST
1,72
2,20
13,08
DL-STF
1,63
2,19
13,08
Two-Step LR
1,40
1,93
11,48
Bảng 2. Sai số trung bình trên tất cả các trạm sử dụng DL-STF, two-step LR
Method
MAE (m/s)
RMSE (m/s)
NRMSE (%)
DL-STF
1,18
1,62
16,28
Two-Step LR
1,09
1,44
14,32
Bảng 3. Sai số trung bình của DL-STF và Two-Step LR trên trạm Bạch Long Vĩ và cả 13 trạm
Method
DL-STF
Two-Step LR
Locations
MAE (m/s)
RMSE (m/s)
NRMSE (%)
Bach Long Vi
1,70
2,36
13,86
All Stations
0,82
1,16
19,09
Bach Long Vi
1,67
2,27
13,34
All Stations
0,82
1,07
18,04
449
Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió
Hình 5. So sánh giữa tốc độ gió thực tế và dự báo trên dữ liệu kiểm tra
4. KẾT LUN
Hiu suỗt cỷa hi quy tuyn tớnh b õnh
hỵng bi s chiu. giõi quyt vỗn ny,
chỳng tụi gii thiu phỵng phỏp ỏp dýng hi
quy tuyn tớnh trong hai bỵc, ỵc gi l twostep LR. Hỵng tip cờn ny ỵc gi ý t twostep LDA v tớnh khõ tỏch cỷa ma trờn hip
phỵng sai cỷa d liu tc gió. VĆi dĂ liệu tốc
độ gió có số chiều cao trung bình, hiệu nëng cûa
cách tiếp cên này tốt hĄn cỏc phỵng phỏp mi
nhỗt. Ngy nay, cú nhiu phỵng phỏp điều
chỵnh hồi quy tuyến tính cho dĂ liệu có số chiu
cao nhỵ l hi quy Lasso v cỏc cõi tin cûa nó.
Tuy nhiên, vĆi hiểu biết cûa tơi, các tht toỏn ũ
chỵa ỵc th nghim cho d bỏo tc giú.
Trong tỵng lai, hỵng tip cờn hai bỵc s dýng
nhng thuờt toỏn ny nờn ỵc khõo sỏt tợ mợ.
TI LIU THAM KHẢO
Bali V., Kumar A. & Gangwar S. (2019). Deep
Learning based Wind Speed Forecasting-A
Review. 9th International Conference on Cloud
Computing, Data Science & Engineering
(Confluence). India. pp. 426-431.
Bai Z., Li H. & Pan G. (2019). Central limit theorem
for linear spectral statistics of large dimensional
separable sample covariance matrices. Bernoulli.
25(3): 1838-1869.
450
Bickel P.J. & Levina E. (2004). Some theory for
Fisher’s linear discriminant function, ‘naive
Bayes’, and some alternatives when there are many
more variables than observations. Bernoulli.
10(6): 989-1010.
Bickel P.J. & Levina E. (2008). Covariance
regularization by thresholding. The Annals of
Statistics. 36: 2577-2604.
Cai T. & Liu W. (2011). A direct estimation approach
to sparse linear discriminant analysis. Journal
of the American Statistical Association.
106(496): 1566-1577.
Cai T. & Zhang L. (2019). High dimensional linear
discriminant analysis: optimality, adaptive
algorithm and missing data. Journal of the Royal
Statistical
Society:
Series
B
(Statistical
Methodology). 81(4): 675-705.
Genton M.G. (2007). Separable approximation of
space-time covariance matrices. Environmetrics.
18: 681-695.
Ghaderi A., Sanandaji B. M. & Ghaderi F. (2017).
Deep forecast: Deep learning-based spatiotemporal forecasting. 34th ICML Time Series
Workshop. Sydney, Australia.
Hastie T., Tibshirani R. & Friedman J. (2009). The
Elements of Statistical Learning: DataMining,
Inference, and Prediction. Springer Series in
Statistics, Springer-Verlag.
Hastie T., Tibshirani R. & Wainwright M. (2015).
Statistical Learning with Sparsity: The Lasso and
Generalizations. Chapman & Hall/CRC Press.
Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang
Huizenga H.M., De Munck J.C., Waldorp L.J. &
Grasman
R.P.P.P.
(2002).
Spatiotemporal
EEG/MEG source analysis based on a parametric
noise covariance model. IEEE Transactions on
Biomedical Engineering. 49: 533-539.
Huy N.H., Frenzel S. & Bandt C. (2014). Two-step
linear discriminant analysis for classification of
eeg data. In M. Spiliopoulou, L. Schmidt-Thieme
and R. Janning, editors, Data Analysis, Machine
Learning and Knowledge Discovery. Springer,
Cham. pp. 41-50.
Lei M., Shiyan L., Chuanwen J., Hongling L. & Yan Z.
(2009). A review on the forecasting of wind speed
and generated power. Renewable and Sustainable
Energy Reviews. 13: 915-920.
Lei L., Bickel P.J., Karoui N.E. (2018). Asymptotics
for high dimensional regression M-estimates: fixed
design results. Probability Theory and Related
Fields. 172 (3-4): 983-1079.
Leiva R. & Roy A. (2014). Classification of Higherorder Data with Separable Covariance and
Structured Multiplicative or Additive Mean
Models. Communications in Statistics - Theory
and Methods. 43(5): 989-1012.
Sanandaji B.M., Tascikaraoglu A., Poolla K. &
Varaiya P. (2015). Low dimensional models in
spatio-temporal
wind
speed
forecasting.
American Control Conference. Chicago, USA.
pp. 4485-4490.
Tascikaraoglu A. & Uzunoglu M. (2014). A review of
combined approaches for prediction of short-term
wind speed and power. Renewable and Sustainable
Energy Reviews. 34: 243-254.
Tascikaraoglu A., Sanandaji B. M., Poolla K. &
Varaiya P. (2016). Exploiting sparsity of interconnections in spatio-temporal wind speed
forecasting using wavelet transform. Applied
Energy. 165 (1): 735-747.
Yu R., Gao J., Yu M., Lu W., Xu T., Zhao M., Zhang
J., Zhang R. & Zhang Z. (2019). LSTM-EFG for
wind power forecasting based on sequential
correlation features. Future Generation Computer
Systems. 93: 33-42.
Wu Y.X., Wu Q. B. & Zhu J.Q. (2019). Data-driven
wind speed forecasting using deep feature
extraction and LSTM. IET Renewable Power
Generation. 13(12): 2062-2069.
451