Tải bản đầy đủ (.pdf) (55 trang)

Kỹ thuật dự báo dựa theo hồi quy Vector hỗ trợ và thử nghiệm áp dụng dự báo thành tích vận động viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 55 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ




HOÀNG THỊ TUYẾT




KỸ THUẬT DỰ BÁO DỰA THEO HỒI QUY
VECTOR HỖ TRỢ VÀ THỬ NGHIỆM ÁP DỤNG
DỰ BÁO THÀNH TÍCH VẬN ĐỘNG VIÊN



Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05




TÓM TẮT LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN










Hà Nội - 2012
3

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 5

DANH MỤC BẢNG BIỂU 6

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ 7

MỞ ĐẦU 8

CHƢƠNG 1 PHƢƠNG PHÁP HỒI QUY VECTOR HỖ TRỢ 10

1.1.Một số kiến thức cơ sở cho hồi quy vector hỗ trợ 10

1.1.1. Sơ bộ về lý thuyết học thống kê 10


1.1.2. Nguyên tắc tối thiểu hóa rủi ro thực nghiệm 11

1.1.3. Nguyên tắc tối thiểu hóa rủi ro cấu trúc 12

1.1.4. Lý thuyết đối ngẫu 14

1.1.5. Điều kiện Karush – Kuhn – Tucker 15

1.2.Khái niệm về hồi quy vector hỗ trợ 16

1.2.1 Hồi quy 16

1.2.2. Hồi quy vector hỗ trợ 18

1.3.Ứng dụng của phƣơng pháp hồi quy vector hỗ trợ 22

1.4.Kết luận chƣơng 1 25

CHƢƠNG 2 DỰ BÁO DỰA TRÊN HỒI QUY VECTOR HỖ TRỢ 26

2.1. Giới thiệu sơ bộ về dự báo 26

2.2. Dự báo hồi quy vector hỗ trợ với hàm nhân 29

2.3. Dự báo dựa trên hồi quy vector hỗ trợ và thuật toán di truyền 32

2.3.1. Giải thuật di truyền 32

2.3.2. Ứng dụng giải thuật di truyền tối ƣu hóa tham số của SVR 36


2.4. Kết luận chƣơng 2 41

CHƢƠNG 3 THỬ NGHIỆM ÁP DỤNG HỒI QUY VECTOR HỖ TRỢ DỰ BÁO
THÀNH TÍCH VẬN ĐỘNG VIÊN 42

3.1. Bài toán dự báo dãy thành tích vận động viên 42

3.1.1 Dự báo thành tích thành tích chạy 100m 42

3.1.2. Dữ liệu 43

3.1.3. Phân tích dữ liệu 43

3.2. Áp dụng phƣơng pháp hồi quy vector hỗ trợ dự báo thành tích vận động viên 46

3.2.1. Môi trƣờng thực nghiệm 46

3.2.2. Quy trình thực nghiệm 46

3.2.3. Kết quả thực nghiệm 47

3.2.4. Đánh giá kết quả 50

3.3. Kết luận chƣơng 3 51

4

KẾT LUẬN 52


TÀI LIỆU THAM KHẢO 54




5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

GA
Genetic Algorithm
Poly
Polynomial
RBF
Radial Basis Functions
SVR
Support Vector Regression
TĐC
Tốc độ cao
VĐV
Vận động viên
XPC
Xuất phát cao
6

DANH MỤC BẢNG BIỂU

Bảng 1: kết quả thử nghiệm mô hình đề xuất mạng SVR [11] 23
Bảng 2: so sánh phƣơng pháp đề xuất với phƣơng pháp khác [33]. 24
Bảng 3: kết quả thực nghiệm sử dụng SVR trong dự báo thời gian du lịch [12]

25
Bảng 4: mối tƣơng quan giữa thành tích các test chuyên môn với thành tích chạy
100m 45
Bảng 5: lựa chọn giá trị các tham số cho mô hình thực nghiệm .47
Bảng 6: kết quả thực nghiệm với mô hình SVR .50
Bảng 7: đối sánh phƣơng pháp của luận văn với phƣơng pháp hiện thời tại Việt Nam
…… ………….51


7

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1: tối thiểu hóa rủi ro cấu trúc (SRM) 14
Hình 2: tổn thất lề mềm thiết đặt cho SVM tuyến tính [10] 20
Hình 3: các bƣớc thực hiện dự báo [18] 29
Hình 4: lƣu đồ thuật toán giải thuật di truyền 36
Hình 5: lƣu đồ thuật toán tối ƣu mô hình SVR dựa trên giải thuật GA 40
Hình 6: sự ảnh hƣởng của thành tích các test chuyên môn tới thành tích chạy 100m 45
Hình 7: kết quả thực nghiệm mô hình SVR với nhân RBF 48
Hình 8: kết quả thực nghiệm mô hình SVR với nhân Polynomial 48
Hình 9: kết quả thực nghiệm mô hình với nhân RBF 49
Hình 10: kết quả thử nghiệm mô hình hồi quy vector hỗ trợ với nhân Polynomial 49


8

MỞ ĐẦU
Đạt thành tích cao ở trình độ Đông Nam Á, Châu Á, khu vực và quốc tế
của thể thao Việt Nam nói chung và của Điền kinh Việt Nam nói riêng là mục

tiêu cần vƣơn tới của thể dục thể thao Việt Nam [3]. Chính vì vậy, các nhà khoa
học thể dục thể thao luôn cố gắng tìm tòi và xây dựng quy trình đào tạo vận
động viên (VĐV) ở tất cả các môn thể thao. Trong đó, hệ thống tuyển chọn tài
năng thể thao đóng một vai trò quan trọng.
Bài toán dự báo thành tích thể thao nói chung và bài toán dự báo thành tích
chạy ngắn cự ly 100m của VĐV nói riêng có ý nghĩa quan trọng trong lĩnh vực
tuyển chọn tài năng thể thao. Dự báo chính xác thành tích của VĐV cho phép
nâng cao chất lƣợng và hiệu quả của quá trình đào tạo VĐV.
Yêu cầu chung của bài toán dự báo thành tích thể thao là làm cách nào để
có thể phân tích và sử dụng chuỗi dữ liệu trong quá khứ để dự đoán đƣợc thành
tích trong tƣơng lai.
Ở Việt Nam, nghiên cứu về tuyển chọn và dự báo thể thao còn nhiều hạn
chế. Cho đến nay, mới chỉ có một vài nghiên cứu của tác giả: Đàm Công Chính
(2000) [3] và Bùi Quang Hải (2008) [4]. Cả hai tác giả trên đều sử dụng mô hình
hồi quy tuyến tính cho mô hình dự báo trong nghiên cứu của mình.
Trên thế giới, thời gian gần đây, có một số công trình nghiên cứu [20, 24]
đã sử dụng kỹ thuật khai phá dữ liệu trong lĩnh vự dự báo thể thao. Tuy nhiên,
các nghiên cứu này chủ yếu tập trung vào dự đoán xếp hạng của các đội tuyển
thể thao ở môn Bóng đá, Bóng rổ.
Dự báo thành tích thể thao thuộc lớp bài toán dự báo hồi quy. Trên thế giới,
xu hƣớng nghiên cứu nổi bật về dự báo hồi quy và dự báo chuỗi thời gian trong
thời gian gần đây là sử dụng kỹ thuật dự báo dựa vào hồi quy vector hỗ trợ
(Support Vector Regression (SVR)).
Từ những lý do trên và đƣợc sự giúp đỡ, đồng ý của giáo viên hƣớng dẫn
PGS.TS. Hà Quang Thụy, tác giả quyết định lựa chọn nghiên cứu đề tài: “Kỹ
thuật dự báo dựa theo hồi quy vectơ hỗ trợ và áp dụng thử nghiệm dự báo
thành tích vận động viên”.
Luận văn này tập trung vào nghiên cứu thực hiện kết hợp SVR với giải
thuật di truyền để tối ƣu hóa các tham số của SVR và ứng dụng vào bài toán dự
9


báo thành tích chạy ngắn cự ly 100m của vận động viên (VĐV) nữ nhằm tăng
độ chính xác dự báo.
Nội dung của luận văn đƣợc tổ chức thành ba chƣơng, đƣợc mô tả sơ bộ
nhƣ sau:
Chƣơng 1: phƣơng pháp hồi quy vector hỗ trợ. Chƣơng này trình bày
một số kiến thức cơ sở cho SVR, lý thuyết về SVR và một số ứng dụng của
SVR.
Chƣơng 2: dự báo dựa trên hồi quy vector hỗ trợ. Chƣơng này trình bày
lý thuyết về dự báo, dự báo dựa trên SVR và kỹ thuật sử dụng giải thuật di
truyền để tối ƣu hóa tham số cho SVR.
Chƣơng 3: thử nghiệm áp dụng SVR dự báo thành tích VĐV. Chƣơng
này trình bày về bài toán dự báo thành tích chạy cự ly 100m của VĐV nữ, các
phƣơng pháp đánh giá kết quả dự báo thành tích chạy 100m của VĐV. Từ đó
đánh giá khả năng ứng dụng phƣơng pháp vào dự báo thành tích chạy 100m của
VĐV.

10

CHƢƠNG 1
PHƢƠNG PHÁP HỒI QUY VECTOR HỖ TRỢ
1.1. Một số kiến thức cơ sở cho hồi quy vector hỗ trợ
1.1.1. Sơ bộ về lý thuyết học thống kê
Theo Alexander J. Smola và Bernhard Schölkopf, 2004 [10], hồi quy
vector hỗ trợ dựa trên lý thuyết học thống kê. Lý thuyết học thống kê cung cấp
một khuôn khổ nghiên cứu các vấn đề về khám phá tri thức, dự báo và đƣa ra
các quyết định [29].
Theo Theodoros Evgeniou và Massimiliano Pontil [29], trong lý thuyết
thống kê, bài toán học giám sát đƣợc thực hiện nhƣ sau.
Cho một tập dữ liệu huấn luyện: (x

1
, y
1
), …, (x
l
, y
l
)  R
n
R, trong đó các
mẫu, x
i
 R
n
, các giá trị y
i
 R là giá trị của một hàm f(x) tại giá trị tƣơng ứng
x
i
; tập {(x
1
, y
1
)
i=1, ,l
}đƣợc lấy theo một phân bố xác suất P(x,y). Hàm f(x) trên
toàn bộ không gian R
n
là chƣa biết mà chỉ biết giá trị của nó tại các điểm
P={x

i
}
i=1, ,l
. Cần biết giá trị của f(x) tại các điểm x  R
n
\ P và giá trị này đƣợc
xấp xỉ bằng f(x, ), trong đó f(., ) với    (: không gian tham số mà  có
thể nhận) là một hàm xấp xỉ f(x). Tƣơng ứng với mỗi hàm xấp xỉ f(x, ) là một
hàm tổn thất do xấp xỉ L(y, f(x, )) thể hiện độ sai khác của f(x) và f(x, ). Mục
đích của vấn đề học giám sát là tìm hàm một f(x, ) sao cho f(., ) tối thiểu hóa
lỗi trung bình (còn đƣợc gọi là rủi ro kỳ vọng). Nghĩa là học giám sát có mục
tiêu tìm một hàm f để tối thiểu hóa lỗi trung bình:


 y),dP( ))f(L(y,)( xx

R
(1)
Ở đây, P(x,y) = P(x)P(y|x).
Cũng theo Theodoros Evgeniou và Massimilian Pontil, giả sử rằng rủi ro
kỳ vọng đã đƣợc xác định trên một lớp hàm F và hàm f(x, 
0
) là tối thiểu hóa rủi
ro kỳ vọng trong F. Khi đó, f(x, 
0
) đƣợc ƣớc lƣợng một cách lý tƣởng và đƣợc
gọi là hàm mục tiêu. Tuy nhiên trên thực tế, hàm này không thể tìm đƣợc vì
phân bố xác suất P(x,y) dùng để định nghĩa rủi ro kỳ vọng là chƣa biết mà chỉ
biết tập dữ liệu huấn luyện. Để giải quyết vấn đề này, cần có một nguyên tắc để
11


có thể “học” từ một tập dữ liệu hữu hạn. Đó chính là nguyên tắc tối thiểu hóa rủi
ro thực nghiệm (Empirical Risk Minimization).
1.1.2. Nguyên tắc tối thiểu hóa rủi ro thực nghiệm
Nguyên tắc tối thiểu hóa rủi ro thực nghiệm là cơ sở của lý thuyết học
thống kê do V.N.Vapnik phát triển [30].
Với giá trị đầu ra y là giá trị thực và tập hàm thực {f(x, ),   } với ràng
buộc hồi quy:


 )|(),(
0
xyydPxf

(2)
Biêt rằng, nếu f(x, )  L
2
thì hàm hồi quy là một trong những hàm tối
thiểu hóa (1) với hàm tổn thất
L(y, f(x, )) = (y – f(x, ))
2
(3)
Ký hiệu tập {z
1, …,
z
l
}, z
i
R
n+1

thay cho tập {(x
1
, y
1
), …, (x
l
, y
l
)} và hàm
Q(z, ) thay cho hàm tổn thất L(y,f(x,)). Khi đó (1) đƣợc viết lại nhƣ sau:

 dP(z) )Q(z,)(

R
(4)
Nguyên tắc tối thiểu hóa rủi ro thực nghiệm đƣợc sử dụng để tối thiểu hóa
rủi ro của hàm (3) trong trƣờng hợp phân bố xác suất P(z) chƣa biết. Thay thế
hàm rủi ro kỳ vọng R() bởi hàm rủi ro thực nghiệm:



l
i
emp
zQ
l
R
1
),(
1

)(

(5)
Với hàm tổn thất (3), (5) đƣợc viết lại:




l
i
iemp
xfy
l
R
1
2
)),((
1
)(

(6)
R
emp
() đƣợc gọi là sai số thực nghiệm. Việc tìm ra 
i
ứng với R
emp
() nhỏ
nhất đƣợc gọi là nguyên tắc tối tiểu hóa rủi ro thực nghiệm (còn gọi là phƣơng
pháp bình phƣơng cực tiểu).

Theo V.N. Vapnik [31], để tối thiểu hóa rủi ro thực nghiệm hội tụ thì điều
kiện cần và đủ là R
emp
() hội tụ theo xác suất về R(
0
) khi l  .
12

Lý thuyết hội tụ rủi ro thực nghiệm là lý thuyết tiệm cận [31]. Nó mô tả các
điều kiện cần và đủ để các giải pháp hội tụ bằng việc sử dụng phƣơng pháp đề
xuất tốt nhất có thể, ví dụ nhƣ tăng số lƣợng mẫu học.
Định lý hội tụ [31]
Cho Q(z,

),





là một tập các hàm có tổn thất bị chặn với xác suất
P(z).


 BzdPzQA )(),(

,








(7)
Khi đó, điều kiện cần và đủ để sai số thực nghiệm R
emp
(

) hội tụ đều về sai
số thật R(

) là:
0))()((suplim 











emp
l
RRP
,




> 0 (8)
Tối thiểu hóa rủi ro thực nghiệm trong lớp hàm F có thể nảy sinh một số
vấn đề [29, 30]. Thứ nhất là có thể có vô số hàm tối thiểu hóa rủi ro thực
nghiệm. Thứ hai là có thể xảy ra vấn đề học quá mạng (overfitting).
Hơn nữa, nguyên tắc cực thiểu hóa rủi ro thực nghiệm chỉ làm việc với tập
dữ liệu học lớn [29, 31]. Vậy trong trƣờng hợp, tập dữ liệu học nhỏ thì phải làm
nhƣ thế nào? Nguyên tắc tối thiểu hóa rủi ro cấu trúc (Structural risk
minimization: SRM) [29-31] sẽ giải quyết vấn đề này.
1.1.3. Nguyên tắc tối thiểu hóa rủi ro cấu trúc
Theo V.N. Vanik [30], nguyên tắc tối thiểu hóa rủi ro cấu trúc cho phép
chúng ta tìm lời giải "xấp xỉ" của bài toán khi số lƣợng mẫu học là nhỏ.
Tối thiểu hóa rủi ro cấu trúc là một nguyên tắc cảm ứng để lựa chọn mô
hình cho việc học từ tập dữ liệu học hữu hạn. Nó mô tả một mô hình chung kiểm
soát và cung cấp khả năng cân bằng giữa sự phức tạp của không gian giả thuyết
(Chiều VC của hàm xấp xỉ) và lỗi thực nghiệm.
Định nghĩa chiều VC [30].
 Chiều VC của hàm nhận dạng (hàm chỉ số): Chiều VC của một tập
hàm Q(z,

),





là con số lớn nhất h sao cho có thể chọn đƣợc h
phần tử z
1

, …, z
h
mà chúng có thể đƣợc đánh số là 0 hoặc 1 theo tất
cả 2
h
phƣơng án.
13

 Chiều VC của hàm giá trị thực (hàm hồi quy): Cho tập a ≤ Q(z,

) ≤
A,





là một tập hàm giá trị thực bị chặn với hằng số a và A. Xét
tập hàm chỉ số I(z,

,

) =

( Q(z,

) -

),






, a <

< A. Hàm

(u) đƣợc định nghĩa:





1
0
)(u


Nhƣ vậy, chiều VC của tập hàm giá trị thực đƣợc định nghĩa là chiều VC
của tập hàm chỉ số

( Q(z,

) -

).
Các thủ tục của nguyên tắc tối thiểu hóa rủi ro cấu trúc [30]:
1. Sử dụng tiền tri thức miền, chọn một lớp hàm S, ví dụ: hàm đa thức
bậc n, mạng neuron có n nút, mô hình logic mờ với n quy tắc, …

2. Chia lớp hàm thành n tập con lồng nhau với độ phức tạp tăng dần.
S
1
 S
2
 ….  S
n ….
(9)
Với S
k
= {Q(z,

),





k
} và

k
k
SS 
*

Với mỗi S
k
có chiều VC là h
k

hữu hạn và chứa hoặc tập các hàm bị
chặn
0  Q(z,

)  B
k
,





k
(10)
Hoặc chứa tập các hàm không âm thỏa mãn bất đẳng thức.



k
p
p
k
zEQ
zEQ




),(
),(

sup
(11)
S
*
là trù mật khắp nơi trong tập S trong không gian metric L
l
(F).
Vì các S
k
lồng nhau nên
h
1
 h
2
 … h
n
 …
B
1
 B
2
 … B
n
 …

1
 
2
 … 
n

 …
3. Thực hiện tối thiểu hóa rủi ro thực nghiệm trên mỗi tập con S
k
.
4. Chọn mô hình có tổng rủi ro thực nghiệm và độ tin cậy VC( VC
confidence) nhỏ nhất
Nếu u < 0
Nếu u ≥ 0
14







S
*
S
n





Hình 1: Tối thiểu hóa rủi ro cấu trúc (SRM)
1.1.4. Lý thuyết đối ngẫu
Tƣơng ứng với mỗi bài toán tối ƣu (gọi là bài toán gốc) có một bài toán tối
ƣu khác liên quan chặt chẽ với bài toán đó (gọi là bài toán đối ngẫu) [8]. Bài
toán gốc và bài toán đỗi ngẫu của nó lập thành một cặp bài toán tối ƣu, tính chất

của bài toán này có thể đƣợc khảo sát thông qua bài toán kia. Với một vài giả
thiết về tính lồi, bài toán gốc và bài toán đối ngẫu có cùng tập nghiệm (cực tiểu
của bài toán gốc bằng với cực đại của bài toán đối ngẫu). Vì vậy, từ nghiệm của
bài toán đối ngẫu, ta có thể suy ra nghiệm của bài toán gốc và ngƣợc lại.
Vấn đề đối ngẫu rất có ích. Trong nhiều trƣờng hợp, để giải bài toán gốc là
quá phức tạp nên ngƣời ta chuyển qua giải bài toán đối ngẫu để đơn giản hơn.
SVR sử dụng phƣơng pháp đối ngẫu này.
Để đơn giản, ở đây chỉ trình bày bài toán gốc là bài toán quy hoạch tuyến
tính.
Phát biểu bài toán đối ngẫu:[8]
Cho bài toán gốc:
Min f(x) = cx c

R
n

Với điều kiện: g(x) = ax ≤ b, i = 1, , m
x

0
Rủi ro ràng buộc
Khoảng tin cậy
Rủi ro thực nghiệm
S
1
h
1

h
*

h
n
15

x

R
n

b

R
m

a là một ma trận cỡ m*n
Thì bài toán đối ngẫu của nó là:
Max

(u) = b
T
u
Với điều kiện:
u ≥ 0, u

R
m

h(x) = a
T
u ≥ c

T
Các u
i
là các các biến đối ngẫu. Bài toán gốc có m ràng buộc nên bài toán
đối ngẫu có m biến đối ngẫu. Biến đối ngẫu u
i
ứng với ràng buộc thứ i của bài
toán gốc.
Định lý [8]: Nếu x
*
là phương án tối ưu của bài toán gốc, u
*
là phương án
tối ưu của bài toán đối ngẫu thì f(x
*
) =

(u
*
).
Đây là tính chất quan trọng vì nó giúp ta tìm đƣợc nghiệm của bài toán gốc
thông qua nghiệm của bài toán đối ngẫu sau khi đã giải bài toán đối ngẫu.
1.1.5. Điều kiện Karush – Kuhn – Tucker
Điều kiện Karush – Kuhn – Tucker đƣợc phát biểu nhƣ sau [8, 23].
Xét vấn đề sau:
Cho một tập mở khác rỗng X

R
n
, và các hàm f, g

i
: R
n


R, ,

i = 1 m.
Xét bài toán P:
)(min xf
Sx
, S = {x

X: g
i
(x)

0,

i = 1 m}
Với điều kiện: g
i
(x)

0 với i = 1 m
Nếu f(x) là hàm lồi, khả vi tại x
0
và S là tập lồi với g
i
(x),


i

I, I = {i:
g
i
(x
0
) = 0} là các hàm liên tục, khả vi tại x
0
thì điều kiện cần và đủ để f(x
0
) là
cực tiểu của f(x) là:
Tồn tại u
1
, , u
n
sao cho:
16















miu
mixgu
xguxf
i
ii
ii
1,0
1,0)(
0)()(
0
00


f(x
0
),

g
i
(x
0
) là đạo hàm riêng của f(x) và g
i
(x) tại x
0
.

Ngược lại, cho x
0

S và các điều kiện sau được thỏa mãn:
-

u
i


0,

i

I sao cho
0)()(
00


xguxf
ii
.
- Các hàm f, g
i
,

i

I là các hàm lồi và khả vi tại x
0

Lúc đó, x
0
là điểm cực tiểu của bài toán P.
1.2. Khái niệm về hồi quy vector hỗ trợ
1.2.1 Hồi quy
 Định nghĩa hồi quy
Có rất nhiều tác giả đƣa ra định nghĩa về hồi quy. Có thể kể đến một số
định nghĩa của các tác giả sau.
Theo J. Han và cộng sự, 2006 [19], hồi qui là kỹ thuật thống kê cho phép
dự đoán các trị (số) liên tục.
Theo Alan O. Sykes, 1993 [9], phân tích hồi quy là công cụ thống kê cho
phép nghiên cứu mối quan hệ giữa các biến.
Theo Egwu Kalu và Autar Kaw [14], phân tích hồi quy đƣa ra thông tin
trên mối quan hệ giữa biến phụ thuộc với một hoặc một vài biến độc lập để đánh
giá thông tin chứa trong dữ liệu.
Tuy có những phát biểu định nghĩa không thông nhất nhƣng các tác giả
trong [9, 14, 19] đều đƣa ra một nhận xét chung: mục đích của phân tích hồi quy
là có thể xây dựng đƣợc mô hình (hàm số) biểu diễn đƣợc mối quan hệ giữa biến
phụ thuộc với các biến độc lập. Mô hình hồi quy có dạng:
y = f(x, ) (12)
Sự phù hợp và chính xác của mô hình này phụ thuộc vào tập dữ liệu sử
dụng. Vì vậy, nếu tập dữ liệu quá nhỏ, không có tính đại diện thì không thể đƣa
17

ra đƣợc kết luận tốt [14]. Do đó, muốn phân tích hồi quy đạt hiệu quả thì cần
phải xác định các công việc sau thật tốt.
 Điều tra quá trình thu thập dữ liệu.
 Khám phá ra bất kỳ hạn chế nào trong dữ liệu thu thập.
 Hạn chế các kết luận phù hợp.
Khi thu đƣợc mối quan hệ thông qua phân tích hồi quy, nó có thể đƣợc sử

dụng để dự đoán giá trị của biến phụ thuộc, xác định các biến độc lập mà có ảnh
hƣởng nhiều đến việc dự báo, hoặc xác minh giả thuyết các mô hình nhân quả
của dự báo. Giá trị của mỗi biến độc lập có thể đƣợc đánh giá thông qua kiểm
tra thống kê về các hệ số của các biến này.
Mô hình hồi quy đƣợc phân loại thành nhiều loại. Ví dụ nhƣ [1]:
Hồi qui tuyến tính (linear) và phi tuyến (nonlinear).
Hồi qui đơn biến (single) và đa biến (multiple).
Hồi qui có tham số (parametric), phi tham số (nonparametric), và tham số
kết hợp (semiparametric).
Hồi quy tuyến tính [1] là mô hình hồi quy với sự kết hợp tuyến tính của các
biến độc lập để thu đƣợc biến phụ thuộc. Dạng của mô hình hồi quy tuyến tính
nhƣ sau:



nn
xxxy
22110
(13)
Trong đó, 
i
là các hệ số hồi quy, x
i
là các biến độc lập,  là độ , y là biến
phụ thuộc
Hồi quy phi tuyến [1] là mô hình hồi quy với sự kết hợp phi tuyến của các
biến độc lập để thu đƣợc biến phụ thuộc.
Hồi quy đơn biến là mô hình hồi quy với một biến giải thích (biến độc lập).
Mô hình hồi đơn biến có dạng nhƣ sau:
y = β

0
+ β
1
*x
1
(14)
Hồi quy đa biến là mô hình hồi quy với nhiều biến giải thích (biến độc lập).
Dạng mô hình hồi quy đa biến nhƣ sau:
y = β
0
+ β
1
*x
1
+ β
2
x
2
+ … + β
n
x
n
(15)
18

Hồi quy có tham số là mô hình hồi quy với hữu hạn các tham số [1 ]. Mô
hình hồi quy có tham số có dạng nhƣ sau:
y = β
0
+ β

1
*x (16)
Hồi quy phi tham số là mô hình hồi quy với vô hạn các tham số. Dạng của
mô hình hồi quy phi tham số nhƣ sau [1]:
y = β
0
+ f(x) (17)
Hồi quy tham số kết hợp là mô hình hồi quy với với hữu hạn tham số đƣợc
quan tâm [29]. Dạng của mô hình:
y = β
0
+ β
1
*x1 + f(x2) (18)
1.2.2. Hồi quy vector hỗ trợ
Máy vector hỗ trợ (Support Vector Machine) đƣợc Cortes và Vapnik giới
thiệu [10] và đƣợc phân thành hai mô hình chính là phân lớp vector hỗ trợ
(Support Vector Classification) và hồi quy vector hỗ trợ (Support Vector
Regression - SVR). SVR là một trong số hình thức ứng dụng phổ biến nhất của
máy vector hỗ trợ [10]. Mô hình tạo bởi SVR chỉ phụ thuộc tập con dữ liệu huấn
luyện, vì hàm chi phí cho việc xây dựng các mô hình sẽ bỏ qua bất kỳ dữ liệu
huấn luyện nào mà gần với mô hình dự báo (nằm trong ngƣỡng ε).
Theo Alexander J. Smola và Bernhard Schölkopf [10], hồi quy vector hỗ
trợ là một trong những kỹ thuật hiệu quả khai phá dữ liệu cả về phƣơng diện học
thuật lẫn phƣơng diện công nghiệp, đặc biệt đối với các bài toán nhận dạng ký tự
quang học, dự báo hồi quy và dự báo chuỗi thời gian.
Ý tƣởng của SVR đƣợc dựa trên các tính toán của một hàm hồi quy tuyến
tính trong một không gian nhiều chiều mà các dữ liệu đầu vào đƣợc ánh xạ qua
một hàm phi tuyến. Một trong những đặc điểm chính của SVR là thay vì giảm
thiểu sai số huấn luyện quan sát, SVR giảm thiểu ràng buộc sai số tổng quát để

đạt đƣợc hiệu suất tổng quát. Ràng buộc sai số tổng quát này là sự kết hợp của
các sai số huấn luyện với một số hạng chuẩn để kiểm soát sự phức tạp của
không gian giả thuyết.
Ý tƣởng cơ bản của máy vector hỗ trợ cho hàm hồi quy và dự đoán nhƣ sau
[10]:
Giả sử có tập dữ liệu huấn luyện {(x
1
, y
1
), …, (x
l
, y
l
)}  X x R, trong đó, X
là không gian đầu vào (ví dụ X=R
d
). Trong hồi quy ε – SV, mục đích là tìm một
19

hàm f(x) có sai số nhỏ nhất ε so với mục tiêu thực sự thu đƣợc y
i
. Alexander J.
Smola và Bernhard Schölkopf tiến hành xét một hàm f(x) tuyến tính có dạng
sau:
f(x) = w
T
(x)+b (19)
Trong đó w  R
n
, (x) biểu thị một hàm phi tuyến đƣợc chuyển từ không

gian R
n
vào không gian nhiều chiều. Mục đích ở đây là cần tìm w và b để giá trị
x có thể đƣợc xác định bằng cách tối thiểu hóa rủi ro hồi quy. Alexander J.
Smola và Bernhard Schölkopf xem vấn đề này nhƣ vấn đề tối ƣu lồi. Giải pháp
đƣợc cho bởi:
min
2
2
1
w
(20)
Với điều kiện:







ii
ii
ybxw
bxwy
,
,

Ở đây, Alexander J. Smola và Bernhard Schölkopf ngầm định rằng vấn đề
tối ƣu lồi là khả thi. Trong trƣờng hợp điều kiện trên không đƣợc thỏa mãn,
Cortes và Vapnik giải quyết bằng cách đƣa vào hai biến bù là 

i
, 
i
*
. Khi đó
phƣơng trình (20) đƣợc viết lại nhƣ sau:



l
i
ii
CwMin
1
*
2
)(
2
1

(21)
Với điều kiện:










0,
,
,
*
*
ii
iii
iii
ybxw
bxwy




Ở đây, C > 0, quyết định sự cân bằng giữa tính phẳng của hàm f và lỗi hồi
quy (>).
>0 là tham số của hàm tổn thất không nhạy và nó kiểm soát sự chính xác
của hồi quy. Hàm tổn thất không nhạy 

đƣợc mô tả:
||

= 0 nếu ||  
|| -  nếu || >  (22)






20






* *
* * *
* * * *
* * * *
* * * * *
* *


Hình 2: tổn thất lề mềm thiết đặt cho SVM tuyến tính [10]
Để giải quyết bài toán (21), Alexander J. Smola và Bernhard Schölkopf
chuyển qua bài toán đối ngẫu tƣơng ứng. Bài toán đối ngẫu sẽ là:
Tìm cực đại của (u) với u  R
l
, u  0, trong đó
   
 
 






















bxwybxwy
Cw
u
iiii
l
i
iiii
l
i
iiii
l
i
ii
,,
2

1
)(
**
1
1
**
1
*
2




(23)
Để giải bài toán đối ngẫu trên, trƣớc tiên phải tìm cực tiểu của hàm


(24)

theo w, b, 
i
, 
i
*
. Với 
i
, 
i
*
, 

i
, 
i
*
là các hệ số Lagrange và thỏa mãn điều
kiện: 
i
, 
i
*
, 
i
, 
i
*
 0. (25)
Theo định lý Fermat, cực tiểu của L xảy ra tại w, b, 
i
(*)
sao cho:

(26)

(27)

(28)
(*)
*
1
*

w
1
(*) (*)
( ) 0
w ( ) 0
i
l
b i i
i
l
i i i
i
ii
L
Lx
LC






   
    
   


   
 
 







bxwybxwy
CwL
iiii
l
i
iiii
l
i
iiii
l
i
ii
,,
2
1
**
1
1
**
1
*
2



+
0
-


+ -
21

Thay thế (26), (27), (28) vào (24) đƣợc bài toán đối ngẫu:
* * * *
1 1 1
1
ax ( )( ) , ( ) ( )
2
l l l
i i j j i j i i i i i
j i i
M x x y
        
  

      


  
(29)
Điều kiện:
**
1
( ) 0 à , [0, ]

l
i i i i
i
vC
   

  


Trong (29), loại bỏ các biến đối ngẫu 
i
(*)
thông qua điều kiện (28). Khi đó,
phƣơng trình (27) đƣợc viết lại nhƣ sau:
*
1
w ( )
l
i i i
i
x




(30)
Do đó, hàm f(x) viết lại nhƣ sau:
 
*
1

( ) ,
l
i i i
i
f x x x b


  

(31)
Tính toán b.
Để tính toán b, Alexander J. Smola và Bernhard Schölkopf vận dụng điều
kiện Karush-Kuhn-Tucker cho bài toán gốc nhƣ sau:

i
( + 
i
– y
i
+ <w, x
i
> + b) = 0 (32)

*
i
( + 
*
i
+ y
i

- <w, x
i
> - b) = 0
(C-
i
)
i
= 0 (33)
(C-
*
i
) 
*
i
= 0
Từ đó, Alexander J. Smola và Bernhard Schölkopf rút ra một số kết luận
hữu ích:
 Chỉ tập mẫu (x
i
, y
i
) với 
(*)
i
= C nằm ngoài ống không nhạy 
 
i

*
i

= 0
Vì vậy, có:
 –y
i
+ <w, x
i
> + b  0 và 
i
= 0 nếu 
i
< C (34)
 –y
i
+ <w, x
i
> + b  0 nếu 
i
> 0 (35)
Kết hợp với một phân tích tƣơng tự với 
*
i
, ta có:
Max{- +y
i
- <w, x
i
>|
i
< C hoặc 
*

i
> 0}  b 
Min{- +y
i
- <w, x
i
>|
i
> 0 hoặc 
*
i
< C} (36)
22

1.3. Ứng dụng của phương pháp hồi quy vector hỗ trợ
Phƣơng pháp hồi quy vector hỗ trợ có nhiều ứng dụng cho các bài toán về
dự báo hồi quy và dự báo dòng dữ liệu [10]. Dƣới đây là một số ví dụ ứng dụng
phƣơng pháp hồi quy vector hỗ trợ.
− Dự báo chuỗi thời gian tài chính sử dụng mạng hồi quy vector hỗ trợ.
Trong [11], Boyang Li và cộng sự (2010) đã giới thiệu mạng SVR để giải
quyết vấn đề dự báo tỷ giá ngoại hối. Các tác giả sử dụng phƣơng thức: phân
vùng miền giá của dữ liệu nhƣ là quá trình tiền xử lý của quá trình huấn luyện.
Các mô hình SVR khác nhau đƣợc sử dụng để mô tả đặc điểm của dữ liệu và
mối quan hệ giữa các biến đầu vào với từng mục tiêu con trong mỗi vùng giá.
Đầu ra của các mô hình SVR đƣợc coi là đầu vào của mỗi lớp dự đoán, sau đó
đƣa ra kết quả cuối cùng. Các phƣơng pháp đƣợc thử nghiệm với tập dữ liệu về
tỷ giá ngoại hối giữa đồng Yên Nhật và và đồng Đô la Mỹ. Kết quả của nghiên
cứu cho thấy phƣơng pháp tiếp cận mạng SVR cho kết quả tốt hơn các phƣơng
pháp khác. Nghiên cứu cũng chỉ ra hạn chế: miền giá mới chỉ đƣợc phân thành
ba phần. Nghiên cứu chƣa tìm đƣợc cơ chế phân vùng hợp lý nhất. Bảng 1 hiển

thị kết quả thử nghiệm mô hình đề xuất của Boyang Li và cộng sự.















23

Bảng 1: kết quả thử nghiệm mô hình đề xuất mạng SVR [11].
Dự báo
tƣơng lai
Chỉ số dự
báo
Tỷ giá hối đoái (Currency
exchange rate (USD/JPY))
Trung bình trƣợt dữ liệu
của tỷ giá hối đoái
(Moving average data of
exchange rate)
SVR

SVR
Network
SVR
SVR
Network
Dự báo
ngày tiếp
theo
(t+1)
SSE
MAE
CP
CD
47.3925
0.6172
76.8116
79.4118
36.2098
0.1471
77.8468
79.8039
42.5252
0.1586
76.8116
78.4736
35.1087
0.1451
77.2257
80.4305
Dự báo

ngày tiếp
theo
(t+5)
SSE
MAE
CP
CD
60.5918
0.1877
76.7635
78.3465
38.4611
0.1520
79.6680
79.3307
56.3304
0.1820
77.8468
77.9528
37.6336
0.1498
79.5031
79.3307
Dự báo hai
tuần tiếp
theo
(t+10)
SSE
MAE
CP

CD
71.5295
0.2052
77.4530
78.9370
39.7972
0.1544
80.1670
79.9213
67.7718
0.1998
77.0833
78.3465
40.3541
0.1548
80.4167
80.1181

− Dự báo phụ tải điện hàng năm sử dụng máy hồi quy vector hỗ trợ.
Zhiyong Li và cộng sự, 2010 [33] đã đề xuất một phƣơng pháp tiếp cận sử
dụng giải thuật SVR với sự kết hợp của 3 hàm nhân để giải quyết vấn đề dự báo
phụ tải điện. Thử nghiệm giải thuật trên tập dữ liệu tiêu thụ điện thực tế của tỉnh
Quảng Đông – Trung Quốc từ năm 1985 – 2008, các tác giả chỉ ra rằng mô hình
kết hợp các nhân cho kết quả dự báo tốt hơn mô hình sử dụng nhân đơn. Trong
nghiên cứu này, các tác giả còn so sánh giải thuật đề xuất với các phƣơng pháp
dự báo hiện có trên cùng tập dữ liệu nhƣ: Back Propagation (BP) neural network
và Radial Basis Function (RBF) neutral network. Kết quả cho thấy, phƣơng
pháp mà các tác giả đề xuất cho kết quả dự báo tốt hơn. Bảng 2 hiển thị kết quả
thử nghiệm giải pháp của tác giả Zhiyong Li và cộng sự.
24


Bảng 2: so sánh phƣơng pháp đề xuất với phƣơng pháp khác [33].
Năm
Phụ tải
điện thực
Phƣơng pháp phù hợp
đƣờng Conic (Conic
fitting method)
Phƣơng pháp đề xuất
Giá trị dự
báo
Lỗi
Giá trị dự
báo
Lỗi
2004
2387.14
2047.1
-14.24%
2269.0
-4.95%
2005
2673.56
2394.3
-10.45%
2711.5
1.42%
2006
3004.03
2747

-8.56%
2895.6
-3.61%
2007
3394.00
3118.9
-8.11%
3350.6
-1.28%
2008
3506.78
3525.1
0.52%
3654.8
4.22%

− Dự báo thời gian du lịch
Chun-Hsin Wu và cộng sự [12] đã đề xuất một số thông số cho mô hình
SVR để dự đoán chính xác thời gian du lịch. Từ đó, hỗ trợ khách du lịch và các
trung tâm kiểm soát giao thông điều chỉnh lịch trình du lịch và kiểm soát lƣu
lƣợng giao thông. Nghiên cứu chỉ ra rằng, sử dụng mô hình SVR cho kết quả dự
báo tốt hơn các phƣơng pháp khác. Bảng 3. thể hiện kết quả thực nghiệm sử
dụng SVR trong dự báo thời gian du lịch.














25


Bảng 3: kết quả thực nghiệm sử dụng SVR trong dự báo thời gian du lịch [12].
RME
Phƣơng pháp
dự báo hiện tại
Phƣơng pháp
dự báo trƣớc
đây
Phƣơng pháp
dự báo với
SVR
45 km (Taipei – Chungli)
10.53%
14.31%
4.42%
161 km (Taipei – Taichung)
5.85%
7.81%
2.38%
350 km (Taipei – Kaohsiung)
6.13%
4.9%

1.21%
RMSE
Phƣơng pháp
dự báo hiện tại
Phƣơng pháp
dự báo trƣớc
đây
Phƣơng pháp
dự báo với
SVR
45 km (Taipei – Chungli)
32.19%
17.55%
7.35%
161 km (Taipei – Taichung)
13.81%
9%
3.26%
45 km (Taipei – Chungli)
10.29%
5.66%
1.63%

1.4. Kết luận chương 1
Trong chƣơng này, luận văn đã trình bày chi tiết về khái niệm hồi quy
vector hỗ trợ tuyến tính. Hồi quy vector hỗ trợ là một kỹ thuật mạnh đƣợc ứng
dụng trong lớp bài toán dự báo hồi quy. Trong chƣơng tiếp theo, luận văn sẽ
nghiên cứu về mô hình hồi quy vector hỗ trợ phi tuyến, giải thuật di truyền và
ứng dụng giải thuật di truyền để tối ƣu hóa các tham số của mô hình hồi quy
vector hỗ trợ.


26

CHƢƠNG 2
DỰ BÁO DỰA TRÊN HỒI QUY VECTOR HỖ TRỢ
2.1. Giới thiệu sơ bộ về dự báo
Theo J. Scott Armstrong, 2001 [18], dự báo có vai trò quan trọng trong rất
nhiều lĩnh vực của đời sống. Những ngƣời ra quyết định cần tới dự báo chỉ khi
có sự không chắc chắn về tƣơng lai. Dự báo thƣờng bị nhầm lẫn với lập kế
hoạch. Lập kế hoạch quan tâm tới “cái gì nhƣ thế nào” còn dự báo quan tâm tới
“cái gì sẽ nhƣ thế nào”. Các nhà hoạch định có thể sử dụng các phƣơng thức dự
báo để dự đoán kết quả của các kế hoạch. Nếu kết quả dự báo là không thỏa
đáng thì họ có thể điều chỉnh kế hoạch từ đó có những dự báo mới. Quá trình đó
đƣợc lặp đi lặp lại cho đến khi các kết quả dự báo đạt yêu cầu.
Dự báo phục vụ nhiều nhu cầu. Nó giúp mọi ngƣời và các tổ chức lập kế
hoạch cho tƣơng lai và đƣa ra các quyết định hợp lý [7, 18].
Dự báo bao gồm một tập các nguyên tắc dự báo. Cần phải hiểu các nguyên
tắc dự báo thì mới có thể áp dụng các nguyên tắc này một cách hiệu quả cho
việc dự báo.
Cũng theo J. Scott Armstrong [18], có rất nhiều nguyên tắc dự báo và ông
cho rằng một số nguyên tắc dự báo sau là thông dụng.
 Nguyên tắc Role paying (“cùng nhập vai").
 Nguyên tắc Intentions (dự định).
 Nguyên tắc Expert Opinions (ý kiến chuyên gia).
 Nguyên tắc Conjoint Analysis (phân tích liên kết).
 Nguyên tắc Judgmental Bootstrapping (tự nâng phán đoán).
 Nguyên tắc Analogies (tương tự).
 Nguyên tắc Extrapolation (ngoại suy).
 Nguyên tắc Rule – Based (dựa trên quy tắc).
 Nguyên tắc System Expert (hệ thống chuyên gia).

 Nguyên tắc Econometric (kinh tế học).

×