BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
NGUYỄN DUY HIẾU
!
MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGƠN NGỮ
DỰA TRÊN ĐẠI SỐ GIA TỬ!
!
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
HÀ NỘI – 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Nguyễn Duy Hiếu
!
MƠ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGƠN NGỮ
DỰA TRÊN ĐẠI SỐ GIA TỬ!
!
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.! PGS. TSKH. Nguyễn Cát Hồ
2.! TS. Vũ Như Lân
Hà Nội – Năm 2022
LỜI CAM ĐOAN
Tác giả luận án cam đoan các kết quả nghiên cứu là của riêng tác giả ngoại
trừ các nghiên cứu đã được trích dẫn trong luận án. Các kết quả được viết chung
với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi được đưa vào
luận án. Các kết quả trình bày trong luận án là trung thực và chưa từng được công
bố trong bất kỳ cơng trình nào khác.
Tác giả
Nguyễn Duy Hiếu
LỜI CẢM ƠN
Trong quá trình thực hiện nghiên cứu, tác giả đã nhận được sự chỉ bảo tận
tình, chu đáo của PGS. TSKH. Nguyễn Cát Hồ và TS. Vũ Như Lân. Lời đầu tiên,
tác giả xin bày tỏ lịng kính trọng và biết ơn sâu sắc nhất tới hai thầy.
Tác giả trân trọng cảm ơn Ban Lãnh đạo: Viện Công nghệ thông tin, Khoa
Công nghệ thông tin và Truyền thông - Học viện Khoa học và Công nghệ, Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã giúp đỡ, tạo điều kiện thuận lợi
cho tác giả trong quá trình học tập, nghiên cứu và hoàn thiện luận án.
Tác giả cũng xin trân trọng cảm ơn lãnh đạo Trường Đại học Tây Bắc, Ban
Chủ nhiệm Khoa Khoa học Tự nhiên - Cơng nghệ, lãnh đạo Phịng Tổ chức Hành chính, Phòng Bảo đảm chất lượng và Thanh tra Pháp chế đã quan tâm, tạo
điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.
Tác giả xin gửi lời cảm ơn chân thành tới các đồng nghiệp thuộc Khoa Khoa
học Tự nhiên - Công nghệ, Trường Đại học Tây Bắc, các anh chị trong Nhóm
nghiên cứu Đại số gia tử đã động viên, khích lệ, trao đổi những kiến thức và kinh
nghiệm nghiên cứu.
Cuối cùng, tác giả xin gửi lời cảm ơn chân thành tới bố mẹ hai bên, anh chị
em, người thân, bạn bè đặc biệt là vợ và các con đã luôn dành cho tác giả những
tình cảm, chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác
giả trong quá trình nghiên cứu. Luận án này cũng là món quà mang ý nghĩa tinh
thần mà tác giả trân trọng gửi đến các thành viên trong gia đình.
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................ iii!
LỜI CẢM ƠN ...................................................................................................... iv!
MỤC LỤC ............................................................................................................ v!
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................... vii!
DANH MỤC CÁC BẢNG BIỂU ........................................................................ ix!
DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ ........................................ xi!
MỞ ĐẦU .............................................................................................................. 1!
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 8!
1.1. Dự báo chuỗi thời gian mờ ........................................................................ 8!
1.1.1. Khái niệm về chuỗi thời gian .............................................................. 8!
1.1.2. Mơ hình dự báo FTS-FM .................................................................... 9!
1.2. Thơng tin và cấu trúc tốn học của miền ngôn ngữ tự nhiên ................... 21!
1.2.1. Cấu trúc đại số trong miền ngôn ngữ tự nhiên ................................. 23!
1.2.2. Lượng hóa cấu trúc ngữ nghĩa của ngơn ngữ bằng phương pháp tiên
đề................................................................................................................. 29!
1.2.3. Một số ứng dụng của ĐSGT ............................................................. 34!
CHƯƠNG 2. CHUỖI THỜI GIAN NGÔN NGỮ VÀ MƠ HÌNH DỰ BÁO .... 37!
2.1. Mơ hình dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ ......... 38!
2.2. Mơ hình dự báo chuỗi thời gian ngơn ngữ (LTS-FM) ............................. 45!
2.2.1. Chuỗi thời gian ngôn ngữ (LTS) ...................................................... 46!
2.2.2. Quan hệ lơ-gic ngơn ngữ và nhóm quan hệ lơ-gic ngơn ngữ ........... 47!
2.2.3. Mơ hình dự báo LTS-FM.................................................................. 48!
2.2.4. Một số kết quả thử nghiệm và thảo luận ........................................... 52!
CHƯƠNG 3. MỘT SỐ NGHIÊN CỨU MỞ RỘNG MƠ HÌNH DỰ BÁO CHUỖI
THỜI GIAN NGÔN NGỮ ................................................................................. 66!
3.1. Trọng số của quan hệ lô-gic ngôn ngữ .................................................... 67!
3.2. Mở rộng khơng gian trong mơ hình dự báo chuỗi thời gian ngơn ngữ .... 70!
3.3. Tính tốn tối ưu trong mơ hình dự báo LTS-FM ..................................... 75!
3.3.1. Tối ưu tham số của mơ hình dự báo LTS-FM .................................. 75!
3.3.2. Tối ưu tham số kết hợp tối ưu việc lựa chọn các hạng từ trong mơ hình
dự báo chuỗi thời gian ngơn ngữ ................................................................ 80!
3.4. Mơ hình dự báo chuỗi thời gian ngôn ngữ bậc cao ................................. 87!
3.4.1. Quan hệ lô-gic ngôn ngữ bậc cao ..................................................... 87!
3.4.2. Mơ hình dự báo HO-LTS.................................................................. 88!
3.4.3. Một số kết quả và thảo luận .............................................................. 89!
KẾT LUẬN CỦA LUẬN ÁN .......................................................................... 100!
DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN ........................................................................................................ 102!
TÀI LIỆU THAM KHẢO ................................................................................ 103!
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Các ký hiệu:
!! (# )
&'(() )
*+,-(#)
.(# )
ℑ" ( # )
0(# )
! (ℎ )
Hàm thuộc của phần tử # vào tập mờ %
Miền ngôn ngữ của biến ngôn ngữ )
Hàm dấu của từ ngơn ngữ #
Độ đo tính mờ của từ ngơn ngữ #
Khoảng tính mờ của từ ngơn ngữ #
Chiều dài của từ ngơn ngữ #
Độ đo tính mờ của gia tử ℎ
2 (# )
Giá trị ngữ nghĩa định lượng của từ ngơn ngữ #
3 = .(5 # ), độ đo tính mờ của phần tử sinh âm 5 #
3
6 = ∑#%&$' !(ℎ$ ), tổng độ đo tính mờ của các gia tử âm
6
8 = ∑'&$&( ! (ℎ$ ), tổng độ đo tính mờ của các gia tử dương
8
Các chữ viết tắt:
FTS
Fuzzy Time Series (chuỗi thời gian mờ)
FTS-FM
Fuzzy Time Series Forecasting Model (mơ hình dự báo
chuỗi thời gian mờ)
AI
Artificial Intelligence (trí thơng minh nhân tạo, trí tuệ
nhân tạo)
FLR
Fuzzy Logic Relationship (quan hệ lơ-gic mờ)
FLRG
Fuzzy Logic Relationship Group (nhóm quan hệ lơ-gic
mờ)
EUA
Enrollment of University of Alabama (bộ dữ liệu số sinh
viên nhập học Đại học Alabama từ 1971 đến 1992)
MSE
Mean Squared Error (giá trị sai số trung bình bình
phương)
RMSE
Root Mean Squared Error (giá trị khai căn của sai số trung
bình bình phương)
MAPE
Mean Absolute Percentage Error (giá trị sai số trung bình
phần trăm tuyệt đối)
ĐSGT
Đại số gia tử
HA
Hedge Algebras (đại số gia tử)
SQM
LST
Semantically Quantifying Mapping (ánh xạ ngữ nghĩa
định lượng)
Linguistic Time Series (chuỗi thời gian ngôn ngữ)
LTS-FM
Linguistic Time Series Forecasting Model (mô hình dự
báo chuỗi thời gian ngơn ngữ)
WLTSFM
Weighted Linguistic Time Series Forecasting Model (mơ
hình dự báo chuỗi thời gian ngơn ngữ có trọng số)
LLR
Linguistic Logical Relationship (quan hệ lơ-gic ngơn ngữ)
LLRG
Linguistic Logical Relationship Group (nhóm quan hệ lơgic ngơn ngữ)
PSO
Particle Swarm Optimization (giải thuật tối ưu bầy đàn)
LTSPSO
Linguistic Time Series Particle Swarm Optimization (giải
thuật tối ưu tham số sử dụng giải thuật bầy đàn của mơ
hình dự báo chuỗi thời gian ngôn ngữ)
LTSPSCO
Linguistic Time Series Particle Swarm Co-Optimization
(giải thuật đồng tối ưu, kết hợp tối ưu tham số và bộ từ sử
dụng giải thuật bầy đàn của mơ hình dự báo chuỗi thời
gian ngôn ngữ)
HO-LTS
High-Order Linguistic Time Series (chuỗi thời gian ngôn
ngữ bậc cao)
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Các tiêu chuẩn đánh giá độ chính xác dự báo .................................... 20!
Bảng 1.2. Quan hệ dấu giữa gia tử trên các hàng đối với gia tử trên các cột ..... 28!
Bảng 2.1. Bảng số liệu sinh viên nhập học EUA ............................................... 40!
Bảng 2.2. Các khoảng giải nghĩa cho dữ liệu EUA theo các năm dự báo ......... 43!
Bảng 2.3. Bảng tổng hợp thông tin làm cơ sở cho tính tốn dự báo .................. 44!
Bảng 2.4. Số liệu sinh viên nhập học EUA và chuỗi thời gian ngơn ngữ tương
ứng ...................................................................................................................... 54!
Bảng 2.5. Các nhóm quan hệ lô-gic ngôn ngữ của chuỗi thời gian tuyển sinh .. 55!
Bảng 2.6. So sánh kết quả dự báo tuyển sinh Alabama ..................................... 56!
Bảng 2.7. Độ biến thiên của dữ liệu EUA .......................................................... 58!
Bảng 2.8. Các LLRG của chuỗi thời gian độ biến thiên tuyển sinh ................... 59!
Bảng 2.9. Kết quả dự báo EUA dựa trên số liệu biến thiên. .............................. 60!
Bảng 2.10. Các nhóm quan hệ LLRG của chuỗi thời gian nhiệt độ. ................. 62!
Bảng 2.11. Kết quả dự báo nhiệt độ bằng mơ hình FTS-FM ............................. 63!
Bảng 3.1. Giá trị 7 điểm ngữ nghĩa thực trên không gian nền ........................... 68!
Bảng 3.2. Chuỗi thời gian ngôn ngữ EUA và nhóm quan hệ LLRG có trọng số
............................................................................................................................ 68!
Bảng 3.3. Kết quả dự báo của các mơ hình ........................................................ 69!
Bảng 3.4. Chuỗi thời gian ngơn ngữ trong mơ hình 9, 17, 33 và 65 hạng từ ..... 72!
Bảng 3.5. Các nhóm quan hệ lơ-gic ngơn ngữ với bộ 9 và 17 từ ....................... 73!
Bảng 3.6. Các nhóm quan hệ lô-gic ngôn ngữ với bộ 33 và 65 từ ..................... 73!
Bảng 3.7. Kết quả dự báo với bộ 9, 17, 33 và 65 hạng từ .................................. 74!
Bảng 3.8. Chuỗi thời gian ngôn ngữ của dữ liệu EUA sử dụng 9 hạng từ......... 91!
Bảng 3.9. Nhóm quan hệ lơ-gic ngơn ngữ bậc hai sử dụng 9 hạng từ ............... 92!
Bảng 3.10. Nhóm quan hệ lơ-gic ngơn ngữ bậc ba sử dụng 9 hạng từ .............. 92!
Bảng 3.11. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HOLTS với bộ 9 từ được chọn ................................................................................. 94!
Bảng 3.12. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HOLTS với bộ 17 từ được chọn ............................................................................... 94!
Bảng 3.13. So sánh MSE kết quả dự báo số liệu EUA ...................................... 94!
Bảng 3.14. So sánh MAPE kết quả dự báo số liệu EUA .................................. 95!
Bảng 3.15. Giá trị tham số tính mờ tương ứng với các bộ từ ............................. 95!
Bảng 3.16. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HOLTS với bộ 33 từ được chọn ............................................................................... 96!
Bảng 3.17. So sánh sai số kết quả dự báo số liệu EUA của mơ hình dự báo HOLTS với bộ 65 từ được chọn ............................................................................... 96!
Bảng 3.18. Chuỗi thời gian ngôn ngữ năng suất nông sản Lahi ........................ 97!
Bảng 3.19. So sánh sai số dự báo nơng sản Lahi của các mơ hình dự báo ........ 97!
DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021. .......... 8!
Hình 1.2. Lưu đồ thuật tốn giải thuật PSO ....................................................... 18!
Hình 1.3. Khoảng tính mờ của các từ ngơn ngữ của biến ENROLLMENT ...... 31!
Hình 2.1. Kết quả dự báo dữ liệu sinh viên nhập học EUA bằng mơ hình dự báo
mờ dựa trên ngữ nghĩa ........................................................................................ 45!
Hình 2.2. Mơ hình dự báo chuỗi thời gian ngơn ngữ ......................................... 49!
Hình 2.3. Đồ thị so sánh kết quả dự báo giữa các phương pháp ........................ 57!
Hình 2.4. So sánh độ chính xác dự báo bằng MSE giữa các phương pháp ....... 57!
Hình 2.5. So sánh độ chính xác dự báo bằng MAPE giữa các phương pháp .... 61!
Hình 2.6. So sánh sai số MAPE của các phương pháp dự báo .......................... 64!
Hình 3.1. Đường ngữ nghĩa biểu diễn chuỗi thời gian ngôn ngữ được xây dựng
bởi 9, 17, 33 và 65 từ ngôn ngữ trên bộ dữ liệu EUA ........................................ 71!
Hình 3.2. So sánh sai số MSE của kết quả dự báo dữ liệu EUA ....................... 79!
Hình 3.3. So sánh sai số MSE của dự báo với bộ 17, 33 và 65 từ sử dụng LTSPSO
............................................................................................................................ 79!
Hình 3.4. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 14 từ trong các bộ từ có
độ dài khác nhau ................................................................................................. 86!
Hình 3.5. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 16 từ trong các bộ từ có
độ dài khác nhau ................................................................................................. 87!
Hình 3.6. Mơ hình dự báo HO-LTS ................................................................... 89!
1
MỞ ĐẦU
1. Tính cấp thiết
Trong suốt q trình hình thành, phát triển của loài người, dự báo trước được
các sự việc có thể xảy ra trong tương lai ln là vấn đề nhận được nhiều sự chú ý,
quan tâm của nhân loại. Dự báo tốt giúp con người chuẩn bị và lập kế hoạch tốt
hơn các cơng việc của mình, để từ đó giảm bớt cơng sức, thời gian và nâng cao
hiệu quả trong công việc hàng ngày.
Dự báo chuỗi thời gian bao gồm các kỹ thuật tính tốn dự báo dựa trên phân
tích dữ liệu lịch sử được thu thập, quan sát được theo trình tự thời gian. Trong vài
chục năm trở lại đây, nhiều nghiên cứu trong nước cũng như ngoài nước được đề
xuất để giải quyết vấn đề dự báo nói chung và dự báo đối với dữ liệu chuỗi thời
gian nói riêng. Những nghiên cứu thường hướng tới việc nâng cao độ chính xác
của mơ hình dự báo và giảm độ phức tạp của phương pháp tính tốn dự báo.
Bài tốn dự báo là bài tốn xử lý dữ liệu có tính chất khơng chắc chắn. Kết
quả dự báo thường có độ chắc chắn khơng cao và khơng thể xây dựng được một
mơ hình dự báo tồn năng đối với mọi loại dữ liệu. Do đó, người ta nghiên cứu
phát triển các loại mơ hình dự báo khác nhau và tiến hành thực nghiệm để tìm ra
những loại mơ hình phù hợp nhất trong từng trường hợp cụ thể. Thêm vào đó,
nhiều dữ liệu thu thập được cũng có độ chắc chắn khơng cao như có hiện tượng
thiếu hụt dữ liệu, biên độ dao động lớn, dữ liệu lịch sử ngắn hay các dữ liệu thu
thập không rõ ràng về số liệu mà chỉ biểu diễn dạng ngơn ngữ… Những điều này
gây nhiều khó khăn đối với các kỹ thuật dự báo chuỗi thời gian bằng phương pháp
hồi quy, thống kê toán học truyền thống vốn đã được quan tâm nghiên cứu trong
lĩnh vực kinh tế. Những phương pháp tính tốn dự báo theo thống kê, hồi quy
cũng chỉ tỏ ra hữu hiệu, chính xác cao khi số lượng quan sát lớn, chuỗi thời gian
là chuỗi dừng, khơng có nhiễu và ít biến động trong thời gian ngắn.
Năm 1993, Song & Chissom lần đầu tiên giới thiệu mơ hình dự báo chuỗi
thời gian mờ (FTS-FM) [1–3]. Đây là mơ hình đặc biệt hữu dụng khi dữ liệu quan
sát lịch sử có độ chắc chắn thấp hay biên độ dao động lớn như đã đề cập ở bên
2
trên. Hơn nữa, mơ hình dự báo FTS-FM cịn có khả năng dự báo trên dữ liệu chuỗi
thời gian dưới dạng ngơn ngữ. Năm 1996, Chen giới thiệu mơ hình dự báo FTSFM cải tiến [4] với phương pháp tính tốn số học hiệu quả hơn so với các mơ hình
đề xuất ban đầu. Đó là các nghiên cứu cơ bản, đặt nền móng cho những nghiên
cứu sau này về FTS với nhiều mơ hình được đề xuất. Đã có nhiều nghiên cứu về
chuỗi thời gian mờ được công bố trên các tạp chí khoa học và hội nghị chuyên
ngành uy tín trong khoảng ba mươi năm trở lại đây. Trong nghiên cứu [5], Bose
và Mali đã nghiên cứu và bình phẩm gần 200 bài báo cơng bố trên các tạp chí
khoa học và hội nghị chuyên ngành uy tín về phương pháp dự báo FTS từ năm
1993 đến 2018. Đây chỉ là một con số nhỏ so với lượng cơng bố khoa học khá lớn
về lĩnh vực này.
Có hai loại mơ hình dự báo FTS-FM là mơ hình phụ thuộc thời gian (timevariant) và mơ hình khơng phụ thuộc thời gian (time-invariant). Có khá nhiều
nghiên cứu về mơ hình không phụ thuộc thời gian nhưng nghiên cứu về mô hình
phụ thuộc thời gian khơng đáng kể [3], [6–9]. Mơ hình dự báo FTS-FM cũng được
chia thành hai nhóm là mơ hình dự báo bậc nhất và mơ hình dự báo bậc cao. Nếu
quan hệ lơ-gic mờ có một thành phần ở vế trái thì đó là mơ hình bậc nhất [4],
ngược lại đó là mơ hình bậc cao khi dữ liệu dự báo liên quan tới nhiều dữ liệu quá
khứ [10–24]. Chuỗi thời gian có thể là đơn nhân tố hoặc đa nhân tố [15], [25–36],
tùy thuộc vào số lượng các quan sát sử dụng trong mơ hình tính tốn. Thơng
thường, các quan hệ lơ-gic mờ được thiết lập và bổ sung vào các nhóm mà khơng
quan tâm tới việc lặp lại. Tức là, các phương pháp dự báo thường chỉ thêm các
quan hệ chưa có vào nhóm quan hệ lơ-gic mờ. Tuy nhiên, cũng có những nghiên
cứu quan tâm tới việc lặp lại của các quan hệ bằng cách gán trọng số cho việc lặp
lại của các quan hệ này [37–45].
Việc xác định không gian nền cho mô hình dự báo FTS-FM có thể dựa trực
tiếp trên dữ liệu quan sát lịch sử hoặc lấy sai phân của dữ liệu [9], [22]. Trong đó,
các nghiên cứu dùng các tập mờ đại diện cho các từ ngôn ngữ, được sắp xếp trong
một phân hoạch mờ trên không gian nền. Việc phân hoạch tập nền có hai cách là
chia thành các đoạn bằng nhau và khơng bằng nhau, trong đó Huarng [46], [47]
3
đã đề xuất mơ hình heuristic cho FTS và thảo luận về việc lựa chọn khoảng chia
tốt nhất trên không gian nền. Việc phân hoạch cũng có thể được thực hiện bằng
mơ hình tốn học hoặc bằng các kỹ thuật tính tốn mềm. Trong hơn mười năm
trở lại đây, nhiều mơ hình lai giữa FTS và các kỹ thuật tính toán hiện đại được đề
xuất, như việc dùng các kỹ thuật tính tốn tối ưu [12], [27], [30], [33], [48–54],
phân cụm [25], [55–65] hay mơ hình mạng nơ-ron nhân tạo [11], [20], [51], [66–
76].
Việc mờ hóa dữ liệu thường dùng số mờ tam giác, nhưng cũng có một số
nghiên cứu dùng số mờ hình thang [37], [43], [77], [78]. Ngồi ra, việc sử dụng
tập thô [79–82], tập mờ trực cảm [17], [39], [72], [83–90] hay tập mờ ảnh [74],
[91], [92] cũng là những hướng nghiên cứu mới được đề xuất trong lĩnh vực dự
báo FTS.
Ở Việt Nam, việc nghiên cứu về dự báo FTS cũng đã được quan tâm. Có thể
kể đến các công bố của các nhà nghiên cứu thuộc Viện Hàn lâm Khoa học và
Công nghệ Việt Nam [93–97] hay nghiên cứu của các tác giả tại Đại học Tơn Đức
Thắng và Đại học Cần Thơ [98–101]. Ngồi ra, các tác giả trong nước cũng kết
hợp với các tác giả nước ngoài để nghiên cứu đề xuất cải tiến cho mơ hình dự báo
[27], [102]. Nghiên cứu của các tác giả trong nước về bài toán dự báo đặc biệt là
dự báo FTS cịn ít và chưa nhiều công bố đáng chú ý.
Các nghiên cứu [98–101] cải tiến phương pháp dự báo FTS và áp dụng vào
một số bộ dữ liệu như sản lượng ngũ cốc, độ ngập mặn của đồng bằng sông Cửu
Long. Các tác giả sử dụng các kỹ thuật tính tốn tiến hóa sai phân, phân cụm để
cải tiến các mơ hình dự báo FTS. Gần đây, các nghiên cứu đáng chú ý trong [94–
96] sử dụng các mơ hình dự báo FTS phụ thuộc thời gian (time-variant) và các
cải tiến khi áp dụng các mơ hình lai với các kỹ thuật tính tốn tiên tiến như tối ưu
bầy đàn (PSO), phân cụm. Các tác giả cũng đã thử nghiệm các mơ hình dự báo
FTS-FM bậc cao và cho các kết quả dự báo khá tốt trên cơ sở phương pháp tính
tốn mờ.
Trong [93], các tác giả đã áp dụng những kết quả đạt được trong việc ứng
dụng đại số gia tử (ĐSGT) vào lĩnh vực điều khiển học, từ đó đề xuất mơ hình dự
4
báo FTS-FM bằng việc phân hoạch khơng gian bài tốn thành các khoảng tương
ứng với các khoảng tính mờ của từ ngơn ngữ. Các tác giả Hồng Tùng, Vũ Minh
Lộc trong các nghiên cứu [103–107] cũng đã ứng dụng lý thuyết ĐSGT vào bài
toán dự báo FTS. Trong các nghiên cứu này, tác giả đã sử dụng lý thuyết ĐSGT
để phân hoạch một cách hợp lý trên không gian nền nhằm nâng cao độ chính xác
của kết quả dự báo. Tuy nhiên, các nghiên cứu này chưa thực hiện tính toán dự
báo trực tiếp trên giá trị ngữ nghĩa định lượng của các giá trị ngơn ngữ và cịn
mang đậm triết lý phương pháp dự báo FTS khi còn dựa chủ yếu trên việc chia
khoảng và thiết lập các tập mờ đại diện trên đó.
Trong khoa học máy tính, việc xây dựng các thuật tốn giúp máy tính tư duy
giống con người, được gọi là trí tuệ nhân tạo (AI), là một lĩnh vực hấp dẫn các
nhà nghiên cứu và mang lại nhiều ứng dụng thiết thực. Con người thường xuyên
xử lý những từ ngôn ngữ để đem đến quyết định phù hợp với thực tế. Khi xét tới
cấu trúc của thông tin, giữa các từ ngôn ngữ đều tồn tại quan hệ thứ tự vốn có dựa
trên ngữ nghĩa của chúng. Chính những ngữ nghĩa này giúp con người tư duy, đưa
ra các so sánh giúp họ ra quyết định trong công việc và sinh hoạt hàng ngày. Xuất
phát từ những điều đó, N.C. Hồ và W. Wechler đã đề xuất khái niệm ĐSGT [108],
[109]. Đây là một lý thuyết cho phép mơ hình hóa bằng tốn học các từ ngôn ngữ
tự nhiên bên cạnh lý thuyết tập mờ. Trong mơ hình ĐSGT, các từ ngơn ngữ đều
có các đặc tính mờ và giá trị ngữ nghĩa có thể được lượng hóa được trong các mối
quan hệ ngữ nghĩa trên một miền ngôn ngữ cụ thể. Và trong các ứng dụng thực
tế, những tham số này có thể giúp thiết lập các mơ hình tính tốn trên ngơn ngữ
một cách hiệu quả. ĐSGT đã được nghiên cứu ứng dụng thành công trong nhiều
lĩnh vực như điều khiển học [110–124], phân lớp và hồi quy [125–128], tóm tắt
ngơn ngữ [129], [130], xử lý ảnh [131], hỗ trợ ra quyết định [132], [133], mạng
máy tính [134], [135], cơng nghệ rơ-bốt [136–139] và nhiều lĩnh vực khác.
Do đó, động lực nghiên cứu của luận án là nhằm đề xuất một hướng nghiên
cứu mới đối với bài toán dự báo chuỗi thời gian bằng việc ứng dụng lý thuyết
ĐSGT trong đó chú trọng tới các giá trị ngữ nghĩa định lượng của các từ ngơn
ngữ. Điểm khác biệt của các mơ hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM)
5
được đề xuất trong luận án là phương pháp tính toán dự báo được thực hiện trực
tiếp trên ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng trong mơ hình.
Tức là phương pháp đề xuất khơng thực hiện chia khoảng không gian nền, mà dựa
trực tiếp trên các điểm ngữ nghĩa của các từ ngôn ngữ. Đây là điểm khác biệt so
với các phương pháp dự báo FTS hay các phương pháp dự báo dựa trên lý thuyết
ĐSGT khác đã được đề cập ở trên. Khi dữ liệu lịch sử có thể biểu diễn dưới dạng
ngơn ngữ thì vấn đề ngữ nghĩa của chúng quyết định kết quả dự báo sẽ là một
phương pháp tính tốn một cách tự nhiên, mô phỏng sát với phương pháp tư duy
ngôn ngữ của con người. Điều này mang tới nhiều thuận lợi trong việc xây dựng
mơ hình, giúp đơn giản hóa việc tính tốn, nâng cao độ chính dự báo cũng như
tạo điều kiện thuận lợi cho việc cải tiến mơ hình.
2. Mục tiêu nghiên cứu
Mục tiêu tổng qt: Xây dựng và đề xuất được các mơ hình dự báo chuỗi
thời gian ngôn ngữ trên cơ sở lý thuyết ĐSGT.
Mục tiêu cụ thể:
- Nghiên cứu, đề xuất mơ hình dự báo chuỗi thời gian ngôn ngữ.
- Đề xuất một số mở rộng cho mơ hình dự báo chuỗi thời gian ngôn ngữ.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các mơ hình dự báo chuỗi thời gian ngôn ngữ.
- Phạm vi nghiên cứu: Nghiên cứu đề xuất mơ hình dự báo chuỗi thời gian
ngơn ngữ và một số mở rộng cho mơ hình dự báo chuỗi thời gian ngôn ngữ.
4. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Tổng hợp và nghiên cứu về các mô hình dự báo chuỗi
thời gian, đặc biệt là FTS. Nghiên cứu cơ sở lý thuyết ĐSGT làm nền tảng, cơ sở
toán học cho các phương pháp dự báo được đề xuất.
- Nghiên cứu thực nghiệm: Các mơ hình được xây dựng, thử nghiệm để so
sánh, đánh giá với các mô hình dự báo khác trên các bộ dữ liệu được sử dụng phổ
biến trong lĩnh vực dự báo chuỗi thời gian mờ nhằm chứng minh những điểm mới
và tính hiệu quả của các mơ hình đề xuất.
6
5. Điểm mới của luận án
Luận án nghiên cứu ứng dụng lý thuyết ĐSGT vào bài toán dự báo chuỗi
thời gian bằng cách đề xuất các mơ hình dự báo chuỗi thời gian ngơn ngữ trong
đó giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ được sử dụng trong mơ
hình với vai trị là thành tố chính trong mơ hình tính tốn. Nếu như phương pháp
dự báo FTS thực hiện phân hoạch không gian nền thành các khoảng để từ đó xác
định các tập mờ biểu diễn cho các giá trị ngơn ngữ thì phương pháp dự báo chuỗi
thời gian ngơn ngữ thực hiện tính tốn trực tiếp trên giá trị ngữ nghĩa định lượng
của các từ ngôn ngữ mà không thực hiện việc chia khoảng không gian nền.
Thực hiện các mục tiêu nghiên cứu đã đặt ra, luận án đóng góp các kết quả
quan trọng sau:
1)! Đề xuất khái niệm chuỗi thời gian ngôn ngữ (LTS) cùng với định nghĩa
về quan hệ lô-gic ngôn ngữ (LLR) và nhóm quan hệ lơ-gic ngơn ngữ
(LLRG).
2)! Đề xuất mơ hình dự báo mơ hình dự báo chuỗi thời gian ngơn ngữ (LTSFM), trong đó ngữ nghĩa định lượng của các từ ngơn ngữ được sử dụng
làm cơng cụ tính tốn chính của mơ hình trên cơ sở thiết lập các luật dự
báo LLR và các nhóm quan hệ LLRG của chúng.
3)! Đề xuất nghiên cứu mở rộng mơ hình dự báo chuỗi thời gian ngôn ngữ
bằng việc đề xuất mơ hình WLTS-FM trong đó các luật dự báo có trọng
số và việc mở rộng không gian ngôn ngữ của mơ hình dự báo; đề xuất
các mơ hình dự báo tối ưu LTS-PSO, LTS-PSCO và mơ hình dự báo
chuỗi thời gian ngôn ngữ bậc cao HO-LTS.
Đây là lần đầu tiên, khái niệm LTS được đề cập một cách có hệ thống dựa
trên ngữ nghĩa ngôn ngữ được dùng để biểu diễn các giá trị khác nhau của dữ liệu
quan sát lịch sử. Luận án đóng góp một cách tiếp cận mới trong việc nghiên cứu
bài toán dự báo chuỗi thời gian và cũng gợi mở các nghiên cứu mở rộng mơ hình
dự báo chuỗi thời gian ngơn ngữ. Luận án cũng góp phần khẳng định tính đúng
đắn, ưu việt của ĐSGT đồng thời góp phần mở rộng khả năng ứng dụng của lý
thuyết ĐSGT.
7
7. Bố cục của luận án
Luận án được bố cục bao gồm các phần: phần mở đầu, ba chương nội dung
chính của luận án, phần kết luận và danh mục tài liệu tham khảo. Nội dung của
các chương cụ thể như sau:
Chương 1 tóm tắt các khái niệm cơ bản về chuỗi thời gian, chuỗi thời gian
mờ (FTS) và các mơ hình dự báo FTS-FM. Chương tập trung trình bày các
phương pháp dự báo chuỗi thời gian mờ, các xu hướng nghiên cứu, các kết quả
chính trong bài tốn dự báo FTS. Chương này cũng sẽ trình bày lý thuyết ĐSGT
trên cơ sở xem xét mối quan hệ giữa thông tin và cấu trúc của thơng tin, từ đó
khám phá mơ hình tốn học ẩn chứa trong cấu trúc của thơng tin. Theo đó, chính
cấu trúc thơng tin trong miền ngôn ngữ sinh ra ngữ nghĩa, và ngữ nghĩa này được
sử dụng trong mơ hình dự báo LTS-FM.
Chương 2 đề xuất mơ hình dự báo LTS-FM, trong đó các khái niệm về chuỗi
thời gian ngôn ngữ (LTS), quan hệ lô-gic ngơn ngữ (LLR), nhóm quan hệ lơ-gic
ngơn ngữ (LLRG) sẽ được đề xuất. Các thực nghiệm trên dữ liệu số sinh viên
nhập học của Đại học Alabama (EUA) cùng hai phương pháp dự báo cũng sẽ
được tiến hành nhằm chỉ ra những khác biệt và ưu điểm của mơ hình đề xuất.
Chương 3 sẽ đề xuất một số nghiên cứu mở rộng về mơ hình dự báo đối với
chuỗi thời gian ngơn ngữ. Trong chương này, mơ hình dự báo với luật ngơn ngữ
có trọng số, việc mở rộng khơng gian ngôn ngữ, tối ưu các tham số, tối ưu việc
chọn các từ ngơn ngữ sẽ được trình bày. Bên cạnh đó, chương này cũng đề xuất
mơ hình dự báo LTS bậc cao và gợi ý các hướng nghiên cứu cải tiến, mở rộng mơ
hình dự báo.
8
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
1.1. Dự báo chuỗi thời gian mờ
1.1.1. Khái niệm về chuỗi thời gian
Chuỗi thời gian là một dãy các giá trị quan sát 9 được sắp xếp theo thứ tự
thời gian của một biến quan sát được biểu diễn như sau:
9 = {#' , #) , … , #* }
trong đó, #$ là giá trị quan sát tại thời điểm + với + = 1 … -.
Thông thường, chuỗi thời gian là tập hợp các dữ liệu được thu thập theo các
khoảng thời gian liên tiếp, cách đều nhau. Khi đó, dữ liệu này có thể được coi là
dữ liệu chuỗi thời gian rời rạc.
Trong cuộc sống hàng ngày, nhiều dữ liệu chuỗi thời gian có thể được bắt
gặp như: nhiệt độ trung bình của một địa điểm cụ thể theo ngày, chỉ số chứng
khoán theo các phiên làm việc, giá vàng, tỉ giá ngoại tệ cuối ngày,...
Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021.
(Nguồn: , truy cập 29/7/2021)
Phân tích chuỗi thời gian là một khái niệm bao gồm nhiều phương pháp khác
nhau nhằm phân tích, trích xuất các thơng tin có ý nghĩa từ dữ liệu chuỗi thời gian
đã thu thập được. Trong đó, dự báo chuỗi thời gian là một phương pháp tính tốn
9
nhằm dự báo giá trị tương lai của biến quan sát dựa trên các giá trị lịch sử đã ghi
nhận được tại các thời điểm trước đó.
Nói chung, bài tốn dự báo là một bài toán xử lý dữ liệu khơng chắc chắn và
kết quả dự báo có tính chất bất định cao. Có thể nói khơng nghiên cứu nào có thể
đề xuất mơ hình dự báo đảm bảo sự chính xác tuyệt đối. Vì tính chất đó của bài
tốn dự báo, việc sử dụng các phương pháp tính tốn đối với dữ liệu không chắc
chắn trong những năm trở lại đây được nghiên cứu khá nhiều. Trong đó, các mơ
hình dự báo FTS-FM được trình bày dưới đây là một trong những hướng nghiên
cứu như vậy.
1.1.2. Mơ hình dự báo FTS-FM
1.1.2.1. Tập mờ và khả năng mơ hình tốn học miền ngôn ngữ
Khái niệm về tập mờ được Zadeh đề xuất trong [140], trên cơ sở phân biệt
với khái niệm tập hợp của lý thuyết tập hợp kinh điển. Lý thuyết tập mờ biểu diễn
các khái niệm mang tính trừu tượng của thơng tin nhứ ‘trẻ’, ‘già’, ‘nhiều’, ‘ít’…
bằng các cấu trúc tốn học.
Gọi ? là khơng gian nền (hay cịn gọi là tập nền) của bài tốn đang xét, mà
trên đó xác định một tập hợp các đối tượng. Cho 9 là một tập rõ thuộc ?, khi đó
xác định một hàm thuộc ! như sau:
1, -ếB# ∈ 9
!! ( # ) = @
0, -ếB# ∉ 9
Tuy nhiên, trên thực tế khơng phải lúc nào cũng có thể xác định được quan
hệ thuộc này một cách chính xác tuyệt đối. Ví dụ, nếu phân loại người thành ‘già’
và ‘trẻ’ dựa theo tuổi của họ thì khó có thể nói chính xác một người 45 tuổi là
‘già’ hay ‘trẻ’. Suy luận của con người thường mang tính ước lượng nhiều hơn so
với tính chất rõ ràng tuyệt đối như đa số lý thuyết số học truyền thống.
Trong lý thuyết tập mờ, mối quan hệ giữa các phần tử và tập mờ là một hàm
số. Hàm số đó được gọi là hàm thuộc (membership function) chỉ ra mức độ thuộc
tập mờ của các phần tử.
10
Giả sử % là một tập mờ được xác định trên ?. Với mỗi phần tử # ∈ ?, hàm
thuộc !+ (#) là một ánh xạ cho tương ứng từ ? vào đoạn [0,1] chỉ ra mức độ thuộc
của # vào %. Khi đó, tập mờ % được kí hiệu như sau:
% = IJ#, !+ (# )KL# ∈ ?}, !+ (# ) ∈ [0,1]
Như vậy, mối quan hệ phụ thuộc giữa phần tử # vào tập mờ % không chỉ có
tính chất tuyệt đối, tức là giá trị của !+ (# ) bằng 0 hay 1, mà mức độ thuộc còn
nhận các giá trị khác như 0,15; 0,32; 0,8; … Trường hợp nếu !+ (# ) = 0 ta nói
# không thuộc % và tương tự nếu !+ (# ) = 1 ta nói # hồn tồn thuộc %. Hai
trường hợp này giống với quan hệ phần tử - tập hợp của tập hợp kinh điển.
1.1.2.2. Chuỗi thời gian mờ
Như đã đề cập, dữ liệu chuỗi thời gian là một dãy dữ liệu về một sự vật hoặc
hiện tượng xác định thu thập được theo thứ tự thời gian. Một số bài tốn dự báo
chuỗi thời gian kinh điển có thể kể đến như dự báo thời tiết, chỉ số chứng khoán,
dân số, tăng trưởng kinh tế... Trong các bài tốn này, tri thức là khơng chắc chắn
hay nói cách khác khó biết trước những sự kiện xảy ra một cách chắc chắn. Bởi
vì bản chất của dự báo là không chắc chắn, đôi khi số lượng dữ liệu thu thập ít,
khơng rõ ràng thì các mơ hình thống kê, hồi quy trở nên kém phù hợp và hiệu quả
[141]. Ví dụ, tỉ giá chứng khốn có thể đột ngột tăng lên hoặc giảm xuống, nhiệt
độ có thể bất chợt lên cao hoặc xuống thấp, lượng mưa có thể biến đổi lớn phụ
thuộc tác động mơi trường... Đó đều là những hiện tượng khơng chắc chắn. Các
đặc tính của những loại dữ liệu này đều khơng thể đốn biết một cách chắc chắn
được. Do tính chất đó, các mơ hình tốn học truyền thống hay các mơ hình thống
kê xử lý các dữ liệu này một cách kém hiệu quả hơn.
Dự báo trạng thái tương lai của sự vật, hiện tượng dựa theo dữ liệu chuỗi
thời gian là một chủ đề thu hút giới nghiên cứu. Dự báo với độ chính xác 100%
dường như bất khả thi. Tuy nhiên, độ chính xác dự báo và tốc độ xử lý của mơ
hình dự báo là những vấn đề có thể cải thiện được. Do đó, Song và Chisssom đã
phát triển và giới thiệu mơ hình dự báo để xử lý tính bất định và không chắc chắn
của tri thức tồn tại trong chuỗi thời gian vào năm 1993 [1–3]. Đây là những nghiên
11
cứu đầu tiên áp dụng các khái niệm về tập mờ để diễn tả tính bất định của dữ liệu
với tên gọi đề xuất là chuỗi thời gian mờ (Fuzzy Time Series).
Ban đầu, các mơ hình dự báo FTS-FM thường được thực nghiệm với các dữ
liệu chuỗi thời gian ngắn hạn. Trong những năm trở lại đây, việc ứng dụng mơ
hình dự báo này vào các dữ liệu dài hạn cũng đã được quan tâm. Ngoài ra, việc
phát triển các mơ hình tính tốn lai (hybrid models) với mạng nơ-ron nhân tạo,
tập thơ hay tối ưu bằng tính tốn tiến hóa, phân cụm cũng được nhiều tác giả quan
tâm nghiên cứu.
1.1.2.3. Một số khái niệm về FTS
Trong phần này, một số khái niệm cơ bản về FTS và mơ hình dự báo của
chúng với những đề xuất của Song & Chissom [1–3] sẽ được trình bày. Đây là
những đề xuất đầu tiên và quan trọng, làm cở sở cho các nghiên cứu sau này nhằm
cải tiến các phương pháp dự báo mờ.
Trong [1], Song & Chissom đã lấy các ví dụ về FTS có thể ghi nhận được từ
các quan sát trong thế giới thực:
Ví dụ 1. Quan sát thời tiết tại một vị trí cụ thể ở Bắc Mỹ từ đầu năm đến cuối
năm. Thay vì sử dụng các số để biểu diễn nhiệt độ (oC hay oF), người ta có thể
dùng các từ ngơn ngữ để đánh giá về thời tiết như: tốt, khá tốt, rất tốt, mát, khá
mát, rất mát, nóng, rất nóng, lạnh, rất lạnh, rất rất lạnh,... Con người nói chung
thường dùng cảm nhận để ước lượng nhiệt độ bằng các từ ngôn ngữ và kinh
nghiệm thực tế của riêng mình. Trong ví dụ trên, nếu như một người nào đó quan
sát thời tiết và ghi nhận thông qua ngôn ngữ, các giá trị thu nhận là các từ ngơn
ngữ thì các phương pháp dự báo theo thống kê truyền thống khó có thể được áp
dụng với loại dữ liệu này.
Ví dụ 2. Quan sát tâm trạng của một người trong điều kiện tâm lý bình thường
theo trình tự thời gian. Khi đó, tâm trạng của một người có thể thay đổi theo các
cảm giác của anh ta và có thể biểu đạt bằng các từ như tốt, khá tốt, rất tốt, khá tốt,
tệ, khá tệ, rất tệ,... Nếu tiến hành quan sát sự thay đổi tâm trạng này theo các
khoảng thời gian khác nhau ta sẽ được một chuỗi dữ liệu mà chuỗi giá trị thu được
12
là các giá trị ngôn ngữ. Các phương pháp dự báo bằng tốn học, thống kê truyền
thống khơng thể sử dụng để tính tốn dự báo cho dữ liệu này.
Các ví dụ trên đều có các đặc điểm tương đồng là các quan sát với dữ liệu
thu thập được là các từ ngôn ngữ mà các phương pháp dự báo truyền thống không
thể giải quyết được. Bằng cách biểu diễn các từ ngôn ngữ dưới dạng các tập mờ,
vấn đề dự báo FTS có thể được giải quyết dựa trên việc thiết lập các quan hệ mờ
của dữ liệu lịch sử.
Định nghĩa 1.1: (FTS) [1] Cho R (S)(S = 0,1,2, … ) là một tập con của tập số
thực ℝ, trên đó xác định các tập mờ U$ (S)(+ = 1,2, … ). Nếu V (S) là một tập hợp
của các U$ (S ) thì V (S ) được gọi là một chuỗi thời gian mờ trên R(S)(S = 0,1,2, … ).
Trong định nghĩa trên, V (S) được hiểu là một biến ngôn ngữ và
U$ (S)(+ = 1,2, … ) là các giá trị ngôn ngữ của V (S ). Tại mỗi thời điểm khác nhau,
giá trị của V (S) có thể là các tập mờ khác nhau. Do đó, V (S ) là một hàm phụ thuộc
thời gian và R(S) cũng là một không gian nền tại thời điểm S nhất định nào đó.
Định nghĩa 1.2: [1] Nếu với mọi tập mờ U, (S) ∈ V (S ), W ∈ X, tồn tại tập mờ
U$ (S − 1) ∈ V (S − 1), + ∈ Z và quan hệ mờ [$, (S, S − 1) sao cho
U, (S ) =
U$ (S − 1)°[$, (S, S − 1) trong đó ‘°’ là phép tốn max-min, thì khi đó V (S) được
gọi là sinh ra bởi V (S − 1) và kí hiệu V (S − 1) ⟶ V (S). Trong đó, Z và X là các
tập chỉ số tương ứng của các tập mờ V (S − 1) và V (S).
Trong định nghĩa trên của Song & Chissom, phép toán trên chỉ ra quan hệ
giữa giá trị tại thời điểm đang xét và giá trị tại thời điểm trước đó là phép tốn
max-min, nhưng trong nhiều mơ hình dự báo FTS khác thì phép tốn này là phép
tốn quan hệ và được cụ thể hóa bằng các phương pháp tính toán khác nhau.
Định nghĩa 1.3: (Quan hệ mờ) [1] Nếu với mọi U, (S ) ∈ V (S), W ∈ X, tồn tại
U$ (S − 1) ∈ V (S − 1), + ∈ Z và một quan hệ mờ [$, (S, S − 1) sao cho U, (S ) =
U$ (S − 1)°[$, (S, S − 1). Xét [ (S, S − 1) = ⋃$,, [$, (S, S − 1) trong đó ‘∪’ là phép
tốn hợp. Khi đó, [ (S, S − 1) được gọi là quan hệ mờ giữa V (S) và V (S − 1) và
định nghĩa như sau:
V (S) = V (S − 1)°[ (S, S − 1).
13
Dựa trên các quan hệ mờ của dữ liệu chuỗi thời gian, Song & Chissom trong
[1] đã đề xuất mô hình dự báo FTS-FM với 7 bước, bao gồm:
¥! Bước 1: Xác định khơng gian nền, trên đó thiết lập các tập mờ;
¥! Bước 2: Thu thập dữ liệu quan sát (dạng ngơn ngữ);
¥! Bước 3: Định nghĩa các tập mờ trên khơng gian nền;
¥! Bước 4: Xây dựng các quan hệ mờ của dữ liệu;
¥! Bước 5: Tổng hợp tất cả các quan hệ mờ ở bước 4;
¥! Bước 6: Tính tốn kết quả dự báo;
¥! Bước 7: Giải mờ để tính tốn kết quả dự báo (nếu cần).
Nếu với mọi điểm thời gian S, một chuỗi thời gian mờ có chung quan hệ dự
báo thì mơ hình dự báo đó được gọi là FTS độc lập thời gian (time-invariant),
ngược lại đó là FTS phụ thuộc thời gian (time-variant). Trong cả hai trường hợp
này, mơ hình dự báo bậc nhất (first-order) có thể được biểu diễn như sau:
V (S) = V (S − 1)°[ (S, S − 1)
trong đó ‘°’ là phép toán max-min và [(S, S − 1) là hợp của tất cả các quan hệ mờ
giữa bất cứ U, (S − 1) ∈ V (S − 1) với bất cứ U$ (S) ∈ V (S). Khi áp dụng FTS trong
dự báo, ta luôn giả sử biến dự báo là V (S). Do đó, có thể thấy rằng quan hệ
[ (S, S − 1) là một phép ngoại suy từ V (S − 1) tới V (S) nên quan hệ này được gọi
là phép ngoại suy.
Nếu với một thời điểm S nhất định, mơ hình dự báo FTS-FM có thể cho các
giá trị [ (S, S − 1) khác nhau thì mơ hình dự báo đó được gọi là phụ thuộc thời
gian. Mơ hình FTS-FM phụ thuộc thời gian được đề xuất trong [3] như sau:
¥! Bước 1: Xác định khơng gian nền ?, trên đó thiết lập các tập mờ;
¥! Bước 2: Phân hoạch ? thành các đoạn có chiều dài như nhau;
¥! Bước 3: Định nghĩa các tập mờ trên ?;
¥! Bước 4: Nếu dữ liệu lịch sử là các từ ngơn ngữ thì chuyển đến bước 5,
nếu khơng thì mờ hóa dữ liệu lịch sử;
¥! Bước 5: Chọn tham số `, xác định các quan hệ [ . (S, S − 1) và tính
tốn kết quả dự báo;
14
¥! Bước 6: Giải mờ (nếu cần thiết).
Điểm khác biệt cơ bản của mơ hình dự báo FTS-FM phụ thuộc thời gian là
mơ hình này khơng xem xét tồn bộ dữ liệu lịch sử mà chỉ xem xét trên một đoạn
dữ liệu nhất định. Thêm vào đó, bước 6 của mơ hình trong [2] cũng được gộp với
bước 5 nên mơ hình dự báo chỉ cịn tổng cộng 6 bước.
1.1.2.4. Mơ hình dự báo của Chen
Trong các mơ hình dự báo được đề xuất bởi Song & Chissom [1–3], các quan
hệ mờ được xác lập, tính tốn bởi các phép toán hợp, max-min khá phức tạp và
tốn thời gian thực hiện nên hiệu quả tính tốn khơng cao. Do đó, Chen trong
nghiên cứu [4] đã đề xuất một phương pháp dự báo mới dựa trên chuỗi thời gian
mờ. Đây là nghiên cứu khá tiêu biểu về FTS với hàng trăm lượt trích dẫn. Tính
đến tháng 8 năm 2021, nghiên cứu này đã được trích dẫn gần 800 lượt (theo
ScienceDirect).
Để hiểu hơn về phương pháp tính tốn dự báo được đề xuất bởi Chen [4],
một số khái niệm về quan hệ mờ cũng như nhóm quan hệ mờ được ơng đề xuất
sẽ được xem xét dưới đây.
Định nghĩa 1.4: (Quan hệ lô-gic mờ) [4] Trong định nghĩa 1.3, nếu đặt
V (S − 1) = 0$ và F(S) = 0, thì quan hệ giữa V (S ) và V (S − 1) được gọi là quan
hệ lô-gic mờ (FLR - Fuzzy Logical Relationship) và kí hiệu như sau:
0$ ⟶ 0, ,
trong đó 0$ và 0, là các nhãn ngôn ngữ tương ứng là vế trái và vế phải của quan
hệ lô-gic mờ.
Định nghĩa 1.5: (Nhóm quan hệ lơ-gic mờ) [4] Nếu tồn tại các quan hệ lôgic mờ như sau:
0$ ⟶ 0/' ,
0$ ⟶ 0/) ,
⋯
0$ ⟶ 0/0 .
Khi đó, có thể nhóm các quan hệ lơ-gic mờ có cùng vế trái thành một nhóm
và gọi là nhóm quan hệ lơ-gic mờ (FLRG - Fuzzy Logical Relationship Group).