..
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------TRẦN ĐỨC NHUẬN
TRẦN ĐỨC NHUẬN
HỆ THỐNG THÔNG TIN
NGHIÊN CỨU XÂY DỰNG MƠ HÌNH DỰ ĐỐN LƯỢNG TIÊU
THỤ VÀ TỰ ĐỘNG CO DÃN TÀI NGUYÊN TRONG MÔI
TRƯỜNG PHÂN TÁN
LUẬN VĂN THẠC SĨ KHOA HỌC
Hệ thống thông tin
2017A
Hà Nội – Năm 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------TRẦN ĐỨC NHUẬN
NGHIÊN CỨU XÂY DỰNG MƠ HÌNH DỰ ĐOÁN LƯỢNG TIÊU THỤ VÀ
TỰ ĐỘNG CO DÃN TÀI NGUYÊN TRONG MƠI TRƯỜNG PHÂN TÁN
Chun ngành : Hệ thống thơng tin
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS. Nguyễn Bình Minh
Hà Nội – Năm 2018
Lời cảm ơn
Đầu tiên, tôi xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo thuộc trường đại học Bách
Khoa Hà Nội, đặc biệt là các thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin và Truyền Thông.
Đồng thời tôi cũng xin được gửi lời cảm ơn đặc biệt đến TS Nguyễn Bình Minh. Thầy là người đã chỉ
dẫn tận tình, cho tơi những kinh nghiệm q báu để có thể hồn thành luận văn này.
Tơi xin gửi lời cảm ơn tới gia đình. Sự sát cánh và động viên tinh thần từ gia đình ln là động
lực để tơi tiến lên phía trước.
2
Lời cam đoan
Tôi - Trần Đức Nhuận - cam kết luận văn này là cơng trình nghiên cứu của bản thân tơi dưới sự
hướng dẫn của TS. Nguyễn Bình Minh.
Các kết quả nêu trong luân vặn là trung thực, không phải là sao chép của bất cứ cơng trình đã
được cơng bố nào khác. Tất cả các trích dẫn đều được tham chiếu rõ ràng.
Hà Nội, ngày 31 tháng 8 năm 2018
Tác giả luận văn
Trần Đức Nhuận
Xác nhận của người hướng dẫn
3
Tóm tắt
Gần đây, mơ hình điện tốn đám mây trở nên rất phổ biến trong rất nhiều tổ chức. Mô hình này cho
phép người sử dụng trả phí theo nhu cầu (pay-as-you-go) đáp ứng được sự phát triển tự nhiên của
mỗi tổ chức. Các tài nguyên ĐTĐM tăng giảm một cách mềm dẻo, tận dụng tối đa tài ngun tính
tốn giảm thiểu nguy cơ cung cấp thừa, gây lãng phí cũng như tránh sự cung cấp không đủ dẫn tới
việc mất đi các khách hàng tiềm năng. Khi sử dụng các dịch vụ điện toán đám mây, khách hàng và
nhà cung cấp đồng ý với các điểu khoản được định nghĩa trong SLA, bao gồm các độ đo chất lượng
dịch vụ khác nhau (Quality of Service). Vì phía lập trình viên, họ cần bảo đảm chất lượng dịch vụ
cung cấp cho người dùng cuối. Tuy vậy, các ứng dụng triển khai trên đám mấy chịu sự ảnh hưởng của
chất lượng cung cấp tài nguyên từ phía nhà cung cấp dịch vụ. Một trong những hướng tiếp cận nhằm
tăng chất lượng dịch vụ sử dụng mơ hình học máy dự đốn lượng tài nguyên sử dụng trong tương lai.
Trong luận án này, chúng tơi trình bày giải pháp tự động khả mở tài ngun cho mơi trường điện
tốn đám mây dựa trên mơ hình máy học. Ở đó, dữ liệu tiêu thụ tài nguyên sử dụng sẽ được thu
thập từ các máy ảo khác nhau, hệ thống sử dụng các kĩ thuật mờ hóa, phát hiện mối tương quan để
phân tích dữ liệu q kứ. Luận án đề xuất mơ hình Multivariate Fuzzy Long Short Term Memory
(MF-LSTM) cho phép dự đoán lượng sử dụng tài nguyên trong tương lai. Từ đó, hệ thống tính tốn
ra số lượng máy ảo cần thiết trong thời gian tới, bảo đảm tối ưu hiệu năng cũng như điện năng tránh
dư thừa lãng phí. Mơ hình đề xuất sử dụng dữ liệu tiêu thụ tài nguyên sử dụng của 1 cụm máy chủ
Google trong thực tế. Những thí nghiệm trên bộ dữ liệu thử nghiệm đã chỉ ra mơ hình đề xuất có
chất lượng tốt hơn ở phần lớn các trường hợp khi được so sánh với các mơ hình khác.
4
Abstract
Cloud computing has emerged as an optimal option for almost all computations problems today.
One of the most advanced features is pay-as-go-go fashion, allowed user to provide computational
resource adequately and flexible. This helps to reduce the renting resource cost to the minimum.
Using cloud services, customers and cloud providers will come to term with usage conditions defined
in Service Layer Agreement (SLA), which specify acceptable Quality of Service (QoS) metric levels.
In term of software developer, they must guarantee quality of service for their end users. However, the
performance of application depends on the influence of resource QoS provided by cloud infrastructure
vendors. One of the important challenge in clouds today is how to improve QoS of computing resources.
Many research deal with the problem by using prediction time series model.
In this thesis, we propose a comprehensive autoscaling solution for clouds based on forecasting
resource consumption in the future. At first, our prediction mode leverages the advantage of fuzzy
approach, entropy correlation and stacked Long Short Term Memory to process historical monitoring
time series data. After that, scaling decision is validated and adapted through evaluating SLA violations. The solution is tested on real workload dataset from Google cluster. The achieved results show
significant increase in efficiency than other baseline models
5
Mục lục
Lời cảm ơn
2
Lời cam đoan
3
Tóm tắt
4
Abstract
5
Danh sách thuật ngữ chính
8
Danh sách hình vẽ
9
Danh sách bảng
11
1 Tổng quan
12
2 Các nghiên cứu liên quan
15
2.1
Tổng quan về điện toán đám mây . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.1
Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.2
Mơ hình dịch vụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.1.3
Mơ hình triển khai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2
Vấn đề cung cấp tài nguyên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3
Các phương pháp dự đoán chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.3.1
Nghiên cứu tổng quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.3.2
Phương pháp tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3.3
Phương pháp mạng nơ-ron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . .
25
2.3.4
Phương pháp học sâu - Deep Learning . . . . . . . . . . . . . . . . . . . . . . .
28
2.3.5
Chuỗi thời gian mờ - Fuzzy Time Series . . . . . . . . . . . . . . . . . . . . . .
31
Các phương pháp phân tích mối tương quan nhiều chiều . . . . . . . . . . . . . . . . .
32
2.4
6
3 Mơ hình đề xuất
34
3.1
Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.2
Tiền xử lý dữ liệu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.3
Trích chọn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.4
Huấn luyện mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.5
Dự đoán tài nguyên sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.6
Đánh giá chất lượng dịch vụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.6.1
Đánh giá tỉ lệ vi phạm SLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.6.2
Sự ra quyết định khả mở tài nguyên . . . . . . . . . . . . . . . . . . . . . . . .
41
4 Thử nghiệm và đánh giá
4.1
43
Thiết lập thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.1.1
Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.1.2
Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.2
Thử nghiệm phương pháp mờ hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.3
Trích chọn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.4
Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.4.1
Thử nghiệm mơ hình đơn biến - đa biến
. . . . . . . . . . . . . . . . . . . . .
47
4.4.2
Thử nghiệm mơ hình đa biến MF-LSTM với mơ hình khác . . . . . . . . . . .
50
Thử nghiệm ra quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.5
5 Kết luận
57
Tài liệu tham khảo
58
7
Danh sách thuật ngữ chính
ĐTĐM
Điện tốn đám mây
IOT
Internet of Things
Auto-scaling
Tự động co dãn tài nguyên
SLA
Cam kết chất lượng dịch vụ (Service Level Agreement)
Artificial Neural network
Mạng nơ-ron nhân tạo
Back propagation
Lan truyền ngược
LSTM
Long Short Term Memory
8
Danh sách hình vẽ
1.1
Sự cung cấp tài nguyên theo nhu cầu (nguồn: LogicMonitor) . . . . . . . . . . . . . .
13
1.2
Dung lượng dữ liệu truyền tải của IoT . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1
Mơ hình triển khai ĐTĐM
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2
Mơ hình hệ thống khả mở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3
Sự cung cấp tài nguyên theo nhu cầu (nguồn: harishblogspot) . . . . . . . . . . . . . .
20
2.4
Mơ hình Periodicity (nguồn slideshare 1 ) . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.5
Mạng nơ-ron nhân tạo nhiều tầng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.6
Mô phỏng hướng đạo hàm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.7
Recurrent Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.8
Recurrent Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.9
Mơ hình của mạng LSTM [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.1
Kiến trúc tổng quan mơ hình tự động khả mở MF-LSTM . . . . . . . . . . . . . . . .
35
3.2
Mức độ tiêu thụ CPU theo thời gian của một job trong cụm máy chủ Gooogle . . . .
36
3.3
Mơ hình LSTM học quan hệ mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.1
Chuỗi dữ liệu CPU trước và sau khi áp dụng kĩ thuật mờ hóa . . . . . . . . . . . . . .
45
4.2
Mối tương quan nhiều chiều trong dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.3
Mối tương quan nhiều chiều cho 4 độ đo . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.4
Kết quả dự đoán CPU của mơ hình đơn biến Fuzzy GABPNN với p = 4 . . . . . . . .
48
4.5
Kết quả dự đốn Memory của mơ hình đơn biến Fuzzy GABPNN với p = 4 . . . . . .
48
4.6
Kết quả dự đốn CPU của mơ hình đơn biến MF-GABPNN với p = 4 . . . . . . . . .
48
4.7
Kết quả dự đốn Memory của mơ hình đơn biến MF-GABPNN với p = 4 . . . . . . .
48
4.8
Kết quả dự đoán CPU với các cửa sổ trượt khác nhau giữa mơ hình MF-BPNN and
MF-GABPNN
4.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Kết quả dự đoán Memory với các cửa sổ trượt khác nhau giữa mơ hình MF-BPNN and
MF-GABPNN
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.10 Kết quả dự đoán CPU với cửa sổ trượt = 2 sử dụng MF-LSTM với δ khác nhau . . .
50
9
4.11 Kết quả dự đoán CPU sử dụng MF-LSTM với δ khác nhau . . . . . . . . . . . . . . .
51
4.12 Kết quả dự đoán memory sử dụng MF-LSTM với δ khác nhau . . . . . . . . . . . . .
51
4.13 Kết quả dự đoán memory sử dụng MF-LSTM với δ khác nhau . . . . . . . . . . . . .
52
4.14 Mức độ vi phạm SLA của mơ hình đa biến với p = 4 . . . . . . . . . . . . . . . . . . .
54
4.15 Kết quả ADI giữa các mơ hình dự đốn khác nhau với p = 4 and s = 2 (càng nhỏ càng
tốt)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.16 Mức độ vi phạm và mức độ CPU theo thời gian giữa 2 mơ hình MF-LSTM và MFGABPNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
56
Danh sách bảng
4.1
Kết quả lựa chọn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.2
So sánh kết quả MAE dự đoán metric CPU với các cửa sổ trượt p khác nhau . . . . .
49
4.3
So sánh kết quả MAE dự đoán metric RAM với các cửa sổ trượt p khác nhau . . . . .
49
4.4
Kết quả dự đoán MAE của metric CPU và RAM của mơ hình MF-LSTM với giá trị δ
khác nhau
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
50
Chương 1
Tổng quan
LogicMonitor đã thực hiện bài nghiên cứu có tên Tầm nhìn ĐTĐM 2020 (LogicMonitor’s Cloud Vision
2020: The Future of the Cloud Study), điều tra về xu hướng sử dụng ĐTĐM và các dự đốn cơng
nghệ. Theo báo cáo, 83% doanh nghiệp sẽ lên "mây" vào năm 2020. LogicMonitor dự đốn 41% số
lượng đó sẽ được đưa lên các đám mây công cộng như Amazon AWS, Google Cloud Platform, IBM
Cloud và Microsoft Azure (Hình 1.1).
Sự chuyển dịch lên ĐTĐM mang lại nhiều lợi ích cho doanh nghiệp. Chi phí vận hành, bảo trì
được cắt giảm nhờ vào việc sử dụng các nền tàng hạ tầng có sẵn. Bên cạnh đó, các nhà cung cấp dịch
vụ đều có chế độ pay-as-you-go, trả tiền theo mức độ sử dụng thực tế. Doanh nghiệp được phần nào
giải phóng khỏi vấn đề bảo mật. Phía nhà cung cấp ĐTĐM đều có đội ngũ bảo mật riêng, dữ liệu
truyền tải đều được mã hóa do đó sự mất mát thơng tin hoặc chiếm quyền tấn công của hacker là
điều không thể.
Sự linh hoạt về tài nguyên sử dụng là một trong những ưu việt mà ĐTĐM mang tới, mà điển
hình là mơ hình trả phí theo nhu cầu (pay-as-you-go). Điều này giúp cho các tổ chức sử dụng linh
hoạt các tài nguyên của hệ thống, thay vì chỉ định các phần cứng đặc biệt cho từng nhu cầu. Trước
khi có ĐTĐM, các trang website, ứng dụng theo mơ hình khác-chủ được triển khai trên trên một hệ
thống vật lí cụ thể. Với cơng nghệ ĐTĐM, các tài nguyên được sử dụng dưới dạng các máy ảo. Cấu
hình hợp nhất này cung cấp mơi trường cho các ứng dụng thực hiện một cách độc lập mà khơng quan
tâm tới cấu hình cụ thể nào. Với ĐTĐM, tài nguyên sẽ được cung cấp một cách mềm dẻo theo nhu
cầu sử dụng, mơ hình này giúp giảm thiểu nguy cơ cung cấp thừa tài nguyên, giảm sự lãng phí tài
ngun trong các giờ khơng cao điểm, và tránh việc thiếu tài nguyên trong các giờ cao điểm [20]. Tuy
vậy, vấn đề này khá khó khăn để đạt được khi mà các nhà cung cấp dịch vụ cần có một cơ chế khác,
hỗ trợ tối ưu hóa ngay lập tức và chính xác số lượng tài nguyên thay vì cơ chế sử dụng ngưỡng như
hiện này. Lấy ví dụ với sư phát triển của các thiết bị phần cứng Internet of Thing hiện nay, số lượng
sensor kết nối với ĐTĐM ngày càng trở nên đơn giản và phổ biến. Mơ hình IoT là mẫu hình cho phép
các vật, đối tượng, cảm biến kết nối với nhau. Nền tảng sử dụng IoT như hệ thống thành phố thông
12
Hình 1.1: Sự cung cấp tài nguyên theo nhu cầu (nguồn: LogicMonitor)
Hình 1.2: Dung lượng dữ liệu truyền tải của IoT
13
minh, nhà thơng minh cần có khả năng tự động mở rộng tối đa và cần ít sự tác động của con người.
Theo báo cáo của Gardner, có tới 8.4 tỉ các thiết bị được kết nối trong năm 2017 và tăng lên 20,4 tỉ
thiết bị vào năm 2020. Số lượng các metric được tăng cả về tốc độ cũng như khối lượng (Hình 1.2).
Dẫn tới việc theo dõi, quản lý thiết lập các ngưỡng bằng tay từ phía nhà quản trị trở nên cực kỳ khó
khăn và phức tạp.
Do đó, bài tốn đặt ra hệ thống khơng chỉ có khả năng khả mở tài ngun nhanh chóng mà cịn
có khả năng tự động điều chỉnh dựa vào dữ liệu mà ít cần sự tương tác của con người . Bằng việc
dự đoán tài nguyên sẽ sử dụng trong tương lai, hệ thống sẽ tự động ra các quyết định chính xác về
lượng tài nguyên cần thiết. Hệ thống sẽ biết trước và chính xác lượng tài nguyên cần cung cấp trong
tương lai gần cho ứng dụng là bao nhiêu, từ đó cho phép tăng giảm tài nguyên trước khi nảy sinh các
vấn đề về hoạt động do thừa hoặc thiếu tài nguyên cung cấp. Các nghiên cứu về dự đốn mơ hình
tự động khả mở thu hút được nhiều sự chú ý. Trong khi độ chính xác của mơ hình ln là một thách
thức thú vị, vấn dề xử lý dữ liệu nhiều chiều (CPU, bộ nhớ sử dụng, tốc độ đọc/ghi) trong cùng một
lúc chưa nhận được nhiều quan tâm. Bởi vì giữa các metric đó tồn tại các mối quan hệ với nhau ví dụ
như CPU và bộ nhớ, bộ nhớ và tốc độ đọc/ghi,...Từ đó kết quả dự đoán chưa hợp lý khi triển khai
thực tế. Để giải quyết bài tốn, mơ hình mới cần có khả năng xử lý dữ liệu thời gian nhiều chiều. Bên
cạnh đó, các nghiên cứu về bài tốn dự đốn chuỗi thời gian thiếu đi phương án đánh giá sự hiệu quả
của việc ra quyết định tăng/giảm dựa vào giá trị dự đốn. Về góc nhìn SLA, các nghiên cứu [3], [2]
và framework [1], [8] đã được đề xuất nhằm giữ ổn định vi phạm SLA. Tuy nhiên các nghiên cứu đó
được đề xuất trong mơi trường khả mở truyền thống. Vì vậy, một hệ thống đánh giá vi phạm SLA
trong bài toán dự đoán khả mở trong tương lai là điều rất cần thiết.
Dựa vào các hướng nghiên cứu trên, những đóng góp chính của luận án này bao gồm:
• Xây dựng hệ thống khả mở chủ động trong mơi trường ĐTĐM gồm 2 thành phần: module dự
đốn và module ra quyết định
• Đề xuất mơ hình mới dự đoán tài nguyên sử dụng trong tương lai khai thác mối quan hệ giữa
các dữ liệu đo đạc như CPU, RAM, Disk I/O,... bằng mơ hình học sâu.
• Áp dụng chuỗi thời gian mờ (fuzzy timeseries) nâng cao chất lượng dự đốn
• Đề xuất mơ hình ra quyết định dựa vào dữ liệu dự đoán và ước lượng vi phạm SLA
Các phần của luận văn được bố cục như sau: chương 2 trình bày các cơ sở lý thuyết chính được
sử dụng và liệt kê một số nghiên cứu liên quan. Chương 3 trình bày đề xuất mơ hình mới cùng các
phân tích về mơ hình. Các thí nghiệm đánh giá và so sánh mơ hình được thực hiện trong chương 4.
Cuối cùng chương 5 tóm tắt lại những kết quả đạt được trong luận văn.
14
Chương 2
Các nghiên cứu liên quan
2.1
Tổng quan về điện toán đám mây
2.1.1
Khái niệm
Thuật ngữ ĐTĐM ra đời từ những năm 2007 với mục đích khái quát lại các hướng đi của cơ sở hạ
tầng thông tin vốn đã và đang diễn ra từ mấy năm qua. Theo Viện tiêu chuẩn và cơng nghệ quốc gia
Mỹ [21], ĐTĐM là mơ hình cho phép truy cập mạng để lựa chọn và sử dụng tài ngun có thể tính
tốn và tùy chỉnh được (ví dụ như mạng, máy chủ, lưu trữ, các ứng dụng và các dịch vụ) theo nhu
cầu một cách thuận tiện, đồng thời cho phép cung cấp và giải phóng chúng một cách nhanh chóng,
giảm thiểu tối đa sự thao tác của quản trị viên. Với các dịch vụ sẵn có trên Internet, doanh nghiệp
khơng phải mua và duy trì hạ tầng cũng như phần mềm mà chỉ cần tập trung vào kinh doanh, nghiệp
vụ riêng bởi đã có các nhà cung cấp dịch vụ ĐTĐM lo cơ sở hạ tầng và công nghệ thông tin thay họ.
Đa số người dùng Internet đã tiếp cận những dịch vụ đám mây phổ thơng như email, bản đồ số,. . . .
Tính linh hoạt của ĐTĐM là phân phát tài nguyên theo yêu cầu. Điều này tạo khả năng mềm
dẻo, thuận lợi cho việc sử dụng các tài nguyên của hệ thống, loại bỏ sự ràng buộc phải đầu tư phần
cứng cụ thể cho một nhiệm vụ. Trước khi có ĐTĐM, các trang web hoặc các ứng dụng được chạy
trên một máy chủ cụ thể hoạt động trong một hệ thống. Với sự ra đời của ĐTĐM, các tài nguyên
được hợp nhất và sử dụng như kho chung. Cấu hình hợp nhất này cung cấp một mơi trường ở đó các
ứng dụng thực hiện một cách độc lập mà không quan tâm đến bất kỳ cấu hình cụ thể nào.Viện Tiêu
chuẩn và Công nghệ cũng định nghĩa 5 đặc trưng cốt lõi của mơ hình ĐTĐM:
• Dịch vụ cung cấp theo nhu cầu (On-demand self-service): Người dùng tự mua, tự thuê, tự cấu
hình triển khai các dịch vụ ĐTĐM theo các chuẩn định sẵn (template) mà không tới sự trợ giúp
của bộ phân IT. Để làm đươc điều này, các nhà cung cấp hạ tầng phải tạo ra các chuẩn định
sẵn từ trước. Các chuẩn định sẵn này chứa các cấu hình đã đươc định nghĩa trước, căn cứ vào
đó ngườ i dùng sẽ tùy chỉnh thêm và cài đặt thêm các dịch vụ thêm theo nhu cầu. Mơt số ví dụ
15
Hình 2.1: Mơ hình triển khai ĐTĐM
về chuẩn định sẵn như HP Cloud Maps của HP, CloudForms của RightScale và Red Hat,. . .
• Truy cập mạng băng thơng cao (Broad network access): Tài ngun tính tốn ln sẵn sàng ở
tồn mạng và được truy cập thơng qua các chuẩn mạng.
• Tài ngun khơng giới hạn (Resource Pooling): Nhà cung cấp dự trữ các tài ngun tính tốn
để chia sẻ cho nhiều người sử dụng bằng mơ hình multi-tenant, tự động cung cấp các tài nguyên
vật lý hoặc ảo theo nhu cầu của họ.
• Cung cấp tài nguyên mềm dẻo (Rapid Elasticity): Tài ngun tính tốn được cung cấp và giải
phóng 1 cách mềm dẻo tự động, tự mở rộng hoặc thu nhỏ lại. Với người sử dụng thì tài ngun
tính tốn cung cấp gần như khơng giới hạn, ở bất cứ nơi đâu và bất cứ lúc nào.
• Dịch vụ đo lường (Measured Service): Các hệ thống ĐTĐM tự động quản trị và tối ưu tài nguyên
sử dụng bằng cách tận dụng năng lực đo đạc ở mức trừu tượng phù hợp với các dịch vụ. Lượng
sử dụng tài nguyên được giám sát, điều khiển và thống kê hoàn toàn trong suốt với cả nhà cung
cấp và người sử dụng.
2.1.2
Mơ hình dịch vụ
Dịch vụ Cloud Computing rất đa dạng và bao gồm tất cả các lớp dịch vụ điện tốn từ cung cấp năng
lực tính tốn trên dưới máy chủ hiệu suất cao hay các máy chủ ảo, không gian lưu trữ dữ liệu, hay một
hệ điều hành, một cơng cụ lập trình, hay một ứng dụng kế tốn . . . Các dịch vụ cũng được phân loại
khá da dạng, nhưng các mơ hình dịch vụ Cloud Computing phổ biến nhất có thể được phân thành
3 nhóm: Dịch vụ hạ tầng (IaaS), Dịch vụ nền tảng (PaaS) và Dịch vụ phần mềm (SaaS), được minh
họa ở Hình 2.1.
2.1.2.1
Hạ tầng như dịch vụ
Đây là mơ hình dịch vụ ĐTĐM cơ bản nhất, các nhà phát hành IaaS cung cấp các hạ tầng
tính tốn, bộ nhớ lưu trữ được ảo hóa bởi nền tàng hypervisor như Xen, Oracle Virtual Box, KVM,
16
VMware,... Hệ thống các máy chủ ảo bên trong ĐTĐM có thể phục vụ một số lương lớn khách hàng
thơng qua các máy khác chạy hệ điều hành ảo trên cùng một máy chú và có khả năng tăng giảm
theo nhu cầu thường xuyên của khách hàng. Ngoài ra, IaaS còn cung cấp một số tài nguyên khác như
thư viện virtual-image, lưu trữ khối (block storage), lưu trữ đối tượng (object storage), tường lửa ảo,
mạng nội bộ ảo (Virtual LAN)
Khách hàng sử dụng dịch IaaS thông qua Internet hoặc qua mạng LAN ảo. Để triển khai ứng
dụng, người dùng sẽ phải cài đặt hệ điều hành và các ứng dụng của họ lên hệ thống ĐTĐM. Với mơ
hình này, người sử dụng tự cập nhật, vá lỗi cho các phần mềm đã cài đặt. Nhà cung cấp dịch vụ sẽ
tính tiền dựa trên lượng tài nguyên được cấp và tiêu thụ
2.1.2.2
Nền tảng như dịch vụ
Mơ hình PaaS là mơ hình ở đó nhà cung cấp dịch vụ đưa ra mơi trường triển khai ứng dụng cho các
nhà lập trình viên bao gồm hệ điều hành, môi trường thực thi ngôn ngữ lập trình, cơ sở dữ liệu, và
máy chủ web. Các nhà phát triển ứng dụng có thể cài đặt, triển khai giải pháp phần mềm của họ trên
nền tảng ĐTĐM mà khơng quan tâm tới các chi phí bản quyền hay quản lí các phần mềm bên dưới.
Cụ thể với các nhà cung cấp như Microsoft Azure, Google App Engine, hạ tầng tính tốn và lưu trữ
được khả mở một cách tự động sao cho phù hợp với nhu cầu của người sử dụng khi mà người dùng
ĐTĐM không thao tác một cách thủ công.
2.1.2.3
Phần mềm như dịch vụ
Trong mơ hình SaaS, người sử dụng được truy cập tới ứng dụng và cơ sở dữ liệu. Nhà cung cấp dịch
vụ quản lý hạ tầng và nền tảng chạy ứng dụng đó. Saas hay cịn gọi là phần mềm theo nhu cầu và
được trả phí theo lượng mức sử dụng hoặc theo đơn hàng. Với mơ hình này, nhà cung cấp sẽ cài đặt
và quản trị ứng dụng trên môi trường đám mây và người sử dụng sẽ truy cập thơng qua giao diện
máy khách như trình duyệt web, ứng dụng desktop,. . . Người dùng không quản lý hạ tầng đám mây
và nền tảng mà ứng dụng đang chạy. Điều này đã tối thiếu hóa chi phí cài đặt và chạy ứng dụng trên
máy tính cá nhân, đồng thời đơn giản hóa các thao tác bảo trì và hỗ trợ. Sự khác biệt giữa ứng dụng
ĐTĐM và ứng dụng truyền thống nằm ở tính chất khả mở. Điều này đạt được nhờ việc tạo ra các bản
sao tác vụ chạy trên nhiều máy ảo khác nhau tại cùng 1 thời điểm để đạt được yêu cầu nghiệp vụ.
Các bộ cân bằng tải sẽ phân phối công việc tới các máy ảo, hoàn toàn trong suốt với người sử dụng,
vốn dĩ truy cập theo một điểm duy nhất (URL,. . . ) Nhằm phục vụ lượng lớn các khách hàng, các ứng
dụng ĐTĐM có thể được multitenant, nghĩa là một máy tính sẽ phục vụ nhiều hơn một nhóm người
sử dụng.
17
2.1.3
Mơ hình triển khai
2.1.3.1
Đám mây nội bộ
Đám mây nội bộ là hạ tầng đám mây được điều hành trong nội bộ công ty. Việc triển khai đám mây
nội bộ yêu cầu một nguồn lực đáng kể và yêu cầu tổ chức đánh giá một cách kĩ lường về các tài nguyên
hiện có. Dự án đám mây nội bộ nếu được triển khai đúng hướng sẽ nâng cao nghiệp vụ, nhưng ẩn
bên trong mỗi bước lại chứa những rủi ro về vấn đề bảo mật cần được giải quyết để ngăn chặn các
lỗ hổng nghiêm trọng. Các trung tâm dữ liệu thường địi hỏi rất nhiều vốn [22]: chi phí hạ tầng phần
cứng, chi phí bảo vệ,. . . Bên cạnh đó, chúng ln cần được bảo trì và cập nhật một cách định kỳ, kéo
theo một khoản phí bổ sung. Quản lý đám mây nội bộ yêu cầu công cụ phần mềm để giúp cho nhà
quản trị dễ dàng kiểm soát, theo dõi và quản lý.
2.1.3.2
Đám mây cộng đồng
Đám mây cộng đồng chia sẻ hạ tầng giữa một số tổ chức từ một cộng đồng cụ thể có các mối quan
tâm chung (v/d: một nhóm ngành nghề lớn). Chi phí trải đều trên một tập ít người dùng hơn so với
public cloud nhưng nhiều hơn so với private cloud
2.1.3.3
Đám mây cơng cộng
Mơ hình đám mây cơng cộng là mơ hình các dịch vụ mở được cung cấp thông qua mạng. Các dịch vụ
đám mây cơng cộng có thể miễn phí. Về mặt lí thuyết thì khơng có sự khác biệt nào giữa kiến trúc
đám mây nội bộ và đám mây công cộng, tuy nhiên, vấn đề bảo mật cần được quan tâm cho các dịch
vụ (các ứng dụng, lưu trữ và các tài nguyên khác) sẵn có cung cấp cho người dùng đại chúng và khi
kết nối thông qua mạng khơng an tồn. Thơng thường, các nhà cung cấp dịch vụ public cloud như
Amazon AWS, Microsoft và Google sở hữu, vận hành cơ sở hạ tầng và truy cập thông qua Internet.
2.1.3.4
Đám mây lai
Đám mây lai là một tổ hợp của hai hay nhiều các đám mây (nội bộ, cộng đồng hoặc công cộng) nhằm
tận dụng lợi thế của các mơ hình này đem lại. Cơng ty Gartner định nghĩa một dịch vụ đám mây lai
như một dịch vụ ĐTĐM, bao gồm sự kết hợp của các dịch vụ đám mây nội bộ, công cộng, từ các nhà
cung cấp dịch vụ khác nhau. Mơ hình này giúp nhà triển khai ứng dụng dễ dàng mở rộng số lượng
cũng như năng lực tính tốn của một dịch vụ đám mây nhờ vào việc tích hợp, thống nhất hoặc tùy
biến các dịch vụ khác nhau.
Một ví dụ khác áp dụng đám mấy lai khi các tổ chức IT sử dụng đám mây cơng cộng để đám ứng
nhu cầu tính tốn tạm thời khi tài nguyên của họ không đáp ứng đủ. Năng lực này cho phép các đám
mây lai dễ dàng triển khai ứng dụng lên các đám mây khác nhau. Thuật ngữ “cloud bursting” ám chỉ
mơ hình triển khai ứng có thể chạy trên đám mây cá nhân hoặc trung tâm dữ liệu và “burst” lên đám
18
Hình 2.2: Mơ hình hệ thống khả mở
mây cơng cộng khi mà nhu cầu tính tốn tăng lên. Ưu điểm của cloud bursting và mơ hình đám mây
lai đem lại cho tổ chức chi trả các tài nguyên phát sinh khi họ cần sử dụng.
2.2
Vấn đề cung cấp tài nguyên
Các doanh nghiệp IT hiện đại, từ doanh nghiệp nhỏ tới doanh nghiệp lớn, đã và đang tận dụng sức
mạnh của ĐTĐM để nâng cao lợi nhuận và cắt giảm chi phí. Xun suốt 3 mơ hình ĐTĐM: IaaS,
PaaS và SaaS, lợi ích lớn của ĐTĐM đó là sự mềm dẻo, khả năng mở rộng tài nguyên mà hệ thống có
thể đáp ứng được workload lớn hiện nay bằng cách điều chỉnh thông số và cung cấp các tài nguyên.
Hiện nay, khi môi trường đã đủ tốt và ổn định theo chu kỳ, người quản lý hồn tồn có thể tự chủ
được số lượng tài nguyên . Tuy vậy trong nhiều trường hợp, ví dụ như lượng tải tăng cao đột biến,
sự mềm dẻo được thực hiện việc tự động khả mở tài nguyên: tiến trình tự động, thực hiện trên máy
vật lý, theo dõi cấu hình của phần mềm (số lượng luồng, kết nối, và cache,...) và thông số phần cứng
(cpu, mem,..) theo thời gian.
Tác giả Chen [5] đề xuất thiết kế tổng quan cho mơ hình tự động khả mở cho mơi trường ĐTĐM
ở hình 2.2. Hệ thống autoscaling thường được thiết kế thành hai phần tách biệt: Module quản lý bao
gồm autoscaling engine và phần quản lý ở mỗi dịch vụ và máy ảo/container chạy trên ĐTĐM. Như
chúng ta thấy, phần lõi của hệ thống đó là autoscaling engine, bao gồm nhiều khía cạnh logic khác
19
Hình 2.3: Sự cung cấp tài nguyên theo nhu cầu (nguồn: harishblogspot)
nhau. Một luồng điển hình của hệ thống cung cấp tài nguyên đó là feedback loop gồm theo dõi và
ra quyết định. Các agent đặt trên các dịch vụ sẽ thu thập tài nguyên sử dụng phần cứng như CPU,
Memory, Disk IO,... và tài nguyên phần mềm (số lượng luồng, kết nối mạng). Các thông tin này được
đưa về phía autoscaling engine. Module đảm nhận việc tổng hợp và ra quyết định về quản lý tài
nguyên, tăng hoặc giảm tại thời điểm nào, với số lượng bao nhiêu. Việc ra quyết định sẽ được tính
tốn nhằm thỏa mãn các điều khoản chất lượng dịch vụ (Quality of Service) khác nhau mà nhà cung
cấp đặt ra. Quyết định autoscaling gồm nhiều hành động khác nhau: tăng/giảm cấu hình của máy
ảo, tăng/giảm số lượng máy ảo/container trong một cụm hoặc có thể cả hai.
Theo nhu cầu người dùng, sự cung cấp tài nguyên linh hoạt cho phép người sử dụng dịch vụ đám
mây tập trung vào chất lượng dịch vụ cho khác hàng trong khi vẫn tiêu thụ được lượng tính tốn. Mơ
hình trả phí theo nhu cầu (pay-as-you-go) đáp ứng được sự phát triển tự nhiên của mỗi tổ chức. Các
tài nguyên ĐTĐM khả mở một cách mềm dẻo, tận dụng tối đa tài ngun tính tốn giảm thiểu nguy
cơ cung cấp thừa, gây lãng phí cũng như tránh sự cung cấp không đủ dẫn tới việc mất đi các khách
hàng tiềm năng.
Hình 2.3 minh hoạt sự ảnh hưởng của việc cố định tài nguyên sử dụng theo thời gian với sự thay
đổi biến thiên lượng người sử dụng. Hình bên trái thể hiện trường hợp, tài ngun tính tốn cung cấp
không được sử dụng triệt để (vùng màu xám) và ngược lại, hình bên phải thể hiện trường hợp tài
nguyên cung cấp không đủ cho nhu cầu thực tế. Trong tình huống cấp thiếu, những tài nguyên đã
được tận dụng tối đa hơn ở cả 2 trường hợp nhưng vùng màu xám ở phía trên tương ứng với lượng
khách hàng đã không được phục vụ. Giải pháp ở đây thay vì cố định lượng tài ngun hiện có, những
người sử dụng đám mây có thể mở rộng tài nguyên một cách tự động bằng cách phát hiện khi nào thì
cần thêm tài nguyên, cấp phát thêm, và phân bổ tải cơng việc tới các tài ngun đó một cách nhanh
nhất.
Giải pháp này nhằm mục đích cho phép triển khai tài nguyên linh hoạt trong môi trường đám
mây nhưng đáng tiếc rằng với một vài trường hợp đặc biệt các giải pháp này là chưa đủ để chắc chắn
rằng hệ thơng đáp ứng hồn tồn các u cầu khi ứng dụng triển khai trong thực tế. Theo hướng tiếp
20
Hình 2.4: Mơ hình Periodicity (nguồn slideshare 1 )
cận này, kĩ thuật co giãn tài nguyên (auto-scaling technique) trong môi trường phân tán và đám mây
có thể chia thành 3 phương pháp chính gồm Periodicity, Threshold và Prediction:
Đầu tiên xem xét tới phương pháp Periodicity. Thông thường trong suốt quá trình vận hành, mơ
hình SaaS có chu kỳ tiêu dùng tài nguyên theo thời gian, minh hoạ ở Hình 2.4 (ví dụ giờ, ngày hay
tháng). Dựa trên đặc điểm này, người quản trị có thể quyết định thời điểm phù hợp để co giãn tài
nguyên cho ứng dụng. Nhược điểm của phương pháp này là khi xem xét trên cả chu kỳ để quyết định
co giãn, hệ thống không thể đáp ứng các yêu cầu nảy sinh tức thời từ ứng dụng. Phương pháp phát
hiện và đánh giá chu kỳ được đề xuất trong một số cơng trình nghiên cứu như [3] và [18].
Xét tới phương pháp Thresholds (dựa vào ngưỡng). Các giá trị ngưỡng được thiết lập để xác định
khi nào tăng hoặc giảm tài nguyên. Phương pháp này hoạt động dựa trên số liệu tiêu dùng tài nguyên
như tỉ lệ phân trăm sử dụng của CPU, bộ nhớ trong hay số kết nối tới hệ thống. Số lượng máy ảo
phục vụ cho ứng dụng thay đổi theo một bộ các luật, thường có 2 luật: tăng lên và giảm xuống. Các
luật này sử dụng dựa trên các độ đo hiệu năng như số lượng yêu cầu tới, tải CPU hoặc trung bình
thời gian trả về. Mỗi luật hay chính xác đều bao gồm các tham số do người dùng định nghĩa: cận trên
của ngưỡng thrUp và cận dưới thrDown, hai giá trị thời gian scale vUp và vDown xác định thời gian
21
một luật được kích hoạt khi gặp và 2 khoảng thời gian chờ sau khi đã sacle inUp và inDown. Cận
trên và cận dưới phải được định nghĩa riêng cho mỗi độ đo x. Các hành động scale sẽ phụ thuộc vào
các loại scaling người dùng định nghĩa. Với co giãn chiều ngang (horizontal scaling), người sử dụng
định nghĩa số máy ảo được cấp thêm hoặc được giải phóng, nhưng với co giãn theo chiều dọc (vertical
scaling), lượng tài nguyên CPU, RAM,. . . sẽ được thêm vào.
Tuy nhiên nhược điểm của phương pháp này là rất khó để xác định chính xác giá trị ngưỡng thỏa
mãn yêu cầu của ứng dụng mà vẫn tránh được việc lãng phí hay thiếu tài nguyên (do co giãn sớm hơn
hoặc muộn hơn). Ngoài ra, tại thời điểm thực hiện co giãn tài nguyên, trạng thái và yêu cầu của hệ
thống mất nhiều thời gian, dẫn tới chất lượng dịch vụ (Quality of Service) bị giảm (thời gian trung
bình khởi tạo 1 máy ảo mất 5-10 phút trong môi trường thực).
Cuối cùng xét tới phương pháp Prediction (dự đoán tiêu dùng tài nguyên). Phương pháp này sử
dụng dữ liệu thu thập được trong khoảng thời gian trước đó để dự đốn lượng tài nguyên tiêu dùng
hoặc tải công việc (workload) trong tương lai, từ đó xác định trước và chính xác lượng tài nguyên mà
hệ thống sẽ phải cung cấp cho ứng dụng. Hình 4 thể hiện lượng tài nguyên sử dụng trong tương lai
được dự đoán, sát với tài nguyên tiêu thụ thực tế. Ưu điểm của phương pháp này giúp hệ thống có kế
hoạch chủ động mở rộng hoặc giảm bớt số lượng tài nguyên hệ thống. Kĩ thuật cốt lõi được sử dụng ở
đây là phân tích chuỗi thời gian time-series. Kĩ thuật phân tích chuỗi thời gian được sử dụng để tìm
ra các đặc trưng lặp lại và sử dụng chúng để dự đoán giá trị tương lai. Nhiều cơng trình nghiên cứu
đã đưa ra các mơ hình dự đoán khác nhau như [9], [19], [10], đặc biệt áp dụng trong điện toán đám
mây như [8], [14]. Tuy nhiên độ chính xác của các mơ hình dự đốn này vẫn cần cải tiến hơn nữa mặc
dù đã có nhiều cơng trình giải quyết. Điều này dẫn tới vấn đề cần thiết xây dựng mơ hình dự đốn
mới tăng cường độ chính xác. Bên cạnh đó, các mơ hình vẫn chỉ đơn thuần đưa ra quyết định dựa
vào một thông số như CPU hoặc RAM, trong khi nhu cầu thực tế lại cần sự ra quyết định từ nhiều
nguồn thông tin khác. Dựa vào yêu cầu trên cùng với đặc điểm của bộ dữ liệu SaaS, các mục tiếp
theo của luận án sẽ trình bày lý thuyết dự đốn chuỗi thời gian nhiều chiều, lý thuyết về tính tương
đồng, bảo đảm chất lượng của dịch vụ ĐTĐM.
2.3
2.3.1
Các phương pháp dự đoán chuỗi thời gian
Nghiên cứu tổng quan
Với phạm trù đồ án, nội dung chương này sẽ trình bày theo hướng dự đoán sự tiêu dùng tài nguyên
để đưa quyết định tăng giảm tài nguyên máy chủ. Vấn đề cốt lõi phương pháp này chính là sự chính
xác của mơ hình dự đốn. Sự dự đốn chuỗi thời gian có thể được sử dụng để dự đoán nhu cầu tiêu
thụ tài nguyên trong tương lai. Một chuỗi thời gian là một tập hợp các quan sát sắp xếp tăng dần,
cách nhau một khoảng thời gian cố định có dạng:
22
X = x1 , x2 , x3 , ..., xt−w+1
(2.1)
Đầu vào u cầu của các mơ hình dự đốn là một chuỗi các wgiá trị gần nhất – cửa sổ trượt
(sliding window). Bài toán dự đoán chuỗi thời gian (time series forecasting) đang nhận được sự quan
tâm của rất nhiều các cơng trình nghiên cứu gần đây với những cố gắng nhằm nâng cao độ chính
xác. Trong suốt ba thập kỷ qua, các mơ hình thống kê truyền thống như tự hồi quy(Autoregressive
– AR), trung bình trượt (Moving Average – MA), tự hồi quy và trung bình trượt (ARMA), hay mơ
hình trung bình trượt kết hợp tự hồi quy (ARIMA) được sử dụng phổ biến và rộng rãi cho dự đốn
chuỗi thời gian. Tuy nhiên, các mơ hình tuyến tính có những hạn chế khi khơng thể áp dụng đối với
dữ liệu có tính phi tuyến.
Để khắc phục nhược điểm trên, một hướng tiếp cân khác là sử dụng mạng nơ-ron nhân tạo
(Artificial neural networks – ANNs) bởi đặc tính: thích nghi nhanh, phi tuyến và khả năng xấp xỉ
hàm tốt[19]. Kiểu mạng lan truyền tiến feed-forward (BPNN) kết hợp giải thuật lan truyền ngược là
một trong những giải thuật phổ biến trong bài toán dự đoán. Tuy vậy, mạng truyền thống dựa vào
giải thuật tối ưu địa phương, dễ dàng rơi vào giá trị cực trị địa phương, dần tới tốc độ hội tụ chậm
và bị tác động lớn bởi trọng số ban đầu. Các tác giả bài [11] và [12] đã đề xuất kiến trúc mạng ANN
keests hợp với dữ liệu chu kì, ở đó dữ liệu đầu vào mạng bao gồm các giá trị gần nhất yt , yt−1 , . . .
cùng với các điểm giá trị thuộc chu kì trước đó: yt−s , yt−2s , . . . (s là giá trị chu kỳ). Tác giả [17] đã
đề xuất giải pháp tích hợp phân tích chu kỳ và giải thuật tiến hóa nhằm khắc phục nhược điểm dễ
tìm phải điểm cực trị địa phương, thời gian hội tụ lớn và phụ thuộc nhiều vào điểm khởi tạo ban
đầu. Gần đây, các phương pháp học sâu (deep learning) đã đạt được những kết quả ấn tượng trong
lĩnh vực dự đoán chuỗi thời gian. Mạng nơ-ron đệ quy (Recurrent Neural Network) là một nhánh của
mạng nơ-ron rất phù hợp với dạng chuỗi thời gian bởi vì mạng này mơ hình hóa mỗi quan hệ giữa
các điểm thời gian và được huấn luyện bởi thuật toán lan truyền ngược theo thời gian. Phương pháp
RNN tạo ra sự khác biệt so với mạng nơ-ron truyền thẳng bời cách hoạt động, luồng thông tin sẽ
được lan truyền ngược trở lại các tầng và tạo nên một vòng lặp phản hồi. Tùy vậy, mạng RNN có
nhược điểm về tính bùng nổ và biến mất của giá trị đạo hạm khi qua nhiều lần học. Để cải tiến khả
năng "nhớ" của RNN và kiểm sốt tốt hơn luồng thơng tin, Hocheriter [10] đã đề xuất mạng Long
Short Term Memory (LSTM), trở nên cực kỳ phổ biến trong các tầng RNN hiện nay. Với sự cải thiện
đó, RNN có khả năng nhận diện và học được các mối quan hệ thời gian dài hơn mà kết quả không bị
ảnh hưởng.
Trong lĩnh vực điện toán đám mây, phương pháp dự đoán chuỗi thời gian được sử dụng nhiều
trong việc dự đốn tải cơng việc (workload), tiêu dùng tài nguyên (resoure consumptation). Jitendra
et al. [13] đề xuất mơ hình LSTM-RNN trong bài tốn dự đốn số lượng tải công việc trong môi
trường ĐTĐM sử dụng dữ liệu NASA. Ở bài [18], nhóm tác giả đã xây dựng mơ hình tự động mở
rộng khai thác nguồn dữ liệu đa chiều, giải thuật di truyền và mạng nơ-ron để dự đốn các thơng số
23
tiêu thụ. Mắc dù hiện này có nhiều mơ hình học sâu được áp dụng vào trong ĐTĐM, nhưng các cơng
trình đó chỉ quan tâm tới dữ liệu một chiều mà bỏ qua đi sự phức tạp nhiều chiều.
Như được trình bày ở phần 2.4, các kết quả dự đốn sẽ được cải thiện tốt hơn nếu tồn tại mối
quan hệ giữa các metric dựa vào bài [4]. Với lý thuyết dữ liệu có nhiều chiều sẽ cho kết quả tốt hơn
nhưng ở môi trường thực tế, sự không liên quan/khơng có tương quan giữa các đặc trưng lại gây ảnh
hưởng tới mơ hình dự đốn. Một số nghiên cứu đã đề xuất giải pháp phân tích sự tương quan giữa
các chiều của dữ liệu. Sabine et al. [19] xây dựng framework gom nhóm các các chiều thành từng cụm
dựa vào mối tương quan. Nhóm tác giả của bài [22] cũng đề xuất framework hiệu quả để lựa chọn các
đặc trưng tốt dựa vào phân tích tuyến tính. Vergara et al. [20] phát triển giải pháp lưa chọn các đặc
trưng dựa vào cách truyền tiến và truyển lùi theo chuỗi. Tuy vậy dù có nhiều cơng trình đã đề cập
tới việc phát hiện tính tương quan giữa các đại lượng ở ĐTĐM. Bên cạnh đó, chưa có một phương
pháp nào giúp hệ thống dự đốn tích hợp việc trích chọn đặc trưng để tăng độ chính xác.
Khái niệm chuỗi thời gian mờ lần đầu được nhắc tới trong bài [16], sử dụng mơ hình one-factor
hay cịn gọi là một chiều. Để giải quyết vấn đề nhiều factor, Erol et al. [7] đã đề xuất mơ hình mạng
nơ-ron để học ra mối quan hệ giữa các factor trong dữ liệu chuồi thời gian mờ nhiều chiều. Tran et
al. [18] giới thiệu mơ hình k-factor thời gian mờ sử dụng giải thuật di truyền-lan truyền ngược để
phát hiện ra các mối quan hệ ẩn giữa các chiều cũng như tận dụng kĩ thuật mờ hóa để giảm thiểu độ
nhiều trong dữ liệu thực tế.
2.3.2
Phương pháp tuyến tính
2.3.2.1
Phương pháp tự hồi quy
Mơ hình bậc p của phương pháp autoregressive là phương pháp hồi quy tuyến tính dựa vào các giá
trị tiên nghiệm [24]. Công thức biểu diễn dưới dạng sau:
p
Xt = c +
ψi Xt−1 +
(2.2)
t
i=1
Trong đó: ψ1 , ψ2 , ...là các tham số của mơ hình, c là hằng số và
2.3.2.2
t
là hệ số nhiễu của mơ hình.
Phương pháp trung bình trượt
Phương pháp trung bình trượt là một cách tiếp cận phổ biến trong việc mơ hình chuỗi thời gian một
chiều. Mơ hình này giả thiết giá trị đầu ra có quan hệ tuyến tính với giá trị hiện tại và các giá trị q
khứ. Cơng thức mơ hình Moving average bậc k có dạng [24]:
Xt = c +
t
+ θ1
t−1
+ θ2
t−2
+ ... + θt−q
Trong đó u là trung bình của chuỗi thời gian, θ là các tham số của mơ hình và
24
(2.3)
q
t
là các hệ số nhiễu