Tải bản đầy đủ (.pdf) (25 trang)

Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 25 trang )

1

MỞ ĐẦU
Trong những năm gần đây, Điện toán đám mây đã đang phát triển chóng mặt
đạt được nhiều thành tựu về mặt nghiên cứu và ứng dụng thực tế. Vào năm 2008,
Amazon đẩy mạnh nghiên cứu và triển khai Điện toán đám mây. Tiếp bước đó, các
tập đoàn lớn như Microsoft, Google, IBM,… thúc đẩy Điện toán đám mây phát
triển nhanh chóng. Hiện nay đã có rất nhiều nhà cung cấp dịch vụ cloud IaaS
(Infrastructure as a Service) cung cấp cho rất nhiều khách hàng. Một trong những
vấn đề quan trọng phải quan tâm khi xây dựng cũng như cung cấp dịch vụ điện toán
đám mây là tính sẵn sàng của dịch vụ. Một dịch vụ Iaas tốt phải có khả năng nhận
diện và phản ứng kịp thời để đảm bảo tính thông suốt cũng như chất lượng dịch vụ
khi có sự cố. Từ đó đặt ra nhu cầu cần phải xây dựng một hệ thống nhận diện lỗi
(fault detection) chính xác để xây dựng một hệ thống kháng lỗi (fault tolerance)
hiệu quả.
Bên cạnh đó việc tiếp tục dựa vào sự điều hành trực tiếp từ con người để
quản lý các trung tâm dữ liệu là một trở ngại lớn vì quy mô cơ sở dữ liệu của các hệ
thống ngày càng lớn. Các hệ thống máy tính trên điện toán đám mây nói chung và
các trung tâm dữ liệu nói riêng có xu hướng dần được quản lý bởi các mô hình tính
toán và mô hình thực thi dự đoán và quản lý tự động. Sự can thiệp của con người sẽ
được giới hạn ở cấp cao như đặt mục tiêu và quản lý các chính sách cấp cao hơn và
việc thực thi ở dưới sẽ do hệ thống tự động điều khiển quyết định. Việc tự động hóa
dữ liệu sẻ quản lý và kiểm soát dữ liệu dựa trên các mô hình dự đoán tổng thể, các
mô hình này được xây dựng và cập nhật bằng các dữ liệu có sẵn trước đó.Điều này
sẽ hỗ trợ rất lớn trong việc quản lý hệ thống.Đây sẽ là thách thức mới cho các nhà
nghiên cứu.
Dựa trên lĩnh vực nghiên cứu này, mục tiêu và phạm vi nghiên cứu của luận
văn là ứng dụng kĩ thuật học máy (maching learning), cụ thể là thuật toán Random
Forest để xây dựng mô hình dự đoán lỗi máy cho hệ thống Google Cluster (một
Cloud Computing lớn) dựa trên bộ dữ liệu công bố của Google được thu thập trong
một cụm gồm hơn 12000 máy chủ với mục đích xây dựng và đánh giá mô hình dự


báo lỗi của các máy chủ trong cụm máy chủ.
\
Nội dung luận văn gồm 4 chương:


2

-

Chương 1: Tổng quan về nhận dạng lỗi trên cloud computing

-

Chương 2: Thuật toán Random Forest

-

Chương 3: Sử dụng Random Forest dự báo lỗi cho Google cluster

-

Chương 4: Đánh giá kết quả đạt được và phương hướng phát triển


3

CHƢƠNG 1- TỔNG QUAN VỀ NHẬN DẠNG LỖI TRONG
CLOUD
1.1. Giới thiệu
1.1.1. Dịch vụ cơ sở hạ tầng IaaS [1]

1.1.2. Lỗi trong cloud IaaS
1.2. Một số phƣơng pháp nhận dạng lỗi trên điện toán đám mây
1.2.1. Phương pháp ứng dụng cây quyết định [8]
Cây quyết định là cây mà những nút bên trong của nó bao gồm việc kiểm
tra một thuộc tính xác định và những nút lá của nó đưa ra sự phân lớp mà được áp
dụng cho tất cả các mẫu đạt đến nút lá, hoặc một tập của sự phân lớp, hoặc một xác
xuất phân tán qua tất cả các lớp có thể. Để phân lớp cho một mẫu chưa biết, nó
được định tuyến xuống dưới cây dựa theo giá trị của thuộc tính được kiểm tra lần
luợt theo các nút, và khi một nút lá được tìm thấy một mẫu được phân lớp dựa theo
lớp mà được gán cho nút lá. Cây quyết định cũng là một phương tiện có tính mô tả
dành cho việc tính toán các xác suất có điều kiện. Thuật toán cây quyết định là một
trong các thuật toán mà được sử dụng rộng rãi nhất trong các thuật toán học máy
trong việc xây dựng các mẫu phân lớp từ các nguồn dữ liệu.

1.2.2. Kỹ thuật hồi quy logistic (logistic regression)
Trong thống kê, hồi quy logistic (mô hình logit) được sử dụng cho dự
đoán khả năng xuất hiện lỗi của một hệ thống bằng một hàm logit. Kỹ thuật hồi quy
logit được phát triển trong những năm 1970 mô hình tuyến tính tổng quát hóa sử
dụng cho hồi quy nhị phân (chỉ có 2 giá trị). Giống như các dạng của phân tích hồi
quy, hồi quy tuyến tính tạo ra vài biến dự đoán mà có thể là số hoặc tên thể loại.
Hồi quy logit là một kiểu hồi quy mà các biến phụ thuộc là nhị phân hoặc số.Ví dụ:
một người bị đau tim trong một khoảng thời gian thời gian cụ thể có thể được dự
đoán dựa trên những hiểu biết về tuổi, giới tính, chỉ số cơ thể. Thuật toán hồi quy
logit được sử dụng rộng rãi trong các ngành y tế, xã hội hoặc các ứng dụng kinh


4

doanh tiếp thị, ví dụ như dự đoán xu hướng khách hàng sẽ mua sản phẩm nào hoặc
không mua sản phẩm nào trong năm. Hàm logit f(z) có dạng:


1.2.3. Kỹ thuật mạng nơ ron (neural net works)
Mạng nơ ron nhân tạo (Artificial neural network – ANN) là một mô
phỏng xử lý thông tin, được nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống
như bộ não để xử lý thông tin. Nó bao gồm số lượng lớn các mối gắn kết cấp cao để
xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng. Thuật toán máy
tính mô phỏng các kiến trúc sinh học này thường được gọi là mạng nơron nhân tạo
để phân biệt với các phần mềm trong cơ thể động vật. ANNs hoạt động giống như bộ
não con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử
dụng trong những tình huống phù hợp. Đầu tiên ANN được giới thiệu năm 1943 bởi
nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits. Mạng nơron hoạt
động dựa trên nguyên lý học máy. Thông qua các mẫu có sẵn và tập mục tiêu (với
phương pháp học có thầy) để đưa ra kết luận khi có một mẫu mới được đưa vào.
Mạng nơron nhân tạo là một kỹ thuật mô phỏng lại bộ não và hệ thần kinh của con
người. Nó cũng có khả năng học từ các kinh nghiệm trong quá khứ, tổng quát hóa
các kinh nghiệm này để đưa ra một nhận định mới nhờ rút ra được các đặc trưng cơ
bản của tập mẫu. Các việc này được thực hiện thông qua việc xử lý tín hiệu giữa các
nơron cùng với các trọng số của chúng.

1.3. Các tham số đo lƣờng các phƣơng pháp nhận dạng lỗi cho cloud
computing
Các phương pháp, thuật toán nhận dạng lỗi đã có trước đây trong cloud
computing thường xem xét các tham số khác nhau như: thông lượng (throughput),
thời gian phản hồi (response-time), khả năng mở rộng, hiệu năng, khả năng sẵn sàng,
độ khả dụng, độ tin cậy, độ an toàn, và phí tổn kết hợp [9]:
 Thông lượng (throughput): nó định nghĩa số lượng tác vụ đã được hoàn thành.
Hệ thống tốt thì thông lượng càng có giá trị cao.


5


 Thời gian phản hồi: thời gian phản hồi, đáp ứng của thuật toán, giá trị này
càng thấp càng tốt.
 Khả năng mở rộng: Số lượng node trong hệ thống mà thuật toán kháng lỗi còn
có thể hoạt động tốt. - Hiệu năng: tham số này kiểm tra sự ảnh hưởng về hiệu
năng của hệ thống khi áp dụng thuật toán. Hiệu năng của hệ thống cần được
cải thiện với một chi phí hợp lý.
 Độ sẵn sàng: độ sẵn sàng của hệ thống là một yếu tố ảnh hưởng đến độ tin cậy.
 Độ khả dụng: khả năng kết hợp với các sản phẩm khác một cách hiệu quả và
dễ dàng.
 Độ tin cậy: xem xét khả năng đạt được kết quả chính xác hoặc chấp nhận được
trong một khoảng thời gian.
 Phí tổn kết hợp: (overhead associated): là phí tổn trong khi thực thi những tác
vụ, tiến trình trong thuật toán. Phí tổn có thể được gây ra bởi các tiến trình di
chuyển dữ liệu, trong nội tại tiến trình và trong nội tại bộ xử lý. Một thuật toán
kháng lỗi hiệu quả thì phí tổn phải nhỏ.

1.4. Kết luận Chƣơng 1
Trong chương này đã tổng quan được các định nghĩa về lỗi, kiến trúc dịch
vụ cơ sở hạ tầng điện toán. Tổng quát được một số phương pháp nhận dạng lỗi trên
cloud computing có liên quan đến luận văn. Từ đó để nắm được nền tảng để ứng
dụng thuật toán khác để giải quyết vấn đề bài toán đặt ra.


6

CHƢƠNG 2 - THUẬT TOÁN RANDOM FOREST
2.1. Nguồn gốc ra đời của thuật toán
2.2. Thuật toán Random Forest [10-11]
2.2.1. Giới thiệu thuật toán Random Forest

2.2.2. Lịch sử của thuật toán Random Forest
2.2.3. Thuật toán Random Forest
Về cơ bản thuật toán Random Forest (RF) – rừng ngẫu nhiên dựa trên kỹ
thuật cây quyết định. Ý tưởng của RF chúng ta có thể liên tưởng tới việc bầu cử
theo nguyên tắc phổ thông đầu phiếu. Nếu sử dụng một cây quyết định chẳng khác
nào việc bầu cử mà chỉ có 1 người bỏ phiếu. Việc sinh các cây quyết định từ một
mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần,
tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận. Việc áp dụng các kỹ thuật
sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị
tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học
vấn, sức khỏe... đi bầu cử). Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp
cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác,
gần với thực tế hơn.
Định nghĩa: Một RF là một bộ phân loại gồm một tập các bộ phân loại có câu hình
cây{h(x, ⊖k), k=1,…} trong đó {⊖k} là các vecto ngẫu nhiên, độc lập, có cùng
phân bố xác suất, mỗi cây bầu cử một phiếu cho lớp phổ biến nhất tại đầu vào x [5].

2.2.4.Đặc tính của thuật toán Random Forest
Đối với rừng ngẫu nhiên, cận trên sẽ bắt nguồn cho các lỗi phát sinh dưới
dạng hai tham số, là cách xác định tính chính xác (Strength - Accuracy) và tính
tương quan (hay còn gọi là độ nhạy - Correlation) của các bộ phân loại riêng lẻ có
trong rừng ngẫu nhiên.
Hàm tương quan như sau:
Công thức thể hiện sự dao động của mr như sau:

Hàm tính độ chính xácnhư sau:


7


Giả sử s ≥0 ta có bất đẳng thức sau:

Công thức thể hiện sự dao động của mr như sau:
Nếu

Thì:

Như vậy: trong rừng ngẫu nhiên, hai tiêu chí đánh giá phương pháp phân
loại là: tính chính xác của từng cây và tính tương quan giữa các cây trong rừng tỷ lệ
nghịch với nhau. Nếu tính tương quan giữa các cây trong rừng càng cao thì độ chính
xác sẽ giảm. Độ chính xác và độ nhạy nếu đứng tách nhau thì không có ý nghĩa. Hai
độ đo này có sự tương quan nghịch: độ chính xác càng cao thì độ nhạy càng thấp và
ngược lại. Khi độ chính xác hoặc độ nhạy đạt giá trị tối thiểu thì cũng là lúc hệ
thống mất khả năng phân loại. Vì vậy người ta phải kết hợp hai độ đo trên trong một
độ đo thống nhất, vấn đề đặt ra là làm sao để có thể cân bằng hai tham số này khi
thực hiện phân loại để đạt hiệu quả cao nhất. Theo công thức độ chính xác là tỷ lệ
phần trăm các lớp phân loại đúng hoặc các lớp phân loại không lỗi: (TP/ (TP + FP)).
Độ nhạy là tỷ lệ phần trăm các lớp phân loại sai hoặc các lớp phân loại lỗi: (TP/ (TP
+ FN)). Ta có bảng mô tả mối tương quan hai tiêu chí này như ở dưới.

Trong đó:
TPi là số lượng mẫu được phân loại đúng, và được phân vào lớp ci.
FPi là số lượng mẫu bị phân loại sai, và được phân vào lớp ci.
FNi là số lượng mẫu có nhãn thực là ci nhưng không được phân vào lớp ci.
TNi là số lượng mẫu có nhãn thực khác ci và không được phân vào lớp ci.
Độ chính xác (pi) và độ nhạy (ri) tính theo từng phân lớp được định nghĩa như sau:


8


Độ chính xác chung là:

Độ sai chung là: E = 1 - A

2.2.5. Tóm tắt giải thuật
 Đầu vào là tập dữ liệu xây dựng được sau khi chọn lọc từ Google cluster
trace, gọi tập dữ liệu đầu vào là dataset.
 Đầu ra là mô hình Random Forest để phân loại, Random Forest là tập hợp
nhiều cây quyết định Ntree.
Với mỗi Cây Ntree được xây dựng bằng các sử dụng thuật toán sau:
 Với N là số lượng các trường hợp của dữ liệu huấn luyện, M là số lượng
các

biến trong việc phân loại.

 Lấy m là số các biến đầu vào được sử dụng để xác định việc phân chia tại
1Nút của cây, m < M.
 Chọn 1 tập huấn luyện cho cây bằng cách chọn n ngẫu nhiên với sự thay
thế từ tất cả các trường hợp huấn luyện có sẵn N. Sử dụng các phần còn
lại để ước lượng các lỗi của cây, bằng cách dự đoán các lớp của chúng.
 Với mỗi nút của cây, chọn ngẫu nhiên m là cơ sở phân chia tại nút đó
(độc lập với mỗi nút). Tính chia tốt nhất dựa trên các biến m trong tập
huấn luyện n.
 Mỗi cây được trồng hoàn toàn và không tỉa (có thể được sử dụng trong vệ
xây dựng một bộ phân loại như các cây bình thường).
Đối với mỗi dự doán mới được đưa vào.Nó được gán nhãn của mẫu đạo
tạo trong các nút cuối để kết thúc. Thủ tục sẽ được lập lại qua tất cả các cây


9


Ntree, và đa số phiếu bình chọn với phân lớp hay trung bình với hồi quy của các
cây Ntree là dự đoán mô hình.

2.2.6. Đặc điểm của Random Forest
2.2.7. Mô hình phân lớp với Random Forest

Hình 1.1: Mô hình phân lớp

2.3. Các độ đo đánh giá thuật toán phân loại:
2.3.1. Tiêu chí ROC (receiver operating characteristic)
2.3.2. Tiêu chí CE (cost effectiveness )
2.4. Kết luận chƣơng 2
Trong chương 2 đã trình bày thuật toán Random Forest: nguồn gốc, ý tưởng
và các độ đo đánh giá kỹ thuật phân loại.


10

CHƢƠNG 3 - SỬ DỤNG RANDOM FOREST DỰ ĐOÁN LỖI
GOOGLE CLUSTER
3.1. Tổng quan về Google cluster
3.1.1. Kỹ thuật cluster
3.1.2. Google cluster trace [14]
3.2. Xây dựng tập dữ liệu dataset (pre- processing)
Trong bài báo [15] đã sử dụng BigQuery, công cụ dữ liệu lớn từ Google
Cloud Platform để truy vấn SQL trên một khối lượng dữ liệu khổng lồ, cụ thể ở đây
là các bảng có kích thước lên tới 12TB có trên hàng tỷ dòng dữ liệu.
Từ bảng task events thu được các dữ liệu theo thời gian cách nhau 5 phút.
Tổng cộng 7 thuộc tính được trích xuất, có chung số lượng task hiện đang chạy, số

lượng task đã bắt đầu trong 5 phút trước đó và tất cả đã kết thúc với cái trạng thái
khác nhau gồm: evicted, failed, fished normally, killed, lost. Từ bảng task usage
data (dữ liệu nhiệm vụ sử dụng), ta lấy thêm 5 thuộc tính (cứ khoảng 5 phút) tải trên
máy gồm: CPU, memory, disk time, cycles per instruction (CPI) và memory access
per instruction extracted (MAI). Kết quả ta có 12 thuộc tính được trích ra. Với mỗi
bộ thuộc tính như vậy căn cứ theo thời gian ta lấy 6 lần mốc cửa sổ (windows)
tương ứng với trạng thái của máy trong suốt 30 phút trước đó được 72 thuộc tính
(12 thuộc tính ban đầu x 6 mốc thời gian).
Với BigQuery thì thao tác trích xuất từ bảng dữ liệu gốc rất nhanh. Cho
việc đếm số lượng task, ta bắt đầu với việc liên kết bảng running task, nơi mỗi dòng
tương ứng với một task có các thuộc tính: start time, end time, end status và máy
đang chạy task đó.


11
Bảng 3.1: Thời gian chạy của BigQuery để có đƣợc các tính năng đƣợc tổng
hợp qua các cửa sổ thời gian khác nhau cho hai loại kết hợp: tính toán, độ lệch
chuẩn (SD) và hệ số biến thể (CV) so với các tƣơng quan máy tính. Đối với các
cửa sổ 1 giờ và 12 giờ, mức trung bình, SD và CV đƣợc tính cho tất cả các tính
năng trong một truy vấn. Đối với tất cả các trƣờng hợp khác, độ lệch chuẩn
(và độ lệch chuẩn) của thời gian yêu cầu cho mỗi tính năng đƣợc hiển thị.

Mức kết hợp thứ hai có nghĩa là xem các thuộc tính trong các cửa sổ thời
gian dài hơn không chỉ là 5 phút cuối. Tại mỗi bước thời gian, 3 thống kê khác nhau
- trung bình, độ lệch tiêu chuẩn và hệ số biến thiên - được tính cho từng thuộc tính
cơ bản thu được ở bước trước. Điều này đã được thúc đẩy bởi sự nghi ngờ rằng
không chỉ tính giá trị mà còn sai lệch của trung bình có thể là quan trọng trong việc
hiểu hành vi của hệ thống. Sáu cửa sổkhác nhau có kích cỡ 1, 12, 24, 48, 72 và 96
giờ được sử dụng để nắm bắt hành vi ở các độ phân giải thời gian khác nhau. Điều
này dẫn đến 216 tính năng bổ sung (3 thống kê × 12 tính năng × 6 kích cỡ cửa sổ).

Để tạo ra các tính năng tổng hợp này, một tập hợp các bảng trung gian đã
được sử dụng. Đối với mỗi điểm thời gian, các bảng này bao gồm toàn bộ tập các
điểm dữ liệu được tính trung bình. Ví dụ: đối với trung bình 1 giờ, bảng sẽ chứa 6
giá trị cho mỗi tính năng và cho mỗi điểm thời gian, cho thấy sự tiến triển của hệ
thống trong một giờ qua. Trong khi tạo ra các bảng này không tốn nhiều thời gian
(cần khoảng 197 đến 960 giây), kích thước khá ấn tượng: từ 143 GB (trên 1 tỷ
hàng) trong 1 giờ đến 12,5 TB (trên 100 tỷ hàng) trong trường hợp Cửa sổ 96 giờ.
Việc xử lý các bảng này để có được các tính năng tổng hợp quan tâm yêu cầu nguồn
tài nguyên quan trọng và sẽ không thể có nếu không có nền tảng BigQuery. Ngay cả
khi đó, các truy vấn trực tiếp sử dụng một thao tác GROUP BY duy nhất để có được
tất cả 216 tính năng là không thể, chỉ cần một tính năng cơ bản được xử lý tại một
thời điểm và kết hợp các kết quả vào một bảng duy nhất ở cuối. Bảng 3.1 liệt kê số
liệu thống kê theo thời gian cần thiết để có được một tính năng cho các kích cỡ cửa
sổ khác nhau.


12

Mặc dù các giá trị tính độc lập rất quan trọng, nhưng một tiêu chí khác có
thể là quan trọng cho dự đoán là các mối quan hệ tồn tại giữa các biện pháp khác
nhau. Sự tương quan giữa các tính năng là một trong những biện pháp đó, với các
giá trị tương quan khác nhau cho biết những thay đổi trong hành vi của hệ thống.
Do đó, bài báo này đã giới thiệu mức kết tập dữ liệu thứ ba bằng cách tính các
tương quan giữa một cặp đối tượng được chọn, một lần nữa qua các kích cỡ cửa sổ
khác nhau (từ 1 đến 96 giờ như trước). Bài báo đã chọn 7 tính năng để phân tích: số
lần chạy, bắt đầu và không thành công cùng với CPU, bộ nhớ, thời gian đĩa và chỉ
số CPI. Bằng cách tính toán các mối tương quan giữa tất cả các kết nối có thể của 7
tính năng, luận văn đã thu được tổng cộng 21 giá trị tương quan cho mỗi kích thước
cửa sổ. Điều này giới thiệu thêm 126 tính năng cho bộ dữ liệu.Phân tích BigQuery
bắt đầu từ cùng các bảng trung gian như trước và tính tương quan cho một cặp trong

một lần. Như có thể thấy trong Bảng 3.1, bước này tốn nhiều thời gian hơn, đòi hỏi
nhiều thời gian hơn so với bước tổng hợp trước đó nhưng vẫn có thể quản lý được
khi xem xét kích thước của dữ liệu. Số lượng dữ liệu được xử lý cho các truy vấn
này dao động từ 49.6GB (cho mỗi cặp tính năng cho cửa sổ 1 giờ) đến 4.33TB (mỗi
cặp tính năng cho cửa sổ 96 giờ), dẫn đến chi phí xử lý cao hơn (5 USD cho mỗi TB
được xử lý). Tuy nhiên, một phân tích tương tự sẽ không thể thực hiện nếu không
có nền tảng BigQuery.
Nhật ký theo dõi của Google cũng báo cáo sự kiện máy (machine event).
Đây là các sự kiện lập lịch trình tương ứng với các máy được thêm vào hoặc loại bỏ
khỏi các nguồn tài nguyên. Đặc biệt ta quan tâm là các máy có sự kiện XÓA, có thể
là do hai nguyên nhân: lỗi máy hoặc cập nhật phần mềm máy. Mục tiêu của công
việc này là để dự đoán các sự kiện XÓA do sự cố, do đó hai nguyên nhân phải được
phân biệt. Các nhà xuất bản tập nhật kí của Google đã kiểm tra cách tốt nhất để thực
hiện sự phân biệt này và gợi ý xem khoảng thời gian mà máy vẫn không hoạt động thời gian từ sự kiện XÓA quan tâm tới sự kiện THÊMtiếp theo cho cùng một máy.
Nếu "thời gian trễ" này lớn, thì ta có thể giả định rằng sự kiện XÓA là do lỗi máy,
trong khi nếu nhỏ, máy tính này hầu như được gỡ bỏ để thực hiện cập nhật phần
mềm. Để đảm bảo rằng một sự kiện được coi là thất bại thực sự là một lỗi thực sự,
bài báo đã sử dụng một ngưỡng thời gian "down time" tương đối dài là 2 giờ, lớn
hơn thời gian cần cho một bản cập nhật phần mềm điển hình. Dựa vào ngưỡng này,


13

trên tổng số 8.957 sự kiện XÓA, 2.298 đã được coi là thất bại và là mục tiêu của
nghiên cứu dự báo. Đối với các sự kiện còn lại, ta không thể chắc chắn về nguyên
nhân, điểm dữ liệu trong cửa sổ 24 giờ trước đó đã được xóa hoàn toàn khỏi bộ dữ
liệu. Một giải pháp thay thế sẽ được coi là một phần của lớp SAFE, tuy nhiên điều
này có thể không đúng đối với một số điểm. Vì vậy, loại bỏchúng hoàn toàn đảm
bảo rằng tất cả các dữ liệu có nhãn là SAFE (an toàn) trong thực tế SAFE.
Đối với các tính năng trên dựa chủ yếu vào các phép đo tải, ta đã thêm hai

tính năng mới: thời gian tính thời gian của mỗi máy (thời gian kể từ lần kết cuối
tương ứng) và số lần XÓA. Vậy cho toàn bộ cụm trong vòng một giờ trước. Kết quả
là tổng cộng 416 tính năng cho 104.197.215 điểm dữ liệu (gần 300GB dữ liệu được
xử lý).Hình 3.2 hiển thị chuỗi thời gian cho 4 tính năng được chọn (và các sự kiện
XÓA) tại một máy điển hình.

Hình 3.2: Biểu đồ CPU kể từ lúc bắt đầu theo dõi [15]

Bốn chuỗi thời gian (4 trong 416 tính năng) cho một máy trong hệ thống.
Các tính năng hiển thị là: CPU cho cửa sổ thời gian đã qua, trung bình CPU trên 12
giờ, hệ số hệ số biến thiên trong 12 giờ qua và tương quan giữa CPU và số lượng
công việc đang chạy trong 12 giờ qua. Các đường thẳng màu xám cho biết thời gian
f xóa các sự kiện, một số tiếp theo là khoảng trống trong đó máy không có sẵn.
Khoảng trống lớn từ ~ 250 giờ đến ~ 370 giờ là một ví dụ về thời gian chết của máy
dài, sau một loạt các lỗi không thành công (nhóm các đường thẳng màu xám trong


14

khoảng 250 giờ). Trong trường hợp này, máy có thể cần kiểm tra và sửa chữa rộng
rãi hơn trước khi đưa vào bộ dữ liệu của luận văn. Kết thúc quá trình ta được 2 files
safe.24h và fail.24h.

3.3. Kỹ thuật phân lớp
Những tính năng chứa trong mục 3.2 được sử dụng cho phân loại dùng kĩ
thuật phân loại Random Forest. Những tính năng chứa trong mục trước được sử
dụng cho phân loại dùng kĩ thuật phân loại RF. Các điểm data chia làm 2 lớp: SAFE
(phản đối) và FAIL (đồng ý). Để làm điều này, mỗi điểm dữ liệu (tương ứng với
một máy tại một thời điểm nhất định) ta tính toán time_to_remove cho sự kiện
XÓA tiếp theo. Sau đó, tất cả các điểm với time_to_remove < 24h ta gán vào class

fail trong khi những cái khác được gán cho class Safe. Luận văn đã trích xuất tất cả
các point data FAIL tương ứng với cái FAIL thật sự (108,365 điểm dữ liệu) cùng
với một subset (nhánh con) của class (lớp) SAFE, tương ứng 0.5% của tổng tạo ra
bởi ngẫu nhiên subsampling (544985 point sau khi chia nhánh). Sử dụng thủ tục này
để đối phó với thực tế là lớp SAFE lớn hơn nhiều so với lớp FAIL và các phân loại
có khó khăn trong việc học các mẫu từ các bộ dữ liệu rất mất cân bằng.
Subsampling (mẫu con) là một cách để giảm mức độ mất cân bằng [8]. Ngay cả sau
khi dùng phương pháp subsampling, các phản đối khoảng gấp 5 lần số đồng ý. Tất
cả 653350 data points (SAFE plus FAIL) là cơ sở nghiên cứu dự đoán của luận văn
này.
Với số lượng lớn các tính năng, một số có thể hữu ích hơn những tính năng
khác, do đó luận văn khám phá hai loại cơ chế lựa chọn tính năng. Một là phân tích
component chính, sử dụng các thuộc tính ban đầu để xây dựng một sẻ các
component chính- Các tính năng bổ sung chiếm đa số sự thay đổi trong dữ liệu. Sau
đó, người ta chỉ có thể sử dụng các component chính để phân loại, vì những
component đó chứa các thông tin quan trọng nhất. Luận văn đã huấn luyện phân
loại với một số lượng ngày càng tăng của các component chính, tuy nhiên hiệu suất
thu được không tốt hơn so với sử dụng các tính năng ban đầu. Một cơ chế thứ hai là
lọc các tính năng ban đầu dựa trên sự tương quan của chúng với thời gian tới sự cố
sự cố tiếp theo (time_to_remove trước). Các tương quan trong khoảng [-0.3,0.45],
và ta chỉ sử dụng các tính năng có độ tương quan tuyệt đối lớn hơn một ngưỡng. Ta


15

thấy rằng hiệu suất tốt nhất thu được với một ngưỡng null (rỗng), có nghĩa là một
lần nữa sử dụng tất cả các thuộc tính. Do đó, những nỗ lực để giảm bộ tính năng
không cho kết quả tốt hơn mà RF đã được huấn luyện trực tiếp trên các tính năng
ban đầu. Một lý do cho điều này có thể là thực tế là RF tự thực hiện lựa chọn tính
năng khi huấn luyện cây quyết định. Dường như cơ chế RF thực hiện tốt hơn trong

trường hợp này là lọc dựa trên sự tương quan hoặc phân tích component chính.
Để đánh giá hiệu quả của phương pháp tiếp cận, luận văn đã sử dụng xác
nhận chéo. Với thủ tục luận văn sử dụng để xác định 2 class, có nhiều data point
tương ứng với sự thất bại tương tự (dữ liệu trên 24 giờ với độ phân giải 5 phút). Vì
một số các điểm dữ liệu này rất giống nhau nên việc chọn dữ liệu train (huấn luyện)
và dữ liệu kiểm tra (test) không thể được thực hiện bằng cách chọn các tập con ngẫu
nhiên. Mặc dù việc lựa chọn ngẫu nhiên có thể cho kết quả dự đoán cực kỳ tốt,
nhưng nó không thực tế vì chúng ta sẽ sử dụng dữ liệu thử nghiệm tương tự như dữ
liệu huấn luyện. Đây là lý do tại sao luận văn đã chọn để chia tách dữ liệu trên cặp
train/test theo thời gian. Luận văn xem xét dựa trên việc huấn luyện về dữ liệu trong
một cửa sổ 10 ngày, tiếp theo là kiểm tra dựa trên dữ liệu trong ngày hôm sau mà
không trùng với dữ liệu huấn luyện. Do đó, ngày kiểm tra bắt đầu 24 giờ sau điểm
dữ liệu huấn luyện cuối cùng. Hai ngày đầu tiên đã bị bỏ qua để làm giảm hiệu ứng
trên các tính năng tổng hợp. Theo cách này, đã có 15 train/test được sử dụng làm
điểm chuẩn để đánh giá phân tích (xem Hình 3.3). Thủ tục xác nhận chéo này để
đảm bảo hiệu suất phân loại là thực tế và không phải là một giả tạo của cấu trúc dữ
liệu. Ngoài ra, nó mô phỏng con đường dự đoán FAIL sẽ được áp dụng trong một
data center trực tiếp, nơi mà mỗi ngày một mô hình có thể được huấn luyện về dữ
liệu trong quá khứ để dự đoán FAIL trong tương lai.
Do nhiều điểm từ class FAIL rất giống nhau, không phải trường hợp của
class SAFE do việc lấy mẫu ban đầu, thông tin trong lớp SAFE vẫn chiếm đa số.
Điều này nhắc tôi thêm mẫu subsample class phản đối để có được dữ liệu huấn
luyện. Điều này được thực hiện sao cho tỷ số giữa các điểm dữ liệu SAFE và FAIL
bằng một tham số fsafe. Thay đổi tham số này với các giá trị {0.25,0.5,1,2,3,4}
trong khi sử dụng tất cả các điểm dữ liệu từ lớp đồng ý để không bỏ lỡ bất kỳ thông
tin hữu ích. Điều này chỉ áp dụng cho dữ liệu huấn luyện: để kiểm tra, luận văn luôn
sử dụng tất cả dữ liệu từ cả lớp phủ định và đồng ý (trong số liệu cơ sở là 653.350


16


điểm). Sử dụng RF có kích cỡ khác nhau, với số Cây quyết định thay đổi từ 2 đến
15 với bước 1 (dẫn đến 14 giá trị khác nhau)

Hình 3.3: Phƣơng pháp xác nhận chéo: kiểm tra chuyển tiếp trong thời gian
(forward-in-time testing). 10 ngày đã đƣợc sử dụng để huấn luyện và một ngày để
testing. Một bộ 15 tiêu chuẩn (train/test pairs) thu đƣợc bằng cách trƣợt cửa sổ
train/test qua 29 ngày theo dõi.

Hiệu suất của các bộ phân loại đơn, dù tốt hơn ngẫu nhiên, được đánh giá là
không thỏa đáng. Đó là lý do tại sao luận văn chọn một phương pháp tổng hợp, tạo
ra một loạt các phân loại và sau đó lựa chọn và kết hợp chúng để cung cấp sự phân
loại cuối cùng. Ensembles (phân loại tập hợp) có thể tăng cường sức mạnh của các
bộ phân loại cá thể hiệu suất thấp [16], đặc biệt nếu chúng được đa dạng [17-18]:
nếu họ đưa ra câu trả lời sai về các điểm dữ liệu khác nhau (lỗi độc lập), sau đó kết
hợp kiến thức của các bộ có thể nâng cao độ chính xác. Để tạo phân loại đa dạng,
người ta có thể thay đổi các tham số mô hình nhưng cũng huấn luyện chúng với các
dữ liệu khác nhau (được gọi là phương pháp tính toán bagging [16]). Thuật toán
Bagging rất tốt với subsampling để vượt qua các vấn đề sự kiện hiếm hoi, và trên
thực tế nó đã được hiển thị có hiệu quả cho vấn đề mất cân bằng lớp [19]. Do đó,
luận văn áp dụng cách tiếp cận tương tự để xây dựng các phân loại riêng. Mỗi lần
một phân loại mới được huấn luyện, một tập dữ liệu huấn luyện mới được xây dựng
bằng cách xem xét tất cả các điểm dữ liệu trong lớp dương và một tập con ngẫu
nhiên của lớp phủ định. Như mô tả ở trên, kích thước của tập con này được định
nghĩa bởi tham số fsafe. Bằng cách thay đổi giá trị không an toàn và số lượng cây
trong thuật toán RF, tôi tạo ra các phân loại khác nhau. Các thuật toán sau đây chi
tiết các thủ tục được sử dụng để xây dựng các phân loại cá nhân trong toàn bộ.


17


Luận văn lặp lại thủ tục này 5 lần, kết quả trong 5 lần phân loại cho mỗi lần
kết hợp thông số fsafe và kích cỡ RF/ Kết quả này trong 1 tổng của 420 RF trong
toàn bộ (5 lần lặp lại × 6 giá trị fsafe × 14 sizes RF).
Một khi đã có được nhóm các phân loại, một chiến lược kết hợp phải được
sử dụng. Hầu hết các phương pháp tiếp cận hiện tại đều sử dụng nguyên tắc bỏ
phiếu đa số - mỗi bộ phân loại sẽ bỏ phiếu cho lớp và lớp đa số trở thành quyết định
cuối cùng [16]. Ngoài ra, một cuộc bỏ phiếu có trọng số có thể được sử dụng, và
luận văn đã chọn để bỏ phiếu có trọng số chính xác (precision-weighted voting).
Đối với hầu hết các phương pháp hiện tại, trọng số tương ứng với độ chính xác của
mỗi phân loại trên dữ liệu huấn luyện (training data)[20]. Trong trường hợp này,
hiệu năng của dữ liệu huấn luyện gần với độ hoàn hảo và độ chính xác nói chung là
cao, đó là lý do tại sao luận văn sử dụng độ chính xác trên tập con của dữ liệu thử
nghiệm. Cụ thể, luận văn chia dữ liệu thử nghiệm thành hai phần: một bộ dữ liệu
thử nghiệm đơn (individual test dataset) và bộ dữ liệu kiểm tra toàn bộ(ensemble
test dataset). Cái cũ được sử dụng để đánh giá độ chính xác của các phân loại riêng
lẻ và có được trọng số cho việc bỏ phiếu của từng phân loại. Thứ hai cung cấp đánh
giá cuối cùng của tất cả các bộ phân loại. Tất cả dữ liệu tương ứng với ngày thử
nghiệm đã được sử dụng, không có phân nhánh. Bảng 3.2 cho thấy số điểm dữ liệu


18

được sử dụng cho mỗi điểm chuẩn cho việc huấn luyện và thử nghiệm. Mặc dù
thông số fsafe kiểm soát tỷ lệ SAFE / FAIL trong quá trình huấn luyện, các trường
hợp FAIL ít gặp hơn trong quá trình kiểm tra, thay đổi từ 13% đến 36% số lần
SAFE.
Bảng 3.2: Quy mô tập huấn và kiểm tra đối với dữ liệu huấn luyện, số
điểmdữ liệu SAFE là số FAIL nhân với tham số fsafe ở mỗi lần chạy.


3.4. Kết luận chƣơng 3
Trong chương này đã trình bày cách xây dựng tập dữ liệu dataset cho phân
loại bằng Big Query và quá trình phân loại các máy lỗi dựa trên kỹ thuật Random
Forest.


19

CHƢƠNG 4 - ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC VÀ
PHƢƠNG HƢỚNG PHÁT TRIỂN
4.1. Các kết quả đạt đƣợc
4.1.1. Môi trường thực nghiệm
4.1.2. Đánh giá dựa theo các độ đo
Cho rằng kết quả của việc phân loại là một hàm số liên tục (Phương trình bậc
2), chứ không phải là một giá trị riêng biệt, việc đánh giá dựa trên các biểu đồ ROC
(ROC) và Precision-Recall (PR). Một lớp có thể thu được cho một điểm dữ liệu j từ
điểm sj’ bằng cách sử dụng một ngưỡng s *. Một điểm dữ liệu được coi là trong
lớpFAIL nếu sj '≥s *. Các s * nhỏ hơn, nhiều trường hợp được phân loại như là thất
bại.
Do đó, bằng cách giảm s * số TPtăng lên làm những FP mất cân đối. Tương
tự, ở các giá trị ngưỡng khác nhau, một độ chính xác nhất định được thu được.
Đường cong ROC tính tỷ lệ Tích cực so với False Positive Rate - FPR của phân loại
vì ngưỡng khác nhau. Tương tự như vậy, đường cong PR sẽ hiển thị độ phân giải
xác nhận (bằng TPR hoặc độ nhạy). Thường xuyên để đánh giá một phân loại bằng
cách tính diện tích dưới ROC (AUROC) và diện tích dưới các đường cong PR
(AUPR), có thể dao động từ 0 đến 1. Các giá trị AUROC lớn hơn 0,5 tương ứng với
các phân loại hoạt động tốt hơn các phép đoán ngẫu nhiên, trong khi AUPR đại diện
cho độ chính xác phân loại trung bình, , Một lần nữa, càng cao càng tốt. AUROC và
AUPR không phụ thuộc vào sự phân bố tương đối của hai lớp, vì vậy chúng đặc biệt
phù hợp hoặc các vấn đề về sự mất cân bằng cấp lớp như trong quá trình giải quyết

vấn đề.


20

Hình 4.1:Các giá trị AUROC và AUPR qua các lần đánh giá

Hình 4.1 cho thấy các giá trị AUROC và AUPR thu được cho tất cả các bộ
dữ liệu, đánh giá trên dữ liệu kiểm tra toàn bộ. Đối với tất cả các điểm chuẩn, giá trị
AUROC rất tốt, trên 0,75 và đến 0,97. AUPR dao động từ 0,38 đến 0,87. Hiệu suất
dường như tăng lên, đặc biệt là về độ chính xác, vào cuối dấu vết. Hiệu suất thấp
được quan sát thấy trong hai tiêu chuẩn đầu tiên có thể là do một số tính năng tổng
hợp (những người trên 3 hoặc 4 ngày) được tính toán với dữ liệu chưa đầy đủ ngay
từ đầu.Để đánh giá hiệu quả của các thông số khác nhau và phương pháp tiếp cận
toàn bộ.


21

Hình 4.2: Biểu đồ đánh giá lần chạy thứ 4 cho kết quả xấu nhất

Hình 4.3: Biểu đồ đánh giá lần chạy thứ 14 cho kết quả xấu nhất

Hình 4.2 và 4.3 hiển thị các đường cong ROC và PR cho các đánh giá cho
kết quả tệ nhất và tốt nhất trong 15 lần đánh giá (lần lượt là 4 và 14). Hiệu suất của
các phân loại riêng biệt trong toàn thể cũng được hiển thị (như các điểm trong
không gian ROC). Chúng ta có thể thấy rằng các phân loại riêng lẻ dẫn đến FPR rất
thấp, điều này rất quan trọng trong việc dự báo những thất bại. Tuy nhiên, trong
nhiều trường hợp, các giá trị TPR cũng rất thấp. Điều này có nghĩa là hầu hết các dữ
liệu thử nghiệm được phân loại là SAFE và rất ít thất bại thực sự được xác định.

TPR dường như tăng lên khi các thông sốfsafe giảm, nhưng tại các chi phí
của FPR và chính xác. Các điểm chấm cho thấy sự phụ thuộc rõ ràng giữa ba biện
pháp vẽ và các giá trị bảo vệ. Khi lượng dữ liệu huấn luyện SAFE giảm, các bộ


22

phân loại trở tốt hơn và có thể xác định được nhiều thất bại hơn, đây là một kết quả
quan trọng cho vấn đề mất cân bằng. Ngoài ra, các ô cho thấy rõ rằng các bộ phân
loại đơn đạt được với các giá trị khác nhau cho SAFE là rất đa dạng, điều này rất
quan trọng để có được hiệu năng đồng bộ tốt.
Nhìn chung, các điểm tương ứng với các phân loại riêng lẻdưới đường cong
ROC và PR mô tả hiệu suất của tổng thể. Điều này chứng minh rằng phương pháp
tổng thể là tốt hơn so với các phân loại đơn cho vấn đề này, có thể cũng do sự đa
dạng của chúng. Một số trường hợp ngoại lệ xuất hiện (điểm trên các đường kẻ cố
định), tuy nhiên với TPR rất thấp (dưới 0.2) do đó trong một khu vực của ROC / PR
không gian mà không phải đáng quan tâm. Luận văn quan tâm đến việc tối đa hóa
TPR trong khi vẫn giữ được FPR. Cụ thể, FPR không bao giờ vượt quá 5%, có
nghĩa là ít báo động sai. Tại ngưỡng này, hai ví dụ từ Hình 4.1 và Hình 4.2 hiển thị
các giá trị TPR là 0,272 (trường hợp xấu nhất) và 0,886 (trường hợp tốt nhất), tương
ứng với các giá trị chính xác là 0,502 và 0,728. Điều này tốt hơn nhiều so với các
phân loại cá nhân ở cấp độ này, cả về độ chính xác và TPR. Đối với dự đoán thất
bại, điều này có nghĩa là giữa 27,2% và 88,6% lỗi được xác định như vậy, trong khi
từ tất cả các trường hợp được đánh dấu là lỗi, khoảng 50,2% đến 72,8% là thất bại
thực sự.
Để phân tích các hàm ý của các kết quả thu được chi tiết hơn, mối quan hệ
giữa phân loại và thời gian chính xác cho đến sự kiện XÓA tiếp theo đã được
nghiên cứu cho các điểm dữ liệu. Điều này rất quan trọng bởi vì ban đầu luận văn
đã gán nhãn SAFE cho tất cả các điểm dữ liệu vượt quá 24 giờ so với lỗi. Theo
phân loại này, một máy sẽ được coi là ở trạng thái an toàn cho dù nó không thành

công trong 2 tuần hoặc trong 2 ngày. Tương tự, nó được coi là trong FAIL cho dù
nó không thành công trong 23 giờ hoặc trong 10 phút. Rõ ràng đây là những tình
huống rất khác nhau, và tác động của phân loại sai lệch khác nhau tùy thuộc vào
thời gian cho sự thất bại tiếp theo. Hình 5 hiển thị đồ hoạ này. Khi thời gian để sự
thất bại tiếp theo giảm xuống, một điểm dữ liệu SAFE bị phân loại sai như các
FAIL ít hơn như một phân loại sai, vì sự thất bại thực sự đang đến gần. Tương tự,
một điểm FAILcó nhãn là SAFE có tác động tiêu cực cao hơn khi nó gần với điểm
thất bại.


23

Hình 4.4: Ngƣỡng dao động giữa FAIL và SAFE

4.1.3 Kết quả tổng thể
Luận văn mô tả cách phân loại tập hợp được xây dựng từ nhiều bộ phân
loại Rừng ngẫu nhiên được huấn luyện về các thuộc tính, và dự đoán máy tính sẽ
gặp lỗi sau 24 giờ trong tương lai. Đánh giá của luận văn cho thấy rằng nếu hạn chế
tỷ lệ FP tới 5%, ta có thể đạt được tỷ lệ FPR 27% và 88% với độ chính xác dao
động từ 50% đến 72%.

4.2. Phƣơng hƣớng phát triển
Luận văn đã trình bày một nghiên cứu dự báo lỗi của các nút, hay máy chủ
trong một cụm máy chủ của Google dựa trên một tập nhật kí mà Google đã công bố.
Trích xuất tính năng từ dữ liệu gốc được thực hiện bằng BigQuery, nền tảng đám
mây dữ liệu lớn từ Google cho phép truy vấn SQL. Một số lượng lớn các tính năng
được tạo ra và một trình phân loại toàn bộ đã được huấn luyện về dữ liệu nhật ký
trong 10 ngày và được kiểm tra vào ngày tiếp theo. Chiều dài của theo dõi cho phép
lặp lại quá trình này 15 lần tạo ra 15 bộ dữ liệu chuẩn, và ngày cuối cùng trong mỗi
tập dữ liệu được sử dụng để thử nghiệm. Nền tảng BigQuery rất hữu ích để có được

các tính năng từ dữ liệu nhật ký. Mặc dù đã tìm thấy các giới hạn khi JOIN và
GROUND BY các tính năng, chúng đã bị phá vỡ bằng cách tạo các bảng trung gian,
đôi khi chứa trên 12TB dữ liệu. Mặc dù vậy, các tính năng đã đạt được với thời gian
chạy giảm, tổng chi phí cho toàn bộ phân tích xử lý một tháng giá trị các bản ghi.
Hiệu suất phân loại thay đổi từ một điểm chuẩn sang điểm khác, với phương pháp
đường cong ROC dao động từ 0,76 đến 0,97 trong khi đo đường cong AUROC dao


24

động từ 0,38 đến 0,87. Điều này tương ứng với tỷ lệ dương tính thật trong khoảng
27% -88% và chính xác từ 50% đến 72% với tỷ lệ FN 5%. Nói cách khác, điều này
có nghĩa là trong trường hợp xấu nhất, chúng ta có thể xác định được 27% lỗi, trong
khi nếu một điểm dữ liệu bị phân loại là thất bại, chúng ta có thể có 50% tự tin rằng
chúng ta đang nhìn vào một thất bại thực sự. Đối với trường hợp tốt nhất, tôi đã có
thể xác định gần 90% lỗi và 72% trường hợp được phân loại là thất bại tương ứng
với thất bại thực sự. Tất cả điều này, với chi phí có báo động sai 5% thời gian.
Mặc dù không hoàn hảo, dự đoán này đạt được mức hiệu suất tốt. Kết quả có
thể được cải thiện bằng cách thay đổi thủ tục subsampling. Ở đây, chỉ một tập con
của dữ liệu SAFE đã được sử dụng do số lượng lớn các điểm dữ liệu trong lớp này,
và một mẫu ngẫu nhiên đã được trích xuất từ tập hợp con này khi huấn luyện cho
mỗi phân loại trong toàn bộ. Tuy nhiên, mỗi lần có thể lấy mẫu từ toàn bộ.Tuy
nhiên, điều này đòi hỏi nhiều tài nguyên tính toán hơn cho việc huấn luyện, vì một
máy trạm duy nhất không thể xử lý 300 GB dữ liệu cùng một lúc. Thời gian huấn
luyện có thể được giảm thông qua song song, mỗi phân loại trong toàn bộ có thể
được huấn luyện độc lập với những người khác. Những cải tiến này sẽ được theo
đuổi trong tương lai. Việc giới thiệu các tính năng bổ sung cũng sẽ được khai thác
để đưa vào một cách rõ ràng hơn sự tương tác giữa các máy. BigQuery sẽ được sử
dụng để tương tác giữa các máy từ dữ liệu. Những thay đổi về tính chất của các
mạng này theo thời gian có thể cung cấp thông tin quan trọng về những thất bại

trong tương lai.Phương pháp trình bày ở đây rất thích hợp cho việc sử dụng các mô
hình server chạy trên mạng. Một mô hình mới có thể được huấn luyện mỗi ngày
chạy trực tuyến song song với mới Data Center đang chạy. Từ đó ta có thể dự báo
lỗi được các mô hình vận hành này.Đó là hướng phát triển trong tương lai của luận
văn.


25

KẾT LUẬN
Luận văn đã tổng quan được các định nghĩa về lỗi, kiến trúc dịch vụ cơ sở
hạ tầng điện toán đám mây. Tổng quát được một số phương pháp nhận dạng lỗi trên
cloud computing,nắm được nền tảng để ứng dụng thuật toán khác để giải quyết vấn
đề bài toán nhận dạng lỗi trên cloud.Hơn nữa trình bày thuật toán Random Forest:
nguồn gốc, ý tưởng và các độ đo đánh giá kỹ thuật phân loại, từ đó đi sâu nghiên
cứu ứng dụng thuật toán để giải quyết bài toán. Cuối cùng, luận văn đã trình bày
cách xây dựng tập dữ liệu dataset cho phân loại bằng Big Query và quá trình phân
loại các máy lỗi dựa trên kỹ thuật Random Forest. Từ đó cho ra được kết quả nhận
dạng lỗi với độ chính xác từ 50% - 72%.
Luận văn đã đề xuất ứng dụng thuật toán Random Forest để giải quyết bài
toán nhận dạng lỗi cho một hệ thống cloud computing lớn. Mặc dù độ chính xác
chưa hoàn hảo nhưng cũng đã đạt được mong muốn để có thể tiếp tục phát triển
hướng nghiên cứu ứng dụng một hệ thống nhận dạng lỗi online cho cloud
computing.


×