Khai thác dữ liệu, học máy và phân tích dữ liệu lớn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (168.69 KB, 14 trang )

KHAI THÁC DỮ LIỆU, HỌC MÁY VÀ PHÂN TÍCH DỮ LIỆU LỚN
Bài báo này phân tích các phương pháp học sâu, khai thác dữ liệu truyền thống và
học máy; so sánh ưu nhược điểm của các phương pháp truyền thống; giới thiệu nhu
cầu doanh nghiệp, hệ thống và dữ liệu, thách thức CNTT và Dữ liệu lớn trong cơ
sở hạ tầng dịch vụ mở rộng. Tính khả thi và thách thức của các ứng dụng học sâu
và phương pháp khai thác dữ liệu truyền thống và học máy trong phân tích Dữ liệu
lớn cũng được phân tích và trình bày.
1. Giới thiệu
Khai phá dữ liệu tập trung vào khám phá tri thức của dữ liệu. Học máy tập trung
vào dự đoán dựa trên đào tạo và học tập. Khai thác dữ liệu sử dụng nhiều phương
pháp học máy; học máy cũng sử dụng các phương pháp khai thác dữ liệu làm tiền
xử lý để học tốt hơn và chính xác hơn. Học máy bao gồm cả phương pháp học có
giám sát và khơng giám sát. Khai thác dữ liệu có sáu nhiệm vụ chính: phân cụm,
phân loại, hồi quy, phát hiện bất thường hoặc ngoại lệ, học quy tắc kết hợp và tóm
tắt. Tính khả thi và thách thức của các ứng dụng khai thác dữ liệu và học máy trong
dữ liệu lớn đã là một chủ đề nghiên cứu mặc dù cịn nhiều thách thức. Giảm kích
thước dữ liệu là một trong những vấn đề trong xử lý dữ liệu lớn.
Dữ liệu chiều cao có thể gây ra các vấn đề cho việc khai thác dữ liệu và học máy
mặc dù tính chiều cao có thể giúp ích trong một số tình huống nhất định, chẳng hạn
như phân loại phi tuyến tính. Tuy nhiên, điều quan trọng là phải kiểm tra xem có
thể giảm số chiều trong khi vẫn bảo tồn các thuộc tính cơ bản của ma trận dữ liệu
đầy đủ hay khơng.1 . Giảm kích thước tạo điều kiện thuận lợi cho việc phân loại,
giao tiếp, trực quan hóa và lưu trữ dữ liệu nhiều chiều. Phương pháp được sử dụng
rộng rãi nhất trong việc giảm kích thước là phân tích thành phần chính
(PCA). PCA là một phương pháp đơn giản tìm hướng có phương sai lớn nhất trong
tập dữ liệu và biểu thị từng điểm dữ liệu theo tọa độ của nó dọc theo từng hướng
này2 . Hướng có phương sai dự kiến lớn nhất được gọi là thành phần chính đầu
tiên. Hướng trực giao thu được phương sai dự kiến lớn thứ hai được gọi là thành
phần chính thứ hai, v.v.1 . PCA rất hữu ích khi có một số lượng lớn biến trong dữ
liệu và có một số dư thừa trong các biến đó. Trong tình huống này, dự phịng có
nghĩa là một số biến có tương quan với nhau. Do sự dư thừa này, PCA có thể được

sử dụng để giảm các biến quan sát thành một số lượng nhỏ hơn các thành phần
chính3 .
Phân tích nhân tố là một phương pháp khác để giảm kích thước. Nó rất hữu ích để
hiểu những lý do cơ bản cho mối tương quan giữa một nhóm các biến. Các ứng

dụng chính của phân tích nhân tố là giảm số lượng biến và phát hiện cấu trúc trong
mối quan hệ giữa các biến. Do đó, phân tích nhân tố thường được sử dụng như một
phương pháp phát hiện cấu trúc hoặc giảm dữ liệu. Cụ thể, nó được sử dụng để tìm
ra các nhân tố ẩn đằng sau các biến quan sát và làm giảm số lượng các biến tương
quan. Trong phân tích nhân tố, người ta giả định rằng một số biến tiềm ẩn không
quan sát được tạo ra dữ liệu quan sát được. Dữ liệu được giả định là sự kết hợp
tuyến tính của các biến tiềm ẩn và một số nhiễu. Số lượng biến tiềm ẩn có thể ít
hơn số lượng biến trong dữ liệu được quan sát, đáp ứng việc giảm kích thước4 ,5 .
Trong các ứng dụng thực tế, tỷ lệ 75% và 25% thường được sử dụng tương ứng
cho tập dữ liệu huấn luyện và kiểm chứng. Tuy nhiên, phương pháp được sử dụng
thường xuyên nhất, đặc biệt là trong lĩnh vực mạng thần kinh, là chia tập dữ liệu
thành ba khối: đào tạo, xác nhận và kiểm tra. Dữ liệu thử nghiệm sẽ khơng được sử
dụng trong giai đoạn lập mơ hình 6 . Kỹ thuật xác thực chéo k -fold là một kỹ thuật
phổ biến được sử dụng để ước tính hiệu suất của bộ phân loại vì nó khắc phục
được vấn đề khớp quá mức7 . Trong xác thực chéo k -fold, dữ liệu ban đầu được
phân chia ngẫu nhiên thành k tập con loại trừ lẫn nhau hoặc "các nếp gấp". Đào tạo
và kiểm tra được thực hiện k lần. Mỗi mẫu được sử dụng cùng một số lần để huấn
luyện và một lần để kiểm tra 8 . Chuẩn hóa đặc biệt hữu ích cho các thuật tốn phân
loại liên quan đến mạng thần kinh hoặc các phép đo khoảng cách như phân loại và
phân cụm lân cận gần nhất. Đối với các phương pháp dựa trên khoảng cách, chuẩn
hóa giúp ngăn các thuộc tính có phạm vi lớn ban đầu (ví dụ: thu nhập) vượt trội so
với các thuộc tính có phạm vi ban đầu nhỏ hơn (ví dụ: thuộc tính nhị phân). Có
nhiều phương pháp để chuẩn hóa dữ liệu như chuẩn hóa tối thiểu-tối đa, chuẩn hóa
điểm số z và chuẩn hóa theo tỷ lệ thập phân .

Mục đích của bài báo này là 1) phân tích học sâu và các phương pháp học máy và
khai thác dữ liệu truyền thống (bao gồm k -mean , k -hàng xóm gần nhất, máy
vectơ hỗ trợ, cây quyết định, hồi quy logistic, Naive Bayes, mạng nơ-ron, đóng
bao, tăng cường , và rừng ngẫu nhiên); 2) so sánh những ưu điểm và nhược điểm
của các phương pháp truyền thống; 3) giới thiệu các nhu cầu, hệ thống và dữ liệu
của doanh nghiệp, các thách thức CNTT và Dữ liệu lớn trong cơ sở hạ tầng dịch vụ
mở rộng; và 4) thảo luận về tính khả thi và thách thức của các ứng dụng học sâu và
phương pháp khai thác dữ liệu truyền thống và học máy trong phân tích Dữ liệu
lớn.
2. Một số phương pháp trong Data Mining và Machine Learning
2.1. k -means , k - mode, k -prototypes và phân tích cụm

Các phương pháp phân cụm có thể được phân loại thành các loại sau: phương pháp
phân vùng, phương pháp phân cấp, phương pháp dựa trên mơ hình, phương pháp
dựa trên lưới, phương pháp dựa trên mật độ và phương pháp dựa trên ràng
buộc. Ưu điểm chính của phân cụm so với phân loại là khả năng thích ứng với các
thay đổi và giúp chọn ra các tính năng hữu ích để phân biệt các nhóm khác
nhau9 . Một phương pháp phân cụm tốt sẽ tạo ra các cụm chất lượng cao với độ
tương tự trong lớp cao và độ tương tự giữa các lớp thấp. Chất lượng của việc phân
cụm phụ thuộc vào sự phù hợp của phương pháp đối với tập dữ liệu, thước đo độ
tương tự (không) được sử dụng và việc thực hiện nó. Chất lượng của một phương
pháp phân cụm cũng được đo bằng khả năng khám phá một số hoặc tất cả các mẫu
ẩn. Các loại dữ liệu trong phân tích phân cụm bao gồm danh nghĩa (phân loại),
biến theo tỷ lệ khoảng, biến nhị phân, biến thứ tự và các loại hỗn hợp10 .
k -means sử dụng phương pháp lặp đi lặp lại tham lam để tìm phân cụm giúp giảm
thiểu tổng lỗi bình phương (SSE). Nó có thể hội tụ đến một tối ưu cục bộ thay vì
tối ưu tồn cầu1 . Các thuộc tính quan trọng của thuật tốn k -means bao gồm11 : 1)
hiệu quả trong việc xử lý các tập dữ liệu lớn; 2) chỉ hoạt động trên các giá trị số; 3)
cụm có dạng lồi. Người dùng cần chỉ định trước k (số cụm). Phương pháp có thể

kết thúc tại một địa phương tối ưu. Tối ưu toàn cầu có thể được tìm thấy bằng cách
sử dụng các kỹ thuật như ủ xác định và thuật toán di truyền. Phương pháp k -means
không áp dụng cho dữ liệu phân loại trong khi k- mode là phương pháp dành cho
dữ liệu phân loại sử dụng các chế độ. k -mode sử dụng các biện pháp khác biệt mới
để xử lý các đối tượng phân loại và sử dụng phương pháp dựa trên tần số để cập
nhật các chế độ của cụm. Phương pháp nguyên mẫu k có thể xử lý hỗn hợp dữ liệu
phân loại và số10 .
2.2. k -Hàng xóm gần nhất
Phân loại k -hàng xóm gần nhất ( k -NN) tìm một nhóm gồm k đối tượng trong tập
huấn luyện gần nhất với đối tượng thử nghiệm và dựa trên việc gán nhãn dựa trên
ưu thế của một lớp cụ thể trong vùng lân cận này. k -NN liên quan đến việc gán
cho một đối tượng một lớp của hàng xóm gần nhất của nó hoặc của phần lớn các
hàng xóm gần nhất của nó. Nói một cách cụ thể, phân loại k -NN tìm thấy k phiên
bản huấn luyện gần nhất với phiên bản chưa nhìn thấy và lấy phân loại thường xảy
ra nhất cho k phiên bản này . Có một số vấn đề chính ảnh hưởng đến hiệu suất
của k -NN. Một là sự lựa chọn của k . Nếuk quá nhỏ, kết quả có thể nhạy cảm với
các điểm nhiễu. Mặt khác, nếu k quá lớn, lân cận có thể bao gồm quá nhiều điểm từ
các lớp khác. Ước tính giá trị tốt nhất cho k có thể thu được bằng xác thực
chéo. Cho đủ mẫu, giá trị lớn hơn của k có khả năng chống nhiễu tốt

hơn12 ,13 . Thuật toán k -NN để phân loại là một thuật toán học 'dựa trên cá thể' rất
đơn giản. Mặc dù đơn giản nhưng nó có thể mang lại hiệu quả rất tốt đối với một
số bài toán3 . Các thuộc tính quan trọng của thuật tốn k -NN là11 : 1) dễ triển khai
và sử dụng; 2) nó cần rất nhiều khơng gian để lưu trữ tất cả các đối tượng.
2.3. Máy véc tơ hỗ trợ
Máy vectơ hỗ trợ (SVM) là một phương pháp học có giám sát được sử dụng cho
các tác vụ phân loại và hồi quy3. SVM đã được chứng minh là hoạt động tốt trên
các bài tốn thưa thớt, phi tuyến tính và nhiều chiều. Một lợi thế của phương pháp
là việc xây dựng mơ hình chỉ sử dụng các vectơ hỗ trợ chứ khơng phải tồn bộ tập

dữ liệu huấn luyện. Do đó, kích thước của tập huấn luyện thường khơng phải là
vấn đề. Ngồi ra, mơ hình ít bị ảnh hưởng bởi các ngoại lệ do chỉ sử dụng các
vectơ hỗ trợ để xây dựng mơ hình. Một nhược điểm là thuật toán nhạy cảm với
việc lựa chọn tùy chọn điều chỉnh (ví dụ: loại phép biến đổi sẽ thực hiện). Điều này
làm cho nó tốn thời gian và khó sử dụng hơn cho mơ hình tốt nhất. Một nhược
điểm khác là các phép biến đổi được thực hiện trong cả q trình xây dựng mơ
hình và tính điểm dữ liệu mới. Điều này làm cho nó tốn kém về mặt tính
tốn. SVM hoạt động với các giá trị số và danh nghĩa; phân loại SVM hỗ trợ cả
mục tiêu nhị phân và đa lớp14 .
2.4. Cây và hồi quy logistic
Cây quyết định được sử dụng trong khai thác dữ liệu bao gồm hai loại chính: 1)
cây phân loại để dự đoán lớp mà dữ liệu thuộc về; và 2) cây hồi quy để dự đoán kết
quả là một số thực. Cây phân loại và cây hồi quy cung cấp các cách tiếp cận khác
nhau để dự đoán15 . Khi xây dựng một cây, các biện pháp như ý nghĩa thống kê, thu
được thơng tin, chỉ số Gini, v.v. có thể được sử dụng để đánh giá hiệu quả của việc
phân tách. Khi một cây quyết định được xây dựng, nhiều nhánh sẽ phản ánh sự bất
thường trong dữ liệu huấn luyện do nhiễu hoặc ngoại lệ. Các phương pháp cắt tỉa
cây giải quyết vấn đề ghi đè dữ liệu này. Cây được cắt tỉa có xu hướng nhỏ hơn và
ít phức tạp hơn, do đó dễ hiểu hơn. Chúng thường nhanh hơn và tốt hơn trong việc
phân loại chính xác dữ liệu thử nghiệm độc lập 8 . Có hai cách cắt tỉa cây: 1) cắt tỉa
trước — cây được cắt tỉa bằng cách tạm dừng quá trình xây dựng của nó sớm; 2)
cắt tỉa sau — phương pháp này loại bỏ một cây con khỏi một cây trưởng
thành9 . Chiến lược cắt tỉa sau (đôi khi được gọi là cắt tỉa ngược) thay vì cắt tỉa
trước (hoặc tỉa trước) thường được áp dụng sau khi xây dựng một cây hoàn
chỉnh16 . Cả cây phân vùng đệ quy và cây suy luận có điều kiện đều khơng theo
tham số, hoạt động trên cả bài toán phân loại và hồi quy, đồng thời rất linh hoạt và

dễ diễn giải trong khi chúng có xu hướng khớp q mức. Cây suy luận có điều kiện
ít bị sai lệch hơn cây phân vùng đệ quy 7 . Hồi quy logistic là một mơ hình hồi quy

trong đó biến phụ thuộc là phân loại. Nó khơng tốn kém về mặt tính tốn, dễ thực
hiện, biểu diễn tri thức tốt và dễ diễn giải. Tuy nhiên, nó dễ bị thiếu và có thể có độ
chính xác thấp5 .
2.5. Nạve Bayes
Bộ phân loại Naïve Bayes là một phương pháp phân loại không sử dụng các quy
tắc, cây quyết định hoặc bất kỳ biểu diễn rõ ràng nào khác của bộ phân loại. Thay
vào đó, nó sử dụng lý thuyết xác suất để tìm ra các phân loại khả thi nhất13 . Naïve
Bayes hoạt động với một lượng nhỏ dữ liệu và giá trị danh nghĩa 5 . Các thuộc tính
quan trọng của thuật toán Naive Bayes là 11 : 1) rất dễ xây dựng và đào tạo cũng dễ
dàng và nhanh chóng; và 2) nó có khả năng mở rộng cao.
Vẻ đẹp của bộ phân loại Naive Bayes nằm ở sự đơn giản, hiệu quả tính tốn, hiệu
suất phân loại tốt. Trên thực tế, nó thường vượt trội so với các bộ phân loại tinh vi
hơn ngay cả khi giả định cơ bản về các yếu tố dự báo độc lập là khơng đúng. Ưu
điểm này đặc biệt dành cho tình huống khi số lượng người dự đoán là rất lớn. Có
nhiều tính năng hơn về Naive Bayes. Đầu tiên, bộ phân loại Naive Bayes yêu cầu
số lượng bản ghi rất lớn để thu được kết quả tốt. Thứ hai, khi danh mục cơng cụ dự
đốn khơng có trong dữ liệu huấn luyện, Naive Bayes giả định rằng một bản ghi
mới với danh mục cơng cụ dự đốn đó có xác suất bằng khơng. Đây có thể là một
vấn đề nếu giá trị dự đoán hiếm này là quan trọng. Cuối cùng, hiệu suất tốt đạt
được khi mục tiêu là phân loại hoặc xếp hạng các hồ sơ theo xác suất thuộc về một
lớp nhất định. Tuy nhiên, khi mục tiêu là thực sự ước tính xác suất thành viên của
lớp, phương pháp này cung cấp kết quả rất sai lệch. Vì lý do này, phương pháp
Naive Bayes hiếm khi được sử dụng trong chấm điểm tín dụng17 .
2.6. Mạng thần kinh
Mạng nơ-ron hay còn gọi là mạng nơ-ron nhân tạo, là mơ hình để phân loại và dự
đốn17 . Các thuật toán mạng thần kinh vốn đã song song. Các phương pháp song
song hóa có thể được sử dụng để tăng tốc q trình tính tốn. Ngồi ra, một số kỹ
thuật gần đây đã được phát triển để trích xuất các quy tắc từ các mạng thần kinh
được đào tạo. Điều này góp phần ứng dụng mạng nơ-ron để phân loại và dự đoán
trong khai thác dữ liệu6 . Các thuộc tính quan trọng của mạng nơ-ron như sau17 :

• Thứ nhất, mặc dù mạng nơ-ron có khả năng khái qt hóa từ một tập hợp các ví
dụ, phép ngoại suy vẫn là một mối nguy hiểm nghiêm trọng. Nếu mạng chỉ nhìn

thấy các trường hợp trong một phạm vi nhất định, thì dự đốn của nó bên ngồi
phạm vi này có thể hồn tồn khơng hợp lệ.
• Thứ hai, mạng nơ-ron khơng có cơ chế chọn biến tích hợp. Điều này có nghĩa là
cần phải xem xét cẩn thận các yếu tố dự báo. Sự kết hợp với cây phân loại và cây
hồi quy và các kỹ thuật giảm kích thước khác (ví dụ: phân tích thành phần chính)
thường được sử dụng để xác định các yếu tố dự đốn chính.
• Thứ ba, tính linh hoạt cao của mạng thần kinh phụ thuộc rất nhiều vào việc có đủ
dữ liệu cho mục đích đào tạo. Mạng thần kinh hoạt động kém khi kích thước tập
huấn luyện khơng đủ, ngay cả khi mối quan hệ giữa phản hồi và yếu tố dự đốn là
rất đơn giản.
• Thứ tư, một vấn đề kỹ thuật là nguy cơ đạt được các trọng số dẫn đến tối ưu cục
bộ hơn là tối ưu tồn cục.
• Cuối cùng, mạng thần kinh liên quan đến nhiều tính toán và yêu cầu thời gian
chạy lâu hơn so với các bộ phân loại khác. Thời gian chạy tăng lên rất nhiều khi số
lượng bộ dự đoán tăng lên.
Thuật toán mạng thần kinh phổ biến nhất là lan truyền ngược . Backpropagation sử
dụng phương pháp giảm dần độ dốc. Giá trị đích có thể là nhãn lớp đã biết của bộ
dữ liệu huấn luyện (đối với bài toán phân loại) hoặc giá trị liên tục (đối với dự
đoán)6 . Sự đánh đổi phải nằm giữa phù hợp quá mức và phù hợp để quyết định
kích thước của lớp ẩn. Sử dụng q ít nút có thể khơng đủ để nắm bắt các mối quan
hệ phức tạp. Mặt khác, quá nhiều nút có thể dẫn đến trang bị quá mức. Một nguyên
tắc chung là bắt đầu với các nút p (số lượng dự đoán) và giảm dần/tăng lên một
chút trong khi kiểm tra xem có trang bị q mức khơng17 .
Ưu điểm của mạng thần kinh bao gồm hiệu suất dự đoán tốt, khả năng chịu đựng
dữ liệu nhiễu cũng như khả năng phân loại các mẫu mà chúng chưa được đào
tạo. Chúng có thể được sử dụng khi bạn có ít kiến thức về mối quan hệ giữa các

thuộc tính và lớp. Chúng rất phù hợp với các đầu vào và đầu ra có giá trị liên tục,
khơng giống như hầu hết các thuật toán cây quyết định 6 ,17 . Mạng lưới thần kinh rất
chung chung và có thể ước tính các mối quan hệ phức tạp. Điểm yếu nhất của
chúng là cung cấp cái nhìn sâu sắc về cấu trúc của mối quan hệ, và do đó mang
tiếng là “hộp đen” của chúng. Người dùng mạng thần kinh phải đưa ra nhiều giả
định mơ hình hóa, chẳng hạn như số lớp ẩn và số đơn vị trong mỗi lớp ẩn. lớp, và
thường có rất ít hướng dẫn về cách thực hiện điều này.Hơn nữa, lan truyền ngược
có thể khá chậm nếu hằng số học khơng được chọn chính xác17 ,18 .

Việc giảm kích thước dữ liệu có thể được thực hiện với các mạng thần kinh. Dữ
liệu chiều cao có thể được chuyển đổi thành mã chiều thấp bằng cách huấn luyện
mạng thần kinh nhiều lớp với một lớp trung tâm nhỏ để tái tạo lại các vectơ đầu
vào chiều cao. Độ dốc gốc có thể được sử dụng để tinh chỉnh các trọng số trong
các mạng ''bộ mã hóa tự động'' như vậy, nhưng điều này chỉ hoạt động tốt nếu các
trọng số ban đầu gần với một giải pháp tốt. Một cách hiệu quả để khởi tạo các
trọng số cho phép các mạng bộ mã hóa tự động sâu học các mã có chiều thấp đã
được đề xuất. Nó hoạt động tốt hơn so với phân tích thành phần chính như một
cơng cụ để giảm kích thước của dữ liệu2 .
2.7. Học kĩ càng
Học sâu là một lĩnh vực mới trong nghiên cứu máy học, đã được giới thiệu với
mục tiêu đưa máy học đến gần hơn với một trong những mục tiêu ban đầu của nó trí tuệ nhân tạo. Học sâu là về việc học nhiều cấp độ biểu diễn và trừu tượng giúp
hiểu dữ liệu19 . Máy sâu hiệu quả hơn để biểu diễn các lớp chức năng nhất
định; đặc biệt đối với những người liên quan đến nhận dạng hình ảnh, chúng có thể
biểu diễn các chức năng phức tạp hơn với ít “phần cứng” hơn. SVM và các phương
thức Kernel không sâu. Cây phân loại cũng khơng sâu vì khơng có phân cấp tính
năng. Học sâu liên quan đến các hàm mất mát khơng lồi và học có giám sát sâu là
khơng lồi20 . Học sâu có tiềm năng xử lý dữ liệu lớn mặc dù có những thách thức.
Một số phương pháp đã được đề xuất để sử dụng dữ liệu chưa được gắn nhãn trong
các kiến trúc dựa trên mạng thần kinh sâu. Các phương pháp này hoặc thực hiện

đào tạo trước các trọng số theo lớp tham lam chỉ sử dụng dữ liệu khơng được gắn
nhãn, sau đó là tinh chỉnh có giám sát hoặc tìm hiểu các mã hóa không được giám
sát ở nhiều cấp độ kiến trúc cùng với tín hiệu được giám sát. Đối với phần sau,
thiết lập cơ bản như sau: 1) chọn thuật toán học khơng giám sát; 2) chọn một mơ
hình có kiến trúc sâu; 3) học không giám sát được cắm vào bất kỳ (hoặc tất cả) lớp
nào của kiến trúc như một nhiệm vụ phụ trợ; và 4) đào tạo đồng thời các nhiệm vụ
được giám sát và không được giám sát sử dụng cùng một kiến trúc21 .
2.8. So sánh các phương pháp khác nhau và phương pháp tập hợp
Bảng 1 so sánh những ưu điểm và nhược điểm của phương pháp khai thác dữ liệu
truyền thống (DM) và học máy (ML).
 Bảng 1. Ưu điểm và nhược điểm của các phương pháp DM/ML truyền
thống

Các phương pháp tập hợp làm tăng độ chính xác của phân loại hoặc dự đốn. Đóng
gói, tăng cường và rừng ngẫu nhiên là ba phương pháp phổ biến nhất trong học tập
đồng bộ. Bộ phân loại bootstrap (hoặc đóng gói) thường tốt hơn một bộ phân loại
duy nhất có nguồn gốc từ tập huấn luyện ban đầu. Độ chính xác tăng lên xảy ra do
mơ hình tổng hợp làm giảm phương sai của các bộ phân loại riêng lẻ. Để dự đốn,
một cơng cụ dự đốn đóng gói cải thiện độ chính xác so với một cơng cụ dự đốn
duy nhất. Nó mạnh mẽ đối với dữ liệu q mức và ồn ào. Các phương pháp
Bootstrap có thể được sử dụng không chỉ để đánh giá sự khác biệt của mơ hình mà
cịn cải thiện độ chính xác. Các phương pháp đóng gói và tăng tốc sử dụng kết
hợp các mơ hình và kết hợp kết quả của nhiều phương pháp. Cả đóng gói và tăng
tốc đều có thể được sử dụng để phân loại cũng như dự đoán6 ,7 ,8 ,18 .
Đóng gói, viết tắt của tập hợp bootstrap, là một phương pháp phân loại đồng bộ sử
dụng nhiều mẫu bootstrap (có thay thế) từ dữ liệu huấn luyện đầu vào để tạo các

tập huấn luyện hơi khác nhau1 . Đóng gói là ý tưởng thu thập một mẫu quan sát

ngẫu nhiên vào một cái túi. Nhiều túi được tạo thành từ các quan sát được chọn
ngẫu nhiên thu được từ các quan sát ban đầu từ tập dữ liệu huấn luyện 14 . Đóng gói
là một phương pháp bỏ phiếu sử dụng bootstrap cho các tập huấn luyện khác nhau
và sử dụng các tập huấn luyện để tạo ra những người học cơ sở khác nhau. Phương
pháp đóng bao sử dụng sự kết hợp của những người học cơ sở để đưa ra dự đoán
tốt hơn7 .
Tăng cường cũng là một phương pháp tập hợp cố gắng xây dựng các thuật toán học
tốt hơn bằng cách kết hợp nhiều thuật toán đơn giản hơn 24 . Tăng cường tương tự
như phương pháp đóng bao. Đầu tiên nó xây dựng việc học cơ sở theo trình tự,
trong đó mỗi người học kế tiếp được xây dựng cho phần dư dự đoán của người học
trước đó. Với phương tiện để tạo ra một người học bổ sung, nó sử dụng những sai
lầm của những người học trước đó để đào tạo người học cơ sở tiếp theo. Tăng
cường đào tạo các bộ phân loại cơ sở trên các mẫu khác nhau 1 ,7 . Việc tăng tốc có
thể khơng thực hiện được nếu khơng có đủ dữ liệu hoặc nếu các mơ hình yếu quá
phức tạp. Boosting cũng dễ bị nhiễu14 . Thuật toán thúc đẩy phổ biến nhất là
AdaBoost “thích ứng”. AdaBoost cực kỳ đơn giản để sử dụng và triển khai (đơn
giản hơn nhiều so với SVM) và thường mang lại kết quả rất hiệu quả 24 . AdaBoost
hoạt động với các giá trị số và giá trị danh nghĩa. Nó có lỗi tổng quát hóa thấp, dễ
viết mã, hoạt động với hầu hết các bộ phân loại và khơng có tham số để điều
chỉnh. Tuy nhiên, nó rất nhạy cảm với các ngoại lệ5 .
Mặc dù đóng gói và sắp xếp ngẫu nhiên mang lại kết quả tương tự nhau, nhưng đơi
khi sẽ đáng để kết hợp chúng vì chúng tạo ra tính ngẫu nhiên theo những cách khác
nhau và có lẽ bổ sung cho nhau. Một thuật toán phổ biến để học các khu rừng ngẫu
nhiên xây dựng một cây quyết định ngẫu nhiên trong mỗi lần lặp lại của thuật tốn
đóng bao và thường tạo ra các dự đốn xuất sắc 16 . Phương pháp rừng ngẫu nhiên
là một cách tiếp cận tập hợp dựa trên cây thực sự là sự kết hợp của nhiều mơ
hình1 ,15 . Nó là một bộ phân loại tập hợp bao gồm nhiều cây quyết định 25 . Một khu
rừng ngẫu nhiên mọc nhiều cây phân loại, thu được nhiều kết quả từ một đầu
vào. Nó sử dụng phần lớn phiếu bầu từ tất cả các cây quyết định để phân loại dữ
liệu hoặc sử dụng đầu ra trung bình để hồi quy7 .

Các mơ hình rừng ngẫu nhiên thường rất cạnh tranh với các bộ phân loại phi tuyến
tính như mạng lưới thần kinh nhân tạo và máy vectơ hỗ trợ. Mô hình rừng ngẫu
nhiên là một lựa chọn tốt để xây dựng mơ hình vì rất ít q trình xử lý trước dữ
liệu, khơng u cầu chuẩn hóa dữ liệu và có khả năng phục hồi trước các giá trị
ngoại lệ. Khơng cần phải lựa chọn biến vì thuật tốn tự thực hiện một cách hiệu

quả. Bởi vì nhiều cây được xây dựng bằng cách sử dụng hai cấp độ ngẫu nhiên
(quan sát và biến), mỗi cây thực sự là một mơ hình độc lập. Thuật toán rừng ngẫu
nhiên xây dựng nhiều cây quyết định bằng cách sử dụng một khái niệm gọi là đóng
bao để đưa việc lấy mẫu ngẫu nhiên vào toàn bộ quy trình. Khi xây dựng từng cây
quyết định, thuật tốn rừng ngẫu nhiên thường không thực hiện bất kỳ thao tác cắt
tỉa cây quyết định nào. Các mơ hình được trang bị q mức có xu hướng khơng
hoạt động tốt trên dữ liệu mới. Tuy nhiên, một rừng ngẫu nhiên các cây được trang
bị quá mức có thể mang lại một mơ hình rất tốt, hoạt động tốt trên dữ liệu mới14 .
3. Dữ liệu lớn trong cơ sở hạ tầng dịch vụ và thách thức CNTT
Khi các thách thức về dữ liệu doanh nghiệp tiếp tục gia tăng (xem Bảng 2 26 ), các
cơng nghệ truyền thống có những thách thức trong việc xử lý các nguồn Dữ liệu
lớn, Đám mây và Phi cấu trúc. bàn số 3 Hình 27 cho thấy Dữ liệu lớn là một phần của
cơ sở hạ tầng dịch vụ ảo hóa. Hạ tầng phần cứng được ảo hóa bằng cơng nghệ điện
tốn đám mây; Trên cơ sở hạ tầng dựa trên đám mây này, Phần mềm dưới dạng
Dịch vụ (SaaS); và trên SaaS, có thể xây dựng Quy trình kinh doanh dưới dạng
dịch vụ (BPaaS). Song song, Dữ liệu lớn sẽ được cung cấp dưới dạng dịch vụ và
được nhúng làm điều kiện tiên quyết cho các dịch vụ Kiến thức, ví dụ: tích hợp
Cơng nghệ ngữ nghĩa để phân tích dữ liệu tổng hợp và phi cấu trúc. Dữ liệu lớn
dưới dạng Dịch vụ có thể được coi là lớp mở rộng giữa PaaS và SaaS. Công nhân
tri thức hoặc nhà khoa học dữ liệu là cần thiết để chạy Dữ liệu lớn và Tri thức.
 Bảng 2. Nhu cầu Doanh nghiệp, Hệ thống và Dữ liệu và Thách thức
CNTT

 Bảng 3. Dữ liệu lớn trong cơ sở hạ tầng dịch vụ mở rộng

4. Khai thác dữ liệu và học máy trong phân tích dữ liệu lớn
Hadoop là một cơng cụ phân tích Dữ liệu lớn và triển khai MapReduce mã nguồn
mở. Danh sách ngắn sau đây xác định việc triển khai MapReduce của ba thuật
tốn5 :
• Nạve Bayes—Đây là một trong số ít thuật tốn có thể triển khai tự nhiên trong
MapReduce. Thật dễ dàng để tính tổng trong MapReduce. Với một lớp, xác suất
của một tính năng có thể được tính bằng phương pháp Naïve Bayes, kết quả từ một
lớp nhất định có thể được cung cấp cho một trình ánh xạ riêng lẻ, Bộ giảm tốc có
thể được sử dụng để tổng hợp kết quả.
• Máy vectơ hỗ trợ (SVM) —Cũng có một phiên bản gần đúng của SVM được gọi
là SVM gần đúng tính tốn giải pháp nhanh hơn nhiều và dễ dàng sử dụng trong
khung MapReduce.
• Phân tách giá trị đơn lẻ—Thuật toán Lanczos là một phương pháp hiệu quả để
tính gần đúng giá trị riêng. Thuật tốn này có thể được sử dụng trong một loạt các
cơng việc MapReduce để tìm các giá trị đơn lẻ trong một ma trận lớn một cách
hiệu quả.
Tuy nhiên, ba phương pháp trên khơng thể được sử dụng trong phân tích Dữ liệu
lớn. Các kỹ thuật học máy (ML) truyền thống khơng phù hợp để phân loại dữ liệu
lớn vì: (1) Một kỹ thuật ML được đào tạo trên một tập dữ liệu hoặc miền dữ liệu
được gắn nhãn cụ thể có thể khơng phù hợp với tập dữ liệu hoặc miền dữ liệu
khác; (2) một kỹ thuật ML nói chung được đào tạo bằng cách sử dụng một số loại
lớp nhất định và một lượng lớn các loại lớp được tìm thấy trong dữ liệu lớn đang
phát triển động; và (3) một kỹ thuật ML được phát triển dựa trên một nhiệm vụ học
tập duy nhất và do đó chúng không phù hợp với nhiều nhiệm vụ học tập và yêu cầu
chuyển giao kiến thức của phân tích dữ liệu lớn 28 ; và (4) hạn chế về bộ nhớ là một

thách thức. Mặc dù các thuật toán thường cho rằng các mẫu dữ liệu đào tạo tồn tại
trong bộ nhớ chính, nhưng dữ liệu lớn khơng phù hợp với nó29 .
Khai thác dữ liệu lớn khó khăn hơn so với các thuật toán khai thác dữ liệu truyền
thống. Lấy phân cụm làm ví dụ, một cách tự nhiên để phân cụm dữ liệu lớn là mở
rộng các phương thức hiện có (chẳng hạn như phương tiện k ) để chúng có thể đối
phó với khối lượng cơng việc khổng lồ. Hầu hết các tiện ích mở rộng thường dựa
vào việc phân tích một số mẫu dữ liệu lớn nhất định và khác nhau về cách sử dụng
kết quả dựa trên mẫu để lấy phân vùng cho dữ liệu tổng thể 30 . Các trình phân loại
k -NN khơng xây dựng bất kỳ mơ hình phân loại nào một cách rõ ràng; thay vào đó
họ giữ tất cả dữ liệu đào tạo trong bộ nhớ. Do đó, chúng khơng phù hợp với các
ứng dụng dữ liệu lớn31 . Tiêu chí phân tách của cây quyết định được lựa chọn dựa
trên một số thước đo chất lượng như độ lợi thông tin yêu cầu xử lý toàn bộ tập dữ
liệu của mỗi nút mở rộng. Điều này gây khó khăn cho việc áp dụng cây quyết định
cho các ứng dụng dữ liệu lớn. Máy vectơ hỗ trợ (SVM) cho thấy hiệu suất tốt đối
với các tập dữ liệu có kích thước vừa phải. Nó có những hạn chế cố hữu đối với
các ứng dụng dữ liệu lớn31 .
Học máy sâu có tiềm năng xử lý dữ liệu lớn. Tuy nhiên, nó có một số thách thức
trong các ứng dụng dữ liệu lớn vì nó địi hỏi thời gian đào tạo đáng kể 31 ,32 . Những
thách thức về học sâu trong phân tích Dữ liệu lớn nằm ở: học gia tăng đối với dữ
liệu không cố định, dữ liệu nhiều chiều và mơ hình quy mơ lớn 32 . Đặc tính Đa
dạng của phân tích Dữ liệu lớn, tập trung vào sự thay đổi của các loại dữ liệu đầu
vào và miền trong dữ liệu lớn. Thích ứng miền trong q trình học tập là một trọng
tâm nghiên cứu quan trọng trong học sâu, trong đó việc phân phối dữ liệu huấn
luyện khác với việc phân phối dữ liệu thử nghiệm. Trong một số miền dữ liệu lớn,
ví dụ: an ninh mạng, kho dữ liệu đầu vào bao gồm hỗn hợp cả dữ liệu được gắn
nhãn và không được gắn nhãn. Trong những trường hợp như vậy, các thuật tốn
học sâu có thể kết hợp các phương pháp đào tạo bán giám sát hướng tới mục tiêu
xác định các tiêu chí để học biểu diễn dữ liệu tốt.33 .
Các thuật toán học biểu diễn giúp các kỹ thuật học có giám sát đạt được độ chính
xác phân loại cao với hiệu quả tính tốn. Chúng biến đổi dữ liệu, trong khi vẫn giữ

nguyên các đặc điểm ban đầu của dữ liệu, sang một miền khác để các thuật tốn
phân loại có thể cải thiện độ chính xác, giảm độ phức tạp tính toán và tăng tốc độ
xử lý. Tuy nhiên, việc phân loại Dữ liệu lớn yêu cầu kỹ thuật học đại diện, đa miền
(MDRL) vì miền dữ liệu lớn và ngày càng tăng của nó. Kỹ thuật MDRL bao gồm
học biến tính năng, học trích xuất tính năng và học số liệu từ xa. Một số kỹ thuật
học biểu diễn đã được đề xuất trong nghiên cứu học máy. Tên miền chéo được đề

xuất gần đây, kỹ thuật học biểu diễn (CDRL) có thể phù hợp với việc phân loại dữ
liệu lớn cùng với mơ hình mạng được đề xuất; tuy nhiên, việc triển khai kỹ thuật
CDRL để phân loại dữ liệu lớn sẽ gặp phải một số thách thức, bao gồm khó khăn
trong việc lựa chọn các tính năng có liên quan, xây dựng biểu diễn hình học, trích
xuất các tính năng phù hợp và tách các loại dữ liệu khác nhau. Ngoài ra, tham số
liên tục của dữ liệu lớn đưa ra các vấn đề cần được giải quyết bằng các kỹ thuật
học tập suốt đời. Việc học các đặc tính của dữ liệu lớn trong ngắn hạn có thể khơng
phù hợp trong dài hạn. Do đó, các kỹ thuật máy học suốt đời (ML3) nên được sử
dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến thức đã học với các
ví dụ đào tạo trong suốt các giai đoạn học tập việc triển khai kỹ thuật CDRL để
phân loại dữ liệu lớn sẽ gặp phải một số thách thức, bao gồm khó khăn trong việc
lựa chọn các tính năng có liên quan, xây dựng biểu diễn hình học, trích xuất các
tính năng phù hợp và tách các loại dữ liệu khác nhau. Ngoài ra, tham số liên tục
của dữ liệu lớn đưa ra các vấn đề cần được giải quyết bằng các kỹ thuật học tập
suốt đời. Việc học các đặc tính của dữ liệu lớn trong ngắn hạn có thể khơng phù
hợp trong dài hạn. Do đó, các kỹ thuật máy học suốt đời (ML3) nên được sử
dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến thức đã học với các
ví dụ đào tạo trong suốt các giai đoạn học tập việc triển khai kỹ thuật CDRL để
phân loại dữ liệu lớn sẽ gặp phải một số thách thức, bao gồm khó khăn trong việc
lựa chọn các tính năng có liên quan, xây dựng biểu diễn hình học, trích xuất các
tính năng phù hợp và tách các loại dữ liệu khác nhau. Ngoài ra, tham số liên tục
của dữ liệu lớn đưa ra các vấn đề cần được giải quyết bằng các kỹ thuật học tập

suốt đời. Việc học các đặc tính của dữ liệu lớn trong ngắn hạn có thể khơng phù
hợp trong dài hạn. Do đó, các kỹ thuật máy học suốt đời (ML3) nên được sử
dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến thức đã học với các
ví dụ đào tạo trong suốt các giai đoạn học tập xây dựng biểu diễn hình học, trích
xuất các tính năng phù hợp và tách các loại dữ liệu khác nhau. Ngoài ra, tham số
liên tục của dữ liệu lớn đưa ra các vấn đề cần được giải quyết bằng các kỹ thuật
học tập suốt đời. Việc học các đặc tính của dữ liệu lớn trong ngắn hạn có thể khơng
phù hợp trong dài hạn. Do đó, các kỹ thuật máy học suốt đời (ML3) nên được sử
dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến thức đã học với các
ví dụ đào tạo trong suốt các giai đoạn học tập xây dựng biểu diễn hình học, trích
xuất các tính năng phù hợp và tách các loại dữ liệu khác nhau. Ngoài ra, tham số
liên tục của dữ liệu lớn đưa ra các vấn đề cần được giải quyết bằng các kỹ thuật
học tập suốt đời. Việc học các đặc tính của dữ liệu lớn trong ngắn hạn có thể khơng
phù hợp trong dài hạn. Do đó, các kỹ thuật máy học suốt đời (ML3) nên được sử
dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến thức đã học với các

ví dụ đào tạo trong suốt các giai đoạn học tập Do đó, các kỹ thuật máy học suốt đời
(ML3) nên được sử dụng. Khái niệm ML3 cung cấp một khung có thể lưu giữ kiến
thức đã học với các ví dụ đào tạo trong suốt các giai đoạn học tập Do đó, các kỹ
thuật máy học suốt đời (ML3) nên được sử dụng. Khái niệm ML3 cung cấp một
khung có thể lưu giữ kiến thức đã học với các ví dụ đào tạo trong suốt các giai
đoạn học tập31 .
5. Kết luận
Giảm kích thước có thể hỗ trợ trực quan hóa dữ liệu. PCA là kỹ thuật được sử dụng
phổ biến nhất để giảm kích thước. Phân tích nhân tố có thể được sử dụng như một
phương pháp giảm dữ liệu hoặc phát hiện cấu trúc. Phương pháp k -means tương
đối hiệu quả, nhưng nó có thể kết thúc ở mức tối ưu cục bộ.
k-NN rất đơn giản để thực hiện và mạnh mẽ đối với các ngoại lệ trên các yếu tố dự
đốn; tuy nhiên, rất khó để xử lý dữ liệu với các loại hỗn hợp. SVM hoạt động tốt

trên các vấn đề thưa thớt, phi tuyến tính và nhiều chiều; nhưng nó yếu trong việc
xử lý tự nhiên các kiểu dữ liệu hỗn hợp và khả năng mở rộng tính tốn. Cây quyết
định hoạt động tốt với các tập dữ liệu lớn, nhưng có thể dẫn đến trang bị quá
mức. Cắt tỉa cây được thực hiện để loại bỏ sự bất thường trong dữ liệu huấn luyện
do nhiễu hoặc ngoại lệ. Hồi quy logistic không tốn kém về mặt tính tốn, nhưng nó
dễ bị thiếu và có thể có độ chính xác thấp. Thuật tốn Naive Bayes dễ xây dựng và
đào tạo nhanh; nó phù hợp với tập huấn luyện tương đối nhỏ và dễ bị sai
lệch. Mạng lưới thần kinh có hiệu suất dự đốn tốt và khả năng chịu đựng dữ liệu
ồn ào; Tuy vậy, rất khó cho phương pháp xử lý dữ liệu lớn với các mơ hình phức
tạp. Đóng gói, tăng cường và rừng ngẫu nhiên là ba phương pháp tập hợp phổ biến
nhất sử dụng kết hợp của các mơ hình để tăng độ chính xác.
Các cơng nghệ truyền thống có những thách thức trong việc xử lý các nguồn dữ
liệu lớn và phi cấu trúc. Dữ liệu lớn dưới dạng dịch vụ (BDaaS) có thể là một lớp
mở rộng trong cơ sở hạ tầng dịch vụ. Các kỹ thuật khai thác dữ liệu và học máy
(ML) truyền thống như k -mean , k -NN, cây quyết định và SVM không phù hợp để
xử lý dữ liệu lớn. Học sâu có tiềm năng xử lý dữ liệu lớn mặc dù có những thách
thức.

Khai thác dữ liệu, học máy và phân tích dữ liệu lớn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về