Tải bản đầy đủ (.pdf) (13 trang)

TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN TẠO BÁO CÁO Đề tài Naive Bayes Classifier

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (200.98 KB, 13 trang )

TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA KHOA HỌC CƠ BẢN
----------*******----------

TOÁN ỨNG DỤNG CHO TRÍ TUỆ NHÂN TẠO
BÁO CÁO
Đề tài 13: Naive Bayes Classifier
Thành viên: Khổng Thị Dung – 21012374
Trương Thị Nhung – 21011061
Trần Tiến Dũng - 21013342

HÀ NỘI, THÁNG 10, 2022

1


MỤC LỤC

LỜI CẢM ƠN..................................................................................................................................4
LỜI NÓI ĐẦU.................................................................................................................................5
PHẦN 1: CƠ SỞ LÝ THUYẾT......................................................................................................6
1.Thuật tốn Naive Bayes Classification....................................................................................6
2.Cơng thức Naive Bayes:...........................................................................................................6
PHẦN 2: NỘI DUNG......................................................................................................................7
1.

Naive Bayes Classification..................................................................................................7
1.1.

Đặc điểm của Naive Bayes Classification...................................................................7


1.2.

Cách hoạt động của Naive Bayes Classification........................................................7

1.3.

Các loại mơ hình Naive Bayes Classification.............................................................8

1.4.

Ví dụ:............................................................................................................................8

1.5.

Ứng dụng của thuật toán Naive Bayes Classification..............................................10

PHẦN 3: KẾT LUẬN....................................................................................................................11
1.Ưu điểm:..................................................................................................................................11
2.Nhược điểm:............................................................................................................................12
Tài liệu tham khảo...........................................................................................................................13

2


Bảng nhiệm vụ
Thành viên

Nhiệm vụ

Khổng Thị Dung


Cơ sở lí thuyết, Đặc điểm của Naive
Bayes Classification

Trương Thị Nhung

Cách hoạt động của Naive Bayes
Classification, Các loại mơ hình
Naive Bayes Classification

Trần Tiến Dũng

Ứng dụng của thuật toán Naive
Bayes Classification,ưu điểm ,
nhược điểm

3


LỜI CẢM ƠN
Để có những kiến thức nền tảng hồn thành đề tài này, nhóm chúng em
xin cảm ơn nhà trường đã đưa mơn học Tốn ứng dụng cho trí tuệ nhân tạo và
học máy vào chương trình giảng dạy. Mơn học mang lại cho chúng em kiến
thức tốn sử dụng cho trí tuệ nhân tạo cơ bản, ngồi ra mơn học cịn giúp
chúng em cải thiện kỹ năng mềm như kỹ năng thuyết trình, kỹ năng viết báo
cáo, kỹ năng làm việc nhóm, … Đây đều là những kỹ năng quan trọng vô
cùng cần thiết cho chúng em ở giảng đường đại học và cho tương lai công
việc sau này.
Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến Thầy Vũ Hoàng Diệu
đã giảng dạy, chỉ bảo và truyền đạt cho chúng em những kiến thức quý báu

trong suốt thời gian chúng em học mơn Tốn ứng dụng cho trí tuệ nhân tạo và
học máy.
Nhóm chúng em đã cố gắng để hoàn thành đề tài này một cách hồn
chỉnh nhất, tuy nhiên vì kiến thức của chúng em còn hạn chế, khả năng tiếp
thu thực tế còn nhiều khó khăn, vì vậy đề tài khơng tránh khỏi những thiếu
sót. Chúng em rất mong những ý kiến đóng góp của Thầy để hồn thiện và rút
ra những kinh nghiệm quý báu.
Xin chân thành cảm ơn!

4


LỜI NĨI ĐẦU
Trong kỷ ngun cơng nghiệp 4.0 phát triển nở rộ, “Trí tuệ nhân tạo là
yếu tố khơng thể khơng nhắc đến. Ngày nay, cơng nghệ trí tuệ nhân tạo là một
trong những ngành công nghệ quan trọng hàng đầu, giúp con người giải quyết
nhiều vấn đề trong cuộc sống. Tốn ứng dụng cho trí tuệ nhân tạo là học phần
trang bị những kỹ năng về lập trình và các kiến thức cơ bản về đại số tuyến
tính, giải tích nhiều chiều, lý thuyết xác suất thống kê, các phương pháp thuật
tốn tối ưu cho trí tuệ nhân tạo và học máy.
Hiện nay, khoa học công nghệ ngày càng phát triển. Các hệ thống thư
viện điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi, kèm theo
đó là các vấn đề liên quan đến phân loại, tìm kiếm chia theo danh mục và gợi
ý nội dung đọc cho người dùng. Với lượng thông tin lớn, đồ sộ, một yêu cầu
đặt ra là làm sao để tổ chức và tìm kiếm thơng tin có hiệu quả nhất. Phân loại
thông tin là một trong những giải pháp hợp lý cho yêu cầu trên. Nhưng thực tế
là khối lượng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không
thể. Hướng giải quyết là một chương trình máy tính tự động phân loại các
thơng tin trên. Vì vậy nhóm em chọn đề tài số 13: Naive bayes classifier để
nghiên cứu, tìm hiểu về thuật tốn và chỉ ra ưu nhược điểm của thuật toán.


5


PHẦN 1: CƠ SỞ LÝ THUYẾT
1.Thuật toán Naive Bayes Classification
Thuật toán phân loại Naive Bayes – là một thuật toán dựa trên định lý
Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng như phân loại dữ
liệu dựa trên các dữ liệu được quan sát và thống kê, được ứng dụng rất nhiều
trong các lĩnh vực học máy dùng để đưa ra các dự đốn có độ chính xác cao,
dựa trên một tập dữ liệu đã được thu thập. Naive Bayes Classification thuộc
vào nhóm học máy có giám sát.
Mơ hình Naive Bayesian dễ thực hiện và đặc biệt hữu ích cho các tập dữ
liệu lớn. Ngồi đơn giản Naive Bayes còn được nhận xét là xử lý nhanh, độ
chính xác cao và vượt trội hơn cả các phương pháp phân loại rất tiên tiến
Ví dụ, một quả có thể được coi là một quả cam nếu nó có màu cam, trịn
và đường kính khoảng 3 inch. Ngay cả khi các tính năng này phụ thuộc vào
nhau hoặc dựa trên sự tồn tại của các tính năng khác, một bộ phân loại Naive
Bayes sẽ xem xét tất cả các đặc điểm này để đóng góp độc lập vào xác suất
rằng loại quả này là một quả cam.
2.Công thức Naive Bayes:
Cơng thức Nạve Bayes được định nghĩa:

P(B|A): là xác xuất của lớp mục tiêu được dự đoán.
P(B): xác xuất của lớp trước.
P(A|B): khả năng xác xuất lớp dự đoán đưa ra.
P(A): là xác xuất dự đoán trước.
6



PHẦN 2: NỘI DUNG
1. Naive Bayes Classification
Đây là một kỹ thuật phân loại dựa trên Định lý Bayes với giả định về sự
độc lập giữa các yếu tố dự đốn. Nói cách khác, bộ phân loại Naive Bayes giả
định rằng sự hiện diện của một đối tượng cụ thể trong một lớp không liên
quan đến sự hiện diện của bất kỳ đối tượng địa lý nào khác.
1.1.
-

Đặc điểm của Naive Bayes Classification

Thuật toán Nạve Bayes là một thuật tốn học có giám sát, dựa trên định
lý Bayes và được sử dụng để giải các bài tốn phân loại.

-

Nó chủ yếu được sử dụng trong phân loại văn bản bao gồm một tập dữ
liệu đào tạo chiều cao.

-

Naïve Bayes Classifier là một trong những thuật toán Phân loại đơn giản
và hiệu quả nhất giúp xây dựng các mô hình học máy nhanh có thể đưa
ra dự đốn nhanh chóng.

-

Nó là một bộ phân loại theo xác suất, có nghĩa là nó dự đốn trên cơ sở
xác suất của một đối tượng.


-

Một số ví dụ phổ biến của Thuật tốn Nạve Bayes là lọc thư rác, phân
tích tình cảm, phân loại các bài báo...
1.2.

Cách hoạt động của Naive Bayes Classification

Bước 1: Chuyển tập dữ liệu thành bảng tần số
Bước 2: Tạo bảng khả năng bằng cách tìm các xác suất
Bước 3: Bây giờ, sử dụng phương trình Naive Bayesian để tính xác suất sau
cho mỗi lớp. Lớp có xác suất hậu phương cao nhất là kết quả của dự đoán.
7


1.3.

Các loại mơ hình Naive Bayes Classification

1.1.1. Gaussian:
Mơ hình Gaussian giả định rằng các đối tượng địa lý tuân theo phân phối
chuẩn. Điều này có nghĩa là nếu các yếu tố dự đốn nhận các giá trị liên tục
thay vì rời rạc, thì mơ hình giả định rằng các giá trị này được lấy mẫu từ phân
phối Gaussian.

1.1.2. Đa thức:
Bộ phân loại Naïve Bayes đa thức được sử dụng khi dữ liệu được phân
phối đa thức. Nó chủ yếu được sử dụng cho các vấn đề phân loại tài liệu, nó
có nghĩa là một tài liệu cụ thể thuộc về danh mục nào như thể thao, chính trị,
giáo dục, ...Trình phân loại sử dụng tần suất từ cho các yếu tố dự đoán.

1.1.3. Bernoulli:
Bộ phân loại Bernoulli hoạt động tương tự như bộ phân loại đa thức,
nhưng các biến dự báo là các biến Booleans độc lập. Chẳng hạn như nếu một
từ cụ thể có trong tài liệu hay khơng. Mơ hình này cũng nổi tiếng với các
nhiệm vụ phân loại tài liệu.
1.4.
Ví dụ:
Xét một bộ dữ liệu đơn giản về việc đi làm muộn của một bạn nhân viên.
Bộ dữ liệu được biểu diễn dạng bảng dưới đây
Giờ dậy (x1)

Sức khỏe (x2)

Thời tiết (x3)

Đi muộn (x4)

1

Sớm

Tốt

Nắng

Không

2

Sớm


Xấu

Mưa

Không

8


3

Bình thường

Tốt

Nắng



4

Muộn

Xấu

Nắng




5

Sớm

Xấu

Nhiều mây

Khơng

6

Bình thường

Xấu

Nhiều mây

Khơng

7

Muộn

Tốt

Nắng




8

Bình thường

Tốt

Nắng

Khơng

9

Sớm

Xấu

Nhiều mây



10

Muộn

Tốt

Mưa




Lập bảng tần suất cho từng đặc trưng cho mục tiêu:
Giờ dậy (x1)
Muộn

Không muộn P (x1|Muộn)

P (x1|khơng muộn)

Sớm

1

3

1/5

3/5

Bình thường

1

2

1/5

2/5

Muộn


3

0

3/5

0/5

Sức khỏe (x2)
Muộn

Khơng muộn

P (x2|Muộn)

P (x2|Khơng muộn)

Tốt

3

2

3/5

2/5

Xấu

2


3

2/5

3/5

9


Thời tiết (x3)
Muộn

Không muộn P (x3|Muộn)

P (x3|Không muộn)

Nắng

3

2

3/5

2/5

Nhiều mây

1


2

1/5

2/5

Mưa

1

1

1/5

1/5

Để dự đốn cho ngày X = (Muộn, Xấu, Mưa), cần tính:
P(Muộn|X) = P(Muộn|Muộn) * P(Xấu|Muộn) * P(Mưa|Muộn) * P(Muộn) =
(3/5) * (2/5) * (1/5) * (5/10) = 0.024
P (Không muộn|X) = P(Muộn|Không muộn) * P(Xấu|Không muộn) * P(Mưa|
Không muộn) * P(Không muộn) = (0/5) * (3/5) * (1/5) * (5/10) = 0
 y = argmax {P(X|y)P(y)} = Muộn
1.5.



Ứng dụng của thuật toán Naive Bayes Classification

Dự đoán thời gian thực:  Naive Bayes là một công cụ phân loại ham học hỏi

và chắc chắn là rất nhanh. Do đó, nó có thể được sử dụng để đưa ra dự đoán
trong thời gian thực.



Dự đoán nhiều lớp:  Thuật tốn này cũng nổi tiếng với tính năng dự đốn
nhiều lớp. Ở đây chúng ta có thể dự đốn xác suất của nhiều lớp biến mục
tiêu.



Phân loại văn bản / Lọc thư rác / Phân tích tình cảm: Các bộ phân loại Naive
Bayes chủ yếu được sử dụng trong phân loại văn bản (do kết quả tốt hơn
trong các bài toán nhiều lớp và quy tắc độc lập) có tỷ lệ thành cơng cao hơn
so với các thuật tốn khác. Do đó, nó được sử dụng rộng rãi trong lọc Spam
10


(xác định e-mail spam) và Phân tích cảm xúc (trong phân tích phương tiện
truyền thơng xã hội, để xác định cảm xúc tích cực và tiêu cực của khách
hàng)


Hệ thống đề xuất:  Naive Bayes Classifier và Collaborative Filtering cùng
nhau xây dựng một Hệ thống đề xuất sử dụng kỹ thuật học máy và khai thác
dữ liệu để lọc thơng tin khơng nhìn thấy và dự đốn liệu người dùng có muốn
một tài ngun nhất định hay không.

PHẦN 3: KẾT LUẬN
1.Ưu điểm:

- Naive Bayes Classifiers thường được sử dụng trong các bài toán về Text
Classification.
- Naive Bayes Classifiers dễ dàng cài đặt, có thời gian training và test rất
nhanh. Điều này có được là nhờ vào việc giả sử về tính độc lập giữa các thành
phần, nếu biết class.
- Naive Bayes Classifiers có thể hoạt động với các feature vector mà một
phần là liên tục (sử dụng Gaussian Naive Bayes), phần còn lại ở dạng rời rạc
(sử dụng Multinomial hoặc Bernoulli).
- Khi sử dụng Multinomial Naive Bayes thì Laplace smoothing thường được
sử dụng để tránh trường hợp 1 thành phần trong test data chưa xuất hiện ở
training data.
- Dự đoán đa lớp với độ chính xác cao

11


2.Nhược điểm:
- Giả thuyết về tính độc lập của điều kiện làm giảm đi độ chính xác của thuật
tốn.
- Khi tiến hành dự đốn một tập dữ liệu mà khơng hề có trong bộ đã được
training thì xác suất này được xác định là 0.

12


Tài liệu tham khảo
1. Marc Peter Deisenroth, A. Aldo Faisal, and Cheng Soon Ong
(2020),  Mathematics for Machine Learning, Cambridge University Press, ISBN13: 978-1108455145.
2. Bengio, Yoshua. Deep Learning (2016), Adaptive Computation and Machine
Learning Series, London, England: MIT Press, ISBN-13: 978-0262035613.

3.
4. Exercise 6: Naive Bayes

13



×