MỤC LỤC
I. Kiến thức cơ sở ....................................................................................................... 1
1. Biến cố ngẫu nhiên ............................................................................................. 1
2. Định nghĩa xác xuất của biến cố ngẫu nhiên ...................................................... 2
3. Các tính chất cơ bản của xác suất ....................................................................... 3
4. Các công thức xác suất cơ bản............................................................................ 3
II. Phân lớp Naive Bayes............................................................................................ 5
1. Định nghĩa........................................................................................................... 5
2. Thực hiện bài toán phân lớp Naive Bayes .......................................................... 6
3. Ví dụ minh họa ................................................................................................... 7
4. Kết luận ............................................................................................................... 8
Phân lớp Naive Bayes
I. Kiến thức cơ sở
1. Biến cố ngẫu nhiên
1.1. Phép thử ngẫu nhiên và biến cố ngẫu nhiên
Phép thử ngẫu nhiên là sự thực hiện một nhóm các điều kiện xác định. Biến
cố sơ cấp 1 , 2 ,..., n ,... mô tả các kết quả của phép thử ngẫu nhiên
Ví dụ :
Tung một lúc hai con xúc xắc là một phép thử, còn việc nó lật ra mặt
nào đó là biến cố.
Bắn một phát súng vào bia thì việc bắn súng là phép thử còn viên đạn
trúng bia (hay trật bia) là biến cố.
Từ một lô sản phẩm gồm chính phẩm và phế phẩm. Lấy ngẫu nhiên
một sản phẩm, việc lấy sản phẩm là một phép thử. Còn lấy được chính
phẩm (hay phế phẩm) là biến cố.
Tập hợp tất cả các biến cố sơ cấp ={ 1 , 2 ,..., n ,...} là không gian biến cố
sơ cấp tương ứng với một phép thử
Tập A là biến cố ngẫu nhiên
1.2. Các quan hệ và các phép toán
Ký hiện A B nghĩa là nếu biến cố A xảy ra thì biến cố B cũng xảy ra
Biến cố A B là một biến cố xảy ra khi ít nhất 1 trong 2 biến cố A và B xảy
ra
A B là một biến cố xảy ra khi và chỉ khi xảy ra đồng thời A và B
Hai biến cố A và B được gọi là xung khắc, nếu A B =
A là biến cố xảy ra khi và chỉ khi A không xảy ra
A \ B là biến cố xảy ra khi A xảy ra nhưng B không xảy ra
Ví dụ :
Khi tung một con xúc xắc, gọi A là biến cố “Xuất hiện mặt có số chấm 5”,
B là biến cố “Xuất hiện mặt có số chấm 3”. Ta thấy nếu biến cố A xảy ra
thì biến cố B cũng xảy ra.
Trang 1
Phân lớp Naive Bayes
Chọn ngẫu nhiên từ 2 lớp KHMT A và B mỗi lớp 1 học sinh. Gọi A là biến
cố “Bạn chọn từ lớp A là nam”, B là biến cố “Bạn chọn từ lớp B là nam”. Và
C là biến cố “Chọn được học sinh nam”. Rõ ràng biến cố C xảy ra khi ít nhất
một trong hai biến cố A và B xảy ra (C = A B).
Tung một con xúc xắc, gọi A là biến cố “Xuất hiện mặt có số chấm 4” và B
là biến cố “Xuất hiện mặt có số chấm 4”. C là biến cố “Xuất hiện mặt có số
chấm bằng 4”. Khi đó ta thấy rằng biến cố C xảy ra khi cả biến cố A và B
cùng xảy ra ( C = A B).
Tung một con xúc xắc, gọi A là biến cố “Xuất hiện mặt có số chấm 4” và B
là biến cố “Xuất hiện mặt có số chấm 2”. Ta thấy hai biến cố A và B không
thể cùng xảy ra được nên gọi là 2 biến cố xung khắc.
Tung một con xúc xắc, gọi A là biến cố “Xuất hiện mặt có số chấm chẵn” và
A là biến cố “Xuất hiện mặt có số chấm lẻ”. Rõ ràng A và A là hai biến cố
đối nhau.
2. Định nghĩa xác xuất của biến cố ngẫu nhiên
Giả sử không gian biến cố sơ cấp gồm n biến cố sơ cấp đồng khả năng và biến
cố ngẫu nhiên A có m biến cố sơ cấp thuận lợi cho nó ( A = m). Khi đó xác suất
của biến cố A, kí hiệu P(A) được xác định bởi :
P( A)
m
n
Ví dụ 1 : Từ một hộp chứa 13 bi đỏ và 7 bi trắng. Lấy ra ngẫu nhiên 1 bi thì
Xác suất lấy được bi đỏ là P( D)
m 13
0.65
n 20
Xác suất lấy được bi trắng là P(T )
m 7
0.35
n 20
Ví dụ 2 : Một bộ bài có 52 quân bài, lấy ra bất kì 3 con bài. Tính xác suất để trong
3 quân bài rút ra chỉ có duy nhất một quân “Cơ”
Gọi A là biến cố “Lấy được 1 quân cơ và 2 quân còn lại không phải cơ”
Biến cố sơ cấp thuận lợi cho A xảy ra : m C131 C392
Trang 2
Phân lớp Naive Bayes
Biến cố sơ cấp đồng khả năng : n C523
Vậy P( A)
m 13 19 39
0.4359
n 25 17 52
3. Các tính chất cơ bản của xác suất
0 P( A) 1;
A
P() 1
Nếu {Ai , i=1,2,...} là một dãy các biến cố sao cho Ai Aj = , i j thì
i 1
i 1
P( Ai ) P( Ai )
P( A ) = 1 – P(A)
P( ) = 0
Nếu A B thì P(B \ A) = P(B) – P(A)
Nếu A B thì P(A) P(B)
4. Các công thức xác suất cơ bản
4.1. Công thức cộng
Giả sử A và B là hai biến cố bất kì. Khi đó :
P(A B) = P(A) + P(B) – P(A B)
Giả sử A và B là hai biến cố xung khắc, tức là A B = . Khi đó :
P(A B) = P(A) + P(B)
4.2. Xác suất có điều kiện
Giả sử B là một biến cố ngẫu nhiên có P(B) > 0. Xác suất của biến cố A với điều
kiện biến cố B xảy ra là
P( A | B)
P( A B)
P( B)
Tính chất :
P(A|B) 0
P( | B) 1
P(B|B) = 1
Trang 3
Phân lớp Naive Bayes
Nếu {Ai} là dãy các biến cố xung khắc nhau đôi một, tức là : (Aj Ai = ,
i j), thì
i 1
i 1
P( Ai | B) P( Ai | B)
P( ) = 0
4.3. Công thức nhân
P( A B) P( B) P( A | B) P( A) P( B | A)
4.4. Tính độc lập của các biến cố
Hai biến cố ngẫu nhiên A và B được gọi là độc lập nếu :
P(A B) = P(A) P(B)
Tính chất :
Giả sử P(B) > 0, các biến cố A và B độc lập khi và chỉ khi P(A|B) = P(A)
Nếu A và B độc lập, thì A và B , A và B, A và B cũng độc lập
Nếu các biến cố A và B1 độc lập; A và B2 độc lập; B1 B2 = thì A và (B1
B2) độc lập
4.5. Công thức xác suất đầy đủ
n
Giả sử B1,B2,...,Bn là nhóm đầy đủ các biến cố ( Bi và Bi Bj = ; i j ;
i 1
i,j=1,2,...,n) với P(Bi) > 0; i=1,2,....,n và biến cố A xảy ra đồng thời với một trong
các Bi. Khi đó, ta có :
n
P( A) P( Bi ) P( A | Bi )
i 1
Các xác suất P(Bi); i=1,2,...,n được gọi là xác suất tiên nghiệm.
4.6. Công thức xác suất Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một biến cố ngẫu nhiên B khi
biết biến cố liên quan A đã xảy ra. Xác suất này được kí hiệu là P(B|A), và được
hiểu là “Xác suất xảy ra biến cố B nếu có biến cố A”. Đại lượng này được gọi là
xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho
của A hoặc phụ thuộc vào giá trị đó.
Trang 4
Phân lớp Naive Bayes
Theo định lý Bayes, xác suất xảy ra B khi biết A sẽ phụ thuộc vào 3 yếu tố:
Xác suất xảy ra B của riêng nó, không quan tâm đến A. Kí hiệu là P(B) và
đọc là “Xác suất của B”. Đây gọi là xác suất tiên nghiệm.
Xác suất xả ra A của riêng nó, không quan tâm đến B. Kí hiệu là P(A) và đọc
là “Xác suất của A”.
Xác suất xảy ra A khi biết B xảy ra. Kí hiệu là P(A|B) và đọc là
”Xác suất của B khi có A”.
Khi biết các đại lượng này, xác suất của B khi biết A được tính bởi công thức :
P( B) P( A | B)
P( A)
P( B | A)
Tổng quát : Giả sử B1,B2,...,Bn là nhóm đầy đủ các biến cố với P(Bi) > 0;
i=1,2,....,n và biến cố A xảy ra đồng thời với một trong các Bi. Khi đó ta có :
P( Bi | A)
P( Bi ) P( A | Bi )
n
P( Bi ) P( A | Bi )
i 1
Các xác suất P(Bi|A); i=1,2...,n được gọi là xác suất hậu nghiệm.
Trong thực tế các xác suất {P(B1),P(B2),...,P(Bn)} đã biết và được gọi là xác suất
tiên nghiệm. Sau khi quan sát được biến cố A xảy ra, các xác suất của Bi được tính
trên thông tin này.
II. Phân lớp Naive Bayes
1. Định nghĩa
Phân lớp Naive Bayes là một phương pháp phân lớp đơn giản dựa trên các ứng
dụng định lí Bayes với giả định độc lập bền vững. Một thuật ngữ mô tả chi tiết cho
những mô hình xác suất sẽ là “Mô hình đặc trưng không phụ thuộc”.
Phân lớp Naive Bayes giả định rằng sự có mặt (hay không có mặt) của một đặc
trưng của một lớp là không liên quan đến sự hiện diện (hay thiếu) của bất kì các
đặc trưng.
Trang 5
Phân lớp Naive Bayes
Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp Naive
Bayes có thể đào tạo rất hiệu quả trong học máy. Trong nhiều ứng dụng thực tế,
tham số ước lượng cho các mô hình Naive Bayes sử dụng các phương pháp
maximum likelihood (ước lượng hợp lý cực đại).
Một lợi thế của phân lớp Naive Bayes là nó đòi hỏi một số lượng nhỏ dữ liệu
huấn luyện để ước lượng các tham số cần cho việc phân loại. Bởi vì các biến được
giả định độc lập, chỉ những khác biệt của các biến cho mỗi lớp học cần phải được
xác định mà không phải toàn bộ ma trận thống kê.
2. Thực hiện bài toán phân lớp Naive Bayes
Input :
Cho bảng quyết định hay có thể nói là bảng dữ liệu huấn luyện (U,C,D) với
D={d1,d2,...,dk} là các thuộc tính ra quyết định; C={c1,c2,...,cm} là các thuộc
tính độc lập của đối tượng; U={u1,u2,...,un} là tập các đối tượng
Đối tượng X(tt1,tt2,...,ttn), với tt1,tt2,...,ttm là các thuộc tính độc lập của đối
tượng X
Output : Xác định phân lớp phù hợp nhất của đối tượng X
Các bước thực hiện:
Bước 1 :
Phân hoạch U / D chia đối tượng U thành k lớp U1,U2,...,Uk
Tính P(Ui|X); với i 1..k : là xác suất của lớp Ui khi X
Để tính được xác suất này ta dựa vào công thức Mô hình Naive Bayes
P(U i | X )
P( X | U i ) P(U i )
P( X )
Chọn ra P(Ui|X) có giá trị cực đại
Bởi vì định lý Bayes được sử dụng để chọn giả thuyết có xác suất cao nhất từ
tập mẫu huấn luyện.
Trang 6
Phân lớp Naive Bayes
P(X) là không thay đổi đối với tất cả các lớp, vì vậy muốn P(U i|X) cực đại thì
P( X | U i ) P(U i ) cực đại. Giá trị P(U i )
Ui
U
Giả sử C={c1,c2,...,cm}. Khi đó :
m
P( X | U i ) P( x j | U i )
j 1
Với P( x j | U i )
sij
si
, sij là đối tượng của lớp Ui có giá trị tại thuộc tính cj bằng xj
và si=|Ui|
Bước 2 : Dự đoán đối tượng X thuộc lớp Ui ở trên
Chú ý một số trường hợp :
Nếu khi chọn giá trị max ở bước 1 P(U j | X ) P(U i | X ); i j;
1 i, j k mà
P(Ui|X) = P(Uj|X) thì trường hợp này là đồng khả năng để chọn, nên ta
không thể đưa ra được dự đoán khi sử dụng Naive Bayes
3. Ví dụ minh họa
Bảng dữ liệu khách hàng
U
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Tuổi
Youth
Youth
Middle-aged
Senior
Senior
Senior
Middle-aged
Youth
Youth
Senior
Youth
Middle-aged
Middle-aged
Senior
Thu nhập Sinh viên Đánh giá tín dụng Mua máy tính
High
No
Fair
No
High
No
Exellent
No
High
No
Fair
Yes
Medium
No
Fair
Yes
Low
Yes
Fair
Yes
Low
Yes
Exellent
No
Low
Yes
Exellent
Yes
Medium
No
Fair
No
Low
Yes
Fair
Yes
Medium
Yes
Fair
Yes
Medium
Yes
Exellent
Yes
Medium
No
Exellent
Yes
High
Yes
Fair
Yes
Medium
No
Exellent
No
Trang 7
Phân lớp Naive Bayes
Xét khách hàng có các thuộc tính sau thì có dự đoán được người đó có mua máy
tính hay không?
X1(Senior,Medium,Yes,Fair)
X2(Youth,Medium,Yes,Fair)
Phân hoạch U / D chia đối tượng U thành 2 lớp :
U1={u U | u(muamaytinh)=yes} |U1| = 9 s1=9
U2={u U | u(muamaytinh)=no}
|U2| = 5 s2=5
Tính P(Ui|X) :
4
s1 j
j 1
s1
4
s2 j
j 1
s2
P(U1 | X 1 )
P(U 2 | X 1 )
s11 s12 s13 s14 3 4 6 6 5
s1 s1 s1 s1 9 9 9 9 76
s21 s22 s23 s24 2 2 1 2 1
s2 s2 s2 s2 5 5 5 5 78
Ta có P(U1|X1) > P(U2|X1) nên ta sẽ dự đoán X1 U1 . Điều đó có nghĩa là
khách hàng X1 sẽ mua máy tính.
4
s1 j
j 1
s1
4
s2 j
j 1
s2
P(U1 | X 2 )
P(U 2 | X 2 )
s11 s12 s13 s14 2 4 6 6 4
s1 s1 s1 s1 9 9 9 9 91
s21 s22 s23 s24 3 2 1 2 1
s2 s2 s2 s2 5 5 5 5 52
Ta có P(U1|X2) > P(U2|X2) nên ta sẽ dự đoán X2 U1 . Điều đó có nghĩa là
khách hàng X2 sẽ mua máy tính.
4. Kết luận
Phương pháp Bayes nói về việc tính xác suất của sự kiện dựa vào các kết quả
thống kê các sự kiện trong quá khứ. Sau việc tính toán mỗi sự kiện được gán xác
suất với khả năng có thể xảy ra với sự kiện đó. Và cuối cùng dựa vào ngưỡng để
phân loại cho các sự kiện. Tuy nhiên các biến trong mô hình Bayes là phải độc lập
với nhau, nếu các biến không độc lập với nhau thì phương pháp Bayes sẽ cho kết
Trang 8
Phân lớp Naive Bayes
quả thiếu chính xác. Độ chính xác của thuật toán phân lớp này phụ thuộc nhiều vào
tập dữ liệu học ban đầu.
Trang 9