Tải bản đầy đủ (.pdf) (90 trang)

sử dụng hàm cực đại vào bài toán phân biệt và phân chùm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (798.1 KB, 90 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM

Nguyễn Thị Hải Yến

SỬ DỤNG HÀM CỰC ĐẠI
VÀO BÀI TOÁN PHÂN BIỆT
VÀ PHÂN CHÙM
LUẬN VĂN THẠC SĨ TOÁN HỌC

Thành phố Hồ Chí Minh – 2012


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM

Nguyễn Thị Hải Yến

SỬ DỤNG HÀM CỰC ĐẠI
VÀO BÀI TOÁN PHÂN BIỆT
VÀ PHÂN CHÙM

Chuyên ngành: Toán giải tích
Mã số: 60 46 01

LUẬN VĂN THẠC SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS. TS. ĐẶNG ĐỨC TRỌNG
Thành phố Hồ Chí Minh – 2012




LỜI CẢM ƠN
Để hoàn thành khóa học Thạc sĩ, em được GS. TS. Đặng Đức Trọng, giáo
viên hướng dẫn, giao cho một đề tài liên quan đến hai lĩnh vực là Toán giải tích và
Xác suất - thống kê. Là một học viên chuyên ngành Toán Giải tích, có kiến thức về
Xác suất thống kê còn hạn chế, đề tài này là một thứ khá mới mẻ và thử thách với
em. Thầy đã dành nhiều thời gian, hướng dẫn em phương pháp nghiên cứu khoa
học, cũng như nhiệt tình trao đổi, thảo luận những vấn đề em còn chưa rõ. Điều này
cũng là một trong những động lực to lớn giúp em hoàn thành đề tài của mình. Em
thực sự biết ơn thầy một cách sâu sắc.
Em cũng cảm ơn rất nhiều hai thầy: TS. Chu Đức Khánh và TS. Đinh Ngọc
Thanh. Hai thầy đã giúp đỡ, chỉ dẫn chúng em một cách nhiệt tình trong nghiên cứu
khoa học. Em cũng xin cảm ơn ThS. Nguyễn Văn Phong, bạn Dương Thanh
Phong, cùng các anh chị trong “nhóm seminar”, đã cùng nhau trao đổi với em về đề
tài này.
Em xin chân thành cảm ơn các thầy trong Khoa Toán – tin trường Đại học
Sư phạm TPHCM, đã tận tình giảng dạy chúng em, cùng các thầy cô Phòng Sau
đại học đã tạo điều kiện cho chúng em trong hai năm học Cao học vừa qua.
Em xin chân thành cảm ơn các thầy trong Ban giám hiệu, các thầy cô trong
Bộ môn Toán và các anh chị đồng nghiệp trong trường Dự bị đại học TPHCM đã
tạo điều kiện, động viên trong suốt quá trình em vừa đi học, vừa tham gia giảng dạy
tại trường. Cảm ơn em Phan Lê Anh Nhật đã hướng dẫn, giúp đỡ chị trong một số
phần lập trình của luận văn.
Em cảm ơn các anh chị trong lớp Toán giải tích K20, các bạn học Cao học
Toán các chuyên ngành khác khóa 20, các bạn học viên Cao học khóa 20 –
phòng 408E Kí túc xá Đại học Sư phạm, vì chúng ta đã cùng nhau kề vai sát cánh
trong hai năm học qua.
Mình cảm ơn các bạn chung phòng, bạn bè, người thân đã luôn hỏi han,
động viên để mình hoàn thành khóa học và luận văn.

Con xin được gửi ngàn lời cảm ơn đến bố mẹ và gia đình – những người đã,
đang và sẽ luôn yêu thương, lo lắng, bên con trên cả đường đời.
Là con người, được sinh ra, được nuôi nấng, được dạy bảo, được yêu thương,
được quan tâm, được giúp đỡ từ rất nhiều người - tất cả đã cho tôi thấy rằng mình
thật là may mắn và mình càng phải biết phấn đấu nỗ lực, cũng như trân trọng những
điều tốt đẹp đấy. Một lần nữa, tôi xin cảm ơn tất cả mọi người rất nhiều!


Nguyễn Thị Hải Yến


DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH
Population: tổng thể.
Observation: quan sát.
Procedure: cách thức.
Prior probability: xác suất tiên nghiệm.
Posterior probability: xác suất hậu nghiệm.
Admissible: có thể chấp nhận được.
Discriminant: phân biệt.
Cluster: phân chùm.
Criterion: tiêu chuẩn.
Likelihood ratio: tỉ số hợp lý.
Misclassification: phân loại sai.
Cost of misclassification: giá của phân loại sai.
Expected cost of misclassification (ECM): kỳ vọng giá phân loại sai.
Maximum likelihood: hợp lý cực đại.
Asymptotic expansion: mở rộng tiệm cận.
Overlapping coefficient: hệ số chồng lấp.



MỤC LỤC
LỜI CẢM ƠN
DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ
PHẦN MỞ ĐẦU
CHƯƠNG 0 KIẾN THỨC CHUẨN BỊ ....................................................................... 1
0.1.

Lý thuyết độ đo, tích phân và xác suất .............................................................. 1

0.2.

Xác suất có điều kiện ........................................................................................... 8

0.3.

Định lý Bayes ...................................................................................................... 13

CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES ...................... 16
1.1

Bài toán thực tế .................................................................................................. 16

1.2.

Phân loại một phần tử vào một trong hai tổng thể ......................................... 18

1.3.

Phân loại một phần tử vào một trong m tổng thể, m > 2 ............................... 28


1.4.

Phân loại một phần tử vào một trong hai tổng thể có phân phối chuẩn

nhiều chiều ........................................................................................................................
CHƯƠNG II HÀM CỰC ĐẠI VÀ KHOẢNG CÁCH L1
48
2.1

Khoảng cách giữa các hàm mật độ xác suất .................................................... 48

2.2

Khoảng cách L1 của các hàm mật độ ............................................................... 49

CHƯƠNG III BÀI TOÁN PHÂN BIỆT .................................................................... 56
3.1

Xác định hàm cực đại của các hàm mật độ xác suất ...................................... 56

3.2

Phương pháp hàm cực đại................................................................................. 58

3.3

Sai số Bayes trong phương pháp hàm cực đại ................................................ 60

3.4


Thuật toán, chương trình tính toán.................................................................. 65

CHƯƠNG IV BÀI TOÁN PHÂN CHÙM ................................................................ 71
4.1

Định nghĩa độ rộng chùm .................................................................................. 71

4.2

Tính chất và định lý về độ rộng chùm ............................................................. 72

4.3

Một số thuật toán phân chùm ........................................................................... 75

KẾT LUẬN
TÀI LIỆU THAM KHẢO

34


PHẦN MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Bài toán phân biệt (Bài toán phân tích sự khác biệt) Cho tập dữ liệu là hai
hay nhiều nhóm đối tượng (người, sự vật…) đã được xác định trước. Bài toán phân
biệt là bài toán phân loại một đối tượng mới vào các nhóm đã cho, dựa trên việc đo
lường các thuộc tính (đặc trưng) mô tả đối tượng đó. Nói rõ hơn, phân biệt
(discriminant) ở đây được hiểu là tách biệt các nhóm dựa trên độ đo thuộc tính của
đối tượng trong nhóm và từ đó xác định quy tắc để phân loại một đối tượng mới vào
một trong các nhóm đó. Giải thích theo ý nghĩa hình học là: Dựa trên phép đo thuộc

tính, ta có một tương ứng giữa đối tượng ω với vector x trong không gian  p .
Quy tắc phân biệt là tách không gian  p thành các tập hợp Ri , i ∈1, p sao cho nếu

x ∈ R j thì ω được phân loại vào nhóm thứ j. Biểu diễn sự phân loại này bằng hình
vẽ được thể hiện là một đường hoặc một mặt để tách biệt hai hay nhiều nhóm với
nhau.
Bài toán phân chùm Cho tập các dữ liệu là các phần tử không biết đến từ bao
nhiêu nhóm. Cũng dựa trên phép đo thuộc tính của các phần tử này, chúng ta phân
chia chúng thành những cluster (chùm). Khái niệm cluster được hiểu là một nhóm
có sự tương đồng (same group), nghĩa là các phần tử trong cùng một cluster thì
tương đồng nhau (“gần” nhau) theo một thuộc tính nào đó và các phần tử khác biệt
nhau (“ít gần” nhau hơn) thì được phân vào các cluster khác nhau. Việc phân chia
này phụ thuộc vào “khoảng cách” để đo mức độ sự tương đồng (“gần”, “xa”) của
các phần tử theo thuộc tính đã chọn và kỹ thuật (hay thuật toán) phân chùm.
Các bài toán trên là một trong những ứng dụng quan trọng của thống kê.
Chúng được đặt ra là do xuất phát từ yêu cầu phát triển của kinh tế xã hội và được
ứng dụng trong nhiều lĩnh vực như kinh tế học, sinh học, y học, xã hội học… Các
kết quả nghiên cứu các bài toán này là không nhiều.
Trong đề tài này, hàm cực đại được sử dụng trong quy tắc phân loại của bài
toán phân biệt và “khoảng cách” trong bài toán phân chùm. Dựa trên luận án tiến sĩ
[1] và hai bài báo [2], [3], chúng tôi nghiên cứu, tìm hiểu đề tài


“SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM”.
2. BỐ CỤC CỦA LUẬN VĂN
Chương 0 - Kiến thức chuẩn bị
Chương này sẽ trình bày những kiến thức cơ bản được sử dụng trong luận văn:
Lý thuyết về độ đo, tích phân theo độ đo, xác suất; Xác suất có điều kiện; Định lý
Bayes.
Chương 1 - Quá trình phân loại Bayes, sai số Bayes

Đầu tiên, để minh họa cho bài toán phân biệt, chương này đưa ra một bài toán
thực tế là bài toán phân loại cá. Lý thuyết chính của chương này trình bày nội dung:
Phân loại một phần tử vào một trong hai tổng thể, phân loại một phần tử vào một
trong n (n > 2) tổng thể với điều kiện biết xác suất tiên nghiệm của các tổng thể,
cũng như với điều kiện chưa cho trước xác suất tiên nghiệm của các tổng thể. Với
mỗi nội dung, chúng tôi trình bày các khái niệm: cách phân loại Bayes, sai số Bayes
và quy tắc phân loại để giải quyết được bài toán Bayes. Phần cuối của chương này
là áp dụng lý thuyết phân loại ở trên để phân loại một phần tử vào các tổng thể có
phân phối chuẩn nhiều chiều.
Chương 2 - Hàm cực đại và khoảng cách L1
Chương này trình bày khái niệm về khoảng cách giữa các hàm mật độ xác
suất, từ đó dựa trên hàm cực đại đưa ra định nghĩa khoảng cách L1 giữa các hàm
mật độ xác suất { fi ( x)} và giữa các hàm { gi ( x)} có dạng gi ( x) = qi fi ( x) với
qi ∈ (0,1) ,

k

∑q
i =1

i

= 1 ; định nghĩa hệ số chồng lấp của các hàm { fi ( x)} , { gi ( x)} .

Chương này còn trình bày mối quan hệ giữa khoảng cách L1 của các hàm mật
độ xác suất { fi ( x)} , các hàm { gi ( x)} , với hệ số chồng lấp của chúng; biên của
khoảng cách L1 giữa các hàm mật độ xác suất { fi ( x)} , các hàm { gi ( x)} thông qua
số lượng hàm mật độ, xác suất tiên nghiệm và khoảng cách L1 của hai hàm mật độ.
Chương 3 - Bài toán phân biệt
Dựa vào hàm cực đại, lý thuyết phân loại ở chương I, chúng tôi trình bày một

quy tắc phân loại phần tử mới gọi là Phương pháp hàm cực đại. Chương này còn


trình bày công thức tính sai số Bayes, trình bày mối liên hệ giữa sai số Bayes với hệ
số chồng lấp, biên của sai số Bayes thông qua số lượng hàm mật độ, xác suất tiên
nghiêm. Phần cuối của chương này, chúng tôi trình bày thuật toán và chương trình
phân loại phần tử mới, tìm hàm cực đại và tính sai số Bayes. Trong chương trình,
chúng tôi áp dụng cho hàm mật độ xác suất của phân phối chuẩn một chiều.
Chương 4 - Bài toán phân chùm
Chương này đưa ra khái niệm độ rộng chùm để xem là “khoảng cách” trong
phân tích chùm. Chúng tôi trình bày một số định lý về mối quan hệ giữa hai độ
rộng chùm chỉ khác nhau một phần tử và độ rộng của hợp hai chùm, để có thể đánh
giá được mức độ “gần nhau” của các phần tử trong chùm cũng như mức độ “xa
nhau” giữa các chùm. Dựa trên “khoảng cách” là độ rộng chùm, phần cuối của
chương này trình bày ba thuật toán cho ba phương pháp phân chùm khác nhau:
phương pháp phân cấp, phương pháp không phân cấp và phương pháp xây dựng
chùm với độ rộng chùm cho trước.


CHƯƠNG 0
KIẾN THỨC CHUẨN BỊ
0.1. Lý thuyết độ đo, tích phân và xác suất
0.1.1. Một số khái niệm độ đo
Định nghĩa 0.1.1.1. Cho  là một tập các tập con của không gian mẫu Ω .  được
gọi là σ - đại số khi và chỉ khi nó thỏa các điều kiện sau:
i. ∅ ∈  ,
ii. Nếu A∈  thì Ac ∈  , với Ac là phần bù của A,
iii. Nếu Ai ∈  , i =
1, 2,... thì




 A ∈ .
i

i =1

Khi đó, ( Ω,  ) được gọi là không gian đo. Các phần tử của  được gọi là các tập đo
được mà trong xác suất và thống kê ta thường gọi là các biến cố.
Định nghĩa 0.1.1.2. Cho A ⊂ Ω, A ≠ Ω , khi đó  = {∅, Ω, A, Ac } là một σ - đại số nhỏ
nhất chứa A. Ta ký hiệu là σ ({ A}) , hay ta còn gọi là σ - đại số sinh bởi A.
Tổng quát, một σ - đại số nhỏ nhất chứa  , trong đó  là một họ các tập con
của Ω , ký hiệu là σ ( ) được gọi là σ - đại số sinh bởi  . Đặc biệt, nếu  là một σ đại số thì σ ( ) =  .
Định nghĩa 0.1.1.3. Cho Ω = ,  là họ tất cả các khoảng mở hữu hạn trên R
thì  = σ (  ) được gọi là σ - đại số Borel. Các phần tử thuộc  gọi là tập Borel.
Chứng minh được rằng, tất cả các khoảng (hữu hạn hoặc vô hạn), các tập đóng,
các tập mở đều là các tập Borel.
Định nghĩa 0.1.1.4. Giả sử ( Ω,  ) là không gian đo, khi đó một hàm tập hợp ν xác
định trên  được gọi là một độ đo, nếu và chỉ nếu thoả mãn các tính chất sau
i. 0 ≤ v( A) ≤ ∞ với mọi A∈  ,


ii. v(∅) =0 ,
iii. Tính cộng tính đếm được của độ đo: Nếu Ai ∈  , i =
1, 2,... và Ai  Aj = ∅ với
∞  ∞
i ≠ j thì v   Ai  = ∑ v( Ai ) .
 i =1  i =1

Khi đó, bộ ( Ω,  , v ) được gọi là không gian đo.

Định nghĩa 0.1.1.5. Một độ đo v trên (Ω,  ) được gọi là σ - hữu hạn nếu tồn tại một
dãy { A1 , A2 ,...} nếu  Ai = Ω và v ( Ai ) < ∞ .
Tính chất. Giả sử (Ω,  , v) là không gian đo. Khi đó ta có các tính chất sau
i. Nếu A ⊂ B thì v( A) ≤ v( B) ,
∞  ∞
ii. Với mọi dãy A1 , A2 ,... thì v   Ai  ≤ ∑ v( Ai ) ,
 i =1  i =1

iii. Nếu A1 ⊂ A2 ⊂ ⋅⋅⋅ và v( A1 ) < ∞ , thì

(

)

v lim An = lim v( An ) ,
n →∞

n →∞



trong đó, lim An =  Ai ,
n →∞

i =1

iv. Nếu A1 ⊃ A2 ⊃ ⋅⋅⋅ và v( A1 ) < ∞ , thì

(


)

v lim An = lim v( An ) ,
n →∞

n →∞



trong đó, lim An =  Ai .
n →∞

i =1

Định nghĩa 0.1.1.6. Cho ( Ω,  ) và ( Λ,  ) là các không gian đo được, f là một ánh xạ
từ Ω vào Λ được gọi là hàm đo được từ ( Ω,  ) vào ( Λ,  ) nếu và chỉ nếu
f −1 (  ) ⊂  .

Nhận xét: f −1 (  ) là σ - đại số con của  .


Định nghĩa 0.1.1.7. Cho ( Ω,  ) và ( Λ,  ) là các không gian đo được, f là hàm đo
được từ ( Ω,  ) vào ( Λ,  ) . Khi đó, f −1 (  ) gọi là σ - đại số sinh bởi f , được ký hiệu
là σ ( f ) .
Định nghĩa 0.1.1.8. Cho ( Ω,  , v ) là không gian độ đo và f là một hàm đo được từ

( Ω,  ) vào ( Λ, ) . Độ đo cảm sinh bởi f , ký hiệu là

v  f −1 , là độ đo trên  được xác


định bởi
v  f −1 ( B ) = v ( f ∈ B ) = v ( f −1 ( B ) ) , B ∈  .

Định nghĩa 0.1.1.9. f là một hàm đo được từ ( Ω,  ) vào ( ,  ) thì f được gọi là
hàm Borel.
Định nghĩa 0.1.1.10. Cho A ⊂ Ω , hàm đặc trưng trên A được định nghĩa
ω ∈ A,
ω ∉ A.

1
0

I A (ω ) = 

Nếu A là tập đo được thì I A là một hàm Borel.
Định nghĩa 0.1.1.11. Cho A1 , A2 ,..., Ak là các tập đo được trên Ω và a1 , a2 ,..., ak là các số
thực. Hàm đơn giản là tổ hợp tuyến tính các hàm đặc trưng của các tập đo được, nghĩa

k

ϕ (ω ) = ∑ ai I A (ω ) .
i =1

i

Giả sử, A1 , A2 ,..., Ak là một phân hoạch của Ω , nghĩa là Ai  Aj =
∅, i ≠ j và
k

 A = Ω . Khi đó hàm đơn giản ϕ (ω )

i

được xác định như trong định nghĩa trên, với các

i =1

ai phân biệt là một đặc trưng cho phân hoạch này, và σ (ϕ ) = σ ({ A1 , A2 ,..., Ak }) .

Định nghĩa 0.1.1.12. Tích Cartesian của k tập A1 , ..., Ak được định nghĩa là tập tất cả
các phần tử có dạng  a1 , ..., ak  , ai  Ai và được ký hiệu là A1 ... Ak . Cho ( Ωi , i , vi ) ,


i  1, ..., k là k - không gian đo được. Ta định nghĩa s  1 ... k  là s đại số tích

trên Ω1 × ... × Ωk .
Cho ( Ωi , i , vi ) , với i  1, ..., k là không gian đo được và vi là độ đo s - hữu hạn.
Khi đó tồn tại duy nhất độ đo s - hữu hạn trên s - đại số tích s  1 ... k  , được gọi
là độ đo tích và ký hiệu là v1 ...vk được xác định

v1 ...vk  A1 ... Ak   v1  A1  ...vk  Ak  với Ai  i , i  1, ..., k .
0.1.2. Định nghĩa tích phân theo độ đo
n

Định nghĩa 0.1.2.1a. Nếu ϕ là hàm đơn giản không âm, nghĩa là ϕ = ∑ ai I A , khi đó
i =1

i

tích phân của ϕ theo độ đo v , được xác định bởi
n


∫ ϕ dv = ∑ ai v( Ai ) .
i =1

Định nghĩa 0.1.2.1b. Nếu f là hàm Borel không âm trên Ω , giả sử  f là họ tất cả các
hàm đơn giản không âm thoả ϕ (ω ) ≤ f (ω ), ω ∈ Ω . Tích phân của f theo độ đo v được
xác định bởi
=
∫ fdv sup

{∫ ϕ dv : ϕ ∈  } .
f

Định nghĩa 0.1.2.1c. Với f là một hàm Borel, ta định nghĩa phần dương của f là
f + (ω ) = max{ f (ω ), 0}

và phần âm của f là
f −=
(ω ) max{− f (ω ), 0} .

Nhận xét rằng, f + (ω ) và f − (ω ) là các hàm Borel không âm, và
(ω ) f + (ω ) + f − (ω ) .
=
f (ω ) f + (ω ) − f − (ω ) và f=

Định nghĩa 0.1.2.1d. Giả sử f là hàm Borel, ta nói rằng tích phân
chỉ nếu ít nhất một trong hai tích phân

∫ f dv và ∫ f dv
+




∫ fdv tồn tại nếu và

là hữu hạn. Khi đó


=
∫ fdv

∫ f dv − ∫ f dv .
+



Định nghĩa 0.1.2.2. A là tập đo được và I A là hàm chỉ của A. Khi đó, tích phân trên A
được xác định



A

fdv = ∫ I A fdv .

Định lý 0.1.2.1. (Định lý Fubini)
Cho vi là một độ đo σ - hữu hạn trên ( Ωi , i ) , i = 1, 2 , và cho f là một hàm Borel
2

trên


∏ (Ω ,  )
i

i

thỏa tích phân của f theo độ đo v1 × v2 tồn tại. Khi đó,

i=1

g (ω2 ) = ∫ f (ω1 , ω2 )dv1 tồn tại hầu khắp nơi v2 và xác định một hàm Borel trên Ω 2 mà
Ω1

tích phân của nó theo độ đo v2 tồn tại và



Ω1×Ω2



f (ω1 , ω2 )dv1 × dv2 =
∫Ω2  ∫Ω1 f (ω1 , ω2 )dv1  dv2 .

Định lý 0.1.2.2. (Định lý đổi biến)
Cho f là một hàm đo được từ ( Ω,  , v ) vào ( Λ, ) , g là hàm Borel trên ( Λ, ) .
Khi đó:






g  fdv = ∫ gd (v  f −1 ) .
Λ

Định lý 0.1.2.3. (Định lý Radon – Nykodym)
Cho v và λ là hai độ đo trên ( Ω,  ) , v là σ - hữu hạn. Nếu λ  v ( nghĩa là
v( A) = 0 thì λ ( A) = 0 với A∈  ), thì tồn tại một hàm Borel không âm f xác định trên

Ω thỏa:

λ ( A ) = ∫ fdv với A∈  .
A

Hàm f được gọi là đạo hàm Radon – Nykodym hoặc mật độ của λ , được ký hiệu là

.
dv

0.1.3. Xây dựng không gian xác suất


Không gian xác suất và các đặc trưng của nó được xây dựng và mở rộng từ lý
thuyết độ đo và tích phân.

, P ) với
Định nghĩa 0.1.3.1. (Hệ tiên đề Kolmogorov) Cho bộ ba ( Ω, 
i. Ω là tập hợp tùy ý các phần tử ω ,
ii.  là đại số các tập con của Ω ,
iii. P là một độ đo xác suất, nghĩa là P(Ω) =1 .


, P ) được gọi là không gian xác suất. Tập Ω được gọi là không gian
Khi đó ( Ω, 
các biến cố sơ cấp. Tập A∈  được gọi là các biến cố, P gọi là xác suất trên  , P( A)
là xác suất của biến cố A.
Định nghĩa 0.1.3.2. Cho P là một độ đo xác suất trên ( ,  ) . Khi đó, hàm phân phối
tích luỹ của P (c.d.f) được định nghĩa bởi
F (=
x) P ((−∞, x]), ∀x ∈  .

Tính chất: Cho F là c.d.f trên  .
i.=
F (−∞) lim
=
F ( x) 0 ,
x →−∞

ii. =
F (∞) lim=
F ( x) 1 ,
x →∞

iii. F là hàm không giảm, nghĩa là F ( x) ≤ F ( y ) nếu x ≤ y ,
iv. F liên tục phải, nghĩa là lim F ( y ) = F ( x) .
y→ x, y > x

Định nghĩa 0.1.3.3. Cho ( Ω,  ) và ( Λ,  ) là các không gian đo được, f là hàm đo
được từ ( Ω,  ) vào ( Λ,  ) . Khi đó f còn được gọi là phần tử ngẫu nhiên trên

( Ω,  ) nhận giá trị trong ( Λ,  ) . Đặc biệt, khi ( Λ,  ) ≡ (,  ) , X là hàm đo được từ

(Ω,  ) vào (,  ) thì X được gọi biến ngẫu nhiên.


, P ) . Hàm tập
Định nghĩa 0.1.3.4. Cho X là biến ngẫu nhiên xác định trên ( Ω, 
P  X −1 được gọi là phân phối của X , được ký hiệu là PX . Khi đó, hàm phân phối

(c.d.f) của PX , được ký hiệu là FX được định bởi
FX =
( x) PX ((−∞, x]), ∀x ∈  .
FX cũng được gọi là hàm phân phối của X .

, P) .
Định nghĩa 0.1.3.5. Cho X là một biến ngẫu nhiên khả tích trên không gian ( Ω, 
Khi đó, kỳ vọng của X, ký hiệu EX hay E ( X ) được xác định bởi
E ( X ) = ∫ XdP .

Nhận xét: E
=
(I A )

I dP
∫=
A

P ( A) .

Định nghĩa 0.1.3.6. Cho P, v là hai độ đo trên ( Ω,  ) , Giả sử P là độ đo xác suất, v
là độ đo σ hữu hạn, P  v . Khi đó, hàm Borel không âm f trên Ω thỏa
P ( A) = ∫ fdv được gọi là hàm mật độ xác suất theo độ đo v . Hơn nữa, nếu độ đo xác

A

suất P tương ứng với hàm phân phối tích lũy F hoặc biến ngẫu nhiên X thì f cũng
được gọi là hàm mật độ xác suất của F hoặc hàm mật độ xác suất của X .

, P ) , có
Định lý 0.1.3.1. Cho X là một biến ngẫu nhiên trên không gian xác suất ( Ω, 
phân phối liên tục tuyệt đối với hàm mật độ f ( x) . Với mọi hàm thực ϕ từ  vào  ,
ta có



X −1 ( B )

ϕ ( X (ω ))dP(ω ) = ∫ ϕ ( x) f ( x)dx , B ∈  () .
B

Đặc biệt,
Eϕ ( X ) = ∫ ϕ ( x) f ( x)dx .


Định nghĩa 0.1.3.7. Cho P là một độ đo xác suất trên không gian (  k ,  k ) . Hàm phân
phối tích lũy đồng thời của P được định nghĩa
F ( x1 , x2 , ..., xk )  P , x1  , , x2  , ..., , xk  , xi   .


, P ) . Hàm tập
Định nghĩa 0.1.3.8. Cho X là vector ngẫu nhiên xác định trên ( Ω, 
P  X −1 được gọi là phân phối của X , được ký hiệu là PX . Khi đó, hàm phân phối


(c.d.f) của PX , được ký hiệu là FX được định bởi
FX ( x1 , x2 ,...,=
xk ) PX

( ( −∞, x ] , ( −∞, x ] ,..., ( −∞, x ]) , x ∈  .
1

2

k

i

FX cũng được gọi là hàm phân phối của X .

Định nghĩa 0.1.3.8. X là hàm đo được từ (Ω,  ) vào ( k ,  k ) thì X được gọi vector
ngẫu nhiên k chiều.
Định nghĩa 0.1.3.9. Thành phần thứ i của X là biến ngẫu nhiên X i có hàm phân phối
tích lũy là
FX i ( x) 

lim

x j  , j 1, 2,..., i1, i 1,..., k

FX ( x1 , ..., xi1 , x, xi1 , ..., xk ) .

FX i còn được gọi là hàm phân phối biên của X i .

Định nghĩa 0.1.3.10. Nếu FX có hàm mật độ là f X , thì X i có hàm mật độ xác suất

f X i ( x)   ... f X ( x1 , ..., xi1 , x, xi1 , ..., xk )dx1...dxi1dxi1...dxk .

Định nghĩa 0.1.3.11. Biến ngẫu nhiên X được gọi có phân phối chuẩn (phân phối
Gauss) một chiều, ký hiệu X  N (m , s 2 ) nếu hàm mật độ xác suất có dạng
  x  m 2 
1

 .
f ( x) 
exp 

2s 2 
s 2p

Phân phối chuẩn X  N (0,1) được gọi là phân bố chuẩn tắc.
0.2. Xác suất có điều kiện
0.2.1. Điều kiện trên một biến cố
Cho A, B là các biến cố trên không gian xác suất ,   , P( A) > 0 .
Xác suất có điều kiện P( B | A) là xác suất để B xảy ra khi biết A đã xảy ra
P ( B | A) :=

P ( B ∩ A)
.
P ( A)


Dễ dàng kiểm tra P(. | A) là một độ đo xác suất mới trên ,   . Độ đo này dùng để
tính lại xác suất của B (sau khi biết thêm dữ kiện là biến cố A xảy ra).
Nhận xét: P( B | A) = ∫


B

I
IA
dP(. | A)
= A .
dP nghĩa là
dP
P( A)
P( A)

Cho X là một biến ngẫu nhiên, A là một biến cố mà P( A) > 0 .
Trước khi biết A xảy ra, kỳ vọng của X
EX = ∫ XdP .

Khi biết A đã xảy ra, ta tính lại kỳ vọng, bằng cách sử dụng độ đo xác suất mới P(. | A) .
Khi đó kỳ vọng của X (cho trước điều kiện A) là E [ X | A] = ∫ XdP(. | A)
=
∫ XdP(. | A)

IA

dP(. | A)

X
dP ∫ X
dP .
∫=
dP
P( A)


Do đó
E [ X | A] =

E [ X ; A]
P( A)

với E [ X ; A] = ∫ XdP .
A

0.2.2. Điều kiện trên một σ - đại số: Không gian rời rạc.
=

Giả sử ,  , P  là không gian xác suất rời rạc,

{ωn : n ∈ } .

X là một biến ngẫu nhiên;  là s - đại số con của  .
s ( Bn : n  ) .
B1 , B2 ... là một phân hoạch của Ω sao cho  

Đặt
=
cn : E=
[ X | Bn ] , Z

∑c I

n Bn


.

n

Khi đó Z là  - đo được.
E [ X | Bn ] . Do đó E [ Z ; Bn ] = E [ X ; Bn ] với mọi Bn .
Hơn nữa E [ Z | Bn=] c=
n

Với mỗi G ∈  , ta có E [ Z | G ] = E [ X | G ] .
Định nghĩa 0.2.2.1. Z := E [ X |  ] gọi là kỳ vọng có điều kiện của biến ngẫu nhiên khả
tích khi cho trước  . Khi đó, Z là một biến ngẫu nhiên có các tính chất sau


i. Z là  đo được.
ii.



G

ZdP = ∫ XdP với mọi G   .
G

0.2.3. Điều kiện trên một σ - đại số: Không gian tổng quát
Định nghĩa 0.2.3.1. Cho X là một biến ngẫu nhiên khả tích trên ,  , P  . Cho  là
một s - đại số con trên  . Kỳ vọng có điều kiện của biến ngẫu nhiên X với điều
kiện  , ký hiệu là E  X |   là biến ngẫu nhiên duy nhất hầu chắc chắn thỏa hai điều
kiện sau
i. E  X |   là hàm đo được từ ,   vào  ,   .

ii.  E  X |   dP  XdP với A   .
A

A

Định nghĩa 0.2.3.2. Cho B   . Xác suất có điều kiện của biến cố B với điều kiện

 được định nghĩa

P  B |    E  IB |   .
Định nghĩa 0.2.3.3. Cho Y là hàm đo được từ ,  , P  vào  ,   . Kỳ vọng có điều
kiện của (hàm đo được) X với điều kiện (hàm đo được) Y được định nghĩa
E  X | Y   E  X | s Y  .

Định lý 0.2.3.1. Cho Y là hàm đo được từ ,   vào  ,   và Z là một hàm từ

,   vào  k . Khi đó Z là hàm đo được từ , s Y  vào   k ,  k  khi và chỉ khi có
một hàm h đo được từ  ,   vào   k ,  k  mà Z  h  Y .
Chứng minh. (trong trường hợp phân phối rời rạc)
Giả sử: X là một biến ngẫu nhiên khả tích trên ,  , P  .
A1 , A2 , ... là các biến cố trên ,  , P  với Ai  Aj  , i  j ,  Ai   ,

P  Ai   0 với mọi i .


a1 , a2 , ... là các số thực phân biệt.

Đặt: Y  a1 I A  a2 I A  ...
1


2



 XdP

i 1

P  Ai 

Ta chứng minh E  X | Y   

Ai

IA .
i

(i) E  X | Y   E  X | s Y  đo được trên , s Y  .
Do s Y   s  A1 , A2 , ... , đặt ci 

 XdP
Ai

P  Ai 



E ( X ; Ai )
.
P  Ai 




Khi đó E  X | Y    ci I A là hàm đơn giản nên đo được trên , s Y  .
i

i 1

(ii)  E ( X | Y )dP   XdP với A  s (Y ) .
A

A

Với A  Y 1  B   i:a B Ai  s (Y ) , B   .
i

Ta có

 XdP 

Y 1  B 

  XdP

(theo tính chất tích phân).

i:ai  B Ai

Với ai  B : Ai  Y 1  B    thì P  Ai  Y 1  B   0 .
Với ai  B : Ai  Y 1  B   Ai thì P  Ai  Y 1  B   P  Ai  .



Suy ra

 XdP

  XdP   P  A  P  A  Y
Ai

i

i:ai  B Ai

i 1

Hệ quả.
Cho A   và X  I A .

 B 

i


XdP 
  A
    i
I Ai  dP
P
A



i

Y 1  B   i 1



Định lý được chứng minh.

1

(theo định nghĩa tích phân) .




Khi đó P  A | Y   E  I A | Y   
i 1

P  A  Ai 
I .
P  Ai  A
i

Ta có Y  ai    w   : Y  w   ai   Ai .
Với w  Ai : P  A | Y  w  

P  A  Ai 
 P  A | Ai   P  A | Y  ai  .
P  Ai 


Tổng quát: Cho X là biến ngẫu nhiên rời rạc nhận giá trị trong tập c1 , c2 ... với ci là
các số thực phân biệt, đặt Ci  X 1 ci  .
Theo công thức tính kỳ vọng ở trên




i 1

j 1

E  X | Y     c j P  C j | Ai  I Ai i  1, 2, ...




j 1

j 1

Với w  Ai , E  X | Y  w    c j P  C j | Ai    c j P  C j | Y  ai  .
Mệnh đề. Cho X là biến ngẫu nhiên n chiều, Y là biến ngẫu nhiên m chiều. Giả sử

 X , Y  có hàm mật độ đồng thời là f  x, y  xác định trên v l , với v , l là độ đo tương
ứng trên   n ,  n  và   m ,  m  . Cho g  x, y  là một hàm Borel trên  nm với
E  g  X , Y    . Khi đó

E  g  X , Y  | Y  




g  x, Y  f  x, Y  dv  x 



f  x, Y  dv  x 

hầu chắc chắn.

Chứng minh.
Đặt h(Y ) :



g  x, Y  f  x, Y  dv  x 



f  x, Y  dv  x 

. Ta chứng minh h(Y )  E  g  X , Y  | Y  .

i. h(Y ) là hàm đo được trên , s Y  .
Theo Định lý 0.1.2.1. (Định lý Fubini), h là hàm Borel.
Do đó theo Định lý 0.2.3.1. thì h(Y ) là hàm Borel trên , s Y  .


ii. E  h Y  | Y 1  B   E  g  X , Y  | Y 1  B  với mọi Y 1  B   s Y  .
Theo định lý Fubini fY  y    f  x, y  dv  x  là hàm mật độ của Y ứng với l .

Với mọi B   m



Y

1

 B

h Y  dP   h  y  dPY

(theo định lý đổi biến)

B

 g  x, y  f  x, y  dv  x 
fY  y  d l  y 
 f  x, y  dv  x 


B





g  X , Y dPX Y




g  x, y  f  x, y dv l



g  X , Y  dP

(theo định nghĩa hàm h)
(theo định lý Fubini)

 n B



(theo định nghĩa hàm mật độ)

 n B


Y

1

(theo định lý đổi biến).

B

Ta được điều phải chứng minh.
Định nghĩa 0.2.3.4. Cho vector ngẫu nhiên  X , Y  có hàm mật độ f ( x, y ) tương ứng
trên v l , ta định nghĩa hàm mật độ có điều kiện của X với điều kiện Y  y là

f X |Y ( x | y ) 

f ( x, y )
,
fY ( y )

với fY ( y )   f ( x, y )dv( x) là hàm mật độ lề của tương ứng trên v .
Cố định y với fY ( y )  0 , f X |Y ( x | y ) là một hàm mật độ theo độ đo v .
Khi đó
E[ g ( X , Y ) | Y ]   g ( x, Y ) f X |Y ( x | Y )dv( x) .

0.3. Định lý Bayes
0.3.1. Định lý Bayes cho trường hợp phân phối rời rạc
Định lý 0.3.1.1. Giả sử A và B là hai biến cố trên một không gian xác suất, P (B ) > 0 .


P( A | B) =

P ( B | A) P ( A)
,
P( B)

với P ( B ) là xác suất biến cố B khi chưa biết biến cố A xảy ra, còn được gọi là xác suất
tiên nghiệm của biến cố B,

P ( A) là xác suất biến cố A khi chưa biết biến cố B xảy ra, còn được gọi là xác suất
tiên nghiệm của biến cố A,

P ( A | B ) là xác suất của biến cố A khi biết biến cố B đã xảy ra, còn được gọi là xác
suất hậu nghiệm của biến cố A,


P ( B | A) là xác suất của biến cố B khi biết biến cố A đã xảy ra, còn được gọi là xác
suất hậu nghiệm của biến cố B.
Định nghĩa 0.3.1.1. Giả sử Bi , i = 1, 2,..., n là các biến cố. Khi đó, họ các Bi được gọi là
đầy đủ (hay một phân hoạch của Ω ), nếu
n

i)

B

i

= Ω,

i =1

ii) Bi  B j =
∅, i ≠ j .
Định lý 0.3.1.2. Giả sử Bi , i = 1, 2,..., n là các biến cố đầy đủ, khi đó với mọi biến cố A,
ta có:
=
P (B i | A )

P (A | Bi )P (Bi )
=
P (A )

P (A | Bi )P (Bi )
n


∑ P (A | B )P (B )
i =j

với

j

P (Bi ) là xác suất tiên nghiệm của Bi ,
P (Bi | A ) là xác suất hậu nghiệm của Bi ,
n

P ( A) = ∑ P ( A | Bi ) P ( Bi ) là xác suất toàn phần của A.
i =1

j

,


Nếu tất cả các P ( A | Bi ) , i = 1,..., n bằng nhau thì khả năng xuất hiện của biến cố A
không ảnh hưởng đến khả năng xuất hiện của các Bi và do đó xác suất tiên nghiệm Bi
bằng xác suất hậu nghiệm.
0.3.2. Định lý Bayes cho trường hợp phân phối liên tục

, P ) . Giả sử Bi , i = 1, 2,..., n một
Cho X là biến ngẫu nhiên liên tục xác định trên ( Ω, 
phân hoạch của Ω . Giả sử ta biết phân phối của biến ngẫu nhiên X trên mỗi lớp Bi .
Xác suất có điều kiện của mỗi Bi khi cho trước X = x , được xác định
P ( Bi | x)

=

f ( x | Bi ) P ( Bi )
=
n
∑ f ( x | B j ) P( B j )

f i ( x) P ( Bi )
n

∑f

=j 1 =j 1

với

j

,

( x) P( B j )

f ( x | Bi ) , hay viết gọn lại fi ( x) , là hàm mật độ xác suất có điều kiện của X trên

mỗi lớp Bi ,
P ( Bi ) là xác suất tiên nghiệm của Bi .


CHƯƠNG I
QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES

1.1 Bài toán thực tế
Bài toán (tài liệu [9]) Một nhà máy đóng gói muốn tự động hóa quá trình phân loại cá
trên một băng chuyền theo từng loại cá. Giả sử trên băng chuyền chỉ có hai loại cá: cá
trích và cá hồi. Ta có thể phân loại hai loại cá này với nhau qua các đặc điểm: chiều
dài, chiều rộng, hình dạng, hình dạng và chiều dài vây, vị trí miệng… Ta cũng cần chú
ý đến các yếu tố gây nhiễu, ảnh hưởng trong quá trình nhận diện hình ảnh như ánh
sáng, vị trí của cá trên băng chuyền… Ta giả thiết rằng thực sự có sự khác nhau giữa
hai loại cá này và ta sẽ xây dựng mô hình toán học để mô tả sự khác nhau này.
Quá trình phân loại được thực hiện như sau
i. Đầu tiên máy ảnh sẽ chụp hình mẫu cá.
ii. Lấy độ đo: Xử lý các hình ảnh đơn giản đi, sao cho không làm mất các thuộc
tính mà ta cần xét để phân loại. Trên mỗi con cá, lấy giá trị của các thuộc tính cần xét
đó. Thuộc tính của mỗi con cá (nói chính xác là giá trị của mỗi thuộc tính) sẽ là thông
tin để từ đó, phân loại chúng theo loài.
iii. Đưa ra quyết định phân loại.
Ở đây ta đề cập đến một số vấn đề
Trích chọn thuộc tính để thực hiện được bước ii: Cho giả thiết rằng, nhìn chung, cá hồi
dài hơn cá trích. Do đó, ta có thể sử dụng “chiều dài” như là một thuộc tính để phân
loại giữa hai loại cá. Thông qua việc xét chiều dài của các loại cá này trên nhiều mẫu
thử, ta sẽ xác định một biên của phân loại ( hay giá trị phân biệt) l* để phân loại cá.
Nếu một con cá có chiều dài l lớn hơn biên của phân loại l*, ta sẽ phân loại nó vào loại
cá hồi và ngược lại.


×