Tải bản đầy đủ (.docx) (53 trang)

Xác suất từ cơ bản đến nâng cao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 53 trang )

LÝ THUYẾT XÁC SUẤT
1

Mô tả dữ liệu thống kê
1.1 Các khái niệm cơ bản
1.1.1 Quần thể
Quá trình thống kê bắt đầu khi ta nhận định nhóm đối tượng nào ta muốn nghiên cứu hoặc
tìm hiểu về nó. Ta gọi nhóm đối tượng này là quần thể.

1.1.2

Mẫu
Trong hầu hết các trường hợp, quần thể có số lượng lớn như ta mong muốn, nhưng hiển
nhiên khơng có cách nào để ta có thể nghiên cứu tồn bộ quần thể đó (ví như khi ta cố gắng lấy ý
kiến của toàn bộ cư dân trưởng thành tại Mỹ về án tử hình). Một cách tiếp cận thực tế hơn là
kiểm tra và thu thập dữ liệu chỉ từ một nhóm quần thể, mà chúng tôi gọi là một mẫu.

1.1.3

Thống kê mô tả
Là phương pháp được sử dụng để mơ tả những đặc tính cơ bản của dữ liệu thu thập được từ
nghiên cứu thực nghiệm qua các cách thức khác nhau, cung cấp những tóm tắt đơn giản về mẫu
và các thước đo.

1.1.4

Thống kê suy luận
Là quá trình suy luận suy ra các đặc điểm của một phân phối cơ bản bằng việc phân tích dữ
liệu. Phân tích thống kê suy luận suy ra tính chất của tổng thể: điều này bao gồm các giả thuyết
thử nghiệm và các ước tính phát sinh. Tổng thể được giả định là lớn hơn so với tạo ra các dữ liệu
quan sát, nói cách khác, các dữ liệu quan sát được giả định là lấy mẫu từ một tổng thể lớn hơn




1.2

Qualitiative data (Dữ liệu định tính)
Dữ liệu định tính là một tập thông tin không thể đo lường bởi con số. Nó thường chứa từ
ngữ, bài mơ tả đối tượng. Kết quả của q trình phân tích dữ liệu định tính có thể có dạng các từ
khóa được đánh dấu, thông tin được phân tách và các định nghĩa được phác họa. Lấy ví dụ, một
nghiên cứu về nhận thức của phụ huynh về hệ thống giáo dục cho con cái của họ. Thông tin kết
quả thu được từ họ có thể ở dạng mơ tả và bạn cần thực hiện q trình phân tích để tìm ra liệu họ
có hài lịng, khơng hài lịng hay cần cải thiện một mặt nào đó.
Điểm mạnh




Giúp hiểu rõ hơn – Dữ liệu định tính giúp hiểu rõ hơn về góc nhìn và nhu cầu của các
ứng viên.
Cung cấp lời giải thích – Dữ liệu định tính cùng với dữ liệu định lượng có thể giải thích
kết quả của cuộc khảo sát và có thể đo lường được độ chính xác của thơng tin định lượng.
Định danh tốt hơn cho các mẫu hành vi – Dữ liệu định tính có thể cung cấp thơng tin chi
tiết qua đó chứng tỏ sự hữu dụng của nó trong việc định danh mẫu hành vi.

Điểm yếu




1.1.5


Khó thu thập – Xét theo chủ đề trong tự nhiên, một phần nhỏ không thể đại diện cho một
phần lớn.
Tốn nhiều thời gian – Dữ liệu định tính rất tốn thời gian vì cần hiểu được lượng lớn thơng
tin.
Khả năng sai số - Phân tích dễ mang tính chủ quan; sai số do người đánh giá rất hay gặp
phải.
Nominal (Dữ liệu định danh)
Là loại thang đo dùng cho các đặc điểm thuộc tính, dùng để phân loại đối tượng.

Khi thống kê người ta thường sử dụng các mã số để qui ước, giữa các con số này khơng có
quan hệ hơn kém và khơng ý nghĩa tốn học. Trong thang đo này các con số chỉ dùng để phân
loại các đối tượng, chúng không mang ý nghĩa nào khác. Về thực chất thang đo danh nghĩa là sự
phân loại và đặt tên cho các biểu hiện và ấn định cho chúng một ký số tương ứng.
Ví dụ: Giới tính: 1: nữ; 2: nam.

1.1.6

Ordinal (Dữ liệu thứ bậc)
Là loại thang đo dùng cho các đặc điểm thuộc tính, các giá trị được sắp xếp theo trật tự
tăng hoặc giảm dần và có mối quan hệ thứ bậc hơn kém.
Thực chất thang đo thứ bậc là thang đo định danh các giá trị được sắp xếp theo thứ bậc.
Lúc này các con số ở thang đo danh nghĩa được sắp xếp theo 1 quy ước nào đó về thứ bậc hay sự


hơn kém, nhưng ta không biết được khoảng cách giữa chúng. Điều này có nghĩa là bất cứ thang
đo thứ bậc nào cũng là thang đo định danh nhưng điều ngược lại thì chưa chắc đúng.
Ví dụ: Học lực: 1. Yếu, kém 2. Trung bình 3. Khá 4. Giỏi 5. Xuất sắc


1.3


Quantitative data (Dữ liệu định lượng)
Dữ liệu định lượng là một tập các số có được từ một nhóm người và liên quan tới phân tích
thống kê. Lấy ví dụ bạn thực hiện một cuộc khảo sát độ hài lòng từ các ứng viên và hỏi xem họ
đánh giá như thế nào trong thang điểm từ 1 tới 5. Bạn có thể thu thập đánh giá theo dạng số, bạn
sẽ sử dụng kỹ thuật thống kê để đưa ra kết luận về độ hài lòng của các ứng viên này.
Điểm mạnh





Cụ thể - Dữ liệu định lượng rất rõ ràng và cụ thể với khảo sát đã tiến hành
Độ tin cậy cao – Nếu thu thập một cách hợp lý, dữ liệu định lượng thường khá chính xác
và vì thế có độ tin cậy cao.
Dễ dàng giao tiếp – Dữ liệu định lượng thường dễ dàng cho giao tiếp và có thể được mơ
tả bằng đồ thị, biểu đồ…
Có hỗ trợ sẵn – Rất nhiều tập dữ liệu lớn có thể đã có sẵn và có thể được phân tích để
kiểm tra độ liên quan tới khảo sát.

Điểm yếu




Số lựa chọn bị giới hạn – Những người trả lời thường phải chọn từ một số lượng giới hạn
các lựa chọn.
Độ phức tạp cao – Dữ liệu định lượng cần quá trình phức tạp để có một mẫu chính xác.
Cần sự chuyên nghiệp – Phân tích dữ liệu định lượng cần kỹ năng chuyên nghiệp trong
phân tích thống kê.


1.1.7

Interval (Dữ liệu khoảng cách)
Là loại thang đo dùng cho các đặc điểm số lượng, là thang đo thứ bậc có các khoảng cách
đều nhau và liên tục. Thông thường thang đo khoảng có dạng là một dãy các chữ số liên tục và
đều đặn từ 1 đến 5, từ 1 đến 7 hay từ 1 đến 10. Dãy số này có 2 cực ở 2 đầu thể hiện 2 trạng thái
đối nghịch nhau. Dữ liệu khoảng cách có thể làm các phép tính tốn cộng trừ có ý nghĩa. Đây là
một dạng đặc biệt của thang đo thứ bậc vì nó cho biết được khoảng cách giữa các thứ bậc.
Ví dụ: 1: hồn tồn khơng đồng ý; 2: khơng đồng ý; 3: bình thường; 4: đồng ý; 5: hồn
tồn đồng ý.
Thang đo tỉ lệ có đầy đủ đặc tính của thang đo khoảng cách.

1.1.8

Ratio (Dữ liệu tỉ lệ)
Là loại thang đo dùng cho đặc tính số lượng. Thang đo tỉ lệ có đầy đủ đặc tính của thang
đo khoảng cách.
Ngồi ra nó cho phép lấy tỉ lệ so sánh giữa hai giá trị của biến số. Ta có thể thực hiện được
phép tốn chia để tính tỉ lệ nhằm mục đích so sánh. Ví dụ: 1 người 50 tuổi thì có tuổi lớn gấp đơi
người 25 tuổi.
Ví dụ: Số tuổi, số tiền.


1.1.9

So sánh interval và ratio
Trong thang đo khoảng cách sự so sánh về mặt tỉ lệ giữa các giá trị khơng có ý nghĩa.
Thang đo tỉ lệ có đầy đủ đặc tính của thang đo khoảng cách.


1.1.10 Continuous (liên tục) và discrete (rời rạc)
Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào trong một
khoảng nhất định, tức biến thiên mà không bị gián đoạn.
Ví dụ: Nhiệt độ trong ngày là một biến ngẫu nhiên liên tục, không thể liệt kê hết tất cả
các giá trị có thể, và thường nói giá trị nhỏ nhất và giá trị lớn nhất: chẳng hạn như nhiệt độ trong
khoảng 20 độ C đến 30 độ C; khi đó X đơn vị là độ C, và X nằm trong khoảng (20; 30).
Ngoài ra, các biến như chiều cao, cân nặng… cũng được coi là biến liên tục.
Biến rời rạc (discrete variable) là biến số chỉ nhận các giá trị ngun.
Ví dụ: Số con, số người trong gia đình, số lần xét nghiệm, số công nhân trong một doanh
nghiệp, số sản phẩm sản xuất ra trong một ngày của 1 phân xưởng may.


1.4 Các số liệu thống kê cơ bản
1.1.11 Mean (trung bình)
Mean là trung bình số học được tính đơn giản bằng tổng tất cả các giá trị của dữ liệu chia
cho tổng số dữ liệu. Mean cịn có tên gọi khác là giá trị kỳ vọng.
Giá trị trung bình trong quần thể:
Giá trị trung bình trong mẫu:

, trong đó N là số dữ liệu trong quần thể.
trong đó n là cỡ mẫu.

1.1.12 Median (trung vị)
Median là giá trị ở vị trí chính giữa dãy dữ liệu (sau khi được sắp xếp), điều đó có nghĩa
là một nửa quần thể hoặc mẫu sẽ có giá trị nhỏ hơn hoặc bằng số trung vị, và một nửa cịn lại sẽ
có giá trị lớn hơn hoặc bằng số trung vị.
Để tìm số trung vị của một danh sách hữu hạn các số, ta sắp xếp tăng dần tất cả các quan
sát, rồi lấy giá trị nằm giữa danh sách. Nếu số quan sát là chẵn, người ta thường lấy trung bình
của hai giá trị nằm giữa.


1.1.13 Mode
Mode là dữ liệu có tần suất xuất hiện nhiều nhất, nếu khơng có dữ liệu nào xuất hiện lặp
lại thì khơng có mode.
Khác với giá trị trung bình, mode khơng nhất thiết phải là duy nhất.
Mode đặc biệt hữu dụng khi các giá trị của các quan sát khơng có thứ tự dễ thấy, do khi
đó giá trị trung bình và trung vị khơng thể xác định được.

1.1.14 Variance (Phương sai)
Phương sai của một biến ngẫu nhiên là một độ đo sự phân tán thống kê của biến đó, nó
hàm ý các giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa.
Phương sai trong quần thể:

, trong đó N là tổng số dữ liệu trong quần

thể
Phương sai trong mẫu:

, trong đó n là độ lớn của mẫu.


1.1.15 Standard deviation (độ lệch chuẩn)
Độ lệch chuẩn là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập
dữ liệu đã được lập thành bảng tần số. Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của
phương sai. Một chú ý nhỏ là đơn vị của phương sai và giá trị trung bình là khơng giống nhau,
thế nên mới dẫn đến việc khai căn phương sai để định nghĩa độ lệch chuẩn.
Khi hai tập dữ liệu có cùng giá trị trung bình, tập nào có độ lệch chuẩn lớn hơn là tập có
dữ liệu biến thiên nhiều hơn. Trong trường hợp hai tập dữ liệu có giá trị trung bình khơng bằng
nhau, thì việc so sánh độ lệch chuẩn của chúng khơng có ý nghĩa.
Độ lệch chuẩn cịn được sử dụng khi tính sai số chuẩn. Khi lấy độ lệch chuẩn chia cho căn
bậc hai của số lượng quan sát trong tập dữ liệu, sẽ có giá trị của sai số chuẩn.


1.1.16 Z-score
Z Score là một biện pháp thống kê định lượng khoảng cách (đo bằng độ lệch chuẩn) từ một
điểm dữ liệu bất kỳ đến giá trị trung bình của một tập hợp dữ liệu.
z-score trong quần thể:
z-score trong mẫu:
Đối với các điểm dữ liệu dưới mức trung bình, điểm Z là âm. Thường thì dữ liệu là usual
(nếu |z|<2) và unusual (nếu |z|>2) (theo nguyên tắc 68-95-99.7).


1.5 Các hệ số giữa 2 biến
1.1.17 Covariance (Hiệp phương sai)
Covariance thể hiện mối quan hệ giữa hai biến với nhau, có thể là đồng biến (positive
covariance) hoặc nghịch biến (negative covariance).
Định nghĩa : Cho 2 biến ngẫu nhiên X, Y với kì vọng μX và μY covariance của X, Y
được tính bằng cơng thức: Cov(X,Y)=E((X−μX)(Y−μY))
1 số tính chất của covariance:
1. Cov(aX+b,cY+d)=acCov(X,Y) với a, b, c, d cho trước
2. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
3. Cov(X,X)=Var(X)
4. Cov(X,Y)=E(XY)−μXμY
5. Var(X,Y)=Var(X)+Var(Y)+2Cov(X,Y)
6. Nếu X, Y độc lập thì Cov(X,Y)=0.

1.1.18 Pearson Correlation (Hệ số tương quan Pearson)
Hệ số tương quan là một phép đo thống kê về sự thay đổi giá trị của một biến được thể
hiện bởi sự thay đổi của một biến khác. Để thể hiện mối quan hệ giữa 2 biến là “mạnh” hay
“yếu”, chúng ta sử dụng correlation thay cho covariance.Với hệ số tương quan mang giá trị
dương, giá trị hai biến sẽ cùng tăng hoặc cùng giảm. Với hệ số tương quan mang giá trị âm, giá
trị này tăng thì giá trị kia sẽ giảm.

Hệ số tương quan được biểu diễn bởi giá trị trong khoảng [-1 , 1]. Hệ số tương quan mang
giá trị +1 sẽ thể hiện mối tương quan dương: Sự thay đổi giá trị của một biến sẽ làm biến còn lại
thay đổi theo hướng tương tự. Hệ số tương quan mang giá trị -1 sẽ thể hiện mối tương quan âm:
Sự thay đổi giá trị của một biến sẽ làm biến còn lại thay đổi theo hướng ngược lại.
Mức độ tương quan thấp hơn được thể hiện bởi giá trị thập phân khác 0. Giá trị tương quan
bằng 0 nghĩa là khơng có mối quan hệ rõ ràng nào giữa sự dao động của hai biến.
Cơng thức:



N: Số lượng cặp giá trị




: Tổng tích của các cặp giá trị



: Tổng giá trị của x



: Tổng giá trị của y



: Tổng giá trị bình phương của x




: Tổng giá trị bình phương của y

1 số tính chất của correlation:
1. Correlation là Covariance được chuẩn hóa của hai biến X, Y
2. Correlation thể hiện một tỉ lệ, do đó nó khơng có đơn vị đo
3. −1≤ r ≤ 1 r =−1 khi và chỉ khi y=ax + b và a < 0 và r = 1 khi và chỉ khi y =
ax + b và a > 0


1.6 Độ phân tán của dữ liệu
1.1.19 Range (Biên độ)
Range chỉ phạm vi chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu, từ
đó giúp bạn có kết luận tổng quan về độ trải rộng của dữ liệu.
Cơng thức tính: Range = max value - min value

1.1.20 Quartile (Tứ phân vị)
Tứ phân vị là đại lượng mô tả sự phân bố và phân tán của tập dữ liệu.
Tứ phân vị gồm 3 giá trị: Q1, Q2 và Q3 chia tập hợp dữ liệu (đã được sắp xếp theo trật tự
từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.

1.1.21 Interquartile range IQR (Độ trải giữa)
IQR là một thước đo sự phân tán của các dữ liệu, thuật ngữ này được định nghĩa như sự
chênh lệch giữa giá trị cao nhất và giá trị thấp nhất của các tứ phân vị, và vì vậy nó chứa 50% giá
trị dữ liệu.
Cơng thức tính: IQR = Q3 – Q1

1.1.22 Chuẩn lọc dữ liệu cơ bản
Các dữ liệu nằm ngoài đoạn [Q1 – 1.5 IQR, Q3 + 1.5 IQR] có thể được xếp vào outliers.


1.1.23 Xây dựng box plot (biểu đồ hộp)
Box plot bao gồm 5 tham số đặc trưng của dứ liệu: giá trị nhỏ nhất, giá trị lớn nhất và các
tứ phân vị một cách trực quan, dễ hiểu, từ đó giúp bạn có cái nhìn tổng quan về sự phân bố của
dữ liệu.



1.7 Hồi quy tuyến tính
1.1.24 Định nghĩa
Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc
Y với một hay nhiều biến độc lập X. Một cách đơn giản, ta sẽ vẽ một đường thẳng hồi qui và từ
phương trình đường thẳng này ta có thể dự đốn được biến Y (ví dụ: cân nặng) khi đã có X(ví
dụ: tuổi).
Mơ hình hồi quy tuyến tính có dạng tổng qt như sau:
Dữ liệu= Hồi qui (Regression) + Phần dư (Residual)
Trong dạng tổng quát ở trên, hồi quy tuyến tính(Regression) là một phương trình được
viết dưới dạng: y= a + bx. Trong đó:




b: Hệ số góc/độ dốc (slope).
a: Giao điểm với trục tung/điểm chặn (intercept).
Tuyến tính ở đây, để chỉ mối quan hệ tuyến tính giữa a và y, không phải giữa x
và y.

Phần dư (Residual thường được tính tốn bằng 2 chỉ số: MSE và RMSE.

1.1.25 Phương pháp bình phương tối thiểu
Là một phương pháp để tìm ra được a và b trong phương trình hồi quy tuyến tính, sao cho

tổng bình phương của phần dư có giá trị nhỏ nhất.





r: Hệ số tương quan
Sy: Độ lệch chuẩn của y
Sx: Độ lệch chuẩn của x




: Mean của y.
: Mean của x.

1.1.26 Hệ số xác định
Hệ số xác định nói cho bạn biết 1 đường hồi quy có thể dự đốn chính xác một biến phụ
thuộc(y) tốt hơn bao nhiêu so với giá trị trung bình của biến phụ thuộc (y) đó.

Hệ số xác định cũng có thể xác định là thành phần trong biến phụ thuộc (y) được giải
thích/bao hàm bằng biến độc lập (x).


bằng bình phương của Pearson correlation. Vì vậy nên hệ số xác định không cho bạn biết
thông tin về hướng tương quan của 2 biến.


2


Xác suất
2.1 Khái niệm xác suất
1.1.27 Phép thử và sự kiện
Phép thử là một thử nghiệm cho kết quả là một sự kiện (còn được gọi là biến cố - event).
Ví dụ, tung một con xúc xắc 6 mặt được coi là một phép thử, kết quả thu được là là xuất hiện mặt
1 chấm, 2 chấm, … 6 chấm, và các kết quả này được gọi là các sự kiện thu được từ phép thử
tung con xúc xắc.
Như vậy ta có thể phân sự kiện thành 3 dạng chính sau:




Sự kiện chắc chắc: là sự kiện ln ln xảy ra
Sự kiện bất khả: là sự kiện không bao giờ xảy ra
Sự kiện ngẫu nhiên: là sự kiện có thể xảy ra hoặc không
Các sự kiện trong cùng một phép thử có thể có những quan hệ chính sau:










Sự kiện đối: Là 2 sự kiện không xảy ra đồng thời. Sự kiện đối của được kí hiệu là
Sự kiện hợp: Là sự kiện xảy ra khi có ít nhất một trong những sự kiện thành phần xảy ra.
Sự kiện hợp của và được kí hiệu là hoặc A + B. Trường hợp tổng quát, hợp của các sự
kiện:

o
Sự kiện giao: Là sự kiện xảy ra khi tất cả các sự kiện thành phần cùng xảy ra. Giao của
của và được kí hiệu là hoặc AB. Trường hợp tổng quát, giao của các sự kiện:
o
Sự kiện xung khắc: Là các sự kiện không thể đồng thời xảy ra.
Sự kiện độc lập: Các sự kiện được gọi là độc lập khi và chỉ khi việc xảy ra sự kiện này
không ảnh hưởng tới việc xảy ra tập sự kiện còn lại. Như vậy có thể thấy nếu 2 sự kiện A,
B độc lập thì cũng là độc lập.
Khơng gian sự kiện (khơng gian mẫu): là tập hợp của tất cả các sự kiện độc lập có thể
xảy ra. Khơng gian sự kiện được kí hiệu là: Ω (Omega).

1.1.28 Định nghĩa sác xuất
Tần số của một sự kiện A là tần số xuất hiện nA của nó sau n lần thực hiện phép thử.

Định nghĩa xác suất theo định luật số lớn là giới hạn của tần số sự kiện khi số lần thử lên
tới vô hạn.


Trên thực tế ta không đủ thời gian và điều kiện để thực hiện vô hạn số lần gieo phép thử và
n đủ lớn thì tần số fn(A) sẽ tiến tới một giá trị gần như không biến thiên nhiều nên người ta chọn giá
trị xấp xỉ đó là xác suất: ∣P(A)−fn(A)∣<ϵ với epsilon ϵ là một số dương rất bé.

1.1.29 Một vài điều kiện cơ bản
1.
2.
3.
4.
5.

Xác suất của sự kiện A bất kì ln nằm trong khoảng 0, 1: P(A)∈[0,1] ∀A

Xác suất của sự kiện bất khả bằng 0: P(∅)=0
Xác suất của sự kiện chắc chắn hay không gian sự kiện bằng 1: P(Ω)=1
Xác suất hợp của 2 sự kiện độc lập A, B là tổng của chúng: P(A+B)=P(A)+P(B)
Xác suất kéo theo A⊆B thì: P(A)≤P(B)


2.2 Các phép toán sác xuất
1.1.30 Tổng xác suất
Tổng xác suất là xác suất của sự kiện hợp. Cho tập sự kiện {Ai},i=, khi đó ta có:

Hay viết gọn thành:

Trong đó, tổng thứ 2 là tổng của tất cả các xác suất giao của tập con gồm ii phần từ tập {1,2,
…,n}. Như vậy ta có thể thấy rằng mỗi tổng này sẽ gồm:

phần tử.
Ví dụ:



P(A+B)=P(A)+P(B)−P(AB)
P(A+B+C)=P(A)+P(B)+P(C)−P(AB)−P(AC)−P(BC)+P(ABC)

1.1.31 Xác suất có điều kiện
Là A xác suất của một sự kiện xảy ra khi biết xác suất của sự kiện khác đã xảy ra. Xác
suất của sự kiện khi biết B đã xảy ra được kí hiệu là P(A∣B). Cơng thức tính xác suất của A khi
biết B xảy ra được xác định như sau:


Nếu A và B là độc lập, tức A không phụ thuộc vào B thì:


P(A∣B)=P(A) và P(B|A)

= P(B)P(B∣A)=P(B).
Xác suất có điều kiện cũng có các tính chất hệt như xác suất thơng thường:

1.1.32 Tích xác suất
Tích xác suất là xác suất của sự kiện giao. Từ công thức xác suất có điều kiện ta có thể
tính được xác suất giao như sau: P(AB)=P(B)P(A∣B)=P(A)P(B∣A)
Trường hợp tổng qt, cho {Ai},i

= thì tích xác suất của chúng được tính như sau:

Hay viết gọn thành:

Tích xác suất cịn được gọi là quy tắc chuỗi xác suất bởi cách biểu diễn liên hoàn thành chuỗi
như trên.
Nếu {Ai} là độc lập từng đơi một thì ta có:

Do 0 ≤ P(Ai) ≤ 1 nên xác suất của tích khơng thể nào lớn hơn xác suất thành phần được:


1.1.33 Xác suất hậu nghiệm – Bayes
Từ cơng thức tính tích xác suất ta có suy luận sau: P(A)P(B∣A)=P(B)P(A∣B)
Từ đó, ta có thể tính xác suất của AA khi biết BB như sau:

Trong đó:






P(A∣B): xác suất hậu nghiệm
P(A): xác suất tiền nghiệm
P(B): hằng số chuẩn hóa
P(B∣A): khả năng (likelihood)

Trường hợp mở rộng, cho hệ xác suất tiền nghiệm {Ai},i

= với mỗi sự kiện B bất kì, vì:

Ta có:

Cơng thức trên được gọi là công thức xác suất đầy đủ. Nếu P(B)>0 thì với bất kì A ∈ Ai,
ta tính được xác suất của A sau khi quan sát B như sau:


1.1.34 Công thức Bec-nu-li (Bernoulli)
Một phép thử mà kết quả chỉ có 2 sự kiện là xảy ra A với xác suất P(A)=p hoặc không
xảy ra A với xác suất được gọi là phép thử Bec-nu-li. Khi đó xác suất để xảy ra sự kiện A đúng
k lần được tính bằng công thức Bec-nu-li như sau:

Phép thử Bec-nu-li được sử dụng rất rộng rãi trong thực tế, ví dụ như bài tốn phân lớp
nhị phân (chỉ có 2 nhãn) thì ta có thể sử dụng cơng thức này để tính khả năng có bao nhiêu phân
tử thuộc vào 1 nhãn nào đó.


3 Phân phối xác suất
3.1


Định nghĩa biến ngẫu nhiên
Biến ngẫu nhiên (random variables) là các biến nhận 1 giá trị ngẫu nhiên đại diện cho kết
quả của phép thử. Mỗi giá trị nhận được x của biến ngẫu nhiên X được gọi là một thể hiện của X,
đây cũng là kết quả của phép thử hay còn được hiểu là một sự kiện.
Gọi tên là một biến có vẻ hơi kì kì một chút bởi biến ngẫu nhiên thực chất là một hàm ánh
xạ từ không gian sự kiện đầy đủ tới 1 số thực: X:Ω↦R.
Biến ngẫu nhiên có 2 dạng:
Rời rạc (discrete): tập giá trị nó là rời rạc, tức là đếm được. Ví dụ như mặt chấm của con
xúc xắc.
Liên tục (continous): tập giá trị là liên tục tức là lấp đầy 1 khoảng trục số. Ví dụ như giá
thuê nhà ở Hà Nội.


3.2

Định nghĩa phân phối xác suất
Là phương pháp xác định xác suất của biến ngẫu nhiên được phân phối ra sao. Có 2 cách
để xác định phân bố này là dựa vào bảng phân bố xác xuất và hàm phân phối xác suất. Ở đây, ta
chỉ đề cập tới phương pháp hàm phân bố xác suất. Hàm phân phối xác suất của biến ngẫu nhiên
X được xác định như sau:

Hàm phân phối xác suất cịn có tên là hàm phân phối tích luỹ (CDF - Cumulative
Distribution Function) do đặc trưng là lấy xác suất của các biến ngẫu nhiên bên trái của một giá
trị xx bất kì nào đó. Hàm này có đặc điểm là một hàm khơng giảm, tức là nếu a
1.1.35 Hàm khối xác suất của biến rời rạc
Với các biến ngẫu nhiên ta còn quan tâm xem xác suất tại mỗi tại 1 giá trị x nào đó trong
miền giá trị của nó là bao nhiêu, hàm xác suất như vậy đối với biến ngẫu nhiên rời rạc được gọi
là hàm khối xác suất (PMF - Probability Mass Function). Giả sử miền xác định của X là D,
tức X: Ω ↦ D thì hàm khối xác suất được xác định như sau:


Như vậy ta có thể thấy rằng hàm khối xác suất thực chất cũng là một xác suất nên nó
mang đầy đủ tất cả các tính chất của xác suất như:

Ví dụ, ta có hàm phân phối xác suất như sau:

Thì ta có thể biểu diễn bằng biểu đồ phân phối như sau:


Hàm phân phối tích luỹ F của biến ngẫu nhiên rời rạc có thể được biểu diễn qua hàm
khối xác suất bằng cách lấy tổng:

Lúc này, hàm phân phối tích luỹ sẽ có dạng bậc thang ứng với mỗi bậc là khoảng

xi+1). Ví dụ hàm phân phối tích luỹ của ví dụ trên sẽ có dạng như sau:

Và biểu đồ tương ứng là:

(xi,


1.1.36 Hàm mật độ xác suất của biến liên tục
Với các biến ngẫu nhiên liên tục ta có khái niệm hàm mật độ xác suất (PDF Probability Density Function) để ước lượng độ tập trung xác suất tại lân cận điểm nào đó. Hàm
mật độ xác suất f(x) tại điểm x được xác định bằng cách lấy đạo hàm của hàm phân phối tích luỹ
F(x) tại điểm đó:

Như vậy thì nơi nào f(x) càng lớn thì ở đó mức độ tập xác suất càng cao. Từ đây ta cũng
có thể biểu diễn hàm phân phối tích luỹ như sau:

Xác suất trong 1 khoảng (α,β) cũng có thể được tính bằng hàm mật độ xác suất:


Hàm mật độ xác suất cũng có 2 tính chất như xác suất như sau:


Khơng âm: f(x) ≥ 0, ∀ x ∈ R



Tổng tồn miền bằng 1:

Ví dụ, thời gian tính bằng đơn vị giờ mà một máy tính hoạt động trước khi xảy ra lỗi
được coi như một biến ngẫu nhiên liên tục và được xác định với hàm mật độ xác suất sau:

Hãy tính xác suất của:
a. Một máy tính hoạt động từ 50 giờ tới 150 giờ trước khi xảy ra lỗi?
b. Một máy tính hoạt động dưới 100 giờ trước khi xảy ra lỗi?
Vì tổng xác suất tồn miền là 1 nên:


a) Xác suất để 1 máy tính hoạt động được trong khoảng (50, 150) giờ là:

Như vậy, xấp xỉ 38.4% thời gian một máy tính sẽ hoạt động trước khi lỗi trong khoảng 50
tới 150 giờ.
b) Xác suất để 1 máy tính hoạt động được trong vịng 100 trước khi lỗi là:

Nên xấp xỉ 63.3% thời gian một máy tính sẽ lỗi sau 100 giờ sử dụng. Ta có thể biểu diễn
bằng đồ thị như sau:


Lưu ý rằng khác với hàm xác suất, hàm mật độ xác suất tại 1 điểm bất kì ln bằng 0.


Ngoài ra tổng xác suất toàn miền là 1: