Tải bản đầy đủ (.pptx) (23 trang)

phân bố chuẩn sử dụng trong thống kê sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (623.13 KB, 23 trang )

Chủ đề: phân phối chuẩn

Svth: LêThị Hằng
Nguyễn Thị Hiền


1. Giới thiệu về phân phối chuẩn
Nghiên cứu các hiện tượng sinh học, người ta thường gặp một hình thức phân
bố của các đặc điểm như sau:
Những giá trị nhỏ nhất và lớn nhất của các đặc điểm ở hai đầu mỗi chuỗi thì ít
gặp.
Những giá trị càng gần số trung bình cộng của đặc điểm thì càng gặp nhiều hơn
cả và ứng với hàng trung vị.
Hình thức phân bố này gặp phổ biến đến nỗi trước đây người ta coi nó là tiêu
chuẩn của các hiện tượng ngẫu nhiên và xảy ra hàng loạt.
Người ta gọi là phân bố chuẩn


Vd: nếu một người đàn ông được chọn là ngẫu nhiên thì xác xuất người đó có chiều
cao x la bao nhiêu?

Chiều cao 100 người đàn ông ở Việt Nam


2. Biểu thức phân bố chuẩn

Trong đo:phân phối chuẩn kí hiệu N(µ, σ^2)
f(x) : tần số lý thuyết các hàng của chuỗi biến thiên hay xác suất
xuất hiện x .
x : giá trị thực nghiệm
σ: độ lệch chuẩn


π : 3,1416
e : cơ số của logarithm tự nhiên (e = 2,71828)


Trong biểu thức trên, số lũy thừa của e bằng một nữa bình phương biến chuẩn hóa t=(x-M)/σ
do đó có thể viết:


Áp dụng công thức vào ví dụ ta có:
giá trị trung bình M=163,3 cm
độ lệch chuẩn s= 6,6 cm’
vậy số người có chiều cao bằng 160 cm là:

f(t)=

Như vậy chúng ta có thể đoán rằng có 5,3% đàn ông Việt Nam có chiều cao 160 cm


Tương tự ta có thể ước tính xác xuất cho bất kì chiều cao nào qua công thức, bảng sau trình bày một số xác xuất
cho chiều cao từ thấp đến cao


Nếu bạn đọc chịu khó cộng tất cả các xác
Xuất của nó sẽ là gần bằng 100%.
Nói tóm lại , xác xuất gần 100% là chiều cao của đàn ông
Việt Nam dao động từ 140 đến 181 cm.


Đường biểu diễn của phân bố này tiến tới vô cực ở hai đầu và tiệm cận với hai đầu



do t biến thiên cùng chiều với x nên có thể nêu lên quy luật chung của phân bố chuẩn
như sau:
-các biến số càng gần giá trị trung bình cộng của chuỗi thì xác suất xuất hiện càng lớn
tức có tần số càng lớn.
-các tần số phân bố ở hai bên trục tung đối xứng nhau và càng cách xa giá trị trung
bình cộng của chuỗi về hai phía thì càng ít gặp.
Thật vậy trong biểu thức thì biến chuẩn hóa mang số lũy thừa hai, điều này có nghĩa là
hai giá trị -t(ứng với các biến số nhỏ hơn M) và +t(ứng với các biến số lớn hơn M) đều
tương ứng với cùng một tần số f.




Mặt khác, với t=0 biến chuẩn hóa nhỏ nhất về giá trị tuyệt đối nghĩa là (x=M) thì
tần số có giá trị cực đại và bằng:
f(t)=1/ σ . 0,39894. e^0=0,399/ σ

với t=3 (biến chuẩn hóa lớn hơn) thì f(t) có giá trị rất nhỏ:
f(t)=1/ σ . 0,39894 . e^ (-9/2)=0,004/ σ
với t=4 thì f(t) có giá trị hầu như không đáng kể:
f(t)= 1/ σ . 0,39894 .e^(-16/2)=0.0001/ σ


Nghĩa là trong phân bố chuẩn hầu hết các đặc điểm biến thiên đều nằm trong khoảng
M-3 σ ,M+3 σ,và các giá trị biến thiên ngoài khoảng này thì hiếm gặp:
min=M-3 σ
max=M+3 σ
Biên độ biến thiên của toàn bộ các đặc điểm nằm trong khoảng 6 σ


σ=(max-min)/6


Công thức trên cho phép tính giá trị gần đúng của độ lệch chuẩn một cách
nhanh chóng.
- Độ lệch chuẩn càng lớn nghĩa là mức độ biến thiên của đặc điểm càng lớn, thì
đường cong biểu diễn càng dãn và hẹp
- Ngược lại σ càng nhỏ thì đường cong càng thu hẹp và nâng cao.
Có thể minh họa cụ thể điều này nếu ta biểu thị các tần số f bằng số % hoặc
bằng phân suất của đơn vị, coi đơn vị là xác suất toàn phần (P = 100% hay P=1),


và biểu thị đại lượng biến thiên của đặc điểm không bằng những số có đơn vị mà
bằng biến chuẩn hóa t.
Trong trường hợp này điểm gốc trục tọa độ của đường biểu diễn trùng với giá trị
trung bình cộng M và trục hoành sẽ biểu thị độ lệch trung tâm không theo đơn vị
mà theo t nghĩa là theo phân suất của độ lệch chuẩn σ .
Giá trị σ vừa đúng bằng hoành độ của điểm uốn của đường biểu diễn này. Điều
này giả thích tại sao dạng của đường biểu diễn phụ thuộc vào σ


Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level


Các xác suất trên đây cũng có thể thể hiện bằng một biểu đồ mà thuật ngữ tiếng anh gọi là phân phối của mật độ xác suất.


Biểu đồ bên chính là luật phân phối chuẩn theo công thức 1. tổng diện
tích dưới đường biểu diễn phải bằng 1(hay 100%).
Nghĩa là nếu chúng ta muốn ước tính xác suất cho bất kì khoảng chiều
cao nào. Ví dụ muốn biết có bao nhiêu người đàn ông có chiều cao
thấp hơn 150 cm, chung ta chỉ cần tính diện tích mà trục hoành từ 150
cm hay thấp hơn dưới đường biểu diễn. Theo ngôn ngữ toán học
P(X< 150)=?
Hay P( X <150 |μ =163.3,s = 6.6) = ?
Cách tính đơn giản nhất là chúng ta cộng các xác suất từ 140 đến 149:
0.0118 + 0.0200 + 0.0331 + …. + 0.5781 = 1.8%
.


Tuy nhiên, có một cách tính nhanh hơn và tinh vi hơn là sử dụng tích phân, chỉ cần tính tích phân chiều cao từ 0 đến 149 cm:



Trong đó:



Kết quả 0,018



Tương tự, chúng ta có thể ước tính xác suất cho bất kì khoảng chiều cao nào giữa a và b theo công thức :

Click to edit Master text styles
Second level
Third level

Fourth level
Fifth level


III. Phân phối chuẩn hóa



Trong phần trên chúng ta quan tâm đến việc phân tích chiều cao bằng phân phối chuẩn. Tuy
nhiên luật phân bố chuẩn có thể ứng dụng cho các hiện tượng tự nhiên, nhưng các biến
khác nhau về đơn vị đo lường như chiều cao đo bằng cm , huyết áp đo bằng mmHg nên
chúng ta khó mà so sánh được hai biến số này bởi vì chúng có đơn vị đo lường khác nhau và
có thể độ lệch chuẩn cũng khác nhau.Do đó chúng ta cần phải có một cách chuẩn hóa

luật phân phối sao cho chúng có thể so sánh được các biến số này mà không cần biết
đến đơn vị
một trong những cách chuẩn hóa đó là phân phối chuẩn hóa


muốn đổi từ hàm y= f(x) sang hàm phân phối chuẩn hóa y= f(z) ta đặt
z=(x- M)/ σ
thật ra đơn vị của z bây giờ không phải bằng cm nữa mà chính là đọ lệch chuẩn. Ta có thể rút
ra những nhận xét sau:
- nếu x> M thì z >0
- nếu x=M thì z = 0
- nếu xNhư vậy thay vì mô tả sự phân phối chiều cao bằng đơn vị cm thì chúng ta mô tả bằng độ lệch
chuẩn hay chỉ số z



Mật độ xác xuất của phân phối chuẩn f(z) với trung bình 0 và độ lệch chuẩn 1


• Xác suât mà z ≤ 1.96 là 0.025 (tức 2.5%). Noi cách khác, diện tích dưới đường biểu diễn tính từ z = -1.96 hay
thấp hơn là 0.025.
• Bởi vì phân phối chuẩn cân đối (symmetric), chúng ta cũng có thể nói (hay suy luận) rằng xác suất mà z ≤ 1.96
cũng bằng 0.025.
Như vậy, xác suất mà z nằm trong khoảng -1.96 và 1.96 là 1–0.025–0.025 = 0.95 (hay 95%). Nói cách khác,
khoảng tin cậy 95% của z là -1.96 đến 1.96.



Tương tự, chúng ta cũng có thể phát biểu rằng xác suất mà z nằm trong khoảng -1.645 đến 1.645 là 90%.
Xác suât mà z nằm trong khoảng -2.576 đến 2.576 là 99%. Xác suất mà z nằm trong khoảng -3,09 đến 3,09
là 99,9%



2. Khoảng tin cậy
Để ước tính khoảng tin cậy 95%, chúng ta chú ý mối liên hệ giữa x và z
vì z=(x-M)/σ

x=z .σ +M

như đề cập ở trên, 95% giá trị của z nằm trong khoảng từ -1,96 đến+1,96 nên chúng ta cũng có thể nói rằng
95% giá trị của x nằm trong khoảng từ M -1,96 σ đến M+1,96 σ hay 95% của x nằm trong khoảng từ 163,3 ±
1,96 .6,6= từ 150,4 cm đến 176,2cm
Tất nhiên chúng ta cũng có thể ước tính xác xuất 99% chiều cao đàn ông Việt Nam nằm trong khoảng
163,3±6,6.3= 143.5cm đến 183,1cm. Do đó nếu một người đàn ông có chiều cao thấp hơn 143,5 cm thì
người đó có thể nói là thấp với xác xuất dưới 0,5%





×