TS. NGUYEN VAN ĐƯC(CHỦBIÊN)
PHƯƠNG PH ÁP
K IỂ M T R A
THỐNG KÊ
SINH HỌC
lite
x*<. '^ ị.Ặ
4®^
r r 7
NHÀ XUẤT BẢN
KHOA HỌC VÀ KỶ THUẬT
TS.NGUYỄN VĂN ĐỨC (chủ biên)
PGS.TS. LÊ THANH HẢí
PHƯƠNG PHÁP KIỂM TRA
THỐNG KÊ SINH HỌC
NHÀ XUẤT BẢN KHOA HỌC VÀ KỶ THUẬT
Ckịu trách nhiệni x u a t h a n :
P G S. 'l'S. 'r ò DÀNG H ẢìẢJ
Biên tập :
N G U Y ẺN KIM L O N íN G
Sửa b à i :
N íỉU Y K N
Vèhìa :
K I.M L O N í N G
H Ư Ơ N G L A rA N
. ^ 2 — ^ 1 -.?
978 . 19.20.7,2001
KHKT - 2002
NHÀ XUẤT HẤN KHOA HỌC VÀ KỲ THUẬT
70 T rần H iín g Đ ạ o - Hà N ội
In 700 cuốn, khổ 16 X 24 tại xường in II Nhà in KHCN
Giấy phép xuất bàn sỏ' 978-19 cãp ngày 20-7-2001
In xong và nộp lưu chiếu tháng 5 năm 2002
LỜI NÓỈ ĐẦU
H iệ n n a y , k h o a h ọ c c ô n g n g h ệ n ó i c h u n g v à c ô n g n g h ệ s in h h ọ c n ó i
r iê n ị ỉ đ ã v à đ a n g t r ỏ th à n h m ộ t đ ộ n g lự c vô c ù n g q u a n tr ọ n g , t h ú c đ ẩ y lự c
lượng sòn xuất ngày một phát triển nhanh, mạnh và vừng chắc. Nhờ có
khoa học công nghệ mà hiệu quả của các ngành sinh học ứng dụng tăng
n h a n h k h ô n g c h ỉ vé n ă n g s u ấ t cao, c h ấ t lư ợ n g s ả n p h ẩ m t ố i m à h iệ u q u ả
kinh tế củng được nâng lên rõ rệt. sở dì đạt được hiệu quả cao như vậy
c h í n h là n h ờ k ế t q u ả c ủ a các c ô n g t r i n h n g h iê n cứ u k h o a h ọ c c ô n g n g h ệ
trong những thập kỷ qua.
Được sự quan tám cua Đầng và Nhà nước đến công tác nghiên cứu
khoa học công nghệ nên ngành công nghệ sinh học non trẻ của nước ta ngày
càng tiến bộ vờ đạt nhiều thành tích: năng suất sinh học nói chung và trong
n ô n g n g h iệ p n ó i r iê n g n g à y m ộ t nàng ca o và c h ấ t lượng ngày m ộ t t ố t h ơ n .
S o n g , n à n g s u ấ t v ẫ n c h ư a đ á p ứ n g đ ư ợ c h iệ u q u ả k in h t ế c a o v à c h ấ t lư ợ n g
sản phàm của ngành vẫn chưa đáp ứng được nhu cầu của người tiêu dùng.
V ì v ậ y , c ô n g tá c n g h iê n cứ u k h o a h ọ c c ô n g n g h ệ c ầ n p h ả i đ ư ợ c là m n h iề u
hơn nữa nhằm tìm ra những công nghệ có năng suất cao, chất lượng tốt và
có hiệu quả kinh tế trong điều kiện môi trường sinh thái ở nước ta.
Như chúng ta đã biết, trong nghiên cứủ khoa học, sau khi kết thúc thi
nghiệm cần phải thực hiện các phương pháp phân tứh, tính toán đê xác
định sự ảnh hưởng của từng nhân tô thi nghiệm nhằm tìm ra hiệu quả cao
nhất khí sử dụng chúng. Song, điều quan trọng nhất ỉà sau khỉ đã xác định
được sự ánh hưởng của từng Iihán tố thi nghiêm cần phải thực hiện các
phương pháp kiêm tra thông kê thích hỢp để khẳng định liệu giữa các nhân
tô đó có sự sai khác không và nêu có saỉ khác thi ý nghĩa sai khác đó ở mức
độ nào? Mục đích của các phương pháp kiếm tra này là khẳng định chắc
chắn những thành quá nghiên cứu đê những công trinh nghiên cứu khoa
hục công nghệ trở thành những tiến bộ kv thuật trong sản xuất nhằm nâng
hiệu quá kinh tế của ngành ngày một cao hơn.
Đê góp một phần nhỏ vào công tác nghiên cửu khoa học công nghệ, đặc
biệt trong việc kiểm tra khắng định sự sai khác giữa các nhân tố thí nghiệm
có ý nghĩa hăy không và nếu có thì ý nghĩa đó ở mức độ nào, cuốn sách
"Phương pháp kiểm tra thống kê sinh học" này giới thiệu với bạm đọ(
một sô'nội dung cơ bản về:
1. Chuyển dạng số liệu trước khi phân tích.
2. Kiểm tra độ tin cậy của số trung bình mẫu.
3. Kiểm tra sự sai khác giữa các sô trung binh mẫu.
4. Kiểm tra sự phù hợp giữa tần suất thực tế và lý thuyết.
5. Phương pháp phân tích phương sai.
Cuốn sách trình bày tương đối đầy đủ các phương pháp kiềm tra mức
độ tin cậy của sô trung binh, kiềm tra sự sai khác giữa các số trung binh
mẫu và mức độ sai khác giữa chúng, đặc biệt giới thiệu các phương pháp
chuyển dạng sô liệu trước khi phân tích, nếu chúng không thỏa mãn điều
kiện. Cuốn sách sẽ giúp bạn đọc củng cố thêm những kiến thức về toán sinh
học cơ bản, đặc biệt là các mô hình ứng dụng cho từng loại mục đích, yêu
cầu và nội dung cụ thể củng như các phương pháp kiểm tra thống kê mới
nhằm khẳng định các công trinh nghiên cứu của mình chắc chắn hơn. Với
những kiến thức hỗ trợ này, những công trình nghiên cứu đó nhanh chóng
trở thành những tiến bộ khoa học phục vụ đắc lực cho sản xuất. Tác giả hy
vọng rằng, cuốn sách sẽ trở thành một tài liệu tra cứu và ứng dụng trong
học tập và nghiên cứu về ngành toán thống kê sinh học của sinhviênđại
học, học viên làm thạc sĩ và tiến sĩ cũng như cho các cán bộ nghiên cửu và
giảng dạy ỏ các trường cao đẳng uà đại học trong lĩnh vực sinh học.
Cuốn sách không thê tránh khỏi những thiếu sót, rất mong được bạn
đọc góp ý đ ể tác giả hoàn thiện hơn trong lần tái bản sau. Tác giả vô cùng
trân trọng mọi sự đóng góp ý kiên của bạn đọc uà xin chân thành cảm ơn.
TIẾN Sỉ NGUYỄN VẢN ĐÚC
CHƯƠNG I
CHUYỂN DẠNG số LIỆU TRƯỚC KHI PHÂN TÍCH
A. TẠI SAO PHẢI CHUYỀN DẠNG?
T r o n g b ấ t c ứ m ộ t t h í ìigliiộiiì siiìh họ(* ììào, s a u k h i x á c đ ị n h đ ư ợ c các
tlì ò n^ S(V t h ô n g k ẻ cơ bà ìì c ủ a iừ u ịi n h â n lo ỉiluí s ố t r u n g b i n h m ẩ u (X) ,
độ l è c h chuẩn (Standard (leviatioM S[)). sai số c h u ẩ n (Standard error S E ) , h ộ sô" b i ế n d ị (coeíTicient oí’ v a n a t i o n • CV), vv, c ầ n p h ả i t h ự c h i ộ n
niột iố phương pháp kiếììì tra thòng kè siiilì học ììhât định n h ằm kh ẳn g
d ị n h s ự ả n h h ư ơ n g c ủ a l ừ n g n h ả n t ố và Iiìiii* (iộ ý n g h í a c ủ a s ự s a i k h á c c ủ a
c ác r h â n t ố đó.
H ơ n n ữ a , c h ú n g t a d à biết r ằ ì i g sô t r u n g b ì n h m ẫ u và độ lệ ch c h u ẩ n
m ầ u là h a i g i á t r ị t í n h dược c ú a niảu tìộc t r ù n g cho h a i t h a m s ố t r u n g
b ì n h (ụ ) v à đ ộ l ệ c h c h u ẩ n (ơ)
c ủa q u a ĩ i ' í h e và l u ô n có s ự b i ế n đổi d ặ c
t r ư n ỉ c h o m ỗ i t í n h t r ạ i ì g c ủ a q u a ỉì th ề (lo. Sụ p h â n bô" c ủ a bộ sô' li ệ u c ú a
t ừ n g t h í n g h i ệ m t ạ o n é n mộ t d ư ờ n g cong (‘hu ã iì nià t ạ i dó s ẽ b i ể u t h ị m ộ t tý
lệ nl ấ t đ ị n h c ủ a d i ệ n tí c h được khéị) hỏ\
^ ơ. N h ư v ậ y , c ác t h a m sô^ t h ô n g
kê ỊJ và ơ của quần thê đưực bieu thị íivn íống the toàn bộ những thông số
thôn^C k ẽ c ú a cá c m ầ u t h í ĩìKlìiẹìiK (ỉó la sù í r u n g b ì n h m ẫ u ( X ) và d ộ lệch
c h u n n (SD). T r o n g q u á t r ì n h xứ lý: Ị)liâĩì Íírỉì sỏ liôii r á c t h í n g h i ệ m , c h ú n g
ta c h ỉ đưỢ c p h é p d ừ n g X và S D v i cái' g ia t r ị d ó c h i h iế u t h ị đ ặ c t r ư n g c h o
t h í n g h iệ m đ ó c h ứ k h ô n g p h á i (‘ho (‘;1 (Ịuan thô lỏn.
H ơ n n ử a , h ầ u h ôt các t h ô n g sỏ thỏiìg kứ íỊiian t r ọ n g c ủ a m ẫ u d ể u p h ụ
t h u ộ : v à o s ô t r u n g b ì n h n ìẫ u và (lộ
r h u á n m ẫ u . Vì v ậ y , xá c (lịnh c h í n h
x á c p á t r ị t r u n g b ì n h vn dộ lệch clìuàn vùn ìììầu là d i ề u co’ b á ii n h á i c ủ a
q u á : r ì n h p h â n t í c h k i ể m t r a thỏn^^ kê s inh học. f)e c á c t h ô n g sô t h ô n g kĩ*
s i n h h ọ c t h u d ư ợ c c ủ a bộ sô liệu có V iighÌM Iiliầiiì k h a n g đ ị n h d ú n g c ác kôt
q ư ả : ủ a t h í n g h i ệ m đỏi hôi giá trị tíììlì v iìi\ t ì u n g h ì n h m ẫ u p h ả i c h í n h xác.
G i á :rị t r u n g b ì n h m ẫ u chì (l úng và rlì inh x;u‘ khi và d u y n h ấ t s ự p h ả n bỏ
c ủ a j u ầ n i h e h a y c ủ a n h ó n i lììầu thí ìì.uhiỏin ph ải t u â n t h e o s ự Ị ) h a n bỏ
;)
chuẩn. Điều kiện để một quần thể hay một thí nghiệm đưỢc cỏng nnihận
phân bô"chuẩn là chúng phải thoả mân các điều kiện cơ bản sau:
1.
Được phân bô" theo phương trình toán học G auss. Bản chất cờ bán
của phướng trình G auss được trình bày như sau:
1 ___( x - n ) ’ / 2 o ’
2. Đường cong của sự phân bô”chuẩn có tính đôì xứng và hai duôi ((tail)
của đưòng cong chuẩn càng cách xa trung tâm càng tiên sát trục hojành
nhưng không bao giò gặp trục hoành.
3. Tống diện tích tạo bỏi giữa đường cong chuẩn và trục hoành là niột
đđn vỊ hay biểu thị theo phần trăm là 100%. Vậy, theo tính chất toán học
thì sự phân bô' của mẫu th í nghiệm sẽ có:
- 68,26% của diện tích ấy bị chiếm khi tham số trung bình dó (được
cộng thêm một giá trị ơ về cả hai phía (± lơ ). Hay nói một cách khácc, có
68,26% số mẫu quan sát nằm trong phạm vi ụ ± lo;
- 95,44% của diện tích âV bị chiếm khi tham số trung bình đó được ;± 2ơ
(n ± 2 ơ);
- 99,99% của diện
tích ấy bị chiếm khi
tham s ố trung bình đó
được ± 3ơ (|.i ± 3ơ).
Tính châ”t này là tính
chất cđ bản nh ất và
được sử dụng một
cách rộng rãi nh ất cho
việc kiểm tra sự phân
bố chuẩn của số liệu
Hinh 1. Đường cong chuẩn cùa sự phản bố cố tinh đối xứng
trước khi thực hiện
các phưđng pháp phân
tích kiểm tra thốhg kê sin h học (hình 1).
4. B ất kì giầ trị quan sá t nào (n) dựa trên đường cong chuấn cũng đưực
chuẩn hoá bỏi một số đđn vị độ lệch chuẩn của số liệu quan sát đó so vói
t h ^ ì số trung bình ụ và đxtec biểu thị bằng giá trị z mà giá trị z dược biểu
thị theo công thức sạu:
t>
z=
trong đó:
- z là tỷ lộ giữa trung ỉ)ình <ỉộ lệclì ịr\ùi\ lììẫu ihí nghiệm và quần thế có
chửa mẫu dó với dộ lộclì chuan:
• X là sỏ trung bình Iiìau cua niầu tlìí nghiệiìi;
- ụ là t h a m sô t r u n g hìììh c u a (Ịuan í!iò:
- ơ là độ ỉộch c h u ắ n c ua q u ẩ n t h e
T ỉ o n g t h ự c tê, t h a m sỏ u và c h a u n h u ’ klìỏiig x á c đ ị n h (lược vì q u ầ n
t h ố (Ịuá lớn n o n th a m ,S'Ô
và ơ đư ợ c th a y h ằ n g
X và S D c ủ a m ẫ u t h í
Iiglìiộiti. V ậ y , c ô n g t h ứ c z (liiộc viôt i h e o t í n h c h ấ t ( l ạ n g m ẫ u t h í n g h i ệ m là:
X)/SD
T rư òng hỢp m ẫu nhó thì có ihỏ thay 7 a - i. Theo tính chât toán học thì:
- N ô u g i á t r ị z t í n h diĩỢc > l,9(ì (l.H,,) thì k h á n ă n g c ủ a sô li ệ u dưỢc r ú t
r a t ừ q u ầ n t h ể n g ẫ u n h i ê n lìoậc q u a n sát t h u (lược t ừ t h í n g h i ộ i n sẽ < 0 ,0 5
và trong triiòng hỢp đó xác suất thông kê của sự sai khác tại thí nghiệm dó
tliìỢc gọi là có ý ì ì g h ĩ a t h ò n g kờ ò m ứ c p=0,0r), và
' N ê u g iá t r ị
z l í n h diíộc < 1,96
thì k h á n ă n g c ủ a sô^ liộu q u a n s á t
cỉổ dưỢc I*út r a t ừ q u ầ n t h ể n g ầ u Iihi ên sè > 0,05 và t r o n g t r i ĩ ò n g hỢp dó x á c
suất thông kê của sự sai kliác của thí nghiộìiì (ỉược gọi là khòng có ý nghía
t h ô n g k ê ồ m ức p=0,05.
• Tươiìg tự, áp d ụ n g với các niửc Ị)-0,01 và P” 0,001.
L i í u ý, có 95^-0 s ỏ l i ệ u (ịuaìì s á l sò nãiii tron g p h ạ m vi
ụ ± l , 9 6 ơ dỏi VỚI
trư òn g hỢp sứ d ụ n g cá hai duòi. Vạy, Irong truờng hỢp chỉ sử d ụ n g một
cỉuỏi (liay một chiểu) cùa cỉưòng cong Ị)hân bỏ chu án thì giá trị dó chi là
p ±1,600.
Hơn nữa, khi muôn so sánh các thòng vSÒ tliông kê như các sô trung
bình thì dếu phải ch ấp thuận gìả tlịnh là phương sai của các m ầu pluii bằiig
n h a u hoặc tương tự giôn g nhau. T h ế nhưng, trong thực t ế có rât n h iều mẫu
dưỢc rút ra từ các quần thế nià quần thô dó không có sự phân b(/chuẩn, thí
clụ d ạ n g phân bô" nhị thức, (lạng Poisson hoặr phân bỏ' nhị thức: âni, v.v.
T rong trường hợp m ẫu lấy ra íừ quan thố hoạc bộ s ố liộu llui được từ thí
n g h iệ m nià quần th ế hoặc ih í nghiẹiiì (ỉó kliỏiìg tuân iheo phan bô ch u an
ihì kêt quá thực hiệii các phương pháị) kiéìii tra th ông kê sinh học sẽ không
ch ín h xác. Vì vậy, dê kôt quá phân tíclì và kiểm tra thông kê sinh học của
bộ sô liộu đúng, đòi hói phái thực lìiộn phương pháp ch u y ển dạng sô liệu
trước khi lièn hành các hùíic pìvằn tích và kiếm tra ihông kề sinh học.
Thực hiện phép chuyển dạng số liệu là làm giảm sự phụ thuộc . của
phương sai đôi với số trung bình hay làm cho phương sai bền vững hớrn vì
bộ sô" liệu sau khi chuyển dạng sẽ tuân theo sự phân bô* chuẩn. Vì \vậy,
chuyển dạng số liệu là chuyển những giá trị thô của tất cả các sô’ liệu qiuan
sát thí nghiệm thành những giá trị dẫn suâ”t toán học sao cho sau khi
chuyển dạng, bộ số liệu mới sẽ tuân theo sự phân bố chuẩn, cho phương sai
bền vững hơn nhưng bản châ't không bị thay đổi.
Vì vậy, để thực hiện được các phương pháp kiểm tra so sánh cát : sô'
trung bình hay phân tích phướng sai có kết quả đúng, bộ số liệu phải Ivuân
theo phân bố chuẩn và chúng có một phương sai chung hay các phương sai
mẫu tưđng tự bằng nhau. Với bất kì một thí nghiệm nào, nếu bộ sô liệu Ithu
được từ các yếu tố thí nghiệm hay từ các mẫu lấy từ quần thê ra khtông
tuân thủ theo phân bô' chuẩn sẽ dẫn đến kết quả của phép phân ttích
phương sai hay các phưđng pháp kiểm tra thống kê sinh học của bộ số liiệu
đó sẽ không chính xác. Có nghĩa là những bộ số liệu mà khi phân uích
phương sai mà các phương sai mẫu không Ị)ằng nhau hoặc tướng tự nhiau
thì các kết quả đó cũng không có giá trị.
Tóm lại, vối những bộ số liệu mà chúng không tuân thủ theo phân bô'
chuẩn dẫn đến các phưđng sai của các mẫu không bằng nhau hoặc gần mhư
không bằng nhau thì chúng cần phải được chuyển dạng trưổc khi thực h.iện
phép phân tích phưđng sai hoặc các phương pháp phân tích kiểm tra thõng
kê sinh học khác vi nếu không chuyển dạng thì kết quả sẽ không đúng.
Mục đích của phép chuyển dạng sô* liệu là làm cho những số liệu đó
chuyển thành dạng số liệu mới mà dạng số liệu mối này có đủ điều k:iện
như tuân theo phân 00' chuẩn và các phương sai mẫu sẽ bằng nhau đe khi
thực hiện xử lý, phân tích và kiểm tra thống kê sinh học thu được kết quả
đúng. Có nghĩa là bộ sô' liệu đã chuyển dạng này vừa cỏ sự phân bố chưẩn
vừa có các phưđng sai bằng nhau nhưng vẫn giữ nguyên vẹn bản chất của
các nhân tố thí’nghiệm đó. Chuyển dạng số liệu là để làm tàng mức độ
chính xác khi thực hiện các phép phân tích và kiểm tra thống kê sinh học.
Thê nhưrig, Kầu hết các nhà sinh học thưòng không thích thực hiện
phép chuyển dạng số liệu bỏi vì họ cảm nhận rằng hình như bộ số liệu đã bị
biến đổi sai lệch sau khi thực hiện phép chuyển dạng. Sự mặc cảm này thực
chất là không đúng vì bộ số liệu sau khi chuyển dạng không làm mất đi bât
kì một thông tin nào mà chỉ có thể biểu thị ở một dạng khác. Nói đúng hơn,
các kết quả phân tích từ bộ sô" liệu sau khi đã chuyển dạng biểu thị theo
một thước đo mới hay đơn vỊ đo mối mà thước đo mới này khác với thước đo
cũ trước khi chuyển dạng nhưng chúng vẫn giữ nguyên bản chất của các
8
n h â n tô th í n gh iệm . Thước (i<; mới này (iã làm cho bộ sô liệu sau khi đã
ch u y ển d ạ n g sẽ thoả m ãn những yêu cầu của hầu hết các phưđng pháp
kióni tra th ố n g kê sin h học. T ấ i cả mọi |)hép chuyển d ạ n g sô’ liệu đểu có đặc
đióm c h u n g là;
Thước do cũ
Thước đo mới
Sô’ liệu X|, X, ...... x„ chuyến dạng th ành x’|,
x’„
Chuyên dạng Ihành
X, ------------------------ > . x ’|
X , ------------------------ > x ’ ,
---------------------- > x ’„
P h ép ch u y ề n d ạ n g s ố liệu không bao giờ làm th ay đổi bản ch ấ t và làm
m ấ t đi n h ữ n g th ô n g tin của các nhân lô thí nghiệm và vì vậy kh ôn g thế xảy
ra n h ư ỏ n h ữ n g d ạ n g sau:
Không thê chuyên clạiig th àn h
> x',
x „ ----------------------> x’.,
Nôu thự c h iện vổi bâ’t kì một phép kiểni tra thôVig kê sin h học nào, thí
dụ p h â n tích phương sai, khi dược thực hiệu vái X (sô” liệu cũ) và với X’ (số
liệu mới: sa u khi đã ch u yên d ạn g của X) thì giá trị F của hai bộ s ố liệu dó
k h ô n g th a y đổi, c h ứ n g tỏ rằng |)hép chuyên dạng sô' liệu kh ôn g làin thay
đôi bản c h ấ t sô liệu.
Đé thực h iện các phương pháp kiểnì tra th ốn g kê sin h học, đặc biệt
p h ép p h ân tích p h ư ơn g sai có kết quả đúng, ba diều kiện cơ bản cần phải có
củ a bộ sô’ liệu là;
- b ộ sô’ l i ệ u p h ả i được t u â n t h e o Ị)h ân bô’ c h u â n ;
- các p h ư ơ n g sai của m ẫ u b ằ n g n h a u
•
hoặc g ầ n b ằ n g n h a u ;
k h ôn g có môi liên quan ràng buộc giữa các phưđng sai và các giá trị
trung bình.
Tóin lại, nếu m ột bộ sô liệu mà kiiòng thoá m ãn n h ữ n g y êu cầu trên
thì k h ô n g th ê thực h iện bất kì niột phương pháp p h ân tích kiểm tra th ống
kô sin h học nào. Nói đ ú n g hơn, n ếu thực hiện các phương pháp Ị)háin tích
th ô n g kê sin h học các bộ s ố ỉiệu mà ch ú n g kh ôn g thoá m àn các yêu 'Cẩtu đó
thì ch ú n g vẫn cho các k ết quả, so n g các kết qua dó k h ôn g ch ín h x á c . N h u
vậy, b ất kì m ột bộ s ố liệu nào mà k h ô n g thoá m án n h ữ n g yêu cầu plaảai bô
ch u ẩn thì kết quá của bâ"t kì của phương pháp p h â n tích th ô n g kê siinl '1 học
nào cũ n g đểu k hông có giá trị. Có n g h ĩa là dô tính toán và áp cỉụ ngĩ các
phương pháp trong p h ân tích th ố n g kê sin h học của b ấ l kì niộl hàiìi SC) lìào
thi biên sô" biến dổi phải thoá m ăn n h ữ n g yêu cầu p h ân bố c h u ẩ n rilì ù d à
nẻu ti'èn thì kết quá thực hiộn các phư ơng pháp kiếm tra ih ỏ n g kẽ si:iih h()(‘
mỏi đúng.
B. CÁC PHƯƠNG PHÁP CHUYỂN DẠNG s ố LIỆU
Gia sử, ớ inột bộ sô liệu thu được từ một thí nghiệm, khi mỗi íSÔ liệu
quan sá t cù n g được tă n g th êm hoặc giảm bớt bởi một h ằ n g sô’ nào đó liiì
theo tín h ch á t toán học giá trị tr u n g b ìn h m ẫu dó cù n g tăỉig lôn h o ặ c giám
xu ôn g d ú n g b ằ n g h ằ n g sô’ đó và p h ư ơn g sai của c h ú n g cũ n g sẽ tă Iig lên
bằng bình phương h ằ n g s ố đó. Trong thực tiêti có n h iêu phương p h á p (Ic
ch u y ên d ạ n g sô liệu, son g phô biến và th ô n g d ụ n g n h ấ t là hai p h u tín g pháp
sau:
- p h ư ơ n g p h á p c h u y ề n d ạ n g sô liệu t h u ậ n ;
- phướng pháp ch u yên d ạ n g sô'liệu kh ôn g th u ậ n .
Phương pháp ch u v ển d ạ n g s ố liệu Xỉiy ra th eo hai d ạ n g tliuiẠn và
không thuận.
I. PHƯƠNG PHÁP CHUYỂN DẠNG s ố LIỆU THUẬN
1. Dạng cơ bản
Trong lĩnh vực sin h học nói ch u n g , s ố liệu th u dược từ các th í nighiộiii
pliííi áp d ụ n g ch u y ến d ạ n g s ố liệu đế p h ân tích th eo d ạ n g th u ậ n :xás’ ra
tươiig đôi nhiều. Phư ơng pháp ch u y ế n d ạ n g sô’ liệu th u ậ n có th ể biièi thị
theo phương trình cơ bản n hư sau:
X’ = a + bX
10
trong dó:
- a và b là các h ằ n g sỏ;
- X ’ là iMốn sò^ mới h a y (‘on
là l)iên s(V(lã c l ì u y ế n d ạ ì i g ;
• X là b i ế n sô c ủ ( b i ế n sỏ haiì cỉáu c h u a chuyÍMì d ạ n g h a y c òn gọi b i ế n SC)
Kốc).
2. Tính chất cơ bản
Phải n h ấ n m ạ n h rằng Iihìiíìg sự biỏiì (lối do pỉìương pháp ch u yển d ạng
sô liộu th u ậ iì k h ôn g làm thay d(M l)aìì chất inà cùiig không làm th a y dôi
hình dạng phân bỏ. Nếu X là ^ná trị tiuiì^ l)ình ìììẫu dược rút ra từ inột
q u a n thô lììà (ỊUần t h ế dó tuâĩì ih e o Ị)hâiì bỏ clìuán với t h a m sỏ t r u n g b ìn h
là M, cỉộ lỌch ch u ẩn là ơ, thì ịi\í\ trị z (Z là (liộn liVh tạo bới giữa đường cong
c l ì u â ỉ ì với đ ư ò n g t h ắ n g nlìộiì hai (tắu iììút c ủ a d ư ờ n g c o n g c h u ẩ n l à m t i ệ m
cậi i và (liĨMì UVh đ ó b ầ n g 1 d(ín vị) lu ôn lu ỏ n tlìoá íìiíìn p h â n bỏ c h u ẩ n :
ơ
T ừ c ô n g t h ứ c đó, có th ô xác đ ị n h dược giá t r ị z t h o ả m â n p h â n bỏ
c h u ẩ n với g i á t r ị t r u n g b ì n h b ằ n g 0 và độ lộclì c h u â n b ằ n g 1 . K h i c ộ n g c ù n g
một ^iá tì ị hoặc n h â n cù n g một hầng sô n h ấl dịnlì vỏi từng sô^ liệu quan sá t
của llìí ỉìglìiộiri ta nói rằng dã thực hiện Ị)lìÓỊ) chuyen dạiig số liệu. Từ bộ sô^
liộ u b a n đ ẩ u (X) đ ư ự c c h u y ế ì i d ạ n g llìài ih bộ sò* liộu mới {X’), l ứ c là X, d ă
đùực ('huyổn th à n h X,’ theo mỏi liên qua!) X’ " a + bX. Phép ch u y en d ạn g bộ
sỏ li ệ u h a n đ ầ u (X) t h à n h bộ sỏ liệu mỏi X’ = a + bX sõ k h ò n g l à m t h a y dôi
h ì n h d ạ n g p h â n bô c ủ a c h ú n g (liíỢc gọi là s ụ ch uy ôi ì d ạ n g sô li ệ u t h u ậ n .
Tóm lại, phương pháp chuyên clạĩig sô liộu th u ậ n k hông làm thay dổi
hiíih (lạììg plìâĩì bô" của sô liêu và han chất của chúng. Thực lìiộn phép
c h u y ên (lạng s ố liộu tlìihận (liỉíH’ niììilì !ì<'‘n
rA(‘ sô liệu 10, 20 và
trong sờ
dồ 1.
Do S(V li ệ u đ ã bị c h u y ế n (lạng nìm kéo t h e o s ự t h a y dôi t ổ n g c ác t ô n g
b ì n h p h ư ơ n g v à t r u n g b ì n h tô n g các bìnli p h ư ơ n g n h ư n g b á n c h a t v ẫ n
k h ô n g t h a v dổi. N h ò v ậ y , k hi t h a y (lối dơn vị t ính, t h í d ụ n h ư t ừ
s a n g “C,
lừ nìììì hoặc cni sang inch ihì lỉà (‘huyên (lạĩig số liệu theo chiều ihuận nià
k h ô n g bị làìiì t h a y d ổ i b ả n c h â í sô liệu.
N h ư vộ>% dến d â y ta không cỏn bân khoủn khi thực hiộn các phép tính,
phaii tích và kiểm tra tlìỏng kỏ sinh học dối với bộ sô liộu dả clìuyôn d ạ n g
đỏ nữa. Đô k h a n g d ịn h bàỉi chất bộ số liệu sau khi ch u yên d ạn g k hòng thay
11
đổi, giá trị p" th ố n g kê (tỷ s ố củ a các M S S đối với EMS) của bộ s ố liệu trước
và sa u khi ch u y ển d ạ n g p h ải được n g h iê n cứu một cách tỷ mỉ trong n h ữ n g
phần sau.
Sờ đổ 1. Chuyển dạng số lỉệu thuận: đơn vị đâ chuyển dạng
3. K i ể m t r a g i á t r ị F t r ư ớ c v à s a u k h i c h u y ể n d ạ n g
T h í d ụ 1. Kết quả th u được tạ i m ột th í n g h iệm n g h iên cứu sử d ụ n g
hai loại thuốc diệt ve bò t ể chức tại T ru n g tâm n gh iên cứu bò và d ồ n g cỏ Ba
Vì. S a u m ột tu ần, s ố ve còn lại trên hai nhóm gia súc (nhóm m ẫu s ố 1 và 2)
được trình bày ỏ b ả n g 1. H ãy xác đ ịn h giá trị F?
B ầ n g 1. S ố ve trên hai nhóm gia súc
Nhóm mẫu số
1
Số ve (số liệu gốc)
2
2
3
4
14 15 16
Kết quả ph ân tích phướng sai của bộ s ố liệu gốc dược trình b ày ở báiig
2.
Bảng
2. Bảng phân tích phương sai anova^'^ của bộ số iiệu gốc
(trưởc khi thực hiện p hép chuyển dạng s ố liệu)
Nguổn biến
DF
ss
MS
Giữa các nhóm
1
216
216
Trong các nhóm (sal sổ)
4
4
1
(1) Xem giải thích chi tiết thuật ngữ và phương pháp ỏ chương V.
12
216
ghi chú;
- DF là độ tự do cùa mồi nguổn biến;
-
ss
là tổng các bình phương;
- MS lả trung binh tổng cac binh phương;
- F là g iá trị tỷ lệ g iừ a M S g iữ a c á c n h â n íố VỚI M S s a i s ố tr o n g c á c n h â n tố .
Do sự chênh lệch tần suâì sô liệu (Ịuan sát ỏ bộ sô liộu gôc giữa nhóm
lììau sô 1 và 2 quá lớn, dẫn dốn chúng klìỏng tuân theo phân bô chuẩn nên
bộ sô liộu (ỉó cần phải dưỢc chuyổn dạng truớc khi phân tích. S au khi thực
h iện phép c h u y ê n d ạn g bộ S() liộu trên theo phương trình X’ = 3 + 2X, thu
được bộ sô liệu mới trình bày lại báng 1.3. Đê so sánh kết quả tính được từ
bộ sô liệu gôc với bộ sô" liệu dà chuyôn dạng liệu ch ú n g có thay đôi không
thì giá trị F của niỗi bộ sô" liệu plìái dược tíiih.
Bảng 3. Sò ve đả chuyển dạng trên cố hai nhóm gia súc
Nhỏm mẫu
X* (số liệu mới)
1
7
9
2
11
31 33
35
ghi chú;
- 1 v à 2 là h a i n h ó m m ẫ u thí n g h iệ m ;
- X’ là số ve đâ chuyển dang theo phương trình X’ = 3 + 2X, cố thể gọi là số liệu mới.
Kôl quá ph ân tích phương sai cúa bộ sô liệu sau khi đã ch u yển d ạng
dưỢc trình bày tại b án g 4.
B ầ n g 4. Anova của bộ số liệu đâ chuyển dạng
DF
ss
MS
F
Giửa cảc nhóm
1
’864
864
216
Saisố
4
16
Nguồn biến
4
Rõ ràng, n ếu thực h iện phép phãn tích phướng sai với hai bộ s ố liệu: X
là sô' liệu củ (gôc) và X’ là sô" liệu rnới sau khi đă chuyển d ạn g của X thì giá
trị F của h ai bộ sô^ liệu đó hoàn toàn không thay đổi (F = 216), ch ứ n g tỏ
rằ n g phép ch u y ển d ạn g s ố liệu thuận không làm thay đổi bản ch ất về các
k ết luận của th í nghiệm .
4. Thí dụ minh họa
T h í d ụ 2. Kết quả sử dụng nãni loại thuôc diột cỏ A, B,
c, D và E được
tín h theo đơn vị khôi lượng vật châ't khô cỏ dại còn lại (g/m ‘) và kết quả
13
tính toán th ôn g kẻ cơ bán của bộ sô" liệu về hiệu quả sử (lụng nã 111 loại
thuốc đó dược trình bày ỏ b ả n g 5.
B ả n g 5. Kết quả sử dụng năm loại thuốc diệt cỏ
Mẩu thuốc
X
c
A
B
216
270
354
302
234
275,2
3039.2
55,1
»
c
D
E
12
22
60
14
22
14
18
52
12
14
56
40
108
34
70
85
128
66
77
159
26,0
382,0
19,5
22.0
286.0
16,9
61.6
870.8
29.5
103.0
1532,5
39.1
ghi chủ;
• A. B.
c,
D, E là năm loại thuốc diệt cỏ:
• X là trung bình mẫu;
- ơ là độ lệch chuẩn:
-
!à phương sai.
Nhận xét
Giá trị tru n g bình, phương sai và độ lệch ch u ẩ n của các m ầu thí
n gh iệm khác n h au rât lớn. M ẫu A có giá trị tru n g bình và phương sai quá
ch ên h lệch so với các m ẫu khác, N ế u sắp xếp ch ú n g th eo trật tự nhâ't định
thì giá trị tru n g binh của ch ú n g c ủ n g biểu thị ch u n g m ột trật tự tương tự
n hư phướng sai. Vì vậy, giữa ch ú n g có môi liên quan với nhau.
Từ n h ữ n g k ết quả tính toán n ày ch ử n g tỏ bộ sô liệu trôn k hông tuân
theo sự phán bố chuẩn vì các phương sai của chúng khác nhau quá lỏiì. Vúi
bộ sô" liệu này, cùng có thê thực hiện phép phân tích phương sai hoặc các
phương pháp kiểm tra thống kê khác đưỢc, song kết quả của các phương
pháp kiểm tra đó sẽ không có giá trị vì bộ sô' liệu không tuân theo sự phân
bố chuẩn. Rõ ràng, '"đưa vào rác rưởi thi kết quả thu được cùng rác
rưởv\ Vì vậy, đốì vói n h ữ n g bộ s ố liệu khôn*g tu ân th eo ph ân bô" ch u ẩ n cần
phải đưỢc thực hiện phép chuyến dạng đế tạo thành bộ sô^ liệu mới tuân
theo sự phân bô"chuẩn trước khi thực hiện các phép phân tích thông kê học,
dặc biệt đốì với phương pháp phân tích phưđng sai.
14
M. PHƯƠNG PHÁP CHUYÊN DẠNG s ố LIỆU KHÒNG THUẬN
•
1
*
•
. Khái niệm
T r o n g l ì n h v ự c s i n h học IIỎI c h u n g , các hộ sỏ li ệ u t h u đượ c t ừ cá c i h í
iigỈHỘiii c a n phíii á p d ụ n g cliuytMì d ạ ì ì g sô liệu l ì i ì o c k h i p h ả n t íc h t h e o
cl ạ n ^ k h ô n g t h u ậ n x á y r a n h i ế u hơn so voi d ạ n g l l ì u ậ n . H ơ n n ữ a , p h ư ớ n g
p h á p c l ì u y e n clạng scY li ệu k h ô n g i h u ậ n tronií llìực t i ễ n inổi lá Ị) hưdng Ị)háỊ)
(]uan t iọ n g vì nó k hôn g chỉ Ị)hỏ biỏn inà kêi (ịua Ị)hân tích kiếm ti-a thông
kô s a i q u á ì i h i ể u n ê u c h ú n g k h ô n g dược c h u y ể n ciạĩig. P h ư ơ n g p h á p c h u y ê n
d ạ n g sỏ l iộ u k h ô n g t h u ậ n l à m t h a y dối h ì n h clạng đ ư ò n g c o n g p h â n bô^ v à
p lu íờ ìì g s a i c ủ a bộ sô li ệ u có ỉi ê n q u a n d ô n giá trị t r u n g b ì n h n h i ề u h ơ n so
vỏi híUìg sỏ n h ú n g t á t n h i ê n b à n chiVl vaìì kỉìỏ ng bị t h a y dổi.
TAt n h i ê n , n h ữ n g bộ sô" li ệ u k h ô n g t h o a m à n n h ữ n g y ê u c ầ u d i ề u k i ộ n
c ủ a phoỊ) p h â n t í c h p h ư ơ n g sai và các p h é p k iể m t r a t h ô n g k ê s i n h học k h á c
i h ì b ắ t b u ộ c p h á i d ư ợ c c h u y ế n d ạ n g t rư ớ c khi t h ự c h i ệ n c á c p h ư ơ n g p h á p
k i ê n i t r a t h ỏ n g kô. T r o n g t h ự c lô, loại t h í n g h i ệ m m à bộ sô^ li ệ u t h u d ượ c
k h ô n g t u ủ n t h e o p h â n bô' c h u ắ n , k h ô n g cỏ p h ư ờ n g s a i c h u n g , n ià k h i
c l ì u y ô n d ạ n g t h ì c ù n g k h ô n g m a n g l í n h clìấ l lỷ lệ t h u ậ n v à h ì n h d ạ n g c ù n g
bị i h a y dổi là Ị)hỏ hiến.
2. Các kiếu chuyến dạng sô liệu không thuận
2.1. Giới thiệu chung
{'( r ấ t Ii h i ế u k i ể u c h u y ô n (lạng sô liộu k h ô n g t h u ậ n , n h ư n g p h ò b i ế n là
c á c p h ư ơ n g p h á p c h u y ế n d ạ n g theo h à m sỏ càn, lo g a r ii, tỷ lệ lo g a r it , th ừ a
sôl lu ỹ th ừ a và n g h ịc h đ ả o . P h é p t h a y t h ê mỗi niột sô' li ệ u t h í n g h i ộ n i h h n g
m ộ i s ố l i ộ u mới đ ả đ ư ợ c c h u y ê n d ạ n g t h e o c ãn , t h í d ụ c á n b ậ c 2 , h o ặ c t h e o
Iiiột luv t h ừ a , t h í d ụ b ì n h p h ư ơ n g , h o ặ c t h e o h à m s ố l o g a r i t , t h í d ụ l o g a r i t
t ự n h i ê n , v.v, h ầ u h ế t c h ú n g d ề u là n h ữ n g kiế u c h u y ể n d ạ n g sò" li ệ u k h ô n g
t h u ậ n . C á c k i ể u c h u y ể n d ạ n g n à y làin t h a y đổi k h ô n g c h ỉ h ì n h d ạ n g p h â n
bỏ^ nià còn làm th ay dôi tống các bình phương (SS) và dộ lệch ch u ân (SD)
c ủ a m ẩ u tl ìí n g h i ệ m .
Do có n h i ề u c á c h c h u y ể n d ạ n g S(í liộu k h á c n h a u v à m ứ c d ộ h ữ u h i ộ u
c u a !1 KÌ c á c h c ủ n g k h á c n h a u n ê n cầ n p h á i l ì m c á c h c h u y ê n d ạ n g p h ù lìỢp
n h ấ t và tố t n h ấ t c h o mỗ i bộ iỳố liệu. N h ữ ì ì g t h í d ụ s a u đ â y s ẽ c h ứ n g m i n h
s ự khiK* l ì h a u c ủ a c á c k i ê u cl ìu yò n d ạ n g sô liệu và c á c h c h ọ n k i ể u c h u y è n
d ạ i ì g p h ù hỢp vỏi n h ữ n g bộ sô liệu m a n g n h ữ n g (ỉậ(! t h ù r i ê n g c ủ a nó.
Nnư ch ú n g ta đà biêt, mục đích của phép chuyển d ạ n g sô liộu ỉà làiìì
tăìig n.ửc* tỉộ chính xác các kết luận thí nghiệm khi thực hiện plìãn tích
kiỏni l a th ố n g kẽ sin h học. Muòn tăng mức dộ chính xấc trong các phéị)
15
p h â n tích th ô n g kê sin h học, phải tìm xem phương pháp ch u y ê n d ạ n g sô
liệu nào sẽ cho bộ số liệu niối có phân bô'gần với phân hô chuân và phương
sai gần bằng nhau hơn.
Đ ế giúp cho việc tìm đưỢc kiểu loại ch uyển d ạ n g thích hợp n h à t cho
mỗi bộ sô liệu n h ằ m có được các phương sai b ằ n g n h a u hoặc g ầ n b ằ n g n h a u
thì s a u khi ch u y ể n d ạ n g phải xác định đưỢc độ lệch giữa phương sai m ẫ u
lỏn n h á t và phương sai m ẫu nhỏ nhâ't rồi sau đó xác đ ịnh tỷ lệ giữa ch ú n g .
N ế u tỷ lệ giữa c h ú n g cà n g g ầ n giá trị 1,0 hay 100% thì có th ể k ế t lu ận r ằ n g
kiểu c h u y ề n d ạ n g đó là thích hđp nhát. T ất n h iên , nếu tỉ lộ đó đ ú n g b ằ n g 1
thì k iêu ch u y ền d ạ n g đó là tôt nhâ't, so n g trong thực tiễn rất ít khi đ ạt được
kết quả đó. T ỷ lệ giữa các phương sai đó gọi là tỉ lệ c h ên h lệch cực đại của
các phương sai và kí hiệu là Prucciur
N h ư vậy, đế’ xác định kiểu ch u y ể n d ạ n g s ố liệu nào là tôt Iihất, cần
phải xác định giá trị Feụe ,iại- Kiểu chuyên dạng số liệu Iiào inà giá trị F, ,1 „
c à n g g ầ n 1,0 bao n h iêu thì phép ch u y ển d<ạng đó cà n g th ích hợp với bộ s ố
liệu ấy bấy n h iêu . Rõ ràng, trưóc khi thực hiện phân tích kiểm tra t h ố n g kê
sin h học bộ s ố liệu, cần n g h iê n cứu xác định giá trị
J,ị„ củ a mỗi k iểu
ch u y ể n d ạ n g để chọn d ạ n g thích hỢp n h ất cho mỗi bộ sô' liệu. Công thức
tín h giá trị
n h ư sau:
Phương sai mẫu lớn nhất
cưc đải
Phương sai mẫu nhỏ nhất
2.2. Thi du• minh hoa
•
Sử dụng lại thí dụ 2 đã trình bày ỏ trên vê “hỉệu quả của năm loại
thuốc diệt cỏ" để so sánh giá trị F,.ự,, của các kiểu chuyển dạng sô' liệu
k h ôn g th u ậ n khác n h au .
K ết quả tính toán củ a bộ sô liệu gốc chưa chuyến d ạ n g vê X , Ơ-, S D và
Fc.i< đ.,1 được th ể h iện ỏ b ả n g 6.
Bàng 6. Kết quà cùa số liệu gốc chưa chuyển dạng
Mẫu thuốc
A
275,2
3039.2
55.1
E
103.0
1532,5
39,1
D
61,6
870.8
29,5
B
26,0
382,0
19,5
c
22,0
286.0
16,9
^cưc đ»
= 3039.2/286
= 10,6
16
SD
X
2 .2 .1 .
Kết quả tính toán củữ bộ sô liệu gổc đã chuyển dạng theo căn bậc
2 về X , c/. SD và F,,„ được thẻ'hiện ở hảng 7.
B á n g 7. Kết quà của bộ sỏ liệu gốc đâ chuyển dạng theo căn bậc 2
Mẩu thuốc
X
rr'
SD
' A
16.52
2.41
1.64
E
10,01
3,54
1,88
D
7,68
3,28
1.81
B
4.87
2.90
1.70
c
4.48
2.41
1,55
Pcucd..
=3,54/2,41
= 1.5
2 .2 .2 .
Kết quả tính toán của bộ sô'liệu gốc đã chuyển dạng theo hàm sô
logarit về X, ờ^, SD và
được thể hiện ở bảng 8.
B ả n g 8. Kết quả của bộ số liệu gốc đâ chuyển dạng theo hàm số logarit
Mẫu thuốc
X
SD
A
5,602
0,039
0,198
E
4,579
0,135
0,367
D
4,034
0,211
0,459
Đ
3.080
0,394
0,628
c
2.921
0.353
0,594
=0.394/0,039
= 10,1
2 .2 .3 .
Kết quả tính toán của bộ sô liệu gốc đã chuyển dạng theo tỷ lệ
100Ix về X, ờ^, SD và F,ự,.,Ị„, được thê’hiện ở bảng 9.
Bảng 9. Két quà của bộ §ỏ liệu gốc đâ chuyển dâng theo tỷ lệ 100/x
Mẩu thuốc
SD
X
A
0.375
0.0052
0,072
E
1.080
0,1347
0,367
D
1.916
0,6551
0,810
B
5.247
6,7288
2.594
c
6,020
6,2200
2.494
^cut dai
= 6,7288/0,0052
= 1300
17
2.2.4. Nhận xét
- Các kiểu chuyển dạng sô"liệu trên đây có kết quả vê X, ơ' và SD khác
nhau dẫn đến Pcựcđni khác nhau rõ rệt.
- Kiểu chuyển dạng theo hàm sốlogarit tuy F<.„cdạ, (10,1) thấp hơn Fr,„
ở sô"liệu gốc (1 0 ,6 ), song vẫn cao hđn nhiểu so vói Fcụ<,,|,„ của kiểu chuyên
dạng theo căn bậc 2 (1,5). Vậy, kiểu chuyển dạng sô" liệu theo cản bậc 2 ỏ
th í dụ này là thích hỢp n h ất vì có Peucdạịlà ĩ,5 gần vói giá trị 1,0 hơn so với
các phép chuyển dạng số liệu khác.
- Phương sai (ơ^) và SD biểu hiện mức độ chênh lệch nhỏ nhất đ kiểu
chuyển dạng theo căn bậc 2 .
2.2.5. Kết luận
Kiểu chuyển dạng sô"liệu tôt nhất trong phạm vi các kiểu chuyền dạng
vừa được thử nghiệm cho bộ sô" liệu trên đây là kiểu chuyển dạng số liệu
theo cản bậc 2 . Vì vậy, nên sử dụng kiểu chuyển dạng sô' liệu theo càn bậc 2
cho bộ số liệu trên đây vì giá trị F<.ụ,,dạ, nằm gần vói giá trị 1,0 nhất.
T h i d ụ 3 . Kết quả của m ột thí n g h iệm n gh iên cứu sin h học vể h iệu
quả sử dụng thuốc diệt ve cho thấy “Kết quả số ve còn lại trên bò sau khi
phun ba loại thuốic diệt ve Tj, T2 và T3” ỏ một đàn bò nuôi tại Phù Đổng
được trình bày theo bảng 1 . 1 0 . Hãy xác định kiểu chuyển dạng số liệu thích
hợp nhất cho bộ sô' liệu trên?
Bàng 10. số ve còn lại sau khi phun tiiuốc T,. T 2 và T]
Mấu thuốc diệt ve
T,
.
Tj
T3
12
31
80
16
38
100
17
25
105
14
36
70
Xác định các đặc điểm của bộ sô" liệu ban đầu thông qua các tham sô
thống kê cơ bản khác nhau như X, SD và
được trình bày tại bảng1 1 .
B ổng 11. Kết quả của bộ số liệu chưa chuyển dạng
TjT3
Mẫu thuổc diệt veT,
X
SD
Fcuc
32.5
88.8
2.1
5.8
16,5
= 16.5*/2.1'
= 62
18
14,5
Nhận xét
■
‘
Sự sai khác giữa các SD chác chắn có ý ngliĩa.
,iạ, I‘â t lớn, n ê n k h ả n ă n g có t h ê lớn hciii b ấ t c ứ g iá t r ị
của
kió.i c h u y ể n d ạ n g n à o .
-
Rõ ràn g ,
SD
có t ư ớ n g q u a n vỏi các giá trị t r u n g b ì n h : k h i X c à n g lố n
t h ì S D c ũ n g c à n g lớn.
Kết quả phản tích phươtig sai anova và tính toán các giá trị X, SD và
F,, ,Ị,„ của bộ sô'liệu đã chuyển dạng theo căn bậc haỉ được trình bày tại
bả.g 12.
B ả n g 12.
Anova của bộ số liệu đâ chuyển dạng theo căn bậc 2
Mẳu thuốc diệt ve
T,
Tj
Tj
X
3,80
5,68
9,39
SD
0,27
0,52
0,89
=0,89^/0.27^
= 10,5
Nhận xét
■Sự sai khác giữa các SD chắc chắn có ý nghĩa.
•
.1... t u y đ ã g i ả m (1 0, 5) so vối F<.,„
ỏ s ố liệu b a n đ ầ u (62) s o n g g iá
t r ị l à y v ẫ n c ò n lớn.
- S D v ẫ n biểu h iện rõ r à n g có tương quan với các giá trị tru n g bình.
V ậ , kiêu ch u y ể n d ạ n g n à v vẫn chưa phù hỢp, cần th iế t tìm m ột kiểu
chiyên hóa sô*liệu khác có thê phù hđp hđn so với dạng chuyển dạng số liệu
c.ãi bậc 2 vừa n êu trên.
Kết quả tính toán cấc giá trị X, SD vả
của bộ sô'liệu đã chuyển
dạig theo hàm sốlogarit được trình bày tại bảng 13.
B ảng 13. Kểi quả của bộ số liệu đã chuyển dạng theo hàm số logarit
Mẫu thuổc diệt ve
T,
T;
Tj
X
2,67
3,47
4,47
SD
0,145
0,187
0.191
= 0,191^/0,145^
= 1.7
19
Nhận xét
- Sự sai khác giữa các SD chắc chắn không có ý nghĩa.
- ^cụcdại đã giảm xuống thấp (1,7) so vổi F<.„, ,1,^, ỏ số liệu C c ả n bậc 2 (10,5).
•
SD cùng biểu hiện theo trật tự như của số trung bình nhưng khả
năn g không bị ràng buộc tưđng quan vỏị các giá trị trung bình.
Kết quả phân tích phương sai và tính toán các giá trị X, SD và F,.„;
của bộ sô'liệu đã chuyển dạng theo hàm nghịch đảo 1000/X được trình
bày tại bảng 14.
B ảng 14. Anova của bộ số liệu đâ chuyển dạng theo hàm nghịch đào (1000/X)
Mẳu thuốc diệt ve
X
SD
Pcucía,
T,
Tj
Tj
7 0 ,1
3 1 ,6
1 1 ,6
10,26
6,15
2,23
= 1 0 ,2 6 ^ /2 .2 3 ^
= 21
Nhận xét
- Sự sai khác giữa các SD có thể có ý nghĩa.
- Fcục d,ú lớn hđn so với Feụt
dạ,
ở số liệu' chuyển hoá theo căn bậc 2 và
hàm số logarit.
Kết quả không phù hỢp bằng kết quả ở kiểu chuyển dạng
căn bậc 2 và hàm số logarit.
-
sô
liệu kiều
Kết luận
Giữa các kiểu chuyển dạng số liệu nêu trên, kiểu tốt lìh ất đôl vói bộ sô"
liệu này là sử dụng kiểu chuyển dạng theo hàm số logarit vì
= 1,7 là
giá trị nhỏ hơn so vói các giá trị của các kiểu chuyển dạng khác.
T h í d ụ 4 . K ết quả của một th í nghiệm sin h học n gh iên cứu so sánh
kết quả sử dụ ng năm ioại thuốc tẩy giun Tj, T.2 , T;ị,
và T-, cho thấy sô
trứng giun còn lại sau khi sử dụng năm loại thuốc giun đó thu được sẽ
trình bày ỏ bảng 15. Hãy tìm kiểu chuyển dạng sô' liệu thích hợp nhất cho
bộ sô' liệu trên?
20
số trửng giun sau khi sử đụng nâm loại thuốc và kết quả
Mẳu thuốc tẩy giun
T,
T,
Ĩ3
T4
Bảng 15.
Ts
10
12
23
44
29
54
9
18
42
5
8
10
16
22
51
4
9
22
27
40
2
12
18
26
55
3
15
17
15
60
X
3.1
10.0
14,9
22.9
49.4
SD
1.07
2.71
4.71
5.01
7.53
Pcuea,,
2
9
3
7
3
=(7,53)^/(1,07f
= 49
Đ ê b iết được k iểu ch u yển d ạng s ố liệu thích hđp n h ấ t của bộ s ố liệu
của một s ố kiểu ch u y ển d ạ n g
n;y c ầ n tiế n h à n h k h ả o sá t a n o v a và
ccbản th ư ờn g h ay sử d ụ n g sau đây (bảng 16 và bảng 17).
B à n g 16. Kết quà của bộ sô' liệu đã chuyển dạng theo căn bậc 2
T,
Tj
Tj
T4
X
1,75
3,14
3,81
4.75
SD
0.296
0,413
0,618
0,541
B ả n g 17. Kết quà của số liệu đâ chuyển dạng theo hàm
số logarit
Mẫu thuốc tẩy giun
Pcucd.,
Ts
7.01
0.537
=0,618^/0.296^
= 4.4
Mẳu thuốc tẩy giun
T,
T,
T3
T<
X
1,10
'2,27
2.65
3,11
SD
0.335
0.255
0.330
0,236
Ĩ (JCđat
T5
3.89
0,154
= 0,335^/0,154^
= 4.7
21
Nhận xét
Kết quả của hai kiểu chuyển dạng sô"liệu này không khác nhau dáng
kể vì c h ú n g đều có giá trị F<.ụe
chúng nhỏ hơn nhiều so với
,|ạ, của bộ số liệu ban đầu (F^„, = 49) và
không có mốì liên quan chặt giữa SD và số trung bình vói nhau. Như vậy,
có thể sử dụng bất cứ kiểu chuyển dạng nào trong hai kiểu đó cũng điíỢc,
song nếu có thể tìm thêm một kiểu khác sao cho giá trị F,,ụ, ,ia. nhô hđn ìiữa
thì kết quả sẽ mang lại chính xác hơn.
2.3. Phương pháp chọn kiểu chuyển dang
Từ những kết quả phân tích của các kiểu chuyến dạng số liệu trêiì có
thể rút ra những cách chọn hữu hiệu nhất cho mỗi bộ số liệu. Nguyên lý
chung để chọn kiểu chuyển dạng sô" liệu thích hỢp là dựa trên giá trị trung
bỉnh, giá trị độ lệch chuẩn, gỉá trị phương sai mẫu và dạng phân bố số liệu
và đặc biệt là gùi trị Fcựt: dạr Có năm kiểu chuyển dạng số liệu thông dụng
nhất, thưòng được áp dụng cho các thí nghiệm khác nhau gồm;
1
. Chuyển dạng sô'liệu theo hàm sô^logarit.
2.
Chuyển dạng số’liệu theo căn bậc 2 .
3. Chuyển dạng sô' liệu theo phân bô' nhị thức âm.
4. Chuyển dạng sô' liệu theo hàm đối sin.
5. Chuyển dạng số liệu theo tỉ số nghịch đảo.
•
Nội dung, phưđng pháp phân tích và đặc biệt sử dụng từng kiểu
ch u y ế n d ạ n g sao cho p h ù hỢp với đặc t ín h củ a bộ s ố liệu sẽ được trìn h bày
cụ thể sau đây.
2.3.1. Kiểu chuyển dạng aốliệu theo hàm sổlogarit
Phương pháp chuyển dạng sô* liệu theo hàm số logarit được sử dụng
thích hợp nhất khi bộ sô' liệu gốc có những đặc tính sau:
a. Phương sai lớn hơn giá trị trung bình của mẫu
Thí dụ 5. Sản lượng sữa (SLS) trung bình hằng ngày (kg/ngày) của 88
bò lai Fi (Hà-Ấn) ở chu kì sữa thứ ba nuôi tại Nông trường Phù Đổng. SLS
thực tế và giá trị đâ chuyển dạng theo hàm sô' logarit được trình bày tại
bảng 18.
22
Báng 18. SLS thực tè và giá trị đã chuyển dạng theo hàm số logarit
SỐlượng bò
SLS
Giá trị tinn theo
[(N)]
[(kg/ngày)]
hàm sổ logarlt
2
4
3
4
0.477
6
5
8
6
0.699
0.778
11
7
0.845
11
8
0.903
10
8
9
0.954
1.000
5
10
11
12
4
13
1.11
3
14
1.15
3
15
1.18
2
16
*1.2Q
2
17
1.23
1
18
1.25
1
19
1.28
1
20
1,30
6
88
0,602
1.04
1.08
822
9.35
14,21
N h ậ n xét
S ự -ph ần bô" bộ s ố liệu trên rõ ràng là không tuân th eo p h ân b ố ch u ẩ n
vì phuơng sa i lón hđn giá trị trung bình mẫu. Vì vậy, bộ s ố liệu đó phải
được ch u y ển d ạ n g, có th ể chuyên theo hàm sô logarit. K ết quả của phép
ìogarii được trìn h bày ở cột sô' 3 tại bảng 18. Vf'ii bộ s ố liệu mới đă ch u yển
d ạ n g này có sự p h ân bô" tương (ỉối chuẩn và sự phụ thuộc của phưdng sai
vào trung b ình củ n g đã đưỢc loại bỏ. Cũng cần nhớ rằ n g h ầu n h ư k hông
bao gij p h ép ch u y ền d ạ n g sô liệu đạt được một cách h oàn toàn ch ín h xác
th eo phân b ố ch u ẩn . Vì vậy, cần ứng dụng phương pháp ch u y ển d ạn g sô'
23
liệu theo hàm số logarit trước khi phân tích bộ số liệu này.
b. Khi có một sô'giá trị quan sát của mẩu bằng 0
Thí dụ 6 . Người ta lấy mẫu kiểm tra trứng giun của 1 2 người sau một
tuần sử dụng thuốc tẩy giun thu được kết quả trình bày tại bảng 19.
Bảng 19. Số trứng giun thu đLfỢc sau một tuần tẩy giun
Mễu số
Số trứng
n+1
(n)
Logaritcủa
(n+1)
1
0
1
0
2
0
1
0
3
4
6
0.699
4
2
3
0,477
5
58
69
1.771
6
1
2
0.301
7
0
1
0
8
22
23
1.362
9
6
6
0,788
10
7
8
0,903
11
17
18
1.255
12
1
2
0.301
Nhận xét
n = 12,
X = 9 ,7 5 ,
ơ2 = 281
Có ba mẫu không có trứng giun nào hay nói cách khác chính xác hơn
là có ba mẫu thí nghiệm có tần suất quan sát = 0 .
Kết luận
Bộ số liệu này không thể tuân theo phân bố chuẩn vì có nhiều tần suất
= 0 và giá trị phương sai lón hđn số trung bình nên phẩi được chuyển hóa
theo hàm sô' logarit. Song, do có những tần suất quan sát = 0 mà theo tính
ị
24