Tải bản đầy đủ (.pdf) (40 trang)

Bài tập lớn môn xác suất thống kê (rstudio) lý thuyết về anova (phân tích phương sai)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.39 MB, 40 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HOÁ HỌC </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HOÁ HỌC </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỤC LỤC </b>

<b>I. PHẦN CHUNG </b>

YÊU CẦU ... 5

LÝ THUYẾT VỀ ANOVA ... 5

1. Phân tích phương sai một yếu tố ... 5

2. Phân tích phương sai 2 yếu tố không lặp ... 6

3. Phân tích phương sai hai yếu tố có lặp ... 8

ĐỀ BÀI ... 10

CÂU HỎI ... 10

1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định ... 10

2. Phân tích phương sai một nhân tố (one way ANOVA) ... 11

3. Phân tích phương sai hai nhân tố (two way ANOVA) ... 11

XỬ LÝ SỐ LIỆU BÀI TẬP 3 ... 11

1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định ... 11

a. Đọc dữ liệu và tính tốn thống kê mơ tả ... 11

b. Thay thế giá trị NA ... 14

c. Biến weightloss và biểu đồ boxplot... 14

d. Kiểm định t-test cho pre.weight và weight6weeks ... 16

2. Phân tích phương sai một nhân tố (one way ANOVA) ... 17

a. Mô hình phân tích phương sai, giả – đối thuyết và giả định mơ hình cần kiểm ... 17

b. Thực hiện kiểm tra giả định mơ hình ... 18

c. Thực hiện ANOVA một nhân tố ... 21

d. Thực hiện so sánh bội giữa các chế độ ăn kiêng ... 22

3. Phân tích phương sai hai nhân tố (two way ANOVA) ... 23

a. Sự ảnh hưởng của Diet và gender lên weightloss ... 23

b. Phân tích sự tương tác giữa giới tính và chế độ giảm cân ... 24

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>II. PHẦN RIÊNG </b>

YÊU CẦU ... 25

ĐỀ BÀI ... 25

CÂU HỎI ... 25

1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả ... 25

2. Phân tích phương sai một nhân tố (one way ANOVA) ... 26

XỬ LÝ SỐ LIỆU ... 27

1. Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả ... 27

a. Đọc dữ liệu ... 27

b. Tạo một data.frame mới ... 27

c. In bảng thống kê tỷ lệ giá trị khuyết đối với từng biến. Đề xuất một phương pháp để xử lý những giá trị khuyết này ... 28

d. Tính các giá trị thống kê mô tả của độ ẩm, nhiệt độ, nồng độ PM2.5 theo từng mùa trong năm ... 30

e. Vẽ đồ thị boxplot cho nồng độ PM2.5 của Dongsihuan tương ứng với các mùa trong năm ... 32

f. Sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ các điểm outlier này và vẽ lại đồ thị boxplot cho biến tự chọn ở câu e. ... 32

2. Phân tích phương sai một nhân tố (one way ANOVA) ... 35

a. Giải thích vì sao sử dụng ANOVA? Xác định và phân loại biến ... 35

b. Phát biểu các giả thuyết và đối thuyết bằng lời và cơng thức tốn. Nêu các giả định của mơ hình cần kiểm tra ... 35

c. Kiểm định giả định mơ hình ... 37

d. Phân tích phương sai 1 nhân tố ... 39

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>(PHÂN TÍCH PHƯƠNG SAI) </b>

<b>1. Phân tích phương sai một yếu tố </b>

• Giả sử nhân tố A có k mức X<sub>1</sub>, X<sub>2</sub>, … , X<sub>k</sub>với X<sub>j</sub> có

- Phân phối chuẩn N(a, σ<sup>2</sup>) với trung bình tương ứng là a<sub>1</sub>, a<sub>2</sub>, … , a<sub>k </sub>chưa biết - Các tổng thể có phương sai bằng nhau

- Các mẫu quan sát được lấy độc lập

• Với mức ý nghĩa α hãy kiểm định giả thiết - Giả thiết kiểm định H<sub>0</sub>: a<sub>1</sub> = a<sub>2</sub> = ⋯ = a<sub>k</sub>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

- Giả thiết đối H<sub>1</sub>: ∃ 𝑎<sub>𝑖</sub> ≠ 𝑎<sub>𝑗</sub> với 𝑖 ≠ 𝑗

- SSG: Phần biến thiên của g.trị X do các mức độ của yếu tố đang xem xét tạo ra - SSW: Phần biến thiên của g.trị X do các mức độ của yếu tố không được xem xét tạo ra

- SST: Tổng các biến thiên của giá trị X do tất cả các yếu tố tạo ra - BPCL: Bình phương chênh lệch

- TCKĐ: Tiêu chuẩn kiểm định

<b>2. Phân tích phương sai 2 yếu tố khơng lặp </b>

• Phân tích nhằm đánh giá sự ảnh hưởng của 2 yếu tố A và B trên các giá

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

• Với mức ý nghĩa α hãy kiểm định giả thiết - Giả thiết kiểm định H<small>0</small>

+ Trung bình nhân tố hàng bằng nhau + Trung bình nhân tố cột bằng nhau + Khơng có sự tương tác giữa cột và hàng - Giả thiết đối H<small>1</small>: ∃ 𝑎<sub>𝑖</sub> ≠ 𝑎<sub>𝑗</sub> với 𝑖 ≠ 𝑗

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

• Bảng ANOVA

<i><b>• Kết luận </b></i>

- 𝐹<sub>𝐴</sub> > 𝐹<sub>𝛼</sub>(𝑛 − 1; (𝑛 − 1)(𝑚 − 1)) thì bác bỏ yếu tố A (hàng) - 𝐹<small>𝐵</small> > 𝐹<sub>𝛼</sub>(𝑚 − 1; (𝑛 − 1)(𝑚 − 1)) thì bác bỏ yếu tố B (cột)

<b>3. Phân tích phương sai hai yếu tố có lặp </b>

Tương tự phân tích phương sai hai yếu tố không lặp, chỉ khác mỗi mức (𝑎<sub>𝑖</sub>, 𝑏<sub>𝑗</sub>) đều có sự lặp lại 𝑟 lần thí nghiệm và ta khảo sát thêm sự tương tác 𝐹<sub>𝐴𝐵</sub> giữa hai nhân tố A và B.

• Mẫu điều tra

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một </b>

thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ. Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng. Chi tiết về bộ dữ liệu như sau:

- Tổng số người tham gia: 78 - Tổng số biến: 7

<b>Mô tả các biến: </b>

<i>1. Person = số thứ tự của người tham gia thử nghiệm 2. gender = giới tính của người tham gia (1 = nam, 0 = nữ) 3. Age = tuổi (năm) </i>

<i>4. Height = chiều cao (cm) </i>

<i>5. pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg) 6. Diet = chế độ ăn kiêng (3 chế độ khác nhau) </i>

<i>7. weight6weeks = cân nặng sau 6 tuần ăn kiêng </i>

<b>CÂU HỎI </b>

<b>1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định </b>

<i>(a) Đọc dữ liệu vào R và tính tốn các giá trị thống kê mơ tả cho các biến gender, </i>

<i>Age, Height, pre.weight và weight6weeks theo từng nhóm chế độ ăn kiêng tương </i>

ứng.

𝑛𝑚(𝑟 − 1)

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i>(b) Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham </i>

gia thứ 25 và 26. Hãy đề xuất một phương pháp để thay thể hai giá trị khuyết này.

<i>(c) Tạo biến weight.loss = preweight – weight6weeks. Hãy vẽ biểu đồ boxplot cho biến weight.loss tương ứng theo 3 chế độ ăn kiêng. Dựa trên các biểu đồ boxplot </i>

vừa vẽ, đưa ra nhận xét về 3 chế độ ăn kiêng.

<i>(d) Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiểm định t </i>

theo cặp (paired t-test) để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân nặng?

<b>2. Phân tích phương sai một nhân tố (one way ANOVA) </b>

(a) Trình bày mơ hình phân tích phương sai một nhân tố, phát biểu các giả thiết và đối thuyết và nêu các giả định của mô hình cần kiểm tra.

(c) Thực hiện kiểm tra giả định của mơ hình (giả định về phân phối chuẩn, tính đồng nhất của phương sai). Gợi ý: có thể sử dụng phân tích thặng dư kết hợp với việc sử dụng đồ thị QQ-plot, kiểm định Shapiro-Wilk để kiểm tra giả định về phân phối chuẩn, kiểm định Levene hay Bartlett để kiểm tra giả định về tính đồng nhất của các phương sai.

(c) Thực hiện phân tích ANOVA một nhân tố. Trình bảy bảng phân tích phương sai trong báo cáo. Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân.

(d) Thực hiện các so sánh bội (multiple comparisons) sau phân tích phương sai. Phương pháp ăn kiêng nào có hiệu quả tốt nhất trong việc giảm cân?

<b>3. Phân tích phương sai hai nhân tố (two way ANOVA) </b>

(a) Thực hiện phân tích phương sai hai nhân tố để xem xét liệu chế độ ăn kiêng và giới tính ảnh hưởng như thế nào đến sự giảm cân?

( b) Phân tích sự tương tác giữa chế độ ăn kiêng và giới tính đến sự giảm cân.

<b>XỬ LÝ SỐ LIỆU BÀI TẬP 3 </b>

<b>1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định </b>

<i><b>a. Đọc dữ liệu và tính tốn thống kê mơ tả </b></i>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<i><b>(*) Đọc dữ liệu </b></i>

- Để đọc dữ liệu “Diet.csv” được lưu trong ổ đĩa N dùng lệnh: read.csv(“N:/Diet.csv”).Đặt tên cho dữ liệu là “df” cho dễ sử dụng các thao tác xử lý dữ liệu sau bằng lệnh: df= read.csv(“N:/Diet.csv”) - Kết quả:

- Lệnh attach(df): dùng để lấy thơng tin từ dữ liệu “df”

<i><b>(*) Tính thống kê mơ tả theo từng nhóm chế độ ăn kiêng </b></i>

- Thống kê mơ tả gồm các đại lượng: trung bình, trung vị, phương sai, giá trị nhỏ nhất (GTNN) và giá trị lớn nhất (GTLN).

- Thống kê mô tả theo nhóm chế độ ăn kiêng 1 (Diet 1)

+ Lọc bảng dữ liệu “df” chỉ gồm chế độ ăn kiêng 1, bảng vừa lọc có tên

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

đưa các giá trị đã tính ở trên vào 1 bảng có tên “Diet1”.

+ Đặt trên cho hàng và cột của bảng “Diet1” theo các giá trị tương ứng

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i><b>b. Thay thế giá trị NA </b></i>

- Dùng lệnh attach(df) để xử lý thông tin dữ liệu “df”

- Lệnh anyNA dùng để kiểm tra trong dữ liệu có giá trị khuyết hay khơng + “TRUE”: trong dữ liệu có giá trị khuyết

+ “FALSE”: trong dữ liệu khơng có giá trị khuyết

<i>- Lệnh df[is.na(df)]=0 để thay thế các giá trị khuyết thành 0 </i>

- Kết quả:

<i><b>c. Biến weightloss và biểu đồ boxplot (*) Tạo biến weightloss </b></i>

- Để tạo biến và thêm biến đó vào bảng dữ liệu có sẵn, ta dùng lệnh sau df$weightloss=df$pre.weight-df$weight6weeks - Dùng lệnh attach(df) để xử lý thông tin dữ liệu “df”

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i><b>(*) Tạo biểu đồ boxplot cho weightloss tương ứng </b></i>

- Dùng lệnh sau để tạo biểu đồ:

boxplot(weightloss~Diet,main="Weightloss by Diet",ylab="kg",xlab="Type of

Diet",col=c("yellow","grey","pink")) - Giải thích

+ “weightloss~Diet”: biến weightloss được biểu diễn dựa trên biến Diet + “main=……”: tên của biểu đồ

+ “ylab=….”, “xlab=….”: đơn vị của trục y và x

+ “col=c(“yellow”,”grey”,”pink”): màu của từng chế độ ăn kiêng theo cột (tuy nhiên, ở chế độ 1, max lớn hơn giá trị cao (9 > 6.9125) nên lấy giá trị gần 6.9125 là 6 để vẽ râu trên; khi đó 9 trở thành giá trị ngoại biên)

+ Chế độ 2: 𝑚𝑒𝑑𝑖𝑎𝑛 = 3.3; 𝑄<sub>1</sub> = 1.7; 𝑄<sub>3</sub> = 4.5; 𝑚𝑖𝑛 = −2.1; 𝑚𝑎𝑥 = 7.9 + Chế độ 3: 𝑚𝑒𝑑𝑖𝑎𝑛 = 5.4; 𝑄<small>1</small> = 3.45; 𝑄<sub>3</sub> = 7; 𝑚𝑖𝑛 = 0.5; 𝑚𝑎𝑥 = 9.2 - Cách tính giá trị cao và giá trị thấp

+ Giá trị cao: 𝑈 = 𝑄<sub>3</sub>+ 1.5 × 𝐼𝑄𝑅

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

+ Giá trị thấp: 𝐿 = 𝑄<small>1</small><i><b>− 1.5 × 𝐼𝑄𝑅 </b></i>

<i><b> + Khoảng biến thiên tứ phân vị: 𝐼𝑄𝑅 = 𝑄</b></i><small>3</small>− 𝑄<sub>1</sub> - Nhận xét:

+ Sử dụng chế độ ăn kiêng 1: 25% người giảm được tối đa 1.975 (𝑘𝑔); 75% giảm được tối đa 6 (𝑘𝑔)

+ Sử dụng chế độ ăn kiêng 2: 25% người giảm được tối đa 1.7 (𝑘𝑔); 75% giảm được tối đa 4.5 (𝑘𝑔)

+ Sử dụng chế độ ăn kiêng 3: 25% người giảm được tối đa 3.45 (𝑘𝑔); 75% giảm được tối đa 7 (𝑘𝑔)

- So sánh: Chế độ ăn kiêng 3 có hiệu quả cao hơn 2 chế độ cịn lại

<i><b>d. Kiểm định t-test cho pre.weight và weight6weeks </b></i>

- Trước hết, mơ hình giả định của t-test là các biến cần kiểm tra phải tuân theo phân phối chuẩn, do đó ta có thể dùng shapiro.test hoặc QQ-plot để thực hiện kiểm tra phân phối chuẩn

- Ở code, chọn kiểm định shapiro.test cho pre.weight và weight6weeks shapiro.test(pre.weight)

shapiro.test(weight6weeks)

- Kết quả: pre.weight tuân theo phân phối chuẩn cịn weight6weeks thì khơng (do giá trị P-value >0.05 thì chấp nhận 𝐻<sub>0</sub> với 𝐻<sub>0</sub> là tuân theo phân phối chuẩn)

<i><b> </b></i>

- Do đó ta có thể sử dụng kiểm định phi tham số Wilcox để tránh t-test khơng có ý nghĩa thống kê.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

wilcox.test(pre.weight,weight6weeks,paired = TRUE) - Kết quả:

- Wilcox cho thấy p-value rất nhỏ so với 0.05 chứng tỏ việc giảm cân theo chế độ ăn kiêng nói chung có ý nghĩa thống kê.

- Sau đó ta có thể sử dụng kiểm định t-test để đem lại kết quả giảm cân rõ ràng hơn: t.test(pre.weight,weight6weeks,paired=TRUE)

- Kết quả:

- Qua t-test ta thấy:

+ Chế độ ăn kiêng nói chung làm giảm 3.8 (kg) + Với khoảng tin cậy là (3.3; 4.4)

+ Và trị số p-value cũng rất bé so với 0.05 chứng tỏ giá trị này cũng có ý nghĩa thống kê, không khác biệt so với Wilcox.

<b>2. Phân tích phương sai một nhân tố (one way ANOVA) </b>

<i><b>a. Mơ hình phân tích phương sai, giả – đối thuyết và giả định mơ hình cần kiểm </b></i>

<i><b>(*) Giả – đối thuyết của mơ hình </b></i>

- Ở câu (c) đề bài yêu cầu ta phân tích sự hiệu quả của các chế độ ăn kiêng đối với việc giảm cân, thơng qua đó ta sẽ thực hiện kiểm tra số cân giảm trung bình tương ứng đối với ba chế độ có sự khác biệt hay khơng. Ta gọi số cân nặng trung bình tương ứng ba chế độ ăn kiêng là 𝜇<sub>𝑖</sub> với 𝑖 = 1, 2, 3.

- Giả thuyết – đối thuyết: + 𝐻<sub>0</sub>: 𝜇<sub>1</sub> = 𝜇<sub>2</sub> = 𝜇<sub>3</sub>

+ 𝐻<sub>1</sub>: ∃ ít nhất một sự khác biệt giữa các 𝜇<sub>𝑖</sub>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<i><b>(*) Mơ hình phân tích phương sai </b></i>

- Ta gọi, số cân nặng giảm được của người tham gia thử nghiệm 𝑖 sử dụng chế độ ăn kiêng 𝑗 (với 𝑗 = 1, 2, 3) là 𝑥<sub>𝑖𝑗</sub>.

- Phát biểu mô hình phân tích phương sai như sau: 𝑥<sub>𝑖𝑗</sub> = 𝜇 + 𝛼<sub>𝑗</sub> + 𝜀<sub>𝑖𝑗</sub> Hay có thể cụ thể hơn: 𝑥<sub>𝑖1</sub> = 𝜇 + 𝛼<sub>1</sub>+ 𝜀<sub>𝑖1</sub>

- Tức là, số cân nặng giảm được của bất kì người tham gia thử nghiệm nào bằng giá trị số cân nặng giảm được trung bình của tồn bộ mẫu (𝜇) cộng/trừ cho ảnh hưởng của chế độ ăn kiêng được đo bằng hệ số ảnh hưởng 𝛼<sub>𝑖</sub> và sai số 𝜀<sub>𝑖𝑗</sub>. Một giả định khác được đặt ra là sai số 𝜀<small>𝑖𝑗</small> phải tuân theo phân phối chuẩn.

<i><b>(*) Giả định của mơ hình cần kiểm tra </b></i>

- Số cân nặng giảm được theo chế độ ăn kiêng tuân theo phân phối chuẩn - Phương sai số cân nặng giảm được theo chế độ ăn kiêng là bằng nhau - Số cân nặng giảm được được lấy độc lập

<i><b>b. Thực hiện kiểm tra giả định mô hình </b></i>

Để kiểm định phân phối chuẩn cho việc kiểm tra sự khác biệt về cân nặng giảm được tương ứng với 3 chế độ ăn kiêng, ta cần tạo ra 3 giá trị weightloss tương ứng với 3 chế độ khác nhau:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Kết quả: Cả ba đều cho kết quả p-value lớn hơn 0.05 chứng tỏ chấp nhận giả thiết 𝐻<sub>0</sub> là cả 3 tuân theo phân phối chuẩn.

- Cách 2: Kiểm định bằng QQ – plot.

<b> + Phương pháp: Ta dùng “qqnorm” để vẽ phân bố của các giá trị cần kiểm </b>

tra, sau đó dùng “qqline” để xem xét sự phân bố giá trị điểm (thực tế) có xấp xỉ với đường thẳng phân phối chuẩn (lý thuyết) hay không, nếu có, thì biến cần kiểm tra tn theo phân phối chuẩn

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

+ Kết quả: Cả 3 biến cần kiểm định đều xấp xỉ với đường thẳng phân phối chuẩn, cho thấy cả 3 biến đều tuân theo phân phối chuẩn.

<i><b>(*) Kiểm định tính đồng nhất của phương sai </b></i>

- Cách 1: Kiểm định bằng Bartlett test

+ Code: bartlett.test(weightloss~Diet)

+ Giải thích: Ta kiểm định sự khác nhau của weightloss với ba chế độ ăn kiêng nên sẽ thực hiện kiểm tra biến weightloss phụ thuộc vào chế độ ăn kiêng và “~” biểu thị cho sự phụ thuộc.

+ Kết quả: Ta thu được giá trị p-value lớn hơn 0.05 nên chấp nhận giả thiết 𝐻<sub>0</sub> là phương sai về cân nặng giảm được giữa ba chế độ ăn kiêng khơng có sự khác biệt.

- Cách 2: Kiểm định bằng Levene Test

+ Code: leveneTest(weightloss~as.factor(Diet))

+ Giải thích: tương tự với Bartlett test, tuy nhiên Diet là biến độc lập nên Levene Test yêu cầu biến độc lập là nhân tố, nên ta dùng lệnh “as.factor”. Bên cạnh đó, Levene Test khơng có sẵn trong gói B asic, nên ta cần gọi gói “Car” trước khi sử dụng, tránh trường hợp không dùng được lệnh Levene.

+ Kết quả: Ta cũng thu được giá trị p-value lớn hơn 0.05 nên chấp nhận 𝐻<sub>0</sub> Weightloss 3

31\3

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i><b>c. Thực hiện ANOVA một nhân tố </b></i>

- Để phân tích phương sai, ta phải định nghĩa biến “Diet” là một nhân tố Diet<-as.factor(Diet)

- Sau đó ta đưa hai biến “Diet” và “weightloss” vào một dataframe mới gọi là “df1”: df1<-data.frame(Diet,weightloss)

- Sau đó, attach(df1) để xác định dùng dữ liệu “df1”

- Sau khi đã sẵn sàng dữ liệu, ta dùng hàm “lm()” để phân tích phương sai. Trong hàm dưới đây, ta cho R biết “weightloss” là một hàm số của “Diet”

aov1<-lm(weightloss~Diet)

- Dùng lệnh sau để phân tích kết quả anova(aov1), nhưng chưa cho kết quả đầy đủ nên ta dùng lệnh summary(aov1), để việc phân tích chi tiết hơn - Kết quả:

- Phân tích kết quả:

+ Ta thấy ở kết quả phần trên, thu được giá trị p-value 0.00323 bé hơn so với 0.05 nên có thể nói việc chọn chế độ ăn kiêng có sự ảnh hưởng lên số cân nặng giảm được.

+ Ở bảng dưới (kết quả phần dưới), thu được 𝜇 = 3.300, nghĩa là trung bình tổng thể giảm cân được 3.3 (kg) với sai số chuẩn là 0.489 (kg)

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

+ R tự hiểu 𝛼<small>1</small> = 0, và 𝛼<small>2</small>− 𝛼<sub>1</sub> = −0.274, và sai số chuẩn là 0.672, với p-value = 0.6845. Hay nói cách khác, chế độ ăn kiêng 1 giảm được nhiều hơn chế độ ăn kiêng 2 0.274 (kg), nhưng sự khác biệt này khơng có ý nghĩa thống kê.

<b> + Tương tự, 𝛼</b><sub>3</sub>− 𝛼<sub>1</sub> = 1.848, và sai số chuẩn là 0.672, với p-value = 0.0075. Hay nói cách khác, chế độ ăn kiêng 3 giảm được nhiều hơn chế độ ăn kiêng 2 1.848 (kg), nhưng sự khác biệt này có ý nghĩa thống kê.

- Trong đó:

Df (degrees of freedom) là bậc tự do

Sum Sq (sum of squares) là tổng bình phương Mean Sq (mean square) là trung bình bình phương F value là giá trị F

Pr(>F) là trị số P liên quan đến kiểm định F

<i><b>d. Thực hiện so sánh bội giữa các chế độ ăn kiêng </b></i>

- Ta có nhiều cách để thực hiện so sánh bội của các nhóm như Bonferroni, Scheffé, Holm và Tukey. Tuy nhiên, chỉ có Tukey đem lại cho ta kết quả so sánh giữa các nhóm về trị số p-value và độ tin cậy, do đó ta sử dụng phương

- Phân tích kết quả: Ta thấy chế độ 1 hơn chế độ 2 khoảng 0.27 đơn vị với độ tin cậy từ -1.88 đơn vị đến 1.3 đơn vị. Và chế độ 3 hơn chế độ 1 khoảng 1.85 đơn vị với độ tin cậy từ 0.24 đến 3.5. Tương tự với chế độ 3 so với chế độ 2. Ta

<i><b>có thể kết luận, chế độ 3 đem lại hiệu quả giảm cân cao nhất. </b></i>

</div>

×