Tải bản đầy đủ (.docx) (41 trang)

BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 41 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA</b>

 

<b>BÁO CÁO BÀI TẬP LỚN</b>

<b>MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 222</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>PHÂN CÔNG LÀM VIỆCST</b>

1 Lê Trát Minh Nhóm trưởng Phân cơng cơng việc, thực hiện hoạt động 2

4 Nguyễn An Bình 2012694 Tạo powerpoint cho phần thuyết trình 5 Đặng Quốc Nghị 2114192 Tổng hợp word, thuyết trình

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CÁM ƠN</b>

Thống kê là một phần toán học của khoa học, gắn liền với tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về một vấn đề nào đó, và trình bày dữ liệu hay là một nhánh của tốn học. Cịn xác suất là độ đo của toán học để đo tính phi chắc chắn của khả năng xảy ra một sự kiện (biến cố).

Xác xuất thống kê là nền tảng quan trọng của các mơ hình học máy và phân tích dữ liệu. Thống kê đóng vai trị là một cơng cụ quan trọng. Nó được sử dụng để hiểu hệ thống đo lường biến động, kiểm sốt q trình (như trong kiểm sốt q trình thống kê hoặc thơng qua hệ thống), cho dữ liệu tóm tắt và đưa ra quyết định dựa trên dữ liệu.

Và đó cũng là lý do việc thực hiện Bài tập lớn mà thầy cơ đã mang đến giúp sinh viên có thể hiểu hơn và ứng dụng kiến thức đã học để phân tích các dữ liệu trong cuộc sống. Trong suất quá trình học tập và thực hiện vừa qua, chúng em đã nhận được sự quan tâm, dạy dỗ rất tận tình từ q thầy cơ bộ mơn khoa Khoa học ứng dụng.

Đặc biệt, chúng em xin bày tỏ lòng biết ơn sâu sắc đến thầy – người thầy hướng dẫn: Hoàng Văn Hà đã trang bị cho chúng em những kiến thức bổ ích cũng như những kỹ năng cơ bản để có thể hồn thành đề tài Bài tập lớn này.

Trong quá trình tiến hành thực hiện đề tài, có thể do kiến thức chun ngành cịn nhiều hạn chế nên sẽ tránh khỏi việc mắc những sai sót khi tìm hiểu, trình bày và đánh giá kết quả. Chúng em rất mong nhận được sự quan tâm, đánh giá và góp ý của thầy cơ bộ mơn để đề tài của chúng em đầy đủ và hoàn thiện hơn.

Xin chân thành cảm ơn!

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

II. Giới thiệu bộ dữ liệu “AirQualityUCI”...2

III. Các bước thực hiện...3

1. Đọc dữ liệu (Import data)...3

2. Làm sạch dữ liệu (Data cleaning) ...4

3. Làm rõ dữ liệu (Data visualization)...4

4. Trình bày biểu đồ biểu đồ khám phá mối quan hệ giữa biến phụ thuộc và biến giải thích/dự báo; tính ma trận hệ số tương quan giữa các biến trong tập dữ liệu. Nhận xét ... 5

5. Xây dựng mơ hình hồi quy...13

6. Đánh giá sự tác động của các biến lên độ ẩm tương đối RH, thông qua các hệ số hồi quy p-value tương ứng với các hệ sộ hồi quy ứng với các biến...19

<i>7. Vẽ đồ thị sai số hồi quy và sai số dự báo...20</i>

<b>B. HOẠT ĐỘNG 2...22</b>

I. Đọc file dữ liệu, làm sạch dữ liệu khuyết và thực hiện kiểm định thống kê mô tả 22 1. Đọc dữ liệu, làm sạch dữ liệu...22

2. Thực hiện kiểm định thống kê mô tả...28

II. Xây dựng biểu đồ thể hiện mối quan hệ giữa biến ‘mpg’ với các biến còn lại...28

1. Vẽ biểu đồ histogram thể hiện phân phối chuẩn...28

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

2. Vẽ biểu đồ boxplot của biến ‘mpg’ cho nhóm phân loại của biến ‘cylinders’...29 III. Phân tích phương sai 1 nhân tố...33

<b>C. TÀI LIỆU THAM KHẢO...36</b>

 <b>PT08.S1 (CO): Phản ứng cảm biến trung bình hang giờ (chọn mục tiêu là CO)</b>

 <b>NMHC (GT): Nồng độ HydroCarbons phi kim tổng thể trung bình thực hàng giờ </b>

tính bằng microg/ m<small>3 </small>(số liệu tham chiếu)

 <b>C<small>6</small>H<small>6 </small>(GT): Nồng độ benzen trung bình hàng giờ thực tính bằng microg/m</b><small>3 </small>(số liệu

 <b>AH: Độ ẩm tuyệt đối</b>

<b>II. Giới thiệu bộ dữ liệu “AirQualityUCI”</b>

Bộ dữ liệu chứa 9358 trường hợp phản hồi trung bình hàng giờ từ một dãy 5 cảm biến hóa học oxit kim loại được nhúng trong Thiết bị đa cảm biến hóa chất chất lượng khơng khí. Thiết bị này được đặt trên cánh đồng trong một khu vực bị ô nhiễm đáng kể, ở cấp

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

độ đường bộ, trong một thành phố của Ý. Dữ liệu được ghi lại từ tháng 3 năm 2004 đến tháng 2 năm 2005 (gần một năm) đại diện cho các bản dữ liệu miễn phí dài nhất hiện có sẵn về phản ứng của các thiết bị cảm biến hóa học chất lượng khơng khí được triển khai tại hiện trường. Ground Truth - nồng độ trung bình hàng giờ đối với CO, Hydrocacbon phi kim, Benzen, Tổng Nitơ Oxit (NOx) và Nitrogen Dioxide (NO2) và được cung cấp bởi một máy phân tích tham chiếu được chứng nhận đặt cùng địa điểm. Bằng chứng về độ nhạy chéo cũng như cả khái niệm và độ lệch của cảm biến đều có mặt như được mô tả trong De Vito et al., Sens. And Act. B, Tập. 129,2,2008 (yêu cầu trích dẫn) cuối cùng ảnh hưởng đến khả năng ước tính nồng độ của cảm biến. Các giá trị bị thiếu được gắn thẻ với giá trị -200.

Bộ dữ liệu này có thể được sử dụng riêng cho mục đích nghiên cứu. Mục đích thương mại được loại trừ hồn tồn.

<b>III. Các bước thực hiện1. Đọc dữ liệu (Import data)</b>

Đọc tập tin “AirQualityUCI”

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>2. Làm sạch dữ liệu (Data cleaning)</b>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

4.2. Vẽ biểu đồ Boxplot thể hiện phân phối của RH theo phân loại biến T

boxplot(RH~T,AirQualityUCI,xlab= "T",main="Boxplot of RH for T",col=c(2,3,4,5,6))

4.3. Vẽ biểu đồ phân tán thể hiện phân phối của RH theo biến PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3)

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

phân tán, ta thấy RH khơng có mối quan hệ tuyến tính với các biến PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3). Ta có thể đoán PT08.S1(CO), PT08.S2(NMHC), PT08.S3(NOx), PT08.S4(NO2), PT08.S5(O3) là các nhân tố không ảnh hưởng đến độ ẩm tương đối.

4.4. Kiểm định ý nghĩa thống kê của 1 vài cặp biến

<b>Input:</b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and CO.GT.</small>

<small>t = 76.549, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and NMHC.GT.</small>

<small>t = 36.007, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and C6H6.GT.</small>

<small>t = 73.477, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and PT08.S2.NMHC.</small>

<small>t = 76.605, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and NOx.GT.</small>

<small>t = 68.838, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and PT08.S3.NOx.</small>

<small>t = -42.672, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and NO2.GT.</small>

<small>t = 49.877, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and PT08.S4.NO2.</small>

<small>t = 83.005, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<small>data: PT08.S1.CO. and PT08.S5.O3.t = 75.732, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and T</small>

<small>t = 9.8645, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and RH</small>

<small>t = -1.1375, df = 825, p-value = 0.2557</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

<small>Pearson's product-moment correlationdata: PT08.S1.CO. and AH</small>

<small>t = 12.8, df = 825, p-value < 2.2e-16</small>

<small>alternative hypothesis: true correlation is not equal to 095 percent confidence interval:</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>Nhận xét: Tất cả các biến đều có ý nghĩa thống kê, ngoại trừ biến RH. Khi các biến </b>

CO(GT), PT08.S1(CO), NMHC(GT), C6H6(GT), PT08.S2(NMHC), NOx(GT) bắt cặp với biến PT08.S3(NOx) xảy ra hiện tượng nghịch biến.

<b>5. Xây dựng mơ hình hồi quy</b>

- Biến phụ thuộc: RH

- Biến độc lập: PT08.S2(NMHC); PT08.S1(CO); PT08.S3(NOx); PT08.S4(NO2); PT08.S5(O3); CO(GT); NMHC(GT); C6H6(GT); NOx(GT); NO2(GT); T; AH.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>Ta sử dụng lệnh lm để xây dựng mô hình quy tuyến tính</b>

Dựa vào kết quả của mơ hình hồi quy tuyến tính trên, ta đặt giả thiết

- Giả thiết H0: Các hệ số hồi quy ứng với các biến khơng có ý nghĩa thống kê. - Giả thiết H1: Các hệ số hồi quy ứng với các biến cố có ý nghĩa thống kê.

- Vì Pr ứng với các biến PT08.S1(CO), PT08.S4(NO2), NMHC(GT), C6H6(GT), NO2(GT) đều lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. Do đó các hệ số biến trên khơng có ý nghĩa thống kê, ta sẽ loại bỏ các biến này ra khỏi mơ hình.

- Các hệ số ứng với các biến cịn lại đều có Pr bé hơn mức ý nghĩa bé hơn 5% nên ta sẽ bác bỏ giả thiết H0, chấp nhận H1, tức hệ số hồi quy ứng với các biến tương ứng với các biến cịn lại có ý nghĩa thống kê. Do đó, ta khơng cần loại bỏ những biến cịn lại ra khỏi mơ hình.

* Xét 6 mơ hình hồi quy tuyến tính bao gồm biến RH là biến phụ thuộc nhưng:  Mơ hình M1 chứa tất cả các biến còn lại là biến độc lập

 Mơ hình M2 là loại bỏ biến PT08.S1(CO) từ M1  Mơ hình M3 là loại bỏ biến PT08.S4(NO2) từ M2  Mơ hình M4 là loại bỏ biến NMHC(GT) từ M3  Mơ hình M5 là loại bỏ biến C6H6(GT) từ M4  Mơ hình M6 là loại bỏ biến NO2(GT) từ M5

<i>Ta xây dựng mơ hình 2 là loại biến <b> PT08.S1(CO) </b> từ M1</i>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<i>Ta xây dựng mơ hình 3 là loại biến <b> PT08.S4(NO2) </b> từ M2</i>

<i>Ta xây dựng mơ hình 4 là loại biến <b> NMHC(GT)</b> từ M3</i>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i>Ta xây dựng mơ hình 5 là loại biến <b> C6H6(GT)</b> từ M4</i>

<i>Ta xây dựng mơ hình 6 là loại biến <b> NO2(GT)</b> từ M5</i>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Sử dụng lệnh <b> anova </b> để so sánh mô hình 1 và mơ hình 2:

<b>Nhận xét:</b>

Giả thiết H0: Hai mơ hình 1,2 hiệu quả như nhau Giả thiết H1: Hai mơ hình 1,2 hiệu quả khác nhau

<i>Vì xác suất quan sát Pr = 0.06191 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0.</i>

Vậy mơ hình 1,2 hiệu quả như nhau. Mặc khác ta dựa vào R<small>2 </small>hiệu chỉnh ở mơ hình 2 = 0.9638 thấp hơn R<small>2</small> ở mơ hình 1 = 0.9639. Do vậy ta chọn mơ hình 1 hiệu quả hơn mơ hình 2.

Sử dụng lệnh <b> anova </b> để so sánh mơ hình 1 và mơ hình 3:

Giả thiết H0: Hai mơ hình 1,3 hiệu quả như nhau Giả thiết H1: Hai mơ hình 1,3 hiệu quả khác nhau

<i>Vì xác suất quan sát Pr = 0.1702 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. </i>

Vậy mơ hình 1,3 hiệu quả như nhau. Mặc khác ta dựa vào R<small>2 </small>hiệu chỉnh ở mơ hình 3 = 0.9638 thấp hơn R<small>2</small> ở mơ hình 1 = 0.9639. Do vậy ta chọn mơ hình 1 hiệu quả hơn mơ hình 3.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Sử dụng lệnh <b> anova </b> để so sánh mô hình 1 và mơ hình 4:

Giả thiết H0: Hai mơ hình 1,4 hiệu quả như nhau Giả thiết H1: Hai mơ hình 1,4 hiệu quả khác nhau

<i>Vì xác suất quan sát Pr = 0.2957 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. </i>

Vậy mơ hình 1,4 hiệu quả như nhau. Mặc khác ta dựa vào Multiple R<small>2 </small>ở mơ hình 4 = 0.9643 thấp hơn Multiple R<small>2</small> ở mơ hình 1 = 0.9644. Do vậy ta chọn mơ hình 1 hiệu quả hơn mơ hình 4.

Sử dụng lệnh <b> anova </b> để so sánh mơ hình 1 và mơ hình 5:

Giả thiết H0: Hai mơ hình 1,5 hiệu quả như nhau Giả thiết H1: Hai mơ hình 1,5 hiệu quả khác nhau

<i>Vì xác suất quan sát Pr = 0.1545 lớn hơn mức ý nghĩa 5% nên ta chấp nhận giả thiết H0. </i>

Vậy mơ hình 1,5 hiệu quả như nhau. Mặc khác ta dựa vào R<small>2 </small>hiệu chỉnh ở mơ hình 5 = 0.9638 thấp hơn R<small>2</small> ở mơ hình 1 = 0.9639. Do vậy ta chọn mơ hình 1 hiệu quả hơn mơ hình 5.

Sử dụng lệnh <b> anova </b> để so sánh mơ hình 1 và mơ hình 6:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Giả thiết H0: Hai mơ hình 1,6 hiệu quả như nhau Giả thiết H1: Hai mơ hình 1,6 hiệu quả khác nhau

<i>Vì xác suất quan sát Pr = 0.01291 bé hơn mức ý nghĩa 5% nên ta bác bỏ giả thiết H0, </i>

chấp nhận giả thiết H1. Vậy mơ hình 1,6 hiệu quả khác nhau, tức trong hai mơ hình sẽ có 1 mơ hình hiệu quả hơn. Mặc khác ta dựa vào R<small>2 </small>hiệu chỉnh ở mơ hình 6 = 0.9635 thấp hơn R<small>2</small> ở mơ hình 1 = 0.9639. Do vậy ta chọn mơ hình 1 hiệu quả hơn mơ hình 6.

<b>Kết luận: Từ việc so sánh các mơ hình, mơ hình 1 là mơ hình hợp lý nhất trong 6 mô </b>

<b>6. Đánh giá sự tác động của các biến lên độ ẩm tương đối RH, thông qua các hệ sốhồi quy p-value tương ứng với các hệ sộ hồi quy ứng với các biến.</b>

<b>Ta thấy rằng p-value tương ứng với T,AH < 2.10</b><small>-6 </small>, điều này nói lên rằng ảnh

<b>hưởng T,AH có ý nghĩa rất lớn lên lên biến độ ẩm tương đối RH. Ta còn nhận thấy sự ảnh hưởng PT08.S2(NMHC), PT08.S3(NOx), PT08.S5(O3), CO(GT), NOx(GT) lên độ ẩm tương đối RH, ít ảnh hưởng hơn so với AH,T. Các biến PT08.S1(CO), </b>

<b>PT08.S4(NO2), NMHC(GT), C6H6(GT), NO2(GT). </b>

Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là độ ẩm tương đối khi tăng 1 đơn vị của biến dự báo đó,

<b>giả sử khi các biến dự báo khác không đổi. Cụ thể hơn, hệ số hồi quy ứng với T,AH lần lượt là -2.7641, 56.745 thì ứng với nhiệt độ T, độ ẩm tuyệt đối AH sẽ lần lượt giảm 1</b><small>o</small>C, 1g/cm<small>3 </small><b>thì ta có thể kỳ vọng nhiệt độ trung bình T, độ ẩm tương đối trung bình có thể </b>

giảm 2.7641% hoặc tăng 56.745% (giả sử rằng các biến dự báo cịn lại khơng đổi).

<b>Tương tự với hệ số hồi quy ứng với PT08.S2(NMHC)= 0.0216 thì ứng với với phản ứng cảm biến trung bình hàng giờ PT08.S2(NMHC) tăng 1 microg/ m</b><small>3 </small>thì ta có thể

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

kỳ vọng độ ẩm tương đối trung bình tăng 0.0216% (giả sử rằng các biến dự báo còn lại khơng đổi).

Tương tự đối với các biến cịn lại.

<i><b>7. Vẽ đồ thị sai số hồi quy và sai số dự báo</b></i>

<b>Nhận xét: Đường màu đó trên đồ thị là đường thẳng nằm ngang, tức là mối quan </b>

hệ giữa biến dự báo X và biến phụ thuộc Y được xem như tuyến tính, thỏa mản giả định tuyến tính dữ liệu. Ngồi ra các giá trị thặng dư phân tán tương đối đều xug quanh đường thẳng y = 0 (ngoại trừ một số giá trị ngoại lai), chứng tỏ phương sai của các sai số là hằng số.

<b>Dự báo:</b>

<b>Từ mơ hình đã chọn, ta dùng lệnh predict() để dự báo độ ẩm tương đối qua hai </b>

thuộc tính như sau:

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<i><b># Đổi tên thành dịng X1, X2.</b></i>

<i><b># Tính khoảng tin cậy.</b></i>

<b>- Output:</b>

<b>Nhận xét: Với khoảng tin cậy 95%, ta thấy được dài khoảng tin cậy giá trị dự báo của</b>

X1<X2 nên ta có thể kết luận với tập dữ liệu X1, ta có thu được một giá trị dự báo chính xác hơn so với X2.

<b>B. HOẠT ĐỘNG 2</b>

Sinh viên tự tìm một bộ dữ liệu phù hợp cho việc phân tích ANOVA 1 hoặc 2 nhân tố. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chun ngành của mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>CODE R</b>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>- Đổi tên file từ “auto.mpg” thành “new_DF”</b>

<b>- Tìm dữ liệu khuyết</b>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

- Tìm các dịng có NA

- Xuất dữ liệu NA trong data

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

- Xác định số lượng NA trong data

- Xác định tỷ lệ NA trong data

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

- Xóa các quan trắc chứa dữ liệu của NA

- Kiểm tra xem ‘horsepower’ có ở dạng numeric hay không ?

- Xuất các giá trị là outliers

- Xuất vị trí outliers

- Xác định outliers trong data

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

- Chuyển các outliers thành NA

- Xoá các quan trắc của dữ liệu nếu chứa NA

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

<b>2. Thực hiện kiểm định thống kê mô tả</b>

<b>Nhận xét:</b>

Từ bảng thống kê ta có thể biết được:

 Mức tiêu thụ nhiên liệu trung bình tính theo dặm trên galon là 21.641100 (miles/gallon)

 Mức tiêu thụ tối thiểu và tối đa nhiên liệu lần lượt là 9.0; 44.30

<b>II. Xây dựng biểu đồ thể hiện mối quan hệ giữa biến mpg với các biến còn lại1. Vẽ biểu đồ histogram thể hiện phân phối chuẩn</b>

<b>Đây là bản phân phối tần số cho biến ‘mpg’. Dựa trên biểu đồ ta nhận thấy:</b>

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

 Mức tiêu thụ nhiên liệu có số lượng các loại xe cao nhất là: 15-20 (miles/gallon)  Mức tiêu thụ nhiên liệu có số lượng các loại xe thấp nhất là: 5-10 (miles/gallon)

<b>2. Vẽ biểu đồ boxplot của biến ‘mpg’ cho nhóm phân loại của biến ‘cylinders’</b>

<b>Nhận xét:</b>

- Đối với nhóm xe có số xy-lanh thuộc nhóm 4

+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 45(miles/gallon) + Khoảng 25% xe có mức tiêu thụ khoảng dưới 25(miles/gallon) + Khoảng 50% xe có mức tiêu thụ khoảng dưới 27.5(miles/gallon) + Khoảng 75% xe có mức tiêu thụ khoảng dưới 30(miles/gallon) - Đối với nhóm xe có số xy-lanh thuộc nhóm 6

+ Mức tiêu thụ nhiên liệu cao nhất là khoảng 37.5(miles/gallon) + Có 3 xe có mức tiêu thụ dưới khoảng 32.5(miles/gallon)

+ Khoảng 25% xe có mức tiêu thụ nhiên liệu dưới khoảng 17.5(miles/gallon) + Khoảng 50% xe có mức tiêu thụ nhiên liệu dưới khoảng 18(miles/gallon) + Khoảng 75% xe có mức tiêu thụ nhiên liệu dưới khoảng 22(miles/gallon) - Đối với nhóm xe có số xy-lanh thuộc nhóm 8

</div>

×