Tải bản đầy đủ (.pdf) (65 trang)

ứng dụng hồi quy logistic dự đoán chất lượng nguồn nước

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 65 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ỨNG DỤNG HỒI QUY LOGISTICDỰ ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

GVHD: PGS.TS. Võ Hoàng HưngTrường Đại học Bách Khoa - ĐHQG-HCM

<small>Tháng 11 năm 2023</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Nội dung trình bày

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Mơ tả chung về dữ liệu

Dữ liệu được sử dụng trong đề tài này là về các chỉ số chất lượng nguồn nước củacác mẫu nước ở các vùng khác nhau, với các thông tin chi tiết về dữ liệu như sau:

<b>Chủ đề: Water QualityNguồn dữ liệu:</b>

· Pune, Maharashtra, Ấn Độ

<b>Số lượng tổng thể: 325 mẫu nước (208 mẫu nước uống được và 117 mẫu</b>

nước khơng uống được)

<b>Số lượng biến: 10 tiêu chí, bao gồm:</b> <i>pH, độ cứng, hàm lượng chất rắn,chloramines, sulfate, tính dẫn điện, hàm lượng carbon hữu cơ,</i>

<i>trihalomethanes, độ đục và tính uống được</i>.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Mơ tả biến

<b><small>BiếnLoại dữ liệu</small></b>

<small>(rr = rời rạc, lt = liên tục)</small>

<b><small>Tiêu chuẩnĐơn vịMô tả</small></b>

<small>pH</small> <i><small>x∈ R| 0 ≤ x ≤ 14, rr6.5≤ x ≤ 8.5</small></i> <small>khơng có</small> <sup>Đánh giá tính acid hay</sup><small>base của nướcĐộ cứng</small> <i><small>x∈ R| 47.4 ≤ x ≤ 323, rrx≤ 300 (TCVN)mg/L</small></i> <sup>Khả năng nước tạo kết</sup><sub>tủa với xà phòng</sub>

<small>Chất rắn</small> <i><small>x∈ R| 321 ≤ x ≤ 61.2 · 103, rrx≤ 500 (mong muốn)</small></i>

<i><small>x≤ 1000 (tối đa)</small><sup>ppm</sup></i>

<small>Tổng lượng chất rắn hòatan trong nước</small>

<small>Chloramines</small> <i><small>x∈ R| 0.35 ≤ x ≤ 13.1, rrx≤ 4ppm</small></i> <sup>Lượng Chloramines trong</sup><sub>nước</sub>

<small>Sulfate</small> <i><small>x∈ R| 129 ≤ x ≤ 481, rrx≤ 250mg/L</small></i>

<small>Lượng ion Sulfate hịa tanchảy</small>

<small>Tính dẫn điện</small> <i><small>x∈ R| 181 ≤ x ≤ 753, rrx≤ 400µS/cm</small></i> <sup>Khả năng dẫn điện của</sup><sub>nước</sub>

<small>Carbon hữu cơ</small> <i><small>x∈ R| 2.2 ≤ x ≤ 28.3, rrx≤ 4ppm</small></i>

<small>Tổng lượng carbon trongtrong nước</small>

<small>Trihalomethanes</small> <i><small>x∈ R| 0.74 ≤ x ≤ 124, rrx≤ 80µg/L</small></i>

<small>Độ đục</small> <i><small>x∈ R| 1.45 ≤ x ≤ 6.74, rrx≤ 5N T U</small></i> <sup>Mức độ trong suốt của</sup><sub>nước</sub>

<small>Tính uống được</small> <i><small>x = 0 hoặc x = 1, rr</small></i>

<small>Mức độ an toàn khi uốngnước (=1 khi uốngđược, =0 khi khônguống được)</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Nội dung trình bày

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Các đặc trưng của đại lượng ngẫu nhiên

Kỳ vọng: là trung bình có trọng số của tất cả các giá trị cụ thể của biến ngẫu

<i>nhiên, ký hiệu là E(X).</i>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Các đặc trưng của đại lượng ngẫu nhiên

Mốt: là số có khả năng nhất của biến ngẫu nhiên, ký hiệu là mod(X).

<i>Nếu X là BNN rời rạc có xác suất p:</i>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Hồi quy logistic là gì?

Hồi quy logistic là một thuật toán được ứng dụng rộng rãi trong nhiều lĩnhvực

Hồi quy logistic được xem như là một kỹ thuật phân tích dữ liệu để tìm ramối quan hệ (mối tương quan)giữa hai yếu tố dữ liệu, sau đó từ mối quanhệ này dự đốn giá trị của những yếu tố đó dựa trên các yếu tố cịn lại.Dự đốn thường cho rakết quả hữu hạn, như có hoặc khơng.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Các loại hồi quy logistic

Có03 cáchtiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:

Hồi quy logistic nhị phân

Khi kết quả (hay biến phụ thuộc) mang bản chất nhị phân - tức là chỉ có2 kếtquảcó thể xảy ra (ví dụ: có và khơng, 0 và 1).

Dù hàm logistic tính tốn một phạm vi giá trị giữa 0 và 1, mơ hình hồi quy nhịphân vẫn sẽlàm trịn kết quảđến các giá trị gần nhất.

Hồi quy logistic đa thức

Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra; tuynhiên, các kết quảkhơng có thứ tự cụ thể.

Hồi quy logistic thứ tự

Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra, nhưngtrong trường hợp này, các kết quảcó thứ tự xác định.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Xây dựng mơ hình hồi quy logistic

Xây dựng mơ hình hồi quy logistic là phương pháp nhằmxác định mối liên hệ

<i>giữa các biến độc lập x với biến phụ thuộc y.</i>

<i>Cho một tần số biến cố x ghi nhận từ n đối tượng, chúng ta có thể tính xác suất</i>

của biến cố đó là:

<i>P =<sup>x</sup>n</i>

<i>P</i> có thể xem là mộtchỉ số đo lường nguy cơ của một biến cố.

Một cách thể hiện nguy cơ khác là<i>odds(tạm dịch odds là</i>khả năng). Khả năngcủa một biến cố được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trênxác suất biến cố không xảy ra:

<i>Odds =<sup>P</sup></i>

1<i>− P</i>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Chỉ số odds

<i>Trong trường hợp đang xét, odds chính là:</i>

<i>Odds =<sup>P (y = 1</sup>|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)P (y = 0|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)</i> <sup>=</sup>

<i>P (y = 1|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)</i>

1<i>− P (y = 1|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)</i>

Trong đó:

<i>x</i><small>1</small><i>, x</i><small>2</small><i>, các biến cố độc lập (như pH, độ cứng, nồng độ sulfate,..)</i>

<i>P (y = 1|x</i><small>1</small><i>, x</i><small>2</small><i>, ) là xác suất để trường hợp nước uống được xảy ra trong cácđiều kiện x</i><small>1</small><i>, x</i><small>2</small><i>,</i>

<i>P (y = 0|x</i><small>1</small><i>, x</i><sub>2</sub><i>, ) là xác suất để trường hợp nước không uống được xảy raxuất hiện trong các điều kiện x</i><small>1</small><i>, x</i><sub>2</sub><i>,</i>

<i>Odds là tỉ lệ xác suất giữa trường hợp y = 1 (nước uống được) với y = 0(nước không uống được) trong các điều kiện x</i><small>1</small><i>, x</i><sub>2</sub><i>,</i>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Chỉ số odds

<i>Chỉ số odds</i>

<i>Odds =<sup>P (y = 1</sup>|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)P (y = 0|x</i><small>1</small><i>, x</i><small>2</small><i>, ...)</i> <sup>=</sup>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Hàm logit của P

<i>Hàm logit của P được định nghĩa là:</i>

<i>logit(P ) = log<small>b</small>(odds) = log<small>b</small></i>

1<i>− P</i>

<i>Trong hầu hết mọi trường hợp, cơ số b thường được dùng là sốe</i>.

<i>Mơ hình hồi quy logistic được phát biểu rằng logit(P ) phụ thuộc vào giá trị củacác biến cố x</i><small>1</small><i>, x</i><sub>2</sub><i>, độc lập (có thể là liên tục hay không liên tục) thông qua hàm</i>

<i>logit(P ) = β</i><sub>0</sub><i>+ β</i><sub>1</sub><i>x</i><sub>1</sub><i>+ β</i><sub>2</sub><i>x</i><sub>2</sub><i>+ ... + β<sub>n</sub>x<sub>n</sub></i> (1)Trong đó:

<i>log(Odds) hay cịn được gọi là logit(p)x</i><sub>1</sub><i>, x</i><sub>2</sub><i>, , x<sub>n</sub></i> là các biến cố độc lập

<i>β</i><sub>1</sub><i>, β</i><sub>2</sub><i>, , β<sub>n</sub>là hệ số tương quan giữa các biến cố độc lập x và biến phụ thuộcy</i>

<i>β</i> là hệ số tự do

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Sử dụng mô hình hồi quy logistic để dự đốn kết quả

Bằng phép biến đổi ta có:

<i>P (y = 1|x</i><small>1</small><i>, x</i><small>2</small><i>, ...) =</i> <sup>1</sup>

<i>1 + e<small>−(β</small></i><small>0</small><i><small>+β</small></i><sub>1</sub><i><small>x</small></i><sub>1</sub><i><small>+β</small></i><sub>2</sub><i><small>x</small></i><sub>2</sub><i><small>+...+β</small><sub>n</sub><small>x</small><sub>n</sub></i><small>)</small> (2)Biểu thức (2) dùng để dự đoán xác suất một sự kiện xảy ra, trong trường hợp này

<i>là khả năng nước uống được trong các điều kiện x</i><small>1</small><i>, x</i><sub>2</sub><i>, ....Hệ số βứng với biến x:</i>

<i>β > 0 : x càng lớn, xác suất để y = 1 càng lớnβ < 0 : x càng lớn, xác suất để y = 1 càng nhỏ</i>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Sử dụng mơ hình hồi quy logistic để dự đốn kết quả

Figure:Đồ thị hàm hồi quy logistic

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Sử dụng mơ hình hồi quy logistic để dự đốn kết quả

Phương pháp

Hồi quy logistic sử dụng hàm phi tuyến tính để xác định xác suất của hai lớp 0 và1:

- Phép biến đổi nhằm dự báo giá trị xác suất ln nằm trong đoạn [0;1].

- Mơ hình hồi quy logistic ước lượng các hệ số cho từng biến độc lập, cho biếtmức độ tác động của từng biến đến xác suất dự đoán. Các hệ số này đượcước lượng sao cho:

Dự báo xác suất lớn cho sự kiện đó xảy raDự báo xác suất nhỏ cho sự kiện đó khơng xảy ra

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Giá trị ngưỡng

<i>Khi dự báo giá trị thực tế Y = 1 hay Y = 0, ta có thể sử dụng một giá trịngưỡng t (0 < t < 1) để so sánh:</i>

<i>P (Y = 1)≥ t thì dự báo Y = 1P (Y = 1) < t thì dự báo Y = 0</i>

Figure:Liên hệ giữa giá trị ngưỡng và dự báo

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Chỉ số Odds Ratio

<i>Mơ hình hồi quy logistic cho thấy xác suất xảy ra của y (P ) phụ thuộc vào giá trịcủa x, vì thế mơ hình trên có thể viết một cách chính xác hơn rằng khả năng xảyra y với điều kiện x là:</i>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Ma trận nhầm lẫn (confusion matrix)

<b>Ma trận nhầm lẫn (confusion matrix) là một bảng biểu thể hiện số lượng các</b>

quan sát được phân loại đúng hoặc sai bởi một mô hình phân loại, so với cácnhãn thực tế của chúng.

<b>Thực tế</b> Âm tính thực Dương tính giả

<b>0</b> (TN - True Negative) (FP - False Positive)

<b>Thực tế</b> Âm tính giả Dương tính thực

<b>1</b> (FN - False Negative) (TP - True Positive)

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>Độ nhạy (Recall):</b>

<i>Recall =<sup>T P</sup>T P + F N</i>

<b>Độ đặc hiệu (Specificity):</b>

<i>Specificity =<sup>T N</sup>T N + F P</i>

<i>Precision =<sup>T P</sup>T P + F P</i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Đường ROC (Receiver Operating Characteristic Curve)

<i><b>Đường cong ROC là một biểu đồ biểu diễn độ nhạy (Sensitivity) và độ đặc hiệu</b></i>

<i>(Specificity) của một mơ hình phân loại dựa trên các giá trị ngưỡng t khác nhau.</i>

Trong hồi quy logistic, ROC được sử dụng đểxác định giá trị ngưỡng tốt nhất

<i>nhằm dự đốn liệu một quan sát mới là “khơng xảy ra” (Y = 0) hay “có xảy ra”(Y = 1).</i>

Figure:Đồ thị đường biểu diễn ROC

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Chỉ số AUC (Area Under the ROC Curve)

AUC là diện tích nằm dưới đường cong ROC. AUC là một đánh giá tổng thể vềhiệu suất của mơ hình phân loại.

dsffdsFigure:AUC - diện tích nằm dưới đường cong ROC (phần tơ màu)

Kết luận

Giá trị AUC càng gần 1 thì mơ hình phân loại càng tốt.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Nội dung trình bày

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Xem cấu trúc dữ liệu

Sử dụng lệnh<b>str</b>để xem cấu trúc dữ liệu.

<b>Kết quả:</b>

Figure:Cấu trúc của bộ dữ liệu

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Đặt tên biến và làm sạch dữ liệu

Đặt lại tên cho các biến

Để đơn giản trong việc gọi các biến, chúng ta đặt lại tên các biến.

<b>colnames(dulieu1 = c("ph", "har", "TDS", "chl", "sul", "EC","TOC", "THMs", "tur", "Potability")</b>

Kiểm tra các dữ liệu khuyết

Để đảm bảo bộ dữ liệu khơng có dữ liệu khuyết, ta tiến hành kiểm tra bộ dữ liệu.

Figure:Kết quả kiểm tra dữ liệu

Như vậy dữ liệu khơng có giá trị khuyết, tiếp tục làm các bước khác.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Đặt biến phân loại

Sử dụng lệnh<b>as.factor</b>để phân biệt biến phân loại Potability với các biến rờirạc khác.

<b>Kết quả:</b>

Figure:Đặt biến phân loại

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Nội dung trình bày

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Tóm tắt dữ liệu

Để có cái nhìn rõ hơn về bộ dữ liệu, đầu tiên chúng ta biểu diễn tổng quan dữ liệucho các biến. Hiển thị tổng quan về dữ liệu bằng cách sử dụng lệnh<b>summary</b>.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Biểu đồ thống kê tần số cho biến Potability

Sau khi lập bảng tần số, ta vẽ được đồ thị thống kê:

<b>Nhận xét: số mẫu nước không uống được chiếm tần suất thấp hơn khoảng 1.8</b>

lần mẫu nước uống được. Điều này cho thấy mẫu dữ liệu không cân bằng.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Đồ thị Boxplot thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Đồ thị Boxplot thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Đồ thị Boxplot thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Đồ thị Boxplot thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Đồ thị Histogram thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Đồ thị Histogram thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Đồ thị Histogram thể hiện phân phối các biến

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Xác định mối tương quan giữa các biến

Figure:Ma trận tương quan giữa các biến

<b>Nhận xét: các hệ số tương quan gần 0 hơn là 1 nên các biến có</b>tương quantrung bình, với<i>|r<small>XY</small>| < 0.8 nên các biến độc lập</i>không xảy ra hiện tượng đa cộngtuyến.

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Xác định mối tương quan giữa các biến

Figure:Đồ thị corrplot của dữ liệu thể hiện hệ số tương quan giữa các biến

</div><span class="text_page_counter">Trang 41</span><div class="page_container" data-page="41">

Nội dung trình bày

</div><span class="text_page_counter">Trang 42</span><div class="page_container" data-page="42">

Xây dựng mơ hình hồi quy logistic

<b>Mục tiêu: xác định có những nhân tố nào và tác động như thế nào đến khả năng</b>

uống được của mẫu nước.

Xét mơ hình hồi quy logistic bao gồm:Biến phụ thuộc: Potability

Biến độc lập: ph, har, TDS, chl, sul, EC, TOC, THMs, turMơ hình được biểu diễn như sau:

<i>logit(P ) = β</i><sub>0</sub><i>+ β</i><sub>1</sub><i>· pH + β</i><small>2</small><i>· har + β</i><small>3</small><i>· T DS + β</i><small>4</small><i>· chl + β</i><small>5</small><i>· sul + β</i><small>6</small><i>· EC +β</i><sub>7</sub><i>· T OC + β</i><small>8</small><i>· T HMs + β</i><small>9</small><i>· tur</i>

</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">

Xây dựng mơ hình hồi quy logistic

Chia dữ liệu ban đầu thành 2 bộ: MXDdùng để xây dựng mô hình (65%) vàMKDdùng để kiểm định mơ hình (35%).

</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">

Xây dựng mơ hình hồi quy logistic

Sử dụng lệnh<b>step</b>và tiến hành xây dựng mơ hình hồi quy tối ưu thông qua

Chỉ số AIC (Akaike information criterion)

AIC = Deviance + 2.(số thơng số)Trong đó, Deviance =<i>−2</i>

<i>[Y<small>i</small>log(p<small>i</small></i>) + (1<i>− Y<small>i</small>)log(1− p<small>i</small></i>)]với:

<i>Y<small>i</small></i>là giá trị quan sát (0,1)

<i>p<small>i</small></i> là xác suất tiên lượng

Đây là một tiêu chí dùng để kiểm tra mơ hình cóphù hợpvới dữ liệu quan sát

<i>khơng (trong hàm glm còn được gọi là Residual Deviance).</i>

</div><span class="text_page_counter">Trang 45</span><div class="page_container" data-page="45">

Xây dựng mơ hình hồi quy logistic

</div><span class="text_page_counter">Trang 46</span><div class="page_container" data-page="46">

Xây dựng mơ hình hồi quy logistic

</div><span class="text_page_counter">Trang 47</span><div class="page_container" data-page="47">

Xây dựng mơ hình hồi quy logistic

</div><span class="text_page_counter">Trang 48</span><div class="page_container" data-page="48">

Xây dựng mơ hình hồi quy logistic

Sau 8 bước tìm mơ hình bằng câu lệnh trên, độ phù hợp của mơ hình càng đượccải thiện khi lần lượt loại bỏ các biến khơng quan trọng nhất ra khỏi mơ hình chođến khi một điều kiện dừng lại được đạt được.

R dừng lại với mơ hìnhgồm 2 biến har và TOCvì cógiá trị AIC thấp nhất.Xem tóm tắt kết quả bằng lệnh<b>summary</b>:

</div><span class="text_page_counter">Trang 49</span><div class="page_container" data-page="49">

Xây dựng mơ hình hồi quy logistic

Mơ hình tối ưu có phương trình dạng:

<i>logit(P ) = β</i><sub>0</sub><i>+ β</i><sub>1</sub><i>· har + β</i><small>2</small><i>· T OC</i>

Từ kết quả phân tích ta thu được: ˆ<i>β</i><sub>0</sub><i>= 63.03, ˆβ</i><sub>1</sub>=<i>−0.29, ˆβ</i><sub>2</sub>=<i>−0.19</i>

Ta đưa ra giả thuyết kiểm định hệ số ˆ<i>β<sub>i</sub></i>:

<i>H</i><small>0</small>: ˆ<i>β<small>i</small>= 0 với i = 0, 1, 2H</i><small>1</small>: ˆ<i>β<small>i</small≯= 0 với i = 0, 1, 2</i>

<i>Tiêu chuẩn kiểm định: z value =<sup>β</sup></i><sup>ˆ</sup><i><sup>i</sup>− 0s×<sup>√</sup>n</i>

<i>P-value (mức ý nghĩa nhỏ nhất tại đó giả thiết H</i><small>0</small><i>bị bác bỏ): P (z value >|Z<small>q</small>s|)</i>

</div><span class="text_page_counter">Trang 50</span><div class="page_container" data-page="50">

Xây dựng mơ hình hồi quy logistic

Thơng thường, ngun tắc kiểm định<small>1</small>:

<i>0, 1≤ P − value: thừa nhận H</i><small>0</small>

<i>0, 05≤ P − value < 0, 1: cân nhắc cẩn thận trước khi bác bỏ H</i><small>0</small>

<i>0, 01≤ P − value < 0, 05: nghiêng về hướng bác bỏ H</i><small>0</small>

<i>0, 001≤ P − value < 0, 01: có thể ít băn khoăn khi bác bỏ H</i><small>0</small>

<i>P− value < 0, 001: có thể hồn tồn yên tâm khi bác bỏ H</i><small>0</small>

Nhận xét

<i>Các giá trị P-value (Pr(>|z|)) của các hệ số ˆβ</i><small>0</small><i>, ˆβ</i><small>1</small><i>, ˆβ</i><small>2</small><i>lần lượt là 2.83× 10<small>−7</small></i>,

<i>3.22× 10<small>−7</small><sub>, 0.0283 đều</sub>nhỏ hơn mức ý nghĩa α = 5%. Như vậy có đủ bằng</i>

chứng để kết luận rằng<i><sub>β</sub></i>ˆ<i><sub>i</sub≯= 0 hay ˆβ<small>i</small></i> đều có ý nghĩa thống kê.

<small>1</small>

</div><span class="text_page_counter">Trang 51</span><div class="page_container" data-page="51">

<i>Tìm khoảng tin cậy 95% của βi</i>

<i>Khoảng tin cậy 95% của β</i><small>0</small> <i>là (42.567, 91.250), của β</i><small>1</small> là (<i>−0.424, −0.197)và của β</i><small>2</small> là (<i>−0.376, −0.028).</i>

</div><span class="text_page_counter">Trang 52</span><div class="page_container" data-page="52">

Tìm khoảng tin cậy 95% của Odds Ratio (OR)

<b>Nhập:exp(cbind(OR = coef(mohinh) , confint(mohinh)))</b>

<b>Nhận xét: Tỉ số odds (OR) của biến</b>har<i>là 0.747 nghĩa là khi độ cứng tăng lên 1</i>

mg/L sẽ làm khả năng nước uống được giảm 1<i>− 0.747 = 0.253 hay 25.3%.</i>

Tương tự đối với biếnTOC.

</div><span class="text_page_counter">Trang 53</span><div class="page_container" data-page="53">

Kiểm tra tính chính xác của mơ hình

Chúng ta sử dụng mơ hình tối ưu nhất thu được từ mẫu xây dựng để dự đoánbiến Potability của mẫu kiểm định.

</div><span class="text_page_counter">Trang 54</span><div class="page_container" data-page="54">

Lập bảng so sánh kết quả dự đốn

Dịng Observation là dữ liệu quan sát từ thực tế, dịng Prediction là giá trị ướctính từ mơ hình.

</div><span class="text_page_counter">Trang 55</span><div class="page_container" data-page="55">

Đánh giá mơ hình - Sử dụng ma trận nhầm lẫn

</div><span class="text_page_counter">Trang 56</span><div class="page_container" data-page="56">

114 <i><sup>= 0.0965</sup></i>

</div><span class="text_page_counter">Trang 57</span><div class="page_container" data-page="57">

Đánh giá mơ hình - Sử dụng ma trận nhầm lẫn

Ta cụ thể hóa ma trận nhầm lẫn như sau:

Độ đặc hiệu (specificity) = <sup>35</sup>

35 + 6 <i><sup>= 0.8537 (tỉ lệ âm tính thật)</sup></i>=> Tỉ lệ dương tính giả = 1 - Độ đặc hiệu = 0.1463

</div><span class="text_page_counter">Trang 58</span><div class="page_container" data-page="58">

Đánh giá mơ hình - Sử dụng chỉ số AUC

</div><span class="text_page_counter">Trang 59</span><div class="page_container" data-page="59">

Đánh giá mơ hình - Sử dụng chỉ số AUC

<b>Nhận xét: đường cong ROC của mơ hình này gần với đường ROC tối ưu nên có</b>

thể dự đốn mơ hình có hiệu suất cao. Ta tính giá trị chỉ số AUC để có được kếtluận.

Nhận xét

Giá trị AUC - phần diện tích phía dưới ROC là0.9736, cho thấy mơ hình có khảnăng dự đốn cao.

</div><span class="text_page_counter">Trang 60</span><div class="page_container" data-page="60">

Nội dung trình bày

</div><span class="text_page_counter">Trang 61</span><div class="page_container" data-page="61">

Mơ hình nhóm tìm được đã thỏa các tiêu chuẩn trên cũng như các tiêu chíđể kiểm tra mơ hình ở phần trước với kết quả tương đối cao

<small>2</small><i><small>Nguyễn Văn Tuấn, (2014). Phân tích dữ liệu với R. NXB Tổng hợp TPHCM</small></i>

</div><span class="text_page_counter">Trang 62</span><div class="page_container" data-page="62">

Đề xuất mở rộng nghiên cứu

Thu thập dữ liệu mới

Sử dụng dữ liệu từ các nguồn khác nhauThử nghiệm thêm tham số

Kết hợp mô hình logistic với các phương pháp khác

</div><span class="text_page_counter">Trang 63</span><div class="page_container" data-page="63">

Nội dung trình bày

</div><span class="text_page_counter">Trang 64</span><div class="page_container" data-page="64">

Tài liệu tham khảo

[1] <i>Nguyễn Đình Huy, Đậu Thế Cấp, Lê Xuân Đại, Giáo trình xác suất và thốngkê, Nhà xuất bán Đại học Quốc gia TP. Hồ Chí Minh, 2022.</i>

[2] <i>Hosmer, David W.; Lemeshow, Stanley, Applied Logistic Regression, New</i>

York, 2013.

[3] <i>Dục Đoàn Trình, Logistic Regression trong R, 2022.</i>

[4] <i>Nguyễn Văn Tuấn, Phân tích hồi quy logistic.</i>

[5] <i>Peter Dalgaard, Introduction Statistics with R, Second Edition, Springer,</i>

[6] <i>Applied Statistics with R, 2020.</i>

[7] <i>Dục Đoàn Trình, Confusion Matrix là gì? Các yếu tố quan trọng, 2021.</i>

</div><span class="text_page_counter">Trang 65</span><div class="page_container" data-page="65">

Thank you for your attention!

</div>

×