Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.18 MB, 21 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
ĐỀ TÀI MÔN KHOA HỌC DỮ LIỆU
XÂY DỰNG MƠ HÌNH DỰ BÁO KHẢ NĂNG BỊ TỬ VONG DO SUY TIM
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">2.1 Mô tả tổng quát dữ liệu ... 6
2.2. Sơ lược các thuộc tính lựa chọn đưa vào mơ hình: ... 7
3. KIỂM ĐỊNH MƠ HÌNH ... 9
Hình 3. 4. Kết quả kiểm định mơ hình (k =5) ...Error! Bookmark not defined. 4. ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH ... 10
5. TRIỂN KHAI MƠ HÌNH ... 15
5.1. Ý nghĩa mơ hình ... 15
5.2. Đánh giá hiệu quả kinh tế ... 17
5.3. Hạn chế, kết luận của nhóm làm đề tài ...18
DANH MỤC TÀI LIỆU THAM KHẢO ...19
ĐÁNH GIÁ ĐÓNG GÓP ... 20
LỜI CẢM ƠN
Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Huỳnh Văn Đức. Chúng em vẫn nhớ việc ghé sát tai để chúng em hỏi khi thầy không nghe rõ,
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">giảng giải một cách nhiệt tình khi chúng em khơng hiểu và hỏi lại. Những lúc như vậy em lại càng cảm thầy quý mến thầy hơn rất nhiều. Chúng em vô cùng biết ơn và trân trọng khoảng thời gian 5 buổi học được đồng hành cùng thầy.
Trong quá trình hồn thành dự án này, chắc chắn khơng thể tránh khỏi những hạn chế và sai sót. Chúng em mong sẽ nhận được những góp ý chân thành từ thầy để các đề tài nghiên cứu sau này sẽ được hoàn thiện hơn.
Thương chúc thầy nhiều sức khỏe, hạnh phúc và thành công trên con đường sự nghiệp giảng dạy.
MỤC LỤC HÌNH
Hình 2.1. Bảng dữ liệu ... 7
Hình 3.1. Dữ liệu đầu vào ...9
Bảng 3.2. Bảng dữ liệu ...9
Hình 3.3. Kiểm định cách mơ hình phân lớp ...13
Hình 3. 4. Kết quả kiểm định mơ hình (k=5) ...Error! Bookmark not defined. Hình 3.5. Kết quả thu được từ ma trận nhầm lẫn với mơ hình cây quyết định(k =5) ...
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Hình 3.6. Kết quả thu được từ ma trận nhầm lẫn với mơ hình SVM (k=5)Error! Bookmark not defined.
Hình 3.7. Kết quả thu được từ ma trận nhầm lẫn với mơ hình Neural Network (k =5) ...Error! Bookmark not defined. Hình 3.8. Kết quả thu được từ ma trận nhầm lẫn với mơ hình Logistic Regression (k =5) ...Error! Bookmark not defined.
Hình 4.1. Áp dụng mơ hình Logistic Regression cho tập dữ liệu dự báo ... 14
Hình 4.2. Kết quả dự báo bằng mơ hình Logistic Regression phần 1 ... 15
Hình 4.3. Kết quả dự báo bằng mơ hình Logistic Regression phần 2 ... 15
Hình 5.1.1. Thống kê tuổi và giới tính có nguy cơ tử vong do bệnh suy tim ... 16
Hình 5.1.2. Thống kê phân suất tống máu và tiền huyết áp cao ...16
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">1. TÓM TẮT
Bài khoa học dữ liệu đề tàidự đoán khả năng tử vong do bệnh suy timlà một bài nghiên cứu sử dụng các phương pháp học máy để xây dựng các mơ hình dự đốn tỷ lệ tử vong của bệnh nhân suy tim. Bài nghiên cứu có những nội dung chính sau: Giới thiệu: Bài nghiên cứu trình bày về tầm quan trọng của việc dự đoán khả năng tử vong do bệnh suy tim, các yếu tố ảnh hưởng đến khả năng này, và các phương pháp học máy có thể áp dụng để giải quyết bài tốn này. Từ đó, giảm thiểu chi phí kinh tế xã hội.
Phương pháp: Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction gồm 299 quan sát và 13 biến, trong đó biến mục tiêu là DEATH_EVENT. Bài nghiên cứu tiến hành các bước tiền xử lý dữ liệu, phân tích thống kê mơ tả, phân tích tương quan, và chọn lọc biến. Sau đó, bài nghiên cứu áp dụng thuật toán học máy là Logistic Regression để huấn luyện và đánh giá các mô hình dự đốn.
Kết quả: Bài nghiên cứu so sánh hiệu suất của các mơ hình dựa trên các chỉ số như Accuracy, Precision, Recall, F1-score, và AUC. Mơ hình này cũng cho thấy được những biến quan trọng nhất trong việc dự đoán khả năng tử vong là serum_creatinine, ejection_fraction, và age.
Kết luận: Bài nghiên cứu kết luận rằng việc sử dụng các phương pháp học máy có thể giúp cải thiện khả năng dự đoán tỷ lệ tử vong của bệnh nhân suy tim, và đóng góp vào việc hỗ trợ quyết định lâm sàng cho các bác sĩ.
2. GIỚI THIỆU 1.2 Tổng quan đề tài
Bệnh suy tim là một căn bệnh vô cùng nguy hiểm, không chỉ khiến hoạt động bơm máu của tim khó khăn hơn mà cịn khiến người bệnh cảm thầy khó thở, mệt mỏi.
Theo thống kê hiện nay trên thế giới đang có khoảng 26 triệu người mắc bệnh suy tim và tỷ lệ này đang ngày càng tăng lên do sự già hóa dân số, cũng như các ảnh hưởng từ các bệnh tim mạch. Tại Việt Nam hiện nay tuy chưa có số liệu chính thức nhưng ước tính có khoảng 320.000 đến 1,6 triệu người (khoảng 1-1.5% dân số) mắc suy tim và tỷ lệ tử vong sau 5 năm lên tới 50%, cao hơn cả bệnh ung thư. Trong những thập kỷ gần đây, các phương pháp điều trị và thiết bị hỗ trợ suy tim đã cải thiện một cách đáng kể giúp giảm tỷ lệ tử vong và nâng cao chất lượng cuộc sống cho bệnh nhân suy tim. Tuy nhiên, suy tim trong giai đoạn khởi phát thường không gây nhiều dấu hiệu bất thường, với những người khơng hay để ý đến sức khỏe của mình hoặc chủ quan không đi khám sức khỏe định kỳ thì rất khó phát hiện bệnh từ sớm dẫn đến bệnh trở nặng, phải đối mặt với các biến chứng khơng mong muốn.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Suy tim có 4 giai đoạn, nếu để đến giai đoạn cuối phải ghép tim, thay tim thì chi phí vơ cùng tốn kém. Nếu phải vào phòng hồi sức cấp cứu, mỗi ngày có thể tiêu tốn 10 – 20 triệu.
Vì vậy, chúng em quyết định thực hiện dự án nghiên cứu “Xây dựng mơ hình dự báo khả năng bị suy tim” để dự đoán khả năng bị tử vong do mắc bệnh suy tim ở các bệnh nhân có các điều kiện nhân khẩu học và bệnh lý khác nhau. Dựa trên các kiến thức chuyên ngành đã học về phân lớp dữ liệu, cùng với sự hỗ trợ của phần mềm Orange, nhóm chúng em sẽ nỗ lực kiểm định và xây dựng được một mơ hình dự báo tối ưu nhất với độ chính xác cao nhất. Từ đó, giảm thiểu trương hợp bị suy tim đến tỉ lệ thấp nhất, giảm thiểu chi phí kinh tế xã hội.
1.2 Mục tiêu đề tài
Mục tiêu của bài khoa học dữ liệu đề tài dự đoán khả năng tử vong do bệnh suy tim là để xây dựng các mơ hình học máy có thể dự đốn chính xác tỷ lệ tử vong của bệnh nhân suy tim, và đóng góp vào việc hỗ trợ quyết định lâm sàng cho các bác sĩ. Bài nghiên cứu cũng nhằm tìm ra những yếu tố ảnh hưởng đến khả năng tử vong của bệnh nhân, và so sánh hiệu suất của các thuật toán học máy khác nhau trong bài toán này. Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction để thực hiện các bước nghiên cứu.
1.3 Phương thức thực hiện
Để đạt được mục tiêu trên, dự án tập trung thực hiện các nhiệm vụ sau: - Sử dụng bộ dữ liệu thu thập được từ Kaggle và mô tả tổng quát về bộ dữ liệu này - Nghiên cứu các yếu tố có khả năng gây ra tử vong do bệnh suy tim
- Lựa chọn và xây dựng mô hình phù hợp nhất cho việc dự đốn khả năng bị tử vong do suy tim
- Kiểm định độ chính xác của mơ hình dự báo đã lựa chọn 2. THU THẬP VÀ LÀM SẠCH DỮ LIỆU
2.1 Mô tả tổng quát dữ liệu
Trong dự án này, nhóm sử dụng bộ dữ liệu thu thập được từKaggle.Bộ dữ liệu này được sử dụng để dự đốn liệu một bệnh nhân có khả năng bị suy tim hay không dựa trên các yếu tố đo lường đặc trưng có tác động đến khả năng bị suy tim ở một người. Bộ dữ liệu được thu thập từ thông tin của các bệnh nhân, gồm 299 quan sát với 13 thuộc tính cơ bản. Mỗi hàng trong dữ liệu cung cấp thông tin trực quan liên quan về bệnh nhân.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Hình 2.1. Bảng dữ liệu
2.2. Sơ lược các thuộc tính lựa chọn đưa vào mơ hình:
Bộ dữ liệu dự đốn khả năng bị bệnh suy tim gồm 13 thuộc tính đặc trưng và cơ bản 1. Thuộc tính đầu tiên là “urmur”, đây là biến thể hiện độ tuổi của bệnh nhân. 2. Thuộc tính thứ hai là “anemia”, đây là biến thể hiện tiền sử bệnh thiếu máu của bệnh nhân. Trong bộ dữ liệu, biến “anemia” gồm 2 biến là 0 và 1 tương ứng với “Yes” với bệnh nhân bị thiếu máu và “No” với bệnh nhân không bị thiếu máu. Thiếu máu không phải là nguyên nhân chủ yếu dẫn đến bệnh suy tim, nhưng thiếu máu lại là yếu tố khiến bệnh suy tim trở nên nặng hơn. Khi thiếu máu cơ tim có thể ảnh hưởng đến cơ tim, giảm khả năng bơm máu đến các cơ quan trong cơ thể. Tổn thương này khiến tim ngày càng suy yếu, khơng cịn bơm máu hiệu quả.
3. Thuộc tính thứ ba là “creatinine_phosphokinase”, là biến thể hiện nồng độ creatin kinase trong máu. Creatin kinase. gọi tắt là CK, là một loại enzym. Enzym CK được xét nghiệm trong các thử nghiệm máu như là một dấu hiệu của bệnh suy tim. Nồng độ CK càng cao thì có nghĩa là có thể mơ cơ vân, cơ tim hoặc mô não đang bị tổn thương hoặc stress.
4. Thuộc tính thứ tư là “diabetes”, là biến thể hiện tiền sử bệnh tiểu đường của bệnh nhân hay khơng, gồm có 2 biến là 0 và 1 lần lượt là “Yes” với bệnh nhân có tiền sử về bệnh tiểu đường và “No” với bệnh nhân không có tiền sử về bệnh tiểu đường. Theo định nghĩa, bệnh tiểu đường là bệnh gây suy giảm bài tiết insulin và nồng độ kháng insulin ngoại vi thầy đổi dẫn đến tăng đường huyết. Đặc biệt, bệnh tiểu đường kết hợp với bệnh mạch vành hoặc hội chứng chuyển hoá là nguyên nhân hàng đầu dẫn đến bệnh suy tim ở các nước phát triển. 5. Thuộc tính thứ năm là “ejection_fraction”, là biến chỉ khả năng bơm máu của
tim. Ejection fraction, còn được gọi là EF, là phân suất tống máu hay khả năng bơm máu của tim. Ở một người mạnh khỏe, chỉ số EF thường dao động từ 50 -70%, đây được coi là giá trị lý tưởng của sức bơm máu của tim vì nó cung cấp một lượng máu vừa đủ với nhu cầu của cơ thể. Nếu phân suất tống máu thấp dưới 50%, điều này báo hiệu chức năng bơm máu của tim suy giảm, tim khơng cịn khả năng bơm máu đủ với nhu cầu của cơ thể. Đây có thể là một dấu hiệu của bệnh nhân mắc suy tim.
6. Thuộc tính thứ sáu là "tekanan_darah_tinggi”, là biến thể hiện tiền sử bệnh tăng huyết áp của bệnh nhân, với 2 biến lần lượt là 0 với bệnh nhân bị huyết áp cao và 1 với bệnh nhân không bị huyết áp cao. Huyết áp cao là một trong
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">những nguyên nhân chủ yếu dẫn đến các bệnh về tim. Theo thống kê của Hiệp hội Tim mạch Hoa Kỳ: 90% trường hợp suy tim có tiền căn tăng huyết áp. 7. Thuộc tính thứ bảy là “platelets”, là biến thể hiện số lượng tiểu cầu trong một
thể tích máu. Bình thường số lượng tiểu cầu trong máu thường vào khoảng 150.000 đến 400.000 tiểu cầu/μl máu (1 μl = 1 mm3), trung bình là 200.000 tiểu cầu/μl máu. Mỗi 1 lít máu sẽ có khoảng 150 – 400 tỷ tế bào tiểu cầu. Số lượng tiểu cầu quá thấp có thể gây ra chảy máu. Cịn số lượng tiểu cầu q cao sẽ hình thành cục máu đơng, làm cản trở mạch máu có thể gây nên đột quỵ, nhồi máu cơ tim, nghẽn mạch phổi, tắc nghẽn mạch máu,... Bộ dữ liệu gồm đa dạng số lượng tiểu cầu. Vì vậy, có thể thầy, số lượng tiểu cầu là một yếu tố quan trọng tác động đến khả năng mắc bệnh suy tim.
8. Thuộc tính thứ tám là “serum_creatinine”, là biến thể hiện định lượng Creatinin máu của bệnh nhân. Dữ liệu gồm nhiều biến từ 0.5 đến 9.4. Vì vậy, biểu hiện định lượng creatinin cũng là một phát hiện sớm dự báo bệnh nhân đang bị suy tim. Nồng độ creatinin máu tăng cao thể hiện tình trạng chức năng thận suy giảm, các bệnh lý gây suy thận trước thận (suy tim) hoặc mắc các bệnh lý về thận.
9. Thuộc tính thứ chín là “serum_sodium”, là biến thể hiện nồng độ các ion Na+, K+, Cl-, HCO3- và tổng lượng CO2 trong máu của bệnh nhân. Dữ liệu gồm nhiều biến. Xét nghiệm điện giải đồ hay xét nghiệm chất điện giải sẽ là cơ sở giúp cho các bác sĩ có thể dễ dàng theo dõi điều trị cũng như chẩn đoán những bệnh lý nhất định như tăng huyết áp hay những người bệnh bị suy tim, gan, thận. Vì vậy, đây cũng là một yếu tố điển hình tác động đến khả năng bị bệnh suy tim của bệnh nhân.
10. Thuộc tính thứ mười là “Jenis_kelamin”, là biến thể hiện giới tính của bệnh nhân. Dữ liệu gồm 2 biến là “1” với những bệnh nhân có giới tính nam và “0” với những bệnh nhân có giới tính nữ. Theo nghiên cứu, suy tim gặp ở nam giới nhiều hơn nữ giới. Tuy nhiên, phụ nữ có khả năng tử vong do suy tim cao hơn.
11. Thuộc tính thứ mười một là “smoking”, là biến thể hiện tình trạng hút thuốc ở các bệnh nhân. Dữ liệu gồm 2 biến là “0” với những bệnh nhân có biểu hiện không hút thuốc và “1” với những bệnh nhân có hút thuốc. Theo các chuyên gia, triệu chứng hay hút thuốc kéo dài là sự cảnh báo về một vấn đề sức khỏe tiềm ẩn, điển hình nhất chính là suy tim.
12. Thuộc tính thứ mười hai là “time”, đây là biến thể hiện thời gian của bệnh nhân. Dữ liệu gồm nhiều biến từ 4 đến 285.
13. Thuộc tính cuối cùng là “Peristiwa Kematian”, đây là biến thể hiện sự kiện tử vong của bệnh nhân. Đây cũng là biến kết quả trong mơ hình dự đốn khả năng mắc bệnh suy tim. Dữ liệu gồm 2 biến là “Meninggal” và “Hidup”. Trong đó, “Meninggal” là kết quả bệnh nhân tử vong với bệnh suy tim và “Hidup” là kết quả bệnh nhân còn sống với bệnh suy tim.
Kết luận, nhóm chúng em nhận thấy bộ dữ liệu khá đầy đủ để có thể đưa vào nghiên cứu.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">2.3 Lựa chọn target:
Vì nghiên cứu về tình trạng tử vong do suy tim, chúng em chọn “Peristiwa Kematian” – sự kiện tử vong của bệnh nhân là target cho bài.
3. KIỂM ĐỊNH MƠ HÌNH
Sau khi có bộ dữ liệu hồn chỉnh, nhóm sẽ tiến hành bước kiểm định mơ hình. Đây là bảng dữ liệu đầu vào, khơng có biến nào bị bỏ qua vì các biến tham gia đều là những biến có tác động đến kết quả kiểm định xem một bệnh nhân có nguy cơ bị mắc bệnh suy tim hay khơng.Và trong mơ hình này, nhóm sẽ chọn biến “Peristiwa_Kematian” là biến mục tiêu.
Hình 3.1. Dữ liệu đầu vào
Bảng 3.2. Bảng dữ liệu
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">4. ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH
Nhóm đã thử kiểm định mơ hình với k =5. Các kết quả kiểm định mơ hình mà nhóm thu được:
Hình 4.1. Kết quả kiểm định mơ hình (k=5)
Kết quả của 2 phương pháp cũng khá giống nhau và đều khá cao, chênh lệch chỉ số tầm 0.01 – 0.15. Tuy nhiên, nhóm sẽ chọn mơ hình Logistic Regression để dự báo cho danh sách bệnh án mới.
Với các lý do sau:
1. Theo tìm hiểu, nhóm em nhận thấy chỉ số Recall là chỉ số hết sức quan trong trong phân loại và dự báo các chứng bệnh trong y tế. Vì bất cứ triệu chứng hay trường hợp nghi ngờ nào, dù kết quả đúng hay sai đều cần có phịng ngừa, phịng ngừa bệnh tật khơng mất mát gì cả. Thà nhầm một người khơng bị bệnh là bị bệnh cịn hơn chuẩn đốn một người bị bệnh là khơng bị bệnh. => Nhóm 8 sẽ chọn mơ hình để phân cụm là mơ hình có chỉ số RECALL cao nhất.
2. Tất cả các chỉ số dưới đây đều hướng theo quy tắc càng tiến về 1 càng tốt. - Chỉ số AUC – độ chính xác tổng qt “(TP+TN)/All”: Chỉ số AUC của mơ hình SVM, mơ hình Logistic Regression lần lượt là 0.851, 0.850.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">- Chỉ số CA: Mơ hình SVM và Logistic Regression có chỉ số CA cao lần lượt là 0.783 và 0.813.- Vì mơ hình dự báo khả năng bị suy tim là mơ hình phân lớp nhị phân, nên
nhóm sẽ khơng xét chỉ số F1 của các mơ hình.
- Chỉ số Precision – độ chính xác của mơ hình “TP/(TP+FP)” : Mơ hình SVM và Logistic Regression có chỉ số Precision cao là 0.776 và 0.808. - Chỉ số Recall – Độ bao phủ đối với các dự đốn mơ hình “TP/(TP+FN)”: Mơ hình SVM và Logistic Regression đều có chỉ số Recall cao là 0.783 và 0.813.
Tóm lại, nhóm nhận thấy kết quả của Logistic Regression có cao hơn SVM về tất cả các chỉ số, kể cả RECALL. Vì vậy, nhóm chọn mơ hình Logistic Regression tạm thời được xem là mơ hình tốt nhất để ứng dụng cho việc xây dựng mơ hình dự báo. Tuy nhiên, vì bài tốn dự báo mà nhóm em lựa chọn có ý nghĩa thực tiễn về rủi ro rất cao, nếu kết quả dự đoán suy tim cho bệnh nhân bị sai lệch sẽ dẫn đến những hệ lụy vơ cùng đau lịng. Vì vậy, nhóm em cần sử dụng thêm phương pháp ma trận nhầm lẫn để có căn cứ chắc chắn hơn về mơ hình tốt nhất.
Hình 4.2. Kết quả thu được từ ma trận nhầm lẫn với mơ hình SVM (k=5)
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Hình 4.3. Kết quả thu được từ ma trận nhầm lẫn với mơ hình Logistic Regression Cụ thể, theo nhóm tìm hiểu: Trong y tế, chỉ số FN đóng vai trị cực kỳ quan trọng, bởi vì chỉ số FN thể hiện số lượng các dự đoán sai lệch một cách gián tiếp, có nghĩa là “khi mơ hình dự đốn một người khơng bị tử vong do bệnh suy tim nhưng thực tế người đó bị tử vong do suy tim, tức là việc không chọn trường hợp bị suy tim là sai”.
Điều này cực kỳ nguy hiểm, bởi vì kết quả sai lệch đó sẽ làm sai lệch chuẩn đốn. Vì vậy, mơ hình có chỉ số FN thấp nhất sẽ là một mơ hình dự báo tốt nhất cho trường hợp này.
Dựa trên những so sánh và lập luận này và căn cứ vào các chỉ số đánh giá phía trên, có thể thầy mơ hình Logistic regression là mơ hình có các chỉ số đánh giá tốt nhất và cũng cho kết quả là mơ hình có tỷ lệ dự báo sai sót thấp nhất. Vì vậy, mơ hình logistic regression sẽ được chọn làm mơ hình dự báo khả năng bị tử vong do bệnh suy tim của bệnh nhân. Đây là các bước xây dựng mơ hình dự báo logistic regression cho tập dữ liệu bệnh nhân cần dự báo.
Tập dữ liệu dự báo gồm thông tin của 51 bệnh nhân, đa dạng các độ tuổi và cũng gồm các biến chứa các thông tin liên quan đến các yếu tố tác động đến tử vong do suy tim. Sau khi thông tin tập dữ liệu dự báo được truyền vào mơ hình Logistic Regression, trong 51 bệnh nhân cần dự báo về khả năng bị tử vong do suy tim, có 23 bệnh nhân cho kết quả dự báo có thể tử vong do suy tim và 28 bệnh nhân không tử vong do suy tim. Dựa trên những phân tích và lập luận trước đó, có thể tin tưởng rằng mơ hình Logistic Regression là một mơ hình rất tối ưu, cho kết quả dự báo có
</div>