BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THƠNG TIN
--------
BÀI TẬP LỚN
TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI: XÂY DỰNG CÂY QUYẾT ĐỊNH TÌM HIỂU
VỀ BỆNH VIÊM TAI-MŨI-HỌNG
Giáo viên hướng dẫn:
Lớp: Kỹ Thuật Phần Mềm 02 – DHCNHN – K12
Sinh viên thực hiện:
• Nguyễn Thị Hải
• Nguyễn Ngọc Hải
• Nguyễn Văn Hải
• Hà Quang Hải
• Ninh Khương Duy
• Nguyễn Thị Hà Giang
• Nguyễn Minh Hải
LỜI MỞ ĐẦU
AI được ứng dụng trong rất nhiều hoạt động và lĩnh vực
khác nhau. Đối với hoạt động nghiên cứu cơ bản trong các lĩnh
vực toán học, vật lý lượng tử, sinh học di truyền, hóa học phân
tích, AI giúp giải phương trình vi phân, đạo hàm riêng, tính tốn
mơ phỏng q trình tương tác ở mức lượng tử, mô phỏng tái tạo
thành công lỗ hổng đen, tối ưu hóa Gen, xác định các marker
cho điều chỉnh Gen, thiết kế thuốc trên Gen, xác định cấu trúc
hóa học, đề xuất các kết hợp… Đối với hoạt động nghiên cứu
ứng dụng, với các thành tựu trong các lĩnh vực như xã hội, quân
sự, kinh tế, giao thông, y tế… AI đã hỗ trợ bác sỹ chẩn đốn
bệnh, phân tích hình ảnh y khoa, dự báo dịch bệnh, xem xét tác
động chính sách…
Hiện nay rất nhiều cơng ty, từ cơng ty nhỏ đến công ty
hàng đầu trên thế giới đã áp dụng AI để xác định khách hàng
tiềm năng, nhóm nhân viên rời bỏ công ty, phát triển sản phẩm,
tối ưu vận chuyển, dự đoán xu thế nhu cầu khách hàng, đề xuất
sản phẩm cần thiết cho người dùng… làm công cụ hữu dụng để
tăng khả năng kinh doanh, cũng như quản lý và cạnh tranh cho
doanh nghiệp của mình.
Trong xã hội ngày nay căn bệnh viêm tai-mũi-họng dần trở nên
phổ biến hơn, do vậy ngày càng rất nhiều người phải phiền
phức bởi căn bệnh này. Bệnh viêm tai-mũi-họng do nhiều
nguyên nhân gây ra và gây ảnh hưởng trực tiếp đến sức khỏe
của bệnh nhân. Nhận thấy điều này nên nhóm quyết định chọn
đề tài Bài tập lớn mơn Trí tuệ nhân tạo là xây dựng cây quyết
định để tìm hiểu về bệnh này. Dựa vào mơ hình cây quyết định
này ta có thể tìm hiểu được những ngun nhân chính gây ra
bệnh từ đấy có thể phịng tránh mắc bệnh.
MỤC LỤC
PHẦN I: KHÁI NIỆM, ỨNG DỤNG TRÍ TUỆ NHÂN TẠO
1.0. Khái niệm Trí Tuệ Nhân Tạo
Ngày nay cơng nghệ thông tin được ứng dụng trong hầu hết
các lĩnh vực trong đời sống. Bên cạnh những cách làm truyền
thống cũng đã xuất hiện những kỹ thuật mới được áp dụng và
đem lại hiệu quả đáng kể. Với lượng thông tin lớn, với những bài
tốn có độ phức tạp cao, vấn đề đặt ra là làm thế nào để phát
hiện tri thức, đưa ra lời giải mà thời gian thực hiện có thể chấp
nhận được . Trong 1 số kỹ thuật được sử dụng đó chính là Trí
Tuệ Nhân Tạo.
Trí tuệ nhân tạo là trí thơng minh của máy do con người tạo
ra. Ngay từ khi chiếc máy tính điện tử đầu tiên ra đời, các nhà
khoa học máy tính đã hướng đến phát hiển hệ thống máy tính
(gồm cả phần cứng và phần mềm) sao cho nó có khả năng
thơng minh như loài người. Mặc dù cho đến nay, theo quan
niệm của người viết, ước mơ này vẫn còn xa mới thành hiện
thực, tuy vậy những thành tựu đạt được cũng không hề nhỏ:
chúng ta đã làm được các hệ thống (phần mềm chơi cờ vua
chạy trên siêu máy tinh GeneBlue) có thể thắng được vua cờ
thế giới; chúng ta đã làm được các phần mềm có thể chứng
minh được các bài tốn hình học; v.v. Hay nói cách khác, trong
một số lĩnh vực, máy tính có thể thực hiện tốt hơn hoặc tương
đương con người (tất nhiên không phải tất cả các lĩnh vực). Đó
chính là các hệ thống thơng minh. Có nhiều cách tiếp cận để
làm ra trí thơng minh của máy (hay là trí tuệ nhân tạo), chẳng
hạn là nghiên cứu cách bộ não người sản sinh ra trí thơng minh
của lồi người như thế nào rồi ta bắt chước nguyên lý đó, nhưng
cũng có những cách khác sử dụng nguyên lý hoàn toàn khác với
cách sản sinh ra trí thơng minh của lồi người mà vẫn làm ra cái
máy thông minh như hoặc hơn người; cũng giống như máy bay
hiện nay bay tốt hơn con chim do nó có cơ chế bay khơng phải
là giống như cơ chế bay của con chim. Như vậy, trí tuệ nhân tạo
ở đây là nói đến khả năng của máy khi thực hiện các công việc
mà con người thường phải xử lý; và khi dáng vẻ ứng xử hoặc kết
quả thực hiện của máy là tốt hơn hoặc tương đương với con
người thì ta gọi đó là máy thơng minh hay máy đó có trí thơng
minh. Hay nói cách khác, đánh giá sự thông minh của máy
không phải dựa trên nguyên lý nó thực hiện nhiệm vụ đó có
giống cách con người thực hiện hay không mà dựa trên kết quả
hoặc dáng vẻ ứng xử bên ngồi của nó có giống với kết quả
hoặc dáng vẻ ứng xử của con người hay không. Các nhiệm vụ
của con người thường xuyên phải thực hiện là: giải bài tốn (tìm
kiếm, chứng minh, lập luận), học, giao tiếp, thể hiện cảm xúc,
thích nghi với môi trường xung quanh, v.v., và dựa trên kết quả
thực hiện các nhiệm vụ đó để kết luận rằng một ai đó có là
thơng minh hay khơng. Mơn học Trí tuệ nhân tạo nhằm cung
cấp các phương pháp luận để làm ra hệ thống có khả năng thực
hiện các nhiệm vụ đó: giải tốn, học, giao tiếp, v.v. bất kể cách
nó làm có như con người hay khơng mà là kết quả đạt được
hoặc dáng vẻ bên ngoài như con người. Trong mơn học này,
chúng ta sẽ tìm hiểu các phương pháp để làm cho máy tính biết
cách giải bài toán, biết cách lập luận, biết cách học, v.v.
1.1. Cây Quyết Định
1.1.0. Giới thiệu chung.:
Trong lĩnh vực học máy, cây quyết định là một kiểu mơ
hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan
sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu
của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương
ứng với một biến; đường nối giữa nó với nút con của nó thể hiện
một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự
đoán của biến mục tiêu, cho trước các giá trị của các biến được
biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học
máy dùng trong cây quyết định được gọi là học bằng cây quyết
định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng
trong khai phá dữ liệu. Khi đó, cây quyết định mơ tả một cấu
trúc cây, trong đó, các lá đại diện cho các phân loại còn cành
đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại
đó[1]. Một cây quyết định có thể được học bằng cách chia tập
hợp nguồn thành các tập con dựa theo một kiểm tra giá trị
thuộc tính [1]. Quá trình này được lặp lại một cách đệ qui cho
mỗi tập con dẫn xuất. Quá trình đệ qui hồn thành khi khơng
thể tiếp tục thực hiện việc chia tách được nữa, hay khi một
phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn
xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng
một số cây quyết định để có thể cải thiện tỉ lệ phân loại.
Cây quyết định cũng là một phương tiện có tính mơ tả dành cho
việc tính tốn các xác suất có điều kiện.
Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ
thuật tốn học và tính tốn nhằm hỗ trợ việc mơ tả, phân loại
và tổng quát hóa một tập dữ liệu cho trước.
Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = (x1, x2, x3..., xk, y)
Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần
tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3 ... là các biến
sẽ giúp ta thực hiện công việc đó.
1.1.1. Các kiểu cây quyết định.
Cây hồi quy (Regression tree) ước lượng các hàm giá có giá
trị là số
thực thay vì được sử dụng cho các nhiệm vụ phân
loại. (ví dụ: ước tính giá một ngơi nhà hoặc khoảng thời gian
một bệnh nhân nằm viện).
Cây phân loại (Classification tree), nếu y là một biến phân loại
như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng
hay thua).
Ví dụ thực hành :
Ta sẽ dùng một ví dụ để giải thích về cây quyết định:
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta
đang có rắc rối chuyện các thành viên đến hay khơng đến. Có
ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại
khơng đủ phục vụ. Có hơm, khơng hiểu vì lý do gì mà chẳng ai
đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày
bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi
nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần
hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem
có cách giải thích nào cho việc đó hay khơng.
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa
(raining)). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity).
Có gió mạnh (windy) hay không.
Và tất nhiên là số người đến chơi golf vào hơm đó. David thu
được một bộ dữ liệu gồm 14 dịng và 5 cột.
Hình 2.1 Bảng dữ liệu chơi golf
Sau đó, để giải quyết bài tốn của David, người ta đã đưa ra
một mơ hình cây quyết định.
Hình 2.2 cây quyết định
Cây quyết định là một mơ hình dữ liệu mã hóa phân bố của
nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đốn. Đây
là một đồ thị có hướng phi chu trình dưới dạng một cây. Nút gốc
(nút nằm trên đỉnh) đại diện cho tồn bộ dữ liệu. Thuật tốn cây
phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ
thuộc, play (chơi), là sử dụng biến Outlook. Phân loại theo các
giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm người
chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm
chơi khi trời mưa.
Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi
golf. Và có một số người ham mê đến mức chơi golf cả khi trời
mưa.
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta
thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá
70%.
Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách
hàng sẽ khơng chơi golf nếu trời nhiều gió.
Và đây là lời giải ngắn gọn cho bài tốn mơ tả bởi cây phân loại.
David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và
ẩm, hoặc những ngày mưa gió. Vì hầu như sẽ chẳng có ai chơi
golf trong những ngày đó. Vào những hơm khác, khi nhiều người
sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để
phụ giúp công việc.
Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu
phức tạp thành một cấu trúc đơn giản hơn rất nhiều.
1.2. Các công thức dựng cây quyết định
1.2.1.Thuật giải Qui Lan
Dùng trong thuật tốn CART (Classification and Regression
Trees). Nó dựa vào việc bình phương các xác suất thành viên
cho mỗi thể loại đích trong nút. Giá trị của nó tiến đến cực tiểu
(bằng 0) khi mọi trường hợp trong nút rơi vào một thể loại đích
duy nhất.
Giả sử y nhận các giá trị trong {1, 2, ..., m} và gọi f(i,j) là tần
xuất của giá trị j trong nút i. Nghĩa là f(i,j) là tỷ lệ các bản ghi
với y=j được xếp vào nhóm i.
Hình 2.3 cơng thức Qui lan
1.2.2.Giải thuật ID3
Dùng trong các thuật toán sinh cây ID3, C4.5 và C5.0. Số đo
này dựa trên khái niệm entropy trong lý thuyết thơng tin
(information theory).
Hình 2.4 Cơng thức ID3
1.3.Ưu điểm của cây quyết định.
So với các phương pháp khai phá dữ liệu khác, cây quyết
định là phương pháp có một số ưu điểm:
Cây quyết định dễ hiểu. Người ta có thể hiểu mơ hình cây quyết
định sau khi được giải thích ngắn.
Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc
không cần thiết. Các kỹ thuật khác thường địi hỏi chuẩn hóa dữ
liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá
trị rỗng.
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ
liệu có giá trị là tên thể loại. Các kỹ thuật khác thường chuyên
để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn,
các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi
mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.
Cây quyết định là một mơ hình hộp trắng. Nếu có thể quan sát
một tình huống cho trước trong một mơ hình, thì có thể dễ dàng
giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một
ví dụ về mơ hình hộp đen, do lời giải thích cho kết quả q phức
tạp để có thể hiểu được.
Có thể thẩm định một mơ hình bằng các kiểm tra thống kê.
Điều này làm cho ta có thể tin tưởng vào mơ hình.
Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời
gian ngắn. Có thể dùng máy tính cá nhân để phân tích các
lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các
nhà chiến lược đưa ra quyết định dựa trên phân tích của cây
quyết định.
PHẦN II: ỨNG DỤNG, Ý NGHĨA MỤC TIÊU ĐỀ TÀI
2.1.Ứng dụng:
Artificial Intelligent, hay trí thơng minh nhân tạo được thể
hiện bởi máy móc, có nhiều ứng dụng trong xã hội ngày nay. Cụ
thể hơn, đó là Weak AI, một dạng AI nơi các chương trình được
phát triển để thực hiện các nhiệm vụ cụ thể, đang được sử dụng
cho một loạt các hoạt động bao gồm chẩn đoán y tế , nền tảng
giao dịch điện tử , điều khiển robot và viễn thám . AI đã được sử
dụng để phát triển và phát triển nhiều lĩnh vực và ngành cơng
nghiệp, bao gồm tài chính, y tế, giáo dục, giao thông vận tải,
v.v.
2.2.Nông nghiệp
Trong nông nghiệp, những tiến bộ AI mới giúp nâng cao
suất và để gia tăng những nghiên cứu và phát triển cây trồng.
Trí thơng minh nhân tạo có thể dự đốn thời gian cần thiết cho
một loại cây trồng như dự báo thời gian chín do đó tăng hiệu
quả canh tác. Những tiến bộ về AI mới như Giám sát cây trồng
và đất, Robot nơng nghiệp và Phân tích dự đốn . Giám sát cây
trồng và đất sử dụng các thuật toán và dữ liệu mới được thu
thập trên đồng ruộng để quản lý và theo dõi sức khỏe của cây
trồng làm cho nông dân dễ dàng và bền vững hơn
Nhiều chuyên ngành về AI trong nông nghiệp là một trong
những kỹ thuật như tự động hóa nhà kính , mơ phỏng , mơ hình
hóa và tối ưu hóa.
2.3. Khoa học máy tính
Các nhà nghiên cứu đã tạo ra nhiều công cụ để giải quyết
các vấn đề khó khăn trong khoa học máy tính. Nhiều phát minh
của họ đã được khoa học máy tính chính thống áp dụng và được
coi là một phần của AI: chia sẻ thời gian thực, phiên dịch tương
tác , giao diện đồ họa người dùng , môi trường phát triển ứng
dụng nhanh cấu trúc dữ liệu danh sách liên kết, quản lý lưu trữ
tự động, lập trình biểu tượng, lập trình chức năng, lập trình
động và lập trình hướng đối tượng .
AI có thể được sử dụng để có khả năng xác định nhà phát
triển nhị phân ẩn danh.
AI có thể được sử dụng để tạo ra AI
khác. Ví dụ: vào khoảng tháng 11 năm 2017, dự án AutoML của
Google để phát triển các cấu trúc liên kết mạng thần kinh mới
đã tạo ra NASNet , một hệ thống được tối ưu hóa cho ImageNet
và COCO. Theo Google, hiệu suất của NASNet vượt quá tất cả
hiệu suất ImageNet được công bố trước đó.
2.4.Giáo dục
Gia sư AI có thể cho phép sinh viên nhận thêm trợ giúp.
Các thiết bị học tập có thể tạo ra các bài học, câu hỏi và trò
chơi để phù hợp với nhu cầu của học sinh cụ thể và đưa ra phản
hồi ngay lập tức. Nhưng AI cũng có thể tạo ra một mơi trường
bất lợi với các hiệu ứng không mong muốn tiêu cực và không
lường trước cho xã hội. Ví dụ về việc sử dụng cơng nghệ mở
rộng có thể cản trở khả năng tập trung và tư duy của sinh viên
thay vì giúp họ học hỏi và phát triển.
2.5.Tài chính
Giao dịch tiền thuật tốn liên quan đến việc sử dụng các
hệ thống AI phức tạp để đưa ra quyết định giao dịch với tốc độ
lớn hơn nhiều bậc so với bất kỳ con người nào có khả năng,
thường thực hiện hàng triệu giao dịch trong một ngày mà không
cần sự can thiệp của con người. Giao dịch như vậy được gọi là
Giao dịch cao tần và nó đại diện cho một trong những lĩnh vực
phát triển nhanh nhất trong giao dịch tài chính. Nhiều ngân
hàng, quỹ và các cơng ty thương mại độc quyền hiện có toàn bộ
danh mục đầu tư được quản lý hoàn toàn bởi các hệ thống AI.
Một số tổ chức tài chính lớn đã đầu tư vào các công cụ AI
để hỗ trợ thực hành đầu tư của họ. Công cụ AI của BlackRock ,
Aladdin, được sử dụng cả trong công ty và khách hàng để giúp
đưa ra quyết định đầu tư. Nhiều chức năng của nó bao gồm việc
sử dụng xử lý ngôn ngữ tự nhiên để đọc văn bản như tin tức,
báo cáo môi giới và nguồn cấp dữ liệu truyền thơng xã hội. Sau
đó, nó đánh giá tình cảm của các công ty được đề cập và chỉ
định một số điểm. Các ngân hàng như UBS và Deutsche Bank
sử dụng một cơng cụ AI có tên Sqreem (Mơ hình khai thác và
giảm lượng tử tuần tự) có thể khai thác dữ liệu để phát triển hồ
sơ người tiêu dùng và kết hợp chúng với các sản phẩm quản lý
tài sản mà họ mong muốn nhất.
Một số sản phẩm đang nổi lên sử dụng AI để hỗ trợ mọi
người về tài chính cá nhân. Ví dụ, Digit là một ứng dụng được
cung cấp bởi trí tuệ nhân tạo, tự động giúp người tiêu dùng tối
ưu hóa chi tiêu và tiết kiệm dựa trên thói quen và mục tiêu cá
nhân của chính họ. Ứng dụng có thể phân tích các yếu tố như
thu nhập hàng tháng, số dư hiện tại và thói quen chi tiêu, sau
đó tự đưa ra quyết định và chuyển tiền vào tài khoản tiết kiệm.
Robot cố vấn đang trở nên được sử dụng rộng rãi hơn
trong ngành quản lý đầu tư. Robo-cố vấn cung cấp tư vấn tài
chính và quản lý danh mục đầu tư với sự can thiệp tối thiểu của
con người. Nhóm cố vấn tài chính này hoạt động dựa trên các
thuật toán được xây dựng để tự động phát triển danh mục đầu
tư tài chính theo mục tiêu đầu tư và khả năng chịu rủi ro của
khách hàng. Nó có thể điều chỉnh theo những thay đổi thời gian
thực trên thị trường và theo đó hiệu chỉnh danh mục đầu tư.
2.6. Y tế
Tại các nước đang phát triển trên thế giới vẫn cịn sự bất
bình đẳng giữa các dịch vụ y tế ở thành thị và nông thôn, trong
đó sự thiếu hụt bác sĩ là ngun nhân chính. Một số nghiên cứu
đã chỉ ra rằng việc áp dụng các kỹ thuật y tế hỗ trợ máy tính
hoặc AI có thể cải thiện kết quả chăm sóc sức khỏe ở khu vực
nông thôn của các nước đang phát triển.
Hiện nay, lượng thông tin y khoa đã tăng gấp đôi cứ sau
mỗi 3 năm. Người ta ước tính rằng nếu một bác sĩ muốn cập
nhật tồn bộ thơng tin y khoa thì phải đọc 29 giờ mỗi ngày.
Ngồi ra, nguồn dữ liệu lớn (big data), bao gồm các dữ liệu từ
hồ sơ sức khoẻ điện tử (EHR), các dữ liệu “omic” - dữ liệu về di
truyền học (genomics), dữ liệu về chuyển hóa (metabolomics)
và dữ liệu về protein (proteomics), và dữ liệu về xã hội học và
lối sống là những nguồn dữ liệu sẽ khơng có ích nếu khơng được
phân tích tồn diện. Giải pháp duy nhất để có thể tiếp cận và sử
dụng khối lượng thông tin khổng lồ trong lĩnh vực y tế đó là sử
dụng cơng nghệ trí tuệ nhân tạo
Lỗi chẩn đốn là một mối đe dọa nghiêm trọng đối với chất
lượng và an toàn trong chăm sóc sức khỏe. Tại Mỹ, ước tính tỷ
lệ lỗi chẩn đoán ngoại trú là 5,08% tương đương 12 triệu người
mỗi năm. Khoảng một nửa trong số các lỗi này là có khả năng
gây hại. Cơng nghệ AI đã được sử dụng để cải thiện chất lượng
chẩn đoán, đặc biệt là trong X quang. AI dựa trên nguồn dữ liệu
129.450 hình ảnh lâm sàng để chẩn đốn bệnh ngồi da, kết
quả đã chứng minh rằng hệ thống này có thể phân loại ung thư
da ở mức tương đương với các bác sĩ da liễu. Một thuật tốn dựa
trên hình ảnh cộng hưởng từ của chuyển động tim cho phép dự
đốn chính xác kết quả bệnh nhân bị tăng áp phổi; một phương
pháp phân loại nhịp tự động trong phân tích điện tâm đồ liên
tục (ECGs) ở những bệnh nhân mắc bệnh nghiêm trọng. Một
nghiên cứu khác đã xem xét các kết quả đầy hứa hẹn sử dụng
AI trong hình ảnh đột quỵ và cho rằng cơng nghệ AI có thể đóng
một vai trị quan trọng trong việc quản lý bệnh nhân đột quỵ.
2.7. Ý nghĩa, mục tiêu đề tài
Với những ý nghĩa và ứng dụng lớn lao của trí tuệ nhân
tạo, việc tìm hiểu và phát triển những ứng dụng thực tiễn trong
đời sống đối với sinh viên Công nghệ thông tin là vô cùng cấp
thiết. Việc áp dụng một phần nhỏ trí tuệ nhân tạo vào việc phân
tích các loại bênh lý, những ảnh hưởng tiêu cực tích cực, những
yếu tố khách quan hình thành bệnh và những khả năng có thể
phịng ngừa, chữa trị bệnh mang lại những ý nghĩa lớn lao đối
với y học nói chung và ngành cơng nghệ thơng tin nói riêng.Vì
vậy nhóm em xin được chọn và áp dụng phương pháp xây dựng
cây quyết định để phân tích các triệu chứng và ảnh hướng đối
với bệnh lý Viêm xoang nhằm đưa ra những thông tin đánh giá
phần nào về bệnh lý này.
PHẦN 3: KHẢO SÁT, THU THẬP DỮ LIỆU, VẼ CÂY QUYẾT
ĐỊNH
3.1. Khảo sát dữ liệu
Người
Thời
tiết
Hút
thuốc
Mang
khẩu
trang
1
Nắng
Có
Khơng
2
Mưa
Khơng
Có
3
Nắng
Có
Khơng
4
Nắng
Có
Khơng
5
Mưa
Khơng
Khơng
6
Nắng
Có
Có
7
Mưa
Có
Có
Nơi
sống
Thành
phố
Thành
phố
Thành
phố
Nơng
thơn
Thành
phố
Nơng
thơn
Thành
phố
Bị sâu
răng
Nghề
nghiệp
Viêm
họng
Bị
viêm
xoang
Khơng
Trí óc
Khơng
Có
Khơng
Khơng
Khơng
Có
Khơng
Có
Tay
Chân
Tay
Chân
Khơng
Trí óc
Có
Có
Có
Trí óc
Có
Có
Khơng
Có
Có
Có
Khơng
Có
Tay
Chân
Tay
Chân
8
Nắng
Khơng
Có
9
Mưa
Có
Khơng
10
Nắng
Có
Khơng
12
Nắng
Khơng
Khơng
13
Mưa
Khơng
Có
14
Nắng
Khơng
Khơng
15
Nắng
Có
Khơng
16
Mưa
Khơng
Khơng
17
Mưa
Khơng
Có
18
Nắng
Khơng
Khơng
19
Mưa
Có
Có
20
Nắng
Có
Khơng
21
Nắng
Khơng
Khơng
22
Nắng
Khơng
Khơng
23
Mưa
Khơng
Khơng
24
Nắng
Khơng
Khơng
25
Mưa
Khơng
Có
26
Nắng
Có
Khơng
27
Mưa
Khơng
Khơng
28
Mưa
Khơng
Có
29
Nắng
Có
Khơng
30
Nắng
Khơng
Có
31
Mưa
Có
Khơng
32
Nắng
Khơng
Có
33
Mưa
Khơng
Khơng
Thành
phố
Nơng
thơn
Thành
phố
Thành
phố
Nơng
thơn
Thành
phố
Thành
phố
Thành
phố
Thành
phố
Thành
phố
Nơng
thơn
Thành
phố
Thành
phố
Nơng
thơn
Nơng
thơn
Thành
phố
Thành
phố
Nơng
thơn
Nơng
thơn
Thành
phố
Thành
phố
Thành
phố
Nơng
thơn
Thành
phố
Nơng
thơn
Khơng
Trí óc
Khơng
Khơng
Có
Tay
Chân
Khơng
Có
Khơng
Trí óc
Khơng
Có
Có
Có
Có
Khơng
Khơng
Khơng
Khơng
Có
Khơng
Có
Có
Khơng
Có
Có
Có
Tay
Chân
Tay
Chân
Trí óc
Tay
Chân
Tay
Chân
Khơng
Trí óc
Có
Khơng
Khơng
Trí óc
Khơng
Khơng
Khơng
Trí óc
Có
Có
Có
Tay
Chân
Có
Có
Khơng
Trí óc
Khơng
Khơng
Khơng
Tay
Chân
Có
Có
Có
Trí óc
Khơng
Có
Khơng
Tay
Chân
Có
Có
Khơng
Trí óc
Khơng
Khơng
Có
Tay
Chân
Có
Có
Khơng
Trí óc
Khơng
Khơng
Có
Tay
Chân
Khơng
Khơng
Có
Trí óc
Có
Có
Khơng
Trí óc
Khơng
Khơng
Có
Có
Có
Có
Khơng
Khơng
Khơng
Có
Khơng
Tay
Chân
Tay
Chân
Trí óc
34
Nắng
Có
Khơng
35
Mưa
Khơng
Có
36
Mưa
Có
Khơng
37
Nắng
Khơng
Khơng
38
Mưa
Có
Có
39
Nắng
Khơng
Có
40
Mưa
Có
Có
41
Nắng
Có
Khơng
42
Mưa
Khơng
Có
43
Nắng
Có
Khơng
44
Nắng
Có
Có
45
Mưa
Khơng
Khơng
46
Nắng
Khơng
Khơng
47
Mưa
Khơng
Có
48
Nắng
Có
Khơng
49
MƯA
Khơng
Có
50
Nắng
Có
Khơng
Thành
phố
Nơng
thơn
Thành
phố
Nơng
thơn
Thành
phố
Thành
phố
Nơng
thơn
Thành
phố
Thành
phố
Nơng
thơn
Nơng
thơn
Thành
phố
Nơng
thơn
Thành
phố
Nơng
thơn
Thành
phố
Nơng
thơn
Có
Tay
Chân
Khơng
Có
Khơng
Trí óc
Khơng
Khơng
Khơng
Trí óc
Khơng
Có
Có
Có
Khơng
Có
Có
Khơng
Tay
Chân
Tay
Chân
Có
Trí óc
Có
Có
Khơng
Trí óc
Khơng
Có
Có
Trí óc
Khơng
Có
Khơng
Trí óc
Có
Khơng
Có
Tay
Chân
Khơng
Có
Khơng
Trí óc
Có
Có
Có
Trí óc
Khơng
Khơng
Có
TC
Khơng
Có
Có
Trí óc
Có
Khơng
Khơng
TC
Có
Có
Có
Trí óc
Khơng
Khơng
Khơng
TC
Có
Có
3.2. Giải quyết bài tốn
Dựa vào bảng khảo sát trên xây dựng cây quyết định để tìm nguyên
nhân mắc bệnh viêm xoang?
Lời giải
Chọn nút gốc của cây quyết định:
Tập dữ liệu hiện tại có 32 kết quả Yes và 17 kết quả No, ta kí hiệu là
S: [32+,17−].
Theo cơng thức tính Entropy (độ hỗn tạp dữ liệu) của một tập:
trong đó:
•
•
là tỷ lệ các mẫu thuộc lớp dương trong S.
là tỷ lệ các mẫu thuộc lớp âm trong S.
Lưu ý:
• Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng
một lớp.
• Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành
viên thuộc lớp âm và dương.
Cơng thức tính Information Gain của thuộc tính A trên tập S như sau:
trong đó:
• Value(A) là tập các giá trị có thể cho thuộc tính A.
• là tập con của S mà A nhận giá trị v.
Từ 2 công thức trên ta áp dụng vào bài tốn:
Xét thuộc tính Thời tiết, thuộc tính này nhận 2 giá trị là Nắng
và Mưa. Ứng với mỗi thuộc tính, ta có:
• (có nghĩa là trong tập dữ liệu hiện tại (S), có 19 kết quả Nắng
và 8 kết quả Mưa tại Thời tiết = Nắng). Tương tự:
• 994
796
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Thời tiết trên tập S:
135
Xét thuộc tính Hút thuốc. Ta có:
• 0
•
• 524
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Hút thuốc trên tập S:
407
Xét thuộc tính Mang khẩu trang. Ta có:
• 0,982
• 0,722
• 823
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
trên tập S:
108
Xét thuộc tính Nơi sống. Ta có:
• 981
• 764
•
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Nơi sống trên tập S:
03
Xét thuộc tính Bị sâu răng. Ta có:
• 0,755
• 996
• 883
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính Bị
sâu răng trên tập S:
049
Xét thuộc tính Nghề nghiệp. Ta có:
• 0,996
• 559
• 791
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Nghề nghiệp trên tập S:
14
Xét thuộc tính Viêm họng. Ta có:
• 0,702
• 996
• 87
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
Viêm họng trên tập S:
061
Thuộc tính Hút thuốc có Information Gain cao nhất, chọn nó làm nút
gốc:
Hút thuốc
Khơng
?
Có
Có
Hình 1. Cây quyết định sau khi chọn
Xây dựng tiếp cây quyết định:
Sau khi chọn được nút gốc là Hút thuốc, tiếp theo ta tính tiếp
các nút tại mỗi thuộc tính của nút vừa chọn. Trong hình 1:
Nhánh bên trái cùng ứng với Hút thuốc =Khơng có, chưa phân
lớp hồn tồn nên vẫn phải tính tốn chọn nút tại đây.
Xét thuộc tính Thời tiết. Ta có:
• (nghĩa là tại những dữ liệu có Hút thuốc = Khơng và Thời
tiết=Nắng,có 7 kết quả Có và 7 kết quả Khơng ).
• 722
• 836
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Thời tiết trên tập S:
Xét thuộc tính Mang khẩu trang . Ta có:
0,619
985
808
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Mang khẩu trang trên tập S:
Xét thuộc tính Nơi sống. Ta có:
899
929
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Nơi sống trên tập S:
022
Xét thuộc tính Bị sâu răng. Ta có:
0,961
591
769
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
trên tập S:
Xét thuộc tính Nghề nghiệp. Ta có:
,672
881
788
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
trên tập S:
Xét thuộc tính Viêm họng. Ta có:
0,945
696
797
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
Viêm họng trên tập S:
Nhận thấy thuộc tính Bị sâu răng có Information Gain cao nhất,
chọn thuộc tính này làm nút cho nhánh trái cùng.
Hút thuốc
tH.Pylori
Khơn
g
Có
Bị sâu răng
Có
Khơng
C
?
?
Hình 2.
Trong hình 2:
Nhánh bên phải ứng với Bị sâu răng= Khơng, có là [2+,12−],
chưa phân lớp hồn tồn nên vẫn phải tính toán chọn nút tại đây. Tương
tự cho nhánh giữa.
Xét thuộc tính Thời tiết. Ta có:
• (nghĩa là tại những dữ liệu có Hút thuốc= Khơng, Bị sâu răng=
•
Khơng và Thời tiết=Nắng có kết quả Có và kết quả Khơng).
• 423
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính Thời tiết trên tập S:
196
Xét thuộc tính Mang khẩu trang. Ta có:
•
• ,918
•
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc tính
trên tập S:
196
Xét thuộc tính Nơi sống. Ta có:
• ,543
• ,722
• 611
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tính trên tập S:
008
Xét thuộc tính Viêm họng. Ta có:
•
•
• 3
Tiếp theo tính Information Gain (độ lợi thơng tin) của thuộc
tínhtrên tập S:
319
Nhận thấy thuộc tính Viêm họng có Information Gain cao nhất, chọn
thuộc tính này làm nút cho nhánh bên phải.
Hút thuốc
Khơng
Có
Có
Bị sâu răng
Có
Khơng
?
Viêm họng
Có
?
khơ
Khơng
Hình 3.
Trong hình 3:
Nhánh bên phải ứng với Viêm họng= Không , tập dữ liệu tại
nhánh này đã hoàn toàn phân lớp âm với 0+ và 9-. Tại đây đã có thể
quyết định, khi Viêm họng= Khơng thì khơng bị mắc bệnh viêm xoang.
Nhánh giữa ứng với Viêm họng= Có, có chưa phân lớp hồn
tồn nên vẫn phải tính tốn chọn nút tại đây.
Từ đó:
Nhận thấy thuộc tính Thời tiết và thuộc tính Mang khẩu trang có
Information Gain cao nhất, chọn thuộc tính Thời tiết làm nút cho nhánh
giữa.
Hút thuốc
Khơng
Có
Có
Bị sâu răng
Có
Khơng
?
Viêm họng
Có
Thời tiết
Nắn
Có
Khơ
Khơng
Mưa
Khơng
Hình 4.
Với nhánh trái của Bị sâu răng, ta có:
Nhận thấy thuộc tính Mang khẩu trang có Information Gain cao nhất, chọn
thuộc tính này làm nút cho nhánh giữa. Tương tự ta có cây quyết định
hoàn chỉnh:
Hút thuốc
Khơn
g
Có
Bị sâu răng
Có
Có
Khơng
ị
Mang khẩu trang
Viêm họng
Có
Có
Khơ
Nghề nghiệp
Khơ
Trí
Khơng
Thời tiết
Nơi sống
Tay
Có
Có
Mưa
Nắn
Thành
Có
Có
Hình 5. Cây quyết định hồn chỉnh
Khơng