BỌ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC su PHẠM THÀNH PHĨ HỊ CHÍ MINH
Phạm Thị Ngọc Linh
ỦNG DỤNG HỌC SÂU CHO PHÂN LOẠI ÁNH UNG THU vú
Chuyên ngành: Khoa học máy tính
Mã SỐ: 8480101
LUẬN VĂN THẠC sĩ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DÁN KHOA HỌC:
•
1. PGS. TS. PHẠM THẾ BÁO
2. TS. NGUYÊN VIÉT HƯNG
Thành phố Hồ Chí Minh - 2022
LỜI CAM ĐOAN
Tôi xin cam đoan luận van "ứng dụng học sâu cho phân loại ánh ung thư vú” là do tôi tim hiểu, nghiên cứu và thực hiện dưới sự hướng dần cùa
quý Thầy là PGS. TS. Phạm The Bao và TS. Nguyền Viết Hung. Luận vàn khơng có sự sao chép từ các tài liệu, cơng trình nghiên cứu khác mà không ghi rõ
nguồn trong tài liệu tham khào.
Kết quà thực nghiệm trình bày trong luận văn là khách quan và chưa dtrợc cồng bố trong bất kì cơng trinh nghiên cứu nào khác.
Thành phố Hồ Chí Minh, ngày 25 thủng 04 nám 2022
Tác già
Phạm Thị Ngọc Linh
LỜI CÁM ƠN
Lời nói dầu tiên, tơi xin gửi lời càm ơn sâu sac den quý Thầy hướng dẫn cùa tôi. PGS. TS Phạm 'rhe Báo và TS. Nguyễn Viết Hưng. Quý Thầy đã
đinh hướng, trực tiếp hướng dẫn. nhiệt tinh giúp đờ và chi bao tôi trong suốt quá trình thực hiện luận văn nảy.
Tơi xin chân thành cảm ơn quý Thầy đã (rực tiếp giăng dạy VÌI truyền đạt kiến thức cho tơi trong suốt q trình học tập vừa qua tại trường Đại
học Sư phạm Thành phố HỒ Chí Minh.
Tơi cũng xin dược cam ơn sự hỗ trợ den từ q Thầy Cơ cơng tác tại Phịng Sau đại học. Khoa Công nghệ thông tin trường Dại học Sư phạm
Thành phố Hồ Chí Minh và các bạn học viên cùng khóa trong khống thời gian tơi học tập tại trường.
Dồng thời, tôi cũng xin gửi lời cam ơn đến quý Thầy Cô trong Ban Giám Hiệu, tố Tin hục trường THPT chuyên Trần Htmg Đạo đà tạo điều kiện
và hỗ trợ rất nhiều trong q trình đơi di học.
Cuối cùng, tôi xin gứi lời cám ơn đền bạn bồ, người thản vã đặc biệt là đẳng sinh thành cùa tôi. Mẹ là người luôn úng hộ mọi quyết dịnh của tôi.
luôn cho tôi động lực đê tôi hồn thành luận văn nãy.
Trong q trình thực hiện luận vãn. dù gặp nhiều khó khản và áp lực từ cơng việc cũng như có nhiều biến cố xáy ra, tơi đã cố gắng hết sức có thể
để hồn thiện luận vàn. Tuy nhiên, luận vàn cùng khơng tránh khói thiếu sót. Tơi rất mong được sự góp ý cùa quý Thầy Cô. anh chị em dồng nghiệp.
Xin chân thành cam ƠT1!
Thành phu Hồ Chí Minh, ngày 25 tháng 04 nám 2022
Tác giá
Phạm Thị Ngọc Linh
MỤC LỤC
Lời cam đoan
Lời câm ơn
Danh mục các kí hiệu và từ viết tắt
Danh mục các bàng biểu
Danh mục các hình vỗ
Danh mục các biểu đồ
MỠ ĐÀU
Chương 1. TỎNG QUAN............................................................................... 5
1.1. Bài toán phân loại ánh ung thư vú IDC..................................................5
1.1.1. Vấn đề cua bài toán..........................................................................5
1.1.2. Hiệu quà mang lại khi giãi quyết bài tốn.......................................6
1.2. Các hưởng tiếp cận.................................................................................6
1.3. Khó khăn và thách thức........................................................................13
1.4. Phạm vi để tài.......................................................................................15
1.5. Đe xuất hướng giai quyết.....................................................................15
Chương 2. co SỞ LÝ THUYẾT.................................................................16
2.1. Bệnh học kỹ thuật so............................................................................16
2.1.1. Giới thiệu.......................................................................................16
2.1.2. Những ưu điểm và hạn chế trong thực hành DP...........................17
2.2. Ánh toàn trang chiếu............................................................................18
2.3. Mạng nơ-ron nhàn tạo..........................................................................19
2.3.1. Giới thiệu.......................................................................................19
2.3.2. Biếu diền mạng nơ-ron..................................................................20
2.4. Mạng học sâu........................................................................................22
2.4.1. Giới thiệu.......................................................................................22
2.4.2. Mạng CNN.....................................................................................23
Chương 3. XÂY DỤNG GIÃI THUẬT....................................................... 25
3.1. Tống quan.............................................................................................25
3.2. Đánh giá chắt lượng ánh trong không gian mù....................................26
3.3. Xây dựng kiến trúc mạng.....................................................................28
3.3.1. Mô tà kiến trúc ntạng đề xuất........................................................28
3.3.2. Hàm lồi và hàm tối ưu...................................................................29
3.4. Phương pháp đánh giá..........................................................................30
3.4.1. Dộ chính xác..................................................................................30
3.4.2. Ma trận nhầm lần...........................................................................30
Chương 4. KẾT QUẢ VÀ ĐÁNH GIÁ....................................................... 33
4.1. Dừ liệu..................................................................................................33
4.2. Môi trường thực nghiệm.......................................................................34
4.3. Các siêu tham số huấn luyện................................................................35
4.4. Kct quá thực nghiệm và đánh giá.........................................................35
Chương 5. KÉT LUẬN VÀ HƯỚNG PHÁT TRIÈN................................ 46
5.1. Kết quá đạt được...................................................................................46
5.2. Đóng góp cùa luận vãn.........................................................................46
5.3. Hướng phát triển...................................................................................46
TÀI LIỆU THAM KHẢO............................................................................ 48
DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TÁT
Từ viết tắt
Từ viết dầy dii
BRISQƯE
Blind/ Refcrenceless Image Spatial Quality Evaluator
CNN
Convolutional Neural Network
DNN
Deep Neural Networks
DP
Digital I typology
HF
Handcraft Features
IDC
Invasive Ductal Carcinoma
IQA
Image Quality Assessment
NSGA-IĨ
Noil-dominated Sorting Genetic Algorithm
WSI
Whole Slide Image
DANH MỤC CÁC BÁNG BIÊU
Bang 1.1. Kiến trúc mạng AlexNet do Andrew vả Anant đề xuất................10
Bang 3.1. Bang mô tà ma trận nham lần.......................................................31
Bang 4.1. Thống kê số lượng mầu cúa các tập dừ liệu.................................34
Bâng 4.2. Bang đối sánh kết q huấn luyện cùa mơ hình 1 và mơ hình 2
trên tập dữ liệu gốc khơng tãng cường ành. có sử dụng IQA bằng phương pháp Cross-validation.............................................38
Bàng 4.3. Bang đối sánh kết qua huấn luyện cua mơ hình 1 và mơ hình 2 trên tập dừ liệu gốc có tâng cường tập huấn luyện bang phương pháp Cross-
Validation..................................................................39
Bang 4.4. Bang đoi sánh kết quà kicm thư trên tập dừ liệu gốc có tâng cường dừ liệu huấn luyện cùa mơ hình đề xuất và mơ hình cùa tác già Malm bằng
phương pháp Cross-validation và dánh giá trên tập kiểm thứ...........................................................................40
Bang 4.5. Bang kết q huấn luyện của mị hình đề xuất và Malm trên tập dừ liệu gốc với phương pháp Hold-out có sứ dụng 1QA và khơng sư dụng
IQA.......................................................................41
DANH MỤC CÁC HÌNH VÈ
Hình 1.1. Kiến trúc CNN dược dề xuất bời Cruz và các cộng sự..........................8
Hình 1.2. Minh họa quy trinh lấy mẫu bảng kỳ thuật Grid Sampling, (a) Một
WSI với các chú thích thú cơng từ các nhà nghiên cứu bệnh học.
(b) một WSI được phân chia thành các ban vá hình ánh. Các mầu
chi được lấy trong các vùng lưới màu ...................................................9
Hình 1.3. Kiến ưúc mạng cơ sớ cùa nhóm tác giá................................................12
Hình 1.4. Bốn kiến trúc mạng mới được xây dựng trên kiến trúc cơ sờ của
nhóm tác già..........................................................................................13
Hình 2.1. Hệ thống bệnh học kỳ thuật số..............................................................16
Hình 2.2. Te bào thần kinh sinh học.....................................................................19
Hĩnh 2.3. Mạng thần kinh sinh học được tố chức thành nhiều lớp.......................20
Hình 2.4. Mơ hình ANN tổng qt.......................................................................20
Hình 2.5. Một mạng nơ-ron dơn gián với các tham số cho trước.........................21
Hình 2.6. Quá trình tính tốn đe giám sai sổ băng lan truyền ngược...................21
Hình 2.7. Lịch sử của học sâu...............................................................................23
Hình 2.8. Một ví dụ về mạng học sâu CNN.........................................................24
Hình 3.1. Giái thuật phân loại ánh IDC của phương pháp đe xuất.......................25
Hĩnh 3.3. Phân phối cua cường độ các diêm ánh sau khi chuẩn hóa hình ánh.
a) Ánh có gán nhăn IDC từ tập dừ liệu ánh ung thư vú . b) Biểu đỗ
phân
phối
cường
dộ
diêm
ánh
khi
chuẩn
hóa
MSCN
ánh.............................................................................28
Hình 3.4. Kiến trúc mạng dược đe xuất................................................................29
Hình 4.1. Một ví dụ ánh được gán nhãn không phái ung thư vú IDC..................33
Hình 4.2. Một ví dụ về anh được gán nhãn ung thư vú IDC................................33
Hỉnh 4.3. Thổng kê kết qua ILSVRC qua các năm..............................................43
và
bốn
hướng
lẫn
cận
cùa
điềm
DANH MỤC CÁC BIÊU ĐÔ
Biểu đổ 4.1. Biểu dồ hàm lồi....................................................................................35
Biếu đồ 4.2. Biểu đồ $0 sánh độ đo ACC cùa cíỉc mị hình thực nghiệm.................44
Bicu đồ 4.3. B1CU đồ so sánh Precision của các mơ hình thực nghiệm....................44
Biểu đồ 4.4. Biểu đồ so sánh độ đo Recall cua các mơ hình thực nghiệm...............45
Biêu đồ 4.5. Biẻu đồ so sánh độ đo F1 cùa các mơ hình thực nghiệm.....................45
1
MỚ ĐẤU
1. Lý do chọn đề tài
Ung thư đà và đang là một trong nhừng vắn đe khó khàn cùa y khoa và xã hội, trong đó ung thư vú lã cân bệnh ác tính thirờng gập nhất ờ nữ giới.
Hang năm, trên thế giới có khống hai triệu người được chẩn đoán bị ung thư vú và khoáng sáu trăm nghìn người tư vong vì căn bệnh này 1 I ]. Theo thống
kê cùa GLOBOCAN năm 2020. Việt Nam có gần một trâm tám mươi nghìn ca mắc mới ung thư. trong đó hơn hai mươi nghìn người mắc bệnh ung thư vú
[11. Cũng trong nám 2020, Việt Nam ghi nhận hơn chín nghìn trường hợp tử vong vì căn bệnh nãy. Đây thực sự là con so đáng lo ngại, là moi quan tâm của
toàn xà hội.
Trong số tất cà các loại của ung thư vú. ung thư biểu mô ống xâm lấn (Invasive Ductal Carcinoma - IDC) là phổ biến nhất, chiếm gần 80% tất cá
các chân đoán [2J. [3], [4J. IDC là loại ung thư xuất phát từ các tế bào lót ổng dẫn sừa làm nhiệm vụ mang sừa mẹ đến núm vú. phá vờ thành ống dẩn và
xâm lấn mô lân cận. Ngày nay. nhờ vào sự phát triển cùa công nghệ, các nhà nghiên cứu bệnh học áp dụng các phương pháp phản tích trên anh sinh thiết
(Whole Slide Image - WSI). Các ânh dừ liệu được gán nhãn các vùng có nguy cơ bị ung thư trên ảnh thu thập dược từ các bệnh nhân mac bệnh IDC. từ các
ànlì này. các nhà giãi phẫu bệnh có thề xác định mức dộ phát triền cùa bệnh - q trình này cịn gọi là phân loại khối u - đê dự đoán kết quà cua bệnh nhân và
dề xuất các lộ trinh điều trị khá thi. Việc phát tricn các phương pháp hiệu quá đe tự động phát hiện ung thư ớ biêu mô ống xâm lấn và việc phân loại mức độ
phát triển cùa khối u cùng như đưa ra két quá dự đoán cho bệnh nhân vần là một vấn đe thách thức cho các nhà nghiên cứu bệnh học, vì các nhà nghiên cứu
mất rất nhiều thời gian dề quét một lượng lớn các hình ành mơ lành bệnh có sần dể xác định vùng
ác lính tiêm ân.
2
Hiện nay. mơ hình máy học là một trong nhừng hướng giái quyết với khá năng nhận biết thông qua việc học thơng tin từ dừ liệu và có tốc độ xác
định ranh giói tiềm ân cao có thê cung cấp một hồ trự tiềm nang cho các bác sì đế đánh giá nhanh hon và chinh xác hon loại khoi u.
Việc chần đoán và điều trị ung thư vú trong giai đoạn đầu là cần thiết để ngăn chặn sự phát triển của bệnh và giam tỷ lệ mắc bệnh 15] cùng như
giâm tỳ lệ tư vong do ung thư vú gây ra. Do dó. việc kiểm tra định kỳ là một trong nhửng phương pháp chinh để phát hiện bệnh. Xuất phát từ thực tế trên,
chúng tôi dồ xuất nghiên cửu sư dụng mơ hình học sâu - là một trong những mơ hình liên tiền hiện nay trong lình vực máy học - để phân loại ãnh ung thư vú
IDC có hay khơng dựa vào ánh WSI mô vú với ten đề tài “Ung dụng học sâu cho phân loại ãnh ung thư vú". Với mong muốn cung cấp một phương pháp phát
hiện tự dộng tế bào ung thư vú giúp các nhà nghiên cứu bệnh học rút ngắn thời gian xác định vùng thư vú IDC và dặc biệt là hồ trợ bác sĩ trong việc đưa ra
chân đốn nhanh chính xác. phát hiện bệnh ung thư vú ngay ở giai đoạn đầu.
2. Mục tiêu cũa đề tài
Mục tiêu của chúng tôi khi thực hiện luận ván này: Nghiên cứu ánh WSI của mô vú; nghiên cứu các mơ hình học sâu; từ đó lựa chọn và xây dựng
mơ hình phù hợp dể phân loại ành ung thư vú dựa trên ành WSI.
3. Đối tượng và phạm vi nghiên cứu cúa dề tài
- Đối tưọiìg nghiên cứu: Luận văn thực nghiệm trên bộ dừ liệu ve anh mò học cùa bệnh nhân ung thư vú đà được công khai trên cộng đồng trực
tuyến Kaggle [6|.
- Phạm vi nghiên cứu: Phân loại ảnh WSI có phái là ánh có chứa ung thư vú IDC hay khơng.
3
4. Phuong pháp nghiên cứu cúa đề tài
- Phương pháp kháo sát: 'lìm hiểu ánh WS1. các cơng trình nghiên cứu liên quan việc nhận dạng và phân loại ung thư vú 1DC qua anh WSI, phân
tích các uu và nhược điềm cúa mồi phương pháp;
- Phương pháp tổng quát hóa: Xây dựng sơ đồ nghiên cứu tổng quát, đề xuất phương pháp giãi quyết bài toán phân loại ành ung thư vú dựa trên
mạng học sâu CNN;
- Phương pháp thực nghiệm: Tiến hành thực hiện phương pháp đề xuất trên tập dừ liệu cụ the:
- Phương pháp thống kê, phân tích số liệu: Thống kê các kết quá thu được trong q trình thực nghiệm. Tiến hành phân tích kết quà thu được; đánh
giá im điềm và hạn chề cùa phương pháp đề xuất so với các kết quà đã có, từ đó dưa ra hướng phát triền cùa luận văn trong tương lai.
5. Đóng góp của đề tài
về mặt khoa học: Luận văn cung cấp một cơ sở lý luận cho bài toán phân loại ánh ung thư trong y học và là nguồn tài liệu tham khao cho cộng
đồng nghiên cứu phân loại ung thư vú IDC dựa trên anh sinh thiết vú.
về mật thực tiễn: I.uận vãn cung cấp một phương pháp phân loại ành ung thư vú 1DC trong y khoa. Từ dó. có the cung cấp ứng dụng tự dộng
nhận dạng tế bào ung thư IDC trong ành WSI. hỗ trợ các nhà nghiên cứu bệnh học rút ngăn thời gian phân loại vùng có tế bào ung thư IDC trên anh WSI.
6. Bồ cục cúa luận vãn
Dựa trên các mục tiêu đà đật ra, luận văn dược tô chức thành các phan chinh như sau:
Chương 1. Tổng quan
Trong chương này. chúng tôi sè cung cấp cái nhìn tồng quan về các hướng liếp cận và giai pháp đã ứng dụng trong bài toán phân loại anh ung thư
vú IDC.
4
Chương 2. Cơ sở lý thuyết
Trong chương này. chúng tôi sẽ trình bày một số khái niệm cơ bán liên quan đền đối lượng nghiên cứu và nen tang của phương pháp đề xuất.
Chương 3. Xây dựng giãi thuật
Trong chương này, chúng tơi sẽ trình bày phương pháp đề xuất để giai quyết bài toán phân loại ánh ung thư vú.
Chương 4. Kết qua và đánh giã
Trong chương này. chúng tôi sỗ mô tà các thành phần gồm tài nguyên, dừ liệu và q trình thực nghiệm: phân lích kết quá; đánh giá kết quá.
Chương 5. Kết luận và hướng phát triển
Trong chương này, chúng tôi sè đánh giá kết quá đạt được ve ưu diem, hạn chế cùa phương pháp đề xuất so với các phương pháp đà có; từ đó định
hướng nghiên cứu và phát triền tiếp theo trong lương lai.
5
Chương 1: TƠNG QUAN
1.1. Bài tốn phân loại ánh ung thư vú IDC
1.1.1. Vấn đề của hài toán
Hiện nay, các bệnh viện sử dụng pho biến các phương pháp không xàm lẩn để tầm soát ung thư. như: chụp X-quang tuyến vú. chụp cộng hường từ
vú. siêu âm vú và chụp nhiệt. Tuy nhiên, sinh thiết là cách duy nhất de biết chính xác liệu ung thư có thực sự xuất hiện hay không |7|. Sinh thiết là một xét
nghiệm y khoa, sử dụng các thiết bị đặc biệt đè thu thập mẫu tế bào hoặc mô đê đánh giá sự xuất hiện hoặc mức độ cua ung thư. Trong quy trình thực hiện
sinh thiết, các nhà nghiên cứu bệnh học sc phét các mầu bệnh phẩm thu được trên lam kính của kính hiến vi và sau đó tiến hãnh bước nhuộm mâu đê kiếm
tra trực quan [8|. Trong q trình chần đốn bệnh, các nhà nghiên cứu bệnh học thường sư dụng phương pháp nhận dạng mẫu dể dưa ra chấn doán làm sàng
trước khi thực hiện các bước tiếp theo. Trơn thực te. chân đốn bệnh lý hiện nay dựa trên ý kiến chu quan cua các Bác sĩ giãi phẫu bệnh. Do đó, phân tích mơ
bệnh học địi hói chun mơn cao và tốn nhiều thời gian, và phụ thuộc rất nhiều vào kinh nghiệm của chuyên gia |7|.
Trong những năm gần đây, các mô bệnh phẩm được số hóa thành ảnh kỳ thuật số ( WSI) trờ nên phố biền với các kỹ thuật phân tích hình ành bàng
máy tính và phương pháp máy học. Nhờ vào hệ thống máy tính gia tăng khơng gian lưu trừ và cài tiến thời gian tính tốn, phân tích hình anh đă đưa ra các
chần đốn và dự đốn tiên lượng để bơ sung cho ý kiến cùa chuyên gia về mức độ ung thư cùa bệnh nhân [9|.
IDC là loại ung thư vú phố biến và là nguyên nhân chính dần đen tứ vong ờ nữ giới. Đo đó. các Bác sì cần xác định có hay không tế bão ung thư
IDC trẽn WSI cùa bệnh nhân rồi mới dưa ra các chấn đoán và phác dồ diều trị tiếp theo. Bài toán cần giai quyết là dựa vào các mầu bệnh học WSI cua bệnh
nhân mắc
6
ung tlnr vú IDC. xây dựng hệ thống tự động phân loại các ánh này có chứa tế bào ung thư 1DC hay không.
1.1.2. Hiệu quã mang lại khi giái quyết bài toán
Ung thư vú lả một trong nhiều căn bệnh ác tính dần đến tý lệ tử vong cao ờ nữ giới. Do đó, việc đưa ra một cơng cụ hồ trợ cho các nhà nghiên cứu
bệnh học phát hiện ung thư vú dặc biệt là ung thư vú biếu mô ống xầm lấn trong bối canh này là rất cấp thiết. Hệ thống tự dộng phân loại ánh ung thư vú
1DC sẽ là một công cụ hồ trợ mạnh mè. đưa ra chấn đoán ban đầu về nguy cơ có mắc ung thư vú và rút ngằn thời gian phân loại và phản đoạn ung thư. Đặc
biệt, hệ thống phân loại tự động này sẽ đira ra các chân đoán khách quan, đại diện ý kiến thong nhất của nhiều chuycn gia. Vì vậy, độ chính xác cùa hệ thống
phân loại càng cao thì hệ thống càng đáng tin cậy.
1.2. Các hướng tiếp cận
Hiện đã cỏ nhiều công trình nghiên cửu phát hiện ung thư vú dựa trên anh y khoa với các cách tiếp cận khác nhau như phương pháp trích chọn đặc
trưng thu cơng (Handcraft Features - HF), máy học (Machine Learning - ML), đặc biệt mạng học sâu (Deep Neural Networks - DNN) đang được sứ dụng
rộng rài bỡi những lợi ích vượt trội mà nó mang lại. DNN có khã năng học tự động các dặc trung có ích từ límh ành [10] [11] mà có the khơng cần thực hiện
trích chọn các dặc trưng thú công trong bước tiền xử lý. diều này giúp giàm chi phí tính tốn cùa hệ thống rất nhiều cũng như sự phụ thuộc vào phương pháp
trích chọn đặc trưng. Ngoài ra. mạng học sâu là một cách tiếp cận mạnh me xư lý các bộ dù liệu lớn mà các phương pháp trước dãy và đặc diệt là HF khó
thực hiện được. Các mơ hình học sâu đà đạt được nhiều thành tích cao trong các thách thức phân loại hình ành trong nhiều lình vực khác nhau, kề cà phân
tích ãnh y khoa, và dặc biệt là ành mô bệnh học [11]. Teresa và các cộng sự [ 111 dã dề xuất một mạng nơ-ron tích chập (Convolutional Neural Network -
CNN) phân loại ánh sinh thiết mô vú nhuộm màu Hematoxylin và Eosin VỚI bốn lớp: mô
7
bình thường, mơ lành tính, ung thư biểu mơ tại chỗ. ung thư biểu mô xâm lấn 1111, (12]. Mô hình phân loại này có thê mớ rộng trên anh WS11111. Ashraf và
Siti (13] cũng đe xuất phương pháp NSGA-11 cãi thiện độ chính xác phân loại tự động ung thư vũ. NSGA-II là một mạng nơ-ron đa lớp dựa trên thuật tốn
di truyền sẩp xếp khơng bị chi phổi nâng cao có thể tối ưu hóa cà độ chính xác phân loại và cấu trúc mạng. Tuy nhiên, mạng nơ-ron da lớp này có the rơi vào
điểm cực tiêu cục bộ (12]. Fabio cùng với hai dồng sự 1141 cung cấp một kiến trúc mạng học sâu CNN phân loại ánh mô bệnh học trong tập dừ liệu
ĐreaKHis sừ dụng được các anh có độ phân giái cao, giám thiêu trong điều chinh kiến trúc mạng và chi chí tính tốn 114]. Chúng tơi sè trình bày tóm tat một
so phương pháp phát hiện ung thư vú IDC trong anh mô bệnh WSI liên quan đến đề tài chúng tôi nghiên cứu.
Cruz-Roa và các cộng sự [10] dã xây dựng một hệ thống phát hiện tự dộng IDC trong ánh WSI vào năm 2014. Nhóm tác già đưa ra cách tiếp cận
mạng học sâu và xây dựng kiến trúc mạng CNN gồm 3 tầng Convolution (dược minh họa qua hình 1.1). Hệ thống cua nhóm tác già đe xuất thực nghiệm trên
anh IĨIÔ vú WSI cùa 162 phụ nừ được chân đoán mac bệnh ung thư vú IDC ớ bệnh viện Đại học Pennsylvania và Viện Ưng thư New Jersey. Và 162 ánh mơ
bệnh này dược số hóa bời máy quét whole-slide ờ dộ phóng dại 40x (O.25pm/điềm ành). Vì kích thước mỗi WSI q lớn (có thể đến 100000x100000 diểm
ảnh), nhóm tác già đã trích xuất các bàn vá hình anh từ các WSI theo tý lệ 16:1 (4pm/đicm ánh) bang kỳ thuật Grid Sampling đê thực nghiệm (quy trình lấy
mầu cùa lác giã bang kỳ thuật Grid Sampling được minh họa qua hình 1.2). Bên cạnh đó. các vùng IDC được một nhà nghiên cứu bệnh học chun nghiệp
chú thích thú cơng dựa vào phần mềm xem miền phí ImageScope cùa Aperio ờđộ phơng đại 2x hoặc nhị hơn. diều này dẫn dền các vùng IDC có lần các
vùng mô dệm hay mô không xâm lấn 110]. Mồi WSI sẽ được phàn chia thành nhiều bàn vá có kích thước 100x100 điểm anh. khơng trùng lặp. Hầu hết. các
bán vá hình anh
8
chi chứa các thành phẩn khơng có ý nghĩa trong việc phát hiện IDC sỗ bị loại bó. chăng hạn như mơ mở. nền ... Một ban vá hình anh có lì nhất 80% vùng
IDC nam trong vùng chú thích được coi là mầu dưong tính hay cịn gọi là mầu IDC. Ngược lại, các mầu âm tính là nhùng bán vá khơng nằm trong vùng chú
thích IDC, hoặc có vùng chú thích 1DC thấp hơn chi số trên. Đế chuẩn bị dữ liệu cho quá trình huấn luyện, các ban vá hình ánh dược chuycn từ khơng gian
màu RGB sang YUV và dược chuẩn hóa về giá trị trung bình bằng 0 và dộ lệch chuẩn bảng 1 nhăm lãm nồi bật các đặc trưng dầu vào và tăng tốc độ học dựa
trên Gradient. Bên cạnh đó. các tác gia sứ dụng SGD (Stochastic Gradient Descent) để tối ưu giá trị lồi trong quá trình huấn luyện, với các tham số tỳ lệ học
2
?
và tỳ lệ suy giâm lằn lượt là 10 , 10 . Kct qua thực nghiệm cùa tác giá [10] cho thấy mơ hình học sâu đã đề xuất đạt được hiệu suất phân loại ở các chi sổ
đánh giá F-measure Là 71.80% và BAG (Balanced Accuracy) là 84.23%. So với các mơ hình trích xuất đặc trưng thù cơng, mỏ hình dồ xuất đạt các chi số
đánh giá hiệu suầt cao hơn lấn lượt là 4% và 6%. Hệ thống phát hiện tự động IDC mà nhóm lác giá I IO| đề xuất là một trong các ứng dụng học sâu dầu liên
phân
lích ánh mơ WS1 và học lự động các đặc trưng từ dừ liệu đà mang lại độ chính xác phân loại cao hơn các kỳ thuật trích xuất đặc trưng thù cơng đã có và đặc
biệt là có khà năng tái tạo các vùng IDC [10]. MỘI phát hiện thú vị mà nhóm
tác giá [10] nêu ra dó là những phân loại sai hầu như là do các mầu dó khơng được chú thích chi tiết từ nhà nghiên cứu bệnh học.
Hình 1.1.Kiến trúc CNN’ dược đề xuất hỡi Cruz và các cộng sự ỊI0Ị
9
Một \VSI dược Rân nhàn bời nhà nghlín cửu bệnh học Một WS1 được tich thành các bân vả hình ánh
(a)
(b)
Ilình 1.2. Minh hụa quy trình lấy mẩu băng kỳ thuật Grid Sampling, (a) Một WSI vói các chú thích thú công từ các nhà nghiên cứu bệnh
học, (bl một WSI được phân chia thành các bán vá hình anh. Các mẫu chi được lấy trong các vùng lưới màu / ÌOỊ
Andrew vã Anant 115 J cũng đả giới thiệu mạng học sâu thực hiện nhiều nhiệm vụ phân tích hình ành y khoa trong bệnh học kỳ thuật sơ (Digital
Hypology - DP). Tác gia đà chi ra hai hạn chế mà các nhà nghiên cửu gặp phải trong các tiếp cận trước đây. Hạn chề thứ nhất đó lã đế thực hiện một nhiệm
vụ phân tích hình ành thì cần lựa chọn một bộ tham số phù hợp trên một tập dữ liệu cụ thề. Kill thực hiện một nhiệm vụ khác trong phân tích hình anh thì các
nhà nghiên cứu cần bô sung và điều chinh các bộ tham số phù hợp trên một tập dừ liệu mới. Diều này lại dản đến một hạn chế thứ hai. đó là kỳ thuật lựa
chọn và điều chinh các tham so toi ưu phụ thuộc nhiều vào kha nâng am hiểu thuật toán của các nhà nghiên cứu [15]. Từ những hạn chế này, Andrew và
Anant đã giới thiệu một cách tiếp cận có thế sir dụng một mơ hình kiều mầu dè thực hiện bày nhiệm vụ phân tích hình ành y khoa trong DP. AlexNct là mạng
học sàu được nhóm tác giã sư dụng đe thực nghiệm bay nhiệm vụ phân tích hình anh y khoa, bang 1.1. 'Phay vì phái lựa chọn các bộ tham số thích hợp khi
thực hiện từng nhiệm vụ nhu các cách tiếp cận trước, các tác gia dă đề xuất
10
kỳ thuật tuyên chọn các bân vá hình anh phù hợp với từng dừ liệu thực nghiệm. Xác định vùng 1DC là một trong bày nhiệm vụ mã các tác giá đã giới thiệu.
Đày là một trong các bước tiền xừ lý phô biến đè phân loại tự động mức độ lây lan các tể bão ung thư vú 1151. Thực nghiệm trên cùng bộ dừ liệu với tác gia |
10], Andrew trích xuất các bàn vá ban đầu ỡ cùng độ phân giãi, nhưng kích thước bàn vá 50x50 nhó hơn kích thước băn vá mà tác giá [10] dã chọn. Đe thực
nghiệm cho nhiệm vụ này. tác già 1151 dà tiếp cận ba cách chọn mẫu khác nhau. Thử nhất, các bán vá 50x50 sẻ được diều chinh kích thước về 32x32 bàng
kỳ thuật điều chinh kích thước. Thử hai, các ban vá 50x50 được thực hiện cat về kích thước 32x32. Cách tiếp cận thú ba được giới thiệu là các ban vá 50x50
sè được quay ờ các góc quay khác nhau như 0, 45, 90, 135 hay 180 độ và sau đó được cắt về 32x32. Thách thức trong cách tiếp cận cua Andrew đó là dừ liệu
dầu vào cỏ kích thước nho hơn [10]. do dó sẽ cung cấp ít hơn 60% điểm ành cho bộ phân loại [15]. Kct quà mà nhóm tác giá này thu được cho thấy phương
pháp điểu chinh kích thước anh mang lại kết qua cao hơn hai cách liếp cận cịn lại vì với việc cắt ánh sõ dần đến mất thông tin cùa các ban vá. Đồng thời, lác
giã cùng nhận dinh việc sừ dụng Dropout không mang lại sự cái thiện nào cùa mạng đề xuất trong q trình thực nghiệm. Bên cạnh đó, các tác già chi ra lẳng
việc chú thích thủ cơng các vùng IDC cùng Là một thách thức trong nghiên cửu bệnh lý kỹ thuật sổ cùng như kinh nghiệm cua các nhà nghiên cứu bệnh học.
Báng 1.1. Kiến trúc mạng AlcxNct do Andrew và Anant [15] đề xuất
sị lows
Lớp
Pìin kiạl
IM) lọ.'
Kkb Ibrỡí bộlẹr
liirụl
Him kkh hoại
3 (kênh mau)
32x32 (kieh Ihirứv inh)
32
5x5
1
•
3x3
■7
■V
Relu
32
5x5
1
Rclu
-
3x3
■>
Ãr
64
5x5
I
-
3x3
64
-
-
-
-
•
-
Ánh đầu vào
0
1
Tích chẠp
Gópgtáúi lớn nhát
2
3
ĩĩch chập
4
-
Gộp gừ (n tnuig binh
5
Tích cliập
Góp giã tri trang binh
6
7
8
9
Relu
2
Kết nổẦyđũ
Kêtnơiđẩyđũ
SiMax
2
•
Dropout • Relú
Dropout Rdũ
11
Một mơ hình CNN được Malm [16] giới thiệu trong thách thức phân loại ánh ung thư vú IDC vào năm 2017 . VỚI kiên trúc mạng chính gồm ba
lớp tích chập, một lớp kết nổi đầy đú và sử dụng hàm kích hoạt Sìmax đê phân loại hai lớp. Ngồi ra, sau mồi lóp tích chập là một lớp gộp. và có sừ dụng
kỳ thuật bõ học sau lớp gộp thứ ba. Kích thước bộ lọc và số lượng bán đồ đặc tnrng ở mỗi lớp tích chập lần lượt là 3x3 và 36. Giá trị dầu ra cua mồi lớp tích
chập sỗ dược kích hoạt bới hàm phi tuyến Relu. số lượng nơ-ron ờ lớp kết nối dầy dù là 576 và tý lệ loại bo thông tin là 0.33. Malm thực nghiệm mị hình đề
xuất với nhiệm vụ phân loại 2 lớp trên tập dừ liệu ung thư vú được cung cấp bơi tác gia Jcgs |6| với 5547 ãnh mơ vú. Thuật tốn Adam được Malm sứ dụng
loi ưu giá trị lồi cùa mạng với tý lệ học ban đầu là 10’. Tác giá sứ dụng kỳ thuật Cross-validation huấn luyện mơ hình trong 10 phổ với 30 lằn huấn luyện.
Trong dó, một lần huấn luyện cho dử liệu không tăng cường, và 29 lần huấn luyện cho dừ liệu tăng cường VỚI các phép biến dôi ánh. Kct quá đạt dược từ
cách tiếp cận cùa tác gia có độ chính xác phân loại đạt 80%, tăng 4% so với cách tiếp cận ban đau.
Dựa trên kiến trúc mạng CNN cùa 110), Wang và các cộng sự |4| đà triền khai một kiến trúc mạng cơ sờ (Hình 1.4) từ đó phát triẽn thêm bon kiến
trúc mạng mới (Hình 1.5) để thực hiện nhiệm vụ phân loại ung thư vú IDC. Wang cùng thực nghiệm các mơ hình dề xuất trên bộ dữ liệu WSI trong bài báo
cùa nhóm tác già [10]. Tuy nhiên, số lượng các bán vá mà Wang trích xuất từ 162 WS1 gốc cỏ kích thước 50x50 diem ánh nhó hơn cùa Cruz-Roa tạo nén bộ
dừ liệu lớn hơn. Bên cạnh đó, tác giá thực hiện các phép biến đoi hình anh như quay, lật anh, biến đoi ty lệ và dịch chuyên ãnh đè tãng cường dừ liệu huấn
luyện với mong muốn làm giàu dữ liệu và giảm hiện tượng học quá mức. Mà theo Sebastien [17] cùng dã nhận định: dữ liệu dược tăng cường trong không
gian dữ liệu sỗ cai thiện hiệu suất cùa hệ thống phân loại lốt hơn là tảng cường dữ liệu trong không gian đặc trưng. Tác già [4] dùng sổ lượng màu tăng cường
12
cho huấn luyện gap 27 lần số mẫu kiếm thừ. Dồng thời, lác giá su dụng Cross-validation với 10 phổ huấn luyện. Theo như sự phán tích cùa tác giá thi điều
này sè giúp cho mơ hình học lơng qi hon. Tuy nhiên, mơ hình có the dần đến sè được học quá mức lử dừ liệu đối với các kiến trúc mạng nông. Và kết quà
thực nghiệm cùa Wang cho thấy trong bốn kiến trúc mạng mới thì chi có kiến trúc thứ tư nhiều tầng nhất và dụt các hiệu suất dánh giá cao khi huấn luyện
trên tập dữ liệu tăng cường. Tuy nhiên, xét trên tống thể cùa tất cá các mạng mà Wang đề xuất cho thấy việc tăng cường dừ liệu không giúp cái thiện hiệu
suẩt học của mạng. Từ kết qua thực nghiệm. Wang chi ra rằng một kiến trúc mạng CNN 5 lớp là phù hợp nhai cho nhiệm vụ phán loại ung Ihư vú IDC, nếu
càng bò sung thêm nhicu lớp sẽ làm cho mạng suy yếu (4], Hướng phát triền mà nhóm tác giã đã đề xuất là xây dụng một hệ thống đa mò hĩnh hoạt dộng dựa
trên quá trinh hợp nhất dể phân loại ành ung thư vú IDC.
Bàn đê ddc trưrvq 32x42x42
LỜptkh ch^p (3x3)
ƠHiấri tóứ
!*><> (3*3)
Bẽr
IxipiXc. (5*5)
(Vr AV !nj»xi &4x7x7
láp tị nS đu
81
ChuSn bó*
Bê ptón krt
(ỹttrox)
Hình 1.3. Kiến trúc mạng cơ sơ’cùa nhóm tác giá Ị4Ị
13
của nhóm tác giã [4]
1.3. Khó khăn và thách thức
Trong q trình nghiên cứu và tống họp từ các cơng trình nghiên cửu đà có. chúng tơi nhận thấy một số hạn ché trong nhiệm vụ phân tích anh y
khoa, đặc biệt là anh WSI như sau:
Thử nhất, hạn chề về nguồn dừ liệu thực nghiệm 112]. Thu thập dừ liệu là vấn đề quan trọng trong việc giúp hệ thống nhận dạng mẫu đề đưa ra kết
quà phân loại chính xác. Bời vậy, dữ liệu càng phong phú - cỏ nghía là dữ liệu dược thu thập từ nhiều bệnh nhân với nhiều mức dộ khác nhau - càng giúp cho
hệ thống phân loại tự động cỏ độ chinh xác càng cao. Hầu hết các cơng trình phân loại ung thư vú IDC mà chúng lòi dà tỏng họp chi thực hiện trên các tập
dừ liệu nho 17|. Một phần do hệ thống thu thập ánh WS1 mô vú rất đắt. khơng phái phịng nghiên cứu nào cùng có, dần đến dừ liệu anh y khoa ít được chia
sè rộng rãi trong cộng dồng nghiên cứu khoa học 114].
Một trong các yếu tố góp phần quan trọng trong việc phân tích mơ bệnh học đó là thơng tin màu cùa ánh y khoa 118]. Trong quy trình sinh thiết,
các nhã
14
nghiên cứu bệnh học sứ dụng các thuốc nhuộm chuyên biệt làm nồi bật các cấu trúc tế bào quan trọng cho việc chẩn đốn 1111,114Ị. Nhiều phịng thí nghiệm
sè sư dụng thuốc nhuộm và quy trình nhuộm màu mơ học khác nhau [7|. Điều này dần đến tập dừ liệu không đồng nhất ncu chửa nhiều mầu bệnh học lử
nhiều nguồn cung cấp.
Bên cạnh dó, cấu trúc cùa ành WSI mơ vú rất phức tạp, có the ảnh hường dến hiệu quà phân loại cùa hệ thống. Hệ thống phần loại tự dộng phai
nhận dạng được các thành phần lành tính, thành phần ác tính và thành phần nhiễu trong ánh mơ vú. Các lớp mơ nhiêu có khá năng bắt chước và chia sẽ các
đặc lính với các lớp mơ binh thưởng hay ác tinh. Do đó, bang phương pháp Ihú công hay phân loại tự động cùng khó xác định được mơ nhiều ị 19], có the
dần đến sai lầm trong lúc phân loại khi gặp ánh có chửa nhiều mơ nhiều.
Ngồi ra. một khó khàn mà chúng tịi nhộn thấy dược từ các cồng trình nghiên cứu trước đó là chi phí tính tốn 112]. Một số cơng trình nghiên cứu
dã có bàng các phương pháp trích xuất dặc trưng thú cơng thường thiếu tính tống qt vì mỗi mơ và tế bào ung thư đều có kết cấu. cấu trúc và hình dạng cụ
thề [201. Xu hướng hiện nay là nghiên cứu và xây dựng các cơng trình phân loại lự động nhàm lấy tồn bộ thơng tin từ hình ành đầu vào mà khơng cần phân
biệt loại ánh. Việc lựa chọn và thiết ke một mơ hình học sâu dáp ứng các yếu tố: phù hợp VỚI dữ liệu nghiên cứu. nít ngắn thời gian cùa q trình huấn
luyện, và đạt được độ chính xác phân loại cao cũng là một thách thức đã có từ trước tới nay.
Nhừng khó khăn mà luận vân đà đê cập cùng chính là các thách thức cho hệ thống phân loại tự động của chúng tôi. Chúng tôi mong muốn xây
được một hệ thống phân loại tự động ảnh ung thư vú IĐC hiệu quã, phù hợp với dừ liệu mà chúng tôi nghiên cứu. dạt dược dộ chính xác cao. tài nguyên sừ
dụng hợp lý-
15
1.4. Phạm vi để tài
Trong quá trình nghiên cứu. chúng tôi nhận thấy việc thu thập dữ liệu anh y khoa phụ thuộc vào nhiêu yếu lồ, chang hạn như: nguồn cung cấp mầu
mô bệnh phẩm tử các bệnh nhân mac IDC; thiết bị phục vụ cho quá trình sinh thiết; đội ngừ chuyên gia tiến hành quy trình nhuộm màu mô học. gán nhãn
vùng ung thư IDC; hệ thống thiết bị chuyển dối ành WSI mô vú. ... Đồng thời, mồi ánh WSI có kích thước rất lớn. phài sừ dụng các thiết bị và phần mềm
chuyên dụng đê dọc và phân tích. Do đó. chúng tơi chi thực nghiệm trên tập dừ liệu có sẵn và được cơng khai trên cộng dồng nghiên cứu khoa học Kaggle
của tác gia Jogs 16|. Đong thời, việc trích xuất các đặc trưng thũ cơng hay phân vừng I DC chính xác trước khi phân loại rất khó khàn do cấu trúc ãnh mơ vú
phức tạp, địi hịi nhiều kinh nghiệm trong lình vực y tế cùng như học máy. do đó. chúng tơi sử dụng mạng CNN dể trích xuất tự dộng các dặc trưng từ dữ
liệu cho nhiệm vụ phân loại các bán vá cua anh WSI mà không thực hiện các nhiệm vụ khác trong bước tiền xử lý ánh.
1.5. Đề xuất hướng giãi quyết
Tông hợp các thách thức và ke thừa từ các cơng trình nghiên cứu đă có. chúng tơi xây dựng một hệ thống phân loại tự động ánh ung thư vú IDC
dựa trên mọng CNN. Trong dó. hệ thống phân loại tự dộng cùa chúng tôi dề xuất sừ dụng một thang do chất lượng anh bằng phương pháp Đánh giá chất
lượng hình anh trong không gian không tham chiếu (Blind/Rcfercnceless Image Spatial Quality Evaluator - BR1SQUE) phân lập dừ liệu thực nghiệm nhầm
giúp cho hệ thong tập trung học các đặc trưng can thiết từ dừ liệu.
16
CHƯƠNG 2: cơ SỚ LÝ THUYẾT
2.1. Bệnh học kỳ thuật sổ
2.1.1. Giói thiệu
Như chúng la đà biết, Bệnh học là một chuyên ngành nghiên cứu bệnh tật hỗ trợ cho việc chẩn đốn lâm sàng trong y khoa. Các cơng việc nghiên
cứu bệnh học dược thực hiện trong phịng thí nghiệm dưới sự hợp tác cũa nhiều chuyên gia ờ nhiều lĩnh vực khác nhau, và chu yếu dựa trên quy trình lãm
việc thu cơng (211.
Ngây nay. cùng với sự liến bộ cùa khoa học và công nghệ, các nhà nghiên cứu bênh học không chi quan sát trực tiếp các mầu bệnh phẩm dưới
kính hiên vi mà cơn có thê quan sát. nghicn cứu chúng thơng qua các hình ãnh kỳ thuật sổ bất kề thời gian và không gian.
Bệnh học kỷ thuật số (Digital Pathology - DP) cung cấp cho các nhà nghicn cứu bệnh học một phương thức kỹ thuật số đe quan lý. diẻn giai, phân
tích và lưu trừ thòng tin bệnh nhân [211. [22]. Trong hệ thống DP. các mẫu mô bệnh phẩm phết trên lam kính quan sát dưới kinh hiên vi sè được chuyền đối
thành hình ânh kỳ thuật so có độ phân giái cao bang cách sứ dụng máy quét Whole Slide. Các ảnh kỳ thuật sổ cung cấp cho việc phàn tích bệnh lý thường ờ
dạng 2D [21]. Các nhà nghiên cứu bệnh học có the xem dạng ảnh này trên màn hình máy tính, thiết bị di dộng; và có thể chia sè qua mạng internet bảng các
phần mềm chuyên dụng, như hình 2.1 .
Hình 2.1. Hệ thống bệnh học kỹ thuật số Ị2ÌỊ