Tải bản đầy đủ (.pptx) (62 trang)

Ứng dụng học sâu cho phân loại ảnh ung thư vú

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (945.13 KB, 62 trang )

BỌ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC su PHẠM THÀNH PHĨ HỊ CHÍ MINH

Phạm Thị Ngọc Linh

ỦNG DỤNG HỌC SÂU CHO PHÂN LOẠI ÁNH UNG THU vú

Chuyên ngành: Khoa học máy tính
Mã SỐ: 8480101

LUẬN VĂN THẠC sĩ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DÁN KHOA HỌC:


1. PGS. TS. PHẠM THẾ BÁO
2. TS. NGUYÊN VIÉT HƯNG

Thành phố Hồ Chí Minh - 2022


LỜI CAM ĐOAN
Tôi xin cam đoan luận van "ứng dụng học sâu cho phân loại ánh ung thư vú” là do tôi tim hiểu, nghiên cứu và thực hiện dưới sự hướng dần cùa

quý Thầy là PGS. TS. Phạm The Bao và TS. Nguyền Viết Hung. Luận vàn khơng có sự sao chép từ các tài liệu, cơng trình nghiên cứu khác mà không ghi rõ

nguồn trong tài liệu tham khào.

Kết quà thực nghiệm trình bày trong luận văn là khách quan và chưa dtrợc cồng bố trong bất kì cơng trinh nghiên cứu nào khác.

Thành phố Hồ Chí Minh, ngày 25 thủng 04 nám 2022



Tác già

Phạm Thị Ngọc Linh


LỜI CÁM ƠN
Lời nói dầu tiên, tơi xin gửi lời càm ơn sâu sac den quý Thầy hướng dẫn cùa tôi. PGS. TS Phạm 'rhe Báo và TS. Nguyễn Viết Hưng. Quý Thầy đã
đinh hướng, trực tiếp hướng dẫn. nhiệt tinh giúp đờ và chi bao tôi trong suốt quá trình thực hiện luận văn nảy.
Tơi xin chân thành cảm ơn quý Thầy đã (rực tiếp giăng dạy VÌI truyền đạt kiến thức cho tơi trong suốt q trình học tập vừa qua tại trường Đại
học Sư phạm Thành phố HỒ Chí Minh.
Tơi cũng xin dược cam ơn sự hỗ trợ den từ q Thầy Cơ cơng tác tại Phịng Sau đại học. Khoa Công nghệ thông tin trường Dại học Sư phạm
Thành phố Hồ Chí Minh và các bạn học viên cùng khóa trong khống thời gian tơi học tập tại trường.
Dồng thời, tôi cũng xin gửi lời cam ơn đến quý Thầy Cô trong Ban Giám Hiệu, tố Tin hục trường THPT chuyên Trần Htmg Đạo đà tạo điều kiện
và hỗ trợ rất nhiều trong q trình đơi di học.
Cuối cùng, tôi xin gứi lời cám ơn đền bạn bồ, người thản vã đặc biệt là đẳng sinh thành cùa tôi. Mẹ là người luôn úng hộ mọi quyết dịnh của tôi.
luôn cho tôi động lực đê tôi hồn thành luận văn nãy.
Trong q trình thực hiện luận vãn. dù gặp nhiều khó khản và áp lực từ cơng việc cũng như có nhiều biến cố xáy ra, tơi đã cố gắng hết sức có thể
để hồn thiện luận vàn. Tuy nhiên, luận vàn cùng khơng tránh khói thiếu sót. Tơi rất mong được sự góp ý cùa quý Thầy Cô. anh chị em dồng nghiệp.
Xin chân thành cam ƠT1!
Thành phu Hồ Chí Minh, ngày 25 tháng 04 nám 2022

Tác giá

Phạm Thị Ngọc Linh


MỤC LỤC
Lời cam đoan
Lời câm ơn

Danh mục các kí hiệu và từ viết tắt
Danh mục các bàng biểu
Danh mục các hình vỗ
Danh mục các biểu đồ

MỠ ĐÀU
Chương 1. TỎNG QUAN............................................................................... 5
1.1. Bài toán phân loại ánh ung thư vú IDC..................................................5
1.1.1. Vấn đề cua bài toán..........................................................................5
1.1.2. Hiệu quà mang lại khi giãi quyết bài tốn.......................................6
1.2. Các hưởng tiếp cận.................................................................................6
1.3. Khó khăn và thách thức........................................................................13
1.4. Phạm vi để tài.......................................................................................15
1.5. Đe xuất hướng giai quyết.....................................................................15

Chương 2. co SỞ LÝ THUYẾT.................................................................16
2.1. Bệnh học kỹ thuật so............................................................................16
2.1.1. Giới thiệu.......................................................................................16
2.1.2. Những ưu điểm và hạn chế trong thực hành DP...........................17
2.2. Ánh toàn trang chiếu............................................................................18
2.3. Mạng nơ-ron nhàn tạo..........................................................................19
2.3.1. Giới thiệu.......................................................................................19
2.3.2. Biếu diền mạng nơ-ron..................................................................20
2.4. Mạng học sâu........................................................................................22
2.4.1. Giới thiệu.......................................................................................22
2.4.2. Mạng CNN.....................................................................................23


Chương 3. XÂY DỤNG GIÃI THUẬT....................................................... 25
3.1. Tống quan.............................................................................................25

3.2. Đánh giá chắt lượng ánh trong không gian mù....................................26
3.3. Xây dựng kiến trúc mạng.....................................................................28
3.3.1. Mô tà kiến trúc ntạng đề xuất........................................................28
3.3.2. Hàm lồi và hàm tối ưu...................................................................29
3.4. Phương pháp đánh giá..........................................................................30
3.4.1. Dộ chính xác..................................................................................30
3.4.2. Ma trận nhầm lần...........................................................................30

Chương 4. KẾT QUẢ VÀ ĐÁNH GIÁ....................................................... 33
4.1. Dừ liệu..................................................................................................33
4.2. Môi trường thực nghiệm.......................................................................34
4.3. Các siêu tham số huấn luyện................................................................35
4.4. Kct quá thực nghiệm và đánh giá.........................................................35

Chương 5. KÉT LUẬN VÀ HƯỚNG PHÁT TRIÈN................................ 46
5.1. Kết quá đạt được...................................................................................46
5.2. Đóng góp cùa luận vãn.........................................................................46
5.3. Hướng phát triển...................................................................................46

TÀI LIỆU THAM KHẢO............................................................................ 48


DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TÁT

Từ viết tắt

Từ viết dầy dii

BRISQƯE


Blind/ Refcrenceless Image Spatial Quality Evaluator

CNN

Convolutional Neural Network

DNN

Deep Neural Networks

DP

Digital I typology

HF

Handcraft Features

IDC

Invasive Ductal Carcinoma

IQA

Image Quality Assessment

NSGA-IĨ

Noil-dominated Sorting Genetic Algorithm


WSI

Whole Slide Image


DANH MỤC CÁC BÁNG BIÊU
Bang 1.1. Kiến trúc mạng AlexNet do Andrew vả Anant đề xuất................10

Bang 3.1. Bang mô tà ma trận nham lần.......................................................31

Bang 4.1. Thống kê số lượng mầu cúa các tập dừ liệu.................................34

Bâng 4.2. Bang đối sánh kết q huấn luyện cùa mơ hình 1 và mơ hình 2

trên tập dữ liệu gốc khơng tãng cường ành. có sử dụng IQA bằng phương pháp Cross-validation.............................................38

Bàng 4.3. Bang đối sánh kết qua huấn luyện cua mơ hình 1 và mơ hình 2 trên tập dừ liệu gốc có tâng cường tập huấn luyện bang phương pháp Cross-

Validation..................................................................39

Bang 4.4. Bang đoi sánh kết quà kicm thư trên tập dừ liệu gốc có tâng cường dừ liệu huấn luyện cùa mơ hình đề xuất và mơ hình cùa tác già Malm bằng

phương pháp Cross-validation và dánh giá trên tập kiểm thứ...........................................................................40

Bang 4.5. Bang kết q huấn luyện của mị hình đề xuất và Malm trên tập dừ liệu gốc với phương pháp Hold-out có sứ dụng 1QA và khơng sư dụng

IQA.......................................................................41


DANH MỤC CÁC HÌNH VÈ

Hình 1.1. Kiến trúc CNN dược dề xuất bời Cruz và các cộng sự..........................8
Hình 1.2. Minh họa quy trinh lấy mẫu bảng kỳ thuật Grid Sampling, (a) Một
WSI với các chú thích thú cơng từ các nhà nghiên cứu bệnh học.
(b) một WSI được phân chia thành các ban vá hình ánh. Các mầu
chi được lấy trong các vùng lưới màu ...................................................9
Hình 1.3. Kiến ưúc mạng cơ sớ cùa nhóm tác giá................................................12
Hình 1.4. Bốn kiến trúc mạng mới được xây dựng trên kiến trúc cơ sờ của
nhóm tác già..........................................................................................13
Hình 2.1. Hệ thống bệnh học kỳ thuật số..............................................................16
Hình 2.2. Te bào thần kinh sinh học.....................................................................19
Hĩnh 2.3. Mạng thần kinh sinh học được tố chức thành nhiều lớp.......................20
Hình 2.4. Mơ hình ANN tổng qt.......................................................................20
Hình 2.5. Một mạng nơ-ron dơn gián với các tham số cho trước.........................21
Hình 2.6. Quá trình tính tốn đe giám sai sổ băng lan truyền ngược...................21
Hình 2.7. Lịch sử của học sâu...............................................................................23
Hình 2.8. Một ví dụ về mạng học sâu CNN.........................................................24
Hình 3.1. Giái thuật phân loại ánh IDC của phương pháp đe xuất.......................25
Hĩnh 3.3. Phân phối cua cường độ các diêm ánh sau khi chuẩn hóa hình ánh.
a) Ánh có gán nhăn IDC từ tập dừ liệu ánh ung thư vú . b) Biểu đỗ
phân

phối

cường

dộ

diêm

ánh


khi

chuẩn

hóa

MSCN

ánh.............................................................................28
Hình 3.4. Kiến trúc mạng dược đe xuất................................................................29
Hình 4.1. Một ví dụ ánh được gán nhãn không phái ung thư vú IDC..................33
Hình 4.2. Một ví dụ về anh được gán nhãn ung thư vú IDC................................33
Hỉnh 4.3. Thổng kê kết qua ILSVRC qua các năm..............................................43



bốn

hướng

lẫn

cận

cùa

điềm



DANH MỤC CÁC BIÊU ĐÔ
Biểu đổ 4.1. Biểu dồ hàm lồi....................................................................................35
Biếu đồ 4.2. Biểu đồ $0 sánh độ đo ACC cùa cíỉc mị hình thực nghiệm.................44
Bicu đồ 4.3. B1CU đồ so sánh Precision của các mơ hình thực nghiệm....................44
Biểu đồ 4.4. Biểu đồ so sánh độ đo Recall cua các mơ hình thực nghiệm...............45
Biêu đồ 4.5. Biẻu đồ so sánh độ đo F1 cùa các mơ hình thực nghiệm.....................45


1

MỚ ĐẤU
1. Lý do chọn đề tài
Ung thư đà và đang là một trong nhừng vắn đe khó khàn cùa y khoa và xã hội, trong đó ung thư vú lã cân bệnh ác tính thirờng gập nhất ờ nữ giới.

Hang năm, trên thế giới có khống hai triệu người được chẩn đoán bị ung thư vú và khoáng sáu trăm nghìn người tư vong vì căn bệnh này 1 I ]. Theo thống

kê cùa GLOBOCAN năm 2020. Việt Nam có gần một trâm tám mươi nghìn ca mắc mới ung thư. trong đó hơn hai mươi nghìn người mắc bệnh ung thư vú

[11. Cũng trong nám 2020, Việt Nam ghi nhận hơn chín nghìn trường hợp tử vong vì căn bệnh nãy. Đây thực sự là con so đáng lo ngại, là moi quan tâm của

toàn xà hội.

Trong số tất cà các loại của ung thư vú. ung thư biểu mô ống xâm lấn (Invasive Ductal Carcinoma - IDC) là phổ biến nhất, chiếm gần 80% tất cá

các chân đoán [2J. [3], [4J. IDC là loại ung thư xuất phát từ các tế bào lót ổng dẫn sừa làm nhiệm vụ mang sừa mẹ đến núm vú. phá vờ thành ống dẩn và

xâm lấn mô lân cận. Ngày nay. nhờ vào sự phát triển cùa công nghệ, các nhà nghiên cứu bệnh học áp dụng các phương pháp phản tích trên anh sinh thiết

(Whole Slide Image - WSI). Các ânh dừ liệu được gán nhãn các vùng có nguy cơ bị ung thư trên ảnh thu thập dược từ các bệnh nhân mac bệnh IDC. từ các


ànlì này. các nhà giãi phẫu bệnh có thề xác định mức dộ phát triền cùa bệnh - q trình này cịn gọi là phân loại khối u - đê dự đoán kết quà cua bệnh nhân và

dề xuất các lộ trinh điều trị khá thi. Việc phát tricn các phương pháp hiệu quá đe tự động phát hiện ung thư ớ biêu mô ống xâm lấn và việc phân loại mức độ

phát triển cùa khối u cùng như đưa ra két quá dự đoán cho bệnh nhân vần là một vấn đe thách thức cho các nhà nghiên cứu bệnh học, vì các nhà nghiên cứu

mất rất nhiều thời gian dề quét một lượng lớn các hình ành mơ lành bệnh có sần dể xác định vùng

ác lính tiêm ân.


2

Hiện nay. mơ hình máy học là một trong nhừng hướng giái quyết với khá năng nhận biết thông qua việc học thơng tin từ dừ liệu và có tốc độ xác

định ranh giói tiềm ân cao có thê cung cấp một hồ trự tiềm nang cho các bác sì đế đánh giá nhanh hon và chinh xác hon loại khoi u.

Việc chần đoán và điều trị ung thư vú trong giai đoạn đầu là cần thiết để ngăn chặn sự phát triển của bệnh và giam tỷ lệ mắc bệnh 15] cùng như

giâm tỳ lệ tư vong do ung thư vú gây ra. Do dó. việc kiểm tra định kỳ là một trong nhửng phương pháp chinh để phát hiện bệnh. Xuất phát từ thực tế trên,

chúng tôi dồ xuất nghiên cửu sư dụng mơ hình học sâu - là một trong những mơ hình liên tiền hiện nay trong lình vực máy học - để phân loại ãnh ung thư vú

IDC có hay khơng dựa vào ánh WSI mô vú với ten đề tài “Ung dụng học sâu cho phân loại ãnh ung thư vú". Với mong muốn cung cấp một phương pháp phát

hiện tự dộng tế bào ung thư vú giúp các nhà nghiên cứu bệnh học rút ngắn thời gian xác định vùng thư vú IDC và dặc biệt là hồ trợ bác sĩ trong việc đưa ra

chân đốn nhanh chính xác. phát hiện bệnh ung thư vú ngay ở giai đoạn đầu.

2. Mục tiêu cũa đề tài

Mục tiêu của chúng tôi khi thực hiện luận ván này: Nghiên cứu ánh WSI của mô vú; nghiên cứu các mơ hình học sâu; từ đó lựa chọn và xây dựng

mơ hình phù hợp dể phân loại ành ung thư vú dựa trên ành WSI.

3. Đối tượng và phạm vi nghiên cứu cúa dề tài
- Đối tưọiìg nghiên cứu: Luận văn thực nghiệm trên bộ dừ liệu ve anh mò học cùa bệnh nhân ung thư vú đà được công khai trên cộng đồng trực
tuyến Kaggle [6|.

- Phạm vi nghiên cứu: Phân loại ảnh WSI có phái là ánh có chứa ung thư vú IDC hay khơng.


3

4. Phuong pháp nghiên cứu cúa đề tài
- Phương pháp kháo sát: 'lìm hiểu ánh WS1. các cơng trình nghiên cứu liên quan việc nhận dạng và phân loại ung thư vú 1DC qua anh WSI, phân

tích các uu và nhược điềm cúa mồi phương pháp;

- Phương pháp tổng quát hóa: Xây dựng sơ đồ nghiên cứu tổng quát, đề xuất phương pháp giãi quyết bài toán phân loại ành ung thư vú dựa trên

mạng học sâu CNN;

- Phương pháp thực nghiệm: Tiến hành thực hiện phương pháp đề xuất trên tập dừ liệu cụ the:

- Phương pháp thống kê, phân tích số liệu: Thống kê các kết quá thu được trong q trình thực nghiệm. Tiến hành phân tích kết quà thu được; đánh

giá im điềm và hạn chề cùa phương pháp đề xuất so với các kết quà đã có, từ đó dưa ra hướng phát triền cùa luận văn trong tương lai.

5. Đóng góp của đề tài
về mặt khoa học: Luận văn cung cấp một cơ sở lý luận cho bài toán phân loại ánh ung thư trong y học và là nguồn tài liệu tham khao cho cộng

đồng nghiên cứu phân loại ung thư vú IDC dựa trên anh sinh thiết vú.

về mật thực tiễn: I.uận vãn cung cấp một phương pháp phân loại ành ung thư vú 1DC trong y khoa. Từ dó. có the cung cấp ứng dụng tự dộng
nhận dạng tế bào ung thư IDC trong ành WSI. hỗ trợ các nhà nghiên cứu bệnh học rút ngăn thời gian phân loại vùng có tế bào ung thư IDC trên anh WSI.

6. Bồ cục cúa luận vãn
Dựa trên các mục tiêu đà đật ra, luận văn dược tô chức thành các phan chinh như sau:

Chương 1. Tổng quan

Trong chương này. chúng tôi sè cung cấp cái nhìn tồng quan về các hướng liếp cận và giai pháp đã ứng dụng trong bài toán phân loại anh ung thư

vú IDC.


4

Chương 2. Cơ sở lý thuyết

Trong chương này. chúng tôi sẽ trình bày một số khái niệm cơ bán liên quan đền đối lượng nghiên cứu và nen tang của phương pháp đề xuất.

Chương 3. Xây dựng giãi thuật

Trong chương này, chúng tơi sẽ trình bày phương pháp đề xuất để giai quyết bài toán phân loại ánh ung thư vú.

Chương 4. Kết qua và đánh giã

Trong chương này. chúng tôi sỗ mô tà các thành phần gồm tài nguyên, dừ liệu và q trình thực nghiệm: phân lích kết quá; đánh giá kết quá.

Chương 5. Kết luận và hướng phát triển


Trong chương này, chúng tôi sè đánh giá kết quá đạt được ve ưu diem, hạn chế cùa phương pháp đề xuất so với các phương pháp đà có; từ đó định

hướng nghiên cứu và phát triền tiếp theo trong lương lai.


5

Chương 1: TƠNG QUAN
1.1. Bài tốn phân loại ánh ung thư vú IDC
1.1.1. Vấn đề của hài toán
Hiện nay, các bệnh viện sử dụng pho biến các phương pháp không xàm lẩn để tầm soát ung thư. như: chụp X-quang tuyến vú. chụp cộng hường từ

vú. siêu âm vú và chụp nhiệt. Tuy nhiên, sinh thiết là cách duy nhất de biết chính xác liệu ung thư có thực sự xuất hiện hay không |7|. Sinh thiết là một xét

nghiệm y khoa, sử dụng các thiết bị đặc biệt đè thu thập mẫu tế bào hoặc mô đê đánh giá sự xuất hiện hoặc mức độ cua ung thư. Trong quy trình thực hiện

sinh thiết, các nhà nghiên cứu bệnh học sc phét các mầu bệnh phẩm thu được trên lam kính của kính hiến vi và sau đó tiến hãnh bước nhuộm mâu đê kiếm

tra trực quan [8|. Trong q trình chần đốn bệnh, các nhà nghiên cứu bệnh học thường sư dụng phương pháp nhận dạng mẫu dể dưa ra chấn doán làm sàng

trước khi thực hiện các bước tiếp theo. Trơn thực te. chân đốn bệnh lý hiện nay dựa trên ý kiến chu quan cua các Bác sĩ giãi phẫu bệnh. Do đó, phân tích mơ

bệnh học địi hói chun mơn cao và tốn nhiều thời gian, và phụ thuộc rất nhiều vào kinh nghiệm của chuyên gia |7|.

Trong những năm gần đây, các mô bệnh phẩm được số hóa thành ảnh kỳ thuật số ( WSI) trờ nên phố biền với các kỹ thuật phân tích hình ành bàng

máy tính và phương pháp máy học. Nhờ vào hệ thống máy tính gia tăng khơng gian lưu trừ và cài tiến thời gian tính tốn, phân tích hình anh đă đưa ra các

chần đốn và dự đốn tiên lượng để bơ sung cho ý kiến cùa chuyên gia về mức độ ung thư cùa bệnh nhân [9|.


IDC là loại ung thư vú phố biến và là nguyên nhân chính dần đen tứ vong ờ nữ giới. Đo đó. các Bác sì cần xác định có hay không tế bão ung thư

IDC trẽn WSI cùa bệnh nhân rồi mới dưa ra các chấn đoán và phác dồ diều trị tiếp theo. Bài toán cần giai quyết là dựa vào các mầu bệnh học WSI cua bệnh

nhân mắc


6

ung tlnr vú IDC. xây dựng hệ thống tự động phân loại các ánh này có chứa tế bào ung thư 1DC hay không.

1.1.2. Hiệu quã mang lại khi giái quyết bài toán
Ung thư vú lả một trong nhiều căn bệnh ác tính dần đến tý lệ tử vong cao ờ nữ giới. Do đó, việc đưa ra một cơng cụ hồ trợ cho các nhà nghiên cứu

bệnh học phát hiện ung thư vú dặc biệt là ung thư vú biếu mô ống xầm lấn trong bối canh này là rất cấp thiết. Hệ thống tự dộng phân loại ánh ung thư vú

1DC sẽ là một công cụ hồ trợ mạnh mè. đưa ra chấn đoán ban đầu về nguy cơ có mắc ung thư vú và rút ngằn thời gian phân loại và phản đoạn ung thư. Đặc

biệt, hệ thống phân loại tự động này sẽ đira ra các chân đoán khách quan, đại diện ý kiến thong nhất của nhiều chuycn gia. Vì vậy, độ chính xác cùa hệ thống

phân loại càng cao thì hệ thống càng đáng tin cậy.

1.2. Các hướng tiếp cận
Hiện đã cỏ nhiều công trình nghiên cửu phát hiện ung thư vú dựa trên anh y khoa với các cách tiếp cận khác nhau như phương pháp trích chọn đặc

trưng thu cơng (Handcraft Features - HF), máy học (Machine Learning - ML), đặc biệt mạng học sâu (Deep Neural Networks - DNN) đang được sứ dụng

rộng rài bỡi những lợi ích vượt trội mà nó mang lại. DNN có khã năng học tự động các dặc trung có ích từ límh ành [10] [11] mà có the khơng cần thực hiện


trích chọn các dặc trưng thú công trong bước tiền xử lý. diều này giúp giàm chi phí tính tốn cùa hệ thống rất nhiều cũng như sự phụ thuộc vào phương pháp

trích chọn đặc trưng. Ngoài ra. mạng học sâu là một cách tiếp cận mạnh me xư lý các bộ dù liệu lớn mà các phương pháp trước dãy và đặc diệt là HF khó

thực hiện được. Các mơ hình học sâu đà đạt được nhiều thành tích cao trong các thách thức phân loại hình ành trong nhiều lình vực khác nhau, kề cà phân

tích ãnh y khoa, và dặc biệt là ành mô bệnh học [11]. Teresa và các cộng sự [ 111 dã dề xuất một mạng nơ-ron tích chập (Convolutional Neural Network -

CNN) phân loại ánh sinh thiết mô vú nhuộm màu Hematoxylin và Eosin VỚI bốn lớp: mô


7

bình thường, mơ lành tính, ung thư biểu mơ tại chỗ. ung thư biểu mô xâm lấn 1111, (12]. Mô hình phân loại này có thê mớ rộng trên anh WS11111. Ashraf và

Siti (13] cũng đe xuất phương pháp NSGA-11 cãi thiện độ chính xác phân loại tự động ung thư vũ. NSGA-II là một mạng nơ-ron đa lớp dựa trên thuật tốn

di truyền sẩp xếp khơng bị chi phổi nâng cao có thể tối ưu hóa cà độ chính xác phân loại và cấu trúc mạng. Tuy nhiên, mạng nơ-ron da lớp này có the rơi vào

điểm cực tiêu cục bộ (12]. Fabio cùng với hai dồng sự 1141 cung cấp một kiến trúc mạng học sâu CNN phân loại ánh mô bệnh học trong tập dừ liệu

ĐreaKHis sừ dụng được các anh có độ phân giái cao, giám thiêu trong điều chinh kiến trúc mạng và chi chí tính tốn 114]. Chúng tơi sè trình bày tóm tat một

so phương pháp phát hiện ung thư vú IDC trong anh mô bệnh WSI liên quan đến đề tài chúng tôi nghiên cứu.

Cruz-Roa và các cộng sự [10] dã xây dựng một hệ thống phát hiện tự dộng IDC trong ánh WSI vào năm 2014. Nhóm tác già đưa ra cách tiếp cận

mạng học sâu và xây dựng kiến trúc mạng CNN gồm 3 tầng Convolution (dược minh họa qua hình 1.1). Hệ thống cua nhóm tác già đe xuất thực nghiệm trên

anh IĨIÔ vú WSI cùa 162 phụ nừ được chân đoán mac bệnh ung thư vú IDC ớ bệnh viện Đại học Pennsylvania và Viện Ưng thư New Jersey. Và 162 ánh mơ


bệnh này dược số hóa bời máy quét whole-slide ờ dộ phóng dại 40x (O.25pm/điềm ành). Vì kích thước mỗi WSI q lớn (có thể đến 100000x100000 diểm

ảnh), nhóm tác già đã trích xuất các bàn vá hình anh từ các WSI theo tý lệ 16:1 (4pm/đicm ánh) bang kỳ thuật Grid Sampling đê thực nghiệm (quy trình lấy

mầu cùa lác giã bang kỳ thuật Grid Sampling được minh họa qua hình 1.2). Bên cạnh đó. các vùng IDC được một nhà nghiên cứu bệnh học chun nghiệp

chú thích thú cơng dựa vào phần mềm xem miền phí ImageScope cùa Aperio ờđộ phơng đại 2x hoặc nhị hơn. diều này dẫn dền các vùng IDC có lần các

vùng mô dệm hay mô không xâm lấn 110]. Mồi WSI sẽ được phàn chia thành nhiều bàn vá có kích thước 100x100 điểm anh. khơng trùng lặp. Hầu hết. các

bán vá hình anh


8

chi chứa các thành phẩn khơng có ý nghĩa trong việc phát hiện IDC sỗ bị loại bó. chăng hạn như mơ mở. nền ... Một ban vá hình anh có lì nhất 80% vùng

IDC nam trong vùng chú thích được coi là mầu dưong tính hay cịn gọi là mầu IDC. Ngược lại, các mầu âm tính là nhùng bán vá khơng nằm trong vùng chú

thích IDC, hoặc có vùng chú thích 1DC thấp hơn chi số trên. Đế chuẩn bị dữ liệu cho quá trình huấn luyện, các ban vá hình ánh dược chuycn từ khơng gian

màu RGB sang YUV và dược chuẩn hóa về giá trị trung bình bằng 0 và dộ lệch chuẩn bảng 1 nhăm lãm nồi bật các đặc trưng dầu vào và tăng tốc độ học dựa

trên Gradient. Bên cạnh đó. các tác gia sứ dụng SGD (Stochastic Gradient Descent) để tối ưu giá trị lồi trong quá trình huấn luyện, với các tham số tỳ lệ học
2
?
và tỳ lệ suy giâm lằn lượt là 10 , 10 . Kct qua thực nghiệm cùa tác giá [10] cho thấy mơ hình học sâu đã đề xuất đạt được hiệu suất phân loại ở các chi sổ

đánh giá F-measure Là 71.80% và BAG (Balanced Accuracy) là 84.23%. So với các mơ hình trích xuất đặc trưng thù cơng, mỏ hình dồ xuất đạt các chi số


đánh giá hiệu suầt cao hơn lấn lượt là 4% và 6%. Hệ thống phát hiện tự động IDC mà nhóm lác giá I IO| đề xuất là một trong các ứng dụng học sâu dầu liên

phân

lích ánh mơ WS1 và học lự động các đặc trưng từ dừ liệu đà mang lại độ chính xác phân loại cao hơn các kỳ thuật trích xuất đặc trưng thù cơng đã có và đặc

biệt là có khà năng tái tạo các vùng IDC [10]. MỘI phát hiện thú vị mà nhóm

tác giá [10] nêu ra dó là những phân loại sai hầu như là do các mầu dó khơng được chú thích chi tiết từ nhà nghiên cứu bệnh học.

Hình 1.1.Kiến trúc CNN’ dược đề xuất hỡi Cruz và các cộng sự ỊI0Ị


9

Một \VSI dược Rân nhàn bời nhà nghlín cửu bệnh học Một WS1 được tich thành các bân vả hình ánh

(a)

(b)

Ilình 1.2. Minh hụa quy trình lấy mẩu băng kỳ thuật Grid Sampling, (a) Một WSI vói các chú thích thú công từ các nhà nghiên cứu bệnh
học, (bl một WSI được phân chia thành các bán vá hình anh. Các mẫu chi được lấy trong các vùng lưới màu / ÌOỊ
Andrew vã Anant 115 J cũng đả giới thiệu mạng học sâu thực hiện nhiều nhiệm vụ phân tích hình ành y khoa trong bệnh học kỳ thuật sơ (Digital

Hypology - DP). Tác gia đà chi ra hai hạn chế mà các nhà nghiên cửu gặp phải trong các tiếp cận trước đây. Hạn chề thứ nhất đó lã đế thực hiện một nhiệm

vụ phân tích hình ành thì cần lựa chọn một bộ tham số phù hợp trên một tập dữ liệu cụ thề. Kill thực hiện một nhiệm vụ khác trong phân tích hình anh thì các


nhà nghiên cứu cần bô sung và điều chinh các bộ tham số phù hợp trên một tập dừ liệu mới. Diều này lại dản đến một hạn chế thứ hai. đó là kỳ thuật lựa

chọn và điều chinh các tham so toi ưu phụ thuộc nhiều vào kha nâng am hiểu thuật toán của các nhà nghiên cứu [15]. Từ những hạn chế này, Andrew và

Anant đã giới thiệu một cách tiếp cận có thế sir dụng một mơ hình kiều mầu dè thực hiện bày nhiệm vụ phân tích hình ành y khoa trong DP. AlexNct là mạng

học sàu được nhóm tác giã sư dụng đe thực nghiệm bay nhiệm vụ phân tích hình anh y khoa, bang 1.1. 'Phay vì phái lựa chọn các bộ tham số thích hợp khi

thực hiện từng nhiệm vụ nhu các cách tiếp cận trước, các tác gia dă đề xuất


10

kỳ thuật tuyên chọn các bân vá hình anh phù hợp với từng dừ liệu thực nghiệm. Xác định vùng 1DC là một trong bày nhiệm vụ mã các tác giá đã giới thiệu.

Đày là một trong các bước tiền xừ lý phô biến đè phân loại tự động mức độ lây lan các tể bão ung thư vú 1151. Thực nghiệm trên cùng bộ dừ liệu với tác gia |

10], Andrew trích xuất các bàn vá ban đầu ỡ cùng độ phân giãi, nhưng kích thước bàn vá 50x50 nhó hơn kích thước băn vá mà tác giá [10] dã chọn. Đe thực

nghiệm cho nhiệm vụ này. tác già 1151 dà tiếp cận ba cách chọn mẫu khác nhau. Thử nhất, các bán vá 50x50 sẻ được diều chinh kích thước về 32x32 bàng

kỳ thuật điều chinh kích thước. Thử hai, các ban vá 50x50 được thực hiện cat về kích thước 32x32. Cách tiếp cận thú ba được giới thiệu là các ban vá 50x50

sè được quay ờ các góc quay khác nhau như 0, 45, 90, 135 hay 180 độ và sau đó được cắt về 32x32. Thách thức trong cách tiếp cận cua Andrew đó là dừ liệu

dầu vào cỏ kích thước nho hơn [10]. do dó sẽ cung cấp ít hơn 60% điểm ành cho bộ phân loại [15]. Kct quà mà nhóm tác giá này thu được cho thấy phương

pháp điểu chinh kích thước anh mang lại kết qua cao hơn hai cách liếp cận cịn lại vì với việc cắt ánh sõ dần đến mất thông tin cùa các ban vá. Đồng thời, lác

giã cùng nhận dinh việc sừ dụng Dropout không mang lại sự cái thiện nào cùa mạng đề xuất trong q trình thực nghiệm. Bên cạnh đó, các tác già chi ra lẳng


việc chú thích thủ cơng các vùng IDC cùng Là một thách thức trong nghiên cửu bệnh lý kỹ thuật sổ cùng như kinh nghiệm cua các nhà nghiên cứu bệnh học.

Báng 1.1. Kiến trúc mạng AlcxNct do Andrew và Anant [15] đề xuất

sị lows
Lớp

Pìin kiạl

IM) lọ.'

Kkb Ibrỡí bộlẹr

liirụl

Him kkh hoại

3 (kênh mau)

32x32 (kieh Ihirứv inh)

32

5x5

1




3x3

■7
■V

Relu

32

5x5

1

Rclu

-

3x3

■>
Ãr

64

5x5

I

-


3x3

64

-

-

-

-



-

Ánh đầu vào
0
1

Tích chẠp
Gópgtáúi lớn nhát

2
3

ĩĩch chập

4


-

Gộp gừ (n tnuig binh
5

Tích cliập
Góp giã tri trang binh

6
7

8
9

Relu

2
Kết nổẦyđũ
Kêtnơiđẩyđũ

SiMax

2


Dropout • Relú
Dropout Rdũ


11


Một mơ hình CNN được Malm [16] giới thiệu trong thách thức phân loại ánh ung thư vú IDC vào năm 2017 . VỚI kiên trúc mạng chính gồm ba

lớp tích chập, một lớp kết nổi đầy đú và sử dụng hàm kích hoạt Sìmax đê phân loại hai lớp. Ngồi ra, sau mồi lóp tích chập là một lớp gộp. và có sừ dụng

kỳ thuật bõ học sau lớp gộp thứ ba. Kích thước bộ lọc và số lượng bán đồ đặc tnrng ở mỗi lớp tích chập lần lượt là 3x3 và 36. Giá trị dầu ra cua mồi lớp tích

chập sỗ dược kích hoạt bới hàm phi tuyến Relu. số lượng nơ-ron ờ lớp kết nối dầy dù là 576 và tý lệ loại bo thông tin là 0.33. Malm thực nghiệm mị hình đề

xuất với nhiệm vụ phân loại 2 lớp trên tập dừ liệu ung thư vú được cung cấp bơi tác gia Jcgs |6| với 5547 ãnh mơ vú. Thuật tốn Adam được Malm sứ dụng

loi ưu giá trị lồi cùa mạng với tý lệ học ban đầu là 10’. Tác giá sứ dụng kỳ thuật Cross-validation huấn luyện mơ hình trong 10 phổ với 30 lằn huấn luyện.

Trong dó, một lần huấn luyện cho dử liệu không tăng cường, và 29 lần huấn luyện cho dừ liệu tăng cường VỚI các phép biến dôi ánh. Kct quá đạt dược từ

cách tiếp cận cùa tác gia có độ chính xác phân loại đạt 80%, tăng 4% so với cách tiếp cận ban đau.

Dựa trên kiến trúc mạng CNN cùa 110), Wang và các cộng sự |4| đà triền khai một kiến trúc mạng cơ sờ (Hình 1.4) từ đó phát triẽn thêm bon kiến

trúc mạng mới (Hình 1.5) để thực hiện nhiệm vụ phân loại ung thư vú IDC. Wang cùng thực nghiệm các mơ hình dề xuất trên bộ dữ liệu WSI trong bài báo

cùa nhóm tác già [10]. Tuy nhiên, số lượng các bán vá mà Wang trích xuất từ 162 WS1 gốc cỏ kích thước 50x50 diem ánh nhó hơn cùa Cruz-Roa tạo nén bộ

dừ liệu lớn hơn. Bên cạnh đó, tác giá thực hiện các phép biến đoi hình anh như quay, lật anh, biến đoi ty lệ và dịch chuyên ãnh đè tãng cường dừ liệu huấn

luyện với mong muốn làm giàu dữ liệu và giảm hiện tượng học quá mức. Mà theo Sebastien [17] cùng dã nhận định: dữ liệu dược tăng cường trong không

gian dữ liệu sỗ cai thiện hiệu suất cùa hệ thống phân loại lốt hơn là tảng cường dữ liệu trong không gian đặc trưng. Tác già [4] dùng sổ lượng màu tăng cường



12

cho huấn luyện gap 27 lần số mẫu kiếm thừ. Dồng thời, lác giá su dụng Cross-validation với 10 phổ huấn luyện. Theo như sự phán tích cùa tác giá thi điều

này sè giúp cho mơ hình học lơng qi hon. Tuy nhiên, mơ hình có the dần đến sè được học quá mức lử dừ liệu đối với các kiến trúc mạng nông. Và kết quà

thực nghiệm cùa Wang cho thấy trong bốn kiến trúc mạng mới thì chi có kiến trúc thứ tư nhiều tầng nhất và dụt các hiệu suất dánh giá cao khi huấn luyện

trên tập dữ liệu tăng cường. Tuy nhiên, xét trên tống thể cùa tất cá các mạng mà Wang đề xuất cho thấy việc tăng cường dừ liệu không giúp cái thiện hiệu

suẩt học của mạng. Từ kết qua thực nghiệm. Wang chi ra rằng một kiến trúc mạng CNN 5 lớp là phù hợp nhai cho nhiệm vụ phán loại ung Ihư vú IDC, nếu

càng bò sung thêm nhicu lớp sẽ làm cho mạng suy yếu (4], Hướng phát triền mà nhóm tác giã đã đề xuất là xây dụng một hệ thống đa mò hĩnh hoạt dộng dựa

trên quá trinh hợp nhất dể phân loại ành ung thư vú IDC.

Bàn đê ddc trưrvq 32x42x42

LỜptkh ch^p (3x3)

ƠHiấri tóứ

!*> (3*3)

Bẽr
IxipiXc. (5*5)

(Vr AV !nj»xi &4x7x7


láp tị nS đu
81
ChuSn bó*

Bê ptón krt
(ỹttrox)

Hình 1.3. Kiến trúc mạng cơ sơ’cùa nhóm tác giá Ị4Ị


13

của nhóm tác giã [4]
1.3. Khó khăn và thách thức
Trong q trình nghiên cứu và tống họp từ các cơng trình nghiên cửu đà có. chúng tơi nhận thấy một số hạn ché trong nhiệm vụ phân tích anh y

khoa, đặc biệt là anh WSI như sau:

Thử nhất, hạn chề về nguồn dừ liệu thực nghiệm 112]. Thu thập dừ liệu là vấn đề quan trọng trong việc giúp hệ thống nhận dạng mẫu đề đưa ra kết

quà phân loại chính xác. Bời vậy, dữ liệu càng phong phú - cỏ nghía là dữ liệu dược thu thập từ nhiều bệnh nhân với nhiều mức dộ khác nhau - càng giúp cho

hệ thống phân loại tự động cỏ độ chinh xác càng cao. Hầu hết các cơng trình phân loại ung thư vú IDC mà chúng lòi dà tỏng họp chi thực hiện trên các tập

dừ liệu nho 17|. Một phần do hệ thống thu thập ánh WS1 mô vú rất đắt. khơng phái phịng nghiên cứu nào cùng có, dần đến dừ liệu anh y khoa ít được chia

sè rộng rãi trong cộng dồng nghiên cứu khoa học 114].

Một trong các yếu tố góp phần quan trọng trong việc phân tích mơ bệnh học đó là thơng tin màu cùa ánh y khoa 118]. Trong quy trình sinh thiết,


các nhã


14

nghiên cứu bệnh học sứ dụng các thuốc nhuộm chuyên biệt làm nồi bật các cấu trúc tế bào quan trọng cho việc chẩn đốn 1111,114Ị. Nhiều phịng thí nghiệm

sè sư dụng thuốc nhuộm và quy trình nhuộm màu mơ học khác nhau [7|. Điều này dần đến tập dừ liệu không đồng nhất ncu chửa nhiều mầu bệnh học lử

nhiều nguồn cung cấp.

Bên cạnh dó, cấu trúc cùa ành WSI mơ vú rất phức tạp, có the ảnh hường dến hiệu quà phân loại cùa hệ thống. Hệ thống phần loại tự dộng phai

nhận dạng được các thành phần lành tính, thành phần ác tính và thành phần nhiễu trong ánh mơ vú. Các lớp mơ nhiêu có khá năng bắt chước và chia sẽ các

đặc lính với các lớp mơ binh thưởng hay ác tinh. Do đó, bang phương pháp Ihú công hay phân loại tự động cùng khó xác định được mơ nhiều ị 19], có the

dần đến sai lầm trong lúc phân loại khi gặp ánh có chửa nhiều mơ nhiều.

Ngồi ra. một khó khàn mà chúng tịi nhộn thấy dược từ các cồng trình nghiên cứu trước đó là chi phí tính tốn 112]. Một số cơng trình nghiên cứu

dã có bàng các phương pháp trích xuất dặc trưng thú cơng thường thiếu tính tống qt vì mỗi mơ và tế bào ung thư đều có kết cấu. cấu trúc và hình dạng cụ

thề [201. Xu hướng hiện nay là nghiên cứu và xây dựng các cơng trình phân loại lự động nhàm lấy tồn bộ thơng tin từ hình ành đầu vào mà khơng cần phân

biệt loại ánh. Việc lựa chọn và thiết ke một mơ hình học sâu dáp ứng các yếu tố: phù hợp VỚI dữ liệu nghiên cứu. nít ngắn thời gian cùa q trình huấn

luyện, và đạt được độ chính xác phân loại cao cũng là một thách thức đã có từ trước tới nay.

Nhừng khó khăn mà luận vân đà đê cập cùng chính là các thách thức cho hệ thống phân loại tự động của chúng tôi. Chúng tôi mong muốn xây


được một hệ thống phân loại tự động ảnh ung thư vú IĐC hiệu quã, phù hợp với dừ liệu mà chúng tôi nghiên cứu. dạt dược dộ chính xác cao. tài nguyên sừ

dụng hợp lý-


15

1.4. Phạm vi để tài
Trong quá trình nghiên cứu. chúng tôi nhận thấy việc thu thập dữ liệu anh y khoa phụ thuộc vào nhiêu yếu lồ, chang hạn như: nguồn cung cấp mầu

mô bệnh phẩm tử các bệnh nhân mac IDC; thiết bị phục vụ cho quá trình sinh thiết; đội ngừ chuyên gia tiến hành quy trình nhuộm màu mô học. gán nhãn

vùng ung thư IDC; hệ thống thiết bị chuyển dối ành WSI mô vú. ... Đồng thời, mồi ánh WSI có kích thước rất lớn. phài sừ dụng các thiết bị và phần mềm

chuyên dụng đê dọc và phân tích. Do đó. chúng tơi chi thực nghiệm trên tập dừ liệu có sẵn và được cơng khai trên cộng dồng nghiên cứu khoa học Kaggle

của tác gia Jogs 16|. Đong thời, việc trích xuất các đặc trưng thũ cơng hay phân vừng I DC chính xác trước khi phân loại rất khó khàn do cấu trúc ãnh mơ vú

phức tạp, địi hịi nhiều kinh nghiệm trong lình vực y tế cùng như học máy. do đó. chúng tơi sử dụng mạng CNN dể trích xuất tự dộng các dặc trưng từ dữ

liệu cho nhiệm vụ phân loại các bán vá cua anh WSI mà không thực hiện các nhiệm vụ khác trong bước tiền xử lý ánh.

1.5. Đề xuất hướng giãi quyết
Tông hợp các thách thức và ke thừa từ các cơng trình nghiên cứu đă có. chúng tơi xây dựng một hệ thống phân loại tự động ánh ung thư vú IDC

dựa trên mọng CNN. Trong dó. hệ thống phân loại tự dộng cùa chúng tôi dề xuất sừ dụng một thang do chất lượng anh bằng phương pháp Đánh giá chất

lượng hình anh trong không gian không tham chiếu (Blind/Rcfercnceless Image Spatial Quality Evaluator - BR1SQUE) phân lập dừ liệu thực nghiệm nhầm


giúp cho hệ thong tập trung học các đặc trưng can thiết từ dừ liệu.


16

CHƯƠNG 2: cơ SỚ LÝ THUYẾT
2.1. Bệnh học kỳ thuật sổ
2.1.1. Giói thiệu
Như chúng la đà biết, Bệnh học là một chuyên ngành nghiên cứu bệnh tật hỗ trợ cho việc chẩn đốn lâm sàng trong y khoa. Các cơng việc nghiên

cứu bệnh học dược thực hiện trong phịng thí nghiệm dưới sự hợp tác cũa nhiều chuyên gia ờ nhiều lĩnh vực khác nhau, và chu yếu dựa trên quy trình lãm

việc thu cơng (211.

Ngây nay. cùng với sự liến bộ cùa khoa học và công nghệ, các nhà nghiên cứu bênh học không chi quan sát trực tiếp các mầu bệnh phẩm dưới

kính hiên vi mà cơn có thê quan sát. nghicn cứu chúng thơng qua các hình ãnh kỳ thuật sổ bất kề thời gian và không gian.

Bệnh học kỷ thuật số (Digital Pathology - DP) cung cấp cho các nhà nghicn cứu bệnh học một phương thức kỹ thuật số đe quan lý. diẻn giai, phân

tích và lưu trừ thòng tin bệnh nhân [211. [22]. Trong hệ thống DP. các mẫu mô bệnh phẩm phết trên lam kính quan sát dưới kinh hiên vi sè được chuyền đối

thành hình ânh kỳ thuật so có độ phân giái cao bang cách sứ dụng máy quét Whole Slide. Các ảnh kỳ thuật sổ cung cấp cho việc phàn tích bệnh lý thường ờ

dạng 2D [21]. Các nhà nghiên cứu bệnh học có the xem dạng ảnh này trên màn hình máy tính, thiết bị di dộng; và có thể chia sè qua mạng internet bảng các

phần mềm chuyên dụng, như hình 2.1 .

Hình 2.1. Hệ thống bệnh học kỹ thuật số Ị2ÌỊ



×