BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
TRẦN CHÂU THANH THIỆN
PHÂN ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH
BẰNG MẠNG THẦN KINH HỌC SÂU U-NET
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60.48.01.01
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020
Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS. Nguyễn Việt Linh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 1: TS. Huỳnh Khả Tú
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 2: TS. Lê Thành Sách
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại
học Công nghiệp thành phố Hồ Chí Minh ngày . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng
2. TS. Huỳnh Khả Tú - Phản biện 1
3. TS. Lê Thành Sách - Phản biện 2
4. TS. Đăng Quang Vinh - Ủy viên
5. TS. Lê Nhật Duy - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
CÔNG NGHỆ THÔNG TIN
BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Châu Thanh Thiện
MSHV: 16002401
Ngày, tháng, năm sinh: 04/01/1983
Nơi sinh: TP.HCM
Chuyên ngành: Khoa học Máy tính
Mã chuyên ngành: 60480101
I. TÊN ĐỀ TÀI:
Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu U-Net.
II. NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu các phương pháp Phân đoạn ảnh y sinh 2D.
- Nghiên cứu, hiện thực mô hình mạng học sâu U-Net cho phân đoạn ảnh y sinh 2D.
- Nghiên cứu cải tiến mơ hình mạng học sâu U-Net.
- Phân tích kết quả và đưa ra hướng phát triển.
III. NGÀY GIAO NHIỆM VỤ: 28/11/2019 theo Quyết định số 2054/QĐ-ĐHCN
ngày 28/11/2019.
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 28/5/2020.
V. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Việt Linh
Tp. Hồ Chí Minh, ngày ……. tháng……năm 2020
NGƯỜI HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN
LỜI CẢM ƠN
Để hoàn thành được luận văn này, ngoài sự nỗ lực của cá nhân, tôi đã nhận được sự
giúp đỡ và hướng dẫn tận tình của PGS.TS. Nguyễn Việt Linh – người hướng dẫn
của tôi. Nhờ sự định hướng đúng đắn ngay từ đầu của thầy nên việc nghiên cứu luận
văn này diễn ra thuận lợi. Tôi xin gửi lời cảm ơn chân thành đến thầy. Kính chúc thầy
và gia đình ln mạnh khoẻ và thành cơng!
Tơi xin chân thành cảm ơn TS. Lê Nhật Duy – Phó Trưởng khoa Công nghệ Thông
tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập cũng như các quy trình, biểu
mẫu để hồn thành luận văn này, từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận
văn.
Và cuối cùng, tôi xin gửi lời cảm ơn đến quý thầy cô Lãnh đạo và giảng viên của
khoa Công nghệ Thông tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập tạo
nền tảng tri thức để tơi có thể hồn thành luận văn này.
i
TÓM TẮT LUẬN VĂN THẠC SĨ
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh: Vấn đề thứ nhất là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này.
Mục tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu
đào tạo tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn
các tham số để tìm hiểu, do đó thường địi hỏi các bộ dữ liệu đào tạo phải lớn. Trong
trường hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ
mỗi ví dụ. Vấn đề thứ hai mà mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, đợ phân giải ảnh khác nhau.
Luận văn trước hết tìm hiểu các phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh
y sinh 2D. Tiếp đến là tập trung nghiên cứu và hiện thực mô hình mạng U-Net với
bài tốn phân đoạn cấu trúc tế bào thần kinh, qua đó rút ra được cách thức hoạt động,
cách tinh chỉnh các tham số của mạng U-Net.
Sau cùng luận văn đưa ra một kiến trúc mạng mới đó là kiến trúc mạng W-Net là mợt
mạng cải tiến của kiến trúc mạng U-Net. Kiến trúc mạng W-Net đã cho kết quả phân
đoạn rất tốt sau quá trình đào tạo, so với kiến trúc mạng U-Net ban đầu. Đây sẽ là nền
tảng cho việc thực hiện tiếp các nghiên cứu về phân đoạn ảnh y sinh trong tương lai.
ii
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi. Các kết quả nghiên
cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn
nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được
thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Học viên
Trần Châu Thanh Thiện
iii
MỤC LỤC
LỜI CảM ƠN
.................................................................................................................. i
TÓM TẮT LUẬN VĂN THẠC SĨ........................................................................................ ii
LỜI CAM ĐOAN ................................................................................................................iii
MỤC LỤC
...................................................................................................... iv
DANH MỤC HÌNH ẢNH .................................................................................................... vi
DANH MỤC BẢNG BIỂU ................................................................................................viii
DANH MỤC TỪ VIẾT TẮT ............................................................................................... ix
MỞ ĐẦU
................................................................................................................. 1
1. Tính cấp thiết của luận văn .....................................................................................1
2. Mục tiêu của luận văn .............................................................................................2
3. Cấu trúc của luận văn ..............................................................................................2
CHƯƠNG 1
TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D ....................3
1.1
Khái niệm về phân đoạn ảnh: .................................................................. 3
1.1.1
Phân đoạn ngữ nghĩa (Semantic Segmentation): .................................... 4
1.1.2
Phân đoạn cá thể (Instance Segmentation): ............................................ 5
1.1.3
Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation): .................. 6
1.2
Lịch sử phát triển của phân đoạn ảnh: .................................................... 6
1.2.1
Phương pháp dựa trên khu vực (Region-based Methods):...................... 7
1.2.2
Phương pháp phân loại (Classification methods): ................................ 10
1.2.3
Phương pháp phân cụm (Clustering methods): ..................................... 13
1.2.4
Phương pháp lai (Hybrid Methods): ..................................................... 18
1.2.5
Phương pháp sử dụng Các mơ hình đường viền hoạt động (Active
Contour Models): .................................................................................. 19
1.3
Phân đoạn ảnh y sinh 2D: ..................................................................... 25
1.4
Lịch sử nghiên cứu phân đoạn ảnh y sinh 2D: ...................................... 26
CHƯƠNG 2
MẠNG THẦN KINH HỌC SÂU VÀ MẠNG THẦN KINH HỌC
SÂU U-NET .................................................................................28
2.1
Khái niệm mạng thần kinh học sâu : ..................................................... 28
2.2
Lịch sử phát triển của mạng thần kinh học sâu: .................................... 30
2.3
Các lĩnh vực ứng dụng của mạng thần kinh học sâu :........................... 34
2.4
Kiến trúc mạng thần kinh học sâu U-Net : ............................................ 37
2.5
Các thành phần của kiến trúc mạng thần kinh học sâu U-Net : ............ 39
2.5.1
Encoder ................................................................................................. 39
iv
2.5.2
Decoder ................................................................................................. 42
2.5.3
Bridge .................................................................................................... 50
2.6
Các nghiên cứu về kiến trúc mạng U-Net: ............................................ 50
CHƯƠNG 3
ỨNG DỤNG MẠNG THẦN KINH HỌC SÂU U-NET PHÂN
ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH ...............................53
3.1
Hiện thực mơ hình:................................................................................ 53
3.1.1
Mơ hình kiến trúc mạng U-Net: ............................................................ 53
3.1.2
Hiện thực mợt số mơ hình cải tiến của kiến trúc mạng U-Net:............. 56
3.2
Bộ dữ liệu đào tạo được sử dụng: ......................................................... 57
3.3
Đào tạo và kiểm thử mơ hình: ............................................................... 59
3.3.1
Đào tạo: ................................................................................................. 59
3.3.2
Kiểm thử mơ hình: ................................................................................ 60
3.4
Hàm mát mát (Loss Function) .............................................................. 61
3.4.1
Định nghĩa: ............................................................................................ 61
3.4.2
So sánh kết quả hàm mất mát của các mơ hình sau đào tạo: ................ 62
3.5
Đề x́t mơ hình kiến trúc mạng W-Net: .............................................. 64
3.6
Phương pháp đánh giá mơ hình (Evaluation Metrics) .......................... 71
3.7
Thực nghiệm và so sánh kết quả: .......................................................... 72
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 75
TÀI LIỆU THAM KHẢO .........................................................................................76
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN .........................................................80
v
DANH MỤC HÌNH ẢNH
Hình 1.1
Kết quả đầu ra của thuật tốn Phân đoạn ảnh
3
Hình 1.2
Kết quả của Phân đoạn ngữ nghĩa (Semantic Segmentation)
4
Hình 1.3
Sự khác nhau giữa Object Detection, Semantic Segmentation và
5
Instance Segmentation.
Hình 1.4
Phân đoạn cá thể (Instance Segmentation)
5
Hình 1.5
Phân đoạn Panoptic Segmentation.
6
Hình 1.6
Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn,
8
bên phải là biểu đồ Histogram của ảnh cần phân đoạn.
Hình 1.7
[5] minh họa Phân đoạn ảnh chất xám
10
Hình 1.8
Minh hoạ kỹ thuật phân loại K-nearest neighbors.
11
Hình 1.9
Minh hoạ kỹ thuật phân loại K-means
15
Hình 1.10 Quy trình của thuật tốn lai được [6] đề x́t.
19
Hình 1.11 Phân đoạn ảnh CT não bằng cách sử dụng các đường viền hoạt
20
đợng
Hình 1.12 Đường cong đóng và mở
20
Hình 1.13 Mô tả cách thức hoạt động của các đường viền hoạt đợng.
25
Hình 2.1
Mối quan hệ giữa học sâu, học máy và trí tuệ nhân tạo
28
Hình 2.2
Mức đợ trừu tượng tăng dần qua các tầng học của học sâu
29
Hình 2.3
Hình ảnh mạng Học sâu tạo ra
30
Hình 2.4
Lịch sử phát triển của mạng thần kinh học sâu
31
Hình 2.5
Kiến trúc mạng Perceptron đơn giản của [15]
31
Hình 2.6
Kết quả ILSVRC qua các năm
34
Hình 2.7
Kiến trúc mạng U-Net của [13]
38
Hình 2.8
Minh họa hoạt đợng tích chập
40
Hình 2.9
Minh hoạt đợng gợp
41
Hình 2.10 Minh họa các bước thực hiện phép tích chập thơng thường
43
Hình 2.11 Minh họa các bước thực hiện phép tích chập chuyển vị
44
Hình 2.12 Minh họa hoạt đợng tích chập
44
vi
Hình 2.13 Kernels 3x3
45
Hình 2.14 Minh họa việc sắp xếp lại kernels 3x3 thành ma trận 4x16 với
45
các phần đệm là số 0.
Hình 2.15 Cách sắp xếp lại kernels 3x3 thành ma trận 4x16 với các phần
46
đệm là số 0.
Hình 2.16 Định dạng ma trận đầu vào 4x4 thành một vectơ cợt 16x1
46
Hình 2.17 Thực hiện phép nhân ma trận tích chập 4x16 với ma trận đầu
47
vào 16x1
Hình 2.18 Kết quả đầu ra sau khi định dạng lại ma trận từ 4x1 thành 2x2
47
Hình 2.19 Phép nhân ma trận tích chập 4x16 với ma trận đầu vào 16x1
49
Hình 2.20 Kết quả đầu ra sau khi định dạng lại ma trận từ 16x1 thành 4x4
49
Hình 3.1
Kiến trúc mạng U-Net
55
Hình 3.2
Kiến trúc mạng ResNeXt-Unet
56
Hình 3.3
Kiến trúc mạng Dense-Unet
56
Hình 3.4
Kiến trúc mạng Res-Unet
57
Hình 3.5
Bợ hình ảnh đào tạo
58
Hình 3.6
Bợ mặt nạ (mask) đào tạo
59
Hình 3.7
Kết quả phân đoạn của các mơ hình sau đào tạo 10.000 Step
63
Hình 3.8
Kiến trúc khối Residual của [31]
65
Hình 3.9
(a): kiến trúc của khối Residual cải tiến; (b) hiện thực khối
65
Residual cải tiến
Hình 3.10 Kiến trúc của nhánh V thứ nhất
65
Hình 3.11 Kiến trúc mạng W-Net
69
Hình 3.12 (a) kiến trúc của khối Residual
vii
(b) kiến trúc của khối Unet
70
DANH MỤC BẢNG BIỂU
Bảng 3.1
Mô tả chi tiết kiến trúc mạng U-Net
54
Bảng 3.2
Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau
62
đào tạo 1.000 Step
Bảng 3.3
Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau
62
đào tạo 10.000 Step
Bảng 3.4
Mơ tả chi tiết của kiến trúc của nhánh V thứ nhất
66
Bảng 3.5
Mô tả chi tiết của kiến trúc mạng W-Net
67
Bảng 3.6
Ghi nhận kết so sánh 1, mơ hình U-Net và mơ hình W-Net
73
Bảng 3.7
Ghi nhận kết so sánh 2, mơ hình U-Net và mơ hình W-Net
73
Bảng 3.8
Bảng ghi nhận số liệu đánh giá kết quả điểm V
của Thử thách ISBI 2012.
viii
Rand
và V
Info
74
DANH MỤC TỪ VIẾT TẮT
(Xếp theo thứ tự A, B, C của chữ cái đầu viết tắt)
ĐHCN
Đại học Công nghiệp
IEEE
Institute of Electrical and Electronics Engineers
ILSVRC
ImageNet Large Scale Visual Recognition Challenge
ISBI
International Symposium on Biomedical Imaging
KNN
K-nearest neighbors
LVThS
Luận văn Thạc sĩ
ix
MỞ ĐẦU
1. Tính cấp thiết của luận văn
Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision). Đó là q trình phân chia các pixel của một ảnh số thành
các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu chính của phân đoạn ảnh
thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ diễn giải, dễ phân tích và
dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt các bài tốn về thị giác
máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh giới, xử lý hình ảnh y sinh.
Về cơ bản, các tác vụ này được thực hiện bằng cách gán từng pixel trong ảnh cho một
nhãn nhất định dựa trên các tḥc tính tương tự, chẳng hạn như: kết cấu, màu sắc,
cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh là mợt tập hợp các đoạn ảnh
có thể tạo ra được tồn vẹn bức ảnh đó.
Học sâu (Deep Learning) là một nhánh đặc biệt của ngành Học máy, sử dụng các kiến
trúc mạng lưới thần kinh nhân tạo với nhiều lớp ẩn. Các mạng thần kinh được huấn
luyện theo kỹ thuật học sâu còn được gọi với cái tên khác là mạng thần kinh học sâu
hay mạng nơ-ron sâu (Deep Neural Network) do cách thức hoạt động của chúng.
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh là: Đầu tiên là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này. Mục
tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu đào tạo
tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn các tham
số để tìm hiểu, do đó thường địi hỏi các bợ dữ liệu đào tạo phải lớn. Trong trường
hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ mỗi ví
dụ. Vấn đề thứ hai mà kiến trúc mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, độ phân giải khác nhau .
1
2. Mục tiêu của luận văn
Do hạn chế trong thời gian thực hiện nghiên cứu, luận văn trước hết tìm hiểu các
phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh y sinh 2D. Tiếp đến là tập trung
nghiên cứu và hiện thực mơ hình mạng U-Net với bài tốn phân đoạn cấu trúc tế bào
thần kinh, qua đó rút ra được cách thức hoạt động, cách tinh chỉnh các tham số của
kiến trúc mạng U-Net để làm nền tảng cho việc cải tiến mạng U-Net.
3. Cấu trúc của luận văn
Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, luận văn được tổ chức thành
ba chương với các nội dung cụ thể như sau:
Chương 1: Tổng quan về phân đoạn ảnh y sinh 2d
Chương 2: Mạng thần kinh học sâu và mạng thần kinh học sâu u-net
Chương 3: Ứng dụng mạng thần kinh học sâu u-net phân đoạn cấu trúc tế bào thần
kinh.
2
CHƯƠNG 1
1.1
TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D
Khái niệm về phân đoạn ảnh:
Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision), kỹ thuật này thực hiện trích xuất vùng quan tâm trong
ảnh thơng qua quy trình tự đợng hoặc bán tự đợng. Nó là mợt q trình phân chia các
pixel của một ảnh số thành các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu
chính của phân đoạn ảnh thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ
diễn giải, dễ phân tích và dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt
các bài tốn về thị giác máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh
giới, xử lý hình ảnh y sinh. Về cơ bản, các tác vụ này được thực hiện bằng cách gán
từng pixel trong ảnh cho một nhãn nhất định dựa trên các tḥc tính tương tự, chẳng
hạn như: kết cấu, màu sắc, cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh
là mợt tập hợp các đoạn ảnh có thể tạo ra được tồn vẹn bức ảnh đó.
Mợt thuật tốn phân đoạn ảnh lấy mợt hình ảnh làm đầu vào và đầu ra là một tập hợp
các vùng (hoặc phân đoạn) có thể được biểu diễn dưới dạng mợt tập hợp các đường
viền hoặc mợt mặt nạ "mask" (có thể là thang đợ xám hoặc màu) trong đó mỗi phân
đoạn được gán một giá trị màu hoặc màu xám duy nhất để xác định nó.
Hình 1.1 Kết quả đầu ra của thuật toán Phân đoạn ảnh
3
Về cơ bản phân đoạn ảnh được tạm chia thành 03 kỹ thuật cơ bản gồm: Semantic
Segmentation; Instance Segmentation; Panoptic Segmentation.
1.1.1 Phân đoạn ngữ nghĩa (Semantic Segmentation):
Phân đoạn ngữ nghĩa (Semantic Segmentation) mục tiêu chính là gán nhãn (ơ tơ, tòa
nhà, người, đường, vỉa hè, bầu trời, cây cối, v.v… ) cho mỗi pixel trong ảnh. Có thể
nói, với Phân đoạn ngữ nghĩa, ta có thể kiểm tra lớp cho từng pixel bằng cách kiểm
tra màu mặt nạ của pixel đó.
Về cơ chế, phân đoạn ngữ nghĩa có thể được hiểu như việc phân loại hình ảnh ở mức
pixel. Mợt số ứng dụng chính của nó là ứng dụng trong các phương tiện tự động,
tương tác giữa người và máy tính, robot, các cơng cụ chỉnh sửa / sáng tạo ảnh, trong
lĩnh vực xử lý ảnh y sinh ... Ví dụ, phân đoạn ngữ nghĩa là rất quan trọng trong xe hơi
tự lái và robot vì nó giúp các mơ hình phải hiểu bối cảnh trong mơi trường mà chúng
đang hoạt đợng.
Hình 1.2 Phân đoạn ngữ nghĩa (Semantic Segmentation).
Lớp người trong mặt nạ được thể hiện bằng các pixel màu đỏ; Lớp cỏ có màu xanh
lá cây nhạt; Lớp cây cối được mã hóa màu xanh lá cây đậm và lớp bầu trời được mã
hóa màu xanh lam.
4
1.1.2 Phân đoạn cá thể (Instance Segmentation):
Phân đoạn cá thể (Instance Segmentation) là một khái niệm liên quan chặt chẽ đến
Phát hiện đối tượng (Object Detection).
Hình 1.3 Sự khác nhau giữa Object Detection, Semantic Segmentation và Instance
Segmentation.
Tuy nhiên, không giống như Phát hiện đối tượng, kết quả đầu ra là mặt nạ (hoặc
đường viền) có chứa đối tượng đó và cũng không giống như Phân đoạn ngữ nghĩa,
Phân đoạn cá thể không gắn nhãn cho mọi pixel trong ảnh, Phân đoạn cá thể chỉ quan
tâm đến việc tìm ra ranh giới của các đối tượng cụ thể.
Hình 1.4 Phân đoạn cá thể (Instance Segmentation)
Kết quả đầu ra của thuật toán Phân đoạn cá thể được gọi là Mask R-CNN. Ta thấy
mặt nạ của lớp người có nhiều màu khác nhau để ta có thể phân biệt từng người trong
cùng lớp người. Tuy nhiên, không phải pixel nào cũng được gắn nhãn lớp.
5
1.1.3 Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation):
Panoptic Segmentation là sự kết hợp của Phân đoạn ngữ nghĩa và Phân đoạn cá thể.
Mỗi pixel được gán một lớp khác nhau và nếu có nhiều cá thể của mợt lớp, chúng ta
có thể biết pixel nào tḥc về cá thể nào của lớp đó.
Hình 1.5 Phân đoạn Panoptic Segmentation.
Ví dụ, bầu trời được mã hóa màu xanh lam, cây cối được mã hóa màu xanh lá cây
đậm, cỏ được mã hóa màu xanh lá cây nhạt, và mọi người được tơ màu khác nhau
như vàng, đỏ và tím. Cả hai màu vàng và đỏ đều mã hóa cho cùng một lớp người
nhưng thể hiện các cá thể khác nhau của cùng mợt lớp. Chúng ta có thể phân biệt
những người khác nhau bằng cách nhìn vào màu mặt nạ.
1.2
Lịch sử phát triển của phân đoạn ảnh:
Nhiệm vụ của phân đoạn ảnh là phát hiện đối tượng cần quan tâm trong mợt hình ảnh
thơng qua việc phân loại từng pixel ảnh xem nó tḥc đối tượng cần quan tâm hay
thuộc nền (phân loại nhị phân). Trước các phương pháp Học sâu, có năm phương
pháp phân đoạn hình ảnh nổi bật nhất, đó là: phương pháp dựa trên khu vực (Regionbased Methods), phương pháp phân loại (Classification Methods), phương pháp phân
cụm (Clustering Methods) và phương pháp lai (Hybrid Methods), như trình bày của
[1] và cuối cùng là các mơ hình đường hoạt động (Active Contour Models) của [2].
Đối với mỗi phương pháp, luận văn sẽ mơ tả thuật tốn, tiếp theo là ưu điểm và nhược
điểm của nó.
6
1.2.1 Phương pháp dựa trên khu vực (Region-based Methods):
Phương pháp dựa trên khu vực có hai kỹ thuật chính là: Phân ngưỡng (Thresholding)
và Phát triển theo khu vực (Region Growing).
Phân ngưỡng (Thresholding) theo [3] là một cách tiếp cận phân đoạn ảnh đơn
giản nhất, kỹ thuật này phân chia hình ảnh thành các phân đoạn khác nhau dựa trên
ngưỡng cường đợ của các pixel trong ảnh. Nói cách khác, kỹ thuật này lấy mỗi pixel
trong ảnh so sánh với ngưỡng: nếu giá trị của nó cao hơn ngưỡng, pixel đó được coi
là tiền cảnh (foreground) và được đặt thành màu trắng, cịn nếu nó nhỏ hơn hoặc bằng
ngưỡng thì nó được coi là nền (background) và đặt thành màu đen. Quy luật của thuật
toán như sau:
g(x, y) = 0 when f(x, y) > K and = 1 when f(x, y) ≤ K
(1-1)
Trong đó g(x, y) là giá trị kết quả phân đoạn tại điểm ảnh có tọa đợ (x, y); f(x, y) là
giá trị cường độ điểm ảnh (x, y); K là ngưỡng. Nếu ta sử dụng một K duy nhất cho
tồn bợ bức ảnh, có nghĩa là cơng thức trên áp dụng cho tồn ảnh trong q trình phân
đoạn thì ta gọi đó là cách dùng ngưỡng tồn cục (Global Thresholding), ngược lại
nếu ta sử dụng ngưỡng khác nhau tùy theo từng vùng (Region) trong ảnh, K biến
thiên theo từng vị trí khác nhau và được tính tốn lại tại từng vùng ảnh, có nghĩa là
cơng thức trên áp dụng cho từng vùng cục bộ của ảnh với K thay đổi thì đó gọi là
phương pháp dùng ngưỡng cục bộ (Local Thresholding).
Sự thành công của kỹ thuật này phụ thuộc rất nhiều vào việc làm thế nào lựa chọn
được mợt ngưỡng K thích hợp. Bên cạnh đó, kỹ thuật này rất kém hiệu quả với hình
ảnh bị nhiễu, hình ảnh có đợ tương phản kém.
7
Hình 1.6 Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn, bên phải là biểu
đồ Histogram của ảnh cần phân đoạn.
Các kỹ thuật tìm ngưỡng tồn cục tinh vi hơn được phát triển với ý tưởng thực hiện
việc tính ngưỡng mợt cách tự đợng dựa vào giá trị điểm ảnh của ảnh đầu vào nhằm
thay thế cho việc sử dụng ngưỡng cố định theo phương pháp sơ khai. Mợt trong các
thuật tốn tiêu biểu được phát triển đó là thuật tốn phân ngưỡng Otsu được giới thiệu
bởi [4].
Trước tiên, tác giả xét biểu đồ Histogram chuẩn hóa dựa trên hàm mật đợ (PDF –
Probability density function) theo công thức:
pr (rq ) =
nq
n
q = 0,1,2, … . , L − 1
(1-2)
trong đó: n - tổng số pixel trên ảnh;
nq - tổng số pixel có mức đợ xám rq;
L - tổng số ngưỡng độ xám trên ảnh;
Giả sử có ngưỡng K được chọn sao cho C0 là tập hợp các pixel có ngưỡng từ
[0,1,…,K-1] và C1 là tập hợp các pixel có ngưỡng từ [K,K+1,…,L-1]. Phương pháp
2
Otsu lần lượt duyệt K trong khoản [0,255] và chọn ra K sao cho độ lệch chuẩn B
2
giữa các lớp là lớn nhất. Độ lệch chuẩn B được xác định theo công thức:
8
σ2B = ω0 (μ0 − μT )2 + ω1 (μ1 − μT )2
(1-3)
trong đó:
k−1
ω0 = ∑
L−1
pq (rq ) ; ω1 = ∑
q=0
q=k
k−1
μ0 = ∑
pq (rq )
L−1
qpq (rq ) /ω0 ; μ1 = ∑
q=0
q=k
qpq (rq ) /ω1
L−1
μT = ∑
qpq (rq )
q=0
Phát triển theo khu vực (Region Growing) là một kỹ thuật phân đoạn tinh vi hơn
Phân ngưỡng, được [5] mô tả như mợt q trình nhóm các pixel hoặc các vùng nhỏ
vào một vùng lớn hơn dựa trên các tiêu chuẩn đã định trước. Kỹ thuật này bắt đầu từ
các điểm hạt giống (seed) và từ đó mở rợng vùng tìm kiếm phụ tḥc vào các điểm
lân cận có cùng đặc điểm với điểm hạt giống. Ví dụ như cùng mức độ xám, công thức
(1-4) mô tả kỹ thuật Phát triển theo khu vực dựa vào giá trị độ xám của các điểm hạt
giống và của pixel đang xét. Xét cơng thức (1-4) thì pixel Ri sẽ được chọn vào vùng
P nếu thỏa mãn điều kiện là giá trị tuyệt đối của hiệu giá trị độ xám của pixel Ri và
giá trị độ xám của điểm hạt giống nhỏ hơn một ngưỡng T được lựa chọn.
P(R i ) = True: if|z − zseed | < T
(1-4)
Đặc điểm của kỹ thuật Phát triển theo khu vực phụ thuộc vào thông số để kết thúc
q trình tìm kiếm trong vùng. Thơng thường, mợt vùng sẽ được dừng khi khơng có
pixel thỏa mãn tiêu chuẩn của vùng đó. Việc lựa chọn các tiêu chuẩn tương đồng phụ
thuộc đặc điểm của đối tượng cần xét trên ảnh và loại dữ liệu ảnh. Tiêu chuẩn có thể
bao gồm giá trị cường đợ xám, đặc điểm cấu trúc hoặc chỉ số thống kê và không tiến
hành tính tốn lại các pixel đã tính trong vùng. Việc lựa chọn tiêu chuẩn chính xác sẽ
làm tăng khả năng xác định của thuật tốn nở vùng cả về kích thước của vùng xét và
hình dạng của vùng.
9
Hạn chế rõ ràng nhất của phương pháp này là nó phụ tḥc rất nhiều vào việc lựa
chọn hạt giống và tiêu chuẩn vùng của người dùng. Việc phụ thuộc vào tương tác của
con người thường dẫn đến khả năng xảy ra lỗi cao và kết quả sẽ khác nhau từ những
người dùng khác nhau. Mặc khác, thuật này đòi hỏi chi phí tính tốn lớn với ảnh có
đợ phân giải cao và làm việc khơng tốt với hình ảnh bị nhiễu, hình ảnh có đợ tương
phản kém.
Hình 1.7 [5] minh họa Phân đoạn ảnh chất xám
1.2.2 Phương pháp phân loại (Classification methods):
Kỹ thuật K-nearest neighbors (KNN) và kỹ thuật Maximum Likelihood (ML) là hai
phương pháp phân loại đơn giản, nổi bật nhất trước khi có sự xuất hiện của các
phương pháp Học sâu.
Kỹ thuật KNN là một trong những thuật tốn Học có giám sát (Supervisedlearning) đơn giản nhất của lĩnh vực Học máy (Machine Learning). Khi bắt đầu học
(Training), thuật tốn này khơng học mợt điều gì từ tập dữ liệu học tập (Training Set),
mọi tính tốn được thực hiện khi nó cần dự đốn Nhãn (Label) của một điểm dữ liệu
10
mới (Query Point). Nhãn này sẽ được suy ra trực tiếp thông qua việc quyết định bằng
số phiếu (Major voting) của K điểm dữ liệu gần nó nhất trong tập dữ liệu đào tạo,
hoặc nó có thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểm trong
các điểm gần nó nhất và từ đó suy ra nhãn.
Kỹ thuật KNN được mô tả như sau:
Bước 1: Xác định giá trị tham số K (số láng giềng gần nhất).
Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất cả các
đối tượng trong Training Set (thường sử dụng khoảng các Euclidean).
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K lân cận gần nhất
với Query Point.
Bước 4: Lấy tất cả các lớp của K lân cận gần nhất đã xác định.
Bước 5: Dựa vào phần lớn lớp của K lân cận gần nhất (Major voting) để xác định lớp
cho Query Point.
Ưu điểm của Kỹ thuật KNN là: Thuật toán đơn giản nên dễ dàng triển khai; Đợ phức
tạp tính toán nhỏ; Xử lý tốt với tập dữ liệu nhiễu. Tuy nhiên, kỹ thuật này cũng mang
nhiều nhược điểm như: Với K nhỏ dễ gặp nhiễu dẫn tới kết quả đưa ra khơng chính
xác; Cần nhiều thời gian để thực hiện do phải tính tốn khoảng cách với tất cả các đối
tượng trong tập dữ liệu; Cần chuyển đổi kiểu dữ liệu thành các yếu tố định tính.
Hình 1.8 Minh hoạ kỹ thuật phân loại K-nearest neighbors.
11
Mẫu thử (chấm màu xanh lá cây) phải được phân loại thành hình vng màu xanh
hoặc hình tam giác màu đỏ. Nếu k = 3 (đường trịn liền) thì nó được gán cho các tam
giác màu đỏ vì có 2 hình tam giác và chỉ có 1 hình vng bên trong vòng tròn bên
trong. Nếu k = 5 (vòng tròn đường đứt nét), nó được gán cho hình vng màu xanh
(3 hình vng so với 2 hình tam giác bên trong vịng trịn bên ngồi).
Kỹ thuật Maximum Likelihood giả định rằng số liệu thống kê cho từng phân lớp
của các pixel trong mỗi ảnh thường được xác định. Thuật tốn này sẽ tính xác śt
mợt pixel nhất định tḥc về mợt phân lớp cụ thể nào đó. Mỗi pixel sẽ được gán cho
lớp có xác suất cao nhất (nghĩa là khả năng ước lượng hợp lý cực đại xem pixel sẽ
thuộc về phần lớp nào).
Ý tưởng của kỹ thuật Maximum Likelihood:
Giả định ta có số liệu thống kê cho từng phân lớp của các pixel trong ảnh là
x1 , x2 ,…, xN . Giả định thêm rằng xác xuất phân lớp của tất cả các pixel trong ảnh
tuân theo một phân phối được mô tả bởi bộ tham số θ. Kỹ thuật Maximum Likelihood
là việc đi tìm bợ tham số θ sao cho xác suất sau đây đạt giá trị lớn nhất:
θ = argmax p(x1 , … . , xN |θ)
θ
(1-5)
Giả định rằng ta đã biết mơ hình và mơ hình này được mơ tả bởi bợ tham số θ. Thế
nên, p(x1 |θ) chính là xác suất xảy ra việc phân pixel cụ thể vào phân lớp x1 biết rằng
mơ hình là (được mơ tả bởi) θ (đây là mợt xác x́t có điều kiện). Và p(x1 , … . , xN |θ)
chính là xác śt để tồn bợ các pixel được phân vào các lớp x1 , x2 … . , xN xảy ra
đồng thời (nó là mợt xác suất hợp), xác suất đồng thời này còn được gọi là likelihood.
Ở đây, likelihood chính là hàm mục tiêu.
Bởi vì sự đã rồi, tức dữ liệu training set bản thân nó đã là như thế rồi, xác suất đồng
thời này cần phải càng cao càng tốt. Việc này cũng giống như việc đã biết kết quả, và
ta cần đi tìm nguyên nhân sao cho xác suất xảy ra kết quả này càng cao càng tốt. Kỹ
thuật Maximum Likelihood chính là việc đi tìm bợ tham số θ sao cho likelihood là
lớn nhất.
12
Các Phương pháp phân loại nói chung thường có ưu điểm là thuật tốn đơn giản, mơ
hình dễ đào tạo. Tuy nhiên, nhược điểm lớn nhất của các phương pháp này là thường
đòi hỏi tập dữ liệu đào tạo rất lớn và tốc đợ xử lý của thuật tốn cũng sẽ chậm dần
theo độ lớn của tập dữ liệu đào.
1.2.3 Phương pháp phân cụm (Clustering methods):
Phương pháp phân cụm cố gắng giảm thiểu các vấn đề nhược điểm của phương pháp
phân loại, chúng không yêu cầu tập dữ liệu đào tạo quá lớn. Các phương pháp phân
cụm sử dụng phân tích xác suất thống kê để hiểu các xác suất phân phối để biểu diễn
dữ liệu và do đó, chúng được coi là phương pháp học tập không giám sát
(Unsupervised-learning). Một số kỹ thuật của phương pháp phân cụm bao gồm: KMeans, Fuzzy C-mean và Thuật toán Expectation Maximization (EM) [1].
Tiêu biểu cho phương pháp phân cụm là kỹ thuật K-Means. Kỹ thuật này dựa
trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm. Trong thực tế, nó đo
khoảng cách tới giá trị trung bình của các đối tượng dữ liệu trong cụm. Nó được xem
như là trọng tâm của cụm.
Mục đích của thuật tốn K-Means là sinh k cụm dữ liệu {C1 , C2 ,..., CK } từ một tập dữ
liệu chứa n đối tượng trong không gian d chiều X i = {xi1 , xi2 ,..., xid }, i = 1 ÷ n sao
cho hàm tiêu chuẩn:
n
E= ∑
i=1
(1-6)
∑ D2 (xi − cj )
xi ϵCj
đạt giá trị tối thiểu.
Trong đó: cj là trọng tâm của cụm Cj , D là khoảng cách giữa hai đối tượng.
Thuật tốn K-Means được mơ tả như sau:
Bước 1: Khởi tạo
13