Tải bản đầy đủ (.pdf) (92 trang)

Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu u net

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.84 MB, 92 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

TRẦN CHÂU THANH THIỆN

PHÂN ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH
BẰNG MẠNG THẦN KINH HỌC SÂU U-NET

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60.48.01.01

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020


Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS. Nguyễn Việt Linh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 1: TS. Huỳnh Khả Tú
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 2: TS. Lê Thành Sách
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại
học Công nghiệp thành phố Hồ Chí Minh ngày . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng
2. TS. Huỳnh Khả Tú - Phản biện 1
3. TS. Lê Thành Sách - Phản biện 2
4. TS. Đăng Quang Vinh - Ủy viên
5. TS. Lê Nhật Duy - Thư ký


(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA
CÔNG NGHỆ THÔNG TIN


BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Châu Thanh Thiện

MSHV: 16002401

Ngày, tháng, năm sinh: 04/01/1983

Nơi sinh: TP.HCM

Chuyên ngành: Khoa học Máy tính

Mã chuyên ngành: 60480101

I. TÊN ĐỀ TÀI:
Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu U-Net.

II. NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu các phương pháp Phân đoạn ảnh y sinh 2D.
- Nghiên cứu, hiện thực mô hình mạng học sâu U-Net cho phân đoạn ảnh y sinh 2D.
- Nghiên cứu cải tiến mơ hình mạng học sâu U-Net.
- Phân tích kết quả và đưa ra hướng phát triển.
III. NGÀY GIAO NHIỆM VỤ: 28/11/2019 theo Quyết định số 2054/QĐ-ĐHCN
ngày 28/11/2019.
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 28/5/2020.
V. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Việt Linh
Tp. Hồ Chí Minh, ngày ……. tháng……năm 2020
NGƯỜI HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN


LỜI CẢM ƠN
Để hoàn thành được luận văn này, ngoài sự nỗ lực của cá nhân, tôi đã nhận được sự
giúp đỡ và hướng dẫn tận tình của PGS.TS. Nguyễn Việt Linh – người hướng dẫn
của tôi. Nhờ sự định hướng đúng đắn ngay từ đầu của thầy nên việc nghiên cứu luận
văn này diễn ra thuận lợi. Tôi xin gửi lời cảm ơn chân thành đến thầy. Kính chúc thầy
và gia đình ln mạnh khoẻ và thành cơng!
Tơi xin chân thành cảm ơn TS. Lê Nhật Duy – Phó Trưởng khoa Công nghệ Thông
tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập cũng như các quy trình, biểu
mẫu để hồn thành luận văn này, từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận
văn.
Và cuối cùng, tôi xin gửi lời cảm ơn đến quý thầy cô Lãnh đạo và giảng viên của
khoa Công nghệ Thông tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập tạo
nền tảng tri thức để tơi có thể hồn thành luận văn này.


i


TÓM TẮT LUẬN VĂN THẠC SĨ
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh: Vấn đề thứ nhất là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này.
Mục tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu
đào tạo tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn
các tham số để tìm hiểu, do đó thường địi hỏi các bộ dữ liệu đào tạo phải lớn. Trong
trường hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ
mỗi ví dụ. Vấn đề thứ hai mà mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, đợ phân giải ảnh khác nhau.
Luận văn trước hết tìm hiểu các phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh
y sinh 2D. Tiếp đến là tập trung nghiên cứu và hiện thực mô hình mạng U-Net với
bài tốn phân đoạn cấu trúc tế bào thần kinh, qua đó rút ra được cách thức hoạt động,
cách tinh chỉnh các tham số của mạng U-Net.
Sau cùng luận văn đưa ra một kiến trúc mạng mới đó là kiến trúc mạng W-Net là mợt
mạng cải tiến của kiến trúc mạng U-Net. Kiến trúc mạng W-Net đã cho kết quả phân
đoạn rất tốt sau quá trình đào tạo, so với kiến trúc mạng U-Net ban đầu. Đây sẽ là nền
tảng cho việc thực hiện tiếp các nghiên cứu về phân đoạn ảnh y sinh trong tương lai.

ii


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi. Các kết quả nghiên
cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn

nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được
thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Học viên

Trần Châu Thanh Thiện

iii


MỤC LỤC
LỜI CảM ƠN

.................................................................................................................. i

TÓM TẮT LUẬN VĂN THẠC SĨ........................................................................................ ii
LỜI CAM ĐOAN ................................................................................................................iii

MỤC LỤC

...................................................................................................... iv

DANH MỤC HÌNH ẢNH .................................................................................................... vi
DANH MỤC BẢNG BIỂU ................................................................................................viii
DANH MỤC TỪ VIẾT TẮT ............................................................................................... ix
MỞ ĐẦU

................................................................................................................. 1

1. Tính cấp thiết của luận văn .....................................................................................1
2. Mục tiêu của luận văn .............................................................................................2

3. Cấu trúc của luận văn ..............................................................................................2
CHƯƠNG 1

TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D ....................3

1.1

Khái niệm về phân đoạn ảnh: .................................................................. 3

1.1.1

Phân đoạn ngữ nghĩa (Semantic Segmentation): .................................... 4

1.1.2

Phân đoạn cá thể (Instance Segmentation): ............................................ 5

1.1.3

Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation): .................. 6

1.2

Lịch sử phát triển của phân đoạn ảnh: .................................................... 6

1.2.1

Phương pháp dựa trên khu vực (Region-based Methods):...................... 7

1.2.2


Phương pháp phân loại (Classification methods): ................................ 10

1.2.3

Phương pháp phân cụm (Clustering methods): ..................................... 13

1.2.4

Phương pháp lai (Hybrid Methods): ..................................................... 18

1.2.5

Phương pháp sử dụng Các mơ hình đường viền hoạt động (Active
Contour Models): .................................................................................. 19

1.3

Phân đoạn ảnh y sinh 2D: ..................................................................... 25

1.4

Lịch sử nghiên cứu phân đoạn ảnh y sinh 2D: ...................................... 26

CHƯƠNG 2

MẠNG THẦN KINH HỌC SÂU VÀ MẠNG THẦN KINH HỌC
SÂU U-NET .................................................................................28

2.1


Khái niệm mạng thần kinh học sâu : ..................................................... 28

2.2

Lịch sử phát triển của mạng thần kinh học sâu: .................................... 30

2.3

Các lĩnh vực ứng dụng của mạng thần kinh học sâu :........................... 34

2.4

Kiến trúc mạng thần kinh học sâu U-Net : ............................................ 37

2.5

Các thành phần của kiến trúc mạng thần kinh học sâu U-Net : ............ 39

2.5.1

Encoder ................................................................................................. 39

iv


2.5.2

Decoder ................................................................................................. 42


2.5.3

Bridge .................................................................................................... 50

2.6

Các nghiên cứu về kiến trúc mạng U-Net: ............................................ 50

CHƯƠNG 3

ỨNG DỤNG MẠNG THẦN KINH HỌC SÂU U-NET PHÂN
ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH ...............................53

3.1

Hiện thực mơ hình:................................................................................ 53

3.1.1

Mơ hình kiến trúc mạng U-Net: ............................................................ 53

3.1.2

Hiện thực mợt số mơ hình cải tiến của kiến trúc mạng U-Net:............. 56

3.2

Bộ dữ liệu đào tạo được sử dụng: ......................................................... 57

3.3


Đào tạo và kiểm thử mơ hình: ............................................................... 59

3.3.1

Đào tạo: ................................................................................................. 59

3.3.2

Kiểm thử mơ hình: ................................................................................ 60

3.4

Hàm mát mát (Loss Function) .............................................................. 61

3.4.1

Định nghĩa: ............................................................................................ 61

3.4.2

So sánh kết quả hàm mất mát của các mơ hình sau đào tạo: ................ 62

3.5

Đề x́t mơ hình kiến trúc mạng W-Net: .............................................. 64

3.6

Phương pháp đánh giá mơ hình (Evaluation Metrics) .......................... 71


3.7

Thực nghiệm và so sánh kết quả: .......................................................... 72

KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 75

TÀI LIỆU THAM KHẢO .........................................................................................76
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN .........................................................80

v


DANH MỤC HÌNH ẢNH
Hình 1.1

Kết quả đầu ra của thuật tốn Phân đoạn ảnh

3

Hình 1.2

Kết quả của Phân đoạn ngữ nghĩa (Semantic Segmentation)

4

Hình 1.3

Sự khác nhau giữa Object Detection, Semantic Segmentation và


5

Instance Segmentation.
Hình 1.4

Phân đoạn cá thể (Instance Segmentation)

5

Hình 1.5

Phân đoạn Panoptic Segmentation.

6

Hình 1.6

Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn,

8

bên phải là biểu đồ Histogram của ảnh cần phân đoạn.
Hình 1.7

[5] minh họa Phân đoạn ảnh chất xám

10

Hình 1.8


Minh hoạ kỹ thuật phân loại K-nearest neighbors.

11

Hình 1.9

Minh hoạ kỹ thuật phân loại K-means

15

Hình 1.10 Quy trình của thuật tốn lai được [6] đề x́t.

19

Hình 1.11 Phân đoạn ảnh CT não bằng cách sử dụng các đường viền hoạt

20

đợng
Hình 1.12 Đường cong đóng và mở

20

Hình 1.13 Mô tả cách thức hoạt động của các đường viền hoạt đợng.

25

Hình 2.1

Mối quan hệ giữa học sâu, học máy và trí tuệ nhân tạo


28

Hình 2.2

Mức đợ trừu tượng tăng dần qua các tầng học của học sâu

29

Hình 2.3

Hình ảnh mạng Học sâu tạo ra

30

Hình 2.4

Lịch sử phát triển của mạng thần kinh học sâu

31

Hình 2.5

Kiến trúc mạng Perceptron đơn giản của [15]

31

Hình 2.6

Kết quả ILSVRC qua các năm


34

Hình 2.7

Kiến trúc mạng U-Net của [13]

38

Hình 2.8

Minh họa hoạt đợng tích chập

40

Hình 2.9

Minh hoạt đợng gợp

41

Hình 2.10 Minh họa các bước thực hiện phép tích chập thơng thường

43

Hình 2.11 Minh họa các bước thực hiện phép tích chập chuyển vị

44

Hình 2.12 Minh họa hoạt đợng tích chập


44

vi


Hình 2.13 Kernels 3x3

45

Hình 2.14 Minh họa việc sắp xếp lại kernels 3x3 thành ma trận 4x16 với

45

các phần đệm là số 0.
Hình 2.15 Cách sắp xếp lại kernels 3x3 thành ma trận 4x16 với các phần

46

đệm là số 0.
Hình 2.16 Định dạng ma trận đầu vào 4x4 thành một vectơ cợt 16x1

46

Hình 2.17 Thực hiện phép nhân ma trận tích chập 4x16 với ma trận đầu

47

vào 16x1
Hình 2.18 Kết quả đầu ra sau khi định dạng lại ma trận từ 4x1 thành 2x2


47

Hình 2.19 Phép nhân ma trận tích chập 4x16 với ma trận đầu vào 16x1

49

Hình 2.20 Kết quả đầu ra sau khi định dạng lại ma trận từ 16x1 thành 4x4

49

Hình 3.1

Kiến trúc mạng U-Net

55

Hình 3.2

Kiến trúc mạng ResNeXt-Unet

56

Hình 3.3

Kiến trúc mạng Dense-Unet

56

Hình 3.4


Kiến trúc mạng Res-Unet

57

Hình 3.5

Bợ hình ảnh đào tạo

58

Hình 3.6

Bợ mặt nạ (mask) đào tạo

59

Hình 3.7

Kết quả phân đoạn của các mơ hình sau đào tạo 10.000 Step

63

Hình 3.8

Kiến trúc khối Residual của [31]

65

Hình 3.9


(a): kiến trúc của khối Residual cải tiến; (b) hiện thực khối

65

Residual cải tiến
Hình 3.10 Kiến trúc của nhánh V thứ nhất

65

Hình 3.11 Kiến trúc mạng W-Net

69

Hình 3.12 (a) kiến trúc của khối Residual

vii

(b) kiến trúc của khối Unet

70


DANH MỤC BẢNG BIỂU
Bảng 3.1

Mô tả chi tiết kiến trúc mạng U-Net

54


Bảng 3.2

Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau

62

đào tạo 1.000 Step
Bảng 3.3

Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau

62

đào tạo 10.000 Step
Bảng 3.4

Mơ tả chi tiết của kiến trúc của nhánh V thứ nhất

66

Bảng 3.5

Mô tả chi tiết của kiến trúc mạng W-Net

67

Bảng 3.6

Ghi nhận kết so sánh 1, mơ hình U-Net và mơ hình W-Net


73

Bảng 3.7

Ghi nhận kết so sánh 2, mơ hình U-Net và mơ hình W-Net

73

Bảng 3.8

Bảng ghi nhận số liệu đánh giá kết quả điểm V
của Thử thách ISBI 2012.

viii

Rand

và V

Info

74


DANH MỤC TỪ VIẾT TẮT
(Xếp theo thứ tự A, B, C của chữ cái đầu viết tắt)
ĐHCN

Đại học Công nghiệp


IEEE

Institute of Electrical and Electronics Engineers

ILSVRC

ImageNet Large Scale Visual Recognition Challenge

ISBI

International Symposium on Biomedical Imaging

KNN

K-nearest neighbors

LVThS

Luận văn Thạc sĩ

ix


MỞ ĐẦU
1. Tính cấp thiết của luận văn
Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision). Đó là q trình phân chia các pixel của một ảnh số thành
các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu chính của phân đoạn ảnh
thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ diễn giải, dễ phân tích và
dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt các bài tốn về thị giác

máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh giới, xử lý hình ảnh y sinh.
Về cơ bản, các tác vụ này được thực hiện bằng cách gán từng pixel trong ảnh cho một
nhãn nhất định dựa trên các tḥc tính tương tự, chẳng hạn như: kết cấu, màu sắc,
cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh là mợt tập hợp các đoạn ảnh
có thể tạo ra được tồn vẹn bức ảnh đó.
Học sâu (Deep Learning) là một nhánh đặc biệt của ngành Học máy, sử dụng các kiến
trúc mạng lưới thần kinh nhân tạo với nhiều lớp ẩn. Các mạng thần kinh được huấn
luyện theo kỹ thuật học sâu còn được gọi với cái tên khác là mạng thần kinh học sâu
hay mạng nơ-ron sâu (Deep Neural Network) do cách thức hoạt động của chúng.
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh là: Đầu tiên là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này. Mục
tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu đào tạo
tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn các tham
số để tìm hiểu, do đó thường địi hỏi các bợ dữ liệu đào tạo phải lớn. Trong trường
hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ mỗi ví
dụ. Vấn đề thứ hai mà kiến trúc mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, độ phân giải khác nhau .

1


2. Mục tiêu của luận văn
Do hạn chế trong thời gian thực hiện nghiên cứu, luận văn trước hết tìm hiểu các
phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh y sinh 2D. Tiếp đến là tập trung
nghiên cứu và hiện thực mơ hình mạng U-Net với bài tốn phân đoạn cấu trúc tế bào
thần kinh, qua đó rút ra được cách thức hoạt động, cách tinh chỉnh các tham số của
kiến trúc mạng U-Net để làm nền tảng cho việc cải tiến mạng U-Net.
3. Cấu trúc của luận văn

Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, luận văn được tổ chức thành
ba chương với các nội dung cụ thể như sau:
Chương 1: Tổng quan về phân đoạn ảnh y sinh 2d
Chương 2: Mạng thần kinh học sâu và mạng thần kinh học sâu u-net
Chương 3: Ứng dụng mạng thần kinh học sâu u-net phân đoạn cấu trúc tế bào thần
kinh.

2


CHƯƠNG 1
1.1

TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D

Khái niệm về phân đoạn ảnh:

Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision), kỹ thuật này thực hiện trích xuất vùng quan tâm trong
ảnh thơng qua quy trình tự đợng hoặc bán tự đợng. Nó là mợt q trình phân chia các
pixel của một ảnh số thành các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu
chính của phân đoạn ảnh thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ
diễn giải, dễ phân tích và dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt
các bài tốn về thị giác máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh
giới, xử lý hình ảnh y sinh. Về cơ bản, các tác vụ này được thực hiện bằng cách gán
từng pixel trong ảnh cho một nhãn nhất định dựa trên các tḥc tính tương tự, chẳng
hạn như: kết cấu, màu sắc, cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh
là mợt tập hợp các đoạn ảnh có thể tạo ra được tồn vẹn bức ảnh đó.
Mợt thuật tốn phân đoạn ảnh lấy mợt hình ảnh làm đầu vào và đầu ra là một tập hợp
các vùng (hoặc phân đoạn) có thể được biểu diễn dưới dạng mợt tập hợp các đường

viền hoặc mợt mặt nạ "mask" (có thể là thang đợ xám hoặc màu) trong đó mỗi phân
đoạn được gán một giá trị màu hoặc màu xám duy nhất để xác định nó.

Hình 1.1 Kết quả đầu ra của thuật toán Phân đoạn ảnh

3


Về cơ bản phân đoạn ảnh được tạm chia thành 03 kỹ thuật cơ bản gồm: Semantic
Segmentation; Instance Segmentation; Panoptic Segmentation.
1.1.1 Phân đoạn ngữ nghĩa (Semantic Segmentation):
Phân đoạn ngữ nghĩa (Semantic Segmentation) mục tiêu chính là gán nhãn (ơ tơ, tòa
nhà, người, đường, vỉa hè, bầu trời, cây cối, v.v… ) cho mỗi pixel trong ảnh. Có thể
nói, với Phân đoạn ngữ nghĩa, ta có thể kiểm tra lớp cho từng pixel bằng cách kiểm
tra màu mặt nạ của pixel đó.
Về cơ chế, phân đoạn ngữ nghĩa có thể được hiểu như việc phân loại hình ảnh ở mức
pixel. Mợt số ứng dụng chính của nó là ứng dụng trong các phương tiện tự động,
tương tác giữa người và máy tính, robot, các cơng cụ chỉnh sửa / sáng tạo ảnh, trong
lĩnh vực xử lý ảnh y sinh ... Ví dụ, phân đoạn ngữ nghĩa là rất quan trọng trong xe hơi
tự lái và robot vì nó giúp các mơ hình phải hiểu bối cảnh trong mơi trường mà chúng
đang hoạt đợng.

Hình 1.2 Phân đoạn ngữ nghĩa (Semantic Segmentation).

Lớp người trong mặt nạ được thể hiện bằng các pixel màu đỏ; Lớp cỏ có màu xanh
lá cây nhạt; Lớp cây cối được mã hóa màu xanh lá cây đậm và lớp bầu trời được mã
hóa màu xanh lam.

4



1.1.2 Phân đoạn cá thể (Instance Segmentation):
Phân đoạn cá thể (Instance Segmentation) là một khái niệm liên quan chặt chẽ đến
Phát hiện đối tượng (Object Detection).

Hình 1.3 Sự khác nhau giữa Object Detection, Semantic Segmentation và Instance
Segmentation.

Tuy nhiên, không giống như Phát hiện đối tượng, kết quả đầu ra là mặt nạ (hoặc
đường viền) có chứa đối tượng đó và cũng không giống như Phân đoạn ngữ nghĩa,
Phân đoạn cá thể không gắn nhãn cho mọi pixel trong ảnh, Phân đoạn cá thể chỉ quan
tâm đến việc tìm ra ranh giới của các đối tượng cụ thể.

Hình 1.4 Phân đoạn cá thể (Instance Segmentation)

Kết quả đầu ra của thuật toán Phân đoạn cá thể được gọi là Mask R-CNN. Ta thấy
mặt nạ của lớp người có nhiều màu khác nhau để ta có thể phân biệt từng người trong
cùng lớp người. Tuy nhiên, không phải pixel nào cũng được gắn nhãn lớp.

5


1.1.3 Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation):
Panoptic Segmentation là sự kết hợp của Phân đoạn ngữ nghĩa và Phân đoạn cá thể.
Mỗi pixel được gán một lớp khác nhau và nếu có nhiều cá thể của mợt lớp, chúng ta
có thể biết pixel nào tḥc về cá thể nào của lớp đó.

Hình 1.5 Phân đoạn Panoptic Segmentation.

Ví dụ, bầu trời được mã hóa màu xanh lam, cây cối được mã hóa màu xanh lá cây

đậm, cỏ được mã hóa màu xanh lá cây nhạt, và mọi người được tơ màu khác nhau
như vàng, đỏ và tím. Cả hai màu vàng và đỏ đều mã hóa cho cùng một lớp người
nhưng thể hiện các cá thể khác nhau của cùng mợt lớp. Chúng ta có thể phân biệt
những người khác nhau bằng cách nhìn vào màu mặt nạ.
1.2

Lịch sử phát triển của phân đoạn ảnh:

Nhiệm vụ của phân đoạn ảnh là phát hiện đối tượng cần quan tâm trong mợt hình ảnh
thơng qua việc phân loại từng pixel ảnh xem nó tḥc đối tượng cần quan tâm hay
thuộc nền (phân loại nhị phân). Trước các phương pháp Học sâu, có năm phương
pháp phân đoạn hình ảnh nổi bật nhất, đó là: phương pháp dựa trên khu vực (Regionbased Methods), phương pháp phân loại (Classification Methods), phương pháp phân
cụm (Clustering Methods) và phương pháp lai (Hybrid Methods), như trình bày của
[1] và cuối cùng là các mơ hình đường hoạt động (Active Contour Models) của [2].
Đối với mỗi phương pháp, luận văn sẽ mơ tả thuật tốn, tiếp theo là ưu điểm và nhược
điểm của nó.

6


1.2.1 Phương pháp dựa trên khu vực (Region-based Methods):
Phương pháp dựa trên khu vực có hai kỹ thuật chính là: Phân ngưỡng (Thresholding)
và Phát triển theo khu vực (Region Growing).
 Phân ngưỡng (Thresholding) theo [3] là một cách tiếp cận phân đoạn ảnh đơn
giản nhất, kỹ thuật này phân chia hình ảnh thành các phân đoạn khác nhau dựa trên
ngưỡng cường đợ của các pixel trong ảnh. Nói cách khác, kỹ thuật này lấy mỗi pixel
trong ảnh so sánh với ngưỡng: nếu giá trị của nó cao hơn ngưỡng, pixel đó được coi
là tiền cảnh (foreground) và được đặt thành màu trắng, cịn nếu nó nhỏ hơn hoặc bằng
ngưỡng thì nó được coi là nền (background) và đặt thành màu đen. Quy luật của thuật
toán như sau:

g(x, y) = 0 when f(x, y) > K and = 1 when f(x, y) ≤ K

(1-1)

Trong đó g(x, y) là giá trị kết quả phân đoạn tại điểm ảnh có tọa đợ (x, y); f(x, y) là
giá trị cường độ điểm ảnh (x, y); K là ngưỡng. Nếu ta sử dụng một K duy nhất cho
tồn bợ bức ảnh, có nghĩa là cơng thức trên áp dụng cho tồn ảnh trong q trình phân
đoạn thì ta gọi đó là cách dùng ngưỡng tồn cục (Global Thresholding), ngược lại
nếu ta sử dụng ngưỡng khác nhau tùy theo từng vùng (Region) trong ảnh, K biến
thiên theo từng vị trí khác nhau và được tính tốn lại tại từng vùng ảnh, có nghĩa là
cơng thức trên áp dụng cho từng vùng cục bộ của ảnh với K thay đổi thì đó gọi là
phương pháp dùng ngưỡng cục bộ (Local Thresholding).
Sự thành công của kỹ thuật này phụ thuộc rất nhiều vào việc làm thế nào lựa chọn
được mợt ngưỡng K thích hợp. Bên cạnh đó, kỹ thuật này rất kém hiệu quả với hình
ảnh bị nhiễu, hình ảnh có đợ tương phản kém.

7


Hình 1.6 Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn, bên phải là biểu
đồ Histogram của ảnh cần phân đoạn.

Các kỹ thuật tìm ngưỡng tồn cục tinh vi hơn được phát triển với ý tưởng thực hiện
việc tính ngưỡng mợt cách tự đợng dựa vào giá trị điểm ảnh của ảnh đầu vào nhằm
thay thế cho việc sử dụng ngưỡng cố định theo phương pháp sơ khai. Mợt trong các
thuật tốn tiêu biểu được phát triển đó là thuật tốn phân ngưỡng Otsu được giới thiệu
bởi [4].
Trước tiên, tác giả xét biểu đồ Histogram chuẩn hóa dựa trên hàm mật đợ (PDF –
Probability density function) theo công thức:
pr (rq ) =


nq
n

q = 0,1,2, … . , L − 1

(1-2)

trong đó: n - tổng số pixel trên ảnh;
nq - tổng số pixel có mức đợ xám rq;
L - tổng số ngưỡng độ xám trên ảnh;
Giả sử có ngưỡng K được chọn sao cho C0 là tập hợp các pixel có ngưỡng từ
[0,1,…,K-1] và C1 là tập hợp các pixel có ngưỡng từ [K,K+1,…,L-1]. Phương pháp
2
Otsu lần lượt duyệt K trong khoản [0,255] và chọn ra K sao cho độ lệch chuẩn  B
2
giữa các lớp là lớn nhất. Độ lệch chuẩn  B được xác định theo công thức:

8


σ2B = ω0 (μ0 − μT )2 + ω1 (μ1 − μT )2

(1-3)

trong đó:
k−1

ω0 = ∑


L−1

pq (rq ) ; ω1 = ∑

q=0

q=k

k−1

μ0 = ∑

pq (rq )
L−1

qpq (rq ) /ω0 ; μ1 = ∑

q=0

q=k

qpq (rq ) /ω1

L−1

μT = ∑

qpq (rq )

q=0


 Phát triển theo khu vực (Region Growing) là một kỹ thuật phân đoạn tinh vi hơn
Phân ngưỡng, được [5] mô tả như mợt q trình nhóm các pixel hoặc các vùng nhỏ
vào một vùng lớn hơn dựa trên các tiêu chuẩn đã định trước. Kỹ thuật này bắt đầu từ
các điểm hạt giống (seed) và từ đó mở rợng vùng tìm kiếm phụ tḥc vào các điểm
lân cận có cùng đặc điểm với điểm hạt giống. Ví dụ như cùng mức độ xám, công thức
(1-4) mô tả kỹ thuật Phát triển theo khu vực dựa vào giá trị độ xám của các điểm hạt
giống và của pixel đang xét. Xét cơng thức (1-4) thì pixel Ri sẽ được chọn vào vùng
P nếu thỏa mãn điều kiện là giá trị tuyệt đối của hiệu giá trị độ xám của pixel Ri và
giá trị độ xám của điểm hạt giống nhỏ hơn một ngưỡng T được lựa chọn.
P(R i ) = True: if|z − zseed | < T

(1-4)

Đặc điểm của kỹ thuật Phát triển theo khu vực phụ thuộc vào thông số để kết thúc
q trình tìm kiếm trong vùng. Thơng thường, mợt vùng sẽ được dừng khi khơng có
pixel thỏa mãn tiêu chuẩn của vùng đó. Việc lựa chọn các tiêu chuẩn tương đồng phụ
thuộc đặc điểm của đối tượng cần xét trên ảnh và loại dữ liệu ảnh. Tiêu chuẩn có thể
bao gồm giá trị cường đợ xám, đặc điểm cấu trúc hoặc chỉ số thống kê và không tiến
hành tính tốn lại các pixel đã tính trong vùng. Việc lựa chọn tiêu chuẩn chính xác sẽ
làm tăng khả năng xác định của thuật tốn nở vùng cả về kích thước của vùng xét và
hình dạng của vùng.

9


Hạn chế rõ ràng nhất của phương pháp này là nó phụ tḥc rất nhiều vào việc lựa
chọn hạt giống và tiêu chuẩn vùng của người dùng. Việc phụ thuộc vào tương tác của
con người thường dẫn đến khả năng xảy ra lỗi cao và kết quả sẽ khác nhau từ những
người dùng khác nhau. Mặc khác, thuật này đòi hỏi chi phí tính tốn lớn với ảnh có

đợ phân giải cao và làm việc khơng tốt với hình ảnh bị nhiễu, hình ảnh có đợ tương
phản kém.

Hình 1.7 [5] minh họa Phân đoạn ảnh chất xám

1.2.2 Phương pháp phân loại (Classification methods):
Kỹ thuật K-nearest neighbors (KNN) và kỹ thuật Maximum Likelihood (ML) là hai
phương pháp phân loại đơn giản, nổi bật nhất trước khi có sự xuất hiện của các
phương pháp Học sâu.
 Kỹ thuật KNN là một trong những thuật tốn Học có giám sát (Supervisedlearning) đơn giản nhất của lĩnh vực Học máy (Machine Learning). Khi bắt đầu học
(Training), thuật tốn này khơng học mợt điều gì từ tập dữ liệu học tập (Training Set),
mọi tính tốn được thực hiện khi nó cần dự đốn Nhãn (Label) của một điểm dữ liệu

10


mới (Query Point). Nhãn này sẽ được suy ra trực tiếp thông qua việc quyết định bằng
số phiếu (Major voting) của K điểm dữ liệu gần nó nhất trong tập dữ liệu đào tạo,
hoặc nó có thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểm trong
các điểm gần nó nhất và từ đó suy ra nhãn.
Kỹ thuật KNN được mô tả như sau:
Bước 1: Xác định giá trị tham số K (số láng giềng gần nhất).
Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất cả các
đối tượng trong Training Set (thường sử dụng khoảng các Euclidean).
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K lân cận gần nhất
với Query Point.
Bước 4: Lấy tất cả các lớp của K lân cận gần nhất đã xác định.
Bước 5: Dựa vào phần lớn lớp của K lân cận gần nhất (Major voting) để xác định lớp
cho Query Point.
Ưu điểm của Kỹ thuật KNN là: Thuật toán đơn giản nên dễ dàng triển khai; Đợ phức

tạp tính toán nhỏ; Xử lý tốt với tập dữ liệu nhiễu. Tuy nhiên, kỹ thuật này cũng mang
nhiều nhược điểm như: Với K nhỏ dễ gặp nhiễu dẫn tới kết quả đưa ra khơng chính
xác; Cần nhiều thời gian để thực hiện do phải tính tốn khoảng cách với tất cả các đối
tượng trong tập dữ liệu; Cần chuyển đổi kiểu dữ liệu thành các yếu tố định tính.

Hình 1.8 Minh hoạ kỹ thuật phân loại K-nearest neighbors.

11


Mẫu thử (chấm màu xanh lá cây) phải được phân loại thành hình vng màu xanh
hoặc hình tam giác màu đỏ. Nếu k = 3 (đường trịn liền) thì nó được gán cho các tam
giác màu đỏ vì có 2 hình tam giác và chỉ có 1 hình vng bên trong vòng tròn bên
trong. Nếu k = 5 (vòng tròn đường đứt nét), nó được gán cho hình vng màu xanh
(3 hình vng so với 2 hình tam giác bên trong vịng trịn bên ngồi).
 Kỹ thuật Maximum Likelihood giả định rằng số liệu thống kê cho từng phân lớp
của các pixel trong mỗi ảnh thường được xác định. Thuật tốn này sẽ tính xác śt
mợt pixel nhất định tḥc về mợt phân lớp cụ thể nào đó. Mỗi pixel sẽ được gán cho
lớp có xác suất cao nhất (nghĩa là khả năng ước lượng hợp lý cực đại xem pixel sẽ
thuộc về phần lớp nào).
Ý tưởng của kỹ thuật Maximum Likelihood:
Giả định ta có số liệu thống kê cho từng phân lớp của các pixel trong ảnh là
x1 , x2 ,…, xN . Giả định thêm rằng xác xuất phân lớp của tất cả các pixel trong ảnh
tuân theo một phân phối được mô tả bởi bộ tham số θ. Kỹ thuật Maximum Likelihood
là việc đi tìm bợ tham số θ sao cho xác suất sau đây đạt giá trị lớn nhất:
θ = argmax p(x1 , … . , xN |θ)
θ

(1-5)


Giả định rằng ta đã biết mơ hình và mơ hình này được mơ tả bởi bợ tham số θ. Thế
nên, p(x1 |θ) chính là xác suất xảy ra việc phân pixel cụ thể vào phân lớp x1 biết rằng
mơ hình là (được mơ tả bởi) θ (đây là mợt xác x́t có điều kiện). Và p(x1 , … . , xN |θ)
chính là xác śt để tồn bợ các pixel được phân vào các lớp x1 , x2 … . , xN xảy ra
đồng thời (nó là mợt xác suất hợp), xác suất đồng thời này còn được gọi là likelihood.
Ở đây, likelihood chính là hàm mục tiêu.
Bởi vì sự đã rồi, tức dữ liệu training set bản thân nó đã là như thế rồi, xác suất đồng
thời này cần phải càng cao càng tốt. Việc này cũng giống như việc đã biết kết quả, và
ta cần đi tìm nguyên nhân sao cho xác suất xảy ra kết quả này càng cao càng tốt. Kỹ
thuật Maximum Likelihood chính là việc đi tìm bợ tham số θ sao cho likelihood là
lớn nhất.

12


Các Phương pháp phân loại nói chung thường có ưu điểm là thuật tốn đơn giản, mơ
hình dễ đào tạo. Tuy nhiên, nhược điểm lớn nhất của các phương pháp này là thường
đòi hỏi tập dữ liệu đào tạo rất lớn và tốc đợ xử lý của thuật tốn cũng sẽ chậm dần
theo độ lớn của tập dữ liệu đào.
1.2.3 Phương pháp phân cụm (Clustering methods):
Phương pháp phân cụm cố gắng giảm thiểu các vấn đề nhược điểm của phương pháp
phân loại, chúng không yêu cầu tập dữ liệu đào tạo quá lớn. Các phương pháp phân
cụm sử dụng phân tích xác suất thống kê để hiểu các xác suất phân phối để biểu diễn
dữ liệu và do đó, chúng được coi là phương pháp học tập không giám sát
(Unsupervised-learning). Một số kỹ thuật của phương pháp phân cụm bao gồm: KMeans, Fuzzy C-mean và Thuật toán Expectation Maximization (EM) [1].
 Tiêu biểu cho phương pháp phân cụm là kỹ thuật K-Means. Kỹ thuật này dựa
trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm. Trong thực tế, nó đo
khoảng cách tới giá trị trung bình của các đối tượng dữ liệu trong cụm. Nó được xem
như là trọng tâm của cụm.
Mục đích của thuật tốn K-Means là sinh k cụm dữ liệu {C1 , C2 ,..., CK } từ một tập dữ

liệu chứa n đối tượng trong không gian d chiều X i = {xi1 , xi2 ,..., xid }, i = 1 ÷ n sao
cho hàm tiêu chuẩn:
n

E= ∑
i=1

(1-6)

∑ D2 (xi − cj )
xi ϵCj

đạt giá trị tối thiểu.
Trong đó: cj là trọng tâm của cụm Cj , D là khoảng cách giữa hai đối tượng.
Thuật tốn K-Means được mơ tả như sau:
Bước 1: Khởi tạo

13


×