Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu u net

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.84 MB, 92 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

TRẦN CHÂU THANH THIỆN

PHÂN ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH
BẰNG MẠNG THẦN KINH HỌC SÂU U-NET

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60.48.01.01

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020

Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS. Nguyễn Việt Linh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 1: TS. Huỳnh Khả Tú
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Người phản biện 2: TS. Lê Thành Sách
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại
học Công nghiệp thành phố Hồ Chí Minh ngày . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu - Chủ tịch Hội đồng
2. TS. Huỳnh Khả Tú - Phản biện 1
3. TS. Lê Thành Sách - Phản biện 2
4. TS. Đăng Quang Vinh - Ủy viên
5. TS. Lê Nhật Duy - Thư ký

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA
CÔNG NGHỆ THÔNG TIN

BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Châu Thanh Thiện

MSHV: 16002401

Ngày, tháng, năm sinh: 04/01/1983

Nơi sinh: TP.HCM

Chuyên ngành: Khoa học Máy tính

Mã chuyên ngành: 60480101

I. TÊN ĐỀ TÀI:
Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu U-Net.

II. NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu các phương pháp Phân đoạn ảnh y sinh 2D.
- Nghiên cứu, hiện thực mô hình mạng học sâu U-Net cho phân đoạn ảnh y sinh 2D.
- Nghiên cứu cải tiến mơ hình mạng học sâu U-Net.
- Phân tích kết quả và đưa ra hướng phát triển.
III. NGÀY GIAO NHIỆM VỤ: 28/11/2019 theo Quyết định số 2054/QĐ-ĐHCN
ngày 28/11/2019.
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 28/5/2020.
V. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Việt Linh
Tp. Hồ Chí Minh, ngày ……. tháng……năm 2020
NGƯỜI HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN

LỜI CẢM ƠN
Để hoàn thành được luận văn này, ngoài sự nỗ lực của cá nhân, tôi đã nhận được sự
giúp đỡ và hướng dẫn tận tình của PGS.TS. Nguyễn Việt Linh – người hướng dẫn
của tôi. Nhờ sự định hướng đúng đắn ngay từ đầu của thầy nên việc nghiên cứu luận
văn này diễn ra thuận lợi. Tôi xin gửi lời cảm ơn chân thành đến thầy. Kính chúc thầy
và gia đình ln mạnh khoẻ và thành cơng!
Tơi xin chân thành cảm ơn TS. Lê Nhật Duy – Phó Trưởng khoa Công nghệ Thông
tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập cũng như các quy trình, biểu
mẫu để hồn thành luận văn này, từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận
văn.
Và cuối cùng, tôi xin gửi lời cảm ơn đến quý thầy cô Lãnh đạo và giảng viên của
khoa Công nghệ Thông tin đã hướng dẫn và giúp đỡ tơi trong q trình học tập tạo
nền tảng tri thức để tơi có thể hồn thành luận văn này.

i

TÓM TẮT LUẬN VĂN THẠC SĨ
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh: Vấn đề thứ nhất là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này.
Mục tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu
đào tạo tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn
các tham số để tìm hiểu, do đó thường địi hỏi các bộ dữ liệu đào tạo phải lớn. Trong
trường hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ
mỗi ví dụ. Vấn đề thứ hai mà mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, đợ phân giải ảnh khác nhau.
Luận văn trước hết tìm hiểu các phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh
y sinh 2D. Tiếp đến là tập trung nghiên cứu và hiện thực mô hình mạng U-Net với
bài tốn phân đoạn cấu trúc tế bào thần kinh, qua đó rút ra được cách thức hoạt động,
cách tinh chỉnh các tham số của mạng U-Net.
Sau cùng luận văn đưa ra một kiến trúc mạng mới đó là kiến trúc mạng W-Net là mợt
mạng cải tiến của kiến trúc mạng U-Net. Kiến trúc mạng W-Net đã cho kết quả phân
đoạn rất tốt sau quá trình đào tạo, so với kiến trúc mạng U-Net ban đầu. Đây sẽ là nền
tảng cho việc thực hiện tiếp các nghiên cứu về phân đoạn ảnh y sinh trong tương lai.

ii

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi. Các kết quả nghiên
cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn

nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được
thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Học viên

Trần Châu Thanh Thiện

iii

MỤC LỤC
LỜI CảM ƠN

.................................................................................................................. i

TÓM TẮT LUẬN VĂN THẠC SĨ........................................................................................ ii
LỜI CAM ĐOAN ................................................................................................................iii

MỤC LỤC

...................................................................................................... iv

DANH MỤC HÌNH ẢNH .................................................................................................... vi
DANH MỤC BẢNG BIỂU ................................................................................................viii
DANH MỤC TỪ VIẾT TẮT ............................................................................................... ix
MỞ ĐẦU

................................................................................................................. 1

1. Tính cấp thiết của luận văn .....................................................................................1
2. Mục tiêu của luận văn .............................................................................................2

3. Cấu trúc của luận văn ..............................................................................................2
CHƯƠNG 1

TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D ....................3

1.1

Khái niệm về phân đoạn ảnh: .................................................................. 3

1.1.1

Phân đoạn ngữ nghĩa (Semantic Segmentation): .................................... 4

1.1.2

Phân đoạn cá thể (Instance Segmentation): ............................................ 5

1.1.3

Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation): .................. 6

1.2

Lịch sử phát triển của phân đoạn ảnh: .................................................... 6

1.2.1

Phương pháp dựa trên khu vực (Region-based Methods):...................... 7

1.2.2

Phương pháp phân loại (Classification methods): ................................ 10

1.2.3

Phương pháp phân cụm (Clustering methods): ..................................... 13

1.2.4

Phương pháp lai (Hybrid Methods): ..................................................... 18

1.2.5

Phương pháp sử dụng Các mơ hình đường viền hoạt động (Active
Contour Models): .................................................................................. 19

1.3

Phân đoạn ảnh y sinh 2D: ..................................................................... 25

1.4

Lịch sử nghiên cứu phân đoạn ảnh y sinh 2D: ...................................... 26

CHƯƠNG 2

MẠNG THẦN KINH HỌC SÂU VÀ MẠNG THẦN KINH HỌC
SÂU U-NET .................................................................................28

2.1

Khái niệm mạng thần kinh học sâu : ..................................................... 28

2.2

Lịch sử phát triển của mạng thần kinh học sâu: .................................... 30

2.3

Các lĩnh vực ứng dụng của mạng thần kinh học sâu :........................... 34

2.4

Kiến trúc mạng thần kinh học sâu U-Net : ............................................ 37

2.5

Các thành phần của kiến trúc mạng thần kinh học sâu U-Net : ............ 39

2.5.1

Encoder ................................................................................................. 39

iv

2.5.2

Decoder ................................................................................................. 42

2.5.3

Bridge .................................................................................................... 50

2.6

Các nghiên cứu về kiến trúc mạng U-Net: ............................................ 50

CHƯƠNG 3

ỨNG DỤNG MẠNG THẦN KINH HỌC SÂU U-NET PHÂN
ĐOẠN CẤU TRÚC TẾ BÀO THẦN KINH ...............................53

3.1

Hiện thực mơ hình:................................................................................ 53

3.1.1

Mơ hình kiến trúc mạng U-Net: ............................................................ 53

3.1.2

Hiện thực mợt số mơ hình cải tiến của kiến trúc mạng U-Net:............. 56

3.2

Bộ dữ liệu đào tạo được sử dụng: ......................................................... 57

3.3

Đào tạo và kiểm thử mơ hình: ............................................................... 59

3.3.1

Đào tạo: ................................................................................................. 59

3.3.2

Kiểm thử mơ hình: ................................................................................ 60

3.4

Hàm mát mát (Loss Function) .............................................................. 61

3.4.1

Định nghĩa: ............................................................................................ 61

3.4.2

So sánh kết quả hàm mất mát của các mơ hình sau đào tạo: ................ 62

3.5

Đề x́t mơ hình kiến trúc mạng W-Net: .............................................. 64

3.6

Phương pháp đánh giá mơ hình (Evaluation Metrics) .......................... 71

3.7

Thực nghiệm và so sánh kết quả: .......................................................... 72

KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 75

TÀI LIỆU THAM KHẢO .........................................................................................76
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN .........................................................80

v

DANH MỤC HÌNH ẢNH
Hình 1.1

Kết quả đầu ra của thuật tốn Phân đoạn ảnh

3

Hình 1.2

Kết quả của Phân đoạn ngữ nghĩa (Semantic Segmentation)

4

Hình 1.3

Sự khác nhau giữa Object Detection, Semantic Segmentation và

5

Instance Segmentation.
Hình 1.4

Phân đoạn cá thể (Instance Segmentation)

5

Hình 1.5

Phân đoạn Panoptic Segmentation.

6

Hình 1.6

Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn,

8

bên phải là biểu đồ Histogram của ảnh cần phân đoạn.
Hình 1.7

[5] minh họa Phân đoạn ảnh chất xám

10

Hình 1.8

Minh hoạ kỹ thuật phân loại K-nearest neighbors.

11

Hình 1.9

Minh hoạ kỹ thuật phân loại K-means

15

Hình 1.10 Quy trình của thuật tốn lai được [6] đề x́t.

19

Hình 1.11 Phân đoạn ảnh CT não bằng cách sử dụng các đường viền hoạt

20

đợng
Hình 1.12 Đường cong đóng và mở

20

Hình 1.13 Mô tả cách thức hoạt động của các đường viền hoạt đợng.

25

Hình 2.1

Mối quan hệ giữa học sâu, học máy và trí tuệ nhân tạo

28

Hình 2.2

Mức đợ trừu tượng tăng dần qua các tầng học của học sâu

29

Hình 2.3

Hình ảnh mạng Học sâu tạo ra

30

Hình 2.4

Lịch sử phát triển của mạng thần kinh học sâu

31

Hình 2.5

Kiến trúc mạng Perceptron đơn giản của [15]

31

Hình 2.6

Kết quả ILSVRC qua các năm

34

Hình 2.7

Kiến trúc mạng U-Net của [13]

38

Hình 2.8

Minh họa hoạt đợng tích chập

40

Hình 2.9

Minh hoạt đợng gợp

41

Hình 2.10 Minh họa các bước thực hiện phép tích chập thơng thường

43

Hình 2.11 Minh họa các bước thực hiện phép tích chập chuyển vị

44

Hình 2.12 Minh họa hoạt đợng tích chập

44

vi

Hình 2.13 Kernels 3x3

45

Hình 2.14 Minh họa việc sắp xếp lại kernels 3x3 thành ma trận 4x16 với

45

các phần đệm là số 0.
Hình 2.15 Cách sắp xếp lại kernels 3x3 thành ma trận 4x16 với các phần

46

đệm là số 0.
Hình 2.16 Định dạng ma trận đầu vào 4x4 thành một vectơ cợt 16x1

46

Hình 2.17 Thực hiện phép nhân ma trận tích chập 4x16 với ma trận đầu

47

vào 16x1
Hình 2.18 Kết quả đầu ra sau khi định dạng lại ma trận từ 4x1 thành 2x2

47

Hình 2.19 Phép nhân ma trận tích chập 4x16 với ma trận đầu vào 16x1

49

Hình 2.20 Kết quả đầu ra sau khi định dạng lại ma trận từ 16x1 thành 4x4

49

Hình 3.1

Kiến trúc mạng U-Net

55

Hình 3.2

Kiến trúc mạng ResNeXt-Unet

56

Hình 3.3

Kiến trúc mạng Dense-Unet

56

Hình 3.4

Kiến trúc mạng Res-Unet

57

Hình 3.5

Bợ hình ảnh đào tạo

58

Hình 3.6

Bợ mặt nạ (mask) đào tạo

59

Hình 3.7

Kết quả phân đoạn của các mơ hình sau đào tạo 10.000 Step

63

Hình 3.8

Kiến trúc khối Residual của [31]

65

Hình 3.9

(a): kiến trúc của khối Residual cải tiến; (b) hiện thực khối

65

Residual cải tiến
Hình 3.10 Kiến trúc của nhánh V thứ nhất

65

Hình 3.11 Kiến trúc mạng W-Net

69

Hình 3.12 (a) kiến trúc của khối Residual

vii

(b) kiến trúc của khối Unet

70

DANH MỤC BẢNG BIỂU
Bảng 3.1

Mô tả chi tiết kiến trúc mạng U-Net

54

Bảng 3.2

Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau

62

đào tạo 1.000 Step
Bảng 3.3

Bảng 3.2 So sánh kết quả hàm mất mát của các mơ hình sau

62

đào tạo 10.000 Step
Bảng 3.4

Mơ tả chi tiết của kiến trúc của nhánh V thứ nhất

66

Bảng 3.5

Mô tả chi tiết của kiến trúc mạng W-Net

67

Bảng 3.6

Ghi nhận kết so sánh 1, mơ hình U-Net và mơ hình W-Net

73

Bảng 3.7

Ghi nhận kết so sánh 2, mơ hình U-Net và mơ hình W-Net

73

Bảng 3.8

Bảng ghi nhận số liệu đánh giá kết quả điểm V
của Thử thách ISBI 2012.

viii

Rand

và V

Info

74

DANH MỤC TỪ VIẾT TẮT
(Xếp theo thứ tự A, B, C của chữ cái đầu viết tắt)
ĐHCN

Đại học Công nghiệp

IEEE

Institute of Electrical and Electronics Engineers

ILSVRC

ImageNet Large Scale Visual Recognition Challenge

ISBI

International Symposium on Biomedical Imaging

KNN

K-nearest neighbors

LVThS

Luận văn Thạc sĩ

ix

MỞ ĐẦU
1. Tính cấp thiết của luận văn
Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision). Đó là q trình phân chia các pixel của một ảnh số thành
các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu chính của phân đoạn ảnh
thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ diễn giải, dễ phân tích và
dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt các bài tốn về thị giác

máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh giới, xử lý hình ảnh y sinh.
Về cơ bản, các tác vụ này được thực hiện bằng cách gán từng pixel trong ảnh cho một
nhãn nhất định dựa trên các tḥc tính tương tự, chẳng hạn như: kết cấu, màu sắc,
cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh là mợt tập hợp các đoạn ảnh
có thể tạo ra được tồn vẹn bức ảnh đó.
Học sâu (Deep Learning) là một nhánh đặc biệt của ngành Học máy, sử dụng các kiến
trúc mạng lưới thần kinh nhân tạo với nhiều lớp ẩn. Các mạng thần kinh được huấn
luyện theo kỹ thuật học sâu còn được gọi với cái tên khác là mạng thần kinh học sâu
hay mạng nơ-ron sâu (Deep Neural Network) do cách thức hoạt động của chúng.
Mạng thần kinh Học sâu U-Net (mạng U-Net) là một trong những mạng thần kinh
Học sâu đầu tiên được thiết kế riêng cho phân tích hình ảnh y sinh. Mạng U-Net về
cơ bản được xây dựng nhằm giải quyết hai vấn đề cụ thể đối với lĩnh vực phân đoạn
ảnh y sinh là: Đầu tiên là việc thiếu bộ dữ liệu đào tạo lớn trong lĩnh vực này. Mục
tiêu của kiến trúc này là tạo ra kết quả phân đoạn tốt hơn với số lượng dữ liệu đào tạo
tương đối ít. Các mạng thần kinh Học sâu truyền thống có mợt số lượng lớn các tham
số để tìm hiểu, do đó thường địi hỏi các bợ dữ liệu đào tạo phải lớn. Trong trường
hợp phân đoạn hình ảnh y sinh, mơ hình cần tối đa hóa thơng tin học được từ mỗi ví
dụ. Vấn đề thứ hai mà kiến trúc mạng U-Net đã khắc phục là nắm bắt chính xác bối
cảnh và khoanh vùng các đối tượng ở những kích thước, độ phân giải khác nhau .

1

2. Mục tiêu của luận văn
Do hạn chế trong thời gian thực hiện nghiên cứu, luận văn trước hết tìm hiểu các
phương pháp Phân đoạn ảnh, nhất là phân đoạn ảnh y sinh 2D. Tiếp đến là tập trung
nghiên cứu và hiện thực mơ hình mạng U-Net với bài tốn phân đoạn cấu trúc tế bào
thần kinh, qua đó rút ra được cách thức hoạt động, cách tinh chỉnh các tham số của
kiến trúc mạng U-Net để làm nền tảng cho việc cải tiến mạng U-Net.
3. Cấu trúc của luận văn

Dựa trên mục tiêu cụ thể đã trình bày trong phần trước, luận văn được tổ chức thành
ba chương với các nội dung cụ thể như sau:
Chương 1: Tổng quan về phân đoạn ảnh y sinh 2d
Chương 2: Mạng thần kinh học sâu và mạng thần kinh học sâu u-net
Chương 3: Ứng dụng mạng thần kinh học sâu u-net phân đoạn cấu trúc tế bào thần
kinh.

2

CHƯƠNG 1
1.1

TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH Y SINH 2D

Khái niệm về phân đoạn ảnh:

Phân đoạn ảnh (Image Segmentation) là một kỹ thuật nổi bật trong lĩnh vực thị giác
máy tính (Computer Vision), kỹ thuật này thực hiện trích xuất vùng quan tâm trong
ảnh thơng qua quy trình tự đợng hoặc bán tự đợng. Nó là mợt q trình phân chia các
pixel của một ảnh số thành các vùng khác nhau tḥc các lớp khác nhau. Mục tiêu
chính của phân đoạn ảnh thường là đơn giản hóa việc thể hiện hình ảnh sao cho dễ
diễn giải, dễ phân tích và dễ hiểu hơn. Phân đoạn ảnh đã được sử dụng trong mợt loạt
các bài tốn về thị giác máy tính chẳng hạn như: định vị đối tượng, phát hiện ranh
giới, xử lý hình ảnh y sinh. Về cơ bản, các tác vụ này được thực hiện bằng cách gán
từng pixel trong ảnh cho một nhãn nhất định dựa trên các tḥc tính tương tự, chẳng
hạn như: kết cấu, màu sắc, cường độ hoặc khoảng cách. Kết quả của phân đoạn ảnh
là mợt tập hợp các đoạn ảnh có thể tạo ra được tồn vẹn bức ảnh đó.
Mợt thuật tốn phân đoạn ảnh lấy mợt hình ảnh làm đầu vào và đầu ra là một tập hợp
các vùng (hoặc phân đoạn) có thể được biểu diễn dưới dạng mợt tập hợp các đường

viền hoặc mợt mặt nạ "mask" (có thể là thang đợ xám hoặc màu) trong đó mỗi phân
đoạn được gán một giá trị màu hoặc màu xám duy nhất để xác định nó.

Hình 1.1 Kết quả đầu ra của thuật toán Phân đoạn ảnh

3

Về cơ bản phân đoạn ảnh được tạm chia thành 03 kỹ thuật cơ bản gồm: Semantic
Segmentation; Instance Segmentation; Panoptic Segmentation.
1.1.1 Phân đoạn ngữ nghĩa (Semantic Segmentation):
Phân đoạn ngữ nghĩa (Semantic Segmentation) mục tiêu chính là gán nhãn (ơ tơ, tòa
nhà, người, đường, vỉa hè, bầu trời, cây cối, v.v… ) cho mỗi pixel trong ảnh. Có thể
nói, với Phân đoạn ngữ nghĩa, ta có thể kiểm tra lớp cho từng pixel bằng cách kiểm
tra màu mặt nạ của pixel đó.
Về cơ chế, phân đoạn ngữ nghĩa có thể được hiểu như việc phân loại hình ảnh ở mức
pixel. Mợt số ứng dụng chính của nó là ứng dụng trong các phương tiện tự động,
tương tác giữa người và máy tính, robot, các cơng cụ chỉnh sửa / sáng tạo ảnh, trong
lĩnh vực xử lý ảnh y sinh ... Ví dụ, phân đoạn ngữ nghĩa là rất quan trọng trong xe hơi
tự lái và robot vì nó giúp các mơ hình phải hiểu bối cảnh trong mơi trường mà chúng
đang hoạt đợng.

Hình 1.2 Phân đoạn ngữ nghĩa (Semantic Segmentation).

Lớp người trong mặt nạ được thể hiện bằng các pixel màu đỏ; Lớp cỏ có màu xanh
lá cây nhạt; Lớp cây cối được mã hóa màu xanh lá cây đậm và lớp bầu trời được mã
hóa màu xanh lam.

4

1.1.2 Phân đoạn cá thể (Instance Segmentation):
Phân đoạn cá thể (Instance Segmentation) là một khái niệm liên quan chặt chẽ đến
Phát hiện đối tượng (Object Detection).

Hình 1.3 Sự khác nhau giữa Object Detection, Semantic Segmentation và Instance
Segmentation.

Tuy nhiên, không giống như Phát hiện đối tượng, kết quả đầu ra là mặt nạ (hoặc
đường viền) có chứa đối tượng đó và cũng không giống như Phân đoạn ngữ nghĩa,
Phân đoạn cá thể không gắn nhãn cho mọi pixel trong ảnh, Phân đoạn cá thể chỉ quan
tâm đến việc tìm ra ranh giới của các đối tượng cụ thể.

Hình 1.4 Phân đoạn cá thể (Instance Segmentation)

Kết quả đầu ra của thuật toán Phân đoạn cá thể được gọi là Mask R-CNN. Ta thấy
mặt nạ của lớp người có nhiều màu khác nhau để ta có thể phân biệt từng người trong
cùng lớp người. Tuy nhiên, không phải pixel nào cũng được gắn nhãn lớp.

5

1.1.3 Sự kết hợp giữa 2 loại phân đoạn (Panoptic Segmentation):
Panoptic Segmentation là sự kết hợp của Phân đoạn ngữ nghĩa và Phân đoạn cá thể.
Mỗi pixel được gán một lớp khác nhau và nếu có nhiều cá thể của mợt lớp, chúng ta
có thể biết pixel nào tḥc về cá thể nào của lớp đó.

Hình 1.5 Phân đoạn Panoptic Segmentation.

Ví dụ, bầu trời được mã hóa màu xanh lam, cây cối được mã hóa màu xanh lá cây

đậm, cỏ được mã hóa màu xanh lá cây nhạt, và mọi người được tơ màu khác nhau
như vàng, đỏ và tím. Cả hai màu vàng và đỏ đều mã hóa cho cùng một lớp người
nhưng thể hiện các cá thể khác nhau của cùng mợt lớp. Chúng ta có thể phân biệt
những người khác nhau bằng cách nhìn vào màu mặt nạ.
1.2

Lịch sử phát triển của phân đoạn ảnh:

Nhiệm vụ của phân đoạn ảnh là phát hiện đối tượng cần quan tâm trong mợt hình ảnh
thơng qua việc phân loại từng pixel ảnh xem nó tḥc đối tượng cần quan tâm hay
thuộc nền (phân loại nhị phân). Trước các phương pháp Học sâu, có năm phương
pháp phân đoạn hình ảnh nổi bật nhất, đó là: phương pháp dựa trên khu vực (Regionbased Methods), phương pháp phân loại (Classification Methods), phương pháp phân
cụm (Clustering Methods) và phương pháp lai (Hybrid Methods), như trình bày của
[1] và cuối cùng là các mơ hình đường hoạt động (Active Contour Models) của [2].
Đối với mỗi phương pháp, luận văn sẽ mơ tả thuật tốn, tiếp theo là ưu điểm và nhược
điểm của nó.

6

1.2.1 Phương pháp dựa trên khu vực (Region-based Methods):
Phương pháp dựa trên khu vực có hai kỹ thuật chính là: Phân ngưỡng (Thresholding)
và Phát triển theo khu vực (Region Growing).
 Phân ngưỡng (Thresholding) theo [3] là một cách tiếp cận phân đoạn ảnh đơn
giản nhất, kỹ thuật này phân chia hình ảnh thành các phân đoạn khác nhau dựa trên
ngưỡng cường đợ của các pixel trong ảnh. Nói cách khác, kỹ thuật này lấy mỗi pixel
trong ảnh so sánh với ngưỡng: nếu giá trị của nó cao hơn ngưỡng, pixel đó được coi
là tiền cảnh (foreground) và được đặt thành màu trắng, cịn nếu nó nhỏ hơn hoặc bằng
ngưỡng thì nó được coi là nền (background) và đặt thành màu đen. Quy luật của thuật
toán như sau:

g(x, y) = 0 when f(x, y) > K and = 1 when f(x, y) ≤ K

(1-1)

Trong đó g(x, y) là giá trị kết quả phân đoạn tại điểm ảnh có tọa đợ (x, y); f(x, y) là
giá trị cường độ điểm ảnh (x, y); K là ngưỡng. Nếu ta sử dụng một K duy nhất cho
tồn bợ bức ảnh, có nghĩa là cơng thức trên áp dụng cho tồn ảnh trong q trình phân
đoạn thì ta gọi đó là cách dùng ngưỡng tồn cục (Global Thresholding), ngược lại
nếu ta sử dụng ngưỡng khác nhau tùy theo từng vùng (Region) trong ảnh, K biến
thiên theo từng vị trí khác nhau và được tính tốn lại tại từng vùng ảnh, có nghĩa là
cơng thức trên áp dụng cho từng vùng cục bộ của ảnh với K thay đổi thì đó gọi là
phương pháp dùng ngưỡng cục bộ (Local Thresholding).
Sự thành công của kỹ thuật này phụ thuộc rất nhiều vào việc làm thế nào lựa chọn
được mợt ngưỡng K thích hợp. Bên cạnh đó, kỹ thuật này rất kém hiệu quả với hình
ảnh bị nhiễu, hình ảnh có đợ tương phản kém.

7

Hình 1.6 Minh hoạ kỹ thuật Phân ngưỡng, bên trái là ảnh cần phân đoạn, bên phải là biểu
đồ Histogram của ảnh cần phân đoạn.

Các kỹ thuật tìm ngưỡng tồn cục tinh vi hơn được phát triển với ý tưởng thực hiện
việc tính ngưỡng mợt cách tự đợng dựa vào giá trị điểm ảnh của ảnh đầu vào nhằm
thay thế cho việc sử dụng ngưỡng cố định theo phương pháp sơ khai. Mợt trong các
thuật tốn tiêu biểu được phát triển đó là thuật tốn phân ngưỡng Otsu được giới thiệu
bởi [4].
Trước tiên, tác giả xét biểu đồ Histogram chuẩn hóa dựa trên hàm mật đợ (PDF –
Probability density function) theo công thức:
pr (rq ) =

nq
n

q = 0,1,2, … . , L − 1

(1-2)

trong đó: n - tổng số pixel trên ảnh;
nq - tổng số pixel có mức đợ xám rq;
L - tổng số ngưỡng độ xám trên ảnh;
Giả sử có ngưỡng K được chọn sao cho C0 là tập hợp các pixel có ngưỡng từ
[0,1,…,K-1] và C1 là tập hợp các pixel có ngưỡng từ [K,K+1,…,L-1]. Phương pháp
2
Otsu lần lượt duyệt K trong khoản [0,255] và chọn ra K sao cho độ lệch chuẩn  B
2
giữa các lớp là lớn nhất. Độ lệch chuẩn  B được xác định theo công thức:

8

σ2B = ω0 (μ0 − μT )2 + ω1 (μ1 − μT )2

(1-3)

trong đó:
k−1

ω0 = ∑

L−1

pq (rq ) ; ω1 = ∑

q=0

q=k

k−1

μ0 = ∑

pq (rq )
L−1

qpq (rq ) /ω0 ; μ1 = ∑

q=0

q=k

qpq (rq ) /ω1

L−1

μT = ∑

qpq (rq )

q=0

 Phát triển theo khu vực (Region Growing) là một kỹ thuật phân đoạn tinh vi hơn
Phân ngưỡng, được [5] mô tả như mợt q trình nhóm các pixel hoặc các vùng nhỏ
vào một vùng lớn hơn dựa trên các tiêu chuẩn đã định trước. Kỹ thuật này bắt đầu từ
các điểm hạt giống (seed) và từ đó mở rợng vùng tìm kiếm phụ tḥc vào các điểm
lân cận có cùng đặc điểm với điểm hạt giống. Ví dụ như cùng mức độ xám, công thức
(1-4) mô tả kỹ thuật Phát triển theo khu vực dựa vào giá trị độ xám của các điểm hạt
giống và của pixel đang xét. Xét cơng thức (1-4) thì pixel Ri sẽ được chọn vào vùng
P nếu thỏa mãn điều kiện là giá trị tuyệt đối của hiệu giá trị độ xám của pixel Ri và
giá trị độ xám của điểm hạt giống nhỏ hơn một ngưỡng T được lựa chọn.
P(R i ) = True: if|z − zseed | < T

(1-4)

Đặc điểm của kỹ thuật Phát triển theo khu vực phụ thuộc vào thông số để kết thúc
q trình tìm kiếm trong vùng. Thơng thường, mợt vùng sẽ được dừng khi khơng có
pixel thỏa mãn tiêu chuẩn của vùng đó. Việc lựa chọn các tiêu chuẩn tương đồng phụ
thuộc đặc điểm của đối tượng cần xét trên ảnh và loại dữ liệu ảnh. Tiêu chuẩn có thể
bao gồm giá trị cường đợ xám, đặc điểm cấu trúc hoặc chỉ số thống kê và không tiến
hành tính tốn lại các pixel đã tính trong vùng. Việc lựa chọn tiêu chuẩn chính xác sẽ
làm tăng khả năng xác định của thuật tốn nở vùng cả về kích thước của vùng xét và
hình dạng của vùng.

9

Hạn chế rõ ràng nhất của phương pháp này là nó phụ tḥc rất nhiều vào việc lựa
chọn hạt giống và tiêu chuẩn vùng của người dùng. Việc phụ thuộc vào tương tác của
con người thường dẫn đến khả năng xảy ra lỗi cao và kết quả sẽ khác nhau từ những
người dùng khác nhau. Mặc khác, thuật này đòi hỏi chi phí tính tốn lớn với ảnh có

đợ phân giải cao và làm việc khơng tốt với hình ảnh bị nhiễu, hình ảnh có đợ tương
phản kém.

Hình 1.7 [5] minh họa Phân đoạn ảnh chất xám

1.2.2 Phương pháp phân loại (Classification methods):
Kỹ thuật K-nearest neighbors (KNN) và kỹ thuật Maximum Likelihood (ML) là hai
phương pháp phân loại đơn giản, nổi bật nhất trước khi có sự xuất hiện của các
phương pháp Học sâu.
 Kỹ thuật KNN là một trong những thuật tốn Học có giám sát (Supervisedlearning) đơn giản nhất của lĩnh vực Học máy (Machine Learning). Khi bắt đầu học
(Training), thuật tốn này khơng học mợt điều gì từ tập dữ liệu học tập (Training Set),
mọi tính tốn được thực hiện khi nó cần dự đốn Nhãn (Label) của một điểm dữ liệu

10

mới (Query Point). Nhãn này sẽ được suy ra trực tiếp thông qua việc quyết định bằng
số phiếu (Major voting) của K điểm dữ liệu gần nó nhất trong tập dữ liệu đào tạo,
hoặc nó có thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểm trong
các điểm gần nó nhất và từ đó suy ra nhãn.
Kỹ thuật KNN được mô tả như sau:
Bước 1: Xác định giá trị tham số K (số láng giềng gần nhất).
Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất cả các
đối tượng trong Training Set (thường sử dụng khoảng các Euclidean).
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K lân cận gần nhất
với Query Point.
Bước 4: Lấy tất cả các lớp của K lân cận gần nhất đã xác định.
Bước 5: Dựa vào phần lớn lớp của K lân cận gần nhất (Major voting) để xác định lớp
cho Query Point.
Ưu điểm của Kỹ thuật KNN là: Thuật toán đơn giản nên dễ dàng triển khai; Đợ phức

tạp tính toán nhỏ; Xử lý tốt với tập dữ liệu nhiễu. Tuy nhiên, kỹ thuật này cũng mang
nhiều nhược điểm như: Với K nhỏ dễ gặp nhiễu dẫn tới kết quả đưa ra khơng chính
xác; Cần nhiều thời gian để thực hiện do phải tính tốn khoảng cách với tất cả các đối
tượng trong tập dữ liệu; Cần chuyển đổi kiểu dữ liệu thành các yếu tố định tính.

Hình 1.8 Minh hoạ kỹ thuật phân loại K-nearest neighbors.

11

Mẫu thử (chấm màu xanh lá cây) phải được phân loại thành hình vng màu xanh
hoặc hình tam giác màu đỏ. Nếu k = 3 (đường trịn liền) thì nó được gán cho các tam
giác màu đỏ vì có 2 hình tam giác và chỉ có 1 hình vng bên trong vòng tròn bên
trong. Nếu k = 5 (vòng tròn đường đứt nét), nó được gán cho hình vng màu xanh
(3 hình vng so với 2 hình tam giác bên trong vịng trịn bên ngồi).
 Kỹ thuật Maximum Likelihood giả định rằng số liệu thống kê cho từng phân lớp
của các pixel trong mỗi ảnh thường được xác định. Thuật tốn này sẽ tính xác śt
mợt pixel nhất định tḥc về mợt phân lớp cụ thể nào đó. Mỗi pixel sẽ được gán cho
lớp có xác suất cao nhất (nghĩa là khả năng ước lượng hợp lý cực đại xem pixel sẽ
thuộc về phần lớp nào).
Ý tưởng của kỹ thuật Maximum Likelihood:
Giả định ta có số liệu thống kê cho từng phân lớp của các pixel trong ảnh là
x1 , x2 ,…, xN . Giả định thêm rằng xác xuất phân lớp của tất cả các pixel trong ảnh
tuân theo một phân phối được mô tả bởi bộ tham số θ. Kỹ thuật Maximum Likelihood
là việc đi tìm bợ tham số θ sao cho xác suất sau đây đạt giá trị lớn nhất:
θ = argmax p(x1 , … . , xN |θ)
θ

(1-5)

Giả định rằng ta đã biết mơ hình và mơ hình này được mơ tả bởi bợ tham số θ. Thế
nên, p(x1 |θ) chính là xác suất xảy ra việc phân pixel cụ thể vào phân lớp x1 biết rằng
mơ hình là (được mơ tả bởi) θ (đây là mợt xác x́t có điều kiện). Và p(x1 , … . , xN |θ)
chính là xác śt để tồn bợ các pixel được phân vào các lớp x1 , x2 … . , xN xảy ra
đồng thời (nó là mợt xác suất hợp), xác suất đồng thời này còn được gọi là likelihood.
Ở đây, likelihood chính là hàm mục tiêu.
Bởi vì sự đã rồi, tức dữ liệu training set bản thân nó đã là như thế rồi, xác suất đồng
thời này cần phải càng cao càng tốt. Việc này cũng giống như việc đã biết kết quả, và
ta cần đi tìm nguyên nhân sao cho xác suất xảy ra kết quả này càng cao càng tốt. Kỹ
thuật Maximum Likelihood chính là việc đi tìm bợ tham số θ sao cho likelihood là
lớn nhất.

12

Các Phương pháp phân loại nói chung thường có ưu điểm là thuật tốn đơn giản, mơ
hình dễ đào tạo. Tuy nhiên, nhược điểm lớn nhất của các phương pháp này là thường
đòi hỏi tập dữ liệu đào tạo rất lớn và tốc đợ xử lý của thuật tốn cũng sẽ chậm dần
theo độ lớn của tập dữ liệu đào.
1.2.3 Phương pháp phân cụm (Clustering methods):
Phương pháp phân cụm cố gắng giảm thiểu các vấn đề nhược điểm của phương pháp
phân loại, chúng không yêu cầu tập dữ liệu đào tạo quá lớn. Các phương pháp phân
cụm sử dụng phân tích xác suất thống kê để hiểu các xác suất phân phối để biểu diễn
dữ liệu và do đó, chúng được coi là phương pháp học tập không giám sát
(Unsupervised-learning). Một số kỹ thuật của phương pháp phân cụm bao gồm: KMeans, Fuzzy C-mean và Thuật toán Expectation Maximization (EM) [1].
 Tiêu biểu cho phương pháp phân cụm là kỹ thuật K-Means. Kỹ thuật này dựa
trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm. Trong thực tế, nó đo
khoảng cách tới giá trị trung bình của các đối tượng dữ liệu trong cụm. Nó được xem
như là trọng tâm của cụm.
Mục đích của thuật tốn K-Means là sinh k cụm dữ liệu {C1 , C2 ,..., CK } từ một tập dữ

liệu chứa n đối tượng trong không gian d chiều X i = {xi1 , xi2 ,..., xid }, i = 1 ÷ n sao
cho hàm tiêu chuẩn:
n

E= ∑
i=1

(1-6)

∑ D2 (xi − cj )
xi ϵCj

đạt giá trị tối thiểu.
Trong đó: cj là trọng tâm của cụm Cj , D là khoảng cách giữa hai đối tượng.
Thuật tốn K-Means được mơ tả như sau:
Bước 1: Khởi tạo

13

Phân đoạn cấu trúc tế bào thần kinh bằng mạng thần kinh học sâu u net

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về