Tải bản đầy đủ (.pdf) (110 trang)

Phát hiện văn bản ngoại cảnh trong giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.63 MB, 110 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
—————————————

NGUYỄN PHẠM ANH NGUYÊN

PHÁT HIỆN VĂN BẢN NGOẠI CẢNH
TRONG GIAO THƠNG

Chun ngành: Khoa Học Máy Tính
Mã ngành: 8480101

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 07 năm 2023


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM
Cán bộ hướng dẫn khoa học: TS. Nguyễn Quang Hùng . . . . . . . . . . . . . . . . . . . . . . . .
Cán bộ chấm nhận xét 1: TS. Nguyễn Lê Duy Lai . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cán bộ chấm nhận xét 2: PGS. TS. Trần Công Hùng . . . . . . . . . . . . . . . . . . . . . . . . . .
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG, TP. HCM
ngày 13 tháng 07 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS. TS. Trần Văn Hoài
2. Thư ký: TS. Lê Thành Sách
3. Phản biện 1: TS. Nguyễn Lê Duy Lai
4. Phản biện 2: PGS. TS. Trần Công Hùng
5. Ủy viên: PGS. TS. Lê Trung Quân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên


ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KHOA HỌC
VÀ KỸ THUẬT MÁY TÍNH


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Phạm Anh Nguyên

MSHV: 1970020

Ngày, tháng, năm sinh: 04/12/1996

Nơi sinh: Đăk Nơng

Chun ngành: Khoa Học Máy Tính

Mã số : 8480101

I. TÊN ĐỀ TÀI:
- Tiếng Việt: Phát hiện văn bản ngoại cảnh trong giao thông
- Tiếng Anh: Scene text detection for driving videos
II. NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đề xuất một hệ thống dựa trên học sâu có

khả năng phát hiện và xác định vị trí của văn bản trên biển báo giao thơng bằng hình ảnh
và video
III. NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023
V. CÁN BỘ HƯỚNG DẪN: TS. Nguyễn Quang Hùng

Tp. HCM, ngày . . . tháng . . . năm 20 . . .
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)


i
Lời cảm ơn / Lời ngỏ
Tôi xin chân thành cảm ơn các quý thầy cô Trường Đại Học Bách Khoa
đã truyền đạt những kiến thức vô cùng quý báu trong quá trình học tập tại
trường và tạo điều kiện tốt nhất cho tơi hồn thành luận văn. Đặc biệt là sự
hướng dẫn, góp ý tận tình của TS. Nguyễn Quang Hùng, TS. Lê Thành Sách
trong quá trình thực hiện luận văn của tôi.
Xin gửi lời cảm ơn đến những tổ chức, đơn vị, cá nhân đã chia sẻ những
nguồn dữ liệu mà tôi đã sử dụng cho đề tài này.
Bên cạnh đó, xin gửi lời cảm ơn đến tập thể đơn vị Phòng Giải Pháp của
DC5-CADS đã tạo điều kiện tối đa và hỗ trợ rất nhiều để tơi có thể hoàn
thành luận văn này.
Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, người thân và

bạn bè đã luôn quan tâm, động viên tinh thần trong suốt q trình thực hiện
luận văn của tơi.


ii
Tóm tắt nội dung
Với xu hướng tự động hóa đang dần chiếm lĩnh nhiều hoạt động trong đời
sống con người như hiện nay thì việc địi hỏi những hệ thống tự động hóa
mang tính chính xác cao và đáp ứng kịp thời nhu cầu của con người là điều
tất yếu. Cụ thể đối với giao thơng, thì xe tự lái hay những hệ thống tự động
giám sát, phân tích giao thơng đều cần có hệ thống giúp chúng đọc và hiểu
ngữ cảnh giao thông tại một thời điểm để đưa ra quyết định, đó là đề tài mà
tơi đang thực hiện, "Phát hiện văn bản ngoại cảnh trong giao thông" nhằm hỗ
trợ các hệ thống tự động trong giao thông có thể nắm bắt ngữ cảnh nằm trên
các biển báo giao thông. Và với bản báo cáo sau đây, tôi xin trình bày cách
tiếp cận đề tài cũng như quy trình xây dựng hệ thống này.
Tóm tắt nội dung:
• Chương 1: Mở đầu: Lý do chọn đề tài, mục đích, đối tượng và phạm vi
nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu.
• Chương 2: Tổng quan: Phân tích, đánh giá các cơng trình nghiên cứu
đã có của các tác giả trong và ngồi nước liên quan mật thiết đến đề tài;
nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung
nghiên cứu, giải quyết.
• Chương 3: Những nghiên cứu thực nghiệm hoặc lý thuyết: Trình bày
các cơ sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp nghiên
cứu đã được sử dụng trong luận văn.
• Chương 4: Trình bày, đánh giá, bàn luận các kết quả: Trình bày hướng
tiếp cận, các bước xử lý, tiến hành, đánh giá và nhận xét, so sánh.
• Chương 5: Kết luận và kiến nghị những nghiên cứu tiếp theo: Kết
luận lại những điểm mới của luận văn và hướng phát triển.

• Tài liệu tham khảo: Danh mục tài liệu tham khảo.


iii
Abstract
With the current trend of automation gradually dominating many aspects
of human life, the demand for highly accurate and timely responsive automated
systems has become essential. Specifically, in the context of transportation,
self-driving vehicles and automated traffic monitoring and analysis systems
require a capability to read and comprehend the traffic context at a given moment to make informed decisions. This is the subject of my ongoing research:
"Scene Text Detection for Driving Videos" aimed at supporting automated
transportation systems in capturing textual information from traffic signs. In
this report, I present the approach and the process of developing this system.
Abstract:
• Chapter 1: Introduction: The rationale for selecting the research topic,
its objectives, scope of study, scientific significance, and practical implications.
• Chapter 2: Literature Review: Analyzing and evaluating existing research
works by both local and international authors relevant to the topic, identifying persisting issues, and highlighting the specific problems that the thesis
aims to focus on and address.
• Chapter 3: Theoretical or Experimental Research: Presenting the theoretical foundations, conceptual framework, scientific hypotheses, and research methods employed in the thesis.
• Chapter 4: Presentation, Evaluation, and Discussion: Describing the approach taken, the steps involved, and the evaluation and observations made
during the study, along with comparative analyses.
• Chapter 5: Conclusions and Recommendations for Future Research:
Summarizing the novel contributions of the thesis and proposing avenues
for further development.
• References: A list of cited references.


iv
Lời cam đoan

Tôi xin cam đoan luận văn "Phát hiện văn bản ngoại cảnh trong giao thông"
(Scene text detection for driving videos) là do tôi nghiên cứu và phát triển bằng
cách khảo sát và ứng dụng các mơ hình phù hợp với yêu cầu của bài toán để
tạo ra một hệ thống mới có tính ứng dụng cao trong giao thơng và có sự hướng
dẫn của TS. Nguyễn Quang Hùng. Các nguồn tham khảo được công bố rõ ràng
theo quy định. Kết quả nghiên cứu luận văn của tôi được đúc trích từ q trình
làm việc, nghiên cứu và thử nghiệm, khơng sao chép và lấy kết quả từ cơng
trình nghiên cứu khác. Tôi xin chịu trách nhiệm về lời cam đoan này.
Nguyễn Phạm Anh Nguyên


v

Mục lục
Lời cảm ơn / Lời ngỏ

i

Tóm tắt nội dung

ii

Abstract

iii

Lời cam đoan

iv


Danh sách bảng

viii

Danh sách hình vẽ

ix

Chương 1

1

1.1

Mở đầu

Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1.1

Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . .

1

1.1.2

Đối tượng và thách thức chính của đề tài . . . . . . . . . . . .


3

Mục tiêu và phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . . .

6

1.2.1

Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2.2

Phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . . . . . .

6

1.3

Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu . . . . . . . . . .

7

1.4

Đóng góp mới của luận văn . . . . . . . . . . . . . . . . . . . . . . .

7


1.2

Chương 2
2.1

2.2

Tổng quan

9

Text Detection and Recognition in the Wild - A Review [1] . . . . . .

9

2.1.1

Nội dung chính . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.1.2

Thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.3

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Pyramid Mask Text Detector [2] . . . . . . . . . . . . . . . . . . . . 14

2.2.1

Nội dung chính . . . . . . . . . . . . . . . . . . . . . . . . . 14


vi

2.3

2.4

2.2.2

Thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.3

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Real-time Scene Text Detection with Differentiable Binarization [3] . 21
2.3.1

Nội dung chính . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.2

Thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.3


Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

What Is Wrong With Scene Text Recognition Model Comparisons?
Dataset and Model Analysis [4] . . . . . . . . . . . . . . . . . . . . . 27

2.5

2.4.1

Nội dung chính . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.4.2

Thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.3

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

PaddlePaddle [5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1

Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5.2

PP-YOLOE+ [6] . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5.3


PP-OCRv3 [7] . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Chương 3
3.1

3.2

39

Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.1

Mạng nơ ron nhân tạo (ANN) . . . . . . . . . . . . . . . . . 39

3.1.2

Mạng nơ ron tích chập (CNN) . . . . . . . . . . . . . . . . . 45

Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.1

Khảo sát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2.2

Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2.3

Đánh giá các cơng trình liên quan . . . . . . . . . . . . . . . 49


3.2.4

Đề xuất hệ thống mới . . . . . . . . . . . . . . . . . . . . . . 50

3.2.5

Hiện thực, thí nghiệm và cải tiến . . . . . . . . . . . . . . . . 52

3.2.6

Đánh giá và viết báo cáo . . . . . . . . . . . . . . . . . . . . 53

Chương 4
4.1

Những nghiên cứu thực nghiệm hoặc lý thuyết

Trình bày, đánh giá, bàn luận các kết quả

54

Phân tích bài tốn và xác định vấn đề . . . . . . . . . . . . . . . . . . 54


vii
4.2

4.3


4.4

4.5

4.6

Tổng quan dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.1

Vietnam Traffic Signs Dataset (VTSD) [8] . . . . . . . . . . . 57

4.2.2

VinText Dataset [9] . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.3

Zalo AI Challenge - Traffic Sign Detection Dataset [10] . . . . 59

Xây dựng kiến trúc tổng quan và lựa chọn model . . . . . . . . . . . . 60
4.3.1

Tổng quan hệ thống đề xuất . . . . . . . . . . . . . . . . . . . 60

4.3.2

Lựa chọn model . . . . . . . . . . . . . . . . . . . . . . . . . 61

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.1


Vietnam Traffic Signs Dataset (VTSD) [8] . . . . . . . . . . . 66

4.4.2

VinText Dataset [9] . . . . . . . . . . . . . . . . . . . . . . . 70

Huấn luyện và đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.1

Module 1: Phát hiện biển báo giao thông . . . . . . . . . . . . 71

4.5.2

Module 2: Phát hiện văn bản ngoại cảnh . . . . . . . . . . . . 77

4.5.3

Pipeline phát hiện văn bản ngoại cảnh trong giao thông . . . . 80

Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.6.1

Ưu điểm của phương pháp đề xuất . . . . . . . . . . . . . . . 83

4.6.2

Nhược điểm của phương pháp đề xuất . . . . . . . . . . . . . 83

4.6.3


So sánh với các cơng trình hiện nay trong nước . . . . . . . . 83

Chương 5

Kết luận và kiến nghị những nghiên cứu tiếp theo

84

5.1

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.2

Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Tài liệu tham khảo

86

Lý lịch trích ngang

95


viii

Danh sách bảng
2.1


So sánh giữa các bộ dữ liệu cho phát hiện và nhận dạng văn bản ngoại
cảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2

Kết quả tự cài đặt lại mô hình của PMTD [2] và kiểm chứng với hai
tập dữ liệu ICDAR 2015 [11] và ICDAR 2017 MLT [12]. . . . . . . . 20

2.3

Kết quả tự cài đặt và huấn luyện mơ hình tốt nhất (TPS-ResNetBiLSTM-Attn). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1

So sánh End-to-End model và Multi-model system trên một số tiêu chí. 56

4.2

Tỷ lệ tập train và validate cho hai tác vụ phát hiện biển báo giao thông
và phát hiện văn bản ngoại cảnh của tập dataset VTSD [8]. . . . . . . 69

4.3

Tỷ lệ tập train và validate cho tác vụ phát hiện văn bản ngoại cảnh của
tập dataset VinText [9]. . . . . . . . . . . . . . . . . . . . . . . . . . 70


ix


Danh sách hình vẽ
1.1

Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước
văn bản, hướng văn bản và ngôn ngữ. (Ảnh: Sưu tầm) . . . . . . . . .

1.2

4

Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có
thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe,... (Ảnh: Sưu
tầm) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

4

Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do
chuyển động, camera có độ phân giải thấp, góc chụp, khoảng cách
chụp và che khuất hoặc mất một phần văn bản. (Ảnh: Sưu tầm) . . . .

1.4

Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào
khoảng thời gian trong ngày mà độ sáng sẽ khác nhau. (Ảnh: Sưu tầm)

2.1

5

5

Kết quả so sánh sau khi kiểm chứng các phương pháp phát hiện văn
bản ngoại cảnh với ICDAR13 [13], ICDAR15 [11] và COCO-Text [14]
bằng các độ đo Precision (P), Recall (R) và H-mean. [1] . . . . . . . . 12

2.2

Kết quả so sánh tốc độ của các phương pháp phát hiện văn bản ngoại
cảnh. [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3

Kết quả so sánh sau khi kiểm chứng các phương pháp nhận dạng văn
bản ngoại cảnh với IIIT5k [15], SVT [16], ICDAR03 [17], ICDAR13
[13], ICDAR15 [11], SVT-P [18], CUTE80 [19] và COCO-Text [14]
bằng độ đo WRA. [1] . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4

Kết quả so sánh tốc độ của các phương pháp nhận dạng văn bản ngoại
cảnh. [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5

Kiến trúc tổng quan của PMTD. [2] . . . . . . . . . . . . . . . . . . . 15

2.6

Nhãn kim tự tháp (Pyramid label). [2] . . . . . . . . . . . . . . . . . 16


2.7

Trực quan hóa giải thuật gom cụm mặt phẳng (Plane Clustering). [2] . 17

2.8

Mã giả của giải thuật gom cụm mặt phẳng (Plane Clustering). [2] . . . 17


x
2.9

Kết quả so sánh với các phương pháp khác trên tập ICDAR 2013 [13].
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.10 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2015 [11].
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.11 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2017 MLT
[12]. [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.12 Kiến trúc tổng quan của DB. [3] . . . . . . . . . . . . . . . . . . . . 22
2.13 Trực quan hóa q trình sinh nhãn. [3] . . . . . . . . . . . . . . . . . 23
2.14 Kết quả so sánh với các phương pháp khác trên tập Total-Text [20]. [3]

25

2.15 Kết quả so sánh với các phương pháp khác trên tập CTW1500 [21]. [3]

25


2.16 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2015 [11].
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.17 Kết quả so sánh với các phương pháp khác trên tập MSRA-TD500 [22].
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.18 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2017 [12].
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.19 Biểu đồ và bảng biểu diễn sự thay đổi trên hai kiểu đánh đổi giữa các
biển thể của mơ hình. (Trái:Đánh đổi giữa tốc độc và độ chính xác.
Phải: Đánh đổi giữa dung lượng bộ nhớ và độ chính xác.) [4] . . . . . 30
2.20 Bản chỉnh sửa lại màu của hai biểu đồ trên Hình 2.19. [4] . . . . . . . 31
2.21 Kết quả nghiên cứu về 4 bước khi xét đến độ chính xác, tốc độ và dung
lượng bộ nhớ. [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.22 Kiến trúc của PP-YOLOE [6], với backbone là CSPRepResStage, neck
là Path Aggregation Network (PAN) [23] và head là Efficient Taskaligned Head (ET-head). [6] . . . . . . . . . . . . . . . . . . . . . . . 34
2.23 Cấu trúc của RepResBlock và CSPRepResStage. [6] . . . . . . . . . . 34
2.24 So sánh performance trên tập COCO [14] theo mAP và FPS (dạng
graph). [6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35


xi
2.25 So sánh performance trên tập COCO [14] theo mAP và FPS (dạng
bảng). [6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.26 Framework được để xuất của PP-OCRv3 [7], khung màu xanh lá là
những thứ giữ nguyên của PP-OCRv2 [24], khung màu hồng là những
phần được thêm mới, khung màu xám là phần dành cho model tiny. [7] 36
2.27 Framework của CML (Collaborative Mutual Learning). [7] . . . . . . 37
2.28 Sơ đồ cấu trúc của LK-PAN (Large Kernel Path Aggregation Network). [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.29 Sơ đồ cấu trúc của DML (Deep Mutual Learning). [7] . . . . . . . . . 38
2.30 Sơ đồ cấu trúc của RSE-FPN (Residual Squeeze-and-Excitation FPN).
[7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.31 Kết quả thí nghiệm của mơ hình giáo viên và học sinh sau khi áp dụng
những cải tiến mới. [7] . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1

Các thành phần cơ bản của ANN. . . . . . . . . . . . . . . . . . . . . 41

3.2

Quá trình xử lý tại một neuron. . . . . . . . . . . . . . . . . . . . . . 42

3.3

Học có giám sát. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4

Học khơng có giám sát. . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5

Giải thuật lan truyền ngược trên mạng Feedforward. . . . . . . . . . . 45

3.6

Ví dụ về lớp tích chập. . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1

Một số cảnh trong VTSD dataset. [8] . . . . . . . . . . . . . . . . . . 57


4.2

Một vài ví dụ đại diện cho VinText dataset. [9] . . . . . . . . . . . . . 58

4.3

Thống kê các đối tượng chứa văn bản trong VinText dataset, trong đó
biển báo giao thơng chiếm ∼7%. [9] . . . . . . . . . . . . . . . . . . 59

4.4

Một số cảnh trong ZaloAI dataset. [10] . . . . . . . . . . . . . . . . . 60

4.5

Pipeline đề xuất cho đề tài. . . . . . . . . . . . . . . . . . . . . . . . 61

4.6

Cấu trúc của PAN [23] được sử dụng tại PP-YOLOv2 [25]. . . . . . . 63

4.7

Hệ số đầu vào được định nghĩa theo cấu trúc của mơ hình PP-YOLOE+
[6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64


xii
4.8


Ví dụ label cho biển báo giao thơng. . . . . . . . . . . . . . . . . . . 67

4.9

Ví dụ label cho word. . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.10 Ví dụ label cho textline. . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.11 Đại diện cho từng class của biển báo giao thông và tỷ lệ phân bố của
từng class. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.12 Thống kê phân phối kích thước ảnh đầu vào của tập dataset VinText [9]. 70
4.13 Finetune eval graph của model "Phát hiện biển báo giao thông". . . . 71
4.14 Finetune fps graph của model "Phát hiện biển báo giao thông". . . . . 72
4.15 Phát hiện biển báo giao thông - VTSD [8] inference 1. . . . . . . . . . 72
4.16 Phát hiện biển báo giao thông - VTSD [8] inference 2. . . . . . . . . . 73
4.17 Phát hiện biển báo giao thông - VinText [9] inference 1. . . . . . . . . 73
4.18 Phát hiện biển báo giao thông - VinText [9] inference 2. . . . . . . . . 74
4.19 Phát hiện biển báo giao thông - ZaloAI [10] inference 1. . . . . . . . . 74
4.20 Phát hiện biển báo giao thông - ZaloAI [10] inference 2. . . . . . . . . 74
4.21 Cải thiện hiệu suất sau khi finetune bằng bộ dữ liệu mới (đỏ: trước khi
finetune, xanh: sau khi finetune). . . . . . . . . . . . . . . . . . . . . 76
4.22 Phase 1- Finetune eval graph của model "Phát hiện văn bản ngoại
cảnh". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.23 Phase 1 - Finetune fps graph của model "Phát hiện văn bản ngoại cảnh". 78
4.24 Phase 2 - Finetune eval graph của model "Phát hiện văn bản ngoại
cảnh". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.25 Phase 2 - Finetune fps graph của model "Phát hiện văn bản ngoại cảnh". 79
4.26 Inference sample của model phát hiện văn bản ngoại cảnh, test trên
biển báo giao thông. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.27 Pipeline của hệ thống phát hiện văn bản ngoại cảnh trong giao thông. . 81
4.28 Output dạng bảng để trích xuất thơng tin. . . . . . . . . . . . . . . . . 82

4.29 Một số inference sample từ tập dataset ZaloAI [10]. . . . . . . . . . . 82


1

Chương 1
Mở đầu
1.1

Giới thiệu đề tài

Văn bản luôn là một công cụ không thiểu thiếu trong cuộc sống hằng ngày của
con người với vai trị thể hiện thơng tin có thể được hiển thị trên tài liệu hoặc cảnh
vật. Phát hiện và nhận dạng văn bản bằng hình ảnh đã và đang là một chủ đề được
quan tâm trong lĩnh vực thị giác máy tính với nhiều ứng dụng cũng như thách thức
cho các nhà nghiên cứu. Chủ đề này được chia làm hai hướng nghiên cứu dựa vào đối
tượng nghiên cứu, đó là phát hiện và nhận dạng văn bản trên tài liệu in và phát hiện
và nhận dạng văn bản ngoại cảnh (hình ảnh chứa văn bản trong cảnh vật thường ngày
như trên biển báo, biển hiệu, tường, nhà cửa,... có thể bị ảnh hưởng bởi các điều kiện
mơi trường như độ chói, bị che khuất,...). Đề tài này sẽ tập trung vào phát hiện văn
bản ngoại cảnh.

1.1.1

Động cơ nghiên cứu

Trong thời đại ngày nay, khi lượng dữ liệu được sinh ra hằng ngày càng lớn thì việc
tạo ra các phương pháp xử lý dữ liệu một cách hiệu quả là điều đòi hỏi tất yếu để phát
triển xã hội. Đối với chủ đề phát hiện và nhận dạng văn bản ngoại cảnh cũng không
phải ngoại lệ, với nhiều ứng dụng đối với con người thì chủ đề này đã được các nhà

nghiên cứu đề xuất nhiều phương pháp để ngày một tối ưu khả năng của máy móc
trong việc phát hiện và nhận dạng bằng hình ảnh. Tuy nhiên để xử lý một cách tối ưu
thì phải giải quyết tốt các thách thức của chủ đề này.
1.1.1.1

Ứng dụng

Phát hiện và nhận dạng văn bản ngoại cảnh có thể giúp con người ứng dụng trong
nhiều vấn đề như:
• Giúp xe tự lái đọc hiểu biển báo giao thông.


2
• Giúp robot đọc hiểu được văn bản ngoại cảnh.
• Xử lý tự động hóa trong cơng nghiệp.
• Phiên dịch văn bản ngoại cảnh.
• ...
1.1.1.2

Các thách thức

Ngồi các ứng dụng thì vẫn tồn tại một số thách thức làm cho việc phát hiện và
nhận dạng văn bản ngoại cảnh trở nên khó khăn. Các thách thức có thể được chia
thành ba nhóm [1] như sau:
• Đa dạng văn bản: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font,
kích thước văn bản, hướng văn bản và ngơn ngữ.
• Ngoại cảnh phức tạp: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống
văn bản có thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe,...
• Các yếu tố làm biến dạng: Các yếu tố có thể làm biến bạng văn bản ngoại
cảnh như bị mờ do chuyển động, camera có độ phân giải thấp, góc chụp,

khoảng cách chụp và che khuất hoặc mất một phần văn bản.
• Thời gian trong ngày: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng
lớn, vì tùy vào khoảng thời gian trong ngày mà độ sáng sẽ khác nhau.
1.1.1.3

Các nghiên cứu đã có

Để khắc phục các thách thức nêu trên và tối ưu hóa hiệu suất của việc phát hiện
và nhận dạng văn bản ngoại cảnh thì nhiều cơng trình đã được thí nghiệm và đề xuất.
Từ các cơng trình dựa trên các kỹ thuật học máy cổ điển cho tới các kỹ thuật dựa trên
học sâu đã cho thấy sự phát triển của các phương pháp sau này đối với các phương
pháp trước về khả năng phát hiện và nhận diện cũng như giải quyết các vấn đề còn
tồn đọng hay những hạn chế của các cơng trình trước đó. Một số cơng trình nổi bật
gần đây đối với nhiệm vụ phát hiện văn bản ngoại cảnh như PMTD [2], CRAFT [26],
PSENet [27], và đối với nhiệm vụ nhận dạng văn bản ngoại cảnh như CLOVA [4],
ASTER [28], ROSETTA [29].


3

1.1.2

Đối tượng và thách thức chính của đề tài

Tên đề tài ,"Phát hiện văn bản ngoại cảnh trong giao thông", nói lên đối tượng đầu
ra của đề tài là văn bản ngoại cảnh trong giao thông, tức là các văn bản xuất hiện trên
các biển báo giao thông. Đối tượng đầu vào của đề tài là hình ảnh hoặc video (thu
từ camera hành trình) có chứa văn bản ngoại cảnh trong giao thông. Đề tài này nhắm
đến hỗ trợ phát hiện và xác định vị trí của các văn bản ngoại cảnh trên biển báo giao
thơng.

Mặc dù đã có nhiều cơng trình đi trước tạo tiền đề để phát triển thì đề tài này vẫn
gặp phải một số trở ngại khác. Việc có nhiều cơng trình đi trước đồng nghĩa với việc
có nhiều kiến trúc và phương pháp học khác nhau dẫn đến việc chọn lựa kiến trúc
mạng và phương pháp học phù hợp và tối ưu cũng trở nên thách thức. Bởi chúng ta
phải xây dựng lại các công trình trước và so sánh trên các bộ dữ liệu tương đồng để
đánh giá độ tốt của các cơng trình đó nhằm chọn ra các thành phần phù hợp để có thể
dựa vào và phát triển theo đề tài này. Tuy nhiên việc xây dựng lại và đánh giá các cơng
trình trước là một thách thức khi một số cơng trình đã chia sẻ mã nguồn cịn một số
khác thì khơng, bên cạnh đó là thách thức về phần cứng, bởi một số bộ dữ liệu có sẵn
có dung lượng rất lớn vì thế cần khơng gian lưu trữ lớn cũng như phải chuẩn bị một
cấu hình máy tính đủ mạnh (GPU) để có thể giúp q trình huấn luyện trở nên nhanh
chóng hơn. Ngồi ra, các thách thức đã nêu tại 1.1.1.2 đối với đề tài này như sau:
• Đa dạng văn bản:


4

Hình 1.1: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước văn bản,
hướng văn bản và ngơn ngữ. (Ảnh: Sưu tầm)

• Ngoại cảnh phức tạp:

Hình 1.2: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có thể gây nhầm
lẫn như các ký hiệu, biểu tượng, biển số xe,... (Ảnh: Sưu tầm)

• Các yếu tố làm biến dạng:


5


Hình 1.3: Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do chuyển động,
camera có độ phân giải thấp, góc chụp, khoảng cách chụp và che khuất hoặc mất một phần
văn bản. (Ảnh: Sưu tầm)

• Thời gian trong ngày:

Hình 1.4: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào khoảng thời
gian trong ngày mà độ sáng sẽ khác nhau. (Ảnh: Sưu tầm)

Đối với các thách thức trên thì việc tinh chỉnh để có thể xử lý tốt nhiều trở ngại
cũng trở thành vấn đề khi các công trình trước đa số cũng chỉ tập trung giải quyết một
số trở ngại riêng lẻ, bên cạnh đó một số trở ngại lớn (văn bản cong, văn bản nhiều
hướng, văn bản bị che hoặc mất một phần) cũng làm giảm hiệu suất của các cơng
trình trước và hiện vẫn chưa thực sự có phương pháp nào xử lý tốt các trở ngại lớn
trên. Bên cạnh độ chính xác cao thì tốc độ xử lý cũng là một thách thức cần phải giái


6
quyết, bởi nếu áp dụng trong thực tế thì tốc độ xử lý có thể mang tính chất quyết định
(ví dụ như xe tự lái), thách thức ở đây là sự đánh đổi giữa độ phức tạp của hệ thống
và tốc độ xử lý của hệ thống, một hệ thống đơn giản có thể xử lý nhanh tuy nhiên với
kiến trúc đơn giản thì độ chính xác có thể chưa thực sự tốt và ngược lại. Thử thách
lớn nhất vẫn là sự thiếu hụt lượng dữ liệu văn bản ngoại cảnh cho Tiếng Việt đã được
đánh nhãn phù hợp để phục vụ đề tài, vì nếu dữ liệu khơng đủ số lượng, khơng đủ độ
tổng qt thì hệ thống sẽ không thể hoạt động tốt khi hoạt động trên những điểm dữ
liệu mới.
Những thách thức trên là những vấn đề cần phải giải quyết để có thể xây dựng được
một hệ thống đủ tốt cho việc áp dụng vào thực tiễn. Và đó cũng chính là động lực cho
các cơng trình sau này phát triển để khắc phục.


1.2

Mục tiêu và phạm vi nghiên cứu

1.2.1

Mục tiêu

Mục tiêu của đề tài là nghiên cứu đề xuất được một hệ thống dựa trên học sâu có
khả năng phát hiện và xác định vị trí của văn bản trên biển báo giao thơng bằng hình
ảnh và video. Bên cạnh đó đề ra mục tiêu của hệ thống là phải đáp ứng độ chính xác
cao cũng như tốc độ xử lý thời gian thực nhanh chóng.

1.2.2

Phạm vi nghiên cứu

Một số giới hạn của đề tài:
• Dữ liệu cho văn bản ngoại cảnh giao thông của Việt Nam còn hạn chế, dẫn tới
yêu cầu thu thập thêm dữ liệu cũng như gắn nhãn cho dữ liệu để thực hiện đề tài.
• Việc thu thập dữ liệu có thể làm xuất hiện nhiều trường hợp dữ liệu khó như đã
nêu tại 1.1.2, chất lượng dữ liệu thu thập bị phụ thuộc vào chất lượng thiết bị thu
thập, góc nghiêng khi thu thập, các điều kiện mơi trường,...
• Cấu hình phần cứng cũng là một vấn đề đáng quan tâm vì nó ảnh hưởng tới tốc
độ huấn luyện, số thí nghiệm có thể thực hiện và mơi trường ứng dụng trong thực
tiễn.
Qua đó, phạm vi của đề tài này sẽ chỉ nằm trong phạm vi Academic, hệ thống được


7

đề xuất sẽ chỉ phục vụ việc ứng dụng sau khi R&D. Vì nếu để propose thành một
cơng trình mới hoặc deploy thành sản phẩm mới thì sẽ cần phải giải quyết và cải thiện
nhiều giới hạn mà đề tài hiện đang gặp phải, và hiện tại những nguồn lực để thực hiện
việc đó hiện chưa thể đáp ứng.

1.3

Ý nghĩa khoa học và thực tiễn của đề tài nghiên
cứu

Đối với Việt Nam là một đất nước đang phát triển , thì những nghiên cứu, giải pháp
về giao thơng vẫn cịn hạn chế. Đề tài này có tầm quan trọng lớn trong khơng chỉ lĩnh
vực thị giác máy tính nói chung mà cịn đối với đời sống người Việt Nam nói riêng.
Đề tài này mang tính ứng dụng cao và có thể áp dụng vào nhiều khía cạnh trong giao
thơng. Nghiên cứu đề tài này sẽ góp phần thúc đẩy những nghiên cứu tiếp theo hoặc
những nghiên cứu liên quan đến giao thơng của Việt Nam, giúp q trình tham gia
giao thông, giám sát giao thông của người Việt Nam trở nên dễ dàng hơn. Nhiệm vụ
của chúng ta là tiếp thu tinh hoa của các cơng trình nghiên cứu trên Thế giới về áp
dụng, cải thiện vào hoàn cảnh của Việt Nam nhằm mục đích cuối cùng là xây dựng,
phát triển đất nước.

1.4

Đóng góp mới của luận văn

Luận văn này sẽ đề xuất, thử nghiệm và đánh giá một hệ thống mới với tính ứng
dụng cao để giải quyết bài tốn "Phát hiện văn bản ngoại cảnh trong giao thơng" mà
trước đây chưa có cơng trình nào đề xuất. Hệ thống này sẽ là sự kết hợp của các mơ
hình, giải thuật được nghiên cứu, thí nghiệm và kiểm chứng bởi các cơng trình của
Thế giới, có hiệu suất cao trong độ chính xác và tốc độ xử lý. Tạo tiền đề cho việc

phát triển tác vụ "Nhận dạng văn bản ngoại cảnh trong giao thơng" để góp phần hồn
thiện một luồng xử lý hồn chỉnh cho bài tốn cuối cùng là "Phát hiện và nhận dạng
văn bản ngoại cảnh trong giao thơng", đầu ra của bài tốn này sẽ hỗ trợ cho các hệ
thống tự lái, giám sát giao thơng và phân tích giao thơng, nhằm giúp cho việc tham
gia giao thông của con người dễ dàng hơn.


8
Luận văn này sẽ giới thiệu những cơng trình, bộ dữ liệu mang tính ứng dụng cao
trên Thế giới để tạo nguồn tham khảo cho các cơng trình sau này khảo sát và đánh giá
để chọn ra nguồn tham khảo phù hợp cho các bài toán sau này. Và sẽ cung cấp một
dataset mới chuyên dụng cho đề tài thực hiện, nhằm làm phong phú thêm nguồn dữ
liệu cho giao thông Việt Nam.


9

Chương 2
Tổng quan
2.1

Text Detection and Recognition in the Wild - A Review [1]

Cơng trình Text Detection and Recognition in the Wild - A Review [1] được đăng
trên tạp chí CoRR tháng 06 năm 2020.

2.1.1

Nội dung chính


(a) Tổng quan đề tài:
• Phân loại đối tượng:
• Tài liệu in (scanned printed documents).
• Văn bản ngoại cảnh (text in the wild, scene text) (Đối tượng của đề tài).
• Phân loại các thách thức trong phát hiện và nhận diện văn bản ngoại cảnh (đã
được trình bày tại 1.1.1.2).
• Phân loại các phương pháp tiếp cận:
• Dựa trên học máy cổ điển.
• Dựa trên học sâu.
• Mục tiêu của bài báo:
• Chỉ ra sự khác biệt trong các tài liệu bằng:
• Đánh giá các phương pháp tiến bộ gần đây (tập trung vào các phương pháp
học sâu).
• Sử dụng cùng phương pháp đánh giá để đánh giá hiệu năng của một số
phương pháp trên những bộ dữ liệu tiêu chuẩn đầy thách thức.
• Rút ra những điểm thiếu sót của các kỹ thuật hiện hành bằng cách tiến hành
nhiều thí nghiệm để phân tích kết quả.
• Đề xuất các hướng nghiên cứu tiềm năng để thiết kế các mơ hình tốt hơn có


10
khả năng phát hiện và nhận diện văn bản ngoại cảnh dưới nhiều tình huống
bất lợi.
(b) Đánh giá tài liệu vể hướng tiếp cận:
• Đối với phát hiện văn bản ngoại cảnh:
• Các phương pháp dựa trên học máy cổ điển (cửa sổ trượt (Sliding-window),
thành phần liên kết (Connected-component)): Thường chỉ có thể áp dụng với
các văn bản ngang, khơng cho hiệu suất tốt khi áp dụng với văn bản nhiều
hướng và những văn bản kề nhau, dễ bị ảnh hưởng bởi độ chói sáng.
• Các phương pháp dựa trên học sâu (hồi quy hộp giới hạn (Bounding-box

Regression), phân đoạn (Segmentation), hỗn hợp (Hybrid)): Đối với hồi quy
hộp giới hạn thì có thể khơng phát hiện được các văn bản nhiều hướng, đối
với phân đoạn thì có khả năng khơng phân tách được các ký tự liền kề có xu
hướng đè nhau và đối với các phương pháp hỗn hợp (đại diện như PMTD [2])
thì hiệu suất đã cái thiện hơn so với các phương pháp nêu trên, tuy nhiên vẫn
chưa hoạt động tốt với các văn bản cong.
• Đối với nhận dạng văn bản ngoại cảnh:
• Các lớp dùng cho nhận dạng văn bản:
• 10 chữ số.
• 26 ký tự chữ thường trong bảng chữ cái.
• 26 ký tự chữ hoa trong bảng chữ cái.
• 32 ký tự dấu câu ASCII.
• Ký hiệu hết câu (EOS).
• Các phương pháp dựa trên học máy cổ điển (từ dưới lên (Bottom up: nhận
dạng ký tự rồi liên kết thành từ), từ trên xuống (Top down: nhận dạng từ)):
Khó đạt độ chính xác cao khi nhận dạng vì những đặc trưng thủ công không
đủ khả năng biểu diễn cho văn bản ngoại cảnh và đối với phương pháp nhận
dạng từ sẽ thất bại nếu từ nhận dạng khơng nằm trong từ điển.
• Các phương pháp dựa trên học sâu (CTC, Attention): Các phương pháp cũ
sử dụng các bộ rút trích đặc trưng đơn giản kết hợp với bộ dự đốn CTC có


×