Tải bản đầy đủ (.pdf) (74 trang)

Kỹ thuật nhận dạng ký tự in hoa và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.77 MB, 74 trang )

i

LỜI CẢM ƠN
Trước hêt, tơi xin bày tỏ lịng biết ơn sâu sắc đến Thầy PGS TSKH Nguyễn
Xuân Huy, người đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tơi hồn thành luận văn
này.
Tơi xin chân thành cảm ơn các đồng nghiệp tại Trung tâm phát triển hạ tầng
Công nghệ thông tin Đà nẵng đã tạo điều kiện và giúp đỡ tôi trong thời gian tôi làm
luận văn.
Tôi xin chân thành cảm ơn Gia đình, các Thầy Cơ và những Người bạn thân
thiết đã động viên tôi trong những lúc khó khăn.
Mặc dù đã nỗ lực và cố gắng để hoàn thành bài luận văn tốt nghiệp này song
chắc chắn khơng thể tránh khỏi những sai sót. Vì vậy, tôi rất mong được sự chỉ bảo
của các Thầy, Cô giáo để bài luận văn này được hoàn thiện hơn.
Trân trọng cảm ơn!

Lê Minh Hoàng


ii

LỜI CAM ĐOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là trung
thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi sự
giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thơng tin trích dẫn
trong luận văn đã được chỉ rõ nguồn gốc.

Lê Minh Hoàng


iii



MỤC LỤC
Lời cảm ơn ............................................................................................................ ii
Lời cam đoan ....................................................................................................... iii
Mục lục................................................................................................................. iii
Danh mục ký hiệu, chữ viết tắt ........................................................................... vi
Danh mục bảng ................................................................................................... vii
Danh mục hình .................................................................................................. viii
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KÝ TỰ ..................................... 3
1.1 Tổng quan về xử lý ảnh số ................................................................................. 3
1.1.1 Khái niệm ảnh số....................................................................................... 3
1.1.2 Xử lý ảnh số .............................................................................................. 4
1.2 Tổng quan về nhận dạng ký tự quang học .......................................................... 6
1.3 Các thành phần của một hệ thống nhận dạng ký tự ............................................ 8
1.3.1 Quét quang học ......................................................................................... 8
1.3.2 Vị trí và phân đoạn .................................................................................... 9
1.3.3 Tiền xử lý................................................................................................ 10
1.3.4 Trích chọn đặc trưng ............................................................................... 11
1.3.5 Hậu xử lý ............................................................................................... 15
1.3.5.1 Nhóm .............................................................................................. 15
1.3.5.2 Phát hiện ra lỗi và hiệu chỉnh .......................................................... 16
1.4 Một số kỹ thuật và ứng dụng của nhận dạng ký tự ........................................... 16
1.4.1 Nhận dạng theo phương pháp so sánh mẫu .............................................. 16
1.4.2 Nhận dạng cấu trúc chữ ........................................................................... 17
1.4.3 Nhận dạng bằng mạng neural .................................................................. 18
1.4.4 Một số ứng dụng của nhận dạng ký tự ..................................................... 18
1.5 Một số lỗi thường gặp trong một hệ thống OCR .............................................. 20
1.6 Đánh giá về hiệu suất của một hệ thống OCR .................................................. 21
1.7 Tổng kết chương ............................................................................................. 22



iv

CHƯƠNG 2: NHẬN DẠNG KÝ TỰ BẰNG MẠNG NEURAL ....................... 23
2.1 Các khái niệm về mạng neural ......................................................................... 23
2.1.1 Mô hình neural sinh vật ........................................................................... 23
2.1.1.1 Cấu tạo của neural sinh vật.............................................................. 23
2.1.1.2 Hoạt động ....................................................................................... 24
2.1.2 Mơ hình mạng neural nhân tạo ................................................................ 25
2.1.2.1 Các Neural nhân tạo ........................................................................ 25
2.1.2.2 Mạng neural nhân tạo ...................................................................... 27
2.2 Phân loại mạng neural ..................................................................................... 29
2.2.1 Mạng truyền thẳng .................................................................................. 29
2.2.1.1 Mạng truyền thẳng một lớp ............................................................. 29
2.2.1.2 Mạng truyền thẳng nhiều lớp ........................................................... 30
2.2.2 Mạng hồi quy .......................................................................................... 31
2.2.3 Mạng tự tổ chức (Self Origanizing Feature Maps - SOM) ....................... 31
2.2.4 Ứng dụng của mạng neural...................................................................... 32
2.3 Mơ hình học của mạng neural.......................................................................... 33
2.4 Ứng dụng của mạng neural trong việc nhận dạng ký tự ................................... 34
2.4.1 Số hóa ảnh............................................................................................... 34
2.4.2 Mạng neural nhận dạng ký tự .................................................................. 36
2.5 Mô tả mạng neural trong việc nhận dạng ký tự ................................................ 37
2.6 Tổng kết chương ............................................................................................. 38
CHƯƠNG 3: NHẬN DẠNG BIỂN SỐ XE ........................................................ 40
3.1 Tổng quan về hệ thống .................................................................................... 40
3.2 Tiền xử lý ........................................................................................................ 41
3.2.1 Giảm nhiễu.............................................................................................. 41
3.2.2 Chuyển đổi màu ..................................................................................... 43

3.2.3 Phân ngưỡng ........................................................................................... 44
3.3 Phân vùng biển số ........................................................................................... 48
3.3.1 Ảnh tương quan ...................................................................................... 48


v

3.3.2 Phân vùng biển số ................................................................................... 49
3.3.3 Lọc bỏ khung của biển số ........................................................................ 51
3.4 Nhận dạng ký tự .............................................................................................. 52
3.4.1 Tách ký tự ra khỏi biển số ....................................................................... 52
3.4.2 Nhận dạng ký tự ...................................................................................... 54
3.5 Quá trình thực hiện bài tốn nhận dạng............................................................ 58
3.6 Một số trường hợp khơng nhận dạng được ...................................................... 61
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................... 63
TÀI LIỆU THAM KHẢO ................................................................................... 64


vi

DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT

ANN

Artificial Neural Network

ICR

Intelligent Character Recognition


MICR

Magnetic Ink Character Recognition

MLP

Multi-Layer Perceptron

OCR

Optical Character Recognition

OMR

Optical Mark Recognition

SOM

Self Origanizing Feature Maps


vii

DANH MỤC BẢNG
Bảng 1.1

Đánh giá về các trích chọn đặc trưng

Bảng 2.1


Giới thiệu một số hàm kích hoạt cơ bản trong mạng neural

Bảng 3.1

Kết quả thực nghiệm


viii

DANH MỤC HÌNH
Hình 1.1

Các bước trong xử lý ảnh số

Hình 1.2

Các phạm vi khác nhau của nhận dạng ký tự

Hình 1.3

Các thành phần của một hệ thống OCR

Hình 1.4

Các ký hiệu bị suy biến

Hình 1.5

Chuẩn hóa và làm mịn ký tự


Hình 1.6

Ví dụ minh họa về quy vùng

Hình 1.7

Các nét được trích chọn từ các chữ cái F, H và N

Hình 1.8

Các điểm kết thúc, điểm chạc ba

Hình 2.1

Mơ hình neural sinh học

Hình 2.2

Mơ hình neural

Hình 2.3

Mơ hình hóa mơ hình neural

Hình 2.4

Một neural nhân tạo

Hình 2.5


Mơ hình mạng neural nhân tạo

Hình 2.6

Mạng truyền thẳng một lớp

Hình 2.7

Mạng truyền thẳng nhiều lớp

Hình 2.8

Mạng neural hồi quy

Hình 2.9

Tiến trình số hóa ký tự

Hình 2.10

Mơ hình 4 lớp Perceptron với hai lớp ẩn

Hình 2.11

Ví dụ về mơ hình mạng neural nhận dạng ký tự quang học

Hình 3.1

Quá trình nhận dạng biển số xe


Hình 3.2

Ảnh trước khi xử lý giảm nhiễu

Hình 3.3

Ảnh sau khi đã xử lý giảm nhiễu

Hình 3.4

Ảnh sau khi được chuyển qua ảnh mức xám

Hình 3.5

Ảnh gốc trước khi được phân ngưỡng

Hình 3.6

Ảnh sau khi được phân ngưỡng ở mức 70

Hình 3.7

Ảnh sau khi được phân ngưỡng ở mức 80


ix

Hình 3.8

Ảnh sau khi được phân ngưỡng ở mức 90


Hình 3.9

Ảnh gốc xe có biển số màu xanh

Hình 3.10

Ảnh sau khi phân ngưỡng ở mức 70

Hình 3.11

Ảnh sau khi được phân ngưỡng ở mức 80

Hình 3.12

Ảnh sau khi được phân ngưỡng ở mức 90

Hình 3.13

Mẫu 1

Hình 3.14

Loại biển số dùng mẫu 1 để quét

Hình 3.15

Mẫu 2

Hình 3.16


Loại biển số dùng mẫu 2 để dị

Hình 3.17

Mẫu 3

Hình 3.18

Loại biển số dùng mẫu 3 để quét

Hình 3.19

Biển số sau khi phân vùng

Hình 3.20

Biển số sau khi chuyển đổi ngược, lọc bỏ và bo khung

Hình 3.21

Biển số sau khi phân vùng

Hình 3.22

Biển số sau khi chuyển đổi ngược, lọc bỏ và bo khung

Hình 3.23

Biển số cần tách


Hình 3.24

Các ký tự sau khi đã được tách từ biển số

Hình 3.25

Biển số vng trước khi cắt đơi

Hình 3.26

Biển số vng sau khi cắt đơi

Hình 3.27

Tách ký tự nửa trên của biển số vng

Hình 3.28

Tách ký tự nửa dưới của biển số vng

Hình 3.29

Các bộ mẫu số được sử dụng

Hình 3.30

Các bộ mẫu chữ được sử dụng

Hình 3.31


Mơ hình được thiết kế bằng mạng neural

Hình 3.32 Ảnh sau khi thu nhận từ thiết bị
Hình 3.33

Ảnh đã được lọc để giảm nhiễu

Hình 3.34

Ảnh được chuyển qua mức xám và phân ngưỡng

Hình 3.35

Phân vùng và lọc biển số xe

Hình 3.36

Tách ký tự và nhận dạng


x

Hình 3.37

Kết quả nhận dạng biển số thành cơng

Hình 3.38

Khơng nhận dạng được biển số khi hoạt động ban đêm


Hình 3.39

Ký tự trên biển số bị mất thông tin do đinh ốc

Hình 3.40

Ảnh bị nhận dạng sai do vùng biển số bị nhiếu lớn


1

MỞ ĐẦU

1. Lý do chọn đề tài
Hiện nay, việc quản lý các bãi trơng giữ xe (tịa nhà, chung cư, bệnh viện,
siêu thị, trường học …) phần lớn còn mang tính thủ cơng. Các phương pháp như ghi
vé giấy, dùng thẻ giấy, ghi số bằng tay đòi hỏi nhiều nhân công, tốn thời gian,
thường xảy ra ùn tắc, dễ mất an toàn và rất thiếu đi nét văn minh hiện đại. Rõ ràng
những phương pháp quản lý bãi gửi xe như vậy đang trở nên không ngang tầm với
một xã hội Việt Nam đang chuyển mình đi lên cơng nghiệp hóa, hiện đại hóa.
Cùng với sự phát triển ngày một cao của công nghệ cũng như kỹ thuật xử lý
ảnh số thì việc tìm hiểu, nghiên cứu và ứng dụng phương pháp nhận dạng tự động
biển số xe cho các phương tiện giao thông đi lại hiện nay ở Việt Nam là cần thiết.
Việc áp dụng kỹ thuật nhận dạng biển số xe giúp tiết kiệm một chi phí khá
lớn cho các bãi giữ xe và giúp kiểm soát việc lưu thông giữa các xe dễ dàng và
thuận tiện hơn.
Với những lý do thực tế ở trên, tôi đã chọn đề tài “Các kỹ thuật nhận dạng
chữ cái in và ứng dụng” để có thể có một cái nhìn tổng thể hơn cho việc tìm hiểu
và nghiên cứu về kỹ thuật nhận dạng ký tự cũng như bài toán nhận dạng biển số xe.


2. Mục đích của đề tài
- Tìm hiểu cấu trúc của một hệ thống nhận dạng ký tự.
- Tìm hiểu về mạng neural và ứng dụng của mạng neural trong việc nhận
dạng ký tự.
- Áp dụng mạng neural trong việc nhận dạng ký tự để trình bày nguyên lý
nhận dạng biển số xe dựa trên ảnh chụp.
- Xây dựng chương trình mơ phỏng nhận dạng ký tự trên biển số xe.


2

3. Nhiệm vụ nghiên cứu
Tìm kiếm và đọc những tài liệu có liên quan đến đề tài, sau đó tổng hợp và
trình bày một cách ngắn gọn, cơ đọng và tương đối đầy đủ về xử lý ảnh số, mạng
neural và nhận dạng ký tự.
Tham khảo và xây dựng một chương trình nhận dạng biển số xe.

4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là mạng neural, phương pháp nhận dạng ký tự dựa trện
mạng neural và quy trình nhận dạng biển số xe.

5. Phương pháp nghiên cứu:
- Về lý thuyết:
+ Tiếp cận tài liệu, đọc và phân tích các phương pháp và khái niệm về nhận
dạng ký tự.
+ Tìm hiểu về mạng neural và kỹ thuật nhận dạng ký tự bằng mạng neural.
+ Tìm hiểu về hệ thống nhận dạng biển số xe dựa trên mạng neural
- Về thực nghiệm:
+ Xây dựng chương trình demo nhận dạng biển số xe.


6. Bố cục:
Đề tài được cấu trúc làm 3 chương với những nội dung sau:
- Chương 1: Tổng quan về nhận dạng ký tự: giới thiệu một cách tổng
quan về nhận dạng ký tự quang học, các bước của một hệ thống nhận dạng ký tự
quang học và đánh giá hiệu suất của một hệ thống nhận dạng ký tự quang học.
- Chương 2: Nhận dạng ký tự bằng mạng neural: giới thiệu các khái
niệm cơ bản về mơ hình neural sinh học và mạng neural. Ứng dụng và mô tả mạng
neural trong việc nhận dạng ký tự quang học.
- Chương 3: Nhận dạng biển số xe: giới thiệu tổng quan về hệ thống nhận
dạng biển số xe. Quy trình nhận dạng một biển số xe và kết quả thực nghiệm.


3

CHƯƠNG 1
TỔNG QUAN VỀ NHẬN DẠNG KÝ TỰ
1.1 Tổng quan về xử lý ảnh số
1.1.1 Khái niệm ảnh số
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là
đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối
tượng trong khơng gian và nó có thể xem như một hàm n biến. Do đó, ảnh trong
xử lý ảnh có thể xem như ảnh n chiều. Ảnh có thể biểu diễn dưới dạng tín hiệu
tương tự hoặc số.
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một tọa độ trong
không gian của đối tượng và ảnh được xem như là tập hợp các điểm ảnh. Một mức
xám là số các giá trị có thể có của các điểm ảnh của ảnh. Một ảnh phức tạp là tập
hợp của nhiều điểm ảnh
- Với ảnh đen trắng: Nếu dùng 8 bit để biểu diễn mức xám, thì số các mức
xám có thể biểu diễn được là 28 hay 256. Mỗi mức xám được biểu diễn dưới dạng

một số nguyên nằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho mức cường
độ đen nhất định và 255 biểu diễn cho mức cường độ sáng nhất.
- Với ảnh màu: Cách biểu diễn cũng tương tự như với ảnh đen trắng, chỉ
khác là các số tại mỗi phần tử của ma trận biểu diễn ba màu riêng biệt gồm: đỏ (Red
- R), lục (Green - G) và lam (Blue - B). Để biểu diễn cho ba màu riêng rẽ cần 24 bit,
24 bit này được chia thành ba khoảng 8 bit. Mỗi khoảng này biểu diễn cho cường
độ sáng của một trong các màu chính. Ta có cơng thức tổng qt tổ hợp màu dựa
trên ba màu Red, Green, Blue như sau: [1]

X=
Với

là các hệ số tổ hợp.

R+

B+

G


4

1.1.2 Xử lý ảnh số
Xử lý ảnh số là một lĩnh vực mang tính khoa học và cơng nghệ, các phương
pháp xử lý ảnh bắt nguồn từ các ứng dụng chính như nâng cao chất lượng ảnh và xử
lý ảnh, xử lý ảnh có nhiều ứng dụng thực tiễn trong cuộc sống của chúng ta ví dụ: Y
tế , truyền thơng…, ngồi ra nó cịn có một số ứng dụng khác ít được biết đến hơn
như chụp biển đăng ký xe ô tô đang chạy, trong trường hợp xử lý ảnh này việc làm
giảm độ nhòe là cần thiết trong việc nhận dạng biển số ô tô. Một ứng dụng ít biết

khác là nghiên cứu sự di cư của cá voi, khi người ta nghiên cứu hành vi di cư của sư
tử, hổ và các động vật khác, họ bắt các động vật và cột thẻ vào vị trí thuận lợi ở
đuôi hoặc tai. Khi bắt được động vật ở nơi khác, thẻ cho biết thông tin về sự di cư
của động vật. Tuy nhiên cá voi rất khó bắt và cột thẻ. May thay, cá voi rất thích để
lộ đi, mà đi của chúng có những đặc điểm có thể giúp để nhận biết chúng. Để
nhận dạng một con cá voi, bức ảnh chụp vội đi nó từ trên tàu được so sánh với
hàng ngàn ảnh đuôi cá voi khác nhau trong một bộ sưu tập. Quan sát liên tiếp và
nhận dạng một cá thể cá voi nào đó ta có thể theo dõi sự di cư của nó. Tuy nhiên,
việc so sánh ảnh cực kỳ nhàm chán và phải dùng xử lý ảnh số để tự động hóa công
việc.[4]
Những ứng dụng xử lý ảnh số là vô hạn. Ngồi những ứng dụng đã nêu ở
trên, cịn bao gồm cả các lĩnh vực khác như điện tử gia đình, thiên văn học, sinh vật
học..và nhiều lĩnh vực khác. Nhìn và nghe là hai phương tiện quan trọng nhất để
con người nhận thức thế giới bên ngồi, do vậy khơng có gì ngạc nhiên khi mà xử
lý ảnh số có nhiều khả năng ứng dụng, không chỉ trong khoa học và kỹ thuật mà cả
trong mọi hoạt động khác của con người.
Ngày nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát
triển không ngừng. Các phương pháp tri thức nhân tạo như mạng neural nhân tạo,
các thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp
dụng rộng rãi và thu nhiều kết quả khả quan.


5

Xử lý ảnh số bao gồm các thiết bị về phần cứng, các thiết bị thu nhận ảnh
như Camera, máy chụp ảnh, phần mềm và các cơ sở tri thức. Hình 1.1 mơ tả các
bước trong xử lý ảnh: [1]

Ảnh thu nhận
từ thiết bị


Biến đổi số hóa

Tiền xử lý ảnh
Cơ sở tri
thức
Trích chọn đặc điểm

Nhận dạng ảnh

Kết luận

Hình 1.1 Các bước trong xử lý ảnh số
Sơ đồ trên bao gồm các bước sau:
-

Thu nhận ảnh. Ảnh được thu nhận qua camera, sau đó nó được chuyển

trực tiếp thành ảnh số tạo thuận lợi cho quá trình xử lý tiếp theo. Chất lượng của
mỗi ảnh thu được phụ thuộc vào nhiều yếu tố như thiết bị và các điều kiện của môi
trường tác động.
- Ảnh đã thu nhận sẽ được số hóa để lấy mẫu và chuẩn hóa ảnh trước khi
bước vào giai đoạn xử lý ảnh và lưu trữ. Xử lý ảnh được xem như là một tập hợp


6

các điểm với cũng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng
đẹp, càng mịn và càng thể hiện rõ chi tiết của ảnh.
- Sau khi thu nhận ảnh và số hóa, ảnh có thể nhiễu độ tương phản thấp nên

cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử
lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn.
- Bước tiếp theo sẽ là trích chọn đặc điểm, các đặc điểm của đối tượng được
trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh, một số các đặc
điểm của ảnh như đặc điểm về không gian, đặc điểm biến đổi hay đặc điểm biên và
đường biên. Đây là bước quan trọng trong nhận dạng ảnh vì nếu quá trình bị lỗi,
việc nhận dạng ảnh sẽ mất đi độ chính xác. Việc trích chọn hiệu quả các đặc điểm
giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính tốn cao và
dung lượng nhớ lưu trữ giảm xuống.
- Cuối cùng là nhận dạng ảnh, đây là quá trình xác định ảnh để đưa ra một
kết luận về một đối tượng bằng cách so sánh với các mẫu chuẩn đã lưu được trước
đó. Có hai loại nhận dạng cơ bản là nhận dạng theo tham số và nhận dạng theo cấu
trúc. Một vài kiểu nhận dạng được áp dụng là nhận dạng ký tự, nhận dạng văn bản,
nhận dạng mặt người…
Trong nhiều khâu xử lý và phân tích ảnh, ngồi việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong các quy trình tiếp
nhận và xử lý ảnh theo cách của con người, vì thế ở đây các cơ sở tri thức sẽ được
phát huy.

1.2 Tổng quan về nhận dạng ký tự quang học
Nhận dạng ký tự quang học( Optical Character Recognition, viết tắt là
OCR) là phương pháp dùng để chuyển các hình ảnh của chữ viết tay hoặc chữ
được quét bằng máy thành các văn bản tài liệu có thể xử lý được thơng qua máy
tính. Nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận
dạng ký tự số. Những công nghệ OCR ngày nay có thể nhận dạng gần như toàn bộ


7

các font chữ nhờ sự kết hợp giữa các thiết bị thu tốc độ cao và áp dụng những

thuật toán phức hợp.
Nhận dạng ký tự quang học thuộc về lĩnh vực các kỹ thuật tự động nhận
dạng. Các ký tự đã được xử lý qua thiết bị thu sẽ bắt đầu được nhận dạng. Nhận
dạng quang học được thực hiện sau khi kết thúc các quy trình viết bằng tay hoặc
in ký tự được hoàn thành. Cả hai phương pháp nhận dạng ký tự viết tay và ký tự in
đều có thể được nhận dạng, tuy nhiên kết quả nhận dạng trực tiếp phụ thuộc vào
chất lượng của hình ảnh thu vào. Hình 1.2 minh họa một số phạm vi của nhận
dạng ký tự: [1,4]
Nhận dạng ký
tự
Trực tuyến
Không trực
tuyến

Ký tự đơn

In

Ký tự viết tay

Viết tay

Nhận dạng

Xác định

Hình 1.2 Các phạm vi khác nhau của nhận dạng ký tự

Khi ảnh thu được đầu vào có chất lượng tốt thì kết quả nhận dạng sẽ đạt chất
lượng tốt. Tuy nhiên khi ảnh đầu vào là các ký tự viết tay thì khả năng nhận dạng

của một hệ thống OCR vẫn còn bị hạn chế. Tuy nhiên với sự phát triển mỗi lúc một


8

cao của máy tính thì khả năng tiếp cận với mơ hình lý tưởng của hệ thống OCR mỗi
lúc một gần hơn.

1.3 Các thành phần của một hệ thống nhận dạng ký tự
Một hệ thống OCR thì có nhiều thành phần xử lý. Bước đầu tiên là số hóa
ảnh thu được bằng cách sử dụng một máy quét quang học, khi các phân vùng có
chứa ký tự được xác định thì ký tự sẽ được chiết xuất thơng qua một q trình phân
đoạn. Sau đó các ký tự được chiết xuất này sẽ được tiền xử lý để khử nhiễu để cho
quá trình xử lý ở các bước tiếp theo được dễ dàng hơn. Hình 1.3 minh họa cho một
hệ thống OCR điển hình. [4]
Ảnh thu
vào

Quét quang
học

Phân đoạn
ký tự

Hậu xử lý
nhận dạng

Tiền xử lý

Trích chọn

đặc trưng

Hình 1.3 Các thành phần của một hệ thống OCR

1.3.1 Quét quang học
Ảnh gốc sau khi đã thu vào, các thiết bị quét quang học qua quá trình quét sẽ
lưu hình ảnh gốc lại dưới dạng ảnh kỹ thuật số, ảnh sẽ được biến đổi cường độ sáng
sang mức xám. Các hình ảnh đa cấp được chuyển đổi và in ra bao gồm các hình in
màu đen trên nền trắng, quá trình này được gọi là ngưỡng và được thực hiện trên
máy quét nhằm tiết kiệm khơng gian cho bộ nhớ và tối ưu hóa các khả năng tính
tốn sẽ phải thực hiện trên máy tính.
Q trình phân ngưỡng quan trọng giống như kết quả của việc nhận dạng
hoàn toàn phụ thuộc vào chất lượng của hình ảnh nhị phân, quá trình này được thực


9

hiện rất đơn giản trên máy quét. Một ngưỡng cố định được sử dụng, các mức xám ở
dưới ngưỡng này được gọi là màu đen và mức trên ngưỡng này được gọi là màu
trắng. Đối với một hình ảnh có độ tương phản cao trên nền thống nhất, một ngưỡng
cố định có thể là đủ. Tuy nhiên, khi gặp phải một hình ảnh có độ tương phản cao
trong thực tế thì với trường hợp này, một phương pháp xử lý tinh xảo hơn với một
mức ngưỡng cao hơn mới có được một kết quả tốt.
Các phương pháp tốt nhất cho việc phân ngưỡng thường là những phương
pháp thay đổi ngưỡng dựa trên các hình ảnh tương thích với các thuộc tính từng
vùng là độ tương phản và độ sáng. Tuy nhiên, các phương pháp như vậy thường
phụ thuộc vào một chức năng quét đa mức và phải đòi hỏi nhiều bộ nhớ và các
phép tính tốn hơn. Do đó, kỹ thuật này hiếm khi được sử dụng trong kết nối với
các hệ thống OCR, mặc dù các phương pháp này có thể cho được chất lượng hình
ảnh tốt hơn.


1.3.2 Vị trí và phân đoạn
Phân đoạn là một q trình để xác định các thành phần của một hình ảnh, quá
trình này dùng để xác định vị trí các vùng của ảnh, nơi dữ liệu đã được in và phân
biệt từ các con số và đồ họa.
Trong một hệ thống nhận dạng ký tự, quá trình phân đoạn là để tách một ký
tự hoặc một từ. Phần lớn các thuật toán nhận dạng ký tự quang học thường tách các
từ thành các ký tự riêng lẻ và nhận dạng riêng biệt các ký tự này.Thơng thường, quy
trình phân đoạn được thực hiện bằng cách tách các thành phần liên kết, đó là mỗi
vùng liên kết màu đen. Kỹ thuật này rất dễ thực hiện, nhưng vấn đề xảy ra là nếu
các ký tự dính vào nhau hoặc nếu các ký tự rời rạc hay các ký tự bao gồm nhiều
phần. Các vấn đề chính trong việc phân đoạn có thể được chia ra thành bốn nhóm:
a) Tách các ký tự bị dính vào nhau và rời rạc
Những ký tự bị biến dạng như vậy sẽ dẫn đến việc có nhiều ký tự bị dính vào
nhau nhưng vẫn được hiểu như là một ký tự riêng lẻ hoặc là chỉ là một phần của ký
tự nhưng vẫn bị nhầm tưởng như là một ký tự. Nối lại sẽ xảy ra nếu như hình ảnh là


10

một bản photocopy tối hoặc nếu là bản scan có mức ngưỡng thấp. Nếu các font có
chân chữ thì việc nối lại cũng rất phổ biến. Các ký tự có thể được tách nếu như tài
liệu đầu vào là một bản photocopy sáng hoặc là một bản scan có độ ngưỡng thấp.
b) Phân biệt nhiễu từ nguyên bản
Các dấu chấm và dấu có thể bị nhầm lẫn là nhiễu và ngược lại
c) Nhầm lẫn giữa hình ảnh hoặc hình học
Sự nhầm lẫn này dẫn đến các thành phần không phải là ký tự được nhận dạng.
d) Nhầm lẫn các từ thành hình ảnh hoặc hình học
Trong trường hợp này, các từ sẽ không được đưa đến các tầng nhận dạng. Nó
thường xảy ra nếu các ký tự được kết nối với đồ họa.


Hình 1.4 Các ký hiệu bị suy biến [4]

1.3.3 Tiền xử lý
Kết quả hình ảnh thu được sau khi đưa vào máy quét có thể chứa một số
lượng nhiễu. Tùy thuộc vào độ phân giải trên máy quét và kỹ thuật phân ngưỡng,
các ký tự có thể bị mờ hoặc đứt quãng. Các lỗi này có thể làm giảm chất lượng của


11

việc nhận dạng nhưng chúng có thể được loại bỏ qua quá trình tiền xử lý bằng cách
làm mịn các ký tự.
Việc làm mịn bao gồm hai quá trình là làm đầy và làm mỏng. Làm đầy giúp
loại bỏ các khoảng cách, lỗ hổng trong các ký tự đã được số hóa và làm mỏng là
làm giảm chiều rộng trên mỗi dòng. Kỹ thuật phổ biến nhất của làm mịn là di
chuyển một cửa sổ trên ảnh nhị phân của ký tự và áp dụng những quy tắc nhất định
cho cửa sổ này.
Ngoài ra để làm mịn, tiền xử lý thường bao gồm cả q trình chuẩn hóa. Chuẩn
hóa thường được sử dụng để có được các ký tự có kích thước chuẩn, nghiêng hoặc
xoay. Để có thể xoay ảnh một cách chính xác, ta phải xác định được góc quay.
Thuật toán Hough thường được sử dụng để xác định độ nghiêng của ký tự. Tuy
nhiên, việc tìm góc quay của một ký hiệu là không thể thực hiện được cho đến khi
ký hiệu đó được nhận dạng xong.

Hình 1.5 Chuẩn hóa và làm mịn ký tự [4]

1.3.4 Trích chọn đặc trưng
Mục tiêu của trích chọn đặc trưng là để nắm bắt được các đặc điểm chi tiết
của các biểu tượng, và đây cũng được xem là một trong những vấn đề khó nhất của

nhận dạng mẫu. Cách thức tiên tiến nhất cho việc miêu tả một ký tự là sử dụng một
ảnh quét thực sự. Một phương pháp khác là trích xuất một số tính năng mơ tả cho
các biểu tượng, nhưng bỏ qua các thuộc tính khơng quan trọng. Các kỹ thuật khai
thác các tính năng như vậy thường được chia làm ba nhóm chính, nơi mà các đặc
trưng được tìm thấy từ: [4]


12

 Sự phân bố của các điểm
 Sự thay đổi và mở rộng của các chuỗi
 Sự phân tích các cấu trúc
Các nhóm khác nhau của các đặc trưng có thể được đánh giá theo sự nhạy
cảm với độ nhiễu, sự biến dạng, tính dễ thực thi và sử dụng. Các tiêu chí được sử
dụng trong các đánh giá này như sau:
 Tính mạnh mẽ: [4]
1) Nhiễu: Nhạy cảm đối với các phân đoạn bị mất liên kết, những lỗ hổng…
2) Sự biến dạng: Nhạy cảm đối với các phân vùng như các góc được làm
trịn, những chỗ lồi lõm khơng chính xác, những chỗ lồi ra hoặc thụt vào.
3) Biến đổi về kiểu: Nhạy cảm với sự thay đổi trong kiểu giống như việc sử
dụng các hình dạng khác nhau để đại diện cho một ký tự hoặc việc sử dụng các chân
chữ hay độ nghiêng
4) Sự tịnh tiến: Nhạy cảm đối với sự di chuyển của toàn bộ ký tự hoặc các
thành phần của nó.
5) Xoay: Nhạy cảm đối với sự thay đổi hướng của các ký tự.
 Sử dụng thực tế:
1) Tốc độ nhận dạng
2) Sự phức tạp khi thực hiện
3) Tính độc lập


1.3.4.1 Các kỹ thuật đối sánh mẫu và tương quan
Các kỹ thuật này khác với những kỹ thuật khác ở chỗ là khơng có đặc trưng
nào được trích chọn ra. Thay vào đó, một ma trận chứa các hình ảnh của ký tự đầu
vào được đối sánh trực tiếp và phù hợp với một tập các ký tự nguyên mẫu đại diện
cho một lớp. Khoảng cách giữa các mẫu và mỗi nguyên mẫu được tính tốn và lớp
của ngun mẫu nào giống nhất sẽ được gán cho mẫu.


13

Kỹ thuật này là đơn giản và dễ thực hiện nên đã được sử dụng trong rất nhiều
hệ thống OCR thương mại. Tuy nhiên, nó rất nhạy cảm với nhiễu, sự thay đổi về
kiểu và các ký tự đã bị xoay.

1.3.4.2 Các kỹ thuật dựa trên các đặc trưng
a) Sự phân bố của các điểm:
Sự phân bố này bao gồm các kỹ thuật trích chọn các đặc trưng dựa trên sự
phân bố và thống kê của các điểm và những đặc trưng này thường có những sự biến
dạng và thay đổi về kiểu. Sau đây là một số các kỹ thuật điển hình:
- Quy vùng: Một hình chữ nhật ngoại tiếp ký tự sẽ được chia thành nhiều
vùng chồng chéo hoặc là không, các vùng và mật độ của các điểm đen trong những
vùng này được tính tốn và sử dụng là các đặc trưng.

Hình 1.6 Ví dụ minh họa về Quy vùng [4]
- Các moment: Những moment của các điểm đen ở trung tâm được lựa
chọn, ví dụ như trung tâm của lực hấp dẫn hoặc một hệ thống được chọn và được sử
dụng giống như các đặc trưng.
- Giao điểm và khoảng cách: Trong các giao điểm, các đặc trưng được tìm
thấy qua những lần cắt các ký tự của các vector theo các hướng nhất định. Kỹ thuật
này được sử dụng trong các hệ thống thương mại bởi vì nó có thể thực hiện được ở

tốc độ cao và ít phức tạp. Đối với kỹ thuật khoảng cách thì độ dài nhất định của các
vector khi cắt qua ký tự sẽ được đo. Ví dụ như chiều dài của các vector trong phạm
vi của ký tự.


14

- N-tuples: Sự kết hợp xảy ra giữa các điểm đen và điểm trắng theo một
trình tự sắp xếp nào đó là các đặc trưng.
- Quỹ tích đặc trưng: Đối với mỗi điểm xung quanh ký tự thì các vector
theo hướng thẳng đứng và hướng ngang được tạo ra. Số lần các phân đoạn ký tự
được sinh ra bằng những vector thì được sử dụng như là các tính năng.
b) Các phép biến đổi và mở rộng chuỗi
Các kỹ thuật này làm giảm độ dài của vector đặc trưng và các đặc trưng được
trích chọn khơng làm thay đổi các phương pháp như dịch và quay. Những sự thay
đổi có thể được sử dụng là Fourier, Walsh, Haar, Hadamard…
c) Phân tích cấu trúc
Trong phân tích cấu trúc, các đặc trưng miêu tả về hình học và topo của ký
hiệu sẽ được trích chọn. Các đặc trưng này sẽ được dùng để miêu tả cho cấu trúc
của ký tự và một số các đặc trưng được sử dụng như là đường nét, các ô, các điểm
kết thúc, những nơi giao nhau giữa đường thẳng và các vòng. So sánh với các kỹ
thuật khác thì đây là một kỹ thuật có tính năng chịu nhiễu và sự thay đổi về kiểu ở
mức cao. Tuy nhiên đối với phương pháp dịch và quay thì phân tích cấu trúc chỉ
dừng lại ở một mức độ vừa phải và ở các phương pháp này vẫn cần được nghiên
cứu thêm.

Hình 1.7 Các nét được trích chọn từ các chữ cái F, H và N [4]
Từ các kỹ thuật được nêu ra trong phần trích chọn đặc trưng, ta có bảng 1:



15

Bảng 1.1: Đánh giá về các trích chọn đặc trưng [4]
Kỹ thuật trích chọn đặc trưng

Tính mạnh mẽ
1

2 3

4 5

Sử dụng thực tế
1

2 3

Đối sánh mẫu
Các phép biến đổi
Sự phân bố các điểm: Quy vùng
Các moment
n-tuples
Quỹ tích đặc trưng
Các điểm giao
Các đặc trưng về cấu trúc
Cao hoặc dễ

Vừa phải

Chậm hoặc phức tạp


Các đặc trưng được có đặc điểm là chịu nhiễu ở mức độ kém các đặc trưng
trên có thể chịu được nhiễu ảnh hưởng bên trong của ký tự hoặc sự biến dạng của
ký tự.

1.3.5 Hậu xử lý
1.3.5.1 Nhóm
Kết quả của việc nhận dạng một ký hiệu đơn giản là tập hợp của nhiều ký
hiệu riêng lẻ. Tuy nhiên các ký hiệu riêng lẻ này bản thân chúng thường chứa thơng
tin khơng đầy đủ, vì thế chúng ta sẽ kết hợp các ký hiệu riêng lẻ này ( các ký hiệu
riêng lẻ phải cùng trên một chuỗi) để tạo thành các từ và số. Quá trình thực hiện sự
kết hợp này của các ký tự thành một chuỗi , thường được gọi là nhóm. Việc nhóm
các ký hiệu thành một chuỗi dựa trên các vùng của các ký hiệu trong ảnh. Các ký
hiệu được tìm thấy nếu gần nhau sẽ được nhóm lại với nhau. Đối với các font chữ
đã được cố định thì q trình nhóm là khá dễ dàng khi mà chúng ta đã biết được vị
trí của các ký hiệu. Đối với các ký tự sắp chữ thì khoảng cách giữa các ký tự có thể
thay đổi được. Tuy nhiên khoảng cách giữa các từ thường lớn hơn khoảng cách giữa


×