Tải bản đầy đủ (.pdf) (123 trang)

Ứng dụng mạng nơron mờ cho nhận dạng câu chữ in hoa tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 123 trang )

..

Phan Anh Dũng

Bộ giáo dục và đào tạo
Trường Đại học Bách khoa Hà nội
--------------------------------------

Điện tử - viễn thông

Luận văn thạc sĩ khoa học
ứng dụng mạng nơ ron mờ cho nhận dạng
câu chữ in hoa tiếng việt

Phan Anh Dũng

2003 2005
hànội
2005

Hà néi 2005


Bộ giáo dục và đào tạo

Trường Đại học Bách khoa Hà nội

------------------------------

Luận văn thạc sĩ khoa học
ứng dụng mạng nơ ron mờ cho nhận dạng


câu chữ in hoa tiếng việt

Ngành: ®iƯn tư - viƠn th«ng

Phan anh dịng

h­íng dÉn khoa häc:
PGS.Ts. Lê bá dũng

Hà nội 2005


các chữ viết tắt
ANFIS

Adaptive Neuro Fuzzy
Inference System

Hệ suy luận mờ thích nghi

APE

Average Percentage Error

Lỗi trung bình phần trăm

AR

Auto Regressive


Từ động hồi quy

B

Big

Lớn

BOA

Bisector of Area

Chia miền thành hai phần

CART

Classification And
Regression Tree

Cây hồi quy và phân hoạch

CCD

Charge couple Device

Thiết bị nhận ảnh

CR

Chain Rule


Luật dây chuyền

DAG

Directed Acrylic Graph

Đồ thị tổ chức có chu trình

DB

Decision Boundary

Biên quyết định

DIS

Distance

Khoảng cách

dpi

Dot Per Inch

Số điểm trong một Inch

ES

Expert System


Hệ chuyên gia

FA

Function Approximation

Xấp xỉ hàm số

FAM

Fuzzy Associative Memory

Bộ nhí liªn kÕt mê

FIS

Fuzzy Inference System

HƯ suy ln mê

FL

Fuzzy Logic

Logic mờ

FLC

Fuzzy Logic Controller


Điều khiển logic mờ

FS

Fuzzy system

Hệ mờ

GL

Gray Level

Mức xám

GRNN
HL

General Regression Neural
Network
Hidden Layer

Mạng Nơron hồi quy
Lớp ẩn


IP

Input Layer


Lớp vào

IS

Image Sensors

Thiết bị nhận ảnh

LC

Lateral Connection

Liên kết bên

LMS

Least Mean Square

Bình phương tối thiểu trung bình

LR

Learing Rule

Luật học

LS

Least Square


Bình phương tối thiểu

LSE

Least Square Estimator

Xấp xỉ bình phương

LUT

Look Up Table

Bảng tra

LVQ

Learning Vecto Quantization

Lượng tử hóa véc tơ

MANFIS

Multiple ANFIS

Hệ hiều ANFIS

MATLAB MATrix LABtory

Thí nghiệm Ma Trận


MF

Membership Function

Hàm liên thuộc

MLP

Multilayer Perceptron

Mạng Perceptron đa lớp

NB

Negative Big

Âm nhiều

NC

Neuro Computing

Tính toán nơron

NM

Negative Medium

Âm vừa


NN

Neural Network

Mạng nơ ron

NS

Negative Small

Âm nhỏ

PB

Positive Big

Dương nhiều

PC

Pattern Classification

Phân loại mẫu

PE

Picture element

Phần tử ảnh


PM

Positive Medium

Dương vừa

PR

Probabilistic Reasoning

Suy luận thống kê

PRC
PS
PSP

Printed Character
Recognition
Positive Small
Post Synaptic Potential
function

Nhận dạng chữ in
Dương ít
Hàm thế sau khớp nối


PV

Portfolio Value


Tỷ giá hối đoái

RMSE

Root Mean Square Error

Lỗi trung bình quân phương

RNN

Recurent Neural Network

Mạng Nơron hồi quy

RS

Reinforcement Signal

Tín hiệu tăng cường

S

Small

Nhỏ

TF

Transfer Function


Hàm truyền đạt

VB

Very Big

Rất lớn

VS

Very Small

Rất nhỏ

XOR

Exclusive OR

Hoặc phủ định

ZE

Zero

Không


danh mơc h×nh vÏ
H×nh 1.1: CÊu tróc chung hƯ nhËn dạng chữ ............................................. 1

Hình 1.2: Mô hình phóng lớn ảnh ký tự H ................................................ 5
Hình 1.3: Các điểm kết thúc, điểm chạc ba............................................... 6
Hình 1.4: Mô hình nhiễu ......................................................................... 11
Hình 1.5: Lọc ngược khôi phục ảnh nguyên gốc ................................... 13
Hình1.6 : Một số các mặt nạ không gian trung bình............................... 17
Hình1.7 : Mặt nạ bộ lọc thông thấp......................................................... 17
Hình1.8 : Cửa sổ lọc giả trung vị............................................................. 18
Hình 2.1: Mô hình nơ ron nhân tạo ......................................................... 24
Hình 2.2: Cấu trúc mạng perceptron ....................................................... 28
Hình 2.3: Mạng perceptron một lớp ........................................................ 29
Hình 2.4: Mạng phân tách tuyến tính ...................................................... 29
Hình 2.5: Mạng perceptron hai lớp liên tiếp ........................................... 31
Hình2.6 : Mạng perceptron 2 lớp có một đầu ra ..................................... 31
Hình 2.7: Quan hệ lân cận trong mạng Kohonen .................................... 33
Hình 2.8: Mạng nơ ron theo phương pháp học không giám sát .............. 34
Hình 2.9: Cập nhật trọng số nơ ron chiến thắng trong mạng Kohonen .. 35
Hình 2.10: Hàm liên thuộc của biến ngôn ngữ T (tuổi) .......................... 39
Hình 2.11: Hệ suy luận mờ Mamdani hai đầu vào.................................. 50
Hình2.12 : Mô hình mờ Tsukamoto ........................................................ 52
Hình2.13 : Mô hình mờ Sugeno hai đầu vào ........................................... 54
Hình2.14 : Mô hình mờ Larsen hai đầu vào............................................ 55
Hình 3.1 : Biểu diễn số mờ bởi các giá trị rời rạc .................................. 60
Hình 3.2 : Huấn luyện mạng theo các giá trị rời rạc của số mờ............. 61
Hình 3.3 : Đồ thị các hàm thành viên phần tiền đề của luật .................. 61
Hình 3.4 : Đồ thị các hàm thành viên phần kết luận của luật ................ 62


Hình 3.5 : Diễn tả các số mờ bởi tập -mức ......................................... 63
Hình 3.6 : Mô hình mạng nơ ron mờ đơn giản....................................... 63
Hình 3.7 : Suy luận mờ Tsukamoto ........................................................ 66

Hình 3.8 : Mạng ANFIS tương đương 3 đầu vào ................................... 67
Hình 3.9 : Mạng ANFIS tương đương theo mô hình Sugeno ................. 68
Hình 3.10: Tập mờ gồm chín không gian mờ và hai mẫu không được
phân loại .................................................................................................. 72
Hình 3.11: Không gian mẫu hai chiều .................................................... 73
Hình 3.12: Tập mờ với 36 không gian con .............................................. 73
Hình 3.13: Khởi tạo hàm cho các biến mờ .............................................. 76
Hình 3.14: Hàm thành viên Sigmoidal .................................................... 77
Hình 3.15: Hàm thành viên đối xứng ...................................................... 79
Hình 3.16: Nơ ron mờ AND .................................................................... 80
Hình 3.17: Nơ ron mờ OR ....................................................................... 81
Hình 3.18: Suy diễn 89 luật với 160 đầu vào .......................................... 83
Hình 4.1 : Thuật toán lấy mẫu ký tự....................................................... 87
Hình 4.2 : Huấn luyện mạng nơ ron ....................................................... 89
Hình 4.3 : Ba mẫu chữ cần học .............................................................. 92
Hình 4.4 : Ký tự cần nhận dạng.............................................................. 93
Hình 4.5 : Giao diện chương trình nhận dạng ..................................... 102


Mục lục
Mục lục
Danh mục các hình vẽ
Các chữ viết tắt
Lời mở đầu
Chương I: Tổng quan về nhận dạng chữ ....................................... 1

1.1. Kh¸i niƯm .......................................................................................... 1
1.2. CÊu tróc chung cđa hƯ nhận dạng chữ........................................... 1
1.2.1. Quét và lưu ảnh ..................................................................... 2
1.2.2. Giai đoạn xử lý sơ bộ ............................................................. 2

1.2.3. Nhận dạng ký tù..................................................................... 2
1.2.4. Hn lun mÉu..................................................................... 2
1.2.5. Xư lý sau nhận dạng .............................................................. 3
1.2.6. Lưu và trình bày lại văn bản .................................................. 3
1.3. Các phương pháp nhận dạng truyền thống ................................... 3
1.3.1. Đối sánh mẫu ........................................................................ 3
1.3.2. Đối sánh từng điểm xuất phát từ trọng tâm ........................... 4
1.3.3. Đối sánh điểm cắt dọc và cắt ngang ...................................... 4
1.3.4. Phương pháp thống kê giao điểm .......................................... 5
1.3.5. Phương pháp biểu diễn cấu trúc chữ qua văn phạm và
nhận dạng cấu trúc chữ .................................................................. 6
1.3.6. Phương pháp nhận dạng cấu trúc chữ.................................... 6
1.4. Kỹ thuật xử lý ảnh dùng cho nhận dạng ........................................ 7
1.4.1. Thu nhËn ¶nh ......................................................................... 7
1.4.2. BiĨu diƠn ¶nh ....................................................................... 10
1.4.3. Lưu giữ ảnh ......................................................................... 10
1.4.4. Khôi phục ảnh ..................................................................... 11
1.4.5. Tăng cường ảnh ................................................................... 15
1.4.6. Phân đoạn và tìm biên ảnh .................................................. 20


Chương II: Các hệ thống hỗ trợ quyết định ............................ 22

2.1. Giới thiệu chung ............................................................................. 22
2.2. Lý thuyết mạng nơ ron .................................................................. 22
2.2.1. Khái niệm và các thành phần cơ bản ................................... 23
2.2.2. Phân loại mạng .................................................................... 26
2.2.3. Huấn luyện mạng................................................................. 27
2.2.4. ứng dụng mạng nơ ron ........................................................ 37
2.3. Lý thuyÕt mê ................................................................................... 38

2.3.1. Lý thuyÕt tËp mê .................................................................. 38
2.3.2. Các phép toán trên tập mờ .................................................... 42
2.3.3. Luật mờ IF-THEN ................................................................ 43
2.3.4. Lý thuyết suy luận gần đúng ................................................ 44
2.3.5. Các quy tắc mờ cơ bản ......................................................... 45
2.3.6. Mô hình suy luận mờ ........................................................... 49
Chương III: Mạng nơ ron mờ và bài toán nhận dạng .......... 56

3.1. Giới thiệu chung ............................................................................. 56
3.2. Định nghĩa mạng nơ ron mờ.......................................................... 57
3.3. Đặc điểm mạng nơ ron mờ ............................................................ 58
3.4. Sử dụng mạng nơ ron mờ cho nhận dạng .................................... 59
3.4.1. Thực hiện luật mờ IF-THEN bằng kiến trúc mạng nơ ron .. 59
3.4.2. Kiến trúc mạng .................................................................... 64
3.4.3. Phân nhóm không gian mẫu ................................................ 69
3.4.4. Phương pháp học giảm độ dốc............................................. 74
3.4.5. Các nơ ron thực hiện ............................................................ 80
3.4.6. Các luật suy diƠn mê ........................................................... 81
Ch­¬ng IV: ThiÕt kÕ øng dơng .......................................................... 85

4.1. ThiÕt kÕ thuËt to¸n ......................................................................... 85
4.1.1. ChuÈn ho¸ các mẫu dữ liệu.................................................. 85


4.1.2. Huấn luyện mạng................................................................. 88
4.1.3. Nhận dạng câu ..................................................................... 92
4.2. Giao diƯn phÇn mỊm .................................................................... 101
4.3. Thư nghiƯm phÇn mỊm ................................................................ 103
4.4. Đánh giá kết quả........................................................................... 103
Kết luận

Tài liệu tham kh¶o


các chữ viết tắt
ANFIS

Adaptive Neuro Fuzzy
Inference System

Hệ suy luận mờ thích nghi

APE

Average Percentage Error

Lỗi trung bình phần trăm

AR

Auto Regressive

Từ động hồi quy

B

Big

Lớn

BOA


Bisector of Area

Chia miền thành hai phần

CART

Classification And
Regression Tree

Cây hồi quy và phân hoạch

CCD

Charge couple Device

Thiết bị nhận ảnh

CR

Chain Rule

Luật dây chuyền

DAG

Directed Acrylic Graph

Đồ thị tổ chức có chu trình


DB

Decision Boundary

Biên quyết định

DIS

Distance

Khoảng cách

dpi

Dot Per Inch

Số điểm trong một Inch

ES

Expert System

Hệ chuyên gia

FA

Function Approximation

Xấp xỉ hàm số


FAM

Fuzzy Associative Memory

Bộ nhí liªn kÕt mê

FIS

Fuzzy Inference System

HƯ suy ln mê

FL

Fuzzy Logic

Logic mờ

FLC

Fuzzy Logic Controller

Điều khiển logic mờ

FS

Fuzzy system

Hệ mờ


GL

Gray Level

Mức xám

GRNN
HL

General Regression Neural
Network
Hidden Layer

Mạng Nơron hồi quy
Lớp ẩn


IP

Input Layer

Lớp vào

IS

Image Sensors

Thiết bị nhận ảnh

LC


Lateral Connection

Liên kết bên

LMS

Least Mean Square

Bình phương tối thiểu trung bình

LR

Learing Rule

Luật học

LS

Least Square

Bình phương tối thiểu

LSE

Least Square Estimator

Xấp xỉ bình phương

LUT


Look Up Table

Bảng tra

LVQ

Learning Vecto Quantization

Lượng tử hóa véc tơ

MANFIS

Multiple ANFIS

Hệ hiều ANFIS

MATLAB MATrix LABtory

Thí nghiệm Ma Trận

MF

Membership Function

Hàm liên thuộc

MLP

Multilayer Perceptron


Mạng Perceptron đa lớp

NB

Negative Big

Âm nhiều

NC

Neuro Computing

Tính toán nơron

NM

Negative Medium

Âm vừa

NN

Neural Network

Mạng nơ ron

NS

Negative Small


Âm nhỏ

PB

Positive Big

Dương nhiều

PC

Pattern Classification

Phân loại mẫu

PE

Picture element

Phần tử ảnh

PM

Positive Medium

Dương vừa

PR

Probabilistic Reasoning


Suy luận thống kê

PRC
PS
PSP

Printed Character
Recognition
Positive Small
Post Synaptic Potential
function

Nhận dạng chữ in
Dương ít
Hàm thế sau khớp nối


PV

Portfolio Value

Tỷ giá hối đoái

RMSE

Root Mean Square Error

Lỗi trung bình quân phương


RNN

Recurent Neural Network

Mạng Nơron hồi quy

RS

Reinforcement Signal

Tín hiệu tăng cường

S

Small

Nhỏ

TF

Transfer Function

Hàm truyền đạt

VB

Very Big

Rất lớn


VS

Very Small

Rất nhỏ

XOR

Exclusive OR

Hoặc phủ định

ZE

Zero

Không


danh mơc h×nh vÏ
H×nh 1.1: CÊu tróc chung hƯ nhËn dạng chữ ............................................. 1
Hình 1.2: Mô hình phóng lớn ảnh ký tự H ................................................ 5
Hình 1.3: Các điểm kết thúc, điểm chạc ba............................................... 6
Hình 1.4: Mô hình nhiễu ......................................................................... 11
Hình 1.5: Lọc ngược khôi phục ảnh nguyên gốc ................................... 13
Hình1.6 : Một số các mặt nạ không gian trung bình............................... 17
Hình1.7 : Mặt nạ bộ lọc thông thấp......................................................... 17
Hình1.8 : Cửa sổ lọc giả trung vị............................................................. 18
Hình 2.1: Mô hình nơ ron nhân tạo ......................................................... 24
Hình 2.2: Cấu trúc mạng perceptron ....................................................... 28

Hình 2.3: Mạng perceptron một lớp ........................................................ 29
Hình 2.4: Mạng phân tách tuyến tính ...................................................... 29
Hình 2.5: Mạng perceptron hai lớp liên tiếp ........................................... 31
Hình2.6 : Mạng perceptron 2 lớp có một đầu ra ..................................... 31
Hình 2.7: Quan hệ lân cận trong mạng Kohonen .................................... 33
Hình 2.8: Mạng nơ ron theo phương pháp học không giám sát .............. 34
Hình 2.9: Cập nhật trọng số nơ ron chiến thắng trong mạng Kohonen .. 35
Hình 2.10: Hàm liên thuộc của biến ngôn ngữ T (tuổi) .......................... 39
Hình 2.11: Hệ suy luận mờ Mamdani hai đầu vào.................................. 50
Hình2.12 : Mô hình mờ Tsukamoto ........................................................ 52
Hình2.13 : Mô hình mờ Sugeno hai đầu vào ........................................... 54
Hình2.14 : Mô hình mờ Larsen hai đầu vào............................................ 55
Hình 3.1 : Biểu diễn số mờ bởi các giá trị rời rạc .................................. 60
Hình 3.2 : Huấn luyện mạng theo các giá trị rời rạc của số mờ............. 61
Hình 3.3 : Đồ thị các hàm thành viên phần tiền đề của luật .................. 61
Hình 3.4 : Đồ thị các hàm thành viên phần kết luận của luật ................ 62


Hình 3.5 : Diễn tả các số mờ bởi tập -mức ......................................... 63
Hình 3.6 : Mô hình mạng nơ ron mờ đơn giản....................................... 63
Hình 3.7 : Suy luận mờ Tsukamoto ........................................................ 66
Hình 3.8 : Mạng ANFIS tương đương 3 đầu vào ................................... 67
Hình 3.9 : Mạng ANFIS tương đương theo mô hình Sugeno ................. 68
Hình 3.10: Tập mờ gồm chín không gian mờ và hai mẫu không được
phân loại .................................................................................................. 72
Hình 3.11: Không gian mẫu hai chiều .................................................... 73
Hình 3.12: Tập mờ với 36 không gian con .............................................. 73
Hình 3.13: Khởi tạo hàm cho các biến mờ .............................................. 76
Hình 3.14: Hàm thành viên Sigmoidal .................................................... 77
Hình 3.15: Hàm thành viên đối xứng ...................................................... 79

Hình 3.16: Nơ ron mờ AND .................................................................... 80
Hình 3.17: Nơ ron mờ OR ....................................................................... 81
Hình 3.18: Suy diễn 89 luật với 160 đầu vào .......................................... 83
Hình 4.1 : Thuật toán lấy mẫu ký tự....................................................... 87
Hình 4.2 : Huấn luyện mạng nơ ron ....................................................... 89
Hình 4.3 : Ba mẫu chữ cần học .............................................................. 92
Hình 4.4 : Ký tự cần nhận dạng.............................................................. 93
Hình 4.5 : Giao diện chương trình nhận dạng ..................................... 102


lời mở đầu
Sự phát triển nhanh chóng của các ngành khoa học trong khoảng ba
thập kỷ trở lại đây đà tạo ra các thiết bị máy móc ngày càng tinh vi, hiện đại
hơn. Nếu như các thiết bị trước đây chỉ thực hiện các lệnh đơn giản, cố định,
đầu vào luôn yêu cầu chính xác và không tích lũy kinh nghiệm trong quá trình
hoạt động thì ngày nay đà có các hệ thống thông minh có thể thực hiện được
một hoặc một số các nhiệm vụ giống con người.
Việc thông minh hóa các hệ thống máy móc đà tạo ra các hệ thống
đặc biệt có thể làm thay con người trong việc giải quyết nhiều bài toán kỹ
thuật với độ chính xác và ổn định tương đối cao. Do vậy, nhu cầu xây dựng
các hệ thống thông minh hóa trong mäi lÜnh vùc kü tht cịng nh­ trong
cc sèng ngµy càng lớn.
Để xây dựng được các hệ thống như vậy, ng­êi ta ®· ®­a ra rÊt nhiỊu lý
thut xư lý tín hiệu. Trong đó hai lý thuyết quan trọng là lý thuyết về mạng
nơ ron trên cơ sở mô phỏng mạng nơ ron sinh học của con người cùng khả
năng rút kinh nghiệm trong quá trình làm việc và lý thuyết logic mờ có khả
năng hỗ trợ các quyết định. Trên cơ sở hai lý thuyết mạng nơ ron và lý thuyết
mờ này, người ta cũng xây dựng các hệ thống lai nhằm tận dụng các ưu thế
vượt trội của mỗi loại, một hệ thống như vậy được gọi là mạng nơ ron mờ.
Mạng nơ ron mờ đÃ, đang và sẽ được sử dụng trong rất nhiều lĩnh vực

kỹ thuật và trong cuộc sống. Các nghiên cứu về mạng nơ ron mờ tuy không
mới nhưng vẫn được sự quan tâm của rất nhiều nhà nghiên cứu.
Nhận dạng câu chữ in tiếng Việt là một trong những ứng dụng của
mạng nơ ron mờ, việc nhận dạng và xử lý các câu chữ in trên các ảnh văn bản
sẽ hỗ trợ rất nhiều trong việc lưu trữ và xử lý các tài liÖu.


Với các lý do trên, cùng với sự hướng dẫn tận tình của Thầy giáo
PGS.TS. Lê Bá Dũng, tôi đà thực hiện và hoàn thành luận văn tốt nghiệp cao
học ứng dụng mạng nơ ron mờ cho nhận dạng câu chữ in tiếng Việt.
Đề tài gồm có các phần sau:
Chương 1: Tổng quan về nhận dạng chữ
Chương 2: Lý thuyết mạng thông minh
Chương 3: Mạng nơ ron mờ và bài toán nhận dạng chữ
Chương 4: Thiết kế ứng dụng
Do khả năng cũng như thời gian còn hạn chế nên luận văn không thể
tránh khỏi các sai sót. Kính mong nhận được sự chỉ bảo của thầy cô và các ý
kiến đóng góp của bạn bè để luận văn được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!


1

Chương I: Tổng quan về nhận dạng chữ
1.1. Khái niệm
Nhận dạng chữ là quá trình tách ảnh chữ cần nhận dạng ra khỏi một
bức ảnh và xác định đúng chữ cần nhận dạng để lưu hoặc để xử lý.
Để nhận dạng được chữ thì cần quá trình xử lý ảnh, trên cơ sở ảnh của
chữ cần nhận được mới tiến hành nhận dạng.
Xử lý ảnh là một quá trình thao tác trên ảnh bao gồm: tạo ra ảnh, thay

đổi các thông tin trên ảnh, tăng cường và khôi phục lại ảnh, phát hiện các đặc
tính, trích chọn các đặc tính ảnh,...
1.2. Cấu trúc chung của hệ nhận dạng chữ
Một hệ thống nhận dạng chữ thường bao gồm các khối sau:
+ Xử lý ảnh văn bản
+ Nhận dạng
Văn bản
Quét và lưu ảnh
Xử lý ảnh văn bản

Huấn luyện mẫu

Nhận dạng

Xử lý sau nhận dạng

Lưu và trình bày lại văn bản
Hình 1.1: Cấu trúc chung hệ nhận dạng chữ


2

+ Huấn luyện mẫu
+ Xử lý sau nhận dạng
1.2.1. Quét và lưu ảnh
Thực hiện thu thập ảnh đầu vào thông qua các thiết bị thu nhận ảnh,
thông thường là các scanner. Ngồi ra, hệ thống cũng có thể nhận ảnh thơng
qua các bút điện tử, bàn số hố,...
1.2.2. Giai đoạn xử lý sơ bộ
Đây là giai đoạn rất quan trọng, ảnh hưởng trực tiếp tới độ chính xác

của thuật tốn nhận dạng. Giai đoạn này cần phải thực hiện những công việc
sau:
+ Tiền xử lý văn bản: nâng cao chất lượng ảnh cần xử lý thông qua các
phương pháp khử nhiễu, tách đường biên, làm trơn biên, xoay văn bản,... Do
dung lượng xử lý ở giai đoạn này khá lớn nên nó làm chậm tốc độ xử lý của
hệ thống. Vì vậy, tùy chất lượng ảnh được lưu và tốc độ xử lý cần thiết mà ta
có thể chỉ lựa chọn một vài phương pháp nâng cao chất lượng ảnh.
+ Tách ảnh ký tự: việc nhận dạng phải tiến hành với từng ký tự, do vậy
cần phải tách và cô lập được từng ảnh ký tự đơn ra khỏi ảnh văn bản thì mới
nhận dạng được ký tự đó trong quá trình nhận dạng.
Quá trình tách chữ được tiến hành qua ba bước: tách từ ảnh văn bản ra
ảnh các dòng, tách ảnh từng từ ra khỏi ảnh dòng và tách từng ảnh ký tự ra
khỏi ảnh từ.
1.2.3. Nhận dạng ký tự
Sau giai đoạn xử lý văn bản, ta sẽ được các ảnh của ký tự. Khối nhận
dạng sẽ thực hiện chức năng chuyển đổi ảnh của ký tự thành ký tự được biểu
diễn trong máy. Do vậy, kết quả nhận dạng phụ thuộc rất nhiều vào việc xử lý
ảnh văn bản trước đó.
1.2.4. Huấn luyện mẫu


3
Do khi xây dựng hệ thống thì hệ thống chưa có hết các mẫu có trong
thực tế nên cần huấn luyện các mẫu mới trong quá trình làm việc để nâng cao
chất lượng nhận dạng. Việc dạy các mẫu mới là cần thiết cho việc nâng cao
chất lượng hệ thống. Tuy nhiên, tuỳ theo kỹ thuật nhận dạng được áp dụng mà
đôi khi người dùng không được huấn luyện mẫu để tránh hỏng cơ sở dữ liệu
sẵn có.
1.2.5. Xử lý sau nhận dạng
Do kiểu font chữ, kích thước font của các ký tự đưa vào nhận dạng có

thể khác nhau, hơn nữa các ảnh văn bản có thể chứa nhiễu nên dễ xảy ra hiện
tượng nhập nhằng giữa các ký tự. Các kỹ thuật xử lý sau nhận dạng được đưa
ra để tăng khả năng nhận dạng đúng ký tự. Giai đoạn này thường dùng các
phân tích về mặt ngữ nghĩa, logic, văn phạm của tài liệu để chọn ký tự có khả
năng đúng nhất.
1.2.6. Lưu và trình bày lại văn bản
Các ký tự sau khi nhận dạng được ghép thành từ, sau đó các từ được
ghép thành dịng và các dòng được ghép lại thành văn bản. Văn bản nhận
được được hiển thị lên màn hình hoặc lưu vào trong một file văn bản tuỳ theo
yêu cầu của người dùng.
1.3. Các phương pháp nhận dạng truyền thống
1.3.1. Đối sánh mẫu
Đây là phương pháp khá cổ điển, được phát triển từ những năm 60. Nội
dung chủ yếu của phương pháp này là mẫu cần nhận dạng được chia nhỏ
thành n x m vùng khác nhau. Tại mỗi vùng, ta thực hiện tính tổng số điểm
đen. Nếu giá trị của chúng lớn hơn một ngưỡng nào đó thì vùng đó được gọi
là vùng đen và nếu giá trị của chúng nhỏ hơn ngưỡng đó thì đây là vùng trắng.
Q trình nhận dạng được thực hiện nhờ một cây quyết định, tại đó mỗi nút là
một câu hỏi: “vùng tương ứng có phải là vùng đen hay không?”.


4
Phương pháp này khá đơn giản, tuy nhiên nếu số lượng vùng quá lớn
thì độ phức tạp sẽ tăng khá nhiều và tỏ ra kém hiệu quả khi thay đổi kiểu chữ.

1.3.2. Đối sánh từng điểm xuất phát từ trọng tâm
Sau khi cô lập chữ ra khỏi văn bản, trọng tâm chữ được tính tốn và
xác định tọa độ. Tiếp đó, chữ mới và chữ chuẩn được đối sánh với nhau từng
pixel một theo chiều từ trọng tâm ra ngoài biên. Các hình vành khăn lồng
nhau có trọng tâm tạo thành các lớp pixel có cùng trọng số.

Khi đó khoảng cách giữa hai điểm x và x, được định nghĩa:

 0 nếu x = x’
DIS ( x, x' ) = 
nếu x ≠ x’ với ω i là trọng số của lớp chứa x (1.1)
 ωi
Khoảng cách giữa hai ký tự X và X’ được định nghĩa:

(

)

DIS X , X ' =

∑ DIS (x, x )
'

(1.2)

x∈ X , x ' ∈ X

Ký tự X được gọi là ký tự X’ nếu DIS(X,X’) < ε với ε là hằng số cho
trước.
Phương pháp này thực hiện khá nhanh nhưng khi chất lượng của ảnh
đầu vào hơi thấp, các điểm của chữ mất tương đối nhiều, làm lệch trọng tâm
thì kết quả nhận dạng rất kém.
1.3.3. Đối sánh điểm cắt dọc và cắt ngang
Đây là thuật toán phát triển dựa trên phương pháp đối sánh từng điểm
từ trọng tâm với mục đích khắc phục những thiếu sót của thuật tốn trên.
Trong phương pháp này người ta tính xem trên từng hàng, mỗi hàng cắt chữ

tại bao nhiêu điểm, các giá trị này được lưu vào một véc tơ và loại bỏ các giá
trị 0 ở đầu và cuối, tương tự đối với các cột. Sau đó véc tơ này được đem so
sánh với véc tơ tương ứng được xây dựng từ một tập mẫu chuẩn. Một mẫu
được coi là mẫu chuẩn nếu véc tơ đó là tập con của véc tơ chuẩn và ngược lại.


5
Phương pháp này đơn giản cho tốc độ cao, kết quả không bị ảnh hưởng
bởi mất các điểm ở biên chữ. Song nó địi hỏi phải có một font chữ chuẩn.
Ví dụ: Giả sử chữ được cơ lập có kích thước WidthChar và
HeightChar, chúng ta hãy duyệt theo chiều ngang để tìm điểm cắt ngang.
Gọi Hi là số điểm cắt ngang tại dòng i, vậy tập các điểm cắt ngang sẽ là một
dãy ký hiệu: H1, H2, ..., HHeightChar.
Gọi Vj là số điểm cắt dọc tại dòng j, vậy tập các điểm cắt dọc sẽ là một
dãy ký hiệu: V1, V2, ..., VWidthchar.
Bỏ các phần tử bằng 0 ở đầu và cuối hai dãy chúng ta sẽ đạt được hai
dãy con là: H=H1H2H3... HHeightChar và V=V1V2V3... VWidthchar. Khi đó quy tắc
nhận dạng sẽ được xác định như sau:
 Hx'∈ Hx or Hx ∈ Hx'
Vx'∈ Vx or Vx ∈ Vx'

X’ được xem là X nếu: 

(1.3)

Trong hình 1.2 có: H = 22222222221112222222222
V = 2111311111131112

Hình 1.2: Mơ hình phóng lớn ảnh ký tự H
1.3.4. Phương pháp thống kê giao điểm

Phương pháp này gần giống như đối sánh với các điểm cắt dọc và cắt
ngang, ở đây người ta xây dựng 4 véc tơ. Ngoài hai véc tơ thẳng đứng (V) và
nằm ngang (H) cịn có hai véc tơ 450 (I) và 1350 (D), trên mỗi hướng chỉ cần
xét những đường quét cắt ký tự từ 1 đến 4 điểm. Cuối cùng ta thu được véc tơ
đặc trưng chứa tham số cho cả 4 véc tơ trước. Quá trình nhận dạng dựa vào
một tập quyết định.


6
Xét trên hình 1.2, ngồi H và V như hình vẽ ta cịn có hai vector D và I
như sau:
D = 11111111111112222333333221111111111111111111
I = 11111111111112233333322221111111111111111111
1.3.5. Phương pháp biểu diễn cấu trúc chữ qua văn phạm và nhận dạng
cấu trúc chữ
Cơ sở của nó dựa trên lý thuyết ngơn ngữ hình thức, lý thuyết phân tích
cú pháp để có thể nhận dạng các biểu diễn đặc trưng với các hình thức khác
nhau của một ký tự bất kỳ. Phương pháp này bước đầu đặt vấn đề giải quyết
bài toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay vẫn còn rất nhiều vấn
đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa
xây dựng được các thuật toán phổ dụng.
1.3.6. Phương pháp nhận dạng cấu trúc chữ
Phương pháp này bao gồm phân hoạch bảng ký tự và trích chọn các đặc
trưng của ký tự.
+ Phân hoạch bảng ký tự: Căn cứ vào tiêu chuẩn cấu trúc của các ký tự
như số thành phần liên thông, số chu trình, số và vị trí các chạc ba, ... rồi phân
hoạch thành tập có 1,2 điểm kết thúc...
Sau khi phân hoạch, ta sẽ có một bảng phân hoạch đầy đủ cho tất cả các
ký tự và căn cứ vào đặc điểm cấu trúc này để nhận dạng. Tuy nhiên với tập
phân hoạch trên vẫn chưa thực hiện được mục tiêu đặt ra là làm các tập nhỏ

nhất, giải pháp tạo ra các tập mịn hơn đó là dựa vào một số đặc trưng khác
như điểm cắt dọc, cắt ngang, khoảng cách của 2 lớp, lớp cắt dọc, ngang, ...
+ Trích chọn các đặc trưng: Các đặc trưng của ký tự cần trích chọn bao
gồm các điểm kết thúc, các chạc ba. Điểm kết thúc chỉ có duy nhất một trong
các láng giềng là đen (a,b). Điểm chạc ba là điểm có tối thiểu ba láng giềng là
đen (c,d,e). Để nhận dạng tốt, trước khi đem nhận dạng các ký tự cần được
làm mảnh.


7

(a)

(b)

(c)

(d)

(e)

Hình 1.3: Các điểm kết thúc, điểm chạc ba
Chương trình duyệt theo từng dịng để tìm kiếm một cột đen nào đó
trên ảnh, sau đó q trình duyệt lại được bắt đầu từ điểm vừa tìm ra bằng cách
lần theo cạnh. Để tăng độ chính xác, người ta cịn kết hợp phương pháp này
với phương pháp thống kê giao điểm, đặc biệt là khi nhận dạng chữ có dấu.
1.4. Kỹ thuật xử lý ảnh dùng cho nhận dạng
1.4.1. Thu nhận ảnh
1.4.1.1. Thiết bị thu nhận ảnh:
Hai thiết bị thu nhận ảnh thường được sử dụng là Camera và Scanner.

Chúng có nhiều loại khác nhau nhưng cấu tạo và nguyên lý hoạt động của
chúng thì nhìn chung là giống nhau.
* Camera:
Camera là thiết bị thu hình phổ biến nhất. Camera thu nhận các tia sáng
phản xạ từ các vật trong tự nhiên và hội tụ chùm sáng đó trên một màn nhận
ảnh với các phần tử cảm nhận ánh sáng tạo thành. Cấu trúc của Camera nhìn
chung có thể được chia thành 3 phần:
+ Phần quang học: Bao gồm các thấu kính hội tụ, các kính lọc và cơ
cấu điều chỉnh khả năng thu nhận và hội tụ ánh sáng.
+ Phần cảm nhận ánh sáng: Là một màn nhận ảnh với các phần tử cảm
nhận ánh sáng. Đây là bộ phận quan trọng nhất của Camera với chức năng
chuyển đổi quang - điện và tạo dịng tín hiệu Video.
+ Phần xử lý tín hiệu Video thu được và các mạch điều khiển đồng bộ
hệ thống: Với các Camera số thì phần này có chức năng chuyển đổi tín hiệu
ảnh sang dạng số. Hiện nay trong xử lý ảnh số, người ta thường dùng Camera


8
số CCD (Charge couple Device). Tên của Camera được gọi theo tên của bộ
phận cảm nhận ảnh (Image Sensors). CCD là một thiết bị mạch tổ hợp của các
phần tử tổ hợp ánh sáng (photosensitive elements). Mỗi phần tử này sẽ cảm
nhận cường độ ánh sáng tương ứng với một điểm ảnh( tức là một phần tử ảnh)
và biến đổi chúng thành tín hiệu điện. Các phần tử này được bố trí thành
mảng hai chiều. Như vậy mật độ của các phần tử này sẽ quyết định chất lượng
thu nhận ảnh. Ví dụ trong một Camera CCD độ phân giải cao thường là 486
dòng với 768 phần tử cảm quang được bố trí trong mắt lưới kích thước
10.5x11µm.
* Scanner:
Là một thiết bị thu nhận và chuyển đổi hình ảnh thu được thành ảnh đồ
hoạ dạng lưới (raster graphic image). Các loại đối tượng dùng scanner

thường là các văn bản, các bức ảnh hoặc tranh vẽ. Ngồi ra thì ngày nay cịn
có cả các scanner qt vân tay.
Cấu trúc của Scanner có thể kể đến 2 thành phần chính là:
+ Các phần tử cảm nhận ánh sáng: Được bố trí trên một băng với mật
độ cao. Chúng thực hiện nhiệm vụ quét từng dòng ảnh và chuyển các giá trị
nhận được thành các tín hiệu điện. Băng này cũng được gọi là CCD.
+ Phần cơ khí: Nhằm tạo ra chuyển động tịnh tiến của băng quét dọc
theo vật cần xử lý. Phần này cũng bao gồm các cơ cấu điều chỉnh hoạt động
của thiết bị.
Khi bắt đầu thực hiện thu nhận ảnh thì đối tượng sẽ được chiếu sáng
bởi một nguồn sáng trong máy quét và bộ phận điều khiển sẽ thực hiện một
chuyển động tịnh tiến để đưa băng quét CCD quét qua đối tượng một lượt và
thu nhận ánh sáng phản xạ từ đối tượng. Máy Scanner được nối với máy tính
và các tín hiệu thu nhận được sẽ được gửi về xử lý tại máy tính. Tại đây các
mạch điều khiển xử lý và các phần mềm sẽ thực hiện chuyển đổi, sắp xếp các
tín hiệu thu được thành các ảnh đồ họa.


×