..
Phan Anh Dũng
Bộ giáo dục và đào tạo
Trường Đại học Bách khoa Hà nội
--------------------------------------
Điện tử - viễn thông
Luận văn thạc sĩ khoa học
ứng dụng mạng nơ ron mờ cho nhận dạng
câu chữ in hoa tiếng việt
Phan Anh Dũng
2003 2005
hànội
2005
Hà néi 2005
Bộ giáo dục và đào tạo
Trường Đại học Bách khoa Hà nội
------------------------------
Luận văn thạc sĩ khoa học
ứng dụng mạng nơ ron mờ cho nhận dạng
câu chữ in hoa tiếng việt
Ngành: ®iƯn tư - viƠn th«ng
Phan anh dịng
híng dÉn khoa häc:
PGS.Ts. Lê bá dũng
Hà nội 2005
các chữ viết tắt
ANFIS
Adaptive Neuro Fuzzy
Inference System
Hệ suy luận mờ thích nghi
APE
Average Percentage Error
Lỗi trung bình phần trăm
AR
Auto Regressive
Từ động hồi quy
B
Big
Lớn
BOA
Bisector of Area
Chia miền thành hai phần
CART
Classification And
Regression Tree
Cây hồi quy và phân hoạch
CCD
Charge couple Device
Thiết bị nhận ảnh
CR
Chain Rule
Luật dây chuyền
DAG
Directed Acrylic Graph
Đồ thị tổ chức có chu trình
DB
Decision Boundary
Biên quyết định
DIS
Distance
Khoảng cách
dpi
Dot Per Inch
Số điểm trong một Inch
ES
Expert System
Hệ chuyên gia
FA
Function Approximation
Xấp xỉ hàm số
FAM
Fuzzy Associative Memory
Bộ nhí liªn kÕt mê
FIS
Fuzzy Inference System
HƯ suy ln mê
FL
Fuzzy Logic
Logic mờ
FLC
Fuzzy Logic Controller
Điều khiển logic mờ
FS
Fuzzy system
Hệ mờ
GL
Gray Level
Mức xám
GRNN
HL
General Regression Neural
Network
Hidden Layer
Mạng Nơron hồi quy
Lớp ẩn
IP
Input Layer
Lớp vào
IS
Image Sensors
Thiết bị nhận ảnh
LC
Lateral Connection
Liên kết bên
LMS
Least Mean Square
Bình phương tối thiểu trung bình
LR
Learing Rule
Luật học
LS
Least Square
Bình phương tối thiểu
LSE
Least Square Estimator
Xấp xỉ bình phương
LUT
Look Up Table
Bảng tra
LVQ
Learning Vecto Quantization
Lượng tử hóa véc tơ
MANFIS
Multiple ANFIS
Hệ hiều ANFIS
MATLAB MATrix LABtory
Thí nghiệm Ma Trận
MF
Membership Function
Hàm liên thuộc
MLP
Multilayer Perceptron
Mạng Perceptron đa lớp
NB
Negative Big
Âm nhiều
NC
Neuro Computing
Tính toán nơron
NM
Negative Medium
Âm vừa
NN
Neural Network
Mạng nơ ron
NS
Negative Small
Âm nhỏ
PB
Positive Big
Dương nhiều
PC
Pattern Classification
Phân loại mẫu
PE
Picture element
Phần tử ảnh
PM
Positive Medium
Dương vừa
PR
Probabilistic Reasoning
Suy luận thống kê
PRC
PS
PSP
Printed Character
Recognition
Positive Small
Post Synaptic Potential
function
Nhận dạng chữ in
Dương ít
Hàm thế sau khớp nối
PV
Portfolio Value
Tỷ giá hối đoái
RMSE
Root Mean Square Error
Lỗi trung bình quân phương
RNN
Recurent Neural Network
Mạng Nơron hồi quy
RS
Reinforcement Signal
Tín hiệu tăng cường
S
Small
Nhỏ
TF
Transfer Function
Hàm truyền đạt
VB
Very Big
Rất lớn
VS
Very Small
Rất nhỏ
XOR
Exclusive OR
Hoặc phủ định
ZE
Zero
Không
danh mơc h×nh vÏ
H×nh 1.1: CÊu tróc chung hƯ nhËn dạng chữ ............................................. 1
Hình 1.2: Mô hình phóng lớn ảnh ký tự H ................................................ 5
Hình 1.3: Các điểm kết thúc, điểm chạc ba............................................... 6
Hình 1.4: Mô hình nhiễu ......................................................................... 11
Hình 1.5: Lọc ngược khôi phục ảnh nguyên gốc ................................... 13
Hình1.6 : Một số các mặt nạ không gian trung bình............................... 17
Hình1.7 : Mặt nạ bộ lọc thông thấp......................................................... 17
Hình1.8 : Cửa sổ lọc giả trung vị............................................................. 18
Hình 2.1: Mô hình nơ ron nhân tạo ......................................................... 24
Hình 2.2: Cấu trúc mạng perceptron ....................................................... 28
Hình 2.3: Mạng perceptron một lớp ........................................................ 29
Hình 2.4: Mạng phân tách tuyến tính ...................................................... 29
Hình 2.5: Mạng perceptron hai lớp liên tiếp ........................................... 31
Hình2.6 : Mạng perceptron 2 lớp có một đầu ra ..................................... 31
Hình 2.7: Quan hệ lân cận trong mạng Kohonen .................................... 33
Hình 2.8: Mạng nơ ron theo phương pháp học không giám sát .............. 34
Hình 2.9: Cập nhật trọng số nơ ron chiến thắng trong mạng Kohonen .. 35
Hình 2.10: Hàm liên thuộc của biến ngôn ngữ T (tuổi) .......................... 39
Hình 2.11: Hệ suy luận mờ Mamdani hai đầu vào.................................. 50
Hình2.12 : Mô hình mờ Tsukamoto ........................................................ 52
Hình2.13 : Mô hình mờ Sugeno hai đầu vào ........................................... 54
Hình2.14 : Mô hình mờ Larsen hai đầu vào............................................ 55
Hình 3.1 : Biểu diễn số mờ bởi các giá trị rời rạc .................................. 60
Hình 3.2 : Huấn luyện mạng theo các giá trị rời rạc của số mờ............. 61
Hình 3.3 : Đồ thị các hàm thành viên phần tiền đề của luật .................. 61
Hình 3.4 : Đồ thị các hàm thành viên phần kết luận của luật ................ 62
Hình 3.5 : Diễn tả các số mờ bởi tập -mức ......................................... 63
Hình 3.6 : Mô hình mạng nơ ron mờ đơn giản....................................... 63
Hình 3.7 : Suy luận mờ Tsukamoto ........................................................ 66
Hình 3.8 : Mạng ANFIS tương đương 3 đầu vào ................................... 67
Hình 3.9 : Mạng ANFIS tương đương theo mô hình Sugeno ................. 68
Hình 3.10: Tập mờ gồm chín không gian mờ và hai mẫu không được
phân loại .................................................................................................. 72
Hình 3.11: Không gian mẫu hai chiều .................................................... 73
Hình 3.12: Tập mờ với 36 không gian con .............................................. 73
Hình 3.13: Khởi tạo hàm cho các biến mờ .............................................. 76
Hình 3.14: Hàm thành viên Sigmoidal .................................................... 77
Hình 3.15: Hàm thành viên đối xứng ...................................................... 79
Hình 3.16: Nơ ron mờ AND .................................................................... 80
Hình 3.17: Nơ ron mờ OR ....................................................................... 81
Hình 3.18: Suy diễn 89 luật với 160 đầu vào .......................................... 83
Hình 4.1 : Thuật toán lấy mẫu ký tự....................................................... 87
Hình 4.2 : Huấn luyện mạng nơ ron ....................................................... 89
Hình 4.3 : Ba mẫu chữ cần học .............................................................. 92
Hình 4.4 : Ký tự cần nhận dạng.............................................................. 93
Hình 4.5 : Giao diện chương trình nhận dạng ..................................... 102
Mục lục
Mục lục
Danh mục các hình vẽ
Các chữ viết tắt
Lời mở đầu
Chương I: Tổng quan về nhận dạng chữ ....................................... 1
1.1. Kh¸i niƯm .......................................................................................... 1
1.2. CÊu tróc chung cđa hƯ nhận dạng chữ........................................... 1
1.2.1. Quét và lưu ảnh ..................................................................... 2
1.2.2. Giai đoạn xử lý sơ bộ ............................................................. 2
1.2.3. Nhận dạng ký tù..................................................................... 2
1.2.4. Hn lun mÉu..................................................................... 2
1.2.5. Xư lý sau nhận dạng .............................................................. 3
1.2.6. Lưu và trình bày lại văn bản .................................................. 3
1.3. Các phương pháp nhận dạng truyền thống ................................... 3
1.3.1. Đối sánh mẫu ........................................................................ 3
1.3.2. Đối sánh từng điểm xuất phát từ trọng tâm ........................... 4
1.3.3. Đối sánh điểm cắt dọc và cắt ngang ...................................... 4
1.3.4. Phương pháp thống kê giao điểm .......................................... 5
1.3.5. Phương pháp biểu diễn cấu trúc chữ qua văn phạm và
nhận dạng cấu trúc chữ .................................................................. 6
1.3.6. Phương pháp nhận dạng cấu trúc chữ.................................... 6
1.4. Kỹ thuật xử lý ảnh dùng cho nhận dạng ........................................ 7
1.4.1. Thu nhËn ¶nh ......................................................................... 7
1.4.2. BiĨu diƠn ¶nh ....................................................................... 10
1.4.3. Lưu giữ ảnh ......................................................................... 10
1.4.4. Khôi phục ảnh ..................................................................... 11
1.4.5. Tăng cường ảnh ................................................................... 15
1.4.6. Phân đoạn và tìm biên ảnh .................................................. 20
Chương II: Các hệ thống hỗ trợ quyết định ............................ 22
2.1. Giới thiệu chung ............................................................................. 22
2.2. Lý thuyết mạng nơ ron .................................................................. 22
2.2.1. Khái niệm và các thành phần cơ bản ................................... 23
2.2.2. Phân loại mạng .................................................................... 26
2.2.3. Huấn luyện mạng................................................................. 27
2.2.4. ứng dụng mạng nơ ron ........................................................ 37
2.3. Lý thuyÕt mê ................................................................................... 38
2.3.1. Lý thuyÕt tËp mê .................................................................. 38
2.3.2. Các phép toán trên tập mờ .................................................... 42
2.3.3. Luật mờ IF-THEN ................................................................ 43
2.3.4. Lý thuyết suy luận gần đúng ................................................ 44
2.3.5. Các quy tắc mờ cơ bản ......................................................... 45
2.3.6. Mô hình suy luận mờ ........................................................... 49
Chương III: Mạng nơ ron mờ và bài toán nhận dạng .......... 56
3.1. Giới thiệu chung ............................................................................. 56
3.2. Định nghĩa mạng nơ ron mờ.......................................................... 57
3.3. Đặc điểm mạng nơ ron mờ ............................................................ 58
3.4. Sử dụng mạng nơ ron mờ cho nhận dạng .................................... 59
3.4.1. Thực hiện luật mờ IF-THEN bằng kiến trúc mạng nơ ron .. 59
3.4.2. Kiến trúc mạng .................................................................... 64
3.4.3. Phân nhóm không gian mẫu ................................................ 69
3.4.4. Phương pháp học giảm độ dốc............................................. 74
3.4.5. Các nơ ron thực hiện ............................................................ 80
3.4.6. Các luật suy diƠn mê ........................................................... 81
Ch¬ng IV: ThiÕt kÕ øng dơng .......................................................... 85
4.1. ThiÕt kÕ thuËt to¸n ......................................................................... 85
4.1.1. ChuÈn ho¸ các mẫu dữ liệu.................................................. 85
4.1.2. Huấn luyện mạng................................................................. 88
4.1.3. Nhận dạng câu ..................................................................... 92
4.2. Giao diƯn phÇn mỊm .................................................................... 101
4.3. Thư nghiƯm phÇn mỊm ................................................................ 103
4.4. Đánh giá kết quả........................................................................... 103
Kết luận
Tài liệu tham kh¶o
các chữ viết tắt
ANFIS
Adaptive Neuro Fuzzy
Inference System
Hệ suy luận mờ thích nghi
APE
Average Percentage Error
Lỗi trung bình phần trăm
AR
Auto Regressive
Từ động hồi quy
B
Big
Lớn
BOA
Bisector of Area
Chia miền thành hai phần
CART
Classification And
Regression Tree
Cây hồi quy và phân hoạch
CCD
Charge couple Device
Thiết bị nhận ảnh
CR
Chain Rule
Luật dây chuyền
DAG
Directed Acrylic Graph
Đồ thị tổ chức có chu trình
DB
Decision Boundary
Biên quyết định
DIS
Distance
Khoảng cách
dpi
Dot Per Inch
Số điểm trong một Inch
ES
Expert System
Hệ chuyên gia
FA
Function Approximation
Xấp xỉ hàm số
FAM
Fuzzy Associative Memory
Bộ nhí liªn kÕt mê
FIS
Fuzzy Inference System
HƯ suy ln mê
FL
Fuzzy Logic
Logic mờ
FLC
Fuzzy Logic Controller
Điều khiển logic mờ
FS
Fuzzy system
Hệ mờ
GL
Gray Level
Mức xám
GRNN
HL
General Regression Neural
Network
Hidden Layer
Mạng Nơron hồi quy
Lớp ẩn
IP
Input Layer
Lớp vào
IS
Image Sensors
Thiết bị nhận ảnh
LC
Lateral Connection
Liên kết bên
LMS
Least Mean Square
Bình phương tối thiểu trung bình
LR
Learing Rule
Luật học
LS
Least Square
Bình phương tối thiểu
LSE
Least Square Estimator
Xấp xỉ bình phương
LUT
Look Up Table
Bảng tra
LVQ
Learning Vecto Quantization
Lượng tử hóa véc tơ
MANFIS
Multiple ANFIS
Hệ hiều ANFIS
MATLAB MATrix LABtory
Thí nghiệm Ma Trận
MF
Membership Function
Hàm liên thuộc
MLP
Multilayer Perceptron
Mạng Perceptron đa lớp
NB
Negative Big
Âm nhiều
NC
Neuro Computing
Tính toán nơron
NM
Negative Medium
Âm vừa
NN
Neural Network
Mạng nơ ron
NS
Negative Small
Âm nhỏ
PB
Positive Big
Dương nhiều
PC
Pattern Classification
Phân loại mẫu
PE
Picture element
Phần tử ảnh
PM
Positive Medium
Dương vừa
PR
Probabilistic Reasoning
Suy luận thống kê
PRC
PS
PSP
Printed Character
Recognition
Positive Small
Post Synaptic Potential
function
Nhận dạng chữ in
Dương ít
Hàm thế sau khớp nối
PV
Portfolio Value
Tỷ giá hối đoái
RMSE
Root Mean Square Error
Lỗi trung bình quân phương
RNN
Recurent Neural Network
Mạng Nơron hồi quy
RS
Reinforcement Signal
Tín hiệu tăng cường
S
Small
Nhỏ
TF
Transfer Function
Hàm truyền đạt
VB
Very Big
Rất lớn
VS
Very Small
Rất nhỏ
XOR
Exclusive OR
Hoặc phủ định
ZE
Zero
Không
danh mơc h×nh vÏ
H×nh 1.1: CÊu tróc chung hƯ nhËn dạng chữ ............................................. 1
Hình 1.2: Mô hình phóng lớn ảnh ký tự H ................................................ 5
Hình 1.3: Các điểm kết thúc, điểm chạc ba............................................... 6
Hình 1.4: Mô hình nhiễu ......................................................................... 11
Hình 1.5: Lọc ngược khôi phục ảnh nguyên gốc ................................... 13
Hình1.6 : Một số các mặt nạ không gian trung bình............................... 17
Hình1.7 : Mặt nạ bộ lọc thông thấp......................................................... 17
Hình1.8 : Cửa sổ lọc giả trung vị............................................................. 18
Hình 2.1: Mô hình nơ ron nhân tạo ......................................................... 24
Hình 2.2: Cấu trúc mạng perceptron ....................................................... 28
Hình 2.3: Mạng perceptron một lớp ........................................................ 29
Hình 2.4: Mạng phân tách tuyến tính ...................................................... 29
Hình 2.5: Mạng perceptron hai lớp liên tiếp ........................................... 31
Hình2.6 : Mạng perceptron 2 lớp có một đầu ra ..................................... 31
Hình 2.7: Quan hệ lân cận trong mạng Kohonen .................................... 33
Hình 2.8: Mạng nơ ron theo phương pháp học không giám sát .............. 34
Hình 2.9: Cập nhật trọng số nơ ron chiến thắng trong mạng Kohonen .. 35
Hình 2.10: Hàm liên thuộc của biến ngôn ngữ T (tuổi) .......................... 39
Hình 2.11: Hệ suy luận mờ Mamdani hai đầu vào.................................. 50
Hình2.12 : Mô hình mờ Tsukamoto ........................................................ 52
Hình2.13 : Mô hình mờ Sugeno hai đầu vào ........................................... 54
Hình2.14 : Mô hình mờ Larsen hai đầu vào............................................ 55
Hình 3.1 : Biểu diễn số mờ bởi các giá trị rời rạc .................................. 60
Hình 3.2 : Huấn luyện mạng theo các giá trị rời rạc của số mờ............. 61
Hình 3.3 : Đồ thị các hàm thành viên phần tiền đề của luật .................. 61
Hình 3.4 : Đồ thị các hàm thành viên phần kết luận của luật ................ 62
Hình 3.5 : Diễn tả các số mờ bởi tập -mức ......................................... 63
Hình 3.6 : Mô hình mạng nơ ron mờ đơn giản....................................... 63
Hình 3.7 : Suy luận mờ Tsukamoto ........................................................ 66
Hình 3.8 : Mạng ANFIS tương đương 3 đầu vào ................................... 67
Hình 3.9 : Mạng ANFIS tương đương theo mô hình Sugeno ................. 68
Hình 3.10: Tập mờ gồm chín không gian mờ và hai mẫu không được
phân loại .................................................................................................. 72
Hình 3.11: Không gian mẫu hai chiều .................................................... 73
Hình 3.12: Tập mờ với 36 không gian con .............................................. 73
Hình 3.13: Khởi tạo hàm cho các biến mờ .............................................. 76
Hình 3.14: Hàm thành viên Sigmoidal .................................................... 77
Hình 3.15: Hàm thành viên đối xứng ...................................................... 79
Hình 3.16: Nơ ron mờ AND .................................................................... 80
Hình 3.17: Nơ ron mờ OR ....................................................................... 81
Hình 3.18: Suy diễn 89 luật với 160 đầu vào .......................................... 83
Hình 4.1 : Thuật toán lấy mẫu ký tự....................................................... 87
Hình 4.2 : Huấn luyện mạng nơ ron ....................................................... 89
Hình 4.3 : Ba mẫu chữ cần học .............................................................. 92
Hình 4.4 : Ký tự cần nhận dạng.............................................................. 93
Hình 4.5 : Giao diện chương trình nhận dạng ..................................... 102
lời mở đầu
Sự phát triển nhanh chóng của các ngành khoa học trong khoảng ba
thập kỷ trở lại đây đà tạo ra các thiết bị máy móc ngày càng tinh vi, hiện đại
hơn. Nếu như các thiết bị trước đây chỉ thực hiện các lệnh đơn giản, cố định,
đầu vào luôn yêu cầu chính xác và không tích lũy kinh nghiệm trong quá trình
hoạt động thì ngày nay đà có các hệ thống thông minh có thể thực hiện được
một hoặc một số các nhiệm vụ giống con người.
Việc thông minh hóa các hệ thống máy móc đà tạo ra các hệ thống
đặc biệt có thể làm thay con người trong việc giải quyết nhiều bài toán kỹ
thuật với độ chính xác và ổn định tương đối cao. Do vậy, nhu cầu xây dựng
các hệ thống thông minh hóa trong mäi lÜnh vùc kü tht cịng nh trong
cc sèng ngµy càng lớn.
Để xây dựng được các hệ thống như vậy, ngêi ta ®· ®a ra rÊt nhiỊu lý
thut xư lý tín hiệu. Trong đó hai lý thuyết quan trọng là lý thuyết về mạng
nơ ron trên cơ sở mô phỏng mạng nơ ron sinh học của con người cùng khả
năng rút kinh nghiệm trong quá trình làm việc và lý thuyết logic mờ có khả
năng hỗ trợ các quyết định. Trên cơ sở hai lý thuyết mạng nơ ron và lý thuyết
mờ này, người ta cũng xây dựng các hệ thống lai nhằm tận dụng các ưu thế
vượt trội của mỗi loại, một hệ thống như vậy được gọi là mạng nơ ron mờ.
Mạng nơ ron mờ đÃ, đang và sẽ được sử dụng trong rất nhiều lĩnh vực
kỹ thuật và trong cuộc sống. Các nghiên cứu về mạng nơ ron mờ tuy không
mới nhưng vẫn được sự quan tâm của rất nhiều nhà nghiên cứu.
Nhận dạng câu chữ in tiếng Việt là một trong những ứng dụng của
mạng nơ ron mờ, việc nhận dạng và xử lý các câu chữ in trên các ảnh văn bản
sẽ hỗ trợ rất nhiều trong việc lưu trữ và xử lý các tài liÖu.
Với các lý do trên, cùng với sự hướng dẫn tận tình của Thầy giáo
PGS.TS. Lê Bá Dũng, tôi đà thực hiện và hoàn thành luận văn tốt nghiệp cao
học ứng dụng mạng nơ ron mờ cho nhận dạng câu chữ in tiếng Việt.
Đề tài gồm có các phần sau:
Chương 1: Tổng quan về nhận dạng chữ
Chương 2: Lý thuyết mạng thông minh
Chương 3: Mạng nơ ron mờ và bài toán nhận dạng chữ
Chương 4: Thiết kế ứng dụng
Do khả năng cũng như thời gian còn hạn chế nên luận văn không thể
tránh khỏi các sai sót. Kính mong nhận được sự chỉ bảo của thầy cô và các ý
kiến đóng góp của bạn bè để luận văn được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
1
Chương I: Tổng quan về nhận dạng chữ
1.1. Khái niệm
Nhận dạng chữ là quá trình tách ảnh chữ cần nhận dạng ra khỏi một
bức ảnh và xác định đúng chữ cần nhận dạng để lưu hoặc để xử lý.
Để nhận dạng được chữ thì cần quá trình xử lý ảnh, trên cơ sở ảnh của
chữ cần nhận được mới tiến hành nhận dạng.
Xử lý ảnh là một quá trình thao tác trên ảnh bao gồm: tạo ra ảnh, thay
đổi các thông tin trên ảnh, tăng cường và khôi phục lại ảnh, phát hiện các đặc
tính, trích chọn các đặc tính ảnh,...
1.2. Cấu trúc chung của hệ nhận dạng chữ
Một hệ thống nhận dạng chữ thường bao gồm các khối sau:
+ Xử lý ảnh văn bản
+ Nhận dạng
Văn bản
Quét và lưu ảnh
Xử lý ảnh văn bản
Huấn luyện mẫu
Nhận dạng
Xử lý sau nhận dạng
Lưu và trình bày lại văn bản
Hình 1.1: Cấu trúc chung hệ nhận dạng chữ
2
+ Huấn luyện mẫu
+ Xử lý sau nhận dạng
1.2.1. Quét và lưu ảnh
Thực hiện thu thập ảnh đầu vào thông qua các thiết bị thu nhận ảnh,
thông thường là các scanner. Ngồi ra, hệ thống cũng có thể nhận ảnh thơng
qua các bút điện tử, bàn số hố,...
1.2.2. Giai đoạn xử lý sơ bộ
Đây là giai đoạn rất quan trọng, ảnh hưởng trực tiếp tới độ chính xác
của thuật tốn nhận dạng. Giai đoạn này cần phải thực hiện những công việc
sau:
+ Tiền xử lý văn bản: nâng cao chất lượng ảnh cần xử lý thông qua các
phương pháp khử nhiễu, tách đường biên, làm trơn biên, xoay văn bản,... Do
dung lượng xử lý ở giai đoạn này khá lớn nên nó làm chậm tốc độ xử lý của
hệ thống. Vì vậy, tùy chất lượng ảnh được lưu và tốc độ xử lý cần thiết mà ta
có thể chỉ lựa chọn một vài phương pháp nâng cao chất lượng ảnh.
+ Tách ảnh ký tự: việc nhận dạng phải tiến hành với từng ký tự, do vậy
cần phải tách và cô lập được từng ảnh ký tự đơn ra khỏi ảnh văn bản thì mới
nhận dạng được ký tự đó trong quá trình nhận dạng.
Quá trình tách chữ được tiến hành qua ba bước: tách từ ảnh văn bản ra
ảnh các dòng, tách ảnh từng từ ra khỏi ảnh dòng và tách từng ảnh ký tự ra
khỏi ảnh từ.
1.2.3. Nhận dạng ký tự
Sau giai đoạn xử lý văn bản, ta sẽ được các ảnh của ký tự. Khối nhận
dạng sẽ thực hiện chức năng chuyển đổi ảnh của ký tự thành ký tự được biểu
diễn trong máy. Do vậy, kết quả nhận dạng phụ thuộc rất nhiều vào việc xử lý
ảnh văn bản trước đó.
1.2.4. Huấn luyện mẫu
3
Do khi xây dựng hệ thống thì hệ thống chưa có hết các mẫu có trong
thực tế nên cần huấn luyện các mẫu mới trong quá trình làm việc để nâng cao
chất lượng nhận dạng. Việc dạy các mẫu mới là cần thiết cho việc nâng cao
chất lượng hệ thống. Tuy nhiên, tuỳ theo kỹ thuật nhận dạng được áp dụng mà
đôi khi người dùng không được huấn luyện mẫu để tránh hỏng cơ sở dữ liệu
sẵn có.
1.2.5. Xử lý sau nhận dạng
Do kiểu font chữ, kích thước font của các ký tự đưa vào nhận dạng có
thể khác nhau, hơn nữa các ảnh văn bản có thể chứa nhiễu nên dễ xảy ra hiện
tượng nhập nhằng giữa các ký tự. Các kỹ thuật xử lý sau nhận dạng được đưa
ra để tăng khả năng nhận dạng đúng ký tự. Giai đoạn này thường dùng các
phân tích về mặt ngữ nghĩa, logic, văn phạm của tài liệu để chọn ký tự có khả
năng đúng nhất.
1.2.6. Lưu và trình bày lại văn bản
Các ký tự sau khi nhận dạng được ghép thành từ, sau đó các từ được
ghép thành dịng và các dòng được ghép lại thành văn bản. Văn bản nhận
được được hiển thị lên màn hình hoặc lưu vào trong một file văn bản tuỳ theo
yêu cầu của người dùng.
1.3. Các phương pháp nhận dạng truyền thống
1.3.1. Đối sánh mẫu
Đây là phương pháp khá cổ điển, được phát triển từ những năm 60. Nội
dung chủ yếu của phương pháp này là mẫu cần nhận dạng được chia nhỏ
thành n x m vùng khác nhau. Tại mỗi vùng, ta thực hiện tính tổng số điểm
đen. Nếu giá trị của chúng lớn hơn một ngưỡng nào đó thì vùng đó được gọi
là vùng đen và nếu giá trị của chúng nhỏ hơn ngưỡng đó thì đây là vùng trắng.
Q trình nhận dạng được thực hiện nhờ một cây quyết định, tại đó mỗi nút là
một câu hỏi: “vùng tương ứng có phải là vùng đen hay không?”.
4
Phương pháp này khá đơn giản, tuy nhiên nếu số lượng vùng quá lớn
thì độ phức tạp sẽ tăng khá nhiều và tỏ ra kém hiệu quả khi thay đổi kiểu chữ.
1.3.2. Đối sánh từng điểm xuất phát từ trọng tâm
Sau khi cô lập chữ ra khỏi văn bản, trọng tâm chữ được tính tốn và
xác định tọa độ. Tiếp đó, chữ mới và chữ chuẩn được đối sánh với nhau từng
pixel một theo chiều từ trọng tâm ra ngoài biên. Các hình vành khăn lồng
nhau có trọng tâm tạo thành các lớp pixel có cùng trọng số.
Khi đó khoảng cách giữa hai điểm x và x, được định nghĩa:
0 nếu x = x’
DIS ( x, x' ) =
nếu x ≠ x’ với ω i là trọng số của lớp chứa x (1.1)
ωi
Khoảng cách giữa hai ký tự X và X’ được định nghĩa:
(
)
DIS X , X ' =
∑ DIS (x, x )
'
(1.2)
x∈ X , x ' ∈ X
Ký tự X được gọi là ký tự X’ nếu DIS(X,X’) < ε với ε là hằng số cho
trước.
Phương pháp này thực hiện khá nhanh nhưng khi chất lượng của ảnh
đầu vào hơi thấp, các điểm của chữ mất tương đối nhiều, làm lệch trọng tâm
thì kết quả nhận dạng rất kém.
1.3.3. Đối sánh điểm cắt dọc và cắt ngang
Đây là thuật toán phát triển dựa trên phương pháp đối sánh từng điểm
từ trọng tâm với mục đích khắc phục những thiếu sót của thuật tốn trên.
Trong phương pháp này người ta tính xem trên từng hàng, mỗi hàng cắt chữ
tại bao nhiêu điểm, các giá trị này được lưu vào một véc tơ và loại bỏ các giá
trị 0 ở đầu và cuối, tương tự đối với các cột. Sau đó véc tơ này được đem so
sánh với véc tơ tương ứng được xây dựng từ một tập mẫu chuẩn. Một mẫu
được coi là mẫu chuẩn nếu véc tơ đó là tập con của véc tơ chuẩn và ngược lại.
5
Phương pháp này đơn giản cho tốc độ cao, kết quả không bị ảnh hưởng
bởi mất các điểm ở biên chữ. Song nó địi hỏi phải có một font chữ chuẩn.
Ví dụ: Giả sử chữ được cơ lập có kích thước WidthChar và
HeightChar, chúng ta hãy duyệt theo chiều ngang để tìm điểm cắt ngang.
Gọi Hi là số điểm cắt ngang tại dòng i, vậy tập các điểm cắt ngang sẽ là một
dãy ký hiệu: H1, H2, ..., HHeightChar.
Gọi Vj là số điểm cắt dọc tại dòng j, vậy tập các điểm cắt dọc sẽ là một
dãy ký hiệu: V1, V2, ..., VWidthchar.
Bỏ các phần tử bằng 0 ở đầu và cuối hai dãy chúng ta sẽ đạt được hai
dãy con là: H=H1H2H3... HHeightChar và V=V1V2V3... VWidthchar. Khi đó quy tắc
nhận dạng sẽ được xác định như sau:
Hx'∈ Hx or Hx ∈ Hx'
Vx'∈ Vx or Vx ∈ Vx'
X’ được xem là X nếu:
(1.3)
Trong hình 1.2 có: H = 22222222221112222222222
V = 2111311111131112
Hình 1.2: Mơ hình phóng lớn ảnh ký tự H
1.3.4. Phương pháp thống kê giao điểm
Phương pháp này gần giống như đối sánh với các điểm cắt dọc và cắt
ngang, ở đây người ta xây dựng 4 véc tơ. Ngoài hai véc tơ thẳng đứng (V) và
nằm ngang (H) cịn có hai véc tơ 450 (I) và 1350 (D), trên mỗi hướng chỉ cần
xét những đường quét cắt ký tự từ 1 đến 4 điểm. Cuối cùng ta thu được véc tơ
đặc trưng chứa tham số cho cả 4 véc tơ trước. Quá trình nhận dạng dựa vào
một tập quyết định.
6
Xét trên hình 1.2, ngồi H và V như hình vẽ ta cịn có hai vector D và I
như sau:
D = 11111111111112222333333221111111111111111111
I = 11111111111112233333322221111111111111111111
1.3.5. Phương pháp biểu diễn cấu trúc chữ qua văn phạm và nhận dạng
cấu trúc chữ
Cơ sở của nó dựa trên lý thuyết ngơn ngữ hình thức, lý thuyết phân tích
cú pháp để có thể nhận dạng các biểu diễn đặc trưng với các hình thức khác
nhau của một ký tự bất kỳ. Phương pháp này bước đầu đặt vấn đề giải quyết
bài toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay vẫn còn rất nhiều vấn
đề liên quan đến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa
xây dựng được các thuật toán phổ dụng.
1.3.6. Phương pháp nhận dạng cấu trúc chữ
Phương pháp này bao gồm phân hoạch bảng ký tự và trích chọn các đặc
trưng của ký tự.
+ Phân hoạch bảng ký tự: Căn cứ vào tiêu chuẩn cấu trúc của các ký tự
như số thành phần liên thông, số chu trình, số và vị trí các chạc ba, ... rồi phân
hoạch thành tập có 1,2 điểm kết thúc...
Sau khi phân hoạch, ta sẽ có một bảng phân hoạch đầy đủ cho tất cả các
ký tự và căn cứ vào đặc điểm cấu trúc này để nhận dạng. Tuy nhiên với tập
phân hoạch trên vẫn chưa thực hiện được mục tiêu đặt ra là làm các tập nhỏ
nhất, giải pháp tạo ra các tập mịn hơn đó là dựa vào một số đặc trưng khác
như điểm cắt dọc, cắt ngang, khoảng cách của 2 lớp, lớp cắt dọc, ngang, ...
+ Trích chọn các đặc trưng: Các đặc trưng của ký tự cần trích chọn bao
gồm các điểm kết thúc, các chạc ba. Điểm kết thúc chỉ có duy nhất một trong
các láng giềng là đen (a,b). Điểm chạc ba là điểm có tối thiểu ba láng giềng là
đen (c,d,e). Để nhận dạng tốt, trước khi đem nhận dạng các ký tự cần được
làm mảnh.
7
(a)
(b)
(c)
(d)
(e)
Hình 1.3: Các điểm kết thúc, điểm chạc ba
Chương trình duyệt theo từng dịng để tìm kiếm một cột đen nào đó
trên ảnh, sau đó q trình duyệt lại được bắt đầu từ điểm vừa tìm ra bằng cách
lần theo cạnh. Để tăng độ chính xác, người ta cịn kết hợp phương pháp này
với phương pháp thống kê giao điểm, đặc biệt là khi nhận dạng chữ có dấu.
1.4. Kỹ thuật xử lý ảnh dùng cho nhận dạng
1.4.1. Thu nhận ảnh
1.4.1.1. Thiết bị thu nhận ảnh:
Hai thiết bị thu nhận ảnh thường được sử dụng là Camera và Scanner.
Chúng có nhiều loại khác nhau nhưng cấu tạo và nguyên lý hoạt động của
chúng thì nhìn chung là giống nhau.
* Camera:
Camera là thiết bị thu hình phổ biến nhất. Camera thu nhận các tia sáng
phản xạ từ các vật trong tự nhiên và hội tụ chùm sáng đó trên một màn nhận
ảnh với các phần tử cảm nhận ánh sáng tạo thành. Cấu trúc của Camera nhìn
chung có thể được chia thành 3 phần:
+ Phần quang học: Bao gồm các thấu kính hội tụ, các kính lọc và cơ
cấu điều chỉnh khả năng thu nhận và hội tụ ánh sáng.
+ Phần cảm nhận ánh sáng: Là một màn nhận ảnh với các phần tử cảm
nhận ánh sáng. Đây là bộ phận quan trọng nhất của Camera với chức năng
chuyển đổi quang - điện và tạo dịng tín hiệu Video.
+ Phần xử lý tín hiệu Video thu được và các mạch điều khiển đồng bộ
hệ thống: Với các Camera số thì phần này có chức năng chuyển đổi tín hiệu
ảnh sang dạng số. Hiện nay trong xử lý ảnh số, người ta thường dùng Camera
8
số CCD (Charge couple Device). Tên của Camera được gọi theo tên của bộ
phận cảm nhận ảnh (Image Sensors). CCD là một thiết bị mạch tổ hợp của các
phần tử tổ hợp ánh sáng (photosensitive elements). Mỗi phần tử này sẽ cảm
nhận cường độ ánh sáng tương ứng với một điểm ảnh( tức là một phần tử ảnh)
và biến đổi chúng thành tín hiệu điện. Các phần tử này được bố trí thành
mảng hai chiều. Như vậy mật độ của các phần tử này sẽ quyết định chất lượng
thu nhận ảnh. Ví dụ trong một Camera CCD độ phân giải cao thường là 486
dòng với 768 phần tử cảm quang được bố trí trong mắt lưới kích thước
10.5x11µm.
* Scanner:
Là một thiết bị thu nhận và chuyển đổi hình ảnh thu được thành ảnh đồ
hoạ dạng lưới (raster graphic image). Các loại đối tượng dùng scanner
thường là các văn bản, các bức ảnh hoặc tranh vẽ. Ngồi ra thì ngày nay cịn
có cả các scanner qt vân tay.
Cấu trúc của Scanner có thể kể đến 2 thành phần chính là:
+ Các phần tử cảm nhận ánh sáng: Được bố trí trên một băng với mật
độ cao. Chúng thực hiện nhiệm vụ quét từng dòng ảnh và chuyển các giá trị
nhận được thành các tín hiệu điện. Băng này cũng được gọi là CCD.
+ Phần cơ khí: Nhằm tạo ra chuyển động tịnh tiến của băng quét dọc
theo vật cần xử lý. Phần này cũng bao gồm các cơ cấu điều chỉnh hoạt động
của thiết bị.
Khi bắt đầu thực hiện thu nhận ảnh thì đối tượng sẽ được chiếu sáng
bởi một nguồn sáng trong máy quét và bộ phận điều khiển sẽ thực hiện một
chuyển động tịnh tiến để đưa băng quét CCD quét qua đối tượng một lượt và
thu nhận ánh sáng phản xạ từ đối tượng. Máy Scanner được nối với máy tính
và các tín hiệu thu nhận được sẽ được gửi về xử lý tại máy tính. Tại đây các
mạch điều khiển xử lý và các phần mềm sẽ thực hiện chuyển đổi, sắp xếp các
tín hiệu thu được thành các ảnh đồ họa.