Tải bản đầy đủ (.pdf) (69 trang)

Hiệu chỉnh mẫu và nhận dạng trong nhập điểm tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.6 MB, 69 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






LÊ QUỐC TUẤN






HIỆU CHỈNH MẪU VÀ NHẬN DẠNG
TRONG NHẬP ĐIỂM TỰ ĐỘNG



LUẬN VĂN THẠC SỸ















HÀ NỘI, NĂM 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






LÊ QUỐC TUẤN





HIỆU CHỈNH MẪU VÀ NHẬN DẠNG
TRONG NHẬP ĐIỂM TỰ ĐỘNG


Ngành: Công nghệ thông tin.
Chuyên ngành: Hệ thống thông tin.
Mã số: 60.48.05.

LUẬN VĂN THẠC SỸ


NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Đỗ Năng Toàn.









HÀ NỘI, NĂM 2011
MỤC LỤC
PHẦN MỞ ĐẦU 3
CHƢƠNG 1. KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG BIỂU MẪU 5
1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH. 5
1.1.1. Các giai đoạn của một quá trình xử lý ảnh. 5
1.1.2. Mô tả ảnh 7
1.1.3. Một số vấn đề trong xử lý ảnh 9
1.2. NHẬN DẠNG BIỂU MẪU. 18
1.2.1. Phân tách vùng chứa dữ liệu. 18
1.2.2. Tách dòng và tách kí tự. 21
1.2.3. Trích rút đặc trƣng. 22
CHƢƠNG 2. MỘT SỐ KỸ THUẬT HIỆU CHỈNH BIỂU MẪU 23
2.1. HIỆU CHỈNH ĐỘ DỊCH CHUYỂN 23
2.2. HIỆU CHỈNH GÓC LỆCH 25
2.1.1. Phƣơng pháp chiếu nghiêng 25
2.1.2. Phƣơng pháp biến đổi Hough 27
2.1.3. Phƣơng pháp ngƣời láng giềng gần nhất 28
CHƢƠNG 3. MẠNG NƠRON VÀ NHẬN DẠNG BIỂU MẪU 30
3.1. MẠNG NƠRON NHÂN TẠO 30

3.1.1. Mô hình toán học 31
3.1.2. Phân loại 32
3.1.3. Các đặc trƣng của mạng nơron nhân tạo 34
3.1.4. Một số mô hình mạng nơron cơ bản 37
3.2. NHẬN DẠNG BIỂU MẪU 41
3.2.1. Thiết kế mạng nơron 41
2

3.2.2. Lƣợc đồ huấn luyện mạng 43
3.2.3. Thuật toán BackPropagation 44
3.2.4. Nhận dạng và đƣa vào cơ sở dữ liệu 46
CHƢƠNG 4. CHƢƠNG TRÌNH THỬ NGHIỆM 47
4.1. Chuyển đổi sang ảnh nhị phân. 47
4.2. Loại bỏ nhiễu 49
4.3. Tách dòng và trích rút vùng cần lấy dữ liệu. 49
4.4. Tách ký tự trên một dòng. 51
4.5. Mô tả chƣơng trình chính. 52
PHẦN KẾT LUẬN 66
TÀI LIỆU THAM KHẢO 67













3

PHẦN MỞ ĐẦU
Công nghệ thông tin đƣợc xem là ngành mũi nhọn của các quốc gia, đặc
biệt là các quốc gia đang phát triển, tiến hành công nghiệp hóa - hiện đại hóa nhƣ
ở nƣớc ta. Sự bùng nổ thông tin và sự phát triển mạnh mẽ của công nghệ kỹ
thuật số, yêu cầu muốn phát triển thì phải tin học hóa các ngành, các lĩnh vực.
Cùng với sự phát triển nhanh chóng về phần cứng máy tính, các phần
mềm càng trở nên đa dạng, phong phú, hoàn thiện hơn và hỗ trợ hiệu quả hơn
cho con ngƣời. Các phần mềm hiện nay ngày càng mô phỏng khá nhiều
nghiệp vụ phức tạp, hỗ trợ cho ngƣời dùng sử dụng thuận tiện, thời gian xử lý
nhanh chóng và một số nghiệp vụ tự động hóa cao.
Hiện nay, trong hầu hết các cơ sở giáo dục đào tạo của nƣớc ta đều
đƣợc trang bị phần mềm quản lý đào tạo nhằm nâng cao chất lƣợng giảng dạy
và quản lý học sinh, sinh viên, giúp giảm bớt một phần lớn công việc của đội
ngũ cán bộ quản lý giáo dục. Tuy nhiên việc cập nhật điểm thi vào hệ thống
phần mềm quản lý giáo dục vẫn còn thủ công, không những làm tốn nhiều
công sức của đội ngũ giáo vụ mà còn có nhiều sai sót đặc biệt với những
trƣờng có số lƣợng môn học và số sinh viên lớn.
Từ những lý do trên, tôi đã chọn đề tài “HIỆU CHỈNH MẪU VÀ
NHẬN DẠNG TRONG NHẬP ĐIỂM TỰ ĐỘNG” với mong muốn phần
nào giải quyết đƣợc phần nào những khó khăn đó. Thay vì phải nhập điểm thủ
công, giờ đây việc nhập điểm trở nên dễ dàng, thuận tiện hơn với chƣơng
trình tự động cập nhật điểm. Các công đoạn chính để cập nhật điểm tự động
bao gồm:
- Phiếu điểm viết tay của giảng viên qua máy quét thu đƣợc hình ảnh và
đƣa vào máy tính.
4


- Phân vùng ảnh thành 2 vùng ảnh cần thiết: Mã sinh viên (hoặc số báo
danh) và Điểm thi.
- Áp dụng các kỹ thuật tiền xử lý ảnh (nâng cao chất lƣợng ảnh, chuyển
sang ảnh nhị phân, loại bỏ nhiễu, ).
- Nhận dạng thông qua mạng nơron với các mẫu thu thập đƣợc.
- Cập nhật vào Cơ sở dữ liệu.
Việc cập nhật điểm tự động rõ ràng đã giải quyết đƣợc những khó khăn
và bất tiện của chƣơng trình quản lý điểm thông thƣờng để lại.
Nội dung của luận văn gồm có 4 chƣơng:
Chƣơng 1. Khái quát về xử lý ảnh và nhận dạng biểu mẫu.
Chƣơng 2. Một số kỹ thuật hiệu chỉnh biểu mẫu.
Chƣơng 3. Mạng nơron và nhận dạng biểu mẫu.
Chƣơng 4. Chƣơng trình thử nghiệm.
5

CHƢƠNG 1. KHÁI QUÁT VỀ XỬ LÝ ẢNH
VÀ NHẬN DẠNG BIỂU MẪU
1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH.
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị
giác máy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này. Hai nhiệm
vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lƣợng thông tin hình ảnh
và xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị
giác vào điều khiển.
Đã có rất nhiều công trình nghiên cứu tại nhiều quốc gia từ năm 1920
đến nay về xử lý ảnh đã góp phần thúc đẩy tiến bộ trong lĩnh vực này lớn
mạnh không ngừng.
Quá trình bắt đầu từ việc thu nhận ảnh nguồn (từ các thiết bị thu nhận
ảnh dạng số hoặc tƣơng tự) gửi đến máy tính. Dữ liệu ảnh đƣợc lƣu trữ ở định
dạng phù hợp với quá trình xử lý. Ngƣời lập trình sẽ tác động các thuật toán
tƣơng ứng lên dữ liệu ảnh nhằm thay đổi cấu trúc ảnh phù hợp với các mục

đích khác nhau.
1.1.1. Các giai đoạn của một quá trình xử lý ảnh.
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay
một hệ thống xử lý ảnh trong nghiên cứu, đào tạo, trƣớc hết chúng ta hãy xem
xét các bƣớc cần thiết trong xử lý ảnh.
Thu nhận
ảnh
Tách các
đặc tính
Phân đoạnXử lý trước Phân loại

Hình 1.1. Các giai đoạn xử lý ảnh
6

a. Thu nhận ảnh.
Ảnh có thể thu nhận qua camera, thông thƣờng ảnh thu nhận qua
camera là tín hiệu tƣơng tự, nhƣng cũng có thể là tín hiệu số hóa. Ảnh cũng
có thể thu nhận từ vệ tinh qua các bộ cảm ứng hay ảnh, tranh đƣợc quét trên
scanner. Sau đó đƣợc lƣu trữ trong máy tính. Gồm có 2 quá trình:
- Biến đổi năng lƣợng quang học sang năng lƣợng điện.
- Biến đổi năng lƣợng điện sang các ma trận.
b. Xử lí trước.
Quá trình xử lí trƣớc thực ra bao gồm nhiều công đoạn nhỏ. Trƣớc hết
là công việc tăng cƣờng ảnh để nâng cao chất lƣợng ảnh. Do những nguyên
nhân khác nhau: có thể do chất lƣợng thiết bị thu nhận ảnh, do nguồn sáng
hay do nhiễu ảnh có thể bị suy biến. Do vậy cần phải tăng cƣờng và khôi phục
lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần
giống nhất với trạng thái gốc (trạng thái trƣớc khi ảnh bị biến dạng). Nhằm
các mục đích phục vụ cho các bƣớc tiếp theo.
Những mục đích riêng biệt có thể đặt ra cho quá trình xử lý trƣớc là:

+ Thực hiện điều chỉnh độ chiếu sáng để khắc phục hậu quả của sự
chiếu sáng không đồng đều.
+ Giảm nhỏ thành phần nhiễu.
+ Cải thiện độ tƣơng phản của ảnh màu do khuôn màu không tốt.
+ Hiệu chỉnh độ méo giá trị xám.
+ Loại bỏ tính không đồng thể của ảnh gây nên từ tính không đồng bộ
của lớp nhạy quang của hệ thống thu nhận ảnh.
+ Chuẩn hóa độ lớn, dạng và màu.
7

+ Điều chỉnh bộ lọc để khuếch đại các tần số với những thông tin quan
trọng đƣợc khuếch đại và nén đi các tần số khác.
c. Phân đoạn.
Là quá trình phân chia các đối tƣợng cần khảo sát ra khỏi phần nội
dung còn lại của ảnh, phân tách các đối tƣợng tiếp giáp nhau và phân tách
những đối tƣợng riêng biệt thành những đối tƣợng con. Một phƣơng pháp
phân đoạn ảnh là sử dụng một ngƣỡng giá trị xám để phân tách ảnh thành đối
tƣợng và nền (những điểm dƣới ngƣỡng xám thuộc về nền, ngƣợc lại thuộc về
đối tƣợng).
d. Tách ra các đặc tính.
Dựa trên các thông tin thu nhận đƣợc qua quá trình phân đoạn, kết hợp
với các kỹ thuật xử lý để đƣa ra các đặc trƣng, đối tƣợng ảnh cũng nhƣ các
thông tin cần thiết trong quá trình xử lý. Nhờ các đặc tính có đƣợc từ ảnh ta
có thể phân loại các đối tƣợng khác nhau của ảnh.
e. Phân loại ảnh.
Thực hiện công việc sắp xếp một đối tƣợng vào một lớp đối tƣợng cho
trƣớc. Để giải quyết bài toán này thì các đặc tính có ý nghĩa phải đƣợc lựa
chọn. Ta tìm thấy các đặc tính có ý nghĩa khi ta phân tích các mẫu đƣợc lựa
chọn từ những đối tƣợng khác nhau.
1.1.2. Mô tả ảnh.

a. Phần tử ảnh (Pixel - Picture Element).
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng.
Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hóa ảnh. Trong
quá trình số hóa, ngƣời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông
qua quá trình lấy mẫu (rời rạc hóa về không gian) và lƣợng hóa thành phần giá
8

trị mà thể về nguyên tắc bằng mắt thƣờng không phân biệt đƣợc hai điểm kề
nhau. Trong quá trình này, ngƣời ta sử dụng khái niệm Picture element mà ta
quen gọi hay viết là Pixel - phần tử ảnh. Mỗi Pixel bao gồm một cặp tọa độ chỉ
vị trí (x,y) và một mức xám nhất định. Mật độ Pixel trên một ảnh số cho ta xác
định đƣợc độ phân giải của ảnh. Ảnh có độ phân giải càng cao thì càng rõ nét
và ngƣợc lại. Ví dụ một ảnh số có độ phân giải là 800 x 600 Pixel nghĩa là có
800 điểm theo chiều ngang và 600 điểm theo chiều dọc.
b. Mức xám (Gray Level).
Mức xám của điểm ảnh là kết quả sự biến đổi tƣơng ứng một cƣờng độ
sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lƣợng hóa).
Cách mã hóa kinh điển thƣờng dùng 16, 32 hay 64 mức. Mã hóa 256 mức là
phổ dụng nhất vì 2
8
= 256 (0, 1, , 255), nên với 256 mức mỗi pixel sẽ đƣợc
mã hóa bởi 8 bit.
c. Ảnh.
Là tập hợp hữu hạn các điểm ảnh, thƣờng đƣợc biểu diễn bằng một
mảng hai chiều I(n,m) với n là số hàng, m là số cột. Ta ký hiệu P(x,y) là một
điểm ảnh tại vị trí (x, y). Số lƣợng điểm ảnh trên mỗi hàng hoặc các hàng xác
định độ phân giải của ảnh.
d. Phân loại ảnh.
 Ảnh nhị phân:
Giá trị xám của tất các các điểm ảnh chỉ nhận giá trị 1 hoặc 0. Nhƣ vậy

mỗi điểm ảnh trong ảnh nhị phân đƣợc biểu diễn bới 1 bit.
 Ảnh xám:
Giá trị xám nằm trong khoảng 0 255. Nhƣ vậy mỗi điểm ảnh trong ảnh
nhị phân đƣợc biểu diễn bới 1 byte.

9

 Ảnh mầu:
Ta quan tâm và xử lý ảnh với mô hình ba màu, ảnh theo mô hình thụ
cảm sẽ chuyển sang mô hình ba màu trƣớc khi xử lý.
- Hệ mầu RGB (RED – GREEN - BLUE): Thông tin con ngƣời thu
nhận bằng hình ảnh đều bắt nguồn từ thị giác. Mắt con ngƣời có khả năng
phân biệt đƣợc rõ nét 3 mầu: đỏ, lục, lam. Các ảnh mầu nói chung đều bao
gồm 3 ảnh xám đối với màu nền đỏ, lục và lam. Tất các màu sắc trong tự
nhiên đều có thể tổng hợp từ 3 thành phần mầu nói trên. Mô hình RGB còn
gọi là mô hình cộng tính, mỗi mức xám của ảnh sẽ đƣợc biểu diễn bởi 3 thành
phần: R, G, B (Mỗi thành phần đƣợc biểu diễn bởi 1 byte).
- Hệ mầu CMY(CYAN – MAGENTA - YELLOW): là phần bù của
hệ mầu RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1). Hệ mầu này
thƣờng dùng để xuất thông tin mầu ra các thiết bị nhƣ máy in màu.
- Hệ mầu CMYK(CYAN – MAGENTA – YELLOW - BLACK):
Xuất phát từ hệ mầu CMY với K là độ đậm nhạt của mầu. K. Với C, M, K
đƣợc xác định từ CMY(C1, M1, Y1) nhƣ sau: K = min(C1, M1, Y1, K); C =
C1-K; M=M1-K; Y= Y1-K.
1.1.3. Một số vấn đề trong xử lý ảnh.
Ta nhận thấy một ảnh màu RGB bao gồm 3 ảnh xám: R, G và B. Nhƣ
vậy để xử lý ảnh mầu ta phải xử lý trên 3 ảnh xám R, G, B của nó và kết hợp
lại sẽ có kết quả nhƣ mong muốn.
a. Kỹ thuật tăng, giảm độ sáng.
Tăng cƣờng độ sáng của một ảnh có thể đƣợc hiểu nhƣ sự phát sáng

toàn bộ ảnh. Hay nói một cách cụ thể đó là sự phát sáng toàn bộ của mọi Pixel
trong ảnh đó.
Đây là một kỹ thuật khá đơn giản: để tăng thêm độ sáng, tất cả các
10

Pixel của ảnh cần đƣợc cộng thêm giá trị điều chỉnh vào mọi kênh màu RGB.
Tuy kỹ thuật này đơn giản nhƣng nó đem lại hiệu quả khá cao và rất hay đƣợc
sử dụng trong lĩnh vực xử lý ảnh. Nó giúp ích rất nhiều trong các ngành nhƣ y
học, địa lý, quân sự, trong việc phân tích và nhận dạng.
Điều chỉnh độ sáng không chỉ đƣợc sử dụng để làm sáng lên những ảnh
tối mà còn đƣợc sử dụng để làm tối đi các ảnh sáng. Một ảnh sáng hoàn toàn
đơn giản là tất cả các Pixel đều màu trắng trong khi một ảnh tối hoàn toàn là
tất cả các Pixel đều màu tối. Sự khác nhau duy nhất trong làm tối một ảnh là
trừ đi giá trị điều chỉnh vào mỗi kênh màu RGB của ảnh.
Đối với mỗi kênh màu, chúng chỉ nhận các giá trị [0 255]. Chính vì thế
khi tăng cƣờng hay giảm độ sáng của một ảnh ta phải chú ý đến ngƣỡng của
các kênh. Điều đó có nghĩa là với mỗi kênh màu của một Pixel nếu nhỏ hơn 0
thì ta phải gán bằng 0 và nếu lớn hơn 255 thì ta phải gán bằng 255. Biểu thức
cho kỹ thuật Brightness có dạng:
g(x,y) = f(x,y) + b
Trong đó b là hằng số cộng thêm vào giá trị màu f(x,y). Độ sáng của
ảnh tăng nếu b > 0, và giảm bớt nếu b < 0.



Ảnh gốc
Ảnh giảm độ sáng
Ảnh tăng độ sáng
Hình 1.2. Tăng giảm độ sáng


11

b. Kỹ thuật tăng, giảm độ tương phản.
Độ tƣơng phản (Contrast) thể hiện sự thay đổi cƣờng độ sáng của đối
tƣợng so với nền, hay nói cách khác, độ tƣơng phản là độ nổi của điểm ảnh
hay vùng ảnh so với nền.
Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau.
Ở đây, độ sáng để mắt ngƣời dễ cảm nhận ảnh song không phải là quyết định.
Thực tế chỉ ra rằng hai đối tƣợng có cùng độ sáng nhƣng đặt trên hai nền khác
nhau nhau sẽ cho cảm nhận khác nhau. Vì vậy ta có thể thay đổi độ tƣơng
phản của ảnh sao cho phù hợp.
Việc làm tăng độ tƣơng phản rất hữu ích khi tiến hành xử lý trƣớc theo
phƣơng pháp phân ngƣỡng. Bằng việc làm tăng độ tƣơng phản, sự khác nhau
của giá trị nền và đối tƣợng, độ dốc của cạnh đối tƣợng đƣợc tăng lên. Do đó
sau khi làm tăng độ tƣơng phản ta có thể tìm các giá trị màu thích hợp với
một vùng sáng hơn.
Trong một ảnh có độ tƣơng phản cao, có thể xác định đƣợc các viền rõ
ràng và chi tiết khác nhau của ảnh đó đƣợc nổi bật. Còn trong một ảnh có độ
tƣơng phản thấp, tất cả các màu đều gần nhƣ nhau gây khó khăn cho việc xác
định các chi tiết của ảnh.
Biểu thức cho kỹ thuật Contrast có dạng:
g(x,y) = af(x,y)
Trong đó a là hằng số nhân vào giá trị màu tại f(x,y). Độ sáng của ảnh
tăng nếu a > 1, và giảm bớt nếu a < 1.

12





Ảnh gốc
Ảnh giảm độ tương phản
Ảnh tăng độ tương phản
Hình 1.3. Tăng giảm độ tƣơng phản
c. Tách ngưỡng.
Ta chọn hai mức Thấp- Min, Cao-Max và giá trị ngƣỡng λ, khi đó giá
trị các pixel đƣợc định nghĩa lại nhƣ sau:
+ I
new
(x, y) = Max nếu I(x, y) >= λ
+ I
new
(x, y) = Min nếu I(x, y) < λ
d. Chuyển đổi sang ảnh nhị phân
Nhiệm vụ của việc chuyển đổi sang ảnh nhị phân là tách màu của “đối
tƣợng” ra khỏi nền. Biểu đồ hình cột của giá trị mức xám của tài liệu ảnh
thông thƣờng chứa 2 giá trị: giá trị mức cao tƣơng ứng với màu nền trắng và
giá trị nhỏ hơn tƣơng tứng với màu chữ. Vì thế, nhiệm vụ của việc xác định
ngƣỡng giá trị mức xám (giá trị mức xám lớn hơn giá trị ngƣỡng sẽ là màu
trắng, giá trị mức xám nhỏ hơn giá trị ngƣỡng sẽ là màu đen) là xác định một
giá trị thích hợp để việc chuyển đổi từ ảnh xám sang ảnh nhị phân sao cho
lƣợng thông tin mất mát là ít nhất.
Trong đề tài này tôi tính ngƣỡng để chuyển đổi từ ảnh xám sang ảnh
nhị phân theo phƣơng pháp của Otsu. Và việc chuyển đổi từ ảnh xám sang
ảnh nhị phân đƣợc thực hiện theo phƣơng pháp ngƣỡng tổng thể.

13

 Phƣơng pháp ngƣỡng toàn cục
Trong phƣơng pháp sử dụng ngƣỡng toàn cục, giá trị ngƣỡng đƣợc tính

toán từ toàn bộ ảnh. Các điểm ảnh có giá trị mức xám dƣới ngƣỡng sẽ đƣợc
coi nhƣ là “nét bút”; các điểm ảnh có mức xám lớn hơn ngƣỡng đƣợc coi là
“nền”. Quá trình này có thể đƣợc mô tả nhƣ sau:

Trong phƣơng pháp ngƣỡng toàn cục, tôi sử dụng phƣơng pháp Otsu để
tính ngƣỡng của mỗi bức ảnh. Phƣơng pháp của Otsu dựa trên việc phân tích
biểu đồ hình cột mức xám của toàn bộ ảnh và sau đó chọn một giá trị làm giá
trị ngƣỡng phù hợp với việc chuyển đổi ảnh sang ảnh nhị phân.
 Phƣơng pháp Otsu
Trong lĩnh vực xử lý ảnh, phƣơng pháp Otsu đƣợc dùng để tự động
thực hiện việc tính ngƣỡng của một ảnh và sau đó dùng giá trị ngƣỡng vừa
tính đƣợc để chuyển đổi ảnh xám sang ảnh nhị phân.
Thuật toán tính ngƣỡng có thể mô tả nhƣ sau: Các giá trị mức xám của
ảnh đƣợc chia ra làm 2 lớp sau đó tính giá trị ngƣỡng. Chúng ta sẽ tìm giá trị
ngƣỡng nhỏ nhất trong các lớp khác nhau, đƣợc định nghĩa nhƣ là một tổng
các giá trị khác nhau của các lớp;

)()()()()(
2
22
2
11
2
ttttt
w



Trọng số w
i

là xác suất của 2 lớp đƣợc tác riêng biệt bởi ngƣỡng t và
các
2
i

khác nhau của các lớp đó.
Phƣơng pháp Otsu chỉ ra rằng giá trị nhỏ nhất trong một lớp đồng thời
cũng đƣợc coi nhƣ là giá trị lớp nhất giữa 2 lớp.
14

 
2
2121
222
)()()()()()( tttttt
wb



Phƣơng pháp tính ngƣỡng theo Otsu dựa trên một ý tƣởng khá là đơn
giản: Tìm giá trị ngƣỡng mà có giá trị trọng số nhỏ nhất trong các lớp khác nhau.
Điều này cũng tƣơng đƣơng với việc tìm giá trị lớn nhất giữa 2 lớp khác nhau.
Trọng số trong một lớp đƣợc tính nhƣ sau:
)()()()()(
2
21
2
11
2
ttttt

w



Trong đó các xác suất của lớp đƣợc tính nhƣ sau:



t
i
iPt
1
1
)()(





L
ti
iPt
1
2
)()(


Và các giá trị trung bình đƣợc cho bởi công thức:




t
i
t
iiP
t
1
1
1
)(
)(
)(






L
ti
t
iiP
t
1
2
2
)(
)(
)(




Cuối cùng, các lớp khác nhau đƣợc tính theo công thức sau:
 
)(
)(
)()(
1
2
1
1
2
1
t
iP
tit
t
i






 
)(
)(
)()(
2
2

1
2
2
2
t
iP
tit
L
ti






Thuật toán:
- Tính biểu đồ hình cột và xác suất của mỗi cƣờng độ xám.
- Khởi tạo
)0(
i


)0(
i

.

- Tính toán tất cả các trƣờng hợp có thể có giá trị ngƣỡng từ t=1 tới
cƣờng độ mức xám lớn nhất.
- Cập nhật

ii


.

15

- Tính
)(
2
t
b

.

- Giá trị ngƣỡng mong muốn tƣơng đƣơng với giá trị
)(
2
t
b

lớn nhất.
e. Loại bỏ nhiễu
Đối với một tệp tin ảnh thì nhiểu đƣợc định nghĩa là nhƣng thông tin
không có trong ảnh gốc, nhƣng trong quá trình sử dụng các thiết bị để đọc ảnh
vào trong máy tính xuất hiện thêm những thông tin không mong muốn. Việc
xử lý nhiễu tức là loại bỏ các thông tin này ra khỏi ảnh để thuận tiện cho việc
trích rút thông tin phục vụ cho việc xử lý ảnh dễ dàng hơn và chính xác hơn.
 Một số kiểu nhiễu:
Có một số kiểu nhiễu mà chúng ta hay gặp:

Loại nhiễu “salt” và “peper”, các điểm ảnh trong ảnh là những màu hay
cƣờng độ sáng khác nhau so với các điểm xung quanh nó. Đối với những
điểm ảnh là loại nhiễu này thì thông thƣờng giá trị mức xám của chúng không
liên quan tới các điểm ảnh xung quanh nó.
Trong đề tài này, dữ liệu ảnh chủ yếu đƣợc lấy bằng cách scan ảnh, do
đó loại nhiễu phổ biến và thƣờng gặp đó là „salt‟ và „peper‟.
 Các phƣơng pháp lọc nhiễu.
- Sử dụng bộ lọc tuyến tính: Một trong những phƣơng pháp để loại bỏ
nhiễu là kết hợp ảnh gốc (ảnh cần lọc nhiễu) với một mặt nạ lọc thông thấp
hoặc làm mƣợt ảnh. Ví dụ, mặt nạ Gaussian bao gồm các phần tử đƣợc xác
định bởi hàm Gaussion. Sự kết hợp này mang đến giá trị của mỗi điểm ảnh
cân đối với các điểm lân cận nó. Một cách tổng quát, một bộ lọc làm mƣợt
ảnh thiết lập giá trị của mỗi điểm ảnh là giá trị trung bình của chính nó và các
16

điểm ảnh lân cận. Các bộ lọc làm mƣợt ảnh đƣợc sử dụng để loại bỏ vết nhơ
trong ảnh.
- Sử dụng bộ lọc không tuyến tính: Bộ lọc trung bình là một ví dụ về bộ
lọc không tuyến tính, bộ lọc này rất tốt đối với việc loại bỏ các loại nhiễu là
“salt” và “peper”.
Thuật toán để thực thi bộ lọc này nhƣ sau:
- Xét mỗi điểm ảnh cần lọc.
- Sắp xếp giá trị mức xám của các điểm ảnh lân cận theo hƣớng tăng dần.
- Thay thế giá trị mức xám gốc bằng giá trị mức xám ở chính giữa của
dãy vừa sắp xếp.

Hình 1.4. Mô phỏng thuật toán lọc trung vị để loại bỏ nhiễu.
f. Các phép biến đổi hình học
 Phép dịch ảnh
Là sự tịnh tiến gốc tọa độ, trong đó các trục của tọa độ sau phép biến

đổi sẽ di chuyển theo cùng hƣớng, việc phân chia thang trên tọa độ là không
đổi. Gốc tọa độ cũ (-tx, -ty) thì tọa độ (x‟, y‟) đƣợc tính nhƣ sau:
x’ = x - tx y’= y - ty
 Phóng to hoặc thu nhỏ ảnh
Còn đƣợc gọi là sự chia lại thang tọa độ. Khi chia thang tọa độ gốc và
hƣớng đƣợc giữ nguyên, chia thang tiến hành với hệ số chia thang Sx, Sy và
các tọa độ mới đƣợc tính toán theo
17

x’ = x*Sx y’ = y*Sy
 Phép quay ảnh
x1(0,0)
x4(0,h) x3(w,h)
x2(w,0)
W
X4
X3
X2
X1
X1
X4
X3
X2
Ảnh quay
Ảnh quay
sau khi tinh tiến
Ảnh gốc

Hình 1.5. Mô tả phép quay ảnh
Thực ra đây là phƣơng pháp chuyển đổi các Pixel trong ảnh. Do không

làm thay đổi trị màu trong ảnh nên có thể thực hiện phƣơng pháp này trên ảnh
màu cũng nhƣ trên ảnh xám. Một ảnh đƣợc xem nhƣ là một mảng hai chiều,
chuyển đổi lại vị trí các Pixel là sắp xếp lại mảng này. Khi quay thì sự chia
thang giữ nguyên chỉ có hƣớng trục thay đổi. Còn trục mới xuất hiện bằng
cách quay trục cũ đi một góc θ ngƣợc chiều kim đồng hồ, khi đó tọa độ mới
đƣợc theo theo công thức:
x‟ = cosθ + y.sinθ
y‟ = -x.sinθ + y.cosθ
18

Với T là ma trận quay:











100
0cossin
0sin cos


T

Nhƣ vậy, ảnh có kích thƣớc I[W*H]. Khi quay một góc θ thì kích thƣớc

mới sẽ đƣợc tính nhƣ sau:
W_moi= H_cu * |Sin(θ)| + W_cu *| Cos(θ)|;
H_moi = W_cu * |Sin(θ)| + H_cu * |Cos(θ)|;
Khi đó ảnh quay sẽ có kích thƣớc I(W_moi, H_moi). Tọa độ 4 góc của
ảnh cũ lần lƣợt là:
(x1,y1) = (0,0) ; (x2,y2) = (w,0) ; (x3,y3) = (w,h) ; (x4,y4) = (0,h) ;
1.2. NHẬN DẠNG BIỂU MẪU.
1.2.1. Phân tách vùng chứa dữ liệu.
Trong quá trình nhập điểm, thông tin quan trọng cần đƣợc lấy đó là vùng
ảnh chứa mã số sinh viên và vùng ảnh chứa điểm Z. Khi lấy đƣợc vùng ảnh
chứa mã số sinh viên và vùng ảnh chứa điểm Z, ta thực hiện việc tách ra
thành các dòng khác nhau. Mỗi một dòng sẽ là mã sinh viên của từng sinh
viên và căn cứ vào mã sinh viên này ta có thể cập nhật điểm mà đƣợc lấy ra từ
vùng ảnh chứa điểm Z vào trong cơ sở dữ liệu.
Việc tách một vùng ảnh ra thành các vùng nhỏ tƣơng ứng với các hàng
khác nhau đƣợc thực hiện khá đơn giản bằng giải thuật “Horizontal
Projection”. Tƣơng tự, việc tách các kí tự trên cùng một hàng sẽ đƣợc thực
hiện bằng giải thuật “Vertical Projection”
Dƣới đây là bức ảnh của bảng điểm mà chúng ta thu đƣợc bằng cách sử
dụng máy scan và lƣu lại dƣới dạng file ảnh.
19


Hình 1.6. Mẫu bảng điểm thu nhận từ máy quét
Nhìn vào chúng ta có thể thấy công việc của chúng ta cần làm là tách
bức ảnh trên ra thành 2 vùng nhỏ:
+ Vùng 1: Chứa mã số sinh viên.
+ Vùng 2: Chứa điểm của sinh viên.
20



Vùng 1
Vùng 2











Hình 1.7. Ảnh đƣợc tách thành 2 vùng để xử lý
21

1.2.2. Tách dòng và tách kí tự.
a. Giải thuật Horizontal Projection
Giải thuật này đƣợc sử dụng để chia nhỏ vùng ảnh chứa mã số sinh viên ra
thành các vùng ảnh nhỏ hơn, mỗi vùng ảnh chứa một mã số của 1 sinh viên.
Giải thuật Horizontal Projection có thể đƣợc mô tả nhƣ sau:

Trong đó: - P
H
(h) là tổng số điểm ảnh màu đen trên dòng h
- W là chiều rộng của ảnh.
- p(x,h) nghĩa là điểm ảnh nằm trên tọa độ (x,h).
Khi chúng ta tính Horizontal Projection trên hàng h, nếu nhƣ hàng này
có P

H
(h) != 0 thì chúng ta có thể cắt từ hàng 0 tới h-1 thành một vùng ảnh nhỏ
và đƣợc coi là một hàng tƣơng ứng với một mã số sinh viên.
b. Giải thuật Vertical Projection
Giải thuật này đƣợc sử dụng để chia vùng ảnh con tƣơng ứng với một
hàng thu đƣợc từ bƣớc trên để lấy đƣợc các kí tự riêng biệt.
Giải thuật Vertical Projection có thể đƣợc mô tả nhƣ sau:

Trong đó: - P
V
(c) là tổng số điểm ảnh màu đen trên dòng h
- H là chiều cao của ảnh
- p(x,c) nghĩa là điểm ảnh nằm trên tọa độ (x,c).
22

Khi chúng ta tính Vertical Projection trên cột c, nếu nhƣ hàng này có
P
H
(c) != 0 thì chúng ta có thể cắt từ cột 0 tới c-1 thành một vùng ảnh nhỏ và
đƣợc coi là một hàng tƣơng ứng với một chữ số trong mã sinh viên.
1.2.3. Trích rút đặc trƣng.
Sau khi tách dòng và tách riêng từng kí tự thành công. Ta thực hiện tiếp
công đoạn tiếp theo đó là trích rút đặc trƣng của từng bức ảnh chứa các kí tự
riêng biệt để. Mỗi bức ảnh chứa kí tự có những thông tin quan trọng, nó quyết
định những đặc tính để phân biệt nó với các bức ảnh chứa kí tự khác.
Mỗi bức ảnh chứa kí tự riêng biệt có kích thƣớc khác nhau sẽ đƣợc đƣa
về cùng kích thƣớc. Trong đề tài này, tôi điều chỉnh tất cả các ảnh sang cùng
một kích thƣớc 7 x 5 và mỗi bức ảnh tôi lấy 35 điểm đặc trƣng để nhận biết
cho bức ảnh đó.


Hình 1.8. Bức ảnh trƣớc khi điều chỉnh kích thƣớc.

Hình 1.9. Bức ảnh sau khi điều chỉnh kích thƣớc thành 7x5.

23

CHƢƠNG 2. MỘT SỐ KỸ THUẬT HIỆU CHỈNH BIỂU MẪU
2.1. HIỆU CHỈNH ĐỘ DỊCH CHUYỂN
Trong bài toán nhập liệu tự động việc hiệu chỉnh độ dịch chuyển của ảnh
cần nhận dạng so với ảnh gốc là một bƣớc quan trọng có ảnh hƣởng đến kết
quả quá trình nhận dạng. Để hiệu chỉnh độ dịch chuyển này thông thƣờng
dùng biểu đồ tần suất (Histogram).
Chúng tôi chỉ xét ảnh nhị phân I có kích thƣớc MN, M là số hàng còn
N là số cột của ảnh. Trong ảnh I mỗi phần tử I(x,y), 0x<N; 0y<M đƣợc xác
định nhƣ sau:




nh¶ thuéc y)(x, nÕu
nÒn thuéc y)(x, nÕu
),(
0
1
yxI

Biểu đồ tần suất ngang H(y) hay dọc V(x) của một bức ảnh là tổng số
các điểm đen trên hàng y hay cột x của ảnh I và đƣợc viết nhƣ sau:





1
0
)),(1()(
N
x
yxIyH





1
0
)),(1()(
M
y
yxIxV

Nếu biểu đồ tần suất ngang của dòng ảnh bằng 0 thì đó là dòng trắng
(dòng gồm các điểm không thuộc ký tự). Để hiệu chỉnh lề (lề trên và trái ) của
bức ảnh cần nhận dạng so với ảnh mẫu.


(a)
(b)
Hình 2.1. (a) là ảnh mẫu (b) là ảnh cần nhận dạng

h

m

v
m

h
v

×