Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.21 MB, 32 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Luận văn được hoàn thành tại:</small>
Người hướng dẫn khoa học: TS. NGUYÊN ĐỨC DŨNG
<small>Phản biện 1: ...--.- c0 2220002020200 12211 ng vn ng n ng nh ng</small>
<small>Be O00 0) Co) gà laaadddẳẳẳẳaẳiiiaadddiiẳẳiẳaẳa.</small>
<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện Công</small>
<small>nghệ Bưu chính Viễn Thơng</small>
<small>Có thê tìm hiệu luận văn tai:</small>
<small>- Thu viện của Học viện Cơng nghệ Bưu chính Viễn Thông</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><small>Ngày nay khi CNTT ngày càng phát triển, hình ảnh được sử dụng thường</small>
xuyên hơn trong các trang web, các thông điệp email để nhúng thơng tin văn bản.
Việc sử dụng hình ảnh xuất phát từ nhu cầu như dé làm đẹp (trên tiêu đề), dé thu hút sự chú ý (trên quoảng cáo), để che dấu thơng tin, kiểm tra mã Captcha.
<small>Hình ảnh tự nhiên có chứa văn bản thường được yêu cầu dé tự động nhận và</small>
xử lý. Văn bản trong hình ảnh tự nhiên có thể là bất kỳ một phần văn bản của hình ảnh hiên trường như dấu hiệu đường phó, biên tên, nhãn hiệu hang hóa, biển số xe hoặc thâm chí là văn bản xuất hiện trên áo. Các lĩnh vực nghiên cứu của văn bản
<small>trong hình ảnh ngày cảng tăng do sự gia tang sử dụng điện thoại thông minh va may</small>
ảnh kỹ thuật số. Khả năng nhận biết chính xác văn bản trong hình ảnh ngày càng trở
nên hữu ích và nhiều người sẽ được hưởng lợi từ những tiến bộ trong lĩnh vực này.
Một giải pháp được nghĩ đến là xây dựng hệ thống phát hiện văn bản trong ảnh. Tuy nhiên nhiều đối tượng trong hình ảnh tự nhiên như cành cây hoặc dây điện
có thê đễ dàng bị nhằm lẫn với văn bản. Vì lý do này mà có rất nhiều nhà nghiên
cứu quan tâm và đã có nhiều phương pháp được đưa ra tuy nhiên do đữ liệu hình ảnh là rất phong phú nên mỗi phương pháp đều có sự hạn chế của riêng mình chưa giải quyết hết được các vấn đề trong bài toán.
Phát hiện chữ trong ảnh là bài toán được quan tâm rất nhiều và đã đạt được nhiều thành cơng, đã đóng góp rất nhiều ứng dụng thực tiễn trong đời sống hàng ngày. Ở đây có thể nêu ra một vai ví dụ như: xác thực biên số xe, kiểm tra xác thực
hóa đơn, tam séc, hộ chiếu, xác thực hàng hóa, lấy thơng tin từ danh thiếp lưu vào
<small>danh bạ...vv</small>
Nhận thức được tầm quan trọng của vấn đề này, học viên đã chọn đề tài “ Phát hiện chữ trong ảnh ” cho Luận văn tốt nghiệp chương trình Thạc sĩ Kĩ thuật
của mình. Mục tiêu của đề tài này là nghiên cứu phương pháp xác minh vùng văn
bản trong ảnh qua các hình ảnh đầu vào phức tạp với nhiều chỉ tiết hoa lá, nhà cửa
<small>với độ chính xác cao.</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><small>Luận văn được trình bày thành 3 chương như sau:</small>
CHƯƠNG 1: TONG QUAN VỀ PHÁT HIỆN CHỮ TRONG ANH
Chương này sẽ tổng quát về bài toán phát hiện chữ trong ảnh tự nhiên. Giới thiệu các khâu trong một hệ thong phát hiện chữ hoàn chỉnh. Đồng thời đưa ra một
số ứng dụng hiện nay cùng với các mẫu kết quả của nó nhằm mục đích so sánh và
xác định phạm vi cho đề tài.
CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN CHỮ TRONG ẢNH
Mở đầu chương sẽ nói về hai nhánh chính của đọc ký tự trong văn bản là hai
<small>bài toán phát hiện chữ và nhận dạng chữ, nêu ra sự khác nhau giữa hai bài toán phát</small>
<small>hiện chữ và nhận dạng chữ. Từ đó ta xây dựng nội dung chính vào bài tốn phát</small>
hiện chữ trong ảnh với một số phương pháp phát hiện chữ trong ảnh hiện nay. Phương pháp phát hiện chữ trong ảnh được trình bày ở đây gồm có: phương pháp xác định vùng chứa chữ trong ảnh dựa trên đặc trưng và kết cấu, phương pháp dựa
<small>theo đường biên, phương pháp dựa trên giải thuật SWT. Từ mỗi phương pháp nêu</small>
ra ta có thé nhận thấy được ưu điểm va hạn chế của từng phương pháp.
CHƯƠNG3: XÂY DỰNG CHƯƠNG TRINH THU NGHIỆM
<small>Chương này tập trung vào việc xây dựng chương trình thử nghiệm cho baitoán phát hiện chữ trong ảnh với mục đích chính là phân tích đánh giá và so sánh</small>
<small>tính hiệu quả của các phương pháp nêu ở chương II. Từ chương trình thử nghiệm đó</small>
ta phân tích kết quả đạt được sau đó với đầu vào là các hình ảnh tự nhiên, từ đó có
được kết quả đánh giá so sánh các phương pháp trên.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>1.1.1. Giới thiệu</small>
<small>Hiện nay với sự thành công của điện thoại thông minh, máy tính bảng và các</small>
nhu cầu lớn trong nội dung dựa trên tìm kiếm hình ảnh. Phát hiện chữ trong hình ảnh là một nhiệm vụ rất quan trong được nhiều chuyên gia quan tâm đên. Mặc dù
<small>trong quá khứ phát hiện văn bản trong hình đươc nghiên cứu rộng rãi nhưng vẫn</small>
chưa giải quyết được. Những khó chủ yếu từ hai khía cạnh là: sự đa dạng của các
<small>văn bản và sự phức tạp của các hình ảnh.</small>
<small>Hình ảnh được sử dụng thường xuyên trong các trang Web và các thông điệp</small>
email dé nhúng thông tin văn bản. Nghiên cứu trước đây đã chỉ ra rang một số lượng đáng ké của văn bản trên các trang web được trình bay dưới dang hình ảnh (17%), trong khi một phần quan trọng của văn bản này (76%) không phải là để được tìm thấy bất cứ nơi nào khác trên trang Web [2]. Nếu tính rằng, các văn bản rất được trình bày dưới dang hình anh là thường xuyên hơn không quan trọng về mặt ngữ nghĩa (tức là tiêu đề, quảng cáo), người ta có thé có được một cảm giác về tầm quan trọng của van đề [1].
Các nghiên cứu gần đây trong lĩnh vực máy tính tầm nhìn và nhận dạng mẫu cho thấy một lượng lớn người quan tâm đến nội dung trong các hình ảnh và video.
<small>Như đã nói bới Jung, Kim và Jain trong [4] dữ liệu văn bản đặc biệt thú vi bởi vì</small>
văn bản có thể được sủ dụng dễ dàng và rõ ràng mơ tả nội dung của một hình ảnh.
Do dữ liệu văn bản có thể được nhúng trong một hình ảnh hoặc video với phong cách khác nhau như font, kích cỡ, định hướng, màu sắc, hình nén...vv [3].
Phát hiện chữ trong ảnh là một kỹ thuật máy tính để xác định vùng văn bản trong các ảnh bất kỳ. Kỹ thuật này nhận biết được ký tự hay vùng ký tự có trong ảnh với rất nhiều các chỉ tiết dư thừ như hoa, lá, tòa nhà, cây cối...[5].
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>1.1.3. Những khó khăn và thách thức</small>
Những khó khăn gặp phải khi giải quyết bài toán phát hiện chữ trong ảnh là sự đa dạng của văn bản và sự phức tạp của các hình ảnh dẫn đến việc xử lý các hình để xác định được chính xác vùng văn bản trong ảnh là khó khăn. Hiện nay các hình
ảnh rat đa dạng được chụp, scan ra trong đó có rất nhiều các chi tiết phức tạp văn
bản nhúng kèm theo nó cũng rất phức tạp như kích cỡ, màu sắc, font chữ, hoa
Thách thức gặp phải khi giải quyết bài toán phát hiện chữ trong ảnh là do sự khác biệt về kích thước, cũng như độ tương phản hình ảnh thấp và nền phức tạp. Cùng với đó là việc tìm kiếm phương pháp phát hiện chữ trong ảnh thích hợp đề đạt
<small>hiệu quả cao.</small>
<small>1.2. Q trình phát hiện chữ</small>
<small>1.2.1. Quá trình</small>
Các nghiên cứu gần đây trong lĩnh vực máy tính tầm nhìn và nhận dạng mẫu
cho thấy một lượng lớn người quan tâm đến nội dung từ các hình ảnh và video. Nội dung này có thê được phát hiện trong các hình thức của các đối tượng, màu sắc, kết cấu, hình dạng cũng như các mối quan hệ giữa chúng. Các thông tin ngữ nghĩa được
cung cấp bởi một hình ảnh có thể hữu ích cho nội dung dựa trên mỗi hình ảnh, cũng
<small>như cho chỉ mục va phân loại mục đích. Như đã nói bởi Jung, Kim va Jain trong [4],</small>
dữ liệu văn bản đặc biệt thú vị, bởi vì văn bản có thé được sử dụng dễ dàng và rõ ràng mô tả nội dung của một hình ảnh. Do dữ liệu văn bản có thể được nhúng vào
<small>trong một hình ảnh hoặc video trong phong cách khác nhau như font, kích cỡ, định</small>
hướng, mau sắc, và một nền phúc tạp, dé phát hiện khu vực có van bản ở đây sé gặp rất nhiều khó khăn và thách thức [4]. Ngồi ra, Optical Character Recognition (OCR) kỹ thuật hiện nay dùng dé trích xuất văn bản từ một nền. Phương pháp tiếp cận khác nhau đối với việc khai thác các vùng văn bản từ hình ảnh đã được đề xuất dựa trên các thuộc tính cơ bản của văn bản. Dé có thé phát hiện chữ trong văn bản ta cần có các bước xử lý sau:
<small>- Doc ảnh: Bước này doc và xử lý ảnh đâu vào.</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>- Loc nhiễu: Ta xử lý giảm nhiễu cho ảnh.</small>
- Tim kiếm khu vực: Ta tìm kiếm khu vue của các cường độ tương tự nhau
<small>trong hình ảnh.</small>
<small>- Phat hiện khu vực có văn bản: ta sử dụng một trong các phương pháp phat</small>
<small>hiện văn bản trong hình ảnh như do biên canny, swt dé tìm và phát hiện khu</small>
<small>Hình 1.1: Sơ đồ phát hiện chữ trong ảnh [3]</small>
Ảnh đầu vào ở đây là các hình ảnh được chụp từ máy ảnh, điện thoại, ảnh scan mau..vv. Sau đó sẽ được xử lý dé phát hiện ra khu vực van bản trong hình ảnh rồi định vị văn bản đó và trích chọn ký tự dé xử lý anh đầu ra.
Dưới đây là giới thiệu một số phần mềm phát hiện chữ trong ảnh tốt nhất với khả năng xử lý hình ảnh, trích chọn ra ký tự và hỗ trợ lưu văn bản với nhiều định
dạng phổ biến hiện nay.
<small>1.3.1. ABBYY FineReader</small>
ABBYY FineReader là phan mềm OCR thông minh có thé chuyên đổi tài
thảo và tìm kiếm được. Khơng chỉ nhận dạng tiếng Việt với độ chính xác cao
<small>ABBYY FineReader cịn có khả năng giữ ngun định dạng và dàn trang của tài</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">liệu gốc tốt hơn bao giờ hết. Bạn chỉ cần quét hoặc chụp hình văn bản rồi để
ABBYY FineReader làm nốt phần cịn lại. Chỉ trong chốc lát là bạn sẽ có trong tay
văn bản số ở định dạng có thé soạn thảo được, trực quan, nhanh chóng và mạnh mẽ.
<small>1.3.2. Smart OCR Pro</small>
Smart OCR Pro là một phần mềm có chức năng chính là chun đổi hình ảnh
sang văn bản với cơng nghệ tiên tiến, không thay đổi định dạng, bố cục văn bản. Quan trọng hơn khi nghĩ tới việc chuyên đổi đó là bị lỗi font phải khơng ?. Nhưng với phần mềm Smart OCR Pro thì hồn tồn n tâm về điều này, file đầu ra sẽ đạt hiệu quả như bạn mong muốn.
Từ những kết quả ở trên tôi thay được mỗi phần mềm đều có nhưng ưu việt
của riêng mình từ xử lý phát hiện chữ đến nhận biết và tách lấy chữ. Có những hình ảnh phần mềm này khơng xử lý được nhưng phần mềm khác lại xử lý khá tốt. Qua đó thay được phạm vi của dé tài ở đây là xử lý phát hiện khu vực có chứa văn bản
<small>trong ảnh.</small>
<small>2.1. Hai nhánh chính của đọc ký tự trong văn bản</small>
<small>Nhận dạng chữ trong ảnh (OCR): là một kỹ thuật được tạo ra để chuyên</small>
đổi các hình ảnh của chữ viết tay hoặc chữ đánh máy thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và thị giác máy. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần
công việc của OCR đã chuyên sang ứng dụng trong thực tế với các kỹ thuật đã được
<small>chứng minh. [16]</small>
<small>Phát hiện chữ trong ảnh là: một kỹ thuật dé chỉ ra ký tự hay vùng ký tụ</small>
trong ảnh. Kỹ thuật này nhận biết được ký tự hay vùng ký tự có trong ảnh với rất
<small>nhiêu các chi tiệt dư tht như hoa, lá, tòa nha, cây côi...</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><small>Bảng so sánh sự khác nhau giữa nhận dạng và phát hiện chữ trong ảnh:</small>
<small>Nhận dạng chữ trong ảnh Phát hiện chữ trong ảnh</small>
<small>- Nhận diện chữ trong ảnh có - Phat hiện kí tự, vùng ký tự trongnhiệm vụ là đọc được kí tự trong ảnh có nhiệm vụ là chỉ ra vùng kí</small>
<small>ảnh. tự trong ảnh.</small>
- Được ứng dụng nhiều trong việc - Ung dụng trong việc phát hiện
lay thơng tin từ hình ảnh. vùng kí tự từ đó có thể xử lý vùng
<small>kí tự đó.</small>
<small>2.2.1.1 .Giới thiệu</small>
Thơng tin văn bản trong hình ảnh là những đầu mối quan trọng cho nhiều ứng dụng dựa trên hình ảnh, dựa trên nội dung truy xuất hình ảnh. Tuy nhiên, phát hiện văn bản từ nền hình ảnh phức tạp với nhiều màu sắc là một nhiệm vụ đầy thử thách. Trong phần này, tơi trình bày phương pháp phát hiện các chuỗi văn bản dựa
trên đặc trung cấu trúc trong hình anh. Ở đây tơi trình bày trên hai bước sau: 1)
phân vùng ảnh dé tìm ra khu vực văn bản trong ảnh với các thành phan màu sắc trong ảnh. Trong bước này, chúng tôi đề xuất hai phương pháp dé phân vùng ảnh là: phương pháp dựa trên gradient và phương pháp dựa trên màu sắc. 2) Dé phát hiện
các chuỗi văn bản trong ảnh ta dựa trên đặc điểm cấu trúc chung của các ký tự văn
<small>bản trong mỗi chuỗi văn bản như sự khác biệt kích thước ký tự, khoảng cách giữa</small>
các các chữ, và sự liên kết giữa các chữ. Trong bước này, tơi đề xuất hai phương pháp phân tích cấu trúc của chuỗi văn bản: Phương pháp nhóm ký tự liền kề và
phương pháp nhóm các dịng văn bản. Ở phương pháp này tơi tập trung vào phân
tích cau trúc chuỗi văn bản dé phân biệt nhiễu nên từ các thơng tin văn bản [6].
<small>2.2.1.2. Phân vùng ảnh</small>
Dé trích xuất thông tin văn bản từ nền phức tạp, ảnh phân vùng đầu tiên được
<small>thực hiện đê nhóm lại điêm ảnh với nhau thuộc vê cùng một văn bản, có được một</small>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">bản đồ nhị phân của các thành phần đặc trưng của văn bản. Dựa trên gradient cục bộ
và màu sắc văn bản tôi sử dụng một thuật toán phân chia dựa trên gradient và một thuật toán phân chia màu sắc tương ứng [6].
<small>a) Phân vùng ảnh dựa trên Gradient</small>
Mỗi điềm ảnh được ánh xạ tới bề rộng của nét nó nằm trong, và sau đó là sự thống nhất của bề dày nét được sử dụng đề trích xuất thành phần của văn bản [7]. Ở đây, mỗi điểm ảnh được ánh xạ tới kết nỗi các bước của một vài điểm ảnh, được xác định bởi hai điểm ảnh cạnh p và q trên bản đồ cạnh với xấp xỉ bằng độ lớn gradient
và hướng ngược nhau, như thé hiện trong hình 2.1 (a). Mỗi cặp điểm ảnh được nối với nhau bang một bước. Sau đó, sự phân bố của độ lớn Gradient tại điểm ảnh của
các đường dẫn kết nối được tính dé trích xuất thành phan ký tự ứng cử.
Trong hình 2.1 (a) mô tả rằng một ranh giới ký tự bao gồm một số lượng cặp điểm ảnh. Mơ hình ký tự bằng cách phân phối các biên độ gradient và kích thước
nét bao gồm cả chiều rộng, chiều cao và tỉ lệ. Các thành phần phân vùng được tính
<small>từ kêt nôi bước của vai diém ảnh trên các điêm ảnh có độ lớn qua dơc nhỏ.</small>
<small>Hình 2.1: (a) Các cặp điểm ảnh; (b) Kết nối đường dẫn ở các cặp điểm ảnh [6]</small>
Trong hình 2.1 (a) ví dụ về các cặp điểm ảnh với nhau như p¡ với qj, p> với qo và p3 với q3. Cịn trong hình 2.1 (b) chỉ ra kết nối đường dẫn của tất cả các cặp điểm ảnh được đánh dấu nổi màu trắng trong khi các điểm ảnh khác được đánh dấu
là nền đen để dễ nhận biết giữa chúng.
<small>b) Phân vùng dựa trên cách giảm màu</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Trong hầu hết các hình ảnh cảnh, chuỗi văn bản thường bao gồm các đặc
điểm với màu sắc tương tự. Như vậy chúng ta có thể xác định vị trí thơng tin văn
bản bang cách chiết điểm ảnh với mau sắc tương tự. Đề gán cho một khu vực của các điểm ảnh được kết nối với các màu sắc tương tự như một thành phần kết nối, tôi sử dụng phương pháp phân vùng màu. Tôi thực hiện giảm màu sắc bằng cách sử dụng biểu đồ màu sắc và trọng số K-means phân nhóm thơng qua các bước sau đây
a) Nhóm ký tự liền kề
Chuỗi văn bản trong hình ảnh thường xuất hiện trong sự liên kết, cụ thể là mỗi ký tự văn bản trong một chuỗi văn bản phải có ký tự anh em tại vị trí liền kè. Các tính năng cấu trúc giữa các ký tự anh em có thé được sử dụng dé xác định xem các thành phần kết nối thuộc về văn bản ký tự. Ở đây, năm khó khăn được xác định để quyết định có hai thành phần kết nối là anh em của nhau.
I. _ Xét ký tự chữ hoa và chữ thường, tỷ lệ chiều cao rơi giữa là 1/T, và T).
2. Hai ký tự liền kề khơng nên q xa nhau, vì vậy khoảng cách giữa hai thành phần kết nói khơng nên lớn hơn T; lần chiều rộng của hai ký tự đó.
3. Đối với chuỗi văn bản được sắp hàng ngang, sự khác biệt giữa các tọa độ y của các trọng tâm phan kết nối không cần phải lớn hơn T; lần chiều cao của
<small>hai chuỗi đó.</small>
4. Hai ký tự liền kề thường xuất hiện trong các kích thước phơng chữ tương tự,
<small>do đó tỷ lệ diện tích của họ nên được lớn hơn 1/T, và nhỏ hơn Ty.</small>
5. Nếu các thành phan kết nối được lấy từ phân vùng dựa trên gradient, sự khác biệt màu sắc giữa chúng nên được thấp hơn một ngưỡng Ts vì các nhân vật
trong cùng một chuỗi có màu sắc tương tự.
Trong hệ thông, thiết lập T¡ = Ty = 2, Ta = 3, T; = 0.5 và Ts = 40. Dé triết ra các vùng chứa các chuỗi văn bản dựa trên ký tự liền kề nhóm, đầu tiên chúng ta loại
bỏ các thành phần kết nối nhỏ (area < Ts) từ tập các thành phần kết nối S. Trong hệ
thông, thiết lập T; = 20.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>b) Nhóm dịng văn bản</small>
Dé xác định vị trí các chuỗi văn bản với định hướng tùy ý, tôi sử dụng phương pháp nhóm dịng văn bản. Đề nhóm cùng các thành phần kết nối tương ứng với văn bản ký tự trong cùng một chuỗi mà có lẽ khơng nằm ngang, chúng tôi sử
dụng trọng tâm như mô tả của mỗi thành phần được kết nối. Cho một tập các thành
phần trọng tâm kết nối các nhóm trọng tâm nhân vật cộng tuyến được tính tốn, như được hiền thị trong (2.5) và (2.6).
<small>M= {m|C € S and m = centroid(C)} (2.5)</small>
<small>G cM,|0| = 3,Wm;,m;,m, € G,</small>
<small>and they are colinear.</small>
Trong đó M biéu thị tập hợp trong tâm của tat cả các thành phan kết nối thu được từ phân vùng hình ảnh, và L biểu thị tập hợp các dòng văn bản mà bao gồm các nhân vật trọng tâm trong sự liên kết văn bản [6].
Phát hiện văn bản trong hình anh van là một van đề chưa được giải quyết dé xác định vị trí các vùng văn ban trong những hình ảnh. Ở đây dé phát hiện chuỗi văn bản ta dựa trên dựa trên cấu trúc đặc trưng của văn bản trong hình ảnh đó dé xử lý. Độ chính xác của thuật tốn đạt được kết quả rất tốt có thể so sánh với các thuật tốn với hiệu suất cao. Nhưng vẫn có hạn chế là 5 khó khăn ở thiết lập thành phần kết nối như chữ hoa và chữ thường ko được quá cao, các ký tự liền kề không được
<small>cách xa nhau...</small>
<small>2.3. Phương pháp phát hiện chữ trong ảnh dựa theo đường biên</small>
Phát hiện văn bản trong hình ảnh là một vấn đề quan trọng trong xử lý hình ảnh được nhiều người quan tâm Trong thời đại này, nó đã nhận được nhiều nhận
<small>thức của các nhà nghiên cứu. Trong hình ảnh các phân vùng của hình ảnh vào đơi</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">tượng va nên là một bước nghiêm trọng. Trong bối cảnh này, việc phát hiện biên là
một công cụ cơ bản dé phân vùng ảnh. Trong phan nay nghiên cứu việc thực hiện
thường được sử dụng hầu hết các kỹ thuật phát hiện biên cho phân vùng ảnh và
cũng là so sánh các kỹ thuật này được thực hiện với một thử nghiệm bằng cách sử
<small>dụng trên MATLAB [9].</small>
<small>2.3.1.2. Phương pháp phát hiện biên Canny</small>
<small>a)</small> <sup>Cac bước thực hiện</sup>
Thuật toán được tiền hành qua 5 bước riêng biệt sau:
Bước 1: Giảm nhiễu: làm trơn anh dé loại bỏ nhiễu bằng cách nhân chập
<small>ảnh với bộ lọc Gauss.</small>
Bước 2: Tìm gradient: Tính tốn góc và chiều dài của gradient. Biên nên được đánh dấu nơi mà gradient của ảnh có chiều đài lớn.
<small>Bước 3: Thực hiện “Non-maximum suppression”: Chỉ cực đại cục bộ</small>
những điểm được đánh dấu là biên (có mức xám cao).
Bước 4: Sử dụng ngưỡng đôi: Những biên tiềm năng được xác định bởi
ngưỡng cao và ngưỡng thấp.
<small>Bước 5: Dò biên với Hysteresis (Edge tracking by hysteresis): Những</small>
cạnh biên cuối cùng sẽ được xác định bằng việc loại bỏ tất cả các cạnh biên không nối liền với những cạnh biên rõ ràng (mạnh nhất).
<small>Miéu tả các bước thực hiện</small>
<small>Bước 1: Giảm nhiễu</small>
Đây là điều không thẻ tránh khỏi vì tất cả các hình ảnh chụp từ máy quay sẽ
<small>chứa một sô nhiêu. Dé ngăn nhâm lân nhiêu với các biên, nhiêu phải được giảm bớt.</small> Do đó ảnh trước tiên được làm mịn bằng cách áp dụng một bộ lọc Gauss. Cách thức
tiến hành giống như ở Laplace of Gauss [11].
Nhân của bộ lọc Gauss với độ lệch chuẩn o = 1,4 được thé hiện trong phương trình sau (ở đây ta sử dụng một bộ lọc 5 x 5) được thé hiện trong 2.7 [11].
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>- Bước 2: Tim Gradient</small>
Các thuật toán Canny về cơ bản tìm thấy các biên nơi mà cường độ mức xám của hình ảnh thay đổi nhiều nhất. Những vùng này được tìm thấy bằng cách xác định gradient của ảnh. Gradient tại mỗi điểm ảnh trong ảnh được làm mịn được xác định bằng cách áp dụng những phướng pháp dựa theo toán tử Sobel. Bước đầu tiên là đạo hàm các kết quả ở bước | theo hướng x và y với mặt na 3x3 được thể hiện
Các biên độ gradient (còn được gọi là những cường độ biên) sau đó có thể được xác định như là một thước đo khoảng cách Euclide băng cách áp dụng luật của
<small>Pythagoras như trong phương trình sau:</small>
Đơi khi nó được đơn giản hóa bằng cách áp dụng thước đo khoảng cách Manhattan dé giảm bớt sự phức tap tính tốn:
<small>|ơ|=|đx|+|G| (2.10)</small>
<small>Trong đó G, và G, là Gradient theo 2 hướng x và y tương ứng và hướng củabiên 6 như sau:</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><small>9 = arctan</small>
<small>- Bước 3: Thực hiện “Non-maximum suppression”</small>
Tiến hành “Non-maximum suppression” Tức là loại bỏ một số biên dư thừa: Đối với mỗi điểm ảnh trên anh S’ ta tiến hành so sánh giá trị của điểm đó với giá tri của hai điểm lân cận điểm đó [11].
Hai điểm lân cận này là hai điểm nằm trên đường thắng chứa hướng của
<small>đường biên 0 (cơng thứ tính hướng của đường biên Ơ được tính ở bước 2). Giả sử</small>
<small>với điêm biên đang xét tại vi trí P(x, y), ta có 8 diém biên lân cận điêm biên này:</small>
<small>Hình 2.2: Mơ tả các điểm biên lân cận của P [11]</small>
Tại điểm biên đó ta tiến hành tính giá trị góc của hướng đường biên 9. Nếu
<small>hướng của đường biên 8 < 22.50 hoặc 8 > 157.50 thì đặt giá tri cua 6 = 00 khi đó hai</small>
điểm biên lân cận điểm biên này tại vi trí (x-1, y) và (x+1, y).
Tương tự ta có kết quả hai điểm biên lân cận theo các hướng biên khác nhau
<small>như bảng dưới đây:</small>
<small>0<22,5) hoặc Ø>157,5 ø=0 (x-1, y); (x+1, y)</small>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><small>22,5" < ø < 61,5 0 = 45° (x-1, y-1); (x+1, y+1)</small>
<small>67,5° < ø < 112,5 Ø = 90° (x-1, y-1); (x+1, y-1)</small>
<small>112,5° < @ < 157,5 6 = 135 (x, y+1); (x, y-1)</small>
Nếu điểm anh P(x, y) có cường độ gradient lớn nhất trong ba điểm ảnh kiểm
tra thì được giữ lại điểm biên này. Nếu một trong hai điểm ảnh khác có cường độ gradient cao hơn thì điểm ảnh P(x, y) này khơng có trong "trung tâm" của biên va
<small>không nên được phân loại như là một điểm biên (tức là loại đi — cho giá trị điểm này</small>
<small>- - Bước 4: Ngưỡng đôi</small>
Các điểm biên còn lại sau khi thực hiện “Non-maximum suppression” van
được đánh dấu với cường độ pixel-by-pixel của chúng. Nhiều điểm trong số điểm
biên này có lẽ sẽ là biên đúng trong ảnh, nhưng một số có thê được gây ra bởi biến
đổi nhiễu hay màu sắc do bề mặt thô ráp. Cách đơn giản nhất dé phân biệt những
điểm biên này với nhau là sử dụng một ngưỡng, vì vậy chỉ có biên mạnh hơn một giá tri nhất định sẽ được bảo toan.
<small>Thuật toán phương pháp phát hiện biên Canny sử dụng ngưỡng đôi: ngưỡng</small>
thấp T¡ và ngưỡng cao Tị: - _ Xét điểm ảnh P(x.y)
<small>- So sánh P(x,y) với hai ngưỡng Thụ va Tì.</small>
“ Nếu P(x,y) > Tị: đánh dấu và giữ lại điểm biên này (đặt giá trị bang 1).
= Nếu P(x,y) <T¡: Loại bỏ điểm biên này (đặt giá trị bang 0).
= Nếu T, <P(x,y) < Ty: ta tiến hành so sánh giá trị P(x,y) với giá trị của
<small>các của 8 điêm lân cận :</small>
= Nếu một trong 8 điểm lân cận có giá trị > Tị: Tiến hành đánh dấu va giữ lại điểm biên này.
- _ Ngược lại: Loại bỏ điểm biên này (đặt giá trị bang 0).
<small>-_ Bước 5: Dò biên với Hysteresis (Edge tracking by hysteresis)</small>
</div>