Ch¬ng 18
NHẬN DẠNG MẪU:
PHÂN ĐOẠN ẢNH
18.1. GIỚI THIỆU
Từ trước đến nay, trong cuốn sách này, chúng ta đã xem xét những phương pháp
chủ yếu để cải thiện ảnh hiển thị. Trong chương 16, tham vọng chúng ta là đạt được
một ảnh gần giống hơn so với ảnh ban đầu, ảnh không suy biến.
Trong chương này và hai chương tiếp theo, chúng ta sẽ đưa ra một vài hướng
phân tích nội dung của một ảnh. Nghĩa là chúng ta cố gắng tìm ra những gì có trong
ảnh. Chúng ta sẽ xem xét hai cách tiếp cận, nhận dạng mẫu thống kê và mạng nơ ron,
mỗi một phương pháp đều có thể áp dụng vào ảnh số. Các cuốn sách đã viết nhiều
về cả hai phương pháp này, giúp độc giả những người mong muốn tiếp tục tìm hiểu
với những giới thiệu về lĩnh vực này rất nhiều.
Trong 3 chương về nhận dạng mẫu này, chúng ta sẽ đưa ra một tập các chủ đề về
lĩnh vực này. Trong thực tế, chúng ta nghiên cứu nhận dạng mẫu thống kê, được thực
hiện bằng các kỹ thuật xử lý ảnh số. Việc này trước hết bao gồm việc định vị và cô
lập các đối tượng trong một ảnh và sau đó nhận biết (phân loại) những đối tượng đó
sử dụng kỹ thuật dựa trên lý thuyết quyết định thống kê. Chúng ta cũng xem qua việc
sử dụng mạng nơ ron nhân tạo cho việc nhận dạng mẫu.
18.1.1. Nhận dạng mẫu thống kê
Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách
phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương
pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho
sự nhận thức tồn bộ q trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện.
Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng
và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định
nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng
ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số.
Cho một ảnh số có chứa một vài đối tượng, q trình nhận dạng mẫu gồm có 3
pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cơ lập đối
tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh cịn lại.
Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo
lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một
đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính tốn sao
cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Q
trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec
tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu
diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận
thức hố một khơng gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể
có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một
điểm trong không gian đặc trưng.
Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một
quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một lo trên phân đoạn dòng và số điểm ảnh trong
phân đoạn dịng.
Đối với đối tượng trong hình 18-31, hai tệp đối tượng đoạn đều được mở. Sau đó
chỉ hai đoạn này được lưu trong tệp đối tượng 2, tuy nhiên, chương trình khám phá ra
377
rằng các đối tượng 1 và đều giống nhau. Vì vậy, cấu trúc sâu hơn của tệp đối tượng 2
không thể tiếp tục. Sau đó, hay sau khi phân đoạn hồn tồn đối tượng này, hai tệp
đoạn đối tượng có thể được hợp nhất.
Kết quả của kỹ thuật mã hoá phân đoạn dòng là một tập các tệp đoạn, mỗi tệp cho
một đối tượng. Nếu mỗi tệp đoạn được lưu như một bản ghi đơn lẻ trên ổ đĩa, thì chỉ
cần một vòng quay của đĩa là đủ để đọc và ghi tồn bộ đối tượng. Một ảnh đối tượng
có thể dễ dàng tái tạo trong bộ nhớ đơn giản bằng cách mở tệp đoạn. Điêug này
thường sử dụng khi cần xử lý thêm các ảnh đối tượng.
Đối với việc phân đoạm các ảnh lớn, ảnh đầu vào được đọc từng dòng từ đĩa và
các tệp đoạn đối tượng được thu thập trong bộ nhớ. Miễn sao một tệp đối tượng được
hồn thành, nhãn của nó được thơng qua và tệp đó được ghi lên đĩa như một bản ghi.
Một điểm thuận lợi của phương pháp này là diện tích, chu vi, IOD, kích thước mở
rộng chiều ngang và chiều dọc của đối tượng đó dễ dàng xây dựng thành bước trích
chọn đối tượng. Trong phương pháp này, một vài đặc trưng quan trọng của đối tượng
được biết ngay khi bước phân đoạn được hồn thành.
HÌNH 18-32
Hình 18-32 Tệp đoạn đối tượng
18.9. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG
1. Phân đoạn ảnh là quá trình phân chia một ảnh số thành những tập điểm ảnh liên
kết và không đè lên nhau, một tập tương ứng với nền và các tập còn lại tương
ứng với các đối tượng trong ảnh.
2. Phân đoạn ảnh có thể được tiếp cận như q trình ấn định các điểm ảnh cho các
đối tượng hay tìm đường biên giữa các đối tượng (hay giữa các đối tượng và
nền).
3. Phân ngưỡng mức xám là một kỹ thuật phân vùng đơn giản ln tạo ra các
đường biên kín, liên thơng.
4. Q trình làm đặc nền và khử nhiễu, được xây dựng trước khi phân đoạn,
thường có thể cải thiện hiệu suất trong suốt quá trình phân đoạn.
5. Phân ngưỡng mức xám thường rất cần thiết để thay đổi trong phạm vi ảnh, trừ
phi độ tương phản giữa đối tượng và mức xám nền tương đối ổn định.
6. Đối với ảnh các đối tượng đơn giản trên nền tương phản, việc lập mức ngưỡng
tại điểm lõm của lược đồ nhị thức làm tối thiểu hố tính nhạy của của diện tích
đo được với sự thay đổi ngưỡng.
7. Hàm chiếu của một điểm trịn đồng tâm có thể xuất phát từ lược đồ hay hàm
chu vi ảnh của nó.
8. Gradient trung bình xung quanh một đường viền có thể tính từ hàm chu vi và
lược đồ [biểu thức (12)]
378
9. Phân đoạn đối tượng có thể được thực hiện bằng cách tìm vết đường biên, hay
phân ngưỡng, theo gradient ảnh.
10. Các kỹ thuật tăng vùng thường dùng cho việc phân đoạn các cảnh phức tạp sử
dụng các định nghĩa đối tượng phức tạp.
11. Phân đoạn một ảnh có thể được lưu trữ như một bản đồ thành viên, như một
chuỗi mã hay theo mã phân đoạn dòng.
BÀI TẬP
1. Bên dưới là lược đồ của một ảnh 20 mức xám (0 là màu đen) của một quả bóng
bi-a màu trắng trên nền đen. Quả bóng được làm bằng vật liệu có trọng lượng
riêng là 1.5 gam/cm3. Khoảng cách điểm ảnh là 1 mm. Quả bóng cân nặng bao
nhiêu?
[0 100 500 3000 9000 3000 500 200 100 200 300 500 627 500 300 200 100 0 0 0]
2. Bên dưới là lược đồ của một ảnh 20 mức xám của một trái cây trên một nền
tương phản. Khoảng cách điểm ảnh là 2 mm. Đây là quả anh đào, quả nho hay
quả bí ngơ?
[0 100 200 300 500 600 500 300 200 100 200 500 3000 8000 20000 8000 3000
5000 1000 0]
3. Bên dưới là lược đồ của một ảnh 32 mức xám (0 là màu đen) chứa một máy
ghi đĩa màu đen, đường kíng là 12 inch, với nhãn màu trắng trên nền xám.
Khoảng cách điểm ảnh là bao nhiêu? đường kính nhãn là bao nhiêu?
[0 0 0 0 100 200 2000 6000 2000 200 100 0 0 200 3000 9000 3000 200 0 0 50
100 400 100 50 0 0 0 0 0 0 0]
DỰ ÁN
1. Phát triển một chương trình tạo ra các ảnh số của các vết nhiễu Gauss trên nền
đã có mức xám định. Kể cả khả năng xác định vị trí và chiều x và chiều y (độ
lệch tiêu chuẩn) của vết và biên độc của nhiễu trắng phân bố không đồng đều.
Tạo một ảnh 200 mức xám cao, vết 15 20 với nhiễu có biên độ đỉnh là mức
xám 10.
2. Phát triển một chương trình tạo ra các tóm tắt từ diện tích và chu vi của vết đã
miêu tả trong dự án 1 và tính đạo hàm bậc nhất và bậc hai của tóm tắt này.
Định nghĩa SNR như biên độ vết chia cho biên độ nhiễu RMS. Với các vết tròn
bán kính 5, 10 và 20 điểm ảnh, với các SNR là 40, 20, 10 và 5, tạo ra các tóm
tắt từ diện tích và xác định vị trí điểm có độ dốc cực đại. Xác định theo kinh
nghiệm, đối với từng kích thước của vết, SNR tối thiểu cần thiết là bao nhiêu
để xác định vị trí điểm uốn với sai số không quá một điểm ảnh.
3. Phát triển một chương trình hiệu chỉnh hàm Gauss hai chiều thành vết nhiễu
Gauss trên một nền có mức xám 0 (xem phần 19.5.5). Sử dụng chương trình để
xác định vị trí, kích thước và biên độ của vết nhiễu trong một ảnh được tạo bởi
chương trình được miêu tả trong dự án 1 hay có được bằng cách số hố ảnh
một đối tượng trịn.
4. Phát triển một chương trình phân ngưỡng thích nghi mà có thể thiết lập ngưỡng
cho từng đối tượng trong một cảnh sử dụng một trong những kỹ thuật chọn
ngưỡng đã miêu tả trong chương này và kiểm tra chương trình trên một ảnh
chứa 5 đối tượng có độ tương phản khác nhau trên một nền không đều. Sử
dụng một ảnh số khác hay một ảnh được tạo bởi một chương trình như đã miêu
tả trong dự án 1.
379