Tiu lun: X l nh số nâng cao
Tổng quan
Vật liệu trong các chương trước đã bắt đầu một quá trình chuyển đổi từ phương
pháp xử lý ảnh có đầu vào và đầu ra là các ảnh, các phương pháp trong đó các yếu
tố đầu vào là ảnh, nhưng các kết quả đầu ra là các thuộc tính chiết xuất từ các ảnh
(theo nghĩa quy định tại Mục 1.1). Phân đoạn là một bước tiến quan trọng theo
hướng đó.
Phân đoạn chia nhỏ một ảnh thành các vùng thành phần hoặc các đối tượng của
nó. Mức độ phân chia được thực hiện phụ thuộc vào các vấn đề được giải quyết.
Đó là, phân đoạn nên dừng lại khi các đối tượng quan tâm trong một ứng dụng đã
được cô lập. Ví dụ, trong việc kiểm tra tự động lắp ráp điện tử, sự quan tâm nằm
trong việc phân tích ảnh của sản phẩm với mục tiêu xác định sự hiện diện hay vắng
mặt của các bất thường cụ thể, chẳng hạn như thiếu các thành phần hoặc các đường
kết nối bị hỏng. Không có điểm trong việc thực hiện phân đoạn qua mức độ chi tiết
cần thiết để xác định những yếu tố này.
Phân đoạn của ảnh không tầm thường là một trong những nhiệm vụ khó khăn
nhất trong xử lý ảnh. Độ chính xác phân đoạn xác định sự thành công hay thất bại
cuối cùng của các thủ tục phân tích trên máy vi tính. Vì lý do này, sự quan tâm đáng
kể nên được thực hiện để cải thiện khả năng của phân đoạn không đều. Trong một
số trường hợp, chẳng hạn như các ứng dụng kiểm tra công nghiệp, ít nhất một số
biện pháp kiểm soát môi trường có thể vào lúc này. Người thiết kế hệ thống xử lý
ảnh giàu kinh nghiệm luôn luôn quan tâm đáng kể đến cơ hội như vậy. Trong các
ứng dụng khác, chẳng hạn như phát hiện mục tiêu độc lập, các nhà thiết kế hệ thống
không kiểm soát môi trường. Sau đó, cách tiếp cận thông thường là tập trung vào
việc lựa chọn các loại cảm biến có nhiều khả năng tăng cường các đối tượng quan
tâm trong khi làm giảm bớt sự đóng góp của các chi tiết ảnh không thích hợp. Một
ví dụ là việc sử dụng các ảnh hồng ngoại của quân đội để phát hiện đối tượng có
chữ ký nhiệt mạnh mẽ, chẳng hạn như thiết bị và quân đội trong chuyển động.
1
Tiu lun: X l nh số nâng cao
Các thuật toán phân đoạn ảnh thường được dựa trên một trong hai đặc tính cơ
bản của các giá trị cường độ: gián đoạn và tương tự. Trong nhóm thứ nhất, phương
pháp tiếp cận để phân vùng ảnh dựa trên những thay đổi đột ngột về cường độ,
chẳng hạn như các cạnh trong một ảnh. Các phương pháp tiếp cận chính trong thể
loại thứ hai được dựa trên phân vùng một ảnh thành các vùng tương tự theo một bộ
tiêu chí được xác định trước. Ngưỡng, khu vực đang phát triển, và khu vực chia
tách và sáp nhập là những ví dụ của phương pháp trong thể loại này.
Trong chương này, chúng ta thảo luận về một số phương pháp tiếp cận của hai
loại vừa được đề cập đến. Chúng ta bắt đầu phát triển với các phương pháp thích
hợp cho việc phát hiện các gián đoạn mức xám như điểm, dòng, và các cạnh. Phát
hiện cạnh đặc biệt đã được một yếu của thuật toán phân đoạn trong nhiều năm.
Ngoài việc phát hiện cạnh theo thường lệ, chúng ta cũng thảo luận về phương pháp
để kết nối các phân đoạn cạnh và " lắp ráp " cạnh vào ranh giới vùng. Thảo luận về
phát hiện cạnh tiếp theo là sự ra đời của kỹ thuật ngưỡng khác nhau . Ngưỡng tuyệt
nhiên cũng là một cách tiếp cận cơ bản để phân đoạn đó được hưởng một mức độ
đáng kể của sự phổ biến, đặc biệt trong các ứng dụng tốc độ là một yếu tố quan
trọng. Các cuộc thảo luận trên ngưỡng tiếp theo là sự phát triển của một số phương
pháp tiếp cận gián đoạn theo định hướng khu vực. Chúng ta sau đó thảo luận một
cách tiếp cận hình thái để phân đoạn được gọi là phân đoạn Watersheds. Cách tiếp
cận này đặc biệt hấp dẫn bởi vì nó kết hợp một số các thuộc tính tích cực của phân
đoạn dựa trên các kỹ thuật trình bày trong phần đầu của chương này. Chúng ta kết
luận chương này với một cuộc thảo luận về việc sử dụng các dấu hiệu chuyển động
cho việc phân đoạn ảnh.
!"
Trong phần này chúng ta trình bày một số kỹ thuật để phát hiện ba loại cơ bản của
sự gián đoạn mức xám (gray-level) trong một ảnh số: điểm, đường và các cạnh.
Cách phổ biến nhất để tìm kiếm các gián đoạn là chạy một mặt nạ thông qua ảnh
theo cách mô tả trong phần 3.5. Đối với mặt nạ 3x3 thể hiện trong hình 10.1, thủ tục
2
Tiu lun: X l nh số nâng cao
này liên quan đến việc tính tổng của các sản phẩm các hệ số với các mức xám chứa
trong khu vực bao phủ bởi mặt nạ.
# Tạo mặt nạ 3x3
Đó là, với sự tham khảo phương trình (3.5-3), đáp ứng của mặt nạ tại bất kỳ điểm
nào trong ảnh được cho bởi
Trong đó z
i
là mức xám của điểm ảnh liên quan với hệ số mặt nạ . Thông thường,
đáp ứng của mặt nạ được xác định liên quan tới vị trí trung tâm của nó. Các chi tiết
để thực hiện các hoạt động mặt nạ sẽ được thảo luận trong phần 3.5.
!$
Việc phát hiện các điểm bị cô lập trong một ảnh về nguyên tắc là rất đơn giản. Sử
dụng mặt nạ biểu diễn trong hình 10.2(a), chúng ta nói rằng một điểm đã được phát
hiện tại vị trí mà trên đó mặt nạ là trung tâm nếu.
Trong đó T là ngưỡng âm và R được cho bởi phương trình (10.1-1). Về cơ bản, công
thức này đo lường sự khác biệt trọng số giữa điểm trung tâm và các láng giềng của
3
Tiu lun: X l nh số nâng cao
nó. Ý tưởng là một điểm bị cô lập (một điểm có mức xám khác nhau đáng kể từ nền
của nó và được đặt tại một khu vực đồng nhất hoặc gần đồng nhất) sẽ hơi khác môi
trường xung quanh của nó, và do đó có thể dễ dàng phát hiện bằng cách loại mặt nạ.
Lưu ý rằng mặt nạ trong hình 10.2(a) giống với mặt nạ thể hiện trong hình 3.39(d)
trong việc kết nối với toán tử Laplacian. Tuy nhiên, sự nhấn mạnh ở đây là đúng về
sự phát hiện của các điểm. Đó là, sự khác biệt duy nhất được xem xét quan tâm là
những điểm đủ lớn (được xác định bởi T) được coi là điểm bị cô lập. Lưu ý rằng
tổng các hệ số mặt nạ bằng 0, chỉ ra rằng đáp ứng mặt nạ sẽ là 0 trong khu vực mức
xám không thay đổi.
%&'( !$)*+,-
Chúng ta minh họa việc phân đoạn các điểm bị cô lập từ một ảnh với sự trợ giúp của
hình 10.2(b), trong đó cho thấy một ảnh tia X của một lưỡi tuabin động cơ phản lực
với một độ xốp ở trên, góc phải của ảnh. Có một điểm ảnh màu đen duy nhất được
nhúng trong độ xốp. Hình 10.2(c) là kết quả của việc áp dụng mặt nạ phát hiện điểm
đối với ảnh tia X, và hình 10.2(d) biểu diễn kết quả của việc sử dụng phương trình
(10.1-2) với T bằng 90% giá trị điểm ảnh tuyệt đối cao nhất của ảnh trong hình
10.2(c). (Lựa chọn ngưỡng được thảo luận chi tiết trong mục 10.3). Các điểm ảnh
4
Tiu lun: X l nh số nâng cao
đơn giản có thể nhìn thấy trong ảnh này (các điểm ảnh được mở rộng bằng tay để nó
sẽ được hiển thị sau khi in). Đây là loại quá trình phát hiện khá đặt biệt vì nó được
dựa trên sự gián đoạn điểm ảnh đơn có nền đồng nhất trong khu vực của mặt nạ phát
hiện. Khi đó điều kiện này là không thõa mãn, các phương pháp khác được thảo luận
trong chương này phù hợp hơn để phát hiện các gián đoạn mức xám.
. '/
Mức độ tiếp theo của sự phức tạp là phát hiện dòng. Xem xét mặt nạ biểu diễn
trong hình 10.3. Nếu mặt nạ đầu tiên được di chuyển xung quanh một ảnh, nó sẽ đáp
ứng mạnh hơn đối với các dòng (một điểm ảnh dày) định hướng theo chiều ngang.
Đối với một nền ổn định, đáp ứng cực đại sẽ cho kết quả khi đường đi qua hàng giữa
của mặt nạ. Điều này có thể dễ dàng xác nhận qua sự phác thảo một mảng đơn giản
nếu 1 với một dòng của mức xám khác nhau (nói, 5) chạy ngang qua mảng. Kinh
nghiệm tương tự sẽ tiết lộ rằng mặt nạ thứ hai trong hình 10.3 đáp ứng tốt nhất cho
các dòng theo định hướng tại +45
o
; mặt nạ thứ ba với đường thẳng đứng và mặt nạ
thứ tư dòng trong hướng -45
o
. Những hướng dẫn này có thể được thiết lập bằng việc
khẳng định hướng ưu tiên của mỗi mặt nạ được nặng với một hệ số lớn hơn (ví dụ,
2) so với hướng khác. Lưu ý rằng tổng các hệ số trong mỗi mặt nạ bằng 0, chỉ thị
đáp ứng zero từ các mặt nạ trong vùng mức xám không đổi.
Cho R
1
, R
2
, R
3
và R
4
chỉ thị các đáp ứng của mặt nạ trong hình 10.3, từ trái sang
phải, trong đó R được cho bởi phương trình (10.1-1). Giả sử rằng bốn mặt nạ được
chạy riêng qua một ảnh. Nếu tại một điểm nhất định trong ảnh,
i j
R R>
, với mọi j
≠ i, điểm đó được cho là có nhiều khả năng liên quan với một đường theo hướng
mặt nạ i. Cho ví dụ, nếu tại một điểm trong ảnh,
i j
R R>
với k = 2,3,4,
5
Tiu lun: X l nh số nâng cao
#0 Mặt nạ dòng
điểm đặc biệt này được cho là có nhiều khả năng liên quan đến một đường ngang.
Ngoài ra, chúng ta có thể quan tâm trong việc phát hiện dòng theo một hướng cụ
thể. Trong trường hợp này, chúng ta sẽ sử dụng mặt nạ kết hợp với hướng đó và
ngưỡng đầu ra của nó, như trong phương trình (10.1-2). Nói cách khác, nếu chúng ta
quan tâm trong việc phát hiện tất cả các dòng trong một ảnh theo hướng xác định
cho bởi mặt nạ, chúng ta chỉ chạy mặt nạ qua ảnh và ngưỡng giá trị tuyệt đối của kết
quả. Các điểm bên trái đáp ứng mạnh nhất, trong đó, đối với dòng một trong những
điểm ảnh dày, tương ứng với hướng gần nhất được xác định bởi mặt nạ. Ví dụ sau
đây minh họa quá trình này.
6
Tiu lun: X l nh số nâng cao
%&'(. '/1$23456!*
Hình 10.4(a) cho thấy một phần số hóa (nhị phân) phần của một mặt nạ đường mạch
in (wire-bond) cho bởi mạch điện tử. Giả sử rằng chúng ta quan tâm đến việc tìm
kiếm tất cả các dòng đó là một điểm ảnh dày và được định hướng tại -45
o
. Với mục
đích này, chúng ta sử dụng mặt nạ cuối cùng thể hiện trong hình 10.3. Giá trị tuyệt
đối của kết quả được hiển thị trong hình 10.4(b). Lưu ý rằng tất cả các thành phần
dọc và ngang của ảnh đã bị loại bỏ, và các thành phần của ảnh gốc có xu hướng
hướng tới một hướng -45
o
tạo nên các đáp ứng mạnh nhất trong hình 10.4(b). Để xác
định các dòng tốt nhất phù hợp với mặt nạ, chúng ta đơn giản ngưỡng ảnh này. Kết
quả của việc sử dụng một ngưỡng tương đương với giá trị lớn nhất trong ảnh biểu
diễn trong hình 10.4(c). Giá trị cực đại là một lựa chọn tốt cho một ngưỡng trong
các ứng dụng như thế này bởi vì ảnh đầu vào là nhị phân và chúng ta đang tìm các
đáp ứng mạnh nhất. Hình 10.4(c) cho thấy trong tất cả các điểm trắng được thông
7
Tiu lun: X l nh số nâng cao
qua việc kiểm tra ngưỡng. Trong trường hợp này, các thủ tục trích xuất các đoạn
thẳng duy nhất là một điểm ảnh dày và định hướng tại -45
o
(các thành phần khác của
ảnh được định hướng theo hướng này ở phía trên, góc phần tư bên trái không phải là
một điểm ảnh dày). Các điểm bị cô lập thể hiện trong hình 10.4(c) là những điểm mà
cũng đã có đáp ứng mạnh tương tự như mặt nạ. Trong ảnh gốc, các điểm này và các
điểm láng giềng của nó được định hướng như cách mà mặt nạ tạo đáp ứng tối đa tại
các vị trí bị cô lập. Các điểm bị cô lập này có thể được phát hiện bằng cách sử dụng
mặt nạ trong hình 10.2(a) và sau đó đã bị xóa, hoặc họ có thể xóa việc sử dụng xói
mòn hình thái, như đã thảo luận trong chương cuối.
0 "
Mặc dù việc phát hiện điểm và đường chắc chắn rất quan trọng trong bất kỳ cuộc
thảo luận về sự phân đoạn, phát hiện cạnh đến nay là phương pháp phổ biến nhất để
phát hiện các gián đoạn có ý nghĩa ở mức xám. Trong phần này, chúng tôi thảo luận
cách tiếp cận để thực hiện các dẫn xuất số bậc một và bậc hai phát sinh cho việc
phát hiện các cạnh trong ảnh. Chúng ta giới thiệu các phát sinh trong phần phần 3.7
trong nội dung nâng cao hình ảnh. Trọng tâm ở phần này là các đặc điểm của chúng
cho việc phát hiện cạnh. Một số khái niệm giới thiệu trước đây được trình bày lại
một thời gian ngắn vào đây để liên tục vì lợi ích trong cuộc thảo luận.
7+89)
Các cạnh đã được giới thiệu chính thức tại mục 3.7.1. Trong phần này, chúng ta xem
xét các khái niệm về cạnh số gần hơn một chút. Trực giác, một cạnh là một tập hợp
các điểm ảnh kết nối nằm trên ranh giới giữa hai khu vực. Tuy nhiên, chúng ta đã đi
qua một số chiều dài tại phần 2.5.2 để giải thích sự khác biệt giữa một cạnh và một
đường biên. Về cơ bản, như chúng ta sẽ thấy ngay, một cạnh là một khái niệm "cục
bộ" trong khi một vùng đường biên, do theo cách nó được định nghĩa, là một ý
tưởng toàn cục. Một định nghĩa hợp lý "cạnh" đòi hỏi khả năng đo quá trình chuyển
đổi mức xám theo một cách có ý nghĩa.
8
Tiu lun: X l nh số nâng cao
Chúng ta bắt đầu bằng cách mô hình một cạnh trực giác. Điều này sẽ dẫn chúng
ta đến một hình thức trong đó "có ý nghĩa" quá trình chuyển đổi ở mức xám có thể
được đo. Trực giác, một cạnh lý tưởng có đặc tính của mô hình thể hiện trong hình
10.5(a). Một cạnh lý tưởng theo mô hình này là một tập hợp các điểm ảnh được kết
nối (ở đây theo hướng thẳng đứng), mỗi trong số đó nằm ở một bước chuyển đổi
trực giao ở mức xám (thể hiện bởi mặt ngang trong hình vẽ).
Trong thực tế, quang học, lấy mẫu, và hình ảnh thu thập được không hoàn hảo tạo ra
cạnh bị mờ, với mức độ làm mờ được xác định bởi các yếu tố như chất lượng của
các hệ thống thu thập ảnh, tỷ lệ lấy mẫu, và dưới các điều kiện chiếu sáng mà ảnh
được thu thập . Kết quả là, các cạnh được mô hình chặt chẽ hơn như có một mặt
"đoạn đường nối", chẳng hạn như thể hiện trong hình 10.5(b). Độ dốc của đoạn
đường nối tỉ lệ nghịch với mức độ mờ ở cạnh. Trong mô hình này, chúng ta không
còn có một (một điểm ảnh dày) phần mỏng. Thay vào đó, một điểm cạnh bây giờ là
điểm bất kỳ có trong đoạn đường nối, và một cạnh sau đó sẽ là một tập hợp các
điểm như vậy đã được kết nối. "Độ dày" của cạnh được xác định bởi chiều dài của
đoạn đường nối, như nó chuyển từ mức ban đầu đến một mức xám cuối cùng. Chiều
dài này được xác định bởi độ dốc, mà đến lượt nó, được xác định bởi mức độ làm
mờ. Điều này có ý nghĩa: các cạnh mờ có xu hướng dày và các cạnh sắc nét có xu
hướng mỏng.
9
Tiu lun: X l nh số nâng cao
Hình 10.6(a) biểu diễn ảnh từ cận cảnh trong hình 10.5(b) được lấy ra, Hình
10.6(b) cho thấy một trắc đồ mức xám ngang của cạnh giữa hai vùng. Con số này
cũng cho thấy các dẫn xuất thứ nhất và thứ hai của trắc đồ mức xám. Dẫn xuất thứ
nhất là dương tại các điểm chuyển tiếp vào và ra khỏi đoạn đường nối như chúng ta
di chuyển từ trái sang phải dọc theo trắc đồ, nó là hằng số cho các điểm trong đoạn
đường nối, và là số không trong vùng mức xám không đổi. Dẫn xuất thứ hai là
dương tại quá trình chuyển đổi kết hợp với mặt tối của các cạnh, âm tại các quá trình
chuyển đổi kết hợp với phía ánh sáng của cạnh, và zero dọc theo đoạn đường nối và
trong khu vực mức xám không đổi. Dấu hiệu của các dẫn xuất trong hình 10.6(b) sẽ
được đảo ngược cho một cạnh đó là quá trình chuyển đổi từ sáng đến tối.
Chúng ta kết luận từ các quan sát rằng biên độ của dẫn xuất đầu tiên có thể được
sử dụng để phát hiện sự hiện diện của một cạnh tại một điểm trong một ảnh (ví dụ ,
để xác định một điểm trên một đoạn đường nối). Tương tự, các dấu hiệu của dẫn
xuất thứ hai có thể được sử dụng để xác định xem một điểm ảnh cạnh nằm trên mặt
10
Tiu lun: X l nh số nâng cao
tối hoặc sáng của một cạnh. Chúng ta lưu ý hai thuộc tính bổ sung của dẫn xuất thứ
hai quanh một cạnh: (1) Nó tạo ra hai giá trị cho mỗi cạnh trong một hình ảnh (một
tính năng không mong muốn), và (2) một đường thẳng tưởng tượng kết hợp các giá
trị cực dương và âm của dẫn xuất thứ hai sẽ đi qua zero gần trung điểm của cạnh.
Tính chất zero-crossing của dẫn xuất thứ hai này khá hữu dụng để định vị các trung
điểm của các cạnh dày, như chúng ta thấy ở phần sau. Cuối cùng, chúng ta lưu ý
rằng một số mô hình cạnh sử dụng một chuyển đổi làm mịn vào và ra khỏi đoạn
đường nối (Vấn đề 10.5). Tuy nhiên, những kết luận mà chúng ta đến thảo luận sau
đây đều giống nhau. Ngoài ra, đó là điều hiển nhiên từ cuộc thảo luận này mà chúng
ta đang đối phó ở đây với việc đo đạt cục bộ (như vậy, những nhận xét được thực
hiện tại mục 2.5.2 về bản chất cục bộ của các cạnh).
Mặt dầu sự chú ý như vậy cho đến nay đã được gới hạn đối với trắc đồ ngang 1-
D, lý luận tương tự áp dụng cho một cạnh định hướng bất kỳ tại bất kỳ điểm mong
muốn và giải thích kết quả như trong các cuộc thảo luận trước đó.
%&'(0 :;<'=>8>;:85$2"
?
Các cạnh hình 10.5 và 10.6 là nhiễu tự do. Các phân đoạn ảnh trong cột đầu tiên
trong hình 10.7 cho thấy cận cảnh của bốn cạnh đoạn đường nối tách một vùng đen
bên trái và một vùng màu trắng ở bên phải. Điều quan trọng là hãy nhớ rằng toàn bộ
quá trình chuyển đổi từ màu đen sang màu trắng là một cạnh duy nhất. Phân đoạn
ảnh ở phía trên, bên trái là nhiễu tự do. Ba ảnh khác trong cột đầu tiên của Hình 10.7
bị hỏng bởi cộng nhiễu Gaussian với zero mean và độ lệch tiêu chuẩn 0.1, 1.0, và
10.0 mức xám tương ứng. Đồ thị dưới đây mỗi ảnh là một trắc đồ mức xám của một
đường quét ngang qua ảnh.
11
Tiu lun: X l nh số nâng cao
Các ảnh trong cột thứ hai của hình 10.7 là các dẫn xuất bậc một của ảnh bên trái
(chúng ta thảo luận tính toán các dẫn xuất ảnh thứ nhất và thứ hai ở phần sau). Xem
xét, cho ví dụ, ảnh trung tâm ở phía trên. Như đã thảo luận kết nối với hình 10.6(b),
các dẫn xuất là zero trong các vùng màu đen và trắng không đổi. Đây là hai vùng
màu đen hiển thị trong ảnh dẫn xuất. Dẫn xuất của một đoạn đường nối không đổi là
một hằng số, bằng với độ dốc của đoạn đường nối. Khu vực không đổi này trong
ảnh dẫn xuất được thể hiện bằng màu xám. Chúng ta di chuyển xuống cột trung tâm,
các dẫn xuất ngày càng trở nên khác biệt so với trường hợp không nhiễu. Trong thực
tế, sẽ rất khó để kết hợp trắc đồ cuối cùng ở cột đó với một đường đoạn đường nối.
Điều gì làm cho các kết quả thú vị là nhiễu thực sự là gần như vô hình trong các
12
Tiu lun: X l nh số nâng cao
hình ảnh ở cột bên trái. Hình ảnh cuối cùng là một chút hạt, nhưng sự hư hỏng này
là gần như không thể nhận thấy. Những ví dụ minh họa tốt cho sự nhạy cảm của các
dẫn xuất đến nhiễu.
Theo dự kiến, dẫn xuất thứ hai thậm chí còn nhạy cảm hơn với nhiễu. Dẫn xuất
bậc hai của ảnh không nhiễu được thể hiện ở phía trên ảnh bên phải. Các đường màu
đen và trắng mỏng là các phần dương và âm được giải thích trong hình 10.6. Màu
xám trong các ảnh đại diện cho zero do mở rộng quy mô. Chúng ta lưu ý rằng chỉ
dẫn xuất nhiễu bậc hai giống với trường hợp không nhiễu tương ứng tới nhiễu với
độ lệch chuẩn của các mức xám 0.1. Hai ảnh dẫn xuất thứ hai và cấu hình khác rõ
ràng minh họa rằng nó sẽ là khó khăn thực sự để phát hiện các thành phần dương và
âm của nó, đó là những tính năng thực sự hữu ích của dẫn xuất thứ hai về phát hiện
cạnh.
Thực tế là khá ít nhiễu có thể có một tác động đáng kể như trên hai chất dẫn xuất
chính được sử dụng để phát hiện cạnh trong ảnh là một vấn đề quan trọng cần lưu ý.
Đặc biệt, làm mịn hình ảnh nên được xem xét nghiêm túc trước khi sử dụng các dẫn
xuất trong các ứng dụng nơi nhiễu với mức độ tương tự như chúng ta vừa thảo luận
là giống với hiện tại.
Dựa vào ví dụ này và trên ba đoạn đứng trước nó, chúng ta được dẫn đến kết luận
rằng, để được phân loại như là một điểm cạnh có ý nghĩa, quá trình chuyển đổi trong
mức độ màu xám kết hợp với điểm mà đã mạnh hơn đáng kể nền tại điểm đó. Vì
chúng ta đang đối phó với tính toán cục bộ, phương pháp lựa chọn để xác định xem
một giá trị là "quan trọng" hay không là sử dụng một ngưỡng. Do đó, chúng ta xác
định một điểm trong một hình ảnh như là một điểm cạnh nếu dẫn xuất đầu tiên để
chiều của nó lớn hơn một ngưỡng quy định . Một tập hợp các điểm như vậy được
kết nối theo một tiêu chuẩn được xác định trước mối (xem Phần 2.5.2) được định
nghĩa một cạnh. Phân khúc cạnh hạn thường được sử dụng nếu cạnh là ngắn hơn so
với kích thước của hình ảnh. Một vấn đề quan trọng trong phân khúc là để lắp ráp
các phân đoạn tiến vào cạnh còn như được giải thích trong mục 10.2. Một định
13
Tiu lun: X l nh số nâng cao
nghĩa được thay thế nếu chúng ta chọn việc sử dụng dẫn xuất thứ hai chỉ đơn giản là
để xác định các điểm cạnh trong một ảnh như ngang qua zero của dẫn xuất thứ hai
của nó. Định nghĩa của một cạnh trong trường hợp này là tương tự như trên. Điều
quan trọng cần lưu ý là những định nghĩa này không đảm bảo thành công trong việc
tìm kiếm các cạnh trong một ảnh. Họ chỉ đơn giản là cung cấp cho chúng ta một
hình thức để tìm chúng.
Như trong chương 3, dẫn xuất bậc 3 trong một ảnh được tính toán sử dụng
gradient. Dẫn xuất bậc hai thu được dùng Laplacian.
@-'1
Dẫn xuất bậc một của ảnh số là dựa trên xấp xỉ khác nhau của gradient 2-D.
Gradient của ảnh f(x,y) tại vị trí (x,y) được định nghĩa là vector
Nó cũng được biết đến từ việc phân tích vector rằng các điểm vector gradient theo
hướng tỷ lệ thay đổi cực đại của f tại tọa độ (x,y).
Một số lượng quan trong trong việc phát hiện cạnh là độ lớn của vector này, ký
hiệu , với
Số lượng này cho tỷ lệ lớn nhất của việc tăng f(x,y) trên đơn vị khoảng cách theo
hướng của . Nó là một (mặc dù không chính xác đúng) thực tế phổ biến để chỉ
cũng như gradient. Chúng ta sẽ tuân theo quy ước và cũng sử dụng thuật ngữ
này thay thế cho nhau, sự khác biệt giữa các vector và độ lớn của nó chỉ trong
trường hợp nhầm lẫn là có thể.
14
Tiu lun: X l nh số nâng cao
Hướng của vector gradient cũng là một số lượng quan trọng. Cho α(x,y) đặc trưng
cho hướng góc của vector tại (x,y). Khi đó, từ phân tích vector,
Trong đó các góc được đo liên quan với trục x. Hướng của một cạnh tại (x, y) là
vuông góc với hướng của vector gradient tại điểm đó.
Tính toán gradient của một ảnh là trên việc thu được một phần các chất dẫn xuất
∂f/∂x và ∂f/∂y tại mỗi vị trí điểm ảnh. Cho khu vực 3x3 hình 10.8(a) đại diện cho
các mức xám trong một lân cận của ảnh. Như đã thảo luận tại mục 3.7.3, một trong
những cách đơn giản nhất để thực hiện một phần dẫn xuất bậc một tại điểm z
5
là sử
dung toán tử Roberts cross-gradient sau đây:
và
Các dẫn xuất có thể được thực hiện cho toàn bộ ảnh bằng cách sử dụng mặt nạ biểu
diễn trong hình 10.8(b) với các thủ tục thảo luận trong phần 3.5.
Mặt nạ kích thước 2x2 là khó khăn để thực hiện bởi vì chúng không có một trung
tâm rõ ràng. Một cách tiếp cận sử dụng mặt nạ kích thước 3x3 được cho bởi
15
Tiu lun: X l nh số nâng cao
và
Trong công thức này, sự khác nha giữa hàng thứ nhất và thứ ba của vùng ảnh 3x3
xấp xỉ dẫn xuất theo hướng x, và khác nhau giữa cột thứ nhất và thứ ba là xấp xỉ dẫn
xuất theo hướng y. Các mặt nạ biểu diaanx trong hình 10.8(a) và (e) được gọi là toán
tử Prewitt, có thể dùng để thực hiện hai phương trình này.
Một sự thay đổi nhỏ của hai phương trình này sử dụng một trọng số của 2 ở hệ số
trung tâm:
16
Tiu lun: X l nh số nâng cao
Và
Giá trị trọng số của 2 được sử dụng để đạt được một số làm mịn bằng cách đưa ra
tầm quan trọng nhiều hơn đến điểm trung tâm (Vấn đề 10.8). Hình 10.8(f) và (g)
được gọi là toán tử Sobel được sử dụng để thực hiện hai phương trình này. Toán tử
Priwitt và Sobel là một trong những toán tử được sử dụng nhiều nhất trong thực tế
để tính toán độ các gradient số.
Các mặt nạ Prewitt thực hiện đơn giản hơn các mặt nạ Sobel, nhưng sau này có
những đặc điểm đàn áp nhiễu hơi cao, một vấn đề quan trọng khi xử lý với các dẫn
xuất. Lưu ý rằng các hệ số trong tất cả các mặt nạ hình 10.8 có tổng bằng 0, chỉ thị
rằng chúng cho đáp ứng zero ở khu vực mức xám không đổi, như mong muốn cảu
toán tử dẫn xuất.
Các mặt nạ vừa thảo luận được sử dụng để thu được các thành phần gradient G
x
và G
y
. Việc tính toán gradient yêu cầu hai thành phần này kết hợp trong cách thức
thể hiện trong phương trình (10.1-4). Tuy nhiên việc thực hiện này không luôn
mong muốn bởi vì gánh nặng tính toán theo yêu cầu bởi bình phương và căn bậc hai.
Một cách tiếp cận được sử dụng thường xuyên là gradient gần đúng bởi các giá trị
tuyệt đối:
Phương trình này tính toán hấp dẫn hơn nhiều, và nó vẫn còn lưu giữ những thay
đổi tương đối ở mức xám. Như đã thảo luận tại mục 3.7.3, giá phải trả cho ưu điểm
này là các bộ lọc kết quả sẽ không đẳng hướng (không đổi khi xoay vòng) nói
chung. Tuy nhiên, đây không phải là một vấn đề khi mặt nạ như Prewitt và mặt nạ
Sobel được sử dụng để tính toán G
x
và G
y
. Các mặt nạ này cho kết quả đẳng hướng
chỉ với các cạnh thẳng đứng và nằm ngang, vì vậy ngay cả nếu chúng ta sử dụng
phương trình (10.1-4) để tính toán gradient, kết quả sẽ là đẳng hướng chỉ với các
17
Tiu lun: X l nh số nâng cao
cạnh trong những hướng này. Trong trường hợp này, các phương trình (10.1-4) và
(10.1-12) cho kết quả giống (vấn đề 10.6).
Nó có thể thay đổi mặt nạ 3x3 trong Hình 10.8 do đó chúng có đáp ứng mạnh
nhất của chúng dọc theo hướng đường chéo.Thêm hai mặt nạ Prewitt và Soble để
phát hiện các gián đoạn theo các hướng đường chéo được trình bày trong Hình 10.9.
Hình 10.10 minh họa đáp ứng của hai thành phần gradient, |G
x
| và |G
y
|, cũng như
các ảnh gradient hình thành từ tổng của hai thành phần này.
18
Tiu lun: X l nh số nâng cao
Các hướng của hai thành phần thể hiện rõ trong hình 10.10(b) và (c). Chú ý kỹ
vào phần mái ngói, khớp gạch ngang, và các đoạn ngang của các cửa sổ trong hình
10.10(b). Ngược lại, hình 10.10(c) có dấu hiệu các thành phần dọc, chẳng hạn như
các góc của bức tường gần đó, các cột đèn ở phía bên phải của bức hình.
Ảnh gốc có độ phân giải tương đối cao (1200 x 1600 pixel) và, tại khoảng cách
hình ảnh được chụp, góp phần tạo nên ảnh chi tiết bởi những viên gạch tường vẫn
còn đáng kể. Mức độ chi tiết thường là không mong muốn, và một trong những cách
để giảm bớt nó là làm mịn ảnh. Hình 10.11 cho thấy trình tự của các hình ảnh như
trong hình 10.10, nhưng với hình ảnh ban đầu được làm mịn đầu tiên sử dụng một
bộ lọc trung bình 5x5. Đáp ứng của mỗi mặt nạ bây giờ hầu như không có đóng góp
do những viên gạch với kết quả được làm mịn chủ yếu là do các cạnh chính. Lưu ý
rằng trung bình gây ra các đáp ứng của tất cả các cạnh là yếu.
Trong hình 10.10 và 10.11, rõ ràng là các mặt nạ Sobel ngang và dọc đáp ứng tốt
như nhau cho việc định hướng cạnh theo hướng cộng và trừ 45
o
. Nếu điều quan
trọng là để nhấn mạnh các cạnh theo hướng chéo sau đó một trong những cặp mặt nạ
trong Hình 10.9 nên được sử dụng. Đáp ứng tuyệt đối của mặt nạ Sobel chéo được
19
Tiu lun: X l nh số nâng cao
thể hiện trong hình 10.12. Đáp ứng chéo mạnh hơn của các mặt nạ là điều hiển nhiên
trong hình này. Cả hai mặt nạ đường chéo có đáp ứng tương tự với cạnh ngang và
dọc nhưng, như mong đợi, đáp ứng của nó theo hướng này là yếu hơn so với đáp
ứng của mặt nạ Sobel ngang và dọc thể hiện trong hình 10.10(b) và 10.10(c).
A,
Laplacian của một hàm 2-D f(x,y) là một dẫn xuất bậc hai được định nghĩa là
20
Tiu lun: X l nh số nâng cao
Xấp xỉ số Laplacian đã được giới thiệu tại mục 3.7.2. Cho một vùng 3x3, một trong
hai dạng gặp phải thường xuyên nhất trong thực tế là
Trường hợp của z được xác định trong hình 10.8 (a). Một xấp xỉ số bao gồm cả
những lân cận chéo được cho bởi
Mặt nạ để thực hiện hai phương trình này được thể hiện trong hình 10.13. Chúng ta
lưu ý từ các mặt nạ này sự thực hiện của các phương trình (10.1-14) và (10.1-15) là
đẳng hướng để gia tăng vòng quay 90
o
và 45
o
, tương ứng.
Laplacian thường không được sử dụng ở dạng gốc của nó cho việc phát hiện
cạnh vì nhiều lý do: như dẫn xuất bậc hai, Laplacian thường không thể chấp nhận
nhạy cảm với nhiễu (hình 10.7). Độ lớn của Laplacian tạo ra cạnh đôi (xem hình
10.6 và 10.7), ảnh hưởng không mong muốn bởi vì nó phân đoạn phức tạp. Cuối
cùng, Laplacian không thể phát hiện hướng cạnh. Với những lý do này, vai trò của
Laplacian trong việc phân đoạn bao gồm: (1) sử dụng tính chất zero-crossing của nó
cho vị trí cạnh, như đã đề cập trước đó trong phần này, hoặc (2) sử dụng nó cho mục
đích bổ sung các thiết lập có một điểm ảnh là trên mặt tối hoặc ánh sáng của cạnh,
như chúng ta thấy trong mục 10.3.6.
21
Tiu lun: X l nh số nâng cao
Trong loại thứ nhất, Laplacian được kết hợp với việc làm mịn như một người đi
trước để tìm các cạnh qua zero-crossing. Xét các hàm
Trong đó r
2
= x
2
+ y
2
và σ là độ lệch chuẩn. Biến đổi hàm này với một ảnh làm mờ
ảnh, với mức độ làm mờ được xác định bởi giá trị của σ. Laplacian của h (đạo hàm
bậc hai của h quan hệ với r) là.
Hàm này thường được gọi là Laplacian of Gaussian (LoG) bởi vì phương trình
(10.1-16) là có dạng của một hàm Gaussian. Hình 10.14 biểu diễn đồ thị 3-D, hình
ảnh, và mặt cắt ngang của hàm LoG. Cũng biểu diễn một mặt nạ 5x5 xấp xỉ .
Xấp xỉ này không phải là duy nhất. Mục đích của nó là để nắm bắt hình dạng cơ bản
của : đó là, một dạng trung tâm dương, được bao quanh bởi một vùng âm liền
kề làm tăng giá trị như một hàm của khoảng cách từ gốc, và vùng zero bên ngoài.
Tổng các hệ số cũng bằng 0, do đó đáp ứng của mặt nạ là zero trong vùng mức xám
không đổi. Mặt nạ nhỏ này chỉ có ích cho ảnh mà chủ yếu là nhiễu tự do. Do hình
dạng của nó, Laplacian of Gaussian đôi khi được gọi là hàm mũ Mexican.
Bởi vì đạo hàm thứ hai là một toán tử tuyến tính, chuyển đổi một ảnh với
cũng giống như chuyển đổi ảnh với hàm làm mịn Gaussian của phương trình (10.1-
16) đầu tiên và sau đó tính toán Laplacian của kết quả.
22
Tiu lun: X l nh số nâng cao
Do đó, chúng ta thấy rằng mục đích của hàm Gaussian trong công thức LoG là để
làm mịn ảnh, và mục đích của toán tử Laplacian là cung cấp một ảnh với zero
crossings được sử dụng để thiết lập vị trí của các cạnh. Làm mịn ảnh làm giảm ảnh
hưởng của nhiễu và, về nguyên lý, nó tính toán sự gia tăng ảnh hưởng của nhiễu gây
ra bởi các dẫn xuất thứ hai của Laplacian. Nó là quan tâm đến việc lưu ý rằng các thí
nghiệm sinh lý thần kinh thực hiện trong đầu những năm 1980 (Ullman [1981],
Marr [1982]) cung cấp bằng chứng cho thấy một số khía cạnh tầm nhìn của con
người có thể được mô hình hóa toán học ở dạng cơ bản của phương trình (10.1-17).
%&'(BC#$")DE1--FFF
Hình 10.15(a) biểu diễn ảnh chụp sơ đồ mạch thảo luận trong phần 1.3.2. Hình
10.15(b) thể hiện gradient Sobel của ảnh này, bao gồm ở đây để so sánh. Hình
10.15(c) là một hàm Gauss không gian (với độ lệch chuẩn năm pixel) được sử dụng
để thu được một mặt nạ làm mịn không gian 27x27. Mặt nạ thu được bằng cách lấy
mẫu hàm Gaussian này tại các khoảng thời gian bằng nhau. Hình 10.15(d) là mặt nạ
không gian được sử dụng để thực hiện phương trình (10,1-15). Hình 10.15(e) là ảnh
23
Tiu lun: X l nh số nâng cao
LoG thu được bằng cách làm mịn ảnh gốc với mặt nạ làm mịn Gaussian, tiếp theo là
ứng dụng của mặt nạ Laplacian (ảnh này được cắt để loại bỏ các hiệu ứng biên giới
được tạo ra bởi mặt nạ làm mịn). Như đã nói ở đoạn trên, có thể được tính bằng
cách áp dụng (c) tiếp theo (d). Sử dụng phương pháp này cung cấp kiểm soát nhiều
hơn các chức năng làm mịn, và thường kết quả trong hai mặt nạ mà nhỏ hơn nhiều
khi so sánh với một mặt nạ hỗn hợp duy nhất mà thực hiện phương trình (10.1-17)
trực tiếp. Một mặt nạ hỗn hợp thường là lớn hơn bởi vì nó phải kết hợp các hình
dạng phức tạp hơn thể hiện trong hình 10.14(a).
Kết quả LoG được thể hiện trong hình 10.15(e) là hình ảnh mà zero crossings
được tính toán để tìm các cạnh. Một phương pháp đơn giản cho xấp xỉ zero
crossings là ngưỡng hình ảnh LoG bằng cách thiết lập tất cả các giá trị dương của
nó, nói, trắng, và tất cả các giá trị âm đến đen. Kết quả được hiển thị trong hình
10.15(f). Logic đằng sau phương pháp này là zero crossings xảy ra giữa các giá trị
dương và âm của Laplacian. Cuối cùng, hình 10.15(g) biểu diễn ước lượng zero
24
Tiu lun: X l nh số nâng cao
crossings, thu được bằng cách quét ngưỡng ảnh và ghi nhận quá trình chuyển đổi
giữa màu đen và màu trắng.
So sánh hình 10.15(b) và (g) cho thấy một số khác biệt thú vị và quan trọng. Đầu
tiên, chúng ta lưu ý rằng các cạnh trong ảnh zero-crossing là mỏng hơn so với các
cạnh gradient. Đây là một đặc tính của zero crossings mà làm cho cách tiếp cận này
hấp dẫn. Mặt khác, chúng ta thấy trong hình 10.15(g) mà các cạnh được xác định
bởi zero crossings hình thành các vòng khép kín. Cái gọi là ảnh hưởng mì ống này là
một trong những hạn chế nghiêm trọng nhất của phương pháp này. Một nhược điểm
lớn là tính toán zero crossings, đó là nền tảng của phương pháp. Mặc dù nó là hợp lý
đơn giản trong ví dụ này, việc tính toán zero crossings là một thách thức nói chung,
và các kỹ thuật phức tạp hơn nhiều thường được yêu cầu để có được kết quả chấp
nhận được (Huertas và Medione [1986]).
Phương pháp zero-crossing được quan tâm vì khả năng giảm nhiễu của chúng và
tiềm năng cho hiệu suất gồ ghề. Tuy nhiên, những hạn chế chỉ ghi nhận trình bày
một rào cản đáng kể trong ứng dụng thực tế. Vì lý do này, các kỹ thuật phát hiện
cạng trên cơ sở triển khai khác nhau của gradient vẫn được sử dụng thường xuyên
hơn hơn zero crossings trong việc thực hiện các thuật toán phân mảnh.
.AGHI";:, -4
Lý tưởng nhất, các phương pháp được thảo luận trong phần trước nên số lượng các
điểm chỉ nằm trên các cạnh. Trong thực tế, điều này đặt các điểm ảnh hiếm khi mô
tả một cạnh hoàn toàn bởi vì nhiễu, phá vỡ trong các cạnh từ sự không đồng dạng
chiếu sáng, và các ảnh hưởng khác mà giới thiệu gián đoạn cường độ giả. Do đó các
thuật toán phát hiện cạnh thường được theo sau bằng cách liên kết các thủ tục để lắp
ráp các pixel cạnh thành các cạnh có ý nghĩa. Một số phương pháp tiếp cận cơ bản là
phù hợp với mục đích này.
.J()2
Một trong những phương pháp đơn giản nhất cho các điểm cạnh Unking là phân tích
các đặc điểm của các điểm ảnh trong một khu phố nhỏ (nói, 3 x 3 hoặc 5 x 5) về tất
25