Tải bản đầy đủ (.pdf) (26 trang)

Phát Hiện Người Đi Bộ Trên Đường Phố

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.58 MB, 26 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG

<small>Vương Thị Thúy Vân</small>

PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN ĐƯỜNG PHƠ

<small>Chun ngành: Khoa học máy tính</small>

Mã số: 60.48.01.01

TĨM TÁT LUẬN VĂN THẠC SĨ

<small>HÀ NỘI - 2015</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Người hướng dẫn khoa học: Tiến sĩ Phạm Văn Cường</small>

<small>Có thể tìm hiểu luận văn tại:</small>

<small>- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

CHƯƠNG 1: TONG QUAN

1.1. Đặt van đề

Trong thời dai hiện nay, cơng nghệ thơng tin đóng vai trị quan trọng trong rat nhiều lĩnh vực khoa học công nghệ và ứng dụng trong đời sống. Cùng với sự phát triển của cơng nghệ

thơng tin, cơng nghệ nhận dạng hình anh được nghiên cứu và ngày càng trở nên phổ biến.

Chúng ta đã quen thuộc với những thiết bị đa phương tiện được tích hợp cơng nghệ nhận diện

hình ảnh (nhận diện con người, nhận diện khuôn mặt, nụ cười, nhận diện ánh mắt..). Phát hiện

người đi bộ trên đường là một trong số đó.

Phát hiện người đi bộ là một vấn đề quan trọng trong học máy, với rất nhiều ứng dụng bao gồm người máy, hệ giám sát và an toàn tự động. Phát hiện người đi bộ là một ứng dụng thiết yêu và vô cùng quan trong trong bat cứ hệ thống giám sát thơng mình nào, vì nó cung cấp các thơng tin cơ bản cho sự hiểu biết về ngữ nghĩa của các đoạn video. Khả năng mở rộng của phát hiện người đi bộ rất lớn, có tiền năng trong các ứng dụng tự động dé cải thiện hệ thống an

Con người đóng vai trị trung tâm, quan trọng nhất trong mơi trường; các nghiên cứu về lĩnh vực thị giác máy tính (computer vision) nghiên cứu về các vấn đề làm sao cho máy tính có

thé “hiểu” được mơi trường xung quanh, bao gồm: nhận biết đối tượng, nhận biết con người và

<small>các tương tác giữa con người. Trong đó phát hiện và theo dõi người là một trong những lĩnh</small>

vực nghiên cứu quan trọng, các ứng dụng dựa trên phát hiện người đi đường bao gồm: robot, giải trí, giám sát tự động, hệ thống chăm sóc người già và tan tật, an tồn giao thơng v.v..

Theo các khảo sát gần đây tại Mỹ, có gần 5000 trong 35000 trường hợp tử vong do tai

<small>nan giao thông liên quan tới người di bộ. Tình trang giao thơng ở Việt Nam thậm chi còn phức</small>

tạp hơn khi hệ thống cơ sở hạ tầng chưa phát triển, cùng với đó, ý thức của người tham gia giao thơng cịn chưa cao. Theo thống kê của Ủy ban an tồn giao thơng Quốc gia Việt Nam, hàng năm nước ta có hơn 14% số người đi bộ thiệt mạng trong tổng số người tử vong do tai nạn giao thơng đường bộ nói chung. Thống kê trong năm 2014 cho thấy, trên toàn quốc xảy ra 25322 vụ

tai nạn, làm chết 8996 người, bị thương 24417 người. Do đó, nghiên cứu vấn đề tự động phát hiện người đi bộ trên đường phố là một trong những vấn đề được quan tâm.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Vấn đề phát hiện người đi bộ đã thu hút sự quan tâm của những nhà nghiên cứu về vấn đề học máy trong một vai năm gan day. Mot số kĩ thuật đã được dé xuất với các về tính năng, mơ hình và kiến trúc chung. Tuy nhiên kết quả đạt được đối với mỗi kĩ thuật có hiệu quả khác

nhau và thường khó có thể áp dụng trực tiếp để phát hiện người đi bộ trong tình hình giao

<small>thơng ở Việt Nam.</small>

<small>1.2. Các nghiên cứu trước đây</small>

<small>1.2.1. Holistic detection (Nhận dạng tồn bộ)</small>

Các chương trình máy tính phát hiện được huấn luyện dé tìm kiếm người đi bộ trong các khung hình video bằng cách qt tồn bộ khung hình. Chương trình máy tính phát hiện sẽ thơng báo nếu như tính năng phát hiện hình ảnh bên trong của khung hình bắt gặp hình ảnh tương ứng. Một vài phương pháp sử dụng các tính năng toàn diện như cạnh mẫu [1], một vào phương pháp khác sử dụng các tính năng cơ bản như lược đồ có hướng gradient [2]. Hạn chế của phương pháp này là kết quả nhận diện của nó có thê dễ

dàng bị ảnh hưởng khi nền ảnh có nhiều nhiễu và các điểm bị che khuất.

1.2.2. Part-based detection (Nhận dang dựa trên thành phan)

Người đi bộ được mơ hình hóa thành tập nhiều bộ phận. Bộ phận giả lập được tạo nên ban đầu bằng cách học các đặc điểm của người thật, trong đó bao gồm các định

hướng của đặc điểm [3]. Những bộ phận giả lập Mặc dù phương pháp này rất được các

nhà nghiên cứu quan tâm, tuy nhiên bản thân nhận dạng dựa trên thành phần đã là một phương pháp khó. Việc cài đặt phương pháp này theo sau đó là một quy trình chuẩn với các tiến trình với các dit liệu hình ảnh bao gồm tạo một mẫu tam giác các hình ảnh động, tính tốn các đặc điểm với từng tỉ lệ, thực hiện phân lớp tat cả các địa điểm có thê và cuối cùng là sử dụng giải thuật non-maximum supression để sinh ra tập các khung cuối cùng

<small>1.2.3. Patch-based detection (Nhận dạng dua trên cum/nhém)</small>

Gần đây Leibe [5] dé xuất một phương pháp kết hợp cả hai phương pháp nhận dạng và phân đoạn ảnh với cái tên Implicit Shape Model (ISM). Một codebook xuất hiện

ban dau được học trong suốt quá trình huấn luyện. Trong quá trình phát hiện, các đặc điểm

<small>được lây ra ban dau được sử dụng dé phù hợp với các mô tả của codebook, va moi một đặc</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

điểm phù hợp sẽ là một đặc điểm nhận dạng cho người đi bộ giả lập. Cuối cùng kết quả phát hiện thu được bang cách làm mịn những giả lập đó. Lợi ích của phương pháp này là chỉ yêu cầu tương đối ít ảnh huấn luyện.

1.2.4. Motion-based detection (Nhận dang dựa trên chuyển động)

Khi các điều kiện khách quan cho phép (camera cé định, điều kiện ánh sáng cho

phép..) phương pháp trừ nền có thé sử dụng dé phát hiện người đi bộ. Các điểm ảnh được phân loại trừ nền của mỗi video của mỗi khung hình mà khơng phát hiện chuyên động hoặc phía sau, nơi phát hiện chuyển động. Q trình này đánh dấu các bóng đen (những

thành phần kết nối của ảnh nền) của tat cả những vật thé trong ảnh, kể cả con người. Một

thuật toán được phát triển tại đại học Lidege, dé phân tích những bong den dé phat hién hình dang con người. Vi phương pháp này sử dung tồn bộ bóng dé thực hiện nhận dạng, nên nó thường phụ thuộc nhiều vào những sai khác nhỏ về hình dáng. Một số phương pháp khác sử dụng cách phân tích bóng thành những phần nhỏ khác nhau đã được đưa ra dé giảm bớt ảnh hưởng của những sai khác này. Ngược lại với các phương pháp dựa trên bộ phận khác, phương pháp này khơng có bất cứ ý nghĩa về giải phẫu học nào. Thuật toán này đã được mở rộng đến phạm vi phát hiện người trong không gian video 3D.[6]

1.2.5. Detection using multiple camera (Nhận dạng đa nguồn)

Fleuret [7] để xuất một phương pháp nhận dạng đa nguồn được điều chỉnh để phát hiện nhiều người đi bộ. Trong phương pháp này, một chiếc máy bay được chia thành một thé thống nhất, bao gồm các 6 lưới khơng chồng lên nhưng với kích cỡ thơng

<small>thường là 25x25cm. Các chương trình máy tính phát hiện tạo ra một Provabilitu</small>

Occupancy Map (POM), nó cung cấp một ước lượng của xác suất mỗi ô lưới được xác định bởi một người. Với 2 — 4 luồng video đồng bộ thực hiện trong tam mắt và từ nhiều góc độ khác nhau, phương pháp này có thé kết hợp hiệu quả với một mơ hình được tao ra với lập trình động để theo dõi chính xác sáu cá thể độc lập trong hàng ngàn khung hình xác định bị che khuất và ánh sáng thay đổi. Nó cũng có thé xác định được quỹ đạo chính

<small>xác của một trong sơ đó.</small>

<small>1.3. Phạm vi và các giả định</small>

<small>Đơi tượng nghiên cứu gôm:</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

— Phát hiện người đi đường trên đường phố bằng việc phân tích ảnh từ camera; Về phạm vi nghiên cứu:

— Phương pháp phát hiện người bang phân tích và xử lý anh số được chụp (captured) từ camera của điện thoại trong điều kiện ánh sáng ban ngày

— Một số phương pháp phát hiện người đi đường — Phạm vi thử nghiệm là một số tuyến phố

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI ĐI BỘ TRÊN

ĐƯỜNG PHÓ

<small>2.1.Phân đoạn và xử lý ảnh</small>

2.1.1. Phân đoạn ảnh bằng thuật toán K-means

Thuật toán K-means do MacQuean đề xuất trong lĩnh vực thống kê năm 1967.

<small>Thuật toán k-mean là thuật toán gom cụm lặp đơn giản. Nó phân mảnh tập dữ liệu cho</small>

trước thành k cụm, giá trị k do người dùng xác định. Thuật tốn dễ thực hiện, thi hành nhanh, dễ thích nghỉ và phổ biến trong thực tế.

K-Mean là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật tốn K-Mean là tim cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm được xác định trước và K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm đạt được là nhỏ nhất.

<small>Bài tốn phân cụm dữ liệu trong thuật toán K-mean:</small>

Cho tập các điểm D = {Xị, X¿,..., Xn},

<small>Trong đó x; = (Xị, Xịa,..., x„) là một vector có r chiêu trong khơng gian RỶ, var là</small>

một số thuộc tính của tập dit liệu D.

Giải thuật K-Mean phân cụm dữ liệu dựa trên khoảng cách Euclidean nhỏ nhất giữa đối tượng đến phần tử trung tâm của các nhóm.

<small>Khoảng cách EuclideanTa giả sử:</small>

Xj = (Xi, Xi2,..., Xịy) - đối tượng thứ 1 cần phân phân loại, (i=1..n)

Cj = (Ci, Cja,..., Cir) - phan tử trung tam nhóm j (j=1..k)

Khoảng cách Euclidean từ đối tượng a; đến Cj (phan tử trung tâm nhóm j)

<small>được tính tốn dựa trên cơng thức:</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>Trong đó:</small>

6,,- khoảng cách Euclidean từ a; đến Cj

x;, - thuộc tính thứ s của đối tượng x;

Xj” thuộc tinh thứ s của phan tử trung tâm Cj

Phan tử trung tâm của nhóm được xác định bang giá trị trung bình các phan tử

<small>trong nhóm.</small>

Phân tử trung tâm

k phần tử trung tâm (k nhóm) ban đầu được chọn ngẫu nhiên, sau mỗi lần nhóm các đơi tượng vào các nhóm, phan tử trung tâm được tính tốn lại.

<small>Cluster;{Xị, Xa,..., X,} — Nhóm thứ 1</small>

i=l..k, k số số nhóm cần phân chùm; j= l..r, r số thuộc tính

t - số phan tử hiện có của nhóm thứ I; x, - thuộc tính thứ j của phần trs s=l..t

cy - toa độ thứ J của phan tử trung tâm nhóm i;

<small>Giải thuật K- mean:</small>

Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cum (cluster). Mỗi cụm được

<small>đại diện băng các tâm của cụm.</small>

Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng

<small>khoảng cách Euclidean)</small>

<small>Bước 3: Nhóm các đơi tượng vào nhóm gân nhât</small>

<small>Bước 4: Xác định lại tâm mới cho các nhóm</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Bước 5: Thực hiện lại bước 2 cho đến khi khơng có sự thay đơi nhóm nao của các

đối tượng

Phân đoạn ảnh là bước đầu tiên trong quá trình xử lý ảnh. Quá trình này thực hiện

phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau, nó chính là việc xác định các biên của các vùng ảnh đó. Mỗi vùng gồm một nhóm điểm ảnh liên thơng hoặc đồng

nhất theo một tiêu chí lựa chọn như màu sắc, hình dạng, kết cấu, .... Sau khi phân đoạn mỗi điểm ảnh chỉ thuộc về một vùng duy nhất. Những vùng ảnh đồng nhất này thơng

thường sẽ tương ứng với tồn bộ hay từng phần của các đối tượng thật sự có trong ảnh.

<small>Gia sử màu sac bê mặt của các đôi tượng trong ảnh là một thuộc tính khơng đơi vàmau sac đó được ánh xạ vào một khơng gian 2 chiêu và màu. Khi đó áp dụng giải thuậtphân cụm K-mean cho việc xác định các cum màu, môi cum màu có tập các diém ảnh</small>

<small>tương tự nhau.</small>

Khi áp dụng thuật tốn Kmean cho phân vùng ảnh, có những đối tượng khơng liên quan có trong khung hình cần được loại bỏ. Ví dụ một điểm ngoại lai theo hình minh họa

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

(Những cụm lý tưởng: Những cụm được gom lại đã loại trừ được điểm ngoại lai —

điểm ngoại lai: điểm không liên quan tới đối tượng nhận dạng vơ tình xuất hiện trong

Do đó, một ngưỡng t; được chỉ định cho mỗi lớp huấn luyên người di bộ fj. Các thơng số thuật tốn (tức là ngưỡng) được xác định băng tay như là kết quả của một thủ

<small>tục hợp lệ qua 4 nhóm trên một elip trong khoảng giữa các thử nghiệm và các hình ảnh</small>

người di bộ huấn luyện. Một thuật toán nhận dạng người đi bộ như vậy là đơn giản, nhưng đủ nhanh dé phân lớp hình anh theo thời gian thực. Một người đi bộ phù hợp nếu

khoảng cách ngắn nhất trong k hình ảnh gần nhất lớn hơn một ngưỡng cho các lớp huấn

luyện người đi bộ, nếu không, f; bị từ chối (tức là phân lớp như là một người đi bộ không

Trong tập thử nghiệm trong luận văn, ta sthiết lập k=2 dé đánh giá hệ thống nhận

<small>dạng trên tập dữ liệu tự thu thập: k= 2 nghĩa là phan cụm dữ liệu ra làm 2 cum (clusters):có người di bộ (pedestrian) va khơng có người di bộ (non-pedestrian). Việc sử dụng k = 2</small>

cũng khiến cho thuật tốn phân cụm k-means thực hiện nhanh hơn, có ý nghĩa lớn trong việc cài đặt hệ thống nhận dạng thời gian thực (real-time).

2.1.2. Tiền xử lý

Dé việc nhận dang anh chi tập trung vào đúng đối tượng quan tâm là người đi bộ. Ta cần loại bỏ những đối tượng không liên quan tới nhận dạng như phông nền xung quanh đối tượng quan tâm: bầu trời, đường bộ, các loại phương tiện giao thơng, cây cối.. Để có thé tăng cường chất lượng ảnh, bước tiền xử ly là bước đầu tiên nhằm loại bỏ nhiễu, khắc phục những khiếm khuyết trong bước thu nhận ảnh chưa được tốt là một bước quan trọng. Luận văn đưa ra ba phương pháp đề thực hiện tiền xử lý: phương pháp lọc tương phan (contrast filtering), circular head filtering và lọc đối xứng (symmetry

<small>Phan tich va trich chon dac trung2.2.1. Dac trung SURF</small>

<small>Đặc trưng SURF (Speeded Up Robust Feature) — Đặc trưng nhận dang nhanh là</small>

một phương pháp mô tả và nhận dang những điểm tiêu biểu không đổi về tỉ lệ - góc độ.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Phương pháp này tương đương, thậm chí tốt hơn những phương pháp khác về khả năng lặp lại, dễ phân biệt, sự chính xác cao và tốc độ tính tốn nhanh hơn. Đề có kết quả này,

<small>tồn bộ ảnh được sử dụng cho việc nhận dạng và xây dựng dựa trên các bộ nhận dạng.</small>

Việc nhận dạng những điểm tương tự giữa hai bức ảnh của một cảnh hoặc một vật

duy nhất là thành phần rất quan trọng của nhiều ứng dụng thị giác máy. Tĩnh chỉnh máy

ảnh, dựng 3D, đăng kí ảnh và nhận dạng vật thé là những ứng dụng tiêu biểu. Các bước

để xác định sự tương đồng này được thực hiện qua các bước chính. Đầu tiên, một số điểm đặc trưng sẽ được lựa chọn ra trong ảnh, ví dụ như các điểm ở góc, ở cạnh và các điểm kết nối. Tính năng quan trọng nhất của bộ xác định điểm này là tính ơn định, bộ xác

định này phải chỉ ra được những điểm đặc trưng trong nhiều điều kiện khác nhau. Tiếp

theo, vùng phụ cận của những điểm này được biểu diễn bằng một vector đặc trưng. Những bộ mô tả này phải mô tả được những đặc trưng cơ bản đồng thời lọc bỏ được những nhiễu, sai số hay những biến đổi về hình dáng hay màu sắc. Cuối cùng những vector mô tả sẽ được so sánh trong những bức ảnh khác nhau. Sự kiểm định so sánh này

<small>thường được tính tốn dựa vào khoảng cách giữa các vector theo cơng thức Euclidean</small>

hoặc Mahalanobis. Số chiều của vector này có ảnh hưởng trực tiếp đến thời gian tính tốn này, do vậy, số chiều này càng nhỏ sẽ càng cải thiện được thời gian tính tốn.

Với các đặc trưng cơ bản, việc đầu tiên cần xử lý là xác định mức độ bất biến của chúng. Điều này phụ thuộc vào những biến dạng về hình dáng, màu sắc do sự thay đổi của góc nhìn. Ta sẽ tập trung hơn đến những bộ nhận dạng, mô tả sử dụn các đặc trưng về tỉ lệ, góc xoay. Chúng có kết quả tốt, hài hòa giữa độ phức tạp của đặc trưng và khả năng chống lại những biến đổi thường xảy ra. Các hiệu ứng làm co kéo, dan, biến đổi tỉ lệ do góc nhìn, khung nhìn cũng được xử lý bố sung bằng những bộ nhận dạng này.

<small>2.2.2. Bộ nhận dạng nhanh Hessian</small>

<small>Ta sẽ sử dụng bộ nhận dạng dựa trên ma trận Hessian bởi hiệu năng tínhtốn và mức độ tính tốn của chúng. Tuy nhiên thay vì sử dụng các phương pháp</small>

khác nhau để lựa chọn vị trí và tỉ lệ của ảnh (sử dụng tốn tử Laplace trên Hessian),

<small>ta sẽ chỉ sử dung Hessian cho cả 2.</small>

Với một điểm định trước x = (x,y) trong ảnh, ma trận Hessian H(x,o) ở điểm x với tỷ lệ o sẽ được định nghĩa như sau:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

os Dw (X, a) Lay (x a)

Hx, 6) = Ley(x, 7) Lyy(x, ø)

Với L„„(x,ø) là tích chập của đạo hàm bậc 2 Gaussian của anh ở điểm x, tương tự như vậy L,, và Lyy cũng là những đạo hàm bậc 2 theo các biến tương

ứng. Phương pháp Gauss là phương pháp tối ưu dé phân tích vùng tỉ lệ. Tuy nhiên

trong thực tế, Gaussian cần được rời rạc hóa và cắt bớt, dù vậy, sự phân mảnh vẫn diễn ra do ảnh kết quả đã được lay mẫu giảm đi (về độ phân giải). Việc giảm bớt độ phân giải ảnh khơng làm xuất hiện thêm bắt kì cầu trúc nào mới đã được chứng minh trong các trường hợp 1D, nhưng nó khơng thé áp dụng với các trường hợp

<small>2D. Do vậy độ quan trọng của Gauss dường như đã được đánh giá quá mức, ta chỉ</small>

cần kiểm tra theo cách đơn giản hơn. Do bộ lọc Gauss khơng tối ưu với bất kì trường hợp nào, cùng sự thành công của Lowe với phương pháp xấp xi LoG (tính Laplacian của ham Gaussian), ta sẽ áp dụng bộ lọc hộp tương đối. Việc tính tốn tương đối của đạo hàm Gauss bậc 2 có thé được thực hiện rất nhanh bằng cách sử dụng ảnh tích phân khơng phụ thuộc kích cỡ. Chất lượng của nó có thể thấy trong

<small>hình dưới đây, hiệu qua của phương pháp nay tương đương với phương phapGauss roi rac.</small>

<small>Hình 2.4: Ma trận dao hàm cấp 2 Gauss</small>

Ma trận 9x9 ở hình là đạo hàm cấp 2 Gauss với ti lệ bằng 1.2 là thấp nhất.

Ta chứng minh sự tương đối bằng D,,, Dyy và Dyy. Trọng số được áp dụng cho các vùng hình chữ nhật được giữ đơn giản nhất có thé dé tối ưu hiệu năng tính tốn. Tuy nhiên ta cũng cần cân bang giữa các trọng số tương đối trong biểu diễn của

<small>Hessian với:</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

(Lzu(1.2)Ir|Dzz(9)lE — nịc ~ ac

Lee 2DpiD.,(9p = 0-912... > 0.9

Trong đó |x|, là định mức Frobenius. Cơng thức nay cho kết qua:

Hơn nữa, kết quả của bộ lọc được chuẩn hóa theo kích cỡ của mặt để đảm bảo định mức Frobenius là không đổi.

<small>Không gian tỉ lệ thường được cài đặt như một kim tự tháp ảnh. Các ảnh</small>

được làm min với Gauss va sau đó được lấy mẫu xuống để đạt được một mức cao hơn (trong kim tự tháp). Với tính chất của bộ lọc khung và ảnh tích phân, ta có thể áp dụng trực tiếp phương pháp với bất kì cỡ nào trên ảnh gốc mà không cần áp

<small>dụng với ảnh ở mức trước (thậm chí chạy song song) mà khơng làm tăng thời gian</small>

chạy. Bởi vậy, không gian tỉ lệ được kiểm tra bằng cách tăng dần cỡ lọc thay vì giảm dần kích cỡ ảnh. Kết quả bộ lọc 9x9 ở trên sẽ được được sử dụng là lớp tỉ lệ đầu tiên, ta sẽ gọi nó là tỉ lệ s = 1.2 (Tương ứng với đạo hàm Gauss với o = 12). Các lớp sau đó được xây dựng bằng các thực hiện lọc với các tỉ lệ lớn hơn theo đặc tính rời rạc của các ảnh tích phân và cấu trúc của bộ lọc. Các lớp này sẽ được lọc

<small>với các bộ lọc kích cỡ 9x9, 15x15, 21x21, 27x27.. Với mức độ lớn hơn, bước nhảy</small>

của kích cỡ cũng sẽ tăng lên tương ứng. Với mỗi giai đoạn, bước tăng kích cỡ của

bộ lọc sẽ tăng lên gấp đơi. Cùng lúc với nó, tần số lấy mẫu sẽ chọn ra các điểm đặc

Do tỉ lệ của bộ lọc là không đổi sau mỗi lần điều chỉnh, đạo hàm tương đơi Gauss cũng thay đổi tương ứng, ví dụ bộ lọc 27x27 sẽ cho kết quả tương đương với o = 3x1.2 = 3.6 = s. Hơn nữa định mức Frobenios khơng đổi cho bất kì bộ lọc nào do chúng đã được chuẩn hóa.

Để có thể cục bộ hóa các điểm trên ảnh, ta thực hiện lược bỏ các điểm

khơng tối ưu ở quanh đó trong khoảng 3x3x3. Định thức tối ưu của ma trận

<small>Hessian sẽ được nội suy theo tỉ lệ và không gian ảnh với phương pháp được giới</small>

thiệu bởi Brown []. Việc nội suy không gian tỉ lệ là tối quan trọng với SURF do sai

</div>

×