Tải bản đầy đủ (.pdf) (4 trang)

Phân loại ảnh viễn thám siêu phổ dựa trên mô hình CNN-KELM sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (872.46 KB, 4 trang )

Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)

Phân loại ảnh viễn thám siêu phổ dựa trên mơ
hình CNN-KELM sâu
Lê Bá Tuấn,Vũ Quốc Huy, Nguyễn Vũ Hưng, Lê Khánh Thành và Phạm Chí Thành
Phịng Thiết Bị Và Hệ Thống Thơng Minh
Viện Tự Động Hóa Kỹ Thuật Quân Sự
Email: , , , ,

dữ liệu AVTSP. Nó được chứng minh là một phương
pháp khai thác tính năng với hiệu quả cao [7], [8], [9].
Huang và cộng sự [10] đề xuất thuật toán máy học hạt
nhân cấp tốc, sử dụng lý thuyết hàm hạt nhân và không
cần xác định số lượng nút lớp ẩn, do đó thời gian đào
tạo nhanh hơn các mạng truyền thống.
Bộ phân loại được sử dụng trong hầu hết các
nghiên cứu là hàm Softmax truyền thống. Chức năng
này sẽ hoạt động kém trong các bài toán đa phân loại.
Mặt khác, việc sử dụng các đặc trưng không gian của
các đối tượng trên mặt đất để nâng cao độ chính xác
của mơ hình phân loại là một nhiệm vụ quan trọng cần
được nghiên cứu trong cơng nghệ viễn thám. Do đó, để
cải thiện hiệu suất của mơ hình phân loại AVTSP, dựa
trên hai thuật toán CNN và KELM, nghiên cứu này đề
xuất một mơ hình phân loại cho AVTSP. Mơ hình này
sử dụng các ưu điểm của thuật toán CNN và KELM và
thơng tin phổ khơng gian của AVTSP. Thuật tốn CNN
được sử dụng để trích xuất các đặc trưng cục bộ không
gian-phổ của AVTSP và chuyển các đặc trưng sang
KELM để phân loại.


Abstract—Nghiên cứu này đề xuất một phương pháp
phân loại ảnh viễn thám siêu phổ (AVTSP). Chúng tôi sử
dụng một khung mạng nơ-ron tích chập mới để trích
xuất các đặc điểm cục bộ của ảnh viễn thám siêu phổ, và
sau đó sử dụng một thuật tốn máy học hạt nhân cấp tốc
(kernel extreme learning machine, KELM) để phân loại
các đối tượng khác nhau. Các thí nghiệm được thực hiện
trên hai ảnh viễn thám siêu phổ và thu được kết quả
phân loại tốt.
Keywords- Ảnh viễn thám siêu phổ, mạng nơ-ron tích
chập (convolutional neural network, CNN), máy học hạt
nhân cấp tốc (kernel extreme learning machine, KELM),
phân loại.

I.

GIỚI THIỆU

Gần đây, thuật toán học sâu đã thu hút sự chú ý của các
nhà nghiên cứu trong việc phân loại ảnh viễn thám siêu
phổ [1], [2]. Mou và cộng sự [3] đã đề xuất một khung
mạng nơ-ron lặp lại sâu cho phân loại AVTSP. Mơ
hình này có thể phân tích hiệu quả các pixel siêu phổ
và xác định các đối tượng thông qua một mạng suy
luận. Zhou và cộng sự [4] đưa ra một mơ hình phân
loại AVTSP bằng cách sử dụng một mạng nhớ ngắndài hạn. Đầu tiên, mơ hình sử dụng thuật tốn phân tích
thành phần chính để trích xuất các tính năng chính của
AVTSP, sau đó nhập các tính năng của mỗi pixel vào
mạng nhớ ngắn-dài hạn để học và cuối cùng sử dụng
bộ phân loại Softmax để phân loại từng pixel. Zhao và

cộng sự [5] đã đề xuất một khung mạng nơ-ron tích
chập nhiều lớp để phân loại AVTSP. Khung có hai mơđun: “mạng quyết định và mạng phức hợp” và sử dụng
phương pháp biểu quyết để thu được kết quả hợp nhất
của hai mạng này. Wang và cộng sự [6] đã sử dụng
mạng nơ-ron tích chập để trích xuất các đặc điểm của
AVTSP và sử dụng một thuật toán rừng ngẫu nhiên để
chọn các đặc trưng và phân loại. Kết quả cho thấy rằng
phương pháp đề xuất của họ có thể cải thiện kết quả
phân loại của ảnh AVTSP.
So với các phương pháp học máy truyền thống,
CNN có thể trích xuất các đặc điểm hình học của hình
ảnh tốt hơn. Trong phân loại AVTSP, CNN có thể
được sử dụng như một cơng cụ trích xuất đặc trưng cho

ISBN: 978-604-80-5076-4

II.

THIẾT LẬP KHUNG PHÂN LOẠI AVTSP

1. Mạng nơ-ron tích chập
Cấu trúc mạng nơ ron tích chập bao gồm các lớp tích
chập, lớp gộp, và lớp kết nối. Lớp kết nối thường là
một vectơ một chiều. Nếu l một lớp chập, ánh xạ đối
tượng j được tính theo cơng thức (1)

xlj
ở đây,

xil


g
xin

1

1

kijl blj

(1)

Mj

g ( ) là một hàm kích hoạt phi tuyến tính; M j
l

l

là dữ liệu đầu bào; kij là nhân tích chập; b j là độ lệch.
Nếu lớp l là một lớp gộp, thì ánh xạ đối tượng j
được thể hiện bằng công thức (2)

xlj

265

g

l

j

DO xlj 1 blj

(2)


Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2020)

Hình 1: Một mơ hình phân loại cho ảnh viễn thám siêu phổ.
1

Alfalfa

10 Soybean-notill

2

Corn-notill

11 Soybean-mintill

3

Corn-mintill

12 Soybean-clean

4


Corn

13 Wheat

5

Grass-pasture

14 Woods

6

Grass-trees

8

9

Oats

16 Stone-Steel-Towers

Hay-windrowed

15 Buildings-Grass-Trees-Drives
7

Grass-pasture-mowed

(a)

(b)
Hình 2: Các kết quả phân loại của bộ dữ liệu Indian Pines:
(a) Hình chuẩn,
(b) CNN , và (c)
CNN-KELM

ở đây

DO( )

Asphalt

2

Meadows

3

Gravel

4

Trees

5

Painted metal sheets

6


Bare Soil

7

Bitumen

8

Self-Blocking Bricks

9

Shadows

(a)
(b)
(c)
Hình 3: Kết quả phân loại của bộ dữ liệu Đại học Pavia:
(a) Hình chuẩn
(b) CNN
(c) CNN-KELM
l
l
g
(
x
)

đây,
là hàm số kích hoạt; L số nơ-ron thần kinh;

là nhân gộp; j là trọng số; b j là độ
j là trọng số đầu ra; là trọng số đầu vào bà b j là độ

lệch.
2. Máy học hạt nhân cấp tốc
Giả
sử

N

xi

1

(c)

[ xi1 , xi 2 , , xin ]T

R n , ti

mẫu

( xi , t i )

[ti1 , ti 2 , , tim ]T

lệch.
Tiếp theo, công thức (3) sẽ được viết gọn lại như
công thức (4).
Hβ T

(4)
ở đây, β là trọng số đầu ra; H là ma trận đầu ra; và T
là giá trị thực tế. β sẽ được tính theo cơng thức (6).

,

Rm ,

mạng máy học cấp tốc f ELM được hiển thị bởi công
thức (3).
L

f ELM x

j

g w j xi

j 1

i 1, , N; b j ,

j

bj

ti ,

-1


I
(5)
HHT T
C
ở đây, C là hệ số chính quy. Cuối cùng, mạng KELM
được tính theo công thức (6).
β H T=HT

(3)

R

ISBN: 978-604-80-5076-4

266


Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)

f K-ELM x

h x HT

I
ω
C

1.73% và 1.47%, còn đối với bộ dữ liệu Pavia
University là 1.66% và 3.07%. Thời gian huấn luyện và
kiểm tra của hai mơ hình cơ bản là giống nhau, thời

gian huấn luyện của CNN-KELM là 167 giây, và của
CNN là 163 giây, thời gian kiểm tra lần lượt là 3.28
giây và 3.25 giây. Kết quả cho thấy hiệu quả của
phương pháp đề xuất của chúng tơi.
Bảng 1: Độ chính xác phân loại (%) của các mơ hình
khác nhau

-1

T

(6)

ở đây, ω HHT .
3. Xây dựng mơ hình
Dựa trên hai thuật tốn CNN và KELM, chúng tơi đề
xuất mơ hình phân loại AVTSP, gọi là mơ hình CNNKELM. Mơ hình sử dụng các ưu điểm của hai thuật
toán CNN và KELM. Thuật tốn CNN được sử dụng
để trích xuất các đặc trưng cục bộ không gian-phổ của
AVTSP và chuyển các đặc trưng sang KELM để phân
loại. Sơ đồ mơ hình được thể hiện trong Hình 1.
Mơ hình bao gồm bốn lớp tích chập, ba lớp quy
chuẩn hàng loạt, ba lớp gộp và hai lớp kết nối đầy đủ.
Lớp cuối cùng là thuật tốn KELM có nhiệm vụ là máy
phân loại. Lớp tích chập sử dụng hàm nhân 5*5. Chúng
tơi đã thiết kế 32 bộ lọc cho lớp chập đầu tiên và 64 bộ
lọc cho lớp chập thứ hai và thứ ba. Đặc biệt, số bộ lọc
trong lớp tích chập thứ tư là 1, đầu ra nối chung với các
lớp tích chập khác. Lớp gộp sử dụng ma trận gộp 2*2
và chọn phương pháp gộp tối đa. Lớp tích chập thứ ba

được kết nối với lớp được kết nối đầy đủ thứ nhất và
được hợp nhất với lớp tích chập thứ tư, và các đặc
trưng đầu ra được gửi đến KELM để phân loại và phân
tích.
III.

Tập dữ liệu
Indian
Pines
Pavia
University

ISBN: 978-604-80-5076-4

CNN

CNN-KELM

Tổng thể

96.67

98.40

Trung bình

97.15

98.62


Tổng thể

97.60

99.26

Trung bình

95.51

98.58

IV.

KẾT LUẬN

Viễn thám là một cơng cụ quan trọng để quan sát các
đối tượng trên mặt đất, và viễn thám siêu phổ là một
công nghệ then chốt cho sự phát triển của viễn thám.
Trong nghiên cứu này, chúng tôi đề xuất một phương
pháp phân loại chính xác hơn cho ảnh viễn thám phổ.
Phương pháp này áp dụng học tập sâu vào các đặc
trưng không gian-phổ của ảnh viễn thám. Kết quả cho
thấy phương pháp được đề xuất tốt hơn các thuật tốn
học sâu truyền thống về độ chính xác.

KẾT QUẢ VÀ THẢO LUẬN

Để đánh giá hiệu suất của mơ hình đề xuất, hai bộ dữ
liệu chuẩn được sử dụng [11]. Bộ dữ liệu Indian Pines

AVTSP được cảm biến AVIRIS chụp ở Tây Bắc
Indiana. Độ phân giải hình ảnh là 145*145, với 200
bước sóng đặc trưng quang phổ, và có tổng cộng 16
loại. AVTSP của Đại học Pavia được chụp bởi cảm
biến ROSIS-03 ở Pavia, Ý. Độ phân giải hình ảnh là
640*340, với 103 bước sóng đặc trưng phổ, nằm trong
khoảng (430-860) nm, và có tổng cộng 9 loại. Chúng
tơi chọn 10% dữ liệu làm tập huấn luyện và 90% dữ
liệu làm tập kiểm tra. Chúng tơi so sánh mơ hình CNN
với mơ hình CNN-KELM.
Ảnh đầu vào có kích thước là 25*25 và được
chuẩn hóa về 0-1. Sau đó được đưa vào mơ hình CNNKELM để huấn luyện và thử nghiệm. Hình 2 cho thấy
kết quả phân loại của bộ dữ liệu Indian Pines theo các
mơ hình khác nhau. Có thể thấy rằng mơ hình CNNKELM có thể phân loại tốt hơn các đối tượng như loại
10 và loại 11, loại 14 và loại 15. Hình 3 cho thấy kết
quả phân loại của các mơ hình trên tập dữ liệu của Đại
học Pavia. Chúng ta có thể thấy rằng có một số phân
loại sai trong mơ hình CNN, chẳng hạn như loại 6 được
xếp thành loại 2; và loại 3 được xếp vào loại 8. CNNKELM có thể xác định chính xác các loại này. Bảng 1
thể hiện độ chính xác nhận dạng của các mơ hình. Có
thể thấy rằng độ chính xác tổng thể và độ chính xác
trung bình của mơ hình CNN-KELM cao hơn so với
mơ hình CNN. Cụ thể, đối với bộ dữ liệu Indian Pines,
độ chính xác tổng thể và trung bình của mơ hình mà
chúng tơi đề xuất lần lượt cao hơn mơ hình CNN là

Độ chính sác

REFERENCES
[1]


[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

267

Li, S., Song, W., Fang, L., Chen, Y., Ghamisi, P., &
Benediktsson, J. A. (2019). Deep learning for hyperspectral
image classification: An overview. IEEE Transactions on
Geoscience and Remote Sensing, 57(9), 6690-6709.
Roy, S. K., Krishna, G., Dubey, S. R., & Chaudhuri, B. B.
(2019). HybridSN: Exploring 3-D–2-D CNN feature
hierarchy for hyperspectral image classification. IEEE
Geoscience and Remote Sensing Letters, 17(2), 277-281.
Mou, L., Ghamisi, P., & Zhu, X. X. (2017). Deep recurrent
neural networks for hyperspectral image classification. IEEE
Transactions on Geoscience and Remote Sensing, 55(7),

3639-3655.
Zhou, F., Hang, R., Liu, Q., & Yuan, X. (2019).
Hyperspectral image classification using spectral-spatial
LSTMs. Neurocomputing, 328, 39-47.
Zhao, G., Liu, G., Fang, L., Tu, B., & Ghamisi, P. (2019).
Multiple convolutional layers fusion framework for
hyperspectral image classification. Neurocomputing, 339,
149-160.
Wang, A., Wang, Y., & Chen, Y. (2019). Hyperspectral
image classification based on convolutional neural network
and random forest. Remote sensing letters, 10(11), 1086-1094.
Cheng, G., Li, Z., Han, J., Yao, X., & Guo, L. (2018).
Exploring
hierarchical
convolutional
features
for
hyperspectral image classification. IEEE Transactions on
Geoscience and Remote Sensing, 56(11), 6712-6722.
Song, W., Li, S., Fang, L., & Lu, T. (2018). Hyperspectral
image classification with deep feature fusion network. IEEE
Transactions on Geoscience and Remote Sensing, 56(6),
3173-3184.
Han, M., Cong, R., Li, X., Fu, H., & Lei, J. (2020). Joint
spatial-spectral hyperspectral image classification based on
convolutional
neural
network. Pattern
Recognition
Letters, 130, 38-45.



Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)

[10]

Huang, G. B., Zhou, H., Ding, X., & Zhang, R. (2011).
Extreme learning machine for regression and multiclass
classification. IEEE Transactions on Systems, Man, and
Cybernetics, Part B (Cybernetics), 42(2), 513-529.

ISBN: 978-604-80-5076-4

[11]

268

/>Remote_Sensing_Scenes



×