Tải bản đầy đủ (.docx) (6 trang)

Phương pháp phân tích thành phần chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (127.67 KB, 6 trang )

PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH
I. Giới thiệu phương pháp PCA
Phân tích thành phần chính là một kỹ thuật phân tích biến đổi được nghiên
cứu rộng rãi và biết đến nhiều. Thuật toán này lần đầu tiên được giới thiệu bởi
Pearson (1901), và được phát triển một cách độc lập bởi Hotelling (1933). Giống
như các phương pháp phân tích biến đổi, thuật toán này không được sử dụng rộng
rãi cho tới khi kỹ thuật máy tính ra đời. Ý tưởng chính của thuật toán phân tích
thành phần chính là giảm chiều của tập dữ liệu có sự tương quan lớn giữa các biến.
Ảnh vệ tinh là tập dữ liệu đa kênh phổ điển hình có độ tương quan lớn
(tương quan giữa hai kênh ảnh thể hiện mức độ chứa thông tin giống nhau cho bởi
2 kênh này). Những kênh có độ tương quan cao thường không được sử dụng đồng
thời để hiển thị màu hoặc chiết tách các đối tượng tương đồng về phản xạ phổ. Kết
quả phân tích tương quan giữa 7 kênh phổ của ảnh Landsat được thể hiện ở ma trận
tương quan (thể hiện trong bảng 3.1) cho thấy: Kênh 1, 2 và 3 có sự tương quan rất
cao (>95%) nên có sự dư thừa khi sử dụng đồng thời ba kênh này để hiển thị hoặc
tổ hợp màu. Ở mức thấp hơn có sự tương quan giữa các kênh 4, 5, 6 từ 76% đến
95%. Tương quan thấp 39% giữa kênh 1 và kênh 4 cũng như 44% giữa kênh 2 và
kênh 4. Thực tế cho thấy kênh 4 ít tương quan với các kênh 1, 2, 3 và kênh 7
thường không có sự tương quan lớn với bất kỳ kênh còn lại. Tóm lại, các kênh phổ
khác nhau của ảnh vệ tinh đa phổ được gọi là tương quan thấp nến các phần tử
ngoài đường chéo gần bằng 0, điều này có nghĩa là nếu ma trận hiệp phương sai là
ma trận chéo thì các kênh ảnh vệ tinh không tương quan hay ít dư thừa thông tin.
Phân tích thành phần chính (PCA) là kỹ thuật chuyển đổi các giá trị độ xám của
pixel và sự chuyển đổi này sẽ nén dữ liệu ảnh bằng cách giữ tối đa lượng thông tin
hữu ích và loại bỏ các thông tin trùng lặp (các yếu tố tương quan). Kết quả là dữ
liệu ảnh thu được (gọi là ảnh thành phần chính) chỉ chứa các kênh ảnh ít tương
quan (độc lập tuyến tính) thường được sử dụng rất hiệu quả trong tổ hợp màu và
phân loại ảnh.
Phân tích thành phần chính được sử dụng để giảm số lượng các kênh phổ mà
vẫn giữa được thông tin không bị thay đổi đáng kể. Thực chất là thuật toán tạo ảnh
chứa thông tin chủ yếu dễ nhận biết hơn so với ảnh gốc. Phương pháp này được áp


dụng trong viễn thám trên cơ sở thực tế là ảnh chụp ở các kênh phổ gần nhau có độ
tương quan rất cao, vì vậy các thông tin của chúng có sự trùng lặp rất lớn, hay nói
cách khác là ảnh đa phổ chứa nhiễu cũng như sự dư thừa thông tin.
1
Bảng 3.1. Ma trận tương quan của ảnh Landsat
K
ênh
µ
m
1 2 3 4 5 6 7
0.
45-0.52
0.
52-0.6
0.6
3-0.69
0.
76-0.9
1.
55-1.75
10
.4-12.5
2.08
-2.35
1 1.
00
2 0.
96
1.
00

3 0.
95
0.
96
1.0
0
4 0.
39
0.
44
0.5
3
1.
00
5 0.
56
0.
61
0.7
1
0.
88
1.
00
6 0.
72
0.
76
0.8
4

0.
76
0.
95
1.
00
7 0.
56
0.
58
0.6
6
0.
66
0.
78
0.
81
1.00
Phương pháp phân tích thành phần chính là chiết tách một lượng nhỏ
phương sai tồn tại giữa hai kênh ảnh có sự tương quan cao và loại bỏ hiệu quả
những thông tin trùng lặp trong dữ liệu ảnh. Để thấy rõ các biến đổi trong phân tích
thành phần chính, ta giả sử rằng ảnh chụp trên hai kênh phổ có giá trị độ sáng của
pixel thể hiện bởi trục tọa độ X
1
và X
2
. Sự phân tán các giá trị độ sáng tương ứng
từng pixel ở mỗi kênh được thể hiện trên hình 3.1a cùng với vị trí trung bình giá trị
độ sáng là µ

1
và µ
2
tương ứng trên hai kênh phổ. Sự phân tán xung quanh giá trị
trung bình (phương sai) mô tả mối tương quan cũng như lượng thông tin trùng lặp
cho bởi ảnh chụp trên hai kênh phổ. Mục tiêu của phân tích thành phần chính là
loại bỏ thông tin thừa (tạo ảnh chứa thông tin không tương quan). Do đó, nếu tịnh
tiến trục tọa độ gốc để cho các giá trị độ sáng của pixel thể hiện bởi X
1
và X
2
phân
bố lại theo hệ tọa độ mới thể hiện ở và với = x
1
- µ
1
; = x
2
- µ
2
. Từ đó, gốc hệ tọa
độ mới chính là vị trí của trung bình µ
1
và µ
2
tương ứng trên hai kênh phổ thể hiện
bởi hình 3.1b.
2
Hình 3.1. Phép biến đổi phân tích thành phần chính giữa hai kênh ảnh 1 và 2
Nếu xoay trục ngang sao cho nó song song với đường hồi quy số bình phương nhỏ

nhất dùng để ước tính dữ liệu thì trục được biến đổi được gọi là thành phần chính
thứ nhất (PC
1
) và trục đứng cũng được xoay để trở thành thành phần chính thứ hai
(PC
2
) như được thể hiện trong hình 3.1c. Giá trị độ sáng của pixel thể hiện bởi x
1

và x
2
của dữ liệu ảnh gốc sẽ được phân bố lại theo hệ tọa độ mới đã được biến đổi.
Kết quả phép biến đổi là nhận được hệ trục tọa độ mới gọi là thành phần chính PC
(Principal Component) và ảnh mới (ảnh thành phần chính) có thể lưu lại theo từng
file riêng biệt ứng với thành phần chính thứ nhất và thành phần chính thứ hai.
Thực tế, ảnh viễn thám là tập dữ liệu đa phổ nhiều kênh. Giả sử ảnh viễn thám có k
kênh, phân tích thành phần chính được sử dụng dể tìm vector không gian p chiều
thể hiện bởi vector Z (giá trị độ sáng mới tương ứng từng pixel trên ảnh thành phần
chính). Giả sử ảnh gốc viễn thám có mỗi pixel mang giá trị độ sáng được thể hiện
bởi vector tương ứng x
i
(i = 1, 2, …, k), các pixel tương ứng trênh ảnh thành phần
chính thể hiện bởi vector Z
i
(i = 1, 2, …, k).
Quan hệ có thể được mô tả theo tổ hợp tuyến tính:
Z
i
= a
i1

x
1
+ a
i2
x
2
+ … + a
ik
x
k
Hay:
= (3.1)
Viết lại dưới dạng ma trận như sau: Z = A.X
Để nhận được các thành phần chính, cần phải giải hệ phương trình trên để tìm các
hệ số a
ik
theo những điều kiện sau:
ik
2
= 1 (3.2)
Giá trị phương sai của Z
i
phải cực đại
Các đại lượng Z
i
và Z
i+1
phải độc lập tuyến tính với nhau.
Đặc điểm của thành phần chính:
3

- Lượng thông tin trên các thành phần chính (PC) giảm dần từ PC1, PC2,… PC3 chỉ
chữa 3% lượng thông tin trên ảnh.
- Lượng thông tin tập trung chủ yếu vào 3 thành phần chính đầu tiên (PC1, PC2,
PC3). Có khoảng trên 90% lượng thông tin trên ảnh nằm trong các thành phần
chính này.
- Có thể kết hợp các thành phần chính để tạo ảnh màu sử dụng trong các bài toán cụ
thể.
Tạo ảnh thành phần chính là kỹ thuật quan trọng nhằm sử dụng vào các mục đích
sau đây:
- Nén nội dung thông tin của dữ liệu ảnh có nhiều kênh phổ sang ảnh chỉ số có ba
kênh phổ tạo thuận lợi cho việc lưu trữ và giải đoán ảnh (hiện ảnh tổ hợp màu ba
kênh phổ ứng với ba màu cơ bản).
- Phân loại hiện trạng sử dụng đất trên cơ sở ảnh đa phổ (không có nhiễu và tương
quan giữa các biến).
- Phát hiện biến động trên cơ sở dữ liệu đa thời gian (so sánh ảnh thành phần chính
trên cùng khu vực tại các thời điểm khác nhau).
- Nghiên cứu, phát hiện một số loại khoáng sản lộ thiên như khoáng sản oxit sắt,
khoáng sản sét.
II. Các bước tính thành phần chính
Để nhận bộ dữ liệu ảnh mới không tương quan (ảnh thành phần chính)
Z=A.X, ta có thể áp dụng phép biến đổi thành phần chính với số kênh bất kỳ theo
các bước tính toán sau:
- Bước 1: Tính giá trị trung bình của mỗi kênh ảnh (µ
k
):
µ
k
= (3.3)
- Bước 2: Tính hiệp phương sai giữa các giá trị của pixel ở kênh k và kênh l:
= E (3.4)

C
kl
= (3.5)
Trong đó: E là một kỳ vọng toán học
C
kl
: là hiệp phương sai giữa hai kênh ảnh k và l
Khi đó, ta được ma trận hiệp phương sai C:
4
C=
- Bước 3: Lập ma trận hiệp phương sai giữa các giá trị pixel ở dữ liệu ảnh mới:
= E (3.6)
Trong đó:
• µ
z
= Eµ
x
là vector giá trị trung bình của các kênh ảnh ở thành phần
chính (ảnh mới);
• µ
x
là vector giá trị trung bình của các kênh ảnh gốc.
Do đó:
=
=
Hay:
= (3.7)
Để ảnh thành phần chính không tương quan thì phải là ma trận đường chéo.
- Bước 4: Tìm ma trận A trong phương trình Z= A.X, cần phải xác định vector và
các giá trị riêng của . Những giá trị riêng nhận được thông qua giải phương trình:

= 0 (3.8)
Với I là ma trận đơn vị.
- Bước 5: Tính các vector riêng b
i
:
b
i
= 0 (3.9)
Kết quả tạo ra ảnh thành phần chính không tương quan có là ma trận đường
chéo của các giá trị riêng của . Trong trường hợp tổng quát, ảnh gốc có k kênh, ma
trận hiệp phương sai được tính như sau:
= (3.10)
Các giá trị , , …, có ý nghĩa rất quan trọng trong việc xác định thông tin chứa
trong từng thành phần. Tổng các giá trị (trong đó là giá trị riêng ứng với thành
phần chính thứ p) cho ta tổng phương sai thể hiện trong toàn bộ thành phần chính.
Phần trăm thông tin chứa trong từng thành phần chính được xác định bởi tỷ lệ phần
trăm của tổng phương sai và được thể hiện bởi công thức tính như sau:
= (3.11)
Giá trị mới của pixel trong từng thành phần chính được xác định bởi:
= (3.12)
5
6

×