ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------
c
Nguyễn Phƣơng Thảo
họ
PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG
n
th
ạc
sĩ
Kh
oa
DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
Lu
ận
vă
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------
Nguyễn Phƣơng Thảo
họ
c
PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG
Kh
oa
DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
sĩ
Chuyên ngành: Vật lý địa cầu
vă
n
th
ạc
Mã số: 8440130.06
Lu
ận
LUẬN VĂN THẠC SĨ KHOA HỌC
Người hướng dẫn khoa học
PGS.TS. VÕ THANH QUỲNH
Hà Nội – 2019
LỜI CẢM ƠN
Sau một thời gian dài nghiên cứu, cố gắng học tập và làm việc một cách
nghiêm túc, tôi đã hoàn thành cuốn luận văn tốt nghiệp này. Trước khi trình bày nội
dung chính của luận văn, tơi xin bày tỏ lòng biết ơn đến những người đã giúp đỡ,
bên cạnh tôi suốt thời gian qua.
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Võ Thanh
Quỳnh, người thầy trực tiếp hướng dẫn tôi, đã quan tâm, giúp đỡ, tận tình chỉ bảo
tơi trong suốt q trình thực hiện đề tài luận văn tốt nghiệp này. Không chỉ được
giúp đỡ về mặt chuyên môn, trong quá trình làm việc, tơi cịn học hỏi được tinh
họ
c
thần làm việc khoa học và đầy trách nhiệm từ thầy, từ đó tích lũy được những kiến
thức và kinh nghiệm q báu.
oa
Tôi xin gửi lời cảm ơn tới Th.S. Nguyễn Viết Đạt người đã tận tình giúp đỡ
Kh
tơi trong suốt q trình làm luận văn. Và tơi cũng xin gửi lời cảm ơn trân thành
sĩ
nhất tới các thầy cô trong bộ môn Vật lý Địa Cầu – Trường Đại học Khoa học tự
ạc
nhiên – Đại học Quốc gia Hà Nội đã trang bị kiến thức và có những đóng góp hết
th
sức q báu để tơi hồn thành luận văn này.
Cuối cùng cho phép tơi bày tỏ lịng biết ơn vơ hạn tới gia đình và bạn bè,
vă
n
những người đã ln quan tâm, động viên và là chỗ dựa tinh thần vững chắc của tơi
ận
trong những thời khắc khó khăn nhất.
Lu
Dù đã rất cố gắng song do điều kiện thời gian và trình độ nên luận văn của
tơi khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận được những nhận xét
và những lời góp ý từ phía thầy cơ và bạn đọc để luận văn của tơi được hồn thiện
hơn.
Tơi xin chân thành cảm ơn!.
Hà Nội, 01 tháng 12 năm 2019
Học viên
Nguyễn Phương Thảo
MỤC LỤC
MỞ ĐẦU
1
CHƢƠNG I. TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ –
3
NHẬN DẠNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ….
1.1.
Thống kê và xử lý số liệu
3
3
1.1.2. Các đặc trưng thống kê
4
họ
c
1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm
Xử lý tổ hợp số liệu địa vật lý
Kh
1.2.
oa
1.1.3. Hàm phân phối
12
12
`17
1.2.2.1.
Các thuật tốn nhận dạng có mẫu chuẩn
17
1.2.2.2.
Các thuật tốn nhận dạng khơng có mẫu chuẩn
20
ận
vă
n
ạc
1.2.2. Các thuật toán nhận dạng
th
sĩ
1.2.1. Các bước xử lý tổ hợp số liệu địa vật lý
7
Lu
CHƢƠNG II. MỘT SỐ PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN
THƠNG TIN VÀ PHÂN TÍCH NHẬN DẠNG TRONG XỬ LÝ SỐ 23
LIỆU ĐỊA VẬT LÝ
2.1 . Một số phương pháp đánh giá lựa chọn thông tin
23
2.1.1 Phương pháp phân tích - tần suất
23
2.1.2 Phương pháp phân tích – khoảng cách – khái quát
25
2.1.3 Phương pháp trọng số.
27
2.1.4. Phương pháp phân tích thành phần chính.
28
2.1.5. Phương pháp đánh giá chuyên gia
33
2.2. Một số phương pháp phân tích nhận dạng trong xử lý tổ hợp số liệu
địa vật lý
34
2.2.1. Các phương pháp truyền thống
34
2.2.2. Một số phương pháp nhận dạng mới trong địa vật lý và áp dụng
36
oa
2.2.2.1. Phương pháp tần suất nhận dạng
họ
c
các thuật toán đánh giá lựa chọn thông tin
Kh
2.2.2.2. Phương pháp khoảng cách tần suất - nhận dạng
41
49
sĩ
CHƢƠNG III. THỬ NGHIỆM ÁP DỤNG MỘT SỐ PHƢƠNG PHÁP
36
ạc
ĐÁNH GIÁ LỰA CHỌN THƠNG TIN VÀ PHÂN TÍCH NHẬN
th
DẠNG TRÊN SỐ LIỆU THỰC TẾ
vă
n
3.1. Giới thiệu đối tượng và khu vực nghiên cứu thử nghiệm
49
49
3.1.2. Đối tượng nghiên cứu
50
3.1.3. Tài liệu địa vật lý máy bay về khu vực nghiên cứu
53
Lu
ận
3.1.1. Vị trí địa lý và đặc điểm của khu vực nghiên cứu
3.2. Phân tích thử nghiệm 1 số phương pháp đánh giá lựa chọn thông tin
53
3.2.1. Phân tích thử nghiệm theo phương pháp phân tích tần suất
53
3.2.2. Phân tích thử nghiệm theo phương pháp phân tích - khoảng cách
59
- khái quát
3.2.3. Phân tích thử nghiệm theo phương pháp trọng số
3.3. Phân tích thử nghiệm bằng phương pháp nhận dạng
3.3.1. Phân tích thử nghiệm phương pháp tần suất – nhận dạng
62
63
63
3.3.2. Phân tích thử nghiệm phương pháp khoảng cách – tần suất – nhận 65
dạng
67
TÀI LIỆU THAM KHẢO
68
Lu
ận
vă
n
th
ạc
sĩ
Kh
oa
họ
c
KẾT LUẬN
DANH MỤC HÌNH
Hình 3.1. Sơ đồ vị trí khu vực lựa chọn nghiên cứu thử nghiệm
50
Hình 3.2. Sơ đồ vị trí của các đối tượng thử nghiệm
52
Hình 3.3. Đồ thị tỷ trọng thơng tin của các tính chất trên đối tượng mẫu
57
Hình 3.4. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối
60
c
tượng mẫu chuẩn và mẫu ĐN01
họ
Hình 3.5. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối
Lu
ận
vă
n
th
ạc
sĩ
Kh
oa
tượng mẫu chuẩn và mẫu ĐN01 theo thứ tự giảm dần
61
DANH MỤC BẢNG
27
Bảng 2.4. Số liệu quan trắc về vỏ hóa thạch
31
Bảng 3.1. Khoảng giá trị đặc trưng của đối tượng mẫu
54
Bảng 3.2. Ma trận thông tin trên đối tượng mẫu
56
Bảng 3.3. Kết quả tính tỷ trọng thơng tin trên đối tượng mẫu
57
họ
c
Bảng 2.3. Số liệu quan trắc trên một đối tượng địa chất
58
oa
Bảng 3.4. Kết quả tính tỷ trọng thông tin trên đối tượng mẫu sau khi sắp
Kh
xếp
58
sĩ
Bảng 3.5. Tỉ lệ phần trăm tổng thơng tin với m tính chất
ạc
Bảng 3.6. Bảng giá trị khoảng cách khái quát của các tính chất trên đối
60
n
th
tượng mẫu chuẩn và mấu ĐN01
vă
Bảng 3.7. Bảng giá trị khoảng cách khái quát của các tính chất trên đối
61
ận
tượng mẫu chuẩn và mấu ĐN01 sau khi sắp xếp
Lu
Bảng 3.8. Giá trị hệ số ý nghĩa ωi của các tính chất được sắp xếp theo thứ
63
tự giảm dần
Bảng 3.9. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương
64
pháp phân tích – tần suất – nhận dạng.
Bảng 3.10. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương
pháp khoảng cách – tần suất – nhận dạng.
65
MỞ ĐẦU
Đánh giá và lựa chọn thông tin là nội dung hết sức quan trọng trong cơng tác
xử lí-phân tích tổ hợp số liệu vật lý nói chung , số liệu địa vật lý nói riêng. Hiện nay,
trong cơng tác xử lí-phân tích tổ hợp số liệu địa vật lý người ta sử dụng rất nhiều loại
phương pháp khác nhau, trong đó nhóm các phương pháp thống kê - nhận dạng được
áp dụng rộng rãi và rất có hiệu quả. Tuy nhiên, trên thực tế, khi tiến hành các phương
pháp phân tích tổ hợp đối với nhiều loại tài liệu địa vật lý, trong đó có tài liệu phổ
gamma hàng không ở nước ta, vẫn đang gặp phải một số hạn chế cần được nghiên cứu
họ
c
khắc phục. Đó là khối lượng tài liệu cũng như số lượng các chủng loại thơng tin rất
lớn, trong khi đó số lượng các tham số đầu vào của các chương trình phân tích hiện có
oa
thường bị giới hạn. Việc sử dụng các tổ hợp thơng tin khác nhau để tiến hành phân tích
Kh
cho những kết quả rất khác nhau. Mặt khác, kể cả khi số lượng các tham số đầu vào
sĩ
của các chương trình phân tích được mở rộng thì việc sử dụng đồng thời tất cả các loại
ạc
thơng tin có được để phân tích nhận dạng lại cho kết quả thiếu tin cậy hơn khi chỉ sử
th
dụng một tổ hợp thông tin nhất định có chất lượng cao. Rõ ràng việc sử dụng những
n
thơng tin thiếu độ tin cậy khơng những khơng có hiệu quả mà cịn làm nhịa đi những
vă
thơng tin quan trọng khác, gây nên những nhận thức sai lệch về đối tượng nghiên cứu.
n
Trong thực tế, số lượng các chủng loại thông tin của các đối tượng nhiên cứu thu được
Lu
ậ
ngày càng lớn. Làm thế nào để đánh giá được chất lượng của từng chủng loại thơng tin,
từ đó lựa chọn tổ hợp các thông tin tin cậy phục vụ cho từng mục đích nghiên cứu đóng
vai trị hết sức quan trọng trong cơng tác xử lý phân tích tài liệu và chính là nội dung
của lớp bài tốn đánh giá lựa chọn thông tin. Với thực tế và cách đặt vấn đề trên, ta
thấy, để nâng cao hơn nữa chất lượng của các phương pháp phân tích tổ hợp số liệu,
trong đó có phương pháp phân tích nhận dạng, trước hết cần phải giải quyết tốt bài toán
đánh giá, lựa chọn thông tin. Đề tài luận văn: Phương pháp đánh giá lựa chọn thông
tin và ứng dụng trong xử lý tổ hợp số liệu vật lý được học viên lựa chọn với các
nhiệm vụ chính như sau:
1
-
Tìm hiểu một số phương pháp, thuật tốn phân tích thuộc nhóm các phương
pháp đánh giá và lựa chọn thơng tin trong xử lý tổ hợp số liệu địa vật lý.
-
Áp dụng các phương pháp phân tích tần suất theo thuật tốn Griffiths-Vinni,
phương pháp phân tích khoảng cách khái qt theo thuật toán Paguonop và
phương pháp trọng số vào xử lý số liệu địa vật lý từ đó có thể rút ra những nhận
xét, kết luận về khả năng ứng dụng của từng phương pháp.
Bố cục luận văn gồm:
Mở đầu
-
Chương 1: Tổng quan về phương pháp thống kê – nhận dạng trong xử lý tổ hợp
họ
c
-
số liệu địa vật lý.
dạng trọng xử lý số liệu địa vật lý
Chương 3: Thử nghiệm áp dụng một số phương pháp đánh giá lựa chọn thông
sĩ
-
oa
Chương 2: Một số phương pháp đánh giá – lựa chọn thơng tin và phân tích nhận
Kh
-
n
vă
n
th
Kết luận
Lu
ậ
-
ạc
tin và phân tích nhận dạng trên số liệu thực tế
2
CHƢƠNG I: TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ – NHẬN DẠNG
TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
1.1.
Thống kê và xử lý số liệu
1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm
Các thiết bị quan sát trường trong địa vật lý đều là các thiết bị số nên các kết quả
quan sát trường địa vật lý (bao gồm: tín hiệu có ích, nhiễu và sai số đo) nên có thể là
đại lượng này hay đại lượng khác mà người đo khơng dự đốn trước được. Vì vậy để
c
mô tả các giá trị (bằng số) các trường địa vật lý do được người ta thường sử dụng khái
họ
niệm đại lượng ngẫu nhiên.
oa
Các giá trị trường địa vật lý đo được các số cụ thể nên đại lượng ngẫu nhiên là
Kh
mơ hình nền tảng để mơ tả các số liệu địa vật lý.
sĩ
Khi tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó (ví dụ: các số liệu
ạc
trong địa vật lý). Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó (X1,
th
X2, …, Xn) được gọi là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát. Như
vă
biến ngẫu nhiên X.
n
vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như
n
Ta gọi xi là kết quả quan sát được ở lần thứ i. Khi đó (x1, x2, …, xn) là n giá trị
Lu
ậ
quan sát được. Đó là một giá trị cụ thể mà mẫu ngẫu nhiên (X1, X2, …, Xn) nhận.
Giả sử ta có mẫu ngẫu nhiên (x1, x2, …, xn). Xuất phát từ n giá trị cụ thể mà biến
ngẫu nhiên nhận ta xây dựng hàm số:
( )
Trong đó
nhận được hàm
*
*
+
(
)
+ là số các giá trị mẫu xi mà nhỏ hơn x. Khi x thay đổi, ta
( ) theo biến số thực x. Hàm số này được gọi là hàm phân phối thực
nghiệm.
3
Xuất phát từ các mẫu cụ thể khác nhau ta nhận được các hàm phân phối thực
nghiệm các nhau. Đồ thị của chúng đều là các bậc thang. Các đường bậc thang khác
nhau đều có chung một tính chất là: Khi cỡ mẫu tăng vô hạn các hàm phân phối thực
nghiệm tiến đến hàm phân phối lý thuyết cần tìm. Điều đó được thể hiện qua định lý
sau:
Định lý Glivenco: giả sử F(x) là hàm phân phối của biến ngẫu nhiên X mà ta đang
cần tìm.
( ) là hàm phân phối thực nghiệm nhận được từ mẫu ngẫu nhiên cỡ n. Khi
( )|
-
họ
| ( )
,
c
đó:
(1.2)
oa
Như vậy hàm phân phối thực nghiệm là một xấp xỉ của hàm phân phối lý thuyết.
Kh
Xấp xỉ đó càng tốt khi cỡ mẫu n càng lớn. Với n cố định hàm phân phối thực nghiệm
ạc
th
1.1.2. Các đặc trưng thống kê
sĩ
cho ta hình ảnh hình học về phân phối lý thuyết cần tìm. [5]
n
a, Kỳ vọng (giá trị trung bình)
vă
Định nghĩa: Kỳ vọng của biến ngẫu nhiên ξ là một con số được ký hiệu là E ξ
Lu
ậ
n
và được xác định như sau:
{
ế
∑
∫
(
ế
( )
)
( )
(1.3)
Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
là trọng tâm của phân phối xác suất với khối lượng 1. Chính vì vậy mà người ta
dùng kì vọng để xác định vị trí của phân phối.
Tính chất:
1. E[C] = C (C là hằng số)
4
2. ECX = CEX
3. Nếu X và Y là những biến ngẫu nhiên có kỳ vọng thì tổng hoặc hiệu X ± Y
cũng có kỳ vọng và
E[X ±Y] E[X] ± E[Y] .
4. Nếu X và Y là hai biến ngẫu nhiên độc lập và có kỳ vọng thì tích XY
c
cũng có kỳ vọng và
( )
nếu P(X=xi) = pi
oa
∑
( )
Kh
( )
nếu X có mật độ p(x)
( ) ( )
∫
sĩ
5.
họ
E[XY] E[X] .E[Y]
ạc
b, Median (Trung vị)
th
Median của biến ngẫu nhiên ξ là một số được kí hiệu µξ và được xác định như sau:
P(ξ < µξ) = F(µξ) ≤ 1/2
vă
n
(1.4)
P(ξ ≤ µξ) = F(µξ + 0) ≥ 1/2
n
(1.5)
Lu
ậ
Trong đó F là hàm phân phối của ξ. Nếu hàm phân phối F liên tục thì hai hệ thức
trên tương đương với:
F(µξ) = 1/2
Nếu có nhiều nghiệm, chẳng hạn m0 và m1 là nghiệm thì mọi điểm thuộc [m0, m1]
cũng đều là nghiệm.
m0 ≡ m1: có một trung vị
m0 ≠ m1: có nhiều trung vị
5
Như vậy trung vị là điểm phân đôi khối lượng xác suất thành hai thành phần bằng
nhau.
c, Mode
Nếu ξ rời rạc thì Mode là giá trị của ξ mà tại đó xác suất tương ứng lớn nhất.
Nếu ξ liên tục có mật độ p(x) thì Mode là giá trị x0 mà tại đó p(x) đạt cực đại.
Nhận xét:
họ
trưng: Kỳ vọng, Median và Mode trùng nhau.
c
Nếu phân phối của biến ngẫu nhiên ξ đối xứng và có một Mode thì cả 3 đặc
oa
Nếu phân phối của ξ đối xứng hoặc gần đối xứng thì dùng kì vọng định vị là
Kh
tốt nhất.
Nếu phân phối của ξ quá lệch thì dùng trung vị và Mode để định vị sẽ tốt
sĩ
hơn.
th
ạc
d, Phương sai
n
Định nghĩa: Phương sai của biến ngẫu nhiên ξ là một số không âm, ký hiệu là
vă
Dξ, được xác định bởi:
Lu
ậ
n
D ξ = E(ξ - E ξ)2
= Eξ2 – (Eξ)2
(1.6)
Trong đó theo tính chất e) của kỳ vọng:
E ξ2 = ∑
=∫
nếu P(ξ = xi) = pi
( )
nếu ξ có mật độ p(x)
6
(1.7)
Ý nghĩa:
Phương sai của biến ngẫu nhiên là 1 số không âm dùng để đo mức độ phân tán
(mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xưng quanh tâm (Eξ) của nó. Dξ
nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. Dξ càng lớn thì độ phân tán càng cao.
Tính chất:
1. Dc = 0, c = const
2. Dcξ = c2Dξ
họ
c
3. Nếu ξ và ƞ độc lập thì D(ξ ≠ ƞ) = Dξ + Dƞ
e, Trung vị cấp p:
Kh
oa
xp được gọi là phân vị cấp p của phân phối F(x) nếu:
F(xp) ≤ p
ạc
sĩ
F(xp + 0) ≥ p
th
Nếu hàm phân phối liên tục: F(xp) = p
Trường hợp p = 1/2 ta có trung vị
-
Ta có các tứ phân vị x1/4, x2/4, x3/4
vă
n
-
Lu
ậ
n
Khi đó P{ ξ € [x1/4, x3/4]} = 0,5 (nếu ξ liên tục). Khoảng (x1/4, x3/4) được gọi là
khoảng tứ phân vị. Khoảng này cũng được dùng để đặc trưng độ tập trung, phân tán
của biến ngẫu nhiên. [4]
1.1.3. Hàm phân phối
Định nghĩa
Cho biến ngẫu nhiên ξ, ta xác định hàm phân phối của ξ như sau:
( )
*
+
Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực, x thuộc
7
(-∞, +∞). Tại một điểm x bất kỳ hàm F(x) chính là xác suất để biến ngẫu nhiên
nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x.
Chỉ số của hàm
( ) để chỉ hàm phân phối của biến ngẫu nhiên ξ. Trường hợp
không cần thiết có thể bỏ qua khơng cần viết chỉ số đó.
Tính chất:
Hàm phân phối của biến ngẫu nhiên có một số tính chất sau:
1. Hàm phân phối xác định với mọi x ϵ (-∞, +∞).
họ
c
2. 0 ≤ F(x) ≤ 1, Ɐx ; F(-∞) = 0, F(+∞) = 1
3. Hàm phân phối là hàm không giảm: nếu x1 < x2 thì F(x1) ≤ F(x2)
oa
4. P{a ≤ ξ < b} = F(b) – F(a)
Kh
Một số phân phối một chiều quen thuộc và ứng dụng thực tế:
sĩ
Để mô tả các đại lượng ngẫu nhiên, trong địa vật lý người ta sử dụng các hàm phân
ạc
phối lý thuyết như hàm phân phối chuẩn (phân phối Gauxơ), phân phối chuẩn loga,
th
phân phối Puasson…
vă
n
Phần lớn các đại lượng ngẫu nhiên trong địa vật lý cũng như nhiều hiện tượng địa chất
n
khác chúng tuân theo luật phân phối chuẩn.
Lu
ậ
Phân phối nhị thức:
Xét n phép thử Bernoulli với xác suất thành công P(A) = p. Gọi ξ là số lần xuất
hiện biến cố A trong n phép thử trên. Phân phối của ξ được gọi là phân phối nhị
thức và ký hiệu ξ = B(n,p)
(
)
(
m = 0,1, 2, …, n
)
Dãy phép thử Bernoulli thường gặp nhiều trong thực tế do đó biến ngẫu nhiên
có phân phối nhị thức cũng thường gặp trong các ứng dụng.
8
Phân phối poisson:
Phân phối này do Simeon Denis Poisson mơ tả vào năm 1837. Phân phối này
đã có nhiều ứng dụng đối với nhiều q trình có liên quan đến số quan sát đối với
một đơn vị thời gian hoặc không gian. Chẳng hạn số cuộc điện thoại nhận được ở
một trạm điện thoại trong một phút, số khách hàng đến nhà bang đối với mỗi một
chu kì 30 phút. Số máy bị hỏng trong ngày…
Phân phối đều:
c
Hàm mật độ và hàm phân phối đã được đưa ra ở trên. Từ biến ngẫu nhiên phân
họ
phối đều người ta nhận được bảng các số ngẫu nhiên.
√
(
)
với -∞ < x < +∞
(1.8)
sĩ
Hàm mật độ chuẩn tổng quát ( )
Kh
oa
Phân phối chuẩn N(µ, σ2)
ạc
Đường cong mật độ này đối xứng qua đường x = µ, nhận trục Ox làm tiệm cận
th
ngang và có giá trị cực đại tại x = µ với tung độ cực đại là
vă
n
Trường hợp đặc biệt: ξ
Lu
ậ
n
( )
√
√
N(0,1). Khi đó hàm mật độ được kí hiệu là φ(x):
với -∞ < x < +∞
(1.9)
Là hàm đối xứng qua trục tung , đồ thị có dạng hình chng. Hàm phân phối
N(0, 1) được kí hiệu Ф(x)
( )
√
∫
dt
(1.10)
Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí trung
tâm trong các kết luận thống kê sau này.
9
Nhiều giá trị trường địa vật lý như mật độ, tốc độ truyền sóng, phóng xạ… tuân
theo luật phân phối chuẩn và dựa trên các thuật toán thống kê theo luật phân phối
chuẩn người ta có thế xử lý số liệu để tìm ra các đặc trưng của đối tượng.
Ngồi luật phân phối chuẩn cịn có các luật phân phối khác đang được áp dụng phổ
biến trong phân tích thống kê các số liệu địa vật lý. Ví dụ như luật phân phối chuẩn
loga được dùng để mô tả các giá trị điện trở xuất, độ từ cảm của đất đá.
Phân phối mũ
ế
ế
(λ > 0)
Kh
Hàm phân phối có dạng:
ế
ế
(1.12)
ạc
sĩ
{
( )
(1.11)
oa
{
( )
họ
c
Biến ngẫu nhiên ξ có phân phối mũ nếu hàm mật độ của nó được xác định bởi:
th
Phân phối Student hay phân phối t
vă
n
Phân phối này do William S. Gosset đưa ra năm 1908. Trong đó t là một biến ngẫu
n
nhiên, t là một thống kê tiêu chuẩn xác định bởi:
Lu
ậ
̅
Hàm mật độ của t được ác định bởi:
( )
(
√
)
( )
(
)
(1.13)
Trong đó:
(
(u) = ∫
(1/2) = √
10
)
( )
( )
Hàm mật độ của phân phối t cũng là hàm đối xứng qua trục tung, dạng đồ thị của
nó cũng là dạng hình chng rất giống hàm mật độ chuẩn φ(x).
Số nguyên n được gọi là số bậc tự do của phân phối t
Phân phối χ2
Hàm mật độ của phân phối χ2 có dạng :
c
{
(1.14)
họ
( )
( )
Kh
oa
n gọi là bậc tự do của phân phối χ2
Thực chất của phân phối χ2 với n bậc tự do chính là phân phối của biến ngẫu nhiên
trong đó X1, X2, …, Xn độc lập, cùng phân phối N(0, 1).
sĩ
∑
th
ạc
Phân phối χ2 do Karl Pearson đưa ra vào năm 1900.
n
Phân phối F
vă
Phân phối F do R. A Fisher đưa ra.
Lu
ậ
n
Phân phối F là phân phối của tỷ số hai biến ngẫu nhiên độc lập có phân phối χ2 với
n1 và n2 bậc tự do.
Biến ngẫu nhiên:
(1.15)
11
Hàm mật độ của phân phối F có dạng:
( )
Trong đó (
1.2.
{
(
)
(1.16)
(
(
)
)
) là hằng số thích hợp. [3]
Xử lý tổ hợp số liệu địa vật lý
họ
c
1.2.1. Các bước xử lý tổ hợp số liệu Địa Vật lý
Xử lí tổ hợp số liệu về cơ bản là dựa trên nhiều loại thông tin khác nhau để giải
oa
quyết được các nhiệm vụ đặt ra phù hợp với điều kiện kinh tế và kĩ thuật cho
sĩ
hợp dữ liệu để nâng cao chất lượng xử lí.
Kh
phép.Khơng chỉ riêng trong địa vật lý mà nhiều lĩnh vực khác cũng sử dụng xử lí tổ
ạc
Xử lý tỏ hợp số liệu Địa vật lý là một quá trình phức tạp phụ thuộc vào mục
th
đích nghiên cứu và dạng các số liệu khác nhau. Một cách khái quát có thể phân chia
n
q trình này theo các bước cơ bản sau:
vă
- Xây dựng mơ hình và xác định phương pháp
Lu
ậ
n
- Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.
- Chọn thuật toán xử lý
- Định nghiệm về sự tồn tại của đối tượng cần tìm
- Đánh giá chất lượng xử lý
1.2.1.1.
Xây dựng mơ hình và xác định phương pháp
Để xử lý tổ hợp số liệu Địa vật lý người ta chủ yếu sử dụng các mô hình thống
kê vì các đối tượng khảo sát cần nghiên cứu có vị trí, kích thước, tính chất vật lý không
biết trước nên chúng được xem như các đối tượng ngẫu nhiên. Mặt khác, các trường
12
vật lý do các đối tượng địa chất tạo ra thường bị các loại nhiễu làm méo nên các dấu
hiệu trường Địa vật lý khảo sát cũng mang tính ngẫu nhiên. Với mơ hình để được
nhiệm vụ tiếp theo là lựa chọn các phương pháp nhận dạng tương ứng, tiến hành xử lý
theo mơ hình và giải quyết các nhiệm vụ bài tốn đặt ra.
Hiện nay trong cơng tác xử lý-phân tích số liệu địa vật lý có rất nhiều phương
pháp nhận dạng, có thể chia chúng thành hai nhóm: nhóm các phương pháp nhận dạng
theo đối tượng chuẩn và nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn.
c
Nhóm các phương pháp nhận dạng theo đối tượng chuẩn được áp dụng khi
họ
chúng ta biết được lớp đối tượng và biết được đặc trưng thống kê của các trường địa
oa
vật lý đối với từng lớp đối tượng.
Kh
Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn, nhiệm vụ đặt ra là
cần xây dựng các thuật toán hay đề xuất các chỉ tiêu nhận dạng đảm bảo để phân loại
ạc
sĩ
các đối số liệu quan sát thành hai lớp hoặc với số lớp nhiều hơn 2 khi có trước các đặc
th
trưng thống kê của mỗi loại dấu hiệu ứng với các đối tượng chuẩn.Vấn đề mang tính
quyết định là lựa chọn đối tượng chuẩn, trên đó tiến hành nghiên cứu các đặc trưng
vă
n
thơng kê của các dấu hiệu (các trường địa vật lý). Điều này đặc biệt quan trọng khi
n
khảo sát các diện tích có cấu trúc địa chất phức tạp, ở đó các trường địa vật lý quan sát
Lu
ậ
được biến đổi mạnh ngay cả ở những diện tích nhỏ.
Nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn được áp dụng
khi chúng ta không biết trước các đặc trưng thống kê của các dấu hiệu ứng với các lớp
đối tượng cần tìm. Khi đó q trình nhận dạng đơn thuần chỉ thực hiện nhiệm vụ phân
loại trường (các bài toán phân lớp).
Phương pháp xử lý số liệu bằng thuật tốn nhận dạng khơng có đối tượng chuẩn được
thực hiện như sau: bằng thuật toán phân loại trường lựa chọn được, tiến hành chia các
điểm quan sát thành một số nhất định các diện tích đồng nhất về dấu hiệu tổ hợp. Bản
chất địa chất của từng diện tích phân ra được có thể không xác định được; để xác định
13
chúng địi hỏi phải có các số liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý
của đá.
1.2.1.2.
Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.
a. Ước lượng các đặc trưng thống kê
Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn thì cơng
việc mang tính quyết định là lựa chọn các mẫu chuẩn và xác định các đặc trưng thống
kê các trường địa vật lý của chúng.
c
Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu khoan và
họ
các số liệu địa chất khác đã xác định được bản chất địa chất của các đối tượng gây ra
oa
trường địa vật lý. Tùy thuộc vào các mục đích nghiên cứu khác nhau mà các đối tượng
Kh
chuẩn được lựa chọn khác nhau.
sĩ
Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn người ta tiến
ạc
hành xác định các đặc trưng thống kê của trường cho từng loại đối tượng. Các đặc
th
trưng này bao gồm:
n
Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm).
vă
Kỳ vọng và phương sai của trường (thơng qua đường cong biến phân ).
Lu
ậ
n
Ngồi ra khi cần người ta cịn tính cả hệ số tương quan giữa các dấu hiệu,
phương chủ đạo của các dị thường…
Điều đặc biệt cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt thì cần
lựa chọn các đối tượng chuẩn sao cho các diện tích tồn tại đối tượng chuẩn phải nằm
xen kẽ với các phần diện tích khảo sát cần nhận dạng.
Đối với nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn để xác
định các đặc trưng thống kê của trường người ta chia khu vực khảo sát thành các diện
tích cơ sở – cửa sổ. Kích thước của các diện tích cơ sở hay số lượng điểm quan sát trên
mỗi diện tích cơ sở được lựa chọn dựa vào tỉ lệ bản đồ và kích thước dị thường mà các
14
đối tượng trường tạo ra. Diện tích cơ sở có thể nhỏ nhất cần chọn để trong tương lai có
thể đề nghị (hoặc khơng đề nghị) đưa vào thăm dị hoặc khảo sát chi tiết. Diện tích cơ
sở cũng có thể xem như cửa sổ trượt, các đặc trưng thống kê của trường trong cửa sổ
đó được gán cho điểm trung tâm cửa sổ.
b. Đánh giá lượng tin của dấu hiệu
Lượng tin của dấu hiệu là khả năng mà dấu hiệu đó có thể phân biệt được các
đối tượng khác nhau với nhau. Khả năng này phụ thuộc vào việc các đối tượng của
c
cùng một lớp có thường xuyên cho những giá trị cố định của dấu hiệu đó hay khơng và
họ
các giá trị đó có phân bố rộng ra ngồi giới hạn của các đối tượng của lớp đó hay
oa
không.
Kh
Người ta đưa ra các khái niệm lượng tin từng phần, lượng tin tổng (tích phân) và
lượng tin tổng hợp. Lượng tin từng phần là lượng tin của những dải giá trị hay của
ạc
sĩ
nhóm các giá trị riêng biệt của một dấu hiệu nhất định. Lượng tin tổng là lượng tin
th
chứa toàn bộ các giá trị của một dấu hiệu (một loại trường) nào đó.Lượng tin tổng hợp
n
là lượng tin tính cho những dạng kết hợp khác nhau của nhiều dấu hiệu.
vă
Trong q trình nhận dạng khơng phải mọi dấu hiệu trường đều quan trọng như
n
nhau, thậm chí có những dấu hiệu trường địa vật lý hồn tồn khơng chứa thơng tin về
Lu
ậ
đối tượng khảo sát và có thể là những dấu hiệu nhiễu làm mờ nhạt đi các thông tin hữu
ích. Khi đưa các dấu hiệu này vào sử dụng để nhận dạng không làm tăng mà ngược lại
làm giảm chất lượng nhận dạng đối tượng. Chính vì vậy, trong quá trình xử lý cần tiến
hành đánh giá lượng tin của từng dấu hiệu để từ đó chọn ra những dấu hiệu có lượng
tin cao đưa vào xử lý và loại bỏ những dấu hiệu có lượng tin thấp.
1.2.1.3.
Chọn thuật toán xử lý
Các thuật toán được lựa chọn để xử lý sẽ ảnh hưởng tới chất lượng xử lý. Để
chất lượng xử lý cao khi lựa chọn các thuật toán người ta dựa vào các yếu tố sau:
15
a. Nhiệm vụ đặt ra
Nếu nhiệm vụ của khảo sát địa vật lý là tìm kiếm mỏ thì thuật tốn phải có khả
năng nhận dạng hai lớp đối tượng: lớp quặng và lớp khơng quặng. Cịn nếu nhiệm vụ
của khảo sát địa vật lý là phục vụ công tác đo vẽ bản đồ địa chất thì thuật tốn phải
đảm bảo khả năng cùng một lúc nhận dạng được nhiều lớp đối tượng liên quan với
nhiều loại đất đá và các yếu tố kiến tạo khác nhau.
b. Đặc điểm chứa thông tin của số liệu gốc
c
Nếu các số liệu địa vật lý chứa thơng tin ở hai mức: mức “có”- mức dị thường
họ
và mức “khơng”- mức phơng thì người ta sử dụng các thuật toán logic. Trong trường
toán kiểm chứng thống kê.
sĩ
c. Tính độc lập và khơng độc lập
Kh
oa
hợp các số liệu địa vật lý chứa các thông tin định lượng thì người ta sử dụng các thuật
ạc
Khi các dấu hiệu trường địa vật lý độc lập nhau thì có thể sử dụng các thuật toán
n
vă
sử dụng phức tạp hơn.
th
đơn giản. Còn trong trường hợp các dấu hiệu liên quan với nhau thì các thuật tốn được
n
d. Mức độ đầy đủ của các thông tin tiên nghiệm
Lu
ậ
Mức độ đầy đủ của các thơng tin tiên nghiệm chính là mức độ hồn chỉnh của
các mơ hình vật lý địa chất.Trong trường hợp tồn tại các đối tượng chuẩn, nghĩa là khi
biết rõ mơ hình vật lý địa chất của các đối tượng thì để xử lý người ta sử dụng các thuật
tốn nhận dạng có mẫu chuẩn để phân loại trường.
1.2.1.4.
Định nghiệm về sự tồn tại của đối tượng
Đối với các thuật tốn nhận dạng có mẫu chuẩn việc quyết định nghiệm chủ yếu
dựa vào chỉ số tương đồng. Chỉ số này xác định mức độ giống nhau hoặc khác nhau
giữa đối tượng nghiên cứu với đối tượng chuẩn theo lượng thông tin tổng hợp của toàn
bộ các dấu hiệu.
16
Đối với các thuật tốn nhận dạng khơng có mẫu chuẩn thì quá trình nhận dạng
chỉ đơn thuần thực hiện việc phân chia diện tích khảo sát thành các phần đồng nhất
theo tổng hợp các dấu hiệu. Việc phân loại ở đây được tiến hành dựa vào các chỉ tiêu
định nghiệm khác nhau.Chỉ tiêu này phụ thuộc rất nhiều vào số lượng các lớp đối
tượng cần phân chia là bao nhiêu.
1.2.1.5.
Đánh giá chất lượng xử lý
Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được đánh giá
c
dựa vào sai số nhận dạng các đối tượng kiểm chứng. Các đối tượng kiểm chứng là các
họ
đối tượng mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được
oa
chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả nhận
Kh
dạng.
Đối với các thuật tốn nhận dạng khơng đối tượng chuẩn người ta sử dụng xác
ạc
sĩ
suất nhận dạng sai lầm để đánh giá chất lượng xử lý. Xác suất này được tính dựa vào
th
việc tính tích phân hàm phân bố mật độ xác suất của một hệ số gọi là hệ số tương thích.
n
Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một.
vă
1.2.2. Các thuật toán nhận dạng
n
Hiện nay, trong địa vật lý người ta sử dụng nhiều phương pháp nhận dạng hiện
Lu
ậ
đại, được tự động hóa bằng các phần mềm mạnh. Tuy nhiên có thể chia chúng thành 2
nhóm: nhóm có phương pháp nhận dạng theo đối tượng chuẩn (có thơng tin tiên
nghiệm) và nhóm có phương pháp nhận dạng khơng có đối tượng chuẩn (khơng có
thơng tin tiên nghiệm).
1.2.2.1.
Các thuật tốn nhận dạng có mẫu chuẩn
Các thuật tốn nhận dạng có mẫu chuẩn là các thuật tốn tiến hành xác định bản
chất địa chất của các đối tượng dựa vào việc so sánh tập hợp các dấu hiệu địa vật lý đặc
17