Tải bản đầy đủ (.pdf) (100 trang)

(Luận văn thạc sĩ) phương pháp đánh giá lựa chọn thông tin và ứng dụng trong xử lý tổ hợp số liệu địa vật lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.17 MB, 100 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Nguyễn Phƣơng Thảo

PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG
DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Nguyễn Phƣơng Thảo

PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG
DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ

Chuyên ngành: Vật lý địa cầu
Mã số: 8440130.06

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học
PGS.TS. VÕ THANH QUỲNH


Hà Nội – 2019


LỜI CẢM ƠN
Sau một thời gian dài nghiên cứu, cố gắng học tập và làm việc một cách
nghiêm túc, tôi đã hoàn thành cuốn luận văn tốt nghiệp này. Trước khi trình bày nội
dung chính của luận văn, tơi xin bày tỏ lòng biết ơn đến những người đã giúp đỡ,
bên cạnh tôi suốt thời gian qua.
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Võ Thanh
Quỳnh, người thầy trực tiếp hướng dẫn tôi, đã quan tâm, giúp đỡ, tận tình chỉ bảo
tơi trong suốt q trình thực hiện đề tài luận văn tốt nghiệp này. Không chỉ được
giúp đỡ về mặt chuyên môn, trong quá trình làm việc, tơi cịn học hỏi được tinh
thần làm việc khoa học và đầy trách nhiệm từ thầy, từ đó tích lũy được những kiến
thức và kinh nghiệm q báu.
Tôi xin gửi lời cảm ơn tới Th.S. Nguyễn Viết Đạt người đã tận tình giúp đỡ
tơi trong suốt q trình làm luận văn. Và tơi cũng xin gửi lời cảm ơn trân thành
nhất tới các thầy cô trong bộ môn Vật lý Địa Cầu – Trường Đại học Khoa học tự
nhiên – Đại học Quốc gia Hà Nội đã trang bị kiến thức và có những đóng góp hết
sức q báu để tơi hồn thành luận văn này.
Cuối cùng cho phép tơi bày tỏ lịng biết ơn vơ hạn tới gia đình và bạn bè,
những người đã ln quan tâm, động viên và là chỗ dựa tinh thần vững chắc của tơi
trong những thời khắc khó khăn nhất.
Dù đã rất cố gắng song do điều kiện thời gian và trình độ nên luận văn của
tơi khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận được những nhận xét
và những lời góp ý từ phía thầy cơ và bạn đọc để luận văn của tơi được hồn thiện
hơn.
Tơi xin chân thành cảm ơn!.
Hà Nội, 01 tháng 12 năm 2019
Học viên
Nguyễn Phương Thảo



MỤC LỤC
MỞ ĐẦU

1

CHƢƠNG I. TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ –

3

NHẬN DẠNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ….
1.1.

Thống kê và xử lý số liệu

3

1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm

3

1.1.2. Các đặc trưng thống kê

4

1.1.3. Hàm phân phối

7


1.2.

Xử lý tổ hợp số liệu địa vật lý

12

1.2.1. Các bước xử lý tổ hợp số liệu địa vật lý

12

1.2.2. Các thuật toán nhận dạng

`17

1.2.2.1.

Các thuật tốn nhận dạng có mẫu chuẩn

17

1.2.2.2.

Các thuật tốn nhận dạng khơng có mẫu chuẩn

20

CHƢƠNG II. MỘT SỐ PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN
THƠNG TIN VÀ PHÂN TÍCH NHẬN DẠNG TRONG XỬ LÝ SỐ 23
LIỆU ĐỊA VẬT LÝ
2.1 . Một số phương pháp đánh giá lựa chọn thông tin


23

2.1.1 Phương pháp phân tích - tần suất

23

2.1.2 Phương pháp phân tích – khoảng cách – khái quát

25

2.1.3 Phương pháp trọng số.

27


2.1.4. Phương pháp phân tích thành phần chính.

28

2.1.5. Phương pháp đánh giá chuyên gia

33

2.2. Một số phương pháp phân tích nhận dạng trong xử lý tổ hợp số liệu
địa vật lý

34

2.2.1. Các phương pháp truyền thống


34

2.2.2. Một số phương pháp nhận dạng mới trong địa vật lý và áp dụng

36

các thuật tốn đánh giá lựa chọn thơng tin
2.2.2.1. Phương pháp tần suất nhận dạng

36

2.2.2.2. Phương pháp khoảng cách tần suất - nhận dạng

41

CHƢƠNG III. THỬ NGHIỆM ÁP DỤNG MỘT SỐ PHƢƠNG PHÁP

49

ĐÁNH GIÁ LỰA CHỌN THƠNG TIN VÀ PHÂN TÍCH NHẬN
DẠNG TRÊN SỐ LIỆU THỰC TẾ
3.1. Giới thiệu đối tượng và khu vực nghiên cứu thử nghiệm

49

3.1.1. Vị trí địa lý và đặc điểm của khu vực nghiên cứu

49


3.1.2. Đối tượng nghiên cứu

50

3.1.3. Tài liệu địa vật lý máy bay về khu vực nghiên cứu

53

3.2. Phân tích thử nghiệm 1 số phương pháp đánh giá lựa chọn thông tin

53

3.2.1. Phân tích thử nghiệm theo phương pháp phân tích tần suất

53

3.2.2. Phân tích thử nghiệm theo phương pháp phân tích - khoảng cách

59

- khái quát


3.2.3. Phân tích thử nghiệm theo phương pháp trọng số
3.3. Phân tích thử nghiệm bằng phương pháp nhận dạng
3.3.1. Phân tích thử nghiệm phương pháp tần suất – nhận dạng

62
63
63


3.3.2. Phân tích thử nghiệm phương pháp khoảng cách – tần suất – nhận 65
dạng
KẾT LUẬN

67

TÀI LIỆU THAM KHẢO

68


DANH MỤC HÌNH
Hình 3.1. Sơ đồ vị trí khu vực lựa chọn nghiên cứu thử nghiệm

50

Hình 3.2. Sơ đồ vị trí của các đối tượng thử nghiệm

52

Hình 3.3. Đồ thị tỷ trọng thơng tin của các tính chất trên đối tượng mẫu

57

Hình 3.4. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối

60

tượng mẫu chuẩn và mẫu ĐN01

Hình 3.5. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối
tượng mẫu chuẩn và mẫu ĐN01 theo thứ tự giảm dần

61


DANH MỤC BẢNG
Bảng 2.3. Số liệu quan trắc trên một đối tượng địa chất

27

Bảng 2.4. Số liệu quan trắc về vỏ hóa thạch

31

Bảng 3.1. Khoảng giá trị đặc trưng của đối tượng mẫu

54

Bảng 3.2. Ma trận thông tin trên đối tượng mẫu

56

Bảng 3.3. Kết quả tính tỷ trọng thơng tin trên đối tượng mẫu

57

Bảng 3.4. Kết quả tính tỷ trọng thông tin trên đối tượng mẫu sau khi sắp

58


xếp
Bảng 3.5. Tỉ lệ phần trăm tổng thơng tin với m tính chất

58

Bảng 3.6. Bảng giá trị khoảng cách khái quát của các tính chất trên đối

60

tượng mẫu chuẩn và mấu ĐN01
Bảng 3.7. Bảng giá trị khoảng cách khái quát của các tính chất trên đối

61

tượng mẫu chuẩn và mấu ĐN01 sau khi sắp xếp
Bảng 3.8. Giá trị hệ số ý nghĩa ωi của các tính chất được sắp xếp theo thứ

63

tự giảm dần
Bảng 3.9. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương

64

pháp phân tích – tần suất – nhận dạng.
Bảng 3.10. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương
pháp khoảng cách – tần suất – nhận dạng.

65



MỞ ĐẦU
Đánh giá và lựa chọn thông tin là nội dung hết sức quan trọng trong cơng tác
xử lí-phân tích tổ hợp số liệu vật lý nói chung , số liệu địa vật lý nói riêng. Hiện nay,
trong cơng tác xử lí-phân tích tổ hợp số liệu địa vật lý người ta sử dụng rất nhiều loại
phương pháp khác nhau, trong đó nhóm các phương pháp thống kê - nhận dạng được
áp dụng rộng rãi và rất có hiệu quả. Tuy nhiên, trên thực tế, khi tiến hành các phương
pháp phân tích tổ hợp đối với nhiều loại tài liệu địa vật lý, trong đó có tài liệu phổ
gamma hàng không ở nước ta, vẫn đang gặp phải một số hạn chế cần được nghiên cứu
khắc phục. Đó là khối lượng tài liệu cũng như số lượng các chủng loại thơng tin rất
lớn, trong khi đó số lượng các tham số đầu vào của các chương trình phân tích hiện có
thường bị giới hạn. Việc sử dụng các tổ hợp thơng tin khác nhau để tiến hành phân tích
cho những kết quả rất khác nhau. Mặt khác, kể cả khi số lượng các tham số đầu vào
của các chương trình phân tích được mở rộng thì việc sử dụng đồng thời tất cả các loại
thơng tin có được để phân tích nhận dạng lại cho kết quả thiếu tin cậy hơn khi chỉ sử
dụng một tổ hợp thông tin nhất định có chất lượng cao. Rõ ràng việc sử dụng những
thơng tin thiếu độ tin cậy khơng những khơng có hiệu quả mà cịn làm nhịa đi những
thơng tin quan trọng khác, gây nên những nhận thức sai lệch về đối tượng nghiên cứu.
Trong thực tế, số lượng các chủng loại thông tin của các đối tượng nhiên cứu thu được
ngày càng lớn. Làm thế nào để đánh giá được chất lượng của từng chủng loại thơng tin,
từ đó lựa chọn tổ hợp các thông tin tin cậy phục vụ cho từng mục đích nghiên cứu đóng
vai trị hết sức quan trọng trong cơng tác xử lý phân tích tài liệu và chính là nội dung
của lớp bài tốn đánh giá lựa chọn thông tin. Với thực tế và cách đặt vấn đề trên, ta
thấy, để nâng cao hơn nữa chất lượng của các phương pháp phân tích tổ hợp số liệu,
trong đó có phương pháp phân tích nhận dạng, trước hết cần phải giải quyết tốt bài toán
đánh giá, lựa chọn thông tin. Đề tài luận văn: Phương pháp đánh giá lựa chọn thông
tin và ứng dụng trong xử lý tổ hợp số liệu vật lý được học viên lựa chọn với các
nhiệm vụ chính như sau:


1


-

Tìm hiểu một số phương pháp, thuật tốn phân tích thuộc nhóm các phương
pháp đánh giá và lựa chọn thơng tin trong xử lý tổ hợp số liệu địa vật lý.

-

Áp dụng các phương pháp phân tích tần suất theo thuật tốn Griffiths-Vinni,
phương pháp phân tích khoảng cách khái qt theo thuật toán Paguonop và
phương pháp trọng số vào xử lý số liệu địa vật lý từ đó có thể rút ra những nhận
xét, kết luận về khả năng ứng dụng của từng phương pháp.
Bố cục luận văn gồm:

-

Mở đầu

-

Chương 1: Tổng quan về phương pháp thống kê – nhận dạng trong xử lý tổ hợp
số liệu địa vật lý.

-

Chương 2: Một số phương pháp đánh giá – lựa chọn thơng tin và phân tích nhận
dạng trọng xử lý số liệu địa vật lý


-

Chương 3: Thử nghiệm áp dụng một số phương pháp đánh giá lựa chọn thông
tin và phân tích nhận dạng trên số liệu thực tế

-

Kết luận

2


CHƢƠNG I: TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ – NHẬN DẠNG
TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
1.1.

Thống kê và xử lý số liệu

1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm
Các thiết bị quan sát trường trong địa vật lý đều là các thiết bị số nên các kết quả
quan sát trường địa vật lý (bao gồm: tín hiệu có ích, nhiễu và sai số đo) nên có thể là
đại lượng này hay đại lượng khác mà người đo khơng dự đốn trước được. Vì vậy để
mô tả các giá trị (bằng số) các trường địa vật lý do được người ta thường sử dụng khái
niệm đại lượng ngẫu nhiên.
Các giá trị trường địa vật lý đo được các số cụ thể nên đại lượng ngẫu nhiên là
mơ hình nền tảng để mơ tả các số liệu địa vật lý.
Khi tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó (ví dụ: các số liệu
trong địa vật lý). Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó (X1,
X2, …, Xn) được gọi là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát. Như
vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như

biến ngẫu nhiên X.
Ta gọi xi là kết quả quan sát được ở lần thứ i. Khi đó (x1, x2, …, xn) là n giá trị
quan sát được. Đó là một giá trị cụ thể mà mẫu ngẫu nhiên (X1, X2, …, Xn) nhận.
Giả sử ta có mẫu ngẫu nhiên (x1, x2, …, xn). Xuất phát từ n giá trị cụ thể mà biến
ngẫu nhiên nhận ta xây dựng hàm số:
( )
Trong đó
nhận được hàm

*

*

+

(

)

+ là số các giá trị mẫu xi mà nhỏ hơn x. Khi x thay đổi, ta

( ) theo biến số thực x. Hàm số này được gọi là hàm phân phối thực

nghiệm.

3


Xuất phát từ các mẫu cụ thể khác nhau ta nhận được các hàm phân phối thực
nghiệm các nhau. Đồ thị của chúng đều là các bậc thang. Các đường bậc thang khác

nhau đều có chung một tính chất là: Khi cỡ mẫu tăng vô hạn các hàm phân phối thực
nghiệm tiến đến hàm phân phối lý thuyết cần tìm. Điều đó được thể hiện qua định lý
sau:
Định lý Glivenco: giả sử F(x) là hàm phân phối của biến ngẫu nhiên X mà ta đang
cần tìm.

( ) là hàm phân phối thực nghiệm nhận được từ mẫu ngẫu nhiên cỡ n. Khi

đó:
| ( )

,

( )|

-

(1.2)

Như vậy hàm phân phối thực nghiệm là một xấp xỉ của hàm phân phối lý thuyết.
Xấp xỉ đó càng tốt khi cỡ mẫu n càng lớn. Với n cố định hàm phân phối thực nghiệm
cho ta hình ảnh hình học về phân phối lý thuyết cần tìm. [5]
1.1.2. Các đặc trưng thống kê
a, Kỳ vọng (giá trị trung bình)
 Định nghĩa: Kỳ vọng của biến ngẫu nhiên ξ là một con số được ký hiệu là E ξ
và được xác định như sau:

{

ế





(
ế

( )

)
( )

(1.3)

 Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
là trọng tâm của phân phối xác suất với khối lượng 1. Chính vì vậy mà người ta
dùng kì vọng để xác định vị trí của phân phối.
 Tính chất:
1. E[C] = C (C là hằng số)

4


2. ECX = CEX
3. Nếu X và Y là những biến ngẫu nhiên có kỳ vọng thì tổng hoặc hiệu X ± Y
cũng có kỳ vọng và
E[X ±Y]  E[X] ± E[Y] .
4. Nếu X và Y là hai biến ngẫu nhiên độc lập và có kỳ vọng thì tích XY
cũng có kỳ vọng và
E[XY]  E[X] .E[Y]

5.

( )
( )




( )
( ) ( )

nếu P(X=xi) = pi
nếu X có mật độ p(x)

b, Median (Trung vị)
Median của biến ngẫu nhiên ξ là một số được kí hiệu µξ và được xác định như sau:
P(ξ < µξ) = F(µξ) ≤ 1/2

(1.4)

P(ξ ≤ µξ) = F(µξ + 0) ≥ 1/2

(1.5)

Trong đó F là hàm phân phối của ξ. Nếu hàm phân phối F liên tục thì hai hệ thức
trên tương đương với:
F(µξ) = 1/2
Nếu có nhiều nghiệm, chẳng hạn m0 và m1 là nghiệm thì mọi điểm thuộc [m0, m1]
cũng đều là nghiệm.
m0 ≡ m1: có một trung vị

m0 ≠ m1: có nhiều trung vị

5


Như vậy trung vị là điểm phân đôi khối lượng xác suất thành hai thành phần bằng
nhau.
c, Mode
Nếu ξ rời rạc thì Mode là giá trị của ξ mà tại đó xác suất tương ứng lớn nhất.
Nếu ξ liên tục có mật độ p(x) thì Mode là giá trị x0 mà tại đó p(x) đạt cực đại.
Nhận xét:
 Nếu phân phối của biến ngẫu nhiên ξ đối xứng và có một Mode thì cả 3 đặc
trưng: Kỳ vọng, Median và Mode trùng nhau.
 Nếu phân phối của ξ đối xứng hoặc gần đối xứng thì dùng kì vọng định vị là
tốt nhất.
 Nếu phân phối của ξ quá lệch thì dùng trung vị và Mode để định vị sẽ tốt
hơn.
d, Phương sai
 Định nghĩa: Phương sai của biến ngẫu nhiên ξ là một số không âm, ký hiệu là
Dξ, được xác định bởi:
D ξ = E(ξ - E ξ)2
= Eξ2 – (Eξ)2

(1.6)

Trong đó theo tính chất e) của kỳ vọng:
E ξ2 = ∑

=∫


nếu P(ξ = xi) = pi

( )

nếu ξ có mật độ p(x)

6

(1.7)


 Ý nghĩa:
Phương sai của biến ngẫu nhiên là 1 số không âm dùng để đo mức độ phân tán
(mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xưng quanh tâm (Eξ) của nó. Dξ
nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. Dξ càng lớn thì độ phân tán càng cao.
 Tính chất:
1. Dc = 0, c = const
2. Dcξ = c2Dξ
3. Nếu ξ và ƞ độc lập thì D(ξ ≠ ƞ) = Dξ + Dƞ
e, Trung vị cấp p:
xp được gọi là phân vị cấp p của phân phối F(x) nếu:
F(xp) ≤ p
F(xp + 0) ≥ p
Nếu hàm phân phối liên tục: F(xp) = p
-

Trường hợp p = 1/2 ta có trung vị

-


Ta có các tứ phân vị x1/4, x2/4, x3/4

Khi đó P{ ξ € [x1/4, x3/4]} = 0,5 (nếu ξ liên tục). Khoảng (x1/4, x3/4) được gọi là
khoảng tứ phân vị. Khoảng này cũng được dùng để đặc trưng độ tập trung, phân tán
của biến ngẫu nhiên. [4]
1.1.3. Hàm phân phối
 Định nghĩa
Cho biến ngẫu nhiên ξ, ta xác định hàm phân phối của ξ như sau:
( )

*

+

Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực, x thuộc

7


(-∞, +∞). Tại một điểm x bất kỳ hàm F(x) chính là xác suất để biến ngẫu nhiên
nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x.
Chỉ số của hàm

( ) để chỉ hàm phân phối của biến ngẫu nhiên ξ. Trường hợp

không cần thiết có thể bỏ qua khơng cần viết chỉ số đó.
 Tính chất:
Hàm phân phối của biến ngẫu nhiên có một số tính chất sau:
1. Hàm phân phối xác định với mọi x ϵ (-∞, +∞).
2. 0 ≤ F(x) ≤ 1, Ɐx ; F(-∞) = 0, F(+∞) = 1

3. Hàm phân phối là hàm không giảm: nếu x1 < x2 thì F(x1) ≤ F(x2)
4. P{a ≤ ξ < b} = F(b) – F(a)
 Một số phân phối một chiều quen thuộc và ứng dụng thực tế:
Để mô tả các đại lượng ngẫu nhiên, trong địa vật lý người ta sử dụng các hàm phân
phối lý thuyết như hàm phân phối chuẩn (phân phối Gauxơ), phân phối chuẩn loga,
phân phối Puasson…
Phần lớn các đại lượng ngẫu nhiên trong địa vật lý cũng như nhiều hiện tượng địa chất
khác chúng tuân theo luật phân phối chuẩn.
 Phân phối nhị thức:
Xét n phép thử Bernoulli với xác suất thành công P(A) = p. Gọi ξ là số lần xuất
hiện biến cố A trong n phép thử trên. Phân phối của ξ được gọi là phân phối nhị
thức và ký hiệu ξ = B(n,p)
(

)

(

m = 0,1, 2, …, n

)

Dãy phép thử Bernoulli thường gặp nhiều trong thực tế do đó biến ngẫu nhiên
có phân phối nhị thức cũng thường gặp trong các ứng dụng.

8


 Phân phối poisson:
Phân phối này do Simeon Denis Poisson mơ tả vào năm 1837. Phân phối này

đã có nhiều ứng dụng đối với nhiều q trình có liên quan đến số quan sát đối với
một đơn vị thời gian hoặc không gian. Chẳng hạn số cuộc điện thoại nhận được ở
một trạm điện thoại trong một phút, số khách hàng đến nhà bang đối với mỗi một
chu kì 30 phút. Số máy bị hỏng trong ngày…
 Phân phối đều:
Hàm mật độ và hàm phân phối đã được đưa ra ở trên. Từ biến ngẫu nhiên phân
phối đều người ta nhận được bảng các số ngẫu nhiên.
 Phân phối chuẩn N(µ, σ2)
(

Hàm mật độ chuẩn tổng quát ( )



)

với -∞ < x < +∞

(1.8)

Đường cong mật độ này đối xứng qua đường x = µ, nhận trục Ox làm tiệm cận
ngang và có giá trị cực đại tại x = µ với tung độ cực đại là
Trường hợp đặc biệt: ξ
( )



N(0,1). Khi đó hàm mật độ được kí hiệu là φ(x):
với -∞ < x < +∞




(1.9)

Là hàm đối xứng qua trục tung , đồ thị có dạng hình chng. Hàm phân phối
N(0, 1) được kí hiệu Ф(x)
( )





dt

(1.10)

Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí trung
tâm trong các kết luận thống kê sau này.

9


Nhiều giá trị trường địa vật lý như mật độ, tốc độ truyền sóng, phóng xạ… tuân
theo luật phân phối chuẩn và dựa trên các thuật toán thống kê theo luật phân phối
chuẩn người ta có thế xử lý số liệu để tìm ra các đặc trưng của đối tượng.
Ngồi luật phân phối chuẩn cịn có các luật phân phối khác đang được áp dụng phổ
biến trong phân tích thống kê các số liệu địa vật lý. Ví dụ như luật phân phối chuẩn
loga được dùng để mô tả các giá trị điện trở xuất, độ từ cảm của đất đá.
 Phân phối mũ
Biến ngẫu nhiên ξ có phân phối mũ nếu hàm mật độ của nó được xác định bởi:

( )

ế
ế

{

(λ > 0)

(1.11)

Hàm phân phối có dạng:
( )

ế
ế

{

(1.12)

 Phân phối Student hay phân phối t
Phân phối này do William S. Gosset đưa ra năm 1908. Trong đó t là một biến ngẫu
nhiên, t là một thống kê tiêu chuẩn xác định bởi:
̅
Hàm mật độ của t được ác định bởi:
( )

(



)
( )

(

)

(1.13)

Trong đó:
(

(u) = ∫
(1/2) = √

10

)

( )

( )


Hàm mật độ của phân phối t cũng là hàm đối xứng qua trục tung, dạng đồ thị của
nó cũng là dạng hình chng rất giống hàm mật độ chuẩn φ(x).
Số nguyên n được gọi là số bậc tự do của phân phối t
 Phân phối χ2
Hàm mật độ của phân phối χ2 có dạng :


( )

{

(1.14)
( )

n gọi là bậc tự do của phân phối χ2
Thực chất của phân phối χ2 với n bậc tự do chính là phân phối của biến ngẫu nhiên


trong đó X1, X2, …, Xn độc lập, cùng phân phối N(0, 1).
Phân phối χ2 do Karl Pearson đưa ra vào năm 1900.
 Phân phối F
Phân phối F do R. A Fisher đưa ra.
Phân phối F là phân phối của tỷ số hai biến ngẫu nhiên độc lập có phân phối χ2 với

n1 và n2 bậc tự do.
Biến ngẫu nhiên:
(1.15)

11


Hàm mật độ của phân phối F có dạng:

( )

Trong đó (

1.2.

{

(

)

(1.16)
(

(

)

)

) là hằng số thích hợp. [3]

Xử lý tổ hợp số liệu địa vật lý

1.2.1. Các bước xử lý tổ hợp số liệu Địa Vật lý
Xử lí tổ hợp số liệu về cơ bản là dựa trên nhiều loại thông tin khác nhau để giải
quyết được các nhiệm vụ đặt ra phù hợp với điều kiện kinh tế và kĩ thuật cho
phép.Không chỉ riêng trong địa vật lý mà nhiều lĩnh vực khác cũng sử dụng xử lí tổ
hợp dữ liệu để nâng cao chất lượng xử lí.
Xử lý tỏ hợp số liệu Địa vật lý là một quá trình phức tạp phụ thuộc vào mục
đích nghiên cứu và dạng các số liệu khác nhau. Một cách khái quát có thể phân chia
q trình này theo các bước cơ bản sau:
- Xây dựng mơ hình và xác định phương pháp

- Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.
- Chọn thuật toán xử lý
- Định nghiệm về sự tồn tại của đối tượng cần tìm
- Đánh giá chất lượng xử lý
1.2.1.1.

Xây dựng mơ hình và xác định phương pháp

Để xử lý tổ hợp số liệu Địa vật lý người ta chủ yếu sử dụng các mô hình thống
kê vì các đối tượng khảo sát cần nghiên cứu có vị trí, kích thước, tính chất vật lý không
biết trước nên chúng được xem như các đối tượng ngẫu nhiên. Mặt khác, các trường

12


vật lý do các đối tượng địa chất tạo ra thường bị các loại nhiễu làm méo nên các dấu
hiệu trường Địa vật lý khảo sát cũng mang tính ngẫu nhiên. Với mơ hình để được
nhiệm vụ tiếp theo là lựa chọn các phương pháp nhận dạng tương ứng, tiến hành xử lý
theo mơ hình và giải quyết các nhiệm vụ bài tốn đặt ra.
Hiện nay trong cơng tác xử lý-phân tích số liệu địa vật lý có rất nhiều phương
pháp nhận dạng, có thể chia chúng thành hai nhóm: nhóm các phương pháp nhận dạng
theo đối tượng chuẩn và nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn.
Nhóm các phương pháp nhận dạng theo đối tượng chuẩn được áp dụng khi
chúng ta biết được lớp đối tượng và biết được đặc trưng thống kê của các trường địa
vật lý đối với từng lớp đối tượng.
Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn, nhiệm vụ đặt ra là
cần xây dựng các thuật toán hay đề xuất các chỉ tiêu nhận dạng đảm bảo để phân loại
các đối số liệu quan sát thành hai lớp hoặc với số lớp nhiều hơn 2 khi có trước các đặc
trưng thống kê của mỗi loại dấu hiệu ứng với các đối tượng chuẩn.Vấn đề mang tính
quyết định là lựa chọn đối tượng chuẩn, trên đó tiến hành nghiên cứu các đặc trưng

thơng kê của các dấu hiệu (các trường địa vật lý). Điều này đặc biệt quan trọng khi
khảo sát các diện tích có cấu trúc địa chất phức tạp, ở đó các trường địa vật lý quan sát
được biến đổi mạnh ngay cả ở những diện tích nhỏ.
Nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn được áp dụng
khi chúng ta không biết trước các đặc trưng thống kê của các dấu hiệu ứng với các lớp
đối tượng cần tìm. Khi đó q trình nhận dạng đơn thuần chỉ thực hiện nhiệm vụ phân
loại trường (các bài toán phân lớp).
Phương pháp xử lý số liệu bằng thuật tốn nhận dạng khơng có đối tượng chuẩn được
thực hiện như sau: bằng thuật toán phân loại trường lựa chọn được, tiến hành chia các
điểm quan sát thành một số nhất định các diện tích đồng nhất về dấu hiệu tổ hợp. Bản
chất địa chất của từng diện tích phân ra được có thể không xác định được; để xác định

13


chúng địi hỏi phải có các số liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý
của đá.
1.2.1.2.

Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.

a. Ước lượng các đặc trưng thống kê
Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn thì cơng
việc mang tính quyết định là lựa chọn các mẫu chuẩn và xác định các đặc trưng thống
kê các trường địa vật lý của chúng.
Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu khoan và
các số liệu địa chất khác đã xác định được bản chất địa chất của các đối tượng gây ra
trường địa vật lý. Tùy thuộc vào các mục đích nghiên cứu khác nhau mà các đối tượng
chuẩn được lựa chọn khác nhau.
Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn người ta tiến

hành xác định các đặc trưng thống kê của trường cho từng loại đối tượng. Các đặc
trưng này bao gồm:
 Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm).
 Kỳ vọng và phương sai của trường (thơng qua đường cong biến phân ).
Ngồi ra khi cần người ta cịn tính cả hệ số tương quan giữa các dấu hiệu,
phương chủ đạo của các dị thường…
Điều đặc biệt cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt thì cần
lựa chọn các đối tượng chuẩn sao cho các diện tích tồn tại đối tượng chuẩn phải nằm
xen kẽ với các phần diện tích khảo sát cần nhận dạng.
Đối với nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn để xác
định các đặc trưng thống kê của trường người ta chia khu vực khảo sát thành các diện
tích cơ sở – cửa sổ. Kích thước của các diện tích cơ sở hay số lượng điểm quan sát trên
mỗi diện tích cơ sở được lựa chọn dựa vào tỉ lệ bản đồ và kích thước dị thường mà các

14


đối tượng trường tạo ra. Diện tích cơ sở có thể nhỏ nhất cần chọn để trong tương lai có
thể đề nghị (hoặc khơng đề nghị) đưa vào thăm dị hoặc khảo sát chi tiết. Diện tích cơ
sở cũng có thể xem như cửa sổ trượt, các đặc trưng thống kê của trường trong cửa sổ
đó được gán cho điểm trung tâm cửa sổ.
b. Đánh giá lượng tin của dấu hiệu
Lượng tin của dấu hiệu là khả năng mà dấu hiệu đó có thể phân biệt được các
đối tượng khác nhau với nhau. Khả năng này phụ thuộc vào việc các đối tượng của
cùng một lớp có thường xuyên cho những giá trị cố định của dấu hiệu đó hay khơng và
các giá trị đó có phân bố rộng ra ngồi giới hạn của các đối tượng của lớp đó hay
không.
Người ta đưa ra các khái niệm lượng tin từng phần, lượng tin tổng (tích phân) và
lượng tin tổng hợp. Lượng tin từng phần là lượng tin của những dải giá trị hay của
nhóm các giá trị riêng biệt của một dấu hiệu nhất định. Lượng tin tổng là lượng tin

chứa toàn bộ các giá trị của một dấu hiệu (một loại trường) nào đó.Lượng tin tổng hợp
là lượng tin tính cho những dạng kết hợp khác nhau của nhiều dấu hiệu.
Trong q trình nhận dạng khơng phải mọi dấu hiệu trường đều quan trọng như
nhau, thậm chí có những dấu hiệu trường địa vật lý hồn tồn khơng chứa thơng tin về
đối tượng khảo sát và có thể là những dấu hiệu nhiễu làm mờ nhạt đi các thông tin hữu
ích. Khi đưa các dấu hiệu này vào sử dụng để nhận dạng không làm tăng mà ngược lại
làm giảm chất lượng nhận dạng đối tượng. Chính vì vậy, trong quá trình xử lý cần tiến
hành đánh giá lượng tin của từng dấu hiệu để từ đó chọn ra những dấu hiệu có lượng
tin cao đưa vào xử lý và loại bỏ những dấu hiệu có lượng tin thấp.
1.2.1.3.

Chọn thuật toán xử lý

Các thuật toán được lựa chọn để xử lý sẽ ảnh hưởng tới chất lượng xử lý. Để
chất lượng xử lý cao khi lựa chọn các thuật toán người ta dựa vào các yếu tố sau:

15


a. Nhiệm vụ đặt ra
Nếu nhiệm vụ của khảo sát địa vật lý là tìm kiếm mỏ thì thuật tốn phải có khả
năng nhận dạng hai lớp đối tượng: lớp quặng và lớp khơng quặng. Cịn nếu nhiệm vụ
của khảo sát địa vật lý là phục vụ công tác đo vẽ bản đồ địa chất thì thuật tốn phải
đảm bảo khả năng cùng một lúc nhận dạng được nhiều lớp đối tượng liên quan với
nhiều loại đất đá và các yếu tố kiến tạo khác nhau.
b. Đặc điểm chứa thông tin của số liệu gốc
Nếu các số liệu địa vật lý chứa thơng tin ở hai mức: mức “có”- mức dị thường
và mức “khơng”- mức phơng thì người ta sử dụng các thuật toán logic. Trong trường
hợp các số liệu địa vật lý chứa các thơng tin định lượng thì người ta sử dụng các thuật
toán kiểm chứng thống kê.

c. Tính độc lập và khơng độc lập
Khi các dấu hiệu trường địa vật lý độc lập nhau thì có thể sử dụng các thuật tốn
đơn giản. Cịn trong trường hợp các dấu hiệu liên quan với nhau thì các thuật toán được
sử dụng phức tạp hơn.
d. Mức độ đầy đủ của các thông tin tiên nghiệm
Mức độ đầy đủ của các thơng tin tiên nghiệm chính là mức độ hồn chỉnh của
các mơ hình vật lý địa chất.Trong trường hợp tồn tại các đối tượng chuẩn, nghĩa là khi
biết rõ mơ hình vật lý địa chất của các đối tượng thì để xử lý người ta sử dụng các thuật
tốn nhận dạng có mẫu chuẩn để phân loại trường.
1.2.1.4.

Định nghiệm về sự tồn tại của đối tượng

Đối với các thuật tốn nhận dạng có mẫu chuẩn việc quyết định nghiệm chủ yếu
dựa vào chỉ số tương đồng. Chỉ số này xác định mức độ giống nhau hoặc khác nhau
giữa đối tượng nghiên cứu với đối tượng chuẩn theo lượng thông tin tổng hợp của toàn
bộ các dấu hiệu.

16


Đối với các thuật tốn nhận dạng khơng có mẫu chuẩn thì quá trình nhận dạng
chỉ đơn thuần thực hiện việc phân chia diện tích khảo sát thành các phần đồng nhất
theo tổng hợp các dấu hiệu. Việc phân loại ở đây được tiến hành dựa vào các chỉ tiêu
định nghiệm khác nhau.Chỉ tiêu này phụ thuộc rất nhiều vào số lượng các lớp đối
tượng cần phân chia là bao nhiêu.
1.2.1.5.

Đánh giá chất lượng xử lý


Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được đánh giá
dựa vào sai số nhận dạng các đối tượng kiểm chứng. Các đối tượng kiểm chứng là các
đối tượng mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được
chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả nhận
dạng.
Đối với các thuật tốn nhận dạng khơng đối tượng chuẩn người ta sử dụng xác
suất nhận dạng sai lầm để đánh giá chất lượng xử lý. Xác suất này được tính dựa vào
việc tính tích phân hàm phân bố mật độ xác suất của một hệ số gọi là hệ số tương thích.
Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một.
1.2.2. Các thuật toán nhận dạng
Hiện nay, trong địa vật lý người ta sử dụng nhiều phương pháp nhận dạng hiện
đại, được tự động hóa bằng các phần mềm mạnh. Tuy nhiên có thể chia chúng thành 2
nhóm: nhóm có phương pháp nhận dạng theo đối tượng chuẩn (có thơng tin tiên
nghiệm) và nhóm có phương pháp nhận dạng khơng có đối tượng chuẩn (khơng có
thơng tin tiên nghiệm).
1.2.2.1.

Các thuật tốn nhận dạng có mẫu chuẩn

Các thuật tốn nhận dạng có mẫu chuẩn là các thuật tốn tiến hành xác định bản
chất địa chất của các đối tượng dựa vào việc so sánh tập hợp các dấu hiệu địa vật lý đặc

17


×