Tải bản đầy đủ (.pdf) (100 trang)

Luận văn thạc sĩ khoa học phương pháp đánh giá lựa chọn thông tin và ứng dụng trong xử lý tổ hợp số liệu vật lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.87 MB, 100 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

c

Nguyễn Phƣơng Thảo

họ

PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG

n

th

ạc



Kh

oa

DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ

Lu

ận




LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Nguyễn Phƣơng Thảo

họ

c

PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG

Kh

oa

DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ



Chuyên ngành: Vật lý địa cầu




n

th

ạc

Mã số: 8440130.06

Lu

ận

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học
PGS.TS. VÕ THANH QUỲNH

Hà Nội – 2019


LỜI CẢM ƠN
Sau một thời gian dài nghiên cứu, cố gắng học tập và làm việc một cách
nghiêm túc, tôi đã hoàn thành cuốn luận văn tốt nghiệp này. Trước khi trình bày nội
dung chính của luận văn, tơi xin bày tỏ lòng biết ơn đến những người đã giúp đỡ,
bên cạnh tôi suốt thời gian qua.
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Võ Thanh
Quỳnh, người thầy trực tiếp hướng dẫn tôi, đã quan tâm, giúp đỡ, tận tình chỉ bảo
tơi trong suốt q trình thực hiện đề tài luận văn tốt nghiệp này. Không chỉ được
giúp đỡ về mặt chuyên môn, trong quá trình làm việc, tơi cịn học hỏi được tinh


họ

c

thần làm việc khoa học và đầy trách nhiệm từ thầy, từ đó tích lũy được những kiến
thức và kinh nghiệm q báu.

oa

Tôi xin gửi lời cảm ơn tới Th.S. Nguyễn Viết Đạt người đã tận tình giúp đỡ

Kh

tơi trong suốt q trình làm luận văn. Và tơi cũng xin gửi lời cảm ơn trân thành



nhất tới các thầy cô trong bộ môn Vật lý Địa Cầu – Trường Đại học Khoa học tự

ạc

nhiên – Đại học Quốc gia Hà Nội đã trang bị kiến thức và có những đóng góp hết

th

sức q báu để tơi hồn thành luận văn này.
Cuối cùng cho phép tơi bày tỏ lịng biết ơn vơ hạn tới gia đình và bạn bè,




n

những người đã ln quan tâm, động viên và là chỗ dựa tinh thần vững chắc của tơi

ận

trong những thời khắc khó khăn nhất.

Lu

Dù đã rất cố gắng song do điều kiện thời gian và trình độ nên luận văn của
tơi khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận được những nhận xét
và những lời góp ý từ phía thầy cơ và bạn đọc để luận văn của tơi được hồn thiện
hơn.
Tơi xin chân thành cảm ơn!.
Hà Nội, 01 tháng 12 năm 2019
Học viên
Nguyễn Phương Thảo


MỤC LỤC
MỞ ĐẦU

1

CHƢƠNG I. TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ –

3

NHẬN DẠNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ….

1.1.

Thống kê và xử lý số liệu

3
3

1.1.2. Các đặc trưng thống kê

4

họ

c

1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm

Xử lý tổ hợp số liệu địa vật lý

Kh

1.2.

oa

1.1.3. Hàm phân phối

12
12
`17


1.2.2.1.

Các thuật tốn nhận dạng có mẫu chuẩn

17

1.2.2.2.

Các thuật tốn nhận dạng khơng có mẫu chuẩn

20

ận



n

ạc

1.2.2. Các thuật toán nhận dạng

th



1.2.1. Các bước xử lý tổ hợp số liệu địa vật lý

7


Lu

CHƢƠNG II. MỘT SỐ PHƢƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN
THƠNG TIN VÀ PHÂN TÍCH NHẬN DẠNG TRONG XỬ LÝ SỐ 23
LIỆU ĐỊA VẬT LÝ
2.1 . Một số phương pháp đánh giá lựa chọn thông tin

23

2.1.1 Phương pháp phân tích - tần suất

23

2.1.2 Phương pháp phân tích – khoảng cách – khái quát

25

2.1.3 Phương pháp trọng số.

27


2.1.4. Phương pháp phân tích thành phần chính.

28

2.1.5. Phương pháp đánh giá chuyên gia

33


2.2. Một số phương pháp phân tích nhận dạng trong xử lý tổ hợp số liệu
địa vật lý

34

2.2.1. Các phương pháp truyền thống

34

2.2.2. Một số phương pháp nhận dạng mới trong địa vật lý và áp dụng

36

oa

2.2.2.1. Phương pháp tần suất nhận dạng

họ

c

các thuật toán đánh giá lựa chọn thông tin

Kh

2.2.2.2. Phương pháp khoảng cách tần suất - nhận dạng

41
49




CHƢƠNG III. THỬ NGHIỆM ÁP DỤNG MỘT SỐ PHƢƠNG PHÁP

36

ạc

ĐÁNH GIÁ LỰA CHỌN THƠNG TIN VÀ PHÂN TÍCH NHẬN

th

DẠNG TRÊN SỐ LIỆU THỰC TẾ



n

3.1. Giới thiệu đối tượng và khu vực nghiên cứu thử nghiệm

49
49

3.1.2. Đối tượng nghiên cứu

50

3.1.3. Tài liệu địa vật lý máy bay về khu vực nghiên cứu


53

Lu

ận

3.1.1. Vị trí địa lý và đặc điểm của khu vực nghiên cứu

3.2. Phân tích thử nghiệm 1 số phương pháp đánh giá lựa chọn thông tin

53

3.2.1. Phân tích thử nghiệm theo phương pháp phân tích tần suất

53

3.2.2. Phân tích thử nghiệm theo phương pháp phân tích - khoảng cách

59

- khái quát


3.2.3. Phân tích thử nghiệm theo phương pháp trọng số
3.3. Phân tích thử nghiệm bằng phương pháp nhận dạng
3.3.1. Phân tích thử nghiệm phương pháp tần suất – nhận dạng

62
63
63


3.3.2. Phân tích thử nghiệm phương pháp khoảng cách – tần suất – nhận 65
dạng
67

TÀI LIỆU THAM KHẢO

68

Lu

ận



n

th

ạc



Kh

oa

họ

c


KẾT LUẬN


DANH MỤC HÌNH
Hình 3.1. Sơ đồ vị trí khu vực lựa chọn nghiên cứu thử nghiệm

50

Hình 3.2. Sơ đồ vị trí của các đối tượng thử nghiệm

52

Hình 3.3. Đồ thị tỷ trọng thơng tin của các tính chất trên đối tượng mẫu

57

Hình 3.4. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối

60

c

tượng mẫu chuẩn và mẫu ĐN01

họ

Hình 3.5. Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối

Lu


ận



n

th

ạc



Kh

oa

tượng mẫu chuẩn và mẫu ĐN01 theo thứ tự giảm dần

61


DANH MỤC BẢNG
27

Bảng 2.4. Số liệu quan trắc về vỏ hóa thạch

31

Bảng 3.1. Khoảng giá trị đặc trưng của đối tượng mẫu


54

Bảng 3.2. Ma trận thông tin trên đối tượng mẫu

56

Bảng 3.3. Kết quả tính tỷ trọng thơng tin trên đối tượng mẫu

57

họ

c

Bảng 2.3. Số liệu quan trắc trên một đối tượng địa chất

58

oa

Bảng 3.4. Kết quả tính tỷ trọng thông tin trên đối tượng mẫu sau khi sắp

Kh

xếp

58




Bảng 3.5. Tỉ lệ phần trăm tổng thơng tin với m tính chất

ạc

Bảng 3.6. Bảng giá trị khoảng cách khái quát của các tính chất trên đối

60

n

th

tượng mẫu chuẩn và mấu ĐN01



Bảng 3.7. Bảng giá trị khoảng cách khái quát của các tính chất trên đối

61

ận

tượng mẫu chuẩn và mấu ĐN01 sau khi sắp xếp

Lu

Bảng 3.8. Giá trị hệ số ý nghĩa ωi của các tính chất được sắp xếp theo thứ

63


tự giảm dần

Bảng 3.9. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương

64

pháp phân tích – tần suất – nhận dạng.
Bảng 3.10. Kết quả phân tích chỉ số đồng dạng của đối tượng theo phương
pháp khoảng cách – tần suất – nhận dạng.

65


MỞ ĐẦU
Đánh giá và lựa chọn thông tin là nội dung hết sức quan trọng trong cơng tác
xử lí-phân tích tổ hợp số liệu vật lý nói chung , số liệu địa vật lý nói riêng. Hiện nay,
trong cơng tác xử lí-phân tích tổ hợp số liệu địa vật lý người ta sử dụng rất nhiều loại
phương pháp khác nhau, trong đó nhóm các phương pháp thống kê - nhận dạng được
áp dụng rộng rãi và rất có hiệu quả. Tuy nhiên, trên thực tế, khi tiến hành các phương
pháp phân tích tổ hợp đối với nhiều loại tài liệu địa vật lý, trong đó có tài liệu phổ
gamma hàng không ở nước ta, vẫn đang gặp phải một số hạn chế cần được nghiên cứu

họ

c

khắc phục. Đó là khối lượng tài liệu cũng như số lượng các chủng loại thơng tin rất
lớn, trong khi đó số lượng các tham số đầu vào của các chương trình phân tích hiện có


oa

thường bị giới hạn. Việc sử dụng các tổ hợp thơng tin khác nhau để tiến hành phân tích

Kh

cho những kết quả rất khác nhau. Mặt khác, kể cả khi số lượng các tham số đầu vào



của các chương trình phân tích được mở rộng thì việc sử dụng đồng thời tất cả các loại

ạc

thơng tin có được để phân tích nhận dạng lại cho kết quả thiếu tin cậy hơn khi chỉ sử

th

dụng một tổ hợp thông tin nhất định có chất lượng cao. Rõ ràng việc sử dụng những

n

thơng tin thiếu độ tin cậy khơng những khơng có hiệu quả mà cịn làm nhịa đi những



thơng tin quan trọng khác, gây nên những nhận thức sai lệch về đối tượng nghiên cứu.

n


Trong thực tế, số lượng các chủng loại thông tin của các đối tượng nhiên cứu thu được

Lu


ngày càng lớn. Làm thế nào để đánh giá được chất lượng của từng chủng loại thơng tin,
từ đó lựa chọn tổ hợp các thông tin tin cậy phục vụ cho từng mục đích nghiên cứu đóng
vai trị hết sức quan trọng trong cơng tác xử lý phân tích tài liệu và chính là nội dung
của lớp bài tốn đánh giá lựa chọn thông tin. Với thực tế và cách đặt vấn đề trên, ta
thấy, để nâng cao hơn nữa chất lượng của các phương pháp phân tích tổ hợp số liệu,
trong đó có phương pháp phân tích nhận dạng, trước hết cần phải giải quyết tốt bài toán
đánh giá, lựa chọn thông tin. Đề tài luận văn: Phương pháp đánh giá lựa chọn thông
tin và ứng dụng trong xử lý tổ hợp số liệu vật lý được học viên lựa chọn với các
nhiệm vụ chính như sau:

1


-

Tìm hiểu một số phương pháp, thuật tốn phân tích thuộc nhóm các phương
pháp đánh giá và lựa chọn thơng tin trong xử lý tổ hợp số liệu địa vật lý.

-

Áp dụng các phương pháp phân tích tần suất theo thuật tốn Griffiths-Vinni,
phương pháp phân tích khoảng cách khái qt theo thuật toán Paguonop và
phương pháp trọng số vào xử lý số liệu địa vật lý từ đó có thể rút ra những nhận
xét, kết luận về khả năng ứng dụng của từng phương pháp.
Bố cục luận văn gồm:

Mở đầu

-

Chương 1: Tổng quan về phương pháp thống kê – nhận dạng trong xử lý tổ hợp

họ

c

-

số liệu địa vật lý.
dạng trọng xử lý số liệu địa vật lý

Chương 3: Thử nghiệm áp dụng một số phương pháp đánh giá lựa chọn thông



-

oa

Chương 2: Một số phương pháp đánh giá – lựa chọn thơng tin và phân tích nhận

Kh

-

n




n

th

Kết luận

Lu


-

ạc

tin và phân tích nhận dạng trên số liệu thực tế

2


CHƢƠNG I: TỔNG QUAN VỀ PHƢƠNG PHÁP THỐNG KÊ – NHẬN DẠNG
TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
1.1.

Thống kê và xử lý số liệu

1.1.1. Mẫu ngẫu nhiên và phân phối thực nghiệm
Các thiết bị quan sát trường trong địa vật lý đều là các thiết bị số nên các kết quả
quan sát trường địa vật lý (bao gồm: tín hiệu có ích, nhiễu và sai số đo) nên có thể là

đại lượng này hay đại lượng khác mà người đo khơng dự đốn trước được. Vì vậy để

c

mô tả các giá trị (bằng số) các trường địa vật lý do được người ta thường sử dụng khái

họ

niệm đại lượng ngẫu nhiên.

oa

Các giá trị trường địa vật lý đo được các số cụ thể nên đại lượng ngẫu nhiên là

Kh

mơ hình nền tảng để mơ tả các số liệu địa vật lý.



Khi tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó (ví dụ: các số liệu

ạc

trong địa vật lý). Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó (X1,

th

X2, …, Xn) được gọi là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát. Như




biến ngẫu nhiên X.

n

vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như

n

Ta gọi xi là kết quả quan sát được ở lần thứ i. Khi đó (x1, x2, …, xn) là n giá trị

Lu


quan sát được. Đó là một giá trị cụ thể mà mẫu ngẫu nhiên (X1, X2, …, Xn) nhận.
Giả sử ta có mẫu ngẫu nhiên (x1, x2, …, xn). Xuất phát từ n giá trị cụ thể mà biến
ngẫu nhiên nhận ta xây dựng hàm số:
( )
Trong đó
nhận được hàm

*

*

+

(


)

+ là số các giá trị mẫu xi mà nhỏ hơn x. Khi x thay đổi, ta

( ) theo biến số thực x. Hàm số này được gọi là hàm phân phối thực

nghiệm.

3


Xuất phát từ các mẫu cụ thể khác nhau ta nhận được các hàm phân phối thực
nghiệm các nhau. Đồ thị của chúng đều là các bậc thang. Các đường bậc thang khác
nhau đều có chung một tính chất là: Khi cỡ mẫu tăng vô hạn các hàm phân phối thực
nghiệm tiến đến hàm phân phối lý thuyết cần tìm. Điều đó được thể hiện qua định lý
sau:
Định lý Glivenco: giả sử F(x) là hàm phân phối của biến ngẫu nhiên X mà ta đang
cần tìm.

( ) là hàm phân phối thực nghiệm nhận được từ mẫu ngẫu nhiên cỡ n. Khi

( )|

-

họ

| ( )

,


c

đó:
(1.2)

oa

Như vậy hàm phân phối thực nghiệm là một xấp xỉ của hàm phân phối lý thuyết.

Kh

Xấp xỉ đó càng tốt khi cỡ mẫu n càng lớn. Với n cố định hàm phân phối thực nghiệm

ạc

th

1.1.2. Các đặc trưng thống kê



cho ta hình ảnh hình học về phân phối lý thuyết cần tìm. [5]

n

a, Kỳ vọng (giá trị trung bình)




 Định nghĩa: Kỳ vọng của biến ngẫu nhiên ξ là một con số được ký hiệu là E ξ

Lu


n

và được xác định như sau:

{

ế




(
ế

( )

)
( )

(1.3)

 Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
là trọng tâm của phân phối xác suất với khối lượng 1. Chính vì vậy mà người ta
dùng kì vọng để xác định vị trí của phân phối.
 Tính chất:

1. E[C] = C (C là hằng số)

4


2. ECX = CEX
3. Nếu X và Y là những biến ngẫu nhiên có kỳ vọng thì tổng hoặc hiệu X ± Y
cũng có kỳ vọng và
E[X ±Y]  E[X] ± E[Y] .
4. Nếu X và Y là hai biến ngẫu nhiên độc lập và có kỳ vọng thì tích XY

c

cũng có kỳ vọng và

( )

nếu P(X=xi) = pi

oa



( )

Kh

( )

nếu X có mật độ p(x)


( ) ( )





5.

họ

E[XY]  E[X] .E[Y]

ạc

b, Median (Trung vị)

th

Median của biến ngẫu nhiên ξ là một số được kí hiệu µξ và được xác định như sau:
P(ξ < µξ) = F(µξ) ≤ 1/2



n

(1.4)

P(ξ ≤ µξ) = F(µξ + 0) ≥ 1/2


n

(1.5)

Lu


Trong đó F là hàm phân phối của ξ. Nếu hàm phân phối F liên tục thì hai hệ thức
trên tương đương với:
F(µξ) = 1/2
Nếu có nhiều nghiệm, chẳng hạn m0 và m1 là nghiệm thì mọi điểm thuộc [m0, m1]
cũng đều là nghiệm.
m0 ≡ m1: có một trung vị
m0 ≠ m1: có nhiều trung vị

5


Như vậy trung vị là điểm phân đôi khối lượng xác suất thành hai thành phần bằng
nhau.
c, Mode
Nếu ξ rời rạc thì Mode là giá trị của ξ mà tại đó xác suất tương ứng lớn nhất.
Nếu ξ liên tục có mật độ p(x) thì Mode là giá trị x0 mà tại đó p(x) đạt cực đại.
Nhận xét:

họ

trưng: Kỳ vọng, Median và Mode trùng nhau.

c


 Nếu phân phối của biến ngẫu nhiên ξ đối xứng và có một Mode thì cả 3 đặc

oa

 Nếu phân phối của ξ đối xứng hoặc gần đối xứng thì dùng kì vọng định vị là

Kh

tốt nhất.

 Nếu phân phối của ξ quá lệch thì dùng trung vị và Mode để định vị sẽ tốt



hơn.

th

ạc

d, Phương sai

n

 Định nghĩa: Phương sai của biến ngẫu nhiên ξ là một số không âm, ký hiệu là



Dξ, được xác định bởi:


Lu


n

D ξ = E(ξ - E ξ)2
= Eξ2 – (Eξ)2

(1.6)

Trong đó theo tính chất e) của kỳ vọng:
E ξ2 = ∑

=∫

nếu P(ξ = xi) = pi

( )

nếu ξ có mật độ p(x)

6

(1.7)


 Ý nghĩa:
Phương sai của biến ngẫu nhiên là 1 số không âm dùng để đo mức độ phân tán
(mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xưng quanh tâm (Eξ) của nó. Dξ

nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. Dξ càng lớn thì độ phân tán càng cao.
 Tính chất:
1. Dc = 0, c = const
2. Dcξ = c2Dξ

họ

c

3. Nếu ξ và ƞ độc lập thì D(ξ ≠ ƞ) = Dξ + Dƞ
e, Trung vị cấp p:

Kh

oa

xp được gọi là phân vị cấp p của phân phối F(x) nếu:
F(xp) ≤ p

ạc



F(xp + 0) ≥ p

th

Nếu hàm phân phối liên tục: F(xp) = p
Trường hợp p = 1/2 ta có trung vị


-

Ta có các tứ phân vị x1/4, x2/4, x3/4



n

-

Lu


n

Khi đó P{ ξ € [x1/4, x3/4]} = 0,5 (nếu ξ liên tục). Khoảng (x1/4, x3/4) được gọi là
khoảng tứ phân vị. Khoảng này cũng được dùng để đặc trưng độ tập trung, phân tán
của biến ngẫu nhiên. [4]
1.1.3. Hàm phân phối
 Định nghĩa
Cho biến ngẫu nhiên ξ, ta xác định hàm phân phối của ξ như sau:
( )

*

+

Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực, x thuộc

7



(-∞, +∞). Tại một điểm x bất kỳ hàm F(x) chính là xác suất để biến ngẫu nhiên
nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x.
Chỉ số của hàm

( ) để chỉ hàm phân phối của biến ngẫu nhiên ξ. Trường hợp

không cần thiết có thể bỏ qua khơng cần viết chỉ số đó.
 Tính chất:
Hàm phân phối của biến ngẫu nhiên có một số tính chất sau:
1. Hàm phân phối xác định với mọi x ϵ (-∞, +∞).

họ

c

2. 0 ≤ F(x) ≤ 1, Ɐx ; F(-∞) = 0, F(+∞) = 1

3. Hàm phân phối là hàm không giảm: nếu x1 < x2 thì F(x1) ≤ F(x2)

oa

4. P{a ≤ ξ < b} = F(b) – F(a)

Kh

 Một số phân phối một chiều quen thuộc và ứng dụng thực tế:




Để mô tả các đại lượng ngẫu nhiên, trong địa vật lý người ta sử dụng các hàm phân

ạc

phối lý thuyết như hàm phân phối chuẩn (phân phối Gauxơ), phân phối chuẩn loga,

th

phân phối Puasson…



n

Phần lớn các đại lượng ngẫu nhiên trong địa vật lý cũng như nhiều hiện tượng địa chất

n

khác chúng tuân theo luật phân phối chuẩn.

Lu


 Phân phối nhị thức:
Xét n phép thử Bernoulli với xác suất thành công P(A) = p. Gọi ξ là số lần xuất
hiện biến cố A trong n phép thử trên. Phân phối của ξ được gọi là phân phối nhị
thức và ký hiệu ξ = B(n,p)
(


)

(

m = 0,1, 2, …, n

)

Dãy phép thử Bernoulli thường gặp nhiều trong thực tế do đó biến ngẫu nhiên
có phân phối nhị thức cũng thường gặp trong các ứng dụng.

8


 Phân phối poisson:
Phân phối này do Simeon Denis Poisson mơ tả vào năm 1837. Phân phối này
đã có nhiều ứng dụng đối với nhiều q trình có liên quan đến số quan sát đối với
một đơn vị thời gian hoặc không gian. Chẳng hạn số cuộc điện thoại nhận được ở
một trạm điện thoại trong một phút, số khách hàng đến nhà bang đối với mỗi một
chu kì 30 phút. Số máy bị hỏng trong ngày…
 Phân phối đều:

c

Hàm mật độ và hàm phân phối đã được đưa ra ở trên. Từ biến ngẫu nhiên phân

họ

phối đều người ta nhận được bảng các số ngẫu nhiên.




(

)

với -∞ < x < +∞

(1.8)



Hàm mật độ chuẩn tổng quát ( )

Kh

oa

 Phân phối chuẩn N(µ, σ2)

ạc

Đường cong mật độ này đối xứng qua đường x = µ, nhận trục Ox làm tiệm cận

th

ngang và có giá trị cực đại tại x = µ với tung độ cực đại là




n

Trường hợp đặc biệt: ξ

Lu


n

( )





N(0,1). Khi đó hàm mật độ được kí hiệu là φ(x):
với -∞ < x < +∞

(1.9)

Là hàm đối xứng qua trục tung , đồ thị có dạng hình chng. Hàm phân phối
N(0, 1) được kí hiệu Ф(x)
( )





dt


(1.10)

Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí trung
tâm trong các kết luận thống kê sau này.

9


Nhiều giá trị trường địa vật lý như mật độ, tốc độ truyền sóng, phóng xạ… tuân
theo luật phân phối chuẩn và dựa trên các thuật toán thống kê theo luật phân phối
chuẩn người ta có thế xử lý số liệu để tìm ra các đặc trưng của đối tượng.
Ngồi luật phân phối chuẩn cịn có các luật phân phối khác đang được áp dụng phổ
biến trong phân tích thống kê các số liệu địa vật lý. Ví dụ như luật phân phối chuẩn
loga được dùng để mô tả các giá trị điện trở xuất, độ từ cảm của đất đá.
 Phân phối mũ

ế
ế

(λ > 0)

Kh

Hàm phân phối có dạng:
ế
ế

(1.12)

ạc




{

( )

(1.11)

oa

{

( )

họ

c

Biến ngẫu nhiên ξ có phân phối mũ nếu hàm mật độ của nó được xác định bởi:

th

 Phân phối Student hay phân phối t



n

Phân phối này do William S. Gosset đưa ra năm 1908. Trong đó t là một biến ngẫu


n

nhiên, t là một thống kê tiêu chuẩn xác định bởi:

Lu


̅

Hàm mật độ của t được ác định bởi:
( )

(


)
( )

(

)

(1.13)

Trong đó:
(

(u) = ∫
(1/2) = √


10

)

( )

( )


Hàm mật độ của phân phối t cũng là hàm đối xứng qua trục tung, dạng đồ thị của
nó cũng là dạng hình chng rất giống hàm mật độ chuẩn φ(x).
Số nguyên n được gọi là số bậc tự do của phân phối t
 Phân phối χ2
Hàm mật độ của phân phối χ2 có dạng :

c

{

(1.14)

họ

( )

( )

Kh


oa

n gọi là bậc tự do của phân phối χ2

Thực chất của phân phối χ2 với n bậc tự do chính là phân phối của biến ngẫu nhiên
trong đó X1, X2, …, Xn độc lập, cùng phân phối N(0, 1).





th

ạc

Phân phối χ2 do Karl Pearson đưa ra vào năm 1900.

n

 Phân phối F



Phân phối F do R. A Fisher đưa ra.

Lu


n


Phân phối F là phân phối của tỷ số hai biến ngẫu nhiên độc lập có phân phối χ2 với
n1 và n2 bậc tự do.

Biến ngẫu nhiên:

(1.15)

11


Hàm mật độ của phân phối F có dạng:

( )

Trong đó (
1.2.

{

(

)

(1.16)
(

(

)


)

) là hằng số thích hợp. [3]

Xử lý tổ hợp số liệu địa vật lý

họ

c

1.2.1. Các bước xử lý tổ hợp số liệu Địa Vật lý
Xử lí tổ hợp số liệu về cơ bản là dựa trên nhiều loại thông tin khác nhau để giải

oa

quyết được các nhiệm vụ đặt ra phù hợp với điều kiện kinh tế và kĩ thuật cho



hợp dữ liệu để nâng cao chất lượng xử lí.

Kh

phép.Khơng chỉ riêng trong địa vật lý mà nhiều lĩnh vực khác cũng sử dụng xử lí tổ

ạc

Xử lý tỏ hợp số liệu Địa vật lý là một quá trình phức tạp phụ thuộc vào mục

th


đích nghiên cứu và dạng các số liệu khác nhau. Một cách khái quát có thể phân chia

n

q trình này theo các bước cơ bản sau:



- Xây dựng mơ hình và xác định phương pháp

Lu


n

- Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.
- Chọn thuật toán xử lý
- Định nghiệm về sự tồn tại của đối tượng cần tìm
- Đánh giá chất lượng xử lý
1.2.1.1.

Xây dựng mơ hình và xác định phương pháp

Để xử lý tổ hợp số liệu Địa vật lý người ta chủ yếu sử dụng các mô hình thống
kê vì các đối tượng khảo sát cần nghiên cứu có vị trí, kích thước, tính chất vật lý không
biết trước nên chúng được xem như các đối tượng ngẫu nhiên. Mặt khác, các trường

12



vật lý do các đối tượng địa chất tạo ra thường bị các loại nhiễu làm méo nên các dấu
hiệu trường Địa vật lý khảo sát cũng mang tính ngẫu nhiên. Với mơ hình để được
nhiệm vụ tiếp theo là lựa chọn các phương pháp nhận dạng tương ứng, tiến hành xử lý
theo mơ hình và giải quyết các nhiệm vụ bài tốn đặt ra.
Hiện nay trong cơng tác xử lý-phân tích số liệu địa vật lý có rất nhiều phương
pháp nhận dạng, có thể chia chúng thành hai nhóm: nhóm các phương pháp nhận dạng
theo đối tượng chuẩn và nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn.

c

Nhóm các phương pháp nhận dạng theo đối tượng chuẩn được áp dụng khi

họ

chúng ta biết được lớp đối tượng và biết được đặc trưng thống kê của các trường địa

oa

vật lý đối với từng lớp đối tượng.

Kh

Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn, nhiệm vụ đặt ra là
cần xây dựng các thuật toán hay đề xuất các chỉ tiêu nhận dạng đảm bảo để phân loại

ạc




các đối số liệu quan sát thành hai lớp hoặc với số lớp nhiều hơn 2 khi có trước các đặc

th

trưng thống kê của mỗi loại dấu hiệu ứng với các đối tượng chuẩn.Vấn đề mang tính
quyết định là lựa chọn đối tượng chuẩn, trên đó tiến hành nghiên cứu các đặc trưng



n

thơng kê của các dấu hiệu (các trường địa vật lý). Điều này đặc biệt quan trọng khi

n

khảo sát các diện tích có cấu trúc địa chất phức tạp, ở đó các trường địa vật lý quan sát

Lu


được biến đổi mạnh ngay cả ở những diện tích nhỏ.
Nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn được áp dụng
khi chúng ta không biết trước các đặc trưng thống kê của các dấu hiệu ứng với các lớp
đối tượng cần tìm. Khi đó q trình nhận dạng đơn thuần chỉ thực hiện nhiệm vụ phân
loại trường (các bài toán phân lớp).
Phương pháp xử lý số liệu bằng thuật tốn nhận dạng khơng có đối tượng chuẩn được
thực hiện như sau: bằng thuật toán phân loại trường lựa chọn được, tiến hành chia các
điểm quan sát thành một số nhất định các diện tích đồng nhất về dấu hiệu tổ hợp. Bản
chất địa chất của từng diện tích phân ra được có thể không xác định được; để xác định


13


chúng địi hỏi phải có các số liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý
của đá.
1.2.1.2.

Ước lượng và đánh giá các đặc trưng của đối tượng mẫu.

a. Ước lượng các đặc trưng thống kê
Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn thì cơng
việc mang tính quyết định là lựa chọn các mẫu chuẩn và xác định các đặc trưng thống
kê các trường địa vật lý của chúng.

c

Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu khoan và

họ

các số liệu địa chất khác đã xác định được bản chất địa chất của các đối tượng gây ra

oa

trường địa vật lý. Tùy thuộc vào các mục đích nghiên cứu khác nhau mà các đối tượng

Kh

chuẩn được lựa chọn khác nhau.




Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn người ta tiến

ạc

hành xác định các đặc trưng thống kê của trường cho từng loại đối tượng. Các đặc

th

trưng này bao gồm:

n

 Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm).



 Kỳ vọng và phương sai của trường (thơng qua đường cong biến phân ).

Lu


n

Ngồi ra khi cần người ta cịn tính cả hệ số tương quan giữa các dấu hiệu,
phương chủ đạo của các dị thường…
Điều đặc biệt cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt thì cần
lựa chọn các đối tượng chuẩn sao cho các diện tích tồn tại đối tượng chuẩn phải nằm
xen kẽ với các phần diện tích khảo sát cần nhận dạng.

Đối với nhóm các phương pháp nhận dạng khơng có đối tượng chuẩn để xác
định các đặc trưng thống kê của trường người ta chia khu vực khảo sát thành các diện
tích cơ sở – cửa sổ. Kích thước của các diện tích cơ sở hay số lượng điểm quan sát trên
mỗi diện tích cơ sở được lựa chọn dựa vào tỉ lệ bản đồ và kích thước dị thường mà các

14


đối tượng trường tạo ra. Diện tích cơ sở có thể nhỏ nhất cần chọn để trong tương lai có
thể đề nghị (hoặc khơng đề nghị) đưa vào thăm dị hoặc khảo sát chi tiết. Diện tích cơ
sở cũng có thể xem như cửa sổ trượt, các đặc trưng thống kê của trường trong cửa sổ
đó được gán cho điểm trung tâm cửa sổ.
b. Đánh giá lượng tin của dấu hiệu
Lượng tin của dấu hiệu là khả năng mà dấu hiệu đó có thể phân biệt được các
đối tượng khác nhau với nhau. Khả năng này phụ thuộc vào việc các đối tượng của

c

cùng một lớp có thường xuyên cho những giá trị cố định của dấu hiệu đó hay khơng và

họ

các giá trị đó có phân bố rộng ra ngồi giới hạn của các đối tượng của lớp đó hay

oa

không.

Kh


Người ta đưa ra các khái niệm lượng tin từng phần, lượng tin tổng (tích phân) và
lượng tin tổng hợp. Lượng tin từng phần là lượng tin của những dải giá trị hay của

ạc



nhóm các giá trị riêng biệt của một dấu hiệu nhất định. Lượng tin tổng là lượng tin

th

chứa toàn bộ các giá trị của một dấu hiệu (một loại trường) nào đó.Lượng tin tổng hợp

n

là lượng tin tính cho những dạng kết hợp khác nhau của nhiều dấu hiệu.



Trong q trình nhận dạng khơng phải mọi dấu hiệu trường đều quan trọng như

n

nhau, thậm chí có những dấu hiệu trường địa vật lý hồn tồn khơng chứa thơng tin về

Lu


đối tượng khảo sát và có thể là những dấu hiệu nhiễu làm mờ nhạt đi các thông tin hữu
ích. Khi đưa các dấu hiệu này vào sử dụng để nhận dạng không làm tăng mà ngược lại

làm giảm chất lượng nhận dạng đối tượng. Chính vì vậy, trong quá trình xử lý cần tiến
hành đánh giá lượng tin của từng dấu hiệu để từ đó chọn ra những dấu hiệu có lượng
tin cao đưa vào xử lý và loại bỏ những dấu hiệu có lượng tin thấp.
1.2.1.3.

Chọn thuật toán xử lý

Các thuật toán được lựa chọn để xử lý sẽ ảnh hưởng tới chất lượng xử lý. Để
chất lượng xử lý cao khi lựa chọn các thuật toán người ta dựa vào các yếu tố sau:

15


a. Nhiệm vụ đặt ra
Nếu nhiệm vụ của khảo sát địa vật lý là tìm kiếm mỏ thì thuật tốn phải có khả
năng nhận dạng hai lớp đối tượng: lớp quặng và lớp khơng quặng. Cịn nếu nhiệm vụ
của khảo sát địa vật lý là phục vụ công tác đo vẽ bản đồ địa chất thì thuật tốn phải
đảm bảo khả năng cùng một lúc nhận dạng được nhiều lớp đối tượng liên quan với
nhiều loại đất đá và các yếu tố kiến tạo khác nhau.
b. Đặc điểm chứa thông tin của số liệu gốc

c

Nếu các số liệu địa vật lý chứa thơng tin ở hai mức: mức “có”- mức dị thường

họ

và mức “khơng”- mức phơng thì người ta sử dụng các thuật toán logic. Trong trường

toán kiểm chứng thống kê.




c. Tính độc lập và khơng độc lập

Kh

oa

hợp các số liệu địa vật lý chứa các thông tin định lượng thì người ta sử dụng các thuật

ạc

Khi các dấu hiệu trường địa vật lý độc lập nhau thì có thể sử dụng các thuật toán

n



sử dụng phức tạp hơn.

th

đơn giản. Còn trong trường hợp các dấu hiệu liên quan với nhau thì các thuật tốn được

n

d. Mức độ đầy đủ của các thông tin tiên nghiệm

Lu



Mức độ đầy đủ của các thơng tin tiên nghiệm chính là mức độ hồn chỉnh của
các mơ hình vật lý địa chất.Trong trường hợp tồn tại các đối tượng chuẩn, nghĩa là khi
biết rõ mơ hình vật lý địa chất của các đối tượng thì để xử lý người ta sử dụng các thuật
tốn nhận dạng có mẫu chuẩn để phân loại trường.
1.2.1.4.

Định nghiệm về sự tồn tại của đối tượng

Đối với các thuật tốn nhận dạng có mẫu chuẩn việc quyết định nghiệm chủ yếu
dựa vào chỉ số tương đồng. Chỉ số này xác định mức độ giống nhau hoặc khác nhau
giữa đối tượng nghiên cứu với đối tượng chuẩn theo lượng thông tin tổng hợp của toàn
bộ các dấu hiệu.

16


Đối với các thuật tốn nhận dạng khơng có mẫu chuẩn thì quá trình nhận dạng
chỉ đơn thuần thực hiện việc phân chia diện tích khảo sát thành các phần đồng nhất
theo tổng hợp các dấu hiệu. Việc phân loại ở đây được tiến hành dựa vào các chỉ tiêu
định nghiệm khác nhau.Chỉ tiêu này phụ thuộc rất nhiều vào số lượng các lớp đối
tượng cần phân chia là bao nhiêu.
1.2.1.5.

Đánh giá chất lượng xử lý

Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được đánh giá

c


dựa vào sai số nhận dạng các đối tượng kiểm chứng. Các đối tượng kiểm chứng là các

họ

đối tượng mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được

oa

chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả nhận

Kh

dạng.

Đối với các thuật tốn nhận dạng khơng đối tượng chuẩn người ta sử dụng xác

ạc



suất nhận dạng sai lầm để đánh giá chất lượng xử lý. Xác suất này được tính dựa vào

th

việc tính tích phân hàm phân bố mật độ xác suất của một hệ số gọi là hệ số tương thích.

n

Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một.




1.2.2. Các thuật toán nhận dạng

n

Hiện nay, trong địa vật lý người ta sử dụng nhiều phương pháp nhận dạng hiện

Lu


đại, được tự động hóa bằng các phần mềm mạnh. Tuy nhiên có thể chia chúng thành 2
nhóm: nhóm có phương pháp nhận dạng theo đối tượng chuẩn (có thơng tin tiên
nghiệm) và nhóm có phương pháp nhận dạng khơng có đối tượng chuẩn (khơng có
thơng tin tiên nghiệm).
1.2.2.1.

Các thuật tốn nhận dạng có mẫu chuẩn

Các thuật tốn nhận dạng có mẫu chuẩn là các thuật tốn tiến hành xác định bản
chất địa chất của các đối tượng dựa vào việc so sánh tập hợp các dấu hiệu địa vật lý đặc

17


×