ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LÊ THANH HOA
THỐNG KÊ BAYES
VÀ ỨNG DỤNG TRONG TÀI CHÍNH
LUẬN ÁN TIẾN SĨ TỐN HỌC
TP. Hồ Chí Minh – Năm 2020
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LÊ THANH HOA
THỐNG KÊ BAYES
VÀ ỨNG DỤNG TRONG TÀI CHÍNH
Ngành:
Tốn Ứng dụng
Mã số ngành: 62460112
Phản biện 1: PGS.TS. Lê Sĩ Đồng
Phản biện 2: PGS.TS. Trần Lộc Hùng
Phản biện 3: TS. Mai Hoàng Bảo Ân
Phản biện độc lập 1: TS. Lê Nhật Tân
Phản biện độc lập 2: TS. Mai Hoàng Bảo Ân
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. Phạm Hoàng Uyên
2. TS. Nguyễn Thanh Bình
TP. Hồ Chí Minh – Năm 2020
Lời cam đoan
Nghiên cứu sinh xin cam đoan luận án tiến sĩ "Thống kê Bayes và ứng dụng trong
tài chính" là cơng trình của riêng tác giả. Các số liệu và tài liệu trong luận án là trung
thực và đã được công bố theo đúng quy định. Tất cả những tham khảo và kế thừa đều
được trích dẫn và tham chiếu đầy đủ.
Nghiên cứu sinh là tác giả chính của các bài báo SCIE [CT1], bài báo tạp chí trong
nước [CT2, CT7, CT8], bài báo tạp chí quốc tế có DOI [CT6]. Nghiên cứu sinh là tác giả
duy nhất của bài báo tạp chí trong nước [CT4]. Nghiên cứu sinh là đồng tác giả trong
các bài báo: bài báo hội thảo trong nước [CT5], bài báo chương của sách của nhà xuất
bản Springer [CT3]. Đồng thời, nghiên cứu sinh cũng là tác giả chính của bài báo đang
nộp SCIE [CT9].
Nghiên cứu sinh
Lê Thanh Hoa
1
Lời cảm ơn
Luận án này đã khơng thể hồn thành nếu thiếu sự hướng dẫn, cổ vũ động viên và hỗ
trợ của nhiều cá nhân và tổ chức.
Trước tiên, nghiên cứu sinh xin bày tỏ sự kính trọng và lịng biết ơn tới cơ TS. Phạm
Hồng Un và thầy TS. Nguyễn Thanh Bình, những thầy cơ đã hướng dẫn, động viên
giúp đỡ nghiên cứu sinh trong quá trình nghiên cứu và viết luận án này. Những nhận xét
và đánh giá của các thầy cô, đặc biệt là những gợi ý về hướng giải quyết vấn đề trong
suốt quá trình nghiên cứu, thực sự là những bài học vô cùng quý giá đối với nghiên cứu
sinh khơng chỉ trong q trình viết luận án mà cả trong hoạt động nghiên cứu chuyên
môn sau này.
Đặc biệt, nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới PGS. TS. Phạm Thế Bảo, thầy
đã động viên, giúp đỡ và hướng dẫn nghiên cứu sinh hoàn thành luận án theo phương
pháp nghiên cứu một cách khoa học, hiệu quả và đúng tiến độ.
Bên cạnh đó, nghiên cứu sinh cũng xin gửi lời cảm ơn chân thành tới Ban chủ nhiệm
Khoa Toán - Tin, các thầy cơ quản lý chun ngành Tốn Ứng dụng, Phịng Sau Đại học,
Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh đã tạo điều kiện
giúp đỡ nghiên cứu sinh trong suốt quá trình học tập tại trường. Qua đây, nghiên cứu
sinh cũng xin gửi lời cảm ơn chân thành tới PGS. TS. Đinh Ngọc Thanh, với các nhận
xét nghiêm khắc của thầy cũng như các lời khuyên hữu ích của thầy về tên luận án.
Tiếp theo, nghiên cứu sinh xin gửi lời cảm ơn tới Khoa Toán Kinh tế, Trường Đại học
Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh trường, nơi nghiên cứu sinh
đang công tác đã hỗ trợ nghiên cứu sinh trong suốt quá trình học tập nghiên cứu.
Cuối cùng, nghiên cứu sinh xin gửi lời cảm ơn tới bố mẹ hai bên, chồng và hai con,
cũng như các thành viên khác trong gia đình, bạn bè, các thành viên IC-IP Lab đã động
viên nghiên cứu sinh về mặt tinh thần vượt qua các khó khăn trong suốt quá trình học
tập nghiên cứu.
2
Mục lục
1 Tổng quan tình hình nghiên cứu thống kê Bayes
1.1 Tầm quan trọng của thống kê Bayes . . . . . . . . . . . . . . . . . . . . .
1.2 Các kết quả liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
10
11
2 Kiến thức chuẩn bị
2.1 Định lý Bayes . . . . . . . . . . . . . . . . . . . . .
2.2 Thống kê Bayes . . . . . . . . . . . . . . . . . . . .
2.2.1 Hàm hợp lý . . . . . . . . . . . . . . . . . .
2.2.2 Thông tin tiên nghiệm . . . . . . . . . . . .
2.2.3 Phân phối xác suất hậu nghiệm . . . . . . .
2.3 Bài toán dự báo trong thống kê Bayes . . . . . . .
2.3.1 Hàm mật độ dự báo hậu nghiệm . . . . . .
2.3.2 Một số hàm dự báo hậu nghiệm thông dụng
liên hợp . . . . . . . . . . . . . . . . . . . .
2.4 Xích Markov Monte Carlo . . . . . . . . . . . . . .
2.4.1 Xích Markov . . . . . . . . . . . . . . . . .
2.4.2 Phân phối dừng . . . . . . . . . . . . . . . .
2.4.3 Phương pháp mẫu quan trọng và ứng dụng .
15
15
15
16
16
17
18
18
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
dựa vào
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
tiên nghiệm
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
3 Thống kê Bayes với dữ liệu chính xác
3.1 Các kiến thức liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Ước lượng điểm cho tham số θ trong thống kê Bayes . . . . . . .
3.1.2 Miền tin cậy và miền mật độ xác suất cao nhất cho tham số θ trong
thống kê Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Giá trị rủi ro . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Dự báo trong thống kê Bayes . . . . . . . . . . . . . . . . . . . .
3.2 Các kết quả chính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Phương pháp tổng quát ước lượng miền 100(1 − α)% HPD thông
qua mô phỏng Monte Carlo . . . . . . . . . . . . . . . . . . . . .
3.2.2 Thuật toán ước lượng miền 100(1 − α)% HPD với hàm mật độ xác
suất hậu nghiệm có dạng nhiều đỉnh . . . . . . . . . . . . . . . .
3.2.3 Thuật tốn tính giá trị V aR trong trường hợp hỗn hợp các phân
phối xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Dự báo điểm giá chứng khoán trong thống kê Bayes . . . . . . . .
3.2.5 Dự báo miền mật độ xác suất cao nhất giá chứng khoán trong thống
kê Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
19
21
21
23
23
26
26
26
27
29
29
29
29
37
47
56
56
4 Thống kê Bayes với dữ liệu mờ
4.1 Các kiến thức liên quan . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Số mờ và hàm thành viên . . . . . . . . . . . . . . . . . . .
4.1.2 Một số phép toán của số mờ . . . . . . . . . . . . . . . . . .
4.1.3 Một số suy luận thống kê với dữ liệu mờ . . . . . . . . . . .
4.1.4 Một số phân phối xác suất mờ thông dụng . . . . . . . . . .
4.2 Các kết quả chính . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Dự báo dựa vào ước lượng điểm Bayes mờ . . . . . . . . . .
4.2.2 Ước lượng hàm mật độ xác suất mờ . . . . . . . . . . . . .
4.2.3 Ví dụ minh họa về ước lượng hàm mật độ xác suất mờ . . .
4.2.4 Hàm giá trị mờ không âm và ứng dụng trong thống kê Bayes
5 Kết luận và hướng phát triển
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
mờ .
63
63
63
63
65
70
72
72
76
79
90
99
4
Danh mục ký hiệu và chữ viết tắt
Ký hiệu
100(1 − α)% HPD
V aRα
p−value
F(R)
FI (R)
Ý nghĩa của ký hiệu
Miền (khoảng) mật độ xác suất cao nhất với xác suất bằng (1 − α)
Giá trị rủi ro Value at Risk tại mức xác suất α
Giá trị xác suất P trong bài toán kiểm định giả thuyết
Tập các số mờ
Tập các khoảng mờ
5
Danh sách bảng
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
Sai số trung bình ME theo cách tiếp cận của Chen và cách tiếp cận của
chúng tôi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sai số trung bình ME theo cách tiếp cận của Chen và cách tiếp cận của
chúng tôi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Thuật toán: Xác định miền 100(1 − α)% HPD [CT1] . . . . . . . . . . .
Miền 95% HPD trong trường hợp một khoảng cho hỗn hợp hai phân phối
đối xứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miền 65% HPD trong trường hợp hai khoảng cho hỗn hợp các phân phối
đối xứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miền 90% HPD trong trường hợp hai khoảng cho hỗn hợp các phân phối
lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miền 20% HPD trong trường hợp một khoảng cho hỗn hợp hai phân phối
lệch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miền 60% HPD trong trường hợp ba khoảng cho hỗn hợp ba phân phối xác
suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Thuật tốn tính tốn V aR trong trường hợp hỗn hợp các phân phối xác
suất bằng mô phỏng Monte Carlo [CT4] . . . . . . . . . . . . . . . . . .
Các kết quả tính tốn V aR0.1 trong trường hợp số lượng mô phỏng số cột
lần lượt là n = 100; 500; 1000; 5000 với hai phân phối đối xứng . . . . .
Các kết quả tính tốn V aR0.1 trong trường hợp số lượng mô phỏng số cột
lần lượt là n = 100; 500; 1000; 5000 với hai phân phối lệch . . . . . . . .
Các kết quả tính tốn V aR0.1 trong trường hợp số lượng mô phỏng số cột
lần lượt là n = 100; 500; 1000; 5000 với ba phân phối đối xứng . . . . . .
Kết quả ước lượng các phân phối chuẩn thành phần . . . . . . . . . . . .
Các kết quả tính tốn V aR0.1 trong trường hợp số lượng mô phỏng số cột
lần lượt là n = 100; 500; 1000; 5000 với dữ liệu thực tế từ thị trường chứng
khoán Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Các kết quả tính tốn V aR0.05 trong trường hợp số lượng mơ phỏng số cột
lần lượt là n = 100; 500; 1000; 5000 với dữ liệu thực tế từ thị trường chứng
khoán Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối chuẩn [CT2]
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối đều [CT2] .
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối Pareto [CT2]
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối Weibull [CT2]
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối loga chuẩn
[CT2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối mũ [CT2] .
Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối gamma [CT2]
6
36
36
38
43
44
44
46
47
48
49
51
51
55
55
55
58
59
59
60
60
61
61
3.23 Tỷ lệ dự báo đúng với giả định tổng thể tuân theo phân phối gamma ngược
[CT2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Mức chuyển đổi giữa mức phân vị của đường cong Gauss (phân phối chuẩn
tắc với µ0 = 0 và σ0 =1) và δ− cut . . . . . . . . . . . . . . . . . . . . .
Kết quả dự báo đúng với khoảng biến động 5% . . . . . . . . . . . . . . .
Kết quả dự báo đúng với khoảng biến động 4% . . . . . . . . . . . . . . .
Tỷ lệ dự báo đúng với khoảng ước lượng thu hẹp . . . . . . . . . . . . . .
Thuật toán tạo bộ dữ liệu mờ [CT9]: . . . . . . . . . . . . . . . . . . . .
Xác suất cận dưới và xác suất cận trên của hàm mật độ xác suất mờ với
phân phối thực là phân phối chuẩn tắc . . . . . . . . . . . . . . . . . . .
Xác suất cận trên và xác suất cận dưới của hàm mật độ xác suất mờ với
phân phối thực là phân phối gamma G(2, 10) . . . . . . . . . . . . . . .
Xác suất cận trên và xác suất cận dưới của hàm mật độ xác suất mờ với
phân phối thực là hỗn hợp của phân phối chuẩn tắc N (0, 1) và phân phối
gamma G(2, 10) với tỷ lệ tương ứng là 0.3 và 0.7 . . . . . . . . . . . . .
Xác suất cận dưới và xác suất cận trên của hàm mật độ xác suất mờ cho
phân phối thực nghiệm giá chứng khoán thực SAM . . . . . . . . . . . .
7
62
73
74
75
75
80
82
84
86
89
Danh sách hình vẽ
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
So sánh độ dài của các khoảng ước lượng trong trường hợp p1 < p˜ . . . .
So sánh độ dài của các khoảng ước lượng trong trường hợp p2 > p˜ . . . .
Biến động của sai số trung bình khi ước lượng 100(1 − α)%, (α = 0.05)
HPD của phân phối chuẩn tắc với số lượng mô phỏng lần lượt là n = 500,
1000 và 5000, trong đó sai số khi chọn j ∗ theo cách tiếp cận của Chen, j ∗∗
theo cách tiếp cận của chúng tôi . . . . . . . . . . . . . . . . . . . . . .
Biến động của sai số trung bình khi ước lượng 100(1 − α)%, (α = 0.05)
HPD của phân phối Weibull W(10, 20) với số lượng mô phỏng lần lượt là
n = 500, 1000, 5000, trong đó sai số khi chọn j ∗ theo cách tiếp cận của
Chen, j ∗∗ theo cách tiếp cận của chúng tôi . . . . . . . . . . . . . . . . .
Hàm mật độ xác suất hậu nghiệm của θ tăng, tức là D(jL) nhận giá trị từ
âm sang dương, θ(jL) , b là miền 100(1 − α)% HPD . . . . . . . . . . .
Hàm mật độ xác suất hậu nghiệm của θ giảm, tức là D(jU ) nhận giá trị từ
dương sang âm, a, θ(jU ) là miền 100(1 − α)% HPD . . . . . . . . . . .
Miền HPD là θ(jL) , θ(jU ) trong trường hợp một khoảng, điều đó có nghĩa
là D(j) nhận giá trị từ âm sang dương và ngược lại từ dương sang âm . .
Miền 100(1−α)% HPD có dạng θ(jL1) , θ(jU 1) ∪ θ(jL2) , θ(jU 2) trong trường
hợp hai khoảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Miền 100(1 − α)% HPD là θ(jL1) , θ(jU 1) ∪ θ(jL2) , θ(jU 2) ∪ θ(jL3) , θ(jU 3)
trường hợp có dạng ba khoảng . . . . . . . . . . . . . . . . . . . . . . . .
Độ chênh lệch các giá trị D(i) của miền 95% HPD trong trường hợp một
khoảng cho hỗn hợp hai phân phối đối xứng . . . . . . . . . . . . . . . .
Độ chênh lệch các giá trị D(i) của miền 65% HPD trong trường hợp hai
khoảng cho hỗn hợp các phân phối xác suất có hình dạng đối xứng . . .
Độ chênh lệch các giá trị D(i) của miền 90% HPD trong trường hợp hai
khoảng cho hỗn hợp các phân phối lệch . . . . . . . . . . . . . . . . . . .
Độ chênh lệch các giá trị D(i) của miền 20% HPD trong trường hợp một
khoảng cho hỗn hợp hai phân phối lệch . . . . . . . . . . . . . . . . . . .
Độ chênh lệch các giá trị D(i) của miền 60% HPD trong trường hợp ba
khoảng cho hỗn hợp ba phân phối xác suất . . . . . . . . . . . . . . . . .
Hình dạng của phân phối xác suất hỗn hợp 0.1 × N (4; 0.22 ) + 0.9 × N (2; 0.32 )
Hình dạng của phân phối xác suất hỗn hợp 0.7 × W (20; 10) + 0.3 × W (5; 25)
Hình dạng của phân phối xác suất hỗn hợp 0.4 × N (0; 0.752 ) + 0.3 ×
N (2; 0.552 ) + 0.3 × N (6; 0.72 ) . . . . . . . . . . . . . . . . . . . . . . . .
Giá đóng cửa của mã chứng khốn VNM giai đoạn 2013–2017 . . . . . .
Biểu đồ giá đóng cửa mã chứng khốn VNM giai đoạn 2013–2017 . . . .
Giá trị AIC khi xấp xỉ giá đóng cửa chứng khốn VNM giai đoạn 2013–2017
theo hỗn hợp k phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . . .
8
32
33
36
37
39
39
40
40
41
42
43
45
45
46
49
50
52
53
53
54
3.21 Tỷ lệ dự báo đúng xu thế của các mã chứng khoán Việt Nam từ thời điểm
bắt đầu lên sàn đến 16/11/2015 . . . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
Ước lượng hàm mật độ xác suất mờ cho phân phối chuẩn tắc với số lượng
khoảng chia k = 20, hàm ước lượng g và hàm đúng f . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối chuẩn tắc với số lượng
khoảng chia k = 50, hàm ước lượng g và hàm đúng f . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối chuẩn tắc với số lượng
khoảng chia k = 100, hàm ước lượng g và hàm đúng f . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối chuẩn tắc với số lượng
khoảng chia k = 500, hàm ước lượng g và hàm đúng f . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối gamma G(2, 10) với số
lượng khoảng chia k = 20, hàm ước lượng g và hàm đúng f . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối gamma G(2, 10) với số
lượng khoảng chia k = 50, hàm ước lượng g và hàm đúng f . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối gamma G(2, 10) với số
lượng khoảng chia k = 100, hàm ước lượng g và hàm đúng f . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho phân phối gamma G(2, 10) với số
lượng khoảng chia k = 500, hàm ước lượng g và hàm đúng f . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho hỗn hợp các phân phối chuẩn tắc
và phân phối gamma với số lượng khoảng chia k = 20, hàm ước lượng g và
hàm đúng f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho hỗn hợp các phân phối chuẩn tắc
và phân phối gamma với số lượng khoảng chia k = 50, hàm ước lượng g và
hàm đúng f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho hỗn hợp các phân phối chuẩn tắc
và phân phối gamma với số lượng khoảng chia k = 100, hàm ước lượng g
và hàm đúng f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho hỗn hợp các phân phối chuẩn tắc
và phân phối gamma với số lượng khoảng chia k = 500, hàm ước lượng g
và hàm đúng f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ trong trường hợp phân phối gamma
G(2, 10) trong trường hợp cận trên và cận dưới của các quan sát trùng nhau
Giá chứng khoán của tất cả các phiên giao dịch của mã SAM . . . . . .
Ước lượng hàm mật độ xác suất mờ cho dữ liệu thực nghiệm mã chứng
khoán SAM với số lượng khoảng chia k = 20 . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho dữ liệu thực nghiệm mã chứng
khoán SAM với số lượng khoảng chia k = 50 . . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho dữ liệu thực nghiệm mã chứng
khoán SAM với số lượng khoảng chia k = 100 . . . . . . . . . . . . . . .
Ước lượng hàm mật độ xác suất mờ cho dữ liệu thực nghiệm mã chứng
khoán SAM với số lượng khoảng chia k = 200 . . . . . . . . . . . . . . .
9
57
82
83
84
85
85
86
87
88
89
90
91
92
92
93
93
94
94
95
Chương 1
Tổng quan tình hình nghiên cứu
thống kê Bayes
1.1
Tầm quan trọng của thống kê Bayes
Thống kê là một lĩnh vực vô cùng quan trọng trong khoa học cũng như thực tiễn. Ngày
nay, trong thời đại công nghệ thông tin, dữ liệu trong các nghiên cứu rất đa dạng, với số
lượng lớn và liên tục cập nhật. Do đó, trong phân tích thống kê địi hỏi các cơng cụ ngày
càng nhanh và hiệu quả nhằm xử lý những bài toán được ứng dụng trong nhiều lĩnh vực
như kinh tế, tài chính, sinh học, y học...
Phương pháp phân tích thống kê cổ điển, hay còn gọi là cách tiếp cận theo phương
pháp thống kê tần suất, trong đó các tham số hay các đặc trưng số của tổng thể, được
xem xét như là các hằng số cố định, nhưng không biết. Tuy nhiên, khi dữ liệu được cập
nhật theo thời gian, trong đa số các trường hợp, các tham số đặc trưng cho tổng thể sẽ
khơng cịn là hằng số mà sẽ thay đổi. Tức là, chúng ta cần xem xét một cách biểu diễn
khác các tham số của tổng thể sao cho phù hợp hơn với thực tiễn, sao cho các tham số
tổng thể được xem xét như một biến ngẫu nhiên, đây là cách tiếp cận của thống kê Bayes
[9].
Trong thống kê Bayes, ngồi sử dụng các thơng tin về dữ liệu (giống như thống kê
tần suất) còn sử dụng thêm thông tin tiên nghiệm. Các thông tin tiên nghiệm được xác
định dựa vào kinh nghiệm, các nghiên cứu trước đó hay các tin tưởng... Các tính tốn
về phân phối hậu nghiệm trong thống kê Bayes dựa trên thông tin tiên nghiệm kết hợp
thông tin từ dữ liệu thông qua định lý Bayes [9]. Từ đây, các suy luận trong thống kê
Bayes là dựa vào phân phối hậu nghiệm.
Một số bài toán suy luận trong thống kê Bayes được quan tâm nhiều như bài toán ước
lượng tham số, ước lượng miền tin cậy (credible interval hay credible region) của các tham
số, bài toán dự báo cho các quan sát tiếp theo [19]... Đặc biệt, vấn đề ứng dụng trong
thực tiễn của thống kê Bayes cũng nhận được nhiều sự quan tâm, như là các bài toán liên
quan nhiều đến phân tích dữ liệu tài chính trong đánh giá rủi ro, dự báo giá chứng khoán...
Mặt khác, chúng ta cũng nhận thấy trong các bài toán trên, dữ liệu thường được sử
dụng các số chính xác (the precise numbers), tức là mỗi quan sát dưới dạng một số hoặc
một vectơ. Tuy nhiên, dữ liệu thu thập được không phải lúc nào cũng là các dữ liệu chính
10
xác, do các sai sót của con người cũng như máy móc hay một số tình huống khơng mong
muốn [62, 63, 64, 65]... Trong các trường hợp dữ liệu không phải là số chính xác, dữ
liệu sẽ phù hợp hơn trong các nghiên cứu nếu được trình bày dưới dạng số khơng chính
xác (the imprecise numbers, the non-precise numbers) hay số mờ (the fuzzy numbers) [61].
Khi nghiên cứu với thống kê Bayes với dữ liệu mờ hay gọi tắt là thống kê Bayes mờ,
chúng ta cũng cần có các điều chỉnh cho phù hợp. Cụ thể, trong thống kê Bayes mờ, vấn
đề cần nghiên cứu đầu tiên là hàm mật độ xác suất mờ và ước lượng hàm mật độ xác
suất mờ đó. Như chúng ta đã biết, vấn đề hàm mật độ xác suất cũng khá phức tạp ngay
cả với trường hợp dữ liệu chính xác. Do đó, hàm mật độ xác suất mờ cịn khó khăn hơn
gấp nhiều lần. Đây chính là lý do chính mà chúng ta thấy các nghiên cứu về hàm mật
độ xác suất mờ vẫn còn hạn chế và cần được nghiên cứu thêm. Điều này giải thích vì sao
việc một số tác giả thường giả định dữ liệu mờ tuân theo một hàm mật độ xác suất mờ
nào đó, và các tác giả khơng giải thích rõ tại sao họ lại lựa chọn phân phối xác suất này
mà không phải phân phối xác suất khác. Một số ứng dụng của thống kê Bayes mờ thơng
qua các bài tốn như bài tốn dự báo điểm Bayes mờ, bài toán xác định hàm dự báo hậu
nghiệm mờ cho quan sát tiếp theo.
Như vậy, chúng ta có thể thấy thống kê Bayes sử dụng đa dạng nguồn thông tin, bao
gồm thông tin từ dữ liệu, thông tin từ các nghiên cứu trước đó, đồng thời tạo ra độ mở
cho các tham số khơng bị bó buộc dưới dạng một hằng số mà dưới dạng một biến ngẫu
nhiên. Chính vì vậy, thống kê Bayes cập nhật kịp các sự biến đổi của đối tượng nghiên
cứu, do đó thống kê Bayes được kỳ vọng sẽ dự báo chính xác hơn các quan sát tiếp theo
so với thống kê tần suất.
1.2
Các kết quả liên quan
Thống kê Bayes nghiên cứu các bài tốn về tham số, do đó, bài tốn đầu tiên chính là
bài tốn ước lượng khoảng (hay miền) của tham số θ với xác suất 100(1 − α)%. Bài tốn
ước lượng tham số có thể là khoảng ước lượng trung tâm, khoảng ước lượng mật độ xác
suất cao nhất HPD (the highest probability density interval) hay miền mật độ xác suất
cao nhất HPD (the highest probability density region) [19]. Khoảng ước lượng trung tâm
của các tham số θ là khoảng các giá trị giữa hai giá trị của tham số θ giữa hai mức phân
vị α2 và 1 − α2 . Còn khoảng HPD (hay miền HPD) của các tham số θ là khoảng (hay miền)
các giá trị có xác suất bằng (1 − α) với khoảng cách ngắn nhất.
Trong hai cách ước lượng tham số nói trên, đối với thống kê Bayes, người ta quan tâm
nhiều hơn đến khoảng HPD (hay miền HPD). Bởi vì, dựa vào khoảng HPD (hay miền
HPD), chúng ta sẽ suy luận ra các bài tốn như bài tốn tìm miền có tổng khoảng cách
của các khoảng thành phần có khoảng cách ngắn nhất, bài tốn miền dự báo có khoảng
cách ngắn nhất... Đây chính là lý do mà bài tốn tìm miền HPD được khá nhiều các
nhà khoa học quan tâm. Có nhiều nghiên cứu về cách tìm miền HPD như theo cách ước
lượng trực tiếp [55], hoặc theo cách gián tiếp dựa vào mô phỏng Monte Carlo [11, 12, 27]...
Đối với cách ước lượng trực tiếp theo [55], miền ước lượng HPD chính xác được xác
định bằng cách dựa vào hàm mật độ xác suất, trong đó các biên là nghiệm của bài toán
π(θ|D) = πα . Tuy nhiên, việc giải bài tốn này nhằm tính tốn giá trị θ tốn rất nhiều
11
thời gian và công sức.
Đối với cách ước lượng gián tiếp thông qua mô phỏng Monte Carlo [11, 12, 27], tức là
các tác giả đã ước lượng miền HPD dựa vào các giá trị của trục hoành. Tuy nhiên, trong
[11, 12, 27], các tác giả chỉ dựa theo định nghĩa của miền HPD, tất nhiên chúng ta cần
quan tâm đến phương sai của các giá trị được mô phỏng Monte Carlo từ phân phối hậu
nghiệm thông qua cỡ mẫu tương ứng [38]. Do đó, phương pháp này chỉ hiệu quả trong
trường hợp miền HPD có dạng một khoảng, cịn trong các trường hợp nhiều khoảng thì
vẫn chưa giải quyết được, mới dừng lại ở đề nghị cách giải quyết. Nguyên nhân của tình
trạng trên là do các tác giả chỉ mới sử dụng một phần thơng tin của bài tốn, chưa sử
dụng thông tin về các hàm mật độ xác suất cũng như hàm phân phối xác suất. Do đó,
chúng tôi đề nghị cách ước lượng miền HPD trong trường hợp miền HPD có dạng nhiều
khoảng [CT1, CT2].
Như vậy, bài toán ước lượng miền HPD sẽ giải quyết được trọn vẹn trong trường hợp
biết trước hàm mật độ xác suất. Tuy nhiên, đối với dữ liệu thực, chúng ta không biết
trước hàm mật độ xác suất của dữ liệu. Do đó, chúng ta đã có một số phương pháp ước
lượng và lựa chọn hàm mật độ xác suất phù hợp nhất với bộ dữ liệu thực tế như phương
pháp ước lượng hợp lý cực đại (the maximum likelihood estimation MLE), sử dụng chỉ
số AIC (Akaike information criterion) cực tiểu hay chỉ số BIC (Bayesian information
criterion) cực tiểu, các bài toán kiểm định giả thuyết (the goodness of fit) [CT3], độ tương
đồng Kullback - Leibler phân kỳ DKL hay còn gọi là relative entropy [14]...
Một số vấn đề khó khăn đặt ra là khi sử dụng các phương pháp trên là nếu sử dụng
các giá trị của MLE, AIC và BIC được tính tốn dựa vào giá trị log-likelihood sẽ cần rất
nhiều phép tính khi dữ liệu có dạng hỗn hợp các phân phối xác suất (the mixture of some
distributions) hoặc/và dữ liệu lớn. Cịn nếu sử dụng các bài tốn kiểm định giả thuyết
thì lại gặp khó khăn vì các quyết định của bài tốn kiểm định giả thuyết thơng qua giá
trị p−value, trong thời điểm hiện nay, các bài tốn kiểm định được quyết định dựa vào
p−value đang có rất nhiều tranh cãi [22]. Còn nếu sử dụng độ tương đồng DKL cần biết
trước phân phối xác suất của hai phân phối muốn đo sự tương đồng. Điều này là không
thể khi chúng ta ứng dụng vào nghiên cứu dữ liệu, vì trong hầu hết các trường hợp, chúng
ta không biết phân phối xác suất đúng của dữ liệu, cho dù một số nhà nghiên cứu cũng đã
cố gắng đo sự tương đồng giữa một phân phối không biết với một lớp các phân phối xác
suất Boltzmann [35] hay ước lượng hàm mật độ xác suất từ số liệu rời rạc [1]. Với phân
phối Boltzmann là các hàm mô tả mối quan hệ giữa năng lượng và nhiệt độ, vì vậy, phân
phối Boltzmann trong [35] khơng biểu diễn hết sự phức tạp của các phân phối xác suất
thực, đặc biệt là dữ liệu tài chính. Cịn với phương pháp ước lượng hàm mật độ xác suất
từ dữ liệu rời rạc trong [1] cũng sẽ gặp nhiều khó khăn với dữ liệu lớn như dữ liệu tài chính.
Thật sự, phân phối xác suất của dữ liệu cần được nghiên cứu kỹ, hy vọng có thể đưa
ra các quyết định đúng nhằm đạt được kết quả tối ưu, nhất là các bài toán trong thống
kê và kinh tế lượng [56], các bài tốn tài chính [2].
Bên cạnh đó, một số ứng dụng của thống kê Bayes trong phân tích tài chính được
quan tâm như bài tốn đo lường rủi ro thơng qua thuật tốn tính giá trị V aR (Value at
Risk) [30, 46] trong trường hợp phân phối xác suất là dạng hỗn hợp các phân phối xác
suất [CT4].
12
Một bài toán ứng dụng quan trọng nữa trong thống kê Bayes là bài toán dự báo
[7, 19, 47]. Bài tốn dự báo nói chung và dự báo giá chứng khốn nói riêng là một vấn đề
được nhiều nhà đầu tư cũng như nhà nghiên cứu quan tâm, thông qua dự báo xu hướng
[CT5] và dự báo khoảng [CT2].
Thống kê Bayes với dữ liệu mờ [53] cũng như dữ liệu có nhiễu [CT6] đang là xu hướng
của thời đại, trong cả lý thuyết và trong thực hành, đặc biệt với dữ liệu tài chính nhằm
mơ tả sự khơng chắc chắn [17].
Đối với dữ liệu thực bao gồm các số mờ, phân phối xác suất mờ đúng thường không
biết và việc ước lượng phân phối xác suất mờ là không dễ dàng. Vì vậy, các tác giả thường
làm cho đơn giản bằng cách giả định dữ liệu mờ tuân theo một phân phối xác suất mờ
nào đó thơng qua phương pháp tham số (the parameter method) hoặc phương pháp phi
tham số (the non-parameter method). Phương pháp phi tham số dựa vào phân phối thực
nghiệm mờ thông qua với hàm Reliability [48]. Phương pháp tham số khi giả định dữ
liệu tương ứng các phân phối có dạng tham số đơn (the single parameter) như phân phối
Rayleigh (the Rayleigh distribution) [36], phân phối mũ (the exponential distribution)
[62, 64], phân phối nhị thức (the binomial distribution) và phân phối Pascal (Pascal distribution) [63]... hoặc nhiều tham số (the multi-parameter distribution) như phân phối
chuẩn (the normal distribution) và phân phối Weibull (the Weibull distribution) [26]...
Trong các trường hợp này, dữ liệu mờ (fuzzy data) x∗1 , x∗2 , ..., x∗n được giả định bao gồm
các quan sát mờ độc lập và cùng tuân theo một phân phối xác suất mờ [54, 65].
Tuy nhiên, các tác giả vẫn chưa đánh giá tính phù hợp của phân phối xác suất
mờ giả định với bộ dữ liệu mờ. Do đó, nếu giải quyết được ước lượng hàm mật độ
xác suất mờ, thì các ứng dụng trong thống kê Bayes mờ sẽ hiệu quả hơn trong thực
tiễn. Thật vậy, nếu sử dụng ước lượng điểm Bayes mờ của phân phối hậu nghiệm mờ
[π δ (µ|x1 , x2 , ..., xn ), π δ (µ|x1 , x2 , ..., xn )] cho dự báo quan sát tiếp theo, với bộ giá chứng
khoán trong các bài báo [CT7, CT8] cho kết quả dự báo đúng khá cao. Điều này khá
hợp lý, vì thống kê Bayes mờ là một phương pháp mới trong dự báo bằng cách sử dụng
thêm thông tin, không chỉ thơng tin về giá đóng cửa (Close) mà cịn thêm các thông tin
về giá thấp nhất (Low), giá cao nhất (High). Do đó, khi sử dụng thêm nhiều thơng tin
thì kết quả càng gần hơn với thực tiễn, đây chính là hiệu quả của ước lượng điểm Bayes mờ.
Trong trường hợp muốn đánh giá tính phù hợp của phân phối xác suất mờ với dữ liệu
mờ, chúng ta cần phải ước lượng hàm mật độ xác suất mờ phù hợp nhất với dữ liệu mờ.
Khi đó, chúng ta cần chỉ ra tồn tại ít nhất một hàm mật độ xác suất (cổ điển) thỏa mãn
định nghĩa hàm mật độ xác suất mờ [61]. Tức là, chúng ta cần xác định tồn tại ít nhất
một hàm mật độ xác suất (cổ điển) f (x) hoặc một hỗn hợp các hàm mật độ xác suất (cổ
điển) f (x) = i pi fi (x), trong đó pi > 0, i pi = 1 và fi (x) là các hàm mật độ xác suất
cổ điển, sao cho với mỗi x ∈ X ⊆ R thì f (x) ∈ [f 1 (x), f 1 (x)], với f 1 (x), f 1 (x) là các hàm
δ = 1−level.
Thật ra, bài tốn tìm hàm mật độ xác suất mờ cũng đã được nghiên cứu nhiều, đặc
biệt ứng dụng trong thống kê Bayes mờ [60], thông qua ba cách tiếp cận chính:
Cách tiếp cận thứ nhất, các tác giả chỉ dừng lại ở định nghĩa hàm mật độ xác suất
13
mờ [57, 58, 61], các tác giả đã không chỉ ra cách xác định hàm mật độ xác suất cổ điển
thỏa mãn định nghĩa hàm mật độ xác suất mờ.
Cách tiếp cận thứ hai, các tác giả cũng không chỉ rõ hàm mật độ xác suất (cổ điển)
thỏa mãn định nghĩa của hàm mật độ xác suất mờ. Các tác giả chỉ giả định dữ liệu mờ
tuân theo một phân phối xác suất nào đó, sau đó, các tác giả chỉ quan tâm đến ước lượng
điểm Bayes mờ [20, 57, 59, 60, 62, 63, 64]. Tức là, trong các nghiên cứu này, các tác giả
chỉ quan tâm đến các hàm δ− level của hàm hợp lý mờ, hàm tiên nghiệm mờ và hàm
hậu nghiệm mờ. Bởi vậy, chúng ta không chắc chắn phân phối xác suất đã được giả sử
đó có đúng là phân phối xác suất của bộ dữ liệu mờ hay khơng. Và điều đó dẫn tới các
suy luận tiếp theo về tham số trong phân phối hậu nghiệm mờ khơng cịn nhiều ý nghĩa.
Cách tiếp cận thứ ba trong nghiên cứu mới nhất năm 2012, các tác giả trong [5] đã ước
lượng các hàm δ−level của hàm mật độ xác suất mờ thông qua ba phương pháp là đồ thị,
phân phối thực nghiệm và hạt nhân (the histogram, empirical cdf, and kernel method).
Tuy nhiên, các tác giả chỉ dừng lại ở ước lượng các hàm δ−level của hàm hợp lý mờ, hàm
tiên nghiệm mờ và hàm hậu nghiệm mờ. Trong khi đó, chúng ta cần chỉ ra tồn tại ít nhất
một hàm mật độ xác suất (cổ điển) thuộc miền giữa các hàm δ−level. Việc chỉ ra hàm
mật độ xác suất cổ điển là cần thiết bởi đây là cơ sở cho các suy luận về thống kê Bayes mờ.
Qua các phân tích với ba cách tiếp cận trong tính tốn hàm mật độ xác suất mờ,
chúng ta nhận thấy rằng bài tốn tìm hàm mật độ xác suất mờ chưa được giải quyết
một cách triệt để. Vì vậy, chúng ta cần phải tìm cách ước lượng hàm mật độ xác suất
mờ, không chỉ chỉ ra các hàm δ−level mà còn cần phải chỉ ra hàm mật độ xác suất (cổ
điển) thuộc miền giữa hai δ−level. Do đó, chúng tơi đề nghị một phương pháp mới trong
ước lượng hàm mật độ xác suất mờ [CT9], phương pháp mới này là kết quả mở rộng của
[5, 61] về hàm mật độ xác suất mờ.
Trong luận án này, chúng tơi sẽ tập trung vào giải quyết các bài tốn trong thống kê
Bayes như sau:
• Phương pháp mới trong ước lượng miền HPD trong trường hợp miền HPD có dạng
nhiều khoảng [CT1, CT2].
• Bài tốn ứng dụng thống kê Bayes trong phân tích tài chính: thuật tốn mới trong
tính giá trị V aR trong trường hợp hỗn hợp các phân phối xác suất [CT4]; bài toán
dự báo giá chứng khoán ở phiên giao dịch kế tiếp theo phương pháp thống kê Bayes
với dữ liệu chính xác thơng qua dự báo xu hướng [CT5] và dự báo khoảng [CT2].
• Bài tốn dự báo trong thống kê Bayes mờ, ứng dụng trong dự báo khoảng giá chứng
khoán của phiên giao dịch kế tiếp. Đây là kết quả minh chứng tính hiệu quả của
ước lượng điểm Bayes mờ [CT7, CT8].
• Phương pháp mới ước lượng hàm mật độ xác suất mờ [CT9]. Từ đó ứng dụng trong
ước lượng hàm mật độ xác suất mờ dạng lý thuyết trong thống kê Bayes mờ thông
qua xác định hàm hợp lý mờ, hàm mật độ xác suất tiên nghiệm mờ, hàm mật độ
xác suất hậu nghiệm mờ và hàm mật độ xác suất dự báo hậu nghiệm mờ.
14
Chương 2
Kiến thức chuẩn bị
2.1
Định lý Bayes
Định lý 2.1.1. [51] Giả sử n biến cố B1 , B2 , ..., Bn thỏa mãn các điều kiện:
• ∪ni=1 Bi = Ω, trong đó Ω là khơng gian mẫu.
• Các biến cố Bi và Bj đôi một xung khắc với nhau, ∀i = 1, n, j = 1, n, i = j, tức là
Bi ∩ Bj = ∅.
Khi đó, xác suất có điều kiện của biến cố Bj với điều kiện biến cố A đã xảy ra, được
xác định theo công thức (2.1):
P (Bj |A) =
P (A|Bj ) × P (Bj )
n
.
(2.1)
P (A|Bi ) × P (Bi )
i=1
Ý nghĩa của định lý 2.1.1, theo [51], xác suất của một biến cố xảy ra với điều kiện
biến cố khác đã xảy ra, tức là phụ thuộc vào tình huống đã xảy ra trước đó. Do đó, định
lý Bayes cịn được gọi là định lý về xác suất của các nguyên nhân.
Khi định lý Bayes được diễn đạt theo ngôn ngữ của thống kê Bayes với biến cố
Bj , ∀j = 1, n được xem xét như biến cố khơng quan sát được, cịn biến cố A được xem
như biến cố quan sát được [9]. Tức là, ta có thể coi A là dữ liệu, các Bi , i = 1, n là các
tham số.
Khi đó, xác suất của biến cố (A|Bj ) chính là xác suất xảy ra dữ liệu với điều kiện đã
biết trước tham số Bj , còn xác suất của biến cố Bj , ∀j = 1, n chính là xác suất của tham
số tổng thể. Do đó, dựa vào các xác suất của biến cố (A|Bj ), chúng ta tính được hàm
hợp lý. Tương tự, dựa vào xác suất các biến cố Bj , ∀j = 1, n, trước khi chúng ta quan
sát được dữ liệu, chúng ta tính được thông tin tiên nghiệm.
2.2
Thống kê Bayes
Giả sử mẫu ngẫu nhiên {x1 , x2 , · · · , xn } bao gồm các quan sát xi , i = 1, n độc lập và cùng
tuân theo một phân phối xác suất với hàm mật độ xác suất tương ứng là f (x|θ), trong
15
đó tham số θ đã biết, tham số θ có thể được biểu diễn dưới dạng một điểm θ hoặc một
vector θ = (θ1 , θ2 , · · · , θk ).
Giả sử hàm mật độ xác suất tiên nghiệm cho tham số θ được ký hiệu là π(θ).
Định nghĩa 2.2.1. [19] Một mơ hình thống kê Bayes được tạo bởi một mơ hình thống
kê tham số f (x|θ) và một phân phối tiên nghiệm của tham số π(θ).
2.2.1
Hàm hợp lý
Hàm hợp lý của bộ dữ liệu, được ký hiệu là l(x1 , x2 , ..., xn |θ) xác định theo công thức
(2.2) [41, 43]:
n
l(x1 , x2 , ..., xn |θ) =
f (xi |θ).
(2.2)
i=1
2.2.2
Thông tin tiên nghiệm
Hàm tiên nghiệm là các tin tưởng về tham số θ của tổng thể trước khi quan sát dữ liệu
(có dữ liệu) hoặc dữ liệu không khả dụng (như dữ liệu tốn quá nhiều tiền để thu thập,
dữ liệu quá khó thu thập, cần quá nhiều thời gian để thu thập dữ liệu...) [41].
Trong thực tiễn, việc sử dụng thông tin tiên nghiệm là một vấn đề quan trọng và cần
được quan tâm đúng mực. Vai trị của thơng tin tiên nghiệm được đánh giá trong hai
trường hợp: dữ liệu lớn và dữ liệu nhỏ.
Trong trường hợp dữ liệu lớn, hàm hợp lý được xác định theo công thức (2.2), do n
quá lớn, nên chúng ta có thể suy ra được rằng hàm hợp lý l(x1 , x2 , · · · , xn |θ) sẽ có giá trị
quá lớn so với hàm tiên nghiệm. Vì vậy, hàm mật độ xác suất tiên nghiệm trong trường
hợp dữ liệu lớn sẽ tác động rất ít đến hàm mật độ xác suất hậu nghiệm. Hay nói cách
khác, trong trường hợp dữ liệu lớn, dữ liệu tự bản thân nó sẽ nói lên tất cả [41].
Trong trường hợp dữ liệu nhỏ, khi đó thơng tin tiên nghiệm là một trong các thành
phần quan trọng trong xác định hàm mật độ xác suất hậu nghiệm. Do đó, trong trường
hợp dữ liệu nhỏ, thông tin tiên nghiệm cần được quan tâm sâu sắc, bởi vì hàm mật độ
xác suất tiên nghiệm của tham số θ là một phần quan trọng trong cơng thức Bayes nhằm
tính tốn hàm mật độ hậu nghiệm.
Chúng ta đã có một số cách lựa chọn phân phối tiên nghiệm cho tham số θ như tiên
nghiệm phi thông tin, tiên nghiệm entropy cực đại hay tiên nghiệm liên hợp [32].
Tiên nghiệm phi thông tin (the non-informative prior)
Tiên nghiệm phi thông tin được sử dụng khi chúng ta khơng có bất cứ thơng tin gì về
tham số θ trước khi có dữ liệu. Tức là, hàm tiên nghiệm phi thông tin cho tham số θ coi
như tuân theo phân phối đều, được biểu diễn theo công thức (2.3) [32]:
π(θ) ∝ const, a < θ < b,
16
(2.3)
trong đó a, b là các hằng số.
Khi đó, chúng ta nhận thấy hàm mật độ xác suất hậu nghiệm chỉ dựa vào hàm hợp
lý, hay nói cách khác, thơng tin tiên nghiệm cũng không thay đổi được thông tin của
hàm hợp lý.
Tiên nghiệm entropy cực đại (the maximum entropy prior)
Cơng thức tính tốn giá trị entropy trong hai trường hợp dựa vào phân phối xác suất
của tham số θ, tương ứng phân phối xác suất tuân theo dạng rời rạc hay dạng liên tục.
Nếu θ tuân theo biến ngẫu nhiên rời rạc, với các giá trị θi và xác suất thành phần
tương ứng p(θi ). Khi đó, giá trị entropy Hd được tính tốn theo đẳng thức (2.4) [32]:
Hd = −
p(θi ) × log[p(θi )].
(2.4)
i
Nếu θ tuân theo biến ngẫu nhiên liên tục, xác định trên không gian tham số Θ, với
hàm mật độ xác suất tương ứng là π(θ). Khi đó, giá trị entropy H được tính theo cơng
thức (2.5) [32]:
H=−
π(θ) × log[π(θ)]dθ.
(2.5)
Θ
Mặc dù, tiên nghiệm entropy cực đại với kỳ vọng đưa được nhiều thông tin tiên
ngihệm vào mơ hình, tuy nhiên, nó lại gây ra bất lợi là tính tốn khá nhiều và khó khăn.
Chính vì vậy, như một cách hiệu chỉnh sao cho sai số giữa thông tin tiên nghiệm sử dụng
và thông tin hiên có ở mức chấp nhận được đồng thời đơn giản các tính tốn, một dạng
thơng tin tiên nghiệm được sử dụng rộng rãi đó là tiên nghiệm liên hợp.
Tiên nghiệm liên hợp (the conjugate prior)
Định nghĩa 2.2.2. ([29, 32, 43]) Giả sử hàm mật độ tiên nghiệm π(θ) thuộc một lớp
F, bao gồm các hàm mật độ xác suất của tham số θ. Khi đó, hàm mật độ tiên nghiệm
được gọi là tiên nghiệm liên hợp đối với hàm hợp lý l(x1 , x2 , ..., xn |θ) nếu hàm mật độ
hậu nghiệm π(θ|x1 , x2 , ..., xn ) cũng thuộc F.
Dựa vào định nghĩa 2.2.2, chúng ta nhận thấy dạng của phân phối tiên nghiệm cho
tham số θ và phân phối hậu nghiệm trùng nhau, chúng chỉ khác nhau về độ lớn của các
tham số, hay nói cách khác phân phối hậu nghiệm là phân phối tiên nghiệm được hiệu
chỉnh bởi dữ liệu.
2.2.3
Phân phối xác suất hậu nghiệm
Phân phối xác suất hậu nghiệm được tính tốn theo định lý Bayes, dựa trên hàm hợp
lý và phân phối xác suất tiên nghiệm. Phân phối xác suất hậu nghiệm là yếu tố cốt lõi
trong Thống kê Bayes, được sử dụng cho các suy luận tiếp theo.
Dạng phân phối xác suất hậu nghiệm phụ thuộc vào vào các trường hợp tham số θ
tuân theo biến ngẫu nhiên rời rạc hay biến ngẫu nhiên liên tục, dữ liệu tuân theo biến
ngẫu nhiên rời rạc hay biến ngẫu nhiên liên tục [41].
17
Thật vậy, hàm mật độ xác suất hậu nghiệm π(θ|x1 , x2 , · · · , xn ) được xác định dựa vào
định lý Bayes [9, 50, 33], trong hai trường hợp tham số θ tuân theo biến ngẫu nhiên rời
rạc và biến ngẫu nhiên liên tục thông qua hai cơng thức tương ứng (2.6) và (2.7):
π(θ) × l(x1 , x2 , · · · , xn |θ)
π(θ|x1 , x2 , · · · , xn ) =
π(θ) × l(x1 , x2 , · · · , xn |θ)
,
(2.6)
θ∈Θ
hay
π(θ) × l(x1 , x2 , · · · , xn |θ)
π(θ|x1 , x2 , · · · , xn ) =
.
(2.7)
π(θ) × l(x1 , x2 , · · · , xn |θ)dθ
θ∈Θ
Hoặc, các cơng thức (2.6) và (2.7) có thể viết được dưới dạng tương đương thông qua
tỷ lệ theo công thức (2.8):
π(θ|x1 , x2 , · · · , xn ) ∝ π(θ) × l(x1 , x2 , · · · , xn |θ).
2.3
(2.8)
Bài toán dự báo trong thống kê Bayes
Mục đích của mơ hình thống kê nhằm giải thích ngun nhân, dự báo và mơ tả [49]. Mỗi
dạng mơ hình thống kê đều nhằm đáp ứng các u cầu khác nhau, tùy thuộc vào mục
đích của nhà nghiên cứu. Trong thống kê Bayes, tham số θ được xem xét như là một biến
ngẫu nhiên [4], trong đó tham số này được tính tốn dựa trên thơng tin tiên nghiệm của
tham số θ sử dụng cho dự báo các quan sát trong tương lai.
2.3.1
Hàm mật độ dự báo hậu nghiệm
Q trình mơ hình hóa thống kê Bayes được diễn ra theo các bước sau [4]:
Bước 1. Cơng thức hóa mơ hình: sử dụng phân phối tiên nghiệm π(θ) và hàm hợp lý dựa
vào mẫu ngẫu nhiên {x1 , x2 , ..., xn } các quan sát độc lập và cùng tuân theo một
hàm mật độ xác suất f (x|θ). Một số hàm tiên nghiệm π(θ) được đề nghị bao gồm
tiên nghiệm đều (khơng có thơng tin), tiên nghiệm Jeffreys, tiên nghiệm liên hợp...
Bước 2. Ước lượng mơ hình cho tham số θ thông qua hàm mật độ xác suất hậu nghiệm
π(θ|x1 , x2 , · · · , xn ).
Bước 3. Lựa chọn mơ hình: đánh giá độ tốt của mơ hình Bayes ước lượng, nếu mơ hình
Bayes khơng đáp ứng kỳ vọng đặt ra thì quay trở lại bước 1.
Hàm mật độ dự báo hậu nghiệm cho quan sát x˜ khi đã biết trước bộ dữ liệu
{x1 , x2 , · · · , xn } được tính tốn theo cơng thức (2.9) [4, 19]:
f (˜
x|x1 , x2 , · · · , xn ) =
f (˜
x|θ) × π(θ|x1 , x2 , · · · , xn )dθ,
(2.9)
Θ
trong đó f (˜
x|θ) = f (˜
x|θ, x1 , x2 , · · · , xn ) do x˜ là quan sát độc lập với các quan sát xảy ra
trước đó của bộ dữ liệu {x1 , x2 , · · · , xn }.
18
2.3.2
Một số hàm dự báo hậu nghiệm thông dụng dựa vào tiên
nghiệm liên hợp
Giả sử bộ dữ liệu {x1 , x2 , · · · , xn }, bao gồm các quan sát độc lập và cùng tuân theo một
hàm mật độ xác suất f (x|θ). Khi đó, hàm mật độ dự báo hậu nghiệm cho quan sát tiếp
theo là x˜ trong trường hợp tiên nghiệm liên hợp cũng thuộc F. Một số tính tốn hàm
mật độ hậu nghiệm thơng thường dựa vào hàm tiên nghiệm liên hợp [9, 13, 19, 28, 43]:
Bộ dữ liệu có dạng phân phối chuẩn N (µ, σ 2 ) với phương sai đã biết σ 2
Giả sử bộ dữ liệu tuân theo phân phối chuẩn N (µ, σ 2 ), với giả định đã biết phương sai
σ 2 . Phân phối tiên nghiệm liên hợp cho tham số trung bình µ có dạng phân phối chuẩn
π(µ) ∼ N (µ0 , σ02 ) [9, 19, 43].
Khi đó hàm phân phối hậu nghiệm cho trung bình µ có dạng phân phối chuẩn
π(µ|x1 , x2 , ..., xn ) ∼ N (µ , σ 2 ) với cơng thức (2.10):
µ0 X
+ σ2
σ02
1
n
µ =
,σ 2 =
,
1
1
1
1
+ σ2
+ σ2
σ02
σ02
n
n
(2.10)
trong đó X là trung bình của bộ dữ liệu.
Bộ dữ liệu có dạng phân phối đều
Giả sử bộ dữ liệu có dạng phân phối đều xi ∼ U (0, θ), ∀i = 1, n. Hàm phân phối tiên
nghiệm liên hợp cho tham số θ có dạng phân phối Pareto, tức là π(θ) ∼ P(xm , k) [43].
Khi đó, phân phối hậu nghiệm cho tham số θ có dạng phân phối Pareto π(θ|x1 , x2 , ..., xn ) ∼
P(xm , k ) với các tham số được xác định bởi công thức (2.11):
xm = max{x1 , x2 , ..., xn , xm }, k = k + n.
(2.11)
Bộ dữ liệu có dạng phân phối Pareto khi đã biết giá trị nhỏ nhất xm
Giả sử bộ dữ liệu có dạng xi ∼ P(xm , k), ∀i = 1, n. Với giả định đã biết giá trị nhỏ nhất
xm , ta chọn hàm phân phối tiên nghiệm liên hợp cho tham số k là phân phối gamma
π(k) ∼ G(α, β) [43].
Khi đó, phân phối hậu nghiệm của tham số k cũng là phân phối gamma π(k|x1 , x2 , ..., xn ) ∼
G(α , β ) với các tham số được xác định bởi công thức (2.12):
n
α = α + n, β = β +
ln
i=1
xi
xm
.
(2.12)
Bộ dữ liệu có dạng phân phối Weibull đã biết tham số hình dạng β
Giả sử bộ dữ liệu có dạng phân phối Weibull xi ∼ W(β, θ). Với giả định đã biết tham số
hình dạng β, ta chọn hàm phân phối tiên nghiệm liên hợp cho tham số tỷ lệ θ là phân
19
phối gamma ngược π(θ) ∼ IG(a, b) [43].
Khi đó, phân phối hậu nghiệm cũng là phân phối gamma ngược π(θ|x1 , x2 , ..., xn ) ∼
IG(a , b ), với các tham số được xác định bởi công thức (2.13):
n
xβi .
a = a + n, b = b +
(2.13)
i=1
Bộ dữ liệu có dạng phân phối loga chuẩn với trường hợp đã biết độ chính xác
τ
Giả sử bộ dữ liệu có dạng phân phối loga chuẩn xi ∼ LN (µ, τ ), ∀i = 1, n. Với giả định
đã biết độ chính xác τ , ta chọn hàm phân phối tiên nghiệm liên hợp cho trung bình µ có
dạng phân phối chuẩn π(µ) ∼ N (µ0 , τ0 ) [43].
Khi đó, hàm phân phối hậu nghiệm cho µ cũng là phân phối chuẩn π(µ|x1 , x2 , ..., xn ) ∼
N (µ , τ ) với các tham số được xác đinh bởi cơng thức (2.14):
n
τ 0 µ0 + τ
µ =
ln(xi )
i=1
τ0 + nτ
, τ = τ0 + nτ.
(2.14)
Bộ dữ liệu có dạng phân phối mũ
Giả sử bộ dữ liệu có dạng phân phối mũ xi ∼ E(λ), trong đó λ là tham số tỷ lệ. Chọn hàm
phân phối tiên nghiệm liên hợp cho tham số λ có dạng phân phối gamma π(λ) ∼ G(α, β)
[43].
Khi đó, phân phối hậu nghiệm cho λ cũng có dạng phân phối gamma π(λ|x1 , x2 , ..., xn ) ∼
G(α , β ) với các tham số được xác định bởi công thức (2.15):
n
α = α + n, β = β +
xi .
(2.15)
i=1
Bộ dữ liệu có dạng phân phối gamma với điều kiện đã biết tham số hình dạng
α
Giả sử bộ dữ liệu có dạng phân phối gamma xi ∼ G(α, β), ∀i = 1, n. Với giả định đã biết
tham số hình dạng α, ta chọn phân phối tiên nghiệm liên hợp cho tham số tỷ lệ β cũng
là phân phối gamma π(β) ∼ G(α0 , β0 ) [43].
Khi đó, phân phối hậu nghiệm cho tham số β cũng là phân phối gamma π(β|x1 , x2 , ..., xn ) ∼
G(α , β ), với các tham số được xác đinh bởi công thức (2.16):
n
α = α0 + nα, β = β0 +
xi .
i=1
20
(2.16)
Bộ dữ liệu có dạng phân phối gamma ngược với điều kiện đã biết tham số
hình dạng α
Giả sử bộ dữ liệu có dạng phân phối gamma ngược xi ∼ IG(α, β), ∀i = 1, n. Khi đã biết
tham số hình dạng α, chúng ta chọn phân phối tiên nghiệm liên hợp cho tham số tỷ lệ
ngược β có dạng phân phối gamma π(β) ∼ G(α0 , β0 ) [43].
Khi đó, phân phối hậu nghiệm cho tham số β cũng là phân phối gamma π(β|x1 , x2 , ..., xn ) ∼
G(α , β ), với các tham số được xác định bởi công thức (2.17):
n
α = α0 + nα, β = β0 +
i=1
2.4
2.4.1
1
.
xi
(2.17)
Xích Markov Monte Carlo
Xích Markov
Trong trường hợp đơn giản, xích Markov là một q trình ngẫu nhiên trong đó các trạng
thái tương lai phụ thuộc vào hiện tại và độc lập với quá khứ. Tính chất này được minh
họa bởi công thức (2.18) [18, 21, 44]:
P [θ(n+1) ∈ A|θ(n) = x, θ(n−1) ∈ An−1 , · · · , θ(0) ∈ A0 ]
= P [θ(n+1) ∈ A|θ(n) = x],
(2.18)
với mọi tập A0 , · · · , An−1 , A ⊂ S và x ∈ S, P [.|.] là xác suất có điều kiện.
Tính chất Markov (2.18) được biểu diễn thông qua các công thức tương đương (2.19)
và (2.20) [18]:
E[f (θ(n) )|θ(m) , θ(m−1) , · · · , θ(0) ] = E[f (θ(n) )|θ(m) ],
(2.19)
với mọi hàm bị chặn f và n > m ≥ 0.
Nếu giả sử ký hiệu trạng thái tương lai θ(n+1) = y, trạng thái hiện tại θ(n) = x, các
trạng thái quá khứ xn−i , i = 1, 2, · · · , n. Tính chất Markov được biểu diễn thơng qua công
thức (2.20) [18]:
P [θ(n+1) = y|θ(n) = x, θ(n−1) = xn−1 , · · · , θ(0) = x0 ] = P [θ(n+1) = y|θ(n) = x],
(2.20)
với mọi x0 , · · · , xn−1 , x, y ∈ S.
Dạng biểu diễn của các cộng thức (2.18), (2.19), (2.20) ở trên chỉ áp dụng cho các
không gian trạng thái rời rạc.
Trong trường hợp tổng quát, xác suất trong (2.18) phụ thuộc vào x, A và n, tương
ứng với công thức (2.20) phụ thuộc vào x, y và n. Nếu khơng phụ thuộc vào n, thì xích
được gọi là thuần nhất. Trong trường hợp này, hàm chuyển hoặc hàm hạt nhân P (x, A)
được xác định dựa vào các tính chất sau [18]:
• Với mọi x ∈ S, P (x, .) là phân phối xác suất trên S.
• Với mọi A ⊂ S, hàm số x → P (x, A) có thể tính được.
21
Tính chất này hữu dụng với khơng gian trạng thái rời rạc cho giá trị P (x, {y}) =
P (x, y). Hàm số P (x, y) được gọi là hàm xác suất chuyển và thỏa mãn các tính chất sau
[18]:
• P (x, y) ≥ 0, ∀x, y ∈ S.
•
y∈S
P (x, y) = 1, ∀x ∈ S.
Giả sử không gian trạng thái rời rạc S = {x1 , x2 , ...} và ma trận chuyển P , với các
phần tử ở vị trí thứ (i, j) là P (xi , xj ). Giả sử S là không gian trạng thái rời rạc hữu hạn
với r phần tử, khi đó ma trận xác suất chuyển P được xác định theo công thức (2.21)
[18]:
P (x1 , x1 ) · · · P (x1 , xr )
.
··· ···
P = ···
(2.21)
P (xr , x1 ) · · · P (xr , xr )
Nhận xét 2.4.1. Tổng của tất cả các phần tử trong cùng một dòng của ma trận xác suất
chuyển bằng 1.
Giả sử ma trận xác suất chuyển từ trạng thái x sang trạng thái y sau m bước, được
biểu thị bằng P m (x, y), xác đinh bằng xác suất của một xích di động từ trạng thái x và
y chính xác m bước theo công thức (2.22), với m ≥ 2, [18]:
P m (x, y)
= P (θ(m) = y|θ(0) = x)
= x1 · · · xm−1 P [θ(m) = y, θ(m−1) = xm−1 , · · · , θ(1) = x1 |θ(0) = x]
= x1 · · · xm−1 P [θ(m) = y|θ(m−1) = xm−1 ] · · · P [θ(1) = x1 |θ(0) = x]
= x1 · · · xm−1 P (x, x1 )P (x1 , x2 ) · · · P (xm−1 , y)
(2.22)
m
Rõ ràng, đẳng thức cuối cùng trong công thức (2.22), chỉ ra rằng P (x, y) chính là
một ma trận ngẫu nhiên và được xác định bằng P n , chính là tích của m lần ma trận
P [18]. Một số trường hợp đặc biệt P 1 (x, y) = P (x, y) và P 0 (x, y) = I(x = y). Phương
trình Chapman-Kolmogorov là kết quả mở rộng, được biểu diễn bởi phương trình (2.23)
[18, 44]:
P n+m (x, y) =
P n (x, z) × P m (z, y).
(2.23)
z
Phương trình (2.23) có thể viết dưới dạng tương đương P n+m = P n × P m , đặc biệt
P
= Pn × P.
n+1
Giả sử phân phối biên của trạng thái thứ n được xác định bởi vectơ dòng π (n) , ứng
với các thành phần là π (n) (xi ), ∀xi ∈ S. Khi đó, đối với khơng gian hữu hạn chiều, ta có
phân phối biên của trạng thái thứ n là vectơ r chiều π (n) = π (n) (x1 ), · · · , π (n) (xr ) .
Với trường hợp n = 0, suy ra π 0 chính là phân phối biên (vectơ) ban đầu của xích.
Khi đó, các biến đổi tương đương được biểu diễn bởi công thức (2.24) [18]:
π (n) (y)
= P (θ(n) = y)
= x∈S P (θ(n) = y|θ(0) = x)P (θ(0) = x)
= x∈S P n (x, y)π 0 (x).
22
(2.24)
Khi đó, phương trình (2.24) có thể viết lại dưới dạng ma trận theo công thức (2.25)
[18]:
π (n) = π (0) P n .
(2.25)
Với các trạng thái n khác, hoàn tồn tương tự, ta có thể viết lại dưới dạng công thức
(2.26) như sau [18]:
π (n) = π (0) P n−1 P = π (n−1) P.
2.4.2
(2.26)
Phân phối dừng
Vấn đề cơ bản của xích Markov là xem xét số lượng mơ phỏng và nghiên cứu về quy luật
tiệm cận của xích sau một số bước lặp hay n → ∞ [18]. Chìa khóa của vấn đề này là
phân phối dừng π.
Một phân phối π được gọi là phân phối dừng của xích với xác suất chuyển P (x, y)
nếu thỏa mãn đẳng thức (2.27) [18]:
π(x)P (x, y) = π(y), ∀y ∈ S.
(2.27)
x∈S
Khi đó, phương trình (2.27) có thể viết lại dưới dạng ma trận theo phương trình
(2.28):
π = πP.
(2.28)
Dựa vào phương trình (2.28) ta nhận thấy, nếu phân phối biên tại một bước n là π,
thì phân phối ở bước kế tiếp cũng là π, do π = πP . Tức là, một khi xích đạt đến trạng
thái là π, thì xích giữ lại phân phối này cho tất cả các giai đoạn tiếp theo [18]. Phân phối
này còn được gọi là phân phối bất biến hoặc cân bằng.
Định nghĩa 2.4.2. [18, 44] Một xích với phân phối dừng π được gọi là ergodic tại trạng
thái y nếu thỏa mãn điều kiện (2.29):
lim P n (x, y) = π(y).
n→∞
(2.29)
Ý nghĩa của định nghĩa 2.4.2 chỉ ra tính độc lập của xích đối với phân phối xuất phát
π , tức là π (n) sẽ tiệm cận đến π khi n → ∞ [18].
(0)
2.4.3
Phương pháp mẫu quan trọng và ứng dụng
Cho một xích Markov ergodic θ(n) n≥0 với không gian trạng thái S, xác suất chuyển
P (x, y) và phân phối xuất phát ban đầu π (0) .
• Xích được bắt đầu từ giá trị θ(0) là mẫu được tạo ra từ π (0) .
• Giá trị tiếp theo của xích θ(1) được tạo ra dựa vào xác suất chuyển P θ(0) , . hoặc
có thể tạo ra từ phân phối xác suất cho trước π (1) = f unc. π (0) .
• Các giá trị tiếp theo của xích θ(2) , θ(3) , · · · , θ(n) .
23