Tải bản đầy đủ (.pdf) (187 trang)

Một mô hình cơ sở đối tượng xác suất mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 187 trang )

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
------------------------------

Nguyễn Hòa

MỘT MÔ HÌNH CƠ SỞ ĐỐI TƯỢNG
XÁC SUẤT MỜ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HỒ CHÍ MINH - Năm 2008


LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất
cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ
ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án. Những đóng góp
trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác
giả ở phần sau của luận án và chưa được công bố trong bất kỳ công trình khoa học nào
khác.
Tác giả luận án

Nguyễn Hòa


LỜI CẢM ƠN
Trong quá trình hoàn thành luận án này, tôi đã được các thầy cô nơi cơ sở đào tạo giúp đỡ tận
tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động
viên khích lệ.


Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp đỡ quí
báu của PGS.TS. Cao Hoàng Trụ, Thầy hướng dẫn mà tôi tôn vinh và muốn được bày tỏ lòng biết ơn
sâu sắc nhất.
Tôi cũng muốn được bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa CNTT- Đại học
Bách Khoa TP. Hồ Chí Minh đã gíup đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và
nghiên cứu ở Khoa; đặc biệt Thầy Dương Tuấn Anh đã có những lời khuyên quí giá trong quá trình
làm NCS và viết luận án này; cảm ơn Phòng quản lý sau Đại học về sự hỗ trợ các thủ tục hòan thành
luận án.
Tôi chân thành cảm ơn Trường Đại học Mở TP. Hồ Chí Minh, đặc biệt khoa CNTT, đã hỗ trợ
và tạo mọi điều kiện thuận lợi cho tôi trong quá trình hoàn thành khóa học NCS.
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến thiết thực và có những
lời động viên khích lệ qúi báu giúp tôi vượt qua khó khăn và hoàn thành tốt luận án.

Tác giả luận án

Nguyễn Hòa


TÓM TẮT
Thực tế chứng tỏ hướng đối tượng là một phương pháp hữu hiệu để mô hình hóa các
vấn đề của thế giới thực cũng như thiết kế và quản lý các hệ thống lớn. Trong mô hình
hướng đối tượng truyền thống, mỗi đối tượng “là hoặc không là” thành viên của một lớp,
còn mỗi giá trị của tính chất đối tượng là chắc chắn và chính xác. Tuy nhiên, trong thực
tiễn cả sự thuộc lớp và các giá trị tính chất đó đều có thể không chắc chắn và không chính
xác. Hơn nữa, một tính chất của một lớp có thể không khả áp dụng đối với tất cả các đối
tượng của nó. Tính chất và sự thuộc lớp không chắc chắn dẫn đến thừa kế không chắc
chắn, theo đó mỗi đối tượng thừa kế một tính chất lớp với một xác suất nhất định. Vì vậy,
mặc dù đã được ứng dụng nhiều để biểu diễn và truy vấn dữ liệu, các mô hình truyền thống
không có khả năng xử lý các đối tượng mà các tính chất và sự thuộc lớp của chúng là
không chắc chắn hoặc không chính xác. Điều này đã đòi hỏi và thúc đẩy việc nghiên cứu

và phát triển các mô hình hướng đối tượng xác suất mờ.
Gần đây, Eiter và cộng sự (2001) đã giới thiệu một mô hình cơ sở đối tượng xác suất
gọi là POB (Probabilistic Object Base). Mô hình POB được xây dựng dựa trên cơ sở toán
học vững chắc và nhất quán với mô hình cơ sở dữ liệu hướng đối tượng truyền thống, có
khả năng biểu diễn và truy vấn thông tin không chắc chắn về các đối tượng trong thế giới
thực. Tuy nhiên, thiếu sót chính của mô hình này là chưa cho phép biểu diễn các giá trị
thuộc tính không chính xác và các phương thức của một lớp.
Luận án này mở rộng mô hình POB thành mô hình cơ sở đối tượng xác suất mờ
FPOB (Fuzzy Probabilistic Object Base) với ba đặc tính chính: (1) các giá trị không chắc
chắn và không chính xác của một thuộc tính được biểu diễn bởi một khoảng phân bố xác
suất trên một tập các giá trị tập mờ; (2) các phương thức lớp với các đối số và giá trị không
chắc chắn và không chính xác được tích hợp một cách hình thức vào mô hình mới; và (3)
sự áp dụng không chắc chắn của một tính chất đối với một lớp được biểu diễn bằng một
khoảng xác suất. Luận án đề xuất một diễn dịch xác suất của các quan hệ trên các giá trị
tập mờ và một đại số cho các bộ ba xác suất mờ để tính toán xác suất của các quan hệ tập
mờ và các giá trị của các tính chất đối tượng. Cú pháp và ngữ nghĩa của lược đồ, thể hiện
và các phép toán đại số cho một cơ sở đối tượng xác suất mờ được nghiên cứu và định
nghĩa một cách hình thức.


MỤC LỤC
Danh mục các bảng............................................................................................................ iv
Danh mục các hình ........................................................................................................... vii
Chương 1 MỞ ĐẦU ............................................................................................................1
1.1

Phạm vi và mục tiêu ..............................................................................................1

1.2


Những đóng góp chính của luận án….. ..................................................................5

1.3

Cấu trúc của luận án ...............................................................................................5

1.4

Qui ước ký hiệu và viết tắt...............................................................................…...7

Chương 2 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ VÀ XÁC SUẤT ..........................8
2.1

Giới thiệu ................................................................................................................8

2.2

Cơ sở dữ liệu quan hệ mờ và xác suất ....................................................................9

2.3

Cơ sở dữ liệu hướng đối tượng mờ và xác suất....................................................14

2.4

Mô hình cơ sở đối tượng xác suất của Eiter và cộng sự .......................................20

2.5

Kết luận.................................................................................................................30


Chương 3 CƠ BẢN VỀ XÁC SUẤT VÀ TẬP
MỜ……………………...…...……............32
3.1

Giới thiệu .............................................................................................................32

3.2

Các chiến lược kết hợp các khoảng xác suất ........................................................33

3.3

Tập mờ..................................................................................................................37

3.4

Phép gán khối và mô hình bầu cử tập mờ.............................................................39

3.5

Diễn dịch xác suất của các quan hệ trên tập mờ ...................................................41

3.6

Các hàm phân bố và bộ ba xác suất mờ................................................................44

3.7

Các chiến lược kết hợp các bộ ba xác suất mờ .....................................................45


i


3.8

Đại số các bộ ba xác suất mờ................................................................................47

3.9

Kết luận.................................................................................................................49

Chương 4 LƯỢC ĐỒ VÀ THỂ HIỆN CỦA CƠ SỞ ĐỐI TƯỢNG XÁC SUẤT
MỜ…..50
4.1

Giới thiệu .............................................................................................................50

4.2

Mô hình ý niệm.....................................................................................................51

4.3

Thuộc tính và phương thức...................................................................................53

4.4

Kiểu và giá trị .......................................................................................................55


4.5

Lược đồ.................................................................................................................58

4.6

Sự thừa kế .............................................................................................................67

4.7

Sự thể hiện ............................................................................................................68

4.8

Phạm vi xác suất của lớp ......................................................................................71

4.9

Kết luận.................................................................................................................72

Chương 5 CÁC PHÉP TOÁN ĐẠI SỐ..................................................................…….73
5.1

Giới thiệu ..............................................................................................................73

5.2

Phép chọn..............................................................................................................74

5.3


Phép chiếu và phép đổi tên ...................................................................................86

5.4

Phép tích Descartes...............................................................................................91

5.5

Phép kết ................................................................................................................95

5.6

Các phép giao, hợp và trừ .....................................................................................99

5.7

Tính chất của các phép toán đại số .....................................................................105

5.8

Kết luận...............................................................................................................110

Chương 6 MÔ HÌNH MỞ RỘNG VỚI CÁC TÍNH CHẤT LỚP
KHÔNG CHẮC CHẮN................................................................................111
6.1

Giới thiệu ............................................................................................................111

ii



6.2

Mô hình ý niệm...................................................................................................113

6.3

Kiểu và giá trị .....................................................................................................115

6.4

Lược đồ...............................................................................................................119

6.5

Sự thể hiện và thừa kế không chắc chắn.............................................................122

6.6

Các phép toán đại số ...........................................................................................127

6.7

Kết luận...............................................................................................................146

Chương 7 TỔNG KẾT ...................................................................................................147
7.1

Tóm tắt................................................................................................................147


7.2

Hệ quản trị cơ sở đối tượng xác suất mờ….. ......................................................148

7.3

Hướng phát triển….............................................................................................151

CÁC BÀI BÁO CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ................................153
TÀI LIỆU THAM KHẢO...............................................................................................155
Phụ Lục CHỨNG MINH CÁC ĐỊNH LÝ CHƯƠNG 5 .............................................. -1-

iii


DANH MỤC CÁC BẢNG
Bảng 2.4.1:

Ánh xạ gán kiểu τ trong POB ...............................................................……24

Bảng 2.4.2:

Ánh xạ đối tượng π và π* trong POB...........................................................25

Bảng 2.4.3:

Ánh xạ gán giá trị ν trong POB ....................................................................26

Bảng 3.2.1:


Các tiên đề về chiến lược hội........................................................................35

Bảng 3.2.2:

Các tiên đề về chiến lược tuyển....................................................................35

Bảng 3.2.3:

Các ví dụ về các chiến lược kết hợp xác suất. ..............................................36

Bảng 3.4.1:

Một mô hình bầu cử kích thước 10 của tập mờ high. ...................................41

Bảng 4.5.1:

Ánh xạ gán kiểu τ trong FPOB. ....................................................................60

Bảng 4.5.2:

Diễn dịch ε của lược đồ S trong FPOB.........................................................62

Bảng 4.6.1:

Ánh xạ gán kiểu τ* của lược đồ được thừa kế đầy đủ trong FPOB..............68

Bảng 4.7.1:

Ánh xạ đối tượng π và π* trong FPOB. ........................................................70


Bảng 4.7.2:

Ánh xạ gán giá trị ν trong FPOB. .................................................................70

Bảng 5.2.1:

Diễn dịch của các biểu thức chọn cơ sở........................................................79

Bảng 5.2.2:

Diễn dịch của các biểu thức chọn. ................................................................83

Bảng 5.2.3:

Ánh xạ đối tượng π’ của kết quả phép chọn .................................................86

Bảng 5.2.4:

Ánh xạ giá trị ν’ của kết quả phép chọn. ......................................................86

Bảng 5.3.1:

Ánh xạ kiểu τ’ của kết quả phép chiếu trong Ví dụ 5.3.1.............................87

Bảng 5.3.2:

Ánh xạ giá trị ν’ của kết quả phép chiếu trong Ví dụ 5.3.3..........................88

Bảng 5.3.3:


Ánh xạ kiểu τ’ của kết quả phép đổi tên trong Ví dụ 5.3.5. .........................89

Bảng 5.3.4:

Ánh xạ giá trị ν’ của kết quả phép đổi tên trong Ví dụ 5.3.7. ......................90

Bảng 5.4.1:

Ánh xạ đối tượng π của kết quả tích Descartes trong Ví dụ 5.4.3................94

Bảng 5.4.2:

Ánh xạ giá trị ν của kết quả tích Descartes trong Ví dụ 5.4.3. .....................94

iv


Bảng 5.5.1:

Ánh xạ đối tượng π của kết quả phép kết trong Ví dụ 5.5.4.........................98

Bảng 5.5.2:

Ánh xạ giá trị ν của kết quả phép kết trong Ví dụ 5.5.4...............................98

Bảng 5.6.1:

Ánh xạ đối tượng π1 và π2 trong Ví dụ 5.6.2...............................................100


Bảng 5.6.2:

Ánh xạ gán giá trị ν1 trong Ví dụ 5.6.2. ......................................................100

Bảng 5.6.3:

Ánh xạ gán giá trị ν2 trong Ví dụ 5.6.2.......................................................101

Bảng 5.6.4:

Ánh xạ đối tượng π của kết quả phép giao trong Ví dụ 5.6.2.....................101

Bảng 5.6.5:

Ánh xạ giá trị ν của kết quả phép giao trong Ví dụ 5.6.2...........................101

Bảng 5.6.6:

Ánh xạ đối tượng π của kết quả phép hợp trong Ví dụ 5.6.4......................102

Bảng 5.6.7:

Ánh xạ giá trị ν của kết quả phép hợp trong Ví dụ 5.6.4............................103

Bảng 5.6.8:

Ánh xạ đối tượng π của kết quả phép trừ trong Ví dụ 5.6.6. ......................104

Bảng 5.6.9:


Ánh xạ giá trị ν của kết quả phép trừ trong Ví dụ 5.6.6..............................105

Bảng 6.4.1:

Ánh xạ gán kiểu τ trong FPOBE. ................................................................120

Bảng 6.4.2:

Diễn dịch ε của lược đồ S trong FPOBE. ....................................................121

Bảng 6.5.1:

Ánh xạ đối tượng π và π* trong FPOBE. ....................................................123

Bảng 6.5.2:

Ánh xạ gán giá trị ν trong FPOBE. .............................................................123

Bảng 6.5.3:

Ánh xạ gán kiểu τ* của lược đồ được thừa kế trong FPOBE......................126

Bảng 6.6.1:

Ánh xạ kiểu τ’ của kết quả phép chiếu trong Ví dụ 6.6.6...........................133

Bảng 6.6.2:

Ánh xạ giá trị ν’ của kết quả phép chiếu trong Ví dụ 6.6.6........................133


Bảng 6.6.3:

Ánh xạ kiểu τ’ của kết quả phép đổi tên trong Ví dụ 6.6.7 ........................134

Bảng 6.6.4:

Ánh xạ giá trị ν’ của kết quả phép đổi tên trong Ví dụ 6.6.7 .....................135

Bảng 6.6.5:

Ánh xạ đối tượng π của kết quả tích Descartes trong Ví dụ 6.6.9..............138

Bảng 6.6.6:

Ánh xạ giá trị ν của kết quả tích Descartes trong Ví dụ 6.6.9 ....................138

Bảng 6.6.7:

Ánh xạ đối tượng π của kết quả phép kết trong Ví dụ 6.6.12.....................141

v


Bảng 6.6.8:

Ánh xạ giá trị ν của kết quả phép kết trong Ví dụ 6.6.12 ...........................141

Bảng 6.6.9:

Ánh xạ đối tượng π1 và π2 trong Ví dụ 6.6.14.............................................142


Bảng 6.6.10: Ánh xạ gán giá trị ν1 trong Ví dụ 6.6.14 .....................................................143
Bảng 6.6.11: Ánh xạ gán giá trị ν2 trong Ví dụ 6.6.14.....................................................143
Bảng 6.6.12: Ánh xạ đối tượng π của kết quả phép giao trong Ví dụ 6.6.14 ...................143
Bảng 6.6.13: Ánh xạ giá trị ν của kết quả phép giao trong Ví dụ 6.6.14.........................144
Bảng 6.6.14: Ánh xạ đối tượng π của kết quả phép hợp trong Ví dụ 6.6.16....................145
Bảng 6.6.15: Ánh xạ giá trị ν của kết quả phép hợp trong trong Ví dụ 6.6.16 ................145

vi


DANH MỤC CÁC HÌNH
Hình 2.4.1: Một ví dụ phân cấp lớp trong POB..................................................................20
Hình 3.3.1: Tập mờ các số gần 2. .......................................................................................38
Hình 4.2.1: Một ví dụ phân cấp lớp trong FPOB................................................................52
Hình 4.2.2: Kiến trúc của hệ thống FPOB ..........................................................................53
Hình 4.4.1: Các giá trị tập mờ của thuộc tính time ............................................................57
Hình 4.5.1: Thuật toán tính tích xác suất đường đi giữa hai lớp ........................................65
Hình 4.5.2: Thuật toán kiểm tra tính giả nhất quán của lược đồ.........................................66
Hình 4.5.3: Thuật toán kiểm tra tính nhất quán của lược đồ ..............................................66
Hình 5.4.1: Phân cấp lớp của lược đồ tích Descartes trong FPOB .....................................93
Hình 6.2.1: Một ví dụ phân cấp lớp trong FPOBE ............................................................114
Hình 6.3.1: Các giá trị tập mờ của thuộc tính age............................................................117
Hình 6.6.1: Phân cấp lớp của lược đồ tích Descartes trong FPOBE .................................137
Hình 7.2.1: Kiến trúc của hệ thống FPDB4O ...................................................................150
Hình 7.2.2: Thực thi một truy vấn FPOB .........................................................................151

vii



Một mô hình cơ sở đối tượng xác suất mờ

Chương 1
MỞ ĐẦU

1.1 Phạm vi và mục tiêu
Như chúng ta đã biết, mô hình hướng đối tượng truyền thống (conventional objectoriented model) đã chứng tỏ nhiều ưu điểm trong các vấn đề mô hình hóa, thiết kế và hiện
thực các hệ thống lớn, từ phần mềm cho đến cơ sở dữ liệu (CSDL). Đó là nhờ mô hình này
có khả năng biểu diễn trạng thái và hành vi của các đối tượng cũng như sự phân cấp, phân
loại và quan hệ giữa chúng trong các ứng dụng thực tế. Hơn nữa, mô hình hướng đối tượng
còn giúp tối ưu dữ liệu và tái sử dụng mã khi xây dựng hệ thống thông qua cơ chế thừa kế
thông tin giữa các lớp đối tượng. Tuy nhiên, trong mô hình hướng đối tượng truyền thống
các mối quan hệ cũng như trạng thái và hành vi của các đối tượng luôn luôn được thể hiện
một cách chắc chắn và chính xác (Atkinson và Altair, 1989; Bertino và Martino, 1993).
Điều này là không hoàn toàn phù hợp với thực tế, như đã được chỉ ra trong Cross (1996) và
Parsons (1999), bởi vì thông tin về các đối tượng trong thế giới thực có thể mơ hồ, không
chắc chắn và không đầy đủ.
Hệ quả là các ứng dụng dựa trên mô hình CSDL hướng đối tượng truyền thống
không biểu diễn được các đối tượng mà thông tin về chúng không được xác định một cách
chắc chắn và chính xác. Điều đó làm hạn chế khả năng mô hình hóa và giải quyết các bài
toán áp dụng trong thế giới thực. Chẳng hạn, các ứng dụng mô hình CSDL truyền thống
không thể trả lời được các truy vấn kiểu như “tìm tất cả sinh viên có chiều cao là 1.65m
hoặc 1.67m với xác suất từ 60% đến 80%”; hay “tìm tất cả những bệnh nhân trẻ có tiền sử

1


Một mô hình cơ sở đối tượng xác suất mờ

bệnh viêm thanh quản hoặc viêm họng hạt với xác suất từ 50% đến70%”; hoặc “tìm tất cả

các gói bưu kiện có thể tích khoảng 25000 cm3 và được vận chuyển trong thời gian 36
hoặc 48 giờ từ Hà Nội đến Sài Gòn với xác suất ít nhất là 90%”, v.v. Trong đó trẻ và
khoảng 25000 là những khái niệm và giá trị không chính xác. Để khắc phục được các hạn
chế như vậy, cần phải xây dựng các mô hình dữ liệu có khả năng biểu diễn và xử lý được
các đối tượng mà các thông tin về chúng có thể không chắc chắn và không chính xác.
Như đã chỉ ra trong Zadeh (1968), Dubois và Prade (1993), Baldwin, Lawry và
Martin (1996) và Nguyen, Wang và Wu (2004), lý thuyết xác suất có thể mô hình hóa tính
không chắc chắn của thông tin, còn lý thuyết tập mờ và logic mờ có thể biểu diễn tính mơ
hồ và thiếu chính xác của nó. Vì vậy, một giải pháp tự nhiên để vượt qua giới hạn của mô
hình cơ sở đối tượng truyền thống là mở rộng mô hình này bằng cách áp dụng các kết quả
của lý thuyết xác suất và lý thuyết tập mờ.
Theo tinh thần đó, trong những năm qua đã có nhiều mô hình cơ sở dữ liệu hướng
đối tượng mờ và xác suất được nghiên cứu và xây dựng nhằm mô hình hóa các đối tượng
thế giới thực đúng với bản chất vốn có của chúng. Các mô hình như vậy có thể được gọi là
mô hình cơ sở đối tượng mờ (fuzzy object base model) hoặc mô hình cơ sở đối tượng xác
suất (probabilistic object base model). Một số ít mô hình áp dụng cả xác suất và tâp mờ để
mô hình hóa đối tượng gọi là mô hình cơ sở đối tượng xác suất mờ (fuzzy probabilistic
object base model). Tương tự như đối với mô hình cơ sở đối tượng truyền thống, một mô
hình cơ sở đối tượng mờ hay xác suất cũng có thể dựa trên logic hoặc thủ tục. Nghĩa là, các
tính chất lớp (class property) được biểu diễn như các luật hoặc các thủ tục. Các mô hình
này là rất đa dạng, mở rộng mô hình cơ sở đối tượng truyền thống ở các khía cạnh khác
nhau và với các mức độ khác nhau.
Các mô hình CSDL mờ có thể mô hình hóa thông tin không chính xác nhưng không
biểu diễn được thông tin không chắc chắn hàm chứa tính xác suất; trong khi các CSDL xác
suất cho phép biểu diễn thông tin không chắc chắn nhưng lại không thể hiện được thông tin
không chính xác hàm chứa tính mơ hồ. Các mô hình CSDL xác suất mờ có thể mô hình
hóa được cả thông tin không chắc chắn và không chính xác. Tuy nhiên, khó có mô hình
nào có thể biểu diễn và xử lý hết mọi khía cạnh không chắc chắn và không chính xác về
thông tin của các đối tượng trong thế giới thực. Điều này là do độ phức tạp về lý thuyết khi
phát triển mô hình hoặc sự không hiệu quả về ứng dụng nếu có một mô hình như vậy. Hơn

nữa, cho đến nay ít có mô hình kết hợp được cả hai yếu tố không chắc chắn và không chính

2


Một mô hình cơ sở đối tượng xác suất mờ

xác trên một nền tảng lý thuyết chặt chẽ. Vì vậy, các mô hình CSDL xác suất và mờ vẫn
được tiếp tục nghiên cứu và phát triển để đáp ứng các mục tiêu ứng dụng khác nhau.
Gần đây, Eiter và cộng sự (2001) đã giới thiệu một mô hình cơ sở đối tượng xác suất
gọi là POB (Probabilistic Object Base). Đây là một mô hình mở rộng mô hình CSDL
hướng đối tượng xác suất của Kornatzky và Shimony (1994) với các chiến lược kết hợp
xác suất để biểu diễn và xử lý các thuộc tính đối tượng được thể hiện bởi các phân bố xác
suất cận dưới và cận trên của một tập giá trị. Không chỉ mở rộng phép chọn trong mô hình
của Kornatzky và Shimony, các tác giả này còn xây dựng một đại số đối tượng hoàn chỉnh
trên POB và giới thiệu các tính chất và thuật toán xác định tính nhất quán (consistent) của
các lược đồ cơ sở đối tượng xác suất. Tuy nhiên, thiếu sót chính của mô hình POB là
không cho phép giá trị thuộc tính mờ và chưa thể hiện được phương thức lớp (class
method). Chẳng hạn, để biểu diễn giá trị thuộc tính sun, mô tả nhu cầu về ánh sáng của các
thực vật, trong POB đã sử dụng các giá trị liệt kê mild, medium và heavy mà không có bất
kỳ một diễn dịch nào. Trong khi dó, thực tế các giá trị như vậy có bản chất là mờ, không
chính xác theo mức độ ánh sáng của mặt trời. Hơn nữa, nếu không có một sự diễn dịch
chúng không thể đo được và sự phân bố xác suất của chúng không thể tính toán được.
Mặc dù không biểu diễn được thông tin không chính xác và chưa xem xét phương
thức lớp, POB là một mô hình cơ sở đối tượng xác suất có nhiều ưu điểm. POB được xây
dựng trên một cơ sở lý thuyết chặt chẽ, bao trùm mô hình CSDL hướng đối tượng truyền
thống, có thể phân cấp xác suất các lớp đối tượng, biểu diễn và thao tác được thông tin
không chắc chắn của chúng. Mô hình POB sẽ có phạm vi ứng dụng rộng hơn nếu nó được
tích hợp thêm khả năng biểu diễn thông tin không chính xác và các phương thức tính toán
của các đối tượng. Đó là động lực thúc đẩy chúng tôi xây dựng một mô hình cơ sở đối

tượng xác suất mờ bằng cách mở rộng mô hình POB với giá trị thuộc tính mờ và phương
thức lớp.
Mô hình mở rộng này, được chúng tôi gọi là FPOB (Fuzzy Probabilistic Object
Base), không chỉ thừa kế được các ưu điểm của POB mà còn có thể biểu diễn và xử lý
được thông tin không chính xác của các đối tượng thực tế. Chẳng hạn, trong FPOB, các giá
trị mild, medium và heavy của thuộc tính sun đã nói trên có thể được định nghĩa và xử lý
như các tập mờ. Các thao tác của các đối tượng trên các giá trị tập mờ thông qua các
phương thức của chúng cũng được hỗ trợ trong FPOB. Ví dụ, thể tích không chính xác của

3


Một mô hình cơ sở đối tượng xác suất mờ

một gói bưu kiện có thể được tính toán thông qua các kích thước không chính xác của nó
với một xác suất nhất định. Ngoài ra, trong thực tế có thể có những tính chất lớp (class
property) không chắc chắn áp dụng được cho mọi đối tượng của lớp. Chẳng hạn, khoảng
5% loài chim có thể không biết bay hay một số bệnh nhân không phải luôn luôn có tiền sử
bệnh trước khi được khám bệnh v.v.. Trong đó biết bay và tiền sử bệnh tương ứng là các
tính chất thường có của lớp chim và lớp bệnh nhân. Vì thế, luận án cũng nghiên cứu để
FPOB biểu diễn được khả năng áp dụng không chắc chắn (uncertain applicability) của các
tính chất lớp.
Cơ sở toán học để xây dựng FPOB là lý thuyết xác suất, lý thuyết tập mờ (Zadeh,
1965; Kandel, 1986; Klir và Yuan, 1994) và những kết quả nghiên cứu về lý thuyết xác
suất của các sự kiện mờ (Zadeh, 1968; Baldwin, Lawry và Martin, 1996; Dubois và Prade,
1993; Nguyen, Wang và Wu, 2004). Nói một cách cụ thể hơn, để phát triển mô hình FPOB
như mục tiêu đề ra, luận án dựa trên lý thuyết xác suất và lý thuyết tập mờ để đề xuất các
công cụ toán học, kết hợp tập mờ và xác suất thành một khung nhất quán, làm cơ sở cho
việc biểu diễn và xử lý thông tin không chắc chắn và không chính xác của các đối tượng.
Thực hiện điều này, chúng tôi định nghĩa các bộ ba xác suất mờ (fuzzy probabilistic

triple) và phương thức xác suất mờ (fuzzy probabilistic method) như là các khái niệm cơ
sở để mô hình hóa giá trị không chắc chắn và không chính xác của các đối tượng. Sử dụng
lý thuyết đại số trừu tượng (abstract algebra), chúng tôi phát triển một đại số các bộ ba xác
suất mờ làm cơ sở để thực hiện các thao tác và tính toán của phương thức đối tượng trong
cơ sở đối tượng xác suất mờ. Dựa trên mô hình bầu cử của các tập mờ và phép gán khối
(mass assignment) chúng tôi đề nghị một độ đo xác suất của các quan hệ hai ngôi trên các
tập mờ làm cơ sở để diễn dịch các biểu thức chọn mờ trong FPOB. Các chiến lược kết hợp
các bộ ba xác suất trong POB cũng được mở rộng thành các chiến lược kết hợp các bộ ba
xác suất mờ để kết hợp giá trị của các đối tượng trong các phép toán đại số đối tượng như
kết, giao, hợp và trừ trên FPOB.
Trên cơ sở toán học đã được đề nghị, chúng tôi mở rộng tất cả các khái niệm trong
POB như kiểu, giá trị, lược đồ, thể hiện thành các khái niệm tương ứng trong FPOB. Các
phép toán đại số trong POB cũng được mở rộng thành các phép toán đại số tương ứng
trong FPOB để truy vấn các đối tượng với giá trị thuộc tính và phương thức không chắc
chắn và không chính xác.

4


Một mô hình cơ sở đối tượng xác suất mờ

Tiếp theo, từ mô hình FPOB nói trên, chúng tôi mở rộng định nghĩa lớp bằng cách
kết hợp mỗi tính chất của lớp với một khoảng xác suất để biểu diễn khả năng áp dụng
không chắc chắn của tính chất đó đối với các đối tượng của lớp. Các khái niệm, giá trị,
lược đồ, thể hiện, thừa kế và các phép toán đại số được mở rộng tương ứng để cho phép
truy vấn đối tượng với khả năng áp dụng không chắc chắn của tính chất lớp. Một hệ quản
trị cho FPOB, gọi là FPDB4O được Ma và CS. (2007) hiện thực, cho thấy triển vọng ứng
dụng của FPOB để mô hình hóa dữ liệu và giải quyết các bài toán thực tế.

1.2 Những đóng góp chính của luận án

Sau đây là những đóng góp chính của luận án này đối với lĩnh vực cơ sở dữ liệu và
lĩnh vực tính toán mềm (soft computing):
1. Phát triển một đại số bộ ba xác suất mờ để hỗ trợ thao tác và tính toán trên các đối
tượng mà giá trị của các tính chất của chúng là không chắc chắn và không chính xác.
Đưa ra một diễn dịch xác suất của các quan hệ hai ngôi trên các tập mờ và một mở
rộng mờ của các chiến lược kết hợp các bộ ba xác suất làm cơ sở để định nghĩa các
phép toán đại số trên FPOB.
2. Giới thiệu khái niệm phương thức xác suất mờ và mở rộng các khái niệm kiểu, giá
trị, giá trị bộ xác suất, lược đồ và thể hiện trong POB với tập mờ và phương thức để
biểu diễn thông tin không chắc chắn và không chính xác của các đối tượng trong
FPOB.
3. Mở rộng tất cả các phép toán đại số trên POB với tập mờ và phương thức lớp để thao
tác và truy vấn các đối tượng có thông tin không chắc chắn và không chính xác trong
FPOB.
4. Mở rộng các khái niệm kiểu, giá trị, lược đồ, thể hiện và các phép toán đại số trên
FPOB làm cơ sở để biểu diễn và truy vấn các đối tượng với các tính chất lớp không
chắc chắn.

1.3 Cấu trúc của luận án
Luận án được chia thành bảy chương và một phụ lục. Chương 1 trình bày phạm vi,
mục tiêu và ý nghĩa về lý thuyết cũng như ứng dụng của đề tài luận án, giới thiệu cấu trúc,

5


Một mô hình cơ sở đối tượng xác suất mờ

các qui ước ký hiệu và viết tắt trong luận án. Mỗi chương tiếp theo, từ Chương 2 đến
Chương 6 có một phần giới thiệu và một phần kết luận.
Chương 2 giới thiệu tổng quan về các nghiên cứu và ứng dụng của các mô hình

CSDL mờ và xác suất. Đó là các mở rộng ở các khía cạnh khác nhau và ở mức độ khác
nhau của mô hình CSDL truyền thống để mô hình hóa thông tin không chắc chắn và không
chính xác trong thực tế. Các cách tiếp cận, ưu điểm và hạn chế của các mô hình đã được đề
nghị là động lực để phát triển mô hình FPOB.
Chương 3 trình bày cơ sở toán học để phát triển mô hình FPOB. Đó là các khái niệm
cơ bản, nền tảng của lý thuyết xác suất và lý thuyết tập mờ được luận án tham khảo hoặc
đề xuất làm cơ sở để biểu diễn và xử lý thông tin không chắc chắn và không chính xác của
các đối tượng trong FPOB. Các khái niệm được luận án đề nghị như diễn dịch xác suất của
các quan hệ hai ngôi trên các tập mờ (probabilistic interpretation of binary relations on
fuzzy sets) và đại số bộ ba xác suất mờ (fuzzy probabilistic triple algebra) đã được giới
thiệu trong Nguyen và Cao (2004) và Nguyen và Cao (2007).
Chương 4 trình bày các khái niệm kiểu, thuộc tính, phương thức, giá trị, lược đồ, sự
thừa kế và thể hiện của các cơ sở đối tượng xác suất mờ. Đây là các yếu tố cơ bản của mô
hình dữ liệu FPOB. Các khái niệm kiểu, giá trị, lược đồ, sự thừa kế và thể hiện trong FPOB
là các mở rộng tương ứng của các khái niệm này trong POB với tập mờ và phương thức
lớp. Nội dung của chương này dựa trên Cao và Nguyen (2005) và Nguyen và Cao (2006).
Chương 5 trình bày các phép toán đại số đối tượng trên FPOB. Đó là các phép toán
như chọn, chiếu, đổi tên, tích Descartes, kết, giao, hợp và trừ trên các tập đối tượng trong
FPOB. Các phép toán này là mở rộng các phép toán đại số trong POB với tập mờ và
phương thức đối tượng làm cơ sở để thao tác dữ liệu trên FPOB. Nội dung của chương này
là mở rộng các kết quả trong Cao và Nguyen (2005), Nguyen và Cao (2006) và Cao và
Nguyen (2007).
Chương 6 giới thiệu sự mở rộng của FPOB với khả năng áp dụng và thừa kế không
chắc chắn các tính chất lớp của các đối tượng. Chúng tôi viết tắt FPOBE (Extended FPOB)
để chỉ FPOB được mở rộng. Mô hình FPOBE không chỉ biểu diễn và xử lý thông tin không
chắc chắn về giá trị của tính chất đối tượng mà còn mô hình hóa và thao tác cả với tính
không chắc chắn của bản thân tính chất đối tượng. Các kết quả ban đầu về mô hình FPOBE
đã được trình bày trong Nguyen và Cao (2007) và Cao, Nguyen và Nam (2008).

6



Một mô hình cơ sở đối tượng xác suất mờ

Chương 7 trình bày tóm tắt luận án, hệ quản trị FPDB4O của FPOB và đề nghị các
hướng nghiên cứu trong tương lai liên quan đến các vấn đề của luận án.

1.4 Qui ước ký hiệu và viết tắt
Các ký hiệu và qui ước chung sau đây được sử dụng trong suốt luận án này:


: quan hệ tập con cổ điển/mờ



: phép toán giao tập cổ điển/mờ



: phép toán hợp tập cổ điển/mờ



: quan hệ nhỏ hơn hoặc bằng trên trường các số thực/khoảng



: quan hệ lớn hơn hoặc bằng trên trường các số thực/khoảng




: phép toán hội xác suất của hai khoảng ứng với hai biến cố



: phép toán tuyển xác suất của hai khoảng ứng với hai biến cố



: phép toán trừ xác suất của hai khoảng ứng với hai biến cố

Pr

: hàm tính xác suất của một quan hệ/sự kiện

prob

: hàm tính xác suất của các quan hệ hai ngôi trên các tập mờ

probS,I,o: hàm tính diễn dịch xác suất của các biểu thức chọn mờ
min

: hàm tính giá trị nhỏ nhất của một tập các số thực

max

: hàm tính giá trị lớn nhất của một tập các số thực

N


: tập tất cả các số tự nhiên

R

: tập các số thực

R

: tập các số mờ trên tập các số thực.

7


Một mô hình cơ sở đối tượng xác suất mờ

Chương 2
TỔNG QUAN VỀ CƠ SỞ
DỮ LIỆU MỜ VÀ XÁC SUẤT

2.1 Giới thiệu
Như đã được chỉ ra bởi Cross (1996), Parsons (1999), Bosc, Kraft và Petry (2006),
thông tin không chắc chắn, không đầy đủ và không chính xác là phổ biến trong thực tế. Vì
thế, các hệ thống thông tin nói chung và CSDL nói riêng cần phải có khả năng biểu diễn,
thao tác, xử lý và tính toán trên các thông tin như vậy. Như đã giới thiệu trong Chương 1,
cơ sở toán học để biểu diễn và xử lý các thông tin không chắc chắn và mơ hồ là lý thuyết
xác suất và lý thuyết tập mờ. Các mô hình CSDL dựa trên các lý thuyết này có thể được
gọi là các mô hình CSDL xác suất và mờ. Chương này trình bày một cách khái quát bức
tranh nghiên cứu về các mô hình cơ sở dữ liệu mờ và xác suất. Một bức tranh tổng quan
như thế không chỉ cho thấy các kết quả và hạn chế trong nghiên cứu và ứng dụng các mô
hình cơ sở dữ liệu mờ và xác suất mà còn là động lực để xây dựng và ứng dụng FPOB.

Phần 2.2 giới thiệu về các mô hình CSDL quan hệ mờ và xác suất, là các mở rộng mờ hoặc
xác suất của mô hình CSDL quan hệ. Phần 2.3 giới thiệu về các mô hình cơ sở đối tượng
mờ và xác suất, là các mở rộng mờ hoặc xác suất của mô hình cơ sở đối tượng truyền
thống. Phần 2.4 trình bày mô hình cơ sở đối tượng xác suất POB của Eiter và CS. (2001).
Như đã giới thiệu trong Chương 1, mô hình FPOB là một mở rộng mờ của mô hình POB.
Vì vậy, một giới thiệu các nét đặc trưng của mô hình POB, không chỉ cho thấy mối quan

8


Một mô hình cơ sở đối tượng xác suất mờ

hệ giữa FPOB và POB mà còn cho thấy ý nghĩa về khoa học và thực tiễn của mô hình
FPOB. Cuối cùng Phần 2.5 là một số kết luận đáng lưu ý của chương này.

2.2 Cơ sở dữ liệu quan hệ mờ và xác suất
Như chúng ta đã biết, mô hình CSDL quan hệ truyền thống đã chứng tỏ nhiều ưu
điểm trong mô hình hóa các áp dụng thực tế. Tuy nhiên, mô hình quan hệ truyền thống
không thể biểu diễn và xử lý được thông tin mờ, không chắc chắn (Ullman, 1988; Date,
2004). Hạn chế này thúc đẩy sự nghiên cứu và áp dụng các mô hình CSDL quan hệ mờ và
xác suất. Sau đây, chúng tôi sẽ trình bày quá trình nghiên cứu và phát triển các mô hình
CSDL quan hệ mờ và xác suất thông qua một số mô hình tiêu biểu, theo các phương pháp
biểu diễn giá trị thuộc tính và mô hình hóa quan hệ của chúng. Chúng tôi lưu ý rằng, chính
cách thức biểu diễn dữ liệu qui định ràng buộc dữ liệu và cách thức thao tác dữ liệu. Trước
tiên, các cách tiếp cận, khả năng và hạn chế của các mô hình CSDL quan hệ mờ sẽ được
trình bày.
Một mô hình CSDL quan hệ mờ là một tổng quát hóa của mô hình CSDL quan hệ
truyền thống, trong đó giá trị thuộc tính được mở rộng thành giá trị tập mờ và quan hệ giữa
các thuộc tính được mở rộng thành quan hệ mờ. Các khái niệm về ràng buộc dữ liệu và
thao tác dữ liệu cũng được mở rộng để biểu diễn được mối quan hệ giữa các giá trị mờ và

thao tác trên chúng. Tuy nhiên, sự khác biệt cũng như khả năng và hạn chế của các mô
hình CSDL quan hệ mờ thể hiện ở các cách tiếp cận và diễn dịch trong biểu diễn giá trị tập
mờ của các thuộc tính của quan hệ. Vì vậy, các mô hình CSDL quan hệ mờ được xem xét
chủ yếu trên khía cạnh này. Có hai cách tiếp cận chính để biểu diễn dữ liệu mờ: (1) biểu
diễn giá trị thuộc tính bằng các tập mờ; (2) biểu diễn giá trị thuộc tính bằng các phân bố
khả năng (possibility distribution).
Trong cách tiếp cận thứ nhất, một số mô hình cho phép giá trị thuộc tính là một tập
mờ được diễn dịch bởi hàm thành viên của nó, biểu diễn giá trị không chính xác của thuộc
tính này (Chaudhry, Moyne và Rundensteiner, 1994; Bosc và Pivert, 1999). Trong các mô
hình này, các quan hệ cổ điển giữa các thuộc tính được mở rộng thành các quan hệ mờ.
Mức độ thành viên bộ trong quan hệ biểu diễn mức độ kết hợp của các thuộc tính trong bộ.
Phụ thuộc hàm, một dạng đặc biệt của quan hệ giữa các thuộc tính, như một loại ràng buộc
dữ liệu, được định nghĩa thông qua các quan hệ bằng nhau mờ (fuzzy equality relation).

9


Một mô hình cơ sở đối tượng xác suất mờ

Các phép toán đại số quan hệ được định nghĩa dựa trên lý thuyết quan hệ mờ và một tập độ
đo mờ của các quan hệ hai ngôi được định nghĩa trên các miền giá trị của các thuộc tính.
Gần đây, Nguyen Cat Ho (2006) đã đề nghị một mô hình trong đó giá trị tập mờ của
mỗi thuộc tính được biểu diễn bởi một nhãn ngôn ngữ (linguistic label). Tuy nhiên, các giá
trị thuộc tính như vậy không được diễn dịch bởi hàm thành viên mà ngữ nghĩa của nó được
xác định bởi đại số gia tử (hedge algebra) trên miền giá trị của thuộc tính tương ứng. Dựa
trên cơ sở các đại số gia tử có thứ tự tuyến tính, tác giả đã định nghĩa một cách hình thức
độ đo mờ, ngữ nghĩa của các nhãn ngôn ngữ, tính tương tự (similarity) và các quan hệ đối
sánh giữa chúng, làm cơ sở cho một ngôn ngữ truy vấn dữ liệu mờ trên mô hình này. Ưu
điểm của cách tiếp cận này là có thể chuyển các thao tác, truy vấn trên các kiểu mờ thành
các thao tác, truy vấn trên tập cổ điển thông qua tính toán lân cận tương tự, độ đo ngữ

nghĩa và các quan hệ đối sánh của chúng. Tuy nhiên, các quan hệ thứ tự ngữ nghĩa trong
đại số gia tử và các ánh xạ gán ngữ nghĩa cho các nhãn ngôn ngữ trong đại số này không
dễ dàng được định nghĩa sao cho phù hợp với ngữ nghĩa thực tế của chúng.
Một số nghiên cứu cho phép biểu diễn giá trị thuộc tính như một tập các giá trị mờ
kết hợp với một quan hệ tương tự (similarity relation) trên miền giá trị thuộc tính này
(Buckles và Petry, 1982; Angryk và Petry, 2003). Đây là các mô hình mở rộng của mô
hình CSDL quan hệ truyền thống bằng cách cho phép các thuộc tính có thể nhận một tập
các giá trị mờ với các diễn dịch tuyển (disjunctive) hoặc hội (conjunctive) của các giá trị
đó, để biểu diễn mức độ không chắc chắn về giá trị mà thuộc tính có thể nhận. Mỗi miền
giá trị thuộc tính được ràng buộc bởi một ngưỡng tương tự (similarity threshold) được định
nghĩa thông qua quan hệ tương tự trên miền giá trị của thuộc tính đó. Diễn dịch của các giá
trị mờ của một thuộc tính không được định nghĩa một cách tường minh thông qua hàm
thành viên của chúng, mà ẩn trong quan hệ tương tự kết hợp với thuộc tính này. Các phụ
thuộc hàm cũng được định nghĩa thông qua độ đo tương tự. Trong một quan hệ, nếu tính
tương tự trên thuộc tính này xác định tính tương tự trên thuộc tính kia thì sẽ tồn tại một phụ
thuộc hàm giữa chúng. Chính các quan hệ tương tự trên các miền giá trị thuộc tính cũng là
cơ sở để xây dựng các phép toán đại số quan hệ để truy vấn dữ liệu mờ trên mô hình này.
Thực chất mô hình của Buckles và Petry (1982) là mở rộng mô hình truyền thống
bằng cách thay thế quan hệ bằng nhau trên các giá trị chính xác bằng quan hệ tương tự trên
các giá trị mờ. Tính mềm dẻo trong phương pháp biểu diễn giá trị của mô hình này là giá
trị thuộc tính hàm chứa một tập các giá trị mờ tương tự rộng hơn tập giá trị mà thuộc tính

10


Một mô hình cơ sở đối tượng xác suất mờ

đang nhận. Tuy nhiên, quan hệ của các thuộc tính trong mô hình này là cổ điển. Nghĩa là
mức độ thành viên bộ trong một quan hệ luôn luôn bằng 1. Một số nghiên cứu khác theo
cách tiếp cận này, chẳng hạn như của Yazici và George (1999c), khám phá sâu hơn về phụ

thuộc hàm mờ và ràng buộc dữ liệu trên các thuộc tính trong một quan hệ mờ. Gần đây, Ho
Cam Ha (2003) đã đề nghị một mô hình là mở rộng của Buckles và Petry (1982). Đây là
một mô hình dựa trên quan hệ tương tự nhưng không bị ràng buộc mức tối thiểu về tính
tương tự của tập giá trị có thể có của một thuộc tính. Các phụ thuộc hàm và các phép toán
đại số quan hệ cũng được mở rộng theo trên cơ sở giả định này.
Trong cách tiếp cận thứ hai, giá trị thuộc tính của quan hệ được biểu diễn bằng các
phân bố khả năng, được khởi đầu bởi Prade và Testemale năm 1984. Hướng tiếp cận này
nhanh chóng được đón nhận trong các nghiên cứu sau này trên các CSDL mờ. Cơ sở để
biểu diễn giá trị thuộc tính như một phân bố khả năng dựa trên một công trình của Zadeh
(1978) về mối quan hệ giữa tập mờ và các phân bố khả năng. Ở đó, Zadeh đã diễn dịch
mức độ chân trị của mỗi mệnh đề mờ như là mức độ khả năng cho mệnh đề đúng. Từ đó,
phân bố khả năng được định nghĩa như một ràng buộc mờ bởi một tập mờ cho trước, nghĩa
là mỗi tập mờ có thể dẫn ra một phân bố khả năng. Vì vậy, có thể biểu diễn giá trị thuộc
tính mờ bởi các phân bố khả năng với diễn dịch như là mức độ không chắc chắn về giá trị
mà thuộc tính có thể nhận thông qua phân bố khả năng, hơn là mức độ chân trị thông qua
hàm thành viên của tập mờ.
Các mô hình biểu diễn giá trị không chính xác bởi các phân bố khả năng như
Medina, Pons và Vila (1994), Dubois và Prade (1996), Bosc và CS. (1977) hay như
Cubero và CS. (1999) đã sử dụng lý thuyết khả năng để mở rộng các quan hệ hai ngôi trên
các giá trị chính xác thành các quan hệ hai ngôi trên các phân bố khả năng. Trên cơ sở này,
các phép toán đại số quan hệ được xây dựng làm cơ sở để truy vấn dữ liệu mờ được biểu
diễn bởi các phân bố khả năng. Các phụ thuộc hàm mờ cũng đã được nghiên cứu và đề
nghị dựa trên quan hệ bằng nhau của các phân bố khả năng, làm cơ sở lý thuyết cho ràng
buộc toàn vẹn và tối ưu dữ liệu mờ trên các CSDL với phân bố khả năng (Cubero và Vila,
1992; Bosc, Dubois và Prade, 1994; Hale và Shenoi, 1996; Berzal và CS., 2005b).
Trong các mô hình vừa đề cập ở trên, các lược đồ quan hệ là cổ điển. Nghĩa là, mức
độ thành viên bộ luôn luôn bằng 1. Hạn chế này được Umano và Fukami (1994) khắc phục
bằng cách mở rộng quan hệ của các phân bố khả năng thành quan hệ mờ (giữa các phân bố
khả năng). Mở rộng này cho phép truy vấn đến khả năng mà một thuộc tính có thể nhận


11


Một mô hình cơ sở đối tượng xác suất mờ

một giá trị mờ, thông qua mức độ thành viên của các bộ chứa thuộc tính đó. Trong khi đó,
bằng cách biểu diễn mỗi quan hệ như một vị từ mờ, nhóm tác giả Vila và CS. (1994) đã đề
nghị một mô hình CSDL quan hệ dựa trên logic, khai thác khả năng của logic mờ để suy
diễn thông tin không chính xác trong các cơ sở tri thức. Các mô hình dựa trên tiếp cận
phân bố khả năng không chỉ cho phép biểu diễn và truy vấn trên các giá trị không chính
xác và không chắc chắn, mà còn có thể biểu diễn thông tin không đầy đủ bao gồm cả giá trị
NULL.
Các mô hình CSDL quan hệ mờ là những mở rộng của mô hình CSDL quan hệ
truyền thống với các cách thức biểu diễn dữ liệu không chính xác khác nhau, và có những
ưu điểm và hạn chế khác nhau trong mô hình hóa cơ sở dữ liệu thực tế. Tuy nhiên, hạn chế
chung nhất là chúng không thể biểu diễn được các tình huống ở đó thông tin về đối tượng
là không chắc chắn có tính ngẫu nhiên. Các thông tin như vậy có thể được đo lường bởi
một độ đo xác suất. Đó là cơ sở cho các nghiên cứu về các mô hình CSDL quan hệ xác
suất. Cũng như các mô hình CSDL quan hệ mờ, các mô hình CSDL quan hệ xác suất được
xây dựng bằng cách mở rộng CSDL truyền thống trên cơ sở áp dụng lý thuyết xác suất.
Một sự mở rộng như vậy có thể thực hiện ở mức quan hệ hoặc mức thuộc tính. Trong phần
này chúng tôi chỉ xem xét một số mô hình tiêu biểu.
Ở mức quan hệ, một số mô hình đã mở rộng mỗi quan hệ cổ điển bằng một quan hệ
xác suất như trong Fuhr và Rolleke (1997). Nghĩa là mỗi bộ trong một quan hệ có một mức
độ không chắc chắn, được đo bằng xác suất, để nó thuộc về quan hệ. Độ đo xác suất này
còn được diễn dịch như là mức độ không chắc chắn mà các thuộc tính có thể nhận các giá
trị trong một bộ cụ thể. Trên cơ sở biểu diễn như vậy, các phép toán đại số quan hệ xác
suất đã được xây dựng như là một mở rộng của các phép toán đại số quan hệ trong mô hình
CSDL quan hệ truyền thống. Kết quả các truy vấn dữ liệu là một quan hệ xác suất với mức
độ xác suất cụ thể của từng bộ thỏa mãn yêu cầu của truy vấn.

Ở mức thuộc tính, mô hình CSDL quan hệ xác suất cho phép biểu diễn giá trị không
chắc chắn thể hiện tình trạng thiếu thông tin về đối tượng. Có một vài khác biệt nhỏ trong
cách biểu diễn giá trị thuộc tính bộ trong quan hệ xác suất. Một số mô hình, như Cavallo
và Pittarelli (1987), Friedman, Getoor và Koller (1999), hay như Dalvi và Suciu (2004),
gán một xác suất cho giá trị thuộc tính biểu diễn mức độ không chắc chắn mà thuộc tính có
thể nhận giá trị này. Các phép toán đại số quan hệ tương ứng được xây dựng để truy vấn
trên các giá trị thuộc tính, xác định các bộ thỏa yêu cầu về xác suất trong một quan hệ của

12


Một mô hình cơ sở đối tượng xác suất mờ

cơ sở dữ liệu. Zhao, Dekhtyar và Goldsmith (2002) đã đề nghị một mô hình CSDL quan hệ
xác suất cho phép giá trị thuộc tính được kết hợp với một khoảng xác suất biểu diễn mức
độ không chắc chắn về cả xác suất và giá trị mà thuộc tính có thể nhận. Các phép toán đại
số cũng được xây dựng để thao tác trên các quan hệ và xác định các bộ thỏa một khoảng
xác xuất được yêu cầu trong truy vấn.
Một phương pháp khác mềm dẻo hơn, được đề nghị trong Eiter, Lukasiewicz và
Walter (2000), là cho phép giá trị thuộc tính được biểu diễn như một phân bố xác suất trên
một tập. Nghĩa là, mỗi thuộc tính được thể hiện như một tập giá trị, kết hợp với một phân
bố xác suất trên tập này, biểu diễn khả năng thuộc tính có thể nhận một trong các giá trị
của tập với xác suất là giá trị của hàm phân bố xác suất tương ứng. Rõ ràng, đây là một mở
rộng của các mô hình ở đó thuộc tính được biểu diễn như một giá trị kết hợp với một xác
suất để thuộc tính nhận giá trị này.
Ross và Subrahmanian (2005) đã khái quát hóa các phương pháp biểu diễn ở trên
bằng cách thể hiện giá trị thuộc tính bởi các phân bố xác suất cận dưới và cận trên của một
tập giá trị. Trong mô hình này, các phép toán đại số quan hệ xác suất đã được xây dựng
làm cơ sở cho các truy vấn xác định các bộ thỏa một khoảng xác suất biểu diễn mức độ
không chắc chắn của các giá trị thuộc tính trong bộ. Hơn nữa, các tác giả còn xây dựng

một tập các phép toán kết gộp (aggregate operator) như những tiện ích để thao tác và tính
toán xác suất trên các giá trị của cùng một thuộc tính của tất cả các bộ trong một quan hệ.
Các phép toán này là mở rộng các phép toán kết gộp trong mô hình CSDL quan hệ truyền
thống như tính trung bình, tổng, max, min v.v. của một thuộc tính trên các bộ. Ý nghĩa của
các phép toán kết gộp là hỗ trợ các truy vấn có tính toán để tìm kiếm thông tin ẩn trong cơ
sở dữ liệu.
Cũng như CSDL quan hệ mờ, có một số tiếp cận dựa trên logic để xây dựng CSDL
quan hệ xác suất (Lakshmanan và Sadri, 2001). Các mô hình này là mở rộng của mô hình
CSDL quan hệ dựa trên logic, trong đó mỗi vị từ được kết hợp với một khoảng xác suất để
vị từ đúng trong một CSDL cụ thể. Mô hình như vậy cho phép suy diễn trên thông tin
không chắc chắn.
Các ràng buộc dữ liệu trong CSDL quan hệ xác suất được xem xét trên cở sở logic
xác suất cổ điển và là mở rộng khái niệm ràng buộc dữ liệu trong mô hình CSDL truyền
thống. Tuy nhiên, hầu hết các mô hình đã được nhắc đến chưa quan tâm đến phụ thuộc
hàm xác suất. Các phụ thuộc hàm chỉ được định nghĩa hạn chế trên các thuộc tính chắc

13


Một mô hình cơ sở đối tượng xác suất mờ

chắn. Lý do cho hạn chế như vậy là thông tin về các giá trị có tính xác suất là không đủ để
xác định một sự phụ thuộc về giá trị có tính xác suất. Tuy nhiên, theo chúng tôi vẫn có thể
định nghĩa các phụ thuộc hàm xác suất khi biết có sự phụ thuộc giá trị của các thuộc tính.
Lúc này một phụ thuộc hàm có thể xảy ra với một mức độ xác suất nào đó.
Mô hình CSDL xác suất là một bổ sung có ý nghĩa về cả lý thuyết và áp dụng cho
mô hình CSDL mờ để mô hình hóa và xử lý cả thông tin không chắc chắn và không chính
xác. CSDL mờ không thể thay thế CSDL xác suất và ngược lại. CSDL mờ biểu diễn và xử
lý thông tin thiếu chính xác, không rõ ràng, được định nghĩa yếu (ill-defined), còn CSDL
xác suất biểu diễn và xử lý thông tin thiếu chắc chắn, không đầy đủ, được định nghĩa tốt

(well-defined). Theo chúng tôi được biết, hiện chưa có mô hình cơ sở dữ liệu quan hệ nào
kết hợp được cả lý thuyết tập mờ và lý thuyết xác suất để mô hình hóa và xử lý thông tin
hàm chứa cả tính không chính xác và không chắc chắn. Tuy nhiên, nếu có một mô hình
như vậy thì các cơ sở dữ liệu quan hệ mờ và xác suất với bản chất hướng giá trị, bị ràng
buộc bởi cơ sở toán học là lý thuyết quan hệ, cũng không thể bao quát thế giới thực của các
đối tượng. Nói cách khác, các mô hình CSDL quan hệ gặp khó khăn và hạn chế khi mô
hình hóa đối tượng và quan hệ giữa chúng, đặc biệt là quan hệ thừa kế. Điều đó thúc đẩy
các nghiên cứu về mô hình CSDL hướng đối tượng mờ và xác suất.

2.3 Cơ sở dữ liệu hướng đối tượng mờ và xác suất
Như đã giới thiệu ở trên, so với mô hình CSDL quan hệ truyền thống, các mô hình
CSDL quan hệ mờ và xác suất đã đáp ứng tốt hơn nhu cầu mô hình hóa các áp dụng thực
tế. Tuy nhiên, vì chúng được xây dựng dựa trên lý thuyết quan hệ, hướng giá trị nên vẫn
còn những hạn chế không thể vượt qua. Đó là, chúng không cho phép biểu diễn hành vi,
quan hệ phân cấp và quan hệ thừa kế của các lớp đối tượng trong thế giới thực. Để khắc
phục được các hạn chế này, một giải pháp tự nhiên là áp dụng lý thuyết tập mờ và lý thuyết
xác suất để mở rộng mô hình cơ sở đối tượng truyền thống thành mô hình cơ sở đối tượng
mờ và xác suất. Đã có nhiều mô hình cơ sở đối tượng mờ và xác suất được đề nghị, nhưng
chưa có mô hình nào có thể mô hình hóa bao quát được mọi khía cạnh liên quan đến thông
tin không chắc chắn, không chính xác về các đối tượng.
Các nghiên cứu mở rộng mờ và xác suất của mô hình cơ sở dữ liệu hướng đối tượng
truyền thống tập trung vào các vấn đề sau:

14


×