Tải bản đầy đủ (.docx) (149 trang)

Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.52 MB, 149 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

PHẠM THỊ LAN

TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ
THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

Hà Nội – 2022


BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

PHẠM THỊ LAN

TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ
THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ


LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Chun ngành: Khoa học máy
tính Mã số: 9 48 01 01

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TSKH Nguyễn Cát Hồ
2. PGS.TS Hồ Cẩm Hà

Hà Nội – 2022


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các kết quả
được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác
khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và

giả trước

chưa từng được

cơng bố trong các cơng trình nào khác.
Luận án được hồn thành trong thời gian tơi làm Nghiên cứu sinh tại Học
viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Tác giả

NCS Phạm Thị Lan


LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn là PGS.TSKH

Nguyễn Cát Hồ và PGS.TS Hồ Cẩm Hà. Trong quá trình nghiên cứu và hoàn thành
luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoa học, những kinh
nghiệm quý báu trong nghiên cứu từ hai thầy cơ. Đặc biệt, thầy cơ ln quan tâm,
khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn để hoàn thành luận
án.
Tác giả xin gửi lời cảm ơn chân thành tới các thầy cơ, các phịng ban trong Học
viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điều kiện thuận
lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận án. Tác giả xin
gửi lời cảm ơn tới các thầy cơ và anh chị trong nhóm nghiên cứu Đại số gia tử và ứng
dụng đã luôn chia sẻ, động viên và đưa ra góp ý quý báu đối với vấn đề nghiên cứu của
tác giả.
Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đại học
Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Công nghệ thông
tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, động viên trong suốt
quá trình học tập, nghiên cứu và hoàn thiện bảo vệ luận án.
Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trong đại
gia đình đã luôn hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lý tốt nhất
để thực hiện các nhiệm vụ trong nghiên cứu.
Tác giả

NCS Phạm Thị Lan


1
MỤC LỤC
DANH MỤC CÁC BẢNG........................................................................................... 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ..................................................................... 6
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT....................................................... 8
MỞ ĐẦU..................................................................................................................... 10
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ............................................................. 20

1.1. Một số kiến thức cơ bản về tập mờ............................................................ 20
1.1.1. Định nghĩa tập mờ............................................................................... 20
1.1.2. Biến ngôn ngữ..................................................................................... 21
1.1.3. Phân hoạch mờ.................................................................................... 22
1.2. Khung nhận thức dựa trên lý thuyết tập mờ............................................... 23
1.2.1. Định nghĩa khung nhận thức............................................................... 23
1.2.2. Các ràng buộc về tính giải nghĩa được................................................ 24
1.3. Tổng quan về trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết tập mờ...26
1.3.1. Bài tốn trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực
khai phá dữ liệu............................................................................................... 26
1.3.2. Dạng câu tóm tắt có từ lượng hóa ngơn ngữ và ứng dụng...................29
1.3.3. Trích rút tóm tắt từ cơ sở dữ liệu......................................................... 36
1.4. Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu.........................................38
1.4.1. Giải thuật di truyền giải bài tốn trích rút tập tóm tắt......................... 39
1.4.2. Các yếu tố trong mơ hình giải thuật di truyền trích rút tập câu tóm tắt
...........................................................................................................................40
1.5. Lý thuyết đại số gia tử................................................................................ 41
1.5.1. Cấu trúc đại số cho miền giá trị của biến ngôn ngữ............................42
1.5.2. Đại số gia tử mở rộng mơ hình lõi ngữ nghĩa của hạng từ..................48
1.6. Kết luận chương 1...................................................................................... 55


2
CHƯƠNG 2. VẤN ĐỀ NỘI DUNG THƠNG TIN CÂU TĨM TẮT VÀ BIỂU DIỄN
TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH........................................................ 56
2.1. Vai trị của khung nhận thức trong bài tốn trích rút tóm tắt bằng ngơn ngữ
dựa trên lý thuyết tập mờ..................................................................................... 56
2.2. Vấn đề nội dung thông tin của các câu tóm tắt bằng ngơn ngữ..................59
2.3. Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử............................62
2.4. Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC............................. 64

2.4.1. Cấu trúc đa ngữ nghĩa trong LFoC...................................................... 65
2.4.2. Mơ hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC.....................66
2.4.3. Tính mở rộng được của LFoC............................................................. 68
2.5. Xây dựng cấu trúc ngữ nghĩa tính tốn giải nghĩa được của LFoC............70
2.5.1. Thủ tục xây dựng ngữ nghĩa tính tốn cho LFoC................................ 70
2.5.2. Tính giải nghĩa được của ngữ nghĩa tính tốn với cấu trúc đa thể.......76
2.6. Kết luận chương 2...................................................................................... 82
CHƯƠNG 3. PHƯƠNG PHÁP TRÍCH RÚT CÂU TĨM TẮT NGÔN NGỮ DỰA TRÊN
ĐẠI SỐ GIA TỬ.............................................................................................................. 84
3.1. Cú pháp câu tóm tắt trong ngơn ngữ tự nhiên............................................ 84
3.2. Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử............85
3.2.1. Các thành phần chính trong phương pháp đề xuất..............................86
3.2.2. Tính mở rộng được của phương pháp đề xuất..................................... 89
3.3. Thực nghiệm.............................................................................................. 90
3.3.1. Đánh giá thông tin của câu tóm tắt...................................................... 90
3.3.2. Mục tiêu thực hiện thí nghiệm............................................................ 91
3.3.3. Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính.....................93
3.3.4. Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng
được

95


3
3.3.5. Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu
...........................................................................................................................98
3.3.6. Thí nghiệm 3: Trích rút phân phối ngơn ngữ cho các nhóm mờ........103
3.4. Kết luận chương 3.................................................................................... 107
CHƯƠNG 4. TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢI THUẬT DI
TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM....................................................... 109

4.1. Mối liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt có từ lượng hóa...109
4.1.1. Liên hệ giữa luật kết hợp ngơn ngữ và câu tóm tắt bằng ngơn ngữ...110
4.1.2. Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt 111
4.2. Bài tốn trích rút tập con câu tóm tắt tối ưu............................................. 113
4.3. Giải thuật di truyền trích rút tập câu tóm tắt tối ưu..................................115
4.3.1. Hàm đánh giá độ thích nghi.............................................................. 115
4.3.2. Các phép tốn trong mơ hình giải thuật di truyền lai Hybrid-GA.....117
4.3.3. Một số hạn chế trong mơ hình giải thuật di truyền lai Hybrid-GA và
định hướng khắc phục.................................................................................... 118
4.4. Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam...........119
4.4.1. Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt
.........................................................................................................................120
4.4.2. Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ
.........................................................................................................................121
4.5. Đề xuất mơ hình giải thuật di truyền kết hợp chiến lược tham lam trích rút
tập câu tóm tắt tối ưu......................................................................................... 124
4.5.1. Mã hóa các đối tượng........................................................................ 124
4.5.2. Hàm đánh giá độ thích nghi.............................................................. 124
4.5.3. Mơ hình giải thuật di truyền Greedy-GA.......................................... 125
4.6. Thực nghiệm............................................................................................ 127
4.6.1. Cơ sở dữ liệu và dạng câu tóm tắt..................................................... 128


4.6.2. Khung nhận thức ngơn ngữ của các thuộc tính và từ lượng hóa Q....128
4.6.3. Tham số của giải thuật di truyền....................................................... 129
4.6.4. Kết quả thực nghiệm......................................................................... 129
4.7. Kết luận chương 4.................................................................................... 131
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................................. 133
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ....................................................... 136
TÀI LIỆU THAM KHẢO......................................................................................... 137



DANH MỤC CÁC BẢNG
Bảng 1.1: Dữ liệu ví dụ về 10 cơng việc....................................................... 32
Bảng 1.2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ ngôn
ngữ trong Dom(LƯƠNG)............................................................................................ 32
Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt.........................37
Bảng 1.4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột............44
Bảng 3.1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB) IS
‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc............................ 97
Bảng 3.2: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa
Q có tính riêng mức 3 ℱQ,(3)................................................................................................................................... 105
Bảng 3.3: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng hóa
Q có tính riêng mức 4 ℱQ,(4).........................................................................................................................................105
Bảng 3.4: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa
Q có tính riêng mức 3 ℱQ,(3).........................................................................................................................................106
Bảng 3.5: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng hóa
Q có tính riêng mức 4 ℱQ,(4).........................................................................................................................................106
Bảng 4.1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu

114

Bảng 4.2: Kết quả trung bình 10 lần chạy mơ hình Greedy-GA và kết quả thực
nghiệm mơ hình Hybrid-GA trong [38]..................................................................... 131



DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Ba kiểu tập mờ phổ biến............................................................... 21
Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến
LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)....................................... 21
Hình 1.3. Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt
...................................................................................................................................23
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số................................ 24
Hình 1.5: Khung nhận thức ngơn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa
không đúng về thứ tự ngữ nghĩa................................................................................... 25
Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt
25 Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu.............................. 26
Hình 1.8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn [0,1]
của từ lượng hóa tương đối.......................................................................................... 32
Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H =
{L, V}...................................................................................................................... 46
Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa. .48
Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’.......49
Hình 1.12: Các khoảng tính mờ của hạng từ trong X
sinh ra từ c+.........52
en,(3)

Hình 1.13: Các tập mờ hình thang cho các hạng từ trong X(2)..................................55
Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngơn ngữ thành một cấu
trúc tính tốn phù hợp.................................................................................................. 60
Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của trong
LFoC: quan hệ thứ tự và quan hệ tính chung – riêng................................................... 67
Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ3 với tập gia tử
H = {L, V}............................................................................................................... 72
Hình 2.4: Các khoảng tính mờ của các hạng từ trong X(3) sinh từ cấu trúc Đại số
gia tử với tập gia tử H = {L, V}.................................................................................... 74

Hình 2.5: Một phần kết hợp các tập mờ hình thang ở mức k và mức k+1 trên
cùng miền tham chiếu [0, 1], với |H| = |H+| = 2........................................................... 80
Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng ngơn
ngữ dựa trên lý thuyết đại số gia tử.............................................................................. 87


Hình 3.2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa
trong ℱQ,1, ℱQ,2 và ℱQ,3.............................................................................................................................................. 96
Hình 3.3: Cây phân cấp biểu diễn phân phối ngơn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘retired’ AND Y = ‘no’................................................................. 101
Hình 3.4: Cây phân cấp biểu diễn phân phối ngơn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘student’ AND Y = ‘no’................................................................ 101
Hình 3.5: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘housemaid’ AND Y = ‘no’.......................................................... 101
Hình 4.1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt..........124
Hình 4.2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa
.................................................................................................................................130


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Các ký hiệu
Ký hiệu
UA
LDA
AA
SL
T
ℱA

ℱA, κ

ℱA, (κ)
G
S≤,G
��,
G



BA
BA,κ
m(x)
(h)
(x)
T(ℱκ)

(x)
T(ℱκ)
D
Mls
o(Es)
o(Fq)
KBD, t
��
��

Ý nghĩa
Miền tham chiếu số của thuộc tính A
Miền hạng từ của thuộc tính (biến ngơn ngữ) A
Cấu trúc đại số gia tử cho thuộc tính A
Câu tóm tắt bằng ngơn ngữ

Giá trị chân lý (đúng đắn) của câu tóm tắt
Khung nhận thức ngơn ngữ cho thuộc tính A
Mức tính riêng
Khung nhận thức ngơn ngữ cho thuộc tính A ở mức tính riêng 
Khung nhận thức ngơn ngữ cho thuộc tính A có mức tính riêng khơng
q 
Quan hệ chung – riêng
Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng
của miền hạng từ của biến ngôn ngữ
Cấu trúc đa ngữ nghĩa và phân cấp của khung nhận thức có mức tính
riêng 
Cấu trúc bụi biểu diễn quan hệ ngữ nghĩa các hạng từ trong miền hạng
từ của thuộc tính A
Một thành phần gồm  mức của cấu trúc bụi BA
Độ đo tính mờ của hạng từ x
Độ đo tính mờ của gia tử h
Khoảng tính mờ của hạng từ x
Tập tất cả các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung
nhận thức ℱκ
Tập mờ biểu diễn ngữ nghĩa cho hạng từ x
Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ
nghĩa cho các hạng từ trong ℱκ
Cơ sở dữ liệu quan hệ
Phương pháp trích rút các câu tóm tắt bằng ngơn ngữ
Thành phần kết luận trong một câu tóm tắt
Thành phần lọc trong một câu tóm tắt
Cơ sở tri thức về tập dữ liệu D tại thời điểm t
Độ tốt của một câu tóm tắt
Độ tốt của một tập câu tóm tắt



��
Dom(X)
���
supp(Fq)
St(Q)

Độ đa dạng của tập câu tóm tắt
Miền hạng từ của từ của biến ngơn ngữ X
Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền
Độ hỗ trợ cho thành phần lọc Fq
Trọng số ưu tiên của từ lượng hóa Q

Các từ viết tắt
Chữ viết tắt

Tiếng Anh

Tiếng Việt

LS

Linguistic Summaries

Câu tóm tắt bằng ngơn ngữ

LSMd

Linguistic Summarization Method


Phương pháp trích rút tóm tắt
ngơn ngữ

KDD

Knowledge Discovery in Database

Khai phá tri thức từ cơ sở dữ
liệu

FoC

Frame of Cognition

Khung nhận thức

LFoC

Linguistic Frame of Cognition

Khung nhận thức ngôn ngữ

UA

Universe of A

Miền tham chiếu số của thuộc
tính A

LDA


Linguistic Domain of A

Miền hạng từ của thuộc tính
(biến ngơn ngữ) A

EnHA

Enlarge Hedge Algebra

Đại số gia tử mở rộng

IVQM

Interval Value Quatification
Mapping

Ánh xạ định lượng ngữ nghĩa
khoảng

RW

Real world

Thế giới thực

LS-CP

Linguistic Summarization-Content
Problem


Bài tốn nội dung thơng tin câu
tóm tắt

FRBS

Fuzzy rule based system

Hệ dựa trên luật mờ

fs-REP

fuzzy set – representation

Biểu diễn bằng tập mờ

HA-TFS-MG

Hedge Algebra – Trapezoid Fuzzy
Set – Multi Granualarity

Các tập mờ hình thang với cấu
trúc đa thể hạt xây dựng từ
tham số định lượng của cấu
trúc đại số gia tử

Greedy-GA

Greedy genetic algorithm


Giải thuật di truyền kết hợp
chiến lược tham lam


MỞ ĐẦU
1. Tính cấp thiết của đề tài và động lực nghiên cứu
Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập và lưu
trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm ẩn từ
tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu. Nhiều phương pháp khác nhau
đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữ liệu hay cơ sở
dữ liệu. Trong đó, phương pháp tính tốn mềm nói chung và tập mờ nói riêng là một
hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụng trong thực tế [1, 2].
Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận cho phép phát triển các
phương pháp khai phá dữ liệu mà kết quả có thể là những tri thức được diễn đạt bằng
ngơn ngữ tự nhiên. Vì ngơn ngữ tự nhiên là phương tiện giao tiếp hàng ngày của con
người, nên dạng tri thức bằng ngơn ngữ tự nhiên có ưu điểm là dễ hiểu, dễ sử dụng cho
mọi đối tượng người dùng. Hơn nữa, chúng có thể được phát thanh tự động hoặc được
sử dụng trong các hệ sản sinh báo cáo văn bản tự động. Do đó, hướng nghiên cứu trích
rút tri thức diễn đạt bằng ngơn ngữ tự nhiên từ tập dữ liệu là có tính thời sự và ý nghĩa
khoa học cũng như thực tiễn.
Các phương pháp trích rút tri thức ngơn ngữ dựa trên lý thuyết tập mờ đã đạt
được nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiều lớp
bài tốn khác nhau. Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ và xây
dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toán hồi quy
và các bài toán điều khiển mờ. Trong các bài toán này, thực chất hệ luật ngôn ngữ là
phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyết định được dựa
trên tri thức ngôn ngữ. Hiệu quả của các phương pháp giải chúng được đánh bằng định
lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bình phương trung bình
(Mean Squared Error - MSE). Do đó, nội dung thơng tin của các tri thức trong hệ luật
ngôn ngữ chưa được xem xét và coi trọng.

Một bài tốn trích rút tri thức ngơn ngữ từ dữ liệu được Yager đề xuất năm 1982
[3] dựa trên phương pháp luận của lý thuyết tập mờ là bài tốn tóm tắt dữ liệu bằng
ngơn ngữ (linguistic summarization of data). Trong bài tốn này, chính nội dung thơng
tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng. Trên cơ sở đó, ơng đã phát triển
một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa


ngôn ngữ [4-6]. Các câu này được coi là các mệnh đề mờ diễn đạt tri thức ẩn dấu trong
tập dữ liệu số được xem xét.
Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoa học,
điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo và cộng sự
[18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz và cộng sự
[38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tích kinh doanh
hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một số lĩnh vực
khác [38, 40]. Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn của việc nghiên
cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngơn ngữ tự nhiên.
Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổng
quát như sau:
“Q y are S” và “Q F y are S”
Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a half’; S
(summarizer) là kết luận sử dụng ngơn ngữ tự nhiên, ví dụ như “AGE is ‘young’”,
“SALARY is ‘high’”; F (qualifier) là điều kiện lọc, ví dụ như “AGE is ‘old’”,
“QUALIFICATION is ‘high’”. Tổng quát hơn, thành phần S và F có thể là một biểu
thức logic của các điều kiện trên nhiều thuộc tính khác nhau.
Ví dụ, ta có thể có các câu tóm tắt ngơn ngữ trích rút từ cơ sở dữ liệu mà giá trị
của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most wokers
are young”; (2) “A half of workers with high qualification are middle”. Trong câu thứ
nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính đang xem xét
(AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận S trong tập dữ
liệu. Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết luận trên thuộc

tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F (workers with high
qualification), từ lượng hóa Q (a half) diễn đạt tỷ lệ các đối tượng thỏa kết luận S trong
nhóm con này.
Các câu tóm tắt như trên được coi là các mệnh đề mờ diễn đạt tri thức về các đối
tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu. Do đó, với mỗi câu tóm tắt
bằng ngơn ngữ (Linguistic Summary - LS), một u cầu đặt ra là cần tính tốn một giá
trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của


mệnh đề mờ, ký hiệu là T (T  [0, 1]). T được coi là độ đo cơ bản cần thiết để đánh giá
câu LS. Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ dữ liệu
đã cho. Trong phương pháp trích rút tóm tắt ngơn ngữ (Linguistic Summarization
Method - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập mờ biểu diễn ngữ
nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thành phần đầu vào quan
trọng của LSMd. Các hàm thuộc này được sử dụng để tính giá trị đúng đắn T. Do đó,
việc xây dựng các tập mờ đóng vai trị nền tảng cho việc tính giá trị độ đo T cho các
câu tóm tắt. Tức là, nó ảnh hưởng trực tiếp đến kết quả của các phương pháp trích rút
tóm tắt ngơn ngữ.
Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMd dựa
trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữ được
gán cho chúng. Trong khi người dùng giải nghĩa các câu LS dựa trên ngữ nghĩa vốn có
của nó trong ngơn ngữ tự nhiên, các từ ngôn ngữ được lựa chọn bởi LSMd lại chỉ được
xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựng dựa trên trực giác của
nhà thiết kế, phát triển phương pháp luận và giải thuật trong LSMd. Do đó, với cùng
một câu LS, nó có thể mang hai nội dung thông tin. Thứ nhất là nội dung gán cho một
câu LS bởi q trình tính tốn tương tác giữa dữ liệu của cơ sở dữ liệu và các tập mờ
(nội dung này mang tính chủ quan). Thứ hai là nội dung của câu LS trong ngôn ngữ tự
nhiên mà người dùng thu nhận khi đọc câu LS đó (nội dung này mang tính khách
quan). Hai nội dung này nhìn chung là khác nhau nếu khơng có tiêu chuẩn đảm bảo
cách xây dựng tập mờ biểu diễn một cách đúng đắn ngữ nghĩa vốn có của các từ ngôn

ngữ được gán cho chúng. Đây là vấn đề cốt yếu, cịn được gọi là vấn đề hay bài tốn
nội dung thơng tin của các câu LS trích rút từ cơ sở dữ liệu mà luận án cần giải quyết.
Tuy nhiên, vấn đề này lại chưa được đặt ra trong các nghiên cứu trong phạm vi lý
thuyết tập mờ.
Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài tốn nội
dung thơng tin của các câu LS. Đây là vấn đề đầy thách thức và chưa được xem xét
trong các nghiên cứu về LSMd đã công bố. Tuy nhiên, có các vấn đề tương tự trong
logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề trên là khái
niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý thuyết T của
Tarski và cộng sự trong [44]. Khái niệm này được hiểu như sau: giả sử


ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại. Khi đó, ta có thể
chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn. Điều này có thể thực hiện
được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là nghịch
ảnh của nghiệm bài toán P’ trong T.
Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau:
Thứ nhất, vấn đề tính giải nghĩa (interpretability) trong bài tốn trích rút câu
tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47]. Hơn nữa, các nghiên
cứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc khơng, có dễ hiểu
nội dung khơng. Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câu chứa từ
lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu. Do đó, dẫn
dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế độ dài của câu,
giới hạn về số lượng từ ngơn ngữ là đảm bảo tính dễ đọc. Tuy nhiên, như đã phân tích
ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giải nghĩa một cách
đúng đắn nội dung thông tin của các câu LS. Tức là, nội dung tính tốn dựa trên các
tập mờ trong một phương pháp LSMd gán cho câu LS phải tương đồng (bằng nhau
trong môi trường mờ) với nội dung mà các câu LS phản ánh khi người dùng giải nghĩa
trong ngơn ngữ tự nhiên. Tính giải nghĩa theo quan điểm này chưa được đề cập đến
trong các LSMd dựa trên lý thuyết tập mờ đã có.

Thứ hai, cịn có những hạn chế khơng thỏa đáng trong thiết kế các tập mờ và
gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của các thuộc
tính. Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tính trong giới
hạn 7  2 và các tập mờ thường tạo thành phân hoạch mạnh trên miền tham chiếu số.
Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàng trong thiết kế các tập
mờ [40, 42, 48]. Khi giới hạn số lượng từ ngơn ngữ của các thuộc tính sẽ dẫn đến giới
hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu. Điều này không phù hợp với thực
tiễn sử dụng ngôn ngữ tự nhiên của con người. Trong thực tế, tùy từng ứng dụng, từng
giai đoạn mà con người cần mở rộng tập hạng từ để mô tả tính chất, đặc điểm của
thuộc tính. Khi mở rộng tập hạng từ, tập tri thức ngôn ngữ cũng được mở rộng để nhận
thức tốt hơn về thế giới thực. Do đó, tính mở rộng được của tập hạng từ và tập câu tóm
tắt (được coi là tập tri thức ngôn ngữ) là vấn đề cần được nghiên cứu trong giải bài
tốn trích rút tóm tắt bằng ngơn ngữ.


Thứ ba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn hơn
sẽ dẫn đến bùng nổ số lượng câu tóm tắt. Tuy nhiên, lúc này lại có thể thu được những
câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữ liệu. Từ
đó đặt ra bài tốn tìm kiếm một tập con các câu tóm tắt tối ưu từ khơng gian lớn chứa
tất cả các câu tóm tắt. Một số nghiên cứu đã áp dụng mơ hình giải thuật di truyền để
giải bài toán tối ưu này [18, 38, 39, 41, 49]. Ngồi các phép tốn di truyền cơ bản, một
số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới để tăng hiệu quả của việc
tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán cleaning trong [38, 41], phép toán
improver trong [38, 39]. Tuy nhiên, trong kết quả thực nghiệm [38, 41], tập câu tóm tắt
tối ưu vẫn chứa các câu tóm tắt khơng có chất lượng khi mà giá trị đúng đắn T = 0
hoặc T < 0.8. Do đó, vấn đề trích rút một tập câu tóm tắt tối ưu vẫn cần phải tiếp tục
nghiên cứu để có kết quả tốt hơn nữa.
Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xác
định là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thơng tin của
các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mở rộng

tập hạng từ của các thuộc tính. Hơn nữa, luận án cần đề xuất cải tiến mới cho mơ hình
giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu.
Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lý
thuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W. Wechler đề xuất năm 1990 và
1992 [50, 51]. Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu [52-55]
để mơ hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miền hạng từ
của các biến ngơn ngữ. Tính giải nghĩa ở mức thấp (mức từ vựng) của các hệ dựa trên
luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyết ĐSGT. Điều này
chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận để thực hiện được các
nhiệm vụ nghiên cứu trong luận án đã nêu trên.
Từ những nghiên cứu về bài tốn trích rút tóm tắt bằng ngơn ngữ và phương
pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm tắt dữ liệu bằng ngơn ngữ theo
cách tiếp cận Đại số gia tử” làm đề tài nghiên cứu của luận án.
2. Mục tiêu, đối tượng, phạm vi nghiên cứu
2.1. Mục tiêu nghiên cứu


Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT để
phát triển một phương pháp trích rút câu tóm tắt bằng ngơn ngữ để giải quyết bài tốn
nội dung thơng tin của các câu LS. Hơn nữa, phương pháp đề xuất cịn có khả năng
tương thích với tính mở rộng được của tập hạng từ của các thuộc tính. Mục tiêu nghiên
cứu khác là đề xuất cải tiến cho mơ hình giải thuật di truyền để trích rút tập câu LS tối
ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp tri thức ngôn ngữ
phong phú, đa dạng hơn.
Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau:
o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin của
câu tóm tắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩa
được của cấu trúc các tập mờ được xây dựng trong mờ hóa miền giá trị của
các thuộc tính.
o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ

biểu diễn đúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng.
Đồng thời, các tập mờ này cũng mở rộng được tương ứng với tính mở rộng
được của miền ngơn ngữ thuộc tính.
o Đề xuất phương pháp LSMd đảm bảo giải được bài tốn nội dung thơng tin
câu tóm tắt và tương thích được với tính mở rộng miền ngơn ngữ của các
thuộc tính. Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập
từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức
đã được trích rút trước đó.
o Phát triển phương pháp và xây dựng được mơ hình giải thuật di truyền
trích rút tập câu tóm tắt tối ưu có cải tiến so với các mơ hình giải thuật di
truyền đã có.
2.2. Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án bao gồm:
o Khung nhận thức mờ và khung nhận thức ngơn ngữ. Tính giải nghĩa được
của khung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thức
ngôn ngữ tương ứng.


o Vấn đề nội dung thông tin của các câu tóm tắt ngơn ngữ từ dữ liệu. Phương
pháp trích rút câu tóm tắt bằng ngơn ngữ sử dụng tập mờ biểu diễn ngữ
nghĩa cho hạng từ ngôn ngữ.
o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinh
khung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho.
o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu.
2.3. Phạm vi nghiên cứu
Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyết tập
mờ để trích rút tóm tắt bằng ngôn ngữ từ cơ sở dữ liệu. Trong đó, tập dữ liệu đầu vào
là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số, mẫu câu tóm
tắt có chứa từ lượng hóa ngơn ngữ.
Luận án nghiên cứu về các mơ hình của giải thuật di truyền áp dụng trong bài

tốn trích rút một tập câu tóm tắt tối ưu từ khơng gian chứa tất cả các câu tóm tắt có
thể trích rút từ cơ sở dữ liệu.
3. Phương pháp nghiên cứu
Các phương pháp nghiên cứu được sử dụng trong luận án gồm có:
o Phương pháp tổng hợp, phân tích: được sử dụng khi tìm hiểu kiến thức cơ
sở về trích rút tóm tắt bằng ngơn ngữ, lý thuyết ĐSGT. Từ đó tìm được các
hạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cần
giải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiên
cứu mới.
o Phương pháp so sánh: được sử dụng để tìm ra điểm khác biệt của bài tốn
trích rút tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữ
liệu; so sánh phương pháp luận khi sử dụng lý thuyết tập mờ và lý thuyết
ĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờ biểu diễn ngữ nghĩa
các hạng từ trong miền giá trị của biến ngơn ngữ; các mơ hình giải thuật di
truyền trong trích rút tóm tắt bằng ngơn ngữ.
o Phương pháp thiết kế và chứng minh: được sử dụng khi đưa ra phương
pháp xây dựng các tập mờ và thuật tốn trích rút tóm tắt; phát biểu và
chứng minh các định lý về đảm bảo tính giải nghĩa của nội dung thơng tin
câu tóm tắt và tính mở rộng được của phương pháp đề xuất.


o Phương pháp thực nghiệm: thực hiện thực nghiệm để chứng tỏ tính khả thi
và ưu điểm của phương pháp đề xuất dựa trên lý thuyết ĐSGT; thực hiện
cải tiến mơ hình giải thuật di truyền để so sánh với mơ hình đã có trên cùng
một tập dữ liệu đầu vào.
4. Các đóng góp chính của luận án
Sau những nỗ lực nghiên cứu, luận án có những đóng góp chính như sau:
 Luận án đã chỉ ra điều kiện đảm bảo tính giải nghĩa của biểu diễn tập mờ
cho miền hạng từ của các thuộc tính dựa trên khái niệm giải nghĩa trong
logic và tốn học của Tarski. Từ đó, đưa ra tiêu chuẩn ràng buộc đối với tập

các tập mờ cần xây dựng để biểu diễn ngữ nghĩa của các từ ngôn ngữ gán
cho chúng. Một thủ tục HA-TFS-MG (Hedge Algebra – Trapezoid Fuzzy
Set - Multiple Granularity) được đề xuất để sản sinh các tập mờ hình thang
từ bộ tham số định lượng của một cấu trúc ĐSGT của thuộc tính. Nó đảm
bảo các tập mờ này trong cấu trúc đa thể được thủ tục sinh ra là ảnh đẳng
cấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính. Khi đó, một
thuật tốn trích rút câu tóm tắt tính tốn với các hàm thuộc của hình thang
này sẽ được coi như tương tác trực tiếp với ngữ nghĩa định tính của từ ngơn
ngữ.
 Luận án đã đề xuất một phương pháp trích rút câu tóm tắt (LSMd) tương
tác trực tiếp, hiệu quả với ngữ nghĩa định tính của các hạng từ trong câu
tóm tắt. LSMd được đề xuất có khả năng tương tác được với tính mở rộng
các khung nhận thức ngôn ngữ của các thuộc tính để mở rộng tập câu tóm
tắt bằng bổ sung thêm các câu tóm tắt mới. Tính khả thi và những ưu điểm
của phương pháp đã đề xuất được chứng tỏ qua các kết quả thực nghiệm.
 Luận án đề xuất sử dụng chiến lược tham lam trong hàm Random-GreedyLS để sinh câu tóm tắt hướng đến tăng độ đo tốt và độ đa dạng của tập câu
tóm tắt. Đồng thời, luận án đã xây dựng mơ hình giải thuật di truyền
Greedy-GA có sử dụng hàm Random-Greedy-LS để tìm kiếm một tập câu
tóm tắt tối ưu từ một cơ sở dữ liệu.
5. Bố cục luận án
Luận án gồm phần mở đầu, 04 chương và phần kết luận:


Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;
mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng góp
chính của luận án; bố cục luận án.
Chương 1: Một số kiến thức cơ sở
Trong chương này, luận án trình bày các kiến thức cơ sở liên quan đến các bài
toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu. Cụ thể, các
nội dung gồm có một số kiến thức cơ bản về tập mờ, khung nhận thức ngôn ngữ dựa

trên tập mờ, tổng quan về trích rút tóm tắt bằng ngơn ngữ và vấn đề trích rút tập câu
tóm tắt tối ưu và tổng quan về lý thuyết ĐSGT. Các nội dung trong chương 1 là cơ sở
lý thuyết được sử dụng để đưa ra một số đề xuất mới giải quyết các nhiệm vụ nghiên
cứu đã đặt ra.
Chương 2: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ
của miền ngơn ngữ thuộc tính
Phần đầu chương 2, luận án trình bày và phân tích bài tốn nội dung thơng tin
của các câu tóm tắt được sinh ra bởi các thuật tốn tính tốn trên các tập mờ. Ý tưởng
giải bài toán này được gợi mở từ khái niệm giải nghĩa trong logic của Tarski. Phần tiếp
theo, luận án trình bày phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ
từ bộ tham số định lượng của ĐSGT dùng để mờ hóa miền tham chiếu của các thuộc
tính. Phần cuối chương, luận án phát biểu và chứng minh các định lý để chứng tỏ rằng
các tập mờ được xây dựng từ thủ tục đề xuất đảm bảo biểu diễn đúng đắn ngữ nghĩa
của các hạng từ trong miền ngơn ngữ của thuộc tính. Đồng thời, các tập mờ này cũng
có khả năng mở rộng được như tính mở rộng được của miền ngơn ngữ của thuộc tính.
Chương 3: Phương pháp trích rút câu tóm tắt ngơn ngữ dựa trên Đại số
gia tử
Phần đầu chương 3, luận án trình bày đề xuất một phương pháp trích rút câu
tóm tắt ngơn ngữ Mls tính tốn trên các tập mờ được sinh bởi thủ tục đã đề xuất trong
chương 2. Nội dung tiếp theo là một chuỗi các thực nghiệm với cơ sở dữ liệu Bank
Marketing trên kho dữ liệu UCI để chứng tỏ tính hiệu quả và ưu điểm của phương
pháp Mls đã đề xuất. Mỗi thực nghiệm cụ thể gồm có các kịch bản, kết quả và phân
tích ý nghĩa của kết quả nhận được.


Chương 4: Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền
kết hợp chiến lược tham lam
Phần đầu chương 4, luận án trình bày về mối liên hệ giữa bài tốn trích rút luật
kết hợp ngơn ngữ và trích rút tóm tắt ngơn ngữ; bài tốn trích rút tập con câu tóm tắt
tối ưu. Nội dung tiếp theo là phân tích các mơ hình giải thuật di truyền đã có làm cơ sở

cho đề xuất cải tiến cho mơ hình giải thuật di truyền mới giải bài tốn trích rút tập câu
tóm tắt tối ưu. Các đề xuất mới trong chương này gồm có hàm Random-Greedy-LS
dựa trên chiến lược tham lam để sản sinh một câu tóm tắt tốt và hướng đến tính đa
dạng của tập câu tóm tắt tối ưu và mơ hình giải thuật di truyền Greedy-GA sử dụng
hàm Random-Greedy-LS. Phần cuối chương là thực nghiệm so sánh mơ hình GreedyGA đề xuất mới so với mơ hình Hybrid-GA để chứng tỏ ưu điểm của các đề xuất.
Phần kết luận và hướng phát triển: Trình bày một số kết luận về ý nghĩa của
những kết quả đã đạt được của luận án và một số hướng nghiên cứu tiếp theo.


CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương này, luận án trình bày một số kiến thức cơ sở trong lý thuyết tập
mờ, bài tốn trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ và bài tốn tìm
kiếm một tập câu tóm tắt tối ưu từ cở sở dữ liệu. Phần cuối chương, luận án trình bày
những kiến thức cơ bản trong lý thuyết ĐSGT cơ sở và ĐSGT mở rộng. Những kiến
thức cơ sở trong chương 1 sẽ được sử dụng khi trình bày các kết quả nghiên cứu trong
các chương tiếp theo.
1.1. Một số kiến thức cơ bản về tập mờ
Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làm cho
máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tự nhiên.
Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ và mỗi tập rõ là
một trường hợp riêng của khái niệm tập mờ. Tập cổ điển chỉ xem xét một phần tử có
thuộc hay khơng thuộc vào nó, với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có
thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong đoạn [0, 1].
1.1.1. Định nghĩa tập mờ
Cho U là một tập hợp các điểm (đối tượng), một tập con mờ X trên miền tham
chiếu U được định nghĩa như sau:
Định nghĩa 1.1 [57-59]: Một tập mờ X trên U là một tập mà mỗi phần tử của
nó là một cặp các giá trị (x, X(x)), trong đó x  U và X là ánh xạ:

X: U  [0, 1]

Ánh xạ X được gọi là hàm thuộc (membership function) của tập mờ X. Tập U
được gọi là tập cơ sở của tập mờ X. Giá trị X(x) biểu thị mức độ thuộc của phần tử x
vào tập mờ X. Nếu giá trị X(x) càng gần 1 thì mức độ thuộc của x vào X càng cao. Khi

X(x) chỉ nhận giá trị 0 hoặc 1 thì tập X là tập con rõ của tập U. Do đó, tập mờ là khái
niệm mở rộng của tập rõ.
Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1]. Trong
các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổ biến như
trong Hình 1.1. Các tập mờ này được gọi là các tập mờ chuẩn vì có giá trị


hàm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều
nhất do tính đơn giản và dễ hiểu với người dùng.

(a) Tập mờ tam giác

(b) Tập mờ hình thang

(c) Tập mờ hình chng

Hình 1.1: Ba kiểu tập mờ phổ biến
1.1.2. Biến ngơn ngữ
Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặc câu
trong ngơn ngữ tự nhiên hoặc ngơn ngữ nhân tạo”. Ví dụ khi nhận xét về lương của
nhân viên tập sự, chúng ta có thể xem đây là biến ngơn ngữ có tên gọi LƯƠNG và
nhận các giá trị ngôn ngữ như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’. Với mỗi
giá trị ngơn ngữ này, gán cho nó một hàm thuộc tương ứng xác định một tập mờ trên
miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xem Hình 1.2).
Rất thấpThấpTrung bình


Cao

Rất cao

1

0

1

3

5

7

9

10

Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến
LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)
Một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ như sau:
Định nghĩa 1.2 [58, 59]: Biến ngôn ngữ là một bộ năm thành phần (�, T(�), U,
R, M), trong đó � là tên biến, T(�) là tập các giá trị ngôn ngữ của biến �, U là không
gian tham chiếu, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U, R là


×