ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN TẤN HOÀNG
HỆ TƯ VẤN DỰA TRÊN
TRƯỜNG HÀM Ý THỐNG KÊ
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - Năm 2022
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN TẤN HOÀNG
HỆ TƯ VẤN DỰA TRÊN
TRƯỜNG HÀM Ý THỐNG KÊ
Chuyên ngành: Khoa học máy tính
Mã số: 9480101
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1. PGS.TS Huỳnh Xuân Hiệp
2. TS. Huỳnh Hữu Hưng
Đà Nẵng - Năm 2022
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu do tôi thực hiện, dưới sự
hướng dẫn của PGS.TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng.
.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung
thực và không sao chép từ bất kỳ cơng trình nghiên cứu nào khác. Một số kết quả
nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng
trong luận án. Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và
đầy đủ.
Tác giả
Nguyễn Tấn Hoàng
LỜI CẢM ƠN
Để có thể hồn thành luận án này, trước tiên tơi xin bày tỏ lịng biết ơn chân
thành đến PGS.TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng đã tận tình hướng
dẫn, truyền đạt kiến thức và kinh nghiệm q báu cho tơi trong suốt q trình học
tập và nghiên cứu khoa học.
Trong thời gian thực hiện chương trình nghiên cứu sinh tại trường Đại học
Bách khoa Đà Nẵng, tôi luôn được đào tạo và nhận được nhiều điều kiện thuận lợi
cũng như những hỗ trợ kịp thời từ Phịng Đào tạo và Khoa Cơng nghệ thơng tin mà
tôi không thể không ghi nhận nơi đây. Bên cạnh đó, tơi cũng cảm ơn Ban lãnh đạo
Sở Thơng tin và Truyền thông tỉnh Đồng Tháp đã luôn hỗ trợ và tạo điều kiện tốt
nhất về công việc và thời gian để tơi có thể tập trung nghiên cứu. Ngồi ra, tôi cũng
xin chân thành cảm ơn các nhà khoa học đã dành thời gian và công sức đọc và đưa
ra các góp ý vơ cùng hữu ích để luận án được hồn chỉnh hơn.
Cuối cùng, tơi xin được gửi lời cảm ơn sâu sắc nhất đến gia đình, các bạn
nghiên cứu sinh và các đồng nghiệp luôn bên cạnh, giúp đỡ và động viên tôi trong
suốt thời gian học tập, nghiên cứu và hoàn thành luận án.
Đà Nẵng, ngày 09 tháng 8 năm 2022
NCS. Nguyễn Tấn Hoàng
i
MỤC LỤC
LỜI CAM ĐOAN..................................................................................................... I
LỜI CẢM ƠN......................................................................................................... II
MỤC LỤC................................................................................................................ I
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT.................................................. V
DANH MỤC BẢNG............................................................................................ VII
DANH MỤC HÌNH............................................................................................ VIII
1. MỞ ĐẦU.............................................................................................................. 1
2. CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN..........8
2.1. Phân tích hàm ý thống kê................................................................................................8
2.1.1. Các độ đo hàm ý thống kê......................................................................................14
2.1.1.1. Chỉ số hàm ý................................................................................................... 15
2.1.1.2. Cường độ hàm ý..............................................................................................15
2.1.2. Trường hàm ý.........................................................................................................19
2.1.2.1. Biến thiên chỉ số hàm ý...................................................................................19
2.1.2.2. Trường hàm ý..................................................................................................20
2.1.2.3. Mặt đẳng trị hàm ý..........................................................................................21
2.2. Hệ tư vấn..........................................................................................................................22
2.2.1. Các thành phần của một hệ tư vấn......................................................................... 23
2.2.2. Đánh giá................................................................................................................. 24
2.2.2.1. Tổ chức dữ liệu đánh giá mô hình hệ tư vấn.................................................. 24
2.2.2.2. Đánh giá hiệu quả mơ hình hệ tư vấn............................................................. 27
2.2.3. Phân loại.................................................................................................................30
2.2.3.1. Hệ tư vấn dựa trên lọc nội dung......................................................................31
2.2.3.2. Hệ tư vấn dựa trên lọc cộng tác...................................................................... 34
2.2.3.3. Hệ tư vấn lai ghép...........................................................................................42
2.2.3.4. Các hệ tư vấn khác..........................................................................................44
ii
2.2.4. Các lĩnh vực ứng dụng của hệ tư vấn.....................................................................47
2.2.4.1. Quản lý hành chính nhà nước (e-government)............................................... 47
2.2.4.2. Thương mại điện tử (e-commercial)...............................................................48
2.2.4.3. Thư viện điện tử (e-library)............................................................................ 48
2.2.4.4. Học tập trực tuyến (e-learning).......................................................................49
2.2.4.5. Du lịch trực tuyến (e-tourism)........................................................................ 49
2.2.4.6. Quản lý tài nguyên (e-resource)......................................................................49
2.2.5. Một số vấn đề về hệ tư vấn.................................................................................... 50
2.2.5.1. Dữ liệu thưa (Sparsity Problem)..................................................................... 50
2.2.5.2. Thiếu dữ liệu ban đầu (Cold Start)................................................................. 50
2.2.5.3. Khả năng mở rộng (Scalability)......................................................................51
2.2.5.4. Quá chuyên môn (Over Specialization Problem)........................................... 51
2.2.5.5. Xu hướng thiên lệch theo sự phổ biến (Popularity bias)................................ 51
2.2.5.6. Độ đo đối xứng (Symmetric measure problem)............................................. 52
2.2.6. Một số vấn đề về hệ tư vấn dựa trên mô hình khai thác luật................................. 53
2.2.7. Một số vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê.............................55
2.3. Đề xuất nghiên cứu.........................................................................................................60
2.4. Kết luận chương..............................................................................................................61
3. CHƯƠNG 2. MƠ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý......62
3.1. Mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý...........................................63
3.1.1. Phân tích các vấn đề của hệ tư vấn dựa trên mơ hình khai thác luật kết hợp........63
3.1.2. Độ biến thiên hàm ý thống kê và ngưỡng biến thiên hàm ý.................................. 67
3.1.2.1. Độ đo biến thiên hàm ý thống kê....................................................................68
3.1.2.2. Ngưỡng biến thiên chỉ số hàm ý..................................................................... 69
3.1.2.3. Ngưỡng biến thiên cường độ hàm ý................................................................71
3.1.3. Luật kết hợp và khung khai thác luật.....................................................................74
3.1.3.1. Luật kết hợp.................................................................................................... 74
3.1.3.2. Mơ hình hố luật kết hợp và khung khai thác luật kết hợp.............................74
3.1.4. Mơ hình tư vấn và đánh giá mơ hình..................................................................... 92
3.1.4.1. Mơ hình...........................................................................................................92
3.1.4.2. Đánh giá mơ hình............................................................................................96
iii
3.1.4.3. Chọn mơ hình tốt nhất...................................................................................103
3.1.4.4. Tối ưu hố các thơng số của mơ hình........................................................... 105
3.2. Mơ hình tư vấn dựa trên trường hàm ý thống kê....................................................105
3.2.1. Các vấn đề của hệ tư vấn dựa trên biến thiên hàm ý thống kê.............................105
3.2.2. Luật hàm ý và khung khai thác luật hàm ý.......................................................... 106
3.2.2.1. Mơ hình hố luật hàm ý................................................................................ 107
3.2.2.2. Mơ hình hố khung khai thác luật hàm ý......................................................109
3.2.2.3. Thủ tục tư vấn và thuật tốn sử dụng............................................................113
3.2.3. Mơ hình................................................................................................................114
3.2.4. Đánh giá mơ hình.................................................................................................115
3.3. Kết luận chương............................................................................................................122
4. CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ.......................124
4.1. Dữ liệu thực nghiệm.....................................................................................................125
4.1.1. Tập dữ liệu Movielens và phân bố dữ liệu của nó............................................... 125
4.1.2. Tập dữ liệu MSWeb và phân bố dữ liệu của nó...................................................128
4.2. Cơng cụ thực nghiệm....................................................................................................131
4.3. Thực nghiệm..................................................................................................................132
4.3.1. Thực nghiệm mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý.................132
4.3.1.1. Mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo người dùng....133
4.3.1.2. Mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo mục................138
4.3.2. Thực nghiệm mơ hình tư vấn dựa trên trường hàm ý thống kê........................... 144
4.3.2.1. Thực nghiệm trên dữ liệu phân hoạch theo số giao dịch của tập dữ liệu......145
4.3.2.2. Thực nghiệm trên dữ liệu phân hoạch theo mục đánh giá của giao dịch......151
4.4. Kết luận chương............................................................................................................158
5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...................................................... 160
Kết luận.................................................................................................................................160
Hướng phát triển..................................................................................................................161
6. DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ...............163
7. TÀI LIỆU THAM KHẢO.............................................................................. 165
PHỤ LỤC................................................................................................................. I
Phụ lục 1: Chứng minh các độ đo hàm ý thống kê là không đối xứng..............................i
iv
Phụ lục 2: Chứng minh sự tương đương của các công thức chỉ số hàm ý trong trường
hợp dữ liệu nhị phân..............................................................................................................iii
Phụ lục 3: Các Phân phối xác suất quan trọng có liên quan trong luận án...................iv
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Thuật ngữ
Cường độ hàm ý
Biến thiên cường độ hàm ý
Chỉ số hàm ý
Biến thiên chỉ số hàm ý
Tiếng Anh
Implication/Implicative intensity
Propension intensity
Viết tắt
IInt
Implication intensity variation
Implication/Implicative index
Propesion index
IInd
Implication index variation
Độ đo hấp dẫn chủ quan
Subjective interestingness measure
Độ đo hấp dẫn khách quan
Objective interestingness measure
Độ lợi tích lũy giảm dần
Normalized discounted cumulative gain
nDCG
Độ đo Sai số tuyệt đối trung bình
Mean Absolute Error
MAE
Độ đo sai số bình phương trung bình
Mean Square Error
MSE
Độ đo căn bậc hai của sai số bình
phương trung bình
Root Mean Square Error
RMSE
Hệ tư vấn
Recommender/Recommendation
systems
RS
Hệ tư vấn dựa trên luật kết hợp
Association rule based recommender
system
ARRS
Hệ tư vấn dựa trên nội dung
Content-based recommender system
CBRS
Hệ tư vấn dựa trên tri thức
Knowledge-based recommender system
KBRS
Hệ tư vấn lai ghép
Hybrid recommender system
HRS
Hệ tư vấn dựa trên trường hàm ý
thống kê
Statistic implication field based
recommender system
IFSRS
Mặt đẳng trị
Equipotential plane/surface
EP/ES
Mơ hình tư vấn lọc cộng tác dựa trên
biến thiên hàm ý
Implication variation based model
Mơ hình tư vấn theo mức độ quan
trọng xếp hạng hàm ý thống kê trên
người dùng
User implicative rating based model
Mục/Mục dữ liệu
Item
Phân tích hàm ý thống kê
Statistical implicative analysis
Phản ví dụ
Counter-example
Sai số bình phương trung bình
Root of mean squared error
RMSE
Sai số tuyệt đối trung bình
Mean absolute error
MAE
Trường hàm ý thống kê
Statistical implication field
SIF
UIR
SIA
DANH MỤC BẢNG
Bảng 1-1 Dữ liệu các giao dịch phim...................................................................... 11
Bảng 1-2 Trình bày dạng nhị phân dữ liệu các giao dịch phim................................12
Bảng 1-3 Tập dữ liệu các giao dịch đánh giá các bộ phim....................................... 16
Bảng 1-4 Biểu diễn nhị phân của dữ liệu trong Bảng 1-3........................................ 17
Bảng 1-5 Biểu diễn phi nhị phân của dữ liệu trong Bảng 1-3.................................. 18
Bảng 1-6 Bảng ma trận nhầm lẫn kết quả đánh giá mơ hình...................................29
Bảng 2-1 Các độ đo biến thiên hàm ý thống kê....................................................... 69
Bảng 2-2 Biến thiên của ��, ��, ��� và � khi thêm hay bỏ một mục của tập
dữ liệu............................................................................................................... 70
Bảng 2-3 Các đại lượng biến thiên khi một phần tử được bổ sung vào (hay loại bỏ ra
khỏi) mẫu dữ liệu.............................................................................................. 72
Bảng 2-4 Bảng tương quan (Contingency table) giữa �, � cho luật � → �......75
Bảng 2-5 Bảng ma trận nhầm lẫn kết quả đánh giá mô hình.................................102
Bảng 2-6 Bảng ma trận nhầm lẫn kết quả đánh giá mơ hình.................................122
Bảng 3-1 Thống kê dữ liệu đánh giá phim............................................................ 126
Bảng 3-2 Bảng thống kê tập dữ liệu MSWeb........................................................ 128
Bảng 3-3 Mật độ của trường hàm ý trên các mặt đẳng trị và chỉ số hàm ý của nó.134
Bảng 3-4 Mặt đẳng trị chỉ số hàm ý thứ 1 trên trường hàm ý................................ 134
Bảng 3-5 Tổng hợp các chỉ số lỗi dự đốn của mơ hình ISF................................. 136
Bảng 3-6 Mật độ của trường hàm ý trên các mặt đẳng trị và chỉ số hàm ý theo yếu tố
biến thiên byFactor......................................................................................... 139
Bảng 3-7 Các luật hàm ý và chỉ số hàm ý trên mặt đẳng trị số 3...........................139
Bảng 3-8 Chỉ số lỗi dự đốn của mơ hình ISF với các mơ hình IBCF và UBCF...141
Bảng 3-9 Thực nghiệm độ chính xác hai mơ hình trên tập dữ liệu nhị phân..........146
Bảng 3-10 Độ chính xác thực nghiệm hai mơ hình trên tập dữ liệu định lượng....148
.
DANH MỤC HÌNH
Hình 0-1 Mối quan hệ giữa các chương trong luận án...............................................7
Hình 1-1 Minh hoạ thành phần của phân tích hàm ý thống kê bởi giản đồ VENN 11
Hình 1-2 So sánh số lượng các phản ví dụ quan sát được với mơ hình xác suất......13
Hình 1-3 Minh họa mối quan hệ potentials S phụ thuộc vào 2 biến ��, ��.......22
Hình 1-4 Phân loại các hệ tư vấn theo kỹ thuật tiếp cận.......................................... 31
Hình 1-5 Hệ Tư vấn dựa trên nội dung...................................................................34
Hình 1-6 Hệ tư vấn lọc cộng tác.............................................................................. 35
Hình 1-7 Hệ tư vấn lọc cộng tác dựa trên người dùng............................................. 36
Hình 1-8 Hệ tư vấn lọc cộng tác dựa trên mục........................................................ 37
Hình 1-9 Hệ tư vấn lai............................................................................................. 43
Hình 1-10 Các hướng nghiên cứu hệ tư vấn tiếp cận phân tích hàm ý thống kê......60
Hình 2-1 Ba trường hợp với xác suất có điều kiện khơng đổi................................. 65
Hình 2-2 Lưu đồ qui trình xử lý của khung khai thác luật kết hợp hàm ý...............80
Hình 2-3 Mơ hình hệ tư vấn lọc cộng tác dựa trên biến thiên hàm ý.......................93
Hình 2-4 Ví dụ phân tách dữ liệu theo phương pháp đánh giá chéo k-fold với k=5
98 Hình 2-5 Quy trình đánh giá hệ tư vấn............................................................... 99
Hình 2-6 Lưu đồ thuật tốn đánh giá mơ hình tư vấn............................................ 103
Hình 2-7 Quy trình xử lý của khung khai thác luật hàm ý cho mơ hình tư vấn dựa
trên trường hàm ý............................................................................................ 112
Hình 2-8 Mơ hình hệ tư vấn dựa trên trường hàm ý thống kê................................ 115
Hình 2-9 Minh hoạ phân hoạch dữ liệu theo mục đánh giá trên mỗi giao dịch......119
Hình 2-10 Lưu đồ thuật tốn đánh giá mơ hình tư vấn dựa trên trường hàm ý......120
Hình 3-1 Biểu đồ phân phối xếp hạng phim.......................................................... 127
Hình 3-2 Biểu đồ phân phối xếp hạng phim trung bình......................................... 128
Hình 3-3 Biểu đồ phân phối xếp hạng phim trung bình có liên quan.....................128
Hình 3-4 Biểu đồ thống kê phân phối số lượng người dùng.................................. 130
Hình 3-5 Biểu đồ thống kê phân phối số lượng người dùng có liên quan..............130
Hình 3-6 gói cơng cụ implicationFieldRS............................................................. 132
Hình 3-7 Biểu đồ so sánh lổi dự đoán của các mơ hình......................................... 136
Hình 3-8 Precision và Recall của mơ hình ISF và lọc cộng tác dựa trên người dùng
..........................................................................................................................137
Hình 3-9 Đường cong ROC của các mơ hình ISF và lọc cộng tác trên người dùng
..........................................................................................................................137
Hình 3-10 Đường cong ROC của mơ hình ISF và các mơ hình IBCF...................138
Hình 3-11 Precision và Recall của mơ hình ISF và các mơ hình IBCF.................138
Hình 3-12 Biểu đồ so sánh lổi dự đốn của các mơ hình....................................... 141
Hình 3-13 Đường cong ROC so sánh giữa ISF và các mơ hình UBCF khác.........142
Hình 3-14 Precision và Recall so sánh giữa ISF và các mơ hình UBCF khác.......142
Hình 3-15 Đường cong ROC so sánh giữa ISF và các mơ hình IBCF...................143
Hình 3-16 Precision và Recall so sánh giữa ISF và các mơ hình IBCF.................143
Hình 3-17 Độ chính xác của mơ hình hệ tư vấn dựa trên luật hàm ý theo các givens
khác nhau trên tập dữ liệu nhị phân................................................................ 145
Hình 3-18 Độ chính xác của mơ hình hệ tư vấn dựa trên luật hàm ý theo các givens
khác nhau trên tập dữ liệu phi nhị phân.......................................................... 145
Hình 3-19 Đường cong ROC của các mơ hình ARRS và IFARRS trên tập dữ liệu
MSWeb........................................................................................................... 147
Hình 3-20 Đường cong Precision/Recall của các mơ hình ARRS và IFARRS trên
tập dữ liệu MSWeb......................................................................................... 147
Hình 3-21 Biểu đồ so sánh F1 của các mơ hình ARRS và IFARRS trên tập dữ liệu
MSWeb........................................................................................................... 147
Hình 3-22 Đường cong ROC của mơ hình ARRS và IFARRS trên tập dữ liệu
Movielens....................................................................................................... 149
Hình 3-23 Đường cong Precision/ recall của mơ hình ARRS và IFARRS trên tập dữ
liệu Movielens................................................................................................ 149
Hình 3-24 Biểu đồ so sánh F1 của các mơ hình ARRS và IFARRS trên tập dữ liệu
Movielens....................................................................................................... 149
Hình 3-25 So sánh thời gian mơ hình hóa, thời gian dự báo và kích thước của tập
luật của hai mơ hình........................................................................................ 150
Hình 3-26 Biểu đồ đường cong ROC của mơ hình IFARRS và lọc cộng tác dựa trên
người dùng, trên mục của dữ liệu định lượng................................................. 151
Hình 3-27 Biểu đồ đường cong Precision/recall của mơ hình IFARRS và lọc cộng
tác dựa trên người dùng, trên mục của dữ liệu định lượng.............................151
Hình 3-28 Đồ thị Scatter 3D của Trường hàm ý và mặt đẳng trị của nó................152
Hình 3-29 Đồ thị đồ hoạ 3D của Trường hàm ý và mặt đẳng trị của nó...............152
Hình 3-30 Trường hàm ý và mặt đẳng trị của nó trong đường countour................153
Hình 3-31 Biến thiên hàm ý trong trường hàm ý................................................... 153
Hình 3-32 Đường cong ROC của mơ hình ISF và mơ hình lọc cộng tác với k = 15.
..........................................................................................................................154
Hình 3-33 Đường cong precision/ recall của mơ hình ISF và mơ hình lọc cộng tác
với k = 15........................................................................................................ 154
Hình 3-34 F1 của mơ hình ISF và mơ hình lọc cộng tác với k = 15......................154
Hình 3-35 nDCG của mơ hình ISF và mơ hình lọc cộng tác với k = 15................154
Hình 3-36 Rankscore của mơ hình ISF và mơ hình lọc cộng tác với k = 15..........155
Hình 3-37 Precision/recall các mơ hình ISF và các mơ hình khác trong SIA........156
Hình 3-38 Đường cong ROC các mơ hình ISF và các mơ hình khác trong SIA....156
Hình 3-39 F1 của các mơ hình ISF và các mơ hình khác trong SIA......................157
Hình 3-40 Rankscore của các mơ hình ISF và các mơ hình khác trong SIA..........157
Hình 3-41 nDCG của các mơ hình ISF và các mơ hình khác trong SIA................157
1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong thời đại bùng nổ thơng tin hiện nay, các cơng cụ tìm kiếm đang đứng
trước một thử thách ngày càng lớn: sự gia tăng và tích tụ mạnh mẽ của các thơng tin
với tốc độ ngày càng nhanh, rất khó để chọn ra thơng tin hữu ích nhằm đưa ra quyết
định dựa trên một số lượng lớn các dữ liệu trong một thời gian ngắn. Xu hướng
chuyển dịch, mở rộng từ hoạt động tìm kiếm thơng tin sang tư vấn, khuyến nghị
thơng tin diễn ra nhanh chóng hơn bao giờ hết. Do vậy, dù có nguồn gốc từ một số
lĩnh vực khác như khoa học nhận thức [5] và tìm kiếm thơng tin[29], nhưng từ giữa
những năm 1990, hệ tư vấn [27] (recommender system, recommendation system)
thực sự nổi lên như một lĩnh vực nghiên cứu độc lập và thu hút được nhiều quan
tâm cũng như tạo được nhiều thành quả ngày càng phong phú. Đến nay, hệ tư vấn
trở thành một công cụ được các nhà nghiên cứu và phát triển ứng dụng tạo ra các
thuật tốn dự đốn những gì người dùng có thể hoặc khơng thể chọn trong số các
danh mục nhất định. Chúng thật sự là một sự bổ sung thú vị cho các cơng cụ tìm
kiếm trong nhiều lĩnh vực ứng dụng khác nhau, giúp người dùng chọn đúng các sản
phẩm hoặc nội dung mà họ có thể sẽ khơng tìm thấy nếu khơng sử dụng đến các
cơng cụ này. Điều này làm cho hệ tư vấn trở thành một thành phần tuyệt vời và
không thể thiếu ở các trang web thương mại điện tử, tìm kiếm và các dịch vụ điện
tử, cụ thể như Youtube tự động chuyển các clip có liên quan đến clip mà bạn đang
xem hoặc giới thiệu các đoạn phim mà bạn thích; Amazon sẽ tự động giới thiệu các
sản phẩm thường được mua với nhau hoặc đề xuất các mặt hàng mà bạn có thể thích
dựa trên lịch sử mua hàng của bạn khi bạn mua sắm trên đó; Facebook khuyến cáo
một người bạn hoặc chương trình quảng cáo các sản phẩm liên quan đến từ khóa mà
bạn vừa tìm kiếm; Netflix tự động giới thiệu phim cho người dùng và nhiều ví dụ
khác mà Internet có khả năng tự động khuyến nghị cho người dùng những sản phẩm
mà họ có thể thích. Trong thực tế, hơn 65% phim đã được xem bởi các khách hàng
của Netflix là những phim được đề xuất, 35% doanh thu tại Amazon phát sinh từ
các mục được đề nghị, 28% người muốn mua thêm nhạc trên ChoiceStream nếu họ
tìm thấy những gì họ thích [108] … Bằng cách khuyến nghị hợp lý như thế, hiệu
quả của tiếp thị cũng sẽ
tăng lên. Các thuật toán đằng sau các ứng dụng này là các thuật toán học máy, mà
cụ thể là các thuật toán hệ tư vấn.
Tuy vậy, do là một lĩnh vực mới phát triển nên chất lượng và hiệu quả của các
thuật tốn tư vấn vẫn cịn nhiều vấn đề cần phải quan tâm như là các vấn đề về nâng
cao độ chính xác của các dự đốn cho các khuyến nghị, nâng cao hiệu suất xử lý
trên tập dữ liệu lớn để giảm thiểu thời gian thực hiện các mơ hình và đưa ra các
khuyến nghị theo thời gian thực, xử lý dữ liệu thưa trên các tập dữ liệu khuyến nghị,
thiếu dữ liệu trong các hệ thống tư vấn (người dùng mới hay sản phẩm mới) và
nhiều vấn đề khác nữa . Để nâng cao chất lượng và hiệu quả của các khuyến nghị,
Hệ tư vấn sử dụng nhiều kỹ thuật khai thác dữ liệu và học máy khác nhau để giúp
người dùng xác định các mục phù hợp nhất với thị hiếu hoặc nhu cầu của họ. Các
kỹ thuật này ngày càng được sử dụng để cải thiện chất lượng các khuyến nghị trong
các ứng dụng thành cơng trước đó, cũng như trong các hệ tư vấn đề xuất mới, để
đưa ra các khuyến nghị chính xác, độc đáo, bất ngờ và hiệu quả đối với các thử
thách trong các lĩnh vực trước đây[12][121]. Việc sử dụng các thuật toán khai thác
dữ liệu đã thúc đẩy chất lượng của các thuật toán hệ tư vấn một cách đáng kể.
Trong các công cụ khai thác dữ liệu, phân tích hàm ý thống kê (ASI- Analysis
Statistical Implication) dù chỉ mới được đề xuất vào cuối thập niên 1990 [94][95]
bởi Regis Gras1 với mục đích ban đầu là phân tích dữ liệu phục vụ cho việc giảng
dạy tốn học[21], nhưng đến nay nó đã phát triển nhanh chóng và được ứng dụng
trong nhiều lĩnh vực khác trong đời sống như tâm lý học[45], bản thể học[44], …
Đặc biệt, thời gian gần đây đã được nghiên cứu áp dụng trong lĩnh vực hệ tư vấn
[76][77][78][79][92], nét đặc thù của ASI so với nhiều cơng cụ phân tích dữ liệu
khác là nó tập trung vào việc phân tích yếu tố phản ví dụ (counter-example hay
unlikelihood) thay vì dựa vào yếu tố xác nhận (example hay likelihood) cho việc
suy luận phân tích dữ liệu, một điểm khác biệt nữa là nó sử dụng độ đo dựa trên xác
suất mang tính bất đối xứng, thống kê, phi tuyến và ổn định tốt với nhiễu [35][97]
[98]. Trong nghiên cứu này, SIA được đề xuất ứng dụng vào việc xây dựng mơ hình
hệ tư vấn với mong muốn góp phần cải thiện các kết quả khuyến nghị thơng qua
một số đặc tính quan trọng và độc đáo của nó.
1
/>
Luận văn “Hệ tư vấn dựa trên trường hàm ý thống kê” được thực hiện trong
phạm vi nghiên cứu của luận án tiến sĩ chuyên ngành khoa học máy tính tại Trường
Đại học Bách khoa Đà Nẵng nhằm đóng góp một phần vào lĩnh vực nghiên cứu
phát triển hệ tư vấn, cụ thể là cải thiện hiệu quả của mô hình tư vấn lọc cộng tác dựa
trên khai thác luật trên trường hàm ý.
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Luận án nghiên cứu áp dụng lý thuyết phân tích hàm ý thống kê, mà cụ thể là
biến thiên hàm ý thống kê và trường hàm ý, để đề xuất các độ đo biến thiên hàm ý
và khung khai thác luật có mức độ hàm ý cao (luật hàm ý) đáp ứng được yêu cầu
của các hệ tư vấn, làm cơ sở để cải thiện chất lượng các mơ hình tư vấn lọc cộng
tác, từ đó làm phong phú thêm giải pháp kỹ thuật cho hệ tư vấn thông qua việc vận
dụng phân tích hàm ý thống kê. Cụ thể hơn, luận án hướng đến các mục tiêu chính
sau:
- Khảo sát tổng quan các kỹ thuật xây dựng hệ tư vấn cùng các thành tựu cũng
như những hạn chế của chúng.
- Nghiên cứu phương pháp phân tích hàm ý thống kê, đặc biệt là trường hàm
ý sinh ra từ sự biến thiên của các độ đo chỉ số hàm ý và cường độ hàm ý.
- Nghiên cứu cách tiếp cận xây dựng khung khai thác mới có liên quan đến
việc ứng dụng biến thiên hàm ý trong trường hàm ý cho bài toán khai thác dữ liệu
dựa trên luật vào bài toán hệ tư vấn, nhằm giảm thiểu các hạn chế của khung khai
thác luật dựa trên độ hỗ trợ và độ tin cậy (support-confidence) đối với bài toán tư
vấn.
- Nghiên cứu cách tiếp cận xây dựng khung khai thác mới có liên quan đến
việc sử dụng mặt đẳng trị hàm ý trong trường hàm ý cho bài toán khai thác dữ liệu
dựa trên luật vào bài toán hệ tư vấn, nhằm giảm thiểu các hạn chế của khung khai
thác luật dựa trên độ hỗ trợ và độ tin cậy đối với bài toán tư vấn.
- Mở rộng cách tiếp cận xây dựng khung khai thác mới có liên quan đến việc
xây dựng mơ hình hệ tư vấn trong trường hàm ý với các luật nhị phân và định lượng
vào bài tốn hệ tư vấn, nhằm tăng cường tính chính xác của các dự báo và thời gian
xử lý.
- Nghiên cứu đánh giá, so sánh các mơ hình tư vấn lọc cộng tác hiện nay,
trong đó, chú ý đến mơ hình tư vấn dựa trên lọc cộng tác sử dụng hướng tiếp cận
khai thác
luật kết hợp. Trên cơ sở đó, đề xuất các mơ hình tư vấn lọc cộng tác dựa trên trường
hàm ý.
2.2. Đối tượng nghiên cứu
Luận án tập trung vào các đối tượng nghiên cứu sau:
- Trường hàm ý và luật cùng các độ đo hàm ý trên trường hàm ý.
- Khung khai thác luật hàm ý dựa trên sự cải tiến Khung khai thác độ hỗ trợ
và độ tin cậy cho bài tốn hệ tư vấn.
- Mơ hình hệ tư vấn theo hướng tiếp cận khai thác luật hàm ý với các độ đo
biến thiên hàm ý đã xây dựng.
-Mô hình hệ tư vấn theo hướng tiếp cận khai thác luật hàm ý dựa trên mặt
đẳng trị trong trường hàm ý.
- Sử dụng khung khai thác hàm ý để khai thác luật hàm ý định lượng cho bài
toán hệ tư vấn trong trường hàm ý (vừa xử lý cho luật hàm ý nhị phân lẫn luật hàm
ý định lượng).
2.3. Phạm vi nghiên cứu
Luận án tập trung vào phạm vi nghiên cứu biến thiên hàm ý và trường hàm ý
của lý thuyết phân tích hàm ý thống kê cũng như phân tích các hạn chế của hệ tư
vấn lọc cộng tác đặc biệt là hệ tư vấn lọc cộng tác dựa trên mơ hình khai thác luật
kết hợp và các mơ hình tư vấn dựa trên tiếp cận phân tích hàm ý thống kê hiện có để
đề xuất nghiên cứu hệ tư vấn dựa trên trường hàm ý. Bao gồm:
- Tìm hiểu phương pháp phân tích dữ liệu hàm ý thống kê, biến thiên hàm ý,
mặt đẳng trị hàm ý và trường hàm ý.
- Tìm hiểu và phân tích các hạn chế của hệ tư vấn lọc cộng tác đặc biệt là hệ tư
vấn lọc cộng tác dựa trên mơ hình khai thác luật kết hợp và các mơ hình tư vấn dựa
trên tiếp cận phân tích hàm ý thống kê hiện có.
-Tập các độ đo biến thiên chỉ số hàm ý và biến thiên cường độ hàm ý làm cơ
sở cho việc đề xuất các mơ hình tư vấn.
- Khung khai thác luật kết hợp thoả mãn độ đo hàm ý (luật hàm ý).
- Phương pháp phân hoạch dữ liệu phù hợp với các tập dữ liệu tư vấn để đánh
giá các mơ hình tư vấn.
- Các tiêu chí xếp hạng mục được khuyến nghị để đánh giá hệ tư vấn.
- Mơ hình tư vấn dựa trên biến thiên hàm ý.
- Mơ hình tư vấn dựa trên trường hàm ý.
3. Các đóng góp của luận án
Luận án có những đóng góp sau:
- Thứ nhất đề xuất sử dụng lý thuyết phân tích hàm ý thống kê, cụ thể là biến
thiên hàm ý thống kê và trường hàm ý, vào việc xây dựng một tập các độ đo biến
thiên hàm ý thống kê phục vụ cho việc khai thác các luật kết hợp có ý nghĩa hàm ý
(trong luận án này gọi là luật kết hợp hàm ý hay luật hàm ý) cho bài toán tư vấn trên
cả tập dữ liệu nhị phân và phi nhị phân. Kết quả thực nghiệm cho thấy mơ hình đưa
ra các mục tư vấn cho người dùng có hiệu quả trong việc cải thiện thời gian xử lý và
độ chính xác trên cả ba nhóm độ đo đánh giá (độ chính xác dự đốn mục, độ chính
xác phân lớp danh sách mục và độ chính xác xếp hạng vị trí mục khuyến nghị).
- Thứ hai là đề xuất các mô hình tư vấn lọc cộng tác dựa trên việc tiếp cận
phân tích hàm ý thống kê tối ưu hóa tập luật để tăng độ chính xác và tính ngạc nhiên
(tính bất ngờ thú vị) của các kết quả khuyến nghị. Đầu tiên là mơ hình tư vấn lọc
cộng tác dựa trên biến thiên hàm ý thống kê giúp cải thiện chất lượng luật cho việc
khuyến nghị người dùng. Mơ hình này sử dụng tập dữ liệu nhị phân sinh ra tập luật
kết hợp nhị phân, sau đó sử dụng độ đo biến thiên hàm ý để lọc các luật thỏa mãn
thêm yêu cầu của các độ đo hàm ý và đưa ra các kết quả tư vấn. Kết quả thực
nghiệm cho thấy việc sử dụng độ đo biến thiên hàm ý giúp cải thiện đáng kể chất
lượng khuyến nghị so với đa số các mơ hình lọc cộng tác truyền thống. Kế đến, để
mở rộng phạm vi xử lý cho cả dữ liệu phi nhị phân và cải thiện hơn nữa chất lượng
khuyến nghị cũng như thời gian thực hiện mơ hình, mơ hình tư vấn dựa trên trường
hàm ý được phát triển trên nền tảng mơ hình đề xuất đầu tiên này để thực hiện tư
vấn dựa trên khai thác các luật hàm ý dưới dạng các mặt đẳng trị trong trường hàm
ý, các đóng góp chính của mơ hình này là (1) xử lý được cả trên dữ liệu nhị phân và
phi phị phân mà không qua quá trình nhị phân hố dữ liệu, (2) cải thiện đáng kể
hiệu quả mơ hình khai thác luật cho hệ tư vấn cả về thời gian và độ chính xác.
- Thứ ba là đề xuất khung khai thác luật hàm ý dựa trên việc kế thừa các ưu
điểm của khung khai thác luật kết hợp và tích hợp với độ đo biến thiên hàm ý để cải
thiện độ chính xác và thời gian thực thi của mơ hình tư vấn dựa trên khai thác luật.
Khung khai thác luật này được ứng dụng cho mô hình tư vấn lọc cộng tác dựa trên
luật hàm ý và đối sánh với các mơ hình tư vấn dựa trên luật kết hợp và các mơ hình
tư vấn lọc cộng tác điển hình như lọc cộng tác dựa trên người dùng và dựa trên mục.
Qua kết quả thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực
(MovieLens) và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mơ hình sử
dụng khung khai thác luật hàm ý có độ chính xác cao hơn và thời gian xử lý nhanh
hơn so với các mô hình cịn lại [36][37][79].
- Và cuối cùng là xây dựng được bộ công cụ thực nghiệm implicationFieldRS
trên ngôn ngữ R. Bộ công cụ này gồm các chức năng: xử lý dữ liệu, sinh luật (bao
gồm luật kết hợp và luật hàm ý), xác định các tham số hàm ý thống kê, tính giá trị
hàm ý cho luật kết hợp và luật hàm ý dựa trên các tham số hàm ý thống kê, đưa ra
các mục cho khuyến nghị, các chức năng xây dựng và đánh giá các mơ hình tư vấn
lọc cộng tác.
4. Bố cục của luận án
Dựa trên mục tiêu, đối tượng và phạm vi nghiên cứu nêu trên, ngoài phần mở
đầu và phần kết luận và hướng phát triển, luận án được cấu trúc gồm phần mở đầu, 3
chương và kết thúc bởi phần kết luận cùng hai phụ lục. Mối quan hệ về kiến thức
giữa các chương trong luận án được trình bày chi tiết trong Hình 0-1.
Phần mở đầu: Giới thiệu sự cần thiết, mục tiêu, đối tượng, phạm vi nghiên cứu
và các đóng góp của luận án.
Chương 1: Giới thiệu tổng quan về phương pháp phân tích hàm ý thống kê, sự
biến thiên hàm ý thống kê và trường hàm ý. Nghiên cứu các mô hình tư vấn, các vấn
đề gặp phải trong lĩnh vực nghiên cứu hệ tư vấn đặc biệt là hệ tư vấn dựa trên khai
thác luật cùng các mơ hình đề xuất của luận văn.
Chương 2: Trình bày mơ hình tư vấn dựa trên khai thác luật với sự biến thiên
hàm ý (chỉ số hàm ý thống kê hoặc cường độ hàm ý) trong trường hàm ý, thông qua
việc tiếp cận cách sử dụng khung khai thác độ hỗ trợ và độ tin cậy để sinh luật sau đó
dùng độ biến thiên của chỉ số hàm ý hoặc cường độ hàm ý trong trường hàm ý để lọc
ra một tập luật kết hợp mạnh có mức độ hàm ý phù hợp. Ngồi ra để mở rộng bài
tốn cho dữ liệu phi nhị phân cũng như để khắc phục hơn nữa các nhược điểm của mơ
hình tư vấn dựa trên khai thác luật kết hợp, mơ hình tư vấn dựa trên trường hàm ý
cũng được đề xuất trong chương này.
Chương 3: Trình bày việc tổ chức các thực nghiệm để đánh giá các mơ hình đề
xuất ở Chương 2. Phần thực nghiệm được triển khai trên hai tập dữ liệu nhị phân
(MSWEB) và phi nhị phân (Movielens) và so sánh kết quả với các mơ hình tư vấn
hiệu quả khác.
Phần kết luận: trình bày các kết quả nghiên cứu cũng như các hướng nghiên cứu
phát triển.
Mối quan hệ giữa các Chương được thể hiện trong Hình 0-1
Chương 1 – Tổng Quan về trường hàm ý và hệ tư vấn
Phân tích hàm ý thống kê, các độ đo hàm ý
thống kê, biến thiên hàm ý và trường hàm ý
Các nghiên cứu hệ tư vấn ứng dụng phân tích
hàm ý thống kê và các vấn đề
Hệ tư vấn - Tổng quan, đánh giá và các kỹ
thuật xây dựng hệ tư vấn
Các vấn đề của hệ tư vấn, đặc biệt hệ tư
vấn dựa trên luật kết hợp
Đề xuất mơ hình hệ tư vấn dựa trên trường hàm ý thống kê
Chương 2 – Các mơ hình tư vấn
Chương 3 – Thực nghiệm
Phân tích,tiền xử lý và phân hoạch dữ liệu
Mơ hình tư vấn: Khung khai thác luật kết hợp và mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý
Thực nghiệm vấn dựa trên biến thiên hàm ý
Hình 10-1Mối quan hệ giữa
c
chương trong luận án
ác
Mơ hình tư vấn: Khung khai thác luật hàm ý và mơ hình tư vấn dựa trên trường hàm ý thống kê
Thực nghiệm vấn dựa trên trường hàm ý thống kê
Kết luận
Kết quả và đóng góp của luận án
Hướng phát triển của luận án
Hình 0-1 Mối quan hệ giữa các chương trong luận án
CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ
HỆ TƯ VẤN
Chương này trình bày một số vấn đề về phân tích hàm ý thống kê, trường hàm
ý và hệ tư vấn. Đối với nội dung phân tích hàm ý thống kê, không như các nghiên
cứu của một số tác giả trước đây, luận án quan tâm đến sự biến thiên của chỉ số hàm
ý và trường hàm ý làm cơ sở cho các mơ hình tư vấn đề xuất trong các chương sau,
và trong phần trình bày về hệ tư vấn, chúng tơi tóm lược các kỹ thuật có liên quan
đến hệ tư vấn, một số các vấn đề còn cần phải giải quyết, đặc biệt chúng tôi quan
tâm đến các vấn đề của các hệ tư vấn dựa trên khai thác luật (khai thác các mẫu tri
thức thường xuyên), để từ đó có định hướng nghiên cứu ứng dụng kết hợp lý thuyết
trường hàm ý vào các vấn đề khai thác luật để cải thiện hiệu quả cũng như thời gian
xử lý cho các khuyến nghị.
Các cơng trình nghiên cứu liên quan với nội dung này đã được công bố trên
hội thảo quốc tế lần thứ IX về phân tích hàm ý thống kê (A.S.I) năm 2017.
1.1. Phân tích hàm ý thống kê
Phân tích hàm ý thống kê (ASI) [93][94] [95][96], do Regis Gras đề xuất vào
thập niên 1990, nghiên cứu mối quan hệ hàm ý giữa các biến dữ liệu. Theo đó, các
mối quan hệ giữa các biến dữ liệu thường được biểu diễn dưới dạng luật � → �, và
dạng biểu diễn này đã trở thành khái niệm chính trong khai phá dữ liệu dùng để
biểu diễn mối quan hệ hàm ý giữa các mẫu của các tập phổ biến (itemsets). Từ các
cơng trình của Agrawal et al. [90][91] , nhiều thuật toán đã được đề xuất để khai
thác các luật như vậy một cách hiệu quả trong cơ sở dữ liệu lớn. Tất cả đều cố gắng
trích xuất
một tập hạn chế các luật có liên quan để dễ dàng giải thích cho việc ra quyết định,
nhưng các thử nghiệm so sánh cho thấy rằng kết quả có thể thay đổi tùy theo sự lựa
chọn của các độ đo chất lượng luật. Trong các tài liệu phong phú dành cho vấn đề
này, các độ đo mức độ thú vị thường được phân loại thành hai loại: các độ đo chủ
quan [80][98][99] (hướng người dùng) và các độ đo khách quan [11][13] (hướng dữ
liệu). Các độ chủ quan nhằm tính đến tính bất ngờ và khả năng hoạt động tương đối
so với hiểu biết trước đó [11][13], trong khi các độ đo khách quan ưu tiên các tiêu
chí thống kê như mức độ bao phủ, cường độ, ý nghĩa ... (ví dụ: [80][98][99]).
Trong số nhóm các độ đo khách quan, tiêu chí được sử dụng phổ biến nhất là
sự kết hợp của độ hỗ trợ ���� - hoặc tần suất xuất hiện của �, � với độ tin cậy
���� [90][91]. Độ hỗ trợ ����(� → �)cho biết liệu các biến liên quan đến tập
mục � và � có xảy ra thường xuyên cùng nhau trong tập dữ liệu hay khơng. Độ tin
cậy ���� hoặc xác suất có điều kiện- ����(� → �) là phần các đối tượng thỏa
mãn � trong số các đối tượng thỏa mãn �. Tuy nhiên, độ tin cậy thể hiện hai điểm
yếu chính: nó khơng thay đổi khi kích thước của � ( � � ) hoặc của tập giao dịch �
(�) thay đổi , nó cũng khơng nhạy cảm với độ giãn của ��, � � , và bản số của �
[59]. Với các độ đo khác, một số đến từ các lĩnh vực thống kê, tính tốn một mối
liên kết - hoặc khơng có liên kết - giữa các tập mục nhưng chúng thường không xác
định rõ ràng hướng của mối quan hệ (như độ đo � 2). Brin đề xuất trong [105] để
tìm kiếm một số tập phổ biến tương quan (phụ thuộc dương hoặc âm được xác nhận
bởi giá trị � 2). Phép đo mức độ thú vị của � 2 dựa vào một ô trong bảng tương quan
(contingency table) giữa hai biến mà không tận dụng sự mất cân bằng có thể tìm
thấy giữa hai ơ khác nhau và cho biết một luật hiện có.
Để xem xét đến kích thước tập dữ liệu một cách rõ ràng, và cũng để làm nổi
bật đặc điểm không đối xứng "tự nhiên" của hàm ý, Gras [93][95] đã đưa ra độ đo
cường độ hàm ý � ( �→ �) và chỉ số hàm ý �(� → �) nhằm mục đích lượng hóa
"sự ngạc nhiên" của một mối quan hệ hay một mẫu tri thức khi phải đối mặt với số
lượng nhỏ các phản ví dụ khơng thể tránh khỏi so với một lượng lớn dữ liệu.
Tương tự, giống
như Freitas [8], ở đây phân tích hàm ý thống kê cho rằng các khía cạnh chủ quan có
thể được đo lường một phần bằng các điều kiện khách quan và tập trung vào tầm
quan trọng của việc phát hiện ra “những sai lệch nhỏ” trong tập dữ liệu. Với mục
đích đó, cường độ hàm ý dựa trên mơ hình xác suất cho phép đo lường chính xác ý
nghĩa thống kê của các luật đã phát hiện. Các giới hạn chung về ý nghĩa của các
phương pháp thử nghiệm trong khai phá dữ liệu đã được các tác giả khác nhau đề
cập [18]. Cường độ hàm ý đã được thực nghiệm chứng minh là rất nhạy đối với các
biến đổi nhỏ [33]. Bên cạnh đó, các thực nghiệm trên cả dữ liệu tổng hợp và dữ liệu
trong thế giới thực đã chứng minh khả năng sự kết hợp tốt của nó với các độ đo cổ
điển hơn [75][111].
Bây giờ, để trình bày tổng quan về lý thuyết hàm ý thống kê, chúng ta hãy
xem xét một tập hữu hạn � = {�1, �2, … , ��} gồm � giao dịch được mô tả
bởi tập � =
{�1, �2, … , � �} gồm � biến (mục, thuộc tính, tiêu chuẩn…). Ký hiệu Ω(��) là một tập
phổ biến của giao dịch ��, 0 < � ≤ � và Ω(��) ⊆ �. Cho �, � là hai tập con của
� , ký hiệu � = {�� ∈ �; ∀j ∈ �, � ∈ Ω(��)} là tập giao dịch trong � có chứa
�, và ký hiệu �̅, �̅ là tập bù của � trong �. Cũng tương tự như thế, ta ký hiệu tập
� = {�� ∈
�; ∀j ∈ �, � ∈ Ω(��)} và �̅ là tập bù của � trong �.
Luật kết hợp/hàm ý là một mẫu có dạng � → �, trong đó � và � là các tập
phổ biến khơng giao nhau (� ⊂ �, � ⊂ � và � ∩ � = ∅). Trong thực tế, khá phổ
biến khi quan sát một số giao dịch có xuất hiện � và khơng có �, chúng khơng theo
xu hướng chung là có � khi � có mặt. Do đó, liên quan đến bản số � của E cũng
như các bản số
�� của � và bản số �� của � thì số ��∩�̅ = ����(� ∩ �̅ ) của các phản ví dụ
phải
được tính đến để thống kê và quyết định liệu có chấp nhận hay không một luật � →
�. Theo phân tích liên kết khả năng xảy ra của Lerman [41], cường độ hàm ý thể
hiện khả năng không xảy ra các phản ví dụ ��∩�̅ trong �.
Mối quan hệ hàm ý giữa � và � được mơ hình hóa trong phân tích hàm ý thống
kê như sau (xem Hình 1-1).
��
��
���
�
B
��
A
Hình 1-1 Minh hoạ các thành phần của phân tích hàm ý thống kê bởi giản đồ
VENN
Để thấy rõ hơn cách biểu diễn mối quan hệ hàm ý của một luật hàm ý, hãy xét
một tập dữ liệu các giao dịch như được trình bày trong ví dụ ở Bảng 1-1 sau đây:
Bảng 1-1 Dữ liệu các giao dịch phim
T
Các mục / Ω(��)
�1
�ℎ��2
�2
�ℎ��1, �ℎ��2
�3
�ℎ��1
�4
�ℎ��1, �ℎ��2, �ℎ��3
�5
�ℎ��1, �ℎ��2, �ℎ��3
�6
�ℎ��1, �ℎ��2, �ℎ��3
�7
�ℎ��2
�8
�ℎ��1, �ℎ��2
�9
�ℎ��1, �ℎ��2, �ℎ��3