ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------NGUYỄN TẤN HOÀNG
HỆ TƯ VẤN
DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KẾ
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 9.48.01.01
TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG – 2022
Cơng trình được hồn thành tại:
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học:
1. PGS. TS. Huỳnh Xuân Hiệp
2. TS. Huỳnh Hữu Hưng
Phản biện 1:……………………………...……………
Phản biện 2:………………...…………………………
Phản biện 3:………………………...…………………
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp
Trường họp tại: Đại học Đà Nẵng
Vào hồi….....giờ.........ngày.......tháng.......năm…….…
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia
- Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng
1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong thế giới trực tuyến, nơi thông tin đang phát triển với tốc độ
cấp số nhân theo đà phát triển của thương mại điện tử, dịch vụ lưu trử
trực tuyến và cung cấp thơng tin, việc tìm kiếm thơng tin phù hợp với
nhu cầu đang là một thách thức đối với người dùng để có thể đưa ra
các quyết định đúng đắn. Các hệ tư vấn nhanh chóng chứng tỏ là một
cơng cụ rất hữu dụng trong việc hỗ trợ cung cấp thông tin cần thiết và
có liên quan cho người dùng lẫn các tổ chức cung cấp dịch vụ, thương
mại trong các tình huống như vậy. Tuy nhiên, để đáp ứng nhu cầu ngày
càng cao về chất lượng cũng như số lượng các khuyến nghị của các tổ
chức cung cấp dịch vụ trực tuyến và người dùng trên môi trường
Intenet, việc nghiên cứu các thuật toán tư vấn mới hoặc cải tiến hệ tư
vấn để nâng cao chất lượng các khuyến nghị, hạn chế hoặc khắc phục
các điểm yếu của các kỹ thuật tư vấn, nhất là ứng dụng khoa học dữ
liệu và học máy vào lĩnh vực hệ tư vấn đang là vấn đề cấp thiết và là
xu hướng thu hút nhiều nghiên cứu hiện nay.
Trong lĩnh vực khoa học dữ liệu và học máy, Phân tích hàm ý
thống kê là một phương pháp phân tích dữ liệu mới do Regis Gras đề
xuất vào cuối thập niên 90 của thế kỷ trước với mục đích nghiên cứu
các khuynh hướng và các mối quan hệ giữa các thuộc tính (biến) dữ
liệu thơng qua các mẫu tri thức dạng luật. Các mẫu tri thức này được
đánh giá thông qua các độ đo hàm ý thống kê như cường độ hàm ý, chỉ
số hàm ý, ... Mặc dù là một lý thuyết còn non trẻ nhưng đã được áp
dụng trong nhiều lĩnh vực khác nhau như giảng dạy, tâm lý, bản thể
học… Gần đây, chúng đã được đề xuất ứng dụng trong lĩnh vực tư vấn.
Tuy vậy, các nghiên cứu ứng dụng phân tích hàm ý thống kê vào hệ tư
vấn còn chưa nhiều và những đóng góp của nó cịn khá khiêm tốn so
với tiềm năng ứng dụng của nó.
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã
chọn đề tài “Hệ tư vấn dựa trên trường hàm ý thống kê” làm nội dung
nghiên cứu luận án Tiến sỹ kỹ thuật.
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Mục tiêu của luận án là khảo sát về hệ tư vấn và nghiên cứu nội
dung cơ bản của hàm ý thống kê đặc biệt là biến thiên hàm ý và trường
hàm ý làm cơ sở cho việc nghiên cứu đề xuất khung khai thác luật hàm
ý (luật kết hợp thoả mãn điều kiện hàm ý thống kê) , và từ đó đề xuất
ứng dụng khung khai thác luật hàm ý trong việc xây dựng mơ hình tư
vấn dựa trên trường hàm ý.
2.2. Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận án gồm: Các độ đo biến thiên hàm
ý trong trường hàm ý hình thành từ quá trình biến thiên hàm ý thống
kê; Các mơ hình tư vấn khai thác luật sử dụng biến thiên hàm ý và mơ
hình tư vấn dựa trên trường hàm ý; nghiên cứu và cải tiến phương pháp
đánh giá mơ hình tư vấn, cũng như nghiên cứu đề xuất các kịch bản
thực nghiệm cho mơ hình tư vấn lọc cộng tác áp dụng phân tích hàm ý
thống kê.
2.3. Phạm vi nghiên cứu
Luận án được giới hạn trong phạm vi sau: Tìm hiểu lý thuyết hàm
ý thống kê đặc biệt là biến thiên hàm ý thống kê, kỹ thuật tư vấn lọc
cộng tác, các nghiên cứu về hệ tư vấn dựa trên phân tích hàm ý thống
kê trước đây để làm cơ sở cho việc đề xuất; và Đề xuất các mơ hình tư
vấn mới có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân và cải
tiến hiệu quả tư vấn (được đánh giá qua tính chính xác của mục được
dự đốn, phân lớp mục khuyến nghị, xếp hạng mục được dự đoán).
3. Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng bao gồm
- Nghiên cứu lý thuyết về hệ tư vấn đặc biệt các hệ tư vấn lọc cộng
tác dựa trên mơ hình khai thác luật, lý thuyết phân tích hàm ý thống kê
theo hướng phân tích biến thiên hàm ý thống kê và trường hàm ý để đề
xuất các mơ hình tư vấn;
- Phương pháp thực nghiệm để kiểm chứng mơ hình tư vấn đề xuất
4. Bố cục của luận án
Luận án được tổ chức thành các nội dung sau:
Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đối tượng,
phạm vi nghiên cứu và phương pháp nghiên cứu của luận án.
Chương 1: Tổng quan về trường hàm ý thống kê và hệ tư vấn.
Chương 2: Các mơ hình hệ tư vấn dựa trên trường hàm ý, bao gồm
mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý và mơ hình tư
vấn dựa trên trường hàm ý thống kê.
Chương 3: Thực nghiệm và đánh giá kết quả.
Phần kết luận bao gồm những đóng góp chính và hướng phát triển.
Các phụ lục: Các chứng minh (1) tính bất đối xứng của các độ đo
hàm ý thống kê; và (2) sự tương đương của các cơng thức chỉ số hàm
ý.
5. Đóng góp của luận án
- Đề xuất một bộ các độ đo biến thiên hàm ý thống kê làm cơ sở
cho việc xây dựng các khung khai thác luật hàm ý và mô hình tư vấn.
- Đề xuất một khung khai thác luật kết hợp hàm ý (luật hàm ý) dựa
trên sự tích hợp khung khai thác luật kết hợp và độ đo biến thiên hàm
ý.
- Đề xuất các mơ hình tư vấn bao gồm (1) Mơ hình tư vấn lọc
cộng tác dựa trên biến thiên hàm ý để tạo khuyến nghị dựa trên mặt
đẳng trị hàm ý của các luật kết hợp có ý nghĩa hàm ý và được áp dụng
cho các tập dữ liệu nhị phân; (2) Mơ hình này sau đó được cải tiến và
phát triển thành mơ hình tư vấn dựa trên trường hàm ý thống kê có thể
áp dụng trên cả dữ liệu nhị phân và phi nhị phân.
- Đề xuất phương pháp phân hoạch dữ liệu dựa trên mục được
đánh giá trên từng giao dịch thay cho phương pháp phân hoạch dữ liệu
dựa trên số lượng giao dịch trong tập dữ liệu để nâng cao chất lượng
huấn luyện và đánh giá mơ hình tư vấn và được áp dụng cho mơ hình
tư vấn dựa trên trường hàm ý.
- Phát triển công cụ xây dựng, huấn luyện và đánh giá hệ tư vấn
implicationfieldRS và các kịch bản thực nghiệm mơ hình tư vấn đề xuất
sử dụng cơng cụ này.
CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý THỐNG KÊ
VÀ HỆ TƯ VẤN
1.1. Phân tích hàm ý thống kê và Trường hàm ý
Phân tích hàm ý thống kê (SIA), một phương pháp nghiên cứu mối
quan hệ dạng luật giữa các biến và/hoặc giữa các biến và các luật với
nhau do Regis Gras đề xuất vào thập niên 1990, theo đó SIA đề xuất
các độ đo hàm ý có các đặc tính thống kê, bất đối xứng, phi tuyến và
dựa vào xác suất thống kê để đánh giá mối quan hệ giữa các biến dữ
liệu.
Trong SIA, mối quan hệ � → � (luật, quy tắc) trở nên khá ổn định
khi số xác nhận của nó đạt tới một mức tin cậy xác định. Thường khó
để thay thế luật ban đầu này bằng một luật khác khi có ít phản ví dụ
mới xuất hiện nhưng sự nghi ngờ sẽ dần dần xuất hiện. Nếu số phản ví
dụ mới tăng thì sự tin cậy của luật có thể giảm và luật có thể được điều
chỉnh hoặc thậm chí bị loại bỏ. Luật vẫn có thể chấp nhận được khi số
phản ví dụ vẫn còn chấp nhận được. Ý tưởng cơ bản ẩn sau SIA là một
luật (mối quan hệ/ mẫu tri thức) được quan sát thống kê chấp nhận
càng ít số phản ví dụ thì nó càng có hàm ý. Do vậy, SIA quan tâm đến
các tham số mà chúng có thể bị bỏ qua trong những độ đo khác. Ví dụ,
độ tin cậy confidence quan tâm đến các tham số ��� và �� mà không
quan
tâm đến các tham số �, �� , ���̅ như trong các độ đo của SIA.
1.1.1. Các độ đo hàm ý thống kê
Phân tích hàm ý thống kê sử dụng hai độ đo chính để đánh giá mức
độ hàm ý của mối quan hệ � → � là chỉ số hàm ý
�(�, �̅ ) =
√
{
����̅
��� ̅ − �
,
� �
√ � �̅
�
�� ��̅
�
,
2 2
2
2 2
2
(� � + � )((� �
+
�
)
̅
̅
�
�
�
�
�3
∑
�(�)�̅ (�) −
�∈�
�, � ∈ {0,1}
(1.1)
�, � ∈ [0,1]
Và cường độ hàm ý được xác định (theo phân phối poision) bởi
công thức (1.2a)
����(�∩�̅ )
(�, �) ={
�
�− ,
∑
�!
�=0
0,
�� ≠ �
(1.2a)
�ế� ��ượ� �ạ�
Trong trường hợp xấp xỉ được thoả mãn (ví dụ λ ≥ 4) biến ngẫu
nhiên �(�, �̅ ) là xấp xĩ phân phối chuẩn N (0,1), �(�, �) được xác
định theo công thức (1.2b)
∞
�2
1
∫ � − 2 �� ,
�(�, �) = √2�
̅
�� ≠ �
(1.2b)
� (�,�)
{
0,
�ế� ��ượ� �ạ�
Trong đó, chỉ số hàm ý càng thấp thì cường độ hàm ý càng cao và
mức mức độ hàm ý càng lớn
1.1.2. Sự biến thiên chỉ số hàm ý và trường hàm ý
Sự biến thiên của �(�, �̅ ) đối với các biến (�, �� , �� , ���̅ ) tạo
nên một trường vector vô hướng C mà theo ý nghĩa hình học của
Frechet được diễn đạt theo cách sau (cơng thức 1.3):
��
�
�
�
� �= �� +
��� + ��� +
����̅ = �����. ��
�
� �
� �
� ��
̅
(1.3)
Với M là điểm có tọa độ (�, �� , �� , ���̅ ) của trường
vecter vô hướng �, �� là vertor thành phần vi phân của các biến và
grad q là vertor đạo hàm riêng của các biến.Trường gradient này thoả
mãn tiêu chí Schwartz về vi phân hỗn hợp cho từng cặp biến �, � ∈
{�, �� , �� , ���̅ } và được gọi là trường hàm ý.
� �(�, �̅ )
(
)=
(
)
��
��
��
��
�(�, �̅ )
Trường hàm ý sinh ra từ sự biến thiên của chỉ số hàm ý, bao gồm
tập các mặt đẳng trị của các luật hàm ý có cùng giá trị hàm ý thống kê
được xác định theo phương trình (1.5).
�� ��̅
��
�
�(�, �̅ ) −� ̅ −
=0
�� ��̅
√
�
1.2. Hệ tư vấn
1.2.1 Định nghĩa
Một hệ tư vấn bao gồm tập hợp của người dùng được ký hiệu là U
(users), và tập các mục bằng I (items). Hơn nữa, tập các xếp hạng
(rating) trong hệ thống được biểu thị bởi R, và tập các giá trị có thể có
cho một đánh giá là S(Scores). Mơ hình hệ tư vấn được xây dựng như
hàm � trong cơng thức (1.6).
�: � × � → �
Và nhiệm vụ của nó là dự đốn đánh giá �(�, �) của một người dùng
� ⊂ � cho một mục mới � ⊂ �, Hàm này sau đó được sử dụng để giới
thiệu cho người dùng mục tiêu �� một một mục �∗ mà đánh giá ước
tính có giá trị cao nhất theo (1.7)
�∗ = ��� max �(��, �)
�∈�\��
1.2.2 Đánh giá
Việc đánh giá mơ hình tư vấn sẽ được thực hiện theo các tiếp cận:
splitting, bootstraping và đánh giá chéo k-fold. Có hai nhóm độ đo phổ
biến để đánh giá các khuyến nghị của các hệ tư vấn, đó là nhóm các độ
đo tính chính xác dự báo xếp hạng (MAE, MSE, RMSE) và nhóm các
độ do chính xác phân lớp các mục khuyến nghị (precision, recall, F1).
1.2.2 Phân loại
Xét theo kỹ thuật tiếp cận hệ tư vấn được xây dựng theo các kỹ
thuật lọc theo nội dung; lọc cộng tác, bao gồm dựa trên bộ nhớ (dựa
trên người dùng, dựa trên mục) và dựa trên mơ hình (xây dựng các mơ
hình học máy cho hệ tư vấn); các kỹ thuật khác và lai ghép giữa các kỹ
thuật với nhau. Trong đó, kỹ thuật được sử dụng phổ biến và hiệu quả
nhất là kỹ thuật lọc cộng tác.
(1.7)
1.3. Tình hình nghiên cứu và đề xuất
Tìm hiểu tình hình nghiên cứu phát triển hệ tư vấn nói chung và hệ
tư vấn dựa trên kỹ thuật lọc cộng tác nói riêng đặt biệt là hệ tư vấn lọc
cộng tác dựa trên mơ hình khai thác luật kết hợp và mơ hình lọc cộng
tác tiếp cận phân tích hàm ý thống kê. Từ đó chỉ ra các vấn đề hạn chế
của chúng và đề xuất hướng nghiên cứu xây dựng hệ tư vấn dựa trên
trường hàm ý thống kê.
1.4. Kết luận
Chương 1 tìm hiểu về lý thuyết hàm ý thống kê, đặc biệt là biến
thiên hàm ý, trường hàm ý; hệ tư vấn; tình hình nghiên cứu hệ tư vấn
cùng các vấn đề gặp phải trong nghiên cứu của hệ tư vấn nói chung, và
hệ tư vấn dựa trên khai thác luật cũng như hệ tư vấn theo hướng tiếp
cận ứng dụng hàm ý thống kê nói riêng, và từ đó đề xuất nghiên cứu
mơ hình tư vấn mới dựa trên trường hàm ý nhằm cải thiện độ hiệu quả
của các khuyến nghị.
CHƯƠNG 2. CÁC MƠ HÌNH HỆ TƯ VẤN DỰA
TRÊN TRƯỜNG HÀM Ý THỐNG KÊ
2.1. Mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý
2.1.1. Các vấn đề của hệ tư vấn dựa trên khai thác luật kết hợp
Trong lĩnh vực hệ tư vấn, các thuật toán khai thác luật kết hợp (ARM
– Association Rule Mining) gặp phải một số vấn đề khiến chất lượng
của các luật không đủ tốt cho các khuyến nghị, bao gồm (1) Khung
khai thác luật kết hợp chỉ xử lý trên dữ liệu nhị phân; (2) Chưa đáp ứng
yêu cầu về thời gian và chất lượng của luật cho bài toán khuyến nghị;
(3) Độ tin cậy của luật là không nhạy cảm và không thể hiện được
tương quan giữa tiền đề và hậu quả; (4) Các độ đo sinh luật mang tính
đối xứng như độ tin cậy, lift và một số độ đo hấp dẫn khác là chưa phù
hợp đối với các bài tốn khuyến nghị, nơi mà vai trị của các
mục/người dùng không phải lúc nào cũng giống nhau; (5) Độ hỗ trợ
giảm với sự gia tăng kích thước của luật; (6) Số lượng luật được tạo
tăng theo cấp số nhân với số lượng mục; và (7) Bản chất khung khai
thác độ hỗ trợ và độ tin cậy chưa quan tâm đến số phản ví dụ trong khi
trên thực tế, một luật phải có số xác nhận càng cao và phản ví dụ càng
thấp thì luật càng mạnh hơn.
Từ các vấn đề của khung khai thác luật kết hợp nêu trên, luận án đề
xuất tạo ra một phiên bản khung khai thác luật kết hợp hiệu quả hơn
dựa trên biến thiên hàm ý.
2.1.2. Độ đo biến thiên hàm ý và ngưỡng biến thiên hàm ý
Độ đo là một trong những vấn đề cốt lỏi trong việc xây dựng mơ
hình tư vấn, đối với mơ hình tư vấn lọc cộng tác dựa trên biến thiên
hàm ý, ngoài các độ đo của khung khai thác luật là độ hỗ trợ và độ tin
cậy, còn xây dựng độ đo biến thiên hàm ý để lọc ra một tập các mặt
đẳng trị hàm ý của các luật làm cơ sở cho các khuyến nghị của mô hình
tư vấn.
Độ đo biến thiên hàm ý thống kê
Các độ đo được đề xuất sử dụng cho mơ hình tư vấn lọc cộng tác
dựa trên biến thiên hàm ý bao gồm các độ đo biến thiên của chỉ số hàm
ý �(�, �̅ ) và cường độ hàm ý �(�, �) theo các yếu tố �, �� , �� và
���̅
được mô tả trong Bảng 2.1.
Bảng 2.1 Các độ đo biến thiên hàm ý thống kê
Độ đo
Mô tả
Biến thiên
��
chỉ số hàm ý
theo �
Biến thiên
���
chỉ số hàm ý
theo ��
Biến thiên
���
chỉ số hàm ý
theo ��
�(�, �̅ ) + ∆� = �(�, �̅ ) + −
����̅
� � ) 2 + ( ) (� − � � ) 2
2 �
̅
.�(�, �̅ ) + ∆�
� ̅ = �(�, �) +
�
��
��
��
���
2
1
��
��
1
−
2
1
√
��
(
� ̅
�
̅
�� ��
̅)
+
� 32
��
1
) −��
√
2
��
2
(� −
�
�
��
2
�
1 ���̅
1
�(�, �̅ ) + ∆� = �(�, �̅ ) +
3
��
2√�
��
−
Biến thiên
chỉ số hàm ý
theo ���̅
Biến thiên
cường độ
hàm ý theo �
Biến thiên
cường độ
hàm ý theo
��
Biến thiên
cường độ
hàm ý theo
��
Biến thiên
cường độ
hàm ý theo
���̅
Cơng thức tính1
= �(�, �̅ ) +
(�
�(�, �̅ ) + ∆�
̅
1
��
(− )
�
1
��(�−��)
�
√
√2�
1
= (�, �) +
(�, �) + ∆∆�
= (�, �) +
�
(�, �) + ∆�
��̅
√2
1
√2
= ( ,� �) +1
� 2 ��
∫
�(�,�̅ )
(�, �) + ∆∆�
�
−�2
̅)
� (�,��
1
�(�, �) + ∆�� = (�, �) +
√2
−�2
̅)
(�,���
�
� 2 ��
∫
�(�,�̅ )
−�2
̅)
(�,�
��
�
� 2 ��
∫
�(�,�̅ )
��
∫
̅
(�,�
��� )
�(�,�̅ )
−�2
� 2 ��
Ngưỡng biến thiên hàm ý thống kê
Trong thực nghiệm, trên một mặt đẳng trị hàm ý bao gồm tập các
luật có các giá trị hàm ý xấp xỉ nhau với một ngưỡng hàm ý �, ngưỡng
biến thiên hàm ý này cần được xác định, tuỳ độ đo mà có ngưỡng biến
thiên chỉ số hàm ý hay ngưỡng biến thiên cường độ hàm ý.
Ngưỡng biến thiên chỉ số hàm ý
Chỉ số hàm ý biến thiên theo một trong các giá trị , � ∈ (�,
�� , �� , ���̅ ) được xác định bởi công thức (2.1).
��(�, �̅ )
��(�, �̅ )
= ���
+ � (�(�, �̅ )) , � ∈ (�, �� , �� ,
���̅ )
��
��
��
(2.1)
Ngưỡng biến thiên cường độ hàm ý
Cũng giống như sự biến thiên chỉ số hàm ý ngưỡng biến thiên
cường độ hàm ý được xác định theo công thức (2.2).
��(�, �)
= ���
+ �(( ,� �)), ∈ (�, ��, ��,
���
)
̅
��
(2.2)
2.1.3. Luật kết hợp và khung khai thác luật kết hợp
Mơ hình hố luật kết hợp và khung khai thác luật
Để xây dựng mô hình, các luật kết hợp được mơ hình và biểu diển
ở dạng phân tích hàm ý thống kê như ở công thức (2.3)
=
�� ≤ �
�� ≤ �
|� ≤ �, max(0, � + � − �) ℛ���
�
�
�
(�, �� , �� , ���̅ ) ≤ ���̅ ≤ min(�� , �� )
|
����ℎ�ℛ ≤ �
(2.3)
���
{
|�ℎ�ℛ��� | = 1
}
Trong đó luật ℛ��� được biểu diễn bỡi bộ 4 (�, ��, � � , ���)
theo quan điểm hàm ý thống kê, và thoả mãn các điều kiện ràng buột
�� ≤
�, �� ≤ � , �� ≤ �, max(0, �� + �� − �) ≤ ��� ≤ min(��,
� � ) , và
chiều dài luật nhỏ hơn ngưỡng � để loại bỏ các luật dài có ý nghĩa
khơng đáng kể trong lĩnh vực tư vấn, đồng thời giảm thời gian khai
thác cũng như hạn chế số lượng luật trong phạm vi quản lý, tính tốn.
Khung khai thác luật kết hợp được gọi là �ℛ���, được dùng để
sinh tập các luật kết hợp (ℛ���) sử dụng thuật toán Apriori và các
ngưỡng độ hỗ trợ và độ tin cậy ( ������ và ������� tương ứng).
Sau đó kết hợp với độ biến thiên hàm ý như trình bày trong Bảng 1 để
lọc ra các luật có hàm ý thống kê cao nhất, Thuật toán khung khai thác
dựa trên thuật toán apriori có tuỳ chỉnh như Hình 2.1
Hình 1.1 Khung khai thác luật kết hợp sử dụng biến thiên hàm ý
Khung khai thác luật kết hợp sử dụng biến thiên hàm ý được mơ
hình hố như cơng thức (2.4) và được hoạt động theo các bước (1)
Dùng thuật toán apriori để sinh các tập mục thường xuyên thoả ngưỡng
độ hỗ trợ ������� từ ma trận ���được chuyễn dạng từ tập dữ liệu �
(2) Sinh
luật từ các tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu; (3) Xây
dựng các độ đo biến thiên hàm ý ��� và dùng chúng để lọc các luật
mạnh có mức độ hàm ý cao đáp ứng yêu cầu bài toán tư vấn; (4) trích
lọc các mặt đẳng trị hàm ý theo ngưỡng biến thiên cho việc tư vấn.
�ℛ��� =
�� ≤ �, �� ≤ �,
�� ≤ �, max(0, �� + �� − �)
|
(�, �� , �� , ���̅ ), ≤ ���̅ ≤ min(�� , �� )
(������� ≥ ������,
độ ℎỗ ��ợ �
| ���������� ≥ �������)
độ ��� �ậ� �
����ℎ�ℛ��� ≤ �
���������� ���
|
|�ℎ�ℛ��� | = 1
{
��� ℜ ����ℎ���ℎ��� }
2.1.4. Mơ hình tư vấn đề xuất
(2.4)
Mơ hình tổng qt khai thác luật được mơ tả như trong Hình 2.2,
theo đó khung khai thác �ℛ��� được dùng làm nền tảng cho việc xây
dựng mơ hình hình tư vấn dựa trên biến thiên hàm ý theo người dùng
và theo mục, bên cạnh đó các mơ hình khuyến nghị lọc cộng tác khác
cũng được tích hợp để đánh giá và so sánh với mơ hình đề xuất, theo
một quy trình đánh giá như được mơ tả trong đoạn kế tiếp.
Hình 2.2 Mơ hình hệ tư vấn lọc cộng tác dựa biến thiên hàm ý
2.1.5. Đánh giá mơ hình đề xuất
Mơ hình tư vấn được đánh giá theo quy trình như Hình 2.3.
Tập dữ liệu
Tập huấn luyện
Các độ đo đánh giá
Tập kiểm thử
Mơ hình đánh giá
Kết quả đánh giá
Thuật tốn
Mơ hình
khuyến nghị
Kết quả tư vấn
khuyến nghị
Hình 2.3 quy trình đánh giá mơ hình hệ tư vấn
Phương pháp dược dùng là đánh giá chéo k-fold có lặp lại với � =
5 có số lần lập lại là � = 2, dữ liệu được chia làm các tập huấn luyện
và tập kiểm thử theo số lượng các giao dịch trong tập dữ liệu.
Hình 2.4 Lưu đồ thuật toán đánh giá hệ tư vấn
Thủ tục đánh giá được mơ tả trong lưu đồ ở Hình 2.4, theo đó các
độ đo đánh giá được sử dụng bao gồm hai nhóm độ đo (1) tính chính
xác của dự đốn (MAE, MSE và RMSE) và (2) tính chính xác phân lớp
của các mục được khuyến nghị (Precision, recall, và F1).
2.2. Mô hình hệ tư vấn dựa trên trường hàm ý thống kê
2.2.1. Các vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê
Các mơ hình tư vấn dựa trên phân tích hàm ý thống kê hiện có, kể
cả mơ hình tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý
thống kê, đang góp phần làm phong phú thêm các nghiên cứu giải pháp
để cải thiện hiệu quả của hệ tư vấn lọc cộng tác. Tuy nhiên chúng còn
một số hạn chế cần khắc phục như (1) Chỉ xử lý trên dữ liệu nhị phân,
dẫn đến một vấn đề cần giải quyết là sự bùng nổ tổ hợp và mất mát
thơng tin do q trình nhị phân hoá dữ liệu phi nhị phân; (2) Đối với
các mơ hình dựa trên khai thác luật của các cơng trình này, độ đo hàm
ý đều được đề xuất trong giai đoạn hậu xử lý của nhiệm vụ khai thác
luật, vì vậy chúng
khơng đóng góp đáng kể để hạn chế sự bùng nổ tổ hợp của luật kết quả
trong bộ dữ liệu lớn, cần thời gian xử lý và không gian lưu trử lớn. Để
khắc phục các hạn chế này, mơ hình tư vấn dựa trên trường hàm ý
thống kê được đề xuất dựa trên sự phát triển, cải thiện mơ hình tư vấn
dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý.
2.2.2. Luật hàm ý và khung khai thác luật hàm ý
Mơ hình tư vấn dựa trên trường hàm ý thống kê đã mở rộng khung
khai thác luật kết hợp thành khung khai thác luật hàm ý.
2.2.2.1Mơ hình hoá luật hàm ý định lượng
Để giải quyết giới hạn của khung khai thác luật kết hợp trên dữ liệu
phi nhị phân, khái luật hàm ý định lượng (sau đây gọi là luật hàm ý)
được xây dựng dựa trên các tập mục thường xuyên thoả mãn cả độ tin
cậy và độ đo biến thiên hàm ý trong quá trình sinh luật, điều này giúp
giải quyết các bài toán trên dữ liệu phi nhị phân và góp phần hiệu quả
trong quá trình hạn chế sự bùng nỗ tổ hợp khi sinh luật. Cũng giống
như luật kết hợp, luật hàm ý cũng được mơ hình hố như cơng thức
(2.5):
|
ℛ��� =
{
0 ≤ �� ≤ �� ≤ � ,
0 ≤ ���� ≤ ��
����ℎ�ℛ��� ≤ �
(�, ��, � � , ���)�
|�ℎ�ℛ���| = 1
(������� ≥ �������,
|
���������� ≥ �������
��� ������� ��� ℜ �ℎ���ℎ���)}
Với ℜ được xác định theo công thức (2.6)
�(�, �̅ )
"≤", nếu imp {
| ∈ (�, ��, ��,
���)̅ }
(2.6)
ℜ={
(�, �)
≥, nếu imp {
| ∈ (�, � , � , � ̅)}
� � ��
2.2.2.2Mơ hình hoá khung khai thác luật hàm ý
Luật hàm ý được khai thác bởi khung khai thác luật hàm ý được
phát triển từ khung khai thác luật kế hợp như trình bày trong Hình 2.5
và được mơ hình hố theo cơng thức (2.7).
(2.5)
Hình 2.5 Lưu đồ thuật tốn khung khai thác luật hàm ý
�����
0 ≤ �� ≤ �� ≤ �
��� �������ℎ��
0 ≤ ���̅ ≤ ��
= {(������� �, ���������� �,) |
}
���� ≤ �, ���� ≤ �, ������ℜ ���
��� �������
Khung khai thác luật hàm ý hoạt động theo các bước (1) Dùng
thuật toán apriori để sinh các tập mục thường xuyên thoả ngưỡng độ
hỗ trợ
������� từ ma trận ���được chuyễn dạng từ tập dữ liệu � bước này
thừa kế thuật toán (2) Xây dựng các độ đo biến thiên hàm ý ��� và
tích hợp vào khung khai thác luật để sinh luật hàm ý từ các tập mục
thường
xuyên thoả ngưỡng tin cậy tối thiểu và thoả mãn độ đo biến thiên hàm
ý; (3) xây dựng và trích lọc các mặt đẳng trị hàm ý theo ngưỡng biến
thiên cho việc tư vấn.
2.2.3. Mơ hình đề xuất
Mơ hình tư vấn dựa trên trường hàm ý thống kê được đề xuất như
trong Hình 2.6.
(2.7)
Hình 2.6 Mơ hình tư vấn dựa trên Trường hàm ý
Mơ hình này phát triển từ mơ hình tư vấn dựa trên khai thác luật
kết hợp sử dụng biến thiên hàm ý thông qua các phát triển bổ sung
như sau (1) khung khai thác luật hàm ý phát triển từ khung khai thác
luật kết hợp để sinh luật hàm ý từ các tập dữ liệu nhị phân lẫn phi
phị phân; (2) bổ sung thêm một tiếp cận phân hoạch dữ liệu trong
việc xây dựng, huấn luyện và đánh giá mô hình tư vấn dựa trên số
mục được đánh giá trên từng giao dịch của tập dữ liệu để cải thiện
khả năng huấn luyện mơ hình và làm cho mơ hình có kết quả tốt
hơn; (3) Thuật tốn đánh giá hệ tư vấn có bổ sung thêm nhóm độ đo
đánh giá dựa trên xếp hạng vị trí mục đề xuất (bao gồm độ đo
���� và
���������) để việc đánh giá phản ánh sâu sắc hơn hiệu quả của
mơ hình tư vấn.
2.2.3. Đánh giá mơ hình đề xuất
Quy trình đánh giá mơ hình tư vấn vẫn giống như ở mơ hình tư vấn
dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý, cũng sử dụng
phương pháp đánh giá chéo k-fold lập lại 2 lần nhưng có hai bổ sung
quan trọng như sau
Ngoài phương pháp phân hoạch dữ liệu quan sát thành các tập
huấn luyện và tập kiểm thử theo số lượng giao dịch trong tập dữ liệu
thì mơ
hình cịn được bổ sung phương pháp phân hoạch theo số lượng mục
đánh giá trên từng giao dịch để khắc phục “điểm nghẻn” trong việc xác
định số mục biết trước đối với các dữ liệu quá thưa thớt trong các bài
toán tư vấn, điều này giúp tăng hiệu quả huấn luyện mơ hình, làm cho
chất lượng khuyến nghị tốt hơn.
Hình 2.7 Lưu đồ thuật toán đánh giá hệ tư vấn được đề xuất
Điểm bổ sung thứ hai là nhóm các độ đo đánh giá vị trí xếp
hạng các mục trong danh sách khuyến nghị của mơ hình tư vấn,
như trình bày trong thuật tốn đánh giá mơ hình ở Hình 2.7. Các độ
đo này bao gồm nDCG và Rankscore.
2.3. Kết luận chương
Chương này đề xuất một hướng tiếp cận mới dựa trên biến thiên
hàm ý trong trường hàm ý để khai thác các luật kết hợp trong bài toán
tư vấn lọc cộng tác. Đầu tiên, đó là đề xuất mơ hình hệ tư vấn lọc cộng
tác dựa trên độ biến thiên hàm ý để giải quyết các vấn đề hiện nay của
việc khai thác luật kết hợp phục vụ cho mơ hình hệ tư vấn. Mơ hình
này giúp cải thiện hiệu quả hệ thống khai thác luật phục vụ cho hệ tư
vấn so với đa số mơ hình hệ tư vấn dựa trên lọc cộng tác. Mặc dù vậy,
nó vẫn cịn một số điểm yếu cần cải thiện và chính điều này dẫn đến
việc đề xuất mơ hình tư vấn dựa trên trường hàm ý thông qua việc phát
triển và khắc phục những điểm yếu cuả mơ hình đề xuất ban đầu.
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
3.1. Dữ liệu thực nghiệm
Để đánh giá các mơ hình tư vấn dựa trên khai thác luật sử dụng
biến thiên hàm ý và mơ hình tư vấn dựa trên trường hàm ý đã đề xuất
trong Chương 2, chúng được thực nghiệm trên các tập dữ liệu nhị phân
là MSWeb1 và tập dữ liệu định lượng là MovieLens 100k2.
3.2. Công cụ thực nghiệm
Các thực nghiệm được thực hiện trên các công cụ
������������������ được phát triển bằng ngơn ngữ R có kế thừa
các gói công cụ RecommenderLab3 cho việc xây dựng và đánh giá các
mơ hình hệ tư vấn và gói cơng cụ Rchic4 để xử lý thông tin hàm ý
thống kê.
3.3. Thực nghiệm mơ hình tư vấn lọc cộng tác dựa trên biến thiên
hàm ý
3.3.1. Mơ hình lọc cộng tác dựa trên biến thiên hàm ý theo mục
Mơ hình được thực nghiệm trên tập dữ liệu Movielens với ngưỡng
nhị phân hoá là 3 (gán 0 cho đánh giá phim nhỏ hơn 3, gán 1 nếu
khác).
Mơ hình được đánh giá, so sánh ngoại tuyến với các mơ hình tư
vấn lọc cộng tác trên hai nhóm độ đo đánh giá là tính chính xác dự
đốn (MAE, MSE và RMSE);và tính chính xác phân loại khuyến nghị
(Precision, recall, và F1) theo các kịch bản thực nghiệm sau.
Kịch bản 1: Khảo sát và tư vấn dựa trên mặt đẳng trị biến thiên hàm
ý. Mơ hình đã tạo được một trường hàm ý bao gồm tập của các mặt
đẳng trị hàm ý có thứ tự của các luật kết hợp hàm ý. Điều này giúp cho
việc tư vấn cho người dùng những mục dữ liệu có mức độ hàm ý phù
hợp nhất. Một người dùng mục tiêu sẽ được khuyến nghị bộ phim hoặc
danh sách các phim mà người ấy sẽ thích theo các nội dung luật
tương ứng
1
2
/> />
3
/>index.html
4
/>
dựa vào các phim trước đây mà họ đã từng xem dựa vào các luật trong
các mặt đẳng trị phù hợp.
Kịch bản 2: So sánh độ chính xác dự đốn mục khuyến nghị với
các mơ hình tư vấn lọc cộng tác. Kết quả thực nghiệm cho thấy độ
chính xác dự đốn mục khuyến nghị của mơ hình khuyến nghị lọc cộng
tác dựa trên biến thiên hàm ý (ISF) có kết quả vượt trội, các chỉ số
đánh giá lổi dự đoán RMSE, MSE và MAE của mơ hình ISF là thấp
nhất, tiếp đến là các mơ hình lọc cộng tác dựa trên người dùng bao
gồm mơ hình sử dụng độ đo Cosine (UBCFcosine), sử dụng độ đo
Pearson (UBCFpeason) và cuối cùng là các mơ hình lọc cộng tác dựa
trên mục bao gồm mơ hình sử dụng độ do Consine (IBCFcosine), và sử
dụng độ đo Pearson (IBCFpeason). Qua đó, cho thấy độ đo biến thiên
hàm ý giúp khung khai thác luật kết hợp cung cấp các luật thoả mãn
một mức độ hàm ý góp phần làm cho mơ hình lọc cộng tác dựa trên
biến thiên hàm ý cải thiện kết quà khuyến nghị đáng kể.
Kịch bản 3. So sánh độ chính xác phân lớp với các mơ hình tư vấn
lọc cộng tác. Kết quả thực nghiệm mơ hình ISF có kết quả độ chính
xác phân lớp vượt trội các mơ hình IBCFcosine, IBCFpeason,
UBCFpeason và tiệm cận với độ chính xác của mơ hình UBCFcosine
thơng qua việc đánh giá các biểu đồ precision, recall, và đường cong
ROC.
3.3.2. Mơ hình lọc cộng tác dựa trên biến thiên hàm ý theo
người dùng
Việc đánh giá tương tự như trong mơ hình lọc cộng tác dựa trên
biến thiên hàm ý theo người dùng, cũng thực hiện trên tập dữ liệu
Movielens và trên các kịch bản tương tự như đã thực hiện trên mơ hình
tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý theo người
dùng. Kết quả thực nghiệm đạt được trên các kịch bản cũng tương tự
như Thực nghiệm trên mơ hình tư vấn lọc cộng tác dựa trên biến thiên
hàm ý theo mục.
Qua hai thực nghiệm mơ hình hình tư vấn lọc cộng tác dựa trên
biến thiên hàm ý theo mục và theo người dùng cho thấy mơ hình đề
xuất đã đóng góp đáng kể cho việc cải thiện mơ hình khuyến nghị lọc
cộng tác theo mơ hình khai thác luật kết hợp.
3.4. Thực nghiệm mơ hình tư vấn dựa trên trường hàm ý thống kê
Mơ hình tư vấn dựa trên trường hàm ý thống kê cũng được thực
nghiệm đánh giá theo phương pháp đánh giá chéo k-fold (với k=5) và
có lập lại 2 lần, trên tập dữ liệu nhị phân MSWeb và tập dữ liệu phi nhị
phân Movielens, các tập dữ liệu này được phân hoạch theo số lượng
giao dịch và theo số mục được đánh giá trên từng giao dịch.
3.4.1. Thực nghiệm trên dữ liệu phân hoạch theo số lượng giao dịch
Kịch bản 1: So sánh mơ hình dựa trên luật kết hợp và dựa trên
luật hàm ý trên tập dữ liệu nhị phân. So với mơ hình tư vấn lọc cộng
tác dựa trên mơ hình khai thác lật kết hợp thì kết quả thực nghiệm trên
các độ đo chính xác phân lớp precision, recall, F1 cũng như biểu đồ
đường cong ROC và recall/precision trên tập dữ liệu nhị phân thỉ mơ
hình tư vấn dựa trên trường hàm ý là tốt hơn rất nhiều.
Kịch bản 2: So sánh mơ hình dựa trên luật kết hợp và dựa trên
luật hàm ý trên tập dữ liệu định lượng. Trên tập dữ liệu định lượng, độ
chính xác phân lớp dựa trên các độ đo Precision, recall, F1 của mơ
hình tư vấn IFARRS cũng tốt hơn nhiều so với mơ hình tư vấn dựa trên
mơ hình khai thác luật kết hợp
Kịch bản 3: Hiệu suất và thời gian khuyến nghị
Kịch bản này so sánh hiệu suất và thời gian tạo khuyến nghị (bao
gồm thời gian xây dựng mơ hình và dự báo mục khuyến nghị) giữa mơ
hình tư vấn dựa trên trường hàm ý và mơ hình khai thác luật kết hợp,
kết quả thực nghiệm cho thấy mơ hình tư vấn dựa trên trường hàm ý
thống kê có thời gian xây dựng và thực thi mơ hình nhanh hơn tương
ứng là 53% (thời gian xây dựng mơ hình tư vấn) và 37% (thời gian
thực thi mơ hình tư vấn) dựa trên khai thác luật kết hợp, trong khi bộ
luật sinh ra được tinh gọn còn khoảng 9% so với tập luật sinh ra do mơ
hình tư vấn dựa trên khai thác luật kết hợp. điều này đáp ứng yêu cầu
về thời gian và tập luật xử lý tốt hơn cho một hệ tư vấn.
Kịch bản 4: So sánh với các mơ hình khuyến nghị lọc cộng tác
trên tập dữ liệu định lượng. So sánh theo các chỉ tiêu độ chính xác
phân lớp, mơ hình tư vấn dựa trên trường hàm ý thống kê cho kết quả
vượt trội so
với các mơ hình tư vấn lọc cộng tác cả trên mục và trên người dùng
truyền thống sử dụng các độ đo tương đồng Cosine và Pearson.
3.4.2. Thực nghiệm trên dữ liệu phân hoạch theo mục được đánh
giá trên từng giao dịch
Kịch bản 1. So sánh với các mơ hình khuyến nghị truyền thống
Trong kịch bản thử nghiệm này, mô hình hệ tư vấn dựa trên trường
thống kê hàm ý (ISFRS), được so sánh với các mơ hình khuyến nghị
lọc cộng tác truyền thống dựa trên người dùng cho cả các phép đo
Cosine (UBCF cRS) và Pearson (UBCF psRS), và khuyến nghị lọc
cộng tác mơ hình dựa trên mục cho cả các thước đo Cosine (IBCF
cRS) và Cosine hiệu chỉnh (IBCF acRS), Tập dữ liệu được sử dụng
trong thử nghiệm này là tập dữ liệu phi nhị phân Movielens. Để các mơ
hình lọc cộng tác có kết quả tốt, bằng thử nghiệm trên nhiều tham số �
= 2,5,10,15 lân cận và thấy rằng k = 15 là tốt hơn các giá trị khác.
Các mơ hình đề xuất đã được thử nghiệm trên thước đo của hai nhóm
độ đo: phân loại và xếp hạng. Đầu tiên, các mơ hình được thử nghiệm
trên các độ đo chính xác phân loại, kết quả bao gồm đồ thị đường cong
ROC, precision /recall, F1, theo đó mơ hình ISFRS là tốt nhất, tiếp
theo là mơ hình lọc cộng tác dựa trên người dùng sử dụng cả các độ đo
Pearson và Cosine, và cuối cùng mô hình yếu nhất là mơ hình lọc cộng
tác dựa trên mục (trong trường hợp cả Pearson và các độ đo Cosine
hiệu chỉnh).
Kết quả trong thử nghiệm này cho thấy sự đóng góp của cả mơ
hình ISFRS được đề xuất và phương pháp phân vùng dữ liệu được đề
xuất vào việc đánh giá trong việc cải thiện khả năng phân loại và xếp
hạng cũng như chất lượng đào tạo của mô hình so với các mơ hình
được đề xuất dựa trên lọc cộng tác truyền thống.
Kịch bản 2. So sánh với mơ hình tư vấn tiếp cận hàm ý thống kê
Trong kịch bản thử nghiệm này, các tập dữ liệu MSWeb và
Movielens được sử dụng để so sánh mơ hình hệ thống khuyến nghị
trường thống kê hàm ý (ISFRS) với hai mơ hình ứng dụng phân tích
hàm ý thống kê hiện có khác bao gồm các cơng trình sử dụng chỉ số
hàm ý và cường độ hàm ý (IIIRS) và mô hìnhdùng độ đo hàm ý Phi-độ
đo gắn
kết - Cohesion- và độ đo mức độ quan trọng -Gamma (PCGRS) trên
hai loại độ đo như trong kịch bản 1. Đầu tiên là các độ đo chính xác
phân loại bao gồm precision/recall, đường cong ROC và F1, kết quả
thực nghiệm cho thấy tính ưu việt của mơ hình khuyến nghị IFS RS so
với PCG RSmodel và mơ hình IIIRS, trong đó yếu nhất là mơ hình
IIIRS trên cả 3 độ đo. Thứ hai là các độ đo chính xác xếp hạng, kết quả
thực nghiệm được thể hiện cũng khá giống với kết quả trên nhóm các
thước đo chính xác phân loại, tức là mơ hình ISFRS có các hạng mục
xếp hạng kết quả tốt nhất theo các chỉ số nDCG và Rankscore, tiếp
theo là mơ hình PCGRS và kém nhất là mơ hình IIIRS.
3.5. Kết luận chương
Các mơ hình tư vấn đề xuất trong Chương 2 được đánh giá, so
sánh hiệu quả so với các mơ hình tư vấn lọc cộng tác dựa trên bộ nhớ
(theo mục và theo người dùng) và dựa trên mơ hình khai thác luật
thơng qua các thực nghiệm được tổ chức ở chương này. Theo đó, các
kết quả thực nghiệm trên mơ hình tư vấn dựa trên trường hàm ý cho
thấy nó giúp nâng cao hơn nữa hiệu quả của việc ứng dụng biến thiên
hàm ý vào mơ hình tư vấn, cải thiện đáng kể chất lượng của hệ thống
khuyến nghị so với các hệ tư vấn dựa trên bộ lọc cộng tác truyền thống.
Ngồi ra, mơ hình hệ tư vấn dựa trên trường hàm ý cũng được so sánh
hiệu quả của các công trình về hệ tư vấn ứng dụng phân tích hàm ý
thống kê hiện có và kết quả cho thấy rằng mơ này có kết quả tốt nhất
trong tất cả các hệ tư vấn theo cách tiếp cận phân tích hàm ý thống kê .