Tải bản đầy đủ (.pdf) (27 trang)

Tóm tắt tiếng việt: Hệ tư vấn dựa trên trường hàm ý thống kê.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (926.77 KB, 27 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

---------NGUYỄN TẤN HOÀNG

HỆ TƯ VẤN
DỰA TRÊN TRƯỜNG HÀM Ý THỐNG KẾ

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 9.48.01.01

TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

ĐÀ NẴNG – 2022


Cơng trình được hồn thành tại:
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học:
1. PGS. TS. Huỳnh Xuân Hiệp
2. TS. Huỳnh Hữu Hưng

Phản biện 1:……………………………...……………
Phản biện 2:………………...…………………………
Phản biện 3:………………………...…………………

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp
Trường họp tại: Đại học Đà Nẵng
Vào hồi….....giờ.........ngày.......tháng.......năm…….…


Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia
- Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng


1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong thế giới trực tuyến, nơi thông tin đang phát triển với tốc độ
cấp số nhân theo đà phát triển của thương mại điện tử, dịch vụ lưu trử
trực tuyến và cung cấp thơng tin, việc tìm kiếm thơng tin phù hợp với
nhu cầu đang là một thách thức đối với người dùng để có thể đưa ra các
quyết định đúng đắn. Các hệ tư vấn nhanh chóng chứng tỏ là một cơng
cụ rất hữu dụng trong việc hỗ trợ cung cấp thông tin cần thiết và có liên
quan cho người dùng lẫn các tổ chức cung cấp dịch vụ, thương mại trong
các tình huống như vậy. Tuy nhiên, để đáp ứng nhu cầu ngày càng cao
về chất lượng cũng như số lượng các khuyến nghị của các tổ chức cung
cấp dịch vụ trực tuyến và người dùng trên môi trường Intenet, việc
nghiên cứu các thuật toán tư vấn mới hoặc cải tiến hệ tư vấn để nâng cao
chất lượng các khuyến nghị, hạn chế hoặc khắc phục các điểm yếu của
các kỹ thuật tư vấn, nhất là ứng dụng khoa học dữ liệu và học máy vào
lĩnh vực hệ tư vấn đang là vấn đề cấp thiết và là xu hướng thu hút nhiều
nghiên cứu hiện nay.
Trong lĩnh vực khoa học dữ liệu và học máy, Phân tích hàm ý thống
kê là một phương pháp phân tích dữ liệu mới do Regis Gras đề xuất vào
cuối thập niên 90 của thế kỷ trước với mục đích nghiên cứu các khuynh
hướng và các mối quan hệ giữa các thuộc tính (biến) dữ liệu thông qua
các mẫu tri thức dạng luật. Các mẫu tri thức này được đánh giá thông
qua các độ đo hàm ý thống kê như cường độ hàm ý, chỉ số hàm ý, ...
Mặc dù là một lý thuyết còn non trẻ nhưng đã được áp dụng trong nhiều

lĩnh vực khác nhau như giảng dạy, tâm lý, bản thể học… Gần đây, chúng
đã được đề xuất ứng dụng trong lĩnh vực tư vấn. Tuy vậy, các nghiên
cứu ứng dụng phân tích hàm ý thống kê vào hệ tư vấn còn chưa nhiều
và những đóng góp của nó cịn khá khiêm tốn so với tiềm năng ứng dụng
của nó.
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã
chọn đề tài “Hệ tư vấn dựa trên trường hàm ý thống kê” làm nội dung
nghiên cứu luận án Tiến sỹ kỹ thuật.


2
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Mục tiêu của luận án là khảo sát về hệ tư vấn và nghiên cứu nội dung
cơ bản của hàm ý thống kê đặc biệt là biến thiên hàm ý và trường hàm ý
làm cơ sở cho việc nghiên cứu đề xuất khung khai thác luật hàm ý (luật
kết hợp thoả mãn điều kiện hàm ý thống kê) , và từ đó đề xuất ứng dụng
khung khai thác luật hàm ý trong việc xây dựng mơ hình tư vấn dựa trên
trường hàm ý.
2.2. Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận án gồm: Các độ đo biến thiên hàm ý
trong trường hàm ý hình thành từ quá trình biến thiên hàm ý thống kê;
Các mơ hình tư vấn khai thác luật sử dụng biến thiên hàm ý và mơ hình
tư vấn dựa trên trường hàm ý; nghiên cứu và cải tiến phương pháp đánh
giá mơ hình tư vấn, cũng như nghiên cứu đề xuất các kịch bản thực
nghiệm cho mơ hình tư vấn lọc cộng tác áp dụng phân tích hàm ý thống
kê.
2.3. Phạm vi nghiên cứu
Luận án được giới hạn trong phạm vi sau: Tìm hiểu lý thuyết hàm ý
thống kê đặc biệt là biến thiên hàm ý thống kê, kỹ thuật tư vấn lọc cộng

tác, các nghiên cứu về hệ tư vấn dựa trên phân tích hàm ý thống kê trước
đây để làm cơ sở cho việc đề xuất; và Đề xuất các mơ hình tư vấn mới
có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân và cải tiến hiệu
quả tư vấn (được đánh giá qua tính chính xác của mục được dự đốn,
phân lớp mục khuyến nghị, xếp hạng mục được dự đoán).
3. Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng bao gồm

- Nghiên cứu lý thuyết về hệ tư vấn đặc biệt các hệ tư vấn lọc cộng
tác dựa trên mơ hình khai thác luật, lý thuyết phân tích hàm ý thống kê
theo hướng phân tích biến thiên hàm ý thống kê và trường hàm ý để đề
xuất các mơ hình tư vấn;
- Phương pháp thực nghiệm để kiểm chứng mơ hình tư vấn đề xuất


3
4. Bố cục của luận án
Luận án được tổ chức thành các nội dung sau:
Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đối tượng, phạm
vi nghiên cứu và phương pháp nghiên cứu của luận án.
Chương 1: Tổng quan về trường hàm ý thống kê và hệ tư vấn.
Chương 2: Các mơ hình hệ tư vấn dựa trên trường hàm ý, bao gồm
mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý và mơ hình tư vấn
dựa trên trường hàm ý thống kê.
Chương 3: Thực nghiệm và đánh giá kết quả.
Phần kết luận bao gồm những đóng góp chính và hướng phát triển.
Các phụ lục: Các chứng minh (1) tính bất đối xứng của các độ đo
hàm ý thống kê; và (2) sự tương đương của các cơng thức chỉ số hàm ý.
5. Đóng góp của luận án
- Đề xuất một bộ các độ đo biến thiên hàm ý thống kê làm cơ sở

cho việc xây dựng các khung khai thác luật hàm ý và mơ hình tư vấn.
- Đề xuất một khung khai thác luật kết hợp hàm ý (luật hàm ý) dựa
trên sự tích hợp khung khai thác luật kết hợp và độ đo biến thiên hàm ý.
- Đề xuất các mơ hình tư vấn bao gồm (1) Mơ hình tư vấn lọc cộng
tác dựa trên biến thiên hàm ý để tạo khuyến nghị dựa trên mặt đẳng trị
hàm ý của các luật kết hợp có ý nghĩa hàm ý và được áp dụng cho các
tập dữ liệu nhị phân; (2) Mơ hình này sau đó được cải tiến và phát triển
thành mơ hình tư vấn dựa trên trường hàm ý thống kê có thể áp dụng
trên cả dữ liệu nhị phân và phi nhị phân.
- Đề xuất phương pháp phân hoạch dữ liệu dựa trên mục được đánh
giá trên từng giao dịch thay cho phương pháp phân hoạch dữ liệu dựa
trên số lượng giao dịch trong tập dữ liệu để nâng cao chất lượng huấn
luyện và đánh giá mơ hình tư vấn và được áp dụng cho mơ hình tư vấn
dựa trên trường hàm ý.
- Phát triển công cụ xây dựng, huấn luyện và đánh giá hệ tư vấn
implicationfieldRS và các kịch bản thực nghiệm mơ hình tư vấn đề xuất
sử dụng công cụ này.


4

CHƯƠNG 1. TỔNG QUAN VỀ TRƯỜNG HÀM Ý THỐNG KÊ
VÀ HỆ TƯ VẤN
1.1. Phân tích hàm ý thống kê và Trường hàm ý
Phân tích hàm ý thống kê (SIA), một phương pháp nghiên cứu mối
quan hệ dạng luật giữa các biến và/hoặc giữa các biến và các luật với
nhau do Regis Gras đề xuất vào thập niên 1990, theo đó SIA đề xuất các
độ đo hàm ý có các đặc tính thống kê, bất đối xứng, phi tuyến và dựa
vào xác suất thống kê để đánh giá mối quan hệ giữa các biến dữ liệu.
Trong SIA, mối quan hệ 𝑎 → 𝑏 (luật, quy tắc) trở nên khá ổn định

khi số xác nhận của nó đạt tới một mức tin cậy xác định. Thường khó để
thay thế luật ban đầu này bằng một luật khác khi có ít phản ví dụ mới
xuất hiện nhưng sự nghi ngờ sẽ dần dần xuất hiện. Nếu số phản ví dụ
mới tăng thì sự tin cậy của luật có thể giảm và luật có thể được điều
chỉnh hoặc thậm chí bị loại bỏ. Luật vẫn có thể chấp nhận được khi số
phản ví dụ vẫn còn chấp nhận được. Ý tưởng cơ bản ẩn sau SIA là một
luật (mối quan hệ/ mẫu tri thức) được quan sát thống kê chấp nhận càng
ít số phản ví dụ thì nó càng có hàm ý. Do vậy, SIA quan tâm đến các
tham số mà chúng có thể bị bỏ qua trong những độ đo khác. Ví dụ, độ
tin cậy confidence quan tâm đến các tham số 𝑛𝐴𝐵 và 𝑛𝐴 mà không quan
tâm đến các tham số 𝑛, 𝑛𝐵 , 𝑛𝐴𝐵̅ như trong các độ đo của SIA.
1.1.1. Các độ đo hàm ý thống kê
Phân tích hàm ý thống kê sử dụng hai độ đo chính để đánh giá mức
độ hàm ý của mối quan hệ 𝑎 → 𝑏 là chỉ số hàm ý
𝑛𝐴 𝑛𝐵̅
𝑛 ,
𝑛𝐴 𝑛𝐵̅

𝑛

𝑛𝐴𝐵̅ −

𝑞(𝑎, 𝑏̅) =

𝑛𝐴 𝑛𝐵̅
𝑛
,
2
2
2

2
2
2
(𝑛 𝑠𝐴 + 𝑛𝐴 )((𝑛 𝑠𝐵̅ + 𝑛𝐵̅ )

𝑛3
{
̅ (𝑖) −
∑𝑖∈𝐸 𝑎(𝑖)𝑏

𝑎, 𝑏 ∈ {0,1}
(1.1)
𝑎, 𝑏 ∈ [0,1]


5
Và cường độ hàm ý được xác định (theo phân phối poision) bởi công
thức (1.2a)
̅)
𝑐𝑎𝑟𝑑(𝐴∩𝐵

𝜑(𝑎, 𝑏) = { ∑
𝑠=0

𝜆𝑠
𝑠!

𝑒−𝜆 ,
0,


𝑛𝐵 ≠ 𝑛

(1.2a)

𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖

Trong trường hợp xấp xỉ được thoả mãn (ví dụ λ ≥ 4) biến ngẫu
nhiên 𝑄(𝑎, 𝑏̅) là xấp xĩ phân phối chuẩn N (0,1), 𝜑(𝑎, 𝑏) được xác định
theo công thức (1.2b)
1
𝜑(𝑎, 𝑏) = √2𝜋
{



𝑡2

∫ 𝑒 − 2 𝑑𝑡 ,

𝑛𝐵 ≠ 𝑛

𝑞(𝑎,𝑏̅ )

0,

(1.2b)

𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖

Trong đó, chỉ số hàm ý càng thấp thì cường độ hàm ý càng cao và

mức mức độ hàm ý càng lớn
1.1.2. Sự biến thiên chỉ số hàm ý và trường hàm ý
Sự biến thiên của 𝑞(𝑎, 𝑏̅) đối với các biến (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) tạo nên
một trường vector vơ hướng C mà theo ý nghĩa hình học của Frechet
được diễn đạt theo cách sau (công thức 1.3):
𝜑𝑑𝑞 =

𝜕𝑞
𝜕𝑞
𝜕𝑞
𝜕𝑞
𝑑𝑛 +
𝑑𝑛 +
𝑑𝑛 +
𝑑𝑛 ̅ = 𝑔𝑟𝑎𝑑𝑞. 𝑑𝑀
𝜕𝑛
𝜕𝑛𝐴 𝐴 𝜕𝑛𝐵 𝐵 𝜕𝑛𝐴𝐵̅ 𝐴𝐵

(1.3)

Với M là điểm có tọa độ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) của trường vecter vô
hướng 𝐶, 𝑑𝑀 là vertor thành phần vi phân của các biến và grad q là
vertor đạo hàm riêng của các biến.Trường gradient này thoả mãn tiêu
chí Schwartz về vi phân hỗn hợp cho từng cặp biến 𝑋, 𝑌 ∈
{𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ } và được gọi là trường hàm ý.
𝜕 𝜕𝑞(𝑎, 𝑏̅)
𝜕 𝜕𝑞(𝑎, 𝑏̅ )
(
)=
(

)
𝜕𝑛𝑋
𝜕𝑛𝑌
𝜕𝑛𝑌
𝜕𝑛𝑋

(1.4)

Trường hàm ý sinh ra từ sự biến thiên của chỉ số hàm ý, bao gồm
tập các mặt đẳng trị của các luật hàm ý có cùng giá trị hàm ý thống kê
được xác định theo phương trình (1.5).


6
𝑞(𝑎, 𝑏̅) −

𝑛𝐴 𝑛𝐵̅
𝑛 =0
𝑛𝐴 𝑛𝐵̅

𝑛

𝑛𝐴𝐵̅ −

(1.5)

1.2. Hệ tư vấn
1.2.1 Định nghĩa
Một hệ tư vấn bao gồm tập hợp của người dùng được ký hiệu là U
(users), và tập các mục bằng I (items). Hơn nữa, tập các xếp hạng

(rating) trong hệ thống được biểu thị bởi R, và tập các giá trị có thể có
cho một đánh giá là S(Scores). Mơ hình hệ tư vấn được xây dựng như
hàm 𝑓 trong cơng thức (1.6).
𝑓: 𝑈 × 𝐼 → 𝑆

(1.6)

Và nhiệm vụ của nó là dự đốn đánh giá 𝑓(𝑢, 𝑖) của một người dùng
𝑢 ⊂ 𝑈 cho một mục mới 𝑖 ⊂ 𝐼, Hàm này sau đó được sử dụng để giới
thiệu cho người dùng mục tiêu 𝑢𝑎 một một mục 𝑖 ∗ mà đánh giá ước tính
có giá trị cao nhất theo (1.7)
𝑖 ∗ = 𝑎𝑟𝑔 max 𝑓(𝑢𝑎 , 𝑗)
𝑗∈𝐼\𝐼𝑢

(1.7)

1.2.2 Đánh giá
Việc đánh giá mơ hình tư vấn sẽ được thực hiện theo các tiếp cận:
splitting, bootstraping và đánh giá chéo k-fold. Có hai nhóm độ đo phổ
biến để đánh giá các khuyến nghị của các hệ tư vấn, đó là nhóm các độ
đo tính chính xác dự báo xếp hạng (MAE, MSE, RMSE) và nhóm các
độ do chính xác phân lớp các mục khuyến nghị (precision, recall, F1).
1.2.2 Phân loại
Xét theo kỹ thuật tiếp cận hệ tư vấn được xây dựng theo các kỹ thuật
lọc theo nội dung; lọc cộng tác, bao gồm dựa trên bộ nhớ (dựa trên
người dùng, dựa trên mục) và dựa trên mô hình (xây dựng các mơ hình
học máy cho hệ tư vấn); các kỹ thuật khác và lai ghép giữa các kỹ thuật
với nhau. Trong đó, kỹ thuật được sử dụng phổ biến và hiệu quả nhất là
kỹ thuật lọc cộng tác.



7
1.3. Tình hình nghiên cứu và đề xuất
Tìm hiểu tình hình nghiên cứu phát triển hệ tư vấn nói chung và hệ
tư vấn dựa trên kỹ thuật lọc cộng tác nói riêng đặt biệt là hệ tư vấn lọc
cộng tác dựa trên mơ hình khai thác luật kết hợp và mơ hình lọc cộng
tác tiếp cận phân tích hàm ý thống kê. Từ đó chỉ ra các vấn đề hạn chế
của chúng và đề xuất hướng nghiên cứu xây dựng hệ tư vấn dựa trên
trường hàm ý thống kê.
1.4. Kết luận
Chương 1 tìm hiểu về lý thuyết hàm ý thống kê, đặc biệt là biến
thiên hàm ý, trường hàm ý; hệ tư vấn; tình hình nghiên cứu hệ tư vấn
cùng các vấn đề gặp phải trong nghiên cứu của hệ tư vấn nói chung, và
hệ tư vấn dựa trên khai thác luật cũng như hệ tư vấn theo hướng tiếp cận
ứng dụng hàm ý thống kê nói riêng, và từ đó đề xuất nghiên cứu mơ hình
tư vấn mới dựa trên trường hàm ý nhằm cải thiện độ hiệu quả của các
khuyến nghị.


8

CHƯƠNG 2. CÁC MƠ HÌNH HỆ TƯ VẤN DỰA
TRÊN TRƯỜNG HÀM Ý THỐNG KÊ
2.1. Mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý
2.1.1. Các vấn đề của hệ tư vấn dựa trên khai thác luật kết hợp
Trong lĩnh vực hệ tư vấn, các thuật toán khai thác luật kết hợp (ARM
– Association Rule Mining) gặp phải một số vấn đề khiến chất lượng
của các luật không đủ tốt cho các khuyến nghị, bao gồm (1) Khung khai
thác luật kết hợp chỉ xử lý trên dữ liệu nhị phân; (2) Chưa đáp ứng yêu
cầu về thời gian và chất lượng của luật cho bài toán khuyến nghị; (3) Độ

tin cậy của luật là không nhạy cảm và không thể hiện được tương quan
giữa tiền đề và hậu quả; (4) Các độ đo sinh luật mang tính đối xứng như
độ tin cậy, lift và một số độ đo hấp dẫn khác là chưa phù hợp đối với các
bài tốn khuyến nghị, nơi mà vai trị của các mục/người dùng không phải
lúc nào cũng giống nhau; (5) Độ hỗ trợ giảm với sự gia tăng kích thước
của luật; (6) Số lượng luật được tạo tăng theo cấp số nhân với số lượng
mục; và (7) Bản chất khung khai thác độ hỗ trợ và độ tin cậy chưa quan
tâm đến số phản ví dụ trong khi trên thực tế, một luật phải có số xác
nhận càng cao và phản ví dụ càng thấp thì luật càng mạnh hơn.
Từ các vấn đề của khung khai thác luật kết hợp nêu trên, luận án đề
xuất tạo ra một phiên bản khung khai thác luật kết hợp hiệu quả hơn
dựa trên biến thiên hàm ý.
2.1.2. Độ đo biến thiên hàm ý và ngưỡng biến thiên hàm ý
Độ đo là một trong những vấn đề cốt lỏi trong việc xây dựng mơ
hình tư vấn, đối với mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm
ý, ngoài các độ đo của khung khai thác luật là độ hỗ trợ và độ tin cậy,
còn xây dựng độ đo biến thiên hàm ý để lọc ra một tập các mặt đẳng trị
hàm ý của các luật làm cơ sở cho các khuyến nghị của mơ hình tư vấn.
Độ đo biến thiên hàm ý thống kê
Các độ đo được đề xuất sử dụng cho mô hình tư vấn lọc cộng tác
dựa trên biến thiên hàm ý bao gồm các độ đo biến thiên của chỉ số hàm


9
ý 𝑞(𝑎, 𝑏̅) và cường độ hàm ý 𝜑(𝑎, 𝑏) theo các yếu tố 𝑛, 𝑛𝐴 , 𝑛𝐵 và 𝑛𝐴𝐵̅
được mô tả trong Bảng 2.1.
Bảng 2.1 Các độ đo biến thiên hàm ý thống kê
Độ đo
𝑞𝑛
𝑞𝑛𝐴

𝑞𝑛𝐵

𝑞𝑛𝐴𝐵̅
𝜑𝑛
𝜑𝑛𝐴

𝜑𝑛𝐵

𝜑𝑛𝐴𝐵̅

Mô tả
Biến thiên
chỉ số hàm ý
theo 𝑛
Biến thiên
chỉ số hàm ý
theo 𝑛𝐴
Biến thiên
chỉ số hàm ý
theo 𝑛𝐵
Biến thiên
chỉ số hàm ý
theo 𝑛𝐴𝐵̅
Biến thiên
cường độ
hàm ý theo 𝑛
Biến thiên
cường độ
hàm ý theo
𝑛𝐴

Biến thiên
cường độ
hàm ý theo
𝑛𝐵
Biến thiên
cường độ
hàm ý theo
𝑛𝐴𝐵̅

Cơng thức tính
1
𝑛 𝑛
̅
(𝑛𝐴𝐵̅ + 𝐴 𝐵̅ )
.𝑞(𝑎, 𝑏) + ∆𝑞𝑛 = 𝑞(𝑎, 𝑏̅) +
2√𝑛

𝑛

3

1𝑛 ̅
𝑛 2
1 𝑛
( ) − √ 𝐵̅
.𝑞(𝑎, 𝑏̅) + ∆𝑞𝑛𝐴 = 𝑞(𝑎, 𝑏̅) + − 𝐴𝐵
𝑛
2




̅
𝐵
𝑛

𝑛𝐴

1
𝑛
.𝑞(𝑎, 𝑏̅) + ∆𝑞𝑛𝐵 = 𝑞(𝑎, 𝑏̅) + 𝑛𝐴𝐵̅ ( 𝐴)
3

2

𝑛𝐵 )

1

1
𝑛𝐴 2

2



2

1
2


𝑛

𝑛𝐴

(𝑛 −

1

2

+ ( ) (𝑛 − 𝑛𝐵 )
2

𝑛

.𝑞(𝑎, 𝑏̅) + ∆𝑞𝑛𝐴𝐵̅ = 𝑞(𝑎, 𝑏̅) +

.𝜑(𝑎, 𝑏) + ∆𝜑𝑛 = 𝜑(𝑎, 𝑏) +

1


𝑛𝐴 (𝑛−𝑛𝐵 )
𝑛

𝑞 (𝑎,𝑏̅ )

1

𝑛

𝑒

√2𝜋 𝑞(𝑎,𝑏̅ )

.𝜑(𝑎, 𝑏) + ∆𝜑𝑛𝐴 = 𝜑(𝑎, 𝑏) +

.𝜑(𝑎, 𝑏) + ∆𝜑𝑛𝐵 = 𝜑(𝑎, 𝑏) +

−𝑡2
2

1

𝑞𝑛 (𝑎,𝑏̅ )

1

𝑞𝑛 (𝑎,𝑏̅ )

∫ 𝐴
√2𝜋 𝑞(𝑎,𝑏̅)

∫ 𝐵
√2𝜋 𝑞(𝑎,𝑏̅ )

.𝜑(𝑎, 𝑏) + ∆𝜑𝑛𝐴𝐵̅ = 𝜑(𝑎, 𝑏) +

𝑑𝑡

𝑒


−𝑡2
2

𝑑𝑡

𝑒

−𝑡2
2

𝑑𝑡

𝑞𝑛 ̅ (𝑎,𝑏̅) −𝑡
1
𝑒 2
∫ 𝐴𝐵
√2𝜋 𝑞(𝐴,𝐵̅)

2

𝑑𝑡

Ngưỡng biến thiên hàm ý thống kê
Trong thực nghiệm, trên một mặt đẳng trị hàm ý bao gồm tập các
luật có các giá trị hàm ý xấp xỉ nhau với một ngưỡng hàm ý 𝜃, ngưỡng
biến thiên hàm ý này cần được xác định, tuỳ độ đo mà có ngưỡng biến
thiên chỉ số hàm ý hay ngưỡng biến thiên cường độ hàm ý.
Ngưỡng biến thiên chỉ số hàm ý
Chỉ số hàm ý biến thiên theo một trong các giá trị , 𝜉 ∈

(𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ) được xác định bởi công thức (2.1).


10
𝛿𝑞(𝑎, 𝑏̅)
𝛥𝑞(𝑎, 𝑏̅)
= 𝑚𝑎𝑥
+ 𝑜 (𝑞(𝑎, 𝑏̅)) , 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )
𝛥𝜉
𝛿𝜉
𝛥𝜉

(2.1)

Ngưỡng biến thiên cường độ hàm ý
Cũng giống như sự biến thiên chỉ số hàm ý ngưỡng biến thiên cường
độ hàm ý được xác định theo công thức (2.2).
𝜕𝜑(𝑎, 𝑏)
𝛥𝜑
= 𝑚𝑎𝑥
+ 𝑜(𝜑(𝑎, 𝑏)), 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )
𝛥𝜉 𝛥𝜉
𝜕𝜉

(2.2)

2.1.3. Luật kết hợp và khung khai thác luật kết hợp
Mơ hình hoá luật kết hợp và khung khai thác luật
Để xây dựng mơ hình, các luật kết hợp được mơ hình và biểu diển
ở dạng phân tích hàm ý thống kê như ở công thức (2.3)


ℛ𝐴𝑆𝑆

𝑛𝐴 ≤ 𝑛
𝑛𝐵 ≤ 𝑛
|𝑛 ≤ 𝑛, max(0, 𝑛 + 𝑛 − 𝑛)
𝐵
𝐴
𝐵
= (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )
≤ 𝑛𝐴𝐵̅ ≤ min(𝑛𝐴 , 𝑛𝐵 )
|
𝑙𝑒𝑛𝑔ℎ𝑡ℛ𝐴𝑆𝑆 ≤ 𝑘
{

|𝑟ℎ𝑠ℛ𝐴𝑆𝑆 | = 1

(2.3)
}

Trong đó luật ℛ𝐴𝑆𝑆 được biểu diễn bỡi bộ 4 (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵 ) theo
quan điểm hàm ý thống kê, và thoả mãn các điều kiện ràng buột 𝑛𝐴 ≤
𝑛, 𝑛𝐵 ≤ 𝑛 , 𝑛𝐵 ≤ 𝑛, max(0, 𝑛𝐴 + 𝑛𝐵 − 𝑛) ≤ 𝑛𝐴𝐵 ≤ min(𝑛𝐴 , 𝑛𝐵 ) , và
chiều dài luật nhỏ hơn ngưỡng 𝑘 để loại bỏ các luật dài có ý nghĩa khơng
đáng kể trong lĩnh vực tư vấn, đồng thời giảm thời gian khai thác cũng
như hạn chế số lượng luật trong phạm vi quản lý, tính toán.
Khung khai thác luật kết hợp được gọi là 𝐹ℛ 𝐴𝑆𝑆 , được dùng để sinh
tập các luật kết hợp (ℛ𝐴𝑆𝑆 ) sử dụng thuật toán Apriori và các ngưỡng
độ hỗ trợ và độ tin cậy (𝑚𝑖𝑛𝑠𝑢𝑝 và 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 tương ứng). Sau đó kết
hợp với độ biến thiên hàm ý như trình bày trong Bảng 1 để lọc ra các

luật có hàm ý thống kê cao nhất, Thuật tốn khung khai thác dựa trên
thuật tốn apriori có tuỳ chỉnh như Hình 2.1


11

Hình 1.1 Khung khai thác luật kết hợp sử dụng biến thiên hàm ý

Khung khai thác luật kết hợp sử dụng biến thiên hàm ý được mơ
hình hố như cơng thức (2.4) và được hoạt động theo các bước (1) Dùng
thuật toán apriori để sinh các tập mục thường xuyên thoả ngưỡng độ hỗ
trợ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅𝑈𝐼 được chuyễn dạng từ tập dữ liệu 𝐷 (2) Sinh
luật từ các tập mục thường xuyên thoả ngưỡng tin cậy tối thiểu; (3) Xây
dựng các độ đo biến thiên hàm ý 𝑖𝑚𝑝 và dùng chúng để lọc các luật
mạnh có mức độ hàm ý cao đáp ứng yêu cầu bài toán tư vấn; (4) trích
lọc các mặt đẳng trị hàm ý theo ngưỡng biến thiên 𝜃 cho việc tư vấn.

𝐹ℛ𝐴𝑆𝑆

𝑛𝐴 ≤ 𝑛, 𝑛𝐵 ≤ 𝑛,
𝑛𝐵 ≤ 𝑛, max(0, 𝑛𝐴 + 𝑛𝐵 − 𝑛)
|
≤ 𝑛𝐴𝐵̅ ≤ min(𝑛𝐴 , 𝑛𝐵 )
(𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ ),
(𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝,
độ ℎỗ 𝑡𝑟ợ 𝑐
=
| 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓)
độ 𝑡𝑖𝑛 𝑐ậ𝑦 𝑠
𝑙𝑒𝑛𝑔ℎ𝑡ℛ𝐴𝑆𝑆 ≤ 𝑘

𝑆𝐼𝐴𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝
|
|𝑟ℎ𝑠
|=1
ℛ𝐴𝑆𝑆

{

2.1.4. Mơ hình tư vấn đề xuất

𝑖𝑚𝑝 ℜ 𝑆𝐼𝐴𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑

}

(2.4)


12
Mơ hình tổng qt khai thác luật được mơ tả như trong Hình 2.2,
theo đó khung khai thác 𝐹ℛ𝐴𝑆𝑆 được dùng làm nền tảng cho việc xây
dựng mơ hình hình tư vấn dựa trên biến thiên hàm ý theo người dùng và
theo mục, bên cạnh đó các mơ hình khuyến nghị lọc cộng tác khác cũng
được tích hợp để đánh giá và so sánh với mơ hình đề xuất, theo một quy
trình đánh giá như được mơ tả trong đoạn kế tiếp.

Hình 2.2 Mơ hình hệ tư vấn lọc cộng tác dựa biến thiên hàm ý

2.1.5. Đánh giá mơ hình đề xuất
Mơ hình tư vấn được đánh giá theo quy trình như Hình 2.3.
Các độ đo đánh giá


Tập dữ liệu

Tập huấn luyện

Tập kiểm thử

Mơ hình đánh giá

Kết quả đánh giá
Mơ hình

Thuật tốn

khuyến nghị

Kết quả tư vấn

khuyến nghị

Hình 2.3 quy trình đánh giá mơ hình hệ tư vấn


13
Phương pháp dược dùng là đánh giá chéo k-fold có lặp lại với 𝑘 =
5 có số lần lập lại là 𝑡 = 2, dữ liệu được chia làm các tập huấn luyện và
tập kiểm thử theo số lượng các giao dịch trong tập dữ liệu.

Hình 2.4 Lưu đồ thuật toán đánh giá hệ tư vấn


Thủ tục đánh giá được mơ tả trong lưu đồ ở Hình 2.4, theo đó các
độ đo đánh giá được sử dụng bao gồm hai nhóm độ đo (1) tính chính xác
của dự đốn (MAE, MSE và RMSE) và (2) tính chính xác phân lớp của
các mục được khuyến nghị (Precision, recall, và F1).
2.2. Mô hình hệ tư vấn dựa trên trường hàm ý thống kê
2.2.1. Các vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê
Các mơ hình tư vấn dựa trên phân tích hàm ý thống kê hiện có, kể
cả mơ hình tư vấn khai thác luật kết hợp sử dụng biến thiên hàm ý thống
kê, đang góp phần làm phong phú thêm các nghiên cứu giải pháp để cải
thiện hiệu quả của hệ tư vấn lọc cộng tác. Tuy nhiên chúng còn một số
hạn chế cần khắc phục như (1) Chỉ xử lý trên dữ liệu nhị phân, dẫn đến
một vấn đề cần giải quyết là sự bùng nổ tổ hợp và mất mát thơng tin do
q trình nhị phân hoá dữ liệu phi nhị phân; (2) Đối với các mơ hình dựa
trên khai thác luật của các cơng trình này, độ đo hàm ý đều được đề xuất
trong giai đoạn hậu xử lý của nhiệm vụ khai thác luật, vì vậy chúng


14
khơng đóng góp đáng kể để hạn chế sự bùng nổ tổ hợp của luật kết quả
trong bộ dữ liệu lớn, cần thời gian xử lý và không gian lưu trử lớn. Để
khắc phục các hạn chế này, mơ hình tư vấn dựa trên trường hàm ý thống
kê được đề xuất dựa trên sự phát triển, cải thiện mơ hình tư vấn dựa trên
khai thác luật kết hợp sử dụng biến thiên hàm ý.
2.2.2. Luật hàm ý và khung khai thác luật hàm ý
Mơ hình tư vấn dựa trên trường hàm ý thống kê đã mở rộng khung
khai thác luật kết hợp thành khung khai thác luật hàm ý.
2.2.2.1 Mô hình hố luật hàm ý định lượng
Để giải quyết giới hạn của khung khai thác luật kết hợp trên dữ liệu
phi nhị phân, khái luật hàm ý định lượng (sau đây gọi là luật hàm ý)
được xây dựng dựa trên các tập mục thường xuyên thoả mãn cả độ tin

cậy và độ đo biến thiên hàm ý trong quá trình sinh luật, điều này giúp
giải quyết các bài toán trên dữ liệu phi nhị phân và góp phần hiệu quả
trong quá trình hạn chế sự bùng nỗ tổ hợp khi sinh luật. Cũng giống như
luật kết hợp, luật hàm ý cũng được mơ hình hố như cơng thức (2.5):

|

0 ≤ 𝑛𝐴 ≤ 𝑛𝐵 ≤ 𝑛 ,
0 ≤ 𝑛𝐴𝐵̅ ≤ 𝑛𝐵
𝑙𝑒𝑛𝑔ℎ𝑡ℛ𝐼𝑀𝑃 ≤ 𝑘

ℛ𝐼𝑀𝑃 = (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )

{

|𝑟ℎ𝑠ℛ𝐼𝑀𝑃 | = 1
(𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝𝑝,
|
𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓
𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 𝑖𝑚𝑝 ℜ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑)}

(2.5)

Với ℜ được xác định theo công thức (2.6)
𝜕𝑞(𝑎, 𝑏̅)
"≤", nếu imp 𝜖 {
| 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )}
𝜕𝜉
ℜ={
𝜕𝜑(𝑎, 𝑏)

≥, nếu imp 𝜖 {
| 𝜉 ∈ (𝑛, 𝑛𝐴 , 𝑛𝐵 , 𝑛𝐴𝐵̅ )}
𝜕𝜉

(2.6)

2.2.2.2 Mơ hình hố khung khai thác luật hàm ý
Luật hàm ý được khai thác bởi khung khai thác luật hàm ý được phát
triển từ khung khai thác luật kế hợp như trình bày trong Hình 2.5 và
được mơ hình hố theo cơng thức (2.7).


15

Hình 2.5 Lưu đồ thuật tốn khung khai thác luật hàm ý
𝐹𝑅 𝐼𝑀𝑃

0 ≤ 𝑛𝐴 ≤ 𝑛𝐵 ≤ 𝑛
𝐼𝑅𝑀 𝑎𝑙𝑔𝑜𝑟𝑖𝑡ℎ𝑚𝑠
0 ≤ 𝑛𝐴𝐵̅ ≤ 𝑛𝐴
= {(𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑠, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 𝑐,) |
}
𝑠𝑚𝑖𝑛 ≤ 𝑠,
𝑐𝑚𝑖𝑛 ≤ 𝑐, 𝑖𝑚𝑝𝑚𝑖𝑛 ℜ 𝑖𝑚𝑝
𝑆𝐼𝐴 𝑚𝑒𝑎𝑠𝑢𝑟𝑒

(2.7)

Khung khai thác luật hàm ý hoạt động theo các bước (1) Dùng thuật
toán apriori để sinh các tập mục thường xuyên thoả ngưỡng độ hỗ trợ

𝑠𝑢𝑝𝑝𝑜𝑟𝑡 từ ma trận 𝑅𝑈𝐼 được chuyễn dạng từ tập dữ liệu 𝐷 bước này
thừa kế thuật toán (2) Xây dựng các độ đo biến thiên hàm ý 𝑖𝑚𝑝 và tích
hợp vào khung khai thác luật để sinh luật hàm ý từ các tập mục thường
xuyên thoả ngưỡng tin cậy tối thiểu và thoả mãn độ đo biến thiên hàm
ý; (3) xây dựng và trích lọc các mặt đẳng trị hàm ý theo ngưỡng biến
thiên 𝜃 cho việc tư vấn.
2.2.3. Mơ hình đề xuất
Mơ hình tư vấn dựa trên trường hàm ý thống kê được đề xuất như
trong Hình 2.6.


16

Hình 2.6 Mơ hình tư vấn dựa trên Trường hàm ý

Mơ hình này phát triển từ mơ hình tư vấn dựa trên khai thác luật
kết hợp sử dụng biến thiên hàm ý thông qua các phát triển bổ sung
như sau (1) khung khai thác luật hàm ý phát triển từ khung khai thác
luật kết hợp để sinh luật hàm ý từ các tập dữ liệu nhị phân lẫn phi phị
phân; (2) bổ sung thêm một tiếp cận phân hoạch dữ liệu trong việc
xây dựng, huấn luyện và đánh giá mô hình tư vấn dựa trên số mục
được đánh giá trên từng giao dịch của tập dữ liệu để cải thiện khả năng
huấn luyện mơ hình và làm cho mơ hình có kết quả tốt hơn; (3) Thuật
tốn đánh giá hệ tư vấn có bổ sung thêm nhóm độ đo đánh giá dựa
trên xếp hạng vị trí mục đề xuất (bao gồm độ đo 𝑛𝐷𝐶𝐺 và
𝑅𝑎𝑛𝑘𝑆𝑐𝑜𝑟𝑒) để việc đánh giá phản ánh sâu sắc hơn hiệu quả của mơ
hình tư vấn.
2.2.3. Đánh giá mơ hình đề xuất
Quy trình đánh giá mơ hình tư vấn vẫn giống như ở mơ hình tư vấn
dựa trên khai thác luật kết hợp sử dụng biến thiên hàm ý, cũng sử dụng

phương pháp đánh giá chéo k-fold lập lại 2 lần nhưng có hai bổ sung
quan trọng như sau
Ngoài phương pháp phân hoạch dữ liệu quan sát thành các tập huấn
luyện và tập kiểm thử theo số lượng giao dịch trong tập dữ liệu thì mơ


17
hình cịn được bổ sung phương pháp phân hoạch theo số lượng mục đánh
giá trên từng giao dịch để khắc phục “điểm nghẻn” trong việc xác định
số mục biết trước đối với các dữ liệu quá thưa thớt trong các bài toán tư
vấn, điều này giúp tăng hiệu quả huấn luyện mơ hình, làm cho chất lượng
khuyến nghị tốt hơn.

Hình 2.7 Lưu đồ thuật toán đánh giá hệ tư vấn được đề xuất

Điểm bổ sung thứ hai là nhóm các độ đo đánh giá vị trí xếp hạng
các mục trong danh sách khuyến nghị của mơ hình tư vấn, như trình
bày trong thuật tốn đánh giá mơ hình ở Hình 2.7. Các độ đo này bao
gồm nDCG và Rankscore.
2.3. Kết luận chương
Chương này đề xuất một hướng tiếp cận mới dựa trên biến thiên hàm
ý trong trường hàm ý để khai thác các luật kết hợp trong bài toán tư vấn
lọc cộng tác. Đầu tiên, đó là đề xuất mơ hình hệ tư vấn lọc cộng tác dựa
trên độ biến thiên hàm ý để giải quyết các vấn đề hiện nay của việc khai
thác luật kết hợp phục vụ cho mơ hình hệ tư vấn. Mơ hình này giúp cải
thiện hiệu quả hệ thống khai thác luật phục vụ cho hệ tư vấn so với đa
số mơ hình hệ tư vấn dựa trên lọc cộng tác. Mặc dù vậy, nó vẫn cịn một
số điểm yếu cần cải thiện và chính điều này dẫn đến việc đề xuất mơ
hình tư vấn dựa trên trường hàm ý thông qua việc phát triển và khắc
phục những điểm yếu cuả mơ hình đề xuất ban đầu.



18
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
3.1. Dữ liệu thực nghiệm
Để đánh giá các mơ hình tư vấn dựa trên khai thác luật sử dụng biến
thiên hàm ý và mơ hình tư vấn dựa trên trường hàm ý đã đề xuất trong
Chương 2, chúng được thực nghiệm trên các tập dữ liệu nhị phân là
MSWeb1 và tập dữ liệu định lượng là MovieLens 100k2.
3.2. Công cụ thực nghiệm
Các thực nghiệm được thực hiện trên các công cụ
𝑖𝑚𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑜𝑛𝑓𝑖𝑒𝑙𝑑𝑅𝑆 được phát triển bằng ngơn ngữ R có kế thừa các
gói công cụ RecommenderLab3 cho việc xây dựng và đánh giá các mơ
hình hệ tư vấn và gói cơng cụ Rchic4 để xử lý thông tin hàm ý thống kê.
3.3. Thực nghiệm mơ hình tư vấn lọc cộng tác dựa trên biến thiên
hàm ý
3.3.1. Mơ hình lọc cộng tác dựa trên biến thiên hàm ý theo mục
Mơ hình được thực nghiệm trên tập dữ liệu Movielens với ngưỡng
nhị phân hoá là 3 (gán 0 cho đánh giá phim nhỏ hơn 3, gán 1 nếu khác).
Mơ hình được đánh giá, so sánh ngoại tuyến với các mơ hình tư vấn
lọc cộng tác trên hai nhóm độ đo đánh giá là tính chính xác dự đốn
(MAE, MSE và RMSE);và tính chính xác phân loại khuyến nghị
(Precision, recall, và F1) theo các kịch bản thực nghiệm sau.
Kịch bản 1: Khảo sát và tư vấn dựa trên mặt đẳng trị biến thiên hàm ý.
Mơ hình đã tạo được một trường hàm ý bao gồm tập của các mặt đẳng
trị hàm ý có thứ tự của các luật kết hợp hàm ý. Điều này giúp cho việc
tư vấn cho người dùng những mục dữ liệu có mức độ hàm ý phù hợp
nhất. Một người dùng mục tiêu sẽ được khuyến nghị bộ phim hoặc danh
sách các phim mà người ấy sẽ thích theo các nội dung luật tương ứng


1

/> />3
index.html
4
/>2


19
dựa vào các phim trước đây mà họ đã từng xem dựa vào các luật trong
các mặt đẳng trị phù hợp.
Kịch bản 2: So sánh độ chính xác dự đốn mục khuyến nghị với các
mơ hình tư vấn lọc cộng tác. Kết quả thực nghiệm cho thấy độ chính xác
dự đốn mục khuyến nghị của mơ hình khuyến nghị lọc cộng tác dựa
trên biến thiên hàm ý (ISF) có kết quả vượt trội, các chỉ số đánh giá lổi
dự đoán RMSE, MSE và MAE của mơ hình ISF là thấp nhất, tiếp đến là
các mơ hình lọc cộng tác dựa trên người dùng bao gồm mơ hình sử dụng
độ đo Cosine (UBCFcosine), sử dụng độ đo Pearson (UBCFpeason) và
cuối cùng là các mơ hình lọc cộng tác dựa trên mục bao gồm mơ hình
sử dụng độ do Consine (IBCFcosine), và sử dụng độ đo Pearson
(IBCFpeason). Qua đó, cho thấy độ đo biến thiên hàm ý giúp khung khai
thác luật kết hợp cung cấp các luật thoả mãn một mức độ hàm ý góp
phần làm cho mơ hình lọc cộng tác dựa trên biến thiên hàm ý cải thiện
kết quà khuyến nghị đáng kể.
Kịch bản 3. So sánh độ chính xác phân lớp với các mơ hình tư vấn
lọc cộng tác. Kết quả thực nghiệm mơ hình ISF có kết quả độ chính xác
phân lớp vượt trội các mơ hình IBCFcosine, IBCFpeason, UBCFpeason
và tiệm cận với độ chính xác của mơ hình UBCFcosine thơng qua việc
đánh giá các biểu đồ precision, recall, và đường cong ROC.
3.3.2. Mơ hình lọc cộng tác dựa trên biến thiên hàm ý theo người

dùng
Việc đánh giá tương tự như trong mơ hình lọc cộng tác dựa trên biến
thiên hàm ý theo người dùng, cũng thực hiện trên tập dữ liệu Movielens
và trên các kịch bản tương tự như đã thực hiện trên mơ hình tư vấn khai
thác luật kết hợp sử dụng biến thiên hàm ý theo người dùng. Kết quả
thực nghiệm đạt được trên các kịch bản cũng tương tự như Thực nghiệm
trên mơ hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo mục.
Qua hai thực nghiệm mơ hình hình tư vấn lọc cộng tác dựa trên biến
thiên hàm ý theo mục và theo người dùng cho thấy mơ hình đề xuất đã
đóng góp đáng kể cho việc cải thiện mơ hình khuyến nghị lọc cộng tác
theo mơ hình khai thác luật kết hợp.


20
3.4. Thực nghiệm mơ hình tư vấn dựa trên trường hàm ý thống kê
Mơ hình tư vấn dựa trên trường hàm ý thống kê cũng được thực
nghiệm đánh giá theo phương pháp đánh giá chéo k-fold (với k=5) và
có lập lại 2 lần, trên tập dữ liệu nhị phân MSWeb và tập dữ liệu phi nhị
phân Movielens, các tập dữ liệu này được phân hoạch theo số lượng giao
dịch và theo số mục được đánh giá trên từng giao dịch.
3.4.1. Thực nghiệm trên dữ liệu phân hoạch theo số lượng giao dịch
Kịch bản 1: So sánh mơ hình dựa trên luật kết hợp và dựa trên luật
hàm ý trên tập dữ liệu nhị phân. So với mơ hình tư vấn lọc cộng tác dựa
trên mơ hình khai thác lật kết hợp thì kết quả thực nghiệm trên các độ
đo chính xác phân lớp precision, recall, F1 cũng như biểu đồ đường
cong ROC và recall/precision trên tập dữ liệu nhị phân thỉ mơ hình tư
vấn dựa trên trường hàm ý là tốt hơn rất nhiều.
Kịch bản 2: So sánh mơ hình dựa trên luật kết hợp và dựa trên luật
hàm ý trên tập dữ liệu định lượng. Trên tập dữ liệu định lượng, độ chính
xác phân lớp dựa trên các độ đo Precision, recall, F1 của mơ hình tư

vấn IFARRS cũng tốt hơn nhiều so với mơ hình tư vấn dựa trên mơ hình
khai thác luật kết hợp
Kịch bản 3: Hiệu suất và thời gian khuyến nghị
Kịch bản này so sánh hiệu suất và thời gian tạo khuyến nghị (bao
gồm thời gian xây dựng mơ hình và dự báo mục khuyến nghị) giữa mơ
hình tư vấn dựa trên trường hàm ý và mơ hình khai thác luật kết hợp, kết
quả thực nghiệm cho thấy mơ hình tư vấn dựa trên trường hàm ý thống
kê có thời gian xây dựng và thực thi mơ hình nhanh hơn tương ứng là
53% (thời gian xây dựng mơ hình tư vấn) và 37% (thời gian thực thi mơ
hình tư vấn) dựa trên khai thác luật kết hợp, trong khi bộ luật sinh ra
được tinh gọn còn khoảng 9% so với tập luật sinh ra do mơ hình tư vấn
dựa trên khai thác luật kết hợp. điều này đáp ứng yêu cầu về thời gian
và tập luật xử lý tốt hơn cho một hệ tư vấn.
Kịch bản 4: So sánh với các mơ hình khuyến nghị lọc cộng tác trên
tập dữ liệu định lượng. So sánh theo các chỉ tiêu độ chính xác phân lớp,
mơ hình tư vấn dựa trên trường hàm ý thống kê cho kết quả vượt trội so


21
với các mơ hình tư vấn lọc cộng tác cả trên mục và trên người dùng
truyền thống sử dụng các độ đo tương đồng Cosine và Pearson.
3.4.2. Thực nghiệm trên dữ liệu phân hoạch theo mục được đánh giá
trên từng giao dịch
Kịch bản 1. So sánh với các mơ hình khuyến nghị truyền thống
Trong kịch bản thử nghiệm này, mô hình hệ tư vấn dựa trên trường
thống kê hàm ý (ISFRS), được so sánh với các mơ hình khuyến nghị lọc
cộng tác truyền thống dựa trên người dùng cho cả các phép đo Cosine
(UBCF cRS) và Pearson (UBCF psRS), và khuyến nghị lọc cộng tác mơ
hình dựa trên mục cho cả các thước đo Cosine (IBCF cRS) và Cosine
hiệu chỉnh (IBCF acRS), Tập dữ liệu được sử dụng trong thử nghiệm

này là tập dữ liệu phi nhị phân Movielens. Để các mơ hình lọc cộng tác
có kết quả tốt, bằng thử nghiệm trên nhiều tham số 𝑘 = 2,5,10,15 lân
cận và thấy rằng k = 15 là tốt hơn các giá trị khác. Các mơ hình đề xuất
đã được thử nghiệm trên thước đo của hai nhóm độ đo: phân loại và xếp
hạng. Đầu tiên, các mơ hình được thử nghiệm trên các độ đo chính xác
phân loại, kết quả bao gồm đồ thị đường cong ROC, precision /recall,
F1, theo đó mơ hình ISFRS là tốt nhất, tiếp theo là mơ hình lọc cộng tác
dựa trên người dùng sử dụng cả các độ đo Pearson và Cosine, và cuối
cùng mô hình yếu nhất là mơ hình lọc cộng tác dựa trên mục (trong
trường hợp cả Pearson và các độ đo Cosine hiệu chỉnh).
Kết quả trong thử nghiệm này cho thấy sự đóng góp của cả mơ hình
ISFRS được đề xuất và phương pháp phân vùng dữ liệu được đề xuất
vào việc đánh giá trong việc cải thiện khả năng phân loại và xếp hạng
cũng như chất lượng đào tạo của mơ hình so với các mơ hình được đề
xuất dựa trên lọc cộng tác truyền thống.
Kịch bản 2. So sánh với mơ hình tư vấn tiếp cận hàm ý thống kê
Trong kịch bản thử nghiệm này, các tập dữ liệu MSWeb và
Movielens được sử dụng để so sánh mơ hình hệ thống khuyến nghị
trường thống kê hàm ý (ISFRS) với hai mơ hình ứng dụng phân tích hàm
ý thống kê hiện có khác bao gồm các cơng trình sử dụng chỉ số hàm ý
và cường độ hàm ý (IIIRS) và mơ hìnhdùng độ đo hàm ý Phi-độ đo gắn


22
kết - Cohesion- và độ đo mức độ quan trọng -Gamma (PCGRS) trên hai
loại độ đo như trong kịch bản 1. Đầu tiên là các độ đo chính xác phân
loại bao gồm precision/recall, đường cong ROC và F1, kết quả thực
nghiệm cho thấy tính ưu việt của mơ hình khuyến nghị IFS RS so với
PCG RSmodel và mơ hình IIIRS, trong đó yếu nhất là mơ hình IIIRS
trên cả 3 độ đo. Thứ hai là các độ đo chính xác xếp hạng, kết quả thực

nghiệm được thể hiện cũng khá giống với kết quả trên nhóm các thước
đo chính xác phân loại, tức là mơ hình ISFRS có các hạng mục xếp hạng
kết quả tốt nhất theo các chỉ số nDCG và Rankscore, tiếp theo là mơ
hình PCGRS và kém nhất là mơ hình IIIRS.
3.5. Kết luận chương
Các mơ hình tư vấn đề xuất trong Chương 2 được đánh giá, so sánh
hiệu quả so với các mơ hình tư vấn lọc cộng tác dựa trên bộ nhớ (theo
mục và theo người dùng) và dựa trên mơ hình khai thác luật thông qua
các thực nghiệm được tổ chức ở chương này. Theo đó, các kết quả thực
nghiệm trên mơ hình tư vấn dựa trên trường hàm ý cho thấy nó giúp
nâng cao hơn nữa hiệu quả của việc ứng dụng biến thiên hàm ý vào mơ
hình tư vấn, cải thiện đáng kể chất lượng của hệ thống khuyến nghị so
với các hệ tư vấn dựa trên bộ lọc cộng tác truyền thống. Ngồi ra, mơ
hình hệ tư vấn dựa trên trường hàm ý cũng được so sánh hiệu quả của
các công trình về hệ tư vấn ứng dụng phân tích hàm ý thống kê hiện có
và kết quả cho thấy rằng mơ này có kết quả tốt nhất trong tất cả các hệ
tư vấn theo cách tiếp cận phân tích hàm ý thống kê.


23

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các kết quả của luận án
- Thứ nhất, đề xuất một bộ các độ đo biến thiên hàm ý thống kê .
- Thứ hai, đề xuất một khung khai thác luật kết hợp hàm ý (luật hàm
ý).
- Thứ ba, đề xuất các mơ hình tư vấn lọc cộng tác dựa trên việc tiếp
cận biến thiên hàm ý thống kê. Đầu tiên là mơ hình tư vấn lọc cộng tác
dựa trên biến thiên hàm ý giúp cải thiện chất lượng tư vấn lọc cộng tác
dựa trên mơ hình khai thác luật kết hợp có mức độ hàm ý phù hợp trên

các tập dữ liệu nhị phân. Tiếp theo, mơ hình tư vấn dựa trên trường hàm
ý thống kê được đề xuất trên cơ sở cải tiến mơ hình tư vấn lọc cộng tác
dựa trên biến thiên hàm ý, để cải thiện hơn nữa chất lượng khuyến nghị
cũng như thời gian thực hiện mơ hình.
- Thứ tư, đề xuất phương pháp phân hoạch dữ liệu thành tập huấn
luyện và tập kiểm thử dựa trên mục được đánh giá trên từng giao dịch.
- Và cuối cùng là phát triển công cụ implicationfieldRS trên ngôn
ngữ R để xây dựng, huấn luyện và đánh giá mơ hình hệ tư vấn đề xuất.
Hướng phát triển
- Mở rộng khung khai thác khai thác luật hàm ý cho các mối quan
hệ gữa các luật hàm ý hoặc giữa dữ liệu và luật hàm ý trong trường hàm
ý (còn gọi là các siêu luật r-rule) để khai thác các khuyến nghị.
- Mở rộng hướng xử lý dữ liệu trên các dạng dữ liệu khác ngoài dữ
liệu nhị phân và phi nhị phân như dữ liệu vector cho các bài toán tư vấn.
- Mở rộng việc ứng dụng khuynh hướng biến thiên hàm ý cho các
độ đo khác của phân tích hàm ý thống kê như các độ đo chỉ số gắn kết,
chỉ số tiêu biểu, chỉ số đóng góp.
- Kết hợp mơ hình tư vấn khai thác luật hàm ý với các mơ hình tư
vấn hiệu quả khác để nâng cao hơn nữa chất lượng của hệ tư vấn.


×