Giới thiệu bài toán
Lượng thông tin cung cấp mỗi ngày của các trang tin
tức rất lớn và phong phú khó khăn khi tìm kiếm tin
Các trang tin tức tiếng việt nổi tiếng hiện nay như
vnexpress.net, 24h.com,… chưa có chức năng cá nhân
hóa
Từ bỏ
Mất thời
gian
Tốn công sức
Giới thiệu bài toán
phải xây dựng một hệ thống hỗ trợ cá
nhân hóa các trang tin tức tiếng việt.
Nội dung bài toán nghiên cứu: Khi người
dùng đọc tin hệ thống tự động bổ sung các
links phù hợp với ngữ cảnh đọc tin ( nội
dung tin đang đọc ) và sở thích của người
dùng.
Giới thiệu về cá nhân hóa
Cá nhân hóa là tiến trình thu thập và lưu trữ
thông tin về người dùng website,phân tích
thông tin và dựa trên những phân tích đó để
gợi ý những thông tin phù hợp với mỗi người
dùng.
Có 3 loại cá nhân hóa:
Cá nhân hóa trình bày
Cá nhân hóa nội dung
Cá nhân hóa cấu trúc
Các loại cá nhân hóa
Cá nhân hóa trình bày (Fink et al.,1998;Joerding,1999)
Phổ biến nhất
Nội dung của website không đổi, định dạng và bố trí của website thay
đổi
Ex: hình ảnh->văn bản, văn bản->audio, video->ảnh….
Cá nhân hóa nội dung
Cá nhân hóa thông tin -> phù hợp với mối quan tâm và sở thích hiện
tại của người dùng
Ex: bổ sung thêm giải thích (De Rossi et al.,1993;Boyle and
Encarnacion 1994;Hold et al.,1996),tùy biến nội dung trang web
Các loại cá nhân hóa
Cá nhân hóa cấu trúc
Thay đổi cấu trúc của website
Cá nhân hóa các link->giúp người dùng tiếp cận thông
tin nhanh và hiệu quả nhất
Ex :
Tạo shortcut (Armstrong,1993; Anderson, 2001)
Sắp xếp links (Kapland, 1993; Armstrong,1993)
Thêm hoặc xóa links (Vasilena, 1996)
Phù hợp với bài toán nghiên cứu của đồ án
Hệ thống gợi ý
Dựa trên những hành động trong quá khứ
đưa ra gợi ý.
Có 2 loại chính:
Dựa vào lọc nội dung: đưa ra những sản phẩm có cùng
đặc trưng với sản phẩm người dùng từng thích
Dựa vào lọc cộng tác:đưa ra những sản phẩm có cùng đặc
trưng với những sản phẩm mà những người cùng sở thích
với người dùng đó thích.
Cách tiếp cận bài toán
Có 2 vấn đề cần giải quyết:
Xây dựng mô hình sở thích của người dùng.
Dữ liệu: tin tức người dùng đã đọc
Phương pháp: dựa trên lọc nội dung
Từ mô hình sở thích -> đưa ra tập gợi ý
Dựa trên việc đánh giá mức độ phù hợp của tin bài và mô
hình sở thích của người dùng.
How??
How??
Phát biểu bài toán
Gọi U là tập người dùng, I là tập tin bài, hàm
score(i*,i,u) là hàm đánh giá mức độ phù
hợp của tin bài i* (ϵI) đối với tin bài đang đọc
i (ϵI) và sở thích của người dùng u (ϵU)
Với người dùng u và tin bài đang đọc i, hệ
thống cần tính toán để bổ sung links của tập
các tin bài i* có giá trị score lớn nhất
Nguồn tri thức
Có 2 cách thu thập sở thích người dùng:
Trực tiếp (Explicit user preferences elicitation):đưa ra bởi
người dùng.
Gián tiếp (Implicit user preferences licitation):dự đoán
bởi hệ thống.
Nguồn tri thức dùng cho hệ thống:
Gián tiếp: khai thác nội dung tin bài mà người
dùng đã đọc.
Biểu diễn hình thức tin bài
Tin tức biểu diễn dưới dạng:
Tin tức = (tin liên quan, nội dung)
Nội dung:nội dung của tin, biểu diễn bằng vecto
Tin liên quan: các tin liên quan với tin bài hiện tại được lấy về từ
trang tin gốc, biểu diễn bằng vecto
, là vecto N chiều trọng số các từ khóa:
= (wc1, wc2, …, wcN) , wci biểu diễn trọng số của từ khóa i và nội
dung tin c
= (wr1, wr2, …, wrN) , wri biểu diễn trọng số của từ khóa i và tin liên
quan r
Bằng cách tổng hợp vecto tin bài được biểu diễn bằng vecto:
c
r
c
r
rci )1(
αα
−+=
c
r
Biểu diễn hình thức hồ sơ sở thích người dùng
Hồ sơ người dùng: u = (wuk1,wuk2, wukN)
wuki: độ yêu thích của người dùng u với từ
khóa ki
ti : tần xuất xuất hiện của từ khóa ki trong
lịch sử đọc tin của người dùng
Từ đó : wuki=
∑
=
n
j
j
i
t
t
1
2
)(
Tính toán tập tin liên quan
= (wu1, wu2, …, wuN):biểu diễn hồ sơ sơ thích người dùng
= (wi1, wi2, …, wiN) :biểu diễn tin bài đang đọc
=(wi*1 ,wi*2,…wi*N) : biểu diễn tập tin bài
N:tập các từ khóa
Kết hợp hồ sơ sở thích người dùng và nội dung tin:
=
score(i*,i,u) :hàm tiện ích xác định độ phù hợp của tin bài i* đối với
người dùng u và tin bài đang đọc i
Chọn tập tin i* có score cao nhất
ui
)1(*
αα
−+
*.'
*.'
*),'cos(),*,(
iu
iu
iuuiiscore
==
u
i
*i
'u
Kiến trúc hệ thống gợi ý links
ww
w
Tập
tin
Máy cá nhân hóa
Hồ
sơ
ngườ
i
dùng
Thu
thập
&xử
lí
Quản
lí hs
ngườ
i
dùng
Hiển
thị
tin
liên
quan
Thu
thập
sở
thích
ngườ
i
dùng
Thu thập và tiền xử lí dữ liệu
Việc thu thập và tiền xử lý dữ liệu gồm 2 bước
Tính tần xuất xuất hiện mỗi từ khóa trong tin
Tính trọng số của mỗi từ khóa theo công
thức TF-IDF
vnexpress.net
Thu thập và tiền
xử lí dữ liệu
CSDL tin tức
Biểu diễn sở thích của người dùng
Việc cập nhật biểu diễn sở thích người dùng gồm
2 bước:
Tính tần xuất xuất hiện mỗi từ khóa trong tin
Cập nhật trọng số của mỗi từ khóa trong hồ sơ người
dùng
Các tin tức
người dùng
đã đọc
Cập nhật biểu
diễn sở thích
người dùng
Hồ sơ người
dùng
Tính toán tập gợi ý
Với người dùng u, tin bài đang đọc i, thì hệ
thống sẽ tính tập gợi ý các tin bài (links) liên
quan như sau:
Tính giá trị hàm score(i*,i,u) cho mỗi tin bài i*
Sắp xếp các tin bài i* theo giá trị giảm dần đối
với giá trị hàm score
Lựa chọn các tin bài có giá trị hàm score >
ngưỡng α. (Các tin bài nằm ở đầu của danh
sách đã sắp xếp.)
Cài đặt hệ thống cá nhân hóa
Kiến trúc hệ thống: client–server
Server chạy hệ thống gợi ý
Client (kết nối với server) hiển thị nội dung tin bài
và các gợi ý tin bài (links) liên quan
Cài đặt hệ thống cá nhân hóa
Hạn chế của hệ thống
Hạn chế của cá nhân hóa nội dung:
Gợi ý các tin tức (links) có nội dung quá giống
với tin hiện tại
Để hệ thống gợi ý chính xác, người dùng phải
đọc lượng tin đủ lớn.
Hướng phát triển trong tương lai
Cải tiến những hạn chế của hệ thống đã nêu trong
slide trước
Phát triển thêm chức năng xem trước tin tức khi
người dùng di chuột vào môt link tin tức:
Hiện một cửa sổ pop-up chứa mô tả tóm tắt nội
dung tin
Nội dung hiển thị trong cửa sổ pop-up được cá
nhân hóa cho mỗi người dùng tại mỗi ngữ cảnh
Tài liệu tham khảo