Tải bản đầy đủ (.pptx) (21 trang)

Hệ thống hỗ trợ cá nhân hóa các trang tin tức tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (400 KB, 21 trang )

Giới thiệu bài toán

Lượng thông tin cung cấp mỗi ngày của các trang tin
tức rất lớn và phong phú  khó khăn khi tìm kiếm tin

Các trang tin tức tiếng việt nổi tiếng hiện nay như
vnexpress.net, 24h.com,… chưa có chức năng cá nhân
hóa
Từ bỏ
Mất thời
gian
Tốn công sức
Giới thiệu bài toán

 phải xây dựng một hệ thống hỗ trợ cá
nhân hóa các trang tin tức tiếng việt.

Nội dung bài toán nghiên cứu: Khi người
dùng đọc tin hệ thống tự động bổ sung các
links phù hợp với ngữ cảnh đọc tin ( nội
dung tin đang đọc ) và sở thích của người
dùng.
Giới thiệu về cá nhân hóa

Cá nhân hóa là tiến trình thu thập và lưu trữ
thông tin về người dùng website,phân tích
thông tin và dựa trên những phân tích đó để
gợi ý những thông tin phù hợp với mỗi người
dùng.

Có 3 loại cá nhân hóa:



Cá nhân hóa trình bày

Cá nhân hóa nội dung

Cá nhân hóa cấu trúc
Các loại cá nhân hóa

Cá nhân hóa trình bày (Fink et al.,1998;Joerding,1999)

Phổ biến nhất

Nội dung của website không đổi, định dạng và bố trí của website thay
đổi

Ex: hình ảnh->văn bản, văn bản->audio, video->ảnh….

Cá nhân hóa nội dung

Cá nhân hóa thông tin -> phù hợp với mối quan tâm và sở thích hiện
tại của người dùng

Ex: bổ sung thêm giải thích (De Rossi et al.,1993;Boyle and
Encarnacion 1994;Hold et al.,1996),tùy biến nội dung trang web
Các loại cá nhân hóa

Cá nhân hóa cấu trúc

Thay đổi cấu trúc của website


Cá nhân hóa các link->giúp người dùng tiếp cận thông
tin nhanh và hiệu quả nhất

Ex :

Tạo shortcut (Armstrong,1993; Anderson, 2001)

Sắp xếp links (Kapland, 1993; Armstrong,1993)

Thêm hoặc xóa links (Vasilena, 1996)

Phù hợp với bài toán nghiên cứu của đồ án
Hệ thống gợi ý

Dựa trên những hành động trong quá khứ

đưa ra gợi ý.

Có 2 loại chính:

Dựa vào lọc nội dung: đưa ra những sản phẩm có cùng
đặc trưng với sản phẩm người dùng từng thích

Dựa vào lọc cộng tác:đưa ra những sản phẩm có cùng đặc
trưng với những sản phẩm mà những người cùng sở thích
với người dùng đó thích.
Cách tiếp cận bài toán

Có 2 vấn đề cần giải quyết:


Xây dựng mô hình sở thích của người dùng.

Dữ liệu: tin tức người dùng đã đọc

Phương pháp: dựa trên lọc nội dung

Từ mô hình sở thích -> đưa ra tập gợi ý

Dựa trên việc đánh giá mức độ phù hợp của tin bài và mô
hình sở thích của người dùng.
How??
How??
Phát biểu bài toán

Gọi U là tập người dùng, I là tập tin bài, hàm
score(i*,i,u) là hàm đánh giá mức độ phù
hợp của tin bài i* (ϵI) đối với tin bài đang đọc
i (ϵI) và sở thích của người dùng u (ϵU)

Với người dùng u và tin bài đang đọc i, hệ
thống cần tính toán để bổ sung links của tập
các tin bài i* có giá trị score lớn nhất
Nguồn tri thức

Có 2 cách thu thập sở thích người dùng:

Trực tiếp (Explicit user preferences elicitation):đưa ra bởi
người dùng.

Gián tiếp (Implicit user preferences licitation):dự đoán

bởi hệ thống.

Nguồn tri thức dùng cho hệ thống:

Gián tiếp: khai thác nội dung tin bài mà người
dùng đã đọc.
Biểu diễn hình thức tin bài

Tin tức biểu diễn dưới dạng:

Tin tức = (tin liên quan, nội dung)

Nội dung:nội dung của tin, biểu diễn bằng vecto

Tin liên quan: các tin liên quan với tin bài hiện tại được lấy về từ
trang tin gốc, biểu diễn bằng vecto

, là vecto N chiều trọng số các từ khóa:

= (wc1, wc2, …, wcN) , wci biểu diễn trọng số của từ khóa i và nội
dung tin c

= (wr1, wr2, …, wrN) , wri biểu diễn trọng số của từ khóa i và tin liên
quan r

Bằng cách tổng hợp vecto tin bài được biểu diễn bằng vecto:
c

r


c

r

rci )1(
αα
−+=
c

r

Biểu diễn hình thức hồ sơ sở thích người dùng

Hồ sơ người dùng: u = (wuk1,wuk2, wukN)

wuki: độ yêu thích của người dùng u với từ
khóa ki

ti : tần xuất xuất hiện của từ khóa ki trong
lịch sử đọc tin của người dùng

Từ đó : wuki=

=
n
j
j
i
t
t

1
2
)(
Tính toán tập tin liên quan

= (wu1, wu2, …, wuN):biểu diễn hồ sơ sơ thích người dùng

= (wi1, wi2, …, wiN) :biểu diễn tin bài đang đọc

=(wi*1 ,wi*2,…wi*N) : biểu diễn tập tin bài

N:tập các từ khóa

Kết hợp hồ sơ sở thích người dùng và nội dung tin:
=

score(i*,i,u) :hàm tiện ích xác định độ phù hợp của tin bài i* đối với
người dùng u và tin bài đang đọc i

Chọn tập tin i* có score cao nhất
ui


)1(*
αα
−+
*.'
*.'
*),'cos(),*,(
iu

iu
iuuiiscore
==
u

i

*i
'u
Kiến trúc hệ thống gợi ý links

ww
w

Tập
tin

Máy cá nhân hóa

Hồ

ngườ
i
dùng

Thu
thập
&xử



Quản
lí hs
ngườ
i
dùng

Hiển
thị
tin
liên
quan

Thu
thập
sở
thích
ngườ
i
dùng
Thu thập và tiền xử lí dữ liệu

Việc thu thập và tiền xử lý dữ liệu gồm 2 bước

Tính tần xuất xuất hiện mỗi từ khóa trong tin

Tính trọng số của mỗi từ khóa theo công

thức TF-IDF
vnexpress.net
Thu thập và tiền

xử lí dữ liệu
CSDL tin tức
Biểu diễn sở thích của người dùng

Việc cập nhật biểu diễn sở thích người dùng gồm
2 bước:

Tính tần xuất xuất hiện mỗi từ khóa trong tin

Cập nhật trọng số của mỗi từ khóa trong hồ sơ người
dùng
Các tin tức
người dùng
đã đọc
Cập nhật biểu
diễn sở thích
người dùng
Hồ sơ người
dùng
Tính toán tập gợi ý

Với người dùng u, tin bài đang đọc i, thì hệ
thống sẽ tính tập gợi ý các tin bài (links) liên
quan như sau:

Tính giá trị hàm score(i*,i,u) cho mỗi tin bài i*

Sắp xếp các tin bài i* theo giá trị giảm dần đối
với giá trị hàm score


Lựa chọn các tin bài có giá trị hàm score >
ngưỡng α. (Các tin bài nằm ở đầu của danh
sách đã sắp xếp.)
Cài đặt hệ thống cá nhân hóa

Kiến trúc hệ thống: client–server

Server chạy hệ thống gợi ý

Client (kết nối với server) hiển thị nội dung tin bài
và các gợi ý tin bài (links) liên quan
Cài đặt hệ thống cá nhân hóa
Hạn chế của hệ thống

Hạn chế của cá nhân hóa nội dung:

Gợi ý các tin tức (links) có nội dung quá giống
với tin hiện tại

Để hệ thống gợi ý chính xác, người dùng phải
đọc lượng tin đủ lớn.
Hướng phát triển trong tương lai

Cải tiến những hạn chế của hệ thống đã nêu trong
slide trước

Phát triển thêm chức năng xem trước tin tức khi
người dùng di chuột vào môt link tin tức:

Hiện một cửa sổ pop-up chứa mô tả tóm tắt nội

dung tin

Nội dung hiển thị trong cửa sổ pop-up được cá
nhân hóa cho mỗi người dùng tại mỗi ngữ cảnh
Tài liệu tham khảo

×