Hệ thống hỗ trợ cá nhân hóa các trang tin tức tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (400 KB, 21 trang )

Giới thiệu bài toán

Lượng thông tin cung cấp mỗi ngày của các trang tin
tức rất lớn và phong phú  khó khăn khi tìm kiếm tin

Các trang tin tức tiếng việt nổi tiếng hiện nay như
vnexpress.net, 24h.com,… chưa có chức năng cá nhân
hóa
Từ bỏ
Mất thời
gian
Tốn công sức
Giới thiệu bài toán

 phải xây dựng một hệ thống hỗ trợ cá
nhân hóa các trang tin tức tiếng việt.

Nội dung bài toán nghiên cứu: Khi người
dùng đọc tin hệ thống tự động bổ sung các
links phù hợp với ngữ cảnh đọc tin ( nội
dung tin đang đọc ) và sở thích của người
dùng.
Giới thiệu về cá nhân hóa

Cá nhân hóa là tiến trình thu thập và lưu trữ
thông tin về người dùng website,phân tích
thông tin và dựa trên những phân tích đó để
gợi ý những thông tin phù hợp với mỗi người
dùng.

Có 3 loại cá nhân hóa:


Cá nhân hóa trình bày

Cá nhân hóa nội dung

Cá nhân hóa cấu trúc
Các loại cá nhân hóa

Cá nhân hóa trình bày (Fink et al.,1998;Joerding,1999)

Phổ biến nhất

Nội dung của website không đổi, định dạng và bố trí của website thay
đổi

Ex: hình ảnh->văn bản, văn bản->audio, video->ảnh….

Cá nhân hóa nội dung

Cá nhân hóa thông tin -> phù hợp với mối quan tâm và sở thích hiện
tại của người dùng

Ex: bổ sung thêm giải thích (De Rossi et al.,1993;Boyle and
Encarnacion 1994;Hold et al.,1996),tùy biến nội dung trang web
Các loại cá nhân hóa

Cá nhân hóa cấu trúc

Thay đổi cấu trúc của website


Cá nhân hóa các link->giúp người dùng tiếp cận thông
tin nhanh và hiệu quả nhất

Ex :

Tạo shortcut (Armstrong,1993; Anderson, 2001)

Sắp xếp links (Kapland, 1993; Armstrong,1993)

Thêm hoặc xóa links (Vasilena, 1996)

Phù hợp với bài toán nghiên cứu của đồ án
Hệ thống gợi ý

Dựa trên những hành động trong quá khứ

đưa ra gợi ý.

Có 2 loại chính:

Dựa vào lọc nội dung: đưa ra những sản phẩm có cùng
đặc trưng với sản phẩm người dùng từng thích

Dựa vào lọc cộng tác:đưa ra những sản phẩm có cùng đặc
trưng với những sản phẩm mà những người cùng sở thích
với người dùng đó thích.
Cách tiếp cận bài toán

Có 2 vấn đề cần giải quyết:


Xây dựng mô hình sở thích của người dùng.

Dữ liệu: tin tức người dùng đã đọc

Phương pháp: dựa trên lọc nội dung

Từ mô hình sở thích -> đưa ra tập gợi ý

Dựa trên việc đánh giá mức độ phù hợp của tin bài và mô
hình sở thích của người dùng.
How??
How??
Phát biểu bài toán

Gọi U là tập người dùng, I là tập tin bài, hàm
score(i*,i,u) là hàm đánh giá mức độ phù
hợp của tin bài i* (ϵI) đối với tin bài đang đọc
i (ϵI) và sở thích của người dùng u (ϵU)

Với người dùng u và tin bài đang đọc i, hệ
thống cần tính toán để bổ sung links của tập
các tin bài i* có giá trị score lớn nhất
Nguồn tri thức

Có 2 cách thu thập sở thích người dùng:

Trực tiếp (Explicit user preferences elicitation):đưa ra bởi
người dùng.

Gián tiếp (Implicit user preferences licitation):dự đoán

bởi hệ thống.

Nguồn tri thức dùng cho hệ thống:

Gián tiếp: khai thác nội dung tin bài mà người
dùng đã đọc.
Biểu diễn hình thức tin bài

Tin tức biểu diễn dưới dạng:

Tin tức = (tin liên quan, nội dung)

Nội dung:nội dung của tin, biểu diễn bằng vecto

Tin liên quan: các tin liên quan với tin bài hiện tại được lấy về từ
trang tin gốc, biểu diễn bằng vecto

, là vecto N chiều trọng số các từ khóa:

= (wc1, wc2, …, wcN) , wci biểu diễn trọng số của từ khóa i và nội
dung tin c

= (wr1, wr2, …, wrN) , wri biểu diễn trọng số của từ khóa i và tin liên
quan r

Bằng cách tổng hợp vecto tin bài được biểu diễn bằng vecto:
c

r


c

r

rci )1(
αα
−+=
c

r

Biểu diễn hình thức hồ sơ sở thích người dùng

Hồ sơ người dùng: u = (wuk1,wuk2, wukN)

wuki: độ yêu thích của người dùng u với từ
khóa ki

ti : tần xuất xuất hiện của từ khóa ki trong
lịch sử đọc tin của người dùng

Từ đó : wuki=
∑
=
n
j
j
i
t
t

1
2
)(
Tính toán tập tin liên quan

= (wu1, wu2, …, wuN):biểu diễn hồ sơ sơ thích người dùng

= (wi1, wi2, …, wiN) :biểu diễn tin bài đang đọc

=(wi*1 ,wi*2,…wi*N) : biểu diễn tập tin bài

N:tập các từ khóa

Kết hợp hồ sơ sở thích người dùng và nội dung tin:
=

score(i*,i,u) :hàm tiện ích xác định độ phù hợp của tin bài i* đối với
người dùng u và tin bài đang đọc i

Chọn tập tin i* có score cao nhất
ui


)1(*
αα
−+
*.'
*.'
*),'cos(),*,(
iu

iu
iuuiiscore
==
u

i

*i
'u
Kiến trúc hệ thống gợi ý links

ww
w

Tập
tin

Máy cá nhân hóa

Hồ
sơ
ngườ
i
dùng

Thu
thập
&xử
lí


Quản
lí hs
ngườ
i
dùng

Hiển
thị
tin
liên
quan

Thu
thập
sở
thích
ngườ
i
dùng
Thu thập và tiền xử lí dữ liệu

Việc thu thập và tiền xử lý dữ liệu gồm 2 bước

Tính tần xuất xuất hiện mỗi từ khóa trong tin

Tính trọng số của mỗi từ khóa theo công

thức TF-IDF
vnexpress.net
Thu thập và tiền

xử lí dữ liệu
CSDL tin tức
Biểu diễn sở thích của người dùng

Việc cập nhật biểu diễn sở thích người dùng gồm
2 bước:

Tính tần xuất xuất hiện mỗi từ khóa trong tin

Cập nhật trọng số của mỗi từ khóa trong hồ sơ người
dùng
Các tin tức
người dùng
đã đọc
Cập nhật biểu
diễn sở thích
người dùng
Hồ sơ người
dùng
Tính toán tập gợi ý

Với người dùng u, tin bài đang đọc i, thì hệ
thống sẽ tính tập gợi ý các tin bài (links) liên
quan như sau:

Tính giá trị hàm score(i*,i,u) cho mỗi tin bài i*

Sắp xếp các tin bài i* theo giá trị giảm dần đối
với giá trị hàm score


Lựa chọn các tin bài có giá trị hàm score >
ngưỡng α. (Các tin bài nằm ở đầu của danh
sách đã sắp xếp.)
Cài đặt hệ thống cá nhân hóa

Kiến trúc hệ thống: client–server

Server chạy hệ thống gợi ý

Client (kết nối với server) hiển thị nội dung tin bài
và các gợi ý tin bài (links) liên quan
Cài đặt hệ thống cá nhân hóa
Hạn chế của hệ thống

Hạn chế của cá nhân hóa nội dung:

Gợi ý các tin tức (links) có nội dung quá giống
với tin hiện tại

Để hệ thống gợi ý chính xác, người dùng phải
đọc lượng tin đủ lớn.
Hướng phát triển trong tương lai

Cải tiến những hạn chế của hệ thống đã nêu trong
slide trước

Phát triển thêm chức năng xem trước tin tức khi
người dùng di chuột vào môt link tin tức:

Hiện một cửa sổ pop-up chứa mô tả tóm tắt nội

dung tin

Nội dung hiển thị trong cửa sổ pop-up được cá
nhân hóa cho mỗi người dùng tại mỗi ngữ cảnh
Tài liệu tham khảo

Hệ thống hỗ trợ cá nhân hóa các trang tin tức tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về