BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRIỆU VĨNH VIÊM
HỆ THỐNG GỢI Ý PHIM ẢNH VỚI TIẾP CẬN
NHÂN TỐ TRONG MƠ HÌNH LÁNG GIỀNG
LUẬN VĂN THẠC SĨ CỘNG NGHỆ THÔNG TIN
Cần Thơ - 2013
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRIỆU VĨNH VIÊM
HỆ THỐNG GỢI Ý PHIM ẢNH VỚI TIẾP CẬN
NHÂN TỐ TRONG MƠ HÌNH LÁNG GIỀNG
Chun ngành: HỆ THỐNG THƠN TIN
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ CỘNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học
TS. Nguyễn Thái Nghe
Cần Thơ - 2013
LỜI BẢN QUYỀN
Tôi xin cam kết luận văn này được hồn thành dựa trên các kết quả nghiên cứu của
tơi và các kết quả nghiên cứu này chưa được dùng cho bất cứ luận văn cùng cấp nào
khác.
Cần Thơ, ngày … tháng … năm 2013
Triệu Vĩnh Viêm
LỜI CÁM ƠN
Để hồn thành chương trình cao học và viết luận văn này, tôi đã nhận được sự
hướng dẫn, giúp đỡ và góp ý nhiệt tình của q thầy cô Khoa Công Nghệ Thông
Tin – Truyền Thông, trường Đại học Cần Thơ.
Trước hết, tôi xin chân thành cảm ơn đến quý thầy cô trường Đại học Cần
Thơ, đặc biệt là những thầy cơ đã tận tình dạy bảo cho tôi trong suốt thời gian học
tập tại trường.
Tôi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Thái Nghe, thầy đã dành
nhiều thời gian để hướng dẫn nghiên cứu và giúp tơi hồn thành luận văn tốt
nghiệp.
Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu trường Đại học Cần Thơ
cùng quý thầy cô của Khoa Công Nghệ Thông Tin – Truyền Thông đã tạo rất nhiều
điều kiện để tơi hồn thành tốt khóa học.
Đồng thời, tơi cũng xin cảm ơn quý anh, chị, bạn bè, gia đình đã quan tâm,
động viên tơi trong suốt thời gian học và thực hiện luận văn này.
Mặc dù tôi đã có nhiều cố gắng nhằm hồn thiện luận văn bằng tất cả sự nhiệt
tình và năng lực của mình, tuy nhiên khơng thể tránh khỏi những thiếu sót, rất mong
nhận được những đóng góp q báu của q thầy cơ và các bạn.
Cần Thơ, ngày … tháng … năm 2013
Triệu Vĩnh Viêm
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT ...................................................................................... i
DANH MỤC BIỂU BẢNG ....................................................................................... ii
DANH MỤC HÌNH ẢNH ........................................................................................ iii
TĨM TẮT ................................................................................................................. iv
ABSTRACT ................................................................................................................v
CHƯƠNG 1 MỞ ĐẦU .............................................................................................1
1.1
Giới thiệu .......................................................................................................1
1.2
Lý do chọn đề tài ...........................................................................................1
1.3
Mục đích của đề tài ........................................................................................1
1.4
Đối tượng và phạm vi nghiên cứu .................................................................1
1.4.1
Đối tượng nghiên cứu .............................................................................1
1.4.2
Phạm vi nghiên cứu ................................................................................2
1.5
Phương pháp nghiên cứu ...............................................................................2
1.6
Ý nghĩa khoa học và thực tiễn của đề tài.......................................................2
1.6.1
Ý nghĩa khoa học ....................................................................................2
1.6.2
Ý nghĩa thực tiễn.....................................................................................2
1.7
Bố cục luận văn .............................................................................................3
CHƯƠNG 2 HỆ THỐNG GỢI Ý VÀ NGHIÊN CỨU LIÊN QUAN .....................4
2.1
Vấn đề gợi ý và hệ thống gợi ý......................................................................4
2.2
Tổng quát hệ thống gợi ý ...............................................................................5
2.3
Các khái niệm cơ bản của hệ thống gợi ý ......................................................5
2.4
Các kỹ thuật gợi ý chính ................................................................................7
2.4.1
Gợi ý dựa trên nội dung (Content-based filtering - CB).........................7
2.4.2
Lọc cộng tác (Collaborative filtering - CF) ............................................8
2.4.3
Hệ thống gợi ý kết hợp nhiều phương pháp (Hybrid RS) ......................9
2.4.4 Gợi ý dựa vào nhân khẩu học (Demographic Recommendation
Methods) ............................................................................................................10
2.5
Các vấn đề cơ bản của hệ thống gợi ý .........................................................10
2.5.1
Cold start problem ................................................................................10
2.5.2
Vấn đề dữ liệu cực thưa (Data Sparsity Problem) ................................10
2.5.3
Chun mơn hóa (Overspecialization) .................................................11
2.5.4
Khả năng mở rộng (Scalability Problem) .............................................11
2.6
So sánh giữa các kỹ thuật gợi ý ...................................................................11
2.7
Các tiếp cận liên quan ..................................................................................12
2.7.1
Ước lượng cơ sở ...................................................................................12
2.7.2
Mơ hình láng giềng ...............................................................................12
2.7.3
Mơ hình nhân tố tiềm ẩn .......................................................................14
CHƯƠNG 3 XÂY DỰNG HỆ THỐNG ................................................................15
3.1
Mơ hình nhân tố láng giềng (Factor in the Neighbors) ...............................15
3.2
Asymmetric SVD với chính tắc hóa trên từng tham số ...............................16
3.3
Tích hợp giải thuật và xây dựng hệ thống ...................................................18
3.3.1
Kiến trúc tổng quát ...............................................................................18
3.3.2
Biểu đồ trường hợp sử dụng .................................................................19
3.3.3
Mơ hình quan niệm dữ liệu (Conceptual Data Model – CDM)............20
3.3.4
Từ điển dữ liệu ......................................................................................20
3.3.5
Mơ hình cơ sở dữ liệu ...........................................................................22
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM ............................................................23
4.1
Mô tả công việc ...........................................................................................23
4.2
Kỹ thuật huấn luyện và kết quả ...................................................................23
4.3
Giới thiệu các tiếp cận dự đoán xếp hạng ...................................................25
4.3.1
Dự đoán với trung bình tồn cục (Global Average) .............................25
4.3.2
Dự đốn với trung bình xếp hạng trên bộ phim (Movie Average) .......25
4.3.3
Dự đốn với trung bình xếp hạng trên người dùng (User Average) .....25
4.3.4
Dự đoán với tiếp cận phân rã ma trận (Matrix Factorization - MF) .....26
4.4
Biểu đồ biểu diễn kết quả RMSE ................................................................26
4.5
Kịch bản chứng minh khả năng gợi ý của hệ thống ....................................26
4.5.1
Kịch bản 1 .............................................................................................27
4.5.2
Kịch bản 2 .............................................................................................28
4.5.3
Kịch bản 3 .............................................................................................29
4.5.4
Kịch bản 4 .............................................................................................31
CHƯƠNG 5 KẾT LUẬN .......................................................................................34
5.1
Kết quả đạt được ..........................................................................................34
5.1.1
Về lý thuyết ...........................................................................................34
5.1.2
Về giải thuật ..........................................................................................34
5.1.3
Về ứng dụng ..........................................................................................34
5.1.4
Các bài báo đã cơng bố có liên quan đến đề tài ....................................35
5.2
Những mặt hạn chế ......................................................................................35
5.3
Hướng phát triển ..........................................................................................35
TÀI LIỆU THAM KHẢO .........................................................................................36
PHỤ LỤC A - TRIỂN KHAI MÃ NGUỒN CỦA ĐỀ TÀI .....................................40
PHỤ LỤC B - KẾT QUẢ CHO QUÁ TRÌNH HUẤN LUYỆN ..............................44
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
DANH MỤC TỪ VIẾT TẮT
RS
Recommender Systems
Hệ thống gợi ý
SVD
Singular Value Decomposition
CB
Content-based
CF
Collaborative filtering
DG
Demographic Recommendation
BIAS
Baseline Estimates
RMSE
Root Mean Square Error
NU
New Users
Người dùng mới
NI
New Items
Mục tin mới
DS
Data Sparsity
Dữ liệu thưa
OverS
Over-specialization
Scal
Scalability
CSP
Cold-start problem
MF
Matrix Factorization
Phân tách giá trị đơn
Dựa trên nội dung
Lọc cộng tác
Gợi ý dựa trên nhân khẩu học
Ước lượng cơ sở
Quá chuyên biệt
Khả năng mở rộng
Vấn đề khởi đầu khó khăn
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
Phân rã ma trận
i
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
DANH MỤC BIỂU BẢNG
Bảng 2.1 Các vấn đề cần giải quyết trong một số hệ thống gợi ý .............................11
Bảng 3.1 Giải thuật gợi ý “Factor in the neighbors”.................................................17
Bảng 3.2 Mô tả thực thể Users ..................................................................................20
Bảng 3.3 Mô tả thực thể movielens_movies .............................................................21
Bảng 3.4 Mô tả thực thể genres ................................................................................21
Bảng 3.5 Mô tả mối kết hợp rated .............................................................................21
Bảng 3.6 Mô tả mối kết hợp comments ....................................................................22
Bảng 4.1 Kết quả huấn luyện cho các bước lặp khác nhau .......................................23
Bảng 4.2 Các kết quả huấn luyện tốt nhất cho tìm kiếm mịn ...................................24
Bảng 4.3 Các kết quả huấn luyện lặp nhiều lần do dữ liệu ngẫu nhiên ....................24
Bảng 4.4 Các kết quả huấn luyện tìm thơ và tìm mịn với 5-fold ..............................25
Bảng 4.5 Phân lớp cho kết quả dự đoán ....................................................................28
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
ii
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
DANH MỤC HÌNH ẢNH
Hình 2.1 Tổng quát hệ thống gợi ý .............................................................................5
Hình 2.2 Ma trận biểu diễn xếp hạng của người dùng trên mục tin ...........................6
Hình 3.1 Kiến trúc hệ thống ......................................................................................19
Hình 3.2 Biểu đồ trường hợp sử dụng.......................................................................19
Hình 3.3 Biểu đồ ERD ..............................................................................................20
Hình 3.4 Mơ hình cơ sở dữ liệu mức vật lý ..............................................................22
Hình 4.1 Kết quả RMSE cho một số tiếp cận gợi ý ..................................................26
Hình 4.2 Xem chi tiết phim với xử lý cold start problem .........................................27
Hình 4.3 Dự đốn xử lý new items ...........................................................................28
Hình 4.4 Xếp hạng và cập nhật gợi ý trực tuyến cho newuser1 ...............................29
Hình 4.5 Xếp hạng và cập nhật gợi ý trực tuyến cho newuser2 ...............................30
Hình 4.6 newuser1 xếp hạng thêm các phim khác ....................................................30
Hình 4.7 Dự đoán xếp hạng phim “Đầm lầy bạc” cho newuser2 .............................31
Hình 4.8 Dự đốn xếp hạng phim “Gia đình phép thuật” cho newuser2..................31
Hình 4.9 newuser2 xếp hạng thêm cho 2 phim .........................................................32
Hình 4.10 Kết quả dự đốn phim “Bẫy rồng” cho newuser1 ...................................33
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
iii
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
TÓM TẮT
Hệ thống gợi ý có thể đưa ra những mục thơng tin (item) phù hợp cho người
dùng bằng cách dựa vào dữ liệu về hành vi trong quá khứ của họ để đự đốn những
mục thơng tin mới trong tương lai mà người dùng có thể thích. Hai tiếp cận thành
cơng trong hệ thống gợi ý thuộc vào nhóm lọc cộng tác là mơ hình nhân tố tiềm ẩn
(latent factor models) - xác định mối quan hệ tiềm ẩn trên cả người dùng và mục
thơng tin; và mơ hình láng giềng (neighborhood models) - phân tích độ tương tự
giữa các mục thơng tin với nhau hay giữa những người dùng với nhau. Trong luận
văn này, chúng tôi giới thiệu một tiếp cận tích hợp các ưu điểm của cả hai tiếp cận
trên dựa vào phương pháp đã được đề xuất bởi Koren (2010). Ở đây, bên cạnh việc
xây dưng một hệ thống trên nền web có tích hợp giải thuật đã được giới thiệu để gợi
ý phim ảnh cho người dùng, chúng tơi cũng đã điều chỉnh mơ hình đã có bằng cách
đưa vào các hệ số regularization trên từng tham số khác nhau của mơ hình nhằm cải
thiện kết quả dự đốn.
Từ khóa: lọc cộng tác, hệ thống gợi ý
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
iv
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
ABSTRACT
Recommender system can provide suitable items to users by using data about
their behavior in the past to predict the future items that users may like. Two
successful approaches in recommender system (relying on the collaborative
filtering) are the latent factor models which identify potential relationships on both
the user and the item; and neighbor models which use similarities between the items
or the similarities between the users. In this study, we introduce an approach which
is based on the method proposed by Koren (2010) to utilize the advantages of both
the aforementioned approaches. Moreover, besides building a web-based movie
recommender system, we try to improve the prediction results by adding to the
original model several new regularization coefficients for different models’
parameters.
Keywords: collaborative filtering, recommender systems
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
v
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
CHƯƠNG 1 MỞ ĐẦU
1.1 Giới thiệu
Sự phát triển của internet đã đưa chúng ta vào thế giới với một lượng lớn các
phần tử thông tin như âm nhạc, phim ảnh, sách vở, trang web,… với các đặc tính
khác nhau. Kết quả của những thơng tin khổng lồ đó, người ta cảm thấy rối rắm và
một câu hỏi đặt ra “Cái nào là thích hợp với tôi hơn?” nảy sinh trong tư duy của họ.
May thay, hệ thống gợi ý có thể chỉ ra các thông tin phù hợp trong số thông tin
khổng lồ chưa có trật tự, nó sử dụng các kỹ thuật lọc để chọn ra những loại thông
tin đặc trưng nhằm trình bày các phần tử phù hợp với sở thích của người dùng.
1.2 Lý do chọn đề tài
Khi mà kho dữ liệu đủ lớn (ví dụ kho video như YouTube, kho nhạc last.fm,
kho sách Amazon, kho đĩa DVD Netflix, …), vấn đề người ta thường quan tâm là
tìm kiếm (search). Tuy nhiên, khi tìm kiếm thơng thường người ta phải có ý định
trong đầu trước; ví dụ, phim đoạt giải Oscar của Tom Hanks, hoặc phim Armour of
God có diễn viên Jackie Chan (Thành Long) thủ vai chánh, ... Trong trường hợp
người ta chưa có ý định rõ ràng về cái mình tìm kiếm, lúc đó người ta sẽ cần đến sự
gợi ý (recommendation).
Lĩnh vực giải trí trực tuyến, thương mại điện tử ở Việt Nam đang bước đầu
phát triển, trong tương lai gần các hệ thống này sẽ phải đối mặt với vấn đề quá tải
thông tin đến với người dùng. Hệ thống gợi ý sẽ mở ra nhiều tiềm năng trong
nghiên cứu cũng như trong ứng dụng.
Vì vậy, đề tài nghiên cứu này là sự cần thiết đối với nhu cầu thực tiễn cho các
hệ thống trực tuyến ở Việt Nam.
1.3 Mục đích của đề tài
- Nghiên cứu các tiếp cận gợi ý cơ bản và các vấn đề thường gặp khi xây dựng
hệ thống gợi ý.
- Nghiên cứu một giải thuật gợi ý có sẵn, cài đặt và điều chỉnh giải thuật nhằm
cải thiện kết quả dự đốn.
- Xây dựng và tích hợp giải thuật gợi ý này vào hệ thống gợi ý phim ảnh.
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
- Lý thuyết về hệ hỗ trợ ra quyết định, máy học, mạng nơron.
- Giải thuật học cho mạng nơron (Stochastic Gradient Descent).
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
1
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
- Lý thuyết ngơn ngữ lập trình Java.
- Phân tích hệ thống, quản trị cơ sở dữ liệu.
- Nghiên cứu ngôn ngữ lập trình web.
1.4.2 Phạm vi nghiên cứu
- Nghiên cứu lập trình web với servlets/jsp.
- Nghiên cứu lập trình thủ tục lưu trữ và hàm đối với cơ sở dữ liệu MySQL.
- Nghiên cứu giải thuật Asymmetric SVD có điều chỉnh.
- Nghiên cứu kỹ thuật điều chỉnh tham số cho mơ hình học.
- Cài đặt tích hợp giải thuật gợi ý vào hệ thống gợi ý phim.
1.5 Phương pháp nghiên cứu
Phương pháp nghiên cứu tài liệu: tham khảo nhiều bài báo khoa học, tạp chí
và sách vở trong nước cũng như ngồi nước chuyên về lĩnh vực gợi ý, máy học và
lĩnh vực lập trình web.
Phương pháp thực nghiệm: nghiên cứu sử dụng các cơng cụ lập trình web và
triển khai ứng dụng thực tế.
1.6 Ý nghĩa khoa học và thực tiễn của đề tài
1.6.1 Ý nghĩa khoa học
Đề tài đã sử dụng một giải thuật gợi ý mà phối hợp cả tiếp cận láng giềng và
nhân tố tiềm ẩn nhằm tận dụng các ưu điểm và khắc phục khuyết điểm của các tiếp
cận này.
Nghiên cứu đã chứng minh được sự hiệu quả của việc điều chỉnh các hằng số
regularization trên từng tham số học khác nhau sẽ hiệu quả hơn thay vì chỉ dùng
duy nhất một regularization cho tất cả các tham số.
Bên cạnh đó, hệ thống mà đề tài xây dựng sẽ làm nổi lên sự hào hứng trong
nghiên cứu khoa học cho việc ứng dụng các kỹ thuật gợi ý ở Việt Nam.
1.6.2 Ý nghĩa thực tiễn
Hiện tại, ở Việt Nam các trang web chia sẻ phim ảnh hầu như chưa có tích hợp
hệ thống gợi ý, đa phần chỉ thể hiện các bộ phim có cùng thể loại (genre). Bên cạnh
đó cũng có một số trang hiển thị tần số xem nhiều (trong ngày/tuần/tháng) của bộ
phim và đưa ra các đề cử tương ứng. Một số trang web chia sẽ phim ảnh trong nước
như: movie.vkool.net, phim3s.net, phimphim.com, v1vn.com, ,
www.canthomovie.com...
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
2
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
Vì vậy, nghiên cứu này giữ vai trò như là nền tảng cho việc tích hợp giải thuật
gợi ý vào các hệ thống giải trí, thương mại điện tử ở Việt Nam. Đồng thời, đề tài
cũng được dùng để so sánh với những nghiên cứu tiếp theo trong tương lai.
1.7 Bố cục luận văn
Quyển luận văn này bao gồm năm chương chính và nội dung của bốn chương
tiếp theo được mô tả như sau:
Chương 2 cung cấp một giới thiệu tổng quát về vấn đề gợi ý và hệ thống gợi
ý. Nó biểu diễn q trình gợi ý và mơ tả các khái niệm cơ bản của quá trình này.
Chương này cũng giới thiệu sơ lược về các kỹ thuật gợi ý chính bao gồm các kỹ
thuật gợi ý có liên quan đến đề tài và các kỹ thuật khác. Nội dung chương cũng nêu
các vấn đề mà các hệ thống gợi ý phải đối mặt và phân tích so sánh giữa các kỹ
thuật gợi ý dựa trên những vấn đề này.
Chương 3 sẽ giới thiệu một cách thức điều chỉnh một tiếp cận gợi ý đã có
nhằm cải thiện độ chính xác dự đốn. Chương này biểu diễn các mơ hình của hệ
thống để tổ chức lưu trữ các mục tin dùng để gợi ý và xử lý các vấn đề mà hệ thống
có thể vấp phải.
Chương 4 mơ tả các cơng việc cần thực hiện để tìm các tham số học, cách
thức tìm các siêu tham số khá tốt cho mơ hình. Nội dung chương sẽ trình bày các
kết quả huấn luyện và nó cịn so sánh tiếp cận đã sử dụng của đề tài với một số tiếp
cận khác thông qua biểu đồ. Hơn nữa, chương này sẽ minh họa và giải thích một số
giao diện chính của hệ thống website có tích hợp kỹ thuật gợi ý. Thơng qua việc tự
xây dựng một số kịch bản gợi ý để chứng minh rằng hệ thống có khả năng đối phó
với một số vấn đề gợi ý.
Chương 5 kết luận các công việc mà luận văn làm được, đặt các vấn đề còn
tồn tại chưa giải quyết được của luận văn. Ngồi ra, chương này cịn trình bày
hướng phát triển tiếp theo của đề tài để cải tiến sự tối ưu cũng như độ chính xác gợi
ý của hệ thống.
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
3
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
CHƯƠNG 2 HỆ THỐNG GỢI Ý VÀ NGHIÊN CỨU LIÊN QUAN
2.1 Vấn đề gợi ý và hệ thống gợi ý
Hiện nay, Việt Nam là đất nước có xu hướng hội nhập cao và trong đà phát
triển chung của nền kinh tế thế giới. Từ đó sẽ xảy ra một thực trạng là các nguồn
thơng tin ở các lĩnh vực như giải trí, giáo dục, thương mại sẽ ngày càng lớn dần cả
về số lượng và chất lượng. Sự phát triển của các lĩnh vực này trên internet sẽ làm
cho người dùng đối mặt với q tải thơng tin.
Do đó, trong tương lai gần những lời gợi ý là một phần không thể thiếu của
cuộc sống hằng ngày mà thỉnh thoảng con người sẽ tin tưởng vào những nguồn tri
thức sẵn có để đưa ra một sự lựa chọn về sở thích cũng như các hành động tiếp theo
của họ. Ví dụ, một người có thể đọc các thơng tin tổng qt về các bộ phim trên các
tờ báo để chọn lựa phim mà họ sẽ xem, hay là một cách nhìn khác là một người có
thể đến một cửa hàng bán CD phim mà họ đã từng mua trước đây để có được những
lời gợi ý xem các CD phim có thể họ sẽ thích từ chủ cửa hàng này. Tồn tại các nhân
tố của CD phim mà ảnh hưởng đến sở thích của người mua. Các ví dụ này sẽ giúp
chúng ta hình thành khái niệm về sự gợi ý trên các hệ thống trực tuyến (online).
Một hệ thống gợi ý (Recommender System – RS) là một hệ thống thơng minh
mà tính toán được các đề xuất cho các sưu liệu đến người dùng. Nó sử dụng những
lịch sử hành vi trước đây của người dùng để đề xuất các mục tin mà có thể họ sẽ
thích. Ví dụ, hệ thống sẽ cố gắng dự đốn các sở thích của người dùng thông qua
việc xếp hạng cho những mục tin cụ thể.
Hệ thống thơng minh này sẽ tính tốn được một danh sách có thứ tự các mục
tin được xếp hạng đến người dùng cụ thể. Điều này còn được gọi là lời gợi ý cá
nhân của một hệ thống trực tuyến [22].
Theo thống kê trong [17], Youtube được sáng lập vào tháng 2/2005, nó đã
nhanh chóng trở thành một trong các website chia sẽ video phổ biến nhất thế giới
hiện nay. Người dùng đến với youtube khám phá, xem và chia sẽ các video (tự tạo,
nguyên gốc). Mỗi ngày, trên một tỷ video clip được tạo ra xuyên qua hàng triệu
video bởi hàng triệu người dùng, và mỗi phút người dùng tải trên 24 giờ video lên
Youtube. Sự thành công của Youtube cũng nhờ vào khả năng gợi ý của hệ thống.
Nền tảng của hệ gợi ý cần xem xét là khoa học thực nghiệm, thuyết tương đối,
tìm kiếm thơng tin và các thuyết về dự báo (dự đoán) [1]. Trong những năm giữa
thập niên 90, các hệ gợi ý đã trở thành một lĩnh vực nghiên cứu độc lập khi những
nhà nghiên cứu bắt đầu tập trung vào các vấn đề về sự gợi ý tường minh mà tin cậy
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
4
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
dựa trên các đánh giá có cấu trúc và xuất bản những tờ báo đầu tiên của lĩnh vực
này [1].
Với một nhìn nhận tổng quát thì vấn đề gợi ý được quy về việc dự đoán xếp
hạng cho các mục tin mà người dùng chưa từng thấy. Sau khi dự đoán xếp hạng
xong thì các mục tin được ước lượng dự đốn cao nhất sẽ có thể được đề xuất đến
người dùng.
2.2 Tổng quát hệ thống gợi ý
Các mục tin
được đề xuất
Tương tác
Cập nhật
sở thích
Rate, rerate,
browse, transactions,...
u cầu các đề xuất
Tính tốn dự đoán xếp hạng
Dịch vụ gợi ý
Giải thuật
Tự động gửi đề xuất
NGƯỜI DÙNG
Database
Hình 2.1 Tổng quát hệ thống gợi ý
Người dùng yêu cầu các đề xuất (có thể tự động), xem các đề xuất, cập nhật sở
thích thơng qua các hành vi như xếp hạng, xếp hạng lại những mục tin đã xếp hạng,
lịch sử duyệt, giao dịch, số lần thao tác chuột… Tuy nhiên mơ hình này rất cơ bản,
nó chỉ biểu diễn được các hoạt động cần thiết của dịch vụ gợi ý. Một hệ thống có
tích hợp gợi ý thì cịn xử lý nhiều vấn đề khác liên quan đến các đối tượng của hệ
thống bao gồm cả người dùng, các mục tin và các loại dữ liệu về hành vi của người
dùng.
2.3
Các khái niệm cơ bản của hệ thống gợi ý
Trong RS, ba thông tin cơ bản về người dùng (user), mục thông tin (item) và
các xếp hạng (ratings) được biểu diễn thông qua một ma trận như hình bên dưới. Ở
đó, mỗi dịng là một user, mỗi cột là một item, và mỗi ô là một giá trị xếp hạng biểu
diễn “mức độ thích” của user trên item tương ứng. Các ơ có giá trị là những item mà
các user đã xếp hạng trong quá khứ. Những ô trống là những item chưa được xếp
hạng (điều đáng lưu ý là mỗi user chỉ xếp hạng cho một vài item trong quá khứ, do
vậy có rất nhiều ô trống trong ma trận này - còn gọi là ma trận cực thưa - sparse
matrix) [5].
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
5
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
Hình 2.2 Ma trận biểu diễn xếp hạng của người dùng trên mục tin
Vì thế, nhiệm vụ chính của RS là dựa vào các ơ đã có giá trị trong ma trận này
(dữ liệu thu được từ quá khứ), để dự đoán các ơ cịn trống cho một người dùng cụ
thể, sau đó sắp xếp thứ tự kết quả dự đoán và chọn ra k mục tin theo thứ tự (top-k
items) rồi gợi ý đến người dùng.
Nói một cách hình thức chúng ta có thể mơ hình bài tốn về các lời định nghĩa
số học như sau:
-
Gọi U là tập hợp m người dùng (user), |U| = m, và u là một người dùng
cụ thể nào đó (u U).
-
Gọi I là tập hợp n mục thông tin (item), |I| = n, và i là một mục thơng
tin cụ thể nào đó (i I).
-
Gọi R là tập hợp các giá trị xếp hạng dùng để ước lượng “sở thích” của
người dùng, và rui R (R ) là xếp hạng của người dùng u trên mục
thông tin i.
Lưu ý rằng giá trị rui có thể được xác định một cách tường minh (explicit
feedback) như thơng qua việc đánh giá/xếp hạng (ví dụ, rating từ 1 đến 5; hay like
(1) và dislike (0),…) mà u đã bình chọn cho i - trong trường hợp này gọi là dự đoán
xếp hạng (rating prediction) [29]; hoặc rui có thể được xác định một cách không
tường minh (implicit feedback) như số lần thao tác chuột, thời gian mà u đã
duyệt/xem một mục tin,…
-
Gọi Dtrain U × I × R là tập dữ liệu huấn luyện.
-
Gọi Dtest U × I × R là tập dữ liệu kiểm thử.
-
Gọi r: U × I → R với (u, i) ↦ rui
-
Mục tiêu của RS là tìm một hàm rˆ : U × I →
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
6
Luận văn thạc sĩ
-
Triệu Vĩnh Viêm - 2411016
Sao cho (r, rˆ ) thỏa mãn một điều kiện nào đó. Ví dụ, nếu là một hàm
ước lượng lỗi như Root Mean Squared Error (RMSE) thì nó cần phải
được tối tiểu [33].
RMSE =
1
(rui − rˆui )2
test
| D | u,i, rDtest
(1)
2.4 Các kỹ thuật gợi ý chính
Các tiếp cận chung nhất trong hầu hết các hệ gợi ý đã được đề xuất cho việc
biểu diễn các lời gợi ý, bao gồm phương pháp dựa trên nội dung và lọc cộng tác
[3][11][13]. Mỗi tiếp cận đều có cả ưu và nhược điểm để cung cấp các lời gợi ý chất
lượng. Nhiều nghiên cứu đã sử dụng tiếp cận lai (Hybrid RS) - đó là sự kết hợp các
phương pháp khác nhau nhằm hy vọng sử dụng các ưu điểm của phương pháp này
để khắc phục nhược điểm các phương pháp kia [9][28].
Hệ gợi ý dựa trên nội dung thuần chỉ xem xét những sở thích đơn người dùng
có liên quan đến các đặc trưng quan trọng để mô tả nội dung của một phần tử.
Chúng gợi ý các phần tử mà tương tự với một phần tử đã được đánh giá “cao” trước
đây của người dùng. Mặt khác, tiếp cận lọc cộng tác thuần bỏ qua nội dung của các
phần tử, và chỉ đưa ra các gợi ý dựa trên những ý kiến (quan điểm, xếp hạng cho bộ
phim) của những người dùng khác mà có cùng sở thích (các láng giềng) với người
dùng cuối [16].
Ngày nay, hệ thống gợi ý được xây dựng bởi sự kết hợp các ý tưởng từ những
lĩnh vực khác nhau như trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên, tương tác người
máy, xã hội học và tìm kiếm thơng tin. Sự hào hứng của lĩnh vực nghiên cứu này là
nó giữ tính phổ biến và được ưa thích, bởi vì nó tạo ra một lĩnh vực nghiên cứu rộng
lớn với nhu cầu tìm những giải pháp cho những vấn đề còn bỏ ngỏ. Hơn nữa, có
nhiều ứng dụng thực tiễn giúp những người dùng giải quyết quá tải thông tin và
cung cấp những lời gợi ý cá nhân, nội dung, và các dịch vụ đến họ [1].
2.4.1 Gợi ý dựa trên nội dung (Content-based filtering - CB)
Một hệ thống CB cố gắng lấy thông tin hữu ích từ các mục tin [26]. Việc rút
trích thơng tin này với hàm ý là tìm ra những mục thông tin nào phù hợp với người
dùng, nhưng mức độ và “tính phù hợp” giữa các đặc trưng của mục tin và người
dùng cụ thể nào đó thì chưa được đo đạt tường minh.
Trong [28] nói rằng kỹ thuật này sẽ cố gắng phân tích các mục tin để rút trích
các đặc trưng mà có thể mơ tả chúng, sau đó hệ thống sẽ dựa trên các đặc trưng này
để tìm các mục tin mà có sự tương tự với sử thích của người dùng. Bài báo [25] đã
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
7
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
gợi ý các bộ phim bằng kỹ thuật phân loại văn bản để học từ các bảng tóm tắt bộ
phim (nội dung của phim). Như vậy, độ tin cậy các hệ thống thuộc nhóm này phụ
thuộc vào việc phân tích nội dung và chất lượng của dữ liệu sẵn có.
Một trong những thuận lợi quan trọng nhất của phương pháp này là nó có thể
gợi ý được các mục tin mới. Mặt khác một hệ thống dựa trên nội dung thuần đối
phó với vấn đề chun mơn hóa (over-specialization) mà một người dùng bị giới
hạn xem các phần tử tương đương với những phần tử đã đánh giá. Ngồi ra, nó cịn
bị giới hạn về phân tích nội dung phần tử. Nhiều nghiên cứu, luận văn đã sử dụng
các kỹ thuật phân loại văn bản để học được sở thích của người dùng, kết hợp các
phương pháp gợi ý khác nhau để khắc phục các nhược điểm của chúng.
2.4.2 Lọc cộng tác (Collaborative filtering - CF)
Hệ thống gợi ý thường tin cậy trên lọc cộng tác (Collaborative filtering - CF),
dựa vào những hành vi quá khứ của người dùng, ví dụ như: lịch sử giao dịch, đánh
giá sản phẩm, thời gian xem một mục tin… và đặc biệt là nó khơng cần thiết phải
tạo ra các hồ sơ tường minh (explicit feedback) cho người dùng.
Để gợi ý được các mục tin, hệ thống CF cần so sánh các đối tượng cơ bản
khác nhau như các mục tin (items) và người dùng (users). Với tiếp cận lọc cộng tác
có nhiều phương pháp sử dụng để mơ hình như: neighborhood-based và latent
factor models [20]. Đặc biệt với tiếp cận mơ hình nhân tố tiềm ẩn thì phương pháp
phân rã ma trận hiện đang là một tuyệt tác trong hệ thống gợi ý.
Hầu hết các tiếp cận chung nhất của CF là dựa trên mơ hình láng giềng
(Neighborhood Models), mơ hình user-user (user-based CF) mà được tác giả phân
tích rất rõ trong tài liệu [16]. Bên cạnh đó, một tiếp cận trong [21] dựa trên độ tương
tự giữa các phần tử (item-based CF) với quy mô tập dữ liệu rất lớn và đưa ra các đề
xuất chất lượng cao trong thời gian thực.
Mơ hình nhân tố tiềm ẩn có dạng tương tự như phương pháp phân tích giá trị
đơn (Singular Value Decomposition), chuyển đổi cả các mục tin và người dùng vào
cùng một không gian tiềm ẩn của các nhân tố, điều này làm chúng có khả năng so
sánh trực tiếp. Bên cạnh đó, nhờ vào khả năng biểu diễn và so sánh các khía cạnh
dữ liệu khác nhau, tiếp cận này có xu hướng cung cấp kết quả dự đốn cao hơn mơ
hình láng giềng [5][14]. Tuy nhiên hầu hết các hệ thống thương mại (Amazon,
Tivo,…) vẫn cịn sử dụng mơ hình láng giềng. Sự phổ biến của mơ hình này một
phần là nhờ vào tính dễ cài đặt và dễ hiểu.
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
8
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
2.4.3 Hệ thống gợi ý kết hợp nhiều phương pháp (Hybrid RS)
Thuật ngữ Hybrid được sử dụng ở đây để mô tả bất cứ hệ thống gợi ý nào mà
kết hợp nhiều kỹ thuật gợi ý cùng với nhau để sinh ra các đề xuất cuối cùng. Theo
điều tra về Hybrid RSs trong [8] thì có 7 loại khác nhau như weighted, switching,
mixed, feature combination, feature augmentation, cascade, meta-level.
Trong tài liệu [31], nhóm tác giả đề xuất tiếp cận gợi ý lai hợp nhất giữa lọc
cộng tác kết hợp tính tốn với sự quan trọng của đặc trưng thuộc về thời gian
(temporal features) của các phần tử. Hệ thống đã sử dụng độ tương quan Pearson để
tính độ tương tự giữa các người dùng, trong q trình tính tốn Pearson tác giả đã
dựa trên nội dung thuộc về thời gian của phần tử như là năm xuất bản của các bộ
phim (movies’ production year) để giới hạn các phần tử tính tốn. Bài báo đã kết
luận rằng: “Các đặc trưng thuộc về thời gian của các phần tử thì rất quan trọng cho
sự cung cấp lời gợi ý”. Đặc biệt là kết quả thực nghiệm của các tác giả dựa trên ngữ
cảnh gợi ý phim ảnh.
Trong [6] đã đề xuất tiếp cận gợi ý mà có thể khai thác cả các thơng tin đánh
giá và nội dung của các phần tử trong hệ thống. Nhóm tác giả đã qui vấn đề gợi ý
phim ảnh như là vấn đề học được hàm f({user, movie}) và kết quả đầu ra sẽ là liked
hoặc disliked. Do vậy các bộ phim được gợi ý là một danh sách khơng có thứ tự
nhưng có thể được ưa thích bởi người dùng. Bài báo còn đưa ra các khái niệm
Collaborative features, Content features, Hybrid features và tìm ra nội dung đặc
trưng quan trọng mà thường kết hợp với các bộ phim khi người dùng chọn lựa để
xem đó là đặc trưng thể loại của bộ phim (movie’s genre). Nhóm tác giả đã sử dụng
độ đo PRECISION và RECALL để so sánh kết quả dự đoán với các phương pháp
lọc xã hội khác nhau trên cùng tập dữ liệu, và cho thấy được sự khả quan của tiếp
cận này.
Trong [30] đã đề xuất tiếp cận gợi ý mà hợp nhất cả phương pháp lọc cộng tác
và dựa trên nội dung. Tiếp cận này không chỉ tận dụng được mối liên quan giữa các
đánh giá và đặc trưng của các phần tử để lời gợi ý mang ngữ nghĩa hợp lý hơn, mà
còn làm giảm sự thưa thớt của ma trận đánh giá bằng cách giảm số chiều của dữ
liệu (khi số phần tử tăng nhanh thì chiều các đặc trưng nhỏ hơn chiều của ma trận
đánh giá user-item). Tuy vậy, phương pháp này cịn vấp phải vấn đề khơng tính
được độ tương tự giữa 2 người dùng nếu 2 người đó khơng có cùng đánh giá chung
nào và việc chọn lựa các đặc trưng cũng không kém phần quan trọng.
Đối với các hệ thống sử dụng tiếp cận này đòi hỏi kỹ thuật triển khai cũng như
cài đặt các giải thuật rất phức tạp và khó khăn khi đánh giá kết quả dự đốn của nó.
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
9
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
2.4.4 Gợi ý dựa vào nhân khẩu học (Demographic Recommendation Methods)
Người dùng trong hệ thống này được phân lớp dựa trên dữ liệu cá nhân, mà
được cung cấp trong quá trình người dùng đăng ký thành viên. Ngồi ra, dữ liệu này
có thể được rút trích từ các câu trả lời khảo sát, điều tra dân số,… Mỗi mục thông
tin trong hệ thống được gán cho một hoặc nhiều lớp với giá trị trọng số. Sau đó
người dùng sẽ được gợi ý những mục thông tin mà thuộc lớp gần nhất so với hồ sơ
của người dùng. Hệ thống sử dụng kỹ thuật gợi ý nhân khẩu học có thuận lợi là
khơng u cầu lịch sử xếp hạng của người dùng.
2.5 Các vấn đề cơ bản của hệ thống gợi ý
2.5.1 Cold start problem
Hệ thống khơng có khả năng thực hiện được những suy luận liên quan đến
người dùng hoặc mục thông tin. Mức độ tự động hóa để hình thành những đề xuất
chất lượng cho các mục thông tin trong hệ thống cũng bị hạn chế khi chưa tập hợp
đủ thông tin về chúng. Vấn đề này còn được gọi là “cold start problem” mà hầu hết
được tìm thấy trong các hệ thống gợi ý.
Ba loại của vấn đề này là mục tin mới, người dùng mới, hệ thống mới được
giải thích trong tài liệu [22]. Rõ ràng khi một người dùng mới xuất hiện trong hệ
thống thì hệ thống khơng có đủ các thơng tin về sở thích của người dùng này.
Tương tự, khi một mục thông tin mới được giới thiệu lần đầu và chưa có một phản
hồi nào về mục tin này trong hệ thống thì đó là vấn đề mục tin mới. Vấn đề hệ
thống mới đó là sự kết hợp của vấn đề người dùng mới và mục tin mới.
Tiếp cận CB thì dựa trên việc đối sánh để tìm sự liên quan giữa các đặc tính
của mục tin với các đặc trưng trong hồ sơ của người dùng. Hệ thống cũng có thể
khai thác thơng tin sở thích từ người dùng thơng qua các lần truy vấn, giám sát các
hành vi của họ… Nhưng dù trường hợp nào đi nữa thì hệ thống cũng vấp phải vấn
đề người dùng mới khi họ chưa cung cấp đầy đủ thơng tin.
Cịn khi sử dụng tiếp cận CF thì hệ thống sẽ phải đối mặt với vấn đề người
dùng mới – vì chưa xác định được người dùng có sở thích tương tự với người dùng
này. Hơn nữa, vấn đề mục tin mới cũng tác động đến hệ thống này, do hệ thống
khơng thể tính được độ tương tự giữa các mục tin với mục tin mới này khi nó chưa
được xếp hạng [4].
2.5.2 Vấn đề dữ liệu cực thưa (Data Sparsity Problem)
Vấn đề này là một trong những vấn đề lớn nhất mà các hệ thống gợi ý mắc
phải. Nó được kết luận trong [24] rằng chất lượng của các đề xuất dựa trên CF phụ
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mô hình láng giếng
10
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
thuộc cao vào mật độ của dữ liệu sẵn có. Điều này mang ý nghĩa là dữ liệu chưa đủ
đáng kể để xác định các láng giềng với nhau.
Như đã đề cập thì vấn đề này thường bắt gặp trong CF mà nó xây dựng một
ma trận user-item chứa các xếp hạng của người dùng tương ứng với các mục thông
tin. Khi mà số người dùng và số mục tin ngày càng tăng thì mật độ thưa của ma trận
ngày càng cao, do đó khó xác định được mối quan hệ giữa các đối tượng này trong
hệ thống, hay nói khác hơn chất lượng của các đề xuất sẽ giảm xuống.
2.5.3 Chuyên môn hóa (Overspecialization)
Hệ thống sẽ phải đối mặt với vấn đề mà người dùng bị giới hạn xem các mục
tin mà họ đã được biết hoặc được đĩnh nghĩa trong hồ sơ của họ [27]. Điều này
ngăn chặn người dùng khám phá các mục tin mới và giới hạn về việc xem các lời
gợi ý khác.
Một hệ thống dựa trên nội dung thuần phải đối phó với vấn đề này do người
dùng bị giới hạn xem các mục tin tương đương với đặc trưng trong hồ sơ của họ.
2.5.4 Khả năng mở rộng (Scalability Problem)
Hệ thống gợi ý yêu cầu các tính tốn với sự lớn dần cả về số lượng người dùng
cũng như số lượng mục thông tin. Vấn đề này ngụ ý đến một giải thuật mà đạt hiệu
quả cao khi lượng dữ liệu cịn giới hạn, và nó đưa ra các lời đề xuất kém chất lượng
khi số lượng dữ liệu tăng lên.
Ngoài ra, hệ thống gợi ý còn phải đối mặt với nhiều thách thức khác nữa mà
được trình bày trong [12].
2.6 So sánh giữa các kỹ thuật gợi ý
Hầu hết các hệ thống gợi ý cần phải đối phó với các vấn đề được mơ tả trong
phần trước. Bảng dưới đây sẽ so sánh các vấn đề mà các tiếp cận cơ bản sẽ phải giải
quyết.
Bảng 2.1 Các vấn đề cần giải quyết trong một số hệ thống gợi ý
Các vấn đề
Tiếp cận
NU NI DS OverS Scal
CB
x
x
x
CF
x
x
x
x
x
DG
x
x
* Xem chi tiết trong danh mục từ viết tắt
Với tiếp cận CB thì cịn mắc phải vấn đề thiếu sót đặc trưng khi phân tích nội
dung của các mục thơng tin. Cịn DG thì rất khó thu thập thơng tin cá nhân của
người dùng.
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
11
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
Một hệ thống gợi ý có thể được người dùng tin tưởng hay không là phụ thuộc
vào việc giải quyết các vấn đề còn mắc phải trong hệ thống gợi ý. Do vậy, trong
chương 4 sẽ trình bày kết quả thực nghiệm của đề tài nhằm minh chứng cho khả
năng đối phó với một số vấn đề trên.
2.7 Các tiếp cận liên quan
Hệ thống biểu diễn các đánh giá của người dùng cho các bộ phim qua ma trận
m người dùng, n bộ phim và dùng các ký tự để phân biệt người dùng và các mục
tin: u, v (đại diện cho người dùng), i, j (đại diện cho các bộ phim). Ký hiệu rui để chỉ
mức độ thích của người dùng u cho một bộ phim i nào đó, giá trị này trong khoảng
từ 1 đến 5 đối với dữ liệu MovieLens, rˆui là dự đoán đánh giá của người dùng u cho
bộ phim i. Nghiên cứu sử dụng dữ liệu MovieLens 100000 xếp hạng với 943 người
dùng, 1682 bộ phim, mỗi người dùng đánh giá ít nhất 20 bộ phim, như vậy mật độ
của ma trận đánh giá chỉ có 6.3%; trường hợp này còn gọi là vấn đề dữ liệu thưa
trong lọc cộng tác. Để đối phó với vấn đề “học vẹt” khi dữ liệu thưa, đề tài đã sử
dụng các hằng số regularization (λ1, λ2, λ3…) cho các tham số. Giá trị tốt nhất của
các hằng số này được xác định thông qua nghi thức kiểm tra chéo.
2.7.1 Ước lượng cơ sở
Dữ liệu lọc cộng tác tiêu biểu phô bày ảnh hưởng lớn đến người dùng và phần
tử, đó là có vài người dùng đánh giá cao hơn những người khác, và cho vài phần tử
nhận được đánh giá cao hơn những phần tử khác, mà thường được khắc phục bằng
ước lượng cơ sở (baseline estimates, biases) [20]:
b ui = μ + b u + bi
(2)
Với µ được biết như là trung bình tồn cục các đánh giá của ma trận m x n.
Tham số bu và bi cho biết độ lệch quan sát được của người dùng u và phần tử i. Ví
dụ, chúng ta muốn ước lượng đánh giá của người dùng “Trung” cho bộ phim “Chúa
tể của những chiếc nhẫn” (Lord of the rings - LoR), với trung bình xếp hạng trên tất
cả bộ phim là µ=4.5. Mặt khác, trung bình các đánh giá của LoR có xu hướng cao
hơn µ là bi=0.2 và trung bình các đánh giá của “Trung” thấp hơn µ là bu=0.5. Như
vậy, bui sẽ là 4.2 (4.5-0.5+0.2) với cặp (Trung, LoR).
2.7.2 Mơ hình láng giềng
Nhiều hệ thống vẫn cịn tin cậy để sử dụng tiếp cận này, hình thức trước đây
của nó là mơ hình user-based CF được tác giả phân tích rất rõ ràng trong tài liệu [8].
Phương pháp này dự đoán các đánh giá bằng cách dựa trên việc ghi nhận lại những
người dùng có cùng sở thích. Một cách tiếp cận khác cũng dựa trên độ tương tự
nhưng làm việc với các mục tin thay vì người dùng, một đánh giá được ước lượng
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
12
Luận văn thạc sĩ
Triệu Vĩnh Viêm - 2411016
thông qua các đánh giá đã biết của cùng người dùng trên các mục tin tương tự.
Item-based CF thì được sử dụng nhiều hơn nhờ vào khả năng mở rộng và cải tiến
được độ chính xác của nó [7][14].
Linden .G [21] đã đề cập các kỹ thuật chung nhất của hệ thống gợi ý, rồi phân
tích các đặc điểm quan trọng và xác định độ phức tạp về thời gian của chúng. Như
kỹ thuật user-based CF, Linden .G cho rằng mơ hình dạng này vấp phải vấn đề chi
phí thời gian khi gợi ý, do đối mặt với nguồn dữ liệu lớn (hơn 10 triệu khách hàng,
hơn 1 triệu phần tử).
Ngoài ra, trong [21] tuy sử dụng item-based CF nhưng không xây dựng ma
trận item-item, do nhiều cặp phần tử khơng có những khách hàng chung, hao tốn về
thời gian xử lý, cũng như khơng gian bộ nhớ lưu trữ. Nhóm tác giả đã xây dựng giải
thuật tìm các phần tử gợi ý bằng cách tìm độ tương tự của một phần tử i (đã được
khách hàng mua hoặc đánh giá – người dùng cần gợi ý) với tập các phần tử i' trong
R có liên quan với nó (lịch sử những khách hàng khác đã mua hoặc đánh giá i mà
cũng mua i' R), rồi gợi ý các phần tử phổ biến hoặc tương quan nhất. Tiếp cận
này gọi tóm tắt là tìm các phần tử mà khách hàng có xu hướng mua cùng nhau.
Các phương pháp láng giềng trở nên phổ biến bởi vì chúng trực quan và dễ
dàng liên hệ để cài đặt. Một số đặc tính hữu ích của nó là: Khả năng giải thích
(Explainability) – người dùng mong chờ một hệ thống có thể đưa ra lý do cho các
gợi ý của nó, khác hơn là phải đối mặt những gợi ý “hộp đen” (“black box”); xử lý
được các đánh giá mới, có khả năng cung cấp lời gợi ý ngay lập tức với Item-based
CF.
Tuy nhiên, tài liệu [18] đã nhấn mạnh vài điểm đáng chú ý về mơ hình láng
giềng. Một câu hỏi đặt ra trong tài liệu này là tính phù hợp của độ đo tương tự khi
chỉ cô lập cho 2 mục tin mà khơng phân tích trên một tập đầy đủ các láng giềng. Để
khắc phục khó khăn này, các tác giả đã xây dựng một phương pháp láng giềng mới
mà cần phải tính các trọng số thêm vào mơ hình như sau:
rˆui = b ui +
jSk (i ,u )
θ iju (ruj − b uj )
(3)
Chi tiết hơn về mơ hình mới này có thể xem trong tài liệu [7]. Mơ hình này
được tác giả cải tiến với trọng số quan hệ giữa các phần tử không phụ thuộc vào
người dùng cụ thể, cải tiến về độ phức tạp và khả năng tận dụng các thông tin đầu
vào với tiếp cận nhân tố trong mơ hình láng giềng.
Hệ thống gợi ý phim ảnh với tiếp cận nhân tố trong mơ hình láng giếng
13