Tải bản đầy đủ (.pdf) (61 trang)

Xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng ở công ty tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.54 MB, 61 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

Phạm Ngọc Nam

XÂY DỰNG HỆ KHUYẾN NGHỊ VỀ SẢN PHẨM VAY
CHO KHÁCH HÀNG Ở CƠNG TY TÀI CHÍNH

CHUN NGÀNH: HỆ THỐNG THƠNG TIN
MÃ SỐ: 8.48.01.04 (Hệ thống thông tin)

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TÂN HẠNH

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


i

LỜI CAM ĐOAN

Tôi cam đoan đề án “Xây dựng hệ khuyến nghị về sản phẩm vay cho khách
hàng của công ty tài chính” là cơng trình nghiên cứu của riêng tơi. Trong tồn bộ
nội dung của đề án, những điều đã được trình bày hoặc là của chính cá nhân tôi nghiên
cứu hoặc là được tham khảo từ nhiều nguồn tài liệu khác nhau. Tất cả các nguồn tài
liệu tham khảo đều có ghi trích dẫn.
Tơi xin chịu trách nhiệm và chịu các hình thức kỷ luật theo quy định hiện hành
của Học viện cho lời cam đoan này.


Tp. HCM, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Phạm Ngọc Nam


ii

LỜI CÁM ƠN

Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc tới TS. Tân Hạnh, người
đã hướng dẫn, dìu dắt và chỉ bảo tận tình cho tôi trong suốt thời gian nghiên cứu đề
án tốt nghiệp.
Tôi xin dành những lời cảm ơn chân thành tới các thầy cơ trong Ban giám đốc,
phịng đào tạo sau Đại học – Học viện Cơng nghệ Bưu chính Viễn Thơng đã tạo mọi
điều kiện thuận lợi cho tơi hồn thành đề án tốt nghiệp.
Tôi cũng xin chân thành cảm ơn đến gia đình, bạn bè và đồng nghiệp trong cơ
quan đã động viên, hỗ trợ tơi trong lúc khó khăn để tơi có thể học tập và hồn thành
đề án. Mặc dù đã rất cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế, nên khơng thể tránh khỏi sai xót, tơi rất mong nhận được sự
góp ý quý báu của quý Thầy cô cùng bạn bè đồng nghiệp để kiến thức của tơi ngày
càng hồn thiện.
Xin chân thành cảm ơn!
Tp. HCM, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Phạm Ngọc Nam


iii


MỤC LỤC

MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ..................................................................................... 1
2. Tổng quan về vấn đề nghiên cứu ............................................................. 2
3. Mục tiêu nghiên cứu ................................................................................ 2
4. Đối tượng và phạm vi nghiên cứu ........................................................... 2
5. Phương pháp nghiên cứu ......................................................................... 3
CHƯƠNG 1: TỔNG QUAN HỆ KHUYẾN NGHỊ ..................................... 4
1.1. Hệ khuyến nghị là gì............................................................................. 4
1.2. Phương thức hoạt động của hệ khuyến nghị ........................................ 7
1.2.1. Hướng tiệp cận dựa trên lọc nội dung ............................................ 7
1.2.2. Hướng tiếp cận dựa trên lọc cộng tác ............................................ 8
CHƯƠNG 2: PHÂN LOẠI HỆ KHUYẾN NGHỊ ..................................... 10
2.1. Phân loại hệ khuyến nghị ................................................................... 10
2.1.1

Lọc nội dung................................................................................. 10

2.1.2

Lọc cộng tác ................................................................................. 12

2.1.3

Lọc kết hợp/ Lai ghép (Hybrid) ................................................... 14

2.2. Đánh giá hiệu quả của hệ khuyến nghị............................................... 15
CHƯƠNG 3: XÂY DỰNG HỆ KHUYẾN NGHỊ VỀ SẢN PHẨM VAY

CHO KHÁCH HÀNG CỦA CÔNG TY TÀI CHÍNH CỔ PHẦN TÍN
VIỆT ............................................................................................................... 19
3.1. Khảo sát nhu cầu ở các cơng ty tài chính - ngân hàng ....................... 19
3.1.1. Trên thị trường tài chính - ngân hàng .......................................... 19
3.1.2. Tại cơng ty tài chính cổ phần Tín Việt [23] ................................. 19
3.2. Thu thập dữ liệu .................................................................................. 21
3.2.1. Dữ liệu sản phẩm.......................................................................... 21
3.2.2. Dữ liệu khách hàng ...................................................................... 22
3.2.3. Dữ liệu xếp hạng sản phẩm .......................................................... 23


iv

3.2.4. Tập dữ liệu Test đã gán nhãn ....................................................... 24
3.2.5. Thống kê và khảo sát dữ liệu ....................................................... 25
3.3. Xây dựng mơ hình lọc cho hệ khuyến nghị........................................ 26
3.3.1. Phát biểu bài toán khuyến nghị .................................................... 26
3.3.2. Sử dụng phương pháp lọc nội dung ............................................. 27
3.3.3. Sử dụng phương pháp lọc cộng tác .............................................. 30
3.4. Cài đặt hệ khuyến nghị ....................................................................... 31
3.4.1. Môi trường và các công cụ sử dụng ............................................. 31
3.4.2. Thư viện ....................................................................................... 31
3.4.3. Cài đặt........................................................................................... 33
3.5. Các số liệu đánh giá hệ khuyến nghị .................................................. 38
3.5.1. Sử dụng hệ số RMSE ................................................................... 38
3.5.2. So sánh với tập dữ liệu Test đã được gán nhãn............................ 39
KẾT LUẬN .................................................................................................... 41
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ........................................... 43



v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
VIẾT TẮT

TIẾNG ANH

RS

Recommender System

CIC

Credit Information Center

TIẾNG VIỆT
Hệ thống khuyến nghị/ Hệ
khuyến nghị
Trung tâm thơng tin tín
dụng quốc gia

cos

cosine

Độ đo cosine

data sparsity

data sparsity


Dữ liệu thưa

Deep learning

Deep learning

Các phương pháp học sâu

item

item

Mặt hàng/ sản phẩm/ dịch
vụ

Overspecialization

Overspecialization

Tình trạng cứng nhắc của hệ
khuyến nghị

MAE

Mean Absolute Error

Ngân hàng nhà nước

NHNN

RMSE

Sai số tuyệt đối trung bình

Root Mean Square Error

Sai số bình phương trung
bình
Thị trường tài chính

TTTC

Utility Matrix/User – Utility Matrix/User – Item Ma trận tương tác người
Item matrix

matrix

dùng – sản phẩm

User profile

User profile

Hồ sơ người dùng


vi

DANH SÁCH BẢNG
Bảng 1.1: Ma trận tương tác người dùng – sản phẩm .................................................6

Bảng 3.1: Mô phỏng các giá trị API kết nối với cơ sở dữ liệu CIC ..........................38


vii

DANH SÁCH HÌNH VẼ
Hình 1.1: Phương pháp thu thập dữ liệu “tường minh” ..............................................5
Hình 1.2: Phương pháp thu thập dữ liệu “ngầm định”................................................6
Hình 1.3: Hình minh họa hướng tiếp cận dựa trên nội dung ......................................7
Hình 1.4: Ví dụ hướng tiếp cận lọc cộng tác dựa trên người dùng .............................9
Hình 1.5: Ví dụ hướng tiếp cận lọc cộng tác dựa trên sản phẩm ................................9
Hình 2.1: Cách thức hoạt động của lọc nội dung ......................................................10
Hình 2.2: Cơ chế hoạt động lọc theo nội dung .........................................................11
Hình 2.3: Cơ chế lọc kết hợp ....................................................................................15
Hình 3.1: Danh mục Sản phẩm thu thập ...................................................................22
Hình 3.2: Danh sách khách hàng...............................................................................23
Hình 3.3: Bảng xếp hạng dữ liệu khách hàng đánh giá sản phẩm ............................23
Hình 3.4: Dữ liệu Test đã gán nhãn ..........................................................................24
Hình 3.5: Phân phối điểm trung bình của từng sản phẩm vay ..................................25
Hình 3.6: Số lượng khách hàng theo từng nhóm sản phẩm vay ...............................26
Hình 3.7: Mơ hình hai tịa tháp .................................................................................28
Hình 3.8: Cấu trúc bên trong của mơ hình hai tịa tháp là mạng nơ-ron...................29
Hình 3.9: Kiến trúc mơ hình hai tịa tháp ..................................................................30
Hình 3.10: Độ tương quan của các đặc tính trong sản phẩm ....................................34
Hình 3.11: Phân chia dữ liệu .....................................................................................34
Hình 3.12: Mơ hình huấn luyện ................................................................................35
Hình 3.13: Q trình huấn luyện mơ hình ................................................................36
Hình 3.14: Áp dụng mơ hình đã huấn luyện vào tập dữ liệu test..............................36
Hình 3.15: Gợi ý sản phẩm .......................................................................................36
Hình 3.16: Ma trận Người dùng – sản phẩm.............................................................37

Hình 3.17: Khuyến nghị sản phẩm cho khách hàng .................................................37
Hình 3.18: Kết quả RMSE trên tập dữ liệu Test .......................................................38
Hình 3.19: Mơ phỏng kết quả kiểm tra với dữ liệu đã được gán nhãn .....................39
Hình 3.20: Thống kê kết quả so sánh với tập dữ liệu mẫu........................................40


1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay với sự bùng nổ của ngành công nghệ thông tin đã mang lại nhiều lợi
ích cho sự phát triển của nền kinh tế. Một trong những thành tựu của ứng dụng công
nghệ thông tin mà chúng ta không thể không nhắc đến là ngành thương mại điện tử.
Sự ra đời và phát triển mạnh mẽ của lĩnh vực này đã kéo theo nhiều loại hình kinh
doanh mới được hình thành, trong đó có lĩnh vực “mua bán hàng trựcctuyến”. Với
loại hình này, khách hàng có thể tiếp cận với các loại hàng hóa, dịch vụ một cách dễ
dàng và nhanh chóng hơn rất nhiều sonvới các loại hình mua bán truyền thống. Tuy
nhiên, hiện nay là có quá nhiều sản phẩm, dịch vụ tràn lan trên môi trường internet
đã làm cho khách hàng dè dặt, bối rối khi lựa chọn một sản phẩm hay một dịch vụ
nào đó. Chính vì vậy, để khách hànggcó thể lựa chọn được một sản phẩm, dịch vụ
ưng ý thì việc cung cấp các thơng tin tư vấn là sự hỗ trợ rất quan trọng và cần thiết.
Đây cũng chính là điểm lợi thế trong phương thức bán hàng truyền thống. Do đó, để
tối ưu hóa lợi thế cạnh tranh của phương thức bán hàng trực tuyến, một hệ thống
khuyến nghị được cài đặt và tích hợp vào hệ thống bán hàng trực tuyến nhằm hỗ trợ
và gợi ý cho khách hàng sẽ giúp nâng cao hiệu suất bán hàng. Hệ thống này đóng vai
trị là “cầu nối” giúp hỗ trợ khách hàng tìm kiếm sản phẩm/ dịch vụ, và đưa ra các
quyết định mua hàng nhanh gọn và đúng đắn. Trong thực tế, các hệ thống khuyến
nghị đang được các doanh nghiệp triển khai, từ Amazon đến Netflix, Google đến
Goodreads, hệ khuyến nghị là một trong những ứng dụng được sử dụng rộng rãi nhất
của kỹ thuật học máy.

Sau giai đoạn đại dịch Covid 19, tình hình kinh tế khó khăn, có rất nhiều khách
hàng tìm đến các cơng ty tài chính, ngân hàng để tìm kiếm những khoản vay nhằm
mục đích chi tiêu trong cuộc sống hoặc sử dụng khoản vay đó để đầu tư kinh doanh.
Tuy nhiên, trong bối cảnh quá nhiều ngân hàng và các cơng ty tài chính có các sản
phẩm trên thị trường, cùng với đó là những ứng dụng vay tài chính “lậu” có mặt tràn
lan trên app store/ CH play khiến khách hàng phân vân, bối rối. Để cạnh tranh và
phục vụ đúng nhu cầu của khách hàng đòi hỏi bản thân tổ chức cần có những cơng
cụ để gợi ý sản phẩm phù hợp cho khách hàng, đồng thời giúp cho tổ chức tài chính,


2
ngân hàng cho có thêm cơng cụ để sàng lọc khách hàng, giảm thiểu rủi ro gian lận
cũng như phục cho công tác thẩm định hồ sơ khách hàng.
Bản thân là người đang làm trong hệ thống tài chính, ngân hàng, tôi hiểu được
sự cần thiết của công cụ gợi ý sản phẩm cho khách hàng. Với ý tưởng trên, và nhận
được sự đồng ý của TS. Tân Hạnh, tôi chọn đề tài đề án “Xây dựng hệ khuyến nghị
về sản phẩm vay cho khách hàng của công ty tài chính”, khi đề tài hồn thành sẽ
góp phần giải quyết các vấn đề cấp bách trong thực tế tại công ty tài chính cổ phần
Tín Việt, nơi mà tơi đang công tác.

2. Tổng quan về vấn đề nghiên cứu
Đề tài hướng đến xây dựng và áp dụng có hiệu quả cơng cụ gợi ý sản phẩm vay
cho khách hàng tìm đến các cơng ty tài chính để u cầu một khoản vay.
Để thực hiện được mục tiêu ý tưởng đề ra, đề tài cần phải nghiên cứu và tiến
hành các nội dung sau:
-

Tìm hiểu và phân tích các nhu cầu, hành vi của khách hàng.

-


Nghiên cứu từ cơ sở lý thuyết về thu thập dữ liệu, phân tích dữ liệu, mơ hình
lọc dữ liệu, hệ số ma trận. Từ đó áp dụng làm nền tảng để xây dựng hệ khuyến
nghị.

3. Mục tiêu nghiên cứu
-

Mục tiêu chính: xây dựng hệ khuyến nghị về sản phẩm vay cho khách hàng của
các công ty tài chính.

-

Mục tiêu cụ thể:
• Khuyến nghị được sản phẩm vay theo từng khách hàng/ từng phân khúc
khách hàng.
• Đánh giá được khách hàng có nhu cầu vay.
• Nâng cao hiệu suất bán hàng của công ty.

4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng
-

Mơ hình khuyến nghị.

-

Các phương pháp học sâu (deep learning).



3
-

Hành vi khách hàng của cơng ty.

-

Phân tích dữ liệu của công ty.

b. Phạm vi
-

Tập khách hàng của công ty.

-

Tập sản phẩm vay của cơng ty.

-

Các mơ hình lọc dữ liệu.

-

Nghiên cứu về hệ số ma trận.

-

Ngơn ngữ lập trình python.


5. Phương pháp nghiên cứu
-

Phương pháp thu thập.

-

Phương pháp lưu trữ dữ liệu.

-

Các phương pháp lọc dữ liệu.

-

Phương pháp phân tích dữ liệu.


4

CHƯƠNG 1: TỔNG QUAN HỆ KHUYẾN NGHỊ
1.1.

Hệ khuyến nghị là gì
Trong thực tế, khi lựa chọn sản phẩm hàng hóa, dịch vụ nào đó, người dùng

thường có xu hướng lựa chọn những sản phẩm/ dịch vụ do bạn bènhoặc những người
thân giới thiệu. Đây từng là phương thức mua hàng chính khi có bất kỳ nghi ngờ nào
về sản phẩm. Nhưng trong thời đại công nghệ hiện nay, với sự xuất hiện của thương
mại điện tử, vòng kết nối đã mở rộng hơn bao gồm các trang web trực tuyến sử dụng

một số loại công cụ đề xuất để gợi ý sản phẩm/ dịch vụ cho khách hàng.
"Hệ khuyến nghị” [19] là hệ thống sử dụng các thuật toán hoặc các cơng cụ
phần mềm xử lý, phân tích dữ liệu người dùng và sảnnphẩm, từ đó đưa ra các dự
đốn, đề xuất phù hợp với sở thích của người dùng tại thời điểm bất kỳ trên các ứng
dụng và nền tảng trực tuyến giúp tiết kiệm thời gian tìm kiếm, truy cập nội dung dễ
dàng.
Các hệ khuyến nghị lọc dữ liệu bằng các thuật toán khác nhau và đề xuất các
mục phù hợp nhất cho người dùng. Đầu tiên, nó nắm bắt hành vi trong quá khứ của
khách hàng và dựa trên đó, đề xuất các sản phẩm mà người dùng có thể sẽ mua. Nếu
một người dùng hồn tồn mới truy cập một trang web thương mại điện tử, thì trang
web đó sẽ khơng có bất kỳ lịch sử nào trong quá khứ của người dùng đó. Vậy làm thế
nào để trang web giới thiệu sản phẩm cho người dùng trong một tình huống như vậy?
Một giải pháp khả thi là giới thiệu những sản phẩm bán chạy nhất, tức là những
sảnnphẩm có nhu cầu cao. Một giải pháp khả thi khác có thể là giới thiệu các
sảnnphẩm mang lại lợi nhuận tối đa cho doanh nghiệp.
Nếu chúng ta có thể giới thiệu một vài mặt hàng cho khách hàng dựa trên nhu
cầu và sở thích của họ, điều đó sẽ tạo ra tác động tích cực đến trảinnghiệm người
dùng và dẫn đến việc họ ghé thăm thường xuyên. Do đó, các doanh nghiệp ngày nay
đang xây dựng các công cụ đề xuất thôngnminh bằng cách nghiên cứu hành vi trong
quá khứ của người dùng.
“Mặt hàng (item)” [19] là khái niệm chung nhằm ám chỉ những gì mà hệ thống
đề xuất với người dùng. Hệ khuyến nghị chủ yếu hướng đến những người dùng thiếu


5
kinh nghiệm hoặc thẩm quyền để đánh giá tiềm năng của một số mặt hàng mà họ có
nhu cầu.
Hiện nay, dữ liệu có thể được thu thập bằng hai cách: tường minh và ngầm định
(explicitly and implicitly). Phương pháp tường minh là phương pháp thơng tin được
cung cấp có chủ ý, tức là thông tin đầu vào từ người dùng, chẳng hạn như dữ liệu xếp

hạng các bộ phim, xếp hạng các bài hát,…. “Phương pháp này cung cấp dữ liệu người
dùng trực tiếp cho hệ thống khuyến nghịn(không thực hiện các công đoạn biến đổi
trung gian để ra kết quả) và kết quả khuyến nghị được đánh giá là đáng tin cậy hơn
cả” [6]. Dữ liệu thu thập của phương pháp này dựa trên dữ liệu người dùng đánh giá
nên phương pháp này được cho đáng tin cậy, tuy nhiên điểm hạn chế phương pháp
này là yêu cầu người dùng phải thực hiện nhiều thao tác với hệ thống, không phải
người dùng nào cũng sẵn sàng bỏ thời gian ra đánh giá sản phẩm/ dịch vụ, điều này
vơ tình làm giảm trải nghiệm ngườindùng. Trong quá trình áp dụng thực tế, chúng tơi
nhận thấy người dùng có tâm lý chung là không muốn chia sẻ quá nhiều thông tin cá
nhân hoặc riêng tư bởi vì đó là những thơng nhạy cảm, người dùng sợ bị khai thác
thông tin (như là các cuộc gọi tư vấn mua bảo hiểm, đầu tư chứng khốn,…), do đó
phương thức tường minh gặp nhiều khó khăn.
Nhận“thấy những hạn chế của phương pháp tường minh, đặc biệt là giảm trải
nghiệm người dùng, người ta sử dụng phương pháp ngầm định. Ngầm định nghĩa là
thông tin khơng được cung cấp có chủ ý mà được thu thập từ các luồng dữ liệu có sẵn
như lịch sử tìm kiếm, số lần nhấp chuột, lịch sử đặt hàng,… từ đó suy luận và dự
đốnnthơng tin về sở thích của người”dùng.

Hình 1.1: Phương pháp thu thập dữ liệu “tường minh”


6
Trong hình 1.1, Netflix đang thu thập dữ liệu một cách “tường minh” dưới dạng
xếp hạng do người dùng đưa ra cho các bộ phim khác nhau.

Hình 1.2: Phương pháp thu thập dữ liệu “ngầm định”
Trong hình 1.2, lịch sử đặt hàng của người dùng được Amazon ghi lại, đây là
một ví dụ về chế độ thu thập dữ liệu ngầm.
“Ma trận tương tác Người dùng – Sản phẩm (Utility Matrix/User – Item matrix)”
[16] là một cơ sở dữ liệu biểu diễn sở thích của mỗi người dùng với từng sản phẩm

trong hệ thống khuyến nghị. Cơ sở dữ liệu này được mơ tả dưới dạng ma trận, trong
đó mỗi hàng tươngnứng với một người dùng, mỗi cột tương ứng với một mặt hàng,
giá trị tại mỗi ô của ma trận chính là giá trị xếp hạng của người dùng cho sản phẩm
đó.
Bảng 1.1: Ma trận tương tác người dùng – sản phẩm

Thực tế không phải lúc nào người dùng cũng đánh giá tất cả các sản phẩm mà
họ đã từng sử dụng, khi bạn là một người dùng, thông thường chỉ đánh giá sản phẩm


7
trong trạng thái rất thích hoặc rất ghét, bởi vì nó mang lại ấn tượng lớn cho bạn. Do
vậy ma trận tương tác Người dùng – Sản phẩm nói trên thường bị thiếu giá trị ở rất
nhiều ô, vấn đề này được gọi là vấn đề “dữ liệu thưa” (data sparsity) [5].

1.2.

Phương thức hoạt động của hệ khuyến nghị
Trong quá trình khảo sát, chúng tơi nhận thấy khi khách hàng muốn mua một

món hàng/ sản phẩm/ dịch vụ nào đó thường sẽ lựa chọn theo hai hướng:
-

Hướng“thứ nhất là xem xét những thông tin chi tiết về sản phẩm như thành
phần, tính năng, đặc tính,… tùy thuộc vào mức độ”phù hợp với nhu cầu sử dụng
của bản thân người đó để đưa ra quyết định.

-

Hướng thứ hai là họ có thể tham khảo ý kiến của những người xung quanh (có

thể là người thân, bạn bè, đồng nghiệp, hoặc những lượt bình luận, chấm điểm
sản phẩm đó,…) về mức độ hài lòng đối với sản phẩm để đưa ra quyết định của
mình.
Dựa vào“những khảo sát nêu trên, hệ khuyến nghị biểu diễn lại quá trình ra

quyết định mua hàng của khách hàng theo hai cách tiếp cận chính là khuyến nghị dựa
trên lọc theo nội dung (hướng thứ nhất) và khuyến nghị dựa trênnlọc theo”cộng tác
(hướng thứ hai).

1.2.1. Hướng tiệp cận dựa trên lọc nội dung
Hướng tiếp cận dựa trên lọc nội dung [21] gợi ý các sản phẩm tương tự với
những sản phẩm mà người dùng đã tương tác trước đây.

Hình 1.3: Hình minh họa hướng tiếp cận dựa trên nội dung


8
Tất cả các thông tin liên quan đến người dùng sẽ được lưu dưới dạng Véc-tơ.
Véc-tơ này chứa các hành vi trong quá khứ của người dùng, tức là các các sản phẩm
được người dùng thích/ khơng thích và xếp hạng do họ đưa ra. Véc-tơ này được gọi
là véc-tơ Profile. Tất cả thông tin liên quan đến sản phẩm được lưu trữ trong một véctơ khác gọi là véc-tơ Item. Thuật tốn lọc dựa trên nội dung sẽ tìm cosin của góc giữa
véc-tơ Profile và véc-tơ Item, tức là độ tương tự cosin. Giả sử A là véc-tơ Profile và
B là véc-tơ Item, thì độ tương tự giữa chúng được tính như sau:
⃗⃗)
𝑠𝑖𝑚(𝐴, 𝐵) = cos⁡(𝐴⃗, 𝐵
Dựa trên giá trị cosine nằm trong khoảng từ -1 đến 1, các sản phẩm được sắp
xếp theo thứ tự giảm dần và một trong hai phương pháp dưới đây được sử dụng cho
các các hệ khuyến nghị:
-


Cách tiếp cận top-n : trong đó n sản phẩm hàng đầu được đề xuất (Ở đây n có
thể do doanh nghiệp quyết định).

-

Cách tiếp cận theo thang xếp hạng: chúng ta có thể đặt một ngưỡng nhất định
và tất cả các sản phẩm trên ngưỡng đó đều được đề xuất.

1.2.2. Hướng tiếp cận dựa trên lọc cộng tác
Hướng tiếp cận này sử dụng “Hành vi người dùng” để đề xuất các sản phẩm.
Đây là một trong những hướng tiếp cận được sử dụng phổ biến nhất ngày nay vì nó
khơng phụ thuộc vào bất kỳ thơng tin bổ sung nào. Có hai hướng tiếp cận phổ biến
dựa trên lọc cộng tác: hướng tiếp cận lọc cộng tác dựa trên người dùng và hướng tiếp
cận lọc cộng tác dựa trên sản phẩm.

a. Hướng tiếp cận lọc cộng tác dựa trên người dùng.
Hướng tiếp cận này [21] tìm điểm tương đồng giữa những người dùng. Dựa trên
điểm tương đồng này, nó sẽ chọn ra những người dùng giống nhau nhất và đề xuất
các sản phẩm mà những người dùng tương tự này đã thích hoặc mua trước đó.


9

Hình 1.4: Ví dụ hướng tiếp cận lọc cộng tác dựa trên người dùng

b. Hướng tiếp cận lọc cộng tác dựa trên sản phẩm.
Hướng tiếp cận này [21] tính tốn sự giống nhau giữa từng cặp sản phẩm tương
đồng, dựa vào đó, chúng sẽ đề xuất những sản phẩm tương tự được người dùng u
thích trong q khứ.


Hình 1.5: Ví dụ hướng tiếp cận lọc cộng tác dựa trên sản phẩm


10

CHƯƠNG 2: PHÂN LOẠI HỆ KHUYẾN NGHỊ
2.1.

Phân loại hệ khuyến nghị

2.1.1 Lọc nội dung
Hệ khuyến nghị dựa trên lọc nội dung hoạt động với dữ liệu mà người dùng
cung cấp bằng phương pháp thu thập dữ liệu tường minh hoặc ngầm định. Dựa trên
dữ liệu đó, hồ sơ người dùng được tạo ra, sau đó được sử dụng để đưa ra đề xuất cho
người dùng. Khi người dùng cung cấp thêm thông tin đầu vào hoặc thực hiện tương
tác đối với hệ thống, hệ khuyến nghị sẽ ngày càng chính xác hơn.
Trên cơ sở hướng tiếp cận dựa trên lọc nội dung ở mục 1.2.1, mỗi sản phẩm
được lưu trữ dưới dạng một véc-tơ thuộc tính của nó trong khơng gian n chiều và các
góc giữa các véc-tơ được tính toán để xác định độ giống nhau giữa các véc-tơ. Tiếp
theo, các véc-tơ hồ sơ người dùng (véc-tơ profile) cũng được tạo dựa trên hành động
của người dùng đối với các thuộc tính trước đó của sản phẩm, sự giống nhau giữa sản
phẩm và người dùng cũng được xác định theo cách tương tự.

Hình 2.1: Cách thức hoạt động của lọc nội dung


11
Như hình 2.1, để đánh giá độ mức độ “tương đồng” giữa 2 vector 𝑢 và 𝑣 cho
việc đưa ra khuyếnnnghị, hệ thống khuyến nghị so sánh bằng góc lệch cosine giữa 2
vector, chúng ta có thể dựa vào cơng thức sau:


Những sản phẩm
tương tự nhau

Hình 2.2: Cơ chế hoạt động lọc theo nội dung
Những ưu điểm của hệ khuyến nghị dựa trên lọc nội dung:
Thứ nhất, hệ khuyến nghị dạng này có thể dễ dàng mở rộng cho một số lượng
lớn khách hàng vì khơng cần dữ liệu của những người dùng khác để đề xuất sản phẩm/
dịch vụ cho một người dùng cụ thể.
Thứ hai, vì các gợi ý dựa trên các hoạt động hàng ngày của người dùng nên tất
cả các tùy chọn và tham số của các khuyến nghị đều được tinh chỉnh theo lựa chọn
của người dùng. Do đó, mơ hình có thể đề xuất các mặt hàng/ sản phẩm thích hợp cụ
thể mà những người dùng khác có thể khơng quan tâm.
Thứ ba, hệ thống khuyến nghị vẫn có thể được mở rộng dựa trên những sở thích
đặc thù của nội dung sảnnphẩm, tức là có khả năng mở rộng ở một số trường hợp cụ
thể.


12
Thứ tư, các sản phẩm mới nhất có thể được đề xuất ngay khi chúng được khởi
tạo mà không cần chờ kiểm tra vì các tính năng này có sẵn ngay từ đầu.
Một số nhược điểm của phương pháp khuyếnnnghị dựa trên nội dung [6]:
Một là việc xây dựng hệ khuyến nghị dựa trên lọc nội dung đòi hỏi yêu cầu chất
lượng thông tin nội dung của sản phẩm phải “đầy đủ”, “chất lượng”, “chính xác”. Do
đó những sản phẩm có nội dung đặc thù như phim, ảnh, âm nhạc,… chưa có các
phương thức trích xuất thơng tin hiệu quả, vì thế xây dựng hệ khuyến nghị bằng
phương pháp này có thể sẽ khơng hiệu quả.
Hai là hệ khuyến nghị có thể gợi ý các sản phẩm mới dựa trên mối quan tâm
hiện tại của người dùng. Do đó, việc khám phá và mở rộng sang các sản phẩm mới
hơn mà người dùng có thể quan tâm là khơng thể.

Ba là hệ khuyến nghị khó có thể đưa ra những gợi ý mới hơn cho những người
dùng ít truy cập vào hệ thống.

2.1.2 Lọc cộng tác
a. Lọc cộng tác dựa trên Nhật ký (Memory-based Collaborative Filtering)
Hệ thống tính tốn mức độ tương đồng giữa người dùng hoặc sản phẩm bằng
cách sử dụng dữ liệu trước đó của người dùng dựa trên giá trị xếp hạng. Mục tiêu
chính của phương pháp này là mô tả mức độ giống nhau giữa người dùng hoặc sản
phẩm và khai phá các giá trị xếp hạng tương đồng để gợi ý các sản phẩm phù hợp.
Cách thức thực hiện sau như:
Bước 1: Hệ thống tính toán mức độ tương tự giữa những người sử dụng dựa vào
cơng thức:

Bước 2: Hệ thống tính tốn giá trị xếp hạng dự đốn theo cơng thức:


13

Những ưu điểm của phương pháp này:
Thứ nhất, hệ thống khơng u cầu cầnncó q nhiều tri thức bởi vì phương pháp
lọc này không quan tâm đến nội dung hoặc mơ tả của mặt hàng/ sản phẩm, do đó có
thể mở rộng cho nhiều loại đối tượng sản phẩm/ mặt hàng khác nhau.
Thứ hai, cũng bởi vì phương pháp lọc này khơng quan tâm đến nội dung sản
phẩm, do đó hệ thống khuyến nghị có thể đưa ra những gợi ý khác như: khai thác xu
hướng, sở thích, hành vi của những nhóm người dùng giống nhau,…
Những điểm hạn chế của phương pháp lọc cộng tác dựa trên Nhật ký:
Thứ nhất, hệ thống đưa ra kết quả gợi ý là sản phẩm nổi bật nhất cho người
dùng, ít có đặc thù cho từng khách hàng.
Thứ hai, ma trận tương tác Người dùng – Sản phẩm phụ thuộc vào việc đánh
giá của khách hàng, trong trường hợp khách hàng không đánh giá sản phẩm, khi đó

dữ liệu thu thập quá “thưa thớt”, ma trận sẽ gặp trình trạng thiếu giá trị dữ liệu, chất
lượng khuyếnnnghị của hệ thống kém hiệu quả, dẫn đến không đủ chất lượng.
Thứ ba, hệ thống phải xây dựng một mơ hình riêng biệt cho mỗi người dùng 𝑢,
vì thế thời gian tính tốn của phương pháp này khá lâu và yêu cầu bộ nhớ tương đối.

b. Lọc cộng tác dựa trên mơ hình (Model-based Collaborative Filtering)
Nhận thấy những nhược điểm của phương pháp lọc dựa trên Nhật ký (u cầu
thời gian tính tốn lâu và u cầu bộ nhớ lớn), để khắc phục điều này, người ta đã
phân biệt rõ ràng hai tác vụ chính trong phương pháp lọc cộng tác: “Một tác vụ là xây
dựng mơ hình từ tập dữ liệu huấnnluyện; tác vụ thứ hai là tính tốn kết quả khuyến
nghị từ mơ hình nhận được” [1]. Cụ thể, hệ thống khuyến nghị sử dụng những thuật
tốn học máy khơng giám sát hoặc có giám sát để huấn luyện mơ hình rút gọn hoặc
thu nhỏ mơ phỏng sở thích của người dùng. Các thuật toánnhọc máy thường được sử
dụng là máy vector hỗ trợ, hồi quy, cây quyết định, bộ phân loại Bayes, mạng


14
noron,… Sau khi huấn luyện xong mơ hình, hệ khuyếnnnghị sử dụng trực tiếp kết
quả của mơ hình này để đưa ra khuyến nghị cuối cùng.
Những ưu điểm của phương pháp này:
Thứ nhất, tối ưu bộ nhớ của máy tính: sau q trình huấnnluyện mơ hình từ dữ
liệu tương tác, kích thước của mơ hình thu được là rất nhỏ so với với kích thước của
dữ liệu gốc, điều này có nghĩa là bộ nhớ của máy tính được giải phóng tương đối lớn
so với việc lưu trữ dữ liệu gốc.
Thứ hai là so với phương pháp lọc dựa trên Nhật ký, phương pháp này có tốc
độ tính tốn để ra kết quả được rút ngắn hơn. Rõ ràng việc thu nhỏ kích thước mơ
hình huấn luyện, cùng với đó là tối ưu bộ nhớ lưu trữ dẫn đến thời gian cần thiết để
truy vấn mơ hình cũng giảm đi đáng kể so với việc truy vấn lại toàn bộ dữ liệu huấn
luyện.


2.1.3 Lọc kết hợp/ Lai ghép (Hybrid)
Nhằm mục đích tối ưu phương thức lọc để có kết quả khuyến nghị chính xác
hơn, người ta đã tìm ra một số phương pháp lọc kết hợp sau [6]:
“Lai ghép theo trọng số”: bằng cách tính tổng trọng số giá trị xếp hạng đối với
phương pháp lọc nội dung và lọc cộng tác, sau đó hệ thống kết hợp lại thành một giá
trị, để đưa ra kết quả khuyến nghị cuối cùng. Ưu điểm của phương pháp này là tính
tường minh của kết quả khuyếnnnghị, các kết quả đưa ra được rõ ràng, minh bạch.
“Lai ghép bằng cách chuyển đổi”: giống như tên gọi của phương pháp này, tùy
thuộc vào tình huống cụ thể, hệ khuyếnnnghị tự động chuyển đổi qua lại giữa các
phương pháp. Ưu điểm của phương pháp này là có thể linh động chuyển đổi các mơ
hình khuyến nghị nếu như có một trong các mơ hình có độ tin cậy cao.
“Lai ghép hỗnnhợp”: nguyên lý của phương pháp này là kết hợp nhiều thuật
toán khuyến nghị để ra được nhiều kết quả gợi ý khác nhau. Do đó, phương pháp này
phù hợp cho bài tốn gợi ý nhiều sản phẩm hoặc một danh sách các sản phẩm.


15
“Lai ghép bằng cách kết hợp nhiều đặc tính”: nguyên lý của phương pháp này
là kết hợp từ nhiều nguồn dữ liệu khác nhau, sau đó lọc ra các đặc tính cần thiết để
đưa vào hệ khuyến nghị, tuy nhiên bởi vì sử dụng nhiều nguồn dữ liệu khác nhau do
đó việc xử lý dữ liệu cần phải thực hiện trước và việc cài đặt thuật toán cho phương
pháp này cần phải được tối ưu.
“Lai ghép bằng việc xếp tầng”: nguyên lý của phương pháp này là sử dụng kết
quả khuyến nghị của một hệ thống khuyến nghị khác, sau đó điều chỉnh kết quả
khuyến nghị cho phù hợp với bài tốn cụ thể. Vì phương pháp này đã sàng lọc kết
quả nhiều lần và điều chỉnh với bài toán cụ thể, do đó kết quả đưa ra khá tin cậy.
“Lai ghép tăng cường đặc tính”: nguyên lý của phương pháp này là sử dụng các
dữ liệu đầu vào từ nhiều nguồn khác nhau để đưa vào các hệ khuyến nghị (lọc nội
dung hoặc lọc cộng tác), sau đó sử dụng kết quả của các hệ khuyến nghị này kết hợp
với kết quả của một thuật toán khuyếnnnghị khác để ra kết quả cuối cùng.


Hình 2.3: Cơ chế lọc kết hợp

2.2.

Đánh giá hiệu quả của hệ khuyến nghị
Khi đánh giá một mơ hình học máy, điều quan trọng là phải đánh giá khả năng

dự đốn, khả năng khái qt hóa và chất lượng tổng thể của mơ hình đó. Các thước
đo đánh giá cung cấp các tiêu chí khách quan để đo lường các khía cạnh này. Việc
lựa chọn các số liệu đánh giá phụ thuộc vào từng lĩnh vực, từng vấn đề cụ thể, loại
dữ liệu và kết quả mong muốn.
Để đánh giá hiệu quả của một hệ khuyến nghị, chúng ta cần xem xét hệ
khuyếnnnghị được sử dụng trong các trường hợp cụ thể nào. Hiện tại có rất nhiều độ


16
đo để đánh giá một hệ khuyến nghị, tuy nhiên để đánh giá khách quan, người ta đã
chia thành 02 nhóm như sau:
-

“Nhóm độ đo đánh giá độ chính xác về mặt thống kê” [6]: trong trường hợp
thuật toán dùng để xây dựng hệ khuyến nghị, nhóm độ đo này phục vụ việc đánh
giá độ chính xác giữa giá trị xếp hạng dự đoán đưa ra và giá trị xếp hạng thực
tế của người dùng. Một số độ đo đánh giá thuộc nhóm này là: MAE - Mean
Absolute Error (Sai số tuyệt đối trung bình), RMSE - Root Mean Square Error
(Sai số bình phương trung bình theo căn bậc hai), trong đó độ đo RMSE được
sử dụng rất phổ biến hiện nay.

-


“Nhóm độ đo đánh giá độ chính xác trong hỗ trợ ra quyết định” [6]: trong trường
hợp sử dụng hệ khuyếnnnghị cho mục đích khuyến nghị người dùng một danh
sách các đối tượng ưa thích thì mối quanntâm của họ là khả năng gợi ý đúng đối
tượng họ cần, khi đó bài tốn khuyến nghị được chuyển thành bài tốn phân lớp
đối tượng. Một số độ đo thuộc nhóm này như là: Precision, Recall và F-measure.
Trong phạm vi đề án này, để đánh giá hiệu quả của hệ khuyến nghị được xây

dựng cho khả năng tối ưu dự đoán giá trị xếp hạng của khách hàng đối với sản phẩm
ở cơng ty tài chính, do đó tơi lựa chọn nhóm độ đo đánh giá độ chính xác về mặt
thống kê.

2.2.1. Trung bình lỗi tuyệt đối
“Trung bình lỗi tuyệt đối (Mean Absolute Error – MAE)” là thước đo kích thước
trung bình của các lỗi trong tập hợp các dự đốn mà khơng tính đến hướng của chúng.
Nó được đo bằng chênh lệch tuyệt đối trung bình giữa giá trị dự đoán và giá trị thực
tế và thường được sử dụng để đánh giá hiệu quả của mơ hình hồi quy.
Tiêu chí này được tính tốn dựa vào cơng thức sau:
𝑁

1
𝑀𝐴𝐸 = ∑|𝑟𝑖 − 𝑟̂𝑖 |
𝑁
𝑖=1

Trong đó N là điểm dữ liệu, 𝑟̂ 𝑖 là giá trị thực, 𝑟𝑖 là giá trị dự đoán.


17
MAE là một điểm số tuyến tính, có nghĩa là tất cả sự khác biệt của từng cá nhân

đều đóng góp như nhau vào giá trị trung bình. Nó cung cấp ước tính về mức độ khơng
chính xác, nhưng khơng chú ý đến hướng của nó.
MAE là một thống kê hiệu suất quan trọng đối với các mơ hình hồi quy vì nó là
một cơng cụ dễ hiểu và đáng tin cậy để đánh giá độ chính xác của các dự đốn. Các
ưu điểm của tiêu chí này như sau:
-

Khả năng phục hồi cho các trường hợp đặc biệt: MAE không bị ảnh hưởng bởi
các kết quả cực đoan như các số liệu khác, chẳng hạn như lỗi bình phương trung
bình (MSE). Điều này làm cho nó trở thành thước đo thích hợp cho các bộ dữ
liệu bao gồm các giá trị đặc biệt hoặc giá trị cực đoan.

-

Điểm số tuyến tính: Tất cả sự khác biệt cá nhân được đưa ra trọng lượng bằng
nhau trong trung bình. Điều này làm cho việc so sánh hiệu suất của một số mơ
hình hoặc các biến thể của mơ hình đó trở nên đơn giản.

-

Đơn giản: MAE là một thống kê cơ bản và rõ ràng đại diện cho mức độ sai lầm
trung bình của các dự báo. Tiêu chí này khá đơn giản để các bên liên quan có
thể hiểu được.

-

Cung cấp thơng tin về kích thước của lỗi: MAE cung cấp thơng tin về mức độ
lỗi do mơ hình tạo ra. Nó cho phép so sánh mơ hình và lựa chọn mơ hình tốt
nhất, cũng như cải thiện mơ hình bằng cách xác định sai số phần trăm tuyệt đối
trung bình được dự đốn.

Vì những lý do trên nên MAE được sử dụng làm thước đo ở nhiều lĩnh vực khác

nhau như: tài chính, kỹ thuật, khí tượng học,… Tuy nhiên, ở dạng bài toán khuyến
nghị danh sách N sản phẩm cho người dùng thì tiêu chuẩn này chưa phù hợp.

2.2.2. Sai số bình phương trung bình
“Sai số bình phương trung bình theo căn bậc hai (Root Mean Square Error –
RMSE)” là một trong những biện pháp được sử dụng phổ biến nhất để đánh giá chất
lượng dự đốn. Nó cho thấy các dự đoán giảm bao xa so với các giá trị thực được đo
bằng cách sử dụng khoảng cách Euclide.
Để tính RMSE, chúng ta tính phần dư (chênh lệch giữa dự đoán và giá trị đúng)
cho từng điểm dữ liệu, tính định mức của phần dư cho từng điểm dữ liệu, tính giá trị


×