Tải bản đầy đủ (.pdf) (83 trang)

Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 83 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN TẤN LỘC

XÂY DỰNG HỆ THỐNG KHUYẾN NGHỊ SẢN PHẨM
SỬ DỤNG MÁY HỌC
BUILDING A PRODUCT RECOMMENDATION
SYSTEM USING MACHINE LEARNING
Chuyên ngành: KỸ THUẬT VIỄN THƠNG
Mã số: 8520208

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2023


Cơng trình được hồn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM
Cán bộ hướng dẫn khoa học: PGS.TS Hồ Văn Khương ……….………………
Cán bộ chấm nhận xét 1: PGS.TS Hoàng Hà Kha ……….……………………
Cán bộ chấm nhận xét 2: TS. Huỳnh Thế Thiện ………….……………………
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 06 tháng 07 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. GS.TS Lê Tiến Thường

(Chủ tịch hội đồng)

2. TS. Huỳnh Phú Minh Cường


(Thư Ký)

3. PGS.TS Hoàng Hà Kha

(Phản biện 1)

4. TS. Huỳnh Thế Thiện

(Phản biện 2)

5. TS. Nguyễn Đình Long

(Ủy viên)

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ĐIỆN - ĐIỆN TỬ


i
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc
lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGUYỄN TẤN LỘC

MSHV: 1970279

Ngày, tháng, năm sinh: 16/08/1992

Nơi sinh: Vĩnh Long

Chuyên ngành: Kỹ thuật Viễn thông

Mã số : 8520208

I.

TÊN ĐỀ TÀI (Tiếng Việt và Tiếng Anh):

Tên Tiếng Việt: Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học.
Tên Tiếng Anh: Building a product recommendation system using Machine Learning.
II. NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu máy học, cơ sở dữ liệu sản phẩm, phân khúc khách hàng, phản hồi của người
tiêu dùng.
- Thực hiện công tác thu thập, xử lý, khai phá và mơ hình hóa dữ liệu.
- Xây dựng hệ thống khuyến nghị sản phẩm dự trên thông tin sản phẩm, phân khúc khách
hàng và phản hồi của người tiêu dùng.
- Xây dựng web app sử dụng Streamlit và báo cáo kết quả.
III. NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023
V. CÁN BỘ HƯỚNG DẪN : PGS. TS HỒ VĂN KHƯƠNG

Tp. HCM, ngày 22 tháng 06 năm 2022

CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

(Họ tên và chữ ký)

PGS.TS Hồ Văn Khương

PGS.TS Hà Hoàng Kha

TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ
(Họ tên và chữ ký)


ii

LỜI CẢM ƠN
Học tập, tiếp thu kiến thức tại Trường Đại học Bách Khoa là một trong những
điều tuyệt với nhất với tôi trong cuộc đời này. Thạc sĩ là ước mơ mà khi cịn thơ bé
tơi đã ln nghĩ về và mong muốn điều đó trở thành hiện thực. Khoảng thời gian học
tập và nghiên cứu tại trường sẽ luôn mãi là kỷ niệm đẹp, niềm hạnh phúc và kiến thức
có được khi học tập tại nơi đây sẽ ln là nền tảng vững chắc để tơi có thể bước tiếp
trên con đường tương lai phía trước.
Tơi xin phép gửi lời cảm ơn chân thành và sâu sắc nhất đến các thầy trong Bộ
Môn Viễn Thông, Thầy PGS.TS Hồ Văn Khương, Thầy TS. Võ Tuấn Kiệt đã chỉ bảo
tận tâm và hướng dẫn tơi trong suốt q trình thực hiện luận văn thạc sĩ này, cũng
như trong quá trình học tập bô môn Máy học tại trường Đại học Bách Khoa TP.HCM.
Các thầy đã giúp đỡ, dạy bảo không chỉ về mặt kiến thức, mà còn là những kỹ năng

để học tập, làm việc và nghiên cứu. Đó là những bài học kinh nghiệm quý báu sẽ
đồng hành cùng tôi trên suốt chặng đường học tập, nghiên cứu và làm việc sau này.
Con cũng xin cảm ơn Ba – người đã ln bên cạnh con trong mọi hồn cảnh,
tạo cho con những điều kiện tốt nhất để con có thể phát huy, tìm hiểu những đam mê,
sở thích của mình. Và cuối cùng, tơi cũng xin cảm ơn nhưng người bạn đã đồng hành
cùng tôi trong suốt thời gian thạc sĩ này đã cùng nhau chia sẻ những khó khăn trong
q trình thực hiện luận văn.
Tơi khơng biết rằng sau chặng đường Thạc sĩ này, con đường tiếp theo của tơi
là gì vì hiện tại bản thân rất mơ hồ về định hướng trong tương lai, xu hướng công
nghệ hiện nay đã và đang phát triển quá nhanh, cần phải trau dồi và học tập không
ngừng. Nhưng tôi tin rằng, thạc sĩ là một bước tiến quan trọng trong con đường tri
thức của tơi, và đó là động lực để tôi đủ hành trang để tiếp tục với những đam mê
của mình. Tơi sẽ ln trau dồi những kiến thức mới cho bản thân để có thể đóng góp
một phần nào đó sức lực của mình cho xã hội này. Cám ơn vì tất cả!


iii

TÓM TẮT LUẬN VĂN THẠC SĨ
Hệ thống khuyến nghị sản phẩm rất tiện ích, khơng thể thiếu đối với các trang
thương mại điện tử hiện nay. Gợi ý sản phẩm giúp tìm ra những sản phẩm phù hợp cho
khách hàng, cũng như đem lại những trải nghiệm tốt nhất cho khách hàng, qua đó đáp
ứng nhu cầu mua sắm. So với quảng cáo truyền thống phải chi trả những chi phí rất cao
thì hệ thống gợi ý sản phẩm sẽ tiết kiệm chi phí hơn, được cá nhân hóa nhiều hơn nên
khách hàng sẽ dễ dàng tìm được sản phẩm khác nhau phù hợp với nhu cầu và sở thích,
qua đó tạo ra được khoản thu nhập khổng lồ và cũng là cách nổi bật đáng kể với các đối
thủ cạnh tranh. Từ những nhu cầu thực tiễn như vậy, đề tài này đề xuất phương pháp xây
dựng một hệ thống khuyến nghị sản phẩm sử dụng máy học dựa trên hai nhóm thuật tốn
là Hệ thống dựa trên nội dung (content-based systems) và Lọc cộng tác (collaborative
filtering), trong đó các thuật toán được sử dụng là Consine, Gensim và ALS (Alternating

Least Square) để huấn luyện mơ hình, các thơng số số như Mức độ tương đồng
(Similarity) và Căn bậc hai của trung bình bình phương sai số (RMSE) được xem xét để
đánh giá mơ hình, cũng như triển khai sản phẩm ứng dụng.

ABSTRACT
A product recommendation system is an indispensable utility for e-commerce sites.
The product recommendation system recommends right products to customers, as well
as brings the best experiences to customers, thereby satisfying shopping needs.
Compared with traditional advertising, which has to pay very high costs, the product
recommendation system will save costs, be more personalized, so customers will easily
find other products, thereby generating huge income and also significantly standing out
from competitors. From such practical needs, this thesis proposes a method to build the
product recommendation system using Machine Learning based on two groups of
algorithms, content-based systems and collaborative filtering, where algorithms use
Consine, Gensim and ALS (Alternating Least Square) to train models and parameters
such as Similarity and Root Mean Square Error (RMSE) are considered for model
evaluation as well as for application product deployment.


iv

LỜI CAM ĐOAN CỦA TÁC GIẢ LUẬN VĂN
Tôi xin cam đoan đề tài: “Xây dựng hệ thống khuyến nghị sản phẩm sử dụng
máy học” là một cơng trình nghiên cứu và xây dựng độc lập dưới sự hướng dẫn của
giáo viên hướng dẫn: PGS - TS Hồ Văn Khương. Ngoài ra khơng có bất cứ sự sao
chép của người khác. Đề tài, nội dung báo cáo này là sản phẩm mà tơi đã nỗ lực
nghiên cứu trong q trình nghiên cứu và học tập tại Trường Đại Học Bách Khoa
TP.HCM. Dữ liệu thương mại điện tử thu thập được chỉ phục vụ vào mục đích học
tập và tốt nghiệp, khơng có mục đích riêng hay kinh doanh cá nhân với bất kỳ hình
thức nào. Các số liệu được sử dụng, kết quả được trình bày trong báo cáo là hồn

tồn khách quan, trung thực và tơi xin chịu hồn tồn trách nhiệm, kỷ luật của bộ
môn và nhà trường nếu như có vấn đề xảy ra.

Học viên/ tác giả

Nguyễn Tấn Lộc


v

MỤC LỤC
LỜI CẢM ƠN ................................................................................................................... ii
TÓM TẮT LUẬN VĂN THẠC SĨ ................................................................................. iii
ABSTRACT..................................................................................................................... iii
LỜI CAM ĐOAN CỦA TÁC GIẢ LUẬN VĂN............................................................ iv
MỤC LỤC ........................................................................................................................ v
DANH SÁCH HÌNH VẼ ............................................................................................... viii
DANH SÁCH BẢNG ....................................................................................................... x
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................. xi
CHƯƠNG 1: MỞ ĐẦU .................................................................................................... 1
1. Lý do chọn đề tài ........................................................................................................ 1
2. Mục đích nghiên cứu .................................................................................................. 2
3. Đối tượng và phạm vi nghiên cứu .............................................................................. 2
4. Phương pháp nghiên cứu ............................................................................................ 3
5. Ý nghĩa khoa học và thực tiễn .................................................................................... 3
5.1. Ý nghĩa khoa học ................................................................................................. 3
5.2. Ý nghĩa thực tiễn ................................................................................................. 4
CHƯƠNG 2: TỔNG QUAN ............................................................................................ 5
1. Cơ sở lý thuyết ........................................................................................................... 5
1.1. Giới thiệu về ngôn ngữ python ............................................................................ 5

1.2. Khái niệm về dữ liệu............................................................................................ 5
1.3. Khái niệm và quy trình thực hiện khoa học dữ liệu ............................................ 5
1.4. Các tiêu chí đánh giá mơ hình thuật toán ............................................................ 6
1.5. Các thuật toán áp dụng để xây dựng mơ hình ..................................................... 8
2. Tình trạng nghiên cứu ................................................................................................ 8
2.1. Nhìn chung .......................................................................................................... 8
2.2. Business Understanding – Xác định vấn đề kinh doanh ..................................... 8
2.3. Data Requirements – Phân tích yêu cầu dữ liệu .................................................. 8
2.4. Data collection – Thu thập dữ liệu ...................................................................... 9


vi

2.5. Data preprocessing and analysis – Tiền xử lý và phân tích dữ liệu .................. 11
2.6. Modeling, Algorithms – Thuật tốn và mơ hình hố ........................................ 20
2.7. Data product - Sản phẩm dữ liệu ...................................................................... 21
2.8. Communication – Giao tiếp với môi trường ..................................................... 21
CHƯƠNG 3: NỘI DUNG THỰC HIỆN........................................................................ 22
1. Công cụ thu thập tập dữ liệu .................................................................................... 22
1.1. Selenium ............................................................................................................ 22
1.2. BeautifulSoup .................................................................................................... 23
1.3. Trích xuất dữ liệu từ Web Api ........................................................................... 23
2. Tìm hiểu, phân tích và xử lý dữ liệu ........................................................................ 24
2.1. Đọc và tìm hiểu dữ liệu ..................................................................................... 24
2.2. Phân tích, xử lý dữ liệu trùng, dữ liệu thiếu, dữ liệu ngoại lai ......................... 25
2.3. Xử lý dữ liệu văn bản ngôn ngữ tự nhiên tiếng việt .......................................... 27
2.4. Mã hóa tách từ ................................................................................................... 27
2.5. TF-IDF ............................................................................................................... 27
3. Phương pháp tiếp cận ............................................................................................... 28
3.1. Hệ thống dựa trên nội dung (content-based systems) ....................................... 28

3.2. Lọc cộng tác (collaborative filtering): ............................................................... 32
3.3. Mơ hình máy học sử dụng trong luận văn ......................................................... 37
4. Trực quan hóa dữ liệu............................................................................................... 38
5. Thực hiện mơ hình hóa, thơng số của mơ hình và nhận xét .................................... 41
5.1. Gensim ............................................................................................................... 41
5.2. Cosine ................................................................................................................ 42
5.3. ALS .................................................................................................................... 43
5.4. SVD ................................................................................................................... 49
5.5. SVD với thư viện Surprise ................................................................................ 50
6. Thực hiện xây dựng GUI - web ứng dụng ............................................................... 52
6.1. Streamlit ............................................................................................................. 52
6.2. Triển khai ứng dụng Streamlit ........................................................................... 53
7. Trình bày đánh giá và bàn luận về kết quả ............................................................... 60


vii

7.1. So sánh các chỉ số tương đồng của Gensim và Cosine ..................................... 60
7.2. So sánh RMSE và MAE của 2 thuật toán ALS và SVD - Surprise .................. 60
7.3. So sánh kết quả với cơng trình khác .................................................................. 61
7.4. So sánh 2 nhóm thuật tốn Content-based system và Collaborative Filtering .. 61
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO ........................ 62
TÀI LIỆU THAM KHẢO .............................................................................................. 63
PHỤ LỤC HÌNH ............................................................................................................ 66


viii

DANH SÁCH HÌNH VẼ
Hình 1.1: Các nhóm thuật tốn thực hiện khuyến nghị sản phẩm........................................... 4

Hình 2.1: Các bước thực hiện một dự án khoa học dữ liệu....................................................... 6
Hình 2.2: Quy trình thu thập dữ liệu web (Web Scraping) ..................................................... 10
Hình 2.3: Khám phá – làm sạch dữ liệu ....................................................................................... 12
Hình 2.4: Kiểu dữ dữ liệu của các biến ........................................................................................ 13
Hình 2.5: Biểu đồ phân tán cho thấy mối quan hệ giữa hai biến ........................................... 15
Hình 3.1: Tổng quan về bộ dữ liệu content-base ....................................................................... 24
Hình 3.2: Biểu đồ thể hiện sự tương quan giữa các thuộc tính .............................................. 25
Hình 3.3: Tổng quan về bộ dữ liệu user-base ............................................................................. 25
Hình 3.4: Phân tích dữ liệu trùng, dữ liệu thiếu ......................................................................... 26
Hình 3.5: Sơ đồ bài tốn Content-based system ........................................................................ 28
Hình 3.6: Norn 2 của vector trong không gian 2 chiều và 3 chiều ....................................... 29
Hình 3.7: Tích vơ hướng của 2 vector .......................................................................................... 29
Hình 3.8: Góc hợp biểu diễn sự tương đồng của 2 vector ....................................................... 30
Hình 3.9: Hàm của thuật tốn Gensim.......................................................................................... 31
Hình 3.10: Sơ đồ bài tốn Content-based system ...................................................................... 33
Hình 3.11: Ví dụ về sơ đồ dự đốn theo phương thức user-user ........................................... 34
Hình 3.12: Phân rã ma trận theo ALS ........................................................................................... 36
Hình 3.13: Phân rã ma trận theo SVD .......................................................................................... 36
Hình 3.14: Ví dụ về rating cịn thiếu khi tối ưu hàm mất mát ................................................ 37
Hình 3.15: Trực quan với biểu đồ Hisplot ................................................................................... 38
Hình 3.16: Trực quan với biểu đồ Barplot................................................................................... 39
Hình 3.17: Biểu đó Boxplot sự phân bố về giá cả ..................................................................... 40
Hình 3.18: Biểu đó Boxplot sự phân bố về giá cả theo hãng ................................................. 40
Hình 3.19: Biểu đó Boxplot sự phân bố về giá cả theo danh mục sản phẩm ..................... 41
Hình 3.20: Word Cloud tần suất của các từ có ý nghĩa ............................................................ 41
Hình 3.21: Chỉ số tương đồng với khuyến nghị Gensim ......................................................... 42
Hình 3.22: Chỉ số tương đồng với khuyến nghị Cosine........................................................... 43
Hình 3.23: Mơ hình ALS ví dụ 1 ................................................................................................... 44
Hình 3.24: RMSE mơ hình ALS ví dụ 1 ...................................................................................... 44
Hình 3.25: MAE mơ hình ALS ví dụ 1 ........................................................................................ 45

Hình 3.26: Mơ hình ALS ví dụ 2 ................................................................................................... 45
Hình 3.27: RMSE mơ hình ALS ví dụ 2 ...................................................................................... 46
Hình 3.28: MAE mơ hình ALS ví dụ 2 ........................................................................................ 46
Hình 3.29: Mơ hình ALS ví dụ 3 ................................................................................................... 47
Hình 3.30: RMSE mơ hình ALS ví dụ 3 ...................................................................................... 47
Hình 3.31: MAE mơ hình ALS ví dụ 3 ........................................................................................ 47
Hình 3.32: Khuyến nghị 5 sản phẩm có điểm cao nhất theo ALS ........................................ 48
Hình 3.33: Khuyến nghị 5 khách hàng cụ thể theo ALS ......................................................... 49
Hình 3.34: Tạo ma trận thưa thớt những khách hàng đánh giá .............................................. 49


ix

Hình 3.35: Tính SVD của ma trận thưa thớt theo cơng thức cosine ..................................... 50
Hình 3.36: Khuyến nghị theo SVD cho một sản phẩm ............................................................ 50
Hình 3.37: Thuật tốn SVD với thư viện Surprise .................................................................... 51
Hình 3.38: MAE, RMSE của SVD với thư viện Surprise ....................................................... 51
Hình 3.39: Khuyến nghị theo SVD với thư viện Surprise....................................................... 52
Hình 3.40: Giao diện web app với thuật tốn Gensim ............................................................. 54
Hình 3.41: Sản phẩm được chọn ví dụ 1 ...................................................................................... 55
Hình 3.42: Các sản phẩm được đề xuất theo ví dụ 1 ................................................................ 55
Hình 3.43: Giao diện web app với thuật tốn Cosine ............................................................... 56
Hình 3.44: Sản phẩm được chọn ví dụ 2 ...................................................................................... 57
Hình 3.45: Các sản phẩm được đề xuất theo ví dụ 2 ................................................................ 57
Hình 3.46: Giao diện web app với thuật tốn ALS ................................................................... 58
Hình 3.47: Các sản phẩm đề xuất cho khách hàng theo thuật toán ALS ............................ 59
Hình 3.48: So sánh các chỉ số tương đồng của Gensim và Cosine ....................................... 60
Hình 1: Thực hiện Tokenization (tách từ) ................................................................................... 66
Hình 2: Label token’s value (đánh nhãn từ) ................................................................................ 66
Hình 3: Thực hiện Tokenization với Gensim ............................................................................. 67

Hình 4: Vector hóa TF-IDF với thư viện Gensim ..................................................................... 67
Hình 5: Xét chỉ số tương đồng với khuyến nghị Gensim ........................................................ 68
Hình 6: Vector hóa TF-IDF với thư viện sklearn cho Cosine ................................................ 68
Hình 7: Chỉ số tương đồng với khuyến nghị Cosine ................................................................ 69
Hình 8: Độ thưa thớt của dữ liệu chuẩn bị cho thuật toán ALS............................................. 69


x

DANH SÁCH BẢNG
Bảng 2.1: Các phương pháp trực quan số liệu thống kê ................................................. 14
Bảng 3.1: Các bước thực hiện đánh trọng số cho từ trong văn bản ................................ 32
Bảng 3.2: So sánh RMSE và MAE của 2 thuật toán ALS và SVD – Surprise .............. 60
Bảng 3.3: So sánh kết quả với cơng trình khác .............................................................. 61


xi

DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu

Tiếng Anh

Ý nghĩa Tiếng việt

ALS

Alternating Least Squares

Bình phương nhỏ nhất luân phiên


MAE

Mean Absolute Error

Trung bình của sai số tuyệt đối

RMSE

Root Mean Square Error

Căn bậc hai của sai số bình phương

SVD

Singular Value Decomposition

Phân tích trị riêng

SEO

Search Engine Optimization

Tối ưu hóa cơng cụ tìm kiếm

KPIs

Key Performance Indicators

Chỉ số đo lường hiệu quả công việc


NLP

Natural Language Processing

Xử lý ngơn ngữ tự nhiên

Analysis of Variance

Phân tích phương sai

HTML

Hypertext Markup Language

Ngôn ngữ đánh dấu siêu văn bản

XML

Extensible Markup Language

Ngôn ngữ đánh dấu mở rộng

UTF-8

8-bit Unicode Transformation

Định dạng chuyển đổi Unicode 8-bit

ANOVA


Format
TF-IDF

KNN
ML

Term Frequency – Inverse

Tần suất xuất hiện - Nghịch đảo tần

Document Frequency

suất văn bản

K-Nearest Neighbors

K lân cận gần nhất

Machine Learning

Máy học

Dot Product Scalar Product
GUI

Graphical User Interface

Tích vơ hướng
Giao diện đồ họa người dùng



Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

CHƯƠNG 1: MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, hầu hết các doanh nghiệp đều có dữ liệu và có nhu cầu phân tích để tìm
ra lợi thế cạnh tranh trong kỷ nguyên số hóa. Nhận thấy những lợi thế khổng lồ từ việc
sử dụng phân tích dữ liệu, nhiều doanh nghiệp trong nước đã bắt đầu ứng dụng dữ liệu
lớn vào phục vụ hoạt động sản xuất kinh doanh. Việc phân tích dữ liệu giúp cho doanh
nghiệp tăng doanh thu nhờ tăng sản lượng và loại hình dịch vụ cung cấp, cắt giảm chi
phí vận hành [1].
Một khi các doanh nghiệp đã làm chủ được dữ liệu thì họ sẽ có cơ hội thành công
lớn, tạo ra vị thế cạnh tranh cao nhờ hưởng lợi từ việc quản lý, phân tích dữ liệu một
cách chính xác hơn, hữu ích hơn với chi phí thấp hơn [2].
Chính vì thế, trên bước đường làm chủ và phát huy mạnh mẽ giá trị của hệ thống
dữ liệu, không thể thiếu lĩnh vực Thương mại điện tử và đây cũng là cơ hội và thách thức
đối với lĩnh vực này. Theo Cục Thương Mai Điện Tử và Kinh tế số, năm 2020, tốc độ
tăng trưởng của thương mại điện tử (TMĐT) đạt mức 18% và quy mô đạt 11,8 tỷ USD
và là nước duy nhất ở Đông Nam Á có tăng trưởng TMĐT 2 con số bất chấp dịch bệnh
Covid-19. Báo cáo Kinh tế số Đông Nam Á 2020 của Google, Temasek và Bain &
Company cho thấy thị trường TMĐT Việt Nam đứng thứ 3 Đông Nam Á năm 2020, với
quy mô 7 tỷ USD, xếp sau Indonesia (32 tỷ USD) và Thái Lan (9 tỷ USD). Với tốc độ
phát triển mạnh mẽ của TMĐT Việt Nam như hiện nay và trong thời gian tới, nhu cầu
về nhân lực đang trở nên vơ cùng cấp bách. Chính vì thế, các doanh nghiệp thương mại
điện tử đang kì vọng sẽ có nhiều nguồn nhân lực được đào tạo bài bản, chính quy những
kiến thức căn bản về Cơng nghệ thông tin và truyền thông để đáp ứng được các xu hướng
phát triển [3].

Thế nhưng, hiện nay ở Việt Nam có rất ít những nghiên cứu chun sâu về việc ứng
dụng Trí tuệ nhân tạo và Máy học vào lĩnh vực này và chưa đủ để đáp ứng được cho các
doanh nghiệp, trong đó có Cơng ty Trách Nhiệm Hữu Hạn (TNHH) Tiki. Hiện trên thế
giới, nhiều công ty Thương mại Điện tử khác nhau đã đưa ra các giải pháp máy học và
thành công rất lớn như Amazon, JD.com, Alibaba, eBay,… Chính vì những điều kiện
như thế, Chính phủ Việt Nam ngày càng quan tâm và tạo điều kiện những dự án giải
pháp trí tuệ nhân tạo cho lĩnh vực thương mại điện tử. Ngày 1-10-2021, Vườn ươm
doanh nghiệp công nghệ cao thuộc Khu công nghệ cao Hồ Chí Minh, phối hợp Hiệp hội
Thương mại điện tử Việt Nam tổ chức buổi lễ cơng bố chương trình AI-Hack Bootcamp.
AI-Hack Bootcamp hướng đến ươm tạo những dự án trí tuệ nhân tạo và máy học trong
lĩnh vực Thương mại Điện tử. Ơng Nguyễn Ngọc Dũng - phó chủ tịch Hiệp hội Thương

HVTH: Nguyễn Tấn Lộc

Trang 1


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

mại điện tử Việt Nam - chia sẻ tại sự kiện: “Với sự bùng nổ trong những năm gần đây,
thương mại điện tử đang là hình thức kinh doanh tiềm năng được nhiều doanh nghiệp,
nhà bán lẻ hướng tới. Dịch COVID-19 khiến mọi người phải hạn chế đi lại, nhiều khu
vực bị phong tỏa trong thời gian dài lại là cơ hội để thương mại điện tử phát triển mạnh
mẽ, khi người dân ở trong nhà chỉ cần cầm chiếc smartphone lên là đã có thể mua sắm,
đi chợ”. Vì vậy, Hiệp hội Thương mại điện tử Việt Nam mong muốn trong những năm
tới sẽ có càng nhiều các dự án ứng dụng để phát triển được những mơ hình sáng tạo đưa
Trí tuệ nhân tạo, máy học vào xử lý dữ liệu thương mại điện tử, khơng chỉ thành cơng
tại Việt Nam mà cịn có thể cạnh tranh với các đối thủ trong khu vực [4]. Qua sự kiện

này càng cho thấy tầm quan trọng của việc ứng dụng máy học vào phân tích và xử lý dữ
liệu, xây dựng hệ thống khuyến nghị sản phẩm trong lĩnh vực thương mại điện tử. Đây
cũng là lý do tơi chọn đề tài này.

2. Mục đích nghiên cứu
Mục đích của đề tài là thực hiện Xây dựng hệ thống khuyến nghị sản phẩm sử dụng
máy học Thương mại điện tử, thuộc quản lý bởi Công ty TNHH Tiki. Cụ thể là xây dựng
hệ thống gợi ý sản phẩm cho khách hàng. Hệ thống hoàn thiện gồm thu thập, phân tích
và xử lý dữ liệu, phân tích và xử lý ngôn ngữ tự nhiên, thực hiện trực quan, xây dựng
mơ hình, đưa ra kết luận và xây dựng trang web ứng dụng.

3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn thạc sĩ là những dữ liệu về sản phẩm và những
dữ liệu đánh giá, bình luận của khách hàng về những sản phẩm mà khách hàng đã trải
nghệm sau khi mua sản phẩm tại mục Thiết bị số - Phụ kiện số của trang thương mại
điện tử Tiki.vn.
Đề tài này nghiên cứu dựa theo nhu cầu thực tế của trang thương mại điện tử. Cụ
thể, hệ thống gợi ý sản phẩm giúp khuyến nghị những sản phẩm phù hợp cho khách
hàng, cũng như mang lại những trải nghiệm tốt nhất cho khách hàng, qua đó đáp ứng
nhu cầu mua sắm. So với việc quảng cáo truyền thống phải chi trả những chi phí rất cao,
thì việc xây dụng hệ thống gợi ý sản phẩm sẽ tiết kiệm chi phí hơn, được cá nhân hố
nhiều hơn nên khách hàng sẽ dễ dàng tìm được sản phẩm khác nhau phù hợp với nhu
cầu và sở thích. Đề tài tiến hành ứng dụng kiến thức và kỹ năng máy học vào các bộ dữ
liệu chi tiết sản phẩm, dữ liệu phản ánh của khách hàng đến các sản phẩm của Tiki, sau
khi được thu thập và xử lý, thực hiện phép thử nhiều thuật toán như Content Based
Filtering (thuật toán Cosine và Gensim) và Collaborative Filtering (thuật toán ALS).
Tiến hành nhận xét thuật toán áp dụng cho bộ dữ liệu thông qua các thông số Mức độ
tương đồng (Similarity) và Căn bậc hai của trung bình bình phương sai số (RMSE). Sau
đó tiến hành xây dựng ứng dụng web trực quan cho dữ liệu.


HVTH: Nguyễn Tấn Lộc

Trang 2


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là dựa vào các cơ sở lý thuyết, tốn học, các
thuật tốn, sau đó, dùng ngôn ngữ python và Jupyter Notebook (ứng dụng web cho phép
người dùng viết code và các phần tử văn bản đa dạng thức) để thu thập, xử lý dữ liệu,
xây dựng và ứng dụng mơ hình, xét đến thơng số Mức độ tương đồng (Similarity) và
Căn bậc hai của trung bình bình phương sai số (RMSE) để nhận xét đánh giá, sử dụng
Streamlit, Github, Streamlit.io và Render để xây dựng website ứng dụng. Các bước
nghiên cứu sau sẽ lần lượt được thực hiện:
✓ Tìm hiểu cơ sở lý thuyết.
✓ Tìm hiểu các phương pháp thu thập, phân tích và xử lý dữ liệu.
✓ Tìm hiểu các thuật tốn, phương pháp mơ hình hố.
✓ Tìm hiểu các tiêu chí để so sánh các thuật tốn sau khi xây dựng mơ hình.
✓ Tìm hiểu phương pháp so sánh, đánh giá các phương pháp lựa chọn thuật
tốn dựa trên các tiêu chí đã chọn, thực hiện đề xuất.
✓ Thực hiện trực quan hóa dữ liệu, xây dựng website ứng dụng và báo cáo.

5. Ý nghĩa khoa học và thực tiễn
5.1. Ý nghĩa khoa học
Việc xây dựng hệ thống khuyến nghị sản phẩm được bắt đầu bằng việc nghiên cứu
và áp dụng công nghệ lõi bên trong, gồm các quy trình thực hiện trong việc thu thập, tìm
hiểu, phân tích và xử lý bộ dữ liệu. Luận văn lần này đề xuất 2 nhóm thuật tốn để

khuyến nghị sản phẩm là Hệ thống dựa trên nội dung (content-based systems) và Lọc
cộng tác (collaborative filtering)
Hệ thống dựa trên nội dung (content-based systems) tập trung vào thuộc tính của
các sản phẩm và cung cấp cho khách hàng dựa trên sự tương tự của chúng. Phương pháp
được đánh giá dựa trên mức độ tương đồng giữa các sản phẩm (Similarity_level).
Lọc cộng tác (collaborative filtering) tạo ra đề xuất dựa trên kiến thức của khách
hàng về thái độ đối với sản phẩm, nó dựa vào dữ liệu, kiến thức, đánh giá của số đông
để đề xuất các sản phẩm. Từ đó tiến hành xây dụng mơ hình huấn luyện và kiểm tra. Mơ
hình được đánh giá dựa trên thơng số Căn bậc hai của trung bình bình phương sai số
(RMSE).

HVTH: Nguyễn Tấn Lộc

Trang 3


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

Hình 1.1: Các nhóm thuật toán thực hiện khuyến nghị sản phẩm
5.2. Ý nghĩa thực tiễn
Kết quả nghiên cứu cung cấp các phương pháp xây dựng hế thống khuyến nghị sản
phẩm thương mại điện tử, giúp tiết kiện chi phí hơn so với các phương pháp quảng cáo
truyền thống, nâng cao doanh thu và tạo vị thế cạnh tranh với các đối thủ trong lĩnh vực
thương mại điện tử.
Một mặt khác, luận văn lần này cũng tập trung vào việc làm chủ công nghệ, áp dụng
các thuật toán lõi của hệ thống khuyến nghị sản phẩm, giúp dễ dàng cho việc phát triển
và ứng dụng với các mục đích khác nhau sau này, làm cho việc phát triển trở nên bền
vững hơn.


HVTH: Nguyễn Tấn Lộc

Trang 4


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

CHƯƠNG 2: TỔNG QUAN
1. Cơ sở lý thuyết
1.1. Giới thiệu về ngôn ngữ python
Ngôn ngữ python là gì?
Python [5] là một loại ngơn ngữ lập trình bậc cao. Chúng được sử dụng cho các
mục đích lập trình đa năng được ra mắt lần đầu vào năm 1991. Sở hữu ưu điểm mạnh
là dễ học, dễ đọc và dễ nhớ, Python có cấu trúc rõ ràng, sáng sủa và rất phù hợp với
những ai bắt đầu học lập trình và được nhiều lập trình viên ưa chuộng. Không những
thế, với cấu trúc của Python, loại ngôn ngữ lập trình này được ứng dụng trong rất nhiều
lĩnh vực, trong đó là máy học và lĩnh vực Khoa học dữ liệu. Dưới đây là một vài lợi ích
của Python đối với khoa học dữ liệu [6]:
• Python là một ngơn ngữ lập trình mã nguồn mở, hồn tồn miễn phí và có
đủ các tính chất tương tự như những ngơn ngữ lập trình khác.
• Python có khoảng 72,000 thư viện hỗ trợ cho việc tính tốn và ứng dụng
máy học.
• Python cho phép thực hiện phân tích dữ liệu, thao tác dữ liệu, và ảo hóa dữ
liệu.
1.2. Khái niệm về dữ liệu
Dữ liệu [7] là cách nói khác của thơng tin, là tập hợp các dữ kiện, ví dụ như ngơn
ngữ, hình ảnh, với mục đích đo lường, quan sát hoặc mô tả về sự việc, sự vật. Cùng với

sự phát triển ngày càng nhanh của công nghệ thông minh như hiện nay, dữ liệu ngày
càng nhiều và được đưa vào cũng với các trang thương mại điện tử để phục vụ việc sản
xuất kinh doanh. Hầu như dữ liệu hiện nay đa phần là sắp xếp ngẫu nhiên và khơng có
cấu trúc.
1.3. Khái niệm và quy trình thực hiện khoa học dữ liệu
Các bước thực hiện một dự án khoa học dữ liệu bao gồm [8]:
✓ Xác định vấn đề kinh doanh cần giải quyết.
✓ Xác định yêu cầu dữ liệu.
✓ Thu thập thu thập dữ liệu.
✓ Phân tích và xử lý dữ liệu thơ.

HVTH: Nguyễn Tấn Lộc

Trang 5


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

✓ Phân tích và trực quan dữ liệu sau khi xử lý.
✓ Lựa chọn thuật tốn và xây dựng mơ hình.
✓ Lập trình đưa ra các thơng số, tiêu chí và lựa chọn mơ hình phù hợp, tối ưu
nhất cho từng yêu cầu của dự án.
✓ Đưa ra kết luận.
✓ Thực hiện trực quan hóa, báo cáo kết quả các mơ hình đã chọn.
✓ Xây dựng sản phẩm khoa học dữ liệu với đầu vào và đầu ra cụ thể.
✓ Thực hiện tiếp chu trình giao tiếp với mơi trường bên ngồi và sẵn sàng quay
lại chu trình.


Hình 2.1: Các bước thực hiện một dự án khoa học dữ liệu
1.4. Các tiêu chí đánh giá mơ hình thuật tốn
Luận văn có các thơng số tính toán, nhằm giúp cho việc định lường đo lường chất
lượng của mơ hình như MAE, RMSE và Similarity Level
MAE
MAE (Mean Absolute Error) [9]: là trung bình của sai số tuyệt đối.
MAE đo lường mức độ trung bình của các lỗi trong một tập hợp các dự đoán, mà

HVTH: Nguyễn Tấn Lộc

Trang 6


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

không xem xét hướng của chúng. Lấy giá trị trung bình của các phần dư của giá trị thực
tế và giá trị dự đoán, lấy các giá trị tuyệt đối của mỗi phần dư, vì vậy phần dư dương và
phần dư âm không triệt tiêu lẫn nhau.
Vấn đề của MAE là không được mở rộng theo nhu cầu:
𝑛
1
̂𝑖 |)
𝑀𝐴𝐸 = ∑𝑖=1(|𝑌𝑖 − 𝑌
𝑛

(2.1)

Trong đó: MAE là trung bình của sai số tuyệt đối

Yi là giá trị thực tế
Ŷi là giá trị dự đoán
RMSE
RMSE (Root Mean Square Error) [10]: là căn bậc hai của sai số bình phương trung
bình. Cũng như đối với MAE, RMSE khơng được mở rộng theo nhu cầu. So với MAE,
RMSE không xử lý từng lỗi như nhau. Nó mang lại tầm quan trọng hơn cho các lỗi quan
trọng nhất. Điều đó có nghĩa là một lỗi lớn đủ để nhận được một RMSE rất tệ.
1

n

RMSE = √ ∑
n

2
(|Yi − Ŷi |)

(2.2)

i=1

Trong đó: RMSE là căn bậc hai của sai số bình phương trung bình
Yi là giá trị thực tế
Ŷi là giá trị dự đoán
Similarity_level
Similarity_level [11]: là mức độ tương đồng giữa các sản phẩm được sử dụng để
cho nhóm thuật tốn Content-based System. Mức độ tương đồng được xác định dựa trên
góc hợp giữa 2 vector. Góc hợp càng nhỏ thì múc độ tương đồng càng cao và ngược lại.
Công thức xác định Similarity_level như sau:
∑ni=1 Ai Bi

A ∗ B
similarity_level = cos(𝜃) =
=
||A||||B|| √∑ni=1 A2i √∑ni=1 Bi2

(2.3)

Trong đó: Similarity_level là mức độ tương đồng
A và B là 2 vector đang xét
Ai và Bi là các phần tử mang giá trị đang xét trên 2 vector A và B

HVTH: Nguyễn Tấn Lộc

Trang 7


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

1.5. Các thuật toán áp dụng để xây dựng mơ hình
Xây dựng hệ thống gợi ý sản phẩm (Recommendation system): sử dụng Content
Based Filtering (thuật toán Cosine và Gensim) và Collaborative Filtering (thuật toán
ALS và SVD-Surprise). Trong đó, bài tốn Content Based Filtering cần kết hợp kỹ thuật
xử lý ngôn ngữ tự nhiên (NLP) để đưa ra các thơng số về điểm tương đồng.

2. Tình trạng nghiên cứu
2.1. Nhìn chung
Trong khoảng thời gian 2017-2022, đã có nhiều đề tài thực hiện ứng dụng máy học
và đã sử dụng các thuật toán khác nhau [12]. Qua đó, nhiều đề tài đã áp dụng thực tế,

góp phần thúc đẩy sự phát triển ngày càng lớn mạnh của các trang thương mại điện tử
và đáp ứng các nhu cầu ngày càng cao của khách hàng. Bài viết này tham khảo luận văn
đã thực hiện trước đó [13], đồng thời đưa đến cái nhìn tổng quan hơn về tồn bộ quy
trình thực hiện của lĩnh vực khoa học dữ liệu thương mại điện tử. Qua đó có thể ứng
dụng vào thực tế ở thời điểm hiện nay.
2.2. Business Understanding – Xác định vấn đề kinh doanh
Trước khi cố gắng rút ra thơng tin chi tiết hữu ích từ dữ liệu, điều cần thiết là xác
định vấn đề kinh doanh cần giải quyết, cố gắng hiểu rõ về những gì doanh nghiệp cần
trích xuất từ dữ liệu.
Xác định vấn đề (problem definition) là động lực để thực hiện kế hoạch phân tích
dữ liệu. Các nhiệm vụ chính là xác định mục tiêu của phân tích, xác định các cơng việc,
vạch ra vai trò và trách nhiệm, thu thập trạng thái hiện tại của dữ liệu, xác định thời gian
biểu và thực hiện phân tích chi phí lợi nhuận. Từ đó, một kế hoạch thực thi có thể được
tạo ra.
2.3. Data Requirements – Phân tích yêu cầu dữ liệu
Dữ liệu là cần thiết để làm đầu vào cho phân tích, được chỉ định dựa trên yêu cầu
của người chỉ đạo phân tích hoặc khách hàng (những người sẽ sử dụng thành phẩm của
phân tích). Mẫu mà dữ liệu sẽ được thu thập được gọi là một đơn vị thử nghiệm. Các
biến cụ thể liên quan đến người có thể được chị định và thu được. Dữ liệu có thể là ở
dạng số hay dạng phân loại.

HVTH: Nguyễn Tấn Lộc

Trang 8


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương


2.4. Data collection – Thu thập dữ liệu
2.4.1. Đặt vấn đề - Tại sao cần thu thập dữ liệu
Đối với doanh nghiệp hiện nay, việc thu thập dữ liệu có nhiều mục đích như: để so
sánh giá cả, biết được sự hài lòng của khách hàng, so sánh khách hàng tiềm năng. Đối
với người làm khoa học dữ liệu (Data Scientist) hay với các cá nhân, việc thu thập dữ
liệu có các mục đích như: tìm kiếm các thơng tin u thích trên các trang web, nhận
thông tin việc làm – tiền lương từ các trang web tuyển dụng, tìm kiếm các chủ đề nóng
trên các trang web xã hội, lướt các trang blog ẩm thực để tìm kiếm các cơng thức nấu ăn
cụ thể hay các bài đánh giá khác nhau.
2.4.2. Giới thiệu về Web Scraping
Web Scraping, còn gọi là Data Mining (khai thác dữ liệu web) hoặc Web Harvesting
(thu thập web), là quá trình xây dựng một ứng dụng có thể trích xuất, phân tích cú pháp,
tải và sắp xếp thơng tin hữu ích từ web một cách tự động. Dữ liệu (data): là thứ không
thể thiếu đối với bất kỳ ai làm việc với dữ liệu; yêu cầu cơ bản của mọi dự án Khoa học
Dữ liệu hay mọi ứng dụng là số lượng lớn dữ liệu hữu ích.
Phương pháp thu thập dữ liệu [14]:
✓ Sử dụng tính năng web scraping để có được lượng lớn dữ liệu có sẵn trực
tuyến.
✓ Phần mềm web scraping sẽ tự động tải và trích xuất dữ liệu từ nhiều trang
web.
✓ Trang web thương mại điện tử (E-commerce Websites) – thu thập dữ liệu liên
quan đặc biệt đến giá cả của một sản phẩm cụ thể từ các trang web thương
mại điện tử khác nhau để so sánh.
✓ Công cụ tổng hợp nội dung (Content Aggregators) – được sử dụng rộng rãi
bởi các công ty tổng hợp nội dung như tổng hợp tin tức và tổng hợp việc làm
để cung cấp dữ liệu cập nhật cho khách hàng của họ.
✓ Chiến dịch tiếp thị và bán hàng (Marketing & Sales Campaigns): có thể sử
dụng để lấy dữ liệu như email, số điện thoại cho các chiến dịch bán hàng và
tiếp thị.
✓ Tối ưu hóa cơng cụ tìm kiếm (Search Engine Optimization – SEO): được sử

dụng rộng rãi cho các cộng cụ SEO để doanh nghiệp biết cách họ xếp hạng
cho các từ khóa tìm kiếm quan trọng.
✓ Dữ liệu cho các dự án máy học (Data for Machine Learning Projects): việc
HVTH: Nguyễn Tấn Lộc

Trang 9


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

truy xuất dữ liệu cho các dự án máy học phụ thuộc vào việc tìm kiếm trên
web.
Quy trình làm việc:

Hình 2.2: Quy trình thu thập dữ liệu web (Web Scraping)
✓ Hiểu những gì chúng ta muốn thực hiện.
✓ Tìm nguồn dữ liệu để giúp chúng ta thực hiện điều đó.

HVTH: Nguyễn Tấn Lộc

Trang 10


Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

✓ Đọc dữ liệu thô online.

✓ Định dạng dữ liệu này để có thể sử dụng được.
✓ Sử dụng Selenium hoặc Beautiful Soup thông qua Python để thu thập dữ liệu.
✓ Processing – Xử lý dữ liệu, có nhiều lựa chọn cơng việc.
✓ Tính hợp pháp (Legality)
✓ Trước khi thu thập dữ liệu bất kỳ trang web nào, chúng ta cần phải tìm hiểu
về tính hợp pháp của việc thu thập thông tin.
✓ Nếu sử dụng dữ liệu cho mục đích cá nhân (ngồi phục vụ giáo dục), mục
đích kinh doanh hay các mục đích khác, thì trước khi thực hiện, chúng ta cần
gửi yêu cầu cho chủ sở hữu hoặc tìm hiểu về các chính sách thu thập dữ liệu
cho dữ liệu sẽ được thu thập [15].
2.5. Data preprocessing and analysis – Tiền xử lý và phân tích dữ liệu
2.5.1 Data Visualization – Trực quan hoá dữ liệu
Trực quan hoá dữ liệu là việc sử dụng các biểu diễn trực quan của dữ liệu trừu tượng
thơng qua sự hỗ trợ của máy tính để mở rộng nhận thức. Trực quan dữ liệu nhằm khai
thác sức mạnh đáng kinh ngạc của hệ thống trực quan, phát hiện các mối quan hệ và xu
huống, giúp người xem thấy trực quan và dễ hiểu, qua đó giúp giải quyết các vấn đề đã
đặt ra. Biểu đồ tương tác trực tiếp với hệ thống thi giác, giúp chúng ta xử lý thơng tin
nhanh hơn, giải thích khối lượng lớn dữ liệu ngay lập tức hay kể câu chuyện về dữ liệu
trong thời gian rất ngắn.
2.5.2 Data exploration – Khám phá, làm sạch dữ liệu
Khám phá dữ liệu là một bước thực hiện trong quá trình làm sạch dữ liệu (Data
cleaning). Khơng có lối tắt để khám phá dữ liệu. Khi làm việc với máy học, chúng ta sẽ
nhận ra rằng chúng ta luôn phải vật lộn để cải thiện độ chính xác của mơ hình. Trong
những tình huống như vậy, các kỹ thuật khám phá dữ liệu sẽ rất hữu ích. Chất lượng
input sẽ quyết định đến chất lượng output. Thường việc khám phá dữ liệu, làm sạch và
chuẩn hoá dữ liệu chiếm phần lớn thời gian của dự án (70% ~ 80%).

HVTH: Nguyễn Tấn Lộc

Trang 11



Xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

GVHD: PGS.TS Hồ Văn Khương

Hình 2.3: Khám phá – làm sạch dữ liệu
Các công việc cần làm trước tiên:
a. Xác định thuộc tính - biến (Variable – Identification)
Để đảm bảo kết quả tốt cho một dự án, chúng ta cần hiểu rõ về phạm vi của dữ liệu.
Để làm điều đó, chúng ra khơng chỉ cần biết về loại dữ liệu chúng ra có mà cịn cần biết
mối quan hệ giữa các thuộc tính, thuộc tính nào hữu ích và cách chúng thay đổi trong dữ
liệu được cung cấp. Chúng ra cần thực hiện một số thử nghiệm khám phá ban đầu trên
dữ liệu.
Chúng ta cần tìm hiểu các kỹ thuật để khám phá và phân tích dữ liệu bằng cách xác
định thuộc tính hữu ích cho kinh tế, tiếp thị, phân tích các chỉ số hiệu suất chính (KPIs
– key performance indicators). Đầu tiên, xác định các biến đầu vào (Predictor/Input) và
biến đầu ra (Target/Output). Tiếp theo, xác định kiểu dữ liệu của các biến (Numberical
Data, Categorical Data, Time Series Data, Text…).

HVTH: Nguyễn Tấn Lộc

Trang 12


×