Tải bản đầy đủ (.pdf) (36 trang)

Đề tài ứng dụng machine learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 36 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

NHẬN XÉT CỦA GIẢNG VIÊN

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

DANH MỤC HÌNH ẢNH

Hình 2.1 Biểu đồ thể hiện số lượng nhãn 0 và 1 của đặc trưng “Churn” ... 3

Hình 2.2 Biểu đồ phân bố sự tồn tại dữ liệu của các đặc trưng ... 5

Hình 2.3 Bảng thể hiện giá trị các chỉ số của các đặc trưng có kiểu dữ liệu số ... 8

Hình 3.1 Bảng thống kê các chỉ số đánh giá các mơ hình ... 11

Hình 3.2 Đồ thị thể hiện giá trị ROC area curve của các mơ hình ... 12

Hình 3.3 Mơ hình tổng thể của Random Forest ... 12

Hình 3.4 Mơ hình tổng thể của dự án ... 13

Hình 3.5 Phân chia dữ liệu với kỹ thuật Bootstrapping ... 14

Hình 3.6 Các cây quyết định tương ứng với các bộ dữ liệu được tạo từ bước 1 ... 14

Hình 3.7 Ví dụ về kết quả dự đốn của từng cây quyết định và kết quả phân loại của mơ hình ... 15

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

DANH MỤC BẢNG BIỂU

Bảng 2.1 Bảng thể hiện tỉ lệ dữ liệu non null và null của các đặc trưng bị thiếu dữ liệu

... 4 Bảng 2.2 Bảng thể hiện phạm vi giá trị của các đặc trưng có kiểu dữ liệu số ... 6 Bảng 3.1 Bảng thống kê các chỉ số đánh giá các mơ hình đề xuất ... 10

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

M C L C Ụ Ụ

CHƯƠNG 1: TỔNG QUAN ... 1

1.1 Lý do chọn đề tài ... 1

1.2 Mục tiêu của đề tài ... 1

1.3 Giới hạn của đề tài ... 1

1.4 Nội dung nghiên cứu ... 1

1.5 Giới thiệu về nhóm ... 2

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ... 3

2.1 Các thử thách của đề tài ... 3

2.1.1 Tập dữ liệu bị mất cân bằng giữa nhãn 0 và 1 của đặc trưng “Churn” ... 3

2.1.2 Dữ liệu không đầy đủ ở một số đặc trưng ... 4

2.1.3 Giá trị của các đặc trưng có sự chênh lệch... 6

3.2 Cách thức hoạt động của phương pháp ... 12

3.2.1 Tổng quan về mơ hình Random Forest ... 12

3.2.2 Xây dựng thuật toán Random Forest ... 13

3.2.3 Các siêu tham số quan trọng trong mơ hình Random Forest ... 15

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

3.2.4 Ưu, nhược điểm của Random Forest ... 16

4.4 Các lỗi thường gặp của hệ thống ... 26

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ... 27

5.1 Kết luận ... 27

5.2 Hướng phát triển ... 27

TÀI LIỆU THAM KHẢO ... 29

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

1

CHƯƠNG 1: TỔNG QUAN 1.1 Lý do chọn đề tài

Customer Churn Rate (Tỷ lệ khách hàng rời bỏ) là một thuật ngữ khơng cịn q xa lạ trong doanh nghiệp. Đây là một trong những tỷ lệ luôn được các nhà quản trị cực kỳ quan tâm. Bởi lẽ, tỷ lệ này giúp đánh giá các yếu tố liên quan như: chất lượng sản phẩm, giá cả, công nghệ, đội ngũ nhân viên, đối thủ,... Từ đó, doanh nghiệp có thể điều chỉnh về chất lượng sản phẩm, dịch vụ, chi phí, tiếp cận khách hàng một cách có hiệu quả, nâng cao hoạt động kinh doanh và lợi thế cạnh tranh. Nhận thấy được tầm quan trọng của tỷ lệ này trong các doanh nghiệp, nhóm chúng em quyết định chọn đề tài “Ứng dụng của Machine Learning để dự đoán khả năng khách hàng rời bỏ dịch vụ thương mại điện tử. Từ đó giúp hỗ trợ các cơng ty đưa ra phương án tiếp cận khách hàng tối ưu”.

1.2 Mục tiêu của đề tài

Xây dựng mơ hình dự đốn có thể xác định chính xác những khách hàng có nguy cơ rời bỏ cơng ty dựa trên các đặc trưng được cung cấp. Điều này sẽ giúp công ty thực hiện các bước chủ động để giữ chân những khách hàng này và giảm tỷ lệ rời bỏ. Từ đó, nâng cao hiệu quả quản lý khách hàng và doanh số bán hàng.

Đối tượng nghiên cứu: Công ty Thương mại điện tử

Dữ liệu đầu vào: Tập dữ liệu sẵn có trên internet. Dữ liệu chỉ liên quan đến khách hàng và hoạt động mua sắm trên nền tảng thương mại điện tử. Dữ liệu thu thập chỉ từ 6 tháng đến 1 năm.

Ứng dụng thực tiễn: Đề tài khơng thể khơng tổng qt hóa kết quả cho tất cả các loại dịch vụ thương mại điện tử.

1.4 Nội dung nghiên cứu

Để đạt được mục tiêu, đưa ra dự đốn chính xác về tỷ lệ khách hàng rời bỏ trong lĩnh vực Thương mại điện tử. Nhóm cần phải làm những việc sau:

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Rà soát dữ liệu khách hàng bao gồm thông tin hiện tại và trong quá khứ. Xử lý trước dữ liệu đầu vào, xác định và lựa chọn đúng các cần thiết để giảm thời gian và chi phí cho việc dự đốn.

Thực hiện nghiên cứu so sánh về các thuật tốn sẽ sử dụng để xây dựng mơ hình. Lập bảng so sánh tổng quan về chỉ số hiệu suất như: precision, recall, f1-score, accuracy, ROC AUC. Từ đó tìm ra thuật tốn phù hợp và hiệu quả nhất.

Nghiên cứu tổng quan về dự án Nghiên cứu các phương pháp đánh giá dự kiến sẽ sử dụng

Nghiên cứu về các lỗi thường gặp Đưa ra kết quả và hướng phát triển

100%

3 <sup>Dương Thị </sup>

Mỹ Hiền <sup>21126138 </sup>

Nghiên cứu những khó khăn của dự án Tìm kiếm tập dữ liệu dự kiến sẽ sử dụng Tiền xử lý dữ liệu

Kết quả thực nghiệm

100% đặc tr ng có hệ ốư s theta l nớ

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Các thử thách của đề tài

2.1.1 T p d u b m t cân bậ ữ liệ ị ấ ằng giữa nhãn 0 và 1 của đặc trưng “Churn” Vấn đề: Ở đặc trưng “Churn”, nhãn 0 chiếm tỉ lệ cao hơn nhãn 1.

Hình 2.1 Biểu đồ thể hiện số lượng nhãn 0 và 1 của đặc trưng “Churn” [1] Nguyên nhân: Nguyên nhân chính dẫn đến sự mất cân bằng giữa nhãn 0 và 1 của "Churn" có thể do tỷ lệ khách hàng rời bỏ thực tế thấp hơn so với khách hàng không rời bỏ trong lĩnh vực thương mại điện tử. Điều này có thể do nhiều yếu tố, ví dụ như chất lượng dịch vụ tốt, chiến lược tiếp thị hiệu quả, hoặc sự trung thành của khách hàng đối với thương hiệu. Ngồi ra, việc thu thập dữ liệu khơng đồng đều về các khách hàng cũng có thể góp phần tạo ra sự mất cân bằng.

Hậu quả: Sự mất cân bằng giữa nhãn 0 và 1 của “Churn” có thể ảnh hưởng đến khả năng xây dựng mô hình chính xác và dự đốn “Churn”. Mơ hình có thể bị thiên vị và khơng thể dự đốn "Churn" một cách chính xác. Điều này có thể dẫn đến việc đưa ra quyết định khơng chính xác về việc giữ chân khách hàng hoặc phát hiện và xử lý các khách hàng có nguy cơ rời bỏ một cách hiệu quả.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Giải pháp: Sử dụng phương pháp SMOTE [14] (Synthetic Minority Over-sampling Technique). SMOTE sẽ tạo ra các mẫu nhân tạo cho lớp thiểu số (nhãn 1) bằng cách kết hợp các điểm dữ liệu hiện có để tạo ra các mẫu mới. Điều này giúp làm cân bằng lại tập dữ liệu và cải thiện hiệu suất của mơ hình.

2.1.2 D ữ liệu khơng đầy đủ ở một số đặc trưng

Vấn đề: Tập dữ liệu có khá nhiều giá trị khơng tồn tại (null) ở một số đặc trưng: Bảng 2.1 Bảng thể hiện tỉ lệ dữ liệu non-null và null của các đặc trưng bị thiếu dữ Nguyên nhân: Sự tồn tại nhiều giá trị null trong bộ dữ liệu do nhiều nguyên nhân, bao gồm quá trình thu thập dữ liệu khơng hồn hảo, khách hàng khơng cung cấp thông tin đầy đủ, hoặc các lỗi trong quá trình ghi nhận dữ liệu. Điều này có thể xảy ra đặc biệt trong lĩnh vực thương mại điện tử với quy mô lớn và sự thay đổi nhanh chóng của thơng tin khách hàng.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

5

Hậu quả: Việc dữ liệu xuất hiện null vào trong dataset sẽ khiến chúng ta gặp một số vấn đề trong quá trình huấn luyện như:

Lỗi trong q trình tính tốn: khi có giá trị null trong tập dữ liệu sẽ khiến việc tính tốn trong q trình huấn luyện khơng thể thực hiện từ đó xảy ra lỗi và q trình huấn luyện sẽ bị gián đoạn

Mơ hình khơng học được thơng tin: Nếu dữ liệu null không được xử lý, mô hình có thể khơng học được thơng tin hợp lý từ các mẫu dữ liệu chứa giá trị null. Điều này có thể làm giảm khả năng dự đốn chính xác của mơ hình.

Nhiễu dữ liệu: Các giá trị null có thể tạo ra nhiễu trong dữ liệu, ảnh hưởng đến khả năng mơ hình học các mẫu dữ liệu khác. Điều này có thể dẫn đến kết quả huấn luyện không ổn định hoặc không đáng tin cậy.

Giải pháp: Sử dụng SimpleImputer trong thư viện sklearn. SimpleImputer sẽ thay thế các giá trị thiếu bằng các giá trị được xác định trước, chẳng hạn như giá trị trung bình, giá trị trung vị, giá trị phổ biến nhất hoặc một giá trị cố định. Điều này giúp mơ hình khơng bị ảnh hưởng bởi các giá trị thiếu và tiếp tục xử lý dữ liệu một cách chính xác. SimpleImputer là một cơng cụ hữu ích trong q trình tiền xử lý dữ liệu và chuẩn bị dữ liệu cho việc huấn luyện mơ hình học máy.

Hình 2.2 Biểu đồ phân bố sự tồn tại dữ liệu của các đặc trưng [1]

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

2.1.3 Giá tr cị ủa các đặc trưng có sự chênh lệch

Vấn đề: Giá trị của các đặc trưng có sự chênh lệch đáng kể như: Bảng 2.2 Bảng thể hiện phạm vi giá trị của các đặc trưng có kiểu dữ liệu số

4 HourSpendOnApp <sup>Thời gian sử dụng ứng dụng </sup>

Số lượng đơn đặt hàng tăng

so với năm ngoái <sup>Đơn hàng </sup> <sup>11-26 </sup>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

gần nhất so với hiện tại <sup>Ngày </sup> <sup>0-46 </sup> 13 CashbackAmount Số tiền đã được hoàn trả USD 0-325

Nguyên nhân: Sự chênh lệch giữa giá trị của các đặc trưng trong bộ dữ liệu có thể do tính chất tự nhiên của dữ liệu. Một số đặc trưng có thể có giá trị lớn hơn hoặc nhỏ hơn đáng kể so với các đặc trưng khác. Điều này do sự khác biệt về đơn vị đo lường, phạm vi giá trị hoặc phân phối dữ liệu.

Hậu quả: Sự chênh lệch giữa giá trị của các đặc trưng có thể làm cho mơ hình bị thiên vị và khơng đạt hiệu suất tốt. Mơ hình có thể tập trung vào các đặc trưng có giá trị lớn hơn và bỏ qua các đặc trưng có giá trị nhỏ hơn, dẫn đến các dự đốn khơng chính xác. Điều này có thể ảnh hưởng đến khả năng xác định các yếu tố quan trọng và hiệu suất của mơ hình. Ngồi ra, sự chênh lệch giữa giá trị của các đặc trưng cũng có thể làm mất đi tính đồng nhất và so sánh giữa các đặc trưng, làm giảm hiệu quả của các thuật toán phân loại và dự đoán.

Giải pháp: Sử dụng MinMaxScaler trong thư viện sklearn. MinMaxScaler sẽ chuẩn hóa các giá trị của các đặc trưng của dữ liệu vào khoảng [0, 1]. Việc này giúp đảm bảo rằng các đặc trưng có cùng phạm vi giá trị và không bị ảnh hưởng bởi sự chênh lệch tỷ lệ.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Hình 2.3 Bảng thể hiện giá trị các chỉ số của các đặc trưng có kiểu dữ liệu số [1]

Nhược điểm: Giả định tuyến tính, khơng xử lý tốt các mối quan hệ phi tuyến. 2.2.2 Support Vector Machine (SVM)

Tìm một siêu phẳng (hyper lane) tối ưu trong khơng gian đặc trưng để phân tách các điểm dữ liệu thuộc các nhóm khác nhau.

Ưu điểm: Hiệu năng tốt trong không gian đa chiều, khả năng xử lý tốt với dữ liệu lớn, khả năng tách biệt các lớp dữ liệu tốt.

Nhược điểm: Đòi hỏi thời gian và tài ngun tính tốn lớn với dữ liệu lớn, khó xử lý dữ liệu mất cân bằng

2.2.3 Decision Tree

Xây dựng cây quyết định bằng cách đặt các câu hỏi dạng yes/no với các đặc trưng để phân loại dữ liệu.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Nhược điểm: Địi hỏi nhiều tài ngun tính tốn, tốn thời gian, khó hiểu và khó diễn giải kết quả.

2.2.5 XGBClassifier

Sử dụng thuật toán Gradient Boosting để xây dựng một tập hợp các cây quyết định, mỗi cây quyết định mới tối thiểu hóa hàm mất mát của mơ hình trước đó.

Ưu điểm: Hiệu năng cao, khả năng xử lý tốt với dữ liệu lớn, xử lý tốt các mối quan hệ phi tuyến, có khả năng xử lý dữ liệu mất cân bằng.

Nhược điểm: Địi hỏi nhiều tài ngun tính tốn, khó hiểu và khó diễn giải kết quả.

2.2.6 AdaBoostClassifier

Xây dựng các cây quyết định yếu tuần tự, mỗi cây quyết định mới tập trung vào việc sửa đổi các trường hợp sai lầm của mơ hình trước đó.

Ưu điểm: Tính ổn định, xử lý tốt với dữ liệu nhiễu, khả năng xử lý dữ liệu mất cân bằng.

Nhược điểm: Dễ bị ảnh hưởng bởi nhiễu dữ liệu và dữ liệu ngoại lai, khó xử lý dữ liệu không gian lớn.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

CHƯƠNG 3: LỰA CHỌN PHƯƠNG PHÁP 3.1 Lựa chọn phương pháp

Dữ liệu được cung cấp đã được sử dụng để huấn luyện và đánh giá hiệu suất của các mơ hình này. Các chỉ số precision, recall, f1 score, accuracy, ROC AUC được -sử dụng để đánh giá mô hình. Sau khi đánh giá hiệu suất của các mô hình, XGBClassifier và Random Forest đã được xác định là hai mơ hình có hiệu suất tốt nhất trong số các mơ hình đề xuất.

Bảng 3.1 Bảng thống kê các chỉ số đánh giá các mơ hình đề xuất Precision Recall F1-score Accuracy ROC AUC

Trong q trình lựa chọn mơ hình cuối cùng cho dự án, nhóm đã tham khảo bài nghiên cứu "Prediction of Customer Churn on e Retailing" [2]. Bài nghiên cứu này -tập trung vào dự đoán khả năng rời bỏ của khách hàng trong lĩnh vực bán lẻ điện tử. Bằng cách ứng dụng phương pháp Data Mining và Machine Learning, các tác giả đã tiến hành phân tích và xây dựng mơ hình dự đốn khả năng rời bỏ. Trong q trình nghiên cứu, họ đã so sánh hiệu suất giữa hai mơ hình, Random Forest và XGB Classifier. Ngoài ra, các bài nghiên cứu khác [7][8] cũng có những đánh giá về các

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

11

mơ hình phân loại khả năng rời bỏ của khách hàng và cũng thu được Random Forest cũng là một trong số các mơ hình phân loại tốt nhất.

Kết quả từ bài nghiên cứu cho thấy Random Forest có hiệu suất tốt hơn so với XGBClassifier trong việc dự đoán khả năng rời bỏ của khách hàng. Đánh giá hiệu suất được thực hiện bằng các chỉ số như là precision, recall, f1-score, ...

=> Dựa trên kết quả bảng 3.2, hình 3.1, hình 3.2 và kết quả của các bài nghiên cứu, chúng ta có thể lựa chọn mơ hình Random Forest làm mơ hình cuối cùng để dự đốn khả năng rời bỏ của khách hàng trong dự án này.

Hình 3.1 Bảng thống kê các chỉ số đánh giá các mơ hình [2]

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Hình 3.2 Đồ thị thể hiện giá trị ROC area curve của các mơ hình [7] 3.2 Cách thức hoạt động của phương pháp

3.2.1 T ng quan v mô hình Random Forest ổ ề

Hình 3.3 Mơ hình tổng thể của Random Forest [4]

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Hình 3.4 Mơ hình tổng thể của dự án

Mơ hình Random Forest [4] là một mơ hình học máy kết hợp được xây dựng dựa trên nhiều cây quyết định. Mỗi cây quyết định được huấn luyện trên một tập dữ liệu con được lấy ngẫu nhiên từ tập dữ liệu gốc. Kết quả dự báo của mơ hình là kết quả bầu cử từ các cây quyết định. Đồng thời kết hợp kết quả dự báo từ nhiều mơ hình sẽ có phương sai nhỏ hơn so với chỉ một mơ hình. Điều này giúp cho mơ hình khắc phục được hiện tượng overfitting của mơ hình cây quyết định.

3.2.2 Xây d ng thu t tốn Random Forest ự ậ

Ví dụ bộ dữ liệu của chúng ta có x dữ liệu (sample) và có y đặc trưng (feature). Để xây dựng mỗi cây quyết định ta sẽ làm như sau:

Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho [5]: Lấy ngẫu nhiên x dữ liệu từ bộ dữ liệu với kỹ thuật Bootstrapping, hay còn gọi là quá trình lấy mẫu tái lặp. Tức là khi chúng ta lựa chọn được 1 dữ liệu thì ta khơng bỏ dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp tục lựa chọn cho tới khi lựa chọn đủ n dữ liệu. Khi dùng kĩ thuật này thì tập x dữ liệu mới của ta có thể có những dữ liệu bị trùng nhau. Sau khi sample được x dữ liệu thì ta chọn ngẫu nhiên k đặc trưng (k<x). Giờ ta được bộ dữ liệu mới gồm x dữ liệu và mỗi dữ liệu có k đặc trưng.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Hình 3.5 Phân chia dữ liệu với kỹ thuật Bootstrapping [5]

Thiết lập cây quyết định cho từng mẫu [5]: Dùng thuật toán Decision Tree để xây dựng cây quyết định với bộ dữ liệu ở bước trước đó. Chúng ta sẽ xây dựng nhiều cây quyết định nên bước 1 và 2 sẽ lặp lại nhiều lần.

Hình 3.6 Các cây quyết định tương ứng với các bộ dữ liệu được tạo từ bước 1 [5] Nhận kết quả dự đoán từ mỗi cây quyết định [5]: Đối với một dữ liệu mới, mơ hình Random Forest sẽ đi từ trên xuống theo các node điều kiện của từng cây quyết định để đưa ra dự đốn. Sau đó, kết quả dự đoán của tất cả các cây quyết định sẽ được tổng hợp lại để đưa ra kết quả dự đốn cuối cùng.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

15

Tính tốn kết quả [5]: Sau khi có các quyết định của tập hợp các cây quyết định thì chúng ta tiến hành bầu cử (phân loại) hoặc lấy trung bình (dự đoán) giữa các cây quyết định để đưa ra kết quả.

Hình 3.7 Ví dụ về kết quả dự đốn của từng cây quyết định và kết quả phân loại của mơ hình [5]

Do q trình xây dựng mỗi cây quyết định đều có yếu tố ngẫu nhiên (random) nên kết quả là các cây quyết định trong thuật tốn Random Forest có thể khác nhau. 3.2.3 Các siêu tham s quan tr ng trong mơ hình Random Forest ố ọ

Mơ hình rừng cây là một mơ hình học máy kết hợp được xây dựng dựa trên nhiều cây quyết định. Mỗi cây quyết định được huấn luyện trên một tập dữ liệu con được lấy ngẫu nhiên từ tập dữ liệu gốc. Các tham số của mơ hình rừng cây bao gồm các siêu tham số thiết lập cây quyết định từ DecisionTreeClassifier và BaggingClassifier. Trong đó các siêu tham số cần lưu ý là [3]:

n_estimators: là số lượng các cây quyết định được sử dụng trong mơ hình rừng cây (mặc định = 100).

</div>

×