Tải bản đầy đủ (.pdf) (66 trang)

Dự báo khách hàng sử dụng dịch vụ FiberVNN của VNPT Tây Ninh có nguy cơ rời mạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2 MB, 66 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

DƯƠNG MINH LÝ

DỰ BÁO KHÁCH HÀNG SỬ DỤNG
DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH
CÓ NGUY CƠ RỜI MẠNG

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

DƯƠNG MINH LÝ

DỰ BÁO KHÁCH HÀNG SỬ DỤNG
DỊCH VỤ FIBERVNN CỦA VNPT TÂY NINH
CĨ NGUY CƠ RỜI MẠNG
CHUN NGÀNH : HỆ THỐNG THƠNG TIN

MÃ SỐ:

8.48.01.04

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT



(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. VŨ ĐỨC LUNG

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


i

LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Tôi xin cam đoan rằng tất cả các nội dung và kết quả được trình bày trong
đề án này là sự thực hiện của chính tơi sau q trình nghiên cứu, phân tích và đánh
giá dưới sự hướng dẫn trực tiếp của Thầy PGS. TS Vũ Đức Lung.
2. Tôi đảm bảo không sao chép hay biên soạn từ bất kỳ nguồn tài liệu nào
khác mà khơng được ghi rõ trong đề án. Nếu có bất kỳ thông tin nào được thu thập
từ nguồn khác, tơi đã trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian cơng bố.
Mọi sao chép khơng hợp lệ, vi phạm quy chế đào tạo tôi xin chịu hồn tồn trách
nhiệm.

Tp. Hồ Chí Minh, ngày 18 tháng 08 năm 2023
Học viên thực hiện đề án

Dương Minh Lý


ii


LỜI CÁM ƠN
Trong quá trình thực hiện đề án này, tôi đã nhận được sự hỗ trợ và giúp đỡ từ
rất nhiều người. Đầu tiên và quan trọng nhất, tôi xin bày tỏ lòng biết ơn chân thành
đến Thầy PGS. TS Vũ Đức Lung – người đã luôn đồng hành và giúp đỡ tơi trong
q trình nghiên cứu và phát triển đề án này. Sự hướng dẫn và góp ý của thầy sẽ là
nền tảng để tơi có thể hồn thiện bài toán dự báo khách hàng sử dụng dịch vụ viễn
thơng có nguy cơ rời mạng trong tương lai.
Tơi cũng muốn cảm ơn đến Quý Thầy Cô Học viện Cơng Nghệ Bưu Chính
Viễn Thơng cơ sở tại TP.HCM, đã giúp đỡ tôi trong việc phát triển các kỹ năng
liên quan đến cơng nghệ thơng tin trong suốt q trình học tập tại học viện.
Cũng xin gửi lời cám ơn đến Viễn Thông Tây Ninh đã tạo điều kiện để tôi
tham gia học tập cũng như hỗ trợ các vấn đề liên quan để hồn thành đề án.
Cuối cùng tơi xin gửi lời cám ơn đến Cha Mẹ, gia đình, người thân, bạn bè
và đồng nghiệp đã quan tâm, ủng hộ trong suốt quá trình học tập cao học.
Tp. Hồ Chí Minh, ngày 18 tháng 08 năm 2023
Học viên thực hiện đề án

Dương Minh Lý


iii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CÁM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v
DANH SÁCH BẢNG .............................................................................................. vi
DANH SÁCH HÌNH VẼ ........................................................................................ vii
MỞ ĐẦU ....................................................................................................................1

1.

Lý do chọn đề tài .................................................................................................................... 1

2.

Tổng quan về vấn đề cần nghiên cứu ..................................................................................... 3

3.

Mục đích nghiên cứu .............................................................................................................. 3

4.

Đối tượng và phạm vi nghiên cứu .......................................................................................... 4

5.

Phương pháp nghiên cứu........................................................................................................ 4

Chương 1. TỔNG QUAN VỀ ĐỀ TÀI ....................................................................5
1.1.

Giới thiệu ........................................................................................................................... 5

1.2.

Các nghiên cứu ngoài nước ................................................................................................ 6

1.3.


Các nghiên cứu trong nước .............................................................................................. 10

Chương 2. CÁC LÝ THUYẾT LIÊN QUAN .......................................................17
2.1.

Kỹ thuật khai phá dữ liệu và phương pháp học máy ........................................................ 17

2.1.1.

Kỹ thuật khai phá dữ liệu ............................................................................................. 17

2.1.2.

Phương pháp học máy .................................................................................................. 18

2.2.

Tổng quan Azure Machine Learning và phần mềm Weka............................................... 20

2.2.1.

Azure Machine Learning.............................................................................................. 20

2.2.2.

Phần mềm Weka .......................................................................................................... 21

2.3.


Một số thuật toán dự báo trên Azure Machine Learning ................................................. 21

Chương 3. PHƯƠNG PHÁP DỰ BÁO KHÁCH HÀNG CĨ NGUY CƠ RỜI
MẠNG ......................................................................................................................26
3.1.

Tổng qt thuật tốn được lựa chọn áp dụng vào mơ hình dự báo .................................. 26

3.2.

Sơ đồ tổng quát của hệ thống ........................................................................................... 27

Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .....................................35
4.1.

Môi trường thực nghiệm .................................................................................................. 35

4.2.

Bộ dữ liệu thực nghiệm .................................................................................................... 35


iv
4.3.

Các bước xây dựng và thực nghiệm mơ hình dự báo....................................................... 37

4.4.

Đánh giá kết quả .............................................................................................................. 45


KẾT LUẬN ..............................................................................................................54
5.1.

Kết quả đạt được .............................................................................................................. 54

5.2.

Khó khăn và hướng phát triển .......................................................................................... 55

DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................56


v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

SVM

Support Vector Machine

Thuật toán máy vectơ hỗ trợ

KNN


K-Nearest Neighbor

Thuật toán K láng giềng gần nhất

RNN

Recurrent Neural Network

Thuật toán Mạng nơ-ron hồi quy

DNN

Deep Neural Networks

Thuật toán Mạng nơ-ron nhân tạo

FP

False Positive

Tỷ lệ sai dương

FN

False Negative

Tỷ lệ sai âm

TP


True Positive

Tỷ lệ đúng dương

TN

True Negative

Tỷ lệ đúng âm

AUC

Area Under The Curve

Mức độ phân loại của mơ hình

ACC

Accurary

Độ chính xác


vi

DANH SÁCH BẢNG
Bảng 1.1: Chi phí phát triển một khách hàng mới ............................................. 5
Bảng 1.2: Ý nghĩa 5 chỉ số kỹ thuật được áp dụng ............................................ 6
Bảng 1.3: Ý nghĩa các thuộc tính được áp dụng ................................................ 7
Bảng 1.4: Kết quả dự đoán ................................................................................. 9

Bảng 1.5: Kết quả dự báo các phương pháp phân lớp ....................................... 11
Bảng 1.6: Mô tả các trường dữ liệu ................................................................... 13
Bảng 1.7: Kết quả dự báo của các mơ hình........................................................ 14
Bảng 3.1: Danh sách đối tượng khách hàng....................................................... 30
Bảng 3.2: Danh sách trạng thái hoạt động của khách hàng ............................... 32
Bảng 3.3: Khởi tạo dữ liệu ................................................................................. 32
Bảng 4.1: Kết quả dự báo các thuật toán ........................................................... 42
Bảng 4.2: Bảng đánh giá kết quả dự báo tháng 12/2022, 01/2023 .................... 51
Bảng 4.3: Bảng đánh giá kết quả dự báo tháng 01/2023, 02/2023 .................... 51
Bảng 4.4: Bảng đánh giá kết quả dự báo tháng 02/2023, 03/2023 .................... 51
Bảng 4.5: Bảng đánh giá kết quả dự báo tháng 03/2023, 04/2023 .................... 51
Bảng 4.6: Bảng đánh giá kết quả dự báo tháng 04/2023, 05/2023 .................... 52


vii

DANH SÁCH HÌNH VẼ
Hình 1.1: Sơ đồ tổng qt các bước xây dựng mơ hình huấn luyện ........................ 9
Hình 1.2: Kết quả dự báo các phương pháp phân lớp ............................................ 11
Hình 1.3: Mơ hình dự báo khách hàng tiềm năng .................................................. 13
Hình 1.4: Tiến trình thực hiện của mơ hình đề xuất .............................................. 15
Hình 2.1: Các bước thực hiện khai phá dữ liệu...................................................... 18

Hình 2.2: Các phương pháp học máy ..................................................................... 19
Hình 3.1: Sơ đồ tổng quát các bước xây dựng mơ hình huấn luyện ...................... 27
Hình 3.2: Xây dựng các cây quyết định ................................................................. 33
Hình 4.1: Mở tập dữ liệu bằng phần mềm WEKA ................................................ 38
Hình 4.2: Biễu diễn giá trị các thuộc tính trong tập dữ liệu ................................... 38
Hình 4.3: Cấu hình các biến để chuyển đổi dữ liệu ............................................... 39
Hình 4.4: Chuyển đổi kiểu dữ liệu từ dạng số sang kiểu phân loại ....................... 40

Hình 4.5: Cấu hình các biến để chuyển đổi dữ liệu vùng giá trị ............................ 40

Hình 4.6: Chuyển đổi kiểu dữ liệu từ dạng số liên tục sang vùng giá trị............... 41
Hình 4.7: Các module dùng xây dựng mơ hình trong Azure Machine Learning .. 44
Hình 4.8: Xây dựng mơ hình huấn luyện trên Azure Machine Learning .............. 45
Hình 4.9: Kết quả mơ hình dự báo ......................................................................... 45
Hình 4.10: Triển khai web services ....................................................................... 46
Hình 4.11: Mơ hình dự báo được xây dựng ........................................................... 46
Hình 4.12: Kiểm tra web services .......................................................................... 47
Hình 4.13: Lựa chọn kiểu service để sinh code ..................................................... 47

Hình 4.14: Code tạo web services tích hợp vào ứng dụng khác ............................ 48
Hình 4.15: Triển khai Azure Machine Learning Web service trên Ondrive ......... 48
Hình 4.16: Chọn Web service từ Azure Machine Learning .................................. 49
Hình 4.17: Nhập các thơng số cung cấp từ Azure Machine Learning ................... 49
Hình 4.18: Nhập dữ liệu và dự báo ........................................................................ 50
Hình 4.19: Kết quả dự báo ..................................................................................... 50


1

MỞ ĐẦU
1. Lý do chọn đề tài
Như chúng ta đã biết, thị trường viễn thông gần như đã đi vào giai đoạn bão
hòa, khách hàng ngày càng đòi hỏi cao về chất lượng dịch vụ. Hơn nữa, khách hàng
hiện có nhiều lựa chọn và có quyền chuyển đổi nhà cung cấp dịch vụ nếu khơng hài
lịng. Mở rộng thị phần càng khó khăn và khái niệm khách hàng phát triển mới đang
dần thay đổi thành khách hàng chuyển từ nhà cung cấp dịch vụ khác chuyển sang.
Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễn thông đặt nhiệm
vụ giữ chân khách hàng ở chế độ ưu tiên cao thậm chí là ưu tiên hàng đầu vì chi phí

phải trả để có một khách hàng mới thường cao hơn nhiều so với chi phí bỏ ra để giữ
chân một khách hàng đang sử dụng. Vậy vấn đề mấu chốt bây giờ là tập trung quản
lý tập khách hàng có nguy cơ rời mạng.
Có 2 cách tiếp cận với việc quản lý khách hàng có nguy cơ rời mạng:
- Tiếp cận khơng có mục tiêu: Tăng chất lượng dịch vụ, liên tục cung cấp
các sản phẩm nổi trội và truyền thơng rộng rãi để tăng sự hài lịng của khách hàng
đang sử dụng đồng thời thu hút khách hàng từ các nhà cung cấp dịch vụ khác.
- Tiếp cận có mục tiêu: Xác định các khách hàng có khả năng rời mạng,
cung cấp cho họ những chương trình khuyến mãi riêng biệt, cải thiện chất lượng
dịch vụ để tăng sự hài lòng và giữ họ ở lại.
Cách tiếp cận có mục tiêu được chia thành 2 loại: bị động và chủ động.
- Bị động: Đợi khách hàng khiếu nại, liên hệ hủy dịch vụ sau đó áp dụng
các chương trình khuyến mãi để giữ họ ở lại.
- Chủ động: Các nhà cung cấp dịch vụ sẽ cố gắng xác định tập khách hàng
có nguy cơ rời mạng trong khoảng thời gian tiếp theo. Sau đó tiếp cận khách hàng,
tìm hiểu nguyên nhân và đưa ra các chương trình khuyến mãi, chăm sóc khách hàng
đặc biệt để giữ khách hàng khơng rời mạng. Phương pháp tiếp cận này có ưu điểm
và nhược điểm sau:


2

o Ưu điểm: Đối với tập khách hàng dự báo rời mạng, chi phí bỏ ra để
giữ họ ở lại sẽ thấp hơn chi phí bỏ ra khi khách hàng đã quyết định rời mạng (tiếp
cận bị động).
o Nhược điểm: Sẽ là lãng phí nếu tập khách hàng rời mạng được dự báo
khơng chính xác, khi đó chúng ta phải bỏ ra một khoản chi phí có thể rất lớn để thực
hiện khuyến mãi, chăm sóc những khách hàng thực tế khơng có nguy cơ rời mạng.
Để quản trị số liệu về khách hàng rời mạng áp dụng cho dịch vụ FiberVNN,
VNPT Tây Ninh đang quản trị theo tỷ lệ khách hàng rời mạng/khách hàng phát triển

mới, con số thực tế được thống kê trong 3 tháng 10/2022, 11/2022, 12/2022 lần lượt
là:
- Tháng 10/2022: Số khách hàng rời mạng: 480, số khách hàng phát triển
mới: 1,359 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 35%.
- Tháng 11/2022: Số khách hàng rời mạng: 655, số khách hàng phát triển
mới: 1,449 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 45%.
- Tháng 02/2022: Số khách hàng rời mạng: 669, số khách hàng phát triển
mới: 1,592 => tỷ lệ khách hàng rời mạng/khách hàng phát triển mới = 42%.
Mục tiêu là giữ cho tỷ lệ này ở mức độ cho phép (nhỏ hơn hoặc bằng 20%).
Như đã nói ở trên, trong bối cảnh thị trường viễn thơng đang ở giai đoạn bão hịa thì
việc duy trì tỷ lệ này ở mức thấp đồng nghĩa với việc phải giữ cho số khách hàng
rời mạng ở mức thấp. Tuy nhiên, nhìn vào các con số thực tế ta thấy tỷ lệ này đang
cao và dần tiến về 1. Càng cho thấy việc giữ cho khách hàng không rời mạng, cụ thể
hơn là có thể cảnh báo được danh sách khách hàng của nguy cơ rời mạng là vô cùng
cấp thiết.
Cùng với sự ra đời của chương trình Điều hành sản xuất kinh doanh để quản
lý các thông tin về khách hàng (áp dụng cho VNPT) và khả năng truy vấn cơ sở dữ
liệu trực tiếp, hướng nghiên cứu của đề tài là xây dựng một tập khách hàng bao gồm
các thuộc tính ảnh hưởng đến khả năng rời mạng của khách hàng như: độ hài lòng,
số lần báo hỏng, tình trạng nợ cước, độ ổn định dịch vụ, gói cước đang sử dụng, …
và áp dụng các kỹ thuật máy học vào việc phân tích tập khách hàng đã rời mạng, từ


3

đó dự báo được tập khách hàng đang sử dụng có khả năng rời mạng. Đó cũng là lý
do tơi chọn đề tài nghiên cứu “Dự báo khách hàng sử dụng dịch vụ FiberVNN
của VNPT Tây Ninh có nguy cơ rời mạng”.

2. Tổng quan về vấn đề cần nghiên cứu

Để có thể dự báo được chính xác hoặc tỷ lệ chính xác trong tập khách hàng
rời mạng là có thể chấp nhận được thì ta phải xác định được các thuộc tính, hành vi
của khách hàng có thể tác động đến khả năng rời mạng ví dụ như số lần báo hỏng
với tổng đài nhiều, thanh toán cước chậm, liên tục thay đổi gói cước, …Từ đó, ta có
thể phân tập được những khách hàng có khả năng rời mạng để có những chính sách
áp dụng phù hợp.
Từ những định hướng cụ thể như thế, tiến hành phân tích dữ liệu khách hàng
thu thập được từ chương trình quản lý hoạt động kinh doanh của tập đồn trang bị
(chương trình Điều hành sản xuất kinh doanh), tuy nhiên việc phụ thuộc chủ yếu
vào dữ liệu thu thập sẽ xảy ra các trường hợp dữ liệu thu thập về sai (thông tin sở
thích khách hàng, nhầm lẫn đối tượng khách hàng giữa khách hàng cá nhân và
khách hàng doanh nghiệp, tình trạng nợ cước của khách hàng, tốc độ và giá cước sử
dụng của khách hàng không đúng với hợp đồng…) dẫn đến dự báo sai cũng như áp
dụng sai chiến lược đã định hướng cho khách hàng.
Và cũng từ thực tiễn nói trên, việc xác định dữ liệu đầu vào để thực hiện
phân tích khách hàng là cực kỳ quan trọng. Công việc đặt ra là thực hiện công tác
quản lý khách hàng một cách nghiêm túc (kiểm tra kỹ thơng tin khách hàng khi có
hợp đồng mới, những thơng tin chưa biết thì có thể bỏ qua chứ khơng nhập thơng
tin khơng đúng với thực tế). Song song đó, cần rà soát những dữ liệu bất thường để
tiến hành chuẩn hóa trước khi đưa vào phân tích.

3. Mục đích nghiên cứu
Mục tiêu tổng quát
Mục tiêu chính của đề án là thu thập dữ liệu khách hàng đã rời mạng làm cơ
sở, phân tích và xây dựng cơng cụ có thể dự báo được khả năng rời mạng của các
khách hàng đang sử dụng.


4


Mục tiêu cụ thể
Thu thập các thông tin khách hàng từ chương trình Điều hành sản xuất kinh
doanh tập trung được Tập đoàn VNPT trang bị cho VNPT các tỉnh/thành phố.
- Nghiên cứu các phương pháp dự báo.
- Áp dụng các phương pháp dự báo đã nghiên cứu với tập khách hàng thu
thập được để đánh giá thuật toán, từ đó lựa chọn thuật tốn phù hợp để huấn luyện.
- Cung cấp danh sách khách hàng có nguy cơ rời mạng được dự báo cho bộ
phận kinh doanh để có chiến lược chăm sóc thích hợp nhằm giữ chân khách hàng.

4. Đối tượng và phạm vi nghiên cứu
Khách hàng sử dụng dịch vụ viễn thông cáp quang FiberVNN trên địa bàn
Tây Ninh.

5. Phương pháp nghiên cứu
- Tìm hiểu các thuật toán máy học và áp dụng thử trên tập khách hàng thu
thập được để tìm ra thuật tốn tối ưu cho việc dự báo.
- Sử dụng phần mềm Microsoft Azure Machine Learning để xây dựng mơ
hình phân tích và dự báo.

- Liên tục kiểm tra dữ liệu thu thập được để chuẩn hóa nếu xuất hiện trường
hợp dữ liệu các thuộc tính dùng để dự báo bị sai, lỗi làm nhiễu kết quả dự báo của
mơ hình.


5

Chương 1. TỔNG QUAN VỀ ĐỀ TÀI
Trong chương này sẽ trình bày các khái niệm về khách hàng rời mạng, tổng
quan về các phương pháp dự báo khách hàng rời mạng. Ngồi ra chương này cịn
trình bày về những dự án đã thực hiện về việc dự báo khách hàng sử dụng dịch vụ

có nguy cơ rời mạng trong và ngoài nước.

1.1.

Giới thiệu
Như đã đề cập ở phần trước, việc xác định được tập khách hàng có nguy cơ

rời mạng để xây dựng các phương án, chính sách nhằm giữ chân khách hàng là vô
cùng quan trọng. Bởi trong thị trường viễn thông hiện tại, cạnh tranh vô cùng khốc
liệt, việc giữ chân khách hàng giúp tăng uy tín, thương hiệu của nhà cung cấp, bên
cạnh đó chi phí để đầu tư cho một khách hàng mới sẽ cao hơn nhiều so với chi phí
bỏ ra để giữ chân khách hàng và việc bán dịch vụ cho một khách hàng mới cũng bị
ảnh hưởng bởi việc khách hàng cũ rời mạng.
Bảng 1.1: Chi phí phát triển một khách hàng mới
Loại chi phí

TT
1

Chi phí lắp đặt + hoa hồng

Chi phí
- Lắp đặt: 100.000 VNĐ/khách hàng
- Hoa hồng: 150.000 VNĐ/khách hàng

2

Dây mạng (50 mét)

8.000 VNĐ – 12.000 VNĐ/mét


3

Modem

800.000 VNĐ – 1.200.000 VNĐ

Tổng chi phí

1.450.000 VNĐ

Theo bảng chi phí trên, việc phát triển một khách hàng mới chi phí tối thiểu
bỏ ra là 1.450.000 VNĐ, trong khi đó nếu ta áp dụng chính sách giảm giá cước đối
với khách hàng lâu năm (VD: miễn/giảm cước cho khách hàng 3 tháng liền kề –
180.000 VNĐ/tháng). Ta có thể thấy chi phí để giữ chân một khách hàng thấp đáng
kể so với chi phí để phát triển một khách hàng mới.
Nhận thức được tầm quan trọng như trên, Tập đồn VNPT nói chung và
VNPT Tây Ninh nói riêng ln cố gắng giữ chân từng khách hàng một, tìm biện


6

pháp để kịp thời có những chính sách chăm sóc những khách hàng có nguy cơ rời
mạng.
Việc xây dựng một mơ hình áp dụng các thuật tốn phân cụm, máy học vào
tập khách hàng sử dụng dịch vụ viễn thông FiberVNN của VNPT tại địa bàn Tây
Ninh để dự báo tập khách hàng có nguy cơ rời mạng là vơ cùng quan trọng bởi nó
sẽ góp phần ổn định thị phần, nâng cao doanh thu cũng như uy tín của nhà cung cấp
dịch vụ. Do đó, khả năng áp dụng đề tài này vào thực tế rất khả thi. Tuy nhiên để cụ
thể hóa được các ý tưởng của đề tài, cần phải nắm chắc được các thuộc tính, đặc

trưng dữ liệu của khách hàng cũng như lựa chọn được các thuật toán phân cụm, dự
báo tối ưu nhất. Các bước thực hiện sẽ được chi tiết hóa ở các phần sau.

1.2.

Các nghiên cứu ngoài nước
Hiện nay, trên thế giới có rất nhiều nghiên cứu về việc áp dụng các mơ hình

máy học để dự báo khách hàng có nguy cơ rời bỏ trong lĩnh vực viễn thông cũng
như các lĩnh vực khác.
- Tác giả Ming Zhao [7] cùng các cộng sự từ Đại học kinh doanh và công
nghệ Trùng Khánh, Trung Quốc áp dụng thuật toán hồi quy logistic dựa trên dữ liệu
lớn về hoạt động khách hàng để xác định các khách hàng có khả năng rời mạng.
Nghiên cứu này tập trung vào đối tượng khách hàng mang lại doanh thu cao cho
ngành viễn thông Trung Quốc, bằng việc áp dụng thuật toán hồi quy logistic vào 5
chỉ số kỹ thuật được mô tả ở bảng 1.2, tác giả xác định được các xu hướng, nguyên
nhân của việc khách hàng rời bỏ đồng thời đưa ra câu trả lời cho các câu hỏi như
quá trình rời bỏ của khách hàng xảy ra như thế nào, các yếu tố ảnh hưởng đến sự rời
bỏ của khách hàng và cách doanh nghiệp giành lại những khách hàng đã rời bỏ.
Bảng 1.2: Ý nghĩa 5 chỉ số kỹ thuật được áp dụng
TT

Tên chỉ số

Ý nghĩa

1

Doanh thu bình quân (ARPU)


Doanh thu mang lại từ người dùng hàng tháng

2

Dữ liệu sử dụng (DOU)

Lưu lượng dữ liệu sử dụng trong tháng

3

Giá trị gói hiện tại

Giá trị gói cước đang sử dụng


7

4

Hợp đồng kinh doanh

5

Khiếu nại dịch vụ

Có ký hợp đồng dịch vụ băng thơng rộng hay
khơng. 1 = Có; 0 = Khơng
Người dùng có phàn nàn hay khiếu nại dịch vụ
trong tháng hay khơng. 1 = Có; 0 = Khơng


- Tác giả T.Vafeiadis [8] cùng các cộng sự đến từ Học viện Giáo dục Công
nghệ Alexander của Thessaloniki áp dụng thuật toán máy học như Artificial Neural
Networks, Decision Trees, Regression Analysis, Logistic Regression, Support
Vector Machines, … và các phiên bản tăng cường để tìm ra thuật tốn tối ưu nhất
nhằm dự báo chính xác khách hàng có nguy cơ rời mạng trong lĩnh vực viễn thông.
Tập dữ liệu áp dụng là tập khách hàng sử dụng dịch vụ di động với các thuộc tính
được mơ tả ở bảng 1.3. Các bước thực hiện như sau:
o Giai đoạn 1: Thử nghiệm tất cả các thuật toán đã đề cập ở trên với tập
dữ liệu khách hàng thu thập được.
o Giai đoạn 2: Áp dụng thuật toán tăng cường Adaptive Boosting vào
các thuật toán đã thử nghiệm. Thuật toán Adaptive Boosting thực hiện n lần huấn
luyện (n cho trước). Sau mổi lần huấn luyện, những điểm dữ liệu bị phân loại sai,
khó phân loại sẽ được đánh trọng số làm tiền đề cho việc lấy mẫu những lần huấn
luyện tiếp theo. Bằng cách này, sau n lần huấn luyện thì độ chính xác của mơ hình
sẽ được cải thiện.
Sau khi áp dụng thuật toán tăng cường Adaptive Boosting cho các thuật toán
đã áp dụng ở giai đoạn 1 thì độ chính xác của thuật toán SVM-POLY được cải thiện
cao nhất với độ chính xác 97% và chỉ số đo lường F là 84%.
Bảng 1.3: Ý nghĩa các thuộc tính được áp dụng
Tên chỉ số

TT

Kiểu dữ liệu

1

Account length (number of months active user)

Num


2

Total eve charge (total charge of evening calls)

Num

3

Area code

Num

4

Total night minutes (total minutes of night calls)

Num

5

International plan

Yes/No


8

6


Total night calls (total number of night calls)

7

Voice mail plan

8

Total night charge (total charge of night calls)

Num

9

Number vmail messages (number of voice-mail messages)

Num

10

Total intl minutes (total minutes of international calls)

Num

11

Total day minutes (total minutes of day calls)

Num


12

Total intl calls (total number of international calls)

Num

13

Total day calls (total number of day calls)

Num

14

Total intl charge (total charge of international calls)

Num

15

Total day charge (total charge of day calls)

Num

16

Number customer service calls (number of calls to customer
service)

Num

Yes/No

Num

17

Total eve minutes (total minutes of evening calls)

Num

18

Total eve calls (total number of evening calls)

Num

19

Churn (customer churn - target variable)

Yes/No

- Năm 2019, Tác giả Nasebah Almufadi [9] cùng các cộng sự đến từ Đại
học Qassim, Al-Mulaida, Ả Rập Saudi đã áp dụng các phương pháp học sâu để dự
đoán khách hàng sử dụng dịch vụ di động của một cơng ty viễn thơng có nguy cơ
rời mạng hay nói cách khác là chuyển từ nhà cung cấp dịch vụ này sang nhà cung
cấp dịch vụ khác. Trong nghiên cứu này, tập dữ liệu được sử dụng huấn luyện gồm
100 ngàn khách hàng với các thuộc tính như: cuộc gọi gần nhất, thời lượng cuộc
gọi, dung lượng dữ liệu sử dụng,… Trong đó, 86 ngàn khách hàng được phân lớp
non-churn (không rời bỏ) và 14 ngàn khách hàng phân lớp churn (rời bỏ dịch vụ).

Mơ hình được xây dựng và kết quả dự đốn với độ chính xác 96%. Cụ thể trong
nghiên cứu này, tác giả và cộng sự đã sử dụng phần mềm WEKA để tiền xử lý dữ
liệu tập khách hàng với hơn 48 thuộc tính. Sử dụng mơ hình Mạng nơ-ron tích chập
(CNN) để huấn luyện tập dữ liệu đã được tiền xử lý, chi tiết mơ hình được mơ tả ở
hình 1.1 và kết quả dự đốn được mơ tả ở bảng 1.4


9

Hình 1.1: Sơ đồ tổng quát các bước xây dựng mơ hình huấn luyện
Bảng 1.4: Kết quả dự đốn
Tên chỉ số

TT

Kết quả

1

Accuracy

0.965

2

Precision

0.917

3


Recall

0.998

4

F1-score

0.965

5

ROC AUC

0.955

6

AUC Precision-Recall Curve (PRC)

0.991

7

Cohens kappa

0.927

- Tác giả Junxiang Lu[10] cùng các cộng sự đến từ Công ty Sprint

Communications, Overland Park, Kansas, USA áp dụng thuật tốn phân tích sinh
tồn nhằm dự báo thời gian duy trì sử dụng dịch vụ nhà cung cấp của khách hàng
trong tương lai cũng như nguy cơ khách hàng sẽ rời bỏ nhà cung cấp dịch vụ để sử
dụng dịch vụ của nhà cung cấp khác. Sau khi dự đoán được thời gian sử dụng của
khách hàng trong tương lai, cũng như khách hàng có nguy cơ rời mạng, nhà cung
cấp dịch vụ sẽ tối ưu hóa được việc áp dụng các chiến lược nhằm giữ chân khách


10

hàng cũng như phân phối thời gian để thực hiện các chiến lược đó trên các tập
khách hàng khác nhau.
Theo nghiên cứu của tác giả thì tỷ lệ rời bỏ nhà cung cấp dịch vụ của khách
hàng trung bình 30-35% và chi phí để tìm kiếm phát triển một khách hàng mới cao
gấp 5-10 lần chi phí để giữ chân một khách hàng hiện hữu. Do đó, việc dự đốn
được khách hàng có nguy cơ rời mạng chính xác sẽ mang lại lợi ích rất lớn cho nhà
cung cấp.
Nghiên cứu này đề ra 2 mục tiêu thực hiện lần lượt. Thứ nhất, dựa vào các
thuộc tính đặc trưng của dữ liệu khách hàng, dự đoán được khách hàng nào sẽ rời
đi, khách hàng nào sẽ ở lại. Từ kết quả đạt được của mục tiêu thứ nhất, áp dụng kỹ
thuật phân tích sinh tồn để xác định khách hàng có nguy cơ rời bỏ cao và khi nào họ
sẽ rời bỏ nhà cung cấp dịch vụ.

1.3.

Các nghiên cứu trong nước
Việc áp dụng các thuật toán phân cụm, phân lớp, máy học để dự báo xuất

hiện nhiều ở các lĩnh vực như chứng khốn, bất động sản, viễn thơng,... Một số luận
văn áp dụng các thuật toán máy học để thực hiện dự báo khách hàng rời mạng như:

- Năm 2014, tác giả Nguyễn Thị Như Ngọc [1], Trường Đại học Công Nghệ
– Đại học Quốc gia Hà Nội dùng thuật toán cây quyết định C4.5, Naive Bayes,
Support Vector Machine và Neural Networks để phân lớp dự đoán thuê bao rời
mạng viễn thơng. Tác giả thực hiện phân tích các hoạt động, hành vi trước khi rời
mạng của các thuê bao bằng các phương pháp khai phá dữ liệu nhằm phát hiện
những yếu tố liên quan đến việc rời mạng của thuê bao. Với việc phân lớp dữ liệu
dùng các thuật tốn trên thì kết quả đạt được của dự án là khoản hơn 60%.
- Năm 2016, tác giả Nguyễn Như Thế [2], Trường Đại học Thái Nguyên đã
áp dụng các phương pháp phân lớp như cây quyết định C4.5, phương pháp Naive
Bayes, phương pháp Support Vector Machine để dự báo th bao rời mạng viễn
thơng. Trong bài tốn phân lớp này, tác giả thu thập dữ liệu thông tin thuê bao tại
nhà cung cấp dịch vụ viễn thông Mobifone Phú Thọ thể làm dữ liệu đầu vào mơ
hình dự báo, cụ thể các thông tin thuê bao như:


11

• Thơng tin khách hàng: tuổi, giới tính, loại hình thuê bao, đơn vị thu
cước, thời gian sử dụng dịch vụ.
• Thơng tin sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội
mạng, số cuộc gọi ngoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời
gian gọi ngoại mạng, thời gian gọi quốc tế, SMS.
• Thơng tin thanh tốn: cước gọi nội mạng, cước gọi ngoại mạng,
cước gọi quốc tế, cước SMS, cước Data, tổng tiền cước, số tiền được khuyến mãi,
tiền phải thanh tốn.
Các thơng tin trên được mơ tả qua 101 thuộc tính, qua q trình trích xuất
đặc trưng, tác giả chọn lọc được 20 thuộc tính ảnh hưởng trực tiếp đến q trình dự
báo để đưa vào mơ hình huấn luyện. Sử dụng phần mềm R để áp dụng các thuật
toán phân lớp như cây quyết định C4.5, Naive Bayes, Support Vector Machine tác
giả thu được kết quả như bảng 1.5 và hình 1.2

Bảng 1.5: Kết quả dự báo các phương pháp phân lớp
TT

Thuật toán

Precision

Recall

F1 Score

1

Cây quyết định C4.5

93.58%

65.17%

76.83%

2

Naive Bayes

52.67%

66.67%

58.84%


3

Support Vector Machine

14.28%

100%

24.99%

Hình 1.2: Kết quả dự báo các phương pháp phân lớp


12

Từ kết quả thực nghiệm cho thấy phương pháp Cây quyết định C4.5 có kết
quả dự báo tốt nhất và đây cũng là phương pháp tác giả áp dụng để dự báo khách
hàng sử dụng dịch vụ của nhà cung cấp dịch vụ Mobifone Phú Thọ có nguy cơ rời
mạng.
- Năm 2018, tác giả Lê Trương Trọng Duy [3], Trường Đại học Bách Khoa
TP HCM đã áp dụng mơ hình mạng hỗn hợp Nơron nhân tạo (ANN) kết hợp cây
quyết định (Decision Tree) để dự báo khách hàng rời mạng viễn thơng cho luận văn
thạc sĩ của mình. Cụ thể, tác giả sử dụng mơ hình Mạng Nơron nhân tạo (ANN) để
thu giảm tập huấn luyện, sau đó áp dụng mơ hình cây quyết định để dự báo tập dữ
liệu đã được thu giảm. Qua kết quả thực nghiệm, tác giả cho thấy sự hiệu quả của
việc kết hợp Mạng Nơron nhân tạo và Cây quyết định sẽ cho thời gian thực thi
nhanh hơn, độ chính xác tốt hơn so với giải thuật kết hợp ANN + ANN.
- Năm 2019, tác giả Đồn Văn Tâm [4], Trường Đại học Cơng Nghệ - Đại
học Quốc gia Hà Nội đã đề xuất một kỹ thuật dựa trên việc kết hợp nhiều phương

pháp học máy cũng như trích xuất các đặc trưng nổi trội cho các hành vi tiêu dùng
viễn thông nhằm làm tăng độ chính xác của mơ hình dự đốn trong bài tốn “Xây
dựng mơ hình dự đốn khách hàng tiềm năng cho các gói cước trong mạng di
động”. Trong bài tốn này, tác giả sử dụng đầu vào là thơng tin của khách hàng bao
gồm thông tin nhân khẩu học và thơng tiêu dùng hàng tháng, vị trí ghi nhận doanh
thu nhiều nhất, danh sách các gói cước viễn thơng đang sử dụng để dự báo khách
hàng có phải là khách hàng tiềm năng hay không. Cụ thể tác giả sử dụng công cụ
khai phá dữ liệu Knime để áp dụng các thuật toán như KNN, SVM, cây quyết định
trên tập dữ liệu gồm 26 thuộc tính đặc trưng được trích xuất trong q trình tiền xử
lý dữ liệu. So với kết quả thực nghiệm của từng thuật tốn thì phương pháp kết hợp
cả 3 thuật toán cho kết quả tốt hơn. Các bước thực hiện mơ tả ở hình 1.3.


13

Hình 1.3: Mơ hình dự báo khách hàng tiềm năng
- Năm 2021, tác giả Nguyễn Xuân Sang [5], Học viện Cơng nghệ Bưu
chính Viễn Thơng HCM đã áp dụng thuật toán Logistic Regression và Support
Vector Machine trong luận văn thạc sĩ “Cải tiến thuật toán SVM với SVM song
song, ứng dụng vào phân lớp và dự báo số khách hàng sử dụng di động”. Trong
luận văn này, tác giả thu thập dữ liệu khách hàng sử dụng dịch vụ di động trả trước
của nhà cung cấp dịch vụ Vinaphone tại địa bàn Tây Ninh gồm các thông tin như
thông tin thuê bao, thông tin tiêu dùng tài khoản, thông tin nạp thẻ, thông tin sử
dụng các dịch vụ thoại, tin nhắn, giá trị gia tăng,…Thời gian thu thập từ tháng
07/2019 đến tháng 12/2019, chi tiết các thuộc tính được mơ tả ở bảng 1.6. Bằng
cách áp dụng nhiều thuật toán vào mơ hình dự báo thì tác giả thu được kết quả như
bảng 1.7. Từ kết quả thực nghiệm được, cho thấy mơ hình kết hợp Logistic
Regression và Support Vector Machine dự báo kết quả tốt nhất.
Bảng 1.6: Mô tả các trường dữ liệu
STT


Mô tả

Kiểu dữ liệu

1

Nơi phát sinh cước

Chuỗi

2

Số điện thoại

Chuỗi

3

Gói dịch vụ

Chuỗi


14

4

Thời gian bắt đầu hoà mạng


Ngày giờ

5

Khu vực phát sinh cước

Chuỗi

6

Tài khoản chính

Số thực

7

Doanh thu gọi nội mạng tài khoản chính

Số thực

8

Doanh thu gọi nội mạng tài khoản khuyến
mãi

Số thực

9

Doanh thu sms nội mạng tài khoản chính


Số thực

10

Doanh thu sms nội mạng tài khoản khuyến
mãi

Số thực

17

Tài khoản còn lại

Số thực

18

Số lượng cuộc thoại chiều đi

Số nguyên

19

Số lượng lưu lượng thoại chiều đi

Số nguyên

20


Số lượng lưu lượng thoại chiều đến

Số nguyên

21

Số lượng SMS chiều đi

Số nguyên

22

Số lượng SMS chiều đến

Số nguyên

23

Số tiền nạp thẻ

Số thực

24

Số lượng thẻ nạp

Số nguyên

25


Tháng

26

Trạng thái rời mạng

Số nguyên
1: Rời mạng
-1: Không rời mạng

Bảng 1.7: Kết quả dự báo của các mơ hình
Mơ hình

Độ chính xác

Thời gian(s)

Logistic Regression

0.830

10.2433

SVM

0.828

36.0965

Logistic Regression + Naïve Bayes


0.831

10.3104

Logistic Regression + Random Forest

0.787

11.8493

Logistic Regression + SVM

0.914

50.4576

Logistic Regression + ThunderSVM

0.914

9.36385


15

Tại hội nghị FAIR 2022:
- Tác giả Phạm Thị Thu Thúy [9] cùng các cộng sự trường Đại học Nha
Trang đã trình bày cơng trình “Application of the promotion model based customer
lifetime value to prevent customers transfer network in VNPT Lam Dong”. Trong

cơng trình này, các tác giả đã áp dụng các thuật toán như Decision Tree, XGBoost,
LightGBM, KNeighbors và Random Forest để phân loại khách hàng và tính tốn
giá trị khuyến mãi cho khách hàng dựa vào các tham số đầu vào như độ tuổi khách
hàng, thời gian sử dụng, số lần báo hỏng dịch vụ, … Sau khi áp dụng các thuật toán
trên và so sánh kết quả, nhóm tác giả đã quyết định cải tiến thuận tốn LightGBM
để thực hiện yêu cầu của bài toán.
- Tác giả Vũ Văn Hiệu [6] cùng các cộng sự Viện Công nghệ thông tin,
Viện Hàn lâm Khoa học và công nghệ Việt Nam, Học viện Chính sách và Phát triển
đã trình bày cơng trình “Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ
dịch vụ tại Ngân hàng thương mại”. Trong cơng trình này, tác giả đề xuất mơ hình
học kết hợp (Stacking) cho dự đốn khách hàng rời bỏ dịch vụ của ngân hàng sử
dụng mơ hình học kết hợp gồm hai cấp: với cấp 0 gồm bốn mơ hình cơ sở gồm K
láng giềng gần nhất (KNN), XGBoost (XGB), rừng ngẫu nhiên (RDF) và máy hỗ
trợ vector (SVM) và cấp 1 lần lượt gồm ba mô hình là hồi quy logistic (LR), mạng
neural hồi quy (RNN) và mạng neural học sâu (DNN). Phương pháp đề xuất đã thu
được kết quả tốt với các chỉ số accuracy là 95.36%, recall là 95.57%, precision là
95.45% và F1 score là 95.51%. Các bước xây dựng mơ hình và thực hiện huấn
luyện được mơ tả ở hình 1.4.

Hình 1.4: Tiến trình thực hiện của mơ hình đề xuất


16

Qua một số cơng trình nghiên cứu trong nước và ngoài nước về dự báo khách
hàng rời bỏ dịch vụ như đã mơ tả ở trên, ta có thể thấy để giải quyết bài tốn này có
2 lĩnh vực: Học sâu (deep learning) và máy học (machine learning)
- Với học sâu: yêu cầu một lượng lớn dữ liệu huấn luyện để có hiệu suất tốt,
q trình học là tự động học từ dữ liệu mà ko cần có sự can thiệp của con người.
- Với máy học: có thể hoạt động tốt với ít dữ liệu hơn tuy nhiên cần sự can

thiệp của con người để lựa chọn các đặc trưng phù hợp với bài tốn.
Cụ thể, trong khn khổ đề án này, để dự báo khách hàng sử dụng dịch vụ
viễn thơng trên địa bàn Tây Ninh có nguy cơ rời mạng ta có lượng dữ liệu khơng
q lớn (khoảng 150 ngàn dịng dữ liệu) bên cạnh đó để mơ hình dự báo tốt ta cần
phải trích xuất các thuộc tính đặc trưng của dữ liệu, tránh những thuộc tính gây
nhiễu kết quả - điều này cần phải có kiến thức về nghiệp vụ khách hàng cũng như
có kinh nghiệm xử lý dữ liệu thu thập được mới đảm bảo tập dữ liệu đưa vào huấn
luyện là cô đọng và tối ưu nhất.
Cũng trong các nghiên cứu ở trên, việc áp dụng các thuật toán tăng cường
Adaptive Boosting sẽ cải tiến đáng kể kết quả dự báo của mô hình. Và Azure
Machine Learning là một phần mềm máy học tích hợp hầu như tất cả các thuật tốn
dự báo bao gồm cả các thuật toán được cải tiến bằng cách áp dụng thêm các thuật
toán tăng cường, .
Từ hai lý do trên, hướng tiếp cận của đề án sẽ là sử dụng phần mềm Azure
Machine Learning để xây dựng mơ hình dự báo th bao rời mạng với các thuật
tốn máy học đã được tích hợp thuật tốn tăng cường Adaptive Boosting.


×