Tải bản đầy đủ (.pdf) (73 trang)

Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.91 MB, 73 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

ĐẶNG VÕ THỪA PHONG

HỖ TRỢ CHĂM SÓC KHÁCH HÀNG DỰA
VÀO HỌC MÁY CHO DOANH NGHIỆP
VIỄN THÔNG

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

ĐẶNG VÕ THỪA PHONG

HỖ TRỢ CHĂM SÓC KHÁCH HÀNG DỰA
VÀO HỌC MÁY CHO DOANH NGHIỆP
VIỄN THÔNG
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ:
8.48.01.04

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)



NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TÂN HẠNH

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


i

LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Tôi xin cam đoan rằng tất cả các nội dung và kết quả được trình bày trong
đề án này là sự thực hiện của chính tơi sau q trình nghiên cứu, phân tích và đánh
giá dưới sự hướng dẫn trực tiếp của Thầy TS Tân Hạnh.
2. Tôi đảm bảo không sao chép hay biên soạn từ bất kỳ nguồn tài liệu nào
khác mà không được ghi rõ trong đề án. Nếu có bất kỳ thông tin nào được thu thập
từ nguồn khác, tôi đã trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách
nhiệm.

Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Đặng Võ Thừa Phong


ii

LỜI CÁM ƠN
Trước tiên, tôi xin gửi lời cảm ơn và biết ơn sâu sắc đến Thầy TS Tân Hạnh

– người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ trong suốt thời gian nghiên cứu đề
án. Và cũng là người đưa ra những ý tưởng, kiểm tra sự phù hợp của đề án. Sự
hướng dẫn và góp ý của thầy sẽ là nền tảng để tơi có thể hồn thiện bài tốn hỗ trợ
dự báo chăm sóc khách hàng cho doanh nghiệp viễn thông.
Tôi cũng muốn cảm ơn đến Q Thầy Cơ Học viện Cơng Nghệ Bưu Chính
Viễn Thơng cơ sở tại TP.HCM, đã giúp đỡ tôi trong việc phát triển các kỹ năng
liên quan đến công nghệ thông tin trong suốt quá trình học tập tại Học Viện.
Cũng xin gửi lời cám ơn đến VNPT Tây Ninh đã tạo điều kiện để tôi tham
gia học tập cũng như hỗ trợ các vấn đề liên quan để hoàn thành đề án.
Cuối cùng tôi xin gửi lời cám ơn đến Cha Mẹ, gia đình, người thân, bạn bè và
đồng nghiệp đã quan tâm, ủng hộ trong suốt quá trình học tập cao học.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng có thể.
Tuy nhiên sẽ khơng tránh khỏi những thiếu sót. Tơi rất mong nhận được sự cảm
thơng và tận tình chỉ bảo của q thầy cơ và tồn thể các bạn.
Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Đặng Võ Thừa Phong


iii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................i
LỜI CÁM ƠN ........................................................................................................ii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .......................................... v
DANH SÁCH HÌNH VẼ ...................................................................................... vi
DANH SÁCH BẢNG ........................................................................................... vii
MỞ ĐẦU ................................................................................................................ 1
1. Lý do chọn đề tài .......................................................................................... 1

2. Mục đích nghiên cứu .................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu ................................................................. 2
4. Phương pháp nghiên cứu .............................................................................. 3
5. Ý nghĩa khoa học và thực tiễn ...................................................................... 3
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT ................................................................... 5
1.1 Khái niệm B2A ............................................................................................. 5
1.2 Tổng quan về B2A tại các doanh nghiệp viễn thông .................................. 6
1.2.1 Lý do cần phải thực hiện B2A ................................................................. 6
1.2.2 Doanh thu đạt được từ 2 loại khách hàng ................................................. 7
1.2.3 Các nội dung công việc B2A ................................................................... 7
1.3 Tổng quan về học máy ................................................................................. 8
1.3.1 Khái niệm .............................................................................................. 10
1.3.2 Phân loại kỹ thuật học máy .................................................................... 11
1.4 Các cơng trình nghiên cứu trong nước ..................................................... 12
1.4.1 Áp dụng kỹ thuật khai phá dữ liệu dự báo thuê bao rời mạng trong mạng
di động ........................................................................................................... 12
1.4.2 Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại
ngân hàng với thuật toán phân lớp Naive Bayes và C4.5 ................................ 12
1.5 Các cơng trình nghiên cứu ngồi nước ..................................................... 12
1.5.1 Sử dụng kiến thức phụ trợ để hỗ trợ phân loại cây quyết định của dữ liệu
lâm sàng trong cấp cứu. .................................................................................. 12
1.5.2 So sánh các kỹ thuật học máy để dự đoán khả năng ............................... 13
CHƯƠNG 2: KỸ THUẬT HỌC MÁY CHO PHÂN LỚP DỮ LIỆU ............. 14


iv

2.1 Bài toán phân lớp dữ liệu ........................................................................... 14
2.1.1 Khái niệm về bài toán phân lớp dữ liệu .................................................. 14
2.1.2 Các bước giải quyết bài toán phân lớp dữ liệu ....................................... 15

2.1.3 Các độ đo để đánh giá mơ hình phân lớp dữ liệu .................................... 16
2.2 Thuật toán cây quyết định ......................................................................... 17
2.2.1 Giới thiệu .............................................................................................. 18
2.2.2 Xây dựng Cây quyết định dựa trên Entropy ........................................... 19
2.3 Thuật toán rừng ngẫu nhiên ...................................................................... 20
2.4 Thuật toán C4.5 .......................................................................................... 22
2.5 Thuật toán SVM ......................................................................................... 24
2.5.1 Giới thiệu về bài toán ............................................................................ 24
2.5.2 Margin ................................................................................................... 26
2.6 Logistic Regression .................................................................................... 26
2.6.1 Giới thiệu về bài toán Logistic ............................................................... 27
2.6.2 Hàm Sigmoid......................................................................................... 27
2.7 Thư viện Scikit-learn ................................................................................. 28
CHƯƠNG 3: XÂY DỰNG MƠ HÌNH ............................................................... 30
3.1 Bài toán đề xuất B2A tại VNPT ................................................................. 30
3.2 Xây dựng mơ hình ...................................................................................... 30
3.3 Chuẩn bị và tiền xử lý dữ liệu.................................................................... 32
3.4 Tiến hành thực hiện dự đốn dữ liệu ........................................................ 39
3.4.1 Dự đốn bằng mơ hình LR ..................................................................... 39
3.4.2 Dự đoán bằng SVM ............................................................................... 40
3.4.3 Dự đoán bằng Random Forest................................................................ 41
3.4.4 Dự đoán bằng Decision Tree ................................................................. 41
3.5 Kết quả dự đoán và đánh giá ..................................................................... 42
3.5.1 Độ chính xác của thuật tốn ................................................................... 42
3.5.2 Kết quả dự đoán và đánh giá .................................................................. 43
KẾT LUẬN .......................................................................................................... 45
1. Kết quả đạt được .......................................................................................... 45
2. Hướng phát triển.......................................................................................... 46
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ................................................... 47



v

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

CNTT

Information Technology

Công nghệ thông tin

PDF

Portable Document Format

Định dạng văn bản đơn giản

CSDL

Database

Cơ sở dữ liệu

ANN


Artificial Neural Network

Mạng nơ-ron nhân tạo

DT

Decision Tree

Cây quyết định

RF

Random Forest

Rừng ngẫu nhiên

SVM

Support Vector Machines

Máy vector hỗ trợ

AI

Artificial Intelligence

Trí tuệ nhân tạo

ACC


Accuracy

Mức chính xác

Business to anyone

Kinh doanh cho bất cứ ai

Business to anyone at home

Kinh doanh cho bất cứ ai tại nhà

Internet Service Provider

Nhà cung cấp dịch vụ internet

B2A
ISP


vi

DANH SÁCH HÌNH VẼ
Hình 1.1: Biểu đồ doanh thu từ khách hàng mới và hiện hữu ................................... 7
Hình 2.1: Xây dựng mơ hình phân lớp dữ liệu ....................................................... 15
Hình 2.2: Q trình kiểm tra đánh giá mơ hình phân lớp dữ liệu ............................ 16
Hình 2.3: Mơ hình cây quyết định ......................................................................... 18
Hình 2.4: Thuật tốn rừng ngẫu nhiên ................................................................... 21
Hình 2.5: Các điểm dữ liệu được phân cách bởi 2 lớp ............................................ 25
Hình 2.6: Biên độ của 2 lớp phân cách .................................................................. 26

Hình 3.2: Dữ liệu thực tế tại Tây Ninh ................................................................... 32
Hình 3.3: Kết quả làm sạch dữ liệu ........................................................................ 38
Hình 3.4: Scaling dữ liệu ....................................................................................... 38
Hình 3.5: Mức độ tương quan trong các trường dữ liệu ......................................... 39
Hình 3.6: Các trường dữ liệu được lựa chọn .......................................................... 39
Hình 3.7: Biểu đồ so sánh mức chính xác của 4 thuật tốn phân lớp ...................... 43
Hình 3.8: Kết quả B2A qua module ĐHSX tại VNPT Tây Ninh ............................ 43


vii

DANH SÁCH BẢNG
Bảng 3.1: Mô tả dữ liệu Internet của VNPT Tây Ninh ........................................... 33
Bảng 3.2: Mô tả dữ liệu sau khi thực hiện làm sạch ............................................... 36
Bảng 3.3: Độ chính xác của mơ hình LR ............................................................... 39
Bảng 3.4: Độ chính xác của mơ hình SVM ............................................................ 40
Bảng 3.5: Độ chính xác của mơ hình Random Forest............................................. 41
Bảng 3.6: Độ chính xác của mơ hình Decision Tree .............................................. 41
Bảng 3.7: Bảng ma trận ......................................................................................... 42
Bảng 3.8: Cách tính độ chính xác accuracy............................................................ 43
Bảng 3.9: Kết quả dự đoán của các mơ hình .......................................................... 43


1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại hiện nay, khi Internet đang trải qua một giai đoạn phát triển
không ngừng, việc kết nối và tận dụng Internet đã trở nên đa dạng và phong phú
hơn bao giờ hết. Vì thế, việc đảm bảo chất lượng dịch vụ (QoS - Quality of Service)

ngày càng phải được nâng cao. Cùng với sự xuất hiện của các nhà cung cấp dịch vụ
viễn thơng, việc duy trì mối quan hệ với khách hàng trong bức tranh rất đa dạng của
các nhà cung cấp dịch vụ (ISP) đã trở thành một yếu tố cần thiết. Điều này đồng
nghĩa với việc, ngoài việc cung cấp các dịch vụ đa dạng và phong phú cho người
dùng, các nhà cung cấp dịch vụ viễn thông cần phải đảm bảo rằng họ đáp ứng đầy
đủ các yếu tố để khách hàng tiếp tục lựa chọn sử dụng các dịch vụ này.
Đối với nhà cung cấp dịch vụ như VNPT Tây Ninh, việc chăm sóc khách
hàng là một trong những ưu tiên hàng đầu, và doanh nghiệp VNPT gọi cơng việc
này là B2A (chăm sóc và tri ân khách hàng toàn diện đến từng nhà) [18]. Với một
hệ thống kinh doanh có rất nhiều khách hàng, việc chăm sóc riêng biệt cho từng
khách hàng gần như là khơng thể. Các doanh nghiệp Viễn thơng cần phải có kế
hoạch và chiến lượt cụ thể cho từng khách hàng. Để phân tích chi tiết và chọn lọc
từng khách hàng là rất khó khăn với số lượng thơng tin vơ cùng lớn. Vì vậy việc áp
dụng các kỹ thuật học máy để phân loại và dự đoán các trường hợp nên được chăm
sóc vơ cùng cần thiết. Trong đề án này sẽ tiến hành nghiên cứu việc áp dụng mạng
nơron vào việc hỗ trợ phân loại và đề xuất các khách hàng cần được chăm sóc dựa
trên việc học có giám sát.

2. Mục đích nghiên cứu
Đề án sẽ tập trung vào tìm hiểu, phân tích mơ hình dữ liệu thơng tin khách
hàng từ hệ thống dữ liệu tập trung của VNPT Tây Ninh kết hợp với các kỹ thuật học
máy để đề xuất các khách hàng nào cần được vào đợt B2A (Business to anyone)
cho người quản trị. Từ đó giúp giảm bớt việc phải chọn lọc khách hàng một cách
nhân cơng và bỏ sót rất nhiều khách hàng thật sự cần được chăm sóc.


2

Mục tiêu của đề án là xây dựng một ứng dụng áp dụng kỹ thuật học máy hỗ
trợ xác định khách hàng của VNPT Tây Ninh cần chăm sóc.

Ứng dụng hỗ trợ chăm sóc khách hàng có chức năng:
-

Tiền xử lý dữ liệu khách hang và trích đăc trưng.

-

Huấn luyện dữ liệu để tạo ra mơ hình xác định khách hang.

-

Xác định các khách hang cần chăm sóc.

-

Báo cáo tổng hợp, thống kê.

3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
-

Nghiên cứu tìm hiểu xác định các tiêu chí khiến khách hàng hài lịng sau đợt
B2A trên địa bàn VNPT Tây Ninh. Điều này đề cập đến quá trình nghiên cứu
và khảo sát để xác định những yếu tố cụ thể và tiêu chí quan trọng, góp phần
làm cho khách hàng cảm thấy hài lòng sau khi trải qua dịch vụ B2A tại khu
vực VNPT Tây Ninh. Nghiên cứu này có thể bao gồm việc thu thập phản hồi
từ khách hàng, khảo sát ý kiến, và phân tích dữ liệu để xác định những điểm
mạnh và yếu trong quá trình cung cấp dịch vụ B2A. Mục tiêu cuối cùng là
định rõ những điểm cần cải thiện hoặc tối ưu hóa để tăng cường sự hài lịng
của khách hàng.


-

Các khách hàng trong các đợt B2A là những khách hàng sử dụng dịch vụ
Internet, được phân thành khách hàng doanh nghiệp và cá nhân, và cả 2 dạng
đều nằm trong nhóm các khách hàng cần được chăm sóc B2A.

-

Các kỹ thuật phân tích dữ liệu dựa vào học máy giúp phân lớp, gom cụm, và
các thuật toán để học máy các tập dữ liệu lớn như cây quyết định, rừng ngẫu
nhiên. Điều này giúp trích xuất thơng tin hữu ích và hỗ trợ quyết định từ dữ
liệu phức tạp và rộng lớn.
Phạm vi nghiên cứu:

-

Sử dụng các thông tin từ các yêu cầu/ hoạt động của khách hàng như: Khiếu
nại, nợ cước, báo hỏng… tại VNPT Tây Ninh.

-

Khách hàng thuê bao Internet tại VNPT Tây Ninh.


3

4. Phương pháp nghiên cứu
Chủ đề này đang áp dụng các phương pháp nghiên cứu lý thuyết để thực hiện
phân tích dữ liệu, cùng với việc phát triển một ứng dụng nhằm thực hiện quá trình

phân lớp và đưa ra các đề xuất về việc chăm sóc khách hàng.
-

Thu thập các tài liệu có liên quan đến đề tài, các phương pháp giám sát phân
tích và đưa ra dự báo.

-

Ứng dụng các thuật toán học máy vào xử lý dữ liệu áp dụng cho nhà cung
cấp dịch vụ VNPT Tây Ninh.

5. Ý nghĩa khoa học và thực tiễn
Đề án này mang ý nghĩa khoa học quan trọng bởi việc tập trung vào việc
phân tích và hiểu sâu về số liệu thu thập tại VNPT Tây Ninh. Mục tiêu chính của đề
án là xác định mức độ tương quan giữa các yếu tố ảnh hưởng và trải nghiệm sử
dụng dịch vụ của khách hàng. Bằng cách thực hiện việc phân tích này, đề án có thể
đưa ra cái nhìn tổng quan về các yếu tố có vai trị quan trọng trong việc tạo nên trải
nghiệm của khách hàng khi sử dụng dịch vụ của VNPT Tây Ninh.
Qua việc áp dụng các phương pháp học máy như hồi quy logistic (LR), máy
vector hỗ trợ (SVM), và rừng ngẫu nhiên, đề án mở ra cánh cửa cho việc ứng dụng
công nghệ tiên tiến để dự đoán và xác định tập khách hàng cần được chăm sóc.
Điều này có thể giúp tổ chức như VNPT Tây Ninh tập trung chăm sóc và cải thiện
trải nghiệm của những khách hàng này, đồng thời tối ưu hóa chiến lược kinh doanh.
Bên cạnh đó, việc sử dụng các phương pháp học máy để phân tích số liệu và
dự đốn có thể đem lại những kết quả chính xác hơn và khả năng dự đoán tốt hơn
về tương lai. Điều này có thể góp phần quan trọng trong việc định hình chiến lược
và quyết định kinh doanh của VNPT Tây Ninh dựa trên dữ liệu thực tế và dự đốn
có cơ sở.
Tóm lại, đề án này khơng chỉ mang ý nghĩa trong việc nâng cao hiểu biết về
tương quan giữa yếu tố ảnh hưởng và trải nghiệm khách hàng mà cịn mở ra cơ hội

áp dụng cơng nghệ và phân tích dữ liệu để cải thiện trải nghiệm và tối ưu hóa kinh


4

doanh. Từ những lý do trên, tôi xin lựa chọn đề tài nghiên cứu " Hỗ trợ chăm sóc
khách hàng dựa vào học máy cho doanh nghiệp Viễn Thông ".
Ý nghĩa thực tiễn: Tạo ra một mơ hình dự đốn cho tập khách hàng cần chăm
sóc, có thể được áp dụng để cung cấp tư vấn chăm sóc cho đơn vị, và hướng dẫn
trong việc phát triển chính sách và dịch vụ ứng phó.
Bên cạnh các phần như giới thiệu, mục lục, kết luận, tài liệu tham khảo, phụ
lục, phần chính của đề án chia thành ba chương như sau:
Chương 1 – Cơ sở lý thuyết.
Chương 2 – Kỹ thuật học máy cho phân lớp dữ liệu.
Chương 3 – Xây dựng mơ hình dự đốn tập khách hàng cần chăm sóc B2A.
Phân tích và đánh giá kết quả đạt được.


5

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 Khái niệm B2A
B2A, viết tắt của "Business-to-Anyone," [18] là một khái niệm trong lĩnh vực
thương mại điện tử, thể hiện mối quan hệ giữa doanh nghiệp (business) và bất kỳ cá
nhân hoặc hộ gia đình nào (anyone). B2A đặc biệt nhấn mạnh việc doanh nghiệp
cung cấp sản phẩm, dịch vụ và tương tác trực tiếp với mọi người, không chỉ giới
hạn trong khách hàng truyền thống mà còn bao gồm cả các cá nhân không liên quan
trực tiếp đến doanh nghiệp.
Tại nhà khách hàng, khái niệm B2A ám chỉ việc các doanh nghiệp tương tác
trực tiếp với mọi cá nhân hoặc hộ gia đình tại nơi ở của họ để cung cấp sản phẩm,

dịch vụ. Việc này không chỉ đem lại tiện lợi mà còn thể hiện tầm quan trọng của
từng khách hàng. Nhân viên đến tận nhà chăm sóc mang đến sự gần gũi, tạo cơ hội
tương tác trực tiếp và tạo dựng mối quan hệ mạnh mẽ hơn. Khách hàng cảm nhận
được sự chăm sóc cá nhân và đội ngũ nhân viên tận tâm trong việc đáp ứng mọi nhu
cầu. Từ việc này, doanh nghiệp xây dựng lòng tin, gắn kết với khách hàng và thậm
chí tạo ra sự phát triển dựa trên sự tận tâm và chất lượng dịch vụ tại chính nơi khách
hàng cảm nhận.
Ví dụ về B2A tại nhà khách hàng có thể là:
 Nhân viên y tế sẽ đến tận nhà để cung cấp dịch vụ chăm sóc sức khỏe cho
người già hoặc bệnh nhân, sau đó giới thiệu thêm các dịch vụ y tế.
 Nhân viên dịch vụ sửa chữa sẽ đến tận nhà để khắc phục sự cố cho các thiết
bị hoặc sản phẩm mà khách hàng đã báo lỗi, đồng thời giới thiệu các dịch vụ
khác.
B2A tại nhà khách hàng mang lại lợi ích về sự tiện lợi, mở cửa cho tất cả mọi
người có thể tiếp cận sản phẩm và dịch vụ một cách dễ dàng, tiện lợi. Đồng thời, nó
cũng giúp doanh nghiệp mở rộng phạm vi tiếp cận thị trường và tạo cơ hội tương
tác với mọi người trong danh sách khách hàng.


6

1.2 Tổng quan về B2A tại các doanh nghiệp viễn thông
1.2.1 Lý do cần phải thực hiện B2A
Trong thời gian hiện nay, các doanh nghiệp cung cấp dịch vụ đã thấy rằng
việc duy trì khách hàng trở thành một chiến lược quan trọng, phản ánh triển vọng
dài hạn. Trong bối cảnh cạnh tranh ngày càng khốc liệt, mất gấp năm hoặc sáu lần
chi phí để thu hút một khách hàng mới so với việc duy trì một khách hàng hiện tại.
Khách hàng trung thành đặc biệt quan trọng vì họ mang đến sự ổn định về số lượng
cần thiết để duy trì hoạt động sản xuất và đảm bảo nguồn thu nhập cho doanh
nghiệp. Họ là những khách hàng có khả năng bảo vệ uy tín của thương hiệu và tiếp

tục ủng hộ doanh nghiệp. Hơn nữa, họ sẵn sàng tha thứ nếu đơi khi doanh nghiệp
gặp lỗi lầm.
Chính vì thế B2A được hình thành với mục đính là giữ mối quan hệ với
khách hàng, việc chăm sóc khách hàng tận nhà cũng giúp các doanh nghiệp tiếp cận
được với khách hàng tiềm năng và tăng cường quan hệ với khách hàng hiện tại. Khi
nhân viên B2A đến tận nhà khách hàng, họ có cơ hội để tương tác và trò chuyện
trực tiếp với khách hàng, hiểu rõ nhu cầu và yêu cầu của họ. Việc này thúc đẩy
doanh nghiệp cải tiến cả sản phẩm và dịch vụ của họ để đáp ứng chính xác nhu cầu
của khách hàng, tạo ra sự phân biệt trong môi trường cạnh tranh. Hơn nữa, việc
cung cấp chăm sóc tận nhà giúp xây dựng hình ảnh tích cực về thương hiệu và làm
tăng sự tin tưởng từ phía khách hàng. Khi khách hàng được đối xử tốt và hài lòng
với dịch vụ, họ sẽ chia sẻ trải nghiệm đó với người khác và giới thiệu sản phẩm và
dịch vụ của doanh nghiệp đến mọi người. Điều này giúp tăng khả năng tiếp cận và
tăng doanh số bán hàng của các doanh nghiệp.


7

1.2.2 Doanh thu đạt được từ 2 loại khách hàng

35%
Khách hàng mới
Khách hàng hiện hữu
65%

Hình 1.1: Biểu đồ doanh thu từ khách hàng mới và hiện hữu

Tỷ lệ doanh thu bán được từ hai loại khách hàng - khách hàng hiện hữu và
khách hàng mới, được biểu thị dưới dạng phần trăm. Trong trường hợp này, tỷ lệ
doanh thu bán được từ khách hàng hiện hữu là 65% và từ khách hàng mới là 35%.

Trong tổng doanh thu bán được, 65% là doanh thu mà doanh nghiệp thu được
từ các khách hàng hiện hữu - các khách hàng đã từng mua sản phẩm/dịch vụ và đã
có mối quan hệ với doanh nghiệp trong thời gian dài. Tỷ lệ này cao hơn so với tỷ lệ
35% của khách hàng mới, cho thấy một phần quan trọng của doanh thu đến từ việc
giữ chân và phát triển khách hàng hiện hữu.
Chính vì thế, các doanh nghiệp viễn thông đặc biệt là VNPT Tây Ninh đang
đẩy mạnh các chương trình B2A để giữ chân các khách hàng hiện hữu của doanh
nghiệp.

1.2.3 Các nội dung công việc B2A
Khi nhân viên của các doanh nghiệp viễn thông thực hiện B2A tại nhà của
khách hàng, các cơng việc được đơn giản hóa như sau:
 Vệ sinh thiết bị đầu cuối khách hang.
 Kiểm tra trạng thái hoạt động thiết bị GPON ONT, MyTV, WiFi
Mesh…


8

 Kiểm tra tốc độ và cường độ mạng wifi.
 Điều chỉnh, tối ưu sóng WiFi trên ONT để tăng khả năng phủ song.
 Khảo sát và cập nhật số điện thoại liên hệ khách hàng hiện hữu.
 Khảo sát nhu cầu của KH về truyền hình, di động, ứng dụng CNTT.
 Giới thiệu các khuyến mãi mới chỉ trong đợt B2A.
 Bán thâm canh dịch vụ MyTV, di động, tăng băng thông.
 Phát ấn phẩm, cẩm nang về các dịch vụ của doanh nghiệp.
 Giới thiệu và hỗ trợ KH cài ứng dụng mới.
Sau khi chăm sóc khách hàng, sẽ có phiếu xác nhận là khách hàng hài lịng
với buổi B2A, đa phần mọi khách hàng đều sẽ ký và ghi rằng họ hài lịng, tuy nhiên
khơng có yếu tố nào thay đổi ở những khách hàng này cả, họ không nâng cấp hay

mua bất kỳ sản phẩm mới, họ khơng có vấn đề trong việc sử dụng dịch vụ của
doanh nghiệp, nên đối với thuật toán của đề án này, không thể ghi nhận tất cả những
đợt B2A trên là thành công. Những công việc để xác định lần chăm sóc khách hàng
B2A là thực sự thành cơng sẽ là:
 Có sự thay đổi về hệ thống mạng của khách hàng như thay
modem/ONT, hoặc vị trí lắp đặt.
 Có thay đổi về dịch vụ, nâng gói cước, mua các dịch vụ di động,
myTV, dịch vụ về CNTT.
 Khách hàng có vấn đề về việc sử dụng các ứng dụng, sản phẩm của
VNPT.
 Khách hàng ngưng phản ánh, đóng cước phí đủ sau đợt chăm sóc
B2A.
 Khách hàng giới thiệu người thân, bạn bè sử dụng các dịch vụ B2A.

1.3 Tổng quan về học máy
Trong các lĩnh vực khác nhau của khoa học, công nghệ và nhân văn, như
sinh học, khí tượng, y học hoặc tài chính, chuyên gia thường nhắm vào dự đoán một
hiện tượng dựa trên các quan sát hoặc đo lường trong quá khứ. Ví dụ, các nhà khí
tượng học cố gắng dự báo thời tiết cho những ngày tiếp theo dựa trên điều kiện khí


9

hậu của những ngày trước đó. Trong y học, bác sĩ thu thập các phép đo và thông tin
như huyết áp, tuổi hoặc tiểu sử của bệnh nhân để chẩn đốn tình trạng của họ. Ban
đầu, trong hóa học, các hợp chất được phân tích bằng cách sử dụng khối phổ để xác
định xem chúng có chứa một loại phân tử hoặc nguyên tử. Trong tất cả các trường
hợp này, mục tiêu là dự đoán sự thay đổi của một biến phản hồi dựa trên một tập
hợp các yếu tố dự đoán quan sát được.
Trong nhiều thế kỉ, các nhà khoa học đã giải quyết những vấn đề như vậy

bằng cách suy luận theo khuôn khổ lý thuyết từ các ngun tắc đầu tiên hoặc tích
lũy kiến thức để mơ hình hóa, phân tích và hiểu các vấn đề đang nghiên cứu. Ví dụ,
bác sĩ biết từ các bệnh nhân trước đây rằng bệnh nhân cao tuổi bị đau tim với huyết
áp thấp nói chung có nguy cơ cao. Tương tự, các nhà khí tượng học biết từ các mơ
hình khí hậu rằng một ngày nắng nóng và ơ nhiễm cao có thể xảy ra tiếp theo. Tuy
nhiên, đối với một số vấn đề ngày càng tăng về số lượng, các phương pháp tiếp cận
tiêu chuẩn bắt đầu chỉ ra các giới hạn của nó. Ví dụ, việc xác định các yếu tố nguy
cơ di truyền đối với bệnh tim, nơi mà kiến thức vẫn còn rất thưa thớt, gần như
không thực tế đối với khả năng nhận thức của con người do sự phức tạp của các
tương tác tồn tại trong gen di truyền.
Trong các dự báo khí tượng chi tiết, việc tính tốn các biến phức tạp địi hỏi
sự can thiệp của các chuyên gia và nhanh chóng vượt ra ngoài khả năng của họ để
đưa tất cả vào một hệ phương trình. Tuy nhiên, từ giữa thế kỷ XX, máy móc đã
được xây dựng và thiết kế để hỗ trợ con người trong tính tốn của họ. Máy tính đã
trở nên mạnh mẽ hơn qua thời gian nhưng cùng với sự tiến bộ về phần cứng, khoa
học máy tính lý thuyết, trí thơng minh nhân tạo và số liệu thống kê, máy tính đã bị
vượt trội bởi các máy móc. Các tiến bộ gần đây trong lĩnh vực khoa học máy tính và
trí tuệ nhân tạo đã khiến cho các máy móc trở nên vượt trội hơn trong việc học hỏi
từ dữ liệu và tự khám phá cấu trúc dự đốn của các vấn đề. Vì vậy, họ đã trở thành
chuyên gia trong lĩnh vực riêng của mình, giúp các nhà khoa học trong nhiều bước
đột phá của các biến thể trong lĩnh vực khoa học và cơng nghệ. Các kỹ thuật và
thuật tốn bắt nguồn từ lĩnh vực máy học đã trở thành công cụ mạnh mẽ để phân


10

tích dữ liệu lớn và phức tạp. Các ứng dụng của học máy đang được sử dụng rộng rãi
trong nhiều lĩnh vực, và viễn thông cần phải là một trong số đó. Các ứng dụng của
học máy trong lĩnh vực khoa học và cơng nghệ rất đa dạng. Các ví dụ công khai và
nổi tiếng bao gồm việc sử dụng cây quyết định tăng cường trong phân tích thống kê

để phát hiện Higgs boson tại CERN, việc sử dụng các rừng ngẫu nhiên để phát hiện
tư thế con người ở Microsoft Kinect hoặc bộ phận tổng hợp các kỹ thuật học máy
khác nhau để xây dựng hệ thống IBM tại Watson. Học máy đã có thể cạnh tranh với
người đàn ông vô địch trên chương trình đố vui truyền hình Jeopardy của Mỹ. Đối
với mặt hình thức, học máy có thể được định nghĩa là việc nghiên cứu các hệ thống
có khả năng học từ dữ liệu mà khơng cần sự hỗ trợ từ chương trình lập trình rõ ràng.
Khi một chương trình máy tính được xem như đã học từ dữ liệu và đo lường hiệu
suất, nó sẽ được đánh giá dựa trên khả năng cải thiện hiệu suất ở những tác vụ nhất
định, kèm theo dữ liệu. Trong lĩnh vực học máy, đặc biệt là hồi quy, đã xuất hiện
các thuật tốn có khả năng giải quyết các vấn đề liên quan đến dự đoán. Điều này
mang lại những quy trình tự động, giúp dự đốn một hiện tượng dựa trên những
quan sát trong quá khứ. Tuy nhiên, mục tiêu của học máy không chỉ đơn giản là tạo
ra các thuật tốn cho dự đốn chính xác. Nó cịn giúp cung cấp thơng tin chi tiết về
cấu trúc của dữ liệu. Điều này rất quan trọng cho những người học học máy, đặc
biệt là những người không phải là chuyên gia trong lĩnh vực này. Các diễn giải
được cung cấp bởi học máy giúp hiểu rõ hơn về hiện tượng nghiên cứu, khám phá
dữ liệu tốt hơn và đạt kết quả dễ dàng hơn. Vì vậy, học máy khơng chỉ đơn thuần là
một cơng cụ để dự đốn mà cịn là một cơng cụ hữu ích để giúp chúng ta hiểu rõ
hơn về dữ liệu và các hiện tượng được nghiên cứu. Nó giúp chúng ta tiếp cận dữ
liệu một cách hiệu quả hơn, từ đó tăng khả năng đạt được kết quả chính xác và thực
tiễn.

1.3.1 Khái niệm
Học máy là một lĩnh vực trong trí tuệ nhân tạo, tập trung vào nghiên cứu và
phát triển các kỹ thuật giúp hệ thống máy tính có khả năng học tự động từ dữ liệu
ban đầu để giải quyết các vấn đề cụ thể. Quá trình học trong học máy được thực


11


hiện tự động thông qua việc xây dựng các luật dựa trên quan sát trạng thái của dữ
liệu và sự thay đổi của chúng. Học máy không chỉ bao gồm việc học từ các mẫu mà
còn bao gồm học tăng cường. Các thuật tốn học máy sử dụng các thơng tin liên
quan và tập dữ liệu mẫu để tạo ra một mơ hình diễn tả những kết quả học được.
Trong học máy, sử dụng một tập hữu hạn dữ liệu được gọi là tập dữ liệu huấn
luyện, bao gồm các mẫu dữ liệu đã được biểu diễn theo một cách cụ thể để máy tính
có thể xử lý và hiểu. Tuy nhiên, tập dữ liệu huấn luyện ln có giới hạn về số
lượng, do đó khơng phải tồn bộ dữ liệu sẽ được học một cách chính xác.

1.3.2 Phân loại kỹ thuật học máy
Các kỹ thuật học máy được phân chia thành 3 loại chính: học có giám sát,
học khơng giám sát và học bán giám sát. Học có giám sát là phương pháp học từ dữ
liệu có lớp được định nghĩa trước. Trong giai đoạn học, các phương pháp học máy
sẽ hỗ trợ hệ thống xác định các nhóm dữ liệu và tạo một cấu trúc mô tả chúng. Sau
đó, ta có thể áp dụng các nguyên tắc phân loại đã được hình thành trong quá trình
học để phân loại các dữ liệu mới.
Học không giám sát là phương pháp học từ dữ liệu khơng có lớp được định
nghĩa cụ thể trước. Trong học khơng giám sát, máy tính phải tự học và tự quan sát
các mẫu dữ liệu để nhận ra các mẫu và xây dựng một tập lớp mới. Phương pháp này
được gọi là khám phá dữ liệu.
Học bán giám sát là sự hợp nhất của các thuật tốn học từ cả học giám sát và
học khơng giám sát. Trong học bán giám sát, dữ liệu được sử dụng bao gồm cả dữ
liệu đã được gán nhãn và dữ liệu chưa được gán nhãn - thường là một lượng lớn dữ
liệu chưa gán nhãn. Đây là quá trình học nằm giữa hai loại học: học khơng giám sát
(khơng có dữ liệu nào đã được nhãn) và học giám sát (toàn bộ dữ liệu đã được gán
nhãn). Học bán giám sát tận dụng những ưu điểm từ cả học giám sát và học không
giám sát, đồng thời loại bỏ những hạn chế thường gặp trong cả hai phương pháp
này.



12

1.4 Các cơng trình nghiên cứu trong nước
1.4.1 Áp dụng kỹ thuật khai phá dữ liệu dự báo thuê bao rời mạng
trong mạng di động
Nghiên cứu có tên "Application of Data Mining Techniques for Predicting
Churned Subscribers in Mobile Networks," được thực hiện bởi Nguyễn Ngọc Tuân
tại Trường Đại học Công nghệ Hà Nội vào năm 2016. Nội dung nghiên cứu tập
trung vào việc áp dụng phương pháp khai phá dữ liệu để dự báo việc thuê bao di
động rời mạng của Mobifone. Trong nghiên cứu này, tác giả sử dụng phần mềm mã
nguồn mở WEKA để thực hiện các thực nghiệm và kiểm tra đề xuất của mình.

1.4.2 Dự đốn khả năng gửi tiền của khách hàng cá nhân qua
telemarketing tại ngân hàng với thuật toán phân lớp Naive Bayes và C4.5
Luận văn tốt nghiệp đại học "Dự đoán khả năng gửi tiền của khách hàng cá
nhân qua telemarketing tại ngân hàng với thuật toán phân lớp Naive Bayes và C4.5"
của Nguyễn Thị Hương trường Đại Học Ngân Hàng chuyên ngành hệ thống thông
tin quản lý. Luận văn đề xuất giải pháp dùng thuật toán phân lớp Naive Bayes và
C4.5 áp dụng vào dữ liệu của ngân hàng để dự đốn khả năng gửi tiền của khách
hàng.

1.5 Các cơng trình nghiên cứu ngoài nước
1.5.1 Sử dụng kiến thức phụ trợ để hỗ trợ phân loại cây quyết định
của dữ liệu lâm sàng trong cấp cứu
Trong nghiên cứu này, tác giả mô tả việc sử dụng phương pháp khai thác dữ
liệu để xây dựng mơ hình dự đốn mức độ nặng của cơn hen cho bệnh nhi được tiếp
nhận tại khoa cấp cứu. Để xây dựng mơ hình này, tác giả phải đối mặt với nhiều
khó khăn và nghiên cứu các chiến lược thay thế để phân tích và xử lý dữ liệu hồi
cứu. Trong bài báo này, tác giả mô tả quá trình này và cách tiếp cận bằng cách sử
dụng kiến thức chun gia từ bên ngồi được chính thức hóa (được gọi là nguồn

kiến thức thứ cấp) để hỗ trợ phân loại. Kiến thức này được sử dụng để phân tích dữ
liệu thành các nhóm nhỏ và rõ ràng theo nguồn kiến thức thứ cấp. Sau đó, các cá thể
trong mỗi nhóm được phân loại phù hợp với đặc điểm của nhóm đó. Tác giả cũng


13

trình bày phương pháp và các kết quả kinh nghiệm của mình, đồng thời chỉ ra
những ưu điểm và hạn chế của phương pháp tiếp cận này. [9]

1.5.2 So sánh các kỹ thuật học máy để dự đoán khả năng
Trong nghiên cứu này, đã so sánh các kỹ thuật học máy phổ biến nhất để dự
đoán chu kỳ khách hàng trong ngành viễn thông. Trong giai đoạn kiểm nghiệm ban
đầu, tất cả các mơ hình đã được triển khai và đánh giá bằng cách áp dụng phương
pháp xác thực chéo trên tập dữ liệu miền công khai. Trong giai đoạn tiếp theo,
nghiên cứu đã nâng cao và tối ưu hiệu suất bằng cách tiến hành một loạt mô phỏng
Monte Carlo cho từng phương pháp và cấu hình tham số. Kết quả của nghiên cứu là
sự hiển nhiên về hiệu suất vượt trội của các phiên bản mơ hình đã tối ưu hóa so với
những phiên bản cơ bản. Trong số các bộ phân loại, SVM-POLY sử dụng kỹ thuật
AdaBoost đã chứng minh được hiệu quả tốt nhất, với độ chính xác gần 97% và chỉ
số F (F-measure) ở mức trên 84%. [4]


14

CHƯƠNG 2:

KỸ THUẬT HỌC MÁY CHO PHÂN LỚP
DỮ LIỆU


2.1 Bài toán phân lớp dữ liệu
2.1.1 Khái niệm về bài toán phân lớp dữ liệu
Khai phá dữ liệu: Khai phá dữ liệu tức là khai thác hoặc đào sâu vào các
loại dữ liệu khác nhau để tìm ra các mẫu, cũng như để thu thập thơng tin về các mẫu
đó. Trong quá trình khai thác dữ liệu, các tập dữ liệu lớn sẽ được sắp xếp và các
mẫu cụ thể sẽ được xác định, sau đó việc xác định các mối quan hệ giữa chúng sẽ
được thực hiện để phân tích dữ liệu và giải quyết các vấn đề [14].
Phân lớp dữ liệu: Phân định dữ liệu là một hoạt động phân tích dữ liệu, đó
là q trình tìm kiếm một khung cảnh để mơ tả và phân chia các nhóm và khái niệm
của dữ liệu. Phân chia đặt ra nhiệm vụ xác định hạng mục (tập con dữ liệu) nào dữ
liệu mới thuộc về, dựa trên tập dữ liệu huấn luyện mà đã chứa các dữ liệu và nhóm
đã biết trước [14].
Phân lớp dữ liệu có thể chia làm các bước như sau:
Bước học tập (Giai đoạn đào tạo): Xây dựng mơ hình phân loại. Các thuật
tốn khác nhau được sử dụng để xây dựng mơ hình phân loại bằng cách làm cho mơ
hình học bằng cách sử dụng tập huấn luyện có sẵn. Mơ hình phải được đào tạo để
dự đốn kết quả chính xác. Dữ liệu được sử dụng để dự đốn độ chính xác của quy
tắc phân loại.
Bước phân loại: Cấu trúc được áp dụng để dự báo và kiểm thử trên tập dữ
liệu thử nghiệm, sau đó đánh giá mức độ chính xác của các ngun tắc phân loại.
Tập kiểm thử dữ liệu được sử dụng để định giá mức độ chính xác của những
nguyên tắc phân loại.
Bài toán phân lớp dữ liệu được thể hiện như sau:


15

Đầu vào của bài toán phân lớp dữ liệu:
Cho tập dữ liệu ban đầu D = {(xi, yi) | i = 1, 2, …, n}, trong đó, xi = (xi1, xi2,
..., xik)  Rk là dữ liệu gồm k thuộc tính ứng với tập thuộc tính A = {A1, A2, …, Ak}

và yi  C = {c1, c2, …, cm} là tập nhãn của các lớp dữ liệu ban đầu.
Đầu ra của bài tốn phân lớp dữ liệu:
Một mơ hình phân lớp F: Rk  C, tương ứng mỗi phần tử x  Rk là một nhãn
lớp F(x)  C, sao cho đối với tập mẫu đầu vào D là phù hợp nhất theo nghĩa sau
đây:
||F(xi) – yi||  0, với mọi (xi, yi)  D và || || là một độ đo nào đó.

2.1.2 Các bước giải quyết bài toán phân lớp dữ liệu
Để khắc phục vấn đề phân định dữ liệu, chúng ta tiến hành hai giai đoạn: giai
đoạn ban đầu tạo dựng cấu trúc phân loại (còn được gọi là giai đoạn Huấn luyện),
và giai đoạn thứ hai dùng để đánh giá và kiểm thử cấu trúc phân loại (còn được gọi
là giai đoạn Kiểm chứng).
Giai đoạn huấn luyện
Quá trình này được thực hiện với mục tiêu xây dựng một khuôn mẫu phân
tách dữ liệu, dựa trên việc biểu diễn các lớp dữ liệu hoặc khái niệm đã được định
trước. Trong giai đoạn này, thuật toán phân tách được áp dụng để hình thành kết cấu
phân lớp bằng cách tiến hành phân tích hoặc "học" từ một bộ dữ liệu huấn luyện
(training set) cùng với nhãn tương ứng [4]

Mơ hình

Dữ liệu huấn
luyện với các lớp

TRAINING

phân lớp

đã biết
Hình 2.1: Xây dựng mơ hình phân lớp dữ liệu


Kết quả sau khi kết thúc giai đoạn này là đưa ra một mơ hình phân lớp dữ
liệu. Các mơ hình phân loại dữ liệu có thể là các biểu thức tốn học, hoặc các quy


16

tắc quyết định, hoặc bộ các hướng dẫn để đánh nhãn lớp cho từng mẫu dữ liệu trong
tập dữ liệu huấn luyện.
Giai đoạn kiểm chứng
Trong bước này, mơ hình phân loại từ giai đoạn ban đầu sẽ được áp dụng để
thực hiện phân loại thử nghiệm và đánh giá hiệu suất của mơ hình. Tập các dữ liệu
test hay tập kiểm chứng được sử dụng trong giai đoạn. Do đó, tập dữ liệu kiểm
chứng được sử dụng trong giai đoạn này phải độc lập với tập dữ liệu huấn luyện ở
giai đoạn huấn luyện [4].

Dữ liệu kiểm
chứng chưa được

Dữ liệu được
Mơ hình phân lớp

phân lớp

phân lớp
Hình 2.2: Q trình kiểm tra đánh giá mơ hình phân lớp dữ liệu

Các kết quả phân lớp trong quá trình phân lớp thử nghiệm lại có thể sử dụng
trong q trình học tiếp theo.
Khi hoàn thành cả hai giai đoạn kể trên, ta sẽ chọn ra một mơ hình phân loại

phù hợp nhất dựa trên một khía cạnh cụ thể (qua việc đánh giá các chỉ số của mơ
hình), để tiến hành việc phân tách dữ liệu trong các bài toán thực tiễn khác nhau.

2.1.3 Các độ đo để đánh giá mơ hình phân lớp dữ liệu
Các tiêu chuẩn về sự thích hợp và hiệu quả của mọi cấu trúc phân tách dữ
liệu thường được đo lường qua các chỉ số mô tả dưới đây.
Xét một lớp dữ liệu ci  C = {c1, c2, …, cm} trong một bài toán phân lớp. Tập
hợp các mẫu dữ liệu thuộc lớp ci được gọi là các phần tử dương (positive). Tập hợp
các mẫu dữ liệu không thuộc lớp ci được gọi là các phần tử âm (negative). Kết quả
phân lớp sau khi thực hiện phân lớp dữ liệu có thể xảy ra các trường hợp sau đây:
 True Positive (Trường hợp đúng dương): Phần tử dương được phân lớp
đúng là dương.
 False Positive (Trường hợp sai dương): Phần tử âm được phân lớp sai
thành dương.


×