Tải bản đầy đủ (.pdf) (71 trang)

Nghiên cứu mô hình học sâu để dự báo khách hàng rời mạng viễn thông ở Tây Ninh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 71 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
-----------------------------------

NGUYỄN ĐỨC TRUNG

NGHIÊN CỨU MƠ HÌNH HỌC SÂU ĐỂ
DỰ BÁO KHÁCH HÀNG RỜI MẠNG VIỄN THÔNG
Ở TÂY NINH
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

TP. HỒ CHÍ MINH – NĂM 2023


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
--------------------------------------

NGUYỄN ĐỨC TRUNG

NGHIÊN CỨU MƠ HÌNH HỌC SÂU ĐỂ
DỰ BÁO KHÁCH HÀNG RỜI MẠNG VIỄN THƠNG
Ở TÂY NINH
Chun ngành: Hệ thống thơng tin
Mã số:
8.48.01.04

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HUỲNH TRỌNG THƯA



TP.HỒ CHÍ MINH - NĂM 2023


i

LỜI CAM ĐOAN
Tôi cam đoan rằng đề án tốt nghiệp thạc sĩ: “Nghiên cứu mơ hình học sâu để
dự báo khách hàng rời mạng viễn thông ở Tây Ninh” là cơng trình nghiên cứu của
chính tơi.
Tơi cam đoan các số liệu, kết quả nêu trong đề án là trung thực và chưa từng
được ai công bố trong bất kỳ công trình nào khác.
Khơng có sản phẩm/nghiên cứu nào của người khác được sử dụng trong đề án
này mà không được trích dẫn theo đúng quy định.

TP. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Nguyễn Đức Trung


ii

LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu thực hiện đề án tốt nghiệp thạc sĩ,
ngoài nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình q báu của q
Thầy Cơ, cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp. Với
lịng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:
Tôi xin chân thành cảm ơn Thầy TS. Huỳnh Trọng Thưa, người thầy kính u
đã hết lịng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt q trình

thực hiện và hồn thành đề án tốt nghiệp thạc sĩ.
Ban Giám Đốc, Phòng đào tạo sau đại học và quý Thầy Cô đã tạo mọi điều
kiện thuận lợi giúp tơi hồn thành đề án.
Tơi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã
động viên, hỗ trợ tơi trong lúc khó khăn để tơi có thể học tập và hồn thành đề án.
Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế nên khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận
được sự góp ý của q Thầy Cơ cùng bạn bè đồng nghiệp để kiến thức của tôi ngày
một hồn thiện hơn.
Xin chân thành cảm ơn!

TP. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Nguyễn Đức Trung


iii

DANH SÁCH HÌNH VẼ
Hình 0.1: Thị phần th bao dịch vụ truy cập Internet của các doanh nghiệp ...................... 3
Hình 0.2: Tăng trưởng về lượng người dùng Internet tại Việt Nam ...................................... 3
Hình 1.1: Tăng trưởng về lưu lượng truy cập Internet tại Việt Nam 2020-2021 .................. 9
Hình 2.1: Mơ hình CNN ...................................................................................................... 14
Hình 3.1: Trích dữ liệu quan sát trong bộ dữ liệu ................................................................ 22
Hình 3.2: Thống kê mơ tả các trường dữ liệu biến liên tục ................................................. 23
Hình 3.3: Biểu đồ phân bổ tháng sử dụng ........................................................................... 25
Hình 3.4: Loại hình thuê bao ............................................................................................... 26
Hình 3.5: Số lần báo hỏng ................................................................................................... 27
Hình 3.6: Số lần gọi kiểm tra khơng hài lịng ...................................................................... 28

Hình 3.7: Đường truyền tích hợp ......................................................................................... 29
Hình 3.8: Khơng phát sinh lưu lượng .................................................................................. 30
Hình 3.9: Thuê bao nợ cước 2 tháng ................................................................................... 31
Hình 3.10: Số lần gọi kiểm hài lịng .................................................................................... 32
Hình 3.11: Cấu trúc mạng CNN .......................................................................................... 34
Hình 3.12: Sơ đồ tổng quát mơ hình dự báo ........................................................................ 36
Hình 4.1: Code Python Xử lý dữ liệu mơ hình Sequential .................................................. 40
Hình 4.2: Code Python xây dựng mơ hình Sequential ........................................................ 40
Hình 4.3: Mơ hình Sequential thu được............................................................................... 40
Hình 4.4: Mơ hình Sequential thu được với thơng số các lớp ............................................. 41
Hình 4.5: Code Python Xử lý dữ liệu mơ hình GR & VSN ................................................ 43
Hình 4.6: Code Python mã hóa các đầu vào của mơ hình GR & VSN................................ 44
Hình 4.7: Code Python hàm GR .......................................................................................... 45
Hình 4.8: Code Python hàm VSN tích hợp GR ................................................................... 45
Hình 4.9: Code Python cài đặt các biến trong GRN ............................................................ 46
Hình 4.10: Code Python xây dựng mơ hình GR và VSN .................................................... 46
Hình 4.11: Code Python chạy huấn luyện với mơ hình GR & VSN ................................... 47
Hình 4.12: Code Python Xây dựng mơ hình Wide & Deep ................................................ 49
Hình 4.13: Cấu trúc mơ hình Wide & Deep [17]................................................................. 49
Hình 4.14: Code Python Xây dựng mơ hình Deep & Cross ............................................... 50


iv

Hình 4.15: Cấu trúc mơ hình Deep & Cross ........................................................................ 50
Hình 4.16: Biểu đồ so sánh giữa các mơ hình học sâu thử nghiệm ..................................... 51
Hình 4.17: Sơ đồ thiết kế ứng dụng web ............................................................................. 52
Hình 4.18: Giao diện trang nhập dữ liệu dự đốn một th bao .......................................... 53
Hình 4.19: Giao diện trang nhập dữ liệu bằng file excel .................................................... 54
Hình 4.20: Giao diện trang kết quả dự đốn từ file nhiều khách hàng ................................ 54



v

DANH SÁCH BẢNG
Bảng 3.1: Thông tin bộ dữ liệu của bài toán ........................................................................ 21
Bảng 4.1 : Tổng hợp đánh giá các mơ hình với bộ dữ liệu .................................................. 51


vi

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
VIẾT TẮT

NGHĨA TIẾNG ANH

NGHĨA TIẾNG VIỆT

AI

Artificial Intelligence

Trí tuệ nhân tạo

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo


CNN

Convolutional Neural Network

Mạng nơ-ron tích chập

FTTH

Fiber To The Home

Cáp quang cho hộ gia đình

ITC

Information & Communications
Technologies

Cơng nghệ thơng tin và truyền
thông

GR

Gated Residual

Phần dư của cổng

GSN

Gated Selection Networks


Mạng lựa chọn có cổng

xDSL

Digital Subcriber Line

Kênh thuê bao số

ML

Machine Learning

Học máy

VSN

Variable Selection Networks

Mạng lựa chọn biến số


vii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i
LỜI CẢM ƠN ............................................................................................................ ii
DANH SÁCH HÌNH VẼ .......................................................................................... iii
DANH SÁCH BẢNG .................................................................................................v
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ...............................................vi
MỤC LỤC ................................................................................................................ vii

MỞ ĐẦU .....................................................................................................................1
1.

Tính cấp thiết của đề án ...................................................................................1

2.

Tổng quan về đề án ..........................................................................................2

3.

Mục tiêu, ý nghĩa khoa học và thực tiễn ..........................................................5

4.

Đối tượng và phạm vi nghiên cứu....................................................................6

5.

6.

4.1

Đối tượng nghiên cứu ...............................................................................6

4.2

Phạm vi nghiên cứu ..................................................................................6

Phương pháp nghiên cứu..................................................................................6

5.1

Phương pháp nghiên cứu lý thuyết ...........................................................6

5.2

Phương pháp nghiên cứu thực nghiệm .....................................................6

Bố cục đề án .....................................................................................................7

CHƯƠNG 1: TỔNG QUAN VỀ DỰ BÁO KHÁCH HÀNG RỜI MẠNG CÁP
QUANG ......................................................................................................................8
1.1. Tổng quan về mạng cáp quang và thuê bao .....................................................8
1.1.1. Mạng cáp quang .........................................................................................8
1.1.2. Cạnh tranh và hiện trạng khách hàng rời mạng .........................................9
1.2. Bài toán dự báo khách hàng rời mạng cáp quang ..........................................11
CHƯƠNG 2: CÁC MƠ HÌNH HỌC SÂU VÀ CƠNG TRÌNH LIÊN QUAN ........13
2.1. Mơ hình học sâu trong bài tốn dự báo ..........................................................13
2.2. Các cơng trình nghiên cứu trong nước ...........................................................15
2.3. Các cơng trình nghiên cứu trên thế giới .........................................................16


viii

CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỰ BÁO ....................................................21
3.1. Bộ dữ liệu của bài tốn ...................................................................................21
3.2. Thiết kế mơ hình .............................................................................................33
3.2.1. Giới thiệu về mơ hình CNN và Keras Deep Learning .............................33
3.2.2. Ý tưởng xây dựng mơ hình dự báo khách hàng rời mạng cáp quang ......35
3.3. Phương pháp đánh giá ....................................................................................37

CHƯƠNG 4: THÍ NGHIỆM VÀ ĐÁNH GIÁ .........................................................39
4.1. Mơ hình Sequential.........................................................................................39
4.1.1. Xử lý dữ liệu ............................................................................................40
4.1.2. Xây dựng mơ hình Sequential .................................................................40
4.1.3. Kết quả .....................................................................................................41
4.2. Mơ hình Gated Residual và Variable Selection Networks .............................42
4.2.1. Xử lý dữ liệu ............................................................................................42
4.2.2. Xây dựng mơ hình ...................................................................................43
4.2.3. Kết quả .....................................................................................................47
4.3. Mơ hình Wide, Deep and Cross Network ......................................................48
4.3.1. Xử lý dữ liệu ............................................................................................49
4.3.2. Xây dựng mơ hình ...................................................................................49
4.3.3. Kết quả .....................................................................................................51
4.4. Kết quả tổng hợp ............................................................................................51
4.5. Xây dựng ứng dụng dự báo khách hàng rời mạng cáp quang ........................52
4.5.1. Thiết kế ứng dụng ....................................................................................52
4.5.2. Giao diện ứng dụng..................................................................................53
4.5.3. Kết quả áp dụng ứng dụng .......................................................................54
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................55
1.

Kết quả nghiên cứu của đề án ........................................................................55

2.

Hạn chế của đề án ..........................................................................................56

3.

Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu:...............................57


DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................59


1

MỞ ĐẦU
1. Tính cấp thiết của đề án
Trong dịng chảy liên tục của thời đại, xu thế phát triển của ngành thơng tin và
truyền dữ liệu được dự đốn mỗi lúc một mạnh mẽ và cạnh tranh hơn. Trước tình
hình đó, một quốc gia đang phát triển như Việt Nam có rất nhiều điều kiện thuận lợi
để phát triển ngành này ở tương lai, chính vì vậy việc cạnh tranh và phát triển để
chiếm lĩnh thị phần trong ngành này là không thể tránh khỏi.
Với xu hướng phát triển của ngành thông tin truyền dữ liệu như trên, nên đây
là lĩnh vực rất hấp dẫn cho các doanh nghiệp phát triển, thuận lợi rất nhiều nhưng
cũng rất nhiều thách thức, do các doanh nghiệp cạnh tranh quyết liệt để thu hút khách
hàng, giành thị phần. Nếu không liên tục thay đổi thích ứng với thị trường thì việc bị
đào thải là điều tất yếu.
Trong nhóm các doanh nghiệp kinh doanh dịch vụ truyền dữ liệu thông qua
mạng cáp quang, việc duy trì khách hàng và mở rộng thị phần ln là mục tiêu hàng
đầu để đảm bảo doanh thu, và lợi nhuận cho doanh nghiệp. Việc khách hàng duy trì
thời gian sử dụng dịch vụ phụ thuộc vào rất nhiều yếu tố khách quan và chủ quan.
Việc này lâu nay vẫn thường xun được phân tích dự đốn, tuy nhiên thực hiện bằng
các biện pháp thủ công, truyền thống mất rất nhiều thời gian, và địi hỏi người phân
tích phải có chun mơn tương đối tốt, nhưng độ chính xác mang lại tương đối khơng
cao. Chính vì vậy, việc áp dụng các mơ hình học sâu để dự đốn xu hướng khách
hàng cũng như mong muốn của khách hàng tiếp tục hay không tiếp tục sử dụng dịch
vụ là vô cùng triển vọng, hỗ trợ cho doanh nghiệp hiểu rõ nhu cầu và lý do tại sao họ
rời bỏ mạng của mình, từ đó cải tiến dịch vụ, kỹ thuật, công nghệ để phục vụ tốt hơn
khách hàng, giữ chân khách hàng và mở rộng hơn thị phần của mình. Với mong muốn

dự báo khả năng rời mạng của khách hàng sử dụng dịch vụ mạng cáp quang, đề án
này xin đề xuất tên đề án như sau:
NGHIÊN CỨU MÔ HÌNH HỌC SÂU ĐỂ DỰ BÁO KHÁCH HÀNG
RỜI MẠNG VIỄN THÔNG Ở TÂY NINH.


2

2. Tổng quan về đề án
2.1 Tổng quan về internet và hiện trạng thuê bao rời mạng cáp quang
Vào tháng 1 năm 2023, Việt Nam có tổng cộng 77,93 triệu người dùng
Internet, đạt tỷ lệ sử dụng Internet là 79,1% trên tổng dân số [1]. Theo phân tích của
Kepios, số lượng người dùng Internet tại Việt Nam đã tăng thêm 5,3 triệu (+7,3%) so
với năm 2022. Tuy nhiên, vẫn còn khoảng 20,9% dân số Việt Nam, tức là 20,60 triệu
người, không sử dụng Internet vào đầu năm 2023.
Vào tháng 1 năm 2023, Việt Nam có 70 triệu người dùng mạng xã hội. Theo
các tổ chức GWI và data.ai, sự phổ biến của mạng xã hội ở Việt Nam vẫn đang tiếp
tục gia tăng mà khơng có dấu hiệu chững lại. Tuy nhiên, không phải mỗi tài khoản
người dùng mạng xã hội đều tương ứng với một cá nhân duy nhất. Tại đầu năm 2023,
số lượng người dùng mạng xã hội ở Việt Nam đạt 71,0% tổng dân số, nhưng theo dữ
liệu từ các công cụ lập kế hoạch quảng cáo của các nền tảng mạng xã hội hàng đầu,
chỉ có 64,40 triệu người dùng từ 18 tuổi trở lên.
Tuy nhiên, tỷ lệ này vẫn rất cao, đạt 89,0% tổng dân số từ 18 tuổi trở lên. Nói
cách khác, 89,8% tổng số người dùng Internet của Việt Nam đã sử dụng ít nhất một
nền tảng mạng xã hội vào tháng 1 năm 2023.
Ở Việt Nam hiện nay, có khá nhiều nhà cung cấp dịch vụ mạng cáp quang tốc
độ cao như VNPT, Viettel, FPT, NetNam, v/v. Trong đó, VNPT là một nhà cung cấp
dịch vụ truyền dữ liệu và viễn thông đầu tiên trên thị trường Việt Nam. Chính thức
cung cấp dịch vụ viễn thông công cộng từ cuối năm 1997. Qua quá trình phát triển
mạnh mẽ VNPT đã đứng vững trên thị trường cung cấp dịch vụ internet tốc độ cao.

Tuy nhiên tình hình trở nên xấu đi khi các nhà cung cấp khác ào ạt khuyến mãi và có
nhiều đợt đại hạ giá. Kết quả là có nhiều khách hàng rời mạng chuyển sang sử dụng
dịch vụ của nhà cung cấp khác, doanh thu ngày một giảm, khó thu hồi vốn đầu tư.
Theo tính tốn và báo cáo của VNPT [2] năm 2020, để phát triển được khách hàng,
VNPT phải đầu tư gần 3 triệu đồng/ 1 khách hàng bao gồm chi phí phát triển khách
hàng, đầu tư hệ thống và thiết bị đầu cuối. Trong khi đó ARPU là 180.000 đồng và
vịng đời trung bình của khách hành là 20 tháng. Như vậy mỗi khách hàng rời mạng


3

thì chỉ thu về được số vốn ban đầu, khơng có lợi nhuận. Con số thiệt hại sẽ rất lớn
khi có hàng trăm ngàn khách hàng rời mạng mỗi năm.

Hình 0.1: Thị phần thuê bao dịch vụ truy cập Internet của các doanh nghiệp

Hình 0.2: Tăng trưởng về lượng người dùng Internet tại Việt Nam
(Nguồn Vnetwork 6/3/2023)


4

2.2 Tổng quan về dữ liệu khách hàng sử dụng mạng Internet băng rộng

cố định.
Thông tin từ Cục Viễn thông (Bộ Thơng tin và Truyền thơng) [3] cho thấy,
tính đến tháng 10/2021, Việt Nam có hơn 18.8 triệu thuê bao Internet băng rộng cố
định. Trong đó, 95,34% là thuê bao cáp quang FTTH. Việt Nam là thị trường có giá
cước Internet rẻ nhất thế giới. Số liệu thống kê năm 2020 cho thấy, Việt Nam đứng
thứ 12/211 quốc gia về giá cước Internet băng rộng cố định.

Theo Trung tâm Internet Việt Nam (VNNIC) thuộc Bộ Thông tin và Truyền
thông , tính đến tháng 3-2022, cả nước có trên 54 triệu thuê bao FTTH (cáp quang),
3G, 4G hoạt động trên địa chỉ IPv6 (giao thức liên mạng thế hệ thứ 6), đạt tỷ lệ 50%.
Phát triển hạ tầng số băng thông rộng đến từng người dân và từng gia đình đã
được Bộ TT&TT xác định là một trong những nhiệm vụ trọng tâm phục vụ công cuộc
chuyển đổi số quốc gia. Trước đó, đề cập đến các chỉ tiêu phát triển hạ tầng, lãnh đạo
Bộ TT&TT cho biết: Từ đầu năm 2023, 100% người dân sẽ chuyển sang dùng
smartphone và trước năm 2025, cơ bản mỗi hộ có một đường Internet cáp quang siêu
băng rộng.
Phát triển hạ tầng số băng thông rộng đến từng người dân và từng gia đình đã
được Bộ TT&TT xác định là một trong những nhiệm vụ trọng tâm phục vụ công cuộc
chuyển đổi số quốc gia. Trước đó, đề cập đến các chỉ tiêu phát triển hạ tầng, lãnh đạo
Bộ TT&TT cho biết: Từ đầu năm 2023, 100% người dân sẽ chuyển sang dùng
smartphone và trước năm 2025, cơ bản mỗi hộ có một đường Internet cáp quang siêu
băng rộng. Hệ thống cáp quang triển khai tới 100% các xã, phường, thị trấn, 91%
thôn bản và 100% trường học. Việt Nam hiện có hơn 94 triệu thuê bao smartphone
di động. Số thuê bao băng rộng di động hơn là 82 triệu, chiếm tỷ lệ hơn 74% dân số.
Theo VIA (Verify Information Account), Việt Nam trở thành quốc gia có dân
số trực tuyến lớn nhất tại khu vực ASEAN vào năm 2013, với 16,1 triệu người dùng
Internet hàng tháng [4]. Cũng từ đầu những năm 2010, thị trường trong nước đã được
đánh giá cao về tiềm năng các ngành kinh tế số, chẳng hạn như thương mại điện tử.


5

Đến năm 2020, Việt Nam có khoảng 45.500 doanh nghiệp ICT, đem lại doanh
thu khoảng 126 tỉ USD. Mở Internet vào năm 1997 là chậm so với thế giới, nhưng
tăng trưởng Internet của Việt Nam được nhiều bên đánh giá cao.
"Từ cuối năm 2020 đến tháng 10/2021, lưu lượng Internet tại Việt Nam tiếp
tục tăng hơn 30%. Nhiều hoạt động, đặc biệt là học và họp trực tuyến, được đưa lên

môi trường số tạo lưu lượng truy cập lớn", đại diện nhà mạng VNPT cho biết.
Việt Nam cũng đang nằm trong số các nước triển khai IPv6, giao thức Internet
mới nhất, cao nhất toàn cầu, với tỷ lệ ứng dụng IPv6 nằm trong top 10 thế giới và cao
hơn gấp đôi khu vực ASEAN. Kinh tế số dự kiến sẽ đạt giá trị 49 tỉ USD vào năm
2025, với mức tăng trưởng hàng năm 31%, với đóng góp chính đến từ thương mại
điện tử.

3. Mục tiêu, ý nghĩa khoa học và thực tiễn
Mục tiêu nghiên cứu chính là xây dựng mơ hình học sâu dự đốn khách hàng
rời mạng cáp quang dựa trên tập dữ liệu của khách hàng.
Xuất phát từ mục tiêu chính trên, đề án hướng tới những mục tiêu cụ thể như
sau:


Nghiên cứu thu thập và phân tích dữ liệu khách hàng thu thập tại VNPT
Tây Ninh, nhằm xây dựng mơ hình dự đốn trên nền tảng học sâu.



Phân tích sự ảnh hưởng của các yếu tố đó như thế nào đến kết quả khách
hàng rời mạng, hay không rời mạng. Xác định đâu là yếu tố quyết định
ảnh hưởng nhất đến việc thuê bao rời mạng.



Lựa chọn thuật tốn và mơ hình học sâu phù hợp với bộ dữ liệu.



Thơng qua mơ hình, xác định các yếu tố có ảnh hưởng nhiều nhất đến kết

quả khách hàng rời mạng, hay tiếp tục sử dụng dịch vụ.



Đánh giá độ chính xác và khả năng áp dụng của mơ hình đề xuất dự đốn
khả năng rời mạng của khách hàng.


6

4. Đối tượng và phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu:


Đối tượng nghiên cứu chính là cơ sở dữ liệu khách hàng sử dụng dịch vụ
mạng cáp quang băng rộng cố định rời mạng viễn thông ở VNPT Tây
Ninh.



Các đối tượng nghiên cứu khác: mơ hình deep learning, các phương
pháp đánh giá tương ứng như học máy để chọn mơ hình phù hợp.

4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu:


Tập dữ liệu khách hàng sử dụng cáp quang tại VNPT Tây Ninh.




Thu thập được từ 2010 đến 2022.



Nghiên cứu các thuật tốn deep learning phù hợp với bộ dữ liệu thu
thập được.

5. Phương pháp nghiên cứu
5.1 Phương pháp nghiên cứu lý thuyết
-

Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới và
Việt Nam về vấn đề nhận diện và dự báo khách hàng rời mạng cáp quang.
Phân tích, lựa chọn giải pháp và hiện thực thử nghiệm. Đánh giá kết quả và
hiệu chỉnh nếu có.

-

Tìm tài liệu, sách liên quan tới học sâu, phân tích dữ liệu như Python
NoteBook.

5.2 Phương pháp nghiên cứu thực nghiệm
-

Sau khi nghiên cứu lý thuyết, các bài tốn, đề xuất mơ hình, xây dựng và phát
triển ứng dụng dựa trên mơ hình đề xuất, cài đặt thử nghiệm chương trình,
đánh giá các kết quả đạt được, công bố kết quả nghiên cứu.



7

6. Bố cục đề án
Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khảo, phần nội dung chính
của đề án được chia thành 4 chương chính như sau:
Chương 1: Tổng quan về dự báo khách hàng rời mạng cáp quang
Chương 2: Các cơng trình liên quan
Chương 3: Xây dựng mơ hình dự báo khách hàng rời mạng cáp quang
Chương 4: Thí nghiệm và đánh giá


8

CHƯƠNG 1: TỔNG QUAN VỀ DỰ BÁO KHÁCH HÀNG
RỜI MẠNG CÁP QUANG
1.1. Tổng quan về mạng cáp quang và thuê bao
1.1.1. Mạng cáp quang
Mạng cáp quang là một dịch vụ viễn thơng có tốc độ cao sử dụng cơng nghệ
cáp quang để cung cấp kết nối Internet, truyền hình và dịch vụ điện thoại tới người
dùng. Mạng cáp quang sử dụng tia sáng trong sợi quang để truyền tải dữ liệu với tốc
độ cao và khả năng truyền thông lớn hơn so với các công nghệ truyền thông khác như
cáp đồng trục hoặc DSL.
Mạng cáp quang cung cấp tốc độ Internet đáng kể, cho phép người dùng truy
cập nhanh chóng vào các trang web, xem video trực tuyến chất lượng cao, chơi game
trực tuyến mà không gặp trở ngại về tốc độ. Đồng thời, mạng cáp quang cũng hỗ trợ
truyền hình kỹ thuật số và dịch vụ điện thoại qua Internet, mang lại trải nghiệm đa
dạng và tiện ích cho người sử dụng.
Một số ưu điểm của mạng cáp quang bao gồm:
1. Tốc độ cao: Mạng cáp quang cung cấp tốc độ truyền tải dữ liệu vượt trội so

với các cơng nghệ khác. Người dùng có thể tận hưởng việc tải xuống nhanh
chóng, xem video mượt mà và trải nghiệm trực tuyến mà không bị giới hạn
bởi tốc độ truyền thơng.
2. Độ ổn định: Cơng nghệ cáp quang ít bị ảnh hưởng bởi các yếu tố ngoại vi như
thời tiết hay tia sét. Điều này đảm bảo mạng cáp quang có độ ổn định cao hơn
và ít gặp sự cố mất kết nối.
3. Băng thơng lớn: Mạng cáp quang có khả năng truyền thông lớn, cho phép
nhiều người dùng cùng sử dụng dịch vụ Internet, xem video và chơi game mà
không bị gián đoạn do tắc nghẽn mạng.
4. Hỗ trợ dịch vụ đa dạng: Thuê bao mạng cáp quang không chỉ cung cấp Internet,
mà còn kết hợp với dịch vụ truyền hình và điện thoại qua Internet. Người dùng
có thể tận hưởng các kênh truyền hình với độ phân giải và chất lượng cao.


9

Trong những năm gần đây, thuê bao mạng cáp quang tại Việt Nam đã có sự
phát triển đáng kể. Các nhà mạng lớn như Viettel, VNPT và FPT Telecom đã đầu tư
rất nhiều vào hạ tầng mạng cáp quang và mở rộng mạng lưới để cung cấp dịch vụ
internet chất lượng cao cho khách hàng.

Hình 1.1: Tăng trưởng về lưu lượng truy cập Internet tại Việt Nam 2020-2021
(Ảnh: Cục Viễn thông)

Nhu cầu sử dụng internet của người dân Việt Nam ngày càng tăng cao, đặc
biệt là trong bối cảnh dịch bệnh COVID-19 khi nhiều người phải làm việc và học tập
từ xa. Do đó, có thể dự báo rằng sự phát triển của thuê bao mạng cáp quang tại Việt
Nam sẽ tiếp tục tăng trưởng trong tương lai.

1.1.2. Cạnh tranh và hiện trạng khách hàng rời mạng

Theo báo cáo của Bộ Thơng tin và Truyền thơng [5], tính đến cuối năm 2020,
Việt Nam đã có hơn 1 triệu km cáp quang được triển khai đến 100% xã, phường trên
cả nước, cung cấp Internet cáp quang tới 58,34% hộ gia đình với tổng số thuê bao đạt
mốc hơn 15,6 triệu.
Hiện nay, thị trường thuê bao mạng cáp quang ở Việt Nam đang có sự cạnh
tranh khá gay gắt giữa các nhà cung cấp dịch vụ. Các công ty viễn thông lớn như
Viettel, VNPT, FPT Telecom, Viettel, MobiFone, VNPost, SCTV, Viettel Post đều


10

đang cung cấp dịch vụ thuê bao mạng cáp quang cho khách hàng. Để cạnh tranh trên
thị trường, các nhà cung cấp dịch vụ cố gắng cải thiện chất lượng dịch vụ, đưa ra các
gói cước hấp dẫn, ưu đãi khuyến mãi, tăng tốc độ truy cập và phát triển các ứng dụng
trực tuyến, game online, video streaming, dịch vụ chăm sóc khách hàng, đặc biệt là
hỗ trợ kỹ thuật 24/7. Việc cạnh tranh này đang giúp cho người dùng có nhiều lựa
chọn hơn, giúp giảm giá cước, tăng chất lượng dịch vụ và thúc đẩy sự phát triển của
ngành viễn thơng tại Việt Nam.
Dưới đây là một số khía cạnh chính về sự cạnh tranh trong dịch vụ
Internet cáp quang:
1. Tốc độ và băng thông: Một yếu tố quan trọng trong sự cạnh tranh là tốc độ
truyền tải dữ liệu và băng thông. Các nhà mạng cung cấp dịch vụ Internet cáp
quang cố gắng cung cấp tốc độ cao và băng thông rộng để đáp ứng nhu cầu
ngày càng tăng về truyền dữ liệu, xem video chất lượng cao và chơi game trực
tuyến.
2. Chất lượng dịch vụ: Sự cạnh tranh trong dịch vụ Internet cáp quang liên quan
đến chất lượng dịch vụ và độ ổn định của kết nối. Các nhà mạng đầu tư vào cơ
sở hạ tầng và công nghệ mới nhằm cung cấp mạng lưới ổn định và truyền tải
dữ liệu mượt mà.
3. Giá cả và gói dịch vụ: Giá cả và các gói dịch vụ là một yếu tố quan trọng trong

sự cạnh tranh. Các nhà mạng cố gắng cung cấp các gói dịch vụ linh hoạt và
hấp dẫn về giá cả để thu hút và duy trì khách hàng. Các gói dịch vụ thích ứng
với nhu cầu của khách hàng, bao gồm các gói tốc độ khác nhau và các dịch vụ
bổ sung như truyền hình và điện thoại qua Internet.
4. Dịch vụ và hỗ trợ khách hàng: Sự cạnh tranh trong dịch vụ Internet cáp quang
cũng liên quan đến chất lượng dịch vụ và hỗ trợ khách hàng. Các nhà mạng cố
gắng cung cấp dịch vụ chuyên nghiệp và nhanh chóng, cũng như hỗ trợ kỹ
thuật và chăm sóc khách hàng tốt.
5. Mở rộng mạng lưới: Một yếu tố quan trọng trong sự cạnh tranh là khả năng
mở rộng mạng lưới cáp quang. Các nhà mạng đầu tư vào việc xây dựng và mở


11

rộng mạng lưới để phủ sóng rộng hơn, đáp ứng nhu cầu truy cập Internet của
nhiều khu vực và khách hàng tiềm năng.
Sự cạnh tranh giữa các nhà mạng cung cấp dịch vụ Internet cáp quang đem lại
lợi ích cho người tiêu dùng thông qua tốc độ cao, chất lượng dịch vụ và giá cả cạnh
tranh. Sự cạnh tranh này thúc đẩy các nhà mạng liên tục cải tiến để đáp ứng nhu cầu
ngày càng tăng của người dùng.
Hiện tại, khách hàng rời mạng cáp quang này chuyển sang mạng khác đang có
xu hướng tăng lên do sự cạnh tranh giữa các nhà cung cấp dịch vụ mạng lôi kéo khách
hàng từ nhà mạng khác và khách hàng trở nên thông thái hơn trong việc lựa chọn
mạng phù hợp với nhu cầu và chi phí của mình. Trong đó yếu tố dự đốn khách hàng
rời mạng viễn thơng là một yếu tố quan trọng để kịp thời nắm bắt tâm lý khách hàng
để có các biện pháp chăm sóc về chất lượng và thái độ phục nhằm giữ chân khách
hàng tiếp tục sử dụng dịch vụ.

1.2. Bài toán dự báo khách hàng rời mạng cáp quang
Bài toán dự báo hhách hàng rời mạng cáp quang là một phần quan trọng của

lĩnh vực phân tích dữ liệu và tối ưu hóa khách hàng trong ngành viễn thông. Nhiệm
vụ này tập trung vào việc dự đoán xác suất mà một khách hàng sẽ chuyển đổi sang
dịch vụ của nhà mạng khác hoặc dừng sử dụng dịch vụ mạng cáp quang, dựa trên
thông tin cá nhân và hành vi sử dụng dịch vụ của họ.
Bài tốn này địi hỏi sự tích hợp của nhiều yếu tố khác nhau để hiểu rõ hơn về
quyết định của khách hàng về việc tiếp tục hoặc dừng sử dụng dịch vụ mạng cáp
quang. Các yếu tố quan trọng bao gồm giá cả, chất lượng dịch vụ, tốc độ truy cập,
các chương trình khuyến mãi, đáp ứng của dịch vụ khách hàng, và các phương thức
thanh toán.
Ý nghĩa: Dự báo hhách hàng rời mạng cáp quang mang lại nhiều lợi ích quan
trọng cho các nhà cung cấp dịch vụ viễn thơng:
Xác định khách hàng có nguy cơ khách hàng rời mạng: Bằng cách áp dụng
phân tích dữ liệu, bài tốn này giúp xác định khách hàng có khả năng cao chuyển đổi


12

hoặc dừng sử dụng dịch vụ. Điều này cho phép nhà mạng thực hiện các chiến dịch
tiếp thị và chăm sóc khách hàng có nguy cơ cao, tăng cơ hội duy trì họ trong hệ thống.
Tối ưu hóa dịch vụ và trải nghiệm khách hàng: Thông tin dự báo giúp nhà
mạng hiểu rõ hơn về hành vi và nhu cầu của khách hàng. Dựa trên dự đốn, họ có thể
điều chỉnh chính sách dịch vụ, gói cước, và chiến lược tiếp thị để cung cấp trải nghiệm
tốt hơn và đáp ứng đúng nhu cầu của khách hàng.
Tối ưu hóa chiến lược khách hàng: Thông tin dự báo là nguồn thông tin quan
trọng để xây dựng chiến lược quản lý khách hàng. Các nhà mạng có thể sử dụng thơng
tin này để tạo mối quan hệ lâu dài, đưa ra các chính sách và chương trình khuyến mãi
hấp dẫn, cung cấp dịch vụ cá nhân hóa, và cải thiện hệ thống phục vụ khách hàng.
Phương pháp giải quyết:
Để giải quyết bài tốn này, các nhà phân tích dữ liệu sử dụng các kỹ thuật phức
tạp trong lĩnh vực học máy và học sâu. Dữ liệu về khách hàng, bao gồm thông tin cá

nhân và hành vi, được thu thập và tiền xử lý để tạo ra các đặc trưng cho việc huấn
luyện mơ hình. Sau đó, các thuật tốn như hồi quy logistic, cây quyết định, random
forest, hoặc mạng nơ-ron được áp dụng để dự đoán xác suất rời mạng của khách hàng.
Kết luận:
Bài toán dự báo khách hàng rời mạng cáp quang không chỉ là một công cụ
quan trọng trong quản lý khách hàng và tối ưu hóa dịch vụ, mà còn là một cơ hội để
cung cấp dịch vụ cá nhân hóa, duy trì khách hàng hiện có và thu hút thêm khách hàng
mới. Điều này làm tăng sự hiệu quả của các nhà cung cấp dịch vụ viễn thơng và đảm
bảo rằng họ ln duy trì mối quan hệ lâu dài với khách hàng của họ.


13

CHƯƠNG 2: CÁC MƠ HÌNH HỌC SÂU VÀ CƠNG TRÌNH
LIÊN QUAN
2.1. Mơ hình học sâu trong bài tốn dự báo
Các mơ hình học sâu [6] đại diện cho một mơ hình học tập mới trong trí tuệ
nhân tạo (AI) và học máy. Các kết quả đột phá gần đây trong phân tích hình ảnh và
nhận dạng giọng nói đã tạo ra mối quan tâm lớn trong lĩnh vực này bởi vì các ứng
dụng trong nhiều lĩnh vực khác cung cấp dữ liệu lớn dường như cũng khả thi. Mặt
khác, phương pháp tốn học và tính tốn làm cơ sở cho các mơ hình học sâu là rất
khó khăn, đặc biệt là đối với các nhà khoa học liên ngành. Dưới đây là một số mơ
hình học sâu phổ biến được sử dụng trong lĩnh vực này:
Recurrent Neural Networks (RNN): RNN là một loại mạng nơ-ron nhân tạo
có khả năng xử lý dữ liệu chuỗi và mối quan hệ thời gian. Trong bài tốn dự báo
khách hàng rời mạng viễn thơng, RNN có thể được sử dụng để mơ hình hóa sự phụ
thuộc giữa các sự kiện trước đó và quyết định của khách hàng hiện tại.
Long Short-Term Memory (LSTM): LSTM là một biến thể của RNN, được
thiết kế để xử lý vấn đề phụ thuộc xa trong các chuỗi dữ liệu. LSTM có khả năng ghi
nhớ thơng tin quan trọng từ quá khứ và loại bỏ thông tin không cần thiết, từ đó cải

thiện khả năng dự báo khách hàng rời mạng.
Gated Recurrent Unit (GRU): Tương tự như LSTM, GRU cũng là một biến
thể của RNN nhằm giải quyết vấn đề phụ thuộc xa. GRU sử dụng cơ chế cổng để điều
chỉnh việc lưu trữ thông tin và quyết định như LSTM, nhưng với một cấu trúc đơn
giản hơn.
Convolutional Neural Networks (CNN): Mặc dù CNN thường được sử dụng
cho xử lý hình ảnh, nhưng chúng cũng có thể được áp dụng trong bài toán dự báo
khách hàng rời mạng. CNN có khả năng học các đặc trưng tương quan khơng gian
trong dữ liệu chuỗi, giúp xác định các mẫu quan trọng liên quan đến việc khách hàng
rời mạng.


14

Các mơ hình học sâu trên thường được xây dựng và huấn luyện bằng sử dụng
thư viện như Keras hoặc TensorFlow, cung cấp các công cụ và tài nguyên để triển
khai và tối ưu hóa các mơ hình này. Việc lựa chọn mơ hình học sâu phụ thuộc vào
đặc điểm của dữ liệu và yêu cầu cụ thể của bài tốn dự báo khách hàng rời mạng viễn
thơng.
Trong đó, CNN là một trong những mơ hình học sâu có thể áp dụng cho bài
toán dự đoán giá chứng khoán nhờ vào khả năng trích xuất thơng tin hiệu quả qua các
bộ lọc. Theo một số kết quả thực nghiệm, CNN có một vai trị đáng kể trong việc xử
lý dữ liệu đầu vào và trích xuất đặc trưng. Ví dụ, theo [7] có thể áp dụng cho nhiều
dữ liệu từ các nguồn khác nhau, bao gồm nhiều thị trường khác nhau, và trích xuất
đặc trưng để dự đốn cho các thị trường này. Các kết quả đánh giá cho thấy so với
thuật toán cơ sở (baseline algorithm) tốt nhất, hiệu suất dự đoán khi sử dụng CNN
cho cải thiện đáng kể.

Hình 2.1: Mơ hình CNN


Các ưu điểm nổi bật của CNN:
Khả năng trích xuất đặc trưng tự động: CNN tự động học các đặc trưng từ dữ
liệu đầu vào thông qua các lớp tích chập. Điều này giúp giảm cơng sức và thời gian


15

cần cho việc tiền xử lý dữ liệu và tăng khả năng hiểu và nhận diện các đặc trưng quan
trọng trong dữ liệu.
Cấu trúc mạng nơ-ron chồng chất lên nhau: CNN sử dụng lớp tích chập và lớp
gộp xen kẽ nhau để trích xuất và giảm thiểu thơng tin từ dữ liệu. Điều này giúp mơ
hình nhìn vào các vùng cục bộ của dữ liệu và xác định các mẫu và đặc trưng quan
trọng, đồng thời giảm kích thước dữ liệu và số lượng tham số.
Hiệu suất cao: CNN thường được triển khai trên GPU để tận dụng sức mạnh
tính tốn song song, giúp tăng tốc q trình huấn luyện và dự đoán, đặc biệt đối với
dữ liệu lớn.
CNN đã được ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm nhận dạng ảnh,
phân loại văn bản, nhận dạng giọng nói, tự lái xe, và nhiều ứng dụng khác. Với khả
năng học và trích xuất đặc trưng tự động, CNN đã đạt được những kết quả ấn tượng
và đóng góp quan trọng cho sự phát triển của trí tuệ nhân tạo. Trong đề án này, sẽ sử
dụng mơ hình học sâu CNN để giải quyết bài toán dự báo.

2.2. Các cơng trình nghiên cứu trong nước
Trong nghiên cứu của Nguyễn Trọng Thắng [8], để xác định các nhân tố ảnh
hưởng đến sự hài lòng của khách hàng về chất lượng dịch vụ internet cáp quang
FiberVNN tại VNPT thành phố Phan Rang - Tháp Chàm, nhóm tác giả dựa vào mơ
hình nghiên cứu của các nghiên cứu trước có liên quan, từ đó xây dựng mơ hình
nghiên cứu và đo lường các nhân tố ảnh hưởng đến sự hài lòng của khách hàng về
chất lượng dịch vụ internet cáp quang FiberVNN tại VNPT thành phố Phan Rang Tháp Chàm. Với kích thước mẫu nghiên cứu là 300, và sử dụng phần mềm thống kê
SPSS 20.0, mơ hình nghiên cứu cuối cùng gồm 5 nhân tố ảnh hưởng đến sự hài lòng

của khách hàng về chất lượng dịch vụ internet cáp quang FiberVNN tại VNPT thành
phố Phan Rang - Tháp Chàm, gồm: Phương tiện hữu hình; Sự đồng cảm; Sự tin cậy;
Sự đáp ứng; Năng lực phục vụ.
Dương Thị Hịa Bình [9] nghiên cứu xây dựng mơ hình học sâu dự đốn xu
hướng giá chứng khốn, tìm hiểu và ứng dụng các mơ hình học sâu vào thực tế. Theo
nhóm tác giả, cùng với sự phát triển của nền kinh tế thị trường, nhu cầu tăng thêm


×