Tải bản đầy đủ (.pdf) (25 trang)

Xây dựng hệ thống AI nhận diện và dự đoán sản lượng điện năng tiêu thụ bất thường của khách hàng (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (669.72 KB, 25 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

HOÀNG XUÂN THIỆN

XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN
SẢN LƯỢNG ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA
KHÁCH HÀNG

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

TĨM TẮT LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng – Năm 2022

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


Cơng trình khoa học được hồn thành tại
ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS. BÙI THỊ THANH THANH

Phản biện 1: TS. PHẠM CÔNG THẮNG

Phản biện 2: TS. LÂM TỪNG GIANG


Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp tại Đại
học Đà Nẵng vào ngày 22 tháng 07 năm 2022

Có thể tìm hiểu luận văn tại:
− Trung tâm Học Liệu và TT Tại Đại học Bách Khoa - ĐHĐN
− Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách
Khoa - Đại học Đà Nẵng

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


1

MỞ ĐẦU
1. Tính cấp thiết và lý do chọn đề tài
Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều
chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới
điện thông minh, hệ thống nhận dạng hình ảnh quản lý đầu tư xây
dựng… Sản lượng điện năng là một phần thiết yếu trong dịch vụ kinh
doanh khách hàng, các chuyên viên tại phòng Kinh doanh và Kiểm
tra Giám sát mua bán điện đang sử dụng các cách thủ cơng như
Microsoft Excel hoặc các chương trình theo dõi đo đếm từ xa theo
thời gian trên nền tảng website.
Mục tiêu của nghiên cứu này là sử dụng kho dữ liệu sản lượng
điện tiêu thụ của khách hàng và thuật toán phân loại Rừng ngẫu
nhiên nhằm phát hiện ra các khách hàng có hành vi bất thường nguy
cơ có thể trộm cắp điện, từ đó đánh giá được hiệu quả và độ chính

xác của kết quả phân loại.
Từ những vấn đề trên, chúng tơi đã tiến hành tìm kiếm các mơ
hình thuật tốn huấn luyện và dự đốn phù hợp với mơ hình và dữ
liệu sử dụng điện năng của khách hàng mua điện thuộc quản lý của
Cơng ty.
Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn cao
học:
“Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất
thường qua sản lượng điện tiêu thụ”.
2. Mục tiêu và nội dung nghiên cứu
2.1. Mục tiêu
Xây dựng hệ thống AI nhận diện được các khách hàng có hành
vi bất thường theo sản lượng điện tiêu thụ của tháng. Nhằm đảm bảo
xử lý nhanh và kịp thời, hệ thống đồng bộ với hệ thống CMIS của
Tập đoàn Điện lực Quốc gia Việt Nam và sẽ tự động hoạt động ngay
khi sản lượng điện khách hàng được ra hóa đơn theo tháng để có số
liệu chính xác nhất.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


2

Nắm rõ được các cơ chế hoạt động của các thuật toán học máy.
Đặc biệt là thuật toán Rừng ngẫu nhiên trong việc áp dụng tính ngẫu
nhiên để đưa ra quyết định.
2.2. Mục đích
Giảm thời gian xử lý cơng việc của các cán bộ chuyên viên

giúp tăng năng suất lao động, nâng cao hiệu quả công việc qua các hệ
thống học máy. Khẳng định được về lợi ích của học máy trong cơng
việc. Tăng lịng tin của khách hàng với ngành điện
2.3. Nội dung nghiên cứu
Tìm hiểu lý thuyết học máy và các ứng dụng của học máy
trong thời đại công nghệ 4.0 nhất là bám sát chủ đề Chuyển đổi số
của Bộ Thông tin và Truyền thông năm 2021.
Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên và cách xây
dựng thuật toán. Hiểu rõ các ưu điểm và nhược điểm của thuật toán
trong việc nhận diện khách hàng.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Sản lượng điện năng (kWh) tiêu thụ của khách hàng đăng ký
cấp điện trên địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội
dung nguồn dữ liệu như Phụ lục 01)
3.2. Phạm vi nghiên cứu
Sử dụng dữ liệu của khách hàng mua bán điện trên địa bàn tỉnh
Thừa Thiên Huế trong quá trình nhận diện tự động hằng ngày. Tập
dữ liệu huấn luyện cần thu thập mỗi tháng trên địa bàn miền Trung
để tăng số lượng dữ liệu huấn luyện để tăng độ chính xác của thuật
tốn.
4. Phương pháp nghiên cứu
4.1. Phương pháp lý thuyết
Cơ sở lý thuyết về thuật tốn Rừng ngẫu nhiên, Cây quyết định
và học có giám sát. Hiểu rõ cơ chế hoạt động và các ưu nhược điểm
của thuật tốn với các loại học máy cịn lại.
Hiểu sâu cấu trúc thuộc tình của một khách hàng mua bán điện
với Công ty Điện lực và cách nhận diện một khách hàng trộm cắp

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.


Lưu hành nội bộ


3

điện thường có những hành vi như thế nào. Sử dụng các khách hàng
ngẫu nhiên có hành vi tương tự để đánh giá kết quả tự dự đoán.
4.2. Phương pháp thực nghiệm
Thu thập dữ liệu khách hàng trộm cắp điện trên địa bàn miền
Trung và xử lý các khách hàng gây nhiễu trong q trính huấn luyện
mơ hình dự đốn. Xây dựng hệ thống AI nhận diện với thuật toán
Rừng ngẫu nhiên với các tham số đầu vào là Sản lượng điện năng
các tháng liền kề, thời gian vi phạm, bậc giá điện hiện tại. Sử dụng
tập các dữ liệu gộp chung khách hàng trộm cắp và khách hàng bình
thường để làm tập kiểm thử nhằm kiểm tra độ chính xác của hệ thống
nhận diện.
5. Dự kiến kết quả đạt được
5.1. Về lý thuyết
Nắm rõ cơ sở lý thuật và các ứng dụng có thể áp dụng mơ hình
học sâu. Đặc biệt là mơ hình học có giám sát trong việc nhận diện
đối tượng.
Làm chủ được thuật toán Rừng ngẫu nhiên trong dự đoán sản
lượng điện năng. Xây dựng các mơ hình tập dữ liệu gốc và dữ liệu
huấn luyện để tạo cây quyết định.
5.2. Về thực nghiệm
Sử dụng cùng 1 bộ cơ sở dữ liệu để huấn luyện qua 2 giải thuật
Random Forest và Nạve Bayes. Ngồi ra, bộ dữ liệu cần dự đoán
cũng giống nhau để so sánh được tốc độ huấn luyên, dự đoán cũng
như tỷ lệ chính xác của thuật tốn. Xây dựng phần mềm AI ứng dụng

dự đoán sản lượng điện bất thường của khách hàng với độ chính xác
nhận diện khách hàng bất thường khoảng 80%. Ngồi ra cịn bổ sung
thêm các chức năng như giám sát sản lượng điện năng của khách
hàng và tạo phiếu kiểm tra với các khách hàng bất thường.
6. Ý nghĩa khoa học và thực tiễn
6.1. Ý nghĩa khoa học
Tổng quan, đánh giá được độ chính xác của thuật toán Rừng
ngẫu nhiên khi áp dụng vào dự đoán sản lượng điện năng theo tháng
của khách hàng.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


4

Đề tài đã đóng góp một vai trị lớn trong q trình nâng cao độ
tin cậy cho thuật tốn Rừng ngẫu nhiên nói riêng và học máy nói
chung trong việc nhận diện chính xác các đối tượng cần nghiên cứu
dự đốn.
6.2. Ý nghĩa thực tiễn
Đề xuất giải pháp này góp phần giúp Công ty Điện lực Thừa
Thiên Huế nhận ra các khách hàng bất thường một cách tự động,
giảm công rà soát sản lượng điện khách hàng mỗi ngày các các Giám
sát viên. Qua đó, có hướng xử lý kịp thời ngay lập tức và giúp các
khách hàng tin tưởng ngành điện. Hệ thống đã góp phần phổ biến
ứng dụng sử dụng trí tuệ nhân tạo trong ngành Điện giúp nâng cao
hiệu quả công việc.
7. Bố cục của luận văn

Dự kiến luận văn được trình bày bao gồm các phần chính như
sau:
Chương 1: Cơ sở lý thuyết
Giới thiệu về học máy, các mơ hình học máy thơng dụng hiện
nay, thuật toán Rừng ngẫu nhiên và các điểm mạnh điểm yếu các
thuật toán Rừng ngẫu nhiên. Cơ sở lý thuyết thuật toán Naive Bayes
Các lý thuyết sử dụng trong đề tài.
Chương 2: Ứng dụng thuật toán Random Forest vào bài
toán
Giới thiệu thuật tốn Random Forest, xây dựng mơ hình học
máy, xây dựng tập dữ liệu gốc, tập dữ liệu khởi động, tập kiểm thử,
giới thiệu cách hệ thống làm việc qua từng bước trong q trình huấn
luyện và dự đốn sản lượng điện năng của khách hàng.
Chương 3: Triển khai và đánh giá
Cài đặt cấu hình các mơi trường làm việc cho hệ thống. Lập
trình các chức năng cho hệ thống. Thu thập dữ liệu theo thời gian
xuất hóa đơn của khách hàng mỗi khi CMIS có dữ liệu để tiến hành
dự đoán kịp thời. So sánh đánh giá kết quả dự đoán khách hàng qua
02 thuật toán Random Forest và thuật tốn Naive Bayes. Phân tích
ưu nhược điểm của 02 thuật toán.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


5

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1. Học máy (Machine Learning)

1.1. Khái niệm

Machine learning (ML) hay máy học là một nhánh của
trí tuệ nhân tạo (AI), nó là một lĩnh vực nghiên cứu cho phép
máy tính có khả năng cải thiện chính bản thân chúng dựa trên
dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm (những
gì đã được học). Machine learning có thể tự dự đốn hoặc đưa
ra quyết định mà khơng cần được lập trình cụ thể. Một vài ứng
dụng nổi tiếng sử dụng học máy như Cảnh báo giao thông (trên
ứng dụng Google Maps).
1.2. Cây quyết định (Decision Tree)
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình
dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về
một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự
vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một
biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể
cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục
tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi
từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định
được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định.
1.2. Thuật toán Rừng ngẫu nhiên (Random Forest)

1.2.1. Giới thiệu
Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một
phương pháp học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ
khác hoạt động bằng cách xây dựng vô số cây quyết định tại thời
điểm đào tạo. Đối với các nhiệm vụ phân loại, đầu ra của rừng ngẫu
nhiên là loại được chọn bởi hầu hết các cây. Đối với các nhiệm vụ
hồi quy, giá trị trung bình hoặc dự đốn trung bình của các cây riêng

lẻ được trả về. Rừng quyết định ngẫu nhiên phù hợp với thói quen
thích nghi quá mức của cây quyết định đối với tập huấn luyện của

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


6

chúng. Rừng ngẫu nhiên nhìn chung tốt hơn cây quyết định, nhưng
độ chính xác của chúng thấp hơn cây tăng cường độ dốc. Tuy nhiên,
đặc điểm dữ liệu có thể ảnh hưởng đến hiệu suất của chúng.

Hình 1.3 Mơ hình thuật toán Random Forest
Thuật toán Rừng ngẫu nhiên cho ra kết quả chính xác cao nhờ
yếu tố ngẫu nhiên ra quyết định qua đó bỏ phiếu theo số đơng cây
quyết định.
1.2.2. Các ứng dụng của Rừng ngẫu nhiên
Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên được sử dụng:
− Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán
này để xác định rủi ro cho vay.
− Y học: Với sự trợ giúp của thuật toán này, các xu hướng
bệnh và nguy cơ của bệnh có thể được xác định.
− Sử dụng đất: Chúng tơi có thể xác định các khu vực sử dụng
đất tương tự bằng thuật tốn này.
− Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng
cách sử dụng thuật toán này.
1.2.3. Ưu điểm và nhược điểm của Rừng ngẫu nhiên
1.2.3.1. Ưu điểm của Rừng ngẫu nhiên

Thuật toán giải quyết tốt các bài tốn có nhiều dữ liệu nhiễu,
thiếu giá trị. Do cách chọn ngẫu nhiên thuộc tính nên các giá trị

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


7

nhiễu, thiếu ảnh hưởng khơng lớn đến kết quả. Có những sự ước
lượng nội tại như độ chính xác của mơ hình phỏng đốn hoặc độ
mạnh và liên quan giữa các thuộc tính (Out of bag). Dễ dàng thực
hiện song song. Thay vì một máy thực hiện cả thuật tốn, ta có thể sử
dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng.
1.2.3.2. Nhược điểm của Rừng ngẫu nhiên
Cân bằng nhãn lớp khiến kết quả dự đốn của thuật tốn có
thể lệch về số đơng nhãn lớp.
Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và
số thuộc tính phân chia.ng cây trong rừng cũng như mối tương quan
giữa các cây.
1.2.4. Các bước thực hiện
Đầu tiên thuật toán Rừng ngẫu nhiên được xây dựng dựa trên
một tập thể cây quyết định. Cây quyết định là các khối xây dựng của
một thuật toán rừng ngẫu nhiên. Cây quyết định là một kỹ thuật hỗ
trợ quyết định tạo thành một cấu trúc giống như cây. Tổng quan về
cây quyết định sẽ giúp chúng ta hiểu cách hoạt động của các thuật
toán rừng ngẫu nhiên.
Cây quyết định bao gồm ba thành phần: nút quyết định, nút
lá và nút gốc. Thuật toán cây quyết định chia tập dữ liệu huấn luyện

thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác.
Trình tự này tiếp tục cho đến khi đạt được một nút lá. Nút lá không
thể được phân tách thêm.
Các nút trong cây quyết định đại diện cho các thuộc tính
được sử dụng để dự đoán kết quả. Các nút quyết định cung cấp một
liên kết đến các lá. Sơ đồ sau đây cho thấy ba loại nút trong cây
quyết định.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


8

Hình 1.5 Mơ hình bỏ phiếu phân loại của Rừng ngẫu nhiên
Ở bước huấn luyện thì mình sẽ xây dựng nhiều cây quyết
định, các cây quyết định có thể khác nhau. Sau đó ở bước dự đốn,
với một dữ liệu mới, thì ở mỗi cây quyết định mình sẽ đi từ trên
xuống theo các điểm nút điều kiện để được các dự đốn, sau đó kết
quả cuối cùng được tổng hợp từ kết quả của các cây quyết định.
1.3. Naive Bayes
1.3.1. Giới thiệu
Naive Bayes Classification (NBC) là một thuật toán dựa trên
định lý Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng
như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê.
Naive Bayes Classification là một trong những thuật toán được ứng
dụng rất nhiều trong các lĩnh vực Machine learning dùng để đưa các
dự đốn chính xác nhất dự trên một tập dữ liệu đã được thu thập, vì
nó khá dễ hiểu và độ chính xác cao. Nó thuộc vào nhóm Supervised

Machine Learning Algorithms (thuật tốn học có hướng dẫn), tức là
máy học từ các ví dụ từ các mẫu dữ liệu đã có
1.3.2. Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện
ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này
được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B". Đại
lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm
vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị
đó.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


9

𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐴⋂𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

Công thức (1.1)

1.3.3. Cách hoạt động
Bước 1. Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần
tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính
Bước 2. Giả sử có m lớp C1, C2…Cm. Cho một phần tử dữ
liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm
lớn nhất. Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci
nếu và chỉ nếu:
P(C_i |X) > P(C_j |X) (1<= i,j <=m,i != j)
Cơng thức (1.4)

Giá trị này sẽ tính dựa trên định lý Bayes.
Bước 3. Để tìm xác suất lớn nhất, ta nhận thấy các giá trị
P(X) là giống nhau với mọi lớp nên khơng cần tính. Do đó ta chỉ cần
tìm giá trị lớn nhất của P(X|Ci) * P(Ci). Chú ý rằng P(Ci) được ước
lượng bằng |Di|/|D|, trong đó Di là tập các phần tử dữ liệu thuộc lớp
Ci. Nếu xác suất tiền nghiệm P(Ci) cũng không xác định được thì ta
coi chúng bằng nhau
khi đó ta chỉ cần tìm giá trị P(X|Ci) lớn nhất.
Bước 4. Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì
chi phí tính tồn P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp
của thuật tốn Naive Bayes giả thiết các thuộc tính độc lập nhau. Khi
đó ta có thể tính:
P(X|C_i) = P(x_1 |C_i)...P(x_n |C_i)
Cơng thức (1.6)
1.4. Cơng nghệ sử dụng
1.4.1. Nodejs
1.4.2. Microsoft SQL Server
1.4.3. Angular
1.4.4. Python
1.4.5. Docker Compose
1.4.6. Google Colaboratory
1.5. Các giao thức và mơ hình
1.5.1 HTTP
1.5.2. Định dạng JSON

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ



10

1.5.3 REST
1.5.4 REST API
1.5.5 Mơ hình MVC

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


11

CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN RANDOM FOREST
VÀO BÀI TOÁN
2.1. Thu thập dữ liệu
2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS
Hệ thống thông tin quản lý khách hàng dùng điện (CMIS) được
EVN đưa vào sử dụng nhằm khai thác có chức năng truy vấn sản
lượng điện năng của khách hàng. Từ đó, các đơn vị có thể xây dựng
các chương trình ứng dụng để phát triển cho đơn vị nhằm tăng năng
suất lao động và nâng cao SXKD tại Cơng ty.
Hệ thống AI dự đốn sản lượng điện tiêu thụ của khách hàng
dựa trên sản lượng điện tiêu thụ theo tháng (kWh) của khách hàng
đó. Do đó, tôi sẽ thu thập dữ liệu theo số liệu sản lượng điện trên hóa
đơn tiền điện tháng của khách hàng.
Hệ thống thu thập dữ liệu sẽ thoạt động với tần suất 01 lần/01
tháng (kỳ hóa đơn tiền điện của khách hàng) và sẽ thu thập toàn bộ
các khách hàng sử dụng điện đã đăng ký mua điện trên địa bàn miền
Trung. Vì vậy, tương ứng với mỗi năm, một khách hàng sẽ có 12

trường dữ liệu theo hóa đơn thanh tốn tiền điện từng tháng của
khách hàng đó.

PC03BB0101051
1200
1000
800
600
400
200

603 633 554 588 693

845 882

1136 1050

901
662 618

0
1

2

3

4

5


6

7

8

9

10

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

11

12

Lưu hành nội bộ


12

Hình 2.1 Sản lượng điện tiêu thụ 12 tháng năm 2021 của khách hàng
PC03BB0101051
2.1.2 Quy trình thu thập dữ liệu các khách hàng trộm cắp điện
Đầu tiên, ta sẽ tổng hợp lại danh sách các khách hàng ăn trộm
điện và dữ liệu sản lượng điện của họ đã sử dụng qua từng tháng
trong năm vi phạm. Để tập dữ liệu huấn luyện được lớn và đa dạng,
tôi sẽ sử dụng dữ liệu của khách hàng đã vi phạm ăn trộm điện thuộc
quyền quản lý của Tổng công ty Điện lực miền Trung (hơn 1.000

khách hàng đã có hành vi ăn trộm điện từ năm 2018-2021 đã được
các Công ty Điện lực quản lý phát hiện và xử lý biên bản truy thu).
Dưới đây là 6 khách hàng trộm cắp điện năm 2019 thuộc Điện
lực Nam Sông Hương – Công ty Điện lực Thừa Thiên Huế. Bằng
khả năng nghiệp vụ, sau khi phát hiện khách hàng trộm cắp điện thì
sẽ phân tích để chọn ra tháng có sản lượng vi phạm.
Bảng 1.1 06 khách hàng trộm cắp điện năm 2019
T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12


125 159 131

177

185

185

78

169

205

204

168

142

285 133 276

321

354

242

138


180

157

159

152

101

221 208 242

373

492

820

764

829

769

638

609

511


138 144 116

124

123

204

339

263

169

142

186

152

996 573 923 1188 1296 2045 1910 1352 1747 1891 1833 1757
241 249 249

292

252

260


246

360

429

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

345

335

Lưu hành nội bộ

323


13

2500
2000
1500
1000
500
0
1

2

3


4

5

6

7

8

9

Series1

Series2

Series3

Series4

Series5

Series6

10

11

12


Hình 2.2 Biểu đồ sản lượng trong năm 2019 06 khách hàng trộm cắp
điện
2.1.3 Xử lý dữ liệu khách hàng gây nhiễu
Ngày nay, hành vi trộm cắp điện của các khách hàng ngày một
tinh vi. Một số trường hợp ăn trộm điện nhưng sản lượng điện từng
tháng không tăng hoặc giảm mạnh. Điều này làm các cán bộ giám sát
phải giám sát nhiều yếu tố. Nhất thời cần bổ sung thêm dữ liệu điện
từng ngày để kiểm tra tình hình sử dụng điện trong các khung thời
gian cao điểm, bình thường và thấp điểm. Ví dụ khách hàng
PC03AA18795 dưới đây phát hiện trộm cắp điện từ ngày
16/11/2019. Qua đó dữ liệu sản lượng điện các tháng trước đó lần
lượt là: 180 kwh (Tháng 8/2019), 157 kwh (Tháng 9/2019), 159 kwh
(Tháng 10/2019) và 152 kwh (Tháng 11/2019). Nhận xét ban đầu
cho thấy khách hàng sử dụng điện trong 2 năm 2018 và 2019 có dấu
hiệu khơng chuẩn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


14

Chính vì lý do đó, ở tập dữ liệu để huấn luyện và kiểm thử cần loại
bỏ những khách hàng gây nhiễu này để độ chính xác được tăng cao.
Hình 2.3 Biểu đồ dữ liệu sản lượng điện 2 năm của một khách hàng

PC03AA0118795 16-11-19
600

500
400
300
200
100
0

ăn trộm ít biến động
2.2. Áp dụng mơ hình học máy vào nhận diện
Để mơ hình huấn luyện được chính xác thì ngồi dữ liệu sản
lượng điện qua từng tháng của khách hàng trong các tháng gần nhất,
ta cần bổ sung thêm một số ràng buộc khác như ngày vi phạm, tháng
vi phạm, mùa vi phạm, Bậc giá tiền mua điện tại thời điểm đó. Tiếp
theo, vào những tháng có bắt đầu hành vi vi phạm, ta sẽ đánh nhãn
vào tháng này để phù hợp với mơ hình huấn luyện có giám sát. Danh
sách huấn luyện sẽ hồn tồn khơng có trường dữ liệu mã khách
hàng nhằm bảo đảm an tồn thơng tin cho người dùng và dữ liệu
Cơng ty. Những tháng vi phạm thì sản lượng điện sẽ có dấu hiệu bất
thường, đa phần sẽ giảm đột biến so với các tháng trước.
2.2.1. Các ràng buộc
2.2.1.1 Các mùa trong năm
Thông thường, tâm lý của những khách hàng trộm cắp điện là
để giảm chi phí mua điện hằng tháng nhằm tăng lợi nhuận bất chính
cho bản thân người đó. Chính vì lý do đó, khách hàng này thường
nhắm vào các tháng có nhu cầu sử dụng điện cao để thực hiện các

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ



15

hành vi trộm cắp điện. Điển hình như các tháng trong mùa hè thường
nắng nóng phải sử dụng các thiết bị làm mát thường xuyên như điều
hòa, máy lạnh, tủ lạnh, tủ đông… hay các tháng trong mùa đông
thường sử dụng các thiết bị giữ ấm trong nhà như máy sưởi, máy sấy
áo quần, đèn UV, điều hịa… Chính ví lý do đó các mùa trong năm
sẽ là một ràng buộc cần thiết trong việc huấn luyện và dự đoán khách
hàng.
2.2.1.2 Giá điện bậc thang dành cho khách hàng sinh hoạt
2.2.1.2.a. Các ngành sản xuất
2.2.1.2.b. Khối hành chính, sự nghiệp
2.2.1.2.c. Kinh doanh
2.2.1.2.d. Sinh hoạt
Bảng 2.2 Giá điện sinh hoạt
TT

Nhóm đối tượng khách hàng

1

Giá bán lẻ điện sinh hoạt

Giá bán điện
(đồng/kWh)

Bậc 1: Cho kWh từ 0 - 50

1.678


Bậc 2: Cho kWh từ 51 - 100

1.734

Bậc 3: Cho kWh từ 101 - 200

2.014

Bậc 4: Cho kWh từ 201 - 300

2.536

Bậc 5: Cho kWh từ 301 - 400

2.834

Bậc 6: Cho kWh từ 401 trở lên
2.927
Giá bán lẻ điện sinh hoạt dùng
2
2.461
công tơ thẻ trả trước
2.2.1.3 Dữ liệu sản lượng điện của khách hàng trong 05 tháng gần
nhất

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ



16

Bảng 2.6 Sản lượng điện 05 tháng của 05 khách hàng TTHPC 2021

Mã khách hàng

Tên KH

T1

T2

T3

T4

PC03DD0401366 Lê Văn Ghe

402

353

392

402 454

PC03GG0705078 Lương Thị Hiền

133


146

120

112 136

PC03GG0706036 Bùi Văn Dũng

52

48

69

70

82

PC03HH0813495 Hoàng Thanh Tùng

43

19

47

36

49


PC03HH0809254 Nguyễn Đăng Thanh

29

31

66

38

52

2.2.2. Xây dựng tập dữ liệu gốc (Original Dataset)
Bảng 2.7 Tập dữ liệu gốc gồm n dữ liệu (sample)
Bậc
Kết
T-4 T-3 T-2 T-1 T
giá
Tháng Mùa
quả
điện
47
97 100 81
0
2
12
Đông Trộm
26
32

54
52 69
2
4
Xuân Trộm
495 393 330 422 410
6
1
Đơng Trộm
358 369 385 391 483
6
7

Trộm
Bình
100 107 110 120 140
3
7

thường
Bình
395 401 424 442 550
6
12
Đơng
thường


...


… …


...
2.2.3 Xây dựng tập dữ liệu khởi động (Bootstrapped Dataset)
Để tạo ra bộ dữ liệu khởi động cùng kích thước với tập dữ liệu
gốc, ta sẽ lựa chọn ngẫu nhiên các mẫu từ tập dữ liệu gốc bằng kỹ

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ

T5


17

thuật Bootstrapping hay còn gọi là Random sampling with
replacement. Điều quan trọng là chúng ta được phép chọn cùng một
mẫu nhiều lần. Tức khi ta tập hợp được 1 dữ liệu thì mình khơng bỏ
dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp tục
sample cho tới khi sample đủ n dữ liệu. Khi dùng kỹ thuật này thì tập
n dữ liệu mới của ta có thể có những dữ liệu bị trùng nhau. Thơng
thường sẽ có 1/3 dữ liệu từ tập dữ liệu gốc sẽ không được thêm vào
tập dữ liệu khởi động. Các dữ liệu này được gọi là “Out-of-bag
Dataset” và sẽ không được sử dụng để tạo ra các cây quyết định ở
giai đoạn tiếp theo. Vì lý do đó các dữ liệu này sẽ được sử dụng như
một tập dữ liệu kiểm thử. Ta có thể cho lần lượt các dữ liệu trong tập
này chạy qua các cây quyết định để đánh giá độ chính xác phân loại
của các cây quyết định.

Bảng 2.8 Tập dữ liệu khởi động
Kết
T-4 T-3 T-2 T-1
T
Bậc Tháng Mùa
quả
47
97
100
81
0
2
12
Đơng
Trộm x
47
97
100
81
0
2
12
Đơng
Trộm x
Bình
395 401 424 442 550
6
12
Đơng
thường

495 393 330 422 410
6
1
Đơng
Trộm
Bình
100 107 110 120 140
3
7

thường
358 369
385 391 483
6
7

Trộm


...





...
2.2.4 Xây dựng các cây quyết định
Tạo cây quyết định bằng các sử dụng tập dữ liệu kh nhưng chỉ
sử dụng một tập hợp con ngẫu nhiên của các biến hoặc cột ở mỗi
bước

Chọn ngẫu nhiên các ràng buộc để làm nút gốc đầu tiên của
cây quyết định. Ở đây, ta sẽ chọn ngẫu 2 trong 4 ràng buộc đã có (T,
bậc giá điện, tháng và mùa)

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


18

CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ
ĐÁNH GIÁ KẾT QUẢ
3.1. u cầu hệ thống
3.2. Mơ hình hoạt động hệ thống

Hình 3.2 Sơ đồ hoạt động của hệ thống
3.2 Triển khai các chức năng
3.3.1. Triển khai ứng dụng Web với Angular và API Nodejs
Ứng dụng web dành cho người dùng đang chạy tại DNS :
:83 (chạy tại mạng nội bộ Công ty Điện lực Thừa
Thiên
Huế).
Hệ
thống
backend
được
đặt
tại
:3000.

3.3.2 Triển khai hệ thống AI nhận diện khách hàng bất thường
bằng ngôn ngữ Python chạy trên Docker Compose
− API AI dự đoán khách hàng chạy tại địa chỉ:
http://10.124.4.13:3008
3.4. Kết quả
3.4.1 Chức năng chính
Truy vấn dữ liệu khách hàng bất thường
3.4.2 Tra cứu thông tin khách hàng
Tra cứu thông tin khách hàng từ CMIS
3.4.3 Chức năng bổ trợ
Chức năng trên hệ thống giúp Chuyên viên phòng Kiểm tra
giá sát có thể tạo phiếu ngay khi phát hiện khách hàng bất thường
cần đơn vị kiểm tra ngay. Phiếu sẽ được gửi về đơn vị và nhắn tin

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


19

trên hệ thống CPC-Eoffice cho Cán bộ đi kiểm tra. Phiếu điện tử cịn
có chức năng ký số EVNCA trên ứng dụng CPC-Eoffice được phát
triển bởi EVNCPC, việc ký số điện tử giúp mang tính pháp lý và
thuận tiện trong công việc giúp công việc của cái chuyên viên, kỹ sư
tại Đơn vị được cải thiện.
3.5. Đánh giá kết quả
3.5.1. So sánh thuật tốn Random Forest và Nạve Bayes
Nguồn dữ liệu huấn luyện chung: 1000 khách hàng
trộm cắp điện

Ví dụ một khách hàng trộm cắp điện có dữ liệu sản
lượng điện trong năm như sau:
Bảng 3.1 Bảng dữ liệu sản lượng điện tiêu thụ trong năm
của một khách hàng trộm cắp điện
T1 T2 T3 T4 T5 T6 T7 T8 T9 T1 T1
0
1
12 15 13 17 18 18 78 16 20 20 16
5
9
1
7
5
5
9
5
4
8

T1
2
14
2

Bảng 3.2 Bảng Dữ liệu samble được từ một khách hàng trộm
cắp điện:
TT T-4 T-3 T-2 T-1
T
bậc Mùa
Phân loại

1

125

159

131

177

185

3



Bình thường

2

159

131

177

185

185


3



Bình thường

3

131

177

185

185

78

2



Trộm

4

177

185


185

78

169

3



Bình thường

5
6

185
185

185
78

78
169

169
205

205
204


4
4

Đơng
Đơng

Bình thường
Bình thường

7

78

169

205

204

168

3

Đơng

Bình thường

8

169


205

204

168

142

3

Đơng

Bình thường

Vậy, với 1000 khách hàng ta sẽ có:

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


20

1000 𝑥 8 = 8000 (𝐷ữ 𝑙𝑖ệ𝑢)

Công
(3.1)

thức


Nguồn dữ liệu kiểm thử
Số khách hàng dùng để kiểm tra độ chính xác của dự
đốn: 153.935 khách hàng thuộc Điên lực Nam Sơng Hương
và Điên lực Bắc Sông Hương – Công ty Điện lực Thừa Thiên
Huế và 112 khách hàng trộm cắp điên khơng thuộc danh sách
huấn luyện.
Số khách hàng cần dự đốn mỗi đợt (Tổng số khách
hàng đăng ký mua điện tại địa bản Tỉnh Thừa Thiên Huế):
317.203 khách hàng
Bảng 3.3. Bảng so sánh giữa 02 thuật tốn
Random Forest Nạve Bayes
Thời gian huấn luyên dữ liệu
(Sử dung Google Colab
15~18 phút
< 10 phút
GPU)
Thời gian trung bình dự
> 65 phút
15~20 phút
đốn 317203 khách hàng
Tỷ lệ chính xác
82%
53%
Để thực hiện so sánh giữa hai kỹ thuật học máy khác nhau,
đó là Nạve Bayes và Random Forest để đo độ chính xác của chẩn
đốn, tơi sẽ sử dụng nguồn dữ liệu chung như trên với các dữ liệu
đầu vào là hồn tồn thật và chính xác. Theo kết quả đánh giá thực
hiện vào năm 2021, bộ phân loại Rừng Ngẫu nhiên hoạt động tốt hơn
phương pháp Nạve Bayes khi đạt độ chính xác 82%. Từ kết quả

cũng cho thấy được dù thời gian chậm hơn nhiều so với Bayes vì mơ
hình rừng gồm nhiều cây quyết định. Nên việc để đưa ra 1 dự đoán là
rất tốn thời gian.
3.5.2 Kết quả đạt được
Hệ thống hiện hữu sử dụng hệ thống RF-Spider, CMIS giúp
thu thập dữ liệu sản lượng điện và chỉ số công tơ của khách hàng.
Người dùng có thể sử dụng các nghiệp vụ chuyên môn cá nhân để tự

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


21

lọc các khách hàng cần kiểm tra. Nhưng vì số lượng khách hàng rất
lớn, việc tìm ra các khách hàng bất thường chiếm nhiều thời gian và
tỷ lệ chính xác cũng khơng cao vì chưa có một cơ sở chính thức vì
khả năng mỗi chuyên viên là khác nhau.
Từ đầu năm 2022, hệ thống AI nhận diện dự đoán khách
hàng bất thường được vận hành thử nghiệm tại Công ty Điện lực
Thừa Thiên Huế với đầu mối kỹ thuật chính là Hồng Xn Thiện
(Chun viên phịng CNTT) và bà Phạm Thị Quỳnh Giao (Chuyên
viên phòng Kiểm tra Giám sát mua bán điện) làm chun viên chính
trong q trình kiểm tra khách hàng bất thường. Trong quá trình hoạt
động đầu năm 2022, hệ thống đã hỗ trợ nhận diện hơn 1034 khách
hàng bất thường có tỷ lệ trên 85% và sau q trình kiểm tra đã phát
hiện trong đó 03 vụ trộm cắp điện. Tỷ lệ nhận diện khách hàng trộm
cắp đạt 87%. Với số lượng khách hàng nhận diện mỗi tháng là hơn
300.000 khách hàng trên địa bản tỉnh Thừa Thiên Huế. Dù số lượng

phân loại khá lớn, nhưng hệ thống vẫn hoạt động ổn định với tần suất
kịp thời khi có hóa đơn điện phát sinh.
Bảng 3.4 Danh sách khách hàng trộm cắp điện năm 2022
Mã khách hàng

Ngày vi phạm

Số ngày tính
bồi thường

Số tiền bồi
thường

1

PC03AA0245286

04/01/2022

7

204890 VND

2

PC03EE0513786

08/02/2022

365


957831 VND

3

PC03GG0705769

07/01/2022

365

585985 VND

TT

Tỷ lệ nhận diện khách hàng bất thường còn chưa tối ưu vì dữ
liệu sản lượng của khách hàng cịn khá ít chưa có được nhiều năm.
Do đó, để dự đốn đạt tỷ lệ cao thì cần thêm dữ liệu của nhiều năm
trước đó nữa để có thêm cơ sở so sánh sản lượng điện tiêu thụ của
khách hàng với tháng cùng kỳ các năm trước. Điều này làm tăng
ràng buộc giúp các cây quyết định được đa dạng giúp tăng tỷ lệ chính
xác của thuật tốn.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


22


KẾT LUẬN VÀ KIẾN NGHỊ
Đề tài đã đóng góp một phần lớn giúp mang lại giá trị làm lợi
cho ngành Điện trong việc rà soát sản lượng điện những khách hàng
trộm cắp điện nhằm bảo vệ quyền lợi chung của tất cả khách hàng.
Trong năm 2021, nhờ vào hệ thống đã giúp ngành Điện phân tích và
phát hiện ra các trường hợp bất thường qua đó sẽ kiểm tra đánh giá
lập biên bản nếu khách hàng vi phạm trộm cắp điện. Với dữ liệu sản
lượng điện năng tiêu thụ theo tháng của khách hàng là 1 lần trên 1
tháng thì thời gian dự đoán hơn 1 giờ cho hơn 300.000 khách hàng
trên địa bàn tỉnh là chấp nhận được. Chương trình đã đóng góp giúp
mang lại hiệu quả cao trong cơng việc. Mỗi tháng thay vì phải sử
dụng các cách thủ công như trước đây để kiểm tra từng khách hàng.
Hiện nay, hệ thống đã phân loại đánh nhãn các nhóm khách hàng
giúp giảm hiệu quả thời gian xử lý và tăng hiệu quả công việc đáng
kể.
Trong tương lai, nhằm tăng tỷ lệ nhận diện và phân loại khách
hàng có hành vi bất thường, đề tài cẩn được cho phép sử dụng nguồn
dữ liệu lớn hơn như dữ liệu các năm 2015 trở về trước để có cơ sở so
sánh độ biến thiên của một khách hàng trong các năm giúp học máy
có nhiều điều kiện để đưa ra dự đốn chính xác hơn. Việc mở rộng
dữ liệu ra các tỉnh thành khắp Việt Nam là điều cần thiết. Hiện nay
dữ liệu sản lượng điện được EVN quy chuẩn theo hệ thống CMIS
giúp dữ liệu được đồng bộ về mặt CSDL. Với giải pháp này, dữ liệu
khách hàng trộm cắp điện và khách hàng dự đoán cũng được đa dạng
từ nhiều ngành nghề cho đến vị trí địa lý vùng miền. Tỷ lệ tiêu thụ
điện năng ở mỗi tỉnh thành là khác nhau.
Ngồi ra, nhằm tăng tính cấp thiết cho người mua điện, hệ
thống cần được mở rộng thêm chức năng huấn luyện và dự đoán dữ
liệu trên dữ liệu theo ngày. Từ năm 2018, EVNCPC đã triển khai
thành công hệ thống thu thập chỉ số công tơ khách hàng (RF-Spider

Chi tiết phụ lục 02) hoàn toàn tự động, với hệ thống này, các dữ liệu
công tơ điện tử sẽ được lưu về định kỳ 3-5 lần/1 khách hàng/1 ngày.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


23

Với dữ liệu lớn và biên độ chênh lệch này, cần áp dụng thêm nhiều
giáp pháp để hệ thống có thể đưa ra dự đốn chính xác.

THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.

Lưu hành nội bộ


×