ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HOÀNG XUÂN THIỆN
XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN
SẢN LƯỢNG ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA
KHÁCH HÀNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TĨM TẮT LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2022
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
Cơng trình khoa học được hồn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS. BÙI THỊ THANH THANH
Phản biện 1: TS. PHẠM CÔNG THẮNG
Phản biện 2: TS. LÂM TỪNG GIANG
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp tại Đại
học Đà Nẵng vào ngày 22 tháng 07 năm 2022
Có thể tìm hiểu luận văn tại:
− Trung tâm Học Liệu và TT Tại Đại học Bách Khoa - ĐHĐN
− Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách
Khoa - Đại học Đà Nẵng
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
1
MỞ ĐẦU
1. Tính cấp thiết và lý do chọn đề tài
Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều
chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới
điện thông minh, hệ thống nhận dạng hình ảnh quản lý đầu tư xây
dựng… Sản lượng điện năng là một phần thiết yếu trong dịch vụ kinh
doanh khách hàng, các chuyên viên tại phòng Kinh doanh và Kiểm
tra Giám sát mua bán điện đang sử dụng các cách thủ cơng như
Microsoft Excel hoặc các chương trình theo dõi đo đếm từ xa theo
thời gian trên nền tảng website.
Mục tiêu của nghiên cứu này là sử dụng kho dữ liệu sản lượng
điện tiêu thụ của khách hàng và thuật toán phân loại Rừng ngẫu
nhiên nhằm phát hiện ra các khách hàng có hành vi bất thường nguy
cơ có thể trộm cắp điện, từ đó đánh giá được hiệu quả và độ chính
xác của kết quả phân loại.
Từ những vấn đề trên, chúng tơi đã tiến hành tìm kiếm các mơ
hình thuật tốn huấn luyện và dự đốn phù hợp với mơ hình và dữ
liệu sử dụng điện năng của khách hàng mua điện thuộc quản lý của
Cơng ty.
Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn cao
học:
“Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất
thường qua sản lượng điện tiêu thụ”.
2. Mục tiêu và nội dung nghiên cứu
2.1. Mục tiêu
Xây dựng hệ thống AI nhận diện được các khách hàng có hành
vi bất thường theo sản lượng điện tiêu thụ của tháng. Nhằm đảm bảo
xử lý nhanh và kịp thời, hệ thống đồng bộ với hệ thống CMIS của
Tập đoàn Điện lực Quốc gia Việt Nam và sẽ tự động hoạt động ngay
khi sản lượng điện khách hàng được ra hóa đơn theo tháng để có số
liệu chính xác nhất.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
2
Nắm rõ được các cơ chế hoạt động của các thuật toán học máy.
Đặc biệt là thuật toán Rừng ngẫu nhiên trong việc áp dụng tính ngẫu
nhiên để đưa ra quyết định.
2.2. Mục đích
Giảm thời gian xử lý cơng việc của các cán bộ chuyên viên
giúp tăng năng suất lao động, nâng cao hiệu quả công việc qua các hệ
thống học máy. Khẳng định được về lợi ích của học máy trong cơng
việc. Tăng lịng tin của khách hàng với ngành điện
2.3. Nội dung nghiên cứu
Tìm hiểu lý thuyết học máy và các ứng dụng của học máy
trong thời đại công nghệ 4.0 nhất là bám sát chủ đề Chuyển đổi số
của Bộ Thông tin và Truyền thông năm 2021.
Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên và cách xây
dựng thuật toán. Hiểu rõ các ưu điểm và nhược điểm của thuật toán
trong việc nhận diện khách hàng.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Sản lượng điện năng (kWh) tiêu thụ của khách hàng đăng ký
cấp điện trên địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội
dung nguồn dữ liệu như Phụ lục 01)
3.2. Phạm vi nghiên cứu
Sử dụng dữ liệu của khách hàng mua bán điện trên địa bàn tỉnh
Thừa Thiên Huế trong quá trình nhận diện tự động hằng ngày. Tập
dữ liệu huấn luyện cần thu thập mỗi tháng trên địa bàn miền Trung
để tăng số lượng dữ liệu huấn luyện để tăng độ chính xác của thuật
tốn.
4. Phương pháp nghiên cứu
4.1. Phương pháp lý thuyết
Cơ sở lý thuyết về thuật tốn Rừng ngẫu nhiên, Cây quyết định
và học có giám sát. Hiểu rõ cơ chế hoạt động và các ưu nhược điểm
của thuật tốn với các loại học máy cịn lại.
Hiểu sâu cấu trúc thuộc tình của một khách hàng mua bán điện
với Công ty Điện lực và cách nhận diện một khách hàng trộm cắp
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
3
điện thường có những hành vi như thế nào. Sử dụng các khách hàng
ngẫu nhiên có hành vi tương tự để đánh giá kết quả tự dự đoán.
4.2. Phương pháp thực nghiệm
Thu thập dữ liệu khách hàng trộm cắp điện trên địa bàn miền
Trung và xử lý các khách hàng gây nhiễu trong q trính huấn luyện
mơ hình dự đốn. Xây dựng hệ thống AI nhận diện với thuật toán
Rừng ngẫu nhiên với các tham số đầu vào là Sản lượng điện năng
các tháng liền kề, thời gian vi phạm, bậc giá điện hiện tại. Sử dụng
tập các dữ liệu gộp chung khách hàng trộm cắp và khách hàng bình
thường để làm tập kiểm thử nhằm kiểm tra độ chính xác của hệ thống
nhận diện.
5. Dự kiến kết quả đạt được
5.1. Về lý thuyết
Nắm rõ cơ sở lý thuật và các ứng dụng có thể áp dụng mơ hình
học sâu. Đặc biệt là mơ hình học có giám sát trong việc nhận diện
đối tượng.
Làm chủ được thuật toán Rừng ngẫu nhiên trong dự đoán sản
lượng điện năng. Xây dựng các mơ hình tập dữ liệu gốc và dữ liệu
huấn luyện để tạo cây quyết định.
5.2. Về thực nghiệm
Sử dụng cùng 1 bộ cơ sở dữ liệu để huấn luyện qua 2 giải thuật
Random Forest và Nạve Bayes. Ngồi ra, bộ dữ liệu cần dự đoán
cũng giống nhau để so sánh được tốc độ huấn luyên, dự đoán cũng
như tỷ lệ chính xác của thuật tốn. Xây dựng phần mềm AI ứng dụng
dự đoán sản lượng điện bất thường của khách hàng với độ chính xác
nhận diện khách hàng bất thường khoảng 80%. Ngồi ra cịn bổ sung
thêm các chức năng như giám sát sản lượng điện năng của khách
hàng và tạo phiếu kiểm tra với các khách hàng bất thường.
6. Ý nghĩa khoa học và thực tiễn
6.1. Ý nghĩa khoa học
Tổng quan, đánh giá được độ chính xác của thuật toán Rừng
ngẫu nhiên khi áp dụng vào dự đoán sản lượng điện năng theo tháng
của khách hàng.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
4
Đề tài đã đóng góp một vai trị lớn trong q trình nâng cao độ
tin cậy cho thuật tốn Rừng ngẫu nhiên nói riêng và học máy nói
chung trong việc nhận diện chính xác các đối tượng cần nghiên cứu
dự đốn.
6.2. Ý nghĩa thực tiễn
Đề xuất giải pháp này góp phần giúp Công ty Điện lực Thừa
Thiên Huế nhận ra các khách hàng bất thường một cách tự động,
giảm công rà soát sản lượng điện khách hàng mỗi ngày các các Giám
sát viên. Qua đó, có hướng xử lý kịp thời ngay lập tức và giúp các
khách hàng tin tưởng ngành điện. Hệ thống đã góp phần phổ biến
ứng dụng sử dụng trí tuệ nhân tạo trong ngành Điện giúp nâng cao
hiệu quả công việc.
7. Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm các phần chính như
sau:
Chương 1: Cơ sở lý thuyết
Giới thiệu về học máy, các mơ hình học máy thơng dụng hiện
nay, thuật toán Rừng ngẫu nhiên và các điểm mạnh điểm yếu các
thuật toán Rừng ngẫu nhiên. Cơ sở lý thuyết thuật toán Naive Bayes
Các lý thuyết sử dụng trong đề tài.
Chương 2: Ứng dụng thuật toán Random Forest vào bài
toán
Giới thiệu thuật tốn Random Forest, xây dựng mơ hình học
máy, xây dựng tập dữ liệu gốc, tập dữ liệu khởi động, tập kiểm thử,
giới thiệu cách hệ thống làm việc qua từng bước trong q trình huấn
luyện và dự đốn sản lượng điện năng của khách hàng.
Chương 3: Triển khai và đánh giá
Cài đặt cấu hình các mơi trường làm việc cho hệ thống. Lập
trình các chức năng cho hệ thống. Thu thập dữ liệu theo thời gian
xuất hóa đơn của khách hàng mỗi khi CMIS có dữ liệu để tiến hành
dự đoán kịp thời. So sánh đánh giá kết quả dự đoán khách hàng qua
02 thuật toán Random Forest và thuật tốn Naive Bayes. Phân tích
ưu nhược điểm của 02 thuật toán.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
5
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1. Học máy (Machine Learning)
1.1. Khái niệm
Machine learning (ML) hay máy học là một nhánh của
trí tuệ nhân tạo (AI), nó là một lĩnh vực nghiên cứu cho phép
máy tính có khả năng cải thiện chính bản thân chúng dựa trên
dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm (những
gì đã được học). Machine learning có thể tự dự đốn hoặc đưa
ra quyết định mà khơng cần được lập trình cụ thể. Một vài ứng
dụng nổi tiếng sử dụng học máy như Cảnh báo giao thông (trên
ứng dụng Google Maps).
1.2. Cây quyết định (Decision Tree)
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình
dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về
một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự
vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một
biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể
cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục
tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi
từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định
được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định.
1.2. Thuật toán Rừng ngẫu nhiên (Random Forest)
1.2.1. Giới thiệu
Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một
phương pháp học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ
khác hoạt động bằng cách xây dựng vô số cây quyết định tại thời
điểm đào tạo. Đối với các nhiệm vụ phân loại, đầu ra của rừng ngẫu
nhiên là loại được chọn bởi hầu hết các cây. Đối với các nhiệm vụ
hồi quy, giá trị trung bình hoặc dự đốn trung bình của các cây riêng
lẻ được trả về. Rừng quyết định ngẫu nhiên phù hợp với thói quen
thích nghi quá mức của cây quyết định đối với tập huấn luyện của
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
6
chúng. Rừng ngẫu nhiên nhìn chung tốt hơn cây quyết định, nhưng
độ chính xác của chúng thấp hơn cây tăng cường độ dốc. Tuy nhiên,
đặc điểm dữ liệu có thể ảnh hưởng đến hiệu suất của chúng.
Hình 1.3 Mơ hình thuật toán Random Forest
Thuật toán Rừng ngẫu nhiên cho ra kết quả chính xác cao nhờ
yếu tố ngẫu nhiên ra quyết định qua đó bỏ phiếu theo số đơng cây
quyết định.
1.2.2. Các ứng dụng của Rừng ngẫu nhiên
Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên được sử dụng:
− Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán
này để xác định rủi ro cho vay.
− Y học: Với sự trợ giúp của thuật toán này, các xu hướng
bệnh và nguy cơ của bệnh có thể được xác định.
− Sử dụng đất: Chúng tơi có thể xác định các khu vực sử dụng
đất tương tự bằng thuật tốn này.
− Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng
cách sử dụng thuật toán này.
1.2.3. Ưu điểm và nhược điểm của Rừng ngẫu nhiên
1.2.3.1. Ưu điểm của Rừng ngẫu nhiên
Thuật toán giải quyết tốt các bài tốn có nhiều dữ liệu nhiễu,
thiếu giá trị. Do cách chọn ngẫu nhiên thuộc tính nên các giá trị
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
7
nhiễu, thiếu ảnh hưởng khơng lớn đến kết quả. Có những sự ước
lượng nội tại như độ chính xác của mơ hình phỏng đốn hoặc độ
mạnh và liên quan giữa các thuộc tính (Out of bag). Dễ dàng thực
hiện song song. Thay vì một máy thực hiện cả thuật tốn, ta có thể sử
dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng.
1.2.3.2. Nhược điểm của Rừng ngẫu nhiên
Cân bằng nhãn lớp khiến kết quả dự đốn của thuật tốn có
thể lệch về số đơng nhãn lớp.
Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và
số thuộc tính phân chia.ng cây trong rừng cũng như mối tương quan
giữa các cây.
1.2.4. Các bước thực hiện
Đầu tiên thuật toán Rừng ngẫu nhiên được xây dựng dựa trên
một tập thể cây quyết định. Cây quyết định là các khối xây dựng của
một thuật toán rừng ngẫu nhiên. Cây quyết định là một kỹ thuật hỗ
trợ quyết định tạo thành một cấu trúc giống như cây. Tổng quan về
cây quyết định sẽ giúp chúng ta hiểu cách hoạt động của các thuật
toán rừng ngẫu nhiên.
Cây quyết định bao gồm ba thành phần: nút quyết định, nút
lá và nút gốc. Thuật toán cây quyết định chia tập dữ liệu huấn luyện
thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác.
Trình tự này tiếp tục cho đến khi đạt được một nút lá. Nút lá không
thể được phân tách thêm.
Các nút trong cây quyết định đại diện cho các thuộc tính
được sử dụng để dự đoán kết quả. Các nút quyết định cung cấp một
liên kết đến các lá. Sơ đồ sau đây cho thấy ba loại nút trong cây
quyết định.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
8
Hình 1.5 Mơ hình bỏ phiếu phân loại của Rừng ngẫu nhiên
Ở bước huấn luyện thì mình sẽ xây dựng nhiều cây quyết
định, các cây quyết định có thể khác nhau. Sau đó ở bước dự đốn,
với một dữ liệu mới, thì ở mỗi cây quyết định mình sẽ đi từ trên
xuống theo các điểm nút điều kiện để được các dự đốn, sau đó kết
quả cuối cùng được tổng hợp từ kết quả của các cây quyết định.
1.3. Naive Bayes
1.3.1. Giới thiệu
Naive Bayes Classification (NBC) là một thuật toán dựa trên
định lý Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng
như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê.
Naive Bayes Classification là một trong những thuật toán được ứng
dụng rất nhiều trong các lĩnh vực Machine learning dùng để đưa các
dự đốn chính xác nhất dự trên một tập dữ liệu đã được thu thập, vì
nó khá dễ hiểu và độ chính xác cao. Nó thuộc vào nhóm Supervised
Machine Learning Algorithms (thuật tốn học có hướng dẫn), tức là
máy học từ các ví dụ từ các mẫu dữ liệu đã có
1.3.2. Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện
ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này
được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B". Đại
lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm
vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị
đó.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
9
𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐴⋂𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)
Công thức (1.1)
1.3.3. Cách hoạt động
Bước 1. Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần
tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính
Bước 2. Giả sử có m lớp C1, C2…Cm. Cho một phần tử dữ
liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm
lớn nhất. Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci
nếu và chỉ nếu:
P(C_i |X) > P(C_j |X) (1<= i,j <=m,i != j)
Cơng thức (1.4)
Giá trị này sẽ tính dựa trên định lý Bayes.
Bước 3. Để tìm xác suất lớn nhất, ta nhận thấy các giá trị
P(X) là giống nhau với mọi lớp nên khơng cần tính. Do đó ta chỉ cần
tìm giá trị lớn nhất của P(X|Ci) * P(Ci). Chú ý rằng P(Ci) được ước
lượng bằng |Di|/|D|, trong đó Di là tập các phần tử dữ liệu thuộc lớp
Ci. Nếu xác suất tiền nghiệm P(Ci) cũng không xác định được thì ta
coi chúng bằng nhau
khi đó ta chỉ cần tìm giá trị P(X|Ci) lớn nhất.
Bước 4. Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì
chi phí tính tồn P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp
của thuật tốn Naive Bayes giả thiết các thuộc tính độc lập nhau. Khi
đó ta có thể tính:
P(X|C_i) = P(x_1 |C_i)...P(x_n |C_i)
Cơng thức (1.6)
1.4. Cơng nghệ sử dụng
1.4.1. Nodejs
1.4.2. Microsoft SQL Server
1.4.3. Angular
1.4.4. Python
1.4.5. Docker Compose
1.4.6. Google Colaboratory
1.5. Các giao thức và mơ hình
1.5.1 HTTP
1.5.2. Định dạng JSON
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
10
1.5.3 REST
1.5.4 REST API
1.5.5 Mơ hình MVC
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
11
CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN RANDOM FOREST
VÀO BÀI TOÁN
2.1. Thu thập dữ liệu
2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS
Hệ thống thông tin quản lý khách hàng dùng điện (CMIS) được
EVN đưa vào sử dụng nhằm khai thác có chức năng truy vấn sản
lượng điện năng của khách hàng. Từ đó, các đơn vị có thể xây dựng
các chương trình ứng dụng để phát triển cho đơn vị nhằm tăng năng
suất lao động và nâng cao SXKD tại Cơng ty.
Hệ thống AI dự đốn sản lượng điện tiêu thụ của khách hàng
dựa trên sản lượng điện tiêu thụ theo tháng (kWh) của khách hàng
đó. Do đó, tôi sẽ thu thập dữ liệu theo số liệu sản lượng điện trên hóa
đơn tiền điện tháng của khách hàng.
Hệ thống thu thập dữ liệu sẽ thoạt động với tần suất 01 lần/01
tháng (kỳ hóa đơn tiền điện của khách hàng) và sẽ thu thập toàn bộ
các khách hàng sử dụng điện đã đăng ký mua điện trên địa bàn miền
Trung. Vì vậy, tương ứng với mỗi năm, một khách hàng sẽ có 12
trường dữ liệu theo hóa đơn thanh tốn tiền điện từng tháng của
khách hàng đó.
PC03BB0101051
1200
1000
800
600
400
200
603 633 554 588 693
845 882
1136 1050
901
662 618
0
1
2
3
4
5
6
7
8
9
10
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
11
12
Lưu hành nội bộ
12
Hình 2.1 Sản lượng điện tiêu thụ 12 tháng năm 2021 của khách hàng
PC03BB0101051
2.1.2 Quy trình thu thập dữ liệu các khách hàng trộm cắp điện
Đầu tiên, ta sẽ tổng hợp lại danh sách các khách hàng ăn trộm
điện và dữ liệu sản lượng điện của họ đã sử dụng qua từng tháng
trong năm vi phạm. Để tập dữ liệu huấn luyện được lớn và đa dạng,
tôi sẽ sử dụng dữ liệu của khách hàng đã vi phạm ăn trộm điện thuộc
quyền quản lý của Tổng công ty Điện lực miền Trung (hơn 1.000
khách hàng đã có hành vi ăn trộm điện từ năm 2018-2021 đã được
các Công ty Điện lực quản lý phát hiện và xử lý biên bản truy thu).
Dưới đây là 6 khách hàng trộm cắp điện năm 2019 thuộc Điện
lực Nam Sông Hương – Công ty Điện lực Thừa Thiên Huế. Bằng
khả năng nghiệp vụ, sau khi phát hiện khách hàng trộm cắp điện thì
sẽ phân tích để chọn ra tháng có sản lượng vi phạm.
Bảng 1.1 06 khách hàng trộm cắp điện năm 2019
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
125 159 131
177
185
185
78
169
205
204
168
142
285 133 276
321
354
242
138
180
157
159
152
101
221 208 242
373
492
820
764
829
769
638
609
511
138 144 116
124
123
204
339
263
169
142
186
152
996 573 923 1188 1296 2045 1910 1352 1747 1891 1833 1757
241 249 249
292
252
260
246
360
429
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
345
335
Lưu hành nội bộ
323
13
2500
2000
1500
1000
500
0
1
2
3
4
5
6
7
8
9
Series1
Series2
Series3
Series4
Series5
Series6
10
11
12
Hình 2.2 Biểu đồ sản lượng trong năm 2019 06 khách hàng trộm cắp
điện
2.1.3 Xử lý dữ liệu khách hàng gây nhiễu
Ngày nay, hành vi trộm cắp điện của các khách hàng ngày một
tinh vi. Một số trường hợp ăn trộm điện nhưng sản lượng điện từng
tháng không tăng hoặc giảm mạnh. Điều này làm các cán bộ giám sát
phải giám sát nhiều yếu tố. Nhất thời cần bổ sung thêm dữ liệu điện
từng ngày để kiểm tra tình hình sử dụng điện trong các khung thời
gian cao điểm, bình thường và thấp điểm. Ví dụ khách hàng
PC03AA18795 dưới đây phát hiện trộm cắp điện từ ngày
16/11/2019. Qua đó dữ liệu sản lượng điện các tháng trước đó lần
lượt là: 180 kwh (Tháng 8/2019), 157 kwh (Tháng 9/2019), 159 kwh
(Tháng 10/2019) và 152 kwh (Tháng 11/2019). Nhận xét ban đầu
cho thấy khách hàng sử dụng điện trong 2 năm 2018 và 2019 có dấu
hiệu khơng chuẩn.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
14
Chính vì lý do đó, ở tập dữ liệu để huấn luyện và kiểm thử cần loại
bỏ những khách hàng gây nhiễu này để độ chính xác được tăng cao.
Hình 2.3 Biểu đồ dữ liệu sản lượng điện 2 năm của một khách hàng
PC03AA0118795 16-11-19
600
500
400
300
200
100
0
ăn trộm ít biến động
2.2. Áp dụng mơ hình học máy vào nhận diện
Để mơ hình huấn luyện được chính xác thì ngồi dữ liệu sản
lượng điện qua từng tháng của khách hàng trong các tháng gần nhất,
ta cần bổ sung thêm một số ràng buộc khác như ngày vi phạm, tháng
vi phạm, mùa vi phạm, Bậc giá tiền mua điện tại thời điểm đó. Tiếp
theo, vào những tháng có bắt đầu hành vi vi phạm, ta sẽ đánh nhãn
vào tháng này để phù hợp với mơ hình huấn luyện có giám sát. Danh
sách huấn luyện sẽ hồn tồn khơng có trường dữ liệu mã khách
hàng nhằm bảo đảm an tồn thơng tin cho người dùng và dữ liệu
Cơng ty. Những tháng vi phạm thì sản lượng điện sẽ có dấu hiệu bất
thường, đa phần sẽ giảm đột biến so với các tháng trước.
2.2.1. Các ràng buộc
2.2.1.1 Các mùa trong năm
Thông thường, tâm lý của những khách hàng trộm cắp điện là
để giảm chi phí mua điện hằng tháng nhằm tăng lợi nhuận bất chính
cho bản thân người đó. Chính vì lý do đó, khách hàng này thường
nhắm vào các tháng có nhu cầu sử dụng điện cao để thực hiện các
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
15
hành vi trộm cắp điện. Điển hình như các tháng trong mùa hè thường
nắng nóng phải sử dụng các thiết bị làm mát thường xuyên như điều
hòa, máy lạnh, tủ lạnh, tủ đông… hay các tháng trong mùa đông
thường sử dụng các thiết bị giữ ấm trong nhà như máy sưởi, máy sấy
áo quần, đèn UV, điều hịa… Chính ví lý do đó các mùa trong năm
sẽ là một ràng buộc cần thiết trong việc huấn luyện và dự đoán khách
hàng.
2.2.1.2 Giá điện bậc thang dành cho khách hàng sinh hoạt
2.2.1.2.a. Các ngành sản xuất
2.2.1.2.b. Khối hành chính, sự nghiệp
2.2.1.2.c. Kinh doanh
2.2.1.2.d. Sinh hoạt
Bảng 2.2 Giá điện sinh hoạt
TT
Nhóm đối tượng khách hàng
1
Giá bán lẻ điện sinh hoạt
Giá bán điện
(đồng/kWh)
Bậc 1: Cho kWh từ 0 - 50
1.678
Bậc 2: Cho kWh từ 51 - 100
1.734
Bậc 3: Cho kWh từ 101 - 200
2.014
Bậc 4: Cho kWh từ 201 - 300
2.536
Bậc 5: Cho kWh từ 301 - 400
2.834
Bậc 6: Cho kWh từ 401 trở lên
2.927
Giá bán lẻ điện sinh hoạt dùng
2
2.461
công tơ thẻ trả trước
2.2.1.3 Dữ liệu sản lượng điện của khách hàng trong 05 tháng gần
nhất
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
16
Bảng 2.6 Sản lượng điện 05 tháng của 05 khách hàng TTHPC 2021
Mã khách hàng
Tên KH
T1
T2
T3
T4
PC03DD0401366 Lê Văn Ghe
402
353
392
402 454
PC03GG0705078 Lương Thị Hiền
133
146
120
112 136
PC03GG0706036 Bùi Văn Dũng
52
48
69
70
82
PC03HH0813495 Hoàng Thanh Tùng
43
19
47
36
49
PC03HH0809254 Nguyễn Đăng Thanh
29
31
66
38
52
2.2.2. Xây dựng tập dữ liệu gốc (Original Dataset)
Bảng 2.7 Tập dữ liệu gốc gồm n dữ liệu (sample)
Bậc
Kết
T-4 T-3 T-2 T-1 T
giá
Tháng Mùa
quả
điện
47
97 100 81
0
2
12
Đông Trộm
26
32
54
52 69
2
4
Xuân Trộm
495 393 330 422 410
6
1
Đơng Trộm
358 369 385 391 483
6
7
Hè
Trộm
Bình
100 107 110 120 140
3
7
Hè
thường
Bình
395 401 424 442 550
6
12
Đơng
thường
…
…
...
…
… …
…
…
...
2.2.3 Xây dựng tập dữ liệu khởi động (Bootstrapped Dataset)
Để tạo ra bộ dữ liệu khởi động cùng kích thước với tập dữ liệu
gốc, ta sẽ lựa chọn ngẫu nhiên các mẫu từ tập dữ liệu gốc bằng kỹ
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
T5
17
thuật Bootstrapping hay còn gọi là Random sampling with
replacement. Điều quan trọng là chúng ta được phép chọn cùng một
mẫu nhiều lần. Tức khi ta tập hợp được 1 dữ liệu thì mình khơng bỏ
dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp tục
sample cho tới khi sample đủ n dữ liệu. Khi dùng kỹ thuật này thì tập
n dữ liệu mới của ta có thể có những dữ liệu bị trùng nhau. Thơng
thường sẽ có 1/3 dữ liệu từ tập dữ liệu gốc sẽ không được thêm vào
tập dữ liệu khởi động. Các dữ liệu này được gọi là “Out-of-bag
Dataset” và sẽ không được sử dụng để tạo ra các cây quyết định ở
giai đoạn tiếp theo. Vì lý do đó các dữ liệu này sẽ được sử dụng như
một tập dữ liệu kiểm thử. Ta có thể cho lần lượt các dữ liệu trong tập
này chạy qua các cây quyết định để đánh giá độ chính xác phân loại
của các cây quyết định.
Bảng 2.8 Tập dữ liệu khởi động
Kết
T-4 T-3 T-2 T-1
T
Bậc Tháng Mùa
quả
47
97
100
81
0
2
12
Đơng
Trộm x
47
97
100
81
0
2
12
Đơng
Trộm x
Bình
395 401 424 442 550
6
12
Đơng
thường
495 393 330 422 410
6
1
Đơng
Trộm
Bình
100 107 110 120 140
3
7
Hè
thường
358 369
385 391 483
6
7
Hè
Trộm
…
…
...
…
…
…
…
…
...
2.2.4 Xây dựng các cây quyết định
Tạo cây quyết định bằng các sử dụng tập dữ liệu kh nhưng chỉ
sử dụng một tập hợp con ngẫu nhiên của các biến hoặc cột ở mỗi
bước
Chọn ngẫu nhiên các ràng buộc để làm nút gốc đầu tiên của
cây quyết định. Ở đây, ta sẽ chọn ngẫu 2 trong 4 ràng buộc đã có (T,
bậc giá điện, tháng và mùa)
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
18
CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ
ĐÁNH GIÁ KẾT QUẢ
3.1. u cầu hệ thống
3.2. Mơ hình hoạt động hệ thống
Hình 3.2 Sơ đồ hoạt động của hệ thống
3.2 Triển khai các chức năng
3.3.1. Triển khai ứng dụng Web với Angular và API Nodejs
Ứng dụng web dành cho người dùng đang chạy tại DNS :
:83 (chạy tại mạng nội bộ Công ty Điện lực Thừa
Thiên
Huế).
Hệ
thống
backend
được
đặt
tại
:3000.
3.3.2 Triển khai hệ thống AI nhận diện khách hàng bất thường
bằng ngôn ngữ Python chạy trên Docker Compose
− API AI dự đoán khách hàng chạy tại địa chỉ:
http://10.124.4.13:3008
3.4. Kết quả
3.4.1 Chức năng chính
Truy vấn dữ liệu khách hàng bất thường
3.4.2 Tra cứu thông tin khách hàng
Tra cứu thông tin khách hàng từ CMIS
3.4.3 Chức năng bổ trợ
Chức năng trên hệ thống giúp Chuyên viên phòng Kiểm tra
giá sát có thể tạo phiếu ngay khi phát hiện khách hàng bất thường
cần đơn vị kiểm tra ngay. Phiếu sẽ được gửi về đơn vị và nhắn tin
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
19
trên hệ thống CPC-Eoffice cho Cán bộ đi kiểm tra. Phiếu điện tử cịn
có chức năng ký số EVNCA trên ứng dụng CPC-Eoffice được phát
triển bởi EVNCPC, việc ký số điện tử giúp mang tính pháp lý và
thuận tiện trong công việc giúp công việc của cái chuyên viên, kỹ sư
tại Đơn vị được cải thiện.
3.5. Đánh giá kết quả
3.5.1. So sánh thuật tốn Random Forest và Nạve Bayes
Nguồn dữ liệu huấn luyện chung: 1000 khách hàng
trộm cắp điện
Ví dụ một khách hàng trộm cắp điện có dữ liệu sản
lượng điện trong năm như sau:
Bảng 3.1 Bảng dữ liệu sản lượng điện tiêu thụ trong năm
của một khách hàng trộm cắp điện
T1 T2 T3 T4 T5 T6 T7 T8 T9 T1 T1
0
1
12 15 13 17 18 18 78 16 20 20 16
5
9
1
7
5
5
9
5
4
8
T1
2
14
2
Bảng 3.2 Bảng Dữ liệu samble được từ một khách hàng trộm
cắp điện:
TT T-4 T-3 T-2 T-1
T
bậc Mùa
Phân loại
1
125
159
131
177
185
3
Hè
Bình thường
2
159
131
177
185
185
3
Hè
Bình thường
3
131
177
185
185
78
2
Hè
Trộm
4
177
185
185
78
169
3
Hè
Bình thường
5
6
185
185
185
78
78
169
169
205
205
204
4
4
Đơng
Đơng
Bình thường
Bình thường
7
78
169
205
204
168
3
Đơng
Bình thường
8
169
205
204
168
142
3
Đơng
Bình thường
Vậy, với 1000 khách hàng ta sẽ có:
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
20
1000 𝑥 8 = 8000 (𝐷ữ 𝑙𝑖ệ𝑢)
Công
(3.1)
thức
Nguồn dữ liệu kiểm thử
Số khách hàng dùng để kiểm tra độ chính xác của dự
đốn: 153.935 khách hàng thuộc Điên lực Nam Sơng Hương
và Điên lực Bắc Sông Hương – Công ty Điện lực Thừa Thiên
Huế và 112 khách hàng trộm cắp điên khơng thuộc danh sách
huấn luyện.
Số khách hàng cần dự đốn mỗi đợt (Tổng số khách
hàng đăng ký mua điện tại địa bản Tỉnh Thừa Thiên Huế):
317.203 khách hàng
Bảng 3.3. Bảng so sánh giữa 02 thuật tốn
Random Forest Nạve Bayes
Thời gian huấn luyên dữ liệu
(Sử dung Google Colab
15~18 phút
< 10 phút
GPU)
Thời gian trung bình dự
> 65 phút
15~20 phút
đốn 317203 khách hàng
Tỷ lệ chính xác
82%
53%
Để thực hiện so sánh giữa hai kỹ thuật học máy khác nhau,
đó là Nạve Bayes và Random Forest để đo độ chính xác của chẩn
đốn, tơi sẽ sử dụng nguồn dữ liệu chung như trên với các dữ liệu
đầu vào là hồn tồn thật và chính xác. Theo kết quả đánh giá thực
hiện vào năm 2021, bộ phân loại Rừng Ngẫu nhiên hoạt động tốt hơn
phương pháp Nạve Bayes khi đạt độ chính xác 82%. Từ kết quả
cũng cho thấy được dù thời gian chậm hơn nhiều so với Bayes vì mơ
hình rừng gồm nhiều cây quyết định. Nên việc để đưa ra 1 dự đoán là
rất tốn thời gian.
3.5.2 Kết quả đạt được
Hệ thống hiện hữu sử dụng hệ thống RF-Spider, CMIS giúp
thu thập dữ liệu sản lượng điện và chỉ số công tơ của khách hàng.
Người dùng có thể sử dụng các nghiệp vụ chuyên môn cá nhân để tự
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
21
lọc các khách hàng cần kiểm tra. Nhưng vì số lượng khách hàng rất
lớn, việc tìm ra các khách hàng bất thường chiếm nhiều thời gian và
tỷ lệ chính xác cũng khơng cao vì chưa có một cơ sở chính thức vì
khả năng mỗi chuyên viên là khác nhau.
Từ đầu năm 2022, hệ thống AI nhận diện dự đoán khách
hàng bất thường được vận hành thử nghiệm tại Công ty Điện lực
Thừa Thiên Huế với đầu mối kỹ thuật chính là Hồng Xn Thiện
(Chun viên phịng CNTT) và bà Phạm Thị Quỳnh Giao (Chuyên
viên phòng Kiểm tra Giám sát mua bán điện) làm chun viên chính
trong q trình kiểm tra khách hàng bất thường. Trong quá trình hoạt
động đầu năm 2022, hệ thống đã hỗ trợ nhận diện hơn 1034 khách
hàng bất thường có tỷ lệ trên 85% và sau q trình kiểm tra đã phát
hiện trong đó 03 vụ trộm cắp điện. Tỷ lệ nhận diện khách hàng trộm
cắp đạt 87%. Với số lượng khách hàng nhận diện mỗi tháng là hơn
300.000 khách hàng trên địa bản tỉnh Thừa Thiên Huế. Dù số lượng
phân loại khá lớn, nhưng hệ thống vẫn hoạt động ổn định với tần suất
kịp thời khi có hóa đơn điện phát sinh.
Bảng 3.4 Danh sách khách hàng trộm cắp điện năm 2022
Mã khách hàng
Ngày vi phạm
Số ngày tính
bồi thường
Số tiền bồi
thường
1
PC03AA0245286
04/01/2022
7
204890 VND
2
PC03EE0513786
08/02/2022
365
957831 VND
3
PC03GG0705769
07/01/2022
365
585985 VND
TT
Tỷ lệ nhận diện khách hàng bất thường còn chưa tối ưu vì dữ
liệu sản lượng của khách hàng cịn khá ít chưa có được nhiều năm.
Do đó, để dự đốn đạt tỷ lệ cao thì cần thêm dữ liệu của nhiều năm
trước đó nữa để có thêm cơ sở so sánh sản lượng điện tiêu thụ của
khách hàng với tháng cùng kỳ các năm trước. Điều này làm tăng
ràng buộc giúp các cây quyết định được đa dạng giúp tăng tỷ lệ chính
xác của thuật tốn.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
22
KẾT LUẬN VÀ KIẾN NGHỊ
Đề tài đã đóng góp một phần lớn giúp mang lại giá trị làm lợi
cho ngành Điện trong việc rà soát sản lượng điện những khách hàng
trộm cắp điện nhằm bảo vệ quyền lợi chung của tất cả khách hàng.
Trong năm 2021, nhờ vào hệ thống đã giúp ngành Điện phân tích và
phát hiện ra các trường hợp bất thường qua đó sẽ kiểm tra đánh giá
lập biên bản nếu khách hàng vi phạm trộm cắp điện. Với dữ liệu sản
lượng điện năng tiêu thụ theo tháng của khách hàng là 1 lần trên 1
tháng thì thời gian dự đoán hơn 1 giờ cho hơn 300.000 khách hàng
trên địa bàn tỉnh là chấp nhận được. Chương trình đã đóng góp giúp
mang lại hiệu quả cao trong cơng việc. Mỗi tháng thay vì phải sử
dụng các cách thủ công như trước đây để kiểm tra từng khách hàng.
Hiện nay, hệ thống đã phân loại đánh nhãn các nhóm khách hàng
giúp giảm hiệu quả thời gian xử lý và tăng hiệu quả công việc đáng
kể.
Trong tương lai, nhằm tăng tỷ lệ nhận diện và phân loại khách
hàng có hành vi bất thường, đề tài cẩn được cho phép sử dụng nguồn
dữ liệu lớn hơn như dữ liệu các năm 2015 trở về trước để có cơ sở so
sánh độ biến thiên của một khách hàng trong các năm giúp học máy
có nhiều điều kiện để đưa ra dự đốn chính xác hơn. Việc mở rộng
dữ liệu ra các tỉnh thành khắp Việt Nam là điều cần thiết. Hiện nay
dữ liệu sản lượng điện được EVN quy chuẩn theo hệ thống CMIS
giúp dữ liệu được đồng bộ về mặt CSDL. Với giải pháp này, dữ liệu
khách hàng trộm cắp điện và khách hàng dự đoán cũng được đa dạng
từ nhiều ngành nghề cho đến vị trí địa lý vùng miền. Tỷ lệ tiêu thụ
điện năng ở mỗi tỉnh thành là khác nhau.
Ngồi ra, nhằm tăng tính cấp thiết cho người mua điện, hệ
thống cần được mở rộng thêm chức năng huấn luyện và dự đoán dữ
liệu trên dữ liệu theo ngày. Từ năm 2018, EVNCPC đã triển khai
thành công hệ thống thu thập chỉ số công tơ khách hàng (RF-Spider
Chi tiết phụ lục 02) hoàn toàn tự động, với hệ thống này, các dữ liệu
công tơ điện tử sẽ được lưu về định kỳ 3-5 lần/1 khách hàng/1 ngày.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
23
Với dữ liệu lớn và biên độ chênh lệch này, cần áp dụng thêm nhiều
giáp pháp để hệ thống có thể đưa ra dự đốn chính xác.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ