ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HOÀNG XUÂN THIỆN
XÂY DỰNG HỆ THỐNG AI
NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG
ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA
KHÁCH HÀNG
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2022
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HOÀNG XUÂN THIỆN
XÂY DỰNG HỆ THỐNG AI
NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG
ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA
KHÁCH HÀNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. Bùi Thị Thanh Thanh
Đà Nẵng – Năm 2022
i
LỜI CAM ĐOAN
Nội dung của nghiên cứu này được tôi thực hiện dưới sự hướng dẫn tận tình của
TS. Bùi Thị Thanh Thanh và ơng Hồng Ngọc Hồi Quang (Phó Giám đốc Công ty
Điện lực Thừa Thiên Huế).
1. Tất cả các tài liệu tham khảo được sử dụng trong luận văn là miễn phí và được
chia sẻ cho cộng đồng.
2. Các dữ liệu điện khách hàng sử dụng trong đề tài nghiên cứu được bảo mật theo
đúng quy định an tồn thơng tin của Tập đồn Điện lực Quốc gia Việt Nam.
3. Mọi sai sót về bản quyền có trong luận văn này, tôi xin chịu trách nhiệm.
4. Nghiên cứu đã được chấp nhận và trình bày tại Hội thảo khoa học quốc tế CITA
2022 và đảm bảo không vi phạm bản quyền. (Trang 72-82, Hội thảo Khoa học Quốc
Gia - CITA 2022, ISBN 978-604-84-6711-1).
Tác giả
Hoàng Xuân Thiện
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
ii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ...................................................................................................................... ii
DANH SÁCH CÁC BẢNG ............................................................................................v
DANH SÁCH HÌNH ẢNH ........................................................................................... vi
DANH SÁCH CƠNG THỨC ...................................................................................... vii
DANH SÁCH TỪ VIẾT TẮT .................................................................................... viii
TÓM TẮT .......................................................................................................................x
MỞ ĐẦU .........................................................................................................................1
1. Tính cấp thiết và lý do chọn đề tài ..........................................................................1
2. Mục tiêu và nội dung nghiên cứu ...........................................................................3
3. Đối tượng và phạm vi nghiên cứu...........................................................................3
4. Phương pháp nghiên cứu ........................................................................................3
5. Dự kiến kết quả đạt được ........................................................................................4
6. Ý nghĩa khoa học và thực tiễn ................................................................................4
7. Bố cục của luận văn ................................................................................................5
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT ...............................................................................6
1.1. Học máy (Machine Learning) ..............................................................................6
1.1.1. Khái niệm ..........................................................................................................6
1.1.2. Cây quyết định (Decision Tree) ........................................................................7
1.2. Thuật toán Rừng ngẫu nhiên (Random Forest) ...................................................9
1.2.1. Giới thiệu...........................................................................................................9
1.2.2. Các ứng dụng của Rừng ngẫu nhiên ...............................................................12
1.2.3. Ưu điểm và nhược điểm của Rừng ngẫu nhiên ...............................................13
1.2.3.1. Ưu điểm của Rừng ngẫu nhiên ..............................................................13
1.2.3.2. Nhược điểm của Rừng ngẫu nhiên ........................................................13
1.2.4. Các bước thực hiện .........................................................................................13
1.3. Thuật tốn Nạve Bayes .....................................................................................14
1.3.1. Giới thiệu.........................................................................................................14
1.3.2. Định lý Bayes ..................................................................................................15
1.3.3. Cách hoạt động ................................................................................................15
1.4. Công nghệ sử dụng ............................................................................................16
1.4.1. Nodejs .............................................................................................................16
1.4.2. Microsoft SQL Server .....................................................................................17
1.4.3. Angular ...........................................................................................................18
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
iii
1.4.4. Python .............................................................................................................20
1.4.5. Docker Compose .............................................................................................20
1.4.6. Google Colaboratory .......................................................................................21
1.5. Các giao thức và mơ hình ..................................................................................22
1.5.1. HTTP ...............................................................................................................22
1.5.2. Định dạng JSON .............................................................................................23
1.5.3. Chuyển giao trạng thái đại diện (REST) .........................................................24
1.5.4. REST API........................................................................................................26
1.5.5. Mơ hình MVC .................................................................................................27
CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN RANDOM FOREST .............................29
VÀO BÀI TOÁN ..........................................................................................................29
2.1. Thu thập dữ liệu .................................................................................................29
2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS ..................................................29
2.1.2 Quy trình thu thập dữ liệu các khách hàng trộm cắp điện ...............................30
2.1.3 Xử lý dữ liệu khách hàng gây nhiễu ................................................................31
2.2. Áp dụng mơ hình học máy vào nhận diện .........................................................32
2.2.1. Các ràng buộc ..................................................................................................32
2.2.1.1 Các mùa trong năm .................................................................................32
2.2.1.2. Giá điện bậc thang dành cho khách hàng sinh hoạt ..............................33
2.2.1.3 Dữ liệu sản lượng điện của khách hàng trong 05 tháng gần nhất ..........35
2.2.2 Xây dựng tập dữ liệu gốc (Original Dataset) ...................................................36
2.2.3 Xây dựng tập dữ liệu khởi động (Bootstrapped Dataset) ................................36
2.2.4 Xây dựng các cây quyết định ...........................................................................37
CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ ......................39
3.1. Thiết kế hệ thống ...............................................................................................39
3.2. Mơ hình hoạt động hệ thống ..............................................................................40
3.3. Triển khai các chức năng ...................................................................................40
3.3.1. Triển khai ứng dụng Web với Angular và API Nodejs ..................................40
3.3.2 Triển khai hệ thống AI nhận diện khách hàng bất thường bằng ngôn
ngữ Python chạy trên Docker Compose ...................................................................41
3.4. Kết quả ...............................................................................................................42
3.5. Đánh giá kết quả ................................................................................................44
3.5.1. So sánh thuật tốn Random Forest và Nạve Bayes .......................................44
3.5.2 Kết quả đạt được ..............................................................................................46
KẾT LUẬN VÀ KIẾN NGHỊ .......................................................................................48
DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ ĐƯỢC CƠNG BỐ ...........................50
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
iv
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................................51
PHỤ LỤC 01. HỆ THỐNG THỐNG THÔNG TIN QUẢN LY KHÁCH
HÀNG NGÀNH ĐIỆN EVN (CMIS) ..........................................................................53
PHỤ LỤC 02. HỆ THỐNG THU THẬP DỮ LIỆU .....................................................57
ĐO XA RF-SPIDER .....................................................................................................57
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
v
DANH SÁCH CÁC BẢNG
Bảng 1.1 Bảng quan hệ giữa SQL và HTTP .................................................................27
Bảng 2.1 06 khách hàng trộm cắp điện năm 2019 ........................................................30
Bảng 2.2 Bảng giá điện ngành sản xuất.........................................................................33
Bảng 2.3 Giá khối hành chính sự nghiệp .......................................................................34
Bảng 2.4 Giá điện kinh doanh .......................................................................................34
Bảng 2.5 Giá điện sinh hoạt ...........................................................................................34
Bảng 2.6 Sản lượng điện 05 tháng của 05 khách hàng thuộc TTHPC 2021 .................36
Bảng 2.7 Tập dữ liệu gốc gồm n dữ liệu (sample) ........................................................36
Bảng 2.8 Tập dữ liệu khởi động ....................................................................................37
Bảng 3.1 Bảng dữ liệu sản lượng điện tiêu thụ trong năm của một khách hàng
trộm cắp điện .................................................................................................................45
Bảng 3.2 Bảng Dữ liệu samble được từ một khách hàng trộm cắp điện: ......................45
Bảng 3.3 Bảng so sánh giữa 02 thuật toán ....................................................................46
Bảng 3.4 Danh sách khách hàng trộm cắp điện năm 2022 ............................................46
Bảng 3.5 Chi tiết sản lượng điện từ tháng 01/2021 đến 01/2022 của 03 khách
hàng trộm cắp điện năm 2022 .......................................................................................47
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
vi
DANH SÁCH HÌNH ẢNH
Figure 1.1 Mơ hình học có giám sát ................................................................................7
Hình 1.2 Mơ hình học khơng giám sát ............................................................................7
Hình 1.3 Mơ hình thuật tốn Random Forest ................................................................12
Hình 1.4 Ví dụ khi áp dụng thuật toán RF trong lựa chọn trái cây ...............................12
Hình 1.5 Mơ hình bỏ phiếu phân loại của thuật tốn Rừng ngẫu nhiên ........................14
Hình 1.6 Lịch sử phiên bản phát triển Angular .............................................................19
Hình 1.7 Docker Container và máy ảo ..........................................................................21
Hình 1.8 Cấu hình phần cứng Google colab cung cấp ..................................................22
Hình 1.9 Client Server model ........................................................................................24
Hình 1.10 Stateless ........................................................................................................25
Hình 0.11 REST API .....................................................................................................26
Hình 1.12 Kiến trúc MVC .............................................................................................27
Hình 2.1 Sản lượng điện tiêu thụ 12 tháng năm 2021 của khách hàng
PC03BB0101051 ...........................................................................................................30
Hình 2.2 Biểu đồ sản lượng trong năm 2019 06 khách hàng trộm cắp điện .................31
Hình 2.3 Biểu đồ dữ liệu sản lượng điện 2 năm của một khách hàng ăn trộm ít
biến động .......................................................................................................................32
Hình 2.4 Một cây quyết định ngẫu nhiên trong tập cây quyết định ..............................38
Hình 3.1 Biểu đồ Use Case hệ thống .............................................................................39
Hình 3.2 Sơ đồ hoạt động của hệ thống.........................................................................40
Hình 3.3 Giao diện Web dành cho người dùng chạy tại DNS
:83 ...................................................................................................41
Hình 3.4 Thanh cơng cụ điều hướng .............................................................................41
Hình 3.5 API AI dự đốn khách hàng ...........................................................................42
Hình 3.6 Danh sách khách hàng được dự đốn tự động ................................................42
Hình 3.7 Danh sách khách hàng trộm cắp điện .............................................................43
Hình 3.8 Tra cứu khách hàng ........................................................................................43
Hình 3.9 Mẫu phiếu kiểm tra khách hàng .....................................................................44
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
vii
DANH SÁCH CƠNG THỨC
Cơng thức (1.1) ..............................................................................................................15
Cơng thức (1.2) ..............................................................................................................15
Cơng thức (1.3) ..............................................................................................................16
Công thức (1.4) ..............................................................................................................16
Công thức (1.5) ..............................................................................................................16
Công thức (1.6) ..............................................................................................................16
Công thức (3.1) ..............................................................................................................45
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
viii
DANH SÁCH TỪ VIẾT TẮT
Abbreviations
Explanations
Admin
Administrator
API
Application Programming Interface
CSS
Cascading Style Sheets
CMIS
Hệ thống thông tin quản lý khách hàng dùng điện
DNS
Domain Name System
DOM
Document Object Model
HTML
Hyper Text Markup Language
HTTP/HTTPS
Hyper Text Transfer Protocol
HMI
Human – Machine – Interface
Info
Information
JSON
JavaScript Object Notation
MVC
Model - View - Controller
PHP
Personal Home Page
PM
Project Manager
REST
Representational State Transfer
SCSS
Sassy Cascading Style Sheets
Super Admin
Super Administrator
UI
User Interface
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
ix
URI
Uniform Resource Identifier
URL
Uniform Resource Locator
XML
Extensible Markup Language
WWW
World Wide Web
EVN
Tập đoàn Điện lực Quốc gia Việt Nam
EVNCPC
Tổng công ty Điện lực miền Trung
TTHPC
Công ty Điện lực Thừa Thiên Huế
AI
Artificial Intelligence
RF
Random Forest – Rừng ngẫu nhiên
NB
Nạve Bayes
CMIS
Hệ thống thơng tin quản lý khách hàng ngành Điện EVN
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
x
TÓM TẮT
XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG ĐIỆN
NĂNG TIÊU THỤ BẤT THƯỜNG CỦA KHÁCH HÀNG
Học viên: Hoàng Xuân Thiện
Mã số: 60.48.01
Chuyên ngành: Khoa học máy tính
Khóa: K41 Trường Đại học Bách khoa – ĐH Đà Nẵng
Tóm tắt - Bài báo xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất thường
qua sản lượng điện tiêu thụ. Thuật toán Random Forest được sử dụng để đánh giá và
phát hiện các khách hàng có hành vi ăn cắp điện dựa vào hồ sơ dữ liệu có sẵn về các
khách hàng ăn trộm điện trước đây. Dữ liệu huấn luyện được lấy từ kho dữ liệu khách
hàng của Tổng công ty Điện lực miền Trung (CPC). Qua thực nghiệm, việc thiết lập
các tham số đầu vào và kích cỡ dữ liệu huấn luyện ảnh hưởng không nhỏ đến kết quả
nhận diện. Ở chế độ dự đoán khách hàng từ dữ liệu sản lượng điện trong 3 tháng gần
nhất, kết quả nhận diện đúng trên 60% và với dữ liệu sản lượng 5 tháng gần nhất là
trên 80%. Vào cuối năm 2021, hệ thống được thí điểm tại Cơng ty Điện lực Thừa
Thiên Huế (TTHPC) và đã phát hiện phát hiện, xử lý trộm cắp điện: 74 vụ.
Từ khóa - Sản lượng điện bất thường; Rừng ngẫu nhiên; Bayes Nạve; Học có giám
sát; Cây quyết định.
BUILDING AI SYSTEM IDENTIFICATION AND PREDICTION OF
UNNORMAL ELECTRIC QUANTITY CONSUMPTION OF CUSTOMERS
Abstract - The article builds an AI system that predicts abnormal electricity usage by
customers through electricity consumption. The Random Forest algorithm is used to
evaluate and detect customers who have stolen electricity based on availa-ble data
records on previous customers who steal electricity. The training data is taken from the
customer database of the Central Power Corporation (CPC). Through experiment, the
setting of input parameters and training data size have a significant influence on the
recognition results. In the customer prediction mode from the power output data of the
last 3 months, the correct identification results are over 60% and with the output data
of the last 5 months, it is over 80%. At the end of 2021, the system was piloted at Thua
Thien Hue Power Company (TTHPC) and detected and handled electricity theft: 74
cases.
Keywords - Unnormal Electric Quantity; Random Forest; Bayes Naïve; Supervised
Learning; Decision tree
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
1
MỞ ĐẦU
1. Tính cấp thiết và lý do chọn đề tài
Ngành điện là một ngành đã và đang đóng vai trị vơ cùng thiết yếu trong cuộc
sống hiện nay từ kinh doanh, sản xuất cho đến sinh hoạt hàng ngày của tất cả mọi
người. Ngành này có nhiệm vụ quan trọng trong việc đảm bảo sự vận hành ổn định
của nguồn điện, đồng thời phát triển hệ thống truyền tải điện an tồn, hợp lí và hiệu
quả phục vụ hoạt động sản xuất công, nông nghiệp; thương mại dịch vụ và dân sinh.
Từ đầu năm 2020, dịch bệnh Covid-19 bắt đầu bùng phát tại Việt Nam khiến
các ngành công nghiệp lớn nhỏ phải đóng cửa. Điều này cũng khiến tỉ trọng sử dụng
điện năng tại các hộ gia đình cũng tăng cao. Ngồi ra với mơi trường khác nghiệt của
miền Trung nói chung và tỉnh Thừa Thiên Huế nói riêng, vào những mùa hè nắng
nóng, nhu cầu sử dụng điện năng cho các thiết bị làm mát của khách hàng cũng tăng
nên sản lượng tiêu dùng cũng tăng cao khiến các khách hàng đặt nhiều nghi vấn.
Công ty Điện lực Thừa Thiên Huế luôn quan tâm đến khách hàng và tiến hành kiểm
tra định kỳ và đột xuất đối với các khách hàng nghi vấn bất thường qua các chương
trình đo đếm theo dõi số liệu từ xa. Qua qua trình rà qt, Cơng ty tiến hành kiểm tra
73.852 khách hàng trên tổng 317.203 khách hàng. Trong đó số vụ phát hiện vi phạm
là 3.038 vụ (đạt 178,7% kế hoạch năm) và số vụ trộm cắp điện là 62 vụ (đạt 152,5%
kế hoạch năm). Năm 2020, sản lượng truy thu của Công ty là 62.820 kWh và tổng số
tiền bồi thường là 1.004.691.941 VNĐ. Có thể thấy, các chỉ tiêu này đã vượt kế
hoạch khiến nạn ăn trộm điện ngày càng tăng với các thủ đoạn ngày càng tinh vi.
Ngoài những hành vi ăn trộm cắp điện thì việc xảy ra chạm chập điện và mùa nóng
cũng khiến sản lượng điện của khách hàng có thể tăng cao hoặc giảm mạnh. Ngày
nay, nhiều hành vi trộm cắp điện với tinh vi cao khiến Cơng ty gặp nhiều khó khăn
trong việc giám sát và xử lý.
Cùng với sự phát triển của trí tuệ nhân tạo, con người đã nghiên cứu và đưa ra
nhiều thuật toán Machine Learning khác nhau giúp việc huấn luyện các AI trở nên đa
dạng và đạt kết quả tốt hơn, chính xác hơn và có thể làm thay các công việc của con
người giúp giảm thời gian công việc tăng năng suất lao động. Cùng với sự phát triển
của trí tuệ nhân tạo, con người đã nghiên cứu và đưa ra nhiều thuật toán Machine
Learning khác nhau giúp việc huấn luyện các AI trở nên đa dạng và đạt kết quả tốt
hơn, chính xác hơn và có thể làm thay các công việc của con người giúp giảm thời
gian công việc tăng năng suất lao động. Một số đề tài đã áp dụng thuật toán Rừng
ngẫu nhiên như Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
2
tín chỉ [1], Phương pháp lấy mẫu thuộc tính mới trong rừng ngẫu nhiên cho phân tích
dữ liệu SNP [2], Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm
tăng hiệu quả phân lớp đối với dữ liệu đa chiều [3], Sử dụng dữ liệu ảnh viễn thám
kết hợp kỹ thuật GIS để phân tích biến động tài nguyên rừng [4], Ứng dụng kỹ thuật
phân loại ảnh hướng đối tượng nhằm phân loại trạng thái rừng theo thông tư số [5] và
So sánh phương pháp phân loại dựa vào điểm ảnh phân loại định hướng đối tượng
chiết xuất thơng tin lớp phủ bề mặt [6].Nói chung sử dụng phương pháp Rừng ngẫu
nhiên (RF) để phân loại ảnh viễn thám hiện nay chưa có nhiều tác giả đề cập, một số
ít nghiên cứu chủ yếu được thực hiện ở rừng ơn đới hoặc rừng trồng. Đến nay chưa
có nghiên cứu nào thực hiện tại các khu rừng bị tác động như ở Việt Nam, vì vậy đây
vẫn là một chủ đề đang bỏ ngõ và cần được tiếp cận để có thể nâng cao hiệu quả
trong phân loại ảnh vệ tinh để xây dựng các bản đồ rừng phục vụ cho các mục đích
lâm nghiệp.
Hiện nay, Tập đồn điện lực Việt Nam đã triển khai nhiều chương trình AI
trong nhiều lĩnh vực như hệ thống khôi phục lưới điện thơng minh, hệ thống nhận
dạng hình ảnh quản lý đầu tư xây dựng… Sản lượng điện năng là một phần thiết yếu
trong dịch vụ kinh doanh khách hàng, các chuyên viên tại phòng Kinh doanh và
Kiểm tra Giám sát mua bán điện đang sử dụng các cách thủ công như Microsoft
Excel hoặc các chương trình theo dõi đo đếm từ xa theo thời gian trên nền tảng
website. Từ đó, bằng các khả năng nghiệp vụ, họ đặt ra các tiêu chí riêng để phát hiện
các khách hàng có hành vi bất thường cần kiểm tra. Vì vậy với tình hình hiện nay,
EVN đang sử dụng những giải pháp thủ công để kiểm tra khách hàng như xem một
khách hàng có biểu hiện sử dụng điện như thế nào trong năm, tự đánh giá theo tiêu
chí của mỗi chuyên viên. Điều này làm ảnh hưởng tới hiệu năng làm việc của mỗi
người. Tại TTHPC nói riêng và EVN nói chung rất cần một hệ thống AI để tự động
thu thập tính toán và đánh giá các hành vi của khách hàng dự trên sản lượng điện tiêu
thụ khách hàng đó.
Mục tiêu của nghiên cứu này là sử dụng kho dữ liệu sản lượng điện tiêu thụ của
khách hàng và thuật toán phân loại Rừng ngẫu nhiên nhằm phát hiện ra các khách
hàng có hành vi bất thường nguy cơ có thể trộm cắp điện, từ đó đánh giá được hiệu
quả và độ chính xác của kết quả phân loại.
Từ những vấn đề trên, chúng tơi đã tiến hành tìm kiếm các mơ hình thuật tốn
huấn luyện và dự đốn phù hợp với mơ hình và dữ liệu sử dụng điện năng của khách
hàng mua điện thuộc quản lý của Cơng ty.
Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn cao học:
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
3
“Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất thường qua
sản lượng điện tiêu thụ”.
2. Mục tiêu và nội dung nghiên cứu
2.1. Mục tiêu
Xây dựng hệ thống AI nhận diện được các khách hàng có hành vi bất
thường theo sản lượng điện tiêu thụ của tháng. Nhằm đảm bảo xử lý nhanh và
kịp thời, hệ thống đồng bộ với hệ thống CMIS của Tập đoàn Điện lực Quốc gia
Việt Nam và sẽ tự động hoạt động ngay khi sản lượng điện khách hàng được ra
hóa đơn theo tháng để có số liệu chính xác nhất.
Nắm rõ được các cơ chế hoạt động của các thuật toán học máy. Đặc biệt là
thuật toán Rừng ngẫu nhiên trong việc áp dụng tính ngẫu nhiên để đưa ra quyết
định.
2.2. Mục đích
Giảm thời gian xử lý cơng việc của các cán bộ chuyên viên giúp tăng năng
suất lao động, nâng cao hiệu quả công việc qua các hệ thống học máy. Khẳng
định được về lợi ích của học máy trong cơng việc. Tăng lịng tin của khách hàng
với ngành điện.
2.3. Nội dung nghiên cứu
Tìm hiểu lý thuyết học máy và các ứng dụng của học máy trong thời đại
công nghệ 4.0 nhất là bám sát chủ đề Chuyển đổi số của Bộ Thông tin và
Truyền thông năm 2021.
Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên và cách xây dựng thuật
toán. Hiểu rõ các ưu điểm và nhược điểm của thuật toán trong việc nhận diện
khách hàng.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Sản lượng điện năng (kWh) tiêu thụ của khách hàng đăng ký cấp điện trên
địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội dung nguồn dữ liệu như
Phụ lục 01)
3.2. Phạm vi nghiên cứu
Sử dụng dữ liệu của khách hàng mua bán điện trên địa bàn tỉnh Thừa
Thiên Huế trong quá trình nhận diện tự động hằng ngày. Tập dữ liệu huấn luyện
cần thu thập mỗi tháng trên địa bàn miền Trung để tăng số lượng dữ liệu huấn
luyện để tăng độ chính xác của thuật tốn.
4. Phương pháp nghiên cứu
4.1. Phương pháp lý thuyết
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
4
Cơ sở lý thuyết về thuật toán Rừng ngẫu nhiên, Cây quyết định và học có
giám sát. Hiểu rõ cơ chế hoạt động và các ưu nhược điểm của thuật tốn với các
loại học máy cịn lại.
Hiểu sâu cấu trúc thuộc tình của một khách hàng mua bán điện với Công
ty Điện lực và cách nhận diện một khách hàng trộm cắp điện thường có những
hành vi như thế nào. Sử dụng các khách hàng ngẫu nhiên có hành vi tương tự để
đánh giá kết quả tự dự đoán.
4.2. Phương pháp thực nghiệm
Thu thập dữ liệu khách hàng trộm cắp điện trên địa bàn miền Trung và xử
lý các khách hàng gây nhiễu trong q trính huấn luyện mơ hình dự đoán. Xây
dựng hệ thống AI nhận diện với thuật toán Rừng ngẫu nhiên với các tham số
đầu vào là Sản lượng điện năng các tháng liền kề, thời gian vi phạm, bậc giá
điện hiện tại. Sử dụng tập các dữ liệu gộp chung khách hàng trộm cắp và khách
hàng bình thường để làm tập kiểm thử nhằm kiểm tra độ chính xác của hệ thống
nhận diện.
5. Dự kiến kết quả đạt được
5.1. Về lý thuyết
Nắm rõ cơ sở lý thuật và các ứng dụng có thể áp dụng mơ hình học sâu.
Đặc biệt là mơ hình học có giám sát trong việc nhận diện đối tượng.
Làm chủ được thuật toán Rừng ngẫu nhiên trong dự đoán sản lượng điện
năng. Xây dựng các mơ hình tập dữ liệu gốc và dữ liệu huấn luyện để tạo cây
quyết định.
5.2. Về thực nghiệm
Sử dụng cùng 1 bộ cơ sở dữ liệu để huấn luyện qua 2 giải thuật Random
Forest và Naïve Bayes. Ngồi ra, bộ dữ liệu cần dự đốn cũng giống nhau để so
sánh được tốc độ huấn luyên, dự đoán cũng như tỷ lệ chính xác của thuật tốn.
Xây dựng phần mềm AI ứng dụng dự đoán sản lượng điện bất thường của
khách hàng với độ chính xác nhận diện khách hàng bất thường khoảng 80%.
Ngồi ra cịn bổ sung thêm các chức năng như giám sát sản lượng điện năng của
khách hàng và tạo phiếu kiểm tra với các khách hàng bất thường.
6. Ý nghĩa khoa học và thực tiễn
6.1. Ý nghĩa khoa học
Tổng quan, đánh giá được độ chính xác của thuật tốn Rừng ngẫu nhiên
khi áp dụng vào dự đoán sản lượng điện năng theo tháng của khách hàng.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
5
Đề tài đã đóng góp một vai trị lớn trong q trình nâng cao độ tin cậy cho
thuật tốn Rừng ngẫu nhiên nói riêng và học máy nói chung trong việc nhận
diện chính xác các đối tượng cần nghiên cứu dự đoán.
6.2. Ý nghĩa thực tiễn
Đề xuất giải pháp này góp phần giúp Cơng ty Điện lực Thừa Thiên Huế
nhận ra các khách hàng bất thường một cách tự động, giảm cơng rà sốt sản
lượng điện khách hàng mỗi ngày các các Giám sát viên. Qua đó, có hướng xử lý
kịp thời ngay lập tức và giúp các khách hàng tin tưởng ngành điện. Hệ thống đã
góp phần phổ biến ứng dụng sử dụng trí tuệ nhân tạo trong ngành Điện giúp
nâng cao hiệu quả công việc.
7. Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm các phần chính như sau:
Chương 1: Cơ sở lý thuyết
Giới thiệu về học máy, các mơ hình học máy thơng dụng hiện nay, thuật
toán Rừng ngẫu nhiên và các điểm mạnh điểm yếu các thuật toán Rừng ngẫu
nhiên. Cơ sở lý thuyết thuật toán Naive Bayes Các lý thuyết sử dụng trong đề
tài.
Chương 2: Ứng dụng thuật toán Random Forest vào bài toán
Giới thiệu thuật toán Random Forest, xây dựng mơ hình học máy, xây
dựng tập dữ liệu gốc, tập dữ liệu khởi động, tập kiểm thử, giới thiệu cách hệ
thống làm việc qua từng bước trong quá trình huấn luyện và dự đoán sản lượng
điện năng của khách hàng.
Chương 3: Triển khai và đánh giá
Cài đặt cấu hình các mơi trường làm việc cho hệ thống. Lập trình các chức
năng cho hệ thống. Thu thập dữ liệu theo thời gian xuất hóa đơn của khách hàng
mỗi khi CMIS có dữ liệu để tiến hành dự đoán kịp thời. So sánh đánh giá kết
quả dự đoán khách hàng qua 02 thuật tốn Random Forest và thuật tốn Naive
Bayes. Phân tích ưu nhược điểm của 02 thuật toán.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
6
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Học máy (Machine Learning)
1.1.1. Khái niệm
Machine learning (ML) hay máy học là một nhánh của trí tuệ nhân tạo
(AI), nó là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện
chính bản thân chúng dựa trên dữ liệu mẫu (training data) hoặc dựa vào kinh
nghiệm (những gì đã được học). Machine learning có thể tự dự đốn hoặc đưa
ra quyết định mà khơng cần được lập trình cụ thể. Một vài ứng dụng nổi tiếng
sử dụng học máy như Cảnh báo giao thông (trên ứng dụng Google Maps). Giờ
đây, Google Maps có lẽ là ứng dụng được sử dụng với tần suất nhiều nhất mỗi
khi bạn tham gia giao thông. Đặc biệt khi các ứng dụng khác về di chuyển như
Grab, Be được áp dụng rộng rãi, đồng nghĩa Google Maps được sử dụng liên
tục để chỉ đường cho nhà cung cấp dịch vụ hay người sử dụng dịch vụ. Những
thông tin về quãng đường tối ưu, thời gian di chuyển nhanh nhất cũng được
phân tích cùng lúc trên Google Maps. Thực tế, dữ liệu lịch sử của tuyến đường
đó đã được thu thập theo thời gian và một số dữ liệu có từ các nguồn khác. Mọi
người sử dụng bản đồ đều cung cấp vị trí, tốc độ trung bình, tuyến đường.
Những thơng tin này Google thu thập và tổng hợp thành Dữ liệu lớn về lưu
lượng truy cập, thơng qua các thuật tốn phân tích phức tap trên Machine
Learning, những thơng tin này trở nên có nghĩa, chúng giúp Google dự đoán
lưu lượng sắp tới và điều chỉnh tuyến đường của bạn theo cách tối ưu nhất.
Mạng xã hội Facebook là một trong những ứng dụng phổ biến nhất của
Machine Learning là Đề xuất gắn thẻ bạn bè tự động trên Facebook hoặc bất kỳ
nền tảng truyền thông xã hội nào khác. Facebook sử dụng tính năng nhận diện
khn mặt và nhận dạng hình ảnh để tự động tìm thấy khn mặt của người
phù hợp với Cơ sở dữ liệu của họ và do đó đề nghị người dùng gắn thẻ người
đó dựa trên DeepFace. Dự án DeepFace của Facebook thực hiện nhiệm vụ nhận
diện khuôn mặt và xác định đối tượng cụ thể trong ảnh. Nó cũng cung cấp Thẻ
Alt (Thẻ thay thế) cho hình ảnh đã được tải lên trên facebook.
Có rất nhiều cách phân loại machine learning, thơng thường thì machine
learning sẽ được phân làm hai loại chính sau:
− Supervised learning: học có giám sát
− Unsupervised learning: học khơng giám sát
Ngồi ra, machine learning cịn có thể phân làm các loại sau:
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
7
− Semi-supervised learning: học bán giám sát
− Deep learning: học sâu (về một vấn đề nào đó)
− Supervised learning
Supervised learning là việc cho máy tính học trên dữ liệu đã được gán
nhãn (label), hay nói cách khác, với mỗi đầu vào Xi, chúng ta sẽ có nhãn Yi
tương ứng.
Hình 1.1 Mơ hình học có giám sát
Unsupervised learning là cho máy tính học trên dữ liệu mà khơng được
gán nhãn, các thuật tốn machine learning sẽ tìm ra sự tương quan dữ liệu, mơ
hình hóa dữ liệu hay chính là làm cho máy tính có kiến thức, hiểu về dữ liệu, từ
đó chúng có thể phân loại các dữ liệu về sau thành các nhóm, lớp (clustering)
giống nhau mà chúng đã được học hoặc giảm số chiều dữ liệu (dimension
reduction).
Hình 1.2 Mơ hình học khơng giám sát
1.1.2. Cây quyết định (Decision Tree)
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện
tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
8
trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con
của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự
đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi
đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định
được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây
quyết định.
Trong ngành công nghiệp phần mềm tại cơng ty phát triển tài chính nguồn
nhân lực, Khi có dự án cần phần mềm tự động phân tích nguồn nhân lực và tài
chính giúp đóng góp phần quan trọng trong tiến độ dự án. Hay về công ty phần
mềm khi có khách hàng ra các yêu cầu cần cây quyết định để phân tích các
chuyên gia viết đúng chuyên mô và đủ kinh nghiệm. Nếu các yêu cầu thỏa mản
thì sẽ chuyến bước tiếp theo.
Cây quyết định được sử dụng để giải quyết cả vấn đề phân loại và hồi quy.
Nhưng nhược điểm chính của cây quyết định là nó thường dẫn đến việc
overfitting dữ liệu. Hãy thảo luận chi tiết về ưu và nhược điểm của nó. Ưu điểm
của cây quyết định Clear Visualization: Thuật tốn đơn giản để hiểu, diễn giải
và trực quan vì ý tưởng chủ yếu được sử dụng trong cuộc sống hàng ngày của
chúng ta. Đầu ra của cây quyết định có thể được con người giải thích một cách
dễ dàng đơn giản và dễ hiểu: Cây quyết định trông giống như các câu lệnh ifelse đơn giản và rất dễ hiểu. Cây quyết định có thể được sử dụng cho cả bài
toán phân loại và bài toán hồi quy. Cây quyết định có thể xử lý cả biến liên tục
và biến phân loại. Không yêu cầu feature scaling: Không yêu cầu feature
scaling (standardization và normalization) trong trường hợp cây quyết định vì
nó sử dụng phương pháp tiếp cận dựa trên quy tắc thay vì tính tốn. Xử lý các
tham số phi tuyến tính một cách hiệu quả: Các tham số phi tuyến tính khơng
ảnh hưởng đến hiệu suất của cây quyết định khơng giống như các thuật tốn
dựa trên đường cong. Vì vậy, nếu có sự khơng tuyến tính cao giữa các biến độc
lập, cây quyết định có thể hoạt động tốt hơn so với các thuật toán dựa trên
đường cong khác. Cây quyết định có thể tự động xử lý các giá trị bị thiếu. Cây
quyết định thường mạnh mẽ đối với các trường hợp ngoại lệ và có thể xử lý
chúng một cách tự động. Thời gian đào tạo ít hơn: Thời gian đào tạo ít hơn so
với rừng ngẫu nhiên (Random Forest) vì nó chỉ tạo ra một cây không giống như
rừng của các cây trong Random Forest. Nhược điểm của Cây quyết định là
Overfitting: Đây là vấn đề chính của cây quyết định. Nó thường dẫn đến việc
quá khớp dữ liệu mà cuối cùng dẫn đến dự đoán sai. Để fit với dữ liệu (ngay cả
dữ liệu nhiễu), nó tiếp tục tạo ra các nút mới và cuối cùng cây trở nên quá phức
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
9
tạp để diễn giải, dẫn đến mất khả năng tổng quát hóa. Nó hoạt động rất tốt trên
dữ liệu được đào tạo nhưng bắt đầu mắc nhiều lỗi trên dữ liệu khơng nhìn thấy
được. Phương sai cao: Như đã đề cập ở điểm 1, cây quyết định thường dẫn đến
việc q khớp dữ liệu. Chính vì thế, có rất nhiều khả năng sai lệch cao trong
đầu ra, dẫn đến nhiều sai sót trong ước tính cuối cùng và cho thấy kết quả
khơng chính xác cao. Q khớp dẫn đến phương sai cao. Không ổn định: Việc
thêm một điểm dữ liệu mới có thể dẫn đến việc tạo lại cây tổng thể và tất cả các
nút cần được tính tốn lại và tạo lại. Bị ảnh hưởng bởi nhiễu: Một chút dữ liệu
nhiễu có thể làm cho nó khơng ổn định, dẫn đến dự đốn sai. Khơng phù hợp
với tập dữ liệu lớn: Nếu kích thước dữ liệu lớn, thì một cây đơn lẻ có thể phát
triển phức tạp và dẫn đến quá khớp. Vì vậy, trong trường hợp này, chúng ta nên
sử dụng Random Forest thay vì một cây quyết định.
1.2. Thuật toán Rừng ngẫu nhiên (Random Forest)
1.2.1. Giới thiệu
Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một phương pháp
học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ khác hoạt động bằng
cách xây dựng vô số cây quyết định tại thời điểm đào tạo. Đối với các nhiệm vụ
phân loại, đầu ra của rừng ngẫu nhiên là loại được chọn bởi hầu hết các cây.
Đối với các nhiệm vụ hồi quy, giá trị trung bình hoặc dự đốn trung bình của
các cây riêng lẻ được trả về. Rừng quyết định ngẫu nhiên phù hợp với thói quen
thích nghi q mức của cây quyết định đối với tập huấn luyện của chúng. Rừng
ngẫu nhiên nhìn chung tốt hơn cây quyết định, nhưng độ chính xác của chúng
thấp hơn cây tăng cường độ dốc. Tuy nhiên, đặc điểm dữ liệu có thể ảnh hưởng
đến hiệu suất của chúng.
Thuật toán đầu tiên cho các khu rừng quyết định ngẫu nhiên được tạo ra
vào năm 1995 bởi Tin Kam Ho [7] bằng cách sử dụng phương pháp không gian
con ngẫu nhiên, theo công thức của tác giả, là một cách để thực hiện phương
pháp "phân biệt ngẫu nhiên" để phân loại do Eugene Kleinberg đề xuất. Các
khu rừng ngẫu nhiên thường được sử dụng làm mơ hình chính ở các dự án AI
trong các doanh nghiệp, vì chúng tạo ra các dự đoán hợp lý trên nhiều loại dữ
liệu trong khi u cầu cấu hình ít.
Các phương pháp bỏ phiếu cho các thuật toán phân loại, chẳng hạn như
đóng gói (Bagging) và AdaBoost, đã được chứng minh là rất thành cơng trong
việc cải thiện độ chính xác của một số bộ phân loại nhất định cho các bộ dữ liệu
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
10
nhân tạo và thế giới thực [8]. Rừng ngẫu nhiên có thể giải quyết cả bài tốn hồi
quy và phân loại. Trên thực tế, mỗi cây cung cấp một giá trị gần đúng cho phần
sau đầy đủ, trong đó các đặc điểm được chọn phụ thuộc vào nhánh được đi
ngang. Do số lượng và tính chất của các truy vấn, việc xây dựng cây quyết định
tiêu chuẩn dựa trên vectơ đặc trưng có độ dài cố định là khơng khả thi. Thay
vào đó, một vài thử nghiệm được đặt ra trong đó một số mẫu truy vấn ngẫu
nhiên nhỏ tại mỗi nút, hạn chế độ phức tạp của chúng tăng theo độ sâu của cây
và phát triển nhiều cây. Các nút đầu cuối được gắn nhãn bằng các ước lượng về
sự phân bố phía sau tương ứng trên các lớp hình dạng [9].
Thuật tốn Rừng ngẫu nhiên cho ra kết quả chính xác cao nhờ yếu tố ngẫu
nhiên ra quyết định qua đó bỏ phiếu theo số đơng cây quyết định [10]. Các thử
nghiệm trên tập dữ liệu thực và mô phỏng bằng cách sử dụng cây phân loại và
hồi quy cũng như lựa chọn tập hợp con trong hồi quy tuyến tính cho thấy rằng
việc đóng gói có thể mang lại mức độ chính xác đáng kể [11] Ngồi ra, việc
đóng gói có thể làm giảm hiệu quả phương sai của các yếu tố dự báo hồi quy,
trong khi vẫn giữ nguyên độ chệch [12].
Rừng ngẫu nhiên được đề xuất bởi Breiman vào năm 2001. Đây là thuật
toán phân loại có kiểm định dựa trên cây quyết định và kỹ thuật bagging and
bootstrapping đã được cải tiến. Bootstrapping là một phương pháp rất nổi tiếng
trong thống kê được giới thiệu bởi Efron vào năm 1979 [15]. Phương pháp này
được thực hiện như sau: từ một quần thể ban đầu lấy ra một mẫu L = (x1,
x2...xn) gồm n thành phần để tính tốn các tham số mong muốn. Trong các
bước tiếp theo lặp lại b lần tạo ra mẫu Lb cũng gồm n phần từ L bằng cách lấy
lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đó tính tốn các
tham số mong muốn (Đồng Thị Ngọc Lan, 2011) [3]. Phương pháp Bagging
được xem như là một phương pháp tổng hợp kết quả có được từ các
bootstraping sau đó huấn luyện mơ hình từ các mẫu ngẫu nhiên này và cuối
cùng đưa ra dự đoán phân loại dựa vào số phiếu bầu cao nhất của lớp phân loại
(Đồng Thị Ngọc Lan, 2011) [3]. Cây quyết định là một sơ đồ phát triển có cấu
trúc dạng cây phân nhánh đi từ gốc cho đến lá, giá trị các lớp phân loại của mẫu
được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường
đi từ gốc-tức là dữ liệu đầu vào đến lá-tức là các kết quả phân loại dự đoán đầu
ra, biểu diễn dự đoán giá trị phân lớp mẫu đó. Mỗi sơ đồ cây trong tập mẫu
được tạo thành từ tập hợp các điểm ảnh huấn luyện được lựa chọn ngẫu nhiên
để huấn luyện mơ hình phân loại RF (mỗi tập mẫu bootstrap sẽ cho ra một tree
và ntree tương ứng với nbootstrap). Khi một tập mẫu được rút ra từ tập huấn
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
11
luyện (bootstrap) với sự thay thế có hồn lại, thì theo ước tính có khoảng 1/3
các phần tử khơng nằm trong mẫu này và vì thế chúng khơng tham gia vào quá
trình huấn luyện (Breiman L., 2001, 2007) [13], [14]. Điều này có nghĩa là chỉ
có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính
tốn để phân loại (in of bag), và 1/3 các phần tử này dùng để kiểm tra sai số
được gọi là dữ liệu out-of-bag (OOB). Dữ liệu out-of-bag được sử dụng để ước
lượng sai số tạo ra từ việc kết hợp các kết quả phân loại riêng lẻ sau đó được
tổng hợp trong mơ hình RF cũng như dùng để ước tính các biến quan trọng
(variable important) bằng chức năng Importance.
Việc ước tính các biến quan trọng được xem xét theo hai chỉ số là: i) độ
chính xác giảm bình quân cho mỗi biến (MDA - Mean Decrease Accuracy) và
ii) sự giảm bình quân hệ số Gini đối với mỗi biến (MDG - Mean Decrease
Gini). MDA là độ chính xác của mỗi biến độc lập phân loại dựa trên đánh giá tỉ
lệ sai số OOB. Hệ số Gini cho phép đo độ đồng nhất của mỗi lớp. Hệ số Gini
(1909) [16] càng giảm khi một lớp cụ thể nào đó có các phần tử được gán sai
nhãn trong kết quả phân loại càng ít.
Phân loại RF chứa một lượng lớn các cây, mỗi cây được phát triển từ các
pixel huấn luyện (training pixels) được lựa chọn ngẫu nhiên. Hai tham số cần
được xác định trong thuật toán phân loại này là ntree (số lượng cây được phát
triển) và mtry (số lượng biến để phân chia tại mỗi node). Số ntree được lựa
chọn phụ thuộc vào khoảng thời gian xử lý ngắn nhất để kết quả đạt được độ sai
số thấp nhất, ntree chạy từ 1 đến 500 cây và mtry biến động từ số biến độc lập
tối thiểu (bằng 1) đến số biến độc lập tối đa được sử dụng trong phân loại.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
12
Hình 1.3 Mơ hình thuật tốn Random Forest
Hình 1.4 Ví dụ khi áp dụng thuật toán RF trong lựa chọn trái cây
Sau khi mơ hình Rừng ngẫu nhiên được tạo thành, mỗi kết quả của các
boostrap trong tập hợp sẽ bỏ phiếu cho lớp phổ biến nhất và cho ra một kết quả
phân loại. Mơ hình được tạo thành dựa vào phân loại có số phiếu bầu nhiều
nhất của mỗi sơ đồ cây quyết định ntree (Breiman L., 2001) [14].
1.2.2. Các ứng dụng của Rừng ngẫu nhiên
Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên thường được sử dụng:
− Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán này để
xác định rủi ro cho vay.
− Y học: Với sự trợ giúp của thuật toán này, các xu hướng bệnh và
nguy cơ của bệnh có thể được xác định.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
13
− Sử dụng đất: Chúng tơi có thể xác định các khu vực sử dụng đất
tương tự bằng thuật toán này.
− Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng cách sử
dụng thuật toán này.
1.2.3. Ưu điểm và nhược điểm của Rừng ngẫu nhiên
1.2.3.1. Ưu điểm của Rừng ngẫu nhiên
Thuật toán giải quyết tốt các bài tốn có nhiều dữ liệu nhiễu, thiếu giá trị.
Do cách chọn ngẫu nhiên thuộc tính nên các giá trị nhiễu, thiếu ảnh hưởng
khơng lớn đến kết quả. Có những sự ước lượng nội tại như độ chính xác của mơ
hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính (Out of bag).
Dễ dàng thực hiện song song. Thay vì một máy thực hiện cả thuật tốn, ta có
thể sử dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng.
Các sai số được giảm thiểu do kết quả của Random Forest được tổng hợp
thông qua nhiều người học (Cây phân lớp). Việc chọn ngẫu nhiên tại mỗi bước
trong Random Forest sẽ làm giảm mối tương quan giữa các người học trong
việc tổng hợp các kết quả. Lỗi chung của một rừng các cây phân lớp phụ thuộc
vào lỗi riêng của từ Dữ liệu huấn luyện cần được đa dạng hóa và cân bằng về số
nhãn lớp.
1.2.3.2. Nhược điểm của Rừng ngẫu nhiên
Cân bằng nhãn lớp khiến kết quả dự đốn của thuật tốn có thể lệch về số
đông nhãn lớp.
Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và số thuộc tính
phân chia.ng cây trong rừng cũng như mối tương quan giữa các cây.
1.2.4. Các bước thực hiện
Đầu tiên thuật toán Rừng ngẫu nhiên được xây dựng dựa trên một tập thể
cây quyết định. Cây quyết định là các khối xây dựng của một thuật toán rừng
ngẫu nhiên. Cây quyết định là một kỹ thuật hỗ trợ quyết định tạo thành một cấu
trúc giống như cây. Tổng quan về cây quyết định sẽ giúp chúng ta hiểu cách
hoạt động của các thuật toán rừng ngẫu nhiên.
Cây quyết định bao gồm ba thành phần: nút quyết định, nút lá và nút gốc.
Thuật toán cây quyết định chia tập dữ liệu huấn luyện thành các nhánh, tập dữ
liệu này sẽ tách biệt thành các nhánh khác. Trình tự này tiếp tục cho đến khi đạt
được một nút lá. Nút lá không thể được phân tách thêm.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ