ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
NGUYỄN THANH QUÂN
PHÁT TRIỂN CẢM BIẾN ẢO THAY THẾ CẢM BIẾN
THẬT TRONG ĐIỀU KIỆN THỰC TẾ
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 07 năm 2023
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:
1. PGS.TS. Thoại Nam .............................................................................................
2. TS. Nguyễn Quang Hùng .....................................................................................
Cán bộ chấm nhận xét 1: PGS.TS. Trần Công Hùng ......................................................
Cán bộ chấm nhận xét 2: TS. Nguyễn Lê Duy Lai ...........................................................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày
13 tháng 07 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS.TS. Trần Văn Hồi
2. Phản biện 1: PGS.TS. Trần Cơng Hùng
3. Phản biện 2: TS. Nguyễn Lê Duy Lai
4. Thư ký: TS. Lê Thành Sách
5. Uỷ viên: PGS.TS Lê Trung Quân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
i
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Thanh Quân ................................. MSHV: 2070108
Ngày, tháng, năm sinh: 01/01/1991 ...................................... Nơi sinh: Vĩnh Long
Chuyên ngành: Khoa Học Máy Tính .................................... Mã số: 8480101
I. TÊN ĐỀ TÀI: Phát triển cảm biến ảo thay thế cảm biến thật trong điều kiện thực
tế. (Virtual sensor development to compensate physical sensors in certain
circumstances) ...................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: Thứ nhất, tìm hiểu, nghiên cứu các mơ hình GANbased để phát triển cảm biến ảo nhằm mục đích giải quyết vấn đề mất mát dữ liệu
(missing data) khi cảm biến thật xảy ra sự cố. Thứ hai, nghiên cứu phương pháp
hướng dữ liệu (data-driven) để tính tốn và đề xuất số lượng cảm biến vật lí có thể
tiết giảm và thay thế bằng cảm biến ảo đã tạo.
III. NGÀY GIAO NHIỆM VỤ: 14/02/2022 .........................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023 ........................................
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Thoại Nam và TS. Nguyễn Quang Hùng.
Tp. HCM, ngày……, tháng……, năm 20….
CÁN BỘ HƯỚNG DẪN 1
(Họ tên và chữ ký)
CÁN BỘ HƯỚNG DẪN 2
(Họ tên và chữ ký)
HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
ii
LỜI CẢM ƠN
Trong suốt thời gian học chương trình đào tạo thạc sĩ tại Đại học Bách Khoa
thành phố Hồ Chí Minh, đặc biệt là giai đoạn làm luận văn tốt nghiệp, tôi đã nhận
được rất nhiều sự quan tâm, động viên, giúp đỡ của gia đình, thầy cơ và các bạn trong
trường.
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến gia đình mình, đặc biệt là cha và
mẹ tôi. Người luôn bên cạnh và ủng hộ tôi trong suốt con đường học tập mà tôi đã
chọn.
Tiếp theo tôi xin gửi lời cảm ơn chân thành nhất đến hai thầy hướng dẫn
PGS.TS. Thoại Nam và TS. Nguyễn Quang Hùng. Hai thầy ln nhiệt tình lắng nghe
và đóng góp ý kiến cho luận văn của tôi. Đồng thời thầy ln có định hướng và hướng
dẫn rõ ràng những điều cần làm và không nên làm cho sinh viên.
Tôi cũng xin gửi lời cảm ơn đến các thầy cô đã giảng dạy cho tôi trong suốt
thời gian học cao học tại trường, những người đã trang bị cho tôi các kiến thức quý
báu và cần thiết cho con đường học thuật phía trước của tơi.
Cuối cùng tơi xin cảm ơn Trường Đại học Bách Khoa và Phịng thí nghiệm
Tính tốn hiệu năng cao, tất cả các thầy cô, các bạn/anh/chị đồng nghiệp, đã tạo cho
tôi một môi trường học tập, nghiên cứu tốt, hào hứng, và ý nghĩa.
Một lần nữa, tôi xin chân thành cảm ơn!
Nguyễn Thanh Quân
13/07/2023
iii
TĨM TẮT LUẬN VĂN
Cảm biến là một sản phẩm cơng nghệ tiên tiến được sử dụng nhiều trong các
lĩnh vực của đời sống xã hội như trong sinh hoạt, trong kinh doanh thương mại và
trong các lĩnh vực sản xuất cơng, nơng nghiệp, v.v. Cảm biến đóng vai trị quan trọng
cho vấn đề cảm nhận những trạng thái hay quá trình vật lý, hóa học hay sinh học của
mơi trường cần khảo sát, và biến đổi chúng thành tín hiệu điện nhằm thu thập thông
tin về trạng thái hay quá trình đó. Chính vì thế, bất kì sự cố nào xảy ra với cảm biến
đều dẫn đến các hệ thống vận hành dựa trên dữ liệu thu được có thể bị gián đoạn hoặc
sai chức năng ban đầu do tính liên tục và sự tồn vẹn của dữ liệu khơng cịn được
đảm bảo. Bên cạnh đó, một số ngun nhân khách quan như vị trí cần thu thập thơng
tin có điều kiện môi trường phức tạp, không cho phép lắp đặt cảm biến vật lí hay chi
phí đầu tư và quản lí một số lượng lớn các thiết bị cảm biến trên một đơn vị diện tích
bị hạn chế đều dẫn đến sự mất mát và sai lệch dữ liệu. Do đó, việc đề ra giải pháp
nhằm đảm bảo tính liên tục, sự toàn vẹn và độ tin cậy của thơng tin từ cảm biến, đồng
thời có thể tiết giảm một lượng cảm biến vật lí nhất định cần sử dụng thực tế cho mục
đích tối ưu hóa chi phí là hết sức cần thiết.
Xuất phát từ yêu cầu đó, nghiên cứu trong luận văn đề xuất hai phương pháp
mới với mục đích giải quyết vấn đề nêu trên:
(1) Tạo cảm biến ảo cho việc ước lượng và tái tạo dữ liệu bị mất có tên gọi
Pearson Generative Adversarial Imputation Nets Virtual Sensors (PGAIN-VS) dựa
trên mơ hình Generative Adversarial Network (GAN).
(2) Nghiên cứu một phương pháp đo đạc dữ liệu mới cho mục đích tiết kiệm
cảm biến được đặt tên Sensor Rotational Measurement (SRM) cho việc luân phiên
cảm biến để thu thập thơng tin giữa các vị trí trong một khoảng thời gian cho phép
dựa trên cảm biến ảo PGAIN-VS đã tạo.
PGAIN-VS mang trong mình khả năng bổ khuyết dữ liệu của Generative
Generative Adversarial Imputation Nets (GAIN) với độ chính xác cao hơn khi hệ số
tương quan Pearson giữa các điểm dữ liệu thu được từ các cảm biến môi trường được
tính tốn và sử dụng giúp mơ hình đưa ra dự đốn tốt hơn. Từ đó, phương pháp ln
iv
phiên thu thập dữ liệu SRM hoạt động dựa trên khả năng của PGAIN-VS và giải thuật
Borda voting trong việc tính tốn và sắp xếp trọng số ảnh hưởng của từng cảm biến,
sau đó xác định số lượng cảm biến cần dùng và số lượng cảm biến có thể được thay
thế bằng cảm biến ảo nhằm mục đích tiết kiệm chi phí. SRM được xem như bài tốn
tối ưu hố đa mục tiêu với black-box model với giá trị dùng để kiểm tra sự sai lệch
giữa dữ liệu ước lượng và thực tế Root Mean Square Error (RMSE) kì vọng tìm được
là thấp nhất trong khi số lượng cảm biến được tiết giảm và thời gian đo đạc của một
cảm biến tại một vị trí là lớn nhất. Bài tốn tối ưu này sau khi được định nghĩa sẽ
được công cụ OpenBox đi tìm lời giải tối ưu.
Hai đề xuất nói trên được kiểm nghiệm với các tập dữ liệu thực tế và kết quả
đạt được rất khả quan khi sự sai khác giữa giá trị thu thập thực tế và giá trị ước lượng
được tính tốn thơng qua RMSE ở mức lí tưởng. Song song đó, một lượng cảm biến
vật lí được tiết kiệm đáng kể mang lại giá trị ứng dụng và kinh tế cao.
v
ABSTRACT
Recent advances in sensor technology have increased human's ability to
measure a wide range of phenomena and events. Undoubtedly, sensors play an
important role to grasp external information of the nature or of certain objects, then
transforming them into electronic signal data for use. As a matter of fact, any issue
occurring with sensors may either kill the operation of the systems relying on the data
collected by physical sensors or make them malfunction because of the interrupted
flow of data. In addition, due to a variety of limitations, only a few sensors can be
deployed at a given site. Consequently, setting up enough sensors at the right places
to provide uniform monitoring can therefore be challenging. For those reasons, they
all result in missing-data problem, so there is a pressing and necessary demand on
developing a virtual sensor solution, which takes advantage of machine learning, and
deep learning so that the missing-data problem can be addressed as well as possible
to provide a data compensation solution for sensor failures. As a result, a set of
techniques, named virtual sensing needs to be developed for the purpose of replacing
a subset of physical sensors with virtual ones, enabling the monitoring of extreme
locations, reducing the hardware deployment and management costs. Therefore, the
thesis proposes two new approaches for two purposes below:
(1) Developing virtual sensor solution based on GAN model to deal with the
missing-data problem caused by sensor failures.
(2) Researching a new virtual sensing method to support finding the optimal
number of physical sensors to be used.
The virtual sensor solution, named Pearson Generative Adversarial Imputation
Nets Virtual Sensors (PGAIN-VS) calculates Pearson correlation among datacollected devices, then uses it as a filter to select the most suitable sensors whose data
will be used in the machine learning model training process. Once the virtual sensor
creation is completed, failing sensors will be ready to be replaced by virtual ones, and
their missing data will be also imputed. Besides, Sensor Rotational Measurement
(SRM) which is a new virtual sensing solution relies on PGAIN-VS’s imputation
vi
strength, and Borda voting method to determine the subset of real sensors that can
take turns in observing information within an interval of time. SRM is seen as a blackbox multiple objective optimization problem with constraints and solved by OpenBox
tool, which is based on a Bayesian optimization algorithm. The proposed approach is
evaluated on real-world energy, temperature and vehicle speed datasets, the results
demonstrate that SRM is able to achieve high accuracy in predicting the target
variable and outperforms the state-of-the-art virtual sensing approaches.
Additionally, SRM is able to identify the most informative physical sensors to capture
the underlying dynamics of the system, which can help reduce the cost of hardware
installation and maintenance.
The approaches are applied on several real-world datasets with two goals: (1)
proving the ability and reliability of the PGAIN-VS virtual sensors in being able to
partially replace physical devices and to estimate missing data through Root Mean
Square Error (RMSE) scores. (2) Deploying SRM to show its efficiency in finding
the best subset of physical sensors to join the missing-data imputation process, then
estimate values with PGAIN-VS for positions where physical sensors are no longer
placed.
The results show that PGAIN-VS virtual sensors are possible to replace
physical devices in case of faulty sensors with low prediction errors. PGAIN-VS
achieved better performance up to around 20% in the considered datasets with
different metrics compared to other solutions taken into consideration. More
importantly, SRM can propose a suitable subset of real sensors to be carry out the
rotational measurement with the reduction up to around 20% in the total number of
physical sensors for an accurate, and efficient monitoring as well as economic
efficiency.
vii
LỜI CAM ĐOAN
Luận văn của tơi có tham khảo các tài liệu, bài báo, trang web như được trình
bày ở mục tài liệu tham khảo và ở mỗi tham khảo tơi đều trích dẫn nguồn gốc. Tơi
xin cam đoan rằng ngồi những trích dẫn từ các tham khảo trên, tồn bộ nội dung
trong báo cáo là do tôi tự soạn thảo từ những kết quả nghiên cứu của riêng tôi, khơng
sao chép từ bất kì tài liệu nào khác.
Tơi sẽ hồn tồn chịu xử lí theo qui định nếu có bất cứ sai phạm nào so với lời
cam kết.
Nguyễn Thanh Quân
viii
MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ .......................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
TÓM TẮT LUẬN VĂN ........................................................................................... iii
ABSTRACT............................................................................................................... v
LỜI CAM ĐOAN .................................................................................................... vii
DANH MỤC HÌNH .................................................................................................. xi
DANH MỤC BẢNG .............................................................................................. xiii
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ xiv
CHƯƠNG 1 – TỔNG QUAN ................................................................................... 1
1.1 Giới thiệu.......................................................................................................... 1
1.2 Ý nghĩa đề tài ................................................................................................... 2
1.2.1 Ý nghĩa thực tiễn ....................................................................................... 2
1.2.2 Ý nghĩa khoa học ....................................................................................... 3
1.3 Phạm vi đề tài ................................................................................................... 3
1.4 Bố cục............................................................................................................... 4
CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT ........................................................................ 5
2.1 Tổng quan về cảm biến .................................................................................... 5
2.1.1 Khát quát về cảm biến vật lý ..................................................................... 5
2.1.2 Khái quát về cảm biến ảo .......................................................................... 5
2.1.3 Sự cần thiết trong việc phát triển cảm biến ảo .......................................... 8
2.2 Phương pháp tiết giảm số cảm biến vật lý ....................................................... 9
2.3 Hệ số tương quan Pearson .............................................................................. 10
2.4 Phương pháp xếp hạng Borda voting ............................................................. 12
2.5 Bài toán tối ưu hoá đa mục tiêu...................................................................... 13
ix
2.5.1 Định nghĩa chung .................................................................................... 13
2.5.2 Bài toán tối ưu hố đa mục tiêu với black-box model............................. 15
2.5.3 Thơng số đánh giá ................................................................................... 15
2.6 Thư viện OpenBox ......................................................................................... 16
2.7 Generative Adversarial Network (GAN) ....................................................... 17
2.8 Generative Adversarial Imputation Network (GAIN) ................................... 21
CHƯƠNG 3 – CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN ....................... 24
3.1 Tổng quan về các hướng phát triển cảm biến ảo ............................................ 24
3.2 Tổng quan về các phương pháp tiết giảm số cảm biến vật lý ........................ 25
3.3 Tổng quan về phương pháp tối ưu hoá đa mục tiêu ....................................... 26
CHƯƠNG 4 – PHÁT TRIỂN CẢM BIẾN ẢO PGAIN-VS VIRTUAL SENSOR 28
4.1 Sự tương quan dữ liệu được thu thập bởi các cảm biến vật lý ....................... 28
4.2 Mơ hình PGAIN-VS ...................................................................................... 28
4.2.1 Thành phần sinh Generator ..................................................................... 29
4.2.2 Thành phần phân biệt Discriminator ....................................................... 30
4.2.3 Hệ số tương quan Pearson cho cảm biến ảo ............................................ 30
4.2.4 Thành phần hint ....................................................................................... 31
4.2.5 Mục tiêu ................................................................................................... 32
4.2.6 Kiến trúc tổng quan và giải thuật PGAIN-VS ......................................... 34
CHƯƠNG 5 – PHƯƠNG PHÁP TIẾT GIẢM SỐ CẢM BIẾN VẬT LÝ SENSOR
ROTATIONAL MEASUREMENT (SRM) ............................................................ 37
5.1 Phương pháp xếp hạng Borda voting ............................................................. 37
5.2 Bài toán tối ưu hoá đa mục tiêu với black-box model PGAIN-VS ................ 38
5.3 Bài toán mới Sensor Rotational Measurement (SRM)................................... 39
5.3.1 Định nghĩa ............................................................................................... 39
5.3.2 Tối ưu hoá kết quả RMSE được dự đoán bằng black-box model ........... 39
x
5.4 Triển khai SRM với thư viện OpenBox ......................................................... 41
5.5 Thông số đánh giá cho SRM .......................................................................... 42
CHƯƠNG 6 – THỰC NGHIỆM ............................................................................. 43
6.1 Cấu hình hệ thống vận hành thực nghiệm ...................................................... 43
6.2 Tập dữ liệu thực nghiệm ................................................................................ 43
6.2.1 Tập dữ liệu nhiệt độ ................................................................................. 43
6.2.2 Tập dữ liệu năng lượng mặt trời .............................................................. 44
6.2.3 Tập dữ liệu tốc độ phương tiện giao thông.............................................. 44
6.2.4 Thông số đặc trưng của các tập dữ liệu ................................................... 44
6.3 Tiêu chí đánh giá ............................................................................................ 45
6.4 Thí nghiệm đánh giá PGAIN-VS ................................................................... 45
6.4.1 Thông số dữ liệu cảm biến bị hỏng ......................................................... 45
6.4.2 Hiệu năng của PGAIN-VS ...................................................................... 45
6.4.3 So sánh PGAIN-VS với cảm biến ảo ANN/LR/SVR.............................. 49
6.5 Thí nghiệm đánh giá Sensor Rotational Measurement .................................. 54
6.5.1 Dữ liệu năng lượng mặt trời .................................................................... 57
6.5.2 Dữ liệu nhiệt độ trong không gian phòng ................................................ 58
6.5.3 Dữ liệu tốc độ phương tiện giao thông .................................................... 60
CHƯƠNG 7 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN....................................... 62
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ................................................... 64
TÀI LIỆU THAM KHẢO ....................................................................................... 65
LÝ LỊCH TRÍCH NGANG ..................................................................................... 73
xi
DANH MỤC HÌNH
Hình 2.1 – Nguồn dữ liệu hoạt động của cảm biến ảo ............................................... 6
Hình 2.2 – Mơ hình thành phần cảm biến ảo ............................................................. 7
Hình 2.3 – Cấp độ tương quan thơng qua giá trị Pearson ........................................ 11
Hình 2.4 – Dominate and Pareto front với bài toán hai mục tiêu ............................ 14
Hình 2.5 – Hypervolume trong khơng gian 2 chiều ................................................ 16
Hình 2.6 – Mơ hình GAN ........................................................................................ 19
Hình 2.7 – Generator vs Discriminator trong GAN................................................. 20
Hình 2.8 – Generator transformation ....................................................................... 20
Hình 4.1 – PGAIN-VS virtual sensor architecture .................................................. 34
Hình 4.2 – Pseudo-code of PGAIN-VS ................................................................... 35
Hình 5.1 – Sensor rotational measurement architecture .......................................... 38
Hình 5.2 – Pseudo-code of sensor ranking .............................................................. 40
Hình 5.3 – Pseudo code of SRM.............................................................................. 41
Hình 5.4 – Kiến trúc OpenBox ................................................................................ 42
Hình 6.1 – Tập dữ liệu Raspihat với 5% dữ liệu bị mất .......................................... 50
Hình 6.2 – Tập dữ liệu Raspihat với 10% dữ liệu bị mất ........................................ 50
Hình 6.3 – Tập dữ liệu Raspihat với 15% dữ liệu bị mất ........................................ 51
Hình 6.4 – Tập dữ liệu Raspihat với 20% dữ liệu bị mất ........................................ 51
Hình 6.5 – Tập dữ liệu Solar power với 5% dữ liệu bị mất ..................................... 51
Hình 6.6 – Tập dữ liệu Solar power với 10% dữ liệu bị mất ................................... 52
Hình 6.7 – Tập dữ liệu Solar power với 15% dữ liệu bị mất ................................... 52
Hình 6.8 – Tập dữ liệu Solar power với 20% dữ liệu bị mất ................................... 52
Hình 6.9 – Tập dữ liệu Traffic với 5% dữ liệu bị mất ............................................. 53
Hình 6.10 – Tập dữ liệu Traffic với 10% dữ liệu bị mất ......................................... 53
Hình 6.11 – Tập dữ liệu Traffic với 15% dữ liệu bị mất ......................................... 53
Hình 6.12 – Tập dữ liệu Traffic với 20% dữ liệu bị mất ......................................... 54
Hình 6.13 – Solar dataset – cảm biến thứ nhất được dự đoán dữ liệu – 3% dữ liệu bị
mất và giảm 3 cảm biến ........................................................................................... 57
xii
Hình 6.14 – Solar dataset – cảm biến thứ hai được dự đoán dữ liệu – 3% dữ liệu bị
mất và giảm 3 cảm biến ........................................................................................... 57
Hình 6.15 – Solar dataset – cảm biến thứ ba được dự đoán dữ liệu – 3% dữ liệu bị
mất và giảm 3 cảm biến ........................................................................................... 58
Hình 6.16 – Temperature dataset – cảm biến thứ nhất được dự đoán dữ liệu – 4% dữ
liệu bị mất và giảm 3 cảm biến ................................................................................ 58
Hình 6.17 – Temperature dataset – cảm biến thứ hai được dự đoán dữ liệu – 4% dữ
liệu bị mất và giảm 3 cảm biến ................................................................................ 59
Hình 6.18 – Temperature dataset – cảm biến thứ ba được dự đoán dữ liệu – 4% dữ
liệu bị mất và giảm 3 cảm biến ................................................................................ 59
Hình 6.19 – Traffic dataset – cảm biến thứ nhất được dự đoán dữ liệu – 5% dữ liệu
bị mất và giảm 4 cảm biến ....................................................................................... 60
Hình 6.20 – Traffic dataset – cảm biến thứ hai được dự đoán dữ liệu – 5% dữ liệu bị
mất và giảm 4 cảm biến ........................................................................................... 60
Hình 6.21 – Traffic dataset – cảm biến thứ ba được dự đoán dữ liệu – 5% dữ liệu bị
mất và giảm 4 cảm biến ........................................................................................... 61
Hình 6.22 – Traffic dataset – cảm biến thứ tư được dự đoán dữ liệu – 5% dữ liệu bị
mất và giảm 4 cảm biến ........................................................................................... 61
xiii
DANH MỤC BẢNG
Bảng 2.1 – Minh họa voters cho phương pháp Borda voting .................................. 12
Bảng 6.1 – Cấu hình chi tiết tài nguyên sử dụng cho giải thuật .............................. 43
Bảng 6.2 – Thông số đặc trưng của các tập dữ liệu dùng để thực nghiệm .............. 44
Bảng 6.3 – Thông số đặc trưng dữ liệu của cảm biến bị hỏng ................................ 45
Bảng 6.4 – Hiệu năng PGAIN-VS với 5% dữ liệu bị mất ....................................... 46
Bảng 6.5 – Hiệu năng PGAIN-VS với 10% dữ liệu bị mất ..................................... 46
Bảng 6.6 – Hiệu năng PGAIN-VS với 15% dữ liệu bị mất ..................................... 47
Bảng 6.7 – Hiệu năng PGAIN-VS với 20% dữ liệu bị mất ..................................... 47
Bảng 6.8 – PGAIN-VS và cảm biến ảo ANN/LR với 33% dữ liệu bị mất.............. 49
Bảng 6.9 – Kết quả SRM cho bài toán tối ưu hoá trên các tập dữ liệu .................... 55
xiv
DANH MỤC CÁC TỪ VIẾT TẮT
ANN
Artificial Neural Network
BBO
Black-box optimization
CGAIN
Conditional Generative Adversarial Imputation Networks
DCT
Discrete Cosine Transform
DWT
Discrete Wavelet Transform
EHVI
Expected Hypervolume Improvement
EIM
Effective Independent Method
FDI
Fault Detection and Isolation
GAIN
Generative Adversarial Imputation Nets
GAN
Generative Adversarial Network
GP
Gaussian Process
IMM
Interacting Multiple Model
IoT
Internet of Things
L-BFGS
Limited-memory BFGS (Broyden–Fletcher–Goldfarb–Shanno)
LR
Linear Regression
LDR
Light Dependent Resistor
MAC
Modal Assurance Criterion
MAE
Mean Absolute Error
MESMO
Max-value Entropy Search for Multi-objective Optimization
MNSS
Minimum Number Sensor Selection
mRMR
minimum Redundancy Maximum Relevance
NRMSE
Normalized Root Mean Square Error
NSGA-II
Non-dominated Sorting Genetic Algorithm
OSP
Optimal Sensor Placement
PGAIN
Pearson Generative Adversarial Imputation Nets
PRF
Probabilistic Random Forest
PS
Physical Sensor
R2
R Squared
xv
RMSE
Root Mean Square Error
SHM
Structural Health Monitoring
SRM
Sensor Rotational Measurement
SVR
Support Vector Regression
VS
Virtual Sensor
WSNs
Wireless Sensor Networks
1
CHƯƠNG 1 – TỔNG QUAN
1.1 Giới thiệu
Cách mạng công nghiệp lần thứ tư là sự kết hợp của công nghệ trong các lĩnh
vực vật lý, sinh học và công nghệ số để tạo ra những khả năng sản xuất hoàn tồn
mới có tác động sâu sắc đến đời sống kinh tế, chính trị, xã hội của thế giới. Ngày nay,
với sự bùng nổ của cuộc cách mạng công nghiệp lần thứ tư và sự phát triển mạnh mẽ
của ngành công nghệ thông tin, càng nhiều các thiết bị từ lĩnh vực sản xuất cho đến
các sản phẩm ứng dụng trong đời sống được kết nối với nhau và hoạt động dựa trên
dữ liệu thu thập được trong suốt quá trình vận hành tạo ra một hệ sinh thái có sự
tương tác tốt hơn, tổng thể hơn.
Để có thể đạt được mơi trường hoạt động như thế, cảm biến đóng vai trị hết
sức quan trọng trong việc quan trắc các thơng tin từ các sự kiện, hiện tượng bên ngồi.
Do đó, với bất kì sự cố nào xảy ra cho cảm biến làm cho dữ liệu bị gián đoạn đều dẫn
đến việc ngưng trệ, hỏng hóc hay hoạt động sai chức năng của các hệ thống. Ngoài
ra, một số nguyên nhân khác từ khách quan cho đến chủ quan cũng ảnh hưởng đến
việc thu thập thông tin chẳng hạn như việc triển khai cảm biến vật lí sẽ gặp phải một
số giới hạn về không gian và thời gian tại một vài vị trí địa lí do điều kiện mơi trường
khắc nghiệt ngăn cản việc lắp đặt, hoặc làm dữ liệu bị nhiễu, độ chính xác của dữ liệu
bị suy giảm theo q trình sử dụng. Bên cạnh đó, giới hạn về khả năng kinh tế cũng
tất yếu ảnh hưởng đến việc triển khai một lượng cảm biến nhất định. Tất cả những
điều nêu trên đều có thể dẫn tới việc mất mát, sai lệch dữ liệu cần thiết và vấn đề đặt
ra là cần có giải pháp giải quyết sự gián đoạn, đảm bảo tính liên tục của dữ liệu cho
sự vận hành của các hệ thống. Chính vì lí do đó, trong những năm qua, cảm biến ảo
đã được nghiên cứu, giới thiệu và triển khai với mục đích vận hành song song, đồng
thời bổ trợ cho cảm biến thật, hạn chế những yếu điểm mà cảm biến thật mắc phải.
Việc áp dụng cảm biến ảo trong khi cảm biến vật lí xảy ra sự cố và việc tiết giảm một
số lượng cảm biến phù hợp nhằm tối ưu hóa chi phí triển khai đo đạc sẽ mang lại rất
nhiều lợi ích trong kinh tế và nghiên cứu. Đây là động lực để tác giả thực hiện đề tài
2
luận văn thạc sĩ cho việc phát triển cảm biến ảo dựa trên các giải thuật máy học hiện
nay với độ tin cậy, ổn định cao và ít tốn chi phí.
Trong cơng trình nghiên cứu của luận văn này, cảm biến ảo được xây dựng
mang tên PGAIN Virtual Sensor (PGAIN-VS) dựa trên mơ hình Generative
Adversarial Imputation Nets (GAIN) [1] cho việc dự đốn dữ liệu bị khi có vấn đề
xảy ra cho cảm biến vật lý, mơ hình này cũng được phát triển từ Generative
Adversarial Network (GAN) [2]. PGAIN-VS được bổ sung hệ số tương quan Pearson
để chọn dữ liệu của cảm biến có độ tương quan cao giúp cho mơ hình có khả năng
nhận biết được sự biến đổi và xu hướng biến thiên của dữ liệu tốt hơn, từ đó có thể
ước lượng và tái tạo dữ liệu sát với thực tế. Bên cạnh đó, việc đo đạc thơng tin trong
điều kiện thiếu cảm biến hay nói khác hơn là sự tiết giảm số lượng cảm biến được
xem như bài tốn tối ưu hóa đa mục tiêu với mơ hình máy học black-box model với
tên gọi Sensor Rotational Measurement (SRM) cũng được phát triển trong nghiên
cứu này. Lời giải cho bài tốn tối ưu được tìm ra bằng việc sử dụng công cụ mang
tên OpenBox với công thức được xác định ở phần sau. Tóm lại, luận văn đã giải quyết
các vấn đề của hai câu hỏi sau:
-
Giải thuật và phương pháp nào sinh dữ liệu cho cảm biến ảo dựa trên dữ liệu
thu được trong quá khứ và dữ liệu từ các cảm biến thành viên có độ tương
quan cao?
-
Số cảm biến vật lý sử dụng thực tế sẽ được tiết giảm ra sao so với số điểm cần
quan trắc?
1.2 Ý nghĩa đề tài
1.2.1 Ý nghĩa thực tiễn
Cung cấp giải pháp cảm biến ảo nhằm giải quyết vấn đề mất mát và sai
lệch dữ liệu khi sự cố xảy ra trong q trình thu thập thơng tin bằng cảm biến
thật: Luận văn phát triển cảm biến ảo PGAIN-VS có độ tin cậy cao giúp dữ liệu được
đảm bảo liên tục cho các hệ thống vận hành phía sau kể cả trong trường hợp sự cố
xảy ra với cảm biến thật.
Cung cấp giải pháp tối ưu hóa lợi ích kinh tế trong việc triển khai lắp đặt
cảm biến trong một đơn vị diện tích: Số cảm biến cần được sử dụng sẽ ít hơn cho
3
với số điểm cần đo đạc so với dự định ban đầu bằng cách sử dụng cảm biến ảo
PGAIN-VS để ln phiên đo đạc tại mơt số vị trí. Rõ ràng, chi phí cho việc đầu tư,
triển khai và quản lí sẽ thấp hơn.
1.2.2 Ý nghĩa khoa học
Đề ra một phương pháp bổ khuyết dữ liệu: Luận văn bổ sung hệ số tương
quan Pearson nhằm mục đích loại bỏ những giá trị gây nhiễu, bị lệch trong q trình
dự đốn cho mơ hình GAIN.
Đề xuất một phương pháp triển khai đo đạc mới mang tên Sensor
Rotational Measurement (SRM) dựa trên bài tốn tối ưu hóa đa mục tiêu với
black-box model: Luận văn giới thiệu một phương pháp luân phiên đo đạc giá trị
giữa các địa điểm nhằm tiết kiệm số cảm biến vật lí cần được sử dụng trong thực tế.
1.3 Phạm vi đề tài
Phạm vi nghiên cứu sẽ tập trung trả lời hai câu hỏi:
•
Giải thuật, phương pháp nào được dùng để sinh dữ liệu cho cảm biến ảo dựa
trên dữ liệu trong quá khứ và dữ liệu từ các cảm biến thành viên có độ tương
quan cao?
•
Khả năng tiết giảm số cảm biến vật lí cần sử dụng so với số điểm cần quan
trắc trong thực tế ra sao?
Môi trường thử nghiệm: Luận văn sử dụng ba tập dữ liệu thực về nhiệt độ, mức
năng lượng mặt trời và tốc độ của các phương tiện giao thông được thu thập từ
các cảm biến vật lí. Trong đó tập dữ liệu về mức năng lượng mặt trời đã được sử
dụng để phát triển cảm biến ảo dựa trên mơ hình máy học Artificial Neural
Network (ANN), Linear Regression (LR), Support Vector Regression (SVR)
trong [3] và đây sẽ là cơ sở để đánh giá khả năng của PGAIN-VS đề cập trong
chương VI. Tương tự, tập dữ liệu nhiệt độ cũng được tác giả trong nghiên cứu [4]
áp dụng để đánh giá khả năng nội suy dữ liệu từ một nhóm các cảm biến cho trước
cho các cảm biến còn lại.
Phương pháp thực hiện: Luận văn sử dụng phương pháp nghiên cứu thực
nghiệm, so sánh để đánh giá về tính ổn định và đặc biệt là độ tin cậy của cảm biến
4
ảo PGAIN-VS song song với tính khả thi của phương pháp triển khai luân phiên
đo đạc mới SRM.
1.4 Bố cục
Luận văn bao gồm bảy chương. Trong đó chương 2 cung cấp các thông tin
chung về cơ sở lý thuyết đặt nền móng cho các ý tưởng đề xuất trong luận văn như
phương pháp Borda voting, thư viện OpenBox. Chương 3 giới thiệu các cơng trình
nghiên cứu liên quan đến đề tài, cũng như các hướng tiếp cận tổng quan để giải quyết
vấn đề. Chương 4 mô tả chi tiết về phương pháp tạo cảm biến ảo PGAIN-VS. Chương
5 sẽ thảo luận cụ thể về phương pháp đo lường mới được đề xuất mang tên SRM.
Chương 6 là kết quả thí nghiệm đánh giá chất lượng của cảm biến ảo PGAIN-VS và
khả năng tiết giảm số cảm biến cũng như triển khai phương pháp SRM trên các tập
dữ liệu thử nghiệm. Chương 7 là kết luận về các ưu điểm, hạn chế và các công việc
trong tương lai.
5
CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về cảm biến
2.1.1 Khát quát về cảm biến vật lý
Trong cuộc sống hằng ngày, chúng ta thường sử dụng các loại cảm biến trong
nhiều ứng dụng khác nhau như bộ cảm biến hồng ngoại được sử dụng để điều khiển
truyền hình từ xa, cảm biến môi trường được lắp đặt dùng để thu thập thông tin về
các thông số tự nhiên như nhiệt độ, độ ảnh, ánh sáng, v.v ... Tuy nhiên, cảm biến là
gì? Cảm biến là thiết bị điện tử có thể cảm nhận những trạng thái hay quá trình vật
lý hoặc hóa học diễn ra mơi trường cần khảo sát. Cảm biến sẽ biến đổi những tín hiệu
thu được thành tín hiệu điện nhằm thu thập và truyền tải các thơng tin về trạng thái
của q trình đó.
Những thông tin sẽ được thu thập và xử lý với mục đích cung cấp tham số định
tính hoặc định lượng của môi trường. Cảm biến dùng trong các thiết bị máy móc để
dùng cho những cơng việc đo đạc, nghiên cứu khoa học kỹ thuật trong nhiều lĩnh vực
khác nhau. Những thông tin đại lượng cần đo như nhiệt độ, độ ẩm, mức năng lượng,
áp suất, khoảng cách… có tác động lên cảm biến sẽ cho đại lượng đặc trưng mang
tính chất điện như điện tích, điện áp hoặc dịng điện. Các loại cảm biến thường được
bố trí tại những vị trí như đầu dị, đầu thu kết hợp với mạch điện.
Cấu tạo cảm biến bao gồm các phần tử mạch điện để hình thành mạch điện hệ
thống hồn chỉnh được đóng gói nhỏ gọn. Khi những tín hiệu phát ra sẽ được quy
chuẩn phụ thuộc theo mức điện áp và dịng điện theo bộ điều khiển. Cảm biến có đầu
dị thu tín hiệu thay đổi theo sự biến đổi của mơi trường đó.
2.1.2 Khái qt về cảm biến ảo
Cảm biến ảo là một khái niệm được quan tâm nhiều trong những năm gần đây
do sự phát triển của cuộc cách mạng công nghiệp lần thứ tư khi các thiết bị được kết
nối với nhau để trao đổi thông tin vận hành và các ứng dụng hoạt động tạo ra dữ liệu
làm nền tảng cho các tác vụ phân tích dự đốn phía sau trong kỉ ngun Internet vạn
vật (IoT). Một cách tổng quát, cảm biến ảo là một đối tượng “thuần” phần mềm có
thể tự sản sinh tín hiệu dữ liệu bằng cách kết hợp và tổng hợp các loại tín hiệu mà nó
6
nhận được từ cảm biến vật lí hoặc từ cảm biến ảo khác. Hình bên dưới mơ tả sự đa
dạng trong cách tạo cũng như vận hành cảm biến ảo: (a) cảm biến ảo (VS) hoàn toàn
dựa trên hoạt động và dữ liệu của cảm biến vật lí (PS), (b) cảm biến ảo thuần dựa trên
cảm biến ảo khác, và (c) cảm biến ảo phụ thuộc vào hoạt động và dữ liệu của cảm
biến vật lí và cảm biến ảo khác.
Hình 2.1 – Nguồn dữ liệu hoạt động của cảm biến ảo [5]
Bằng cách tiếp nhận và xử lý nhiều loại dữ liệu đầu vào khác nhau, cảm biến
ảo có khả năng làm việc với các điều kiện, giá trị mà cảm biến vật lí khơng thể. Trong
thực thế, ranh giới giữa cảm biến vật lí và cảm biến ảo là khơng rõ ràng bởi vì một số
7
thiết bị thật thực hiện pháp đo đạc, quan trắc sự kiện, hiện tượng thông qua việc sử
dụng sự tương quan (chẳng hạn hệ quả áp điện, piezoelectric effect) để chuyển đổi
giá trị thu thập được thành một tín hiệu điện có thể xử lý. Vì vậy, đa số các cảm biến
hiện nay đều mang trong mình cả phần cứng và phần mềm để xử lí tín hiệu.
Hình 2.2 bên dưới minh họa các thành phần và mối liên hệ giữa chúng trong
khái niệm cảm biến ảo:
Hình 2.2 – Mơ hình thành phần cảm biến ảo [5]
Trong đó, asset mơ tả các đối tượng, chủ thể hoặc hệ thống mà tại đó tồn bộ hay
một phần sẽ được giám sát hoặc quan sát trong bất kỳ dạng nào. Data source cung
cấp các luồng (streams) dữ liệu về asset được tạo ra bởi cảm biến vật lí hoặc cảm biến
ảo trong một tần suất nhất định. Dữ liệu này có thể từ cùng asset hoặc khác và cũng
có thể ở nhiều dạng khác nhau như kiểu số liên tục hay rời rạc… Rõ ràng, sự gián
đoạn với data streams, độ trễ thời gian là không thể tránh khỏi. Hơn nữa, số lượng
nguồn dữ liệu và định dạng của dữ liệu hoàn tồn có thể thay đổi động theo thời gian.
Đây là những thách thức đối với cảm biến ảo. Data fusion function mô tả một thủ tục
8
chuyển đổi dữ liệu từ nguồn phức tạp sang thông tin đầu ra mong muốn để sử dụng
phía sau.
2.1.3 Sự cần thiết trong việc phát triển cảm biến ảo
Cảm biến ảo giúp khắc phục một số điểm yếu của cảm biến vật lí. Đầu tiên, rõ
ràng nhất là chi phí cần bỏ ra cho phần mềm thấp hơn đáng kể so với phần cứng, áp
dụng cho việc đầu tư triển khai ban đầu và trong việc bảo trì liên tục về sau. Thứ hai,
cảm biến ảo cung cấp một giải pháp thay thế lí tưởng khi cảm biến vật lí khó hoặc
khơng thể triển khai ở một số vị trí mong muốn do điều kiện khơng gian (ví dụ thiếu
khơng gian cho cảm biến) hay mơi trường khắc nghiệt (ví dụ tiếp xúc với acid hoặc
nhiệt độ quá cao hoặc q thấp). Độ trễ hoặc sự khơng chính xác của phép thu thập ở
một vị trí khơng phù hợp có thể được bù đắp bằng cảm biến. Thứ ba, công nghệ cảm
biến ảo có thể giảm nhiễu tín hiệu và do đó, tăng độ tin cậy trong tín hiệu khi giá trị
kết quả được xác nhận bởi các cảm biến khác đang thực hiện việc đo lường cho cùng
một sự kiện, hiện tượng. Thứ tư, sự suy giảm độ chính xác của cảm biến vật lý chắc
chắn sẽ xảy ra theo thời gian sử dụng, do đó, việc này có thể được phát hiện và bù
đắp bằng cảm biến ảo. Cuối cùng, cảm biến ảo cực kì linh hoạt và có thể được tinh
chỉnh sao cho phù hợp với yêu cầu ngay tại thời điểm đo lường, trong khi đó, cảm
biến vật lí, sau khi lắp được, thường chỉ có thể được điều bằng cách can thiệp thủ
cơng. Ngồi chức năng “thay thế” cảm biến vật lí, cảm biến ảo được sử dụng để cung
cấp dữ liệu đầu ra ở một cấp độ cao hơn khi mà các tín hiệu khác nhau và không đồng
nhất. Chẳng hạn, cảm biến ảo có thể chuyển đổi dữ liệu từ các cảm biến khác nhau
thành một thông tin tương đối thống nhất, từ đó giúp thu hẹp sự sai khác và đưa ra
quyết định tốt hơn.
Trong luận văn này, hai mối quan tâm được chú ý nhiều nhất đó là (1) cảm
biến ảo PGAIN-VS được tạo ra có đủ khả năng thay thế, hỗ trợ cảm biến vật lý khi
chúng xảy ra sự cố, làm cho việc thu thập thông tin bị mất hoặc sai lệch. Việc này có
thể ảnh hưởng đến các hệ thống hoạt động phía sau, chính vì vậy cần cảm biến ảo kịp
thời sinh và cung cấp dữ liệu. Ngồi ra, (2) số lượng cảm biến vật lí có thể được tiết
giảm là bao nhiêu để tiết kiệm chi phí triển khai và lắp đặt trong thực tế là một bài
tốn tối ưu cần có lời giải.