Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Nâng cao hiệu quả định vị trong nhà sử dụng
học máy kết hợp
Vũ Văn Hiệu∗ , Ngơ Văn Bình†
∗
Viện Cơng nghệ thơng tin, Viện Hàn lâm Khoa học và công nghệ Việt Nam
† Trường Đại học FPT
Email: ,
WAP001
Tóm tắt—Định vị tồn cầu GPS không giải quyết được
nhu cầu mong muốn của người dùng trong một khơng gian
hẹp như một tịa nhà, một trung tâm mua sắm lớn. Do đó
định vị trong nhà dựa trên fingerPringting của cường độ
sóng Wifi là một chủ đề được nghiên cứu phổ biến trong
những năm gần đây. Mục đích để xác định vị trí người
dùng trong phạm vi vị trí nào trong tịa nhà hoặc trung
tâm mua sắm. Trong bài báo này chúng tơi đề xuất mơ
hình học tích hợp theo hai pha. Pha thứ nhất kết hợp một
số bộ học máy thu được tổ hợp dữ liệu mới. Pha thứ hai
sử dụng một mơ hình hồi quy trên dữ liệu mới. Chúng
tôi tiến hành thử nghiệm trên tập dữ liệu UJIIndoorLoc
[1]. Kết quả thực nghiệm mô hình đề xuất với tập dữ liệu
trên đạt kết quả độ chính xác dự báo 99.98% với tịa nhà
và vị trí tầng, đạt độ chính xác 99.6% và 98.8% với kinh
độ và vĩ độ tương ứng
Từ khóa—Dấu vết WiFi, học máy, cường độ tín hiệu,
hệ thống định vị trong nhà.
WAP044
LONGITUDE
LATITUDE
PHONEID
TIMESTAMP
-95
-70
100
-52
-50
-7641.899
4865014.8
3
0
124
11
13
1370340520
........
WAP030
.......
WAP042
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
.......
WAP030
WAP001
WAP043
FLOOR
BUILDINGID
SPACEID
USERID
WAP043
WAP044
Tịa nhà, tầng
Học máy
Vĩ độ
Kinh độ
Hình 1. Mơ hình triển khai phương pháp fingerprinting.
I. GIỚI THIỆU
Ngày nay, định vị ngoài trời là một lĩnh vực nghiên
cứu thành cơng có độ chính xác cao thơng qua tín hiệu vệ
tinh của hệ thống định vị tồn cầu (GPS) [2]. Tuy nhiên
trong một khơng gian hẹp như tòa nhà, việc sử dụng
định vị GPS khơng mang lại kết quả. Do đó phương
pháp định vị trong nhà (IPS) dành được nhiều quan tâm
của các nhà nghiên cứu. Một khó khăn của IPS là các
tín hiệu bị suy giảm quá nhiều ở môi trường trong nhà,
do đó IPS vẫn chưa đạt được kết quả tốt nhất và đang
là tâm điểm của các nhà nghiên cứu. IPS rất hữu ích
và có nhiều chức năng trong mơi trường như bảo tàng,
bệnh viện, khu mua sắm lớn, trường đại học, ... Đó là
lý do tại sao IPS đã trở thành một lĩnh vực nghiên cứu
tiềm năng và đã đạt được những tiến bộ đáng kể trong
những năm gần đây. Các phương pháp định vị trong nhà
được giới thiệu trong tài liệu [3]. Trong đó, phương pháp
dựa trên cường độ tín hiệu (Received Signal Strength
RSS) của sóng radio được phát ra từ các điểm truy cập
(Access point - AP) và thu được từ các điểm tham chiếu
(Reference Point) được sử dụng nhiều nhất và phổ biến
trong các hệ thống định vị trong nhà Nhiều phương
ISBN 978-604-80-7468-5
249
pháp định vị trong nhà dựa trên giá trị RSS, trong số
đó fingerprinting được dùng hết sức phổ biến [4], [5].
Phương pháp định vị trong nhà sử dụng thông tin RSS
được chia thành hai giai đoạn: bản đồ cường độ tín hiệu
được tạo ra từ cơ sở dữ liệu RSS thu được ở giai đoạn
ngoại tuyến (giai đoạn huấn luyện) và phương pháp ước
lượng. Trong đó đặc trưng cường độ tín hiệu dùng để
đối sánh, đặc trưng này được xây dựng bằng dữ liệu
RSS thu được tại mỗi RP biết trước. Tại giai đoạn trực
tuyến dữ liệu RSS thu được từ một RP không biết trước
sẽ được so sánh với đặc trưng cường độ tín hiệu đã lưu
trữ trước đó bằng phương pháp ước lượng để tìm ra kết
quả phù hợp nhất. Hình 1 mơ tả một hệ thống định vị
triển khai trong thực tế gồm có các AP, điện thoại người
dùng thu tín hiệu, máy chủ lưu trữ và tính tốn.
Các thuật tốn dựa trên fingerprinting yêu cầu sự kết
hợp đầy đủ giữa RSS thu được ở giai đoạn online và
các mẫu RSS được lưu trên cơ sở dữ liệu để tìm ra kết
quả tốt nhất. Tuy nhiên, thách thức đáng kể nhất của
việc định vị chính là sự biến đổi bất thường của RSS,
nguyên nhân gây bất thường do các AP khác nhau có
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
giá trị RSS khác nhau thậm chí một AP ở các thời điểm
khác nhau cũng có thể có giá trị RSS khác nhau, sự bất
thường cịn do cường độ sóng bị suy giảm bởi vật cản,
nguồn điện, thiết bị, thậm chí do nhiệt độ [6].
Bài toán định vị trong nhà sử dụng RSS có thể được
xem như một bài tốn phân loại hoặc hồi quy. Nhiều
thuật toán học máy dùng phân loại và hồi quy như
K láng giềng gần nhất (k-Nearest Neighbor - KNN),
KNN có trọng số (WKNN), Máy véc tơ hỗ trợ (Support
Vector Machine -SVM), cây quyết định (Decision Tree
-DT), mạng tích chập (Convolutions Neural Network
- CNN), Mạng nơ-ron học sâu (Deep leanring Neural
Networks DNNs), Mạng nơ-ron hồi quy (Recurrent
Neural Network - RNN)... Tuy nhiên cho đến hiện tai
chưa có phương pháp nào được cho có thể áp dụng cho
nhiều mơi trường [7], [8].
Rất nhiều phương pháp học máy đã được thực hiện
nhằm nâng cao độ chính xác định vị, hầu hết đều sử
dụng mà chưa có sự đánh giá kỹ lưỡng khi sử dụng đơn
lẻ hay kết hợp. Trong nghiên cứu này, chúng tôi đề xuất
sử dụng một trong các phương pháp học máy trên bằng
kỹ thuật học kết hợp, mục đích tăng cường dữ liệu, tránh
việc sử dụng dữ liệu quá khớp (overfiting) trong các bài
toán học máy.
Cấu trúc của bài báo gồm: Phần I giới thiệu về bài
toán định vị và yêu cần thiết, Phần II trình bày một số
nghiên cứu liên quan, Phần III trình bày mơ hình đề
xuất, Phần IV đưa ra các kết quả thực nghiệm và so
sánh. Cuối là kết luận và nghiên cứu tương lai được đưa
ra trong Phần V.
II. NGHIÊN CỨU LIÊN QUAN
Trong giai đoạn trực tuyến, hệ thống định vị so khớp
dữ liệu được thu thập trước với cường độ tín hiệu để
xác định vị trí của người dùng bằng thuật tốn định vị.
Trong phần này, chúng tôi sẽ giới thiệu một số thuật
toán định vị trong nhà.
A. Thuật toán K láng giềng gần nhất (K-Nearest Neighbor - KNN)
Thuật toán KNN là một trong những thuật toán đơn
giản nhất trong học máy. KNN được sử dụng rộng rãi vì
chi phí thấp và độ chính xác cao. Nó so sánh RSSI nhận
được với dữ liệu dấu vết đã lưu và chọn k-láng giềng
gần nhất của dữ liệu dấu vết theo khoảng cách được tính
tốn, tức là khoảng cách Manhattan hoặc khoảng cách
Euclidean. Do đó, tọa độ tương quan của vị trí thứ k là
vị trí có thể của người dùng. Hơn nữa, nó có thể tăng
độ chính xác định vị bằng cách tính giá trị trung bình
của k tọa độ. Hệ thống định vị [9] đề xuất cải tiến nhằm
nâng cao chất lượng nhận tín hiệu trên cơ sở sử dụng
ISBN 978-604-80-7468-5
250
NN, KNN và WKNN. Y Fang và cộng sự [10] đã trình
bày một thuật tốn KNN cải tiến trong việc khớp thơng
tin bằng vân tay trong hệ thống định vị trong nhà WiFi. Ma và cộng sự [11] đề xuất một phương pháp mới
được gọi là lọc phân cụm KNN (CFK), kết hợp KNN
với phân cụm.
B. Thuật toán rừng ngẫu nhiên (Random ForestRF)
Rừng ngẫu nhiên (RF) [11] là một phương pháp học
tổng hợp cho phân loại và hồi quy. Rừng ngẫu nhiên
được tạo từ nhiều cây quyết định thiết lập ngẫu nhiên.
Không có mối liên quan nào giữa mỗi cây quyết định
trong RF. Sau khi thiết lập RF, mỗi cây quyết định sẽ
quyết định mẫu thuộc về lớp nào. Lớp cuối cùng của mẫu
là lớp tối đa được xử lý bởi cây quyết định. Adusumilli
và cộng sự [12] đã sử dụng hồi quy rừng ngẫu nhiên
trong INS/GPS. Trong nghiên cứu này, hồi quy RF đã
mơ hình hóa hiệu quả lỗi INS phi tuyến tính cao do
khả năng tổng qt hóa được cải thiện. Jedari và cộng
sự [13] so sánh RF với KNN và bộ phân loại dựa trên
luật (JRip), và kết quả chỉ ra rằng bộ phân loại RF thể
hiện hiệu suất tốt nhất so với bộ phân loại KNN và JRip
với độ chính xác định vị cao hơn 91%. Mo và cộng sự
[14] đề xuất một phương pháp định vị thô dựa trên RF,
phương pháp này có thể tùy chỉnh một số vùng con và
điểm kiểm tra vùng với độ chính xác vượt trội so với
một số thuật toán phân cụm điển hình. Jieyu và cộng
sự [15] đề xuất thuật tốn rừng ngẫu nhiên cải tiến sử
dụng sự phân chia lưới theo khu vực để giảm sai số tối
đa và áp dụng độ tương tự cosin đã được điều chỉnh để
khớp với lưới và dấu vết phù hợp.
C. Thuật toán máy véctơ hỗ trợ (Support Vector
Machine-SVM)
Máy vectơ hỗ trợ (SVM) là một trong những phương
pháp thực tế nhất trong học thống kê vì nó chuyển khơng
gian đầu vào thành khơng gian có chiều cao hơn bằng
phép biến đổi phi tuyến được xác định bởi hàm tích vơ
hướng và tính tốn mặt phẳng phân loại tối ưu trong
không gian này [16]. Công thức biểu thức được biểu
diễn như Phương trình (1).
n
fx = sgn
Ti yi K (xi , x) + b
(1)
i=1
trong đó, Ti là hệ số nhân Lagrange tương ứng với mỗi
mẫu, b là ngưỡng phân loại, K(xi , x) là mặt phẳng phân
loại tối ưu của hàm tích vơ hướng. Hàm này có thể đạt
được phân loại phi tuyến sau một phép biến đổi phi
tuyến. Ngoài ra, SVM được áp dụng cho định vị lấy
dấu vết trong nhà bao gồm các bài toán phân lớp SVC
và bài toán hồi quy SVR.
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Haidar và cộng sự [17] xác định dấu vết với hai
phương pháp quan trọng là SVM và thuật toán học máy
LSTM, được sử dụng để cho phép định vị trong nhà
chính xác. Ngồi ra chuẩn hóa dữ liệu được thực hiện
để giảm lỗi định vị bằng cách tăng tính khơng nhất
qn của các giá trị RSS. Yu và cộng sự [15] đã sử
dụng thơng tin về cường độ tín hiệu nhận được từ các
AP xung quanh để xác định vị trí của người dùng bằng
cách sử dụng thuật toán SVM. Họ đã so sánh ba hàm
nhân với nhau; kết quả cho thấy hàm bán kính (RBF)
hoạt động tốt nhất. Figuera và cộng sự [16] đề xuất một
kỹ thuật để nâng cao thuật toán SVM, thuật tốn này
sửa đổi thuật tốn SVM để có được ba phương pháp
nâng cao kết hợp thông tin chéo trong hai chiều của vị
trí. Sandy và cộng sự [18] đề xuất sử dụng vùng thay
cho vị trí chính xác dựa trên bài toán phân loại đa lớp.
Các kỹ thuật phân loại đa lớp hiện đại được nghiên cứu
như thuật toán KNN, hồi quy logistic và SVM.
D. Một số thuật tốn khác định vị vị trí trong nhà
Ngồi các thuật tốn định vị nêu trên, cịn có rất nhiều
thuật tốn khác được sử dụng để định vị trong nhà. Mạng
nơ-ron nhân tạo (ANN) là một trong những phương pháp
phổ biến nhất trong học máy và trong nhiều nhà nghiên
cứu đã được áp dụng trong việc định vị bằng dấu vết,
chẳng hạn như perceptron đa lớp (MLP) và mạng nơ-ron
lan truyền ngược (BPNN). Shareef và cộng sự [19] đã so
sánh định lượng hiệu năng định vị của MLP và bộ lọc
Kalman. Kết quả cho thấy MLP có khả năng đạt được
độ chính xác cao hơn trong định vị vị trí. Apiruk [20]
sử dụng kết hợp ANN và dấu vết RSSI để xác định vị
trí chính xác của một đối tượng hoặc người trong môi
trường trong nhà, tuy nhiên phạm vi áp dụng ở mức
trong phịng thí nghiệm. Zhenghua và cộng sự [21] đề
xuất sử dụng LSTM để trích rút đặc trưng cục bộ nhằm
giảm nhiễu và trích xuất các đặc cục bộ. Yifan và cộng
sự [22] đề xuất phương pháp nhận dạng vị trí dấu vết
WiFi dựa trên mạng nơ-ron (DNN). Bộ auto-encoder
được sử dụng trích xuất các đặc trưng từ RSS nhiễu để
tạo cơ sở dữ liệu dấu vết đặc trưng có trọng số ở ngoại
tuyến. Đề xuất sử dụng kết hợp trọng số của xác suất
posteriori và mối quan hệ hình học của các điểm dấu
vết để tính tốn tọa độ của các điểm chưa biết trong
pha trực tuyến. Michał và cộng sự [23] đề xuất sử dụng
mạng nơ-ron sâu để giảm gánh nặng khó khăn cơng việc
định vị để phân loại tòa nhà/tầng.
Qua khảo sát các nghiên cứu liên quan chúng ta nhận
được các đề xuất đã áp dụng các phương pháp học máy,
chuẩn hóa dữ liệu, kết hợp trọng số, giảm chiều. để
nâng cao hiệu quả định vị trong nhà sử dụng sóng Wifi.
Tuy nhiên những phương pháp trên áp dụng trong môi
ISBN 978-604-80-7468-5
251
trường mới, dữ liệu chưa nhiều đều gặp phải những khó
khăn do thiếu dữ liệu, quá khớp dữ liệu dẫn tới kết quả
không cao. Do vậy, để khắc phục giới hạn trên chúng
tôi đề xuất sử dụng kết hợp mơ hình học gồm hai mức
(Mức 0 và Mức 1). Đầu ra của Mức 0 sẽ là đầu vào tiếp
theo của Mức 1, điều này sẽ khắc phục hiện tượng ít dữ
liệu và quá khớp trong triển khai thực tế.
III. MƠ HÌNH ĐỀ XUẤT
A. Phát biểu bài toán
Cho hệ thống định vị trong nhà gồm có B tịa nhà,
mỗi tịa nhà gồm có F tầng. Trong mỗi tầng được lắp
đặt nhiều AP. Giả sử một tác tử ai đi vào tòa Bi và ở
tầng Fj . Mỗi lần quét sóng WiFi ai nhận được giá trị
RSSI từ các AP lân cận. Gọi api là cường độ của một
điểm phát. Nếu tất cả các tòa nhà trong hệ thống gồm
N các AP thì tác tử ai nhận được một véc tơ đặc trưng
như Phương trình (2).
ai = (ap1 ; ap2 ; ...api ; ...; apN )
(2)
trong đó api = −104, 0 và api = 100 nếu khơng có
tín hiệu. Đặc trưng tại thời điểm t của tác tử ai có một
nhãn tương ứng là kinh độ và vĩ độ (ký hiệu là xi và
yi ), tòa nhà xác định bt và tầng ft xác định. Đặc trưng
tại thời điểm t của tác tử ai có một nhãn tương ứng là
kinh độ và vĩ độ (ký hiệu là xi và yi ), tòa nhà xác định
bt và tầng ft xác định. Sau khoảng thời gian T có m
lượt tác tử hoạt động trong hệ thống, chúng ta có một
cơ sở dữ liệu D của tín hiệu RSS như Phương trình (3).
(a1 , x1 , y1 , bt1 , ft1 )
(a2 , x2 , y2 , bt2 , ft2 )
........
(3)
D=
(a
,
x
,
y
,
b
,
f
)
i
i i ti ti
........
(aN , xN , yN , btN , ftN )
Cơ sở dữ liệu bao gồm các hàng AP và các chỉ số của
chúng. Thông tin vị trí cho mỗi lần quét WiFi được xây
dựng. Một bản đồ cường độ vô tuyến được tạo ra kết
hợp tất cả thông tin cần thiết. Để huấn luyện, chúng ta
biết giá trị cường độ của N RSS và nhãn tương ứng,
ví dụ như (a1 , x1 , y1 , bt1 , ft1 ). Để dự báo, chúng ta biết
các giá trị RSS cho (a2 ), và ước lượng nhãn tương ứng
là (x2 , y2 , bt2 , ft2 )
Chúng ta chèn giá trị 100 dBm cho các AP không
được phát hiện tại một vị trí cụ thể. Như vậy chúng ta
có một tập dữ liệu D = {X , Y} , trong đó tập X là đặc
trưng và Y là tập các nhãn tương ứng như Phương trình
(4).
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
X
x1
RSS
(ai, xi, yi, bt, ft)
....
Thu thập cơ sở
dữ liệu tại các
điểm tham chiếu
Cơ sở dữ liệu
giá trị RSS tại các
điểm tham chiếu
RSS2
bt1
ft1
....
....
.....
.....
y2
bt2
ft2
........
.......
........
.......
....
.....
....
.....
....
.....
btn
ftn
.....
.....
.....
.....
yn
Tạo véc tơ đặc
trưng tại điểm
tham chiếu
.....
Algorithm 1 Thuật toán học kết hợp 2 mức ComML
RSSN
B
y1
xn
F
RSS1
Y
.....
x2
.....
Input: Dữ liệu huấn luyện D = {xi , yi }m
i=1 , xi ∈
X , yi ∈ Y
Output: Kết quả dự báo/phân lớp trên bộ học kết hợp
H
1: Khởi tạo: K bộ học phân lớp Mức 0: (h1 , ..., hk )
2: Bước 1: Học trên các bộ học Mức 0
3: for k = 1 to K do
4:
bộ học hk học trên tập D
5: end for
6: Bước 2: Cấu trúc tập dữ liệu mới từ D
7: for t = 1 to K do
8:
for i = 1 to m do
9:
Cấu trúc tập dữ liệu mới (x′ i , yi ), trong đó
′
x i = x′ i .append(hk (xi ))
10:
end for
11: end for
12: Bước 3: Học bộ học Mức 1
13: Học bộ phân lớp mới h′ dựa trên cấu trúc tập dữ
liệu mới
14: return H(x) = h′ (h1 (x), h2 (x), ..., hK (x))
Pha ngoại tuyến
Pha trực tuyến
Giá trị RSS được
thu và cần định vị
RSS
Phương pháp
ước lượng
Vị trí ước lượng
....
Hình 2. Mơ hình bài tốn định vị trong nhà sử dụng RSS.
Mức 1
Mức 0
Mơ hình 1
Dữ liệu huấn luyện
Mơ hình 2
.......
Cơ sở dữ liệu
RSS
.
Dữ liệu mới
Mơ hình
kết hợp
Kết quả dự báo
cuối cùng
Mơ hình n
Hình 3. Mơ hình bài tốn định vị trong nhà sử dụng RSS.
(a1 , x1 , y1 )
(a2 , x2 , y2 )
........
X =
(a
,
x
,
y
)
D=
i
i i
........
(a
,
x
,
y
)
N
N
N
Y = [(x1 , y1 , bt1 , ft1 ) , ..., (xN , yN , btN , ftN )]
(4)
Hình 2 minh họa cho bài tốn được phát biểu. Để xác
định vị trí chúng ta cần áp dụng một phương pháp ước
lượng. Như đã giới thiệu trong phần trước, kỹ thuật ước
lượng đề xuất sử dụng mô hình kết hợp hai mức: Mức
0 là kết hợp một số mơ hình học máy; Mức 1 là một
mơ hình hồi quy hoặc phân lớp sử dụng dữ liệu ở đầu
ra của mơ hình Mức 0.
Hình 3 là mơ hình tổng quát của hệ thống đề xuất.
Sau khi đánh giá lựa chọn được các bộ học phù hợp
tốt nhất, hệ thống đề xuất được cài đặt theo Thuật toán
III-A. Kết quả mơ hình đề xuất sẽ được trình bày trong
Phần IV (Thực nghiệm).
IV. THỰC NGHIỆM
A. Phương pháp đánh giá hiệu năng
Để đánh giá hiệu năng của phương pháp nhận dạng
vị trí dấu vết Wi-Fi dựa trên kết hợp mơ hình học máy
được đề xuất, chúng tôi đã thực hiện các thực nghiệm
ISBN 978-604-80-7468-5
252
sử dụng tập dữ liệu công khai UJIIndoorLoc để chứng
minh tính khả thi của phương pháp được đề xuất khi so
sánh với các phương pháp định vị Wi-Fi điển hình.
1) Chỉ số đánh giá phân loại: Các chỉ số sau được
sử dụng để đánh giá hiệu suất của mơ hình được trong
phân loại tịa nhà và tầng trên bộ dữ liệu UJIndoorLoc
[1].
TP + TN
Accuracy =
(5)
TP + TN + FP + FN
TP
P recision =
(6)
TP + FP
TP
(7)
TP + FN
P recision × Recall
F 1 − score = 2 ×
(8)
P recision + Recall
trong đó TP, FP, TN và FN được xác định như sau:
• TP = số mẫu tịa, tầng được dự đốn chính xác tịa,
tầng
• FN = số mẫu tịa, tầng được dự đốn khơng chính
xác khơng đúng tịa, tầng
• FP = số mẫu khơng đúng tịa, tầng được dự đốn
khơng chính xác với tịa, tầng
• TN = số mẫu khơng đúng tịa, tầng được dự đốn
chính xác là khơng đúng tòa, tầng
TP, FP, TN và FN được thu thập từ ma trận nhầm lẫn.
Đây là một bảng hiển thị và so sánh các giá trị thực tế với
Recall =
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
B. Kết quả thực nghiệm và đánh giá
1) Đánh giá các bộ học Mức 0: Trong phần này,
trước hết chúng tôi cài đặt các bộ học Mức 0 để lựa
chọn các bộ học cho phân loại tòa nhà và tầng. Các chỉ
số độ đo hiệu năng precision, recall, f1-score và thời
gian (giây) được sử dụng để đánh giá. Bảng I là kết quả
theo từng bộ học khác nhau, trong đó hiệu năng của các
bộ học: Random Forest, k-nearest neighbors và Supportvector machine có kết quả tốt nhất được lựa chọn làm
bộ học Mức 0. Để dự báo trên dữ liệu mới được tạo từ
các bộ học Mức 0, bộ học Logistic regression được lựa
chọn cho Mức 1, Hình 4 biểu diễn cho sự kết hợp này.
Tập huấn luyện
Phân lớp
Mức 0
h1
Random
forests
h2
k-nearest
neighbors
GIÁ HIỆU NĂNG LỰA CHỌN BỘ HỌC
NHÀ VÀ TẦNG
Bộ học
Mức 0
RF
SVM
KNN
LR
CART
LDA
NB
precision
recall
f1-score
0.996
0.984
0.977
0.966
0.962
0.944
0.637
0.997
0.985
0.980
0.967
0.964
0.943
0.554
0.996
0.984
0.978
0.966
0.963
0.943
0.474
Phân lớp
Mức 1
LinearRegression
Dự đoán
Mức 1
Hình 4. Mơ hình kết hợp phân lớp tịa nhà và tầng.
lựa chọn cho Mức 1, Hình 5 biểu diễn cho sự kết hợp
này.
Bảng II
MỨC 0 PHÂN
ĐÁNH
LỚP TÒA
Thời gian
(s)
3.819
8.448
0.042
3.416
0.494
1.340
0.164
Tương tự để lựa chọn các bộ học Mức 0 cho dự
báo kinh độ và vĩ độ, chúng tôi lựa chọn các bộ học
hồi quy: SVM (hồi quy), Extra-Trees Regressor, Gradient Boosting Regression, k-Nearest Neighbors, Random
Forest Regressor, LGBM Regressor. Để đánh giá và lựa
chọn các bộ học chúng tôi sử dụng các chỉ số đánh giá
lỗi: R2 Score (R_2), Mean Squared Error (MSE), Mean
absolute error (MAE). Bảng II và Bảng III cho biết các
chỉ số được đánh giá hiệu năng dự báo kinh độ và vĩ
độ tương ứng. Kết quả cho thấy các bộ học kNearest
Neighbors, Extra-Trees Regressor, LGBM Regressor có
các chỉ số lỗi và thời gian phù hợp nhất được lựa chọn
làm các bộ học Mức 0. Để dự báo trên dữ liệu mới được
tạo từ các bộ học Mức 0, bộ học Linear Regression được
ISBN 978-604-80-7468-5
h3
Supportvector
machine
Dự đoán
Mức 0
Bảng I
ĐÁNH
Dữ liệu mới
các giá trị dự đoán. Để đánh giá hiệu suất của mơ hình
đề xuất ở mỗi cấp độ lớp, precision, recall và F1-score
đã được sử dụng cùng với accuracy. Precision, recall và
F1-score được báo cáo cho cả trọng số và macro. Macro
được coi là một độ đo tốt cho precision, recall và F1score trong trường hợp tập dữ liệu không cân bằng. Chỉ
số macro tính tốn precision, recall và F1-score cho từng
lớp và trả về giá trị trung bình mà không cần xem xét
tỷ lệ cho từng lớp trong tập. Trọng số chỉ số tính tốn
precision, recall và F1-score cho mỗi lớp và trả về giá
trị trung bình bằng cách xem xét tỷ lệ cho mỗi lớp trong
tập dữ liệu.
253
GIÁ HIỆU NĂNG LỰA CHỌN BỘ HỌC
Bộ học Mức 0
Random
Forest
Regressor
K-Neighbors
Regressor
ExtraTree
Regressor
LGBM
Regressor
SVM
Gradient
Boosting
Regressor
MỨC 0 DỰ
BÁO KINH ĐỘ
Thời gian (s)
R_2
MSE
MAE
32.469
0.996
61.269
2.711
0.029
0.995
79.391
3.257
0.365
0.993
110.389
3.354
0.418
0.993
112.472
6.000
63.030
0.969
477.370
13.855
9.504
0.967
509.225
16.031
2) Đánh giá các bộ học Mức 1: Để chứng minh tính
hiệu quả cho mơ hình kết hợp các bộ học máy, Thuật
toán III-A được cài đặt trong đó tập dữ liệu vào dùng
để học và kiểm tra lấy theo tỉ lệ (80/20). Từ kết quả
Bảng IV và Bảng V hiệu quả các độ đo Mô hình Mức
1 tốt hơn so với Mức 0 (Bảng I, Bảng II và Bảng III).
Ngồi ra chúng tơi đánh giá phương pháp đề xuất với
các phương pháp khác. Hai phương pháp được lựa chọn
để so sánh là [22], [23] vì đều sử dụng bộ dữ liệu [1].
Bảng VI cho thấy phương pháp đề xuất có kết quả tốt
hơn ở chỉ số MAE và phân loại tòa và tầng.
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
Bảng III
ĐÁNH
GIÁ HIỆU NĂNG LỰA CHỌN BỘ HỌC
Bộ học Mức 0
Random
Forest
Regressor
K-Neighbors
Regressor
ExtraTree
Regressor
LGBM
Regressor
SVM
Gradient
Boosting
Regressor
MỨC 0 DỰ
BÁO VĨ ĐỘ
Thời gian (s)
R_2
MSE
MAE
34.547
0.994
24.994
2.205
0.032
0.993
31.036
2.553
0.373
0.989
50.626
2.766
ĐÁNH
Tòa, tầng
Kinh độ
Vĩ độ
MSE
MAE
0.999
0.997
0.995
0.075
54.601
20.782
0.020
2.268
1.879
Thời gian
(s)
111.653
175.807
176.696
Bảng VI
0.313
0.988
52.266
4.616
62.114
0.961
175.238
8.325
9.513
0.955
200.528
Phương pháp
10.501
ComML
Yifan
[22]
(Mean)
Yifan
[22]
(HMM)
Michał
[23]
h2
ExtraTree
Regressor
Dữ liệu mới
h1
KNeighbors
Regressor
h3
LGBM
Regressor
Accuracy
(tòa, tầng)
R_2
MSE
MAE
0.987
0.997
25.153
1.39
Thời
gian
(s)
154.72
—
—
—
1.58
—
—
—
—
1.43
—
0.92
—
—
—
—
hiệu quả rõ rệt trong phân loại tòa và tầng, cũng như
dự đoán kinh độ và vĩ độ. Trong nghiên cứu tương tai,
chúng tôi sẽ cải tiến phương pháp đề xuất sử dụng thêm
các bộ lọc dữ liệu để tăng kết quả dự đoán.
Phân lớp
Mức 1
Linear Regression
TÀI LIỆU THAM KHẢO
Dự đốn
Mức 1
Hình 5. Mơ hình kết hợp dự báo Kinh độ và Vĩ độ.
Bảng IV
Tòa
tầng
R_2
BỘ PHÂN LOẠI
GIÁ ĐỘ ĐO ACCURACY, R_2, MSE, MAE VÀ THỜI GIAN
PHƯƠNG PHÁP ĐỀ XUẤT VÀ CÁC PHƯƠNG PHÁP KHÁC
Dự đoán
Mức 0
HIỆU
Bảng V
R_2, MSE, MAE VÀ THỜI GIAN
MỨC 1 (KẾT HỢP)
ĐÁNH
Tập huấn luyện
Phân lớp
Mức 0
GIÁ ĐỘ ĐO
NĂNG PHÂN LỚP TÒA , TẦNG THEO BỘ PHÂN LOẠI
(KẾT HỢP)
MỨC 1
precision
recall
f1score
accuracy
Thời gian
(s)
0.9870
0.9861
0.9865
0.9873
111.653
V. KẾT LUẬN VÀ NGHIÊN CỨU TƯƠNG LAI
Trong bài báo này chúng tôi đề xuất phương pháp
định vị trong nhà sử dụng kết hợp một số bộ học máy
theo hai mức. Mức 0 gọi là mức cơ sở gồm nhiều bộ
học, tạo ra một cấu trúc dữ liệu mới. Mức 1 là mức tổng
hợp sẽ học trên dữ liệu mới từ Mức 0. Đề xuất được
thực nghiệm trên bộ dữ liệu phổ biến là [1] đã tạo ra
ISBN 978-604-80-7468-5
254
[1] J. Torres-Sospedra, R. Montoliu, A. M. Usó, J. P. Avariento, T. J.
Arnau, M. Benedito-Bordonau, and J. Huerta, “Ujiindoorloc: A
new multi-building and multi-floor database for wlan fingerprintbased indoor localization problems,” 2014 International Conference on Indoor Positioning and Indoor Navigation (IPIN), pp.
261–270, 2014.
[2] B. Hofmann-Wellenhof, H. I. M. Lichtenegger, and J. P. Collins,
“Global positioning system: Theory and practice,” 1992.
[3] S.-M. Chan and G. Sohn, “Indoor localization using wi-fi based
fingerprinting and trilateration techiques for lbs applications,”
ISPRS - International Archives of the Photogrammetry, Remote
Sensing and Spatial Information Sciences, vol. 3826, pp. 1–5,
2012.
[4] R. K. Harle, “A survey of indoor inertial positioning systems
for pedestrians,” IEEE Communications Surveys & Tutorials,
vol. 15, pp. 1281–1293, 2013.
[5] C. Basri and A. E. Khadimi, “Survey on indoor localization
system and recent advances of wifi fingerprinting technique,”
2016 5th International Conference on Multimedia Computing
and Systems (ICMCS), pp. 253–259, 2016.
[6] E. Laitinen, E. S. Lohan, J. Talvitie, and S. Shrestha, “Access
point significance measures in wlan-based location,” 2012 9th
Workshop on Positioning, Navigation and Communication, pp.
24–29, 2012.
[7] A. Nessa, B. Adhikari, F. Hussain, and X. N. Fernando, “A
survey of machine learning for indoor positioning,” IEEE Access,
vol. 8, pp. 214 945–214 965, 2020.
[8] N. Singh, S. Choe, and R. Punmiya, “Machine learning based
indoor localization using wi-fi rssi fingerprints: An overview,”
IEEE Access, vol. 9, pp. 127 150–127 174, 2021.
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
[9] X. Ge and Z. Qu, “Optimization wifi indoor positioning knn
algorithm location-based fingerprint,” 2016 7th IEEE International Conference on Software Engineering and Service Science
(ICSESS), pp. 135–137, 2016.
[10] Y. Fang, Z. Deng, C. Xue, J. Jiao, H. Zeng, R. Zheng, and S. Lu,
“Application of an improved k nearest neighbor algorithm in wifi
indoor positioning,” 2015.
[11] J. Ma, X. Li, X. Tao, and J. Lu, “Cluster filtered knn: A wlanbased indoor positioning scheme,” 2008 International Symposium on a World of Wireless, Mobile and Multimedia Networks,
pp. 1–8, 2008.
[12] S. Adusumilli, D. Bhatt, H. Wang, P. Bhattacharya, and V. K.
Devabhaktuni, “A low-cost ins/gps integration methodology
based on random forest regression,” Expert Syst. Appl., vol. 40,
pp. 4653–4659, 2013.
[13] E. Jedari, Z. Wu, R. Rashidzadeh, and M. Saif, “Wi-fi based
indoor location positioning employing random forest classifier,”
2015 International Conference on Indoor Positioning and Indoor
Navigation (IPIN), pp. 1–5, 2015.
[14] Y. Mo, Z. Zhang, Y. Lu, W. Meng, and G. A. Agha, “Random forest based coarse locating and kpca feature extraction for indoor
positioning system,” Mathematical Problems in Engineering, vol.
2014, p. 850926, 2014.
[15] J. Gao, X. Li, Y. Ding, Q. Su, and Z. Liu, “Wifi-based indoor
positioning by random forest and adjusted cosine similarity,”
2020 Chinese Control And Decision Conference (CCDC), pp.
1426–1431, 2020.
ISBN 978-604-80-7468-5
255
[16] S. Xia, Y. Liu, G. Yuan, M. Zhu, and Z. Wang, “Indoor
fingerprint positioning based on wi-fi: An overview,” ISPRS Int.
J. Geo Inf., vol. 6, p. 135, 2017.
[17] H. A. Abbas, N. W. Boskany, K. Z. Ghafoor, and D. B. Rawat,
“Wi-fi based accurate indoor localization system using svm and
lstm algorithms,” 2021 IEEE 22nd International Conference on
Information Reuse and Integration for Data Science (IRI), pp.
416–422, 2021.
[18] S. Mahfouz, P. Nader, and P. E. Abi-Char, “Rssi -based classification for indoor localization in wireless sensor networks,”
2020 IEEE International Conference on Informatics, IoT, and
Enabling Technologies (ICIoT), pp. 323–328, 2020.
[19] A. Shareef, Y. Zhu, M. T. Musavi, and B. Shen, “Comparison of
mlp neural network and kalman filter for localization in wireless
sensor networks,” 2007.
[20] A. Puckdeevongs, “Indoor localization using rssi and artificial
neural network,” 2021 9th International Electrical Engineering
Congress (iEECON), pp. 479–482, 2021.
[21] Z. Chen, H. Zou, J. Yang, H. Jiang, and L. Xie, “Wifi fingerprinting indoor localization using local feature-based deep lstm,”
IEEE Systems Journal, vol. 14, pp. 3001–3010, 2020.
[22] Y. Wang, J. Gao, Z. Li, and L. Zhao, “Robust and accurate wifi fingerprint location recognition method based on deep neural
network,” Applied Sciences, 2020.
[23] M. R. Nowicki and J. Wietrzykowski, “Low-effort place recognition with wifi fingerprints using deep learning,” ArXiv, vol.
abs/1611.02049, 2017.