HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------
Tạ Thị Hà Thủy
NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI SỬ DỤNG
NHIỀU CẢM BIẾN
Chuyên ngành: Hệ thống thơng tin
Mã số: 8.48.01.04
TĨM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2018
Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
Người hướng dẫn khoa học: PGS. TS. Phạm Văn Cường
Phản biện 1: …………………………………………………………………
Phản biện 2: …………………………………………..…………..………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Cơng nghệ Bưu chính Viễn thơng
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng
1
PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong c̣c sống hiện nay, mọi việc đều được đơn giản và tối ưu hóa
thời gian thông qua ứng dụng công nghệ vào xử lý các công việc hàng ngày,
trong đó các nghiên cứu về nhận dạng hoạt động người đã đạt được những
thành tựu vượt bậc.
Các công nghệ cảm biến và kỹ thuật xử lý dữ liệu đã có những bước
tiến: thu gọn hơn, chính xác hơn, bợ nhớ lớn hơn, tiêu thụ năng lượng ít hơn
và giá thành cũng rẻ hơn, và có khả năng kết nối mạng, tạo thuận lợi thúc đẩy
cộng đồng nghiên cứu chuyển dịch từ truyền, thu nhận và xử lý dữ liệu mức
thấp sang nghiên cứu tích hợp thơng tin mức cao, xử lý ngữ cảnh, nhận dạng
và suy diễn các hoạt động. Hơn nữa, ngày càng có nhiều bài tốn thực tế cần
dựa vào nhận dạng hoạt động, như ứng dụng an ninh và theo dõi giám sát
nhận dạng hoạt động để xác định các mối đe dọa về khủng bố; nhận dạng
hoạt động để hỗ trợ người sớng mợt mình, người già cơ đơn; phịng họp
thơng minh, bệnh viện thơng minh, v.v.
Cảm biến mang trên cơ thể người đã mở ra nhiều ứng dụng tiềm năng
trong nhận dạng hoạt động do con người không bị giới hạn trong những môi
trường được lắp sẵn các thiết bị, mang lại khả năng cung cấp những sự trợ
giúp thông minh: các giao tiếp ảo tại bất cứ nơi đâu và bất kỳ lúc nào.
Tuy đã có nhiều nghiên cứu về chủ đề này, nhưng vẫn là những vấn đề
có tính thời sự và thu hút cợng đồng nghiên cứu và các chuyên gia về công
nghệ.
Đề tài “Nhận dạng hoạt động của người sử dụng nhiều cảm biến”
được thực hiện trong khuôn khổ luận án thạc sĩ chun ngành hệ thớng thơng
tin góp phần giải quyết mợt sớ vấn đề cịn tồn tại trong phương pháp nhận
dạng hoạt động sử dụng cảm biến mang trên người.
2. Bố cục của luận án
Luận án gồm 47 trang kết cấu gồm phần mở đầu, 03 chương và phần
kết luận. Có 03 bảng và 15 hình minh họa, 31 tài liệu tham khảo tiếng Việt và
tiếng Anh.
Chương 1- TỔNG QUAN
1.1. Bài tốn nhận dạng hoạt động của người
Nhận dạng hoạt đợng của con người đóng vai trò quan trọng trong ứng
dụng của bài toán nhận dạng cùng với cơ sở của các phương pháp được sử
dụng, mục đích luận văn hướng tới nghiên cứu, tìm hiểu nhiều bợ cảm biến
2
khác nhau được tích hợp trong đồng hồ thơng minh và đôi giày về cảm biến
gia tốc, cảm biến gyroscope, cảm biến nhịp tim được đeo/mang ở các vị trí
khác nhau nhằm nâng cao hiệu quả của nhận dạng hoạt động của con người.
Dữ liệu được thu thập từ ứng dụng trên đồng hồ thông minh và đế giày
nhằm phân tích và đánh giá mợt sớ hoạt đợng hàng ngày của người chơi thể
thao như chạy bộ, tập thể dục tay không, vươn thở, v.v...
1.2. Các nghiên cứu trước đây
1.2.1. Nhận dạng hoạt động của người sử dụng 1 loại cảm biến
Có nhiều loại hoạt đợng khác nhau tùy tḥc vào ứng dụng nhận dạng
hoạt động người. Về cơ bản, thì hoạt đợng người có thể được chia làm hai
loại: Hoạt động mức thấp và hoạt động ở mức cao [4].
Hoạt động mức thấp bao gồm các hoạt động như đi bộ, ngồi
xuống, đứng lên, hút bụi, ăn, rửa bát, v.v.
Hoạt động mức cao thường gồm một tập hợp các hoạt động mức
thấp và diễn ra trong thời gian dài hơn như lau nhà, đi ngắm cảnh hay làm
việc tại văn phịng có thể kéo dài vài phút hoặc nhiều giờ.
Nhận dạng hoạt động sử dụng cảm biến mang trên người đã có từ ći
thập niên 90. Nhiều nghiên cứu thành cơng sau đó trong nhận dạng hoạt động
đã tạo ra những động lực mạnh mẽ về việc giải quyết các vấn đề khó khăn và
thiết thực hơn. Mợt sớ lĩnh vực thu được nhiều lợi ích từ hoạt động sử dụng
cảm biến mang trên người: trong an ninh [20], trong văn phịng, thể thao, giải
trí, trong cơng nghiệp, và đặc biệt là trong lĩnh vực chăm sóc sức khỏe. Trong
đó, các hoạt động sống hàng ngày (ADL) đã thu hút được rất nhiều sự quan
tâm của nhiều hoạt động nghiên cứu. Giám sát hoạt động hàng ngày chỉ ra
những ưu thế quan trọng so với các phương pháp y học trùn thớng trong
việc hỗ trợ chẩn đốn, phục hồi chức năng hoặc suy giảm chức năng mãn
tính. Quan trọng hơn nữa là hỗ trợ tích cực để khuyến khích con người sớng
mợt lới sớng khỏe mạnh.
Từ đó xuất hiện nhiều nghiên cứu về các hoạt động như đánh răng, rửa
tay, ăn ́ng, ́ng th́c, hay thói quen di chuyển và tính tốn tiêu thụ năng
lượng [22]. Nghiên cứu cảnh báo các nguy cơ cho sức khỏe con người, ví dụ
như phát hiện ra yếu tớ người lớn tuổi bị té ngã, đây là một vấn đề sức khỏe
cộng đồng cực kỳ quan trọng trên thế giới.
Gần đây, nhận dạng hoạt động đã trở thành một yếu tố quan trọng
trong khá nhiều sản phẩm tiêu dùng. Ví dụ, máy chơi trò chơi Wii của
Nintendo hay Kinect của Microsoft. Mặc dù ban đầu các hệ thống này được
phát triển cho việc giải trí, sau đó được mở rợng sang các ứng dụng khác, như
huấn luyện thể thao và phục hồi chức năng. Một số sản phẩm thể thao như
DirectLife Philips hoặc giày chạy Nike+ cũng tích hợp cảm biến chuyển
động dùng cho cả vận động viên chuyên và không chuyên để hỗ trợ quá trình
3
luyện tập thông qua những phản hồi về hiệu suất từng hoạt động của vận
động viên.
Nghiên cứu của Jamie A. Ward và cộng sự [21], tập trung vào việc
nhận biết các hoạt động liên tục trong xưởng gỗ, sử dụng microphone và gia
tốc kế ba trục gắn ở hai vị trí trên tay người dùng.
Các hoạt đợng tiềm ẩn “thú vị” được phân đoạn từ các luồng dữ liệu
liên tục bằng cách sử dụng phân tích cường đợ âm thanh phát hiện ở hai vị trí
khác nhau. Vì vậy, nhóm tác giả đã chọn microphone và gia tốc kế sử dụng
cảm biến đeo ở hai vị trí trên cổ tay và trên cánh tay để nhận diện hoạt động
của người dùng để phát hiện các hoạt động liên tục trong mợt kịch bản lắp
rắp. Cụ thể:
Phân đoạn tín hiệu hai micro
Ghi nhận sử dụng âm thanh và gia tốc:
1.2.2. Nhận dạng hoạt động của người sử dụng nhiều loại cảm biến
Nghiên cứu cảm biến hỗn hợp đã được phát triển trong những năm gần
đây, đó là việc sử dụng đồng thời các dữ liệu từ một cảm biến hay từ nhiều
cảm biến rồi lấy thông tin hợp nhất ra để tạo nên bức tranh về trạng thái môi
trường chính xác hơn. Việc áp dụng kỹ thuật này cho phép loại bỏ bớt nhiễu,
tăng hiệu quả về điều khiển ổn định [2].
Có nhiều vấn đề phát sinh khi giải quyết vấn đề cảm biến hỗn hợp như
độ bất định vốn có trên các phép đo của mỗi cảm biến, tính đa dạng về thời
gian và khơng gian của mỗi phép đo. Độ bất định của các số liệu trong các
cảm biến khơng chỉ phát sinh từ tính khơng chính xác và nhiễu trong các
phép đo, mà nó cũng bị gây ra từ sự không rõ ràng và không đồng nhất của
mơi trường, và khơng có khả năng phân biệt giữa chúng. Các biện pháp được
sử dụng để tổng hợp dữ liệu từ các cảm biến sẽ loại bỏ độ bất định trên, đưa
vào tính tốn các thơng sớ mơi trường ảnh hưởng đến các phép đo cảm biến
và kết hợp tính tự nhiên khác nhau của thơng tin để có được mợt thơng tin
chính xác mơ tả mơi trường phù hợp nhất. Các thuật toán được phân loại
thành ba nhóm [15]:
- Suy luận xác suất, thường dựa trên: Lý thuyết suy luận Bayesian và
lý thuyết Dempester-Shafer; Lý thuyết thống kê; Lý thuyết vận hành đệ qui.
- Bình phương tối thiểu, là các phương pháp dựa trên: Bộ lọc Kalman;
Lý thuyết tối ưu...
- Tổng hợp thông minh, là các phương pháp dựa trên: Logic mờ; Mạng
neuron; Các thuật toán di trùn.
Các tác giả cớ gắng mơ hình hóa đợ bất định trong các phép đo trên
mỗi cảm biến. Với nhóm suy luận xác suất, thường sử dụng phương pháp suy
luận Bayesian. Cùng tồn tại với lý thuyết Bayes là lý thuyết DempesterShafer, đây là lý thuyết cho phép giải quyết kỹ hơn về sự kiện không chắc
4
chắn sắp xảy ra. Tuy nhiên trong phương pháp này các phần tử tính tốn sẽ
tăng lên cấp lũy thừa theo số cảm biến trong hệ thống và như vậy rất khó tính
tốn.
Trong mợt sớ bài tốn khi mà dữ liệu đầu vào bị nhiễu, địi hỏi phải có
mợt phương pháp có khả năng đưa ra quyết định dựa trên những điều kiện
không chắc chắn, tức là phải mở rộng từ việc đánh giá định lượng giá trị vật
lý đến việc đánh giá theo xác suất hiện lên trên kết quả tổng hợp của nhiều dữ
liệu cảm biến trong không gian một và nhiều chiều. Ở đây áp dụng kỹ thuật
logic-mờ là mợt phương pháp hữu ích [2]. Tuy nhiên, các cảm biến không
giống nhau, nhiều công việc cần phải thực hiện để thực hiện suy diễn trong
bài toán tổng hợp dữ liệu từ các nguồn khác nhau, đòi hỏi hệ thớng có khả
năng tự tạo ra các qui tắc riêng để tổng hợp dữ liệu. Số lượng cảm biến tăng
thì tăng đợ tính tốn và rất phức tạp; đơi khi khơng tính được vì phụ tḥc
đồng thời các cảm biến.
Mợt phương pháp hiệu quả để ước tính đồng thời các giá trị đo của các
cảm biến đó là bộ lọc Kalman mở rộng (EKF).
Sự phụ thuộc không giống nhau của mỗi cảm biến cũng được giải
quyết bằng cách tính tốn thời gian xử lý khác nhau (đợ trễ) trên mỗi cảm
biến.
Bảng 1.1. Tóm lược các cảm biến mang trên người sử dụng
trong nhận dạng hoạt động
Phương pháp nhận dạng
Cảm biến
hoạt động
Dựa vào thông tin chuyển Cảm biến gia tốc.
động của cơ thể (có thể kết Có thể kết hợp cảm biến con quay hồi
hợp các cảm biến khác)
chuyển hoặc cảm biến âm thanh.
Dựa vào xác định vị trí GPS, cảm biến âm thanh, cảm biến con
người dùng
quay hồi chuyển.
Dựa vào cảm biến gắn vào Bộ đọc thẻ RFID, cảm biến phát hiện tia
đối tượng sử dụng.
hồng ngoại, chuyển mạch cộng từ, các
cảm biến đo nhiệt độ môi trường.
Dựa trên dấu hiệu sống
Huyết áp, nhịp tim, điện não, điện tim,
hô hấp, cảm biến nhiệt độ cơ thể, cảm
biến áp suất bọt, điện trở đo áp lực, cảm
biến đo oxy, cảm biến độ dẫn điện của
da, điện tim.
Trong một nghiên cứu công bố tại Hội nghị quốc tế khoa học về điện
toán tỏa khắp (Pervasive Computing) năm 2010, [31] nghiên cứu nhận biết
ADL với thiết bị cảm biến hỗn hợp được trang bị như là một máy camera,
một microphone, và như một cảm biến gia tốc kế và được gắn vào cổ tay
5
người sử dụng có thể giúp chúng ta nhận biết được các hoạt động sống hàng
ngày. Nắm bắt được không gian bằng cách sử dụng thiết bị mang trên cổ tay
và giúp nhận biết sử dụng các đối tượng bằng tay như: Pha trà, pha cà phê và
tưới cây. Các thiết bị cảm biến có thể đeo được hiện tại được trang bị với một
microphone và một cảm biến đo gia tốc không thể nhận biết được hoạt động
sống hàng ngày mà khơng có cảm biến nhúng đới tượng. Tuy nhiên các vấn
đề đặt ra cần tập trung cải tiến thuật toán hơn nữa,
Nhận diện hoạt động, sự kết hợp của nhiều cảm biến phần lớn do bắt
nguồn từ trực giác mà hai bợ cảm biến được bớ trí tớt sẽ chuyển tiếp thông tin
về hoạt động hơn là chỉ một cảm biến. Phương pháp đơn giản nhất là so sánh
các quyết định hàng đầu của từng lớp phân loại, loại bỏ bất kỳ kết quả nào
không đồng thuận.
1.3 Kết chương
Trong chương 1, học viên đã nghiên cứu bài toán nhận dạng hoạt động
của người và các ứng dụng phổ biến. Trong đó đã tập trung vào bài toán nhận
dạng hoạt động của người sử dụng cảm biến hỗn hợp (từ 2 loại cảm biến trở
nên), đã phân tích các ưu, nhược điểm của một số cách tiếp cận.
Trong những năm gần đây nhận dạng hoạt động đã trở thành một yếu
tố quan trọng trong khá nhiều sản phẩm tiêu dùng, như máy chơi trị chơi của
Microsoft, điện thoại thơng minh, cảm biến đế gắn vào đề giày, các cảm biến
gia tốc, con quay hồi chuyển gắn trên cơ thể người một cách thuận tiện đã mở
ra một triển vọng to lớn trong lĩnh vực này.
Tuy nhiên các thuật toán cần phải được cải tiến, sử dụng kết hợp cảm
biến khác nhau để nhận dạng có hiệu quả hơn.
Chương 2- NHẬN DẠNG
HOẠT ĐỘNG SỬ DỤNG NHIỀU CẢM BIẾN
2.1. Các bộ cảm biến
2.1.1 Cảm biến gia tốc
Hoạt động của gia tốc kế: Định luật II về chuyển động của Newton
phát biểu rằng vector gia tốc của một vật luôn cùng hướng với lực tác dụng
lên vật. Độ lớn của vector gia tốc tỉ lệ thuận với độ lớn của vector lực và tỉ lệ
nghịch với khối lượng của vật. Định luật này thường được phát biểu dưới
dạng phương trình F=ma, với F là lực tác dụng lên vật, m là khối lượng của
vật và a là gia tốc của vật đó.
Gia tốc kế là một thiết bị dùng để đo sự biến đổi gia tốc của đối tượng
mang thiết bị.
6
Hình 2.1: Cảm biến gia tốc tuyến tính
Tín hiệu thu được với cảm biến gia tớc có 2 thành phần: gia tốc trọng
trường cung cấp thông tin về tư thế của chủ thể, và thành phần tăng tốc của
cơ thể cung cấp thông tin về sự chuyển động của chủ thể.
Nhiều nghiên cứu trước đây đã chứng minh 85-95% cho đánh giá nhận
dạng hành động, tư thế và các hành vi khác sử dụng dữ liệu cảm biến gia tốc.
Các nghiên cứu trước chứng minh rằng các hình thức vận động như đi
bộ, chạy bộ, leo cầu thang và các tư thế như ngồi, nằm, đứng có thể được ghi
nhận với đợ chính xác từ 83 – 95% sử dụng cảm biến gia tốc trên hông, đùi
và mắt cá chân. Tuy nhiên các nghiên cứu của Ling Bao và Intille cho thấy
rằng đùi và cổ tay là vị trí thích hợp để đặt cảm biến gia tốc để phát hiện
ADL. Hệ thống nhận dạng hành vi nên sử dụng dữ liệu với các dữ liệu ở vị trí
khác nhau, cho phép người dùng mang theo thiết bị ở vị trí thuận tiện cho
một bối cảnh nhất định. Liên quan đến sớ lượng cảm biến để có thể nhận diện
chính xác.
Hình 2.2: Tóm tắt những nghiên cứu trước đây về nhận dạng hành vi sử
dụng cảm biến gia tốc
Ling Bao & Intille, 2004 cho thấy rằng việc sử dụng 2 cảm biến chỉ
ảnh hưởng khoảng 5% đợ chính xác so với một hệ thống dùng 5 cảm biến. So
sánh cảm biến gia tốc 2 trục và 3 trục làm tăng chi phí mà sự phong phú của
7
dữ liệu là không đáng kể. Số lượng tối đa của cảm biến được ghi nhận là 6
cảm biến gia tốc đơn trục [12].
Các loại gia tốc kế thông dụng hiện tại đều có khả năng đo sự biến đổi
gia tớc theo cả 3 chiều: x, y, và z. Hình 2.3 mô tả các chiều của một gia tốc
kế trên các điện thoại di động thông minh (smartphone), trong đó x là trục
hướng theo chiều ngang của thiết bị, y là trục hướng theo chiều thẳng đứng
của thiết bị và z hướng từ sau ra trước.
Hình 2.3: Gia tốc kế 3 chiều trên smartphone
(Nguồn: />Đơn vị thông dụng được dùng để đo sự biến thiên của gia tốc là G hoặc
m/s2. Hai đơn vị này có thể được chuyển đổi lẫn nhau bằng công thức: 1G
=9.8m/s2. Tùy từng loại gia tớc (đợ nhạy) mà chúng có thể đo được sự biến
đổi gia tốc cho mỗi chiều trong khoảng từ [-1G, +1G] cho đến [-3G, 3G].
Hình 2.4: Nguyên lý đo gia tốc theo trục y
(Nguồn: />Khi đặt gia tốc kế thẳng đứng theo trục y, do tác động của trọng lực thì
khới lượng chuyển đợng (seismic mass) sẽ bị kéo x́ng và giá trị chuẩn của
trạng thái này là +1G. Khi di chuyển khoang chứa (housing) lên xuống theo
phương thẳng đứng thì khới lượng chuyển đợng sẽ di chuyển, dẫn đến giá trị
của y sẽ thay đổi. Độ biến thiên của y phụ thuộc vào việc gia tốc chuyển
động của khoang chứa theo chiều thẳng đứng. Một gia tốc nhiều chiều sẽ bao
gồm nhiều đơn vị đo gia tớc trong Hình 2.4 được đặt theo nhiều hướng khác
nhau.
Hình 2.6 minh họa giá trị của x, y, z trong một số trường hợp khác
nhau: (1) là trường hợp đặt gia tốc kế đứng yên theo phương thẳng đứng của
trục y; (2) là trường hợp di chuyển gia tốc kế lên xuống theo phương thẳng
đứng (trục y); (3) là trường hợp di chuyển gia tốc kế qua lại theo chiều ngang
(trục x); và (4) là trường hợp di chuyển gia tốc kế tới lui (trục z).
8
Hình 2.5. minh họa giá trị của x, y, z
Nhận dạng hoạt động sử dụng dữ liệu cảm biến gia tớc do người dùng
tự gán nhãn: Các tính năng trung bình, năng lượng, entropy và tương quan
được trích ra từ dữ liệu gia tốc. Hoạt động nhận dạng trên các tính năng này
đã được thực hiện bằng cách sử dụng bảng quyết định, nghiên cứu dựa vào cá
thể (IBL hoặc hàng xóm gần nhất), cây quyết định C4.5 lớp phân loại naive
Bayes được tìm thấy trong Bợ cơng cụ Thuật toán học máy của Weka [19].
Cây quyết được sử dụng và cho kết quả khá tớt với đợ chính xác trên
80% trong nghiên cứu nhận dạng hoạt động sử dụng dữ liệu cảm biến gia tốc
được gán nhãn bởi người dùng [23].
Dữ liệu thu từ 5 cảm biến 2 chiều được đặt ở các vị trí khác nhau trên
cơ thể. Các đặc trưng được lựa chọn bao gồm trung bình, năng lượng, mợt sớ
tḥc tính miền tần sớ sử dụng FFT và được tính trên cửa sổ trượt kích thước
512 mẫu và 50% trùng lặp (overlap), tần số lấy mẫu 76.25 Hz, mỗi cửa sổ
chứa 6.7 giây.
Hình 2.6: Một số đặc trưng được trích chọn
2.1.2 Cảm biến gyroscope
Ta hãy xét chuyển động của con quay trong trường trọng lực, quanh
điểm cố định 0 nằm trên trục đối xứng z của nó.
Hình 2.7: Chuyển động của con quay trong
trường trọng lực quanh điểm cố định
Khi con quay đang quay nhanh nếu tác dụng lên trục con quay mợt lực
𝐹⃗ thì đầu trục con quay sẽ dịch chuyển theo phương vuông góc với 𝐹⃗ . Tính
chất đó gọi là hiệu ứng hồi chuyển. Do đó ta gọi là con quay hồi chuyển.
9
Hệ thống toạ độ và gia tốc Một gia tốc ba trục sẽ trả về giá trị của sự
dịch chuyển của một thân dọc theo trục X, trục Y và trục Z. A Triaxial
Gyroscope là thiết bị trả về giá trị xoay vòng của thân dọc theo trục X (Di
chuyển từ bên này sang bên kia), Y (nghiêng và phía trước) và trục Z (Xoay
từ chân dung sang phong cảnh và ngược lại).
Gyroscope là một thiết bị được sử dụng để đo vận tớc góc hoặc duy trì
phương hướng, dựa trên các nguyên tắc bảo toàn mô men động lượng.
Con quay hồi chuyển hoạt đợng ít giớng với mợt gia tớc kế nhưng nó
cung cấp thơng tin chính xác hơn ví dụ như để biết chính xác mợt đới tượng
được định hướng như thế nào. Trong khi gia tốc được ảnh hưởng bởi trọng
lực, khơng phải là con quay vịng và do đó chúng tạo ra sự bổ sung tuyệt vời
cho nhau. Chúng đo vận tốc góc trong đơn vị quay vịng / phút (RPM), hoặc
bằng đợ trên giây (°/s). Ba trục xoay được tham chiếu chủ yếu trong nhiều tài
liệu như cuộn, âm thanh, và khe hở [6].
Nghiên cứu của Li và cộng sự [1] đề xuất kết hợp con quay hồi chuyển
và gia tốc kế để phát hiện hành vi té ngã. Các tác giả sử dụng 2 mạch TEMP
(Technology-Enabled Medical Precision Observation) 3.0, mỗi mạch gồm 1
gia tốc kế và 1 con quay hồi chuyển. Một mạch được gắn trên ngực của đối
tượng cần được theo dõi và 1 mạch được gắn trên chân, đoạn giữa đầu gối và
hông. Dữ liệu gia tốc kế được sử dụng để xác định sự biến thiên của chuyển
đợng, cịn con quay hồi chuyển thì dùng để tính đợ quay của đối tượng.
2.1.3 Cảm biến nhịp tim
Các cảm biến trong y học, có nhiều ứng dụng trong việc theo dõi các
hoạt động sinh lý như theo dõi nhiệt độ cơ thể, nhịp tim, hoạt động của não,
vận động cơ bắp và các dữ liệu quan trọng khác.
Các gia tốc kế thường được sử dụng để giám sát hoạt động của con
người và về cơ bản được sử dụng để đo gia tốc dọc theo một trục nhạy cảm
và trên một dải tần sớ cụ thể.
Có mợt sớ loại gia tớc kế có sẵn dựa trên các phương pháp điện áp
chuyển đổi (piezoelectric), hoặc thay đổi điện dung. Thông thường tất cả
chúng đều sử dụng cùng một nguyên tắc hoạt động của một khối lượng đáp
ứng với gia tốc bằng cách gây ra một nguồn co giản hoặc một thành phần
tương đương để kéo giãn hoặc nén tương ứng với gia tốc đo được.
Cảm biến điện tâm đồ (ECG) có thể đeo được cũng dùng để đánh giá
các bệnh tim mạch. Một hệ thống chuyển đổi analog-to-information không
đồng bộ đã được đưa vào để đo khoảng RR (khoảng cách từ mợt sóng R đến
sóng R liền sau nó) của tín hiệu điện tâm đồ ECG. Hệ thớng có chứa mợt
hiệu chỉnh chuyển đổi ngang mức từ các định lượng vật lý sang sớ ( analogto-digital) và mợt thuật tốn mới để phát hiện các đỉnh R từ dữ liệu lấy mẫu
ngang qua trong một khối nén dữ liệu.
10
Hình 2.8: Biểu đồ biểu diễn thiết bị cảm biến đơn giản có thể mang
Hình 2.9: Biểu đồ trình bày Hệ thống (HAM) giám sát hoạt động của người
Hình 2.10: Hình ảnh hệ thống giám sát các thơng số sinh lý học có thể mang
Trong nghiên cứu của Nadezhda Sazonova và cộng sự, gia tốc
(Accelerometry-ACC) đã nổi lên như là một trong những cách tiếp cận phổ
biến nhất đến dự báo năng lương (EE) [28]. Các máy đo gia tốc đơn có một
hạn chế về đánh giá thấp đáng kể chi phí năng lượng của các tư thế tĩnh như
các hoạt đợng thường trực (ví dụ: các cơng việc trong gia đình) và các hoạt
đợng khơng có trọng lượng (ví dụ như đi xe đạp).
Do đó, họ khơng giải thích được mợt phần đáng kể sự biến đổi chi phí
năng lượng cho cuộc sống thường ngày. Một chiến lược để cải thiện dự đoán
EE đã được sử dụng cảm biến đa năng, hoặc là thêm gia tốc kế hoặc các loại
cảm biến khác (ví dụ nhịp tim) [9]. Ví dụ, kết hợp nhịp tim và ACC đã được
chứng minh là cải thiện căn bản tính chính xác của dự báo chi phí năng lượng
[9], như sử dụng gia tớc kế đa năng. Gần đây, một số nghiên cứu đã chứng
minh dự đoán EE được cải thiện với một máy gia tốc đơn bằng cách sử dụng
các phương pháp tiếp cận mơ hình phức tạp hơn bao gồm mạng thần kinh
nhân tạo, đợ trể phân bớ và mơ hình hố trục và các thuật tốn phân nhánh.
Để định lượng chính xác chi phí năng lượng hoạt đợng thể chất là nhân
tớ cơ bản trong nổ lực để hiểu được các rối loạn chuyển hóa năng lượng.
Actiheart là một thiết bị cảm biến kết hợp giám sát nhịp tim và chuyển động
[9].
Để kiểm tra các khía cạnh của đợ tin cậy và đợ chính xác của Actiheart
trong các thiết lập cơ học và trong quá trình đi bợ và chạy. 8 đơn vị của
Actiheart, đánh giá độ tin cậy kỹ thuật (hệ sớ biến thiên, CV) và tính hợp lý
của chuyển đợng với gia tốc sinusoid (0.1-20 m / s2) và cho nhịp tim (HR)
11
bằng mơ phỏng sóng xung R (25-250 beats per minutes (bpm)-số nhịp đập
trong một phút). Thống nhất giữa Actiheart và ECG được xác định trong thời
gian nghỉ ngơi và vận động máy chạy bộ (3.2-12.1 km / h). Đi bộ và chạy
cường độ (trong J/phút/kg) được đánh giá bằng phép đo nhiệt lượng gián tiếp
ở 11 người đàn ông và 9 phụ nữ (26-50 y, 20-29 kg / m2) và c mụ phng
t vn ụng, HR, v movement ỵHR bng hồi quy đa tuyến tính, điều chỉnh
cho tình dục.
Kết quả: CV trung bình tĩnh mạch lần lượt là 0,5 và 0,03% đối với
chuyển động và HR. CV liên tiếp tương tác các giá trị là 5,7 và 0,03% với
một số bằng chứng không liên quan đến chuyển động. Mối quan hệ tuyến
tính giữa chuyển đợng và gia tớc rất mạnh (R2 ¼0.99, Po0.001). Mơ phỏng
sóng R đã được phát hiện trong vòng 1 phút / phút từ 30 đến 250 phút / phút.
Các 95% giới hạn thống nhất giữa Actiheart và electrocardiogram (ECG),
đánh giá điện và cơ tim là 4,2 đến 4,3 bpm. Tương quan với cường đợ nhìn
chung cao (R240.84, Po0.001) nhưng cao nhất khi kết hợp HR và chuyển
động.
2.2. Tiền xử lý
Các dữ liệu thô (raw data) cần phải được tiền xử lý trước khi phân
đoạn và trích chọn đặc trưng. Tại bước tiền xử lý, các tín hiệu cảm biến được
đưa vào bộ lọc dải thông thấp (low-pass filter) để loại bỏ những tín hiệu có
cường đợ quá thấp và sau đó được đưa vào bộ lọc dải thơng cao (high-pass
filter) để loại bỏ những tín hiệu có cường độ quá cao mà được coi là nhiễu
(noise). Các ngưỡng lọc (threshold) cho từng loại cảm biến được xác định
bằng tay thông qua một thử nghiệm nhỏ (pilot). Những tín hiệu mất mát trong
q trình thu nhận dữ liệu sẽ được tái tạo lại bằng thuật tốn nợi suy tuyến
tính (linear interpolation).
Sau khi được tiền xử lý dữ liệu thô của cảm biến gia tốc được chia
trong các cửa sổ-tuần tự (sliding window). Một cách lựa chọn cửa sổ là dựa
vào việc nhận được dự định sẽ được thực hiện trong thời gian thực hay
không. Đối với các ứng dụng online, các cửa sổ được xác định song song với
tập dữ liệu, và đối với các ứng dụng offline các cửa sổ cần xác định trước khi
thu thập dữ liệu. Các phương pháp được sử dụng phổ biến nhất là cửa sổ
trượt, các tín hiệu được chia trong các cửa sổ khơng có khoảng trớng. Tuy
nhiên, kế hoạch này có nhược điểm là các kích thước cửa sổ được thiết lập
mợt cách tùy tiện, nó có thể dẫn đến việc tách dữ liệu trong một nơi không
thuận tiện, không ghi được “toàn bộ chu kỳ” của hoạt động cần được ghi
nhận. Kỹ thuật này có thể được sử dụng với sự chồng chéo (thông thường là
50%). Trong nghiên cứu này sẽ sử dụng cửa sổ với kích thước 100 mẫu
(tương ứng với 2 giây của dữ liệu) và chồng chéo 50%.
12
2.3 Trích chọn đặc trưng
2.3.1
Đặc trưng của cảm biến gia tốc
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
Standard deviation: 𝑆𝐷 = |√𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒|
𝑀𝑒𝑎𝑛 =
2
2
𝑥 +⋯+ 𝑥𝑛
Root Mean square: 𝑥𝑅𝑀𝑆 = √ 1
(2.1)
(2.2)
(2.3)
𝑛
Correlation: 𝜌𝑥,𝑦 =
2.3.2
𝑐𝑜𝑣 (𝑥,𝑦)
𝜎𝑥 𝜎𝑦
Đặc trưng của cảm biến gyroscope
Pitch = 𝑎𝑟𝑐𝑡𝑔 (
𝑥
√𝑦 2 +𝑧 2
Roll = 𝑎𝑟𝑐𝑡𝑔 (
𝑦
√𝑥 2 +𝑧 2
)
)
(2.4)
(2.5)
(2.6)
Zero crossing rate: điểm (time point) mà tín hiệu truyền qua mợt nửa
phạm vi tín hiệu.
2.4. Phân lớp dữ liệu
Sau khi trích chọn các đặc trưng để tạo thành các véc tơ đặc trưng làm
đầu vào của mơ hình phân loại. Chúng tơi lựa chọn 3 mơ hình học máy là:
bảng quyết định (Decision Table), mạng xác suất Bayes (Baysian Nets), và
rừng ngẫu nhiên (Random Forests) đã được cài đặt sẵn trong bộ thư viện
WEKA để thử nghiệm (chi tiết thử nghiệm được trình bày ở chương 3). Dưới
đây là trình bày tóm tắt về 3 thuật tốn học máy này.
2.4.1 bảng quyết định (Decision Table)
a) Bảng quyết định (Decision Table) là cơng cụ hỗ trợ ra quyết định
khi có nhiều lựa chọn được đưa ra và có nhiều điều kiện tác động lên lựa
chọn. Bảng quyết định được sử dụng phổ biến trong rất nhiều lĩnh vực như
phân tích kinh doanh, quản lý, chăm sóc khách hàng, thiết kế, kiểm tra các
hoạt đợng… bởi tính đơn giản và hiệu quả. Một bảng quyết định gồm 4 phần
như sau [18]:
Condition statements: Các điều kiện (nguyên nhân - Cause)
Condition entries: Các kết hợp (combination) giữa các Condition
statements còn gọi là các luật (rules)
Action statements: Các hành động (kết quả mong muốn- Effect)
Action entries: Mối liên hệ giữa Condition statements và Action
statements, cho biết hành động nào sẽ được thực hiện khi các điều kiện tương
ứng thỏa mãn.
b) Các bước để xây dựng Decision Table
13
Xác định tất cả các điều kiện; Xác định tất cả các hành đợng; Tính sớ
kết hợp giữa các điều kiện; Điền các kết hợp (rule) vào bảng; Loại bỏ các
kết không cần thiết (hợp xung đột hoặc dư thừa); Điền các hành động
(action) vào bảng tương ứng với các kết hợp
Nhiệm vụ đầu tiên là xác định một chức năng phù hợp hoặc hệ thớng
con mà có sự kết hợp của các yếu tố đầu vào. Nên chia chúng thành các tập
con và đối ứng với các tập con một lúc. Một khi ta đã xác định các điều kiện
cần phải được kết hợp, sau đó đặt chúng vào một bảng liệt kê tất cả các kết
hợp và đánh giá True và False cho mỗi điều kiện.
2.4.2 mạng xác suất Bayes (Baysian Nets)
Bayesian Belief Networks (BBNs) còn gọi là Bayesian Networks
(BNs) hay Belief Networks (BNs) được phát triển đầu tiên vào cuối những
năm 1970s ở Đại học Stanford [10]. BBNs là mơ hình đồ thị (graphical
model) thể hiện mới quan hệ nhân – quả (cause – effect) giữa các biến. BBNs
chủ yếu dựa trên lý thuyết xác suất có điều kiện hay còn gọi là lý thuyết
Bayes (Bayesian theory, hay Bayes’ theory). Chính vì thế, kỹ thuật này có tên
gọi là Bayesian Belief Networks (BBNs). BBNs cịn là mợt dạng của biểu đồ
ảnh hưởng (influence diagram), kết hợp hài hòa giữa lý thuyết xác suất và lý
thuyết đồ thị để giải quyết hai vấn đề quan trọng: tính khơng chắc chắn và
tính phức tạp, được ứng dụng rợng rãi trong tốn học và kỹ thuật [26].
Cấu trúc mạng BBNs
Hình 2.11 thể hiện cấu trúc của mạng BBNs tổng quát hơn, phức tạp
hơn với nhiều nút (nodes) và nhiều cạnh liên kết (edges) [26].
Hình 2.11: Cấu trúc mạng BBNs tổng quát
2.4.3 rừng ngẫu nhiên (Random forest)
Thuật toán RF - RandomForest là một thuật toán đặc biệt dựa trên kỹ
thuật lắp ghép, Về bản chất thuật toán RF được xây dựng dựa trên nền tảng
thuật toán phân lớp cây phân loại và hồi quy, sử dụng kỹ thuật có tên gọi
là “bagging” Thuật tốn này cho phép lựa chọn mợt nhóm nhỏ các tḥc tính
tại mỗi nút của cây để phân chia cho mức tiếp theo của cây phân lớp. Bằng
cách chia nhỏ khơng gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép
thuật tốn có thể phân loại mợt cách rất nhanh chóng cho dù khơng gian
tḥc tính rất lớn. Các tham số đầu vào của thuật toán khá đơn giản bao gồm
các tḥc tính được chọn trong mỗi lần phân chia. Giá trị mặc định của tham
14
số này là căn bậc hai của p với p là sớ lượng các tḥc tính. Sớ lượng cây
được tạo ra là không hạn chế và cũng không sử dụng bất kỳ kỹ thuật nào để
hạn chế mở rộng cây. Phải lựa chọn tham số cho biết số lượng cây sẽ được
sinh ra sao cho đảm bảo rằng sẽ mỗi mợt tḥc tính sẽ được kiểm tra mợt vài
lần. Thuật toán sử dụng kỹ thuật “out of bag” để xây dựng tập huấn luyện và
phương pháp kiểm tra trên nó
2.5. Kết chương
Công nghệ cảm biến nhận dạng hoạt động người hiện tại đã phát triển
một tốc độ khá nhanh, từ cảm biến cớ định cho đến cảm biến có thể mang
trên người ở các vị trí khác nhau. Đồng thời có thể sử dụng cảm biến kết hợp
gia tớc kế, con quay hồi chuyển, để cung cấp thông tin về hành vi của người
dùng, từ đó cho phép hệ thống tính tốn chủ đợng hỗ trợ người dùng trong
cơng việc.
Cảm biến gia tốc được dùng khá nhiều do khả năng đo được cả tần
suất lẫn cường độ của chuyển động, có thể kết hợp với mợt sớ cảm biến khác
như con quay hồi chuyển hay cảm biến âm thanh để tăng hiệu quả nhận dạng
hoạt động trong nhiều điều kiện môi trường khác nhau.
Điều quan trọng là trong chương này học viên tập trung nghiên cứu
tiếp cận về tiền xử lý và phân đoạn. Sau khi được tiền xử lý trích chọn các
đặc trưng, chúng tơi đã lựa chọn ba mơ hình học máy là bảng quyết định
(Decision Table), mạng xác suất Bayes (Baysian Nets), và rừng ngẫu nhiên
(Random Forests) đã được cài đặt sẵn trong bộ thư viện WEKA để thử
nghiệm.
Chương 3- THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1. Thu thập và gán nhãn dữ liệu
3.1.1. Công cụ thu dữ liệu
Sử dụng cảm biên gia tốc 3 chiều không dây WAX3 [14] và đồng hồ
thông minh Samsung Gear S2 [31] để thu dữ liệu.
Hình 3.1: Cảm biến gia tốc WAX3 và đồng hồ thông minh Gear S2
Thiết bị
WAX3
Samsung
Gear S2
Bảng 3.1. Vị trí, các giá trị cảm biến được đo
Vị trí
Dữ liệu thu
Dữ liệu được sử dụng
Đế giầy
Gia tốc
Gia tốc
chân phải
Cổ tay phải Gia tốc, gyroscope, Gia tốc, Gyroscope
nhịp tim, độ sáng
15
Trong phạm vi luận văn này, chúng tôi chỉ sử dụng dữ liệu gia tốc từ
WAX3, dữ liệu gia tốc và gyroscope từ đồng hồ Gear S2.
3.1.2. Tiến hành thu thập dữ liệu
Thực hiện thu dữ liệu trên 13 người có độ tuổi từ 19-25, thực hiện 8
hoạt động thể thao mỗi hành đợng có thời lượng thu từ 0-2 phút, tần số lấy
mẫu 50Hz. Các hoạt động cùng một nhóm được thu cùng trong một phiên
(chứa một file video và 2 file dữ liệu từ đồng hồ và cảm biến WAX3). 8 hoạt
động thể thao theo thứ tự bao gồm:
Duỗi tay; Đi dạo; Đi lên cầu thang; Nhảy; Không xác định; Đứng;
Chạy; Đi xuống cầu thang
Mỗi bản ghi trong dữ liệu thu được từ cảm biến WAX3 có:
ACCEL,yyyy-MM-dd HH:mm:ss.SSS, X_acc_shoes, Y_acc_shoes,
Z_acc_shoes
Trong đó X_acc_shoes, Y_acc_shoes, Z_acc_shoes lần lượt là giá trị
cảm biến gia tốc của 3 trục x, y và z. Ví dụ dữ liệu của cảm biến WAX3
ACCEL,2017-09-24 03:21:25.059,155,12191,0.0234375,0.0234375,0.65625
ACCEL,2017-09-24 03:21:25.079,155,12192,0.03125,0.0234375,0.6640625
ACCEL,2017-09-24 03:21:25.099,155,12193,0.03125,-0.03125,0.6640625
…
Mỗi bản ghi trong dữ liệu thu được từ đồng hồ có format:
yyyy-MM-dd;HH:mm:ss:SSS; X_acc_watch,Y_acc_watch,Z_acc_watch;
X_gyr_watch,Y_gyr_watch, Z_gyr_watch; un, un, un
Trong đó X_acc_watch, Y_acc_watch, Z_acc_watch, X_gyr_watch,
Y_gyr_watch, Z_gyr_watch lần lượt là giá trị cảm biến gia tốc và gyroscope
của đồng hồ, 3 dữ liệu cuối không sử dụng.
2017-9-24;10:21:16:204; 6.123232841491699, 6.252446174621582,
0.9475577473640442; -82.31999969482422, 16.239999771118164,
51.380001068115234; -1, -1; 17; 100
2017-9-24;10:21:16:215; 6.123232841491699, 6.252446174621582,
0.9475577473640442; -82.31999969482422, 16.239999771118164,
51.380001068115234; -1, -1; 17; 100
2017-9-24;10:21:16:226; 6.123232841491699, 6.252446174621582,
0.9475577473640442; -82.31999969482422, 16.239999771118164,
51.380001068115234; -1, -1; 17; 100
2017-9-24;10:21:16:237; 6.424728870391846, 6.2668023109436035,
0.5120640397071838; 7.28000020980835, -23.030000686645508,
16
16.450000762939453; -1, -1; 17; 100
2017-9-24;10:21:16:247; 6.424728870391846, 6.2668023109436035,
0.5120640397071838; 7.28000020980835, -23.030000686645508,
16.450000762939453; -1, -1; 17; 100
2017-9-24;10:21:16:258; 6.424728870391846, 6.2668023109436035,
0.5120640397071838; 7.28000020980835, -23.030000686645508,
16.450000762939453; -1, -1; 17; 100
…
3.2 Phân tích và đánh giá kết quả
Để đánh giá kết quả thực nghiệm ta sử dụng một số độ đo phổ biến
Precision (đợ chính xác), Recall (đợ phủ). Pricision và recall được tính sử
dụng ma trận lỗi.
Precision: trong các hành đợng được gán nhãn L thì có tỷ hoạt động
được gán nhãn đúng.
𝑡𝑝
(3.1)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑡𝑝 + 𝑓𝑝
Recall: trong các hành đợng có nhãn là L thì có tỷ lệ bao nhiêu hoạt
đợng gán nhãn đúng
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑡𝑝
𝑡𝑝+𝑓𝑛
(3.2)
Trong q trình thực nghiệm chọn ra dữ liệu thu thập dữ liệu để đánh
giá mơ hình được huấn lụn. Ta thu được kết quả:
TD
0,743
0,853
0,707
0,904
0,783
0,96
0,916
0,937
0,847
Precision
BN
0.95
0.879
0.419
0.636
0.693
0.793
0.931
0.918
0.835
RF
1
0.981
0.997
0.991
0.986
0.99
0.997
0.998
0.989
TD
0,972
0,931
0,593
0,641
0,613
0,795
0,918
0,794
0,846
Recall
BN
0.946
0.793
0.775
0.795
0.676
0.9
0.878
0.819
0.811
RF
1
0.995
0.958
0.991
0.959
1
0.994
0.989
0.989
a = hand stretching
b = walking
c = going up stairs
d = Jumping
e = unknown
f = standing
g = running
h = going down stairs
Trung bình
Ma trận nhầm lẫn (confusion matrix) khi phân loại 08 hoạt đợng với
các thuật tốn chúng ta có nhận xét như sau:
17
3.2.1. Ma trận nhầm lẫn (confusion matrix) với thuật toán Table
Decision
a
b
c
d
e
f
g
h
<-- classified as
563
9
0
0
5
0
1
1 | a = hand stretching
29 2742 73
3 88
0
5
6 | b = walking
17 129 224
1
2
0
0
5 | c = going up stairs
26
17 12 141
8 10
6
0 | d = Jumping
52 251
4
3 542
1 14 17 | e = unknown
14
0
2
7
0 318 59
0 | f = standing
39
8
2
1 11 22 938
1 | g = running
18
60
0
0 36
0
1 443 | h = going down stairs
Hình 3.2: Ma trận nhầm lẫn (confusion matrix) với thuật toán
DecisionTable
Thực nghiệm đối với 8 hoạt động thực hiện đánh giá chéo 10 lần theo
thuật toán được trình bày cụ thể như sau.
Ma trận nhầm lẫn với thuật toán Decision Table (DT) hàng ngang thứ
nhất cho thấy đợ chính xác của hành động duỗi tay – hand stretching (a) là
563 động tác tương ứng 97,20%, đối chiếu theo hàng cho thấy nhận dạng
hoạt đợng chỉ có ở 4 hành đợng nhầm lẫn 16 lần, bao gồm đi bộ - walking
(b) 09 lần, không xác định-unknown (e) nhầm lẫn 05 lần, chạy bộ -running
(g) nhầm lẫn 01 lần và đi xuống cầu thang – going down stairs (h) nhầm lẫn
01 lần.
Ở hàng ngang thứ hai đợ chính xác của hành đợng đi bợ (b) là 2742
trường hợp tương ứng 93,10%, trong lúc đó nhận dạng nhầm lẫn có ở 06
hành đợng là 201 lần bao gồm (a) 29 lần, hành động đi bộ lên cầu thang –
going up stairs (c) 73 lần, hành động nhảy -Jumping (d) là 03 lần, (e) là 88
lần, (g) là 05 lần, (h) là 06 lần.
Hàng ngang thứ ba, đối với hành động đi lên cầu thang (c) đợ chính
xác là 224 lần tương ứng 59,30%, có sự nhận dạng nhầm lẫn ở 04 hành động
là 154 lần, bao gồm (a) 17 lần, (b) 129 lần, (d) 01 lần, (e) 02 lần và (h) 05
lần.
Hàng ngang thứ tư, đợ chính xác của hành đợng nhãy (d) là 141 trường
hợp tương ứng 64,10%, nhận dạng nhầm lẫn có ở 06 hành động là 79 trường
hợp, bao gồm (a) 26 lần , (b) 17 lần, (c) 12 lần, (e) 08 lần, (f) 10 lần, (g) 06
lần.
Hàng ngang thứ năm, nhân dạng hành đợng khơng xác định (e) có đợ
chính xác 542 trường hợp tương ứng 61, 30% so sánh với sự nhận dạng nhầm
lẫn có ở 07 hành đợng là 342 trường hợp, bao gồm (a) 52 lần, (b) 251 lần, (c)
04 lần, (d) 03 lần, (f) 01 lần, (g) 14 lần, (h) 17 lần.
18
Hàng ngang thứ sáu nhận dạng hành động đứng tại chỗ (f) có đợ chính
xác 318 trường hợp tương ứng với 79,50%, trong khi đó nhận dạng sự nhầm
lẫn có ở 04 hành động là 82 trường hợp, bao gồm (a) 14 lần, (c) 02 lần, (d) 07
lần và (g) 59 lần.
Hàng ngang thứ bảy, nhận dạng hành động chạy bợ (g) có đợ chính xác
là 938 lần tương ứng với 91,80%, trong khi đó sự nhận dạng nhầm lẫn có ở
07 hành đợng 84 trường hợp, bao gồm (a) 39 lần, (b) 08 lần, (c) 02 lần, (d) 01
lần, (e) 11 lần, (f) 22 lần, (h) 01 lần.
Hàng ngang thứ tám, nhận dạng hành đợng (h) có đợ chính xác 443
trường hợp tương ứng 79%, trong khi đó sự nhận dạng nhầm lẫn có ở 04
hành đợng là 115 trường hợp, bao gồm (a) 18 lần, (b) 60 lần, (e) 36 lần và g
01 lần.
3.2.3. Ma trận nhầm lẫn (confusion matrix) với thuật toán Baysian
Nets
a
b
c
d
e
f
g
h
<-- classified as
548
6
0
1 22
1
0
1 | a = hand stretching
5 2337 363 26 187
0 14 14 | b = walking
13
52 293 12
2
0
1
5 | c = going up stairs
3
0 18 175
6 16
2
0 | d = Jumping
8 198
9 34 598
3 19 15 | e = unknown
0
0
1 10
3 360 26
0 | f = standing
0
13
5 14 14 73 897
6 | g = running
0
52 10
3 31
1
4 457 | h = going down stairs
Hình 3.3: Ma trận nhầm lẫn (confusion matrix) với thuật toán
Baysian Nets (BN)
Ma trận nhầm lẫn với thuật toán BN hàng ngang thứ nhất cho thấy
nhận dạng có độ chính xác của hành đợng (a) là 548 trường hợp tương ứng
với 94,60%, trong khi đó nhận dạng nhầm lẫn có ở 05 hành đợng là 51 lần,
bao gồm (b) 06 lần, d (01 lần), (e) 22 lần, (f) 01 lần, và (h) 01 lần.
Hàng ngang thứ hai nhận dạng hành đợng (b) có đợ chính xác 2337 lần
tương ứng 79,30%, trong khi đó nhận dạng nhầm lần có ở 06 hành động là
609 trường hợp, bao gồm (a) 05 lần, (c) 363 lần, (d) 26 lần, (e) 187 lần, (g)
14 lần và (h) 14 lần. Hàng ngang thứ ba, sự nhận dạng hành đợng (c) có đợ
chính xác 293 lần tương ứng với 77,50%, trong khi đó nhận dạng nhầm lẫn
có ở 06 hành đợng là 85 lần, bao gồm (a) 13 lần, (b) 52 lần, (d) 12 lần, (e) 02
lần, (g) 01 lần và (h) 05 lần.
Hàng ngang thứ tư, nhận dạng hành đợng (d) có đợ chính xác 175 lần
tương ứng với 79,5%, trong khi đó nhận dạng nhầm lẫn có ở 05 hành đợng
bao gồm (a) 03 lần, (c) 18 lần, (e) 06 lần, (f) 16 lần, và (g) 02 lần.
19
Hàng ngang thứ năm, nhận dạng hành động (e) có đợ chính xác 598
trường hợp tương ứng với 67,60%, trong khi đó nhận dạng nhầm lẫn có ở 07
hành đợng là 286 lần, bao gồm (a) 08 lần, (b) 198 lần, (c) 09 lần, (d) 34 lần,
(f) 03 lần, (g) 19 lần, và (h) 15 lần.
Hàng ngang thứ sáu, nhận dạng hành đợng (f) có đợ chính xác 360
trường hợp tương ứng với 60,00%, trong khi đó nhận dạng nhầm lẫn chỉ có ở
04 hành đợng là 40 lần, bao gồm (c) 01 lần, (d) 10 lần, (e) 03 lần, (g) 26 lần.
Hàng ngang thứ bảy, nhận dạng hành động (g) có đợ chính xác 897
trường hợp tương ứng với 87,80%, trong khi đó nhận dạng nhầm lẫn có ở 06
hành động là 125 lần, bao gồm (b) 13 lần, (c) 05 lần, (d) 14 lần, (e) 14 lần, (f)
73 lần, và (h) 06 lần.
Hàng ngang thứ tám, nhận dạng hành đợng (h) có đợ chính xác 457
trường hợp tương ứng với 81,9%, trong khi đó nhận dạng nhầm lẫn có ở 06
hành đợng là 101 lần, bao gồm (b) 52 lần, (c) 10 lần, (d) 03 lần, (e) 31 lần, (f)
01 lần, và (g) 04 lần.
3.2.4. Ma trận nhầm lẫn với thuật toán Random Forests
a
b
c
d
e
f
g
h
<-- classified as
579
0
0
0
0
0
0
0 | a = hand stretching
0 2932
1
0 12
0
0
1 | b = walking
0
16 362
0
0
0
0
0 | c = going up stairs
0
1
0 218
0
0
1
0 | d = Jumping
0
34
0
0 848
0
2
0 | e = unknown
0
0
0
0
0 400
0
0 | f = standing
0
0
0
2
0
4 1016
0 | g = running
0
6
0
0
0
0
0 552 | h = going down stairs
Hình 3.4: Ma trận nhầm lẫn (confusion matrix)
với thuật toán Random Forests
Ma trận nhầm lẫn (confusion matrix) với thuật toán Random Forests ở
hàng ngang thứ nhất cho thấy nhận dạng có đợ chính xác của hành đợng (a)
là 579 trường hợp tương ứng với 100,00%, khơng có nhận dạng nhầm lẫn
khơng có ở 07 hành đợng cịn lại.
Hàng ngang thứ hai cho thấy nhận dạng có đợ chính xác của hành động
(b) là 2932 trường hợp tương ứng với 99,50%, trong khi đó nhận dạng nhầm
lẫn chỉ có ở 03 hành động là 14 lần, bao gồm (c) 01 lần, (e) 12 lần và (h) 01
lần.
Hàng ngang thứ ba cho thấy nhận dạng có đợ chính xác của hành động
(c) là 362 trường hợp tương ứng 95,80%, trong khi đó nhận dạng nhầm lần
chỉ có ở hành đơng (b) là 16 lần.
20
Hàng ngang thứ tư cho thấy nhận dạng có độ chính xác của hành đợng
(d) là 218 trường hợp tương ứng 99,10%, trong khi đó nhận dạng nhầm lần
chỉ có ở (b) 01 lần và (g) 01 lần.
Hàng ngang thứ năm cho thấy nhận dạng có đợ chính xác của hành
động (e) là 848 trường hợp tương ứng 95,90%, trong khi đó nhận dạng nhầm
lần chỉ có ở 02 hành động là 36 lần, bao gồm (b) 34 lần, và (g) 02 lần.
Hàng ngang thứ sáu cho thấy nhận dạng có đợ chính xác của hành
đợng (f) là 400 trường hợp tương ứng 100,00%, trong khi đó không có nhận
dạng nhầm lần ở 07 hành đợng cịn lại.
Hàng ngang thứ bảy cho thấy nhận dạng có đợ chính xác của hành
động (g) là 1016 trường hợp tương ứng 99,40%, trong khi đó nhận dạng
nhầm lẫn chỉ có ở 02 hành động (d) 02 lần và (f) 04 lần.
Hàng ngang thứ tám cho thấy nhận dạng có đợ chính xác của hành
động (h) là 552 trường hợp tương ứng 98,90%, trong khi đó nhận dạng nhầm
lẫn chỉ có ở hành đợng (b) là 06 lần.
Từ kết quả trên ta có thể phát biểu rằng, đợ chính xác kiểm tra chéo 10
lần trên cả ba thuật toán đối với ma trận nhầm lẫn cho thấy thuật tốn
Random Forests nhận dạng có đợ chính xác cao nhất với 6907 trường hợp
trên tổng sớ 6987 trường hợp, tương ứng là 98,85%, nhận dạng nhầm lẫn chỉ
80 lần tương ứng 1,15%. Sự nhận dạng có đợ chính xác thứ hai là thuật tốn
Decision Table với 5911 trường hợp nhận dạng chính xác trên tổng sớ 6987
trường hợp tương ứng 84,60%, nhận dạng nhầm lẫn 1076 trường hợp, tương
ứng 15,40%. Nhận dạng có đợ chính xác thấp nhất trong 03 thuật toán là ma
trận thuật toán Bayes Nets chỉ nhận dạng chính xác 5665 trương hợp trên
tổng số là 6987 trường hợp tương ứng 81,08%, nhận dạng nhầm lẫn 1322 lần
tương ứng 18, 92%.
3.2.4. Đánh giá độ chính xác theo lớp
TD
0,743
0,853
0,707
0,904
0,783
0,96
0,916
0,937
0,847
Precision
Recall
BN
RF
TD
BN
RF
0.95
1
0,972
0.946
1
a = hand stretching
0.879
0.981
0,931
0.793
0.995 b = walking
0.419
0.997
0,593
0.775
0.958 c = going up stairs
0.636
0.991
0,641
0.795
0.991 d = Jumping
0.693
0.986
0,613
0.676
0.959 e = unknown
0.793
0.99
0,795
0.9
1
f = standing
0.931
0.997
0,918
0.878
0.994 g = running
0.918
0.998
0,794
0.819
0.989 h = going down stairs
0.835
0.989
0,846
0.811
0.989 Trung bình
Bảng 3.2. Độ chính xác theo lớp theo của 3 thuật toán thực nghiệm
21
Đợ chính xác theo lớp trong bảng 3.2 ở trên cho ta thấy ở thuật toán
DT tỷ lệ nhận dạng đợ chính xác của hành đợng (c) thấp hơn so với các hành
động khác chỉ ở mức 70,70% tiếp đến là hành động (a) 74,30% và (e)
78,30%. Hành động (b) ở mức trung bình là 85,30%. Nhận dạng hoạt đợng có
đợ chính xác cao nhất trong thuật toán này là hành động (f) 96,00%, (h)
93,70%, tiếp đến là (g) 92,00%, (d) 90,40%.
Đối với thuật toán BN nhận dạng hoạt động có đợ chính xác thấp nhất
là hành đợng (c) chỉ 41,90%, tiếp đến là (d) 63,60%. Nhận dạng hoạt đợng
chính xác ở mức đợ trung bình là hành đợng (e) 69,30%, (f) 79,30% và (b)
87,90%. Nhận dạng hoạt đợng chính xác ở mức độ cao là (a) 95,00%, (g)
93,10% và (h) 90,89%.
Đới với thuật toán RF đợ chính xác theo lớp cho thấy nhận dạng hoạt
đợng có đợ chính xác tương đối đồng đều và đều ở mức cao hơn so với mức
cao nhất của hai thuật toán DT và BN chúng đều ở mức 98,00%-100%. Rõ
ràng nhận dạng hoạt đợng có đợ chính xác cao nhất tḥc về thuật toán RF.
Bảng 3.2. cũng chỉ ra rằng, độ phủ của ba thuật toán DT; BN và RF có
đợ nhận dạng chính xác ở vùng thấp là hành đợng (c) lần lượt là 59,30%;
77,50% và 95,80% tương ứng. Hành động (e) 61,30%; 67,60% và 95,90%
tương ứng. Tiếp đến là hành động (d) là 64,10%; 79,59% và 99,10% tương
ứng. Nhận dạng hoạt đợng chính xác nằm ở vùng trung bình là hành động (h)
79,40%; 81,90%; 98,90% tương ứng. Nhận dạng hoạt động chính xác nằm ở
vùng cao là các hành đợng (g) 91,80%; 87,80% và 99,40% tương ứng; tiếp
đến là hành động (b) là 93,10%; 70,30% và 99,50% tương ứng và được nhận
dạng ở mức cao nhất là hành dộng (a) 97,20%; 94,60% và 100% tương ứng.
3.6. Kết chương III
Tổng hợp một sớ thuật tốn nghiên cứu và đề xuất phương pháp trích
xuất đặc trưng để giải quyết vấn đề xây dựng phương pháp nhận dạng hiệu
quả cho nhiều loại hoạt động người. Nghĩa là, phương pháp trich xuất đặc
trưng đề xuất tạo ra các đặc trưng phù hợp với nhiều kiểu dữ liệu, giúp nâng
cao đợ chính xác và đợ phủ của hệ thống nhận dạng hoạt động kể cả khi số
hoạt động tăng lên nhiều.
Giới thiệu bộ công cụ đo, phương pháp đo và các thuật toán liên quan
đến thực nghiệm.
Đưa vào thử nghiệm đánh giá tập dữ liệu theo thuật toán Random
Forests. Đây là phương pháp phân lớp và hồi quy dựa trên việc kết hợp kết
quả dự đoán của một số lượng lớn các cây quyết định.
Đưa vào thực nghiệm mợt sớ thuật tốn mới trong đánh giá đợ chính
xác, đợ phủ như bảng quyết định (Decision Table) là cơng cụ hỗ trợ ra quyết
định khi có nhiều lựa chọn được đưa ra và có nhiều điều kiện tác đợng lên lựa
chọn bởi tính đơn giản và hiệu quả của nó; đồng thời đưa vào thử nghiệm
22
đánh giá mơ hình rừng ngẫu nhiên-RF thời gian hạn chế 1,75 giây kết quả
cho thấy mơ hình RF là khả quan, có đợ chính xác và đợ phủ cao trên 98,8%
so với 2 đợ chính xác và đợ phủ của hai mơ hình cịn lại lần lượt là 84,7 và
84,6 (%) (DT) trong thời gian 1,56 giây; 83,50 và 81,11% (BN) trong thời
gian 0,57 giây.
Sai sớ bình phương gớc của các thuật toán DT; BN; RF lần lượt là
0,11; 0,21; 0,06 cho thấy mơ hình RF dạt sai sớ bình phương gớc là nhỏ nhất
tiếp đến là DT và thứ ba là BN.
Sai sớ tụt đới trung bình của DT; BN; RF lần lượt là 0,099; 0,048;
0,016 cũng cho thấy mơ hình RF dựa trên gia tớc kế có sai sớ tụt đới trung
bình là nhỏ nhất so với mơ hình BN và DT và hiệu quả hơn so với các mơ
hình nghiên cứu trước đây.
KẾT LUẬN
Nhận dạng hoạt động người là một chủ đề nghiên cứu được nhiều
người, nhiều lĩnh vực quan tâm như tính toán nhận biết ngữ cảnh, tính tốn
khắp nơi, tương tác người-máy, tính toán di động, ứng dụng trong nhận dạng
hoạt động trong lĩnh vực hàng không, công nghiệp, thể thao, y tế...
Luận án Thạc sĩ này học viên chỉ nghiên cứu một hướng tiếp cận về
chủ đề này, nhận dạng hoạt động sử dụng cảm biến mang trên người. Đó là
sử dụng cảm biên gia tốc 3 chiều không dây WAX3 [14], và đồng hồ thông
minh Samsung Gear S2 [31] để thu dữ liệu.
Dù có chung nhiều vấn đề về mặt phương pháp luận với các lĩnh vực
nghiên cứu khác như xử lý ngơn ngữ tự nhiên, nhận dạng tiếng nói, nhận
dạng hoạt đợng dựa trên cảm biến mang theo người địi hỏi các phương pháp
tính tốn chun biệt kể cả khi tận dụng các phương pháp hiện đang sử dụng
trong các lĩnh vực khác. Sở dĩ như vậy là bên cạnh những vấn đề chung của
bài tốn nhận dạng mẫu, có mợt sớ vấn đề mang tính đặc thù đới với nhận
dạng hoạt động sử dụng cảm biến mang trên người.
Sau khi nghiên cứu tiếp cận về tiền xử lý và phân đoạn, được tiền xử lý
trích chọn các đặc trưng, chúng tơi đã lựa chọn ba mơ hình học máy là bảng
quyết định (Decision Table), mạng xác suất Bayes (Baysian Nets), và rừng
ngẫu nhiên (Random Forests) đã được cài đặt sẵn trong bộ thư viện WEKA
để thử nghiệm, tập trung giải quyết hai vấn đề, đó là đảm bảo nhận dạng hoạt
đợng chính xác của 08 hoạt đợng địi hỏi thời gian bị hạn chế về tài nguyên;
Sử dụng phần mềm Weka để trích xuất và phân tích dữ liệu cho thấy:
Kết quả mơ hình rừng ngẫu nhiên-RF trong thời gian hạn chế 1,75 giây
cho thấy mơ hình RF là khả quan, có đợ chính xác và đợ phủ cao trên 98,8%
so với 2 đợ chính xác và đợ phủ của hai mơ hình cịn lại lần lượt là 84,7 và
84,6 (%) (DT) trong thời gian 1,56 giây; 83,50 và 81,11% (BN) trong thời
gian 0,57 giây.
23
Sai sớ bình phương gớc của các thuật tốn DT; BN; RF lần lượt là
0,11; 0,21; 0,06 cho thấy mô hình RF dạt sai sớ bình phương gớc là nhỏ nhất
tiếp đến là DT và thứ ba là BN.
Sai số tụt đới trung bình của DT; BN; RF lần lượt là 0,099; 0,048;
0,016 cũng cho thấy mơ hình RF dựa trên gia tớc kế có sai sớ tụt đới trung
bình là nhỏ nhất so với mơ hình BN và DT và hiệu quả hơn so với các mơ
hình nghiên cứu trước đây.
Hệ thớng rừng ngẫu nhiên dễ sử dụng, có bợ phần mềm Weka hỗ trợ
có thể tính tốn nhanh chóng cung cấp dữ liệu người dùng, tuy nhiên thời
gian dài hơn./.