Điều khiển chuyển động của cánh tay robot 6 DOF bằng giọng nói dựa trên phương pháp học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 7 trang )

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

ĐIỀU KHIỂN CHUYỂN ĐỘNG CỦA CÁNH
TAY ROBOT 6 DOF BẰNG GIỌNG NÓI
DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU
Dương Xn Biên
Phịng Thí nghiệm Cơng nghệ Tiên tiến
Trung tâm Công nghệ, Học viện Kỹ thuật Quân sự
Email:
Tóm tắt - Bài báo này trình bày bài toán điều khiển
chuyển động của cánh tay robot 6 bậc tự do bằng giọng
nói dựa trên phương pháp học sâu (Deep Learning - DL).
Thuật tốn nhận dạng giọng nói được thực hiện dựa trên
việc chuyển đổi dữ liệu âm thanh thành văn bản thơng
qua mơ hình DL1. Thư viện dữ liệu học của mạng DL1
được xây dựng trên cơ sở ngôn ngữ tiếng Việt và không
phụ thuộc vào việc kết nối Internet. Mơ hình học máy
(Machine Learning - ML) được xây dựng để trích xuất
thơng tin điều khiển chuyển động của cánh tay robot từ
văn bản đầu ra của mô hình DL1. Bộ dữ liệu vị trí
chuyển động khả thi của robot trong không gian làm việc
được xây dựng dựa trên việc mơ hình hóa động học cánh
tay robot 6DOF với hệ phương trình động học được xây
dựng. Các kết quả mơ hình hóa động học này và kết quả
đầu ra của mơ hình ML được sử dụng để tính tốn tín
hiệu điều khiển chuyển động cho cánh tay robot thơng
qua mơ hình DL2. Kết quả của nghiên cứu này có ý
nghĩa quan trọng trong việc ứng dụng thuật tốn điều
khiển bằng giọng nói cho các hệ thống robot và các hệ
thống tự động khác mà không yêu cầu phải kết nối mạng
Internet. Mặt khác, hệ điều khiển bằng giọng nói có thể

kết hợp chặt chẽ với kỹ thuật thị giác máy tính để nâng
cao khả năng của hệ điều khiển. Điều này giúp robot
thông minh hơn, linh hoạt hơn và có thể mở rộng cho
nhiều ứng dụng khác nhau.

điều khiển các hệ thống phức tạp. Ngược lại, các hệ
điều khiển thông minh cho phép robot thực hiện nhiệm
vụ với độ chính xác cao nhưng cấu trúc hệ điều khiển
phức tạp, chi phí cao.
Xu hướng thiết kế hệ điều khiển trong những năm
gần đây hướng tới hệ điều khiển ngày càng thông
minh, đáp ứng nhanh và linh hoạt trong thời gian thực
với các yêu cầu điều khiển thay đổi liên tục, tương tác
với con người, độ chính xác cao. Robot được điều
khiển bằng giọng nói [11-21] thơng qua mơ đun nhận
dạng giọng nói thơng minh (sử dụng các mơ hình trí
tuệ nhân tạo như Machine Learning và Deep Learning),
hoặc được điều khiển thơng qua kỹ thuật thị giác máy
tính hiện đại cũng là các giải pháp hiệu quả và có thể
đáp ứng nhu cầu thực tế nêu trên.
Hệ điều khiển bằng giọng nói cho robot được ứng
dụng trong các lĩnh vực khác nhau như công nghiệp
sản xuất [13], sinh hoạt [17], y tế [19]. Điều khiển
robot bằng giọng nói dựa trên thuật tốn trí tuệ nhân
tạo đã được xem xét trong [11]. Thiết kế tai thông minh
cho robot nhằm xác định hướng âm thanh phát ra được
thưc hiện trong [12]. Trong sản xuất cơng nghiệp, hệ
thống điều khiển giọng nói được đề xuất thiết kế phục
vụ điều khiển các máy gia cơng và robot [13]. Robot
phục vụ có thể tương tác với con người thông qua nhận

dạng cử chỉ và phản hồi bằng giọng nói được giới thiệu
trong [14], [15], [16]. Đề xuất thiết kế hệ điều khiển
giọng nói cho robot phục vụ trong nhà (Household
Robots) được thể hiện trong [17]. Kỹ thuật nhận dạng
giới tính thơng qua giọng nói dựa trên thuật toán học
sâu được đề xuất trong [18]. Vấn đề thiết kế hệ điều
khiển bằng giọng nói cho cánh tay giả robot (prosthetic
robot arm) phục vụ trong ngành y tế được xem xét
trong [19]. Robot được điều khiển bằng giọng nói
thơng qua giao tiếp ánh sáng nhìn thấy được trình bày
trong [20]. Robot tự hành được điều khiển bằng giọng
nói thơng qua cơng cụ ứng dụng Google Assistant trên
cơ sở kỹ thuật IoT được thể hiện trong [21].
Bài báo này tập trung vào việc xây dựng hệ điều
khiển chuyển động của cánh tay robot 6DOF bằng
giọng nói (tiếng Việt) mà khơng u cầu kết nối mạng

Từ khóa - nhận dạng giọng nói, học sâu, học máy,
điều khiển, cánh tay robot.

I.

ĐẶT VẤN ĐỀ

Trong kỹ thuật robot, bài toán điều khiển ln là
một trong các bài tốn quan trọng nhất đảm bảo robot
có thể thực hiện nhiệm vụ một cách chính xác nhất. Có
rất nhiều hệ điều khiển robot được phát triển từ trước
đến nay, từ những hệ điều khiển cổ điển như PID [1],
Sliding Mode Control [2], Backstepping [3], Robust

control [4], Fuzzy logic [5], đến những thuật toán điều
khiển thông minh như Adaptive control [6], Neural
Network [7], Machine Learning [8], Reinforcement
Learning [9], Deep Learning [10]. Mỗi thuật tốn đều
có những ưu điểm và hạn chế nhất định. Nếu như các
hệ điều khiển truyền thống được thiết kế khá đơn giản,
chi phí thấp thì khó đảm bảo độ chính xác cao trong

ISBN 978-604-80-5958-3

299

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

Internet. Giọng nói được nhận dạng dựa trên thuật toán
học sâu (DL1). Dựa trên tín hiệu nhận được từ dữ liệu
đầu ra của mơ hình DL1, mơ hình ML được xây dựng
để trích xuất thơng tin điều khiển và mã hóa chúng. Mơ
hình DL2 được thiết kế để tính tốn giá trị tín hiệu điều
khiển 6 động cơ truyền động, tương ứng với chuyển
động của 6 khớp của robot. Các mơ hình DL1, ML,
DL2 được xây dựng và kiểm tra bằng ngôn ngữ
PYTHON và các thư viện hỗ trợ. Mơ hình robot 6 bậc
tự do được chế tạo thực tế để thực nghiệm các mơ hình.
II.

B. Tiền xử lý giọng nói
Vấn đề này được giải quyết thông qua các bước: lọc
nhiễu, tách từ, chuyển đổi dao động âm thanh thành

phổ tần số, biến đổi phổ tần số thành dữ liệu đầu vào
cho mạng Nơ ron.
Bài tốn lọc nhiễu được xử lý thơng qua một số
phương pháp như giảm nhiễu dựa trên thiết kế phần
cứng của micro thu âm, lọc nhiễu bằng các phần tử
điện của mạch thu âm, lọc nhiễu bằng chương trình
hiệu chỉnh. Trong phạm vi bài báo và điều kiện thực tế,
phương án sử dụng đầu thu âm để giảm nhiễu được sử
dụng.
Mỗi câu nói của con người gồm nhiều từ gộp lại.
Việc đầu tiên là cần phân tích để tách các từ trong câu
nói. Trong thử nghiệm ban đầu thuật tốn, câu nói:
“Bốn, năm, sáu” gồm ba từ “bốn”, “năm”, “sáu” được
dùng để làm ví dụ minh họa. Ví dụ này sẽ được dùng
xuyên suốt trong toàn bộ phần 2. Câu nói thơng qua
Micro và được ghi âm nhờ ứng dụng thơng thường
Void Recorder có sẵn trên hệ điều hành Windows
Microsoft. File âm thanh được đọc và ghi dữ liệu ngay
trên thư viện Scipy trong phần mềm lập trình
PYTHON. Giá trị biên độ dao động âm được chuẩn
hóa nhằm chuẩn hóa dữ liệu đầu vào cho các bước sau,
đảm bảo hội tụ nhanh, tránh hiện tượng giá trị hàm lỗi
quá lớn dẫn tới không cập nhật thông số mạng và tránh
lỗi khơng hội tụ trong mơ hình DL. Theo đó, đồ thị dao
động âm đã được chuẩn hóa của câu nói trên được thể
hiện trên hình 3. Dễ thấy, các vùng dao động âm được
phân biệt rõ ràng khi chưa nói và khi nói. 3 vùng có
biên độ lớn vượt trội chính là 3 từ được nói, các vùng
khác có biên độ nhỏ và khá đều nhau là khoảng ngắt
giữa các từ, mô tả tạp âm từ môi trường xung quanh

(có thể coi là tín hiệu nhiễu).

NỘI DUNG NGHIÊN CỨU

A. Bài tốn điều khiển cánh tay robot bằng giọng nói
Cánh tay robot nhận lệnh bằng giọng nói từ người
điều khiển bằng modul nhận dạng giọng nói. Sau đó, hệ
điều khiển tự động phân tích, tính tốn và đưa ra tín
hiệu điều khiển các động cơ tại các khớp, robot thực
hiện chuyển động theo yêu cầu (hình 1).

Hình 1. Sơ đồ bài tốn điều khiển cánh tay robot bằng giọng
nói

Cụ thể, module nhận dạng chuyển đổi từ giọng nói
của con người có chứa thơng tin điều khiển thành văn
bản dưới định dạng văn bản trong chương trình. Các
thơng tin điều khiển robot có trong giọng nói bao gồm
các thơng tin như: hướng chuyển động của robot (quay
bên trái hay quay bên phải), hành động robot cần thực
hiện (hành động gắp hoặc thả), xác định vật thể tiếp
nhận hành động (bánh xe, khay chứa, thùng, hộp, …),
đặc điểm phân biệt các loại vật thể (màu sắc, hình
dạng, kích thước, …).

Hình 3. Đồ thị biên độ dao động âm đã được chuẩn hóa.

Căn cứ vào sự thay đổi của biên độ âm theo thời
gian, sử dụng phương pháp Gradient [24] xác định sự
thay đổi của biên độ dao động âm để tách các từ. Sau

khi tách các từ trong câu, dao động âm chúng sẽ được
phân tích năng lượng âm trong miền tần số thông qua
biến đổi Fourier. Giá trị năng lượng âm này sẽ được sử
dụng để chuyển đổi thành Input Tensor cho mơ hình
DL. Âm thanh từ giọng nói con người thực chất là tổng
hợp của rất nhiều tín hiệu hàm lượng giác với các tần
số khác nhau. Hàm dao động âm f (t ) theo thời gian có
thể mơ tả thơng qua phép biến đổi Fourier sau đây:

Hình 2. Các bước thực hiện bài tốn điều khiển robot bằng
giọng nói

Để giải quyết được mục tiêu điều khiển robot, ta
xác định được đầu vào là giọng nói, đầu ra là tín hiệu
điều khiển các động cơ truyền động. Các bước thực
hiện bài tốn điều khiển robot bằng giọng nói được mơ
tả như hình 2.

ISBN 978-604-80-5958-3

300

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)


1
f (t ) = a 0 +  [an cos(n t)+bn sin(n t)]
2
n =1

phi tuyến được sử dụng. Một số hàm phi tuyến có thể
sử dụng như Sigmoid, Tanh, Relu [27]. Lớp đầu ra
được sử dụng hàm kích hoạt Softmax [27] để tính phân
phối xác suất trên các phân lớp. Để huấn luyện mạng
DL, các tiêu chí để xác định mơ hình học đúng hay sai
và làm sao để nó có thể học được cần được nêu rõ. Vì
vậy, phương pháp tính lỗi Sparse Categorical
Crossentropy (SCC) được sử dụng [28]. Trong ví dụ, 3
nhãn giọng nói cần phân lớp là ‘bốn’, ‘năm’, ‘sáu’.
Như vậy, đầu ra là một Tensor gồm 3 phần tử, mỗi
phần tử là đại diễn xác suất đúng của mỗi phân lớp
(hình 6a). Giả sử, kết quả đầu ra mà mơ hình cần học
để đạt tới là Tensor (1) (chính là ơ thứ 2 trên hình 6c)
và kết quả thực tế của mơ hình được mơ tả như hình 6b
(ơ thứ 2 có xác suất 0.5 là lớn nhất). Thực chất, hàm
SCC tính lỗi như sau: Tensor (1) có nghĩa là index (chỉ
số) số 1 của Tensor đầu ra có xác suất bằng 1 cịn xác
suất của các vị trí khác bằng 0. Nó tương đương với
Tensor ([0,1,0]) (hình 6c)

(1)

Trong đó, a 0 là biên độ âm cơ bản, a n và bn là các

hằng số Fourier, n là hệ số tỉ lệ tần số,  là vận tốc
góc cơ bản của dao động âm. Từ Eq. (1), giá trị năng
lượng âm trong miền tần số có thể được xác định [20].
Hình 4 mơ tả năng lượng âm trong miền tần số của từ
“Quay” (tiếng Việt).

Hình 4. Đồ thị năng lượng âm của từ trong miền tần số

Năng lượng âm là đặc trưng cơ bản của âm thanh.
Giá trị này được dùng để chuyển đổi thành các dữ liệu
đầu vào cho mơ hình DL. Xem xét giá trị năng lượng
của âm tại mỗi tần số cách nhau một khoảng 1(Hz ) ,

Hình 6. (a) Tensor đầu ra; (b) xác suất trong mỗi phân lớp
Tensor đầu ra; (c) Xác suất mong đợi của mỗi phân lớp

Hàm tối ưu ADAM [29] được sử dụng để cập nhật
mạng DL. Hàm này là sự kế thừa, kết hợp của hai
phương pháp Momentum với RMSprop có tốc độ học
(Learning rate) thay đổi theo thời gian và có thể tìm ra
giá trị tối ưu tồn cục (Global Minimum) thay vì giá trị
tối ưu cục bộ (Local Minimum).
Để đánh giá mơ hình DL đã xây dựng, mạng được
huấn luyện với số lượng 100 lần và kiểm tra kết quả
huấn luyện dựa trên việc so sánh đồ thị năng lượng âm
giữa giá trị mong muốn và giá trị thực tế. Mơ hình DL
cho ví dụ minh họa ở trên được xây dựng thông qua
thư viện xây dựng kiến trúc NN Tensorflow trong
PYTHON (hình 7)

giới hạn tần số trong khoảng từ 0  2(KHz ) . Tensor
input là véc tơ giá trị năng lượng âm theo thứ tự tăng
dần của tần số (hình 5a). Tensor input sau khi được tạo
thường mang giá trị rất lớn. Để mơ hình DL có thể học
được tốt hơn, mức dữ liệu trong các Tensor input cần

được chuẩn hóa bằng cách chia tất cả các thành phần
cho một giá trị nhất định nào đó lớn hơn giá trị lớn nhất
của năng lượng thu được. Tensor input cho mơ hình
DL sau khi chuẩn hóa có dạng như hình 5b.

Hình 5. Input Tensor một chiều trước và sau chuẩn hóa ứng
với tần số tăng dần

C. Xây dựng mơ hình DL
Sau khi xây dựng được các Tensor một chiều như
đã trình bày ở trên, mơ hình DL được xây dựng với
nhiều đầu vào và nhiều đầu ra [26]. Số lượng các đầu
vào phụ thuộc vào số lượng các tham số trong véc tơ
Tensor input. Lớp đầu ra của mạng DL là các nút mạng
khác nhau và mỗi nút này biểu thị cho một từ nhất
định. Các từ đầu ra có xác suất xuất hiện nằm trong
khoảng [0,1]. Từ nào có xác suất cao nhất sẽ được chọn
là kết quả của q trình chuyển từ giọng nói sang văn
bản.
Các lớp ẩn bên trong mơ hình DL có nhiệm vụ xác
định giá trị xác suất xuất hiện của các từ để cho ra kết
quả đầu ra chính xác. Các phần tử bên trong các Tensor
đầu vào và đầu ra là các đại lượng vơ hướng và có giá
trị liên tục nằm trong khoảng [0,1] nên hàm kích hoạt

ISBN 978-604-80-5958-3

Hình 7. Mơ hình DL được xây dựng bằng thư viện
Tensorflow

Hình 8, 9 và 10 thể hiện năng lượng âm giữa huấn
luyện và thực tế với các từ “Bốn”, “Năm”, “Sáu”.

Hình 8. Đồ thị năng lượng âm trong miền tần số của “Bốn”

301

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

xuất sẽ được mã hóa dưới dạng số và truyền tới mạch
điều khiển robot thơng qua giao tiếp SERIAL.
E. Tính tốn thơng số điều khiển robot sử dụng mạng
DL
Dữ liệu cho mơ hình mạng DL tính tốn thơng số là
các bộ số tọa độ trong khơng gian và bộ các thơng số
góc quay tương ứng đã được thu thập và được đưa vào
mạng DL huấn luyện nhiều lần cho tới khi mơ hình có
thể đưa ra các tín hiệu điều khiển cho robot chính xác,
đáp ứng được u cầu của bài tốn. Sau khi đã huấn
luyện và đánh giá khả năng đáp ứng tốt, mơ hình DL
được đưa vào sử dụng làm mơ hình dự đốn các giá trị
góc quay của robot với các vị trí của vật thể trong
khơng gian làm việc của robot. Hình 12 mơ tả tồn bộ
q trình nêu trên. Mơ hình DL được xây dựng với đầu
vào là tín hiệu u cầu nhận được sau khi vecto hóa
văn bản và dữ liệu vị trí khả thi của robot trong khơng
gian làm việc. Đầu ra của mơ hình là giá trị góc khớp
tương ứng.

Hình 9. Đồ thị năng lượng âm trong miền tần số của “Năm”

Hình 10. Đồ thị năng lượng âm trong miền tần số của “Sáu”

Kết quả đánh giá giữa Tensor đầu ra dự đoán và
Tensor đầu ra mong đợi được thể hiện trên hình 11.
Với từ “Bốn”, xác suất cùng rơi vào vị trí số 1 là cao
nhất, từ “Năm” có xác suất cùng rơi vào vị trí số 2 là
cao nhất, từ “Sáu” có xác suất cùng rơi cao nhất vào vị
trí số 3.

Hình 12. Q trình xây dựng mạng DL

III.

A. Mơ hình thực nghiệm
Mơ hình mơ phỏng cánh tay robot được thể hiện
trên hình 13. Sơ đồ động học của cánh tay robot 6DOF
được mơ tả trên hình 14. Hệ tọa độ cố định là
(OXYZ )0 . Các hệ tọa độ địa phương

Hình 11. Kết quả so sánh Tensor đầu ra

Như vậy, mạng DL được xây dựng hồn tồn có thể
đảm bảo nhiệm vụ nhận dạng giọng nói, chuyển đổi dữ
liệu nhận dạng sang văn bản có chứa thơng tin đặc
trưng. Giọng nói sau khi được tách thành những từ đơn
và được mơ hình mạng DL phân lớp. Các từ này được
ghép lại với nhau để thành một câu duy nhất theo thời
gian.

(OXYZ )i ,(i = 1  6) được đặt tương ứng trên các

khâu. Các biến khớp i được ký hiệu là q i . Cánh tay
robot 6DOF thực được mô tả trên hình 15.

D. Trích xuất thơng tin điều khiển từ văn bản hồn
chỉnh sử dụng mơ hình ML, mã hóa thơng tin
Dữ liệu đầu vào cho mơ hình là đoạn văn bản hồn
chỉnh sau module ghép từ, đầu ra của mơ hình là các
thơng tin điều khiển robot như hướng chuyển động,
dạng hành động (gắp, thả, ...), tên vật thể tiếp nhận
hành động, đặc điểm nhận dạng vật thể (màu sắc đỏ,
vàng, xanh, ...). Để thực hiện được mục đích trên, một
mơ hình ML được xây dựng để tách các từ, cụm từ
tiếng việt có nghĩa. Trong đó, thuật tốn TF-IDF được
sử dụng để trích các đặc trưng của văn bản, thuật toán
Naive Bayes được dùng để thực hiện phân lớp các từ,
cụm từ đặc trưng của văn bản thuộc các lớp thơng tin
điều khiển.
Mơ hình ML được xây dựng bằng ngơn ngữ
PYTHON kết hợp sử dụng các thư viện tốn học
Sklearn, Pyvi. Các trường thơng tin sau khi được trích

ISBN 978-604-80-5958-3

KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN

Hình 13. Mơ hình
3D của robot

Hình 14. Mơ hình
động học

Hình 15. Mơ hình
Robot thực

Các thông số động học của cánh tay robot 6DOF
được xác định theo quy tắc DH [25] và được thể hiện
trên Bảng 1. Các ma trận chuyển đổi thuần nhất
Hi ,(i = 1  6) trên các khâu dễ dàng được xác định
[25]. Vị trí và hướng của khâu 6 so với hệ tọa độ cố
định được thể hiện qua ma trận chuyển đổi thuần nhất
D 6 . Ma trận này được tính tốn như sau:

302

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

D6 = H1H2 H3 H4 H5 H6

Mạng DL nhận dạng câu lệnh bằng giọng nói được
thiết kế gồm ba lớp ẩn với hàm kích hoạt Relu. Mỗi lớp
có số nút tương ứng là 150, 100 và 50 nút. Số lượng
đầu ra là 18. Số đầu ra này đại diện cho 18 từ thông
dụng trong khn khổ câu lệnh điều khiển bằng giọng
nói và được chia làm 5 nhóm (Bảng 2).

(2)

Định nghĩa q = [q1 q 2 q 3 q 4 q 5 q 6 ]T là véc
T

tơ tọa độ suy rộng và x = x E yE z  là véc tơ vị

E 
trí của điểm thao tác cuối. Hệ phương trình động học
được xác định:

x = f (q)
TABLE I.

CÁC THÔNG SỐ DH

i

di

ai

i

Link 1

q1

d0 + d1

0



Link 2

q2

0

a2

Link 3

q3

d3

0



0

−

q4

Nhóm hành
động
Quay, chạy,

gắp, thả, lấy,
qua, sang

(3)

Parameters

Link 4

TABLE II.

d4

0
2

Link 5

q5

0

a5

Link 6

q6

0

0

0

Nhóm
hướng

Nhóm
màu sắc

Trái, phải

Xanh, đỏ,
vàng

Nhóm đối
tượng
Khay,
hộp, bánh
xe

Nhóm
khác
bên,
màu

C. Kết quả xây dựng mơ hình DL điều khiển robot
Thơng số mạng DL điều khiển robot được mơ tả
trong hình 32 với 5 đầu ra tương ứng là 5 góc quay của
các khớp robot. Mạng bao gồm 9 lớp ẩn với hàm kích

hoạt Relu. Số nút mỗi lớp tương ứng trên hình 17.

2

−

PHÂN LOẠI CÁC TỪ

2
2

Các thơng số hình học cơ bản của robot:
d0 = 57mm, d1 = 36mm, a2 = 120mm,
.
d3 = 90mm, d4 = 30mm, a 5 = 38mm

Hình 17. Mơ hình mạng DL điều khiển robot

Giới hạn các biến khớp: −900  qi  900 . Các

vị

Kiểm tra trên dữ liệu kiểm tra với đầu vào là véc tơ
trí điểm thao tác cuối của robot là
T

động cơ truyền động là Servo MG995, mạch Arduino
Nano, Camera Logitech B525-720p, Laptop Dell
Precision M680, Microphone Razer Seiren Mini.

x = 0 20 0  (mm ) , đầu ra của dữ liệu kiểm tra


ứng
với
giá
trị
biến
khớp

B. Kết quả xử lý lệnh điều khiển robot bằng giọng
nói
Lệnh giọng nói trong bài tốn điều khiển robot là:
“Quay bên phải, lấy bánh xe màu vàng”. Kết quả dao
động âm được thu và mơ tả trên hình 16. Năng lượng
âm trong miền tần số của các từ cũng được tách ra
tương tự như đã được trình ở Phần 2.

q real = 90.17 50.65 104.74 89.19 79.69  (deg)


. Như vậy, độ chính xác đạt 98,67% trên tập dữ liệu
học. Kết quả học và kiểm tra lỗi tín hiệu điều khiển
động cơ được thể hiện trên hình 18.

T

q = 90 50 105 90 79  (deg) . Giá trị góc khớp



thu
được
từ
mơ
hình
là
véc
tơ
T

Hình 18. Kết quả huấn luyện và dự đốn trên tập dữ liệu kiểm
tra

Mơ hình thực tế được thiết kế, chế tạo và thể hiện
trong hình 19. Cần chú ý rằng, trong mơ hình trên có sự
tham gia của modul nhận dạng bằng hình ảnh (thị giác
máy tính) [22], [23]. Chỉ khi hệ điều khiển nhận dạng
được đối tượng cần tác động (bánh xe màu vàng) thì

Hình 16. Đồ thị biên độ dao động âm đã chuẩn hóa

ISBN 978-604-80-5958-3

303

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

hành động “gắp” mới được thực hiện. Tuy nhiên,
modul này không được nhắc đến trong phạm vi bài viết

này.

chưa đề cập đến modul thị giác máy tính. Kết quả
nghiên cứu có ý nghĩa quan trọng trong việc nghiên
cứu, phát triển nâng cao các thuật tốn thơng minh kết
hợp giữa nhận dạng giọng nói, thị giác máy tính và tích
hợp các hệ thống IoT. Trong thực tế, nghiên cứu này có
thể làm nền tảng để phát triển các ứng dụng cho nhiều
loại robot khác nhau (robot nối tiếp, robot song song,
robot lai, mobile robot) phục vụ sản xuất công nghiệp
(robot hàn, robot in 3D, robot gia công cắt gọt), quân
sự, y tế, các ngành dịch vụ, sinh hoạt gia đình (robot
phẫu thuật, robot đàn hồi, robot mềm, robot phỏng sinh
học, uav, robot dưới nước, robot phục vụ trong gia
đình, nhà hàng, robot giống người).

Hình 19. Mơ hình hệ thống thực nghiệm

TÀI LIỆU THAM KHẢO
[1]

Giá trị góc khớp để điều khiển robot đến vị trí có vật
thể (bánh xe màu vàng) được thể hiện trên hình 20.

[2]

[3]

[4]

[5]

[6]

Hình 20. Giá trị các biến khớp nhận được theo lệnh điều
khiển bằng giọng nói
[7]

IV.

KẾT LUẬN

Hệ điều khiển bằng giọng nói cho cánh tay robot
6DOF đã được xây dựng và kiểm chứng bằng mơ hình
thực nghiệm. Theo đó, module nhận dạng giọng nói
thơng qua xây dựng mơ hình mạng DL1 với thư viện
dữ liệu bằng tiếng Việt đã được hồn thành. Dao động
âm thanh của giọng nói đã được chuyển đổi thành văn
bản. Mơ hình ML được xây dựng để trích xuất thơng
tin điều khiển từ văn bản hồn chỉnh và mã hóa chúng.
Việc tính tốn tín hiệu điều khiển truyền tới các động
cơ truyền động của robot được thực hiện bởi mơ hình
DL2. Hơn nữa, kết quả của việc mơ hình hóa động học
là tập dữ liệu vị trí chuyển động khả thi của cánh tay
robot trong khơng gian làm viêc được sử dụng làm thư
viện huấn luyện của mơ hình DL2. Hệ thống điều khiển
bằng giọng nói cho cánh tay robot hồn tồn khơng phụ
thuộc vào việc kết nối mạng Internet. Kết quả của các
thực nghiệm trên mơ hình thực tế cho thấy tính đúng
đắn và tin cậy của các thuật toán. Tuy nhiên, nghiên

cứu này vẫn chưa xem xét việc đánh giá độ chính xác
chuyển động của cánh tay robot do sai số chế tạo, tốc
độ xử lý của hệ thống điều khiển trong thời gian thực,

ISBN 978-604-80-5958-3

[8]

[9]

[10]

[11]

[12]

[13]

304

S. Zhen, Z. Zhao, X. Liu, F. Chen, H. Zhao, Y. Chen, “A
Novel Practical Robust Control Inheriting PID for SCARA
Robot”, IEEE Access, 8, pp. 227409 - 227419, 2020.
D. Nicolis, F. Allevi, P. Rocco, “Operational Space Model
Predictive Sliding Mode Control for Redundant
Manipulators”, IEEE Transaction on Robotics, pp. 1-8, 2020.
C. Pezzato, R. Ferrari, C. H. Corbato, “A Novel Adaptive
Controller for Robot Manipulators, Based on Active
Inference”, IEEE Robotics and Automation Letters, 5 (2), pp.
2973-2980, 2020.

M. T. Ziabari, A. R. Sahab, V. Afsar, “Stability in A Flexible
Manipulator Using Optimal Nonlinear Controller”, Journal of
Basic and Applied Scientific Research, 3(2), pp. 323-329,
2013.
T. Zebin, M. S. Alam, “Dynamic modeling and fuzzy logic
control of a two-link flexible manipulator using genetic
optimization techniques”, Journal of Computers, 7(3), 578585, 2012.
C. Hwang, W. Yu, “Tracking and Cooperative Designs of
Robot Manipulators Using Adaptive Fixed-Time FaultTolerant Constraint Control”, IEEE Access, 8, pp. 5641556428, 2020.
M. Hwang, B. Thananjeyan, S. Paradis, D. Seita, J. Ichnowski,
D. Fer, T. Low, K. Goldberg, “Efficiently Calibrating CableDriven Surgical Robots with RGBD Fiducial Sensing and
Recurrent Neural Networks”, IEEE Robotics and Automation
Letters, 5(4), pp. 5937 - 5944, 2020.
H. Huang, C. Chuang, “Artificial Bee Colony Optimization
Algorithm Incorporated with Fuzzy Theory for Real-Time
Machine Learning Control of Articulated Robotic
Manipulators”, IEEE Access, 8, pp. 192481-192492, 2020.
R. Liu, Q. Zhang, Y. Chen, J. Wang, L. Yang, “A Biologically
Constrained Cerebellar Model with Reinforcement Learning
for Robotic Limb Control”, IEEE Access, 8, pp. 222199222210, 2020.
J. Luo, E. Solowjow, C. Wen, J. A. Ojea, A. M. Agogino,
“Deep Reinforcement Learning for Robotic Assembly of
Mixed Deformable and Rigid Objects”, International
Conference on Intelligent Robots and Systems (IROS), pp.
2062-2069, Madrid, Spain, October 1-5, 2018.
D. P. Mital, G. W. Leng, “A Voice-activated Robot with
Artificial Intelligence”, Robotics and Autonomous Systems, 4,
pp. 339-344, 1989.
S. Hwang, Y. Park, Y. S. Park, “Sound direction estimation
using an artificial ear for robots”, Robotics and Autonomous

Systems, 59, pp. 208-217, 2011.
Rogowski, “Industrial oriented voice control system”,
Robotics and Computer-Integrated Manufacturing, 28, pp.
303-315, 2012.

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

[14] V. Alvarez-Santos, R. Iglesias, X.M. Pardo, C.V. Regueiro, A.
Canedo-Rodriguez, “Gesture-based interaction with voice
feedback for a tour-guide robot”, J. Vis. Commun. Image R,
25, pp. 499-509, 2014.
[15] S. S. Turakne, P. Loni, “Intelligent Interactive Robot with
Gesture Recognition and Voice Feedback”, International
Journal of Engineering Research & Technology, 5(4), pp. 276280, 2016.
[16] M. Meghana, Ch. U. Kumari, J. S. Priya, P. Mrinal, K. A. V.
Sai, S. P. Reddy, K. Vikranth, T. S. Kumar, A. K. Panigrahy,
“Hand gesture recognition and voice-controlled robot”,
Materials
Today:
Proceedings,
2020.
[17] M. F. Rafael, D. S. Manuel, “Design in Robotics Based in the
Voice of the Customer of Household Robots”, Robotics and
Autonomous Systems, 79, pp. 99-107, 2016.
[18] M. Buyukyilmaz, A. O. Cibikdiken, “Voice Gender
Recognition Using Deep Learning”, Advances in Computer
Science Research, 58, pp. 409-411, 2017.
[19] K. Gundogdu, S. Bayrakdar, I. Yucedag, “Developing and
Modeling of Voice Control System for Prosthetic Robot Arm

in Medical Systems”, Journal of King Saud University Computer and Information Sciences, 30(2), pp. 198-205, 2018.
[20] V. P. Saradi, P. Kailasapathi, “Voice-based motion control of a
robotic vehicle through visible light communication”,
Computers and Electrical Engineering, 76, pp. 154-167, 2019.
[21] S. Sachdeva, J. Macwana, C. Patela, N. Doshia, “VoiceControlled Autonomous Vehicle Using IoT”, 3rd International
Workshop on Recent Advances on the Internet of Things:

ISBN 978-604-80-5958-3

[22]

[23]

[24]

[25]
[26]

[27]
[28]
[29]

305

Technology and Application Approaches (IoT-T&A 2019),
160, pp. 712-717, November 4-7, Coimbra, Portugal, 2019.
B. ỗimen, H. Atasoy, Y. Kutlu, S. Yıldırım, E. Yıldırım,
“Smart Robot Arm Motion Using Computer Vision”,
ELEKTRONIKA IR ELEKTROTECHNIKA, 21(6), pp. 3-7,
2015.

X. Chen, X. Huang, Y. Wang, X. Gao, “Combination of
Augmented Reality-Based Brain-Computer Interface and
Computer Vision for High-Level Control of a Robotic Arm”,
IEEE Transactions on Neural Systems and Rehabilitation
Engineering, DOI 10.1109/TNSRE.2020.3038209, 2020.
Garzelli, L. Capobianco, F. Nencini, “Fusion of multispectral
and panchromatic images as an optimization problem”, Book:
Image Fusion Algorithms and Applications, Academic Press,
pp. 223-250, 2008.
M. W. Spong, S. Hutchinson, M. Vidyasagar, “Robot
modeling and Control”, First edition, New York, USA, 2001.
/>(Access in Oct 14, 2021).
/>(Access in Oct 14, 2021).
/>parse_categorical_crossentropy (Access in Oct 14, 2021).
/>(Access in Oct 14, 2021).

Điều khiển chuyển động của cánh tay robot 6 DOF bằng giọng nói dựa trên phương pháp học sâu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về