BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG
NGHIÊN CỨU, THIẾT KẾ CHẾ TẠO HỆ THỐNG
ĐIỀU KHIỂN THÔNG MINH CHO ROBOT DI ĐỘNG
DẠNG XE BÁM QUĨ ĐẠO THAM CHIẾU
Mã số:
Chủ nhiệm đề tài:
TP. HỒ CHÍ MINH, Năm 20
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG
1. Thơng tin chung:
- Tên đề tài: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot
di động dạng xe bám quĩ đạo tham chiếu
- Mã số:
- Chủ nhiệm đề tài:
Điện thoại:
Email:
- Đơn vị quản lý về chuyên môn (Khoa, Tổ bộ môn): Khoa Công nghệ Điện tử
- Thời gian thực hiện: Từ …/20… đến …/20…
2. Mục tiêu:
-
Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động
dạng xe.
-
Sản phẩm nghiên cứu là mơ hình đào tạo tiên tiến cho sinh viên chuyên ngành Tự
động hóa với giá thành thấp.
-
Công cụ nền tảng để nghiên cứu phát triển dự án sản xuất robot công nghiệp
tiếp theo.
3. Nội dung chính:
-
Đề xuất mới luật điều khiển thơng minh cho robot
Thiết kế chế tạo mơ hình robot di động dạng xe với hệ thống thị giác máy tính đa
chiều
-
Áp dụng luật điều khiển thông minh để mô phỏng và thực nghiệm cho robot
4. Kết quả chính đạt được
Đóng góp mới về mặt khoa học của đề tài đã được thể hiện:
1. Bài báo khoa học trên Tạp chí quốc tế (ISI):
N. T. Luy, N. T. Thanh, and H. M. Tri, “Reinforcement learning-based intelligent
tracking control for wheeled mobile robot,” Transactions of the Institute of
ii
Measurement and Control, (ISI), vol. 36, no. 7, pp. 868-877, 2014.
2. Mơ hình robot di động dùng để giảng dạy thí nghiệm cho sinh viên chun
ngành tự động hóa tại trường Đại học Cơng Nghiệp Tp. Hồ Chí Minh với giá
thành thấp.
TĨM TẮT BÁO CÁO
Báo cáo này trình bày nội dung nghiên cứu, thiết kế chế tạo hệ thống điều khiển
thông minh cho robot di động (WMR). Bộ điều khiển thông minh được phân tích và
thiết kế dựa vào qui hoạch động thích nghi (Adaptive Dynamic Programming-ADP) và
mạng thần kinh nhân tạo (Neural Network-NN) để trở thành bộ điều khiển qui hoạch
động thích nghi bền vững online (Online Robust Adaptive Dynamic ProgrammingORADP). So với các phương pháp điều khiển thích nghi bền vững khác cho WMR,
ORADP
trong báo cáo này có các ưu điểm mới. Thứ nhất, việc chia tách bộ điều
khiển động học (Kinematic) và động lực học (Dynamic) sử dụng phổ biến trong điều
khiển thích nghi cho WMR trở nên khơng cần thiết, từ đó, tránh phụ thuộc vào kinh
nghiệm của người thiết kế khi lựa chọn các tham số cho bộ điều khiển động học. Thứ
hai, khi sử dụng ORADP, thông tin về các thành phần động không chắc chắn, khơng
cấu trúc khơng mơ hình hóa trong WMR khơng cần nhận dạng khi thiết kế luật điều
khiển. Cuối cùng, với ORADP hàm chi tiêu chất lượng có liên quan đến sai số bám cả
về động học lẫn động lực học được tối thiểu. Kết quả nghiên cứu thu được từ mơ
phỏng số cho thấy ORADP có khả năng đạt được những mục tiêu đề ra.
Mơ hình thực nghiệm cho WMR được thiết kế và thi cơng, trong đó thị giác
máy tính đa chiều được sử dụng để xác định vị trí và vận tốc dài. Chất lượng điều
khiển và ổn định hệ kín trên WMR thực nghiệm khi áp dụng phương pháp ORADP
cho thấy tính hiệu quả của phương pháp đề xuất.
MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH................................................................................. viii
DANH MỤC CÁC BẢNG BIỂU.................................................................................. x
DANH MỤC CÁC TỪ VIẾT TẮT.............................................................................. xi
DANH MỤC CÁC KÝ HIỆU.................................................................................... xiii
CHƯƠNG 1 GIỚI THIỆU.......................................................................................... 1
1.1 Tổng quan về đề tài............................................................................................... 1
1.1.1 Phương pháp điều khiển robot di động dạng xe (WMR)............................ 1
1.1.2 Khái niệm về học củng cố.......................................................................... 2
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu.......................................................... 4
1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR..........................4
1.2.2 Tính cấp thiết của đề tài............................................................................. 5
1.2.3 Mục tiêu nghiên cứu................................................................................... 7
1.2.4 Nhiệm vụ nghiên cứu................................................................................. 8
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu.................................................. 8
1.3.1 Đối tượng và phạm vi nghiên cứu.............................................................. 8
1.3.2 Phương pháp nghiên cứu............................................................................ 8
1.4 Những đóng góp mới của báo cáo về mặt khoa học.............................................. 9
1.5 Bố cục báo cáo...................................................................................................... 9
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT........................................................................... 11
2.1 Các định nghĩa..................................................................................................... 11
2.2 Lý thuyết RL....................................................................................................... 11
2.3 Các thuật tốn RL thơng dụng............................................................................. 13
2.3.1 Thuật toán VI........................................................................................... 13
2.3.2 Thuật toán PI............................................................................................ 14
2.3.3 Thuật toán Q-Learning (Q)...................................................................... 15
2.4 Tóm tắt................................................................................................................ 17
CHƯƠNG 3 PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG ..
...............................................................................................................18
3.1 Điều khiển tối ưu H∞ và phương trình HJI ...........................................................19
3.1.1 Mơ tả bài toán điều khiển......................................................................... 19
3.1.2 Phương trình HJI...................................................................................... 20
3.1.3 Phương trình và nghiệm HJI xấp xỉ.......................................................... 22
3.2 Phương pháp ORADP......................................................................................... 25
3.2.1 Cấu trúc điều khiển ORADP và luật cập nhật tham số............................. 26
3.2.2 Thuật tốn điều khiển ORADP................................................................ 31
3.3 Phân tích ổn định và hội tụ của ORADP............................................................. 32
3.4 Tóm tắt................................................................................................................ 38
CHƯƠNG 4 ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG......................39
4.1 Mơ hình phi tuyến WMR.................................................................................... 39
4.2 Mơ hình WMR thực nghiệm...............................................................................45
4.3 Phương pháp ORADP áp dụng cho WMR..........................................................49
4.4 Mô phỏng WMR sử dụng ORADP.....................................................................52
4.4.1 Quỹ đạo tham chiếu.................................................................................52
4.4.2 Thiết lập tham số học...............................................................................53
4.4.3 Kết quả mơ phỏng....................................................................................54
4.5 Kết quả thực nghiệm...........................................................................................55
4.6 Tóm tắt................................................................................................................ 67
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................68
5.1 Kết luận............................................................................................................... 68
5.2 Hướng phát triển.................................................................................................68
TÀI LIỆU THAM KHẢO...........................................................................................70
PHỤ LỤC A MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH KHOẢNG CÁCH THỰC........74
DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Minh họa về học củng cố............................................................................... 3
Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu........................13
Hình 3.1: Cấu trúc điều khiển ORADP........................................................................ 25
Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN............................................ 30
Hình 4.1: Mơ hình robot di động dạng xe (WMR).......................................................39
Hình 4.6: Sơ đồ điều khiển sử dụng ORADP cho WMR.............................................50
Hình 4.7: Lịch trình thay đổi khối lượng robot trong quá trình điều khiển..................52
Hình 4.8: Lịch trình thay đổi mơ men qn tính robot trong q trình điều khiển.......52
Hình 4.9: Sự hội tụ của trọng số NN trong quá trình học điều khiển...........................57
Hình 4.10: Quá trình học và sự hội tụ quỹ đạo x − y................................................... 57
Hình 4.11: Sai số bám vị trí trong q trình học điều khiển.........................................58
Hình 4.12: Quỹ đạo x − y với luật điều khiển hội tụ....................................................58
Hình 4.13: Chất lượng bám tối ưu với luật điều khiển hội tụ sau 800 s.......................58
Hình 4.14: Quỹ đạo x trong quá trình học điều khiển.................................................59
Hình 4.15: Quỹ đạo y trong quá trình học điều khiển.................................................59
Hình 4.16: Quỹ đạo góc quay θ trong q trình học điều khiển.................................59
Hình 4.17: Quỹ đạo vận tốc quay trong quá trình học điều khiển................................60
Hình 4.18: Quỹ đạo vận tốc quay sau khi hội tụ..........................................................60
Hình 4.19: Sai số bám vận tốc quay trong quá trình học điều khiển...........................60
Hình 4.20: Quỹ đạo vận tốc dài trong quá trình học điều khiển...................................61
Hình 4.21: Quỹ đạo vận tốc dài sau khi hội tụ.............................................................61
Hình 4.22: Sai số bám vận tốc dài trong quá trình học điều khiển...............................61
Hình 4.23: Mơ men xấp xỉ τ* trong q trình học........................................................62
Hình 4.24: Mơ men τ* tối ưu hội tụ..............................................................................62
Hình 4.25: Robot thực nghiệm-quá trình học trên và sự hội tụ quỹ đạo x − y..............63
Hình 4.26: Quỹ đạo thực nghiệm x − y với luật điều khiển hội tụ...............................63
Hình 4.27: Sai số bám vị trí của robot thực nghiệm trong quá trình học.....................63
Hình 4.28: Quỹ đạo x của robot thực nghiệm trong quá trình học..............................64
Hình 4.29: Quỹ đạo y của robot thực nghiệm trong q trình học..............................64
Hình 4.30: Quỹ đạo góc quay θ robot thực nghiệm trong quá trình học.....................64
Hình 4.31: Quỹ đạo vận tốc quay trong quá trình học của robot thực nghiệm.............65
Hình 4.32: Sai số bám vận tốc quay trong quá trình học..............................................65
Hình 4.33: Quỹ đạo vận tốc dài trong quá trình học....................................................65
Hình 4.34: Sai số bám vận tốc dài trong q trình học................................................66
Hình 4.35: Mơ men điều khiển bánh phải (τ1).............................................................66
Hình 4.36: Mơ men điều khiển bánh trái (τ2)...............................................................66
Hình A.1. Tập mẫu ngõ vào đo trong khơng gian ảnh.................................................74
Hình A.2. Tập mẫu ngõ ra mong muốn đo trong khơng gian thực...............................74
Hình A.3. Kết quả huấn luyện RBF so với mẫu mong muốn......................................75
Hình A.4. Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel).........75
DANH MỤC CÁC BẢNG BIỂU
Thuật toán 2.1: VI........................................................................................................ 13
Thuật toán 2.2: PI........................................................................................................ 14
Thuật toán 2.3: Q-Learning.......................................................................................... 16
Thuật toán 3.1: ORADP............................................................................................... 31
Thuật toán 4.1: ORADP áp dụng cho WMR................................................................51
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Thuật ngữ tiếng anh
Giải thích
Cấu trúc điều khiển Actor-Critic trong
AC
học củng cố gồm hai NN: Mạng critic xấp
Actor-Critic
xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ
luật điều khiển tối ưu
ADP
Qui hoạch động thích nghi, một phương
Adaptive Dynamic
pháp học củng cố để xấp xỉ luật điều
Programming
khiển tối ưu online
ADP3NN
ADP with three NNs
ANN
Actor Neural Network
ARE
Algebraic Riccati Equation
CNN
Critic Neural Network
COD
Curse of Dimensionality
Sự bùng nổ tổ hợp không gian trạng thái
DP
Dynamic Programming
Qui hoạch động
HJB
Hamilton-Jacobi-Bellman
HJI
Hamilton-Jacobi-Isaacs
MLP
Multi-Layer Perceptron
NRBF
Normalized
Radial
Cấu trúc điều khiển ADP với ba NN
NN actor đóng vai trị bộ điều khiển trong
cấu trúc AC
Phương trình đại số Riccati
NN critic đóng vai trị xấp xỉ hàm đánh
giá trong cấu trúc AC
NN truyền thẳng nhiều lớp
Basis NN có hàm cơ sở xun tâm được chuẩn
Function
hóa
Qui hoạch động thích nghi bền vững
ORADP
Online
Robust
Adaptive
Dynamic Programming
online: một phương pháp học củng cố
được đề xuất trong báo cáo để tìm luật
điều khiển tối ưu thích nghi bền vững
online
PE
Persistence of Excitation
Kích thích hệ thống bằng cách thêm nhiễu
vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
Thuật tốn của học củng cố sử dụng một
PI
Policy Iteration
số bước lặp để xấp xỉ luật điều khiển tối
ưu
RL
Reinforcement Learning
Học củng cố
SISO
Single Input-Single Output
Hệ thống một ngõ vào một ngõ ra
Sai phân tạm thời: phương pháp cập nhật
TD
Temporal Difference
tham số của bộ dự báo liên quan đến sai
phân tín hiệu theo thời gian sử dụng trong
học củng cố
UUB
Uniform Ultimate Bounded
VI
Value Iteration
WMR
Wheeled Mobile Robot
ZDGT
Zero-sum Differential Game
Theory
Bị chặn tới hạn đều
Thuật toán của học củng cố sử dụng một
số bước lặp để xấp xỉ hàm đánh giá tối ưu
Robot di động dạng xe
Lý thuyết trị chơi sai phân tổng bằng
khơng ứng dụng trong lý thuyết điều
khiển tối ưu � ∞
DANH MỤC CÁC KÝ HIỆU
ℝ
Tập các số thực
ℝ�
Không gian các tọa độ thực (khơng gian Euclide) � chiều
ℝ×�×�
Tập các ma trận có kích thước � × � chứa các phần tử số thực
Ω�
Tập đóng (Ω� ⊆ ℝ�) bao quanh gốc: nếu � ∈ Ω� thì � là lân cận
quanh điểm cân bằng �0.
.
Chuẩn véc tơ hoặc ma trận trong ℝ� hoặc ℝ×�×�
� �
Gradient của hàm )( theo �: � �
⊗
Tích Kronecker,
�
�
( X ⊗Y )
T
=
��(�)
��
= X T ⊗Y T , β ( X ⊗Y ) = ( β X ) ⊗Y = X
⊗ ( βY ) , trong đó X và Y là các ma trận còn � là đại lượng vơ hướng
��
Ma trận đơn vị có chiều � × �
�
� = 1, … ,1 � ∈ ℝ�
Diag(αi) Ma trận đường chéo chứa các phần tử đường chéo αi
�
2
0,∞ Không gian Banach, nếu ∀� ∈
�2
0,∞
thì
sub �(�
) Cận trên nhỏ nhất (cận trên đúng) của
∞
�
2
�� < ∞
0
)( inf )( Cận dưới lớn nhất (cận dưới đúng) của
)(
�
Ma trận trọng số của NN
��
Trọng số NN giữa đơn vị ẩn thứ � và đơn vị ra (một ngõ ra)
�� �
Trọng số NN kết nối giữa ngõ ra của đơn vị � và ngõ vào đơn vị �
� � , ��
Số lượng ngõ vào, số lượng đơn vị ẩn của NN
�
(�)
Véc tơ hàm tác động của NN
� �
Hàm chi phí
�∗()
Hàm chi phí tối ưu
�, �∗
Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
�
Véc tơ nhiễu
�
Véc tơ tín hiệu trạng thái
�
Véc tơ ngõ ra đo được
���� .
Trị riêng nhỏ nhất
����
.
Trị riêng lớn nhất
� �
Hàm xác định dương, sao cho ∀ ≠ 0, � � > 0 và � � = 0 ⟺ � = 0
�
Ma trận trọng số xác định dương
�
Ma trận trọng số đối xứng, xác định dương
� 1, �1, � Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của
robot di động
�, ��
Véc tơ mô men điều khiển và mô men nhiễu của robot di động
CHƯƠNG 1
GIỚI THIỆU
1.1 Tổng quan về đề tài
1.1.1 Phương pháp điều khiển robot di động dạng xe
Một trong những bài toán quan trọng về điều khiển chuyển động của hệ thống
robot di động dạng xe (Wheeled Mobile Robots -WMR) là bám quỹ đạo tham chiếu.
Các nghiên cứu chủ yếu tập trung vào phương pháp điều khiển thích nghi sử dụng kỹ
thuật cuốn chiếu [3], [12], [18], [21], trong đó bộ điều khiển được chia tách thành hai:
động học và động lực học. Bộ điều khiển động học được thiết kế sử dụng mơ hình
robot có sẵn để phát sinh vận tốc nhằm lái robot bám theo vị trí mong muốn, và sau
đó, bộ điều khiển động lực học được thiết kế dựa vào bộ điều khiển động học thêm các
thành phần thích nghi dựa vào (Neural Network-NN), mờ (Fuzzy),… để phát sinh mô
men nhằm điều khiển vận tốc robot bám theo vận tốc mong muốn sinh ra từ luật điều
khiển động học.
Với kỹ thuật cuốn chiếu, tham số bộ điều khiển động học được chọn qua thực
nghiệm hoặc bằng kinh nghiệm người thiết kế sao cho cân bằng được cả hai tiêu chí về
chất lượng bám lẫn năng lượng điều khiển từ mơ men ở bánh xe. Nếu bài tốn điều
khiển tối ưu được đặt ra thì với cách chọn tham số như vậy sẽ khơng cực tiểu hóa được
hàm chỉ tiêu chất lượng liên quan đến chất lượng bám và năng lượng điều khiển.
Để giải quyết bài toán thiết kế không cần chia tách bộ điều khiển động học và
động lực học riêng biệt, phương pháp tuyến tính hóa hồi tiếp thích nghi được đề xuất
[12], trong đó việc chọn tham số cho luật điều khiển động học được bỏ qua. Tuy nhiên
phương pháp này không giải quyết bài toán tối ưu.
Đặc trưng quan trọng của hệ thống WMR là mơ hình có thể biểu diễn được ở
dạng hệ thống phi tuyến hồi tiếp chặt (Strictly Feedback Form) [22]. Hệ thống này đã
được khai thác để thiết kế luật điều khiển tối ưu cho WMR mà không cần chia tách
thành hai bộ điều khiển động học và động lực học riêng biệt. Tuy nhiên, phương pháp
này đòi hỏi phải biết trước các thành phần động trong mơ hình hệ thống, bỏ qua nhiễu
trong phân tích và thiết kế.
15
Lý thuyết điều khiển � ∞ được áp dụng nhằm duy trì tính ổn định bền vững của
hệ kín dưới tác động của nhiễu ngồi và các thành phần khơng chắc chắn tồn tại trong
mơ hình robot. Điều khiển tối ưu �∞ phát triển rất mạnh về mặt lý thuyết. Tuy nhiên,
để áp dụng cho hệ phi tuyến (WMR) ta cần lời giải nghiệm phương trình HamiltonJacobi-Isaacs (HJI) [36]. Như đã đề cập trong chương 3, phương trình HJI khơng có
nghiệm giải tích cho dù đó là bài tốn đơn giản [36].
Dựa vào khả năng học thích nghi tối ưu online của RL (Reinforcement
Learning), điều khiển bám tối ưu cho WMR đã được phát triển [14], [22], [24], [38].
Cấu trúc ADP (Adaptive Dynamic Programming) rời rạc trong RL được sử dụng để
học bộ điều khiển rời rạc [14], [38] hoặc bộ điều khiển liên tục không xét đến nhiễu,
[22], [24]. Các bộ điều khiển này không chỉ khắc phục nhược điểm của các phương
pháp điều khiển khác như mờ cần tri thức chuyên gia hay NN cần tập mẫu trong điều
khiển thích nghi, mà cịn tối thiểu hàm chi phí trong điều khiển tối ưu. Điều này khác
biệt với việc tối thiểu sai số bám tại mỗi thời điểm trong điều khiển thích nghi dựa vào
NN. Tuy nhiên, để thiết kế bộ điều khiển dựa vào RL như trên, các thành phần động
trong mơ hình cần phải xác định trước. Ngồi ra, nhiễu hệ thống được bỏ qua trong
phân tích. Vì vậy, vấn đề điều khiển thích nghi bền vững chưa được giải quyết.
Trong hệ thống robot có nhiều trạng thái hồi tiếp, với cấu trúc chuẩn sử dụng ba
NN trong RL, số lượng đơn vị nơ ron lớp ẩn cùng với số lượng trọng số và hàm tác
động sẽ tăng lên đáng kể, vì vậy khi áp dụng các cấu trúc này, sẽ làm tăng độ phức tạp
tính tốn và chiếm nhiều tài nguyên hệ thống [36]. Để giảm số lượng NN, phương
pháp điều khiển SOLA (Single Online Approximator) dựa vào RL [6] được đề xuất để
giải phương trình HJI cho robot di động. Tuy nhiên, phương pháp này yêu cầu xác
định trước các thành phần động học trong mơ hình robot và giải quyết vấn đề theo
phương pháp cuốn chiếu.
1.1.2
Khái niệm về học củng cố
Học củng cố (RL-Reinforcement Learning) thuộc lớp phương pháp học máy
(Machine Learning (ML)) giải bài toán tối ưu bằng cách liên tục điều chỉnh hành động
của tác tử (Agent) khi tương tác trực tiếp với môi trường để đạt được mục tiêu tốt nhất.
RL được hình thành từ việc quan sát và nghiên cứu thuộc tính và hành vi của động vật
khi tương tác với mơi trường để thích nghi và tồn tại. Bản năng của động vật là sử
dụng các thơng tin từ mơi trường (chi phí) để củng cố, điều chỉnh hành vi (hành động)
của chính mình sao cho tương tác với môi trường ngày càng tốt hơn nhằm tối ưu hóa
mục tiêu nào đó theo thời gian (xem hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu mơi trường tương tác thiếu thông tin để
ra quyết định hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai,
đánh giá các hành động vừa thử trong q khứ bằng chi phí từ mơi trường để đưa ra
chiến lược hành động tiếp theo sao cho tổng chi phí tích lũy khi tương tác với mơi
trường là nhỏ nhất [33].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào dữ
liệu vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được chứng
minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [27], [29].
Mơi trƣờng
Hành động
Chi phí
Tác tử (Agent)
Hình 1.1: Minh họa về học củng cố
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive
Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic
Programming (ADP)) [34]. ADP đã khắc phục được các hạn chế của DP như offline,
khơng điều khiển thời gian thực, cần mơ hình tốn chính xác. Ngồi ra, ADP sử dụng
xấp xỉ hàm cịn khắc phục được các điểm yếu quan trọng của DP như giảm chi phí tính
tốn và tài ngun lưu trữ, khắc phục được hiện tượng bùng nổ tổ hợp (Curse of
Dimensionality (COD)) khi rời rạc hóa khơng gian trạng thái, đặc biệt nếu đối tượng
điều khiển là hệ MIMO (Multi Inputs-Multi Outputs), đa biến.
Gần đây, các thuật toán lặp PI kết hợp xấp xỉ hàm ADP được nghiên cứu để
điều khiển thích nghi tối ưu online khơng sử dụng thơng tin thành phần động trong hệ
thống và bỏ qua thủ tục nhận dạng hệ thống [33], [34], [36].
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR
Thiết kế luật điều khiển sao cho hệ kín khơng chỉ ổn định bền vững mà cịn tăng
cường chất lượng điều khiển cho hệ thống phi tuyến nói chung hoặc WMR nói riêng
với mơ hình chứa các thành phần khơng chắc chắn, nhiễu khơng cấu trúc, nhiễu ngồi
tác động là bài toán được rất nhiều nhà nghiên cứu quan tâm. Các phương pháp nghiên
cứu để giải quyết bài tốn này là điều khiển thích nghi trong đó phổ biến là nhận dạng
hệ thống, sau đó thiết kế bộ điều khiển. Phương pháp thứ hai là xấp xỉ online các thành
phần khơng chắc chắn trong mơ hình sử dụng các bộ xấp xỉ hàm. Do xấp xỉ hàm bị
giới hạn bởi một số hữu hạn các tham số nên sai số xấp xỉ là không thể tránh khỏi. Sai
số này cùng với nhiễu có thể làm cho hệ kín mất ổn định. Vì vậy, kết hợp thêm thành
phần điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là
cần thiết.
Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường
có tham số hằng được thiết kế sao cho hệ kín ln ổn định bền vững nên thường phải
“hy sinh” chất lượng điều khiển. Nếu chọn tham số hằng khơng phù hợp có thể xảy ra
các hiện tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển khơng tốt hoặc
ngược lại. Hệ kín ln bảo đảm ổn định bền vững lại bị hiện tượng chattering (hiện
tượng biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại.
Hay nói cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang
đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống.
Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết
điều khiển tối ưu hiện đại là một trong những vấn đề được liên tục nghiên cứu và phát
triển trong nhiều thập kỷ qua. Luật điều khiển tối ưu thiết kế không chỉ ổn định hệ
thống mà cịn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong muốn. Về
mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình HamiltonJacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành phương trình
ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành phương trình
vi phân phi tuyến. Với hệ tuyến tính thiếu thơng tin về ma trận trạng thái, nghiệm ARE
không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích HJB là rất khó
giải được nếu khơng muốn nói là khơng thể cho dù biết trước mơ hình của đối tượng.
Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.
Lý thuyết điều khiển bền vững sử dụng chuẩn �∞ đóng vai trị rất quan trọng
trong phân tích và thiết kế hệ thống. Bộ điều khiển tối ưu bền vững �∞ được thiết kế
bằng cách giải phương trình đại số Riccati cho hệ tuyến tính và HJI (Hamilton-JacobiIsaacs) cho hệ tuyến tính [32]. Mặc dù lý thuyết điều khiển hiện đại phát triển rất mạnh
để giải bài toán điều khiển �∞ cho hệ phi tuyến [2] nhưng trong nhiều ứng dụng thực
tế, vấn đề phức tạp ở chỗ làm thế nào để giải nghiệm HJI bởi vì phương trình HJI,
tương tự phương trình HJB trong điều khiển tối ưu phi tuyến thuộc loại phương trình
vi phân khơng có nghiệm giải tích. Tuy nhiên, điều khác biệt giữa phương trình HJI và
HJB là phương trình HJB có số hạng tồn phương bán xác định dương trong khi
phương trình HJI chứa số hạng tồn phương khơng xác định dấu.
RL là một trong những cơ sở lý thuyết mạnh dùng để phát triển hệ thống học
xấp xỉ online nghiệm HJB và HJI [15], [19], [20], [31], [35], [36]. Tuy nhiên, trong
hầu hết các phương pháp RL để thiết kế luật điều khiển tối ưu �∞, các thành phần động
trong mô hình hệ phi tuyến địi hỏi phải xác định trước. Vì vậy, vấn đề kết hợp đặc tính
thích nghi bền vững vào bài toán điều khiển tối ưu �∞ của RL với mục đích xấp xỉ
online nghiệm HJI cho WMR chứa thành phần động khơng biết, có nhiễu nhưng đồng
thời vẫn duy trì sự ổn định hệ kín ln là cần thiết.
1.2.2 Tính cấp thiết của đề tài
Trong những năm qua hệ thống robot di động đang được rất nhiều nhà khoa học
trong lĩnh vực điều khiển nghiên cứu và phát triển bởi vì khả năng ứng dụng rộng rãi
của hệ thống này trong nhiều lĩnh vực như công nghiệp (robot hàn, nhà kho thơng
minh,…), giải trí, giúp việc nhà, y tế,…. Trong đó điều khiển thơng minh hệ thống
robot bám chính xác quĩ đạo tham chiếu dưới tác động của tham số không chắc chắn,
không cấu trúc và nhiễu môi trường,… luôn là một thách thức và đang là đề tài rất
mới, rất thời sự. Nếu kiến thức của người thiết kế luật điều khiển bị giới hạn, bài tốn
robot tự tương tác với mơi trường được đặt ra. Khi đó, robot sẽ nhận thơng tin từ mơi
trường và tự học cách chỉnh định thích nghi bền vững hành vi để tối thiểu phiếm hàm
chỉ tiêu chất lượng nào đó.
Hiện nay mặc dù cơng nghệ cảm biến phát triển rất mạnh; tuy nhiên, các cảm
biến vẫn chưa thật sự đáp ứng đầy đủ trong bài toán điều khiển robot di động, trong đó
nếu robot sử dụng giới hạn số lượng camera thì khơng thể quan sát tồn bộ không gian
làm việc, ngược lại số lượng camera tăng lên hệ thống sẽ phức tạp và tốc độ xử lý ảnh
không thể đáp ứng được yêu điều khiển thời gian thực. Do đó, thiết kế mới hệ thống
thị giác đa chiều sao cho số lượng camera là ít nhất cho robot là điều cần thiết.
Mơ hình thí nghiệm robot nhập từ nước ngoài giá thành rất đắt đang là vấn đề
nan giải cho nhiều cơ sở đào tạo liên quan chun ngành điều khiển tự động. Ngồi ra
mơ hình nhập ngoại chỉ có phần cứng và phần mềm cơ bản, thiếu các phần mềm đào
tạo chuyên sâu. Ngoài ra, các cơ sở nghiên cứu về lĩnh vực robot trong nước cũng
đang thiếu các mơ hình thực nghiệm.
Trên thế giới, khi thiết kế luật điều khiển cho robot, chỉ một số rất ít nghiên cứu
về RL gần đây đã kết hợp đặc tính thích nghi vào bài tốn điều khiển tối ưu �∞ cho
WMR không biết trước thành phần động, chịu tác động bởi nhiễu sử dụng thuật toán
lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm [29], [33]. Tuy nhiên, với cấu trúc ADP ba
xấp xỉ hàm sẽ dẫn đến một số hạn chế như sau:
• Tính tốn phức tạp
• Lãng phí tài ngun
• Chậm hội tụ
• Cập nhật tham số giữa các xấp xỉ hàm là tuần tự
Vấn đề tính tốn phức tạp, lãng phí tài nguyên và chậm hội tụ là dễ thấy [36].
Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì số lớp ẩn và
số đơn vị tế bào ở lớp ẩn, số lượng hàm tác động tăng theo cấp số nhân. Từ đó, kéo
theo số phần tử trong ma trận trọng số sẽ tăng lên tương ứng. Với ba NN, đặc biệt khi
áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì tổng số lượng các phần tử trong
cấu trúc ADP sẽ tăng lên đáng kể. Các trọng số NN phải được liên tục cập nhật trong
suốt q trình học, do đó với ba NN, chi phí tính tốn là vấn đề thách thức. Khi sử
dụng thuật toán PI để xấp xỉ nghiệm online, tốc độ hội tụ của thuật tốn ngồi các yếu
tố khác còn phụ thuộc rất nhiều vào cấu trúc ADP chọn trước. Nếu nhiều xấp xỉ hàm
được sử dụng, quá trình tính tốn sẽ rất phức tạp. Vì vậy, thuật tốn chậm hội tụ là
điều khó tránh khỏi.
Các thuật tốn trong [29] ngồi việc địi hỏi phải biết trước thành phần động
trong mơ hình hệ thống, trọng số NN cịn phải cập nhật trong hai vòng lặp khác nhau
với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB.
Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài
nguyên và cho hiệu quả thấp [36]. Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau,
nếu khởi tạo trọng số cho không phù hợp sẽ dẫn đến hệ kín mất ổn định ngay từ những
giây học đầu tiên.
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số
lượng xấp xỉ hàm trong cấu trúc điều khiển. [5] đã đề xuất thuật toán SOLA (Single
Online Approximator) chỉ sử dụng duy nhất một NN để khắc phục hiện tượng sử dụng
nhiều xấp xỉ hàm trong cấu trúc điều khiển cho WMR. Tuy nhiên, phương pháp này
yêu cầu phải xác định trước các thành phần động trong mơ hình hệ thống. Để kết hợp
yếu tố thích nghi trong bài tốn điều khiển tối ưu �∞ liên quan đến nghiệm HJI đồng
thời khắc phục luôn hiện tượng dư thừa nghiệm, [36] đã đề xuất thuật toán xấp xỉ
online nghiệm HJI sử dụng duy nhất một NN không cần thông tin về thành phần động
trong mơ hình hệ thống. Q trình cập nhật tham số luật điều khiển và luật nhiễu trong
thuật toán này đồng bộ trong cùng một bước lặp, khác với [29]. Tuy nhiên, thuật tốn
này vẫn cịn một hạn chế. Đó là, phải ngưng cập nhật các tham số hệ thống điều khiển
trong một khoảng thời gian để lấy mẫu dữ liệu cho lần cập nhật trọng số NN tiếp theo.
1.2.3 Mục tiêu nghiên cứu
Nghiên cứu và phát triển RL trong điều khiển thích nghi bền vững kết hợp với
điều khiển tối ưu cho WMR là cần thiết. Tuy nhiên, hệ thống học phải được thiết kế
sao cho tốc độ hội tụ nhanh, chi phí tính tốn và tài ngun lưu trữ giảm. Vì vậy,
phương pháp mới trong báo cáo được đề xuất với cấu trúc điều khiển có số lượng xấp
xỉ hàm ít nhất nhưng luật cập nhật tham số xấp xỉ hàm và thuật toán điều khiển phải
đảm bảo hệ kín ổn định và tham số hệ thống hội tụ đến giá trị tối ưu.
1.2.4 Nhiệm vụ nghiên cứu
• Đề xuất cấu trúc điều khiển tối ưu thích nghi bền vững trên nền tảng cấu trúc qui
hoạch động thích nghi sử dụng ba xấp xỉ hàm sao cho cấu trúc đề xuất chỉ sử dụng
một xấp xỉ hàm, khắc phục được hai xấp xỉ hàm dư thừa còn lại. Thiết kế luật cập
nhật tham số online cho xấp xỉ hàm và xây dựng thuật tốn điều khiển cho tồn hệ
thống WMR.
• Mơ phỏng và thực nghiệm trên đối tượng WMR để kiểm tra tính hiệu quả của
phương pháp đề xuất.
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu
1.3.1 Đối tượng và phạm vi nghiên cứu
Đối tượng cần nghiên cứu trong báo cáo là robot di động dạng xe thuộc lớp hệ
phi tuyến có dạng [36]:
� = �� +� � �+� � �
� = ()
(1.1)
trong đó � ∈ ℝ� là véc tơ trạng thái, � ∈ ℝ� là véc tơ tín hiệu điều khiển với � ∈
� 2 0, ∞ , � ∈ ℝ� là nhiễu thỏa điều kiện ∈ �
2
0, ∞ , � �
∈ ℝ� là véc tơ hàm
phi tuyến liên tục giả sử khơng có thơng tin để biết, � ∈ ℝ� là ngõ ra mục tiêu,
)( ∈ ℝ� , � � ∈ ℝ× và � � ∈ ℝ×
lần lượt là véc tơ hàm và các ma trận hàm
phi tuyến khả vi liên tục giả sử biết trước.
Phương pháp điều khiển cho đối tượng (1.1) mà báo cáo nghiên cứu là phương
pháp điều khiển thích nghi bền vững được phát triển trên nền tảng lý thuyết cơ sở của
qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm.
1.3.2 Phương pháp nghiên cứu
Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về
RL, báo cáo phân tích ưu nhược điểm của từng phương pháp, tiếp tục nghiên cứu và
phát triển để khắc phục các hạn chế còn tồn tại. Các phương pháp nghiên cứu trong
báo cáo bao gồm:
• Nghiên cứu tài liệu tham khảo có liên quan đến WMR, phân tích và thiết kế hệ
thống, tính tốn và chứng minh lý thuyết ổn định và hội tụ bằng cơ sở toán học,
kết hợp giữa mơ phỏng và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của
lý thuyết.
• Sử dụng phần mềm MATLAB để mơ phỏng.
• Xây dựng mơ hình phần cứng cho robot di động, cài đặt thuật toán cho bộ điều
khiển nhúng thời gian thực bằng ngôn ngữ C, VC++.
1.4 Những đóng góp mới của báo cáo về mặt khoa học
So với các cơng trình nghiên cứu khoa học khác đã cơng bố cùng lĩnh vực, báo
cáo này đóng góp các điểm mới sau:
Nghiên cứu và phát triển phương pháp qui hoạch động thích nghi bền vững
online (Online Adaptive Dynamic Programming (ORADP)) cho robot với thành phần
động khơng biết trước, có nhiễu tác động là đóng góp mới. Trong ORADP, cấu trúc
điều khiển chỉ sử dụng duy nhất một xấp xỉ hàm, loại bỏ được hiện tượng dư thừa hai
xấp xỉ hàm so với các nghiên cứu khác. Để cấu trúc điều khiển online, luật cập nhật
tham số xấp xỉ hàm và thuật toán điều khiển được thiết kế. Sự hội tụ của tham số xấp
xỉ hàm và ổn định hệ kín được thiết lập và chứng minh bởi Định lý 3.3. Kết quả của
đóng góp này bao gồm đóng góp tiếp theo sau đây được thể hiện trong tài liệu [25].
Trên cơ sở nghiên cứu các phương pháp khác nhau về điều khiển thích nghi bền
vững robot di động, phương pháp điều khiển tối ưu thích nghi bền vững sử dụng
ORADP không chia tách bộ điều khiển động học và động lực học cho robot di động là
một đóng góp tiếp theo (xuất phát từ nghiên cứu [24]). Tham số bộ điều khiển được
xấp xỉ không phụ thuộc vào kinh nghiệm của người thiết kế, không cần nhận dạng
thành phần động khơng biết trong mơ hình robot.
1.5 Bố cục báo cáo
Phần mở đầu đã trình bày tổng quan về RL, động cơ, mục tiêu và nhiệm vụ
nghiên cứu cũng như phương pháp, đối tượng và phạm vi nghiên cứu. Nội dung tiếp
theo của báo cáo được bố cục như sau:
1. Chương 2 trình bày cơ sở lý thuyết về RL.
2. Chương 3 phân tích và thiết kế phương pháp qui hoạch động thích nghi bền vững
online (ORADP), cụ thể là:
• Phân tích và thiết kế cấu trúc ORADP.
• Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm trong cấu trúc ORADP.
• Xây dựng thuật tốn ORADP.
3. Chương 4 mô phỏng và thực nghiệm ORADP trên robot di động dạng xe.
4. Cuối cùng là phần kết luận và hướng phát triển.
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
Chương này trình bày sơ lược về lý thuyết RL, mơ tả các thuật tốn thơng dụng
trong RL làm cơ sở lý thuyết cho việc nghiên cứu phương pháp điều khiển ở chương
tiếp theo.
2.1 Các định nghĩa
Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [16]): Xét hệ thống phi tuyến:
� = ,( �)
(2.1)
với trạng thái () ∈ ℝ� . Điểm cân bằng �0 được gọi là UUB nếu tồn tại một tập đóng
Ω� ⊂ ℝ� , sao cho với mọi � ⊂ Ω� , luôn tồn tại chặn trên � và thời gian �� (, 0) để
điều kiện � � − �0 ≤ � luôn thỏa với mọi � ≥ �0 + �� .
Định nghĩa 2.2 (Zero-State Observability [11]): Hệ thống (2.1) với ngõ ra đo
được � = )( gọi là quan sát được trạng thái không, nếu � � ≡ 0, ∀ ≥ 0 kéo theo
� � ≡ 0, ∀ ≥ 0.
Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [11]): Một véc tơ tín hiệu
bị chặn � � gọi là thỏa điều PE trong khoảng thời gian �, � + �� , �� > 0 nếu tồn
tại
�1 > 0 và �2 > 0 sao cho với mọi �:
+
�1� ≤
�
�
� � � � � �� ≤ �2�
(2.2)
trong đó � là ma trận đơn vị có chiều phù hợp.
2.2 Lý thuyết RL
Hệ thống RL trong điều khiển kinh điển được mơ tả bởi:
• Tập hữu hạn trạng thái � = �1, �2 , … , �� ∈ ℝ�
• Ở mỗi trạng thái ��� , có tập hữu hạn các tín hiệu điều khiển � �
• Mơ hình đối tượng điều khiển ��+1 = (� , (
�
)) với (� ) ∈ � �� là tín hiệu
điều khiển để chuyển trạng thái hệ thống từ �� sang ��+1
• Hàm thưởng/phạt, cịn gọi là tín hiệu củng cố, � �� , (� ) ∈ ℝ, đặc trưng cho