Tải bản đầy đủ (.pdf) (117 trang)

Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.38 MB, 117 trang )

Lời cam đoan
Tơi xin cam đoan đây là cơng trình nghiên cứu của cá nhân tôi dưới sự hướng
dẫn của tập thể giáo viên hướng dẫn và các nhà khoa học. Các tài liệu tham khảo đã
được trích dẫn đầy đủ. Kết quả nghiên cứu là trung thực và chưa từng được ai cơng
bố trên bất cứ một cơng trình nào khác.
Hà Nội, ngày 20 tháng 9 năm 2023
Tập thể hướng dẫn

Nghiên cứu sinh

Cao Thành Trung

i


Lời cảm ơn
Trong quá trình làm luận án với đề tài “Nâng cao chất lượng điều khiển dựa
trên mơ hình bằng phương pháp học lặp” tôi đã nhận được rất nhiều sự ủng hộ về
công tác tổ chức và chuyên mơn của Nhóm Cơ sở Điều khiển Tự động, của Khoa
Tự động hóa, Trường Điện-Điện tử, Đại học Bách khoa Hà Nội. Tôi xin trân trọng
gửi lời cảm ơn tới cơ sở đào tạo này, nơi đã luôn tạo điều kiện giúp đỡ tơi trong suốt
q trình học tập, nghiên cứu và hồn thành luận án.
Với lịng kính trọng và biết ơn sâu sắc, tôi cũng xin chân thành cảm ơn tập thể
hướng dẫn là TS. Nguyễn Thu Hà và GS.TS. Nguyễn Dỗn Phước, những Thầy/Cơ
đã dành nhiều thời gian hướng dẫn, tận tình chỉ bảo và định hướng chuyên mơn cho
tơi trong suốt q trình nghiên cứu để hồn thành luận án.
Cuối cùng, tôi xin chân thành cảm ơn gia đình, đồng nghiệp, những người bạn
thân thiết đã ln giúp đỡ, động viên, khích lệ, chia sẻ khó khăn trong thời gian tơi
học tập để hồn thành khóa học.
Tác giả


Cao Thành Trung

ii


Mục lục
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ

vi
vi
vii

MỞ ĐẦU

1.
2.
3.
4.
5.

Ý nghĩa thực tiễn và tính cấp thiết của đề tài
Mục đích và nhiệm vụ của luận án
Đối tượng và phạm vi nghiên cứu của luận án
Phương pháp nghiên cứu
Bố cục của luận án

CHƯƠNG 1:


TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ TÍNH HỘI TỤ
CỦA QUÁ TRÌNH HỌC

1.1 Điều khiển học lặp và lý do nên kết hợp với truyền thống

1
1
2
2
3
4

4

1.1.1 Về nguyên lý điều khiển học lặp
1.1.2 Về hàm Q-learning và hàm học
1.1.3 Về khả năng hội tụ của luật chỉnh định
1.1.4 Về việc nên kết hợp với phương pháp điều khiển truyền thống
1.2 Tổng quan về tình hình nghiên cứu và các vấn đề cịn tồn tại
1.3 Một số bài tốn đặt ra cho luận án

6
7
8
11
12
15

1.3.1 Nghiên cứu lý thuyết
1.3.2 Nghiên cứu thực nghiệm: Hai q trình cơng nghiệp được sử dụng để

kiểm chứng kết quả lý thuyết
1.3.2.1 Robot công nghiệp
1.3.2.2 Hệ phản ứng khuấy trộn liên tục
1.4 Tổng kết chương 1

15

CHƯƠNG 2:

NHỮNG ĐỀ XUẤT LÝ THUYẾT BỔ SUNG CHO ĐIỀU
KHIỂN HỌC LẶP

2.1 Xác định tham số hàm học dựa trên mơ hình trong miền phức
2.1.1 Điều kiện đủ cho hàm học kiểu P khi sử dụng hàm truyền hệ thống (quá
trình SISO)
2.1.1.1 Khi quá trình là liên tục
2.1.1.2 Khi quá trình là rời rạc
2.1.2 Điều kiện đủ cho hàm học kiểu P khi sử dụng ma trận hàm truyền (quá
trình MIMO)
2.1.3 Kiểm chứng chất lượng hội tụ nhờ mô phỏng
2.2 Xác định online tham số hàm học theo tiêu chuẩn tối ưu bằng cách
cực tiểu hóa tổng bình phương sai lệch bám

iii

16
16
18
19


21

22
23
23
24
24
25
27


2.2.1 Chứng minh tính cần và đủ cho điều kiện (2.15)
2.2.2 Xác định online tham số hàm học tối ưu theo tổng bình phương sai lệch
bám ở đầu ra
2.2.3 Kiểm chứng chất lượng hội tụ của tham số hàm học tối ưu online bằng
mô phỏng
2.3 Xác định online tham số hàm học khơng dựa vào mơ hình (giải pháp
thơng minh)

32

2.3.1 Nguyên tắc xác định online tham số hàm học
2.3.1.1 Trường hợp hệ là SISO
2.3.1.2 Trường hợp hệ là MIMO
2.3.2 Khảo sát tính hội tụ
2.3.3 Kiểm chứng chất lượng hội tụ thơng qua mơ phỏng
2.4 Ổn định hóa và tuyến tính hóa khơng cần sử dụng mơ hình

32
33

34
35
35
39

2.4.1 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được nhờ phép
phân tích Taylor
2.4.2 Ứng dụng vào tuyến tính hóa ổn định hệ phi tuyến mà khơng cần sử dụng
mơ hình tốn
2.4.3 Ví dụ minh họa
2.5 Tổng kết chương 2
CHƯƠNG 3:

ỨNG DỤNG VÀO ĐIỀU KHIỂN CÁC HỆ ROBOT CÔNG
NGHIỆP

27
29
30

39
39
41
43

45

3.1 Tổng quan về các phương pháp điều khiển đã có

46


Phương pháp điều khiển rõ
Phương pháp điều khiển thích nghi sử dụng nghịch đảo mơ hình
Phương pháp điều khiển thích nghi Li-Slotine
Phương pháp điều khiển trượt
Bù bất định bằng mạng neural
Điều khiển học lặp
Xác nhận qua mô phỏng khả năng không đảm bảo được chất lượng của
điều khiển truyền thống khi trong hệ xuất hiện lỗi
3.2 Đề xuất cấu trúc điều khiển hai mạch vịng khơng sử dụng mơ hình
tốn của robots (điều khiển thông minh)

46
46
47
48
48
49

3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
3.1.6
3.1.7

3.2.1 Nhiệm vụ của bộ điều khiển vòng trong
3.2.2 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được
3.3 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học tối

ưu online đã đề xuất
3.3.1 Điều khiển vòng trong bằng bộ điều khiển tuyến tính hóa thơng minh nhờ
phản hồi trạng thái
3.3.2 Điều khiển vịng ngồi bằng bộ điều khiển học lặp
3.3.3 Thuật toán điều khiển

iv

50
53
53
54
55
56
58
59


3.4 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học
online thông minh đã đề xuất

60

3.4.1 Thiết kế bộ điều khiển
3.4.1.1 Nội dung của hai mạch vòng điều khiển
3.4.1.2 Thuật toán điều khiển
3.4.2 Kiểm chứng chất lượng bằng mô phỏng
3.5 Tổng kết chương 3

60

60
61
62
66

CHƯƠNG 4:

ỨNG DỤNG VÀO ĐIỀU KHIỂN HỆ PHẢN ỨNG HÓA HỌC
KHUẤY TRỘN LIÊN TỤC

67

4.1 Sơ lược về bài toán điều khiển hệ CSTR và các phương pháp điều
khiển hiện có
4.2 Đề xuất hai giải pháp điều khiển
4.3 Triển khai cấu trúc điều khiển theo đề xuất thứ nhất

67
69
71

Thiết kế bộ điều khiển vòng trong
Thiết kế bộ ước lượng thành phần bất định hàm
Thiết kế bộ điều khiển học lặp
Thuật toán điều khiển
Kiểm chứng chất lượng bằng mô phỏng
4.3.5.1 Khi đầu ra là nhiệt độ
4.3.5.2 Khi đầu ra là nồng độ
4.4 Triển khai cấu trúc điều khiển theo đề xuất thứ hai


71
73
75
76
76
77
80
82

Thiết kế bộ ước lượng thành phần bất định hàm
Thiết kế bộ điều khiển học lặp
Thuật tốn điều khiển
Kiểm chứng chất lượng bằng mơ phỏng
4.4.4.1 Kết quả mô phỏng khi đầu ra là nhiệt độ
4.4.4.2 Kết quả mô phỏng khi đầu ra là nồng độ
4.5 Tổng kết chương 4

84
85
85
86
87
89
92

KẾT LUẬN VÀ KIẾN NGHỊ

94

4.3.1

4.3.2
4.3.3
4.3.4
4.3.5

4.4.1
4.4.2
4.4.3
4.4.4

Các đóng góp mới của luận án
Những vấn đề cịn tồn tại và hướng giải quyết

94
94

Danh mục các cơng trình đã cơng bố của luận án

96

Tài liệu tham khảo

97

Phụ lục chương trình

102

v



DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt
SISO
MIMO
CSTR
ILC
NCS
LA
UB
UUB
đ.p.c.m
BIBO
ISS

Dạng đầy đủ bằng tiếng
Anh
Single Input Single Output
Multiple Input Multiple
Output
Continuous stirred tank
reactor
Iterative learning control

Ý nghĩa
Hệ một vào một ra
Hệ nhiều vào nhiều ra
Hệ phản ứng hóa học
khuấy trộn liên tục
Điều khiển học lặp

Nghiên cứu sinh
Luận án

Ultimate bounded
Uniformly ultimately
bounded
điều phải chứng minh
bounded input – bounded
output
Input to state stable

DANH MỤC CÁC BẢNG

vi


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Nguyên lý làm việc của điều khiển học lặp với hệ truyền thống
Hình 1.2: Mơ tả q trình huấn luyện bộ điều khiển học lặp
Hình 1.3: Nguyên lý điều khiển học lặp truyền thẳng
Hình 1.4: Một số dạng robots cơng nghiệp
Hình 1.5: Cấu trúc vật lý cơ bản của một hệ CSTR
Hình 2.1: Đề xuất cấu trúc điều khiển truyền thẳng thơng minh
Hình 2.2: Kết quả mơ phỏng sau 2 lần thử
Hình 2.3: Kết quả mơ phỏng sau 5 lần thử.
Hình 2.4: Kết quả điều khiển bám sau 2 lần thử.
Hình 2.5: Kết quả điều khiển bám sau 4 lần thử.
Hình 2.6: Kết quả điều khiển bám sau 2 lần thử khi sử dụng (2.26)
Hình 2.7: Kết quả điều khiển bám sau 5 lần thử khi sử dụng (2.26)
Hình 2.8: Tham số học và sai lệch bám thay đổi theo số lần thử với (2.26)

Hình 2.9: Tham số học và sai lệch bám thay đổi theo số lần thử với (2.29)
Hình 2.10: Kết quả điều khiển bám khi sử dụng (2.29)
Hình 2.11: Kết quả tuyến tính hóa phản hồi cho 2 trường hợp có sử dụng
và khơng sử dụng mơ hình tốn của đối tượng
Hình 3.1: Robot planar hai bậc tự do
Hình 3.2: Điều khiển truyền thống bằng bộ điều khiển rõ
Hình 3.3: Điều khiển truyền thống với nghịch đảo mơ hình
Hình 3.4: Điều khiển truyền thống với thích nghi Li-Slotine
Hình 3.5: Đề xuất cấu trúc 2 vịng điều khiển
Hình 3.6: Các thời điểm ước lượng thơng minh giá trị đạo hàm trạng thái
Hình 3.7: Đáp ứng vị trí của khớp thứ nhất khi sử dụng (2.26)
Hình 3.8: Đáp ứng vị trí của khớp thứ hai khi sử dụng (2.26)
Hình 3.9: Sự thay đổi tham số hàm học thứ nhất khi sử dụng (2.26)
Hình 3.10: Sự thay đổi tham số hàm học thứ hai khi sử dụng (2.26)
Hình 3.11: Sự thay đổi tham số hàm học thứ nhất khi sử dụng (2.29)
Hình 3.12: Sự thay đổi tham số hàm học thứ hai khi sử dụng (2.29)
Hình 4.1: Hệ CSTR
Hình 4.2: Đề xuất giải pháp điều khiển thứ nhất
Hình 4.3: Đề xuất giải pháp điều khiển thứ hai
Hình 4.4: Đáp ứng của kênh nhiệt độ sau 20 lần thử
Hình 4.5: Đáp ứng của kênh nhiệt độ sau 150 lần thử
Hình 4.6: Sự thay đổi tương ứng của kênh nồng độ sau 150 lần thử
Hình 4.7: Kết quả ước lượng nhiễu d cho điều khiển bù
Hình 4.8: Đáp ứng của kênh nồng độ sau 30 lần thử
Hình 4.9: Đáp ứng của kênh nồng độ sau 200 lần thử
Hình 4.10: Sự thay đổi tương ứng của kênh nhiệt độ sau 200 lần thử
Hình 4.11: Kết quả ước lượng nhiễu d cho điều khiển bù
Hình 4.12: Đáp ứng của kênh nhiệt độ sau 10 lần thử
Hình 4.13: Đáp ứng của kênh nhiệt độ sau 100 lần thử
Hình 4.14: Sự thay đổi tương ứng của kênh nồng độ sau 100 lần thử

Hình 4.15: Kết quả ước lượng nhiễu cho điều khiển bù (1s đầu tiên)
vii

6
9
12
17
19
22
26
26
31
31
36
36
37
37
38
43
51
52
52
52
53
56
63
63
64
64
65

65
67
70
70
78
78
79
79
80
81
81
82
87
88
88
89


Hình 4.16: Đáp ứng của kênh nồng độ sau 15 lần thử
Hình 4.17: Đáp ứng của kênh nồng độ sau 150 lần thử
Hình 4.18: Sự thay đổi tương ứng của kênh nhiệt độ sau 150 lần thử
Hình 4.19: Nhiễu tổng  và kết quả ước lượng sau 1s
Hình 4.20: Kết quả ước lượng nhiễu tổng  sau 5s

viii

90
90
91
91

92


MỞ ĐẦU
1.

Ý nghĩa thực tiễn và tính cấp thiết của đề tài

Rất nhiều hệ thống sản xuất trong công nghiệp hiện đang hoạt động bởi bộ
điều khiển được thiết kế dựa trên mơ hình tốn của q trình, của đối tượng điều
khiển (gọi là hệ điều khiển truyền thống). Ở những hệ điều khiển truyền thống này
thì sau một khoảng thời gian làm việc đủ lâu, chắc chắn trong các vật liệu chế tạo
thiết bị điều khiển, đối tượng sẽ sinh ra thay đổi về cơ cấu vật lý, dẫn đến chất
lượng điều khiển khơng cịn được đảm bảo như thủa ban đầu.
Giải pháp đơn giản để hỗ trợ cho hệ truyền thống mà ở đó xuất hiện những lỗi
tương tự như trên, là phương pháp điều khiển học lặp. Với điều khiển học lặp,
người ta không cần phải chỉnh định lại bộ điều khiển truyền thống, không cần can
thiệp sâu vào hệ thống đã có. Bởi vậy đề tài là có ý nghĩa thực tiễn.
Tuy nhiên, điều khiển học lặp không áp dụng thành công cho mọi lớp hệ, nhất
là những hệ mất ổn định. Chất lượng mà bộ điều khiển học lặp mang lại phụ thuộc
rất nhiều vào tính chất động học và vào việc chọn hợp lý luật chỉnh định. Vì vậy
việc nghiên cứu, tìm ra giải pháp thông minh để can thiệp sơ bộ trước vào hệ, tạo
khả năng áp dụng được điều khiển học lặp cho nó, cũng như xác định được luật
chỉnh định áp dụng được cho nhiều lớp hệ.

2.

Mục đích và nhiệm vụ của luận án

Mục đích của luận án là sử dụng bộ điều khiển học lặp có hàm học tuyến tính

để điều khiển các quá trình phi tuyến. Để thực hiện được mục đích đề ra này, luận
án đặt ra ba nhiệm vụ chính sau:
 Xác định được nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm
quá khứ cho bộ điều khiển học lặp. Sẽ là tốt nhất nếu nguyên tắc hiệu chỉnh này
áp dụng được cho một lớp rộng các đối tượng khác nhau (có cấu trúc vật lý khác
nhau, mơ tả bởi các mơ hình tốn khác nhau). Nói cách khác, sẽ là tốt nhất nếu
việc hiệu chỉnh lại tín hiệu điều khiển, kể cả việc chọn tham số hội tụ cho hàm
học, không phụ thuộc vào mơ hình tốn của q trình.
 Nếu xem sai lệch mơ hình tốn của q trình và sai lệch của cơ cấu chấp hành
như nhiễu tổng (lumped disturbances) thì luận án cần phải ước lượng thơng
minh được thành phần nhiễu tổng này, kể cả các thành phần bất định hàm, mà
khơng sử dụng đến mơ hình tốn của hệ. Điều này, thông qua việc điều khiển bù
nhiễu tổng, sẽ mở rộng được phạm vi ứng dụng của phương pháp điều khiển kết
hợp giữa ILC và các phương pháp truyền thống.
 Thiết kế thuật toán điều khiển dựa trên hai mục tiêu trước để điều khiển hai đối
tượng làm việc theo mẻ trong công nghiệp là robots và hệ phản ứng hóa học
khuấy trộn liên tục.

1


3.

Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu của luận án là các quá trình cơng nghiệp có tính phi
tuyến. Luận án sẽ tập trung vào 2 đối tượng điển hình với hai đặc tính động học
hồn tồn khác nhau là robot cơng nghiệp và hệ phản ứng hóa học khuấy trộn liên
tục.
Phạm vi nghiên cứu của luận án là sử dụng các hàm học tuyến tính để điều

khiển các q trình phi tuyến. Điều này là không thể nếu chỉ áp dụng trực tiếp các
hàm học tuyến tính. Bởi vậy phạm vi nghiên cứu đề ra của luận án gồm: Dựa trên
những kết quả nghiên cứu đã có về điều khiển học lặp, về các cơng thức hiệu chỉnh tín hiệu
điều khiển để đánh giá ưu nhược điểm của chúng, những vấn đề còn tồn tại và nhất là phân
tích, đánh giá khả năng có thể khắc phục được các vấn đề cịn tồn tại đó.

 Dựa vào kết quả phân tích trên, luận án cần xây dựng được phương pháp cụ thể
để triển khai việc khắc phục các vấn đề còn tồn tại. Trong phần này luận án sẽ
đề cao những phương pháp giải quyết thơng minh. Luận án xây dựng thuật tốn
chỉnh định thích nghi tham số hàm học tuyến tính để điều khiển các q trình
phi tuyến
 Khơng dừng lại ở việc chỉ sử dụng học lặp để nâng cao chất lượng cho các hệ
điều khiển truyền thống hiện có, luận án (LA) cịn hướng tới bài tốn xây dựng
bộ điều khiển học lặp cho những hệ chưa có bộ điều khiển truyền thống. Do
điều khiển học lặp không áp dụng được cho mọi lớp hệ, nên để giải quyết bài
toán đặt ra này, LA sẽ nghiên cứu can thiệp sơ bộ trước vào các quá trình phi
tuyến bằng bộ điều khiển bù thơng minh sao cho nó thích hợp với hàm học
tuyến tính có tham số thay đổi thích nghi, sao cho sau đó bộ điều khiển học lặp
lại là áp dụng được (học lặp gián tiếp), đặc biệt là với học lặp tuyến tính.

4.

Phương pháp nghiên cứu

Để đạt được mục tiêu đặt ra của đề tài, luận án sử dụng hai phương pháp
nghiên cứu chính sau:
 Nghiên cứu lý thuyết:
1) Xác định điều kiện hội tụ cho cho các q trình học tuyến tính, từ đó chọn
được tham số học tối ưu cho hàm học của điều khiển học lặp.
2) Xây dựng phương pháp nhận dạng nhiễu nói riêng và các thành phần bất

định hàm nói chung có trong đối tượng điều khiển mà không cần sử dụng
đến mô hình tốn của đối tượng điều khiển, phục vụ điều khiển bù sai lệch
mơ hình, tiến tới mở rộng được được phạm vi ứng dụng của bộ điều khiển
học lặp cho nhiều lớp đối tượng khác nhau, bao gồm cả những đối tượng, các
q trình khơng ứng dụng trực tiếp được điều khiển học lặp.
 Kiểm chứng kết quả lý thuyết bằng mơ phỏng với những đối tượng cơng nghiệp
có tính chất động học khác xa nhau, bản chất vật lý cũng khác nhau.

2


5.

Bố cục của luận án

Nội dung của luận án được trình bày trong 4 chương và một chương kết luận,
được phân chia theo chủ đề phải nghiên cứu như sau:
 Chương 1 nêu tổng quan các kết quả đã có liên quan đến điều khiển học lặp,
đánh giá tính hội tụ của q trình học. Từ đó phân tích, đưa ra các nhận xét về
những vấn đề còn tồn tại, chưa được xử lý.
 Chương 2 trình bày một số kết quả bổ sung về việc xác định tham số cho hàm
học tuyến tính, đảm bảo tính hội tụ cho quá trình học. Cũng ở chương này, các
phương pháp được trình bày gồm có cả phương pháp sử dụng mơ hình, kể cả
phương pháp tối ưu nhằm tăng tốc độ hội tụ cho q trình học và phương pháp
khơng sử dụng mơ hình.
 Chương 3 trình bày một ứng dụng các kết quả lý thuyết nêu lên ở chương 2 cho
đối tượng robots cơng nghiệp và phân tích kết quả đạt được.
 Chương 4 trình bày ứng dụng kết quả lý thuyết của luận án, đã được trình bày ở
chương 2, cho đối tượng lị phản ứng hóa học liên tục (CSTR). Khác với đối
tượng robots công nghiệp được sử dụng ở chương 3, hệ CSTR là một quá trình

chậm và khơng thể đảo ngược được, nên việc chọn nó làm đối tượng kiểm tra,
đánh giá tính hiệu quả của các kết quả lý thuyết của luận án, đã được nêu ở
chương 2 là có ý nghĩa.
 Cuối cùng, ở phần Kết luận, luận án tổng kết lại các đóng góp mới, cũng như
những định hướng cho nghiên cứu tiếp theo.

3


CHƯƠNG 1: TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ
TÍNH HỘI TỤ CỦA QUÁ TRÌNH HỌC

1.1

Điều khiển học lặp và lý do nên kết hợp với truyền thống

Nhiệm vụ cốt lõi của Điều khiển-Tự động hóa ln là phải làm cho đầu ra của
hệ thống bám theo được tín hiệu đặt mong muốn. Điều đó có nghĩa rằng, khi ký
hiệu các đầu ra của hệ và tín hiệu đặt, gồm các vector

y (t )  y1 (t ),  , yn (t )  , r (t )  r1 (t ),  , rn (t ) 
T

T

(1.1)

thì nhiệm vụ của Điều khiển-Tự động hóa là tạo ra được y  r hoặc ít nhất thì
cũng làm cho y càng gần tới r càng tốt, mà ở đó khái niệm gần được đánh giá theo
một chuẩn nào đó thích hợp của vector sai lệch bám e (t )   , t  Te có Te là

hằng số dương hữu hạn đủ lớn cho trước, trong đó e (t )  r (t )  y (t ) là sai lệch bám
và   0 là hằng số dương rất nhỏ cũng cho trước.
Đã có vơ vàn các phương pháp giúp thực hiện nhiệm vụ trên của bài toán Điều
khiển-Tự động hóa ở trên và chủ yếu chúng được xây dựng trên nền tảng lý thuyết
Lyapunov, như Lyapunov II, backstepping, backstepping thích nghi, trượt, trượt
thích nghi, tuyến tính hóa chính xác, tuyến tính hóa chính xác thích nghi, dynamic
surface control. Phần lớn các phương pháp này là dựa vào mô hình tốn mơ tả hệ
thống, tức là dựa vào mơ hình tốn mơ tả ánh xạ vào ra f p u (t )  của hệ
u (t )

y (t )  f p u (t )  .

(1.2)

trong đó

u (t )  u1 (t ),

, um (t ) 

T

là ký hiệu của vector gồm tất cả các tín hiệu đầu vào. Các phương pháp dựa vào mơ
hình (1.2) của hệ được gọi là phương pháp điều khiển truyền thống.
Tuy nhiên, cho dù đã có vơ vàn các phương pháp như vậy, song khơng phải
lúc nào cũng có được chất lượng bám e  r  y  0 hoặc e (t )   , t  Te , như
yêu cầu, đặc biệt là cho mọi bài toán. Nguyên nhân cơ bản, theo tài liệu [5], là do độ
chính xác của mơ hình (1.2) khơng đủ chính xác hoặc do nhiều tác động không thể
mô tả được tác động vào hệ thống. Chúng xuất phát có thể là do sự thiếu hụt về mặt
lý luận, hiểu biết của con người, phục vụ mơ hình hóa, để có được mơ hình chính

xác [1] (hiểu biết của con người là rất nhiều, song vẫn chưa đủ để mô tả được mọi

4


hiện tượng tự nhiên), hoặc dạng mơ hình tốn có được lại khơng thích hợp với
phương pháp điều khiển truyền thống đã có, và thậm chí cũng có thể cịn do những
tác động không ngờ xảy ra với hệ thống sau khi đã có mơ hình tốn.
Mặt khác, kể cả trong trường hợp mơ hình tốn là đủ chính xác, giúp cho ta
thiết kế được bộ điều khiển truyền thống đạt được chất lượng mong muốn, thì sau
một khoảng thời gian làm việc lâu dài, sẽ sinh ra thay đổi về cơ cấu vật lý trong các
vật liệu chế tạo thiết bị điều khiển, trong cơ cấu chấp hành. Điều này dẫn tới mơ
hình tốn có ban đầu để mơ tả đối tượng sẽ khơng cịn đủ chính xác, làm cho chất
lượng điều khiển của bộ điều khiển truyền thống đã được thiết kế cũng khơng cịn
được đảm bảo.
Để khơi phục lại chất lượng điều khiển, tất nhiên theo phương pháp truyền
thống, người ta phải xây dựng lại mơ hình toán mới cho đối tượng điều khiển (bao
gồm cả cơ cấu chấp hành), rồi dựa vào đó mà hiệu chỉnh lại tham số cho bộ điều
khiển, nếu như không muốn thay thế thiết bị mới.
Đối với các quá trình làm việc theo chu kỳ tuần hồn (robots, bình phản ứng
hóa học) thì rõ ràng việc làm trên, tức là việc thay thế thiết bị hay thiết kế lại bộ
điều khiển truyền thống, là một sự lãng phí thơng tin có từ đối tượng mà trong đó
chứa đựng sự mệt mỏi của vật liệu, về lỗi của thiết bị. Những thông tin này đều
có thể thu thập, phục vụ chẩn đốn lỗi hệ thống, vì những dữ liệu đo được đó cũng
mang tính chu kỳ. Sự lãng phí thơng tin này sẽ dẫn đến việc đội thêm chi phí sửa
chữa, bảo hành hệ thống. Do đó vấn đề đặt ra là làm thế nào sử dụng được thơng tin
chẩn đốn lỗi thiết bị để hiệu chỉnh lại tín hiệu điều khiển mà không cần phải thiết
kế mới bộ điều khiển hay thay thế mới thiết bị. Rõ ràng đây là bài toán mang ý
nghĩa thực tiễn, cả về mặt rút ngắn thời gian bảo trì thiết bị và cả về hiệu quả hoạt
động lâu dài của quá trình sản xuất. Câu trả lời cụ thể sẽ nằm ở việc cần phải nghiên

cứu kết hợp như thế nào cho hiệu quả phương pháp điều khiển thông minh (xử lý
thông tin thu thập trong quá khứ để hiệu chỉnh lại tín hiệu điều khiển cho tương lai)
với bộ điều khiển truyền thống đã có.
Ngun gốc thì có ba phương pháp điều khiển thơng minh thích hợp cho các
q trình làm việc tuần hồn nêu trên, gồm điều khiển qua các phép thử (control
peer trials), repetitive (tạm dịch là lặp đi lặp lại) và run to run (R2R). Chúng hình
thành từ yêu cầu thực tiễn của nhiều lĩnh vực tự động hóa khác nhau, được đề xuất
bởi nhiều nhóm tác giả khác nhau, có những định hướng ứng dụng khác nhau, song
đều thích hợp cho giải pháp điều khiển kết hợp đặt ra. Tất cả ba phương pháp điều
khiển thơng minh này có chung một đặc điểm là sử dụng những kết quả đo được từ
quá trình trong các chu kỳ làm việc trước đó để hiệu chỉnh lại tín hiệu điều khiển
cho chu kỳ làm việc tiếp theo. Nguyên tắc điều khiển như vậy được gọi là học trên
cơ sở kinh nghiệm của quá khứ nhằm nâng cao chất lượng điều khiển hiện tại và
tương lai, hay cịn gọi là điều khiển thơng qua quá trình học hỏi tự động. Từ đặc
điểm chung này mà phương pháp tổng quát, có tên là điều khiển học lặp, được hình
thành (gọi tắt là ILC - Iterative learning control). Đây cũng là phương pháp điều
khiển thông minh thường được lựa chọn đầu tiên để khắc phục lỗi thiết bị và lỗi hệ
thống làm việc theo chu kỳ, đảm bảo được chất lượng điều khiển là vẫn bám tín

5


hiệu đầu ra như mong muốn (output regulations). Hình 1.1 dưới đây mơ tả ngun
tắc điều khiển kết hợp này.

Hình 1.1: Nguyên lý làm việc của điều khiển học lặp với hệ truyền thống
Tất nhiên chất lượng điều khiển bởi ILC phụ thuộc chủ yếu vào việc xác định
được nguyên tắc hiệu chỉnh lại tín hiệu điều khiển từ kinh nghiệm trong quá khứ
một cách hợp lý, theo nghĩa sử dụng được tốt nhất kinh nghiệm có từ những chu kỳ
q khứ của q trình.

Do đó, bài tốn nghiên cứu kết hợp một cách hợp lý giữa điều khiển học lặp
trên cơ sở xác định nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm
quá khứ, với hệ điều khiển truyền thống, nhằm cải thiện chất lượng điều khiển mà
không cần phải thay thế mới thiết bị cũng như rút ngắn thời gian bảo dưỡng hệ
thống, là cần thiết.
1.1.1

Về nguyên lý điều khiển học lặp

Điều khiển học lặp là một hướng của điều khiển thơng minh, vì chúng khơng
sử dụng mơ hình tốn, áp dụng cho các hệ làm việc theo chu trình tuần hồn nói
chung và theo mẻ nói riêng, tức là cho hệ làm việc theo chu kỳ T cho trước. Ở
những hệ như vậy thì tín hiệu đặt r (t ) cũng phải là tín hiệu đặt dạng tuần hồn với
cùng chu kỳ T .
Điều khiển học lặp làm việc theo nguyên tắc là dựa vào tín hiệu điều khiển
u (t ) và sai lệch bám e (t )  r (t )  y (t ) trong quá khứ để chỉnh định lại tín hiệu điều
khiển u (t ) ở chu kỳ làm việc hiện tại, gọi là chu kỳ thứ k , mà khơng cần đến mơ
hình tốn, sao cho sai lệch bám ở chu kỳ k hiện tại nhỏ hơn ở các chu kỳ trước và
tiến tới e  0 hoặc e (t )   sau một vài chu kỳ làm việc nào đó. Các dữ liệu quá
khứ cũng sẽ được thu thập trong toàn bộ một chu kỳ làm việc. Vậy, nếu ký hiệu
u (t ) và e (t ) ở chu kỳ hiện tại, ký hiệu là chu kỳ thứ k , bởi u k ( ), ek ( ) , trong đó
t  kT   và 0    T thì bản chất của điều khiển học lặp là hiệu chỉnh lại u k ( )
từ các giá trị u j1 ( ), e j2 ( ) trong quá khứ, tức là phải có k  j1 và k  j 2 , được thể
hiện tổng quát qua công thức [5]

u k ( )  f Q u j1 (1 )   f L e j2 ( 2 ) 

(1.3)

6



với 0  1 , 2  T . Hàm f Q [ ] có tên gọi là Q-learning và f L [ ] có tên gọi là hàm
học. Hai hàm này đều phải được chọn trước một cách phù hợp. Công thức (1.3) ở
trên thường được gọi là luật chỉnh định hay cơng thức chỉnh định. Hình 1.1, lấy từ
tài liệu [1], minh họa nguyên tắc cập nhật, thay đổi tín hiệu điều khiển từ chu kỳ
k  1 sang chu kỳ thứ k của điều khiển học lặp. Trong q trình hiệu chỉnh tín hiệu
điều khiển từ chu kỳ này sang chu kỳ khác như vậy, và mỗi chu kỳ như vậy sẽ được
gọi là lần thử. Quá trình học sẽ chỉ kết thúc sau một số lần thử hữu hạn M , nếu đã
đạt được sai lệch bám đủ nhỏ theo yêu cầu ek ( )   ,   [0,T ) .
Tuy nhiên, việc thu thập u j1 ( ), e j2 ( ) trong q khứ có 1 , 2 là tồn bộ số
thực thuộc khoảng [0,T ) là khơng thể, vì sẽ có vô số các giá trị cần lưu giữ, nên ở
điều khiển học lặp người ta đã thay công thức chỉnh định liên tục (1.3) bằng công
thức chỉnh định rời rạc như sau

u k (i )  f Q u j1 (i1 )   f L e j2 (i2 ) 

(1.4)

với   iTs , 1  i1Ts và  2  i2Ts , trong đó 0  Ts 1 là hằng số dương chia hết
bởi T và phải rất nhỏ được chọn trước, gọi là tần số thu thập dữ liệu. Như vậy, nếu
ký hiệu N  T Ts thì cũng sẽ phải có i , i1 , i2  0,1,  , N  1 mẫu tín hiệu cần thu
thập cho mỗi chu kỳ, hay lần thử.
1.1.2

Về hàm Q-learning và hàm học

Mặc dù được nghiên cứu nhiều, song cho đến nay thực sự vẫn chưa có một
cơng trình nào đưa ra được cấu trúc chung của f Q [ ] mang ưu điểm vượt trội và
trong tương lai chắc cũng sẽ khơng có câu trả lời cho mọi lớp hệ. Kiểu hàm Qlearning f Q [ ] được nghiên cứu và áp dụng vào thực tế nhiều nhất vẫn là kiểu hàm

tuyến tính

f Q u j1 (i1 )    0 u j1 (i1  1)  1u j1 (i1 )   2 u j1 (i1  1)

(1.5)

Các tài liệu [7]-[12] cho thấy, thông qua những ví dụ ứng dụng thực tế khác nhau,
rằng khi (1.5) thỏa mãn  0  1   2  1 thì tính bền vững của hệ học lặp ứng với
thành phần bất định tần số cao sẽ được cải thiện, song khơng phải lúc nào cũng có
được tính tiệm cận e k  0 của sai lệch bám. Phổ cập, và cũng đủ mang lại được
e k  0 cho một lớp hệ nhất định, chẳng hạn như tuyến tính, là kiểu hàm (1.5) có
 0  1  0,  2  1 . Thống kê trong các cơng trình ứng dụng của điều khiển học lặp
vào các quá trình làm việc theo mẻ ở [5]-[15] thì hàm Q-learning chủ đạo, đơn giản
song vẫn hiệu quả, là hàm đồng nhất với j1  k  1 và i1  i , tức là

f Q u j1 (i1 )   u k 1 (i ) .

(1.6)

7


Tính hiệu quả của hàm Q-learning đồng nhất (1.6) khi kết hợp với hàm học f L [ ]
cũng ở dạng tuyến tính đã được chứng minh thơng qua mơ phỏng hoặc các ứng
dụng thực tế nêu trong các tài liệu [CT1],[CT4],[CT5],[1],[5]-[15].
Tương tự như vậy là các nghiên cứu về cấu trúc hàm học f L [ ] . Nhiều nghiên
cứu về cấu trúc phi tuyến của f L [ ] và ảnh hưởng của nó tới chất lượng hội tụ, song
cũng khơng có được một khẳng định nào, trong số các cơng trình đã được cơng bố ở
[1],[5]-[15] chỉ được rõ ràng rằng hàm học f L [ ] phi tuyến sẽ tốt hơn tuyến tính.
Cấu trúc hàm học phổ cập nhất vẫn là cấu trúc tuyến tính với


f L e j2 (i2 )   K1e j2 (i2  1)  K 2e j2 (i2 )  K 3e j2 (i2  1)

(1.7)

có các tham số K1 , K 2 , K 3 cần phải được chọn thích hợp.
1.1.3

Về khả năng hội tụ của luật chỉnh định

Mặc dù điều khiển học lặp, là một hình thức của điều khiển thơng minh, hồn
tồn khơng sử dụng tới mơ hình toán của đối tượng cho việc thiết kế bộ điều khiển
(model free control approach), song để phân tích được tính hội tụ của quá trình học
, N  1 hay khơng,
theo nghĩa có đạt được chất lượng bám e k (i )  0, i  0,1,
hoặc ek ( )   ,   [0,T ) và k  M với M là một giá trị hữu hạn, thì cho tới
ngày nay, người ta vẫn phải sử dụng tới mơ hình tốn (1.2) của hệ.
Chẳng hạn, khi cả hai ánh xạ vào-ra (1.2) của hệ và hàm học f L [ ] là tuyến
tính, hàm Q-learning có dạng đồng nhất (1.6), tức là khi cơng thức chỉnh định có
dạng
(1.8)
u k 1 (i )  u k (i )  f L ek (i ) 
thì các tài liệu [1],[68] đã chỉ ra rằng sẽ có được e k (i )  0, i  0,1,
điều kiện sau được thỏa mãn:
1e  f p f L  1

, N  1 nếu

(1.9)


trong đó 1e là ký hiệu của ánh xạ đồng nhất và là ký hiệu của hàm hợp. Rõ ràng,
để chọn được hàm học tuyến tính f L [ ] thỏa mãn (1.9) nhằm đảm bảo tính hội tụ
cho q trình học người ta cần phải biết mơ hình f p [ ] của hệ. Điều này làm cho
tính thông minh của phương pháp chưa thực sự trọn vẹn, vì vẫn cần phải có mơ hình
tốn để chọn được cơng thức chỉnh định phù hợp (mặc dù mơ hình tốn là khơng
cần cho việc thiết kế bộ điều khiển sau khi đã có cơng thức chỉnh định, như được
thể hiện ở hình 1.2 dưới đây).

8


Hình 1.2: Mơ tả q trình huấn luyện bộ điều khiển học lặp
Để thuận tiện cho việc chọn được hàm học (1.9) thỏa mãn điều kiện hội tụ
e k (i )  0, i  0,1,

,N 1

(1.10)

hoặc

ek ( )   ,   [0,T ) khi k  M

(1.11)

người ta thường chỉ tập trung triển khai (1.7) cho ba dạng tuyến tính cơ bản sau
 Hàm học kiểu P:
f ek ( j )   Kek (i )
Khi đó luật học và chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6), tức là
công thức chỉnh định (1.8) trở thành

u k 1 (i )  u k (i )  Ke k (i ) .
(1.12)
 Hàm học kiểu D:
f ek ( j )   Kek (i  1)
Tương ứng, công thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở
thành
u k 1 (i )  u k (i )  Ke k (i  1), i  0,1,  , N  1 .
(1.13)
Với hàm học kiểu D này, ở thời điểm cuối của chu trình làm việc i  N  1 nó
trở thành kiểu P, tức là
u k 1 (N  1)  u k (N  1)  Ke k (N  1)
do tại đó không tồn tại e k (N ) .
 Hàm học kiểu PD:

9


f ek ( j )   K1ek (i )  K 2ek (i  1)
Vậy, công thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở thành
u k 1 (i )  u k (i )  K1e k (i )  K 2e k (i  1), i  0,1,  , N  1 .
(1.14)
Tương ứng, ở thời điểm cuối của chu trình làm việc i  N  1 nó trở thành
u k 1 (N  1)  u k (N  1)  K1  K 2 ek (N  1)
 Hàm học kiểu PID:
f ek ( j )   K1ek (i  1)  K 2ek (i )  K 3ek (i  1) .
Khi đó cơng thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở thành
u k 1 (i )  u k (i )  K1e k (i  1)  K 2e k (i )  K 3e k (i  1) .
(1.15)
Ở thời điểm đầu i  0 và cuối i  N  1 của chu trình làm việc, nó có dạng
u k 1 (0)  u k (0)   K1  K 2 e k (0)  K 3e k (1)


u k 1 (N  1)  u k (N  1)  K1e k (N  2)  K 2  K 3 e k (N  1)
do tại những thời điểm đó khơng tồn tại e k (1) và e k (N ) .
Bên cạnh ba dạng hàm học tuyến tính ở trên thì các tài liệu [8]-[15] cịn đưa ra
nhiều dạng khác nhau nữa, gồm cả cả các hàm học phi tuyến, song chất lượng điều
khiển mà những hàm học này mang lại cho hệ là chưa rõ ràng, nhất là sự cải tiến về
tính hội tụ cho q trình học và lớp các hệ sử dụng được chúng cũng khơng được
phân tích chi tiết.
Với những dạng hàm học tuyến tính cơ bản này, các tài liệu [1],[5]-[15] đã chỉ
ra được điều kiện đủ để chọn tham số K1 , K 2 , K 3 đảm bảo tính hội tụ (1.11) cho
trường hợp hệ ban đầu là tuyến tính mơ tả bởi ánh xạ vào-ra (1.2) có dạng cụ thể
trong không gian trạng thái là
x  Ax  Bu
(1.16)
y  C x

trong đó:
 A  Rnn , B  Rnm , C  Rmn lần lượt là các ma trận hệ thống, ma trận điều
khiển và ma trận đầu ra,
 x (t )  Rn , u (t )  Rm , y (t )  Rm là vector các tín hiệu trạng thái, đầu vào và
đầu ra.
 Nếu sử dụng cơng thức chỉnh định kiểu D (1.13) thì điều kiện đủ để đảm bảo
tính hội tụ cho q trình học, tham số học K cần thỏa mãn
ˆ ˆ  1,
I  CBK
(1.17)
m

trong đó I m là ký hiệu của ma trận đơn vị kiểu m  m và


10


Ts

Aˆ  e ATs , Bˆ   e At Bdt , Cˆ  C .

(1.18)

0

Có thể thấy đây là dạng riêng của (1.9) và nó sẽ khơng sử dụng được khi hệ có
ˆ ˆ  0 (ma trận có tất cả các phần tử bằng 0). Tuy nhiên, nhiều ứng dụng thực
CB
ˆ ˆ  0 vẫn tồn tại bộ điều khiển
tế cho thấy ngay cả khi hệ tuyến tính (1.16) có CB
học lặp với cơng thức chỉnh định kiểu D (1.13). Điều này đặt ra cho luận án
ˆ ˆ  0,
nhiệm vụ xác định được điều kiện cho tham số học K khi hệ có CB
 Nếu sử dụng cơng thức chỉnh định kiểu PD (1.14) thì điều kiện đủ để đảm bảo
tính hội tụ cho q trình học, các tham số học K1 , K 2 cần thỏa mãn

ˆˆ
ˆˆ
I m CBK
2  CBK1  1 .

(1.19)

Tương tự, có thể thấy sẽ không sử dụng được điều kiện đủ (1.19) nếu hệ có

ˆ ˆ  0 . Bởi vậy, tương tự như ở trường hợp sử dụng công thức chỉnh định kiểu
CB
D, nhiệm vụ của luận án ở đây cũng là là xác định được điều kiện cho hai tham
ˆ ˆ  0 để quá trình học là hội tụ.
số học K1 , K 2 khi hệ có CB
 Nếu sử dụng công thức chỉnh định kiểu PID (1.15) thì điều kiện đủ để đảm bảo
tính hội tụ cho quá trình học, các tham số học K1 , K 2 , K 3 cần thỏa mãn

ˆˆ
ˆˆ
I m CBK
3  CB  K 2  K1   1 .

(1.20)

Một lần nữa ta lại thấy điều kiện đủ (1.20) là khơng sử dụng được khi hệ có
ˆ ˆ  0 . Bởi vậy, nhiệm vụ xác định được một điều kiện tổng quát hơn để có
CB
được các tham số học K1 , K 2 , K 3 hội tụ khi mơ hình của hệ khơng thỏa mãn
ˆ ˆ  0 , là cần thiết.
điều kiện CB
1.1.4

Về việc nên kết hợp với phương pháp điều khiển truyền thống

Theo [1],[10],[12],[14],[16]-[20] thì có hai lý do cơ bản cho việc nên kết hợp
điều khiển học lặp với điều khiển truyền thống. Đó là:
1) Tránh phải xác định lại tham số điều khiển cho các bộ điều khiển truyền thống
đã có sau một thời gian làm việc lâu dài của hệ. Điều này là hữu ích vì sau một
khoảng thời gian làm việc hệ truyền thống khơng cịn đảm bảo được chất lượng

đề ra ban đầu, do cơ cấu thiết bị trong hệ bị mỏi mệt, phát sinh lỗi mơ hình,
khơng cịn chính xác như ban đầu, như khi ta thiết kế bộ điều khiển. Ở các
trường hợp như vậy, nếu muốn chỉnh định lại bộ điều khiển truyền thống, ta
thường phải bắt đầu từ việc xây dựng lại tham số mơ hình tốn của hệ, đến thiết
kế lại bộ điều khiển rồi cài đặt. Nhằm giảm bớt những cơng việc trên, thì theo
[1],[12],[14],[18] một giải pháp đơn giản là áp dụng học lặp để bổ sung thêm cho
bộ điều khiển truyền thống đã có. Bộ điều khiển ghép chung học lặp và truyền
thống này thường được gọi là điều khiển học lặp truyền thẳng, như đã được mơ
tả ở hình 1.1.

11


2) Điều khiển học lặp không áp dụng trực tiếp được cho tất cả các quá trình, nhất là
các quá trình khơng ổn định BIBO [10]. Do đó, để áp dụng được học lặp cho các
hệ này, người ta thường phải làm cho nó ổn định BIBO trước bằng bộ điều khiển
truyền thống [1],[16]-[20]. Xu hướng ổn định hóa để áp dụng được học lặp này
có tên gọi là điều khiển học lặp gián tiếp, (tên tiếng Anh là indirect iterative
learning control).
Có thể thấy bộ điều khiển kết hợp học lặp và truyền thống nêu ở trên khơng
cịn mang ý nghĩa thơng minh thuần túy nữa, vì dù sao nó vẫn phải cần tới mơ hình
tốn của hệ thống. Do đó, luận án cũng đặt ra một nhiệm vụ nữa là ổn định hóa
BIBO (bound input – bound output) hoặc ISS (input to state stable) hoặc UB/UUB
(ultimately bounded / uniformly ultimately bounded) một cách thông minh cho hệ,
tức là không sử dụng mơ hình tốn của hệ, rồi sau đó mới áp dụng học lặp cho
nhiệm vụ điều khiển bám ở đầu ra. Ngồi ra, khi nghiên cứu về tính hội tụ của quá
học cũng như chất lượng bám tín hiệu đặt, NCS sẽ sử dụng thống nhất phương pháp
phân tích của lý thuyết hệ thống kết hợp 1 chiều và 2 chiều (một chiều theo k và
chiều còn lại theo i ).


Hình 1.3: Nguyên lý điều khiển học lặp truyền thẳng.

1.2

Tổng quan về tình hình nghiên cứu và các vấn đề còn tồn tại

Tư tưởng của điều khiển học lặp được ra đời từ năm 1978 với bài báo viết
bằng tiếng Nhật của Uchiyama [6]. Cho tới khi có những công bố tương tự bằng
tiếng Anh như của Arimoto năm 1984 [7], hay Furuta [8] năm 1987 thì giới học
giả trên thế giới mới được biết đến tư tưởng điều khiển thơng minh này. Và từ đó nó
đã được nghiên cứu, bổ sung với tốc độ rất nhanh, như được nhận định ở [5],[9] với
hơn 4000 bài báo được công bố cho đến năm 2016 [11],[15] gồm nhiều ứng dụng
thực tế khác nhau [9],[10]. Cũng theo những tài liệu này thì thực ra trước đó đã có
nhiều cơng trình nghiên cứu độc lập, có bản chất giống như học lặp, chẳng hạn như
điều khiển hệ repetitive hay điều khiển run to run [14], song chỉ từ khoảng giữa thập
niên 1980-1990 chúng mới được kết nối lại với nhau thành một trường phái chung

12


là điều khiển dựa vào dữ liệu đo được trong những chu kỳ làm việc quá khứ để hiệu
chỉnh lại tín hiệu điều khiển cho chu kỳ làm việc hiện tại, với tên gọi chung là Điều
khiển học lặp (Iterative learning control – ILC).
Các cơng trình liên quan tới ILC là rất nhiều và đa dạng, chủ yếu là để cải
thiện chất lượng điều khiển của các q trình cơng nghiệp, như robot, hệ thống điều
khiển bằng máy tính (CNC), chế biến hóa chất, xử lý nước, chế biến thực phẩm,
động cơ không đồng bộ, dây chuyền sản xuất . Các cơng trình ứng dụng này đều
cho thấy được ưu điểm nổi trội của ILC khi được áp dụng vào thực tế.
Phần lớn các cơng trình nghiên cứu về ILC được công bố dồn dập trong một
khoảng thời gian không dài, từ 1984 đến đầu thập niên 2000-2010, và do nhiều

nhóm nghiên cứu khác nhau trên thế giới thực hiện. Đầu tiên có thể kể đến là nhóm
các nhà điều khiển và tự động hóa của Nhật như Arimoto, Kawamura và Miyazaki
[7],[21]-[25], nhóm của các nhà khoa học tại Ý [26]-[29], của Hà Lan [18],[19], của
Hàn Quốc-Mỹ [9],[11],[16], của Trung Quốc [12],[14],[17]  Đặc biệt, tại hội nghị
Châu Á về Điều khiển năm 1997 tại Hàn Quốc thì có hơn 30 bài báo cáo là về ILC
cùng các ứng dụng của nó.
Về khả năng phát triển lý thuyết, định hướng mở rộng ứng dụng vào thực tế
của ILC, thì do số lượng các công bố là rất lớn, như khẳng định ở [9],[14] nên ở đây
luận án chỉ có thể tập trung vào những nét cơ bản nhất trong quá trình phát triển lý
thuyết của ILC. Nhiều tài liệu cho rằng ILC là bộ điều khiển thích nghi. Tuy nhiên
theo [10] thì ILC khơng hồn tồn mang tính thích nghi, vì trong khi ở điều khiển
thích nghi hiệu chỉnh lại bộ điều khiển, bản chất là một hệ động học, thì ILC lại hiệu
chỉnh lại tín hiệu điều khiển. Tương tự, ILC cũng khác so với hệ thống điều khiển
thông minh bằng mạng neural ở chỗ nó khơng hiệu chỉnh lại tham số bộ điều khiển
mà chỉ chỉnh sửa lại tín hiệu điều khiển theo nguyên lý chung nêu ở (1.4). Các
nghiên cứu này tập trung chủ yếu vào xây dựng điều kiện cho hàm Q-learning f Q
và hàm học f L , sao cho có được tính hội tụ e k  0 của sai lệch bám. Tuy nhiên,
mặc dù được nghiên cứu nhiều, song cho đến nay vẫn chưa có một cơng trình nào
đưa ra được cấu trúc chung của f Q mang ưu điểm vượt trội và trong tương lai chắc
cũng sẽ khơng có câu trả lời cho mọi lớp hệ. Kiểu hàm Q-learning f Q được nghiên
cứu nhiều nhất vẫn là dạng tuyến tính (1.5) và (1.7). Chẳng hạn các ứng dụng vào
hệ thống sản xuất theo dây chuyền (manufactoring), robot công nghiệp, xử lý nước,
điều khiển đóng mở van cơng nghiệp, điều khiển nhiệt độ, xe tự hành, hệ nhiều vật
có cơ cấu nối đàn hồi đều chỉ cần sử dụng f Q tuyến tính [16],[30]-[36]. Ngồi ra,
trong tài liệu [9] cịn cung cấp bảng tổng kết các kết quả ứng dụng của ILC vào thực
tế gồm 59 cơng trình cho robotics, hệ có khớp nối đàn hồi, hệ có khớp nối mềm, hệ
phối hợp nhiều robots (đa tác tử) và 54 cơng trình về xe tự hành, lị phản ứng hóa
chất, các hệ cơ khí, lị phản ứng hạt nhân cơng suất nhỏ. Tất cả những ững dụng
này cũng đều chỉ sử dụng cơ cấu chỉnh định (1.3) và (1.4) dạng tuyến tính, tức là
đều chỉ sử dụng hàm f Q và f L tuyến tính.


13


Tương tự như vậy là các nghiên cứu về cấu trúc hàm học f L . Nhiều nghiên
cứu về cấu trúc phi tuyến của f L và ảnh hưởng của nó tới chất lượng hội tụ, song
cũng khơng có một khẳng định nào chỉ được rõ ràng rằng f L phi tuyến sẽ tốt hơn
tuyến tính, chẳng hạn sẽ tốt hơn các dạng hàm học kiểu D, PD, hay PID đã được
thống kê ở trên, tại các công thức (1.12)-(1.15).
Bởi vậy, cũng theo ý kiến riêng của NCS, thì có lẽ ta khơng nên tìm câu trả lời
về cấu trúc phi tuyến hữu hiệu của f Q và f L mà nên tập trung vào bài toán xác
định tham số hội tụ tốt cho f L tuyến tính. Hơn thế nữa, xuất phát từ nhận định của
[9],[10],[14] rằng sẽ không thể có được Q-learning f Q và hàm học f L có khả năng
áp dụng hữu hiệu được cho mọi q trình. Thay vào đó ta nên kết hợp ILC với
những phương pháp điều khiển truyền thống thích hợp, hoặc các phương pháp điều
khiển BIBO hóa hay UUB hóa thơng minh nào đó, để có thể ứng dụng được ILC
(điều khiển ILC gián tiếp khơng cần mơ hình tốn). Từ nhận xét đó, NCS sẽ định
hướng cho nghiên cứu của mình là xác định tham số mang tính hội tụ tốt cho các
hàm học f L tuyến tính có khả năng kết hợp được với bộ điều khiển ổn định hóa
BIBO, ISS cho hệ dừng, hay UUB cho hệ khơng dừng.
Bên cạnh các nghiên cứu về cấu trúc thích hợp của công thức chỉnh định (1.4)
cũng như điều kiện cho tham số hàm học tuyến tính để q trình học được hội tụ,
cũng cịn có nhiều nghiên cứu xoay quanh tính ổn định bền vững (với nhiễu) của hệ
điều khiển học lặp. Các tài liệu [37]-[39] đã cung cấp một giải pháp phân tích tính
ổn định dưa trên lý thuyết hệ thống hai chiều, gồm một chiều theo biến T , hay k
của chu kỳ làm việc và một chiều theo biến  thuộc một chu kỳ, tức là theo i .
Trên đây là những kết quả nghiên cứu ở nước ngồi. Cịn về tình hình nghiên
cứu ở trong nước thì mặc dù đã có từ vài thập niên trước đây, song những cơng trình
nghiên cứu ứng dụng ILC vào cơng nghiệp ở Việt Nam cịn rất khiêm tốn. Theo
NCS được biết, thì hiện mới chỉ có một ứng dụng vào điều khiển vi động cơ nhiệt

của tác giả N.T. Dũng và cộng sự là đã được áp dụng ở Việt Nam [68]. Những cơng
trình cịn lại của các tác giả khác trong nước chủ yếu chỉ ở mức độ công bố lý thuyết
về xác định tham số hội tụ cho hàm học f L tuyến tính [67],[69]. Điều đó cũng đặt
ra nhiệm vụ cho luận án là cần triển khai ứng dụng ILC vào các đối tượng cụ thể có
tính phổ biến ở Việt Nam, bằng cách bổ sung thêm những điều kiện chọn tham số
hàm học tuyến tính cho những đối tượng không thỏa mãn điều kiện đủ đã có, được
xây dựng trên nền mơ hình tốn trong không gian trạng thái (1.16). Chẳng hạn như
xây dựng điều kiện đủ cho việc xác định tham số hàm học cho hệ tuyến tính trên cơ
sở mơ hình hàm truyền (trong miền phức).
Tất nhiên, ở hệ tuyến tính thì từ mơ hình trạng thái ta cũng có được mơ hình
hàm truyền, nên xét cho cùng chúng chỉ là một cách biểu diễn khác, cách biểu diễn
gián tiếp, của điều kiện (1.17), (1.19) và (1.20), chứ chưa mô tả được quan hệ trực
tiếp giữa mơ hình miền phức với tham số hội tụ của hàm học, chẳng hạn như quan
hệ giữa các tham số của mơ hình hàm truyền

14


b b s 
G (s )  0 1
a 0  a1s 

 bms m
 ans n

(1.21)

 bmz m
 an z n


(1.22)

cho quá trình liên tục, hay

G (z ) 

b0  b1z 
a0  a1z 

cho quá trình rời rạc, với tham số K của hàm học tuyến tính P,D, hay K1 , K 2 của
hàm học PD, PI và K1 , K 2 , K 3 của hàm học PID.
Từ trước đến nay việc xác định tham số hàm học đều dựa trên mơ hình trạng
thái suy luận xấp xỉ về q trình, chưa có phương pháp nào được xây dựng dựa trên
hàm truyền. Do đó luận án đã bổ sung thêm nhóm phương pháp xác định tham số
hàm học tuyến tính cho các q trình phi tuyến dựa trên hàm truyền tuyến tính xấp
xỉ từng đoạn. Chi tiết về nội dung của các phương pháp bổ sung đó được luận án
trình bày ở chương 2.

1.3
1.3.1

Một số bài tốn đặt ra cho luận án
Nghiên cứu lý thuyết

Xuất phát từ phần nghiên cứu tổng quan về những kết quả đã có của học lặp,
đặc biệt là về bài tốn xác định tham số hội tụ cho hàm học, luận án tự đặt ra ba
nhiệm vụ nghiên cứu lý thuyết như sau:
1. Xác định mối quan hệ trực tiếp giữa các tham số ai ,bj của mơ hình hàm truyền
(1.21),(1.22) hoặc ma trận hàm truyền (nếu quá trình là MIMO) với tham số hội
tụ của hàm học. Luận án cũng sẽ chỉ giới hạn ở các hàm học tuyến tính cơ bản

gồm hàm học kiểu P (1.12), hàm học kiểu D (1.13), hàm học kiểu PD (1.14) và
kiểu PID (1.15).
Vấn đề nghiên cứu đặt ra ở trên của luận án là khơng trùng lặp, vì như phần tổng
quan đã cho thấy, các điều kiện hội tụ cho tham số hàm học đã có đều được xây
dựng trong khơng gian trạng thái (miền thời gian). Tất cả chúng đều chỉ là điều
kiện đủ. Điều đó nói rằng rất có thể sẽ tồn tại những tham số hàm học làm quá
trình học và chỉnh định hội tụ, song lại không thỏa mãn những điều kiện này.
Vậy làm cách nào để có thể tìm được những tham số hội tụ đó? Một cách rất tự
nhiên thì câu trả lời nằm ở chỗ các tham số đó có thể sẽ được tìm thấy thơng qua
miền mơ hình trong miền tần số (miền phức), điển hình là thông qua hàm truyền
G (s ) hoặc ma trận hàm truyền G (s ) , thay vì miền thời gian như đã làm từ trước
đến nay.
2. Xây dựng phương pháp xác định tham số hội tụ cho hàm học mà khơng cần sử
dụng đến mơ hình tốn của đối tượng điều khiển. Nếu làm được điều này,

15


phương pháp xác định tham số hàm học đó sẽ mang tính “thơng minh” và mang
lại lợi thế trong ứng dụng thực tế.
Vấn đề nghiên cứu đặt ra ở trên cũng khơng trùng lặp, vì như đã thấy cho đến
nay, các kết quả phân tích tính hội tụ của quá trình học và chỉnh định cũng như
xác định tham số cho nó ln cần tới mơ hình tốn của đối tượng điều khiển.
3. Xây dựng phương pháp nhận dạng nhiễu nói riêng và các thành phần bất định
hàm tổng nói chung, có trong đối tượng điều khiển, cũng như sai lệch mơ hình
giữa hệ khơng áp dụng được học lặp trực tiếp và hệ tương ứng áp dụng được học
lặp, mà khơng sử dụng đến mơ hình tốn của đối tượng điều khiển.
Bài toán thứ 3 này là cần thiết cho việc mở rộng khả năng ứng dụng điều khiển
học lặp cho những lớp đối tượng không ổn định mà khơng cần tới việc phải ổn
định nó trước bằng các phương pháp điều khiển truyền thống. Nói cách khác,

nếu bài tốn đặt ra này được giải quyết thì ngun lý điều khiển học lặp sẽ áp
dụng được ngay cho hệ không ổn định, kể cả hệ phi tuyến, chứ không cần phải
sử dụng tới cấu trúc điều khiển học lặp truyền thẳng hay điều khiển học lặp tiền
xử lý vốn vẫn thường được sử dụng từ trước tới nay cho các hệ (phi tuyến)
không ổn định theo nhiều nghĩa, bao gồm khơng ổn định BIBO, ISS hay UB
(UUB).
Ngồi ra, ta cũng cịn thấy thêm là bài tốn thứ 3 này cũng khơng trùng lặp, vì
cho tới nay lời giải của phần lớn các bài tốn ổn định hóa bằng phản hồi đều cần
tới mơ hình tốn của hệ.
1.3.2

Nghiên cứu thực nghiệm: Hai quá trình cơng nghiệp được sử
dụng để kiểm chứng kết quả lý thuyết

Để kiểm chứng kết quả lý thuyết, cụ thể là kiểm chứng kết quả thu được từ ba
bài toán lý thuyết đặt ra ở trên, luận án sẽ áp dụng chúng cho hai quá trình làm việc
theo mẻ điển hình trong cơng nghiệp là:
 Robots cơng nghiệp. Đây là đối tượng làm việc theo chu kỳ thường gặp trong
các nhà máy lắp ráp, chế biến, dây chuyền sản xuất tự động.
 Hệ phản ứng khuấy trộn liên tục. Đây cũng là đối tượng điển hình làm việc theo
mẻ thường gặp trong các nhà máy hóa chất.
Lý do cho việc chọn hai đối tượng trên là vì chúng rất khác nhau về cấu trúc
vật lý và động học, một đối tượng có tính đáp ứng nhanh, đối tượng cịn lại đáp ứng
chậm. Điều đó sẽ càng củng cố được khả năng ứng dụng rộng rãi của phương pháp
đề xuất.
1.3.2.1 Robot cơng nghiệp
Hình 1.4 mơ tả cấu trúc vật lý khác nhau của ba dạng robots thường gặp trong
công nghiệp, gồm:

16



 Robots chuỗi (serial robots), có cấu trúc là một chuỗi kết nối các động cơ điều
khiển khớp nối theo một trình tự nhất định sao cho đầu cuối đạt được quỹ đạo
chuyển động mong muốn.
 Robots dạng sâu 6 chân (hexapod), có cấu trúc dạng "sâu bọ có chân (thường có
6 chân) để di chuyển". Nó cũng có thể được sử dụng để tạo độ nghiêng của mặt
đế dùng trong những hệ CNC, giống như robot song song.
 Robots song song (parallel robots) có các khớp chuyển động độc lập với nhau
(khác biệt so với robot chuỗi), thường được sử dụng để lắp ráp vi mạch điện tử.
Ở tất cả các robots trên thì số các biến khớp n cũng sẽ là bậc của robot. Những
robots này đều thuộc dạng đủ cơ cấu chấp hành (fully actuated).
Mặc dù được phân loại theo cấu trúc vật lý, có cơ cấu truyền động, bậc tự do
khác nhau, song tất cả chúng đều được mơ tả bởi chung một mơ hình EulerLagrange như sau:

u  d  M (q , )q  C (q , q , )q  F ( )q  g (q , )

(1.23)

trong đó u là vector n chiều mơ tả các tín hiệu đầu vào, d là vector cũng n chiều
mơ tả các tín hiệu nhiễu tác động không mong muốn vào cơ cấu chấp hành, q là
vector của n các biến khớp, M (q , ) là ma trận qn tính có số chiều n  n ,
C (q , q , )q là vector chứa các thành phần Coriolis, centrifugal của robots, F ( ) là
ma trận mô tả ảnh hưởng của ma sát, g (q , ) là vector trọng trường và  là vector
của tất cả các tham số không thể xác định được chính xác của robots.

Hình 1.4: Một số dạng robots cơng nghiệp.
Do đó tất cả những phương pháp điều khiển truyền thống, được xây dựng dựa trên
mơ hình (1.23) đều áp dụng được cho tất cả các dạng robots chuỗi, hay dạng sâu 6
chân, hay dạng robots song song.

Các phương pháp điều khiển truyền thống cho robots công nghiệp là rất nhiều,
và chúng có thể được phân chia theo chức năng như sau:

17


×