Tải bản đầy đủ (.pdf) (74 trang)

Mạng nơ ron truyền thẳng và ứng dụng trong dự báo lũ lụt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 74 trang )

..
1

.

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN XN HỊA

MẠNG NƠ RON TRUYỀN THẲNG VÀ ỨNG
DỤNG TRONG DỰ BÁO LŨ LỤT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

2

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN XN HỊA

MẠNG NƠ RON TRUYỀN THẲNG VÀ ỨNG
DỤNG TRONG DỰ BÁO LŨ LỤT
Chuyên Ngành: Khoa học máy tính
Mã số : 60.48.01
MỤC LỤC



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS. Nguyễn Long Giang

Thái Nguyên - 2014
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

3

LỜI CẢM ƠN........................................................................................................................
LỜI CAM ĐOAN..................................................................................................................
MỤC LỤC............................................................................................................................................................. 1
DANH SÁCH BẢNG........................................................................................................................................ 5
DANH SÁCH HÌNH VẼ.................................................................................................................................. 6
MỞ ĐẦU ............................................................................................................................................................... 7
Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN VỀ MẠNG NƠRON............................................................ 9
1.1. Lịch sử phát triển............................................................................................................. 9
1.2. Nơron sinh học và mạng nơron sinh học .................................................................... 10
1.3. Nơron nhân tạo .............................................................................................................. 10
1.4. Mạng nơron nhân tạo .................................................................................................... 13
1.4.1. Khái niệm .........................................................................................................13
1.4.2. Cấu trúc ............................................................................................................13
1.4.3. Các đặc trƣng của mạng nơron ........................................................................15

1.5. Thủ tục học của mạng nơron ....................................................................................... 15

1.5.1. Học tham số .....................................................................................................15
1.5.2. Học cấu trúc .....................................................................................................17

1.6. Một số ứng dụng của mạng nơron............................................................................... 17
Chƣơng 2. MẠNG NƠRON TRUYỀN THẲNG VÀ THUẬT TOÁN LAN TRUYỀN
NGƢỢC ...............................................................................................................................................................19
2.1. Kiến trúc cơ bản của mạng nơron truyền thẳng ......................................................... 19
2.2. Khả năng thể hiện của mạng nơron truyền thẳng ...................................................... 20
2.3. Cơ chế học của mạng nơron truyền thẳng .................................................................. 21
2.4. Thuật toán lan truyền ngƣợc của sai số (Back-Propagation) .................................... 22
2.4.1. Mơ tả thuật tốn BP .........................................................................................22
2.4.2. Sử dụng thuật toán BP .....................................................................................27
2.4.3. Một số cải tiến của thuật toán BP ....................................................................32
2.4.4. Nhận xét chung về thuật toán BP.....................................................................37

2.5. Một số thuật toán tối ƣu khác....................................................................................... 39
2.5.1. Thuật tốn giả luyện kim (Simulated annealing) .............................................39

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

4

2.5.2. Thuật giải di truyền ..........................................................................................40

Chƣơng 3. ỨNG DỤNG MẠNG NƠRON TRUYỀN THẲNG TRONG DỰ BÁO DỮ LIỆU
.................................................................................................................................................................................42
3.1. Sơ lƣợc về ứng dụng mạng nơron trong dự báo dữ liệu ........................................... 42
3.2. Thu thập, phân tích và xử lý dữ liệu............................................................................ 42

3.2.1. Kiểu của các biến .............................................................................................43
3.2.2. Thu thập dữ liệu ...............................................................................................44
3.2.3. Phân tích dữ liệu ..............................................................................................45
3.2.4. Xử lý dữ liệu ....................................................................................................45
3.2.5. Tổng hợp ..........................................................................................................47

3.3. Chƣơng trình dự báo dữ liệu ........................................................................................ 48
3.3.1. Các bƣớc chính trong q trình thiết kế và xây dựng ......................................48
3.3.2. Ứng dụng mạng nơron truyền thẳng nhiều lớp trong dự báo đỉnh lũ sông Trà
Khúc trạm Sơn Giang ..................................................................................................53
3.3.3. Chƣơng trình dự báo dữ liệu ............................................................................56

3.4. Một số nhận xét ............................................................................................................. 60
KẾT LUẬN.........................................................................................................................................................62
TÀI LIỆU THAM KHẢO ..............................................................................................................................64
PHỤ LỤC ............................................................................................................................................................66

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

5

DANH SÁCH BẢNG

Bảng 2.1. Thuật toán lan truyền ngƣợc của sai số (Thuật tốn BP) .........................27
Bảng 2.2. Các hàm kích hoạt ....................................................................................29

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


/>

6

DANH SÁCH HÌNH VẼ
Hình 1.1. Đơn vị xử lý thứ j ....................................................................................11
Hình 1.2. Hàm tuyến tính (Identity Function) .........................................................12
Hình 1.3. Hàm bƣớc nhị phân (Binary Step Function) ...........................................12
Hình 1.4. Hàm Sigmoid ...........................................................................................13
Hình 1.5 Mạng nơron truyền thẳng nhiều lớp (Feed-Forward Neural Network) ....14
Hình 1.6. Mạng hồi quy (Recurrent Neural Network) .............................................14
Hình 1.7. Sơ đồ học có thầy .....................................................................................16
Hình 2.1. Mạng nơron truyền thẳng 2 lớp ................................................................19

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

7

MỞ ĐẦU
Dự báo dữ liệu là một trong những bài toán quan trọng trong khai phá dữ liệu
và học máy nhằm tìm ra các quy luật của dữ liệu. Dự báo dữ liệu mang lại nhiều lợi
ích thiết thực phụ vụ con ngƣời, nó giúp con ngƣời nắm bắt đƣợc các quy luật vận
động trong tự nhiên và trong đời sống kinh tế xã hội. Nguyên lý của dự báo dữ liệu
là dựa vào dữ liệu lịch sử để xây dựng mơ hình nhằm dự báo các dữ liệu trong
tƣơng lai. Có rất nhiều các phƣơng pháp dự báo dữ liệu khác nhau tùy thuộc vào
từng đặc thù của các bài toán cụ thể và các nhiệm vụ khai phá dữ liệu, điển hình là
các phƣơng pháp thống kê và học máy, hệ chuyên gia, hệ hỗ trợ quyết định...Ngày
nay, các kho dữ liệu ngày càng lớn, ngày càng phức tạp và đa dạng. Để xây dựng

các mơ hình dự báo hiệu quả trên những dữ liệu khổng lồ và phức tạp này, các nhà
khoa học đã và đang nỗ lực nghiên cứu các phƣơng pháp mô phỏng tƣ duy của bộ
óc của con ngƣời nhằm xây dựng các mơ hình dự báo hiệu quả nhất, đặc biệt là các
phƣơng pháp “học có thầy”, trong đó mạng nơron nhân tạo là cơng cụ điển hình.
Mạng nơ ron nhân tạo là một lớp các mơ hình tính tốn mơ phỏng hoạt động
bộ não con ngƣời. Các mơ hình đó đều sử dụng một cấu trúc mạng trong đó các
đỉnh đƣợc gọi là các nơ ron. Các nơ ron này xử lý tín hiệu số từ mơi trƣờng bên
ngồi hoặc các nơ ron khác trong mạng gửi tới qua các kết nối và sau đó gửi tín
hiệu đến các nơ ron khác hoặc ra môi trƣờng. Mạng nơron truyền thẳng là một lớp
các mạng nơron nhân tạo đƣợc thực tiễn chứng minh là khá mạnh và hiệu quả trong
các bài toán dự báo, phân tích dữ liệu. Chúng có thể đƣợc huấn luyện và ánh xạ từ
các dữ liệu vào tới các dữ liệu ra mà không yêu cầu các dữ liệu đó phải đầy đủ.
Trong số các loại mạng tƣơng đối phổ biến thì các mạng nơron truyền thẳng nhiều
lớp, đƣợc huấn luyện bằng thuật toán lan truyền ngƣợc đƣợc sử dụng nhiều nhất.
Các mạng nơron này có khả năng biểu diễn các ánh xạ phi tuyến giữa đầu vào và
đầu ra, chúng đƣợc coi nhƣ là các “bộ xấp xỉ đa năng”. Việc ứng dụng của loại
mạng này chủ yếu là cho việc phân tích, dự báo, phân loại các số liệu thực tế. Đặc
biệt đối với việc dự báo khuynh hƣớng thay đổi của các dữ liệu tác nghiệp trong các
cơ quan, tổ chức kinh tế, xã hội,... Nếu có thể dự báo đƣợc khuynh hƣớng thay đổi
của dữ liệu với một độ tin cậy nhất định, các nhà lãnh đạo có thể đƣa ra đƣợc các
quyết sách đúng đắn cho cơ quan, tổ chức của mình.
Luận văn này đƣợc thực hiện với mục đích tìm hiểu và làm sáng tỏ một số
khía cạnh về mạng nơron truyền thẳng nhiều lớp, thuật toán lan truyền ngƣợc và
ứng dụng chúng để xây dựng mơ hình dự báo dữ liệu và thử nghiệm mơ hình với
bài tốn dự báo đỉnh lũ sơng Trà Khúc tại trạm khí tƣợng Sơn Giang.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>


8

Đối tượng nghiên cứu của luận văn là các tập (bảng) dữ liệu mẫu của lĩnh vực
dự báo lũ lụt, bao gồm tập dữ liệu huấn luyện (training), tập dữ liệu kiểm tra (test)
và tập dữ liệu xác nhận (validation). Mỗi bảng dữ liệu bao gồm các giá trị thuộc
tính đầu vào (thuộc tính điều kiện) và giá trị thuộc tính mong muốn (thuộc tính
quyết định)..
Phạm vi nghiên cứu lý thuyết là mạng nơron truyền thẳng ba lớp, phạm vi
nghiên cứu thực nghiệm là xây dựng chƣơng trình dự báo đỉnh lũ sơng Trà Khúc tại
trạm khí tƣợng Sơn Giang bằng cách áp dụng mơ hình mạng nơron truyền thẳng ba
lớp.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm. Về nghiên cứu lý thuyết: luận văn thực hiện tổng hợp các khái niệm
và các kết quả nghiên cứu về mạng nơron truyền thẳng nhiều lớp và các vấn đề liên
quan đến thuật toán lan truyền ngƣợc. Về nghiên cứu thực nghiệm: luận văn thực
hiện xây dựng mơ hình dự báo sử dụng mạng nơron truyền thẳng và thử nghiệm mơ
hình với bài tốn cụ thể nhằm sáng tỏ các vấn đề về lý thuyết.
Bố cục của luận văn gồm phần mở đầu và ba chƣơng nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Chƣơng 1 trình bày các khái niệm cơ bản về mạng nơron nhân tạo. Chƣơng 2
trình bày mơ hình mạng nơron truyền thẳng nhiều lớp và thuật toán lan truyền ngƣợc
của sai số (Back-Propagation), gọi tắt là thuật tốn BP. Chƣơng 3 trình bày các vấn
đề về mơ hình mạng nơron dự báo và xây dựng chƣơng trình dự báo đỉnh lũ sơng
Trà Khúc tại trạm khí tƣợng Sơn Giang. Cuối cùng, phần kết luận nêu những đóng
góp của luận văn, hƣớng phát triển tiếp theo.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>


9

Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN VỀ MẠNG NƠRON
1.1.

Lịch sử phát triển

Dƣới đây đƣa ra các mốc đáng chú ý trong lịch sử phát triển của mạng nơron
nhân tạo.
Cuối thế kỷ 19, sự phát triển chủ yếu là những cơng việc có sự tham gia
của cả ba ngành: Vật lý học, Tâm lý học, Thần kinh học bởi các nhà khoa
học nhƣ: Hermann von Hemholtz, Ernst Mach, Ivan Pavlov. Các cơng
trình nghiên cứu này chủ yếu đi sâu vào các lý thuyết tổng quát về Học
(Learning), Nhìn (vision) và Điều kiện (conditioning)... và khơng đƣa ra
những mơ hình tốn học cụ thể nào để mô tả hoạt động của các Nơron.
Bắt đầu vào những năm 1940 với cơng trình của Warrem McCulloch và
Walter Pitts. Họ chỉ ra rằng về ngun tắc, mạng của các nơron nhân tạo
có thể tính toán bất kỳ một hàm số học hay logic nào.
Tiếp theo là Donald Hebb, ông đã phát biểu rằng việc thuyết phản xạ cổ
điển (classical conditioning) là hiện thực bởi vì do các thuộc tính của từng
nơron riêng biệt. Ơng cũng nêu ra một phƣơng pháp học của các nơron
nhân tạo.
Ứng dụng thực nghiệm đầu tiên của các nơron nhân tạo có đƣợc vào cuối
những năm 50 cùng với phát minh của mạng perceptron và luật học tƣơng
ứng bởi Frank Rosenblatt. Mạng này có khả năng nhận dạng các mẫu.
Điều này đã mở ra rất nhiều hy vọng cho việc nghiên cứu mạng nơron.
Tuy nhiên nó chỉ có thể giải quyết một số lớp hữu hạn các bài toán.
Cùng thời gian đó, Bernard Widrow và Ted Hoff đƣa ra một thuật tốn
học mới và sử dụng nó để dạy cho các mạng nơron tuyến tính thích nghi,
mạng có cấu trúc và chức năng tƣơng tự nhƣ mạng của Rosenblatt. Luật

học Widrow-Hoff vẫn còn đƣợc sử dụng cho đến nay.
Tuy nhiên cả Rosenblatt và Widrow-Hoff đều cùng vấp phải một vấn đề
do Marvin Minsky và Seymour Papert phát hiện ra. Họ cố gắng cải tiến
luật học và mạng để có thể vƣợt qua đƣợc hạn chế này nhƣng họ đã không
thành cơng trong việc cải tiến luật học để có thể dạy đƣợc các mạng có
cấu trúc phức tạp hơn.
Do những kết quả của Minsky-Papert nên việc nghiên cứu về mạng nơron

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

10

gần nhƣ bị đình lại trong suốt một thập kỷ do ngun nhân là khơng có
đƣợc các máy tính đủ mạnh để có thể thực nghiệm.
Mặc dù vậy, cũng có một vài phát kiến quan trọng vào những năm 70.
Năm 1972, Teuvo Kohonen và James Anderson độc lập cùng phát triển
một loại mạng mới có thể hoạt động nhƣ một bộ nhớ. Stephen Grossberg
cũng rất tích cực trong việc khảo sát các mạng tự tổ chức (Self_organizing
networks).
Vào những năm 80, việc nghiên cứu mạng nơron phát triển rất mạnh mẽ cùng
với sự ra đời của PC. Hai khái niệm mới có liên quan đến sự hồi sinh này đó là:
1) Việc sử dụng các phƣơng pháp thống kê để giải thích hoạt động của một
lớp các mạng hồi quy (recurrent networks) có thể đƣợc dùng nhƣ bộ nhớ
liên hợp (associative memory) trong cơng trình của nhà vật lý học Johh
Hopfield.
2) Sự ra đời của thuật toán lan truyền ngƣợc (back-propagation) để luyện các
mạng nhiều lớp đƣợc tìm ra bởi một vài nhà nghiên cứu một cách độc lập
nhƣ: David Rumelhart, James McCelland,.... Đó cũng là câu trả lời cho

Minsky-Papert.

1.2.

Nơron sinh học và mạng nơron sinh học

Hệ thần kinh ở ngƣời có khoảng 1010 tế bào thần kinh đƣợc gọi là các nơron.
Mỗi nơron gồm có ba phần: thân nơron với nhân ở bên trong, một đầu thần kinh ra
và một hệ thống hình cây các đầu thần kinh vào. Độ lớn của các tín hiệu vào có thể
bị thay đổi khi đƣợc truyền qua các khớp thần kinh có trên các nhánh thần kinh vào.
Tỷ lệ biến đổi tín hiệu ở khớp thần kinh đƣợc gọi là độ khuyếch đại khớp và đƣợc
gọi là các trọng số trong các nơron. Theo các nghiên cứu về sinh học, chức năng
của hệ thần kinh khơng phụ thuộc nhiều vào vai trị của từng nơron đơn lẻ mà phụ
thuộc vào cách mà toàn bộ các nơ ron đƣợc nối với nhau, gọi là mạng nơron sinh
học.

1.3.

Nơron nhân tạo

Nơ ron nhân tạo là mô hình tốn học mơ phỏng nơron sinh học. Mỗi nơron
nhân tạo đƣợc gọi là một đơn vị xử lý với chức năng: nhận tín hiệu vào từ các đơn vị
phía trƣớc (hay một nguồn bên ngồi), tính tín hiệu ra từ các tín hiệu vào và lan
truyền tín hiệu ra sang các đơn vị khác[4].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

11


x0
x1

wj1

...

wjn

xn

θj

wj0

j
Σ

aj

n

aj

wjixi

zj

g(aj)


zj

j

g (aj )

i 1

Hình 1.1. Đơn vị xử lý thứ j
Mỗi tín hiệu đầu vào nơron thứ j đƣợc ký hiệu là xi với trọng số tƣơng ứng là
wji. Đại lƣợng đo tín hiệu tổng cộng đi vào nơron thứ j, ký hiệu là aj, đƣợc xác định
một cách đơn giản nhƣ sau :
aj là hàm của các tín hiệu xi và các trọng số wji, gọi là Hàm kết hợp
Hàm kết hợp là tổng các tích của tín hiệu xi và trọng số tƣơng ứng wj :
n

aj

wjixi

j

i 1

Trong đó là một tham số đƣợc gọi là ngƣỡng của nơ ron. Nếu wji>0, nơ ron
đƣợc coi là ở trong trạng thái kích thích. Nếu wji < 0, nơ ron ở trạng thái kiềm chế.
Quá trình biến đổi giá trị aj thành tín hiệu đầu ra zj đƣợc thực hiện bởi hàm
kích hoạt (hàm chuyển) phi tuyến zj= g(aj). Hàm kích hoạt phải thoả mãn các điều
kiện sau:

Tín hiệu đầu ra zj là không âm với bất kể giá trị nào của aj
g là hàm liên tục và bị chặn trong khoảng [0,1].
Những hàm thỏa mãn điều kiện trên còn đƣợc gọi là các hàm nén theo nghĩa
chúng nén tín hiệu đầu ra vào một khoảng nhỏ. Có khá nhiều hàm thoả mãn các
điều kiện trên, song trong thực tế chỉ có một số hàm thƣờng đƣợc sử dụng trong các
mạng nơ ron nhƣ sau [4].
1) Hàm tuyến tính (Linear) : g ( x) x
Nếu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm này. Đơi khi một
hằng số đƣợc nhân với net-input để tạo ra một hàm tuyến tính.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

12

g(x)
1

0
-1

0

1

x

-1


Hình 1.2. Hàm tuyến tính (Identity Function)
2) Hàm ranh giới cứng (Hard-Limiter) : Hàm này chỉ có hai giá trị là 0 và 1,
ngồi ra hàm cịn có một giá trị ngƣỡng . Tín hiệu đầu ra phụ thuộc tổng
tín hiệu đầu vào và giá trị ngƣỡng.
g ( x)

1
0

if(x
if(x

)
)

Vì hàm này rất thuận tiện khi đƣa câu trả lời có hay khơng nên nó thƣờng
xun đƣợc sử dụng cho các tín hiệu ra cuối cùng của mạng. Dạng hàm này đƣợc sử
dụng trong các mạng chỉ có một lớp.
g(x)
1

0
-1

x
0

1

2


3

Hình 1.3. Hàm bước nhị phân (Binary Step Function)
3) Hàm sigmoid (Sigmoid function (logsig))
g ( x)

1
1 e

x

Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng đƣợc huấn luyện bằng
thuật tốn BP, bởi vì nó dễ lấy đạo hàm, do đó có thể giảm đáng kể tính tốn trong
q trình huấn luyện. Mặt khác, hàm này đƣợc ứng dụng cho các bài toán mà đầu ra
mong muốn rơi vào khoảng [0,1].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

13

g(x)
1

0
-6

-4


-2

x
0

2

4

6

Hình 1.4. Hàm Sigmoid

1.4.

Mạng nơron nhân tạo

1.4.1. Khái niệm
Mạng nơ ron nhân tạo là hệ thống bao gồm nhiều nơ ron nhân tạo kết hợp với
nhau. Hệ thống này có khả năng học số liệu và tổng quát hóa từ các số liệu đƣợc
học.
1.4.2. Cấu trúc
Mạng nơ ron nhân tạo đƣợc biểu diễn bằng một đồ thị gồm một tập các nút và
các cung có hƣớng, mỗi nút tƣơng ứng với một nơ ron, các cung biểu diễn các liên
kết giữa các nơ ron. Cấu trúc mạng nơ ron gồm cơ cấu tổ chức và sơ đồ kết nối.
Cơ cấu tổ chức thƣờng đƣợc xác định bởi số lớp mạng và số nơ ron trong mỗi
lớp:
Lớp vào: Các nơron trong lớp vào gọi là các nơron vào, chúng không xử lý
thơng tin mà chỉ mã hóa mẫu đƣa vào mạng để xử lý. Thơng thƣờng, số

thuộc tính của mẫu đƣa vào mạng bằng số nơron vào, chính là số đầu vào
của mạng.
Lớp ẩn: Các nơron trong lớp này gọi là các nơron ẩn vì chúng khơng thể
quan sát trực tiếp đƣợc. Mạng có thể có một hay nhiều lớp ẩn. Chúng cung
cấp các mơ hình tốn học phi tuyến cho mạng.
Lớp ra: Các nơron ở lớp này gọi là các nơron ra, các nơron này mã hoá giá
trị hay khái niệm của các mẫu đƣa vào mạng. Ví dụ, trong bài toán phân
lớp, mỗi đầu ra là đại diện cho một lớp các đối tƣợng.
Sơ đồ kết nối xác định bởi phƣơng thức kết nối giữa các nơ ron trong mạng [4]:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

14

Mạng truyền thẳng: Luồng dữ liệu đi từ các nơ ron vào đến các nơ ron ra
chỉ đƣợc truyền thẳng. Khơng có các liên kết từ các nơ ron ra tới các nơ
ron vào trong cùng một lớp hay của các lớp trƣớc đó.
bias

bias

x0

h0

x1

y1


h1

x2

y2

h2





xl

Líp vµo

w

(1 )
ji

hm

Líp Èn


yn

w


(2)
kj

Líp ra

Hình 1.5 Mạng nơron truyền thẳng nhiều lớp (Feed-Forward Neural Network)
Mạng hồi quy: Có chứa các liên kết ngƣợc, nghĩa là các liên kết từ nơ ron
lớp ra tới nơ ron lớp vào trong cùng một lớp hoặc các lớp trƣớc đó.
h0
x0

y0
h1

x1

y1


xl
Líp vµo




yn

hm


Líp Èn

Líp ra

Hình 1.6. Mạng hồi quy (Recurrent Neural Network)
Các thơng số cấu trúc của mạng nơ ron nhân tạo:
Sơ đồ kết nối (mạng truyền thẳng hay hồi quy)
Số tìn hiệu vào và số tín hiệu ra
Số lớp mạng
Số nơ ron trên mỗi lớp
Số lƣợng các trọng số của mỗi lớp

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

15

1.4.3. Các đặc trƣng của mạng nơron
Mạng nơron, đôi khi đƣợc xem nhƣ là các mơ hình liên kết (connectionist
models), là các mơ hình phân bố song song (parallel-distributed models) có các đặc
trƣng phân biệt sau:
Tập các đơn vị xử lý;
Trạng thái kích hoạt hay là đầu ra của đơn vị xử lý;
Liên kết giữa các đơn vị. Xét tổng quát, mỗi liên kết đƣợc định nghĩa bởi
một trọng số wjk cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn
vị k;
Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu
vào của nó;
Một hàm kích hoạt, hay hàm chuyển (activation function-transfer function),

xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại;
Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị;
Phƣơng pháp thu thập thông tin (luật học - learning rule);
Môi trƣờng hệ thống có thể hoạt động.

1.5.

Thủ tục học của mạng nơron

Thành phần quan trọng nhất và không thể thiếu của các mạng nơ ron là các
thủ tục học (thuật tốn huấn luyện mạng). Có thể chia các thủ tục này thành hai
nhóm chính là học tham số và học cấu trúc. Cả hai thủ tục học này có thể đƣợc thực
hiện đồng thời hoặc tách biệt. Các thủ tục học tham số lại có thể đƣợc chia thành ba
lớp nhỏ hơn là học có thầy, học tăng cường và học khơng có thầy [4].
1.5.1. Học tham số
Với một cấu trúc mạng cho trƣớc, các trọng số của mạng (gọi là các tham số
của mạng) phải đƣợc xác định trƣớc khi sử dụng mạng để thực thi một nhiệm vụ cụ
thể. Ngoại trừ trƣờng hợp các mạng nơ ron một lớp Hopfield (các trọng số đƣợc
tính tốn một cách giải tích), thơng thƣờng, các trọng số của mạng đƣợc khởi tạo
ngẫu nhiên trong một khoảng nhất định. Học tham số là quá trình điều chỉnh các
trọng số để mạng nhận biết đƣợc mối quan hệ giữa đầu vào và đầu ra mong muốn.
Rất nhiều các thuật toán học đƣợc đề xuất để tìm tập trọng số tối ƣu đối với mỗi bài

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

16

tốn, các thuật tốn đó có thể chia thành hai nhóm chính : Học có thầy (Supervised

learning) và Học khơng có thầy (Unsupervised Learning).
1) Học có thầy
Mạng đƣợc học bằng cách cung cấp cho nó các cặp mẫu đầu vào và đầu ra
mong muốn. Sai số giữa các đầu ra thực tế so với các đầu ra mong muốn đƣợc thuật
toán sử dụng để hiệu chỉnh các trọng số trong mạng.
Tập mẫu là tập các cặp véc tơ vào/ra mong muốn M = {(xi,yi)} đƣợc sử dụng
để luyện mạng nơron. Đối với mỗi véc tơ tín hiệu vào xi, mạng nơron tính tốn tín
hiệu ra out và so sánh tín hiệu này với tín hiệu ra mong muốn yi để tạo ra tín hiệu sai
số. Tín hiệu sai số này xác định bề mặt sai số là hàm của các trọng số, có thể dùng
nhƣ hàm mục tiêu để hiệu chỉnh các trọng số. Các thuật tốn tìm kiếm đƣợc áp dụng
trong thủ tục học để hiệu chỉnh các trọng số sao cho mạng nơ ron có thể sản sinh ra
các tín hiệu ra out với một sai số chấp nhận đƣợc so với tín hiệu ra mong muốn.
Dữ liệu huấn luyện
Đầu vào

Đầu ra cá nhân
Đích

Vào

Mạng
Ra

-+

Sai số

Hàm
mục tiêu
Giải thuật luyện

(Phƣơng pháp tối ƣu)

Hình 1.7. Sơ đồ học có thầy
2) Học khơng có thầy
Với phƣơng pháp học khơng có thầy, khơng có thơng tin phản hồi từ mơi
trƣờng bên ngồi để chỉ ra rằng đầu ra out của mạng là đúng hay sai. Mạng nơron
phải tự khám phá các đặc trƣng, các mối tƣơng quan, tính cân xứng của các mẫu
học một cách tự động. Đối với phần lớn các biến thể của học khơng có thầy, các
đích trùng với đầu vào. Nói một cách khác, học khơng có thầy ln thực hiện một
công việc tƣơng tự nhƣ một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

17

1.5.2. Học cấu trúc
Trong phần học tham số, giả định là đã có một cấu trúc mạng. Thủ tục học
tham số tinh chỉnh các giá trị trọng số sao cho mạng hoạt động nhƣ mong muốn.
Thủ tục học cấu trúc tìm kiếm các tham số cấu trúc của mạng để tạo ra một mạng
hoạt động tốt nhất. Thực chất, học cấu trúc là việc tìm ra số lớp ẩn và số nơron trên
mỗi lớp ẩn vì số đầu vào và số đầu ra của mạng là xác định đối với một bài toán cụ
thể.
Kết quả học cấu trúc phụ thuộc nhiều vào kết quả học tham số. Do đó, việc
xây dựng một thuật tốn tìm kiếm cho thủ tục học tham số là cần thiết. Thuật tốn
tìm kiếm này phải có khả năng tìm kiếm lời giải tồn cục, tìm kiếm hiệu quả trong
khơng gian nhiều chiều và có thể sử dụng cho nhiều cấu trúc mạng khác nhau.
Trong những năm gần đây, một số thuật tốn tối ƣu tồn cục mang tính tất định và
một số thuật tốn mang tính xác suất đã đƣợc đề xuất. Các thuật tốn mang tính xác

suất bao gồm các thuật tốn tiến hóa [3] mà thuật toán di truyền (GA - Genetic
Algorithms) là một ví dụ điển hình.

1.6.

Một số ứng dụng của mạng nơron

Mạng nơron thƣờng đƣợc ứng dụng trong các lĩnh vực nhƣ phân loại
(classification), mơ hình hóa (modeling), biến đổi (transformation and mapping) và
dự báo các sự kiện phụ thuộc thời gian.
Phân loại
Phân loại là cách sắp xếp các đối tƣợng vào các tập hoặc vào các lớp con của
các lớp lớn hơn. Việc phân loại thƣờng đƣợc tiến hành nhiều mức giống nhƣ phép
toán ra quyết định, phân lớp đối tƣợng vào nhóm, nhóm con; vào chủng loại, chủng
loại con hoặc vào lớp, lớp con. Một đối tƣợng có thể đồng thời thuộc vào nhiều lớp
khác nhau, do đó kết quả của việc phân loại là tích của hai hay nhiều quyết định.
Mơ hình hóa
Hệ thống phân loại thƣờng đƣa ra câu trả lời rời rạc nhƣ có, khơng hoặc một
số nguyên định danh đối tƣợng đầu vào thuộc lớp nào. Tuy nhiên, việc mơ hình hóa
u cầu hệ thống phải sản sinh ra các câu trả lời mang tính liên tục. Một số lƣợng
nhỏ các số liệu thực nghiệm đƣợc sử dụng để xây dựng mơ hình, mơ hình này có
thể đƣa ra các dự báo cho tất cả các đối tƣợng đầu vào có thể. Việc tìm ra đƣờng
cong phù hợp với các số liệu thực nghiệm là một ví dụ ứng dụng thuộc dạng này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

18


Các ứng dụng thuộc dạng này phần lớn là thủ tục của một biến vào và một biến ra
nhƣ sau:
y

f x, a, b,..., p

Hàm f chứa một tập các tham số a, b,…, p. Các tham số này phải đƣợc xác
định bằng việc tối thiểu hóa độ chênh lệch giữa số liệu thực nghiệm và giá trị tính
tốn từ mơ hình. Mơ hình hóa cũng có thể mở rộng cho bài toán nhiều biến vào /
một biến ra hoặc nhiều biến vào / nhiều biến ra.
Việc mơ hình hóa thƣờng đƣợc sử dụng cho các đối tƣợng có ít biến, khoảng
từ 1 đến 10. Điều này có nghĩa là thƣờng sử dụng các mạng nhỏ, thời gian tính cũng
nhƣ tài nguyên máy tính ít hơn so với các mạng dùng cho việc phân loại.
Biến đổi
Việc biến đổi nhằm mục đích nén các đối tƣợng từ không gian m chiều vào
không gian có số chiều nhỏ, khoảng hai hoặc ba. Qua việc nén các đối tƣợng này,
chúng sẽ bộc lộ những đặc điểm mà chúng ta không nhận thấy khi chúng ở trong
không gian nhiều chiều. Việc biến đổi tƣơng tự nhƣ việc nhóm các đối tƣợng hay
phân loại. Sự khác biệt không lớn lằm nằm ở phƣơng pháp biểu diễn các kết quả.
Những câu hỏi mà việc biến đổi có thể trả lời là bàn đồ của toàn bộ đối tƣợng nhƣ
thế nào, có bao nhiêu vùng trên bản đồ có thể phân biệt đƣợc, hình dáng các vùng
đó nhƣ thế nào…
Một trong những ứng dụng của biến đổi là tiền xử lý số liệu. Thông qua tiền
xử lý, các đối tƣợng điển hình đƣợc chọn từ tập vơ số các đối tƣợng ngẫu nhiên
nhận đƣợc, loại trừ đƣợc các đối tƣợng dƣ thừa hay trùng lặp. Điều này rất quan
trọng khi chọn các đối tƣợng làm mẫu học cho mạng truyền thẳng huấn luyện bằng
thuật toán lan truyền ngƣợc của sai số đƣợc trình bày ở Chƣơng 2.
Dự báo các sự kiện phụ thuộc thời gian
Lĩnh vực nghiên cứu các quá trình phụ thuộc thời gian là một trong những lĩnh
vực chính trong nghiên cứu điều khiển q trình. ở đây, mơ hình dự báo đƣợc xây

dựng dựa trên một chuỗi số liệu đƣợc ghi nhận theo thời gian. Trong mơ hình này,
các biến của tín hiệu vào và tín hiệu ra về cơ bản là giống nhau. Chỉ một điều khác
biệt là, tín hiệu vào là các giá trị hiện tại và quá khứ của các biến quá trình, tín hiệu
ra là giá trị dự báo trong tƣơng lai của các biến q trình đó.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

19

Chƣơng 2. MẠNG NƠRON TRUYỀN THẲNG VÀ THUẬT
TOÁN LAN TRUYỀN NGƢỢC
2.1.

Kiến trúc cơ bản của mạng nơron truyền thẳng

Để đơn giản và tránh hiểu nhầm, mạng truyền thẳng xét trong chƣơng này là
các mạng truyền thẳng có nhiều lớp. Kiến trúc mạng truyền thẳng nhiều lớp (Multilayer Feed Forward (MLFF)) là kiến trúc chủ đạo của các mạng nơron hiện tại.
Một mạng nơron truyền thẳng nhiều lớp gồm một lớp vào, một lớp ra và một
hoặc nhiều các lớp ẩn. Các nơron đầu vào thực chất không phải các nơron theo
đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính tốn nào trên dữ liệu vào.
Các nơron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính tốn. Cụm từ “truyền
thẳng” có nghĩa là tất cả các nơron chỉ có thể đƣợc kết nối với nhau theo một hƣớng
tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơ ron ở lớp ra).
Mỗi liên kết gắn với một trọng số, trọng số này đƣợc thêm vào trong q trình
tín hiệu đi qua liên kết đó. Các trọng số có thể dƣơng (kích thích) hay âm (kiềm
chế). Mỗi nơron tính tốn mức kích hoạt của chúng bằng cách cộng tổng các đầu
vào và đƣa ra hàm chuyển (hàm kích hoạt). Một khi đầu ra của tất cả các nơron
trong một lớp mạng cụ thể đã thực hiện tính tốn thì lớp kế tiếp có thể bắt đầu thực

hiện tính tốn của mình bởi vì đầu ra của lớp hiện tại là đầu vào của lớp kế tiếp. Khi
tất cả các nơron đã thực hiện tính tốn thì các nơron đầu ra thể hiện kết quả của
chúng.
a1
1

f1

W
R1 x1

S1xR1

n1

a2
2

S1x1

S2xS1

S1x1

1

P

S1x1


n2

S2x1

S2x1

1

b1

f2

W

b2
S2x1

Hình 2.1. Mạng nơron truyền thẳng 2 lớp
Hình 2.1 là sơ đồ mạng nơron truyền thẳng hai lớp, trong đó:
P: Vector đầu vào (vector cột)
W1: Ma trận trọng số của các nơ ron lớp thứ 1 có kích thƣớc S1xR1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

20

W2: Ma trận trọng số của các nơ ron lớp thứ 2 có kích thƣớc S2xR2
b1, b2 : Vector độ lệch (bias) của lớp thứ 1 và 2 (kích thƣớc S1x1 và S2x1)

n1, n2 : Vector vào của lớp thứ 1 và thứ 2 (kích thƣớc S1x1 và S2x1)
f1, f2 : Hàm chuyển (hàm kích hoạt) của lớp thứ 1 và 2
a1, a2 : Đầu ra của lớp thứ 1 và 2 (kích thƣớc S1x1 và S2x1)
: Hàm tổng thơng thƣờng (Sum)
Số nơ ron ở lớp thứ nhất và lớp thứ hai là S1 và S2 tƣơng ứng với ma trận
trọng số là W1 và W2. Véc tơ đầu vào ở lớp thứ hai chính là véc tơ đầu ra của lớp
thứ nhất, cơng thức tính tốn cho đầu ra của lớp thứ hai nhƣ sau:
a2 = f2(W2(f1(W1.P + b1)) + b2)
trong đó, ý nghĩa của các ký hiệu nhƣ đã nêu trong hình vẽ.

2.2.

Khả năng thể hiện của mạng nơron truyền thẳng

Các mạng truyền thẳng cho ta một kiến trúc tổng quát thể hiện khả năng ánh
xạ hàm phi tuyến tính giữa một tập các biến đầu vào và tập các đầu ra. Khả năng
thể hiện của một mạng có thể đƣợc định nghĩa là khoảng mà nó có thể thực hiện
ánh xạ khi mà các trọng số biến thiên [15].
1) Các mạng một lớp chỉ có khả năng thể hiện các hàm khả phân tuyến tính
hay các miền phân chia đƣợc.
2) Các mạng có 2 lớp ẩn có khả năng thể hiện một đƣờng biên phân chia tùy
ý với một độ chính xác bất kỳ với các hàm chuyển phân ngƣỡng và có thể
xấp xỉ bất kỳ ánh xạ mịn nào với độ chính xác bất kỳ với các hàm chuyển
có dạng sigmoid.
3) Một mạng có một lớp ẩn có thể xấp xỉ tốt bất kỳ một ánh xạ hàm liên tục
nào từ một không gian hữu hạn sang một không gian hữu hạn khác, chỉ
cần cung cấp số nơron đủ lớn cho lớp ẩn. Chính xác hơn, các mạng truyền
thẳng với một lớp ẩn đƣợc luyện bởi các phƣơng pháp bình phƣơng tối
thiểu (least-squares) là các bộ xấp xỉ chính xác cho các hàm hồi quy nếu
nhƣ các giả thiết về các mẫu, độ nhiễu, số đơn vị trong lớp ẩn và các nhân

tố khác thỏa mãn. Các mạng nơron truyền thẳng với một lớp ẩn sử dụng
các hàm chuyển hay hàm phân ngƣỡng là các bộ xấp xỉ đa năng cho bài
toán phân lớp nhị phân với các giả thiết tƣơng tự.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

21

2.3.

Cơ chế học của mạng nơron truyền thẳng

Mạng nơ ron truyền thẳng nhiều lớp thƣờng đƣợc huấn luyện bằng thuật toán
lan tryền ngƣợc của sai số (Back-Propagation), viết tắt là thuật toán BP [4]. Thuật
toán này đƣợc sử dụng thƣờng xuyên và thông dụng tới mức nhiều tác giả đã đồng
khái niệm mạng nơron với mạng nơron nhiều lớp lan truyền ngƣợc của sai số.
Thuật toán BP là thuật toán học có thầy, do đó nó cần một tập mẫu gồm các
cặp véc tơ X i , Yi , với X i là véc tơ vào, Yi là véc tơ ra mong muốn. Đối với một
cặp véc tơ vào và véc tơ ra mong muốn, thuật toán BP thực hiện hai giai đoạn theo
dịng chảy số liệu :
Tín hiệu vào X i đƣợc lan truyền qua mạng từ lớp vào đến lớp ra. Kết quả
của việc lan truyền là sản sinh véc tơ tín hiệu ra Outi last
Tín hiệu sai số là kết quả của việc so sánh giữa véc tơ ra mong muốn và
véc tơ tín hiệu ra. Sai số đƣợc lan truyền ngƣợc từ lớp ra tới các lớp phía
trƣớc để hiệu chỉnh các trọng số.
Véc tơ vào
Hiệu chỉnh W1


W1

Hiệu chỉnh W2

W2
Hiệu chỉnh W3

W3
Hiệu chỉnh
Véc tơ ra
Sai số
Lời giải

Hình 2.2: Sơ đồ hiệu chỉnh các trọng số của thuật tốn BP
Đối với mỗi cặp tín hiệu vào ra này, hàm giá đƣợc xây dựng nhƣ sau:
E ( w)

1 n
yik
2k1

Outiklast

2

(2.1)

Trong đó n là số nơ ron trên lớp ra; yik là thành phần thứ k của véc tơ ra mong
muốn yi , outik là thành phần thứ k của véc tơ ra outi do lan truyền véc tơ vào Xi.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

22

Việc học của thuật tốn thực chất là việc tìm kiếm một tập trọng số W trong
không gian RM (M là số trọng số của mạng) để lần lƣợt tối thiểu hoá hàm giá nêu
trên. Giá trị hàm sai số Ei đối với một mẫu đƣợc tính tốn dựa trên giá trị các trọng
số hiện tại. Các giá trị trọng số này sau đó đƣợc hiệu chỉnh và trở thành các giá trị
trọng số hiện tại để tính giá trị hàm sai số tiếp theo Ei+1. Dễ nhận thấy, cách làm này
có khả năng tạo ra sự dao động trong quá trình hiệu chỉnh các trọng số. Kết quả hiệu
chỉnh hiện tại có thể làm hỏng kết quả hiệu chỉnh ở các lần trƣớc đó.

2.4.

Thuật tốn lan truyền ngƣợc của sai số (Back-Propagation)

Về cơ bản, thuật toán BP là dạng tổng qt của thuật tốn bình phƣơng lỗi nhỏ
nhất (Least Means Square), viết tắt là LMS. Thuật toán LMS thuộc dạng thuật tốn
xấp xỉ để tìm các điểm mà tại đó, hiệu năng của mạng là tối ƣu. Chỉ số tối ƣu
(performance index) thƣờng đƣợc xác định bởi một hàm số của ma trận trọng số và
các đầu vào nào đó trong q trình tìm hiểu bài tốn đặt ra.
2.4.1. Mơ tả thuật tốn BP
Thuật tốn áp dụng cho dạng tổng quát của mạng nơ ron truyền thẳng nhiều
lớp. Khi đó, đầu ra của một lớp trở thành đầu vào của lớp kế tiếp. Phƣơng trình thể
hiện hoạt động này nhƣ sau:
am

1


fm

1

W m 1a m

bm

1

với m 0,1,..., M 1

trong đó M là số lớp trong mạng. Các nơron trong lớp thứ nhất nhận các tín hiệu từ
bên ngồi: a 0 p , chính là điểm bắt đầu của phƣơng trình trên. Đầu ra của lớp cuối
cùng đƣợc xem là đầu ra của mạng: a a M .
Chỉ số hiệu năng (performance index)
Tƣơng tự thuật toán LMS, thuật toán BP sử dụng chỉ số hiệu năng là trung
bình bình phƣơng lỗi của đầu ra so với giá trị đích. Đầu vào của thuật tốn chính là
tập các cặp mơ tả hoạt động đúng của mạng (các mẫu dùng để huấn luyện mạng):
p1, t1 ,..., pQ , tQ

trong đó pi là một đầu vào và ti là đầu ra mong muốn tƣơng ứng, với i 1,.., Q . Mỗi
đầu vào đƣa vào mạng, đầu ra của mạng đối với nó đƣợc đem so sánh với đầu ra
mong muốn. Thuật toán sẽ điều chỉnh các tham số của mạng để tối thiểu hóa trung
bình bình phƣơng lỗi:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>


23

F x

e e2

e t a

2

trong đó x là biến đƣợc tạo thành bởi các trọng số và độ lệch, e là ký hiệu kỳ vọng
tốn học. Nếu nhƣ mạng có nhiều đầu ra, phƣơng trình trên có thể đƣợc viết lại dƣới
dạng ma trận:
F x

e eT e

e t a

T

t a

Tƣơng tự nhƣ thuật tốn LMS, xấp xỉ của trung bình bình phƣơng lỗi nhƣ sau:
Fx

t(k ) a(k )

T


eT (k )e(k ),

t(k ) a(k )

trong đó kỳ vọng tốn học của bình phƣơng lỗi đƣợc thay bởi bình phƣơng lỗi tại
bƣớc k.
Thuật tốn giảm theo hƣớng cho trung bình bình phƣơng lỗi xấp xỉ là:
wim, j k 1
bim k 1

trong đó

wim, j k
bim k

F
wim, j
F
bim

,

,

(*)

(**)

là hệ số học.


Nhƣ vậy, mọi chuyện đến đây đều giống nhƣ thuật tốn trung bình bình
phƣơng tối thiểu, tiếp theo sẽ đi vào phần khó nhất của thuật tốn: tính các đạo hàm
từng phần.
Luật xích (Chain Rule)
Đối với các mạng nơ ron truyền thẳng nhiều lớp, lỗi không phải là một hàm
của chỉ các trọng số trong các lớp ẩn, do vậy việc tính các đạo hàm từng phần này là
khơng đơn giản. Chính vì lý do đó mà phải sử dụng luật xích để tính. Luật này đƣợc
mơ tả nhƣ sau: giả sử có một hàm f là một hàm của biến n, muốn tính đạo hàm của f
có liên quan đến một biến w khác. Luật xích này nhƣ sau:
df n w
dw

df n dn w
x
dn
dw

Phƣơng pháp này đƣợc dùng để tính các đạo hàm trong (*) và (**) ở phần
trƣớc

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

24

nim
F
x

,
nim
wim, j

F
wim, j

nim
F
x
,
nim
bim

F
bim

trong đó hạng thức thứ 2 của các phƣơng trình trên có thể dễ dàng tính tốn bởi vì
đầu vào của mạng tới lớp m là một hàm của trọng số và độ lệch:
Sm

1

m
i

wim, j a mj

n


1

bim .

j 1

trong đó S m-1 là số đầu ra của lớp (m – 1). Do vậy :
nim
wim, j

a mj 1 ,

nim
bim

1.

Ký hiệu
F
nim

sim

đƣợc gọi là độ nhậy cảm của F đối với các thay đổi của phần tử thứ i của đầu vào
của mạng tại lớp thứ m. Khi đó:
F
wim, j
F
bim


nim
F
x
nim
wim, j

sim a mj

nim
F
x
nim
bim

1

sim .

Bây giờ, thuật toán giảm nhanh nhất xấp xỉ đƣợc phát biểu nhƣ sau:
wim, j k 1
bim k 1

wim, j k

s im a mj 1 ,
sim

bk

ở dạng ma trận:

Wm k 1
bm k 1

Wm k
bm k

sm am

1 T

,

sm

trong đó:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

25

F
n 1m
sm

F
n m2



F
nm

F
n mSm

Lan truyền ngược độ nhậy cảm
Vấn đề là tính nốt ma trận độ nhậy cảm sm. Để thực hiện điều này cần sử dụng
một áp dụng khác của luật xích. Q trình này cho khái niệm về sự “lan truyền
ngƣợc” bởi vì nó mơ tả mối quan hệ hồi quy trong đó độ nhậy cảm s m đƣợc tính qua
độ nhậy cảm sm+1 của lớp m + 1.
Để dẫn đến quan hệ đó, ma trận Jacobian đƣợc sử dụng nhƣ sau:

nm 1
nm

n1m 1
n1m
n2m 1
n1m

n Smm 11

n1m 1
n2m
n2m 1
n2m

n Smm 11


n1m

n2m

n1m 1
n Smm
n2m 1
n Smm

n Smm 11






n Smm

Xét phần tử (i, j) của ma trận trên:
Sm

wim,l 1 aim

m 1
i
m
j

n
n


bim

1

l 1

wim, j 1

n mj
m 1
i, j

w

f

m

n mj

aim
n mj

m

wim, j 1 f

n mj


n mj

trong đó:
m

f

n

m
j

f

m

n mj

n mj

.

Nhƣ vậy, ma trận Jacobian có thể viết lại nhƣ sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

×