Tải bản đầy đủ (.docx) (74 trang)

Tiểu luận khai phá dữ liệu ĐỀ TÀI: Giới thiệu về học sâu và các cơ chế kiểm soát.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 74 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
----------------------------------------

Tiêu luận khai phá dữ liệu
ĐỀ TÀI: Giới thiệu về học sâu và các cơ chế
kiểm soát.
Giảng viên hướng dẫn: PGS.TS Hà Quang Thụy

Hà Nội, tháng 12 năm 2018


Nhóm 3:
Họ và tên
Trương Tiến Tồn
Nguyễn Mạnh Hùng
Nguyễn Tất Thắng
Phùng Việt Tiến
Trần Ngọc Minh

Mã sinh viên
15021370
15021064
15020888
15022033
15022005

Công việc
7.1-7.5
7.6-7.10
7.11-7.14


1.6-1.8
1.1-1.5


Mục Lục
Danh mục hình ảnh


Chương 7: Các cơ chế kiểm soát trong học sâu
Một trong những vấn đề trọng tâm của học máy là tìm cách tạo ra một thuật
tốn khơng chỉ hoạt động tốt trên tập huấn luyện, mà còn phải cho ra kết quả tốt
đối với các đầu vào mới. Nhiều chiến lược trong học máy được thiết kế với mục
tiêu rõ ràng là giảm thiểu sai số kiểm thử, mặc dù đổi lại nó có thể làm tăng sai số
huấn luyện. Những chiến lược này được gọi chung là cơ chế kiểm
sốt (regularization). Có rất nhiều dạng kiểm sốt khác nhau có thể được áp dụng
khi xây dựng mơ hình học sâu. Trong thực tế, việc xây dựng các chiến lược kiểm
soát hiệu quả là một trong những hướng nghiên cứu chủ yếu trong học sâu.
Chương 5 đã giới thiệu một số khái niệm cơ bản như tổng quát hóa, vị khớp,
quá khớp, độ chệch, phương sai và cơ chế kiểm soát. Nếu bạn đọc chưa nắm vững
những khái niệm trên, thì có thể xem lại chương 5 trước khi đọc tiếp chương này.
Trong chương này chúng tôi sẽ đi sâu vào việc mơ tả chi tiết về cơ chế kiểm
sốt, tập trung vào các chiến lược kiểm soát được dùng trong các mơ hình học sâu
hoặc các mơ hình được sử dụng làm nền tảng để xây dựng mơ hình đa tầng.
Một số phần của chương này sẽ đề cập tới những khái niệm cơ bản của học
máy. Nếu bạn đã quen thuộc với những khái niệm này, bạn có thể bỏ qua các phần
liên quan. Tuy nhiên hầu hết nội dung của chương này sẽ liên quan đến những mở
rộng của các khái niệm cơ bản trong trường hợp cụ thể của các mạng neuron.
Trong mục 5.2.2, chúng tôi đã định nghĩa cơ chế kiểm soát là “bất cứ sự điều
chỉnh nào ở thuật toán học tập nhằm giảm sai số tổng qt hố chứ khơng phải sai
số huấn luyện”. Có nhiều chiến lược để kiểm sốt. Một số chiến lược tạo ra những

ràng buộc trong mơ hình học máy, đơn cử như thêm vào một số giới hạn cho các
tham số. Một số khác lại cộng thêm các hạng tử bổ sung vào hàm mục tiêu, chúng
có thể được coi như là một ràng buộc mềm đối với giá trị của các tham số. Nếu
được lựa chọn cẩn thận, những ràng buộc và hàm phạt được thêm vào có thể giúp
tăng độ chính xác của mơ hình trên tập kiểm thử. Thông thường, những ràng buộc
và những hàm phạt này mã hóa những dạng kinh nghiệm tiền đề cụ thể về mơ hình.
Một số khác điều chỉnh thuật toán học tập theo hướng ưu tiên lựa chọn những mơ
hình đơn giản nhằm tăng cường tính tổng qt. Một số khác lại cần thiết khi ta
muốn biến một bài tốn vơ định trở thành xác định. Ngồi ra cơ chế kiểm sốt cịn
được biết đến như phương pháp tập thể (esemble method), là phương pháp kết hợp
cùng lúc nhiều giả thuyết để giải thích dữ liệu huấn luyện.

4


Trong ngữ cảnh của học sâu, hầu hết những chiến lược kiểm soát đều dựa
trên việc kiểm soát các bộ ước lượng. Cơ chế kiểm soát của một bộ ước lượng hoạt
động theo cách đánh đổi việc giảm phương sai bằng cách tăng độ chệch. Một cơ
chế kiểm soát được xem là hiệu quả nếu nó giúp làm giảm phương sai một cách
đáng kể trong khi không tăng độ chệch của mơ hình lên q nhiều. Khi thảo luận
về tổng qt hóa và q khớp ở chương 5, chúng tơi đã tập trung vào ba trạng thái
khi huấn luyện một họ các mơ hình, mà ở đó họ mơ hình đang được huấn luyện là
(1)
: bỏ qua quá trình sinh dữ liệu thực tế – tương ứng với hiện tương vị khớp và
(2)
(3)
gây ra độ chệch, hoặc
: khớp chính xác q trình sinh dữ liệu thực tế, hoặc
:
bao gồm khơng chỉ q trình sinh dữ liệu thực tế mà cịn bao gồm nhiều cơ chế

sinh dữ liệu khác nhau – trạng thái quá khớp trong đó phương sai chi phối sai số
của mơ hình thay vì độ chệch. Mục tiêu của các cơ chế kiểm sốt là đưa mơ hình
đang ở trạng thái thứ

3

hoặc trở về trạng thái thứ

2

.

Trong thực tế, một họ mơ hình q phức tạp khơng nhất thiết bao gồm hàm
mục tiêu hay hàm sinh thực sự của dữ liệu, hay thậm chí là khơng chứa cả xấp xỉ
của những hàm đó. Trong hầu hết các trường hợp, chúng ta không thể tiếp cận hàm
sinh dữ liệu thực sự, chính vì vậy ta khơng thể nào biết được họ mơ hình mà chúng
ta dùng để ước lượng có chứa hàm sinh thực sự đó hay khơng. Tuy nhiên, hầu hết
các giải thuật học sâu được ứng dụng trong các lĩnh vực mà ở đó hàm sinh dữ liệu
thực sự gần như sẽ nằm ngồi họ mơ hình ta xây dựng. Học sâu thường được ứng
dụng trong những lĩnh vực cực kì phức tạp như xử lý ảnh, chuỗi âm thanh hoặc văn
bản, mà ở đó hàm sinh dữ liệu thật sự cần bao gồm cả những mô phỏng về mọi thứ
trên thế giới. Ở một mức độ nào đó, những gì chúng ta đang làm là cố lắp một
miếng gỗ vuông (hàm sinh dữ liệu) vào một cái lỗ trịn (họ mơ hình do chúng ta
xây dựng).
Điều đó có nghĩa là việc kiểm sốt độ phức tạp của một mơ hình khơng chỉ
đơn giản là việc tìm ra một mơ hình với đúng kích thước và đúng số lượng tham
số. Thay vào đó, chúng ta có thể thấy - và thực tế là trong các ứng dụng học sâu,
chúng ta ln thấy rằng - mơ hình khớp dữ liệu tốt nhất (theo nghĩa có sai số tổng
quát hóa nhỏ nhất) là một mơ hình lớn được kiểm soát một cách hợp lý.
Bây giờ, ta sẽ bắt đầu ôn lại một số những chiến lược để tạo ra những mơ hình lớn,

đa tầng và được kiểm sốt như vậy.
5


7.1 Tham số phạt chuẩn
Cơ chế kiểm soát đã được sử dụng từ nhiều thập kỷ trước khi có sự xuất hiện
của học sâu. Những mơ hình tuyến tính như hồi quy tuyến tính hay hồi quy logit
cho phép áp dụng những chiến lược kiểm soát rất đơn giản, dễ hiểu nhưng cũng rất
hiệu quả.
Rất nhiều phương pháp kiểm soát được xây dựng bằng cách giới hạn dung
lượng của các mơ hình như mạng neuron, hồi quy tuyến tính, hay hồi quy logit
bằng cách thêm vào hàm mục tiêu

J

một tham số phạt chuẩn

Ω(θ )

penalty). Ta sẽ kí hiệu những hàm mục tiêu được kiểm sốt bằng

Trong đó
chuẩn

Ω

α ∈ [0, ∞ )

(norm


J%

:

là siêu tham số xác định mức độ đóng góp của hạng tử phạt

trong hàm mục tiêu

J

. Giá trị của

α

được gán bằng 0 đồng nghĩa với

việc khơng có bất cứ sự kiểm soát nào với hàm mục tiêu. Giá trị của
mức độ kiểm sốt càng cao.

α

càng lớn thì

Khi thuật tốn huấn luyện của chúng ta cố gắng cực tiểu hóa hàm mục tiêu
được kiểm sốt

J%

, thì nó sẽ cùng lúc cả giảm sai số của hàm mục tiêu gốc


kích thước tập tham số

θ

(hoặc một tập con của vector tham số

θ

J

lẫn

). Cách chọn

Ω

chuẩn khác nhau sẽ dẫn đến các giải pháp khác nhau. Trong phần này, chúng ta
sẽ thảo luận về ảnh hưởng của nhiều loại chuẩn khác nhau khi được sử dụng làm
các đại lượng phạt tham số của mô hình.
Trước khi thảo luận sâu về hành vi kiểm sốt của các chuẩn khác nhau, cần
phải ghi nhớ một điều rằng đối với các mạng neuron, chúng ta thường chọn những
tham số phạt chuẩn

Ω

chỉ áp dụng mức phạt lên các trọng số của phép biến đổi
b

w


affin tại mỗi tầng ( ), mà khơng kiểm sốt các hệ số tự do ( ). Các hệ số tự do
thường cần ít dữ liệu hơn các trọng số để khớp một cách tối ưu. Mỗi trọng số xác
6


định cách tương tác giữa hai biến. Để khớp được tốt trọng số đòi hỏi ta phải quan
sát được cả hai biến trong nhiều điều kiện khác nhau. Mỗi hệ số tự do chỉ tác động
đến một biến duy nhất. Điều đó có nghĩa là khi khơng áp dụng các phương pháp
kiểm soát lên hệ số tự do, phương sai sẽ khơng tăng q nhiều. Mặt khác, việc
kiểm sốt các hệ số tự do lại thường làm tăng tính vị khớp của mơ hình lên đáng
kể. Do đó chúng tơi sẽ kí hiệu vector

w

cho tồn bộ các trọng số bị tác động bởi

đại lượng phạt chuẩn, trong khi đó vector
tham số, bao gồm

w

θ

sẽ được dùng làm kí hiệu cho tồn bộ

và các tham số khơng bị kiểm sốt.

Trong ngữ cảnh của mạng neuron, đôi khi ta cần sử dụng những hàm phạt
riêng biệt với các hệ số αα khác nhau cho mỗi tầng trong mạng. Bởi vì chi phí tính
tốn để tìm tập giá trị siêu tham số tương ứng sẽ rất lớn, dùng một tham số suy

giảm trọng số chung cho tất cả các lớp vẫn là một cách hợp lý để giảm khơng gian
tìm kiếm.
7.1.1 Cơ chế kiểm soát L2
Chúng ta đã thấy trong phần 5.2.2, rằng một trong những dạng phạt chuẩn
đơn giản và phổ biến nhất: hàm phạt chuẩn L2, hay còn được gọi là suy giảm trọng
số (weight decay). Chiến lược kiểm soát này hướng trọng số gần về gốc tọa
Ω(θ ) =

1
‖ w ‖ 22
2

độ bằng cách thêm vào hàm mục tiêu một hạng tử kiểm soát
. Trong
2
một số cộng đồng học thuật khác, kiểm sốt L cịn được biết đến với cái tên
như hồi quy ngọn sóng(ridge regression) hay kiểm sốt Tikhonov (Tikhonov
regularization).
Một cách tổng qt hơn, chúng ta có thể kiểm sốt để tham số tiến gần tới
bất kì điểm nào trong không gian, và điều đáng ngạc nhiên là, dù cách làm này
cũng đạt được một số hiệu ứng kiểm soát, nhưng ta sẽ đạt được kết quả tốt hơn nếu
ta kiểm soát tham số tiến gần về giá trị thực sự, với giá trị mặc định là 0. Giá trị
mặc định 0 là hợp lý, vì ta khơng biết giá trị chính xác sẽ là âm hay dương. Bởi vì
người ta hay kiểm sốt các tham số mơ hình hướng về gốc tọa độ, chúng ta sẽ chỉ
tập trung mô tả trường hợp đặc biệt này.
Chúng ta có thể đi sâu hơn vào hành vi của cơ chế kiểm soát suy giảm trọng
số thông qua việc quan sát gradient của hàm mục tiêu được kiểm sốt. Để trình bày
đơn giản hơn, chúng tôi không xét các hệ số tự do, do đó
trường hợp này. Mơ hình như vậy có hàm mục tiêu:
7


θ

sẽ chỉ là

w

trong


với đạo hàm theo tham số

w

tương ứng là:

Chúng ta thực hiện cập nhật tham số bằng một bước nhảy đạo hàm theo cơng thức
sau:

Nói cách khác, tham số mới sẽ được cập nhật theo

Có thể thấy rằng việc thêm vào đại lượng suy giảm trọng số đã điều chỉnh
quy tắc học để thu nhỏ vector trọng số theo cấp số nhân sau mỗi bước, trước khi
cập nhật theo gradient như thơng thường. Điều này có thể lý giải điều gì xảy ra
trong từng bước cập nhật. Nhưng điều gì sẽ xảy ra sau tồn bộ q trình huấn
luyện?
Chúng ta sẽ tiếp tục đơn giản hố q trình phân tích bằng cách tạo ra một
xấp xỉ bậc hai của hàm mục tiêu trong một lân cận của tham số, mà ở đó hàm chi

w ∗ = arg min J ( w )

w

phí huấn luyện chưa được kiểm sốt có giá trị nhỏ nhất,
. Nếu
hàm mục tiêu thực sự là một hàm bậc 2, như hàm sai số bình phương trung bình
trong trường hợp hồi quy tuyến tính, thì xấp xỉ của ta là chính xác tuyệt đối. Xấp xỉ
của



có dạng:

Trong đó

H

là ma trận Hesse của

trong xấp xỉ bậc hai này, bởi vì
Tương tự, bởi vì
định dương.

w

w

J

khi


w

bằng

w∗

. Khơng có đại lượng bậc nhất



là điểm cực tiểu, tại đó gradient tiêu biến.



là điểm cực tiểu của

J

8

, ta có thể kết luận rằng

H

là nửa xác


Cực tiểu của




đạt được khi gradient của nó:

Bằng 0.
Để khảo sát tác động của suy giảm trọng số, chúng ta điều chỉnh phương
trình 7.7 bằng cách thêm vào một hạng tử suy giảm trọng số của gradient này. Giờ
ta có thể tìm điểm cực tiểu của phiên bản được kiểm sốt của
w%



. Ta sử dụng biến

để biểu diễn vị trí của điểm cực tiểu này.

α

Khi
khi

α

tiến về 0, lời giải tối ưu đã kiểm sốt
tăng? Bởi vì

H

H = QΛQ

tiến về


w∗

. Nhưng điều gì sẽ xảy ra

mang giá trị thực và đối xứng, nên ta có thể phân tách nó

thành một ma trận đường chéo
mãn

w%

Λ

và một cơ sở trực chuẩn các vector riêng

Q

, thỏa



. Áp dụng phép phân tách này vào phương trình 7.10 ta có:

Chúng ta thấy rằng tác động của của suy giảm trọng số là thay đổi tỉ lệ của
w



dọc theo trục xác định bởi các vector riêng của


9

H

. Cụ thể, thành phần của

w∗


λi
λi + α

H

được căn chỉnh dọc theo vector riêng thứ i của
sẽ được nhân với tỉ lệ
.
(Bạn có thể muốn ôn lại cách thức căn chỉnh tỉ lệ kiểu này hoạt động ở hình 2.3.)
Dọc theo các hướng mà trị riêng của

H

tương đối lớn, ví dụ

λi ? α

, ảnh hưởng

của cơ chế kiểm soát sẽ tương đối nhỏ. Tuy nhiên, các thành phần có

về khơng. Hiện tượng này được minh họa trong hình 7.1.

λi = α

sẽ co

Hình 1. Hình minh họa ảnh hưởng của bộ kiểm sốt L2

Hình 1: Hình minh họa ảnh hưởng của bộ kiểm sốt
w

L2

(hay cịn gọi là suy giảm

trọng số) đối với giá trị tối ưu. Những đường eclipse liền thể hiện đường đồng
mức của các giá trị hàm mục tiêu chưa kiểm soát. Các đường tròn đứt quãng thể
L2

w%

hiện đường đồng mức của các bộ kiểm soát . Tại điểm , những hàm mục tiêu
cạnh tranh này đạt trạng thái cân bằng. Ở chiều thứ nhất, trị riêng của ma trận
Hesse của

J

là nhỏ. Hàm mục tiêu khơng tăng nhiều khi di chuyển theo trục hồnh

10



về phía xa dần



. Bởi hàm mục tiêu khơng thể hiện sự ưu tiên cao theo theo
w1

hướng đó, bộ kiểm sốt có một ảnh hưởng lớn trên trục này. Bộ kiểm sốt kéo
về gần giá trị bằng khơng. Trong chiều thứ hai, hàm mục tiêu thay đổi nhanh khi ta
di chuyển xa dần



. Trị riêng tương ứng theo chiều này là lớn, biểu thị độ cong

lớn của hàm. Kết quả là suy giảm trọng số có tác động khơng đáng kể đến

w2

.

Chỉ có những hướng mà dọc theo đó các tham số đóng góp đáng kể vào việc
làm suy giảm hàm mục tiêu là được bảo toàn tương đối nguyên vẹn. Với những
hướng khơng đóng góp vào việc làm suy giảm hàm mục tiêu, tức là có trị riêng của
ma trận Hesse nhỏ, cho ta biết rằng việc di chuyển theo hướng này sẽ không làm
tăng gradient đáng kể. Các thành phần của vector trọng số tương ứng với những
hướng không quan trọng này bị làm suy giảm thông qua việc sử dụng bộ kiểm sốt
trong q trình huấn luyện.

Cho đến nay chúng ta đã bàn luận về ảnh hưởng của suy giảm trọng số đến
việc tối ưu hóa một hàm chi phí bậc hai tổng quát và mang tính trừu tượng. Những
ảnh hưởng này liên quan đến học máy như thế nào? Chúng ta có thể tìm ra điều
này bằng cách nghiên cứu về hồi quy tuyến tính, một mơ hình mà trong đó hàm chi
phí thực tế có dạng bậc hai và do đó, phù hợp với cách phân tích mà ta đang sử
dụng. Áp dụng kiểu phân tích này một lần nữa, ta có thể thu được một trường hợp
đặc biệt có cùng kết quả, nhưng các kết quả giờ đây được diễn tả dưới dạng dữ liệu
huấn luyện. Với hồi quy tuyến tính, hàm chi phí là tổng của các bình phương sai
số:

Khi chúng ta thêm bộ kiểm sốt

L2

, hàm mục tiêu trở thành

Từ đó nghiệm theo phương trình chuẩn chuyển từ

Thành
11




Ma trận

X X

trong phương trình 7.16 tỷ lệ với ma trận hiệp phương sai
L2


Việc sử dụng bộ kiểm soát

(X X +α I)


đã thay thế ma trận này bằng

1 •
X
m
X

.

−1

trong
α

phương trình 7.17. Ma trận mới giống hệt với ma trận cũ, nhưng cộng thêm vào
thành phần đường chéo. Các phần tử đường chéo của ma trận này tương ứng với
phương sai của mỗi đặc trưng đầu vào. Chúng ta có thể thấy rằng bộ kiểm soát

L2

X

khiến cho thuật toán học tập “có cảm nhận” rằng giá trị đầu vào có phương sai
lớn hơn, khiến nó làm co các trọng số của các đặc trưng có giá trị hiệp phương sai

đối với nhãn đầu ra là thấp so với phương sai được thêm vào này.
7.1.2 Cơ chế kiểm sốt

L1

L2

Ngồi
là dạng suy giảm trọng số phổ biến nhất, cịn có nhiều giải pháp
khác để đặt hình phạt phạt lên kích cỡ của bộ tham số trong mơ hình. Một trong số
đó là dùng bộ kiểm sốt

L1

.

Về mặt tốn học, bộ kiểm sốt
cơng thức

L1

Nói cách khác, cơ chế kiểm soát
đối của từng tham số.

áp dụng cho tham số mơ hình

L1

L2


, chúng ta có thể kiểm soát các tham số để

chúng tiến gần tới một giá trị khác khơng

w (o )

nào đó. Trong trường hợp đó, bộ
Ω(θ ) =|| w − w ( o ) ||1 = ∑ | wi − wi( o ) |

1

L

được cho bởi

được định nghĩa dưới dạng tổng các trị tuyệt

Tương tự như với bộ kiểm soát

kiểm soát

w

sẽ thêm vào hàm mục tiêu một số hạng

12

i

.



L1

Tiếp theo, ta sẽ thảo luận về ảnh hưởng của bộ kiểm sốt
lên mơ hình hồi
quy tuyến tính đơn giản, không bao gồm hệ số tự do, như cách ta đã phân tích cơ
chế kiểm sốt
1

sốt

L

L2

ở trên. Cụ thể, chúng tôi tập trung mô tả sự khác biệt giữa kiểm

2



L

. Tương tự với suy giảm trọng số

L2

mức độ của kiểm soát bằng cách nhân tỷ lệ phạt
vậy, hàm mục tiêu có kiểm sốt


J%
( w; X , y )

, suy giảm trọng số
Ω

L1

điều khiển

với một siêu tham số

α

. Như

có dạng sau

với gradient tương ứng (thực ra là subgradient)

Trong đó

sign( w )

là dấu của

w

theo từng phần tử.


Khảo sát phương trình 7.20, ta thấy ngay rằng ảnh hưởng của bộ kiểm soát
1

L

rất khác so với bộ kiểm soát

L2

. Cụ thể, ta thấy sự đóng góp của bộ kiểm sốt

tới gradient khơng cịn thay đổi một cách tuyến tính với mỗi

wi

; thay vào đó nó chỉ

sign( w )

là một hằng số có cùng dấu với
. Một hệ quả của dạng gradient này là ta sẽ
khơng nhất thiết phải tìm được các nghiệm thuần đại số của xấp xỉ bậc hai
J ( X , y; w )

như đối với bộ kiểm sốt

L2

.


Mơ hình tuyến tính đơn giản của chúng ta có một hàm mất mát bậc 2 có thể
biểu diễn được bằng chuỗi Taylor của nó. Một cách khác, chúng ta có thể tưởng
tượng rằng đây là chuỗi Taylor bị chặt để xấp xỉ hàm chi phí của một mơ hình phức
tạp hơn. Gradient trong trường hợp này được cho bởi

trong đó, lại một lần nữa,

H

là ma trận Hesse của

13

J

theo

w

tại điểm

w∗

.


L1

Do mức phạt không làm co các biểu thức thuần đại số trong trường hợp

ma trận Hesse có dạng tổng quát đầy đủ, chúng ta sẽ giả định rằng ma trận Hesse
H = diag ( [ H1,1 , …, H n , n ])

H i ,i > 0

i

có dạng đường
, trong đó
với mọi . Giả định này
đúng nếu dữ liệu cho bài tốn hồi quy tuyến tính được tiền xử lý để loại bỏ toàn bộ
sự tương quan giữa các đặc trưng đầu vào; ta có thể đạt được điều này bằng cách
sử dụng phân tích thành phần chính (PCA).
Xấp xỉ bậc hai của hàm mục tiêu với bộ kiểm soát
tổng theo các tham số:

L1

được phân tách thành một

Bài toán cực tiểu hóa hàm mất mát xấp xỉ này có một nghiệm giải tích (với mỗi
i

chiều ) có dạng:

Xét trường hợp
wi∗ ≤
1.

Khi


wi∗ > 0

α
H i ,i

i

với mọi . Có kết quả có thế xảy ra:

. Tại đây giá trị tối ưu của

soát đơn giản là

wi = 0

lượng kiểm soát
2.

Khi

α
wi∗ >
H i ,i

đối với hàm mục tiêu được kiểm

. Điều này là do sự đóng góp của

mục tiêu được kiểm sốt

L1

wi

J%
( w; X , y )

i

wi

tiến gần tới 0.

. Bộ kiểm sốt khơng làm cho
i

tới hàm

bị thống trị - theo hướng - bởi đại

, dẫn đến giá trị của

đi theo hướng một lượng bằng

J ( w; X , y )

α
H i ,i

14


.

wi

tiến gần tới 0 mà làm nó dịch


Điều tương tự xảy ra khi
bằng

α
H i ,i

wi∗ < 0

, nhưng hàm phạt

L1

làm cho

wi

tăng lên một lượng

, hoặc tiến về 0.
L2

L1


So với bộ kiểm sốt , thì bộ kiểm sốt sinh ra một nghiệm thưa (sparse) hơn.
Tính thưa trong ngữ cảnh này có nghĩa là một số tham số có giá trị tối ưu bằng 0.
Tính thưa của bộ kiểm sốt

L1

là một tính chất khác biệt hẳn so với trong bộ kiểm
w%

2

L

L2

sốt . Phương trình 7.13 cho ta nghiệm của bộ kiểm sốt . Nếu nhìn lại
phương trình với giả định ma trận Hesse là ma trận đường chéo và xác định dương,
như đã được nhắc tới khi phân tích bộ kiểm sốt
Nếu


i

w

khác 0, thì

w%
i


L1

w%
i =

, ta thấy rằng

H i ,i
H i ,i + α

vẫn khác 0. Điều này cho thấy cơ chế kiểm sốt

L2

wi∗

.

khơng

1

làm cho các tham số trở nên thưa, trong khi cơ chế kiểm sốt
đó xảy ra nếu

α

L


có thể khiến điều

đủ lớn.
L1

Tính thưa do cơ chế kiểm soát gây ra thường được sử dụng như một cơ
chế trích chọn đặc trưng(feature selection). Trích chọn đặc trưng làm đơn giản hóa
một bài tốn học máy bằng việc quyết định xem nên sử dụng tập con nào của tập
các đặc trưng sẵn có. Cụ thể, mơ hình nổi tiếng LASSO (least absolute shrinkage
and selection operator - toán tử chọn lọc và co rút tuyệt đối nhỏ nhất) kết hợp một
L1

L1

hàm phạt
với một mơ hình tuyến tính và một hàm chi phí bậc hai. Hàm phạt
khiến một tập con của tập các trọng số nhận giá trị 0, do đó, ta có thể an tâm bỏ đi
các đặc trưng tương ứng với tập hợp con đó.
Trong phần 5.6.1, chúng tơi thấy nhiều chiến thuật kiểm sốt có thể được
giải thích dưới dạng suy luận cực đại hậu nghiệm (MAP) Bayes, cụ thể, bộ kiểm
sốt

L2

đóng vai trị tương đương với suy luận MAP Bayes với các trọng số tuân
L1

α Ω( w ) = α ∑ | wi |
i


theo tiên nghiệm Gauss. Với bộ kiểm soát , hàm phạt
, được sử
dụng để kiểm sốt một hàm chi phí tương đương với một số hạng là logarit của
15


một tiên nghiệm dạng phân phối Laplace đẳng hướng (phương trình 3.26) áp dụng
cho các trọng số

w∈ R

n

khi cực đại hóa bằng suy luận MAP Bayes.

Bởi mục tiêu ở đây là cực đại hàm này với biến
vì những số hạng này khơng phụ thuộc vào

w

w

, ta có thể bỏ qua

log α

-

log


2

.

7.2 Phạt chuẩn dưới góc nhìn tối ưu có ràng buộc
Xét hàm chi phí được kiểm sốt bằng một hàm phạt chuẩn như sau:

Nhắc lại mục 4.4, ta có thể cực tiểu hóa một hàm số phụ thuộc vào các ràng
buộc bằng cách xây dựng một hàm Lagrange tổng quát, bao gồm hàm mục tiêu ban
đầu cộng với một tập các hạng tử phạt. Mỗi hạng tử phạt là tích giữa một hệ số, gọi
là nhân tử Karush–Kuhn–Tucker, với một hàm số biểu diễn việc liệu ràng buộc có
Ω(θ )

được thỏa mãn hay khơng. Nếu ta muốn giá trị
đó, thì hàm Langrange tổng quát có dạng như sau:

nhỏ hơn một hằng số kk nào

Nghiệm của bài toán với ràng buộc đã cho là:

Như đã mô tả trong mục 4.4, để giải bài toán tối ưu này ta cần biến đổi cả
hai giá trị

θ



α

. Phần 4.5 cho ta một ví dụ về hồi quy tuyến tính với một ràng


2

L

buộc . Có nhiều phương pháp khác có thể giải quyết vấn đề này, ví dụ như dùng
thuật tốn trượt gradient, hoặc dùng phương pháp tìm nghiệm của phương trình
16


đạo hàm bằng 0. Tuy nhiên, trong tất cả các phương pháp trên, giá trị của
phải tăng khi

Ω(θ ) > k

và giảm

càng nhỏ. Giá trị tối ưu
Ω(θ )

α

α

khi



làm cho


Ω(θ ) < k

Ω(θ )

. Tham số

α

càng dương thì

α

đều

Ω(θ )

bé lại nhưng chưa đủ lớn để làm cho

nhỏ hơn k.
Để hiểu rõ hơn về ảnh hưởng của các ràng buộc, chúng ta có thể cố định giá

trị

α



và coi hàm chỉ có một tham số

θ


:

Bài toán này giống với bài toán huấn luyện có kiểm sốt để cực tiểu hóa hàm
J%

. Chúng ta có thể coi việc sử dụng tham số phạt chuẩn ở đây giống như việc áp

đặt một ràng buộc lên các trọng số. Nếu
nằm trên trong khối cầu của chuẩn

L2

Ω

là chuẩn

. Nếu

L2

L2

, thì các trọng số bị giới hạn

là chuẩn

L1

, thì các ma trận trọng số


L1

sẽ bị ràng buộc nằm trên miền bị giới hạn bởi chuẩn . Thông thường, chúng ta
khơng biết chính xác kích thước của miền ràng buộc mà ta áp đặt khi sử dụng suy
giảm trọng số với hệ số

α∗

, bởi giá trị của

α∗

k là bao nhiêu. Trên lý thuyết, ta có thể tìm ra
α



phụ thuộc vào dạng của hàm

J

không trực tiếp cho ta biết giá trị của
k

, tuy nhiên mối quan hệ giữa

k




. Tuy ta khơng biết rõ kích thước miền ràng

buộc, nhưng chúng ta có thể khống chế nó bằng cách tăng hoặc giảm hệ số

α

α

để có

thể mở rộng hoặc thu hẹp miền ràng buộc. càng nhỏ thì phạm vi của miền ràng
buộc càng rộng, và ngược lại, giá trị αα càng lớn thì phạm vi của miền càng hẹp.
Đôi khi, chúng ta mong muốn sử dụng các ràng buộc tường minh thay vì sử
dụng các hàm phạt. Như đã nêu trong phần 4.4, chúng ta có thể điều chỉnh các
thuật tốn, chẳng hạn như thực hiện trượt gradient ngẫu nhiên trên hàm
Ω(θ ) < k

θ

J (θ )

sau đó

chiều ngược ngược về điểm gần nhất thỏa mãn điều kiện
. Điều này khá
hữu ích trong trường hợp ta ước lượng được một giá trị k phù hợp và không muốn
17



tốn nhiều thời gian và chi phí tính tốn cho việc thay đổi
trị k này.

α

tương ứng với giá

Một lý do khác để sử dụng các ràng buộc tường minh và phép chiếu ngược
(trở lại vùng ràng buộc) thay vì ép các ràng buộc bởi các hạng tử phạt, đó là các
hạng tử phạt có thể là nguyên do khiến các phương pháp tối ưu không lồi bị kẹt tại
các giá trị cực tiểu địa phương tương ứng với θ nhỏ. Khi huấn luyện các mạng
neuron, biểu hiện của điều này là các mạng neuron huấn luyện ra một vài “đơn vị
chết” (dead unit). Những đơn vị này khơng đóng góp nhiều vào hành vi của hàm
do mạng học ra, bởi các trọng số đi qua các đơn vị chết đều có giá trị rất nhỏ. Khi
huấn luyện với một hàm phạt đối với chuẩn của trọng số, những trạng thái trên có
thể là các điểm tối ưu cục bộ, ngay cả khi ta có thể giảm J một cách đáng kể bằng
cách tăng giá trị các trọng số. Các ràng buộc tường minh được thực hiện thông qua
phép chiếu ngược có hiệu quả tốt hơn nhiều trong các trường hợp như vậy bởi nó
khơng đẩy các trọng số tiến về gốc tọa độ. Các ràng buộc tường minh được thực
hiện thơng qua phép chiếu ngược chỉ có tác động khi giá trị các trọng số trở lên lớn
hơn và cố gắng vượt qua miền ràng buộc.
Cuối cùng, các ràng buộc tường minh với phép chiếu ngược có thể hữu dụng
bởi chúng áp đặt một số tính ổn định cho thuật toán tối ưu. Khi sử dụng tốc độ học
lớn, ta có thể gặp vấn đề vịng lặp phản hồi tích cực(positive feedback loop) mà ở
đó các giá trị trọng số lớn sẽ gây nên giá trị gradient lớn, dẫn đến bước cập nhật
các trọng số cũng lớn. Nếu các bước cập nhật trọng số này luôn luôn khiến trọng số
tăng dần thì giá trị của hệ số θ sẽ đi ra xa điểm gốc cho đến khi hiện tượng tràn số
xảy ra. Các ràng buộc tường minh với phép chiếu ngược sẽ ngăn vịng lặp phản
hồi, khơng cho phép nó tiếp tục tăng độ lớn các trọng số một cách vô hạn. Hinton
và cộng sự (2012c) khuyến cáo nên sử dụng các ràng buộc kết hợp với một tốc độ

học lớn để nhanh chóng khám phá miền tham số trong khi vẫn duy trì sự ổn định
của mơ hình.
Cụ thể, Hinton và cộng sự (2012c) khuyến nghị một chiến lược đưa ra bởi
Srebro và Shraibman (2005): ta nên ràng buộc chuẩn của mỗi cột trong ma trận
trọng số của mỗi tầng của một mạng neuron, thay vì ràng buộc chuẩn Frobenius
trên toàn bộ ma trận trọng số. Việc ràng buộc chuẩn của các cột sẽ ngăn các đơn vị
ẩn có ma trận trọng số quá lớn. Nếu ta chuyển đổi những ràng buộc này thành một
L2

hệ số phạt trong hàm Lagrange, nó sẽ tương đương với hệ số suy giảm trọng số
nhưng sẽ có một nhân tử KKT cho các trọng số tại mỗi đơn vị ẩn. Mỗi nhân tử
KKT này sẽ được cập nhật một cách riêng biệt để ép mỗi đơn vị ẩn tuân theo các
18


ràng buộc. Trong thực tế, giới hạn chuẩn của các cột luôn được triển khai thông
qua ràng buộc tường minh với phép chiếu ngược.

7.3 Cơ chế kiểm soát và các bài tốn khơng ràng buộc
Trong một số trường hợp, cơ chế kiểm soát là cần thiết để giúp cho các bài
toán học máy trở nên xác định. Rất nhiều các mơ hình tuyến tính trong học máy
như hồi quy tuyến tính và phân tích thành phần chính phụ thuộc vào ma trận
X• X

X• X

nghịch đảo
. Điều này sẽ khơng được thực hiện nếu
là suy biến. Ma
trận này có thể là suy biến nếu như phân phối của dữ liệu thực tế khơng có phương

sai theo một số hướng, hoặc phương sai không thể quan sát được theo một số
hướng bởi có q ít mẫu (các hàng của ma trận
cột của ma trận

X

X

) so với đặc trưng đầu vào (các

). Trong trường hợp này, có nhiều dạng kiểm sốt tương đương
X • X +α I

với phép lấy nghịch đảo của
được đảm bảo là ln khả nghịch.

thay vì

X• X

. Ma trận được kiểm sốt này

Các bài tốn dạng tuyến tính như vậy có nghiệm ở dạng đóng nếu ma trận
khả nghịch. Có thể có bài tốn khơng có nghiệm dạng đóng mặc dù nó khơng vơ
định. Ví dụ như thuật tốn hồi quy tuyến tính khi áp dụng cho bài tốn với các lớp
có thể phân tách tuyến tính. Nếu một vector trọng số
w

w


có thể phân loại một cách

hồn hảo, thì 2 cũng có thể phân loại hồn hảo và với mức độ hợp lý cao hơn.
Một phương pháp tối ưu có dạng lặp như trượt gradient ngẫu nhiên sẽ liên tục tăng
w

độ lớn của ma trận trọng số và, theo lý thuyết, có thể khơng bao giờ dừng.
Trong thực tế, các gradient sẽ dần tiến tới các trọng số đủ lớn để tạo ra tràn số. Tại
thời điểm đó, bước xử lý tiếp theo như nào sẽ phụ thuộc vào cách người lập trình
quyết định xử lý như thế nào với các giá trị không phải số thực.
Hầu hết các dạng kiểm sốt có thể đảm bảo tính hội tụ của các phương pháp
lặp khi áp dụng cho bài tốn vơ định. Ví dụ, suy giảm trọng số sẽ khiến trượt
gradient không tiếp tục tăng độ lớn của các trọng số nữa khi độ dốc của hàm hợp lý
bằng với hệ số suy giảm trọng số.

19


Ý tưởng về việc sử dụng cơ chế kiểm soát để giải quyết các bài tốn vơ định
được mở rộng ra cả bên ngoài ngành học máy. Ý tưởng như vậy rất hữu ích trong
việc giải các bài tốn đại số tuyến tính cơ bản.
Như đã nêu trong mục 2.9, chúng ta có thể giải các phương trình tuyến tính
vơ định bằng cách sử dụng giả nghịch đảo Moore-Penrose. Nhớ lại một định nghĩa
của giả nghịch đảo

X+

của ma trận

X


như sau:

Ta có thể nhận ra phương trình 7.29 giống như thực hiện hồi quy tuyến tính với hệ
số suy giảm trọng số. Cụ thể hơn, phương trình 7.29 là giới hạn của phương trình
7.17 khi hệ số kiểm sốt giảm về 0. Do đó, ta có thể diễn giải giả nghịch đảo là một
cách ổn định các bài tốn tốn vơ định sử dụng cơ chế kiểm soát.

7.4 Mở rộng dữ liệu
Cách tốt nhất để làm cho mơ hình học máy tổng quát hóa tốt hơn là huấn
luyện nó trên tập dữ liệu lớn hơn. Dĩ nhiên, trong thực tế thì số lượng dữ liệu ln
có giới hạn. Một cách để giải quyết vấn đề này đó là tạo ra dữ liệu giả và thêm nó
vào tập huấn luyện. Trong một số tác vụ của học máy, tạo dữ liệu giả là việc khá dễ
dàng.
Đối với bài toán phân loại, mở rộng dữ liệu được giải quyết dễ dàng hơn.
Một bộ phân loại cần nhận vào một đầu vào phức tạp với số chiều cao
y

x

và phải

tóm tắt nó thành một nhãn duy nhất. Điều này có nghĩa nhiệm vụ chính mà một
mơ hình phân lớp cần giải quyết đó là nó phải không đổi với một loạt các phép
biến đổi khác nhau. Chúng ta có thể tạo ra cặp dữ liệu dễ dàng
biến đổi

x

( x, y )


bằng cách

trong tập huấn luyện.

Phương pháp này không dễ dàng áp dụng với cho nhiều tác vụ khác. Ví dụ,
rất khó có thể tạo dữ liệu giả cho các bài toán ước lượng mật độ trừ khi chúng ta đã
giải quyết vấn đề về ước lượng mật độ rồi.

20


Mở rộng dữ liệu là một kỹ thuật rất hiệu quả cho bài toán nhận dạng đối
tượng, một dạng bài toán phân loại. Ảnh là một dữ liệu đa chiều với rất nhiều các
biến tố mà nhiều trong số đó có thể được giả lập dễ dàng. Các thao tác như dịch
ảnh đi một vài điểm ảnh theo mỗi hướng có thể cải thiện đáng kể tính tổng qt
hóa, ngay cả khi mơ hình đã được thiết kế để phần nào trở nên bất biến với phép
tịnh tiến thông qua sử dụng các phép tích chập và gộp (pooling) được nêu trong
chương 9. Nhiều phép biến đổi cơ bản khác như xoay ảnh hoặc thay đổi tỉ lệ cũng
đã được chứng minh là khá hiệu quả.
Tuy nhiên, chúng ta cần phải thận trọng khi áp dụng các phép biến đổi vì
chúng có thể thay đổi lớp phân loại thực sự của của đối tượng. Ví dụ, các bài tốn
nhận dạng chữ viết yêu cầu phải phân biệt được sự khác nhau của các cặp kí tự như
“b” và “d” hoặc “6” và “9”. Trong những trường hợp này các phép lật theo chiều
ngang hay xoay 180 độ không được phép áp dụng để việc mở rộng dữ liệu vì nó
làm thay đổi nhãn thực của dữ liệu.
Cũng có những phép biến đổi mà chúng ta muốn mơ hình phân lớp trở thành
bất biến nhưng điều đó khơng dễ thực hiện. Ví dụ như phép xoay lệch mặt
phẳng (out-of-plane) khơng thể thực thi được bằng một phép biến đổi hình học
thơng thường với các điểm ảnh đầu vào.

Thêm nhiễu vào dữ liệu đầu vào của một mạng neuron cũng có thể được
xem như một dạng mở rộng dữ liệu. Với nhiều bài tốn phân loại và thậm chí cả
bài tốn hồi quy, ta vẫn có thể giải quyết được bài tốn khi một lượng nhỏ nhiễu
ngẫu nhiên được thêm vào dữ liệu đầu vào. Tuy nhiên, các mơ hình mạng neuron
được chứng minh là kháng nhiễu không quá tốt [Tang and Eliasmith, 2010]. Một
cách đơn giản để cải thiện tính kháng nhiễu của các mạng neuron là huấn luyện nó
với dữ liệu đầu vào được thêm nhiễu ngẫu nhiên. Thêm nhiễu là một phần của một
số thuật tốn học khơng giám sát, chẳng hạn như bộ tự mã hóa giải nhiễu [Vincent
et al., 2008]. Thêm nhiễu cũng được áp dụng với các đơn vị trong lớp ẩn, mà ta có
thể coi đó là bước mở rộng dữ liệu với nhiều cấp độ. Poole et al. (2014) đã chỉ ra
rằng phương pháp này có thể đạt hiệu quả cao với điều kiện là độ lớn của nhiễu
được điều chỉnh một cách cẩn thận. Cơ chế tắt ngẫu nhiên(dropout), một phương
pháp kiểm soát mạnh được mơ tả trong mục 7.12 có thể xem như một quá trình tạo
dữ liệu đầu vào mới bằng cách nhân nó với nhiễu.
Khi so sánh các kết quả của các mơ hình học máy với nhau, cần phải xét tới
hiệu ứng của việc mở rộng dữ liệu. Thông thường, phương pháp mở rộng dữ liệu
thủ cơng có thể giảm sai số tổng qt của mơ hình học máy một cách rõ rệt. Để so
21


sánh tính hiệu quả của các mơ hình chúng ta cần thực hiện các thí nghiệm có kiểm
sốt. Khi so sánh mơ hình học máy A với mơ hình học máy B, cần đảm bảo rằng cả
hai mơ hình được đánh giá sử dụng cùng một phương pháp mở rộng dữ liệu. Giả
sử rằng thuật toán A đạt hiệu quả khơng tốt khi khơng áp dụng mở rộng dữ liệu,
cịn thuật tốn B thì chạy tốt khi kết hợp nhiều phép biến đổi tổng hợp dữ liệu đầu
vào. Trong trường hợp đó, các phép biến đổi tổng hợp có khả năng lớn là đã giúp
cải thiện được hiệu suất của mơ hình chứ khơng phải là do việc sử dụng thuật tốn
B. Đơi khi việc quyết định một thực nghiệm có được kiểm sốt đúng cách hay
khơng cần một đánh giá chủ quan. Ví dụ, các thuật tốn học máy thực hiện thêm
nhiễu vào dữ liệu đầu vào chính là một dạng của phương pháp mở rộng dữ liệu.

Thông thường, các thao tác được áp dụng một cách tổng quát (như thêm nhiễu
dạng Gauss vào dữ liệu đầu vào) được xem như một phần của thuật toán học máy,
trong khi các phép toán áp dụng chuyên biệt cho một miền ứng dụng cụ thể (như là
cắt ngẫu nhiên một vùng trong bức ảnh) được coi là những bước tiền xử lý riêng
biệt.

7.5 Tính kháng nhiễu
Mục 7.4 khơi nguồn cho việc sử dụng nhiễu để áp dụng lên đầu vào như là
một cách để mở rộng tập dữ liệu. Với một số mơ hình, thêm nhiễu vào đầu vào với
phương sai cực kỳ nhỏ tương đương với việc gán một mức phạt lên chuẩn của các
trọng số [Bishop, 1995a,b]. Trong trường hợp tổng quát, cần lưu ý rằng việc thêm
nhiễu có thể hiệu quả hơn rất nhiều so với chỉ đơn giản là co độ lớn các tham số,
đặc biệt khi nhiễu được thêm vào các đơn vị ẩn. Nhiễu áp dụng vào các đơn vị ẩn
là một đề tài quan trọng nên nó xứng đáng được bản luận riêng; cơ chế tắt ngẫu
nhiên miêu tả trong mục 7.12 là hướng phát triển chính của phương pháp này.
Một cách khác sử dụng nhiễu để kiểm sốt các mơ hình là thêm nhiễu vào
các trọng số. Kỹ thuật này được sử dụng chủ yếu trong các mạng neuron truy hồi
[Jim et al., 1996; Graves, 2011]. Kỹ thuật này có thể được diễn giải như là một
cách cài đặt ngẫu nhiên của suy luận Bayes cho các trọng số. Phương pháp học
Bayes sẽ xem các trọng số trong mơ hình là bất định và biểu diễn được qua một
phân phối xác suất. Thêm nhiễu vào các trọng số là một cách thực tế và mang tính
ngẫu nhiên để thể hiện sự bất định này.
Nhiễu áp dụng vào các trọng số cũng có được diễn giải một cách tương
đương (dưới một số giả định) với một dạng kiểm sốt cổ điển, khuyến khích sự ổn
22


định của hàm cần học. Xét trong trường hợp hồi quy, ở đó ta cần huấn luyện một
yˆ( x )


hàm

ánh xạ một tập các đặc trưng

x

đến một đại lượng vô hướng sử dụng

hàm chi phí bình phương tối thiểu giữa dự đốn của mơ hình
y

yˆ( x )

và giá trị thực tế

:

Tập huấn luyện bao gồm

m

đã gán nhãn

( x (1) , y (1) ), …, ( x ( m ) , y ( m) )

.

Bây giờ, ta giả sử rằng với mỗi biểu diễn đầu vào, ta thêm một nhiễu ngẫu
nhiên


òW ∼ N (ò;0,η I )

vào các trọng số của mạng. Giả sử ta có một mơ hình MLP
yˆịW ( x )

l

với tầng. Ta ký hiệu mơ hình (sau khi thêm) nhiễu là
. Dù có thêm nhiễu, ta
vẫn muốn cực tiểu hóa sai số bình phương đầu ra của mạng. Hàm mục tiêu trở
thành:

Với

η

nhỏ, cực tiểu của

J

với trọng số nhiễu (với hiệp phương sai

vào các trọng số, tương đương với cực tiểu của

J

ηI

) được thêm


cộng thêm một đại lượng kiểm

η E p ( x , y ) [‖∇ W yˆ ( x ) ‖2 ]

sốt:
. Dạng kiểm sốt này khuyến khích các tham số tiến đến
miền không gian tham số mà ở đó, các thay đổi nhỏ của các trọng số có ảnh hưởng
tương đối nhỏ đến giá trị đầu ra. Nói cách khác, phương pháp này sẽ đẩy mơ hình
vào vùng mà nó tương đối miễn nhiễm với các biến đổi nhỏ của trọng số, tìm ra
các điểm khơng chỉ là một cực tiểu đơn thuần, mà là một cực tiểu bao quanh bởi
các vùng phẳng [Hochreiter and Schmidhuber, 1995]. Trong trường hợp đơn giản
của hồi quy tuyến tính (khi

yˆ ( x ) = w ú x + b

), đại lượng kiểm soát này được quy về

23


η E p ( x ) [‖ x ‖2 ]

, đây không phải là hàm của các tham số và vì vậy khơng ảnh hưởng

đến gradient của

J%
W

ứng với các tham số của mơ hình.


7.5.1 Thêm nhiễu vào nhãn đầu ra
Gần như mọi tập dữ liệu đều tồn tại những lỗi trong tập nhãn y. Và việc cực
log p ( y | x)

đại hoá
khi y là một nhãn sai gây hại cho quá trình huấn luyện. Một
cách để ngăn chặn điều này là trực tiếp mơ hình hố nhiễu trên các nhãn. Ví dụ, ta
có thể giả sử với hằng số ϵ nhỏ, nhãn huấn luyện y là nhãn đúng với xác suất 1−ϵ,
và trong trường hợp khác mọi nhãn khác đều có thể đúng. Khơng khó để đưa giả
sử này vào biểu thức của hàm mục tiêu, thay vì trực tiếp lấy ra các mẫu nhiễu ngẫu
nhiên. Ví dụ, làm trơn nhãn (label smoothing) là kĩ thuật kiểm sốt mơ hình dựa
trên hàm cực đại mềm với k giá trị đầu ra bằng cách thay thế giá trị
ò
k −1

1−ò

cứng 0 và 1 của nhãn phân loại bằng nhãn

tương ứng. Sau đó ta có thể
áp dụng hàm mất mát tiểu chuẩn entropy chéo cho các nhãn mềm này. Quá trình
học bằng cực đại hàm hợp lý với một bộ phân loại bằng hàm cực đại mềm
(softmax) và các nhãn cứng có thể không bao giờ hội tụ - cực đại mềm khơng bao
giờ dự đốn một xác suất nhãn chính xác là 0 hay 1, vì vậy quá trình học sẽ làm
các trọng số không ngừng tăng lên, dẫn đến những dự đốn cực đoan hơn và khơng
bao giờ dừng. Ta có thể ngăn chặn trường hợp này bằng các chiến lược kiểm soát
khác như suy giảm trọng số. Phương pháp làm trơn nhãn có lợi thế ngăn chặn việc
việc mơ hình cố gắng đốn các xác suất cứng mà khơng ảnh hưởng các phép phân
loại đúng. Chiến lược này đã được sử dụng từ những năm 1980 và tiếp tục được sử

dụng rộng rãi trong các mạng neuron đương đại [Szegedy et al, 2015].

7.6 Học bán giám sát
Trong học bán giám sát, chúng ta sử dụng cả các mẫu không có nhãn
từ P(x) và các mẫu có nhãn từ P(x,y) để ước lượng P(y|x) hoặc dự đoán y từ x.
Trong học sâu, thuật ngữ học bán giám sát thường được dùng để đề cập đến việc
học một biểu diễn h=f(x). Mục tiêu của nó là học một biểu diễn sao cho các mẫu
trong cùng một lớp có các biểu diễn tương tự nhau. Học khơng giám sát có thể cho
24


ta một vài đầu mối hữu ích về cách gom nhóm các mẫu trong khơng gian biểu diễn.
Các mẫu nằm gần nhau trong không gian đầu vào nên được ánh xạ tới các biểu
diễn tương tự nhau. Hàm phân loại tuyến tính trong khơng gian mới có thể đạt
được tính tổng quát hóa tốt hơn trong nhiều trường hợp. Một biến thể đã được sử
dụng từ lâu của hướng tiếp cận này chính là ứng dụng của phân tích thành phần
chính như một bước tiền xử lý trước khi áp dụng hàm phân loại (vào dữ liệu đã
được chiếu xuống khơng gian mới).
Thay vì có các thành phần khơng giám sát và có giám sát riêng biệt trong
một mơ hình, ta có thể xây dựng các mơ hình mà trong đó một mơ hình sinh
mẫu (generative model) của P(x) hay P(x,y) dùng chung tham số với một mơ hình
phân biệt (discriminative model) của P(y|x). Ta có thể đánh đổi (trade-off) tiêu
chuẩn có giám sát −logP(y|x) với tiêu chuẩn khơng giám sát hay một mơ hình sinh
mẫu (ví dụ như −logP(x) hoặc −logP(x,y)). Tiêu chuẩn sinh mẫu từ đó thể hiện
một dạng kinh nghiệm tiền đề về nghiệm của bài toán học có giám sát, cụ thể là
cấu trúc của P(x) được kết nối với cấu trúc của P(y|x) nhờ các tham số chung.
Bằng cách kiểm soát xem tiêu chuẩn sinh mẫu chiếm bao nhiêu trong tiêu chuẩn
tồn phần, ta có thể tìm được sự cân bằng tốt hơn giữa một mơ hình sinh mẫu hồn
tồn hay một mơ hình phân biệt hoàn toàn.


7.7 Học đa nhiệm( multitask learning)
Học đa nhiệm (multitask learning) là mơ hình học nhiều nhiệm vụ cùng một
lúc bởi tìm ra câu trúc chia sẻ giữa các dữ liệu khác nhau. Nó là một cách cải thiện
sự tổng qt hóa của mơ hình bằng cách tổng hợp các ví dụ. phát sinh từ một số
nhiệm vụ. Bằng một cách tương tự, thêm các ví dụ huấn luyện tạo ra nhiều sức ép
lên các tham số của mô hình giúp nó tiến tới giá trị có tính tổng qt hơn. Khi một
phần của mơ hình được chia sẻ, các phần đó bị hạn chế bởi các tham số giá trị tốt (
giả sử chia sẻ là hợp lý), thường tạo ra sự tổng quát tốt hơn.

25


×