Tải bản đầy đủ (.pdf) (53 trang)

Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────

NGUYỄN THỊ QUYỀN

NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC
TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON
DỰA TRÊN CƠ CHẾ TẬP TRUNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI 06 – 2021


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────

NGUYỄN THỊ QUYỀN

NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC
TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON
DỰA TRÊN CƠ CHẾ TẬP TRUNG

Ngành

: Công nghệ thông tin

Chuyên ngành


: Hệ thống thơng tin

Mã số

: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THƠNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Đặng Thanh Hải

HÀ NỘI 06 – 2021

2


LỜI CAM ĐOAN
Tác giả xin cam đoan rằng luận văn thạc sĩ cơng nghệ thơng tin “Dự đốn
tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung”
là cơng trình nghiên cứu của riêng tác giả, không sao chép lại của người khác.
Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của
chính cá nhân tác giả hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các
nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.
Tác giả xin hoàn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày 30 tháng 06 năm 2021

Nguyễn Thị Quyền

3



LỜI CẢM ƠN
Trước tiên em xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, TS.
Đặng Thanh Hải – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho em
những điều kiện tốt nhất từ khi bắt đầu cho tới khi hồn thành cơng việc của mình.
Em xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Cơng nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp
cho em những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho em trong
suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời em xin cảm ơn tất cả những người thân yêu trong gia đình cùng
tồn thể bạn bè những người đã ln giúp đỡ, động viên những khi vấp phải những
khó khăn, bế tắc và giúp đỡ em hoàn thành luận văn này.
Hà Nội, ngày 30 tháng 06 năm 2021

Nguyễn Thị Quyền

4


MỤC LỤC
LỜI CAM ĐOAN ................................................................................................. 3
LỜI CẢM ƠN....................................................................................................... 4
MỤC LỤC ............................................................................................................ 5
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... 7
DANH MỤC HÌNH VẼ ....................................................................................... 8
DANH MỤC BẢNG BIỂU .................................................................................. 9
MỞ ĐẦU ............................................................................................................ 10
CHƯƠNG 1: TỔNG QUAN VỀ TÁC DỤNG PHỤ CỦA THUỐC................. 12
1.1. Khái niệm ................................................................................................ 12
1.2. Hiện trạng ................................................................................................ 12

1.3. Hướng tiếp cận ........................................................................................ 13
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT................................................................... 16
2.1. Mạng nơ-ron nhân tạo ............................................................................. 16
2.1.1. Mạng nơ-ron tích chập (CNN) ......................................................... 17
2.1.2. Mạng nơ-ron hồi quy (RNN) ............................................................ 19
2.1.3. Mạng bộ nhớ dài – ngắn LSTM ....................................................... 21
2.1.4. Mạng GRU ....................................................................................... 22
2.2. Word Embedding .................................................................................... 24
2.3. Position Embedding ................................................................................ 25
2.4. Kỹ thuật attention .................................................................................... 25
CHƯƠNG 3: THỰC NGHIỆM DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC
TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG ....... 27
3.1. Mơ tả bài tốn .......................................................................................... 27
3.2. Mô tả dữ liệu và các bước thực hiện ....................................................... 30
3.3. Cấu hình phần cứng ................................................................................. 38
3.4. Tham số cài đặt mơ hình ......................................................................... 38
3.5. Phương pháp đánh giá ............................................................................. 38
3.6. Kết quả thử nghiệm ................................................................................. 39
5


KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 42
Kết luận .......................................................................................................... 42
Hướng phát triển tương lai ............................................................................. 42
TÀI LIỆU THAM KHẢO .................................................................................. 43

6


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Thuật ngữ đầy đủ

Giải thích

ADRs

Drug side-effects/ adverse
drug reactions

Tác dụng phụ/ phản ứng
có hại của thuốc

ATT

Attention mechanism

Cơ chế tập trung/ Cơ chế
chú ý

CDRs

Chemical-Disease
Relations

Mối quan hệ giữa hóa chất
và bệnh

Ký hiệu viết tắt

CID


Chemical-induced Disease Mối quan hệ của bệnh và
hóa chất gây ra.

DNN

Deep neural networks
(DNNs)

Mạng nơ-ron sâu

FFNN

Feed forward neural
network

Mạng nơ ron truyền thẳng

GloVe

Global vector

Mô hình vector tồn cục

LSTM

Long short term memory

Mạng bộ nhớ dài ngắn


NER

Named entity recognition

Nhận diện tên thực thể

NLP

Natural language
processing

Xử lý ngôn ngữ tự nhiên

RNN

Recurrent neural network

Mạng nơ ron hồi quy

7


DANH MỤC HÌNH VẼ
Hình 2.1: Mơ hình kiến trúc mạng nơ-ron [12] .................................................. 16
Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6]....... 18
Hình 2.3: Mơ hình CNN cho trích xuất quan hệ [23] ........................................ 19
Hình 2.4: Mơ hình RNN tổng qt [2] ............................................................... 20
Hình 2.5: Minh họa khối bộ nhớ với một ô nhớ của LSTM [2]. ........................ 22
Hình 2.6: Minh họa GRU ................................................................................... 23
Hình 2.7: Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16] ... 26

Hình 3.1: Minh họa bài tốn trích xuất mối quan hệ giữa thuốc và bệnh .......... 28
Hình 3.2: Tổng quan kiến trúc chương trình ...................................................... 29
Hình 3.3: Cách tạo các thể hiện quan hệ từ các câu ........................................... 29

8


DANH MỤC BẢNG BIỂU
Bảng 3.1: Thống kê tập dữ liệu .......................................................................... 31
Bảng 3.2: Bảng cấu hình phần cứng................................................................... 38
Bảng 3.3: Các tham số được sử dụng ................................................................. 38
Bảng 3.4: Kết quả trung bình các thực nghiệm .................................................. 40
Bảng 3.5: Thống kê kết quả thực hiện luận văn với một số thuật toán khác ..... 40

9


MỞ ĐẦU
Trong y học, một tác dụng phụ là một tác dụng mà cho dù là hữu ích hay là
bất lợi thì đều là thứ yếu so với dự định (ngoài ý muốn khi sử dụng thuốc). Phát
triển thuốc là một q trình phức tạp và khó để tạo ra một loại thuốc nhằm vào
một bộ phận của cơ thể nhưng lại không ảnh hưởng đến các bộ phận khác. Tác
dụng phụ bất lợi của thuốc là một vấn đề nghiêm trọng cấp bách về sức khỏe của
con người cũng là trở ngại cho sự phát triển các loại thuốc có hiệu quả điều trị.
Mặc dù có nhiều nỗ lực liên tục để xác định tác dụng phụ của thuốc trước đó,
nhưng đây vẫn là một nhiệm vụ đầy thách thức. Hầu hết các tác dụng của thuốc
đều được phát hiện nhờ sử dụng nguồn dữ liệu từ các báo cáo tự phát trong giai
đoạn trước và sau bán hàng. Đây là một hạn chế rất lớn. Các công ty dược phẩm
mặc dù họ có khả năng xác định và giải quyết các tác dụng phổ biến nhưng nhìn
chung khơng khả thi để xác định hoặc dự đoán các tác dụng phụ nghiêm trọng

hiếm gặp. Sự bùng nổ của tài liệu y sinh đã tạo nên một nguồn tri thức phong phú
giúp con người khai thác được nhiều thông tin hữu ích chẳng hạn như dự đốn
mối quan hệ trong y sinh bao gồm việc dự đoán tác dụng phụ của thuốc từ y văn.
Nhờ đó khắc phục được rất nhiều hạn chế trong quá trình tìm ra tác dụng phụ của
thuốc như trên.
Các nghiên cứu truyền thống sử dụng dữ liệu từ y văn chủ yếu sử dụng các
phương pháp học máy như support vector machine (SVM) đã hoạt động tương
đối tốt trong thập kỷ qua. Tuy nhiên không tránh khỏi một số lỗi không mong
muốn đặc biệt khi phải xử lý các câu dài và khả năng khái quát hóa từ vựng hạn
chế cho những từ chưa được nhìn thấy. Ngược lại, các phương pháp dựa trên mạng
nơ-ron (NN) là các phương pháp học biểu diễn tự động với nhiều cấp độ biểu
diễn, có được bằng cách kết hợp các mơ-đun đơn giản nhưng phi tuyến tính. Gần
đây, các phương pháp tiếp cận học sâu (Deep learning) đã được nghiên cứu rộng
rãi và đạt được hiệu suất tiên tiến trong các nhiệm vụ NLP khác nhau như nhận
diện thực thể (NER) và trích xuất quan hệ (Relation extraction). Trong các bài
tốn về trích xuất quan hệ y sinh, các từ “trigger word” là những từ xuất hiện trong
ngữ cảnh trực tiếp chỉ ra sự tồn tại của các quan hệ ngữ nghĩa, được sử dụng rộng
rãi như là các đặc điểm đầu vào của các phương pháp khai thác văn bản khác
nhau. Cơ chế tập trung được đề xuất từ trực giác của sự chú ý trực quan của con
người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào và đã được
chứng minh là cải thiện hiệu suất mơ hình và nâng cao khả năng diễn giải mơ hình
thơng qua việc kết hợp thơng tin chú ý vào học sâu.
10


Trong phạm vi khóa luận sẽ trình bày về mơ hình mạng nơ-ron dựa trên cơ
chế tập trung (attention-based neural networks) áp dụng vào việc dự đoán tác dụng
phụ của thuốc sử dụng dữ liệu từ y văn. Kết quả thử nghiệm của khóa luận chỉ ra
rằng mơ hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mơ hình
CNN khi khơng sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1

trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử
nghiệm. Quan sát kết quả cũng cho thấy cơ chế tập trung áp dụng hiệu quả hơn
khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống.
Luận văn có bố cục gồm 3 chương chính:
Chương 1: Tổng quan về tác dụng phụ của thuốc
Chương này giới thiệu tổng quan về tác dụng phụ của thuốc và hướng tiếp
cận sử dụng phương pháp học máy.
Chương 2: Cơ sở lý thuyết
Chương này đi sâu tìm hiểu về mơ hình mạng nơ ron nhân tạo và mơ hình
mạng nơ-ron dựa trên cơ chế tập trung sẽ áp dụng trong khóa luận.
Chương 3: Thực nghiệm Dự đoán tác dụng phụ của thuốc từ y văn sử dụng
mạng nơ ron dựa trên cơ chế tập trung.
Chương này sẽ trình bày việc áp dụng mơ hình mạng nơ-ron dựa trên cơ
chế tập trung áp dụng trong bài toán dự đoán tác dụng phụ của thuốc và các kết
quả thực nghiệm.
Cuối cùng là một số kết luận và hướng phát triển trong tương lai

11


CHƯƠNG 1: TỔNG QUAN VỀ TÁC DỤNG PHỤ CỦA THUỐC
1.1. Khái niệm
Dưới đây là một số thuật ngữ thường được sử dụng để mô tả các tác dụng
phụ của việc điều trị bằng thuốc theo Pharmacology Education Project (PEP) được
phát triển bởi liên minh quốc tế về dược học cơ bản và lâm sàng (IUPHAR) [25]:
- Phản ứng có hại của thuốc (Adverse Drug Reaction - ADR) là phản ứng
không mong muốn hoặc có hại xảy ra sau khi sử dụng thuốc hoặc kết hợp thuốc
trong điều kiện sử dụng bình thường và được nghi ngờ có liên quan đến thuốc.
ADR thường sẽ yêu cầu ngừng thuốc hoặc giảm liều.
- Tác dụng phụ (side-effect) là bất kỳ tác dụng nào gây ra bởi một loại thuốc

khác với tác dụng điều trị dự kiến, cho dù có lợi, trung tính hay có hại.
Kể từ năm 2012, định nghĩa về ADR đã bao gồm các phản ứng xảy ra do
lỗi, sử dụng sai hoặc lạm dụng và các phản ứng nghi ngờ đối với các loại thuốc
khơng có giấy phép hoặc được sử dụng ngoài nhãn ngoài việc sử dụng thuốc được
phép với liều lượng bình thường [8].
Thơng thường, ADR được phân thành hai loại [8]:
- Phản ứng loại A - đôi khi được gọi là phản ứng tăng cường - 'phụ thuộc
vào liều lượng' và có thể dự đốn được dựa trên dược lý của thuốc.
- Phản ứng loại B - phản ứng kỳ lạ - mang tính đặc trưng và khơng thể dự
đốn được trên cơ sở dược lý học.
1.2. Hiện trạng
Phản ứng có hại của thuốc là một vấn đề sức khỏe cấp bách và cũng là một
trở ngại cho việc phát triển các loại thuốc có hiệu quả điều trị. Được biết, khoảng
7000 ca tử vong do ADRs gây ra mỗi năm trong một nghiên cứu được thực hiện
trong năm 2000 [13]. Do đó, việc giám sát thuốc sau bán trên thị trường được yêu
cầu để xác định các ADR tiềm ẩn như vậy sau khi sản xuất thuốc. Hiện tại, hầu
hết các hoạt động giám sát thuốc sau bán trên thị trường đều dựa vào cơ sở dữ liệu
hệ thống báo cáo tự phát thụ động, chẳng hạn như Hệ thống báo cáo sự kiện có
hại của Cơ quan Quản lý Dược phẩm Liên bang (FAERS) của Mỹ [13], các hệ
thống báo cáo tự phát như Chương trình Thẻ Vàng (Yellow Card Scheme) ở Anh
được vận hành bởi Cơ quan Quản lý Thuốc và Sản phẩm Chăm sóc sức khỏe
(MHRA) và Ủy ban Thuốc cho Người (CHM) [8]. Thơng qua các báo cáo này,
chương trình thu thập dữ liệu về các ADR nghi ngờ liên quan đến tất cả các loại
12


thuốc và vắc xin được cấp phép và không được cấp phép, bao gồm cả những loại
thuốc được cấp theo đơn hoặc mua không cần kê đơn. Để một báo cáo có hiệu
lực, chỉ cần có bốn mục thơng tin: bệnh nhân, phản ứng, sản phẩm thuốc bị nghi
ngờ và người báo cáo. Tuy nhiên, các báo cáo viên được khuyến khích cung cấp

càng nhiều thơng tin càng tốt, tức là cung cấp thêm dữ liệu và bối cảnh lâm sàng
cho người đánh giá. Hệ thống như vậy có thể chậm và không hiệu quả. Nghiên
cứu cho thấy 94% ADR được báo cáo thiếu ở các hệ thống chính thức [20]. Các
loại thuốc đặc biệt liên quan đến ADR bao gồm thuốc chống kết tập tiểu cầu,
thuốc chống đông máu, thuốc độc tế bào, thuốc ức chế miễn dịch, thuốc lợi tiểu,
thuốc chống đái tháo đường và thuốc kháng sinh. ADRs gây tử vong thường là do
xuất huyết, nguyên nhân phổ biến nhất được nghi ngờ là do thuốc chống đông
máu được sử dụng đồng thời với thuốc chống viêm khơng steroid (NSAID) [8].
Dự đốn ADRs hiệu quả là điều cần thiết để cải thiện chăm sóc sức khỏe bệnh
nhân và thúc đẩy quá trình phát triển thuốc. Các kỹ thuật tính tốn khác nhau đã
được sử dụng trong thời gian gần đây để tìm hiểu cơ chế phản ứng của thuốc.
Khi lĩnh vực tin sinh học đang phát triển nhanh chóng, người ta có thể thực
hiện nhiều khám phá mới về thuốc mới. Dự đoán tác dụng phụ của thuốc là một
bước tiến quan trọng, nhiều thú vị. Một số nghiên cứu gần đây [5], [21] tập trung
vào ADR đề cập đến việc trích xuất trên văn bản y sinh. Nghiên cứu của tác giả
được thực hiện trên kho ngữ liệu văn bản y sinh PubMed.
1.3. Hướng tiếp cận
Tóm lược tri thức (Abstract Knowledge) là một hình thức để hiểu thế giới,
cung cấp nhận thức và trí thơng minh ở cấp độ con người cho trí thơng minh nhân
tạo trong thế hệ tiếp theo. Một trong những thể hiện của tri thức là quan hệ ngữ
nghĩa giữa các thực thể. Một cách hiệu quả để tự động thu nhận tri thức quan trọng
này, được gọi là trích xuất quan hệ (Relation Extraction - RE), một nhiệm vụ của
trích xuất thơng tin, đóng một vai trị quan trọng trong Xử lý ngơn ngữ tự nhiên
(NLP). Mục đích của nó là xác định các quan hệ ngữ nghĩa giữa các thực thể từ
văn bản ngôn ngữ tự nhiên [7].
Luận văn này tập trung vào bài tốn trích xuất quan hệ trong lĩnh vực y sinh
với đầu vào là dữ liệu từ các văn bản y sinh, đầu ra cần xác định được liệu một
cặp thực thể ứng viên trong một văn bản hoặc trong một câu có mối quan hệ ngữ
nghĩa hay khơng?
Một số mơ hình trích xuất quan hệ truyền thống sử dụng các phương pháp

thống kê như máy vectơ hỗ trợ (Support Vector Machine - SVM) [1] và trường
13


ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [18]. Với sự phát triển
mạnh mẽ của công nghệ học sâu, các mơ hình mạng nơ-ron đã đạt được hiệu suất
hiện đại trên nhiều tác vụ gắn nhãn theo trình tự như nhận dạng tên thực thể (NER)
[17] và gắn thẻ từ loại (Part-Of-Speech - POS) [3] . Các mô hình học sâu hiện tại
thường sử dụng word embeddings, cho phép chúng học các cách biểu diễn tương
tự cho các từ tương tự về mặt ngữ nghĩa. Mặc dù đây là một cải tiến lớn so với
các mơ hình truyền thống, nhưng vẫn còn một số lỗi cần được giải quyết. Vấn đề
khó khăn nhất là làm thế nào để đối phó với các từ “khơng nằm trong tập từ vựng
có sẵn” (Out-Of-Vocabulary - OOV). Trong các văn bản y sinh như các tóm tắt
Pubmeds, cách viết khơng chính thức hoặc mơ tả kỹ thuật q mức có thể khiến
một số lượng lớn các từ OOV xuất hiện. Bởi vì những từ này khơng có từ tương
ứng, chúng sẽ được khởi tạo ngẫu nhiên cho một số giá trị cụ thể. Điều này sẽ gây
ra nhiều phân loại sai của các từ OOV đó trong tập dữ liệu.
Luận văn này đã tận dụng lợi thế của việc biểu diễn cấp độ từ và ký tự của
một token, do đó các từ OOV đó có thể được gắn nhãn tốt hơn do bổ sung các
biểu diễn ký tự chi tiết. Ngoài ra, luận văn cũng áp dụng cơ chế tập trung cho phép
mơ hình tự động và linh hoạt để học đặc trưng nào quan trọng hơn. Luận văn cũng
sử dụng đầu ra trung gian của mơ hình như một bộ phân loại phụ trợ để cải thiện
hiệu suất dự đoán của mơ hình. Để xác thực tính hiệu quả của mơ hình, luận văn
thực hiện thử nghiệm trên tập dữ liệu của PubMed. Cơ chế tập trung [28], được
đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương
đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mơ
hình và tăng cường khả năng diễn giải mơ hình thơng qua việc kết hợp thơng tin
tâp trung vào việc học sâu [16]. Ở đây, luận văn trình bày cách tiếp cận bằng cách
sử dụng các mạng nơ ron dựa trên cơ chế tập trung (ATT-) và chứng minh sức
mạnh của các mơ hình ATT về hiệu suất bằng cách so sánh với các phương pháp

học sâu khác và khả năng hiểu của chúng bằng cách phân tích trọng số tập trung
ở cấp độ từ.
Nhìn chung, mạng nơ ron sâu (DNN) đã được sử dụng rộng rãi trong các
nhiệm vụ dự đốn, gán nhãn, trích xuất quan hệ với nhiều mơ hình khác nhau. Ví
dụ: Đề xuất mạng nơ-ron tích chập (CNN) sử dụng position embedding để trích
xuất quan hệ [32], sử dụng mơ hình bộ nhớ dài - ngắn (LSTM) cùng tính phụ
thuộc và position embedding [29] đã cho thấy chiến lược học tập vượt trội hơn
đáng kể so với các phương pháp mạng nơ-ron hồi quy (RNN) sử dụng các tính
năng mở rộng bao gồm POS, NER và WordNet.
14


Trong lĩnh vực y sinh, các nhiệm vụ trích xuất quan hệ khác nhau như tương
tác protein- protein, tương tác thuốc - thuốc và tương tác bệnh - hóa học đã được
nghiên cứu. Các phương pháp dựa trên học máy khác nhau bao gồm các phương
pháp học máy có giám sát, phân cụm mẫu và mơ hình khai phá chủ đề đã được sử
dụng trước khi các mơ hình học sâu trở nên chiếm ưu thế trong những tiến bộ gần
đây. Bên cạnh các mơ hình DNN thơng thường, sự phụ thuộc và thông tin cấp độ
ký tự đã được sử dụng để cải thiện, nâng cao hiệu quả của các mơ hình. Gần đây,
cơ chế tập trung trên các mơ hình DNN đã cho thấy sự hứa hẹn trong các nhiệm
vụ NLP khác nhau, chẳng hạn như dịch máy [16], trả lời câu hỏi [26], phân loại
tài liệu [30] cũng như trích xuất quan hệ.
Luận văn này trình bày nghiên cứu mạng nơ ron với cơ chế tập trung cho
nhiệm vụ trích xuất tác dụng phụ của thuốc và chứng minh tính hiệu quả của cơ
chế tập trung trong việc lựa chọn thông tin mức độ quan trọng.

15


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một tập con
của học máy và là trung tâm của các thuật toán học sâu. Tên và cấu trúc của chúng
được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học
truyền tín hiệu cho nhau.
Mạng nơ ron nhân tạo (ANN) bao gồm một lớp nút, chứa một lớp đầu vào
(Input layer), một hoặc nhiều lớp ẩn (Hidden layer) và một lớp đầu ra (Output
layer). Mỗi nút, hoặc mỗi nơron nhân tạo, kết nối với một nút khác và có trọng số
và ngưỡng liên quan. Những trọng số này có được bằng cách học hỏi hoặc điều
chỉnh từ một tập hợp các mẫu đào tạo [12]. Nếu đầu ra của bất kỳ nút riêng lẻ nào
vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến
lớp tiếp theo của mạng. Nếu khơng, khơng có dữ liệu nào được chuyển đến lớp
tiếp theo của mạng. Từ “ẩn” có nghĩa là chúng ta có thể quan sát đầu vào và đầu
ra trong khi cấu trúc kết nối chúng vẫn bị ẩn. Kiến trúc của mạng nơ ron nhân tạo
được minh họa như Hình 2.1: Mơ hình kiến trúc mạng nơ-ron [12]. Trong đó:
- x1…xn là các đầu vào của nơ-ron.
- W0…Wn là các trọng số.

Hình 2.1: Mơ hình kiến trúc mạng nơ-ron [12]

Mạng nơ-ron dựa trên dữ liệu đào tạo để tìm hiểu và cải thiện độ chính xác
của chúng theo thời gian.
Hầu hết các mạng nơ-ron sâu đều truyền thẳng, có nghĩa là chúng chỉ chạy
theo một hướng, từ đầu vào đến đầu ra. Tuy nhiên, chúng ta cũng có thể đào tạo
16


mơ hình của mình thơng qua lan truyền ngược (backpropagation); nghĩa là di
chuyển theo hướng ngược lại từ đầu ra đến đầu vào. Backpropagation cho phép
chúng ta tính tốn và quy lỗi liên quan đến mỗi nơ-ron, cho phép chúng ta điều

chỉnh các tham số của các mơ hình một cách thích hợp.
Mạng nơron có thể được phân thành nhiều loại khác nhau, được sử dụng
cho các mục đích khác nhau. Mặc dù đây không phải là danh sách đầy đủ các loại,
nhưng bên dưới sẽ đại diện cho các loại mạng nơ-ron phổ biến nhất mà chúng ta
sẽ gặp trong các trường hợp sử dụng phổ biến:
Perceptron là mạng nơ-ron lâu đời nhất, được tạo ra bởi Frank Rosenblatt
vào năm 1958 [14]. Nó là dạng đơn giản nhất của mạng nơ-ron, có thể có nhiều
đầu vào và duy nhất một đầu ra.
Các mạng nơ-ron truyền thẳng hoặc các perceptron nhiều lớp (MLP): Bao
gồm một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra. Dữ liệu thường
được đưa vào các mơ hình này để đào tạo chúng và chúng là nền tảng cho thị giác
máy tính, xử lý ngôn ngữ tự nhiên và các mạng nơ-ron khác.
Mạng nơ-ron tích chập (CNN) tương tự như mạng truyền thẳng, nhưng
chúng thường được sử dụng để nhận dạng hình ảnh, nhận dạng mẫu và thị giác
máy tính. Các mạng này khai thác các nguyên tắc từ đại số tuyến tính, đặc biệt là
phép nhân ma trận, để xác định các mẫu trong một hình ảnh. Mạng nơ-ron hồi
quy (RNN) được xác định bởi các vòng lặp phản hồi của chúng. Các thuật toán
học tập này chủ yếu được tận dụng khi sử dụng dữ liệu chuỗi thời gian để đưa ra
dự đoán về kết quả trong tương lai, chẳng hạn như dự đoán thị trường chứng khoán
hoặc dự báo bán hàng.
2.1.1. Mạng nơ-ron tích chập (CNN)

Giống như các mạng nơ-ron khác, CNN bao gồm một lớp đầu vào, một lớp
đầu ra và nhiều lớp ẩn ở giữa. Các lớp ẩn thực hiện các thao tác làm thay đổi dữ
liệu với mục đích học các đặc trưng cụ thể của dữ liệu. Ba trong số các lớp phổ
biến nhất là: lớp tích chập (convolution), lớp kích hoạt (activation) hoặc lớp kích
hoạt phi tuyến ReLU (Rectified Linear Unit) và lớp tổng hợp (pooling) ngồi ra
cịn có lớp kết nối đầy đủ (fully-connected). Mơ hình CNN bao gồm một tập hợp
hữu hạn các lớp xử lý có thể học các dữ liệu đầu vào có các đặc trưng khác nhau
(ví dụ: hình ảnh) với nhiều cấp độ trừu tượng. Các lớp bắt đầu học và phân tích

các đặc trưng cấp cao (với độ trừu tượng thấp hơn), và các lớp sâu hơn học và cắt

17


bỏ các đặc trưng cấp thấp (với độ trừu tượng cao hơn). Cấu trúc điển hình của
CNN được thể hiện trong hình 2.2 [6], trong đó có:

Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6].

Lớp tích chập (convolution layer): Lớp tích chập là thành phần quan trọng
nhất của bất kỳ kiến trúc CNN nào. Nó chứa một tập hợp các hạt nhân tích chập
(Convolutional kernels) (cịn được gọi là bộ lọc), được đối chiếu với hình ảnh đầu
vào (số liệu N chiều) để tạo ra một bản đồ tính năng đầu ra. Một hạt nhân có thể
được mơ tả như một mạng lưới các giá trị hoặc số rời rạc, trong đó mỗi giá trị
được gọi là trọng số của hạt nhân này. Trong khi bắt đầu quá trình huấn luyện của
một mơ hình CNN, tất cả các trọng số của nhân được gán với các số ngẫu nhiên
(các phương pháp tiếp cận khác nhau cũng có sẵn ở đó để khởi tạo các trọng số).
Sau đó, với mỗi lượt đào tạo, các trọng số được điều chỉnh và hạt nhân được học
để trích xuất các đặc điểm có ý nghĩa.
Lớp lấy mẫu (Pooling Layer): Các lớp lấy mẫu được sử dụng để lấy mẫu
phụ bản đồ các đặc trưng (được tạo ra sau các hoạt động tích chập), tức là nó lấy
bản đồ đặc trưng có kích thước lớn hơn và thu nhỏ chúng thành bản đồ đặc trưng
có kích thước thấp hơn (hoặc thông tin) trong mỗi bước lấy mẫu. Hoạt động lấy
mẫu được thực hiện bằng cách xác định kích thước vùng được lấy mẫu và bước
của hoạt động, tương tự như hoạt động tích chập. Có nhiều loại kỹ thuật lấy mẫu
khác nhau được sử dụng trong các lớp lấy mẫu khác nhau như lấy mẫu tối đa, lấy
mẫu tối thiểu, lấy mẫu trung bình, v.v. Hạn chế chính của lớp lấy mẫu là nó đơi
khi làm giảm hiệu suất tổng thể của CNN. Lý do đằng sau điều này là lớp lấy mấu
giúp CNN tìm xem một đặc trưng cụ thể có xuất hiện trong hình ảnh đầu vào đã

cho hay không mà không cần quan tâm đến vị trí chính xác của đặc trưng đó.
Lớp kết nối đầy đủ (Fully Connected (FC) Layer): Thông thường, lớp cuối
cùng của mọi kiến trúc CNN (được sử dụng để phân lớp) bao gồm các lớp được
kết nối chặt chẽ với nhau, trong đó mỗi nơ-ron bên trong một lớp được kết nối với
mỗi nơ-ron từ lớp trước đó. Lớp cuối cùng của các lớp FC được sử dụng làm lớp
đầu ra (bộ phân lớp) của kiến trúc CNN. Các lớp FC là loại mạng nơ-ron nhân tạo
chuyển tiếp (feed-forward artificial neural network) và nó tuân theo nguyên tắc
của mạng nơ-ron perceptron nhiều lớp truyền thống (MLP). Đầu vào lớp FC từ
lớp lấy mẫu hoặc lớp tích chập cuối cùng, ở dạng một tập hợp các chỉ số (bản đồ
18


đặc trưng) và các chỉ số đó được làm phẳng để tạo ra một véc tơ và véc tơ này sau
đó được đưa vào lớp FC để tạo ra đầu ra cuối cùng của CNN.
Để chứng minh tính hiệu quả của mơ hình ATT do luận văn đề xuất, trước
tiên tác giả đã phát triển một mơ hình trích xuất quan hệ sử dụng CNN làm đường
cơ sở, đây là một trong những mơ hình DNN được sử dụng rộng rãi nhất. Mơ hình
CNN để trích xuất quan hệ được xây dựng theo Zeng và các cộng sự [32]. Kiến
trúc mơ hình được thể hiện trong Hình 2.3: Mơ hình CNN cho trích xuất quan hệ
[23]. Lớp tích chập có thể nắm bắt thông tin ngữ cảnh của các bộ lọc có độ dài bộ
lọc được xác định trước. Các bộ lọc tích chập được mong đợi sẽ tạo ra các đặc
trưng cục bộ cấp cao từ các biểu diễn vectơ đầu vào. Đầu ra của lớp tích chập sau
đó được chuyển tiếp đến lớp Global Max-pooling, nơi các giá trị lớn nhất của mỗi
đầu ra bộ lọc được tổng hợp và nối để phân loại quan hệ.

Hình 2.3: Mơ hình CNN cho trích xuất quan hệ [23]
2.1.2. Mạng nơ-ron hồi quy (RNN)

Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng
nơ-ron nhân tạo sử dụng dữ liệu tuần tự hoặc dữ liệu chuỗi thời gian (Time-series

Data). Các thuật toán học sâu này thường được sử dụng cho các vấn đề thứ tự
hoặc thời gian, chẳng hạn như dịch máy, xử lý ngôn ngữ tự nhiên (NLP), nhận
dạng giọng nói và chú thích hình ảnh; chúng được tích hợp vào các ứng dụng phổ
19


biến như tìm kiếm bằng giọng nói và Google Dịch. Giống như mạng nơ-ron truyền
thẳng và tích chập (CNN), mạng nơ-ron hồi quy sử dụng dữ liệu huấn luyện để
học. Hình 2.4: Minh họa mơ hình mạng nơ-ron hồi quy [2]. Chúng khác mạng nơron khác bởi “bộ nhớ” khi chúng lấy thơng tin từ các đầu vào trước đó để tác động
đến đầu vào và đầu ra hiện tại. Trong khi các mạng nơron sâu truyền thống giả
định rằng đầu vào và đầu ra là độc lập với nhau, đầu ra của mạng nơron hồi quy
phụ thuộc vào các phần tử trước đó trong chuỗi. Một đặc điểm khác của mạng hồi
quy là chúng chia sẻ các tham số trên mỗi lớp của mạng. Trong khi các mạng
truyền thẳng có trọng số khác nhau trên mỗi nút, các mạng nơ-ron hồi quy chia sẻ
cùng một trọng số trong mỗi lớp của mạng. Điều đó nói rằng, các trọng số này
vẫn được điều chỉnh thơng qua các q trình nhân lan truyền ngược
(backpropagation) và giảm độ dốc (gradient descent) để tạo điều kiện cho việc
học củng cố. Mạng thần kinh hồi quy tận dụng thuật toán lan truyền ngược qua
thời gian (Backpropagation through time - BPTT) để xác định độ dốc, hơi khác
so với lan truyền ngược truyền thống vì nó dành riêng cho dữ liệu chuỗi. Các
nguyên tắc của BPTT cũng giống như lan truyền ngược truyền thống, trong đó
mơ hình tự đào tạo bằng cách tính tốn các lỗi từ lớp đầu ra đến lớp đầu vào của
nó. Các tính tốn này cho phép chúng ta điều chỉnh và lắp các thơng số của mơ
hình một cách hợp lý. BPTT khác với cách tiếp cận truyền thống ở chỗ BPTT tính
tổng các lỗi tại mỗi bước thời gian trong khi các mạng chuyển tiếp cấp dữ liệu
không cần tính tổng các lỗi vì chúng khơng chia sẻ các tham số trên mỗi lớp.

Hình 2.4: Mơ hình RNN tổng quát [2]

20



Các loại mạng nơ-ron hồi quy: Đối với RNN đầu vào và đầu ra của chúng
có thể khác nhau về độ dài và các loại RNN khác nhau được sử dụng cho các
trường hợp sử dụng khác nhau, chẳng hạn như tạo nhạc, phân loại ý kiến và dịch
máy. Có các loại RNN như sau: One to one, One to many, Many to one, Many
to many;
Các hàm kích hoạt được sử dụng phổ biến nhất gồm: Sigmoid, Tanh, Relu.
Một số kiến trúc biến thể của RNN như LSTM, GRU sẽ được trình bày cụ
thể bên dưới.
2.1.3. Mạng bộ nhớ dài – ngắn LSTM

Đây là một kiến trúc RNN phổ biến, được giới thiệu bởi Sepp Hochreiter
và Juergen Schmidhuber [22] như một giải pháp để làm biến mất vấn đề gradient,
và sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành. Chúng
hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần đã trở nên phổ
biến như hiện nay. Trong bài báo của họ, họ nghiên cứu để giải quyết vấn đề phụ
thuộc xa (long-term dependency). Có nghĩa là, nếu trạng thái trước đó đang ảnh
hưởng đến dự đốn hiện tại khơng phải là trong q khứ gần đây, thì mơ hình
RNN có thể khơng thể dự đốn chính xác trạng thái hiện tại. Ví dụ: giả sử muốn
dự đốn các từ in nghiêng sau đây, “Alice bị dị ứng với các loại hạt. Cô ấy không
thể ăn bơ đậu phộng." Bối cảnh của dị ứng hạt có thể giúp chúng ta biết trước
rằng thực phẩm khơng thể ăn được có chứa các loại hạt. Tuy nhiên, nếu bối cảnh
đó là một vài câu trước đó, thì RNN sẽ khó hoặc thậm chí không thể kết nối thông
tin. Để khắc phục điều này, các LSTM có "ơ" trong các lớp ẩn của mạng nơ-ron,
có ba cổng - một cổng đầu vào (Input gate), một cổng đầu ra (Output gate) và một
cổng quên (Forget gate). Các cổng này kiểm sốt luồng thơng tin cần thiết để dự
đốn đầu ra trong mạng. Ví dụ: nếu đại từ giới tính, chẳng hạn như “she”, được
lặp lại nhiều lần trong các câu trước, chúng ta có thể loại trừ đại từ đó khỏi ơ trạng
thái. Kiến trúc LSTM [2] bao gồm một tập hợp các mạng con được kết nối lặp lại,

được gọi là các khối bộ nhớ. Các khối này có thể được coi là một phiên bản có
thể phân biệt được của các chip nhớ trong máy tính kỹ thuật số. Mỗi khối chứa
một hoặc nhiều ô nhớ tự kết nối và ba cổng trên cung cấp các thao tác ghi, đọc và
đặt lại tương tự liên tục cho các ô.

21


Hình 2.5: Minh họa khối bộ nhớ với một ơ nhớ của LSTM [2].

Hình 2.5: Minh họa khối bộ nhớ với một ô nhớ của LSTM [2]. Một mạng
LSTM được hình thành giống hệt như một RNN đơn giản, ngoại trừ việc các đơn
vị phi tuyến tính trong lớp ẩn được thay thế bằng các khối bộ nhớ. Ngoài ra, như
với các RNN khác, lớp ẩn có thể được gắn vào bất kỳ loại lớp đầu ra có thể phân
biệt nào, tùy thuộc vào nhiệm vụ được yêu cầu (hồi quy, phân loại, v.v.). Trạng
thái bên trong của ô nhớ được duy trì với kết nối lặp lại có trọng số cố định 1.0.
Ba cổng thu thập các kích hoạt từ bên trong và bên ngồi khối để kiểm sốt, điều
khiển ơ nhớ. Các chức năng kích hoạt đầu vào và đầu ra của ô (g và h) được áp
dụng ở những vị trí được chỉ định.
2.1.4. Mạng GRU

GRU (Gated recurrent units) là biến thể của RNN tương tự như LSTM vì
nó cũng hoạt động để giải quyết vấn đề bộ nhớ ngắn hạn của các mơ hình RNN.
Thay vì sử dụng "ô trạng thái" đề điều chỉnh thông tin, nó sử dụng các trạng thái
ẩn và thay vì có ba cổng, nó có hai cổng: một cổng đặt lại (reset gate) và một cổng
cập nhật (update gate). Tương tự như các cổng trong LSTM, các cổng đặt lại và
cổng cập nhật kiểm sốt số lượng và thơng tin nào cần giữ lại. Trong khi CNN có
thể chụp được các mẫu cục bộ trong khơng gian tích chập dưới dạng cấu trúc lớn
22



hơn, các mơ hình RNN được thiết kế để tìm hiểu các mẫu theo thời gian của các
chuỗi đã cho. Tác giả nghiên cứu việc sử dụng RNN để trích xuất quan hệ. RNN
mơ hình câu thành một chuỗi các vectơ. Trong luận văn này đã thử nghiệm một
đơn vị RNN khác, đó là Gated recurrent unit (GRU). GRU lần đầu tiên được đề
xuất bởi Cho và các cộng sự [4]. Trực giác cho thấy GRU cũng tương tự như
LSTM về cơ chế kiểm soát để kết hợp các bản cập nhật và đầu vào hiện tại vào
mỗi đơn vị RNN. So sánh mơ hình trước đây cho các nhiệm vụ học sâu khác cho
thấy khơng có sự chiến thắng rõ ràng giữa LSTM và GRU [1].
Tác giả tuân theo công thức của GRU được sử dụng bởi Chung và các cộng sự
[1]. Một GRU có thể được minh họa như Hình 2.6: Minh họa GRU [1]. Sử dụng
xt để biểu thị vectơ đầu vào, W để biểu thị ma trận biến đổi của các đầu vào, U để
biểu thị ma trận biến đổi của các trạng thái ẩn và b là độ lệch, đầu ra của GRU ht
có thể được tính như sau:
zt =𝛿(Wzxt +Uzht-1+bz),
rt =𝛿(Wrxt +Urht-1+br),
ℎ̃𝑡 =tanh(Whxt +Uh(rt*ht-1)+bh) ,
ht= rt*ht-1 + (1-zt)* ℎ̃𝑡 ,
trong đó 𝛿(. ) biểu thị hàm sigmoid và * biểu thị phép nhân ma trận. ‘Reset gate’
rt thể hiện mức độ ảnh hưởng của trạng thái hiện tại bởi lần kích hoạt trước đó.
ℎ̃𝑡 là "ứng cử viên trạng thái" ẩn của đầu ra. ‘Update gate’ zt nhằm mục đích quyết
định quy mơ của thiết bị dựa trên lần kích hoạt trước đó và nó kiểm sốt mức độ
ảnh hưởng của đầu ra ht bởi ℎ̃𝑡 .

Hình 2.6: Minh họa GRU

23


2.2. Word Embedding

Word embedding là một kiểu biểu diễn từ cho phép các từ có nghĩa tương
tự có thể biểu diễn tương tự. Đây là cách tiếp cận để biểu diễn các từ trong văn
bản có thể được coi là một trong những bước đột phá quan trọng của học sâu trong
các vấn đề xử lý ngôn ngữ tự nhiên đầy thách thức. Word embedding thực chất là
một lớp kỹ thuật trong đó các từ riêng lẻ được biểu diễn dưới dạng vectơ có giá
trị thực trong khơng gian vectơ được xác định trước. Mỗi từ được ánh xạ tới một
vectơ và các giá trị vectơ được học theo cách tương tự như mạng nơ-ron, và do
đó kỹ thuật này thường được gộp chung vào lĩnh vực học sâu.
Word embedding đã được sử dụng phổ biến trong các ứng dụng xử lý ngôn
ngữ tự nhiên đặc biệt là trong văn bản y sinh học do khả năng biểu diễn vectơ có
thể nắm bắt các thuộc tính ngữ nghĩa hữu ích và mối quan hệ ngôn ngữ giữa các
từ. Word embedding thường được sử dụng làm các đặc trưng đầu vào cho các mơ
hình học máy, cho phép các kỹ thuật học máy ngữ cảnh hóa dữ liệu văn bản thơ.
Word embedding đã trở thành nền tảng thiết yếu cho các phương pháp tiếp cận
dựa trên mạng nơ-ron trong NLP và học từ kho ngữ liệu lớn không được gắn nhãn
để nắm bắt ngữ nghĩa tiềm ẩn của từ [31].
GloVe (Global Vectors for Word Representation) là một phương pháp để
tạo word embedding mà luận văn này sẽ sử dụng. Nó dựa trên kỹ thuật phân tích
nhân ma trận trên ma trận ngữ cảnh từ [9]. Một ma trận lớn về thông tin đồng xuất
hiện được xây dựng và đếm từng “từ” (các hàng) và tần suất chúng ta thấy từ này
trong một số “ngữ cảnh” (các cột) trong một kho ngữ liệu lớn. Thông thường,
chúng ta quét kho ngữ liệu của mình theo cách sau: đối với mỗi thuật ngữ, chúng
ta tìm kiếm các thuật ngữ ngữ cảnh trong một số khu vực được xác định bởi
window-size trước thuật ngữ và window-size sau thuật ngữ. Ngoài ra, chúng ta
cho trọng số thấp hơn cho những từ xa nghĩa hơn. Tất nhiên, số lượng “ngữ cảnh”
là rất lớn, vì nó về cơ bản có kích thước tổ hợp. Vì vậy, sau đó cần phân tích nhân
tử của ma trận này để tạo ra ma trận có chiều thấp hơn, trong đó mỗi hàng biểu
diễn vectơ cho mỗi từ.
Trong luận văn sử dụng mơ hình 300 chiều được đào tạo trước Glove-6B
( Các thí nghiệm sơ bộ cho thấy rằng mơ

hình 300 chiều Glove-6B hoạt động tốt hơn các mơ hình nhúng từ đã đào tạo bằng
túi từ liên tục (CBOW) từ PubMed [23]. Nếu khơng tìm thấy từ nào từ mơ hình
nhúng từ, thì quá trình nhúng sẽ được tạo ngẫu nhiên và phần nhúng đã tạo sẽ
được thêm vào mơ hình

24


2.3. Position Embedding
Position embedding được tạo ra dựa trên khoảng cách tương đối của các từ
với các thực thể. Các khoảng cách sau đó được dịch chuyển bằng một độ lệch tùy
ý để ánh xạ khoảng cách thành số nguyên dương. Các position embedding sau đó
được đào tạo chung trong giai đoạn đào tạo. Đối với mỗi thể hiện quan hệ, sẽ có
hai vị trí nhúng cho mỗi từ từ hai thực thể cho các thực thể hóa học và bệnh tương
ứng. Hai vị trí nhúng được nối với từ nhúng của từ làm đầu vào cho các mơ hình
mạng nơ-ron [23].
Luận văn làm theo phương pháp của Zeng và các cộng sự [32] để tạo ra vị
trí nhúng của các thực thể trong mỗi câu tường thuật. Trong nghiên cứu này, tác
giả sử dụng hai phương pháp: nhúng vị trí 50 chiều và nhúng từ 300 chiều, tạo ra
vectơ đặc trưng 400 chiều cho mỗi từ.
2.4. Kỹ thuật attention
Sự ra đời của kỹ thuật attention trong học sâu đã cải thiện sự thành cơng
của nhiều mơ hình khác nhau trong những năm gần đây và tiếp tục là một thành
phần có mặt khắp nơi trong các mơ hình hiện đại. Do đó, điều quan trọng là chúng
ta phải chú ý đến “attention” và làm thế nào để nó đạt được hiệu quả. Khi nghĩ
về từ tiếng Anh “Attention”, chúng ta biết rằng nó có nghĩa là hướng sự tập trung
của mình vào một điều gì đó và chú ý nhiều hơn. Cơ chế tập trung trong Học sâu
dựa trên khái niệm hướng sự tập trung của mình và chú ý nhiều hơn đến các yếu
tố nhất định khi xử lý dữ liệu. Nói một cách rộng rãi, “attention” là một thành
phần của kiến trúc mạng và chịu trách nhiệm quản lý và định lượng sự phụ thuộc

lẫn nhau.
Trong luận văn này tác giả sử dụng kỹ thuật attention được đề xuất bởi
Thang Luong và các cộng sự [16] áp dụng cho mơ hình RNN và các biến thể
LSTM, GRU. Cơ chế tập trung được đề xuất để nhấn mạnh sự đóng góp của các
đơn vị nơ-ron trong mơ hình. Thay vì trực tiếp nhận các kích hoạt hoặc kết quả
đầu ra từ các đơn vị RNN liên tiếp, lớp attention (lớp tập trung) bổ sung sẽ bỏ qua
tất cả các đơn vị RNN của chuỗi đầu vào và gán các trọng số khác nhau cho mỗi
đơn vị theo mức độ quan trọng của chúng. Trực giác để áp dụng mơ hình ATT
trong nhiệm vụ trích xuất quan hệ là cố gắng gán trọng số cao hơn cho các từ là
chỉ số hoặc từ kích hoạt của các quan hệ ngữ nghĩa cụ thể. Tác giả sử dụng các
phương trình lấy từ Luong và các cộng sự [16] để tính toán trọng số attention cho
mỗi từ trong câu. ATT-RNN để trích xuất quan hệ được minh họa trong Hình 2.7:
Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16]. Kích hoạt của
25


×