Tải bản đầy đủ (.pdf) (73 trang)

Trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.34 MB, 73 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------

PHẠM LƯƠNG HÀO

TRÍCH XUẤT THƠNG TIN THỰC THỂ VÀ
QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG
MƠ HÌNH ĐỒ THỊ ĐỘNG

Chun ngành: KHOA HỌC MÁY TÍNH
Mã số:
8.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2023


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học:
PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1:
TS. Lê Thanh Vân
Cán bộ chấm nhận xét 2:
PGS.TS. Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 10 tháng 7 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS.TS. Phạm Trần Vũ


2. Thư ký: TS. Nguyễn Lê Duy Lai
3. Phản biện 1: TS. Lê Thanh Vân
4. Phản biện 2: PGS.TS. Đỗ Văn Nhơn
5. Ủy viên: TS. Mai Hoàng Bảo Ân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản
lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

PGS.TS. Phạm Trần Vũ

TRƯỞNG KHOA KHOA
HỌC VÀ KỸ THUẬT MÁY TÍNH


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

——————————

—————————

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Phạm Lương Hào
Ngày, tháng, năm sinh: 29/04/1998
Chuyên ngành: Khoa học máy tính


MSHV: 2070634
Nơi sinh: Bình Định
Mã số: 8480101

I. TÊN ĐỀ TÀI: TRÍCH XUẤT THƠNG TIN THỰC THỂ VÀ QUAN HỆ
TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH ĐỒ THỊ ĐỘNG
(EXTRACTING ENTITY AND RELATION INFORMATION IN
VIETNAMESE DOCUMENTS USING DYNAMIC GRAPH MODEL)
II. NHIỆM VỤ VÀ NỘI DUNG:

- Rút trích thơng tin thực thể và quan hệ trong văn bản tiếng Việt ứng dụng
kĩ thuật học sâu, xử lý ngôn ngữ tự nhiên và sử dụng mơ hình đồ thị động.
- Đề xuất và hiện thực các phương pháp tiếp cận để giải quyết bài toán.
- Thực nghiệm và đánh giá các phương pháp đề xuất.
III. NGÀY GIAO NHIỆM VỤ: 06/02/2023
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023
V. CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
Tp. HCM, ngày 09 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)

PGS.TS Quản Thành Thơ
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)


i


LỜI CẢM ƠN
Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thành
nội dung luận văn. Luận văn được hồn thành khơng chỉ là cơng sức của bản
thân tác giả mà cịn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể.
Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Quản
Thành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luận
văn, các ý kiến đóng góp của thầy đã giúp em hình thành và hồn thiện nhiều
ý tưởng. Hơn hết thầy là người đã truyền cảm hứng cho em rất nhiều về niềm
đam mê với học máy, học sâu, và xử lí ngơn ngữ tự nhiên.
Em xin gửi lời cảm ơn đến tồn thể anh, chị, em đồng nghiệp trong cơng
ty ZaloPay, ngân hàng số Cake by VPBank đã luôn tạo điều kiện cho em
trong quá trình học và thực hiện luận văn tốt nghiệp.
Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chị
cùng lớp cao học đã luôn động viên, quan tâm giúp đỡ em trong quá trình
học tập và thực hiện luận văn.
Cuối cùng là lời cảm ơn tới Thắm, người đã hỗ trợ mình rất nhiều trong
giai đoạn khó nhằn của luận văn. Cảm ơn em đã đồng hành với anh suốt quá
trình làm đề tài này.

ii


TĨM TẮT LUẬN VĂN
Rút trích thực thể và quan hệ là một trong những nhiệm vụ quan trọng nhất
trong khai thác thông tin. Mọi thứ bao gồm danh từ, tên và địa chỉ, và một
mối quan hệ là mối quan hệ ngữ nghĩa giữa hai thực thể. Phương pháp truyền
thống thường sử dụng các mơ hình "đường ống", coi các công việc này là các

thành phần riêng biệt của đường ống. Điều này dẫn đến lỗi xếp tầng từ tác
vụ nhận dạng thực thể sang tác vụ trích xuất quan hệ. Hơn nữa, các mơ hình
"đường ống" này khơng thể chứng minh sự đóng góp của nhiệm vụ trích xuất
quan hệ đối với vấn đề nhận dạng thực thể. Do đó, trong luận văn này, tác
giả tập trung vào cơng việc trích xuất quan hệ và thực thể chung, đây là mơ
hình đầu cuối để trích xuất thực thể và quan hệ, tác giả đề xuất ba cải tiến
đối với hiệu suất của mơ hình cơ sở:
• Sử dụng thơng tin loại thực thể vào dự đoán quan hệ: tác giả sử dụng
thông tin loại thực thể cho việc dự đốn loại quan hệ giữa hai thực thể.
Trong đó tác giả dùng thêm cổng cập nhật để lọc ra lượng thông tin
cần dùng từ loại thực thể nhằm hạn chế vấn đề lỗi xếp chồng từ lớp
nhận dạng thực thể lan sang lớp nhận dạng quan hệ.
• Sử dụng thơng tin của quan hệ vào dự đoán loại thực thể: để phần nào
chia sẻ thơng tin từ việc rút trích quan hệ cho việc rút trích thực thể,
sau khi rút trích quan hệ, học viên nhúng thơng tin của loại quan hệ
vào hai thực thể cấu thành quan hệ, và thực hiện phân lớp thực thể,
mỗi thực thể lúc này được gắn thêm nhãn thể hiện thực thể đó có đóng
góp vào mối quan hệ nào hay khơng. Điều này cung cấp thêm thơng tin
cho mơ hình, giúp cải thiện độ chính xác.
• Tích hợp thơng tin đồng tham chiếu vào dự đốn quan hệ: tác giả tích
hợp thơng tin đồng tham chiếu của các từ trong câu vào véc tơ biểu
diễn quan hệ. Theo quan sát và thực nghiệm chứng tỏ việc tích hợp
thêm thơng tin đồng tham chiếu góp phần cải thiện độ chính xác cho
việc dự đốn quan hệ.

iii


ABSTRACT OF DISSERTATION
Extracting entities and relationships is one of the most important tasks in information extraction. Everything includes nouns, names, and addresses, and

a relationship is the semantic connection between two entities. Traditional
methods often use "pipeline" models, treating these tasks as separate components in the pipeline. This leads to cascading errors from the entity recognition
task to the relationship extraction task. Furthermore, these "pipeline" models fail to demonstrate the contribution of the relationship extraction task to
the entity recognition problem. Therefore, in this thesis, the author focuses
on the joint extraction of entities and relationships, which is an end-to-end
model for extracting entities and relationships. The author proposes three
improvements for the performance of the base model:
• Utilizing entity type information for relationship prediction: The author
incorporates entity type information to predict the relationship type
between two entities. A gating mechanism is used to filter the necessary
information from entity types, aiming to mitigate the cascading errors
from the entity recognition layer to the relationship recognition layer.
• Incorporating relationship information for entity prediction: To some
extent, sharing information from relationship extraction to entity extraction, after extracting relationships, the model embeds the relationship type information into the entities forming the relationship and
performs entity classification. Each entity is labeled to indicate whether
it contributes to a specific relationship or not. This provides additional
information to the model and improves accuracy.
• Integrating coreference information into relationship prediction: The author integrates coreference information of words in the sentence into the
relationship representation vector. Observations and experiments show
that incorporating coreference information helps improve the accuracy
of relationship prediction.

iv


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: "TRÍCH XUẤT THƠNG TIN
THỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ
HÌNH ĐỒ THỊ ĐỘNG" là cơng trình nghiên cứu của bản thân. Những phần
sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu

tham khảo. Các số liệu, kết quả trình bày trong luận văn là hồn tồn trung
thực, nếu sai tơi xin chịu hồn tồn trách nhiệm và chịu mọi kỷ luật của bộ
môn và nhà trường đề ra.
Học viên

Phạm Lương Hào

v


Mục lục
1 Giới thiệu đề tài
1.1 Tổng quan và Động lực
1.2 Mục tiêu đề tài . . . .
1.3 Giới hạn đề tài . . . .
1.4 Đối tượng nghiên cứu .
1.5 Cấu trúc luận văn . . .
2 Các
2.1
2.2
2.3
2.4

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

công trình liên quan
Các mơ hình mới . . . . . . . .
Làm giàu dữ liệu . . . . . . . .
Bổ sung thông tin cho mô hình
Sử dụng mơ hình kết hợp . . . .

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.

1
1
3
3
4
5

.
.
.
.

6
7
12

14
16

3 Kiến thức nền tảng
3.1 Tích chập rời rạc . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Hàm kích hoạt Softmax . . . . . . . . . . . . . . . . .
3.2.2 Hàm kích hoạt ReLU . . . . . . . . . . . . . . . . . . .
3.3 Giải thuật xuống đồi (Gradient Descent) . . . . . . . . . . . .
3.4 Hàm lỗi cross entropy . . . . . . . . . . . . . . . . . . . . . . .
3.5 Mạng nơ ron nhân tạo (Artifical neuron network) . . . . . . .
3.6 Mơ hình mạng nơ ron hồi quy (Recurrent neural network - RNN)
3.7 Mơ hình mạng bộ nhớ ngắn - dài hạn (Long Short - Term
Memory - LSTM) và Bi-LSTM . . . . . . . . . . . . . . . . .
3.8 Cơ chế Attention . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.1 Cơ chế Attention cho mơ hình seq2seq . . . . . . . . .
3.8.2 Các loại cơ chế Attention . . . . . . . . . . . . . . . . .
3.9 Mơ hình Transformer . . . . . . . . . . . . . . . . . . . . . . .
3.10 Mơ hình BERT và các biến thể . . . . . . . . . . . . . . . . .
vi

18
18
18
18
19
19
19
20
22

24
27
28
29
30
33


3.10.1 Mơ hình BERT . . . . . . . . . . . . . . . . . . . . . .
3.10.2 Mơ hình RoBERTa . . . . . . . . . . . . . . . . . . . .
3.10.3 Mô hình PhoBERT . . . . . . . . . . . . . . . . . . . .

33
35
36

4 Phương pháp nghiên cứu
4.1 Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Mơ hình đồ thị động đa tác vụ . . . . . . . . . . . . . . . . .
4.2.1 Lớp biểu diễn từ (Token representation layer) . . . . .
4.2.2 Lớp lan truyền đồng tham chiếu (Coreference propagation layer) . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Lớp lan truyền quan hệ (Relation propagation layer) .
4.2.4 Lớp dự đoán cuối cùng (Final prediction layer) . . . . .
4.2.5 Huấn luyện . . . . . . . . . . . . . . . . . . . . . . . .

38
39
42
44


5 Kết
5.1
5.2
5.3
5.4

48
48
51
52
52
53
54
54

quả thực nghiệm
Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . .
Hiện thực mơ hình . . . . . . . . . . . . . . . . . . . . . . .
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Vai trị của lớp mã hóa từ . . . . . . . . . . . . . . .
5.4.2 Bổ sung thêm quan hệ có hướng . . . . . . . . . . . .
5.4.3 Lan truyền đồng tham chiếu trong xác định quan hệ

.
.
.
.
.
.

.

44
45
46
46

6 Tổng kết

56

Tài liệu tham khảo

58

vii


Danh sách hình vẽ
2.1
2.2
2.3
2.4

Kiến trúc tổng quan của mơ hình DyGIE++ . . . . . . . . . .
Hiệu suất của các biến thể BERT trên các tác vụ và bộ dữ liệu.
Một số ví dụ mơ tả các cách đánh dấu . . . . . . . . . . . . .
Tổng quan về mô hình NER và RE với bộ đánh dấu nổi . . . .

10

13
14
15

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11

Mạng nơ ron sinh học và mạng nơ ron nhân tạo . . . . .
Cấu tạo cơ bản của một nút nơ ron . . . . . . . . . . . .
Mạng nơ ron nhân tạo nhiều lớp (Multilayer perceptron)
Mơ hình RNN . . . . . . . . . . . . . . . . . . . . . . . .
Minh hoạ mô-đun lặp lại của LSTM . . . . . . . . . . .
Kiến trúc tổng quan của mơ hình Bi-LSTM . . . . . . .
Cơ chế Attention cho mơ hình seq2seq . . . . . . . . . .
Kiến trúc Transformer . . . . . . . . . . . . . . . . . . .
Quá trình tính tốn của Self-Attention . . . . . . . . . .
Kiến trúc mơ hình BERT . . . . . . . . . . . . . . . . .
Dữ liệu đầu vào của mơ hình BERT . . . . . . . . . . . .

.
.

.
.
.
.
.
.
.
.
.

20
21
22
23
25
26
28
31
32
34
34

4.1
4.2

Minh họa cho dữ liệu tiếng Việt [4] . . . . . . . . . . . . . . .
Kiến trúc mơ hình đồ thị động cho tiếng Việt - VNDyGIE . .

41
43


5.1
5.2

Số lượng từ trên tập huấn luyện và kiểm tra . . . . . . . . . .
Phân bố dữ liệu trên tập huấn luyện và kiểm tra . . . . . . . .

50
51

viii

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.


Danh sách bảng
3.1

Các loại cơ chế Attention trên mơ hình seq2seq . . . . . . . .

29

5.1
5.2
5.3
5.4
5.5

Các loại quan hệ trong VLSP 2020 . . . . . . . . . . . . . . .
Phân bố các loại quan hệ trong tập dữ liệu . . . . . . . . . . .
Tác động của bộ rút trích thơng tin lên kết quả dự đốn quan hệ
Kết quả rút trích thơng tin khi bổ sung mối quan hệ . . . . .
Tác dụng của lan truyền đồng tham chiếu trong xác định quan
hệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49
50
53

54

ix

55


Chương 1

Giới thiệu đề tài
1.1

Tổng quan và Động lực

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP ) là một lĩnh
vực nghiên cứu quan trọng nhằm nghiên cứu, phát triển các phương pháp và
cơng nghệ giúp máy tính hiểu, tương tác với ngôn ngữ con người một cách tự
nhiên. Trong lĩnh vực này, một trong những chủ đề đáng chú ý là trích xuất
thơng tin thực thể và quan hệ từ văn bản.
Trích xuất thơng tin thực thể và quan hệ từ văn bản là quá trình nhận
dạng và chiết xuất các thông tin quan trọng như tên người, địa điểm, tổ chức,
quan hệ giữa chúng từ các đoạn văn bản. Nhiệm vụ này địi hỏi máy tính
phải có khả năng hiểu và phân tích ngữ cảnh, cấu trúc câu, ngữ nghĩa của
văn bản để xác định được thơng tin cần thiết.
Đối với tiếng Việt, việc trích xuất thông tin thực thể và quan hệ trở nên
đặc biệt phức tạp do ngơn ngữ này có những đặc điểm riêng. Ví dụ, tiếng
Việt sử dụng nhiều từ ngữ ghép và từ khơng có dấu, gây khó khăn trong việc
phân tách và nhận dạng các thực thể. Ngoài ra, ngữ cảnh văn hóa và ngữ
nghĩa phong phú của tiếng Việt cũng địi hỏi sự hiểu biết sâu về ngơn ngữ và
văn hóa để đảm bảo tính chính xác và đúng đắn của q trình trích xuất.

Do đó, nghiên cứu trong lĩnh vực trích xuất thơng tin thực thể và quan
hệ từ văn bản tiếng Việt đóng vai trị quan trọng trong việc phát triển các
ứng dụng NLP tiên tiến. Khả năng hiểu được thông tin thực thể và quan hệ
từ văn bản tiếng Việt có thể mở ra nhiều tiềm năng trong các lĩnh vực như
tìm kiếm thơng tin, dịch thuật tự động, phân tích ý kiến, và xây dựng các hệ
1


thống trích xuất tri thức.
Trong bối cảnh trí tuệ nhân tạo phát triển nhanh chóng, có nhiều cơng
nghệ và ý tưởng mới đã xuất hiện nhằm giải quyết các bài tốn ngơn ngữ tự
nhiên một cách hiệu quả hơn. Trong số đó, các bài tốn như trích xuất thơng
tin thực thể, trích xuất quan hệ và tách từ đã đạt được những kết quả đáng
kể. Tuy nhiên, để đáp ứng yêu cầu ngày càng phức tạp của trí tuệ nhân tạo
trong xử lý ngôn ngữ tự nhiên, các hệ thống máy tính khơng chỉ phải giải
quyết riêng lẻ từng bài tốn một, mà cịn phải xử lý đồng thời nhiều tác vụ
khác nhau.
Một cách tiếp cận đơn giản để giải quyết vấn đề này là sử dụng nhiều mơ
hình khác nhau, mỗi mơ hình chịu trách nhiệm giải quyết một bài tốn nhỏ
cụ thể, đóng góp vào bài tốn lớn hơn. Phương pháp này có ưu điểm là dễ
thực hiện và đơn giản, tuy nhiên, nó yêu cầu sử dụng nhiều tài ngun phần
cứng do mỗi mơ hình xử lý ngơn ngữ tự nhiên có kích thước lớn với nhiều
trọng số. Hơn nữa, việc sử dụng nhiều mơ hình có thể dẫn đến vấn đề lỗi theo
thác chảy, chẳng hạn, trong trường hợp trích xuất thơng tin quan hệ, ta cần
trích xuất thơng tin thực thể trước, sau đó sử dụng các thực thể này để trích
xuất quan hệ. Nếu q trình trích xuất thơng tin thực thể khơng đạt hiệu
suất cao, sẽ ảnh hưởng đến bước phát hiện quan hệ.
Bài báo A General Framework for Information Extraction using Dynamic
Span Graphs [17] của tác giả Yi Luan và các cộng sự đã đề ra một hướng giải
quyết cho các vấn đề trên bằng cách sử dụng mơ hình đồ thị động. Trong luận

văn này, chúng ta sẽ dựa trên ý tưởng của tác giả Yi Luan để phát triển các
phương pháp tiếp cận nhằm xử lý đồng thời nhiều tác vụ trích xuất thơng
tin, tránh nhược điểm của việc sử dụng nhiều mơ hình độc lập. Các phương
pháp này nhằm tăng tính tương tác và tương thích giữa các tác vụ, tạo ra
một mơ hình thống nhất và hiệu quả hơn cho việc trích xuất thơng tin thực
thể và quan hệ từ văn bản tiếng Việt. Vì vậy, tác giả đã chọn đề tài "Trích
xuất thơng tin thực thể và quan hệ trong văn bản tiếng Việt bằng mơ hình đồ
thị động".

2


1.2

Mục tiêu đề tài

Mục tiêu của đề tài này là trích xuất thơng tin về thực thể và quan hệ
trong văn bản tiếng Việt bằng cách áp dụng các kỹ thuật xử lý ngơn ngữ tự
nhiên, mơ hình học sâu, và đặc biệt là một mơ hình mới là mạng nơ ron đồ
thị động đa tác vụ. Hệ thống được xây dựng dựa trên dữ liệu đầu vào là các
đoạn văn dài, chứa nhiều thông tin, thực thể và quan hệ đa dạng. Mục tiêu
cụ thể là tìm hiểu loại thực thể và quan hệ cụ thể có trong văn bản, để cung
cấp một tổng quan thông tin cho người đọc.
Để đạt được điều đó, tác giả sẽ đi giải quyết từng vấn đề cụ thể sau:
• Tìm kiếm, thu thập và lựa chọn tập dữ liệu tiếng Việt thích hợp, chứa
thông tin về thực thể và quan hệ để sử dụng trong q trình kiểm tra
và đánh giá;
• Nghiên cứu các cơng trình nghiên cứu mới nhất trên thế giới trong lĩnh
vực trích xuất thơng tin từ văn bản, xác định thực thể và quan hệ.
Nghiên cứu về mô hình mạng nơ ron đồ thị kết hợp tính ngữ cảnh;

• Lựa chọn phương pháp tiếp cận, mơ hình mạng, kiến trúc xử lý và các
công nghệ phù hợp cho tập dữ liệu tiếng Việt;
• Tiến hành các thí nghiệm để kiểm tra và đánh giá phương pháp tiếp
cận được đề xuất, từ đó rút ra ưu điểm và nhược điểm của nó.

1.3

Giới hạn đề tài

Với khn khổ của một luận văn thạc sĩ với thời gian nghiên cứu giới hạn
nên phạm vi nghiên cứu của cũng được giới hạn như sau:
• Ngơn ngữ của dữ liệu được sử dụng trong nghiên cứu này là tiếng Việt.
• Các dữ liệu được sử dụng cho việc huấn luyện, kiểm tra, đánh giá có
đầy đủ nhãn
• Được phép áp dụng các nghiên cứu, cơng trình đã được cơng bố mà
khơng cần chứng minh lại.
• Mơ hình tập trung giải quyết và hoạt động hiệu quả trên các lĩnh vực
ngôn ngữ văn bản được huấn luyện trong phạm vi của luận văn này.
3


1.4

Đối tượng nghiên cứu

Luận văn này thực hiện nghiên cứu trên các đối tượng sau:
• Dữ liệu dạng văn bản tiếng Việt của bài tốn rút trích thơng tin từ văn
bản, bao gồm xác định loại thực thể và loại quan hệ.
• Các mơ hình học sâu liên quan đến xử lý ngơn ngữ tự nhiên như: RNN,
LSTM, BERT.

• Các mơ hình rút trích thơng tin từ văn bản sử dụng kiến trúc đồ thị,
có sử dụng thơng tin ngữ cảnh của văn bản.
• Các phương pháp kiểm tra, đánh giá mơ hình đối với bài tốn rút trích
thơng tin từ văn bản, các tiêu chí đánh giá cho từng tác vụ nhận dạng
loại thực thể và mối quan hệ.

4


1.5

Cấu trúc luận văn

Nội dung của luận văn này gồm 6 chương.
• Chương 1 Giới thiệu đề tài: đề cập tới lí do chọn đề tài, giới thiệu
ngữ cảnh, tình hình chung liên quan đến bài tốn, những khó khăn,
thách thức của đề tài và quá trình thực hiện nghiên cứu, sau đó trình
bày về mục tiêu, phạm vi và cấu trúc luận văn.
• Chương 2 Các cơng trình liên quan: giới thiệu các cơng trình nghiên
cứu khoa học liên quan đến đề tài trích xuất thơng tin được tham khảo
trong q trình thực hiện nghiên cứu này.
• Chương 3 Kiến thức nền tảng: trình bày những kiến thức nền tảng
về các cách xử lý dữ liệu, các mơ hình học máy, cũng như các kĩ thuật
được sử dụng trong luận văn.
• Chương 4 Phương pháp đề xuất: trình bày vào bài toán cụ thể của
đề tài, đưa ra những vấn đề và các phương pháp giải quyết đã được áp
dụng. Trong đó, trình bày chi tiết cách thực hiện, kiến trúc hệ thống và
mơ hình đề xuất, bao gồm cả các thư viện và cơng nghệ áp dụng. Đây
chính là nền tảng cho phần đánh giá và kiểm thử tiếp theo.
• Chương 5 Kết quả thực nghiệm: trình bày các tập dữ liệu được sử

dụng, các thông tin cơ bản và dữ liệu mẫu. Sau đó, tác giả giới thiệu
từng thí nghiệm đã được tiến hành và đánh giá các kết quả thí nghiệm
thu được.
• Chương 6 Tổng kết: tổng kết mơ hình được sử dụng trong đề tài,
kết quả thí nghiệm, đưa ra những điểm nổi bật và hạn chế của đề tài,
hướng phát triển, mở rộng của đề tài trong tương lai.

5


Chương 2

Các cơng trình liên quan
Trích xuất thơng tin (Information Extraction) [12] là nhiệm vụ trích xuất
tự động thơng tin có cấu trúc từ các tài liệu khơng có cấu trúc hoặc bán
cấu trúc mà máy có thể đọc được và các nguồn được biểu diễn điện tử khác.
Trong hầu hết các trường hợp, hoạt động này liên quan đến việc xử lý các
văn bản ngôn ngữ của con người bằng phương pháp xử lý ngôn ngữ tự nhiên.
Các hoạt động gần đây trong xử lý tài liệu đa phương tiện như chú thích tự
động và trích xuất nội dung ra khỏi hình ảnh/ âm thanh/ video/ tài liệu có
thể được coi là trích xuất thơng tin. Dữ liệu ngơn ngữ tự nhiên thường được
hiểu là loại dữ liệu không có cấu trúc. Tuy nhiên, trong thực tế, dữ liệu văn
bản được tạo nên bởi nhiều cấu trúc nhưng hầu hết đều khơng rõ ràng khiến
q trình tìm kiếm và phân tích thơng tin trở nên khó khăn hơn. Mục tiêu
của việc nghiên cứu các phương pháp rút trích thơng tin là tự động chuyển
đổi dữ liệu từ dạng không có cấu trúc sang dạng có cấu trúc ngữ nghĩa, từ
đó tiến hành phân tích, xác định và phân loại các thực thể tồn tại trong văn
bản cũng như các mối quan hệ giữa các thực thể đó. Trong một số trường
hợp, hệ thống cịn có khả năng sinh ra các loại thông tin ẩn khác bằng cách
suy luận từ những thông tin về thực thể và mối quan hệ đã được rút trích

trước đó. Tất cả các thơng tin, kết quả của quá trình này thường được lưu lại
nhằm phục vụ cho các tác vụ khác trong hệ thống; do đó, các tác vụ sau có
đạt hiệu quả cao hay không đều phụ thuộc một phần vào thông tin rút trích
được ở tác vụ này.
Các cơng trình nghiên cứu cho bài tốn trích xuất thơng tin có thể được
chia thành 4 hướng chính:
• Đề xuất kiến trúc mạng mới: Các tác giả tìm kiếm ý tưởng xây
dựng kiến trúc mạng mới [17] [23] để phù hợp với cấu trúc thông tin
6


của dữ liệu đoạn văn. Các bài báo này thường tập trung vào cải thiện
bước nhúng thông tin, chuyển đổi thông tin từ văn bản sang dạng véc
tơ để mô hình học, cũng như thay đổi kiến trúc mạng chính dựa trên
những phân tích về đặc điểm của văn bản.
• Làm giàu dữ liệu: Ngơn ngữ có rất nhiều từ vựng, và cách diễn đạt
từ để tạo thành câu văn cũng vơ cùng phong phú. Do đó, mơ hình sẽ
hoạt động tốt hơn nếu được học trên tập dữ liệu lớn, phong phú, có
tính bao qt. Tuy nhiên, việc thu thập được dữ liệu lớn đáp ứng yêu
cầu như vậy là một cơng việc khó khăn, địi hỏi rất nhiều cơng sức cũng
như tiền của. Nhằm mục đích tăng lượng dữ liệu cung cấp cho mơ hình
học, với một lượng công sức bỏ ra chấp nhận được, các tác giả đã lựa
chọn áp dụng các kĩ thuật làm giàu dữ liệu. [7]
• Bổ sung thơng tin cho mơ hình: Lĩnh vực trí tuệ nhân tạo, máy học
nói chung hay xử lý ngôn ngữ tự nhiên đã xuất hiện được một khoảng
thời gian, và có sự bùng nổ gần đây. Bài tốn trích xuất thơng tin từ văn
bản là một bài tốn ngun tử, đóng vai trị tiên quyết trong hầu hết
các tác vụ xử lý ngôn ngữ tự nhiên dạng văn bản. Do vậy, các nghiên
cứu sinh, các nhà khoa học đã tìm hiểu và phát triển ra những phương
pháp, mơ hình hoạt động tốt trên những tập dữ liệu sẵn có. Tuy nhiên,

với lượng thơng tin cố định được cung cấp tại những tập dữ liệu khiêm
tốn ban đầu, ta khó có thể vượt qua được các thành tựu đi trước, để
đạt được kết quả tốt hơn. Vì thế, một số bài báo [26] [25] đã tiến hành
tìm tịi các thơng tin mới, hữu ích giúp mơ hình có thêm cơ sở để đưa
ra quyết định.
• Sử dụng mơ hình kết hợp: Ngồi các phương pháp kể trên, đối với
dữ liệu tiếng Việt, tác giả một số bài báo [21] sử dụng kết hợp các mơ
hình đơn vào trong một mơ hình kết hợp để giải quyết bài tốn. Ý tưởng
chính của phương pháp này là tận dụng lợi thế của từng mơ hình đơn
cho các dữ liệu khác nhau, và dùng cơ chế đóng góp trọng số để lấy kết
quả dự đốn cuối cùng.

2.1

Các mơ hình mới

Bắt đầu với bài báo đặt nền móng cho sự phát triển của các nghiên cứu
mới của tác vụ trích xuất thơng tin văn bản ở thời điểm hiện tại là A General
7


Framework for Information Extraction using Dynamic Span Graphs [17] được
công bố vào năm 2019. Phần lớn các bài tốn trích xuất thông tin yêu cầu
việc định danh và phân loại các cụm từ, bao gồm xác định danh tính thực thể
(naming entity recognition - NER), trích xuất quan hệ (relation extraction),
phân giải đồng tham chiếu (coreference resolution),... Với quan sát rằng, kiến
thức từ việc học tác vụ này có thể hữu ích với các tác vụ cịn lại, tác giả Yi
Luan cùng các đồng sự đã lồng ghép các tác vụ trên vào trong một luồng
thực thi như sau: phân giải đồng tham chiếu → xác định danh tính thực thể
→ trích xuất quan hệ.

Tác giả phát triển một nền tảng trích xuất thơng tin lấy tên là DyGIE
được sử dụng để nhận dạng và phân loại các thực thể, quan hệ, và đồng tham
chiếu trong một mơ hình đa tác vụ. DyGIE duyệt qua tất cả các cụm từ
trong từng câu và tính tốn các véc tơ chứa thơng tin ngữ cảnh cục bộ cho
mỗi cụm từ. Mơ hình sử dụng đồ thị động để kết hợp thông tin toàn cục vào
biểu diễn của các cụm từ. Trong quá trình huấn luyện, mơ hình xác định các
đoạn văn bản giống nhất và coi chúng như các nút trong cấu trúc đồ thị. Các
cung trong đồ thị được đánh trọng số tin cậy tương ứng với đồng tham chiếu
và quan hệ giữa các nút. Sau đó, các biểu diễn cụm từ được tinh chỉnh bằng
cách sử dụng ngữ cảnh rộng hơn thông qua các bản cập nhật được lan truyền
từ các tác vụ xác định loại quan hệ và thực thể cùng tham chiếu. Cuối cùng,
véc tơ biểu diễn này được sử dụng để dự đoán loại thực thể, quan hệ và đồng
tham chiếu của các đối tượng.
Kiến trúc mô hình DyGIE bao gồm 5 lớp:
• Lớp biểu diễn từ (Token representation layer ): ta sử dụng BiLSTM để
rút trích đặc trưng, chồng kết quả đầu ra của 2 lớp LSTM lại ta thu
được véc tơ đầu ra.
• Lớp biểu diễn span (Span representation layer ): kết hợp các véc tơ mã
hóa bởi BiLSTM trên với các chỉ mục đánh dấu khởi đầu và kết thúc
của cụm từ để chuẩn bị thơng tin đưa vào đồ thị.
• Lớp lan truyền đồng tham chiếu (Coreference Propagation Layer ): quá
trình lan truyền bắt đầu từ biểu diễn cụm gi0 , ở mỗi vịng lặp t, ta tính
véc tơ cập nhật utC rồi cập nhật cho git . Thực hiện lại việc này tới lần
thứ N khi đó ta được biểu diễn giN chứa thơng tin của N cụm từ trước
đó.
8


• Lớp lan truyền quan hệ (Relation Propagation Layer ): sử dụng giN làm
đầu vào, và xử lý tính tốn, cập nhật tương tự như ở bước lan truyền

đồng tham chiếu. Cuối cùng ta được biểu diễn giN +M .
• Lớp dự đoán cuối cùng: sử dụng giN +M để dự đoán nhãn thực thể E
và nhãn quan hệ R. Với tác vụ dự đoán nhãn thực thể, sử dụng mạng
nơ ron truyền thẳng (Feed Forward Neuron Network - FFNN ) để tính
PE (i) cho mỗi cụm từ si . Với các tác vụ dự đoán quan hệ, ta sử dụng
cặp giN +M , gjN +M qua FFNN để tính xác suất PR (i, j) giữa 2 cụm si và
sj . Với yêu cầu xác định đồng tham chiếu, ta dùng đầu ra của lớp lan
truyền đồng tham chiếu giN , gjN để tính tốn mối liên hệ giữa si và sj .
Sau khi có được kiến trúc mơ hình ở trên, ta sẽ đi vào thực hiện xây dựng
đồ thị động và tinh chỉnh lại biểu diễn của các cụm từ. Các nút trong đồ thị
là véc tơ biểu diễn git ∈ Rd cho lần lặp thứ t. Các cạnh được đánh trọng số
bằng điểm đồng tham chiếu hoặc điểm tin cậy cho quan hệ, các điểm số này
sẽ được huấn luyện bằng mơ hình.
Với mơ hình và các thiết kế kiến trúc được xác định ở phần trên, ta sẽ
bước sang phần huấn luyện mơ hình. Hàm mất mát được sử dụng ở đây sẽ
là:
X

∆E logP (E ∗ |C, R, D) + ∆R logP (R∗ |C, D) + ∆C logP (C ∗ |D)

(D,R∗ ,E ∗ ,C ∗ )∈D

(2.1)
Trong đó E∗, R∗ , C ∗ là cấu trúc đúng của các loại thực thể, mối quan hệ
và đồng tham chiếu. D là tập huấn luyện, ∆E , ∆R , ∆C là các siêu tham số để
điều chỉnh độ quan trọng của các tác vụ. Tác giả sử dụng một lớp LSTM 200
chiều ẩn. Các FFNN có 2 lớp ẩn với 150 chiều. Để tránh mơ hình học được
"q khớp", tác giả sử dụng thêm các lớp bỏ bớt như sau: cắt giảm bớt 0.4
lượng thông tin của LSTM, cắt giảm với tỉ lệ 0.4 cho FFNN, cắt giảm với tỉ
lệ 0.5 cho bộ nhúng véc tơ đầu vào. Các tham số khác như trọng số tác vụ,

hệ số học, chiều dài tối đa của cụm từ, số lần lặp, kích thước chùm được điều
chỉnh cho từng tập dữ liệu.
Tiếp nối thành cơng của mơ hình DyGIE ở trên, tác giả Yi Luan và David
Wadden đã phát triển một mô hình cải tiến nữa tại bài báo Entity, Relation, and Event Extractionwith Contextualized Span Representations năm
9


2019. Kết quả của việc trích xuất thơng tin bao gồm xác định danh tính thực
thể, trích xuất quan hệ, trích xuất sự kiện, có thể nâng cao nếu có sử dụng
ngữ cảnh toàn cục trong câu hoặc các mối liên hệ phụ thuộc không cục bộ
giữa các từ. Trong bài báo này, tác giả sử dụng các phương pháp khác nhau
để kết hợp ngữ cảnh toàn cục trong một nền tảng trích xuất thơng tin đa tác
vụ, dựa trên 1 phương pháp trích xuất thơng tin lấy cụm từ làm cơ sở trước
đó DyGIE. Mơ hình mới này được đặt tên là DyGIE++.
DyGIE++ đạt kết quả đứng đầu trên cả 3 tác vụ trích xuất thơng tin trên
các tập dữ liệu ACE05 [1], ACE05-Event, SciERC [16], GENIA [2], WLPC
[14]. Bộ mã hố (encoding) sử dụng BERT có thể nắm bắt ngữ cảnh quan
trọng bên trong câu và ngữ cảnh câu liền kề, đạt được hiệu suất cao hơn nếu
tăng kích thước cửa sổ đầu vào. Bộ mã hố chèn thông tin ngữ cảnh thông
qua việc cập nhật trong quá trình truyền cho phép mơ hình kết hợp thuộc
tính phụ thuộc giữa các câu với nhau, nâng cao hiệu suất so với việc chỉ dùng
BERT, đặc biệt trên các tác vụ cụ thể.

Hình 2.1: Kiến trúc tổng quan của mơ hình DyGIE++
Các biểu diễn cụm chia sẻ được xây dựng bằng cách tinh chỉnh các phép
nhúng từ ngữ theo ngữ cảnh thơng qua cập nhật đồ thị, sau đó được chuyển
đến các hàm tính điểm cho 3 tác vụ trích xuất thông tin. Kiến trúc DyGIE++
được xây dựng gồm 4 phần:
• Mã hố token (Token encoding): DYGIE++ sử dụng BERT cho các
biểu diễn từ bằng cách tiếp cận "cửa sổ trượt", cung cấp từng câu cho

BERT cùng với vùng lân cận cỡ L của các câu xung quanh
10


• Đánh chỉ mục từ (Span enumeration): các đoạn văn bản được đánh số
và xây dựng bằng cách nối thêm kí tự đại diện bắt đầu và kết thúc của
câu.
• Lan truyền đồ thị cho span (Span graph propagation): Mô hình sử dụng
cấu trúc đồ thị được tạo động dựa trên các dự đoán tốt nhất hiện tại
về mối quan hệ giữa các từ trong tài liệu. Mỗi biểu diễn từ được cập
nhật bằng cách tích hợp thơng tin từ các vùng lân cận trong đồ thị,
sử dụng ba dạng lan truyền thông tin: lan truyền thông tin mối quan
hệ, lan truyền thông tin đồng tham chiếu và lan truyền thông tin sự
kiện. Trong lan truyền thông tin đồng tham chiếu, các lân cận của một
từ trong đồ thị có thể là các tiền đề đồng tham chiếu của chính từ đó.
Trong lan truyền thơng tin mối quan hệ, các lân cận là các thực thể có
liên quan trong cùng một câu. Trong lan truyền thơng tin sự kiện, có
các nút kích hoạt sự kiện và các nút đối số sự kiện; các nút kích hoạt
gửi thơng báo đến các đối số có thể xảy ra của chúng và các đối số gửi
thơng báo trở lại các nút kích hoạt có thể xảy ra của chúng. Quy trình
đào tạo hồn chỉnh từ đầu đến cuối, trong đó mơ hình học cách xác
định các liên kết quan trọng giữa các phạm vi và cách chia sẻ thông tin
giữa các phạm vi đó.
Mỗi vịng lặp t, mơ hình sẽ sinh ra véc tơ cập nhật utx (i) cho cụm st ∈ Rd :
X
t
ux (i) =
Vxt (i, j) ⊙ gjt
(2.2)
j∈Bx (i)


Trong đó Vxt (i, j) là phép tính độ tương tự giữa i và j với tác vụ x. gjt
là phép tính lồi giữa kết quả trước và giá trị cập nhật hiện tại, trọng số
được xác định thông qua một hàm dạng cổng.
• Lớp phân loại đa tác vụ: Các biểu diễn được tái ngữ cảnh hóa ở trên
được dùng làm đầu vào để dự đoán cho mỗi tác vụ mục tiêu. Lớp kết
quả sử dụng 2 tầng mạng nơ ron truyền thẳng kết hợp với nhau. Với tác
vụ xử lý sự kiện và xác đinh loại thực thể, tác giả tính F F N Ntask (si );
với xác định loại quan hệ, tác giả nối cặp véc tơ nhúng tương ứng và
tính F F N Ntask ([si , sj ]).

11


2.2

Làm giàu dữ liệu

Các mơ hình xử lý ngơn ngữ tự nhiên yêu cầu lượng lớn dữ liệu để có thể
học tập, tuy nhiên việc thu thập dữ liệu, cũng như đánh nhãn rất tốn kém
nên tác giả cung cấp SCIBERT [7] như một mơ hình được huấn luyện trước
khi cần xử lý các bài toán liên quan đến tài liệu khoa học.
Về kiến trúc mơ hình, SCIBERT vẫn giống BERT nhưng được huấn luyện
trên tập dữ liệu văn bản khoa học. Tác giả xây dựng tập từ vựng mới từ
dữ liệu trong mảng khoa học, đặt tên là SciVocab. Tập từ vựng này cũng
có kích thước 30.000 từ vựng, và độ trùng lặp với tập từ vựng của BERT là
42%. SCIBERT được huấn luyện trên 1.14 triệu bài báo từ Semantic Scholar.
Tập dữ liệu này có 18% thuộc khoa học máy tính và 82% thuộc về y học mở
rộng. Toàn bộ văn bản trong bài báo đều được sử dụng. Độ dài trung bình
của các bài báo là 154 câu, tổng cộng có 3.17 tỉ từ, gần bằng 3.3 tỉ từ của

BERT. Các câu trong bài báo được cắt thành các từ nhờ thư viện ScispaCy [3].
Về phần huấn luyện mơ hình để làm thí nghiệm, tác giả sử dụng lại BERT
gốc, với các tham số đã được học trước. Đồng thời huấn luyện SCIBERT trên
các tập dữ liệu mới đã mô tả ở trên cho 5 tác vụ: nhận dạng loại thực thể
(NER), trích xuất PICO (PICO), phân loại văn bản (CLS), phân loại mối
quan hệ (REL), phân tách tính phụ thuộc (DEP).
Để áp dụng BERT vào thí nghiệm của mình, Iz Beltag và các cộng sự tiến
hành tinh chỉnh BERT. Với bài toán phân loại văn bản, tác giả đưa véc tơ
cuối được BERT nhúng cho mỗi từ vào một lớp phân loại tuyến tính. Với bài
tốn dạng đánh nhãn cho chuỗi như NER hay PICO, ta đưa véc tơ cuối của
mỗi từ vào lớp phân loại tuyến tính rồi dùng hàm kích hoạt softmax, sau đó
sử dụng thêm kĩ thuật trường ngẫu nhiên có điều kiện (conditional random
field - CRF ). Với bài toán DEP, tác giả sử dụng mơ hình tại bài báo Deep
Biaffine Attention for Neural Dependency Parsing [9], ta đánh nhãn lên các
mối quan hệ phụ thuộc, các cung nhúng và ma trận chú ý biaffine trên các
véc tơ BERT thay cho BiLSTM.
Tác giả cũng làm thí nghiệm sử dụng BERT để làm bộ nhúng thơng tin.
Trong q trình huấn luyện, phần tính tốn véc tơ nhúng của BERT sẽ được
đóng băng lại để sử dụng các trọng số đã được học từ trước. Với bài toán
phân loại văn bản, ta đưa từng câu qua BERT lấy véc tơ kết quả rồi đưa vào
12


hai lớp BiLSTM và nơ ron nhiều tầng để nối hai véc tơ của BiLSTM. Với bài
toán đánh nhãn lên chuỗi, ta thêm vào một lớp BiLSTM tương tự và đưa vào
lớp CRF. Với bài tốn phân tách tính phụ thuộc, tác giả sử dụng lại mơ hình
giống lúc tinh chỉnh BERT nhưng véc tơ đầu ra được đưa vào BiLSTM.

Hình 2.2: Hiệu suất của các biến thể BERT trên các tác vụ và bộ dữ liệu.
Điểm số F1 cho NER (cấp độ cụm từ), điểm số F1 cho REL và CLS (cấp

độ câu), F1 cho PICO (cấp độ từ), tính điểm số F1 cho ChemProt. Đối với
DEP, tác giả báo cáo điểm số phần đính kèm được gắn nhãn (LAS) và không
được gắn nhãn (UAS) (không bao gồm dấu chấm câu) cho cùng một mơ hình
với siêu tham số được điều chỉnh cho LAS. Tất cả các kết quả là trung bình
của nhiều lần chạy với các khởi đầu ngẫu nhiên khác nhau.
Dựa trên bảng kết quả, ta thấy SCIBERT đem lại kết quả cao hơn so với
BERT thường trong hầu hết các thí nghiệm trên nhiều tập dữ liệu khác nhau.
Giữa cách sử dụng BERT để làm bộ nhúng và huấn luyện BERT lại kết hợp
tinh chỉnh thì cách tinh chỉnh đem lại kết quả tốt hơn cho tất cả các tác vụ,
việc này đúng cho cả BERT thường và SCIBERT. Cuối cùng, với cơ sở được
huấn luyện trên lượng lớn dữ liệu thuộc lĩnh vự khoa học, SCIBERT đạt hiệu
suất tốt nhất trên tất cả các tác vụ của tập dữ liệu SciERC.

13


2.3

Bổ sung thơng tin cho mơ hình

Các hướng tiếp cận được đề cập ở trước đều cố gắng tận dụng tối đa
những thông tin được cung cấp, ẩn chứa trong tập dữ liệu có sẵn. Các mơ
hình đó đều đã được đạt những thành công nhất định trong các tác vụ cụ thể,
với hiệu suất thể hiện rất cao. Nhưng khơng dừng lại ở đó, các nhà nghiên
cứu vẫn muốn tìm tịi giải pháp nâng cao kết quả cho mơ hình, giải pháp
càng được phát triển thì tiềm năng ứng dụng vào điều kiện thực tế cuộc sống
hàng ngày sẽ càng lớn hơn. Một số bài báo gần đây, A Frustratingly Easy Approach for Entity and Relation Extraction [26] của Zexuan Zhong và Danqi
Chen năm 2021, Pack Together: Entity and Relation Extraction with Levitated
Marker [25] của Deming Ye cuối năm 2021, lấy ý tưởng từ việc thêm thông
tin hỗ trợ cho quá trình huấn luyện, các tác giả đã giúp nâng cao hiệu suất

trích xuất thơng tin thêm một lần nữa.
Nhận dạng loại thực thể và trích xuất quan hệ là hai tác vụ chính của
cơng việc trích xuất thơng tin. Các cơng trình trước thường xử lý theo hướng
phân loại cụm, do đó, họ đi sâu vào việc tìm kiếm cách biểu diễn tốt nhất
của cụm từ tại bộ mã hố. Tuy nhiên, hạn chế chính của các cơng trình đó
là đã bỏ qua sự phụ thuộc giữa các cụm từ với nhau. Trong bài báo này, tác
giả đề xuất một phương pháp biểu diễn mới cho sự phụ thuộc của các cụm
từ với nhau bằng cách đóng gói các điểm đánh dấu vào trong bộ mã hoá một
cách có tính tốn, phương pháp này gọi là Packed Levitated Markers.

Hình 2.3: Một số ví dụ mơ tả các cách đánh dấu
Bộ đánh dấu nổi (levitated markers) được dùng để xấp xỉ bộ đánh dấu
cứng, để mơ hình có thể phân loại nhiều cụm từ có loại tương tự nhau, tăng
14


×