Tải bản đầy đủ (.pdf) (71 trang)

Ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 71 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–

PHẠM ĐĂNG KHOA

ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TOÁN RÚT
TRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU
TIẾNG VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2023


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:
PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1:
PGS.TS. Đỗ Văn Nhơn
Cán bộ chấm nhận xét 2:
PGS.TS. Võ Thị Ngọc Châu
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 11 tháng 07 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học
hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: TS. Nguyễn Đức Dũng


2. Thư ký: TS. Trương Thị Thái Minh
3. Phản biện 1: PGS.TS. Võ Thị Ngọc Châu
4. Phản biện 2: PGS.TS. Đỗ Văn Nhơn
5. Uỷ viên: TS. Bùi Thanh Hùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH

TS. Nguyễn Đức Dũng

PGS.TS. Phạm Trần Vũ


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHẠM ĐĂNG KHOA

MSHV: 1970590

Ngày, tháng, năm sinh: 04/09/1992

Nơi sinh: Đắc Lắc

Chuyên ngành: Khoa học Máy tính


Mã số : 8480101

I. TÊN ĐỀ TÀI: ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TỐN RÚT
TRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT
( GRAPH NEURAL NETWORK FOR RELATION EXTRACTION IN
VIETNAMESE DATASET )
II. NHIỆM VỤ VÀ NỘI DUNG:
-

Rút trích quan hệ giữa các thực thể tiếng Việt bằng phương pháp ứng dụng các kỹ
thuật xử lý ngôn ngữ tự nhiên, các mơ hình học sâu và đặc biệt là mơ hình GNN.
Nghiên cứu và đề xuất các phương pháp nhằm cải thiện độ chính xác của mơ hình.
Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.

III.

NGÀY GIAO NHIỆM VỤ : 09/05/2022

IV.

NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023

V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ.

Tp. HCM, ngày 09 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

HỘI ĐỒNG NGÀNH

(Họ tên và chữ ký)

PGS.TS Quản Thành Thơ
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)

PGS.TS. Phạm Trần Vũ

i


LỜI CẢM ƠN
Lời đầu tiên, Em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS
Quản Thành Thơ, người đã dành thời gian hướng dẫn và giúp đỡ em trong
suốt q trình nghiên cứu và hồn thành luận văn này. Em đã nhận được
nhiều lời khuyên, chia sẻ kinh nghiệm từ Thầy trong giai đoạn phát triển đề
tài, cũng như sự hỗ trợ và chỉ dẫn của Thầy đã giúp em vượt qua những khó
khăn, thách thức trong q trình hiện thực và hồn thành đề tài.
Em cũng xin gửi lời cảm ơn đến các Thầy, Cô trong khoa Khoa Học và
Kỹ Thuật Máy Tính đã truyền đạt rất nhiều kiến thức và kinh nghiệm cho
em trong suốt q trình học tập, cũng như các bạn cùng khố học đã luôn
giúp đỡ, trao đổi và chia sẻ kinh nghiệm với em trong quá trình học tập và
nghiên cứu. Đặc biệt là sự hỗ trợ của bạn Lê Hoàng, do thầy hướng dẫn giới
thiệu, đã giúp đỡ em nhiều trong quá trình tìm hiểu và định hướng đề tài
luận văn.
Em cũng xin gửi lời cảm ơn đến ban lãnh đạo và đồng nghiệp tại công ty
Multi-it nơi em đang làm việc. Công ty đã tạo điều kiện thuận lợi, đặc biệt
là việc sắp xếp công việc và thời gian linh động trong thời gian học tập và
cũng như hoàn thành luận văn. Đồng thời em cũng đã nhận được sự hỗ trợ

và động viên của các đồng nghiệp trong thời gian vừa học tập, vừa làm việc
tại công ty.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè những người luôn
dành sự ủng hộ, quan tâm, động viên và là nguồn động lực cho em trong suốt
quá trình học tập, nghiên cứu và thực hiện đề tài luận văn.
Nếu không nhận được sự động viên, hỗ trợ đỡ từ mọi người, chắc chắn
em khơng thể hồn thành tốt luận văn này. Một lần nữa em xin dành sự biết
ơn và trân trọng những hỗ trợ, giúp đỡ và động viên của tất cả mọi người
trong thời gian thực hiện luận văn, cũng như suốt thời gian tham gia khoá
học.

ii


TĨM TẮT LUẬN VĂN
Rút trích quan hệ là tác vụ quan trọng trong bài tốn rút trích thơng tin, kết
quả của bài tốn rút trích quan hệ có thể hỗ trợ cho nhiều ứng dụng khác
nhau như hệ thống hỏi đáp, xây dựng cơ sở tri thức... Bài toán rút trích quan
hệ giữa các thực thể là bài tốn tương đối phức tạp và nhiều hướng tiếp cận.
Trong nội dung của đề tài luận văn này, học viên tập trung vào bài tốn
học có giám sát, với phương pháp ứng dụng Graph Neural Network - GNN
(Mạng Nơ-ron Đồ Thị), một hướng tương đối mới, để giải quyết bài tốn rút
trích quan hệ giữa các thực thể trên tập dữ liệu tiếng Việt. Trong nội dung
đề tài này, học viên thực hiện các cơng việc.
• Tìm hiểu thêm về GNN, thử nghiệm phương pháp ứng dụng mạng
GNN cho bài bài toán rút trích quan hệ giữa các thực thể tiếng việt,
với mong muốn đóng góp một ứng dụng tham khảo và giúp mở rộng
thêm phương pháp giải quyết bài toán rút trích quan hệ, với dữ liệu
tiếng Việt bằng việc ứng dụng mơ hình GNN trên tập dữ liệu tiếng
Việt là VLSP-2020-RE [1] . Trong đó, việc xử lý dữ liệu cho phù hợp

yêu cầu của bài toán, với dữ liệu tiếng Việt là trọng tâm.
• Sử dụng BERT trong quá trình embedding các vector từ đầu vào, để
tăng chất lượng embedding và cải thiện kết quả đầu ra.
• Thử nghiệm mơ hình và tìm hiểu ảnh hưởng của cạnh nút, qua việc
điều chỉnh số cạnh so với mơ hình đầy đủ qua đó đánh giá các chọn
lựa cho việc định hướng và điều chỉnh mơ hình.

iii


ABSTRACT OF DISSERTATION
Extracting relations is an important task in information extraction, and the
results of relation extraction can provide support for various applications
such as question-answering systems and knowledge base construction. The
problem of extracting relations between entities is relatively complex and
has multiple approaches. In the content of this thesis, the researchers focus
on the supervised learning problem, applying the GNN method, a relatively
new approach, to address the problem of extracting relations between entities in Vietnamese datasets. Through this thesis, the researchers perform the
following tasks:
• Further investigate GNN and experiment with applying GNN to extract relations between Vietnamese entities, aiming to contribute a
reference application and expand the methods for solving relation extraction problems with Vietnamese data. The application is performed
on the VLSP-2020-RE Vietnamese dataset. Processing the data appropriately according to the requirements of the Vietnamese relation
extraction task is crucial to obtain suitable data for the training process.
• Utilize BERT for embedding input word vectors to enhance embedding quality and improve output results.
• Experiment with the model, including studying the impact of edge
nodes by removing some edge nodes from the complete model, thereby
evaluating choices for model orientation and adjustment to optimize
computational costs.

iv



LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG MẠNG NƠ RON
ĐỒ THỊ CHO BÀI TOÁN RÚT TRÍCH QUAN HỆ GIỮA CÁC THỰC
THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT” là cơng trình nghiên cứu của
bản thân. Những phần sử dụng tài liệu tham khảo trong luận văn đã được
nêu rõ trong phần tài liệu tham khảo. Các số liệu, kết quả trình bày trong
luận văn là hồn tồn trung thực, nếu sai tơi xin chịu hồn tồn trách nhiệm
và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.
Học viên

Phạm Đăng Khoa

v


Mục lục
Chương 1. GIỚI THIỆU ĐỀ TÀI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1. Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2. Mơ tả bài tốn rút trích quan hệ giữa các thực thể . . . . . . . .

3


1.3. Mục tiêu và nhiệm vụ của luận văn . . . . . . . . . . . . . . . . . . . . . . .

5

1.4. Giới hạn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.5. Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.6. Tóm tắt nội dung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

Chương 2. CƠ SỞ KIẾN THỨC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.1. Mơ hình Artificial Neural Network - ANN . . . . . . . . . . . . . . . .

8

2.2. Mơ hình Recurrent Neural Network - RNN . . . . . . . . . . . . . .

11

2.3. Mơ hình Long Short-Term Memory . . . . . . . . . . . . . . . . . . . . .


16

2.4. Cơ chế Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.5. Mơ hình Graph Neural Network - GNN . . . . . . . . . . . . . . . . .

25

Chương 3. CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN . . . . . . .

30

Chương 4. MƠ HÌNH ĐỀ XUẤT . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

4.1. Mơ Hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

4.2. Quá trình xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.2.1. Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41


4.2.2. Chuyển dữ liệu đầu vào sang định dạng phù hợp . . . . . . . . . . . . .

42

4.3. Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.3.1. precision, recall và f1-score. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.3.2. micro-F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.4. Đề xuất sử dụng BERT cho tác vụ embedding vector đầu vào
và tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.4.1. Tham số cấu hình của mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

vi


4.4.2. Kết quả thực nghiệm và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . .


49

Chương 5. KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

vii


Danh sách hình vẽ
1.1

Mơ tả bài tốn rút trích quan hệ giữa các thực thể và trong
bài tốn rút trích thông tin (Information Extraction) . . . . . . . 2

2.1

Các thành phần cơ bản của một nơ-ron thần kinh sinh học
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2

Cấu trúc của một perceptron . . . . . . . . . . . . . . . . . . . 10

2.3


Cấu trúc mơ hình Recurrent Neural Network . . . . . . . . . . . 12

2.4

Cơ chế hoạt động của perceptron trong mơ hình Recurrent
Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5

Cơ chế hoạt động của perceptron trong mơ hình Long ShortTerm Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.6

Kiến trúc mơ hình Bidirectional LSTM . . . . . . . . . . . . . . 21

2.7

Một số ứng dụng của đồ thị [3] . . . . . . . . . . . . . . . . . . 25

2.8

Sơ đồ thể hiện pipeline cơ bản [3] khi xây dựng một GNN model 26

2.9

Tích chập 2 chiều và tích chập trên đồ thị [3]

2.10 Quá trình tổng hợp và cập nhật trong GNN [3]

. . . . . . . . . . 27

. . . . . . . . . 28

2.11 Công thức tổng quát và các hàm tính tốn cơ bản của cơ chế
tổng hợp và cập nhật [3] . . . . . . . . . . . . . . . . . . . . . 29
3.1

Các mốc quan trọng của bài tốn rút trích quan hệ sử dụng
GNN[4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2

Các bài báo chính tham khảo trong đề tài luận văn sử dụng
GNN - hướng non-syntactic và sử dụng cạnh

. . . . . . . . . . 31

3.3

Tham khảo cách thức xây dựng cạnh, nút [5]. . . . . . . . . . . 31

3.4

Tham khảo mơ hình Edge Oriented Graph - EOG [6]. . . . . . . 32

viii


4.1

Mơ hình đề xuất dựa trên mơ hình tham khảo . . . . . . . . . . 36


4.2

Dữ liệu tập VLSP [1] với định dạng gốc. . . . . . . . . . . . . . 43

4.3

Dữ liệu tập VLSP [1] với định dạng yêu cầu. . . . . . . . . . . . 43

4.4

Biểu đồ mô tả số lượng quan hệ trong từng record dữ liệu
của tập train và dev . . . . . . . . . . . . . . . . . . . . . . . . 47

ix


Danh sách bảng
1.1

Ví dụ về thực thể và quan hệ trong câu [1] . . . . . . . . . . . . 4

2.1

Các trường hợp xảy ra với độ dài đầu vào và đầu ra của mơ
hình RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2

biểu diễn các từ trong câu theo vector embedding . . . . . . . . 23


2.3

thể hiện độ tập trung của từ Q đối với từng từ trong câu . . . . . 24

3.1

Các loại quan hệ và cặp thực thể tương ứng trong tập VLSPRE 2020 [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1

Xây dựng các cạnh của đồ thị [7] . . . . . . . . . . . . . . . . . 38

4.2

Các tham số chính cho mơ hình GNN edge orientation . . . . . 48

4.3

Kết quả thực nghiệm của mơ hình GNN - EoG (Edge orientation Graph) so với các phương pháp khác trên tập dữ liệu
tiếng việt VLSP-2020-RE . . . . . . . . . . . . . . . . . . . . . 49

4.4

Kết quả thực nghiệm so sánh việc sử dụng toàn bộ cạnh và
loại bỏ một số cạnh . . . . . . . . . . . . . . . . . . . . . . . . 50

x



Chương 1

GIỚI THIỆU ĐỀ TÀI
1.1.

Giới thiệu đề tài

Trong giai đoạn bùng nổ thông tin như hiện nay, dữ liệu ngày càng nhiều
và đa dạng hơn bao giờ hết, điều này giúp ích cho q trình tìm kiếm thơng
tin, tri thức nhưng cũng đặt ra nhiều thách thức trong quá trình chọn lọc và
xử lý thơng tin. Bài tốn đặt ra là làm sao máy tính có thể có thể hiểu được
thông tin từ dữ liệu để trợ giúp con người, đặc biệt với các dữ liệu dạng phi
cấu trúc như văn bản, với yêu cầu phải hiểu được ngữ nghĩa của văn bản.
Một trong những hướng tiếp cận để giải quyết vấn đề này là sử dụng
máy tính để chú thích dữ liệu với cấu trúc mong muốn, đồng thời sử dụng
kinh nghiệm rằng: khi đọc tài liệu, người đọc thường chú tới các mối quan
hệ giữa các thực thể. Trong đó, thực thể có thể là danh từ hoặc cụm danh
từ, chẳng hạn như: tên người, tên tổ chức, tên địa điểm... Nhiệm vụ của máy
tính là nhận ra các thuộc tính về mặt ngữ nghĩa trong các câu văn để có thể
chú thích một cách chính xác. Theo đó, rút trích quan hệ giữa các thực thể là
bước đóng vai cốt yếu trong xây dựng một ứng dụng hiểu ngôn ngữ tự nhiên
(Understanding Natural Language).

1


Hình 1.1: Mơ tả bài tốn rút trích quan hệ giữa các thực thể và trong bài
tốn rút trích thơng tin (Information Extraction)
Rút trích quan hệ giữa các thực thể (Relation Extraction) là công việc
xác định quan hệ về mặt ngữ nghĩa của các cặp thực thể trong văn bản. Tập

các thực thể sử dụng trong quá trình phân loại mối quan hệ, thường là kết
quả của bài toán trước đó, là bài tốn nhận diện thực thể có tên Named
Entity Recognition - NER, trong ngữ cảnh của một bài toán đầy đủ end-toend. Tuy vậy, dữ liệu đầu vào có thể là tập dữ liệu tạo bằng phương pháp
bất kỳ, chẳng hạn tự đánh nhãn, không nhất thiết là từ kết quả của bài toán
NER.

2


Kết quả của bài tốn rút trích quan hệ giữa các thực thể có nhiều ứng
dụng khác nhau, chẳng hạn như hệ thống hỏi đáp (Question answering), rút
trích thơng tin (Entity Extraction), đặc biệt trong việc hỗ trợ thông tin cho
các cơ sở tri thức (Knowledge Bases), phục vụ cho một hệ thống thông tin cụ
thể của ứng dụng web hay các từ điển, hệ thống thông tin lớn như WordNet
Thesaurus, FreeBase, DBPedia...
Rút trích quan hệ giữa các thực thể là bài toán tương đối phức tạp và
nhiều hướng tiếp cận. Nội dung của đề tài luận văn này tập trung vào bài
tốn học có giám sát, với phương pháp "Ứng dụng Mạng nơ-ron đồ thị cho
bài tốn rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng Việt".
Graph Neural Network - GNN (Mạng nơ-ron đồ thị) [8] là mơ hình có thể
ứng dụng vào nhiều bài tốn, nhưng chưa có nhiều tham khảo, ứng dụng đối
với tiếng Việt và có thể phát triển nhiều hơn trong tương lai.

1.2.

Mơ tả bài tốn rút trích quan hệ giữa các
thực thể

Mơ hình có đầu vào là:
− Một câu (xét bài tốn ở mức rút trích quan hệ trong một câu - intra

sentence), bao gồm một tập thực thể và một tập các quan hệ có thể
xảy ra với một cặp thực thể.
− Tập E = {e1 , e2 , ...em } gồm m loại thực thể.
− Tập R = {r1 , r2 , ...rn } gồm n loại quan hệ.
Trong đó, các thực thể có loại thuộc tập E trong câu đã được xác định
trước từ bài toán rút trích thực thể, là bài tốn tiền xử lý của bài tốn rút trích
quan hệ giữa các thực thể hoặc từ một tập dữ liệu cho trước nhất định.
3


Mơ hình có đầu ra là:
− Quan hệ (có thể có) < em1 , em2 , r j >, trong đó em1 , em2 đã được cho
trước, r j ∈ R.
Bảng 1.1: Ví dụ về thực thể và quan hệ trong câu [1]
Ví dụ: Tại buổi họp báo ơng Nguyễn Quang Huyền,
Phó Cục trưởng [Cục Quản lý và giám sát Bảo Hiểm]
[Bộ Tài chính] cho biết.
Loại quan hệ
Thực thể 1
Thực thể 2
AFFILIATION
PERSON
ORGANIZATION
(liên kết)
Nguyễn Quang Huyền
Cục Quản lý và giám sát
Bảo Hiểm
AFFILIATION
PERSON
ORGANIZATION

(liên kết)
Nguyễn Quang Huyền
Bộ tài chính
PART - WHOLE
(bao gồm)

ORGANIZATION
Cục Quản lý và giám sát
Bảo Hiểm

4

ORGANIZATION
Bộ tài chính


1.3.

Mục tiêu và nhiệm vụ của luận văn

Đề tài hướng tới mục tiêu rút trích quan hệ giữa các thực thể tiếng Việt
bằng phương pháp ứng dụng các kỹ thuật xử lý ngơn ngữ tự nhiên, các mơ
hình học sâu và đặc biệt mơ hình Graph Neural Network - GNN (Mạng nơron đồ thị). Với dữ liệu đầu vào là các đoạn văn tiếng Việt, chứa nhiều thông
tin, thực thể và mối quan hệ có thể có giữa các thực thể.
Từ mục tiêu tổng quát, học viên sẽ từng bước xử lý các vấn đề dưới đây
để giải quyết bài tốn:
− Tìm hiểu và sử dụng các kĩ thuật trong xử lí ngơn ngữ tự nhiên, các
mơ hình học sâu. Đặc biệt là việc tìm hiểu về các đặc trưng của mơ
hình GNN, cơ chế hoạt động và kết hợp với các phương pháp học sâu.
− Tìm kiếm tập dữ liệu dữ liệu tiếng Việt, xử lý dữ liệu phù hợp với u

cầu đầu vào của mơ hình dùng GNN.
− Đưa ra đề xuất cải thiện hiệu suất của mô hình dựa trên thực nghiệm.
− Đánh giá khả năng ứng dụng mơ hình GNN với tập dữ liệu tiếng Việt
và hiểu thêm về các đặc trưng, tính chất của mơ hình.

1.4.

Giới hạn đề tài

Nội dung của đề tài Ứng dụng mạng nơ-ron đồ thị cho bài tốn rút trích
quan hệ giữa các thực thể trên tập dữ liệu tiếng Việt sẽ được giới hạn như
sau:
− Dữ liệu được sử dụng trong đề tài là văn bản tiếng Việt. Cụ thể là
tập dữ liệu VLSP-2020-RE [1], là tập dữ liệu cho bài tốn rút trích
quan hệ giữa các thực thể đối với tiếng Việt. Nguồn dữ liệu từ VLSP
5


(Vietnamese Language and Speech Processing, CLB Xử lý ngôn ngữ
và tiếng nói tiếng Việt).
− Áp dụng các mơ hình học sâu Bi-LSTM [9], GNN để huấn luyện dữ
liệu.
− Sử dụng GNN và tìm hiểu phương thức xây dựng nút, cạnh trên đồ thị
cho bài tốn rút trích quan hệ giữa các thực thể, với phương pháp là
dựa trên các đặc trưng cạnh của đồ thị để xác định quan hệ có thể giữa
các thực thể.
− Đánh giá kết quả dự đốn dựa trên độ đo micro F1-score.

1.5.


Đóng góp của luận văn

Đóng góp chính của đề tài là việc xử lý và thử nghiệm tập dữ liệu tiếng
Việt đối với mô hình GNN cho bài tốn rút trích thực thể tiếng Việt.
Trong luận văn, học viên có hai đề xuất để có thể ứng dụng mơ hình hiệu
quả hơn với tập dữ liệu tiếng Việt trên mơ hình GNN:
− Với đặc thù mơ hình có sử dụng các nút câu và xây dựng nhiều liên
kết cạnh nên kích thước tính tốn sẽ lớn nếu đoạn văn gồm quá nhiều
câu. Nếu đoạn văn có quá nhiều câu, đoạn văn sẽ được tách các đoạn
văn bản có nhiều câu thành các đoạn nhỏ hơn, mới có thể huấn luyện
được nhưng vẫn đảm bảo khả năng dự đoán kết quả.
− Sử dụng BERT tiếng Việt, cụ thể là PhoBERT [10] mã hoá các véc tơ
từ cho dữ liệu đầu vào.

6


1.6.

Tóm tắt nội dung

Nội dung của luận văn gồm 5 chương:
− Chương 1 GIỚI THIỆU ĐỀ TÀI: Nêu lý do chọn đề tài Ứng dụng
mạng nơ-ron đồ thị cho bài tốn rút trích quan hệ giữa các thực thể
trên tập dữ liệu tiếng Việt, mơ tả bài tốn rút trích quan hệ, tập dữ liệu
được sử dụng, phương pháp đánh giá.
− Chương 2 CƠ SỞ KIẾN THỨC: Trình bày cơ sở kiến thức cơ bản về
deep learning, Artificial Neural Network, Recurrent Neural Network,
Long Short-Term Memory, Attention.
− Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN:

Giới thiệu các cơng trình nghiên cứu liên quan tới phương pháp Ứng
dụng mạng nơ-ron đồ thị cho bài tốn rút trích quan hệ giữa các thực
thể trên tập dữ liệu tiếng Việt.
− Chương 4 MÔ HÌNH ỨNG DỤNG: Trình bày cụ thể về mơ hình
GNN sẽ được ứng dụng cho bài tốn Rút trích quan hệ cho tập dữ
liệu tiếng Việt. Đề xuất tiền xử lý dữ liệu, sử dụng BERT [11] trong
embedding dữ liệu đầu vào và các kết quả thực nghiệm.
− Chương 5 KẾT LUẬN: Tổng kết các kết quả, vấn đề còn tồn tại,
đóng góp của luận văn. Đưa ra hướng mở rộng, phát triển đề tài trong
tương lai.

7


Chương 2

CƠ SỞ KIẾN THỨC
2.1.

Mơ hình Artificial Neural Network - ANN

Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) [12] thường
được gọi đơn giản là Neural Network - NN (Mạng nơ-ron), là hệ thống tính
tốn lấy cảm hứng từ mạng nơ-ron sinh học cấu thành của não người.
ANN gồm một tập hợp các đơn vị hoặc gọi là nút được kết nối với nhau,
gọi là các nơ-ron(tế bào thần kinh) nhân tạo. ANN mô phỏng một cách đơn
giản các nơ-ron, mỗi kết nối của ANN, giống như kết nối thần kinh trong
não sinh học. Các nơ-ron liên kết và truyền tín hiệu đến các nơ-ron khác và
có đặc điểm là có nhiều đầu vào nhưng chỉ có một đầu ra.
Nơron thần kinh sinh học là đơn vị cơ bản của hệ thống thần kinh trong

cơ thể người và động vật. Nó gồm một tế bào (soma), các nhánh dẫn truyền
xung thần kinh (dendrites) để nhận tín hiệu, và một sợi dẫn truyền xung thần
kinh (axon) để truyền tín hiệu đi (ngõ ra) như trong hình 2.1.

Hình 2.1: Các thành phần cơ bản của một nơ-ron thần kinh sinh học [2]

8


Nơ-ron thần kinh hoạt động bằng cách tiếp nhận các thơng tin đưa vào
từ các đi gai (dendrites), tính tốn và tổng hợp tại thân nơ-ron (cell body),
sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon).
Một tế bào nơ-ron nhân tạo (perceptron) của mô hình học sâu (deep
learning) cũng sẽ nhận nhiều tín hiệu, sau đó xử lý và truyền kết quả đi cho
các nơ-ron liên kết với nó.
− Tín hiệu tại một kết nối là một số thực và giá trị đầu ra của mỗi nơ-ron
được tính bằng hàm phi tuyến tính có tham số, để tổng hợp các giá trị
đầu vào của nó.
− Các kết nối được gọi là các cạnh. Các nơ-ron và các cạnh có trọng số
để điều chỉnh tăng hoặc giảm cường độ của tín hiệu tại một kết nối
trong q trình huấn luyện.
− Nơ-ron có thể có ngưỡng sao cho tín hiệu chỉ được gửi đi khi tín hiệu
tổng hợp vượt qua ngưỡng đó.
Trong ví dụ hình 2.2, đơn vị tế bào thần kinh sẽ thực hiện:
− Nhận vào ba giá trị: x1 , x2 , x3
− Tính tổng có trọng số và nhân giá trị theo trọng số tương ứng w1, w2,
w3 và thêm vào đó một số hạng b (bias).
− Cuối cùng, chuyển tổng kết quả qua một hàm sigmoid để có kết quả
là một số giữa 0 và 1.
Ví dụ trên đây sử dụng hàm sigmoid là hàm kích hoạt, trong trường hợp tổng

qt có thể sử dụng hàm kích hoạt khác thay cho hàm sigmoid.
Khi kết hợp nhiều perceptron với nhau sẽ tạo nên mơ hình ANN gồm
nhiều tầng (layer), tùy theo mục đích thiết kế mỗi tầng sẽ có nhiệm vụ riêng.
9


− Tầng đầu vào (input layer) là tầng đầu tiên nhận dữ liệu đầu vào.
− Tầng ẩn (hidden layer)nằm giữa, gồm các phép tính tốn chuyển đổi
dữ liệu đầu vào cho ra dữ liệu đầu ra trung gian. Số lượng tầng ẩn,
khơng có giới hạn cụ thể, tùy theo mục đích thiết kế. Khi có nhiều
hơn 1 tầng ẩn ANN sẽ được gọi là mơ hình Deep learning (học sâu)
[13]
− Tầng kết quả (output layer) là tầng cuối cùng chứa dữ liệu đầu ra.

Hình 2.2: Cấu trúc của một perceptron

10


2.2.

Mơ hình Recurrent Neural Network - RNN

Văn bản là dữ liệu dạng chuỗi tuần tự, với ý nghĩa của từng từ phụ thuộc
vào vị trí của nó trong câu. Mỗi từ trong văn bản đều mang theo thông tin
và sự liên kết giữa các từ đóng vai trị quan trọng trong việc hiểu và xử lý
văn bản.
Recurrent Neural Network - RNN (mạng nơ-ron hồi quy) [14] là một
mạng nơ-ron được thiết kế đặc biệt để xử lý dữ liệu chuỗi, bao gồm ngơn
ngữ tự nhiên, giúp mơ hình "nhìn thấy" và hiểu được ý nghĩa của các từ

trong ngữ cảnh bằng cách xử lý và khai thác thông tin hiệu quả từ chuỗi tuần
tự.
RNN có khả năng lưu lại trạng thái hiện tại và cho phép thông tin từ quá
khứ truyền đi và tác động đến quá trình xử lý từ tiếp theo. Nhờ đó, giúp cho
RNN có khả năng xử lý và hiểu được ý nghĩa của văn bản dựa trên sự phụ
thuộc giữa các từ và vị trí của chúng trong câu. Chính vì vậy, RNN trở thành
một công cụ mạnh mẽ trong xử lý ngôn ngữ tự nhiên, dịch máy, nhận dạng
giọng nói, và nhiều ứng dụng khác liên quan đến dữ liệu dạng chuỗi.
Cấu trúc mô hình RNN:
− Gồm một tầng xử lý dữ liệu với số lượng perceptron bằng độ dài chuỗi
dữ liệu đầu vào.
− Ngồi thơng tin của dữ liệu đầu vào, perceptron có thêm dữ liệu đầu
vào khác là đầu ra của perceptron ở ngay trước nó.
Tham khảo mơ hình được mơ tả trong hình 2.3, để hiểu thêm Có thể hiểu
thêm về cách thức hoạt động của RNN.

11


Hình 2.3: Cấu trúc mơ hình Recurrent Neural Network
Một mơ hình RNN cơ bản có thể được mơ tả như sau:
− Đầu vào: x1 , x2 , . . . xt là các vector đầu vào biểu diễn thành phần thứ
t của chuỗi dữ liệu được đưa vào.
− Trạng thái ẩn: h1 , h2 , . . . ht là trạng thái ẩn tại thời điểm t, cũng là ngõ
vào cho nơ-ron kế tiếp.
− Đầu ra: y1 , y2 , . . . yt ngõ ra tại thời điểm t.
Trong ví dụ hình 2.3, độ dài chuỗi dữ liệu đầu ra đúng bằng với độ dài
chuỗi dữ liệu đầu vào. Nhưng đối với mơ hình RNN, độ dài của chuỗi đầu
vào và đầu ra có thể thay đổi tùy thuộc vào từng bài tốn cụ thể. Chuỗi đầu
vào thể có độ dài bất kỳ, điều này cho phép xử lý các dữ liệu có độ dài khác

nhau. Tương tự, chuỗi đầu ra cũng có thể có độ dài linh hoạt, tùy thuộc vào
yêu cầu của bài toán.
Bảng 2.1: Các trường hợp xảy ra với độ dài đầu vào và đầu ra của mơ hình
RNN
Trường hợp
1
2
3

Độ dài dữ liệu đầu vào
1
n>1
n>1

12

Độ dài dữ liệu đầu ra
n>1
1
n>1


Quá trình biến đổi các vector đầu vào xt và ht−1 sang các vector đầu ra
ht và yt tại bước xử lý dữ liệu thứ t là quá trình huấn luyện các bộ trọng số
của các ma trận Wxh , Whh và Why được thực hiện bởi perceptron với các phép
tính tốn được sắp xếp theo các thứ tự sau

Hình 2.4: Cơ chế hoạt động của perceptron trong mơ hình Recurrent
Neural Network


1. Tính tích của xt và ma trận trọng số Wxh .
2. Tính tích của ht−1 và ma trận trọng số Whh .
3. Thực hiện phép tổng của hai tích trên với giá trị của bias, sau đó đưa
kết quả qua hàm tanh sẽ thu được giá trị của hidden state ht ;
ht = tanh(Wxh xt +Whh ht−1 + b)

(2.1)

4. Dữ liệu đầu vào là kết quả của hàm so f tmax có giá trị tham số là tích
13


×