Tải bản đầy đủ (.pdf) (52 trang)

Nhận dạng thực thể với phương pháp weak supervision trong văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 52 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–

HOÀNG ĐĂNG KHOA

NHẬN DẠNG THỰC THỂ
VỚI PHƯƠNG PHÁP WEAK SUPERVISION
TRONG VĂN BẢN TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 07 năm 2023


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–

HOÀNG ĐĂNG KHOA

NHẬN DẠNG THỰC THỂ
VỚI PHƯƠNG PHÁP WEAK SUPERVISION
TRONG VĂN BẢN TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

LUẬN VĂN THẠC SĨ


TP. HỒ CHÍ MINH, tháng 07 năm 2023


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:
PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1:
TS. Lê Thanh Vân
Cán bộ chấm nhận xét 2:
PGS.TS. Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM
ngày 10 tháng 07 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học
vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: PGS.TS. Phạm Trần Vũ
2. Thư ký: TS. Nguyễn Lê Duy Lai
3. Phản biện 1: TS. Lê Thanh Vân
4. Phản biện 2: PGS.TS. Đỗ Văn Nhơn
5. Uỷ viên: TS. Mai Hoàng Bảo Ân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH


ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
——————–

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HOÀNG ĐĂNG KHOA
Ngày, tháng, năm sinh: 06/06/1994
Chuyên ngành: Khoa học Máy tính

MSHV: 2070103
Nơi sinh: Đồng Nai
Mã số : 8480101

I. TÊN ĐỀ TÀI: NHẬN DẠNG THỰC THỂ VỚI PHƯƠNG PHÁP WEAK
SUPERVISION TRONG VĂN BẢN TIẾNG VIỆT
(NAMED ENTITY RECOGNOTION WITH WEAK SUPERVISION IN
VIETNAMESE)
II. NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu và phân tích các phương pháp weak supervision.
- Triển khai ứng dụng phương pháp weak supervision cho bài toán nhận dạng thực thể
trong văn bản tiếng Việt.
- Thực nghiệm và đánh giá kết quả của phương pháp đề xuất.

III. NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023
V. CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ


Tp. HCM, ngày 11 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)

TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)

i


LỜI CẢM ƠN
Tôi xin chân thành gửi lời cảm ơn sâu sắc đến tất cả những người
đã đóng góp và hỗ trợ cho quá trình thực hiện luận văn này.
Đầu tiên, tôi xin gửi lời cảm ơn chân thành đến PGS.TS Quản
Thành Thơ, thầy đã dành thời gian, kiến thức và tận tâm góp ý trong
suốt q trình nghiên cứu và viết luận văn. Sự chỉ dạy và sự hỗ trợ
chân thành của thầy đã là nguồn động lực lớn để tơi vượt qua các khó
khăn và hồn thành luận văn này.
Tơi cũng xin bày tỏ lịng biết ơn đến các giáo viên đã truyền đạt
những kiến thức quý báu và tạo điều kiện tốt nhất cho quá trình học
tập và nghiên cứu của tôi. Những kiến thức và kỹ năng mà tơi đã được
học là quan trọng và có ý nghĩa vô cùng trong sự phát triển cá nhân
và cũng là nền tảng hỗ trợ cho tơi hồn thành luận văn này.
Tôi không thể không đề cập đến sự giúp đỡ từ gia đình, bạn bè và
những đồng nghiệp công ty Bosch. Những lời động viên, sự tin tưởng
và tình cảm của họ đã là nguồn động lực mạnh mẽ giúp tơi vượt qua

khó khăn và hồn thành luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả những người bạn cùng
lớp cao học và đồng nghiệp đã cùng tôi chia sẻ ý kiến, kiến thức và
kinh nghiệm trong quá trình học tập. Sự hỗ trợ và góp ý của các bạn
đã góp phần quan trọng vào sự hoàn thiện của luận văn này.

ii


TĨM TẮT LUẬN VĂN
Bài tốn nhận dạng thực thể trong văn bản đã trải qua một quá trình
phát triển dài, với nhiều cơng trình nghiên cứu đã được cơng bố nhằm
cải thiện hiệu suất của các mơ hình. Đặc biệt, sự phát triển đáng kể của
các mơ hình học sâu đã đạt đến một mức bão hòa trong việc nâng cao
hiệu suất. Tuy nhiên, với phương pháp học sâu, các mơ hình rất phụ
thuộc vào dữ liệu đã được gán nhãn, và điều này đặt ra một thách thức
lớn trong việc tăng chi phí cho việc gán nhãn thủ cơng cho tập dữ liệu,
đặc biệt là khi áp dụng cho các tác vụ đặc thù hoặc ngôn ngữ khác với
ngôn ngữ mà mơ hình đã được huấn luyện ban đầu.
Để giải quyết vấn đề này, đã có nhiều phương pháp được đề xuất,
trong đó phương pháp Weak Supervision đã thu hút sự quan tâm.
Phương pháp này cho phép tiết kiệm chi phí trong việc gán nhãn bằng
cách sử dụng thơng tin tri thức từ các chuyên gia trong lĩnh vực để gán
nhãn cho toàn bộ tập huấn luyện. Điều này giúp cải thiện quá trình gán
nhãn và nâng cao hiệu suất của mơ hình nhận dạng thực thể mà khơng
phụ thuộc hồn tồn vào việc gán nhãn thủ cơng từng mẫu dữ liệu.
Do đó trong nội dung của luận văn này, học viên tập trung nghiên
cứu và phân tích phương pháp weak supervsion, đồng thời ứng dụng
vào bài toán nhận diện thực thể văn bản trên một tập dữ liệu về bất
động sản tiếng Việt. Các thí nghiệm được xây dựng để phân tích hiệu

năng của mơ hình trên những điều kiện khác nhau.

iii


ABSTRACT OF DISSERTATION
The named entity recognition task has been developed for a long
time, with numerous research studies published to improve the performance of models. Particularly, significant advancements in deep learning models have reached a saturation point in improving performance.
However, deep learning methods heavily rely on labeled data, posing a
major challenge in terms of the cost of manually labeling datasets, especially when applied to domain-specific tasks or the applied language
different from the original training language.
To address this issue, several methods have been proposed, among
which Weak Supervision has garnered attention. This method allows for
cost savings in labeling by leveraging domain knowledge from experts to
label the entire training dataset. This helps improve the labeling process
and enhance the performance of model without solely relying on manual
labeling for each individual data point.
In this thesis, the focus is on studying and analyzing the weak supervision method and applying it to the task of entity recognition in
Vietnamese real estate data. The experiments are designed to analyze
the performance of the model under different conditions..

iv


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “NHẬN DẠNG THỰC THỂ
VỚI PHƯƠNG PHÁP WEAK SUPERVISION TRONG VĂN BẢN TIẾNG
VIỆT” là cơng trình nghiên cứu của bản thân. Những phần sử dụng tài
liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu tham
khảo. Các số liệu, kết quả trình bày trong luận văn là hồn tồn trung

thực, nếu sai tơi xin chịu hồn tồn trách nhiệm và chịu mọi kỷ luật của
bộ môn và nhà trường đề ra.

Học viên

Hoàng Đăng Khoa

v


Mục lục
1

.
.
.
.
.

1
1
3
3
4
5

2

Cơ sở kiến thức
2.1 Mơ hình Artificial Neural Network - ANN . . . . . . . . . . . . . . . . . . . .

2.2 Mơ hình Hidden Markov Models - HMM . . . . . . . . . . . . . . . . . . . .
2.3 Phương pháp Weak Supervision . . . . . . . . . . . . . . . . . . . . . . . . .

6
6
9
11

3

Cơng trình nghiên cứu liên quan
3.1 Hướng tiếp cận rule based . . . .
3.2 Hướng tiếp cận feature based . . .
3.3 Hướng tiếp cận học sâu . . . . . .
3.4 Hướng tiếp cận Weak Supervision
3.5 Một số hướng tiếp cận khác . . . .

.
.
.
.
.

13
13
14
15
17
21


.
.
.
.
.
.
.
.

23
24
24
25
30
30
34
34
35

4

5

Giới thiệu đề tài
1.1 Giới thiệu đề tài . . .
1.2 Mục tiêu của luận văn
1.3 Giới hạn đề tài . . . .
1.4 Ý nghĩa của luận văn
1.5 Tóm tắt nội dung . .


.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Trình bày, đánh giá, bàn luận kết quả
4.1 Tiền xử lý dữ liệu . . . . . . . . . .
4.2 Phương pháp đánh giá . . . . . . . .
4.3 Xây dựng các label function . . . .
4.4 Mơ hình tổng hợp nhãn . . . . . . .
4.5 Mơ hình cuối . . . . . . . . . . . .

4.6 Bảng tham số pre-trained PhoBERT
4.7 Kết quả thực nghiệm . . . . . . . .
4.8 Thảo luận kết quả . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

Kết luận và hướng mở rộng đề tài

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.


.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.


.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.


.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.


.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

37

Tài liệu tham khảo

39

vi


Danh sách hình vẽ
1.1
1.2


Ví dụ về bài tốn nhận dạng thực thể trong văn bản . . . . . . . . . . . . . . .
Các vấn đề phương pháp Weak Supervision giải quyết . . . . . . . . . . . . . .

2.1
2.2
2.3
2.4
2.5
2.6
2.7

Nơ-ron sinh học . . . . . . . . . . . . . . . . . . . . .
Perceptron . . . . . . . . . . . . . . . . . . . . . . . .
Một số hàm kích hoạt . . . . . . . . . . . . . . . . . .
Kiến trúc cơ bản mơ hình ANN . . . . . . . . . . . . .
Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái
Ví dụ về mơ hình HMM . . . . . . . . . . . . . . . .
Phương pháp Weak Supervision . . . . . . . . . . . .

.
.
.
.
.
.
.

6
7

8
8
9
10
12

3.1
3.2
3.3
3.4
3.5
3.6
3.7

Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến Machine Learning Representation Learning . . . . . . . . . . . . . . . . . . . . .
Kiến trúc cơ bản của mô hình học sâu trong bài tốn NER [11] . . . . . . . . .
Mơ hình tổng hợp nhãn từ crownsourcing . . . . . . . . . . . . . . . . . . . .
Data programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình weak supervision với data programming . . . . . . . . . . . . . . . .
Mơ hình tổng hợp nhãn HMM [14] . . . . . . . . . . . . . . . . . . . . . . . .
Một số hướng tiếp cận khác liên quan đến phương pháp Weak Supervision . .

13
15
17
18
19
20
21


4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8

Mơ hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Đánh giá hiệu suất các label function với chỉ số Precision, Recall và F1
Đánh giá hiệu suất các label function với chỉ số Overlap . . . . . . . .
Đánh giá hiệu suất các label function với chỉ số Conflict . . . . . . .
Bước xây dựng tập huấn luyện với mơ hình tổng hợp nhãn . . . . . . .
Mô hình tổng hợp nhãn với HMM . . . . . . . . . . . . . . . . . . .
Quy trình huấn luyện pre-trained model PhoBERT . . . . . . . . . .
Kiến trúc và thơng số cụ thể mơ hình PhoBERT . . . . . . . . . . . .

23
28
28
29
30
32
32
33

vii

.

.
.
.

.
.
.
.
.
. .
. .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

1
2


Danh sách bảng
4.1
4.2
4.3
4.4
4.5

Bảng phân loại phương pháp xây dựng label function . . . . . . . . . . . . . .
Bảng tham số pre-trained model PhoBERT . . . . . . . . . . . . . . . . . . .

Bảng chi tiết thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng kết quả thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng kết quả chi tiết precision, recall và F1 của thí nghiệm 1 theo từng loại thực
thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

viii

25
34
35
35
36


Chương 1
Giới thiệu đề tài
1.1

Giới thiệu đề tài

Nhận dạng thực thể trong văn bản (Named Entity Recognition - NER) là một
trong những tác vụ được dùng rất nhiều trong xử lý ngôn ngữ tự nhiên nhằm
xác định và phân loại một chuỗi trong một đoạn văn bản thuộc về tên người, tổ
chức, vị trí ... đã được định nghĩa trước.

Hình 1.1: Ví dụ về bài tốn nhận dạng thực thể trong văn bản

Tác vụ NER thường được dùng làm bước đầu tiên trong các bài tốn khác
như rút trích thơng tin, hệ thống hỏi đáp, trích xuất quan hệ... Năm 1996, việc
đánh giá tác vụ NER lần đầu tiên được tổ chức bởi Grishman và Sundheim tại

hội thảo quốc tế Sixth Message Understanding Conference. Sau đó hàng loạt
các cơng trình nghiên cứu được công bố, khởi đầu với các hướng tiếp cận thơ sơ
chẳng hạn như xây dựng mơ hình dựa trên các luật thủ công đến các hướng tiếp
1


cận mang lại hiệu quả cao hơn như feature-engineering, máy học và sau đó với
sự bùng nổ của học sâu (deep learning), các mơ hình NER dựa trên học sâu đã
đạt đến mức bão hòa về hiệu suất.
Mặc dù các mơ hình đã đạt được thành tựu vượt trội về hiệu năng, tuy nhiên
tác vụ NER vẫn còn tồn tại nhiều thách thức khi đưa vào ứng dụng thực tế như:
• Ngơn ngữ: hầu hết các mơ hình hiệu suất cao hiện tại đều được huấn luyện
trên tập dữ liệu tiếng Anh, việc chuyển sang ngôn ngữ khác như Tiếng Việt
địi hỏi việc huấn luyện lại mơ hình trên một tập dữ liệu cùng ngơn ngữ.
• Domain: tương tự với thách thức ngơn ngữ, các mơ hình đa phần đều được xây
dựng để xác định các thực thể trong một domain nhất định, khi ứng dụng sang
một domain khác, mô hình phải được huấn luyện lại trên trên cùng domain.
• Nhãn: các phương pháp mang lại hiệu suất cao hiện tại hầu hết đến từ hướng
tiếp cận học có giám sát (supervised learning), nên các mơ hình đều cần một
lượng nhãn rất lớn để huấn luyện.

Hình 1.2: Các vấn đề phương pháp Weak Supervision giải quyết

Khi ứng dụng các mô hình NER vào bài tốn thực tế với ngơn ngữ tiếng Việt,
đa phần ta đều gặp phải đồng thời cả ba thách thức trên, điều này khiến cho các
hệ thống xử lý ngơn ngữ tự nhiên với tiếng Việt có hiệu suất kém hoặc tốn chi
phí cao cho việc gán nhãn.
Để khắc phục các vấn đề trên, Weak Supervision là một trong những giải
pháp được đề xuất bởi các nhà nghiên cứu nhằm giải quyết các vấn đề về thời


2


gian, chi phí và tính khó thay đổi nhãn mà ta vốn luôn gặp phải khi gán nhãn
thủ công.
Từ những khó khăn và thách thức trong thực tế mà ta hay gặp phải trong
bài toán NER đối với tiếng Việt, tác giả quyết định thực hiện nghiên cứu đề tài
"Nhận dạng thực thể với phương pháp Weak Supervision trong văn bản
tiếng Việt".

1.2

Mục tiêu của luận văn

Mục tiêu chính của nghiên cứu này là áp dụng phương pháp weak supervision
để xây dựng một mơ hình nhận dạng thực thể chính xác và hiệu quả trong văn
bản tiếng Việt nhằm cải thiện hiệu suất và chi phí trong bài tốn nhận dạng thực
thể trong văn bản. Cụ thể, các mục tiêu nghiên cứu của luận văn này bao gồm:
• Tìm hiểu bài tốn nhận dạng thực thể trong văn bản, các cơng trình liên quan,
các phương pháp giải quyết bài tốn, ưu và nhược điểm của các phương pháp.
• Nghiên cứu và phân tích các phương pháp weak supervision.
• Triển khai ứng dụng phương pháp weak supervision vào bài toán nhận diện
thực thể trong tiếng Việt.
• Đánh giá và phân tích hiệu năng của mơ hình với tập huấn luyện được sinh ra
từ phương pháp weak supervision.

1.3

Giới hạn đề tài


Đề tài nghiên cứu sẽ có giới hạn như sau:
• Ngơn ngữ: đề tài tập trung vào việc nhận dạng thực thể trong văn bản tiếng
Việt. Sự đa dạng và đặc thù của tiếng Việt trong ngữ nghĩa và cấu trúc câu
đòi hỏi sự tùy chỉnh và xử lý đặc biệt để đạt được kết quả tốt trong nhận dạng
thực thể.

3


• Phương pháp weak supervision: đề tài tập trung vào áp dụng phương pháp
weak supervision trong quá trình nhận dạng thực thể. Phương pháp này cho
phép sử dụng dữ liệu khơng có nhãn chính xác và thơng tin weak supervision
để huấn luyện mơ hình nhận dạng thực thể, giảm bớt cơng sức và chi phí thu
thập và gán nhãn.
• Đánh giá hiệu suất: đề tài sẽ thực hiện đánh giá chi tiết về hiệu suất của mơ
hình nhận dạng thực thể dựa trên weak supervision. Các chỉ số đánh giá như
độ chính xác, độ phủ, độ F1 và các phân tích kết quả sẽ được sử dụng để đánh
giá hiệu quả của mơ hình.
• Domain tập dữ liệu: đề tài sẽ được thí nghiệm trên tập dữ liệu về lĩnh vực bất
động sản. Đây là một lĩnh vực đa dạng và phức tạp, địi hỏi khả năng xử lý
thơng tin địa lý, thông tin về căn hộ, nhà đất, dự án, giá cả, và các thông tin
liên quan khác. Với việc thực hiện thí nghiệm trên một lĩnh vực đặc thù, đề tài
sẽ được gần sát với thực tế, khi nhãn của tập dữ liệu cũng đặc thù và yêu cầu
phải thủ cơng gán nhãn cho tồn bộ tập dữ liệu để xây dựng mơ hình cho bài
tốn.

1.4

Ý nghĩa của luận văn


Ngày nay, các mơ hình xử lý ngơn ngữ càng ngày càng đạt được hiệu năng
vượt bật trong các tác vụ nhờ vào sự phát triển của học sâu. Tuy nhiên khi ứng
dụng những mơ hình này vào các bài toán tiếng Việt, đặc biệt là trong các lĩnh
vực đặc thù, thì hiệu suất của mơ hình bị suy giảm do thiếu nhãn hoặc chi phí
để gán nhãn và xây dựng mơ hình rất cao. Vì vậy, tơi chọn đề tài này với mong
muốn:
• Nâng cao khả năng xử lý ngôn ngữ tự nhiên tiếng Việt: Luận văn này đóng
góp vào việc phát triển các phương pháp và mơ hình nhận dạng thực thể trong
ngơn ngữ tự nhiên tiếng Việt. Việc xử lý và nhận dạng chính xác các thực thể
trong văn bản tiếng Việt có ý nghĩa quan trọng trong các ứng dụng xử lý ngôn
ngữ tự nhiên.
4


• Giảm cơng sức và chi phí gán nhãn cho dữ liệu: Phương pháp weak supervision trong nhận dạng thực thể giúp giảm cơng sức và chi phí trong việc thu
thập dữ liệu nhãn ground truth.
• Đóng góp vào việc xử lý ngôn ngữ tiếng Việt trong lĩnh vực bất động sản:
Việc nhận dạng thực thể trong lĩnh vực bất động sản đóng vai trị quan trọng
trong việc tổ chức thơng tin, tìm kiếm, và phân tích dữ liệu liên quan đến thị
trường bất động sản. Luận văn này cung cấp một phương pháp và mơ hình
nhận dạng thực thể dựa trên weak supervision đối với văn bản bất động sản
tiếng Việt.

1.5

Tóm tắt nội dung

Nội dung của luận văn bao gồm 5 chương:
• Chương 1: GIỚI THIỆU ĐỀ TÀI: Giới thiệu về bài tốn, những vấn đề cịn
tồn đọng và mục tiêu, giới hạn, ý nghĩa của luận văn.

• Chương 2: CƠ SỞ KIẾN THỨC: Nói về cơ sở kiến thức cơ bản đã được sử
dụng trong luận văn như ANN, HMM, phương pháp weak supervision.
• Chương 3: CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Phân tích, đánh
giá các cơng trình nghiên cứu đã có của các tác giả liên quan mật thiết đến bài
toán nhận diện thực thể trong văn bản và phương pháp weak supervision.
• Chương 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ: Trình bày
về thí nghiệm đã tiến hành với phương pháp weak supervision trong văn bản
tiếng Việt với bài tốn nhận diện thực thể.
• Chương 5: KẾT LUẬN VÀ HƯỚNG MỞ RỘNG ĐỀ TÀI: Tổng kết các
đóng góp của luận văn, các vấn đề cịn tồn tại và nói về hướng nghiên cứu
trong tương lai.

5


Chương 2
Cơ sở kiến thức
2.1

Mơ hình Artificial Neural Network - ANN

Mơ hình Artificial Neural Network[2] hay cịn gọi là mạng nơ-ron nhân tạo
là một mơ hình tốn học hay mơ hình tính tốn dựa trên cấu trúc và cách hoạt
động của mạng nơ-ron sinh học ở người và động vật.

Hình 2.1: Nơ-ron sinh học

Một tế bào nơ-ron thường sẽ bao gồm các thành phần chính:
• Dendrite: giúp tế bào nhận tín hiệu từ các tế bào thần kinh khác.
• Soma (thân tế bào): làm nhiệm vụ tổng hợp tất cả các tín hiệu từ các đầu vào.

• Axon: khi tín hiệu tổng hợp đạt đến giá trị ngưỡng, nơ-ron kích hoạt và tín
hiệu được truyền xuống sợi trục đến các nơ-ron khác.
6


• Axon terminals: Điểm kết nối của một tế bào thần kinh với các tế bào thần
kinh khác. Lượng tín hiệu được truyền phụ thuộc vào cường độ (trọng số của
khớp thần kinh) của các kết nối.
Mô phỏng theo cấu tạo của tế bào thần kinh, perceptron là một thành phần
cơ bản trong mạng ANN, nhận các giá trị đầu vào và cho ra một kết quả duy
nhất. Các giá trị đầu vào x1 , x2 , x3 ... có tính quan trọng khác nhau, sẽ lần lượt
được nhân với các trọng số tương ứng w1 , w2 , w3 ... Sau đó được cộng lại ra một
kết quả z. Và cuối cùng z được đưa vào một hàm kích hoạt (activation function)
để tạo ra kết quả cuối cùng y cho perceptron.

Hình 2.2: Perceptron

Chi tiết hơn, cơng thức tính tốn kết quả z:
d

z = ∑ wi xi = wT x

(2.1)

i=0

Để tính được một kết quả cuối cùng, z phải được đưa vào một hàm kích hoạt,
hàm này là một hàm phi tuyến như hàm sigmoid, tanh, ReLU...

7



Hình 2.3: Một số hàm kích hoạt

Mạng nơ-ron nhân tạo là sự kết hợp các tầng perceptron tạo thành mạng
nhiều đa tầng perceptron (multiple-layer perceptron). Một kiến trúc cơ bản của
mơ hình ANN bao gồm:
• Tầng đầu vào (input layer): là tầng nhậ dữ liệu đầu vào của mạng.
• Tầng đầu ra (output layer): là tầng sẽ trả về kết quả sau khi tính tốn của
mạng.
• Tầng ẩn (hidden layer): là tầng nằm giữa tầng đầu vào và tầng đầu ra thể hiện
cho việc suy luận logic của mạng. Một mạng nơ-ron nhân tạo chỉ có 1 tầng
đầu vào và 1 tầng đầu ra nhưng có thể có nhiều tầng ẩn.
Trong mơ hình ANN, ở mỗi nút mạng có thể sử dụng các hàm kích hoạt khác
nhau, tuy nhiên trong thực tế thường chỉ sử dụng một hàm kích hoạt. Ở mỗi
tầng, số lượng nút mạng là bất kỳ, và khơng có giới hạn đối với số lượng tầng
trong mạng.

Hình 2.4: Kiến trúc cơ bản mơ hình ANN

8


2.2

Mơ hình Hidden Markov Models - HMM

Hidden Markov Models hay cịn gọi mơ hình Markov ẩn là một mơ hình
thống kê dựa trên chuỗi Markov. Một chuỗi Markov là một mơ hình cho biết
thơng tin về xác suất của một chuỗi các biến ngẫu nhiên mà các biến này với

giá trị là các trạng thái, ví dụ như trạng thái thời tiết của mỗi ngày như: mưa,
nắng, có mây. Chuỗi Markov mang lại khả năng dự đoán giá trị trạng thái tương
lai trong chuỗi, tất cả những gì quan trọng là trạng thái hiện tại. Các trạng thái
trước trạng thái hiện tại khơng có tác động đến tương lai ngoại trừ thông qua
trạng thái hiện tại. Chẳng hạn như để dự đốn thời tiết ngày mai, ta có thể kiểm
tra thời tiết của ngày hôm nay nhưng ta không được phép xem thời tiết của ngày
hơm qua.

Hình 2.5: Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái

Một chuỗi Markov sẽ bao gồm 3 thành phần:
• Khơng gian trạng thái: là một tập hợp S các trạng thái của một chuỗi Markov.
Ví dụ như S = {mưa, nắng, có mây}
• Ma trận chuyển xác suất (transition probability matrix): là một ma trận A thể
hiện cho xác suất chuyển giữa các trạng thái trong chuỗi Markov.
• Phân phối ban đầu (initial probability distribution): tập hợp xác suất của từng
trạng thái, πi là xác suất mà chuỗi Markov có thể bắt đầu với trạng thái i.
9


Mơ hình Markov ẩn khơng trực tiếp tính tốn trên các trạng thái như chuỗi
Markov, mà tính tốn thơng qua các chuỗi các sự kiện quan sát được. Ví dụ như
trong thực tế ta thường khơng thể nhìn thấy trực tiếp các thực thể trong câu, mà
ta chỉ thấy thể hiện qua các từ. Một mơ hình Markov ẩn sẽ bao gồm các thành
phần:
• Các quan sát: là một chuỗi các quan sát O = (o1 , o2 , ..., on ) thu thập dựa trên
quan sát thực tế.
• Chuỗi Markov ẩn: là một chuỗi Markov nhưng không quan sát được trong
thực tế.
• Xác suất phụ thuộc trạng thái (emission probability): biểu diễn cho xác suất

một quan sát ot đến từ trạng thái ẩn st , tập hợp tất cả các xác suất này là
B = bi (oi ).

Hình 2.6: Ví dụ về mơ hình HMM

Thơng thường, mơ hình Markov ẩn được phân loại thành ba vấn đề cơ bản:
likelihood, decoding và learning.
Likelihood (The Forward Algorithm): với HMM λ = (A, B) và một chuỗi
quan sát O, cần xác định likelihood P(O|λ ).
Decoding: Nhận vào chuỗi quan sát O và một mơ hình HMM λ = (A, B),
tìm ra chuỗi trạng thái ẩn tốt nhất Q
Learning: Nhận vào chuỗi quan sát O và một tập các trạng thái trong HMM,
học các thơng số của mơ hình HMM A và B.
10


2.3

Phương pháp Weak Supervision

Học giám sát yếu (Weak Supervision) là một nhánh của học máy trong đó
các nguồn nhiễu, hạn chế hoặc khơng chính xác được sử dụng để cung cấp thông
tin giám sát nhằm gắn nhãn một lượng lớn dữ liệu huấn luyện trong việc cài đặt
học có giám sát. Cách tiếp cận này giảm bớt gánh nặng của việc thu thập các tập
dữ liệu được gắn nhãn bằng tay, vốn có thể tốn kém hoặc khơng thực tế. Thay
vào đó, các nhãn yếu rẻ tiền được sử dụng với sự hiểu biết rằng chúng khơng
hồn hảo, nhưng vẫn có thể được sử dụng để tạo ra một mơ hình dự đốn có
hiệu suất tốt.
Một trong những kết quả chính của học giám sát yếu đó việc tạo ra các nhãn
yếu. Và data programming[3] là một phương pháp nổi tiếng đã được đề xuất để

hỗ trợ việc tạo ra nhãn yếu. Bằng việc sử dụng kết hợp giữa lập trình và các
heuristic, data programming có thể gán nhãn cho tồn bộ tập dữ liệu. Sau khi có
được nhãn từ các nguồn heuristic khác nhau, label model (aggregation model)
là mô hình được sử dụng nhằm tổng hợp ra nhãn yếu. Cuối cùng, dựa vào tập
dữ liệu với nhãn yếu này, một mơ hình với sức mạnh tổng qt hóa - end model,
được huấn luyện trên các nhãn yếu với mục tiêu có thể ứng dụng trong các tác
vụ thực tế.
Tóm lại, có ba bước chính để hiện thực weak supervision trên một tập dữ
liệu:
1. Viết các label function (lf): một label function có thể là một function bất kỳ
được viết bằng một ngơn ngữ lập trình, nhận vào một mẫu dữ liệu và sử dụng
một luật, heuristic, logic... để sinh ra nhãn cho mẫu dữ liệu đó.
2. Tổng hợp các nhãn yếu với label model: giả sử ta có m dịng dữ liệu và n label
function, khi thực thi thì tất cả có m × n nhãn được sinh ra (với điều kiện một
label function sẽ sinh ra duy nhất một nhãn cho một mẫu dữ liệu). Như vậy,
cần phải tổng hợp kết quả của n label function để cuối cùng chỉ có một nhãn
cho một mẫu dữ liệu. Mơ hình Majority Voting là một trong những cách tổng
hợp nhãn đơn giản nhất. Tuy nhiên, có một số mơ hình khác tốt hơn được đề
xuất để học được các cấu trúc ẩn giữa các label function mà không cần đến
11


nhãn như hidden markov model.
3. Huấn luyện end model: kết quả của label model được sử dụng như là tập huấn
luyện nhằm để tinh chỉnh các mơ hình cuối. Những mơ hình này thường sử
dụng các mơ hình học sâu như LSTM, GRU, BERT... với sức mạnh tổng quát
hóa vốn rất hiệu quả trên các dữ liệu nhiễu, sẽ được huấn luyện và được sử
dụng cho các tác vụ thực tế.

Hình 2.7: Phương pháp Weak Supervision


12


Chương 3
Cơng trình nghiên cứu liên quan
Nhận dạng thực thể trong văn bản là một tác vụ đã xuất hiện từ lâu và đạt
được rất nhiều thành tựu trong những cơng trình nghiên cứu đến từ các hướng
tiếp cận khác nhau:

Hình 3.1: Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến Machine
Learning Representation Learning

3.1

Hướng tiếp cận rule based

Các hệ thống NER dựa trên knowledge based hay rule based không cần các
dữ liệu huấn luyện do những hệ thống này sử dụng nguồn về từ vựng và các
13


tri thức hay tập luật được thu thập của một lĩnh vực. Chẳng hạn như KNOWITALL[1] là một hệ thống tự động hóa q trình trích xuất thơng tin từ các tập
hợp lớn trên Web một cách không giám sát, độc lập với lĩnh vực và có khả năng
mở rộng. KNOWITALL tập trung vào một vấn đề con của việc trích xuất thơng
tin, đó là xây dựng danh sách các thực thể được đặt tên được tìm thấy trên Web,
chẳng hạn như các trường hợp của lớp City hoặc lớp Film. Một trong những
kỹ thuật được sử dụng trong hệ thống này là pattern matching, dựa trên những
pattern được định nghĩa trước, hệ thống sẽ tự động trích xuất ra thực thể tương
ứng. Ví dụ như pattern “NP1 such as NPList2” chỉ ra rằng với mỗi một phần tử

cụm danh từ (NP) nằm trong NPList2 sẽ thuộc về cùng một loại thực thể của
NP1. Khi thực thi pattern trên câu "We provide tours to cities such as Paris,
London, and Berlin”, KNOWITALL sẽ trích xuất ra được 3 thực thể thành phố
gồm Paris, London và Berlin.
Phương pháp này sẽ hoạt động tốt nếu tập từ vựng hay luật được thu thập
được vét cạn trong lĩnh vực sử dụng nhưng sẽ không hiệu quả số lượng từ vựng
và luật không đủ bao phủ. Những hệ thống này sẽ có precision cao nhưng recall
thấp do từ vựng thường giới hạn trong lĩnh vực hay ngơn ngữ cụ thể. Ngồi ra,
để xây dựng và duy trì các nguồn dữ liệu tri thức này cần phải có sự hỗ trợ từ
các chuyên gia trong lĩnh vực.

3.2

Hướng tiếp cận feature based

Hướng tiếp cận feature based[?] (dựa trên đặc trưng) với học có giám sát là
một hướng tiếp cận cải tiến hơn so với rule based, NER được chuyển đổi thành
một tác vụ phân loại từng từ hay một chuỗi thuộc về một loại thực thể nào đó.
Với các mẫu được gán nhãn, các đặc trưng được thiết kế kỹ lưỡng để có thể biểu
diễn được cho tất cả dữ liệu trong tập huấn luyện.
Từ đó, các thuật toán học máy (machine learning) được sử dụng như là mơ
hình để học các pattern trong dữ liệu nhằm phân loại thực thể của từng từ.
Feature engineering là một tác vụ quan trọng trong hướng tiếp cận này, văn bản
biểu diễn sẽ được biểu diễn thành các vector thông qua việc chọn lựa đặc trưng,
chẳng hạn như các từ nào được viết hoa ở chữ cái đầu tiên sẽ mang giá trị 1,
14


×