Tải bản đầy đủ (.pdf) (146 trang)

Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.47 MB, 146 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC

Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH



NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Văn Vinh
2. PGS.TS. Nguyễn Lê Minh

Hà Nội - 2019


Lời cam đoan
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện
dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh.
Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong
luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.

Trần Hồng Việt


TÓM TẮT
Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên
quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong
ngơn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và
Ney, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.
Bên cạnh đó, do các ngơn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác
nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mơ hình hóa chính
xác trong q trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp
xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một
số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ
cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã
qua thực hiện tiền xử lý quá trình sắp xếp lại.

Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong
một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc
phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận
án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê
Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".
Luận án tập trung giải quyết các tồn tại đã nêu thơng qua bài tốn: sắp
xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất
có thể với câu được dịch trong ngơn ngữ đích. Các đề xuất này thực hiện như
bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để
đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.
Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ
thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT
và PBSMT.
Đóng góp của luận án cụ thể như sau:
2


• Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựa

chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp
dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch
máy Anh-Việt.
• Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự

động. Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề học
máy trong việc dự đốn chính xác vị trí các thành phần của luật để đốn
thứ tự đúng các câu trong ngơn ngữ nguồn tương ứng với thứ tự câu ở
ngôn ngữ đích. Với hai đề xuất gồm:
– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử
dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể

là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con
trên cây phân tích phụ thuộc biểu diễn câu đầu vào.
– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc
và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án
đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán
đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào
hệ dịch để nâng cao chất lượng dịch.
• Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú

pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối
với câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các
phương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích
cú pháp phụ thuộc, đặc biệt với ngơn ngữ tiếng Việt.
Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ
thuộc, dịch máy thống kê dựa trên cụm từ.

3


Mục lục

Lời cảm ơn

8

Danh mục các chữ viết tắt

9

Danh sách hình vẽ


10

Danh sách bảng

13

Lời mở đầu

16

1 Tổng quan các vấn đề liên quan luận án

22

1.1

Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . .

22

1.2

Dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . . . . .

25

1.2.1

Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . .


25

1.2.2

Cấu trúc hệ thống dịch máy . . . . . . . . . . . . . . . . .

27

1.3

Dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . .

29

1.4

Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . .

31

1.5

Vấn đề đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . .

35

1.5.1

Sự khác nhau về thứ tự từ giữa các ngôn ngữ . . . . . . .


35

1.5.2

Đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . .

36

1.6

Bài toán đảo trật tự từ trong mơ hình dịch máy dựa trên cụm từ 37
1.6.1

Mơ hình dịch máy dựa trên cụm từ . . . . . . . . . . . .

37

1.6.2

Bài toán đảo trật từ tự dựa trên tiền xử lý . . . . . . . .

39

4


1.7

1.8


Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . .

43

1.7.1

Sử dụng các luật thủ công cho vấn đề tiền xử lý . . . . .

44

1.7.2

Sử dụng các luật tự động cho vấn đề tiền xử lý . . . . . .

45

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự
từ trong dịch máy thống kê
2.1

48

Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch
máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


48

2.2

Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . .

50

2.3

Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê . . . . . .

52

2.3.1

Phân tích hiện tượng ngơn ngữ và vấn đề sắp xếp lại . .

52

2.3.2

Luật chuyển đổi trật tự từ . . . . . . . . . . . . . . . . . .

55

2.3.3

Tập các luật đảo trật tự từ thủ công . . . . . . . . . . . .


57

2.3.4

Tập dữ liệu và cài đặt thực nghiệm . . . . . . . . . . . . .

59

2.3.5

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . .

62

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.4

3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ
phân lớp quan hệ

65

3.1

Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ . .

65


3.1.1

Vấn đề tiền xử lý dựa trên phân lớp . . . . . . . . . . . .

66

3.1.2

Đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

3.1.3

Mơ hình phân lớp . . . . . . . . . . . . . . . . . . . . . . .

70

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.2.1

Tập dữ liệu và cấu hình thực nghiệm . . . . . . . . . . . .

73

3.2.2


Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . .

74

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.2

3.3

5


4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ
cảnh

79

4.1

Thông tin ngữ cảnh từ word embedding . . . . . . . . . . . . . .

79

4.2

Mơ hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ


4.3

thuộc cho dịch máy thống kê . . . . . . . . . . . . . . . . . . . . .

81

4.2.1

Đặc trưng cho phân lớp và huấn luyện mơ hình . . . . .

82

4.2.2

Khung làm việc cho đảo trật tự từ . . . . . . . . . . . . .

87

Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp
thông tin ngữ cảnh . . . . . . . . . . . . . . . . . . . . . . . . . .

90

4.4

Phân tích và thảo luận . . . . . . . . . . . . . . . . . . . . . . . .

93


4.5

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch
máy Anh-Việt

96

5.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

5.2

Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . .

97

5.2.1

Bài tốn phân tích cú pháp phụ thuộc . . . . . . . . . . .

98

5.2.2


Định dạng dữ liệu theo chuẩn CoNLL . . . . . . . . . . .

98

5.2.3

Sử dụng tập nhãn cho cú pháp phụ thuộc . . . . . . . . . 100

5.3

Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng
dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3.1

Phương pháp phân tích lỗi . . . . . . . . . . . . . . . . . . 102

5.3.2

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.3.3

Phân tích nguyên nhân gây lỗi đảo trật tự từ . . . . . . . 108

5.4

Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc . 110

5.5


Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Kết luận

114

6


Danh mục cơng trình khoa học của tác giả liên quan đến luận án117
Tài liệu tham khảo

119

7


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn
Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và
tạo những điều kiện tốt nhất cho tơi trong q trình học tập và nghiên cứu.
Tơi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô
giáo ở Bộ mơn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp
đỡ tơi trong q trình học tập và nghiên cứu ở trường.
Tôi xin gửi cảm ơn đến GS.TS. Nguyễn Thanh Thủy, PGS. TS. Lê Sỹ
Vinh, PGS.TS. Nguyễn Phương Thái, PGS.TS. Phan Xuân Hiếu, TS. Trần
Quốc Long, TS. Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc
gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội),

TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội), TS. Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễn
thơng), TS. Nguyễn Việt Anh (Viện Cơng nghệ thơng tin, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam) các Thầy/Cơ đã có những góp ý chỉnh sửa để tơi
hồn thiện luận án.
Tơi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộ
mơn Khoa học máy tính (Khoa Cơng nghệ thơng tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình
đã ln ủng hộ, chia sẻ, động viên và khích lệ tơi học tập, nghiên cứu.

8


Danh mục các chữ viết tắt
MT

Machine Translation (Dịch máy)

NLP

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

POS-tags Part Of Speech tags (Nhãn từ loại)
SMT

Statistical Machine Translation (Dịch máy thống kê)

PBSMT


Phrase-Based Statistical Machine Translation
(Dịch máy dựa trên cụm từ)

NMT

Neural Machine Translation (Dịch máy mạng nơ-ron)

BLEU

BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu)

SVM

Support Vector Machine (Máy véc-tơ hỗ trợ)

ME

Maximum Entropy (Độ hỗn loạn cực đại)

WEKA

Waikato Environment for Knowledge Analysis
(Môi trường Waikato cho phân tích tri thức)

9


Danh sách hình vẽ
1.1


Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau. . .

23

1.2

Kiến trúc cơ bản của hệ thống dịch máy thống kê . . . . . . . .

27

1.3

Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 28

1.4

Hệ thống dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . .

30

1.5

Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ.

33

1.6

Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL. . .


33

1.7

Ví dụ về mơ hình dịch máy dựa trên cụm từ cho dịch từ ngôn
ngữ tiếng Pháp sang tiếng Anh. . . . . . . . . . . . . . . . . . . .

37

1.8

Kiến trúc của mô hình dịch dựa trên cụm từ . . . . . . . . . . .

38

1.9

Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ. 40

1.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền
xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

1.11 Kiến trúc hệ thống trong luận án. . . . . . . . . . . . . . . . . . .

43

2.1


Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt. . . . . . . . . .

49

2.2

Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh. 50

2.3

Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt. 51

2.4

Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sử

2.5

dụng công cụ phân tích của Stanford. . . . . . . . . . . . . . . .

51

Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt. . . . . . . . . . .

53

10



2.6

Ví dụ về hiện tượng ngơn ngữ trong cụm danh từ với amod và
det. Trong ví dụ này, danh từ “computer” được đảo với tính từ
“personal”

2.7

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Ví dụ về hiện tượng ngơn ngữ trong cụm tính từ với advmod và
det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.8

55

Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags,
các nhãn phụ thuộc và gióng hàng từ. . . . . . . . . . . . . . . .

2.9

54

55

Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếp
lại thứ tự từ trong câu. . . . . . . . . . . . . . . . . . . . . . . . .

57


2.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắp
xếp lại thứ tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

2.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãn
phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

2.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếng
Việt sử dụng tiền xử lý trên cây cú pháp phụ thuộc. . . . . . . .

61

3.1

Ví dụ về mơ hình học máy dựa trên phân lớp. . . . . . . . . . .

66

3.2

Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc. 67

3.3

Cây phân tích phụ thuộc tiếng Anh. . . . . . . . . . . . . . . . .


3.4

Thuật tốn trích xuất tự động các luật sử dụng cây cú pháp phụ
thuộc các câu nguồn và cặp gióng hàng từ . . . . . . . . . . . . .

3.5

4.1

72

Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu song
ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.7

72

Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất
tự động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6

68

76

Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệu
song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


77

Một ví dụ về về biểu diễn word embedding . . . . . . . . . . . .

80

11


4.2

Ví dụ về mơ hình phân lớp quan hệ. . . . . . . . . . . . . . . . .

4.3

Mơ hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạng

82

nơ-ron với cây phân tích phụ thuộc . . . . . . . . . . . . . . . . .

83

4.4

Các đặc trưng cho quan hệ head-child trong mơ hình phân lớp .

84

4.5


Các đặc trưng cho quan hệ sibling trong mơ hình phân lớp . . .

85

4.6

Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệu
song ngữ Anh-Việt. . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.7

Thuật tốn xây dựng mơ hình huấn luyện cho mạng. . . . . . .

88

4.8

Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn. .

89

4.9

Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp. .

90


5.1

Mơ hình bài tốn tổng qt về phân tích cú pháp phụ thuộc . .

98

5.2

So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh. . . . 103

5.3

Mô tả phương pháp phân tích lỗi. . . . . . . . . . . . . . . . . . . 104

5.4

Kết quả đánh giá dựa trên độ đo Kendall’s tau . . . . . . . . . . 107

5.5

Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếng
Việt sử dụng cơng cụ phân tích cú pháp phụ thuộc JPTDP. . . 109

5.6

Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây được
sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . 110

5.7


Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh
dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ
liệu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.8

Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịch
trên kho ngữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . 112

5.9

Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) . . . . 134

5.10 Thống kê các ngơn ngữ với từ loại Tính từ, Danh từ . . . . . . . 135
5.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ . . . 136
5.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ . . . . . 136

12


5.13 Phép phi chiếu trong ngôn ngữ Latinh . . . . . . . . . . . . . . . 137
5.14 Dịch từ ngôn ngữ tiếng Đức sang ngôn ngữ tiếng Anh . . . . . . 137
5.15 Dịch từ ngôn ngữ tiếng Trung sang ngôn ngữ tiếng Anh . . . . . 138
5.16 Dịch từ ngôn ngữ tiếng Hàn sang ngôn ngữ tiếng Anh . . . . . . 139
5.17 Dịch từ ngôn ngữ tiếng Ả rập sang ngôn ngữ tiếng Anh . . . . . 140
5.18 Mô tả các luật sắp xếp lại . . . . . . . . . . . . . . . . . . . . . . 141

13



Danh sách bảng
2.1

Phân tích cú pháp phụ thuộc cho câu tiếng Việt biểu diễn dưới
dạng chuẩn CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . .

52

2.2

Thống kê ngữ liệu song ngữ Anh-Việt . . . . . . . . . . . . . . .

62

2.3

Thực nghiệm sử dụng các luật thủ công cho kho ngữ liệu song
ngữ Anh-Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

3.1

Ví dụ về các luật và đảo trật tự từ trong câu nguồn. . . . . . . .

69

3.2

Tập đặc trưng được sử dụng trong dữ liệu huấn luyện từ kho

ngữ liệu song ngữ Anh – Việt . . . . . . . . . . . . . . . . . . . .

3.3

71

Thống kê số luật tự động trích xuất theo phương pháp sử dụng
bộ phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

3.4

Kích cỡ bảng cụm từ . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.5

Đánh giá kết quả trên hệ thống dịch máy Anh- Việt . . . . . . .

78

4.1

Hệ thống thực nghiệm trên kho ngữ liệu song ngữ Anh-Việt . .

92

4.2


Đánh giá hệ thống cho chiều dịch Anh- Việt . . . . . . . . . . . .

93

5.1

Các trường dữ liệu theo định dạng của CoNLL cho ngôn ngữ
tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2

99

Biểu diễn theo định dạng chuẩn CoNLL cho câu đầu vào tiếng
Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.3

Nhãn cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5.4

Nhãn mệnh đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14


5.5

Nhãn chức năng cú pháp . . . . . . . . . . . . . . . . . . . . . . . 143


5.6

Nhóm các nhãn đa ngôn ngữ . . . . . . . . . . . . . . . . . . . . . 144

15


Mở đầu
1. Tính cấp thiết của luận án
Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhân
tạo. Đã có nhiều nỗ lực để giải quyết vấn đề này từ những giai đoạn đầu tiên
khi sử dụng máy tính. Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn
bộ văn bản với chất lượng cao vẫn còn là thách thức. Các vấn đề dịch thuật có
liên quan đến nhiều ngơn ngữ và các vấn đề văn hóa trở nên khó khăn.
Dịch máy dựa trên cách tiếp cận thống kê và gần đây dịch máy mạng nơ-ron
đang là một hướng phát triển tiềm năng bởi những ưu điểm so với các cách
tiếp cận khác. Nhiều sản phẩm thương mại được sử dụng rộng rãi trên thế giới
(hệ dịch của Google1 , M icrosof t2 . . .).
Các mơ hình dịch máy được sử dụng nhiều nhất là dịch máy thống kê dựa
trên cụm từ (PBSMT) (Koehn và cộng sự, 2003; Och và Ney, 2004) [59, 89] và
dịch máy nơ-ron (Neural MT) (Bahdanau và cộng sự, 2014; Sutskever và cộng
sự, 2014; Cho và cộng sự, 2014) [4, 20, 98]. Trong thập kỷ qua, bên cạnh dịch
máy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi
trong quá trình dịch, gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng lớn
và trong nhiều trường hợp đã vượt qua dịch máy dựa trên cụm từ (Bentivogli
và cộng sự, 2016; Junczys-Dowmunt và cộng sự, 2016; Chung và cộng sự, 2016;
Shterionov và cộng sự, 2017) [9, 21, 48, 94]. Các ưu điểm của dịch máy nơ-ron
là: dịch trôi chảy hơn, sát n đôi
cố định

 Các câu khác nhau cùng diễn đạt nghĩa giống nhau.
khơng
vị trí
chặt
chẽ.
 Các
câucó
khác
nhau
cùng
diễn đạt nghĩa giống nhau.
Ví dụ: các câu trong tiếng Đức
Víchuyển
dụ: các câu
Luật
đổitrong
thủ tiếng
côngĐức
Der Mann gibt der Frau das Buch.
Mann gibt
Một số Der
hệ thống
dịch der
sử Frau
dụng das
các Buch.
luật chuyển đổi thủ công và áp dụng các
Das Buch gibt der Mann der Frau.
Das Buch
gibtbài

dertoán
Mann
Frau.
luật chuyển
cho
sắpder
xếp
lại trật tự từ.
Derđổi
Frau
gibt der
Mann
das
Buch.
Der Frau gibt der Mann das Buch.
Vị trí máy
của các
từ cặp
có nội
dungngữ
cho phép
câu. Anh
1. Dịch
cho
ngơn
tiếngnhấn
Đứcmạnh
– tiếng
 Vị trí của các từ có nội dung cho phép nhấn mạnh câu.
 Áp

Vaidụng
trò của
từ (chủ
ngữ, các
tân bước:
ngữ, tân ngữ gián tiếp) có thể
các cụm
quy từ
tắcdanh
sắp xếp
lại theo
 Vai trị của cụm từ danh từ (chủ ngữ, tân ngữ, tân ngữ gián tiếp) có thể
nắm bắt hình thái câu.
nắm bắt hình thái câu.
4136
4


Phép phi chiếu:
Phép phi chiếu có thể phản ánh qua các phụ thuộc trong phân tích cú pháp
phụ thuộc.

 Câu khơng phân rã thành các cụm từ liên tiếp

Hình 5.13: Phép phi chiếu trong ngơn ngữ Latinh

 Ví dụ ngơn ngữ Latin
- NP meam ... canitiem = my old-age
- NP ista ... gloria = that glory
Các ngôn ngữ khác nhau có trật tự từ khác nhau:

- Với bất kỳ ngơn ngữ nguồn nào, có ngơn ngữ đích tương ứng.
- Một số ngơn ngữ có liên quan chặt chẽ nhưng cũng có những ngơn ngữ khơng
có vị trí chặt chẽ.
1.2. Bài toán sắp xếp lại trật tự từ
Trong dịch máy thống kê, vấn đề đảo trật tự từ là một vấn đề khó, đơn giản
vì những ngơn ngữ khác nhau sẽ có thứ tự từ khác nhau. Một cách hình thức, có
thể xem bài tốn dịch máy thống kê gồm hai bài tốn con: đốn định tập hợp từ
Hình 5.14: Dịch từ ngôn ngữ tiếng Đức sang ngôn ngữ tiếng Anh

trong bản dịch và xác định thứ tự của các từ dịch (bài toán sắp xếp lại). Dịch máy
thống kê– dựa
cụmcụm
[1],động
[2] làtừ:
mơchuyển
hình dịch
tốt nhờtớiviệc
sắpban
xếpđầu.
lại các
Với trên
bất cứ
độngmáy
từ chính
vị trí
cụm từ - mà ngữ cảnh và khoảng cách giữa các cụm là gần.
– Trong các mệnh đề con: chuyển (động từ chính) trực tiếp sau bổ ngữ.
Mơ hình dịch máy thống kê dựa trên cụm mà khoảng cách giữa các cụm xa
– Trong kỳ mệnh đề: chuyển chủ ngữ trực tiếp lên từ chính.
nhau vẫn được xem như một thách thức. Để giải quyết thách thức, trong những

Chuyển
lên cứu
phíatheo
trước
độngtích
từ. hợp cú pháp câu vào dịch
năm gần– đây
nhiềucác
nỗ từ
lựcphụ
nghiên
hướng

thống kê– đã
được áp
[3]: kếtnguyên
hợp cụm
tổ động
hợp cútừpháp
câu thể.
vào dịch
Chuyển
cácdụng,
độngnhư
từ không
thểtừ,sau
nguyên
máy thống kê. Bên cạnh đó, ngồi mức cụm từ, một số cơng trình cũng áp dụng
– Chuyển các phủ định ở mức mệnh đề sau động từ nguyên thể.
5

2. Dịch máy cho cặp ngôn ngữ tiếng Trung – tiếng Anh
137


Hình 5.15: Dịch từ ngơn ngữ tiếng Trung sang ngơn ngữ tiếng Anh

Sắp xếp lại dựa trên phân tích cú pháp thành phần theo các bước.
– PP sửa đổi VP được di chuyển ra phía sau.
– Cụm NP chỉ thời gian sửa đổi VP được di chuyển ra sau.
– PP và mệnh đề quan hệ (CP) sửa đổi NP được di chuyển ra sau.
– postpositions được di chuyển ở phía trước cụm NP chỉ tiền tệ
3. Dịch máy cho cặp ngơn ngữ tiếng Hàn – tiếng Anh
Sử dụng phân tích cú pháp phụ thuộc, nhóm các động từ phụ thuộc (VB*)
– Các thành phần của động từ (prt)
– Trợ động từ (aux)
– Trợ động từ bị động (auxpass)
– Phủ định (neg)
– Động từ phản thân (self)

138


Hình 5.16: Dịch từ ngơn ngữ tiếng Hàn sang ngơn ngữ tiếng Anh

Đảo ngược vị trí của họ và dịch chuyển đến cuối câu.
Sắp xếp trật tự từ được áp dụng tương tự với các ngôn ngữ tiếng Nhật,
tiếng Hindi, tiếng Urdu và tiếng Thổ Nhĩ Kỳ.
4 Dịch máy cho cặp ngôn ngữ tiếng Ả rập – tiếng Anh
Ba kiểu sắp xếp lại trật tự từ gồm:
– Các chủ đề về động từ có thể là: (a.) pro-dropped, (b.) pre-verbal,

or (c.) post-verbal.
– Các từ bổ nghĩa tính từ thường theo các danh từ tương ứng
– Tách và sắp xếp lại book + his → his book
Sử dụng các luật tự động cho vấn đề tiền xử lý
Kiểu của các luật:
• Ngữ cảnh điều kiện: ràng buộc tới 5 điều kiện, các điều kiện gồm:

- Tìm kiếm POS tag (T) / nhãn cú pháp (L).
- Của nút hiện thời (n), nút cha (p), con thứ nhất, con thứ hai, . . . .

139


Hình 5.17: Dịch từ ngơn ngữ tiếng Ả rập sang ngơn ngữ tiếng Anh
• Hành động: hốn vị. Ví dụ như (1,2,4,3) là sắp xếp lại vị trí thứ 3 và 4

của con thứ 4.
Thuật tốn học:
• Áp dụng thuật toán tham lam cho việc học các luật sắp xếp.

Bước 1 : Khởi tạo với một tập luật rỗng, kho ngữ liệu song ngữ chưa được
sắp xếp.
Bước 2 : Xem xét tất cả các luật có thể.
Bước 3 : Lấy một luật có lỗi sắp xếp là ít nhất. chọn một trong những lỗi
làm lại sắp xếp lại nhiều nhất
Bước 4 : Bổ sung vào tập luật, áp dụng cho tất cả các câu.
Bước 5 : Lặp lại bước 2, cho tới khi dừng.
• Đánh giá qua mơ hình gióng hàng từ IBM Model 1

- Các mơ hình IBM cao hơn có xu hướng đơn điệu(monotone bias).

- Độ đo: số các liên kết gióng hàng chéo.
140


Hình 5.18: Mơ tả các luật sắp xếp lại

2. Tập nhãn cho cú pháp phụ thuộc
Kho ngữ liệu tiếng Việt (VietTreebank)
Đối với tiếng Việt, việc xây dựng treebank cũng đã có một số kết quả nhất định.
Với tiếng Việt, treebank được nghiên cứu ứng dụng trong khn khổ VLSP và
có tên là VietTreebank [42]. Mục tiêu của Viettreebank là xây dựng được lược
đồ giải thích cú pháp với hơn 10.000 câu. Tập nhãn của Viettreebank gồm có:
• Tâp nhãn từ loại: các thơng tin về từ có thể được chứa trong nhãn từ

loại bao gồm: từ loại cơ sở (danh từ, động từ, tính từ. . . ), thơng tin hình
thái (số ít, số nhiều, thì, ngơi. . . ), thơng tin về phân loại con (ví dụ động
từ đi với danh từ, động từ đi với mệnh đề. . . ), thông tin ngữ nghĩa, hay
một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ
loại chỉ chứa thông tin về từ loại cơ sở mà khơng bao gồm các thơng tin
như hình thái, phân loại con . . .
• Tập nhãn các thành phần cú pháp: tập nhãn chứa các nhãn mô tả

các thành phần cú pháp cơ bản là cụm từ và mệnh đề. Nhãn thành phần
141


Bảng 5.3: Nhãn cụm từ
STT

Tên


Chú thích

1

NN

Cụm danh từ

2

VP

Cụm động từ

3

AP

Cụm tính từ

4

RP

Cụm phụ từ

5

PP


Cụm giới từ

6

QP

Cụm từ chỉ số lượng

7

MDP

Cụm từ hình thái

8

WHNP

Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.)

9

WHAP

Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.)

10

WHRP


Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v.)

11

WHPP

Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)
Bảng 5.4: Nhãn mệnh đề

STT

Tên

Chú thích

1

S

Câu trần thuật (khẳng định hoặc phủ định)

2

SQ

Câu hỏi

3


SBAR

Mệnh đề phụ (bổ nghĩa cho danh từ, động từ và tính từ)

cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương
sống của cây cú pháp.
• Tập nhãn chức năng cú pháp: Nhãn chức năng cú pháp được gán cho

các thành phần chính trong câu như chủ xác định các loại quan hệ ngữ
pháp cơ bản sau đây:
– Chủ-vị
– Đề-thuyết
– Phần chêm
142


– Bổ ngữ
– Phụ ngữ
– Sự kết hợp
Tập nhãn đa ngôn ngữ Tập nhãn đa ngôn ngữ được xây dựng dựa vào hai
bước chính:
- Thêm hoặc tinh chỉnh các quan hệ trong tập nhãn phụ thuộc tiếng Anh
để có thể áp dụng tốt hơn với nhiều ngôn ngữ.
- Bỏ bớt một số đặc tính đặc trưng của tiếng Anh để phù hợp với nhiều
tập ngôn ngữ so với tập nhãn phụ thuộc tiếng Anh ban đầu.
Bảng 5.5: Nhãn chức năng cú pháp
STT

Tên


Chú thích

1

SUB

Nhãn chức năng chủ ngữ

2

DOB

Nhãn chức năng tân ngữ trực tiếp

3

IOB

Nhãn chức năng tân ngữ gián tiếp

4

TPC

Nhãn chức năng chủ đề

5

PRD


Nhãn chức năng vị ngữ không phải cụm động từ

6

LGS

Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7

EXT

Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8

H

Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)

9-12

TC, CMD,

Nhãn phân loại câu: đề thuyết, mệnh lệnh, cảm thán, đặc biệt

EXC,SPL
13

TTL


Tít báo hay tiêu đề

14

VOC

Thành phần than gọi

143


×