ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-------------------------
TRẦN LÊ TÂM LINH
NHỮNG LỖI NGÔN NGỮ CỦA
PHẦN MỀM GOOGLE TRANSLATE
KHI DỊCH TỰ ĐỘNG ANH-VIỆT
CÁC HỢP ĐỒNG KINH TẾ
LUẬN ÁN TIẾN SĨ NGỮ VĂN
Thành phố Hồ Chí Minh - năm 2017
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-------------------------
TRẦN LÊ TÂM LINH
NHỮNG LỖI NGÔN NGỮ CỦA
PHẦN MỀM GOOGLE TRANSLATE
KHI DỊCH TỰ ĐỘNG ANH-VIỆT
CÁC HỢP ĐỒNG KINH TẾ
Chuyên ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 62.22.01.10
LUẬN ÁN TIẾN SĨ NGỮ VĂN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. ĐINH ĐIỀN
Phản biện độc lập:
1. GS.TS. NGUYỄN VĂN HIỆP
2. PGS.TS. LÊ KHẮC CƯỜNG
Phản biện:
1. GS.TS. NGUYỄN VĂN HIỆP
2. PGS.TS. LÊ KHẮC CƯỜNG
3. PGS.TS. TRỊNH SÂM
Thành phố Hồ Chí Minh - năm 2017
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là cơng trình nghiên cứu
khoa học của tơi.
Các kết quả của luận án là trung thực và chưa từng
được ai khác cơng bố trong bất kỳ cơng trình nào khác.
TP.HCM, ngày 25 tháng 03 năm 2017
Người thực hiện
Trần Lê Tâm Linh
LỜI CẢM ƠN
Lời đầu tiên, tác giả xin được bày tỏ lòng tri ân sâu sắc đối với Thầy
hướng dẫn: PGS. TS Đinh Điền, người đã trực tiếp hướng dẫn và luôn
chỉ bảo cho tác giả từ những bước đầu ban đầu khó khăn, động viên tác
giả về mọi mặt để tác giả có thể hồn thành được luận án.
Tác giả cũng xin được bày tỏ lòng biết ơn chân thành đối với các
thầy cô tại Trường Đại học Khoa học Xã hội và Nhân văn, TP.HCM vì
đã truyền đạt cho tác giả những kiến thức quý báu để tác giả có thể phát
triển được đề tài của luận án.
Tác giả cũng xin được cảm ơn lãnh đạo trường Đại học Khoa học
Xã hội và Nhân văn, Thành phố Hồ Chí Minh và lãnh đạo trường Đại
học Khoa học Tự nhiên, Thành phố Hồ Chí Minh vì đã tạo mọi điều kiện
thuận lợi cho tác giả trong quá trình học tập.
Và cũng xin gửi lời cảm ơn trân trọng đến các anh chị em đồng
nghiệp, bạn bè và những người thân trong gia đình vì đã ln động viên
và giúp đỡ tác giả thực hiện luận án.
Cuối cùng, tác giả cũng xin chân thành cảm ơn tất cả các bạn hữu
lớp CEO-48 vì đã giúp đỡ tác giả trong việc thu thập nguồn ngữ liệu cho
luận án này.
i
MỤC LỤC
MỞ ĐẦU .....................................................................................................................1
0.1
Lý do nghiên cứu .........................................................................................1
0.2
Mục tiêu và nhiệm vụ nghiên cứu ...............................................................1
0.3
Lịch sử vấn đề ..............................................................................................2
0.3.1
Nghiên cứu về lỗi .........................................................................................2
0.3.2
Nghiên cứu về lỗi dịch thuật ........................................................................3
0.3.3
Nghiên cứu về dịch tự động .........................................................................4
0.3.4
Nghiên cứu về lỗi khi dịch tự động .............................................................5
0.4
Đối tượng và phạm vi nghiên cứu ...............................................................6
0.4.1
Đối tượng nghiên cứu ..................................................................................6
0.4.2
Phạm vi nghiên cứu .....................................................................................6
0.5
Phương pháp nghiên cứu và nguồn ngữ liệu ...............................................6
0.5.1
Phương pháp nghiên cứu .............................................................................6
0.5.2
Phần mềm BLAST .......................................................................................7
0.5.3
Phần mềm BLAST - VCL ...........................................................................8
0.5.4
Nguồn ngữ liệu ............................................................................................8
0.6
Ý nghĩa khoa học và ý nghĩa thực tiễn ........................................................9
0.7
Bố cục của luận án .....................................................................................10
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT .........................................................................11
1.1
Khái niệm lỗi .............................................................................................11
1.1.1
Lỗi ngơn ngữ ..............................................................................................11
1.1.1.1
Khái niệm lỗi chính tả ................................................................................11
1.1.1.2
Khái niệm lỗi từ vựng ................................................................................11
1.1.1.3
Khái niệm lỗi ngữ pháp..............................................................................11
1.1.2
Lỗi kỹ thuật ................................................................................................12
1.1.2.1
Khái niệm lỗi hệ thống...............................................................................12
1.1.2.2
Khái niệm lỗi ngẫu nhiên ...........................................................................12
1.2
Cơ sở lý luận của việc phân tích lỗi dịch thuật ..........................................12
1.2.1
Định nghĩa lỗi dịch thuật và lỗi dịch tự động ............................................12
1.2.1.1
Định nghĩa lỗi dịch thuật ...........................................................................12
ii
1.2.1.2
Định nghĩa lỗi dịch tự động .......................................................................13
1.2.2
Các bước xử lý ngữ liệu trước khi phân tích lỗi ........................................14
1.2.2.1
Thu thập ngữ liệu .......................................................................................14
1.2.2.2
Chuẩn hóa ngữ liệu ....................................................................................14
1.2.2.3
Xử lý ngữ liệu ............................................................................................14
1.2.3
Phân tích lỗi dịch tự động Anh-Việt ..........................................................18
1.2.3.1
Nhận dạng lỗi dịch tự động........................................................................18
1.2.3.2
Phân tích lỗi dịch tự động ..........................................................................19
1.3
Những lỗi ngơn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế .....20
1.3.1
Đặc điểm của dịch tự động ........................................................................21
1.3.1.1
Khái niệm về dịch tự động .........................................................................21
1.3.1.2
Những thuận lợi và bất lợi trong dịch tự động ..........................................21
1.3.1.3
Các cách tiếp cận đối với dịch tự động chưa ứng dụng thống kê ..............22
1.3.1.4
Dịch tự động thống kê (SMT)....................................................................25
1.3.2
Đặc điểm về loại hình của tiếng Việt và tiếng Anh ...................................28
1.3.2.1
Đặc điểm của tiếng Việt.............................................................................28
1.3.2.2
Đặc điểm của tiếng Anh.............................................................................29
1.3.3
Hợp đồng kinh tế .......................................................................................29
1.3.3.1
Khái niệm hợp đồng kinh tế.......................................................................29
1.3.3.2
Các loại hợp đồng kinh tế ..........................................................................29
1.3.4
Nhận diện và phân loại lỗi ngơn ngữ khi dịch tự động..............................31
1.3.4.1
Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt ........................32
1.3.4.2
Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt .........................36
1.3.4.3
Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt ......................38
1.3.4.4
Lỗi hệ thống khi dịch tự động hợp đồng kinh tế Anh-Việt .......................40
1.3.4.5
Lỗi ngẫu nhiên khi dịch tự động hợp đồng kinh tế Anh-Việt....................42
CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG ..........................45
2.1
Lỗi chính tả ................................................................................................45
2.1.1
Lỗi dịch sai chữ số - loại I .........................................................................45
2.1.2
Lỗi dịch sai chữ số - loại II ........................................................................46
2.1.3
Lỗi dịch sai dấu câu - loại I........................................................................47
iii
2.1.4
Lỗi dịch sai dấu câu - loại II ......................................................................48
2.1.5
Lỗi thành phần của cấu trúc âm tiết - loại II ..............................................48
2.1.6
Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ......................................49
2.1.7
Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ....................................50
2.1.8
Lỗi viết hoa - loại I ....................................................................................51
2.1.9
Lỗi viết hoa - loại II ...................................................................................52
2.1.10
Lỗi viết tắt – loại I......................................................................................53
2.1.11
Lỗi viết tắt – loại II ....................................................................................53
2.1.12
Các lỗi chính tả khác- loại II ......................................................................54
2.2
Lỗi từ vựng ................................................................................................57
2.2.1
Lỗi nhập nhằng - loại I ...............................................................................57
2.2.2
Lỗi nhập nhằng - loại II .............................................................................58
2.2.3
Lỗi hiểu sai thành ngữ- loại II ...................................................................59
2.2.4
Lỗi hiểu sai nghĩa thuật ngữ - loại I ...........................................................60
2.2.5
Lỗi hiểu sai nghĩa thuật ngữ - loại II .........................................................61
2.3
Lỗi kỹ thuật ................................................................................................65
2.3.1
Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống...........................................66
2.3.2
Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên .......................................70
2.3.3
Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein ........72
2.3.3.1
Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein ........................73
2.3.3.2
Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein ....................75
TIỂU KẾT .................................................................................................................79
CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP ..........................................................80
3.1
Lỗi trật tự từ ...............................................................................................80
3.1.1
Lỗi trật tự từ theo tiêu chí BLAST ............................................................80
3.1.2
Lỗi trật tự từ theo tiêu chí BLAST-VCL ...................................................83
3.1.2.1
Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ....................84
3.1.2.2
Lỗi trật tự từ giữa tính từ - danh từ ............................................................86
3.1.2.3
Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh .................................87
3.1.2.4
Lỗi trật tự từ giữa mạo từ - danh từ trong tiếng Anh .................................88
3.1.2.5
Lỗi trật tự từ thuộc liên từ ..........................................................................89
iv
3.1.2.6
Lỗi trật tự từ giữa danh từ - danh từ ..........................................................90
3.1.2.7
Lỗi trật tự từ giữa danh từ - sở hữu cách - danh từ ....................................90
3.1.2.8
Lỗi trật tự từ giữa số - danh từ ...................................................................91
3.1.2.9
Lỗi trật tự từ giữa giới từ - danh từ ............................................................92
3.1.2.10 Lỗi trật tự từ giữa chủ từ - động từ ............................................................93
3.1.2.11 Lỗi trật tự từ giữa động từ - trạng từ trong tiếng Anh ...............................94
3.1.2.12 Lỗi trật tự từ giữa động từ - túc từ .............................................................94
3.1.2.13 Lỗi trật tự từ giữa động từ - động từ ..........................................................95
3.2
Lỗi dịch sai từ công cụ - loại II ..................................................................97
3.3
Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II ..........................99
3.4
Lỗi thừa từ..................................................................................................99
3.4.1
Lỗi thừa từ - loại I ....................................................................................100
3.4.1.1
Lỗi thừa từ nội dung - loại I .....................................................................100
3.4.1.2
Lỗi thừa từ ngữ pháp - loại I ....................................................................101
3.4.1.3
Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ......................................101
3.4.2
Lỗi thừa từ - loại II...................................................................................102
3.4.2.1
Lỗi thừa từ nội dung - loại II ...................................................................102
3.4.2.2
Lỗi thừa từ ngữ pháp - loại II...................................................................103
3.4.2.3
Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II.....................................104
3.5
Lỗi thiếu từ ...............................................................................................105
3.5.1
Lỗi thiếu từ - loại I ...................................................................................105
3.5.1.1
Lỗi thiếu từ nội dung - loại I ....................................................................105
3.5.1.2
Lỗi thiếu từ ngữ pháp - loại I ...................................................................106
3.5.2
Lỗi thiếu từ - loại II ..................................................................................106
3.5.2.1
Lỗi thiếu từ nội dung - loại II ..................................................................106
3.5.2.2
Lỗi thiếu từ ngữ pháp - loại II ..................................................................107
3.6
Lỗi kỹ thuật ..............................................................................................111
3.6.1
Lỗi ngữ pháp thuộc lỗi hệ thống ..............................................................111
3.6.2
Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................................................114
TIỂU KẾT ...............................................................................................................117
KẾT LUẬN .............................................................................................................119
v
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN ĐẾN LUẬN
ÁN CỦA TÁC GIẢ ................................................................................................124
TÀI LIỆU THAM KHẢO .......................................................................................126
vi
DANH SÁCH BẢNG
Bảng 1. 1 Minh họa lỗi hệ thống thông qua khoảng cách Levenshtein ................41
Bảng 2. 1 Lỗi dịch sai chữ số - loại I ....................................................................46
Bảng 2. 2 Lỗi dịch sai chữ số - loại II...................................................................46
Bảng 2. 3 Lỗi dịch sai dấu câu - loại I ..................................................................47
Bảng 2. 4 Lỗi dịch sai dấu câu - loại II .................................................................48
Bảng 2. 5 Các loại lỗi hình thái khác ....................................................................49
Bảng 2. 6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ................................49
Bảng 2. 7 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ...............................50
Bảng 2. 8 Lỗi viết hoa – loại I ..............................................................................51
Bảng 2. 9 Lỗi viết hoa – loại II .............................................................................52
Bảng 2. 10 Lỗi viết hoa – loại II ...........................................................................53
Bảng 2. 11 Lỗi viết hoa – loại II ...........................................................................53
Bảng 2. 12 Các lỗi chính tả khác- loại II ..............................................................54
Bảng 2. 13 Lỗi nhập nhằng - loại I .......................................................................57
Bảng 2. 14 Lỗi nhập nhằng - loại II ......................................................................58
Bảng 2. 15 Lỗi hiểu sai thành ngữ ........................................................................59
Bảng 2. 16 Lỗi hiểu sai nghĩa thuật ngữ - loại I ...................................................60
Bảng 2. 17 Lỗi hiểu sai nghĩa thuật ngữ - loại II ..................................................61
Bảng 2. 18 Minh họa lỗi hệ thống có L1 = 0 ........................................................73
Bảng 2. 19 Minh họa lỗi ngẫu nhiên - năm 2014 dịch tốt hơn năm 2012 ............75
Bảng 2. 20 Minh họa lỗi ngẫu nhiên - năm 2012 dịch tốt hơn năm 2014 ............77
Bảng 3. 1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ..............85
Bảng 3. 2 Lỗi trật tự từ giữa tính từ - danh từ ......................................................86
Bảng 3. 3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh ............................87
Bảng 3. 4 Lỗi trật tự từ giữa mạo từ - danh từ ......................................................88
Bảng 3. 5 Lỗi trật tự từ thuộc liên từ ....................................................................89
Bảng 3. 6 Lỗi trật tự từ giữa danh từ - danh từ .....................................................90
Bảng 3. 7 Lỗi trật tự từ giữa danh từ - sở hữu cách- danh từ ...............................91
Bảng 3. 8 Lỗi trật tự từ giữa số - danh từ .............................................................91
Bảng 3. 9 Lỗi trật tự từ giữa giới từ - danh từ ......................................................92
vii
Bảng 3. 10 Lỗi trật tự từ giữa chủ từ - động từ .....................................................93
Bảng 3. 11 Lỗi trật tự từ giữa động từ - trạng từ ..................................................94
Bảng 3. 12 Lỗi trật tự từ giữa động từ - túc từ......................................................94
Bảng 3. 13 Lỗi trật tự từ giữa động từ - động từ ..................................................95
Bảng 3. 14 Lỗi dịch sai từ công cụ -loại II ...........................................................98
Bảng 3. 15 Lỗi phù ứng ........................................................................................99
Bảng 3. 16 Lỗi thừa từ nội dung - loại I .............................................................100
Bảng 3. 17 Lỗi thừa từ ngữ pháp - loại I ............................................................101
Bảng 3. 18 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ..............................101
Bảng 3. 19 Lỗi thừa từ nội dung - loại II ............................................................102
Bảng 3. 20 Lỗi thừa từ ngữ pháp - loại II ...........................................................103
Bảng 3. 21 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II .............................104
Bảng 3. 22 Lỗi thiếu từ nội dung - loại I ............................................................105
Bảng 3. 23 Lỗi thiếu từ ngữ pháp - loại I ...........................................................106
Bảng 3. 24 Lỗi thiếu từ nội dung - loại II ...........................................................107
Bảng 3. 25 Lỗi thiếu từ ngữ pháp - loại II ..........................................................108
viii
DANH SÁCH HÌNH
Hình 1. 1 Giới thiệu tiền xử lý ngữ liệu ................................................................15
Hình 1. 2 Minh họa cơng cụ BLAST ....................................................................16
Hình 1. 3 Minh họa các bước xử lý dữ liệu ..........................................................17
Hình 1. 4 Mơ hình phân tích lỗi BLAST-VCL .....................................................18
Hình 2. 1 Lỗi chính tả ..........................................................................................56
Hình 2. 2 Tỉ lệ phần trăm lỗi chính tả ...................................................................57
Hình 2. 3 Lỗi thuật ngữ .........................................................................................62
Hình 2. 4 Minh họa lỗi hiểu sai nghĩa thuật ngữ - loại II .....................................63
Hình 2. 5 Lỗi từ vựng ..........................................................................................64
Hình 2. 6 Tỉ lệ phần trăm lỗi từ vựng ...................................................................65
Hình 2. 7 Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống .....................................67
Hình 2. 8 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống ...........68
Hình 2. 9 Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ..................................71
Hình 2. 10 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ......71
Hình 2. 11 Số cặp câu (a) và tỷ lệ phần trăm cặp câu (b) mang lỗi hệ thống và lỗi
ngẫu nhiên .........................................................................................72
Hình 2. 12 Tỉ lệ phần trăm lỗi hệ thống và lỗi ngẫu nhiên trong 3 ngữ liệu ........73
Hình 3. 1 Lỗi trật tự từ theo tiêu chí BLAST ......................................................80
Hình 3. 2 Số lượng câu chứa lỗi trật tự từ ............................................................82
Hình 3. 3 Mơ hình phân tích lỗi BLAST-VCL .....................................................83
Hình 3. 4 Lỗi trật tự từ theo tiêu chí BLAST-VCL ..............................................96
Hình 3. 5 Tỉ lệ phần trăm lỗi trật tự từ theo tiêu chí BLAST-VCL ......................97
Hình 3. 6 Kết quả lỗi ngữ pháp ...........................................................................109
Hình 3. 7 Tỉ lệ phần trăm lỗi ngữ pháp ...............................................................110
Hình 3. 8 Lỗi ngữ pháp theoBLAST - thuộc lỗi hệ thống ..................................112
Hình 3. 9 tỷ lệ phần trăm lỗi ngữ pháp theo BLAST - thuộc lỗi hệ thống .........112
Hình 3. 10 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..................................................115
Hình 3. 11 Tỷ lệ phần trăm lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................116
ix
BẢNG CHỮ VIẾT TẮT
BLAST
: the Bilingual Annotator/Annotation/Analysis Support Tool
CKT
: Cung Kim Tiến
CT
: Chính tả
DTC
: Dịch thủ cơng
DTĐ
: Dịch tự động
GT
: Google Translate
HT
: Hệ thống
LEGAL
: Legal documents on labour and economic contracts, settlement of
labour and economic disputes
NL
: Ngữ liệu
NN
: Ngẫu nhiên
NNN
: Ngôn ngữ nguồn
NP
: Ngữ pháp
NTY
: Nguyễn Thành Yến
SMT
: Statistic Machine Translation (Dịch tự động thống kê )
TLTL
: Trần Lê Tâm Linh
TV
: Từ vựng
VCL
: Vietnamese Computational Linguistics
XH-MK
: Xuân Huy – Minh Khiết
1
MỞ ĐẦU
0.1 Lý do nghiên cứu
Dịch tự động là lĩnh vực đã được quan tâm nghiên cứu từ nhiều thập kỷ
qua. Gần đây, lĩnh vực này đã đạt nhiều kết quả đáng kể và được ứng dụng trong
nhiều mặt của đời sống. Trong xu hướng phát triển và hội nhập kinh tế với khu
vực và thế giới hiện nay, nhu cầu dịch các hợp đồng kinh tế ngày càng tăng, đặc
biệt là các hợp đồng Anh-Việt và việc dịch thuật theo cách truyền thống khơng
thể đáp ứng kịp. Do đó, công việc dịch tự động các hợp đồng kinh tế trở nên cấp
thiết. Như chúng ta đã biết, dịch tự động khơng thể dịch chính xác như người mà
cịn mắc nhiều lỗi. Vì thế, những lỗi ngơn ngữ khi dịch tự động Anh-Việt các hợp
đồng kinh tế là một chủ đề cần được quan tâm.
Trên thực tế, việc xây dựng các chương trình dịch tự động ngơn ngữ tự
nhiên đã được đặt ra từ rất lâu, nhưng thành công của các hệ dịch tự động chỉ
giới hạn trong các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp
cũng như từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,
tiếng Anh sang tiếng Nga, v.v.. Những cặp ngôn ngữ thuộc loại hình khác nhau
như cặp Anh-Việt (hịa kết - đơn lập) thì kết quả dịch tự động hiện cịn hạn chế.
Việc phân tích khắc phục các lỗi trong dịch tự động là vấn đề liên ngành giữa
ngôn ngữ học và tin học. Trong vấn đề này, sau khi các nhà ngôn ngữ học tìm ra
nguyên nhân mắc lỗi, các chuyên gia tin học sẽ xử lý lỗi bằng cách xây dựng các
phần mềm, cải tiến các mơ hình và thuật tốn.
0.2 Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu của luận án là lập ra tiêu chí phân loại lỗi ngơn ngữ khi dịch tự
động hợp đồng kinh tế Anh-Việt. Luận án đứng trên quan điểm ngôn ngữ học để
khảo sát các loại lỗi ngơn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng và lỗi ngữ
pháp khi dịch tự động hợp đồng kinh tế Anh-Việt để tìm ra quy luật phát sinh lỗi.
Các kết quả nghiên cứu này sẽ làm cơ sở cho ngành tin học cài đặt các thuật toán
khắc phục lỗi. Luận án sẽ tập trung vào việc phân loại các lỗi và tìm ra quy luật
phát sinh lỗi.
2
Nhiệm vụ cụ thể của luận án là:
Nghiên cứu các vấn đề mang tính lý thuyết về lỗi ngơn ngữ của phần mềm
Google Translate khi dịch tự động Anh-Việt các hợp đồng kinh tế.
Thiết lập các tiêu chí phân loại lỗi khi dịch tự động từ tiếng Anh sang tiếng
Việt với sự hỗ trợ của phần mềm BLAST (the Bilingual Annotator/
Annotation / Analysis Support Tool), công cụ phân tích và xử lý lỗi.
Phân tích các loại lỗi ngôn ngữ chủ yếu trong văn bản hợp đồng kinh tế bao
gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp.
Thống kê, phân loại và mô tả những điểm khác biệt và tương đồng của các
loại lỗi được khảo sát theo những thời điểm khác nhau nhằm tìm ra những loại
lỗi hệ thống và những lỗi ngẫu nhiên.
0.3 Lịch sử vấn đề
0.3.1 Nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt cơng trình về nghiên cứu miêu tả về
lỗi như: năm 1971 Richards [65] [66] cơng bố hai cơng trình liên quan đến Cách
tiếp cận khơng tương phản đối với việc phân tích lỗi và chiến lược cho ngôn ngữ
thứ hai. Schachter (1974) [69] Nhận xét lỗi trong q trình phân tích lỗi. Năm
1975, Burt [34] Phân tích lỗi trong lớp học EFL dành cho người lớn. Steel
(1976) [73] công bố nghiên cứu Sự biến đổi trật tự từ: nghiên cứu loại hình ngơn
ngữ. Năm 1977, nhóm các tác giả Schachter và Murcia đã phân tích Những trở
ngại trong việc phân tích lỗi [70]. Cuối thập niên, có cơng trình Phân tích lỗi và
giảng dạy phép ghép từ (Kroll và Schafer, 1978) [55].
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý
thuyết nhiều: Williams (1981) [82] công bố Hiện tượng học về lỗi, Corder (1981)
[39] Phân tích lỗi và tính liên ngành của ngơn ngữ học. Sau đó, Selinker, 1984
[71] cơng bố cơng trình Phân tích lỗi trong ngôn ngữ trung gian. Năm 1986,
Taylor viết Lỗi và cách giải thích lỗi [76].
Ở Việt Nam, đề tài về lỗi được nhiều nhà nghiên cứu ngành ngôn ngữ học
quan tâm như: Khảo sát lỗi tiếng Việt của người nước ngoài và những vấn đề
liên quan (Nguyễn Thiện Nam, 2001) [20], Từ câu sai đến câu hay (Nguyễn Đức
3
Dân, 2015) [6]. Ngoài ra, khi khảo sát lỗi trên bình diện cú pháp, lỗi trật tự từ
được quan tâm một cách đáng kể. Chẳng hạn như, Lý thuyết trật tự từ trong cú
pháp (Lý Toàn Thắng, 2002) [23] là cơng trình hữu ích có thể giúp cho việc khảo
sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa (2004)
[12] Khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và
tiếng Việt. Trần Thị Minh Phượng (2005) [22] khảo sát Những lỗi thường gặp về
trật tự từ ở người Việt học tiếng Anh. Đinh Điền (2006) [9] So sánh trật tự từ của
định ngữ giữa tiếng Anh và tiếng Việt. Phạm Thị Tuyết Hương (2009) [15]
nghiên cứu Trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng
học (có so sánh đối chiếu với tiếng Việt).
Các loại lỗi khác có trong các cơng trình của nhóm tác giả như: Lỗi ngữ pháp
và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ
Xuân Trang, Trần Thị Tuyết Mai, 2009) [11], Lỗi từ vựng và cách khắc phục (Hồ
Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) [19] và Lỗi chính tả và cách
khắc phục (Lê Trung Hoa, 2009) [13].
Ngồi ra cịn có những nghiên cứu về lỗi ngôn ngữ phổ biến như Lỗi ngữ pháp
tiếng Anh thường gặp của người Việt Nam (Đỗ Minh Hùng, 2007) [14], Lỗi ngơn
ngữ của người nước ngồi học tiếng Việt (Nguyễn Linh Chi, 2009) [2]
Các cơng trình đã liệt kê trên nêu ra các tiêu chí ngơn ngữ học nhưng chúng
chưa đủ để áp dụng cho dịch tự động. Trong dịch tự động các tiêu chí cần được
nêu ra cụ thể hơn để hỗ trợ cho việc lập trình. Luận án này sẽ góp phần bổ sung
vào những “khoảng trống” đó.
0.3.2 Nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên
1960, cơng trình của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ơng
Hướng tới khoa học dịch thuật [62], trong tác phẩm này ông đặc biệt quan tâm
đến Những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh. Năm
1965, Catford [35] có cơng trình Lý thuyết ngơn ngữ về dịch thuật.
4
Như đã nêu trong phần 2.1, thập niên 1970 có nhiều thành tựu về miêu tả lỗi
dẫn đến những công trình tiếp nối cho thấy Nhiều vấn đề xảy ra trong lý thuyết
và phương pháp dịch thuật của Newmark (1979) [60].
Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng
kính khoa học như: Khoa học hóa những vấn đề về dịch thuật và những phương
pháp dịch thuật (Wilss, 1982) [83], Vấn đề trong đánh giá lỗi dịch thuật
(Kupsch-Losereit, 1985) hay Những cách tiếp cận đối với dịch thuật (Newman,
1988) [59] và Newmark, 1988) [61].
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải
tiến phương pháp dịch thuật. Có những cơng trình nêu Ngun nhân mắc lỗi và
cách sửa lỗi (Julian Edge, 1990) [52], Ứng dụng lý thuyết dịch (Bell, 1991) [31],
Phân tích văn bản khi huấn luyện dịch thuật (Nord, 1992) [63] và (Neubert &
Shreve, 1995) [58]. Năm 1998, Jakobson [49] bàn về Những khía cạnh ngơn ngữ
trong dịch thuật và James [50] Phân tích lỗi trong khi học và sử dụng ngoại ngữ.
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và
phong phú hơn trong các cơng trình của Harry Aveling (2002) [46], Na (2005)
[57] hay Gyse Hansen (2010) [45] nhằm khắc phục được khả năng dịch thuật của
người cũng như của máy.
0.3.3 Nghiên cứu về dịch tự động
Đầu thế kỷ XVII, Leibniz và Descartes đã nghĩ đến dịch tự động, nhưng
khơng có ứng dụng thực tế. Đến thập niên 50 của thế kỉ XX, dịch tự động mới
chính thức được ghi nhận [89].
Năm 1937, Pyotr Troyanskii đã đề ra ba giai đoạn dịch tự động (lúc này gọi là
mechanical translation). Giai đoạn 1, chỉ cần soạn thảo ngôn ngữ nguồn rồi phân
tích hợp lý những từ theo dạng cơ bản và chức năng cú pháp. Giai đoạn 2, máy sẽ
chuyển các dạng từ và các cú pháp trên thành chuỗi tương đương trong ngơn ngữ
đích. Giai đoạn cuối, một phần mềm soạn thảo của ngơn ngữ đích được dùng để
chuyển đổi (đầu ra) sang dạng bình thường của ngơn ngữ đích.
Năm 1949, Weaver [81] đề ra một bản ghi nhớ mang ý tưởng dịch tự động vào
các phương pháp viết mã, phân tích thống kê, lý thuyết thơng tin Shannon và
5
khám phá đặc trưng ngơn ngữ phổ qt. Ngồi ra, nhu cầu dịch thuật ngày càng
nhiều, phương pháp dịch thủ cơng khơng thể đáp ứng, từ đó, ý tưởng về dịch tự
động ra đời.
Đến năm 1953, Yehoshua Bar-Hillel [30] đề xuất những vấn đề liên quan đến
cú pháp, soạn thảo văn bản dưới hình thức kiểm sốt ngơn ngữ.
Lĩnh vực dịch tự động ngày càng được giới thiệu chi tiết như phân tích các vấn
đề về cú pháp,v.v. [40], [43], [47]. Năm 1964, chính phủ Hoa Kỳ đã thành lập
một ủy ban dịch tự động lấy tên là ALPAC (Automatic Language Processing
Advisory Committee) để đánh giá và định hướng về dịch tự động. Tiếp theo,
hàng loạt giải pháp tự động hóa cho ngơn ngữ, phương cách dịch tự động từng
câu ra đời [32].
Năm 1966, ALPAC tổng kết rằng sau hơn 10 năm nghiên cứu lĩnh vực dịch tự
động vẫn không có những tiến bộ đáng kể. Báo cáo này gây bất lợi cho việc
nghiên cứu dịch tự động và hệ quả là số tiền chi cho nghiên cứu giảm mạnh [89].
Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại
rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mơ hình thống kê vốn địi hỏi
khả năng xử lý dữ liệu cực lớn mà trước đó khơng thể thực hiện được vì các
nguyên nhân kỹ thuật cũng như kinh tế [89].
Đến thế kỉ 21, Popovic và Burchardt, 2007 [64] cho rằng việc dịch tự động có
thể được cải tiến bằng cách sử dụng thống kê để khử nhập nhằng ngữ nghĩa của
từ.
Hiện nay, tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan
đến tiếng Việt, chủ yếu là dịch tự động Anh-Việt bằng phần mềm EVTRAN với
các phiên bản cải tiến được sử dụng rộng rãi ở Việt Nam [85], [86] như
EVTRAN-1997, EVTRAN 2.0, 3.0 và 4.0.
0.3.4 Nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều cơng trình kinh điển
giúp cho các nhà ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những
nét tương đồng và dị biệt của các loại hình ngơn ngữ. Nổi bật nhất là cơng trình
6
phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994) [42], Phân tích lỗi
và tiếng quốc tế (Ellis, 1997) [41].
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những cơng
trình giá trị như Phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá
xác định lỗi trong dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu,
D’Haro và Ney, 2006 [78], 2010 [79]). Những nghiên cứu này cũng là nền tảng
cho nghiên cứu lỗi về dịch tự động.
0.4 Đối tượng và phạm vi nghiên cứu
0.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt
của phần mềm Google Translate (GT) khi dịch các hợp đồng kinh tế.
GT là dịch tự động thống kê (xem định nghĩa ở mục 1.3.1.4.4 chương 1)
0.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp. Trong
phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn bản do
phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết văn
bản.
0.5 Phương pháp nghiên cứu và nguồn ngữ liệu
0.5.1 Phương pháp nghiên cứu
-
Phương pháp so sánh đối chiếu: việc so sánh đối chiếu được thực hiện trên
bình diện ngữ nghĩa, bình diện cú pháp (thường là ngữ và câu) và bình diện
ngữ âm (lỗi chính tả). Đồng thời kết hợp với phương pháp miêu tả để xác
định vị trí của lỗi trong câu tiếng Việt khi dịch tự động ngữ liệu hợp đồng
kinh tế từ Anh sang Việt, từ đó, khái qt tiêu chí phân loại lỗi ngôn ngữ
trong dịch tự động.
-
Phương pháp định lượng: sử dụng các số liệu, ngữ liệu thu thập chủ yếu là
những văn bản về hợp đồng kinh tế Anh-Việt (ngữ liệu thơ), sau đó đưa vào
dịch tự động để khảo sát các loại lỗi ngôn ngữ khi dịch từ tiếng Anh sang
tiếng Việt. Tiếp theo đó, thủ pháp thống kê được sử dụng để xác định một
7
số thơng số cần thiết trong q trình xây dựng và khai thác ngữ liệu để tìm
ra số lượng lỗi sai khi dịch tự động hợp đồng kinh tế Anh - Việt.
Ngồi các phương pháp nghiên cứu ngơn ngữ học kể trên chúng tôi thực
hiện thêm thủ pháp xử lý ngữ liệu như sau:
-
Thủ pháp xử lý ngữ liệu bao gồm: thu thập tài liệu hợp đồng kinh tế; chuẩn
hóa ngữ liệu bằng cách nhờ chuyên gia máy tính viết phần mềm định dạng
theo dạng thức (format) đưa vào dịch tự động; xử lý ngữ liệu như viết phần
mềm xóa trùng và định dạng theo đúng dạng thức để đưa vào cơng cụ
BLAST; gán nhãn cũng chính là lúc định dạng được các loại lỗi đặc trưng
trong dịch tự động.
Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tơi dùng hai
cơng cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL
được giới thiệu dưới đây:
0.5.2 Phần mềm BLAST
BLAST (viết tắt của the Bilingual Annotator/ Annotation/ Analysis Support
Tool) là công cụ giúp người xử lý và phân tích lỗi các tài liệu song ngữ, đặc biệt
là những lỗi thuộc về dịch tự động do Stymne [74] công bố năm 2011.
Sau đây là những ưu điểm và khuyết điểm khi sử dụng phần mềm BLAST
để phân tích lỗi dịch tự động Anh-Việt:
-
Ưu điểm: BLAST là phần mềm mang tính cập nhật cao giúp xây dựng tiêu
chí phân loại lỗi cho mơ hình dịch thống kê Anh-Việt nói chung và dịch tự
động bằng phần mềm Google Translate nói riêng. Tiêu chí từ phần mềm
BLAST có thể giải quyết những khó khăn tồn đọng từ nhiều năm khi dịch
máy hay dịch tự động mắc phải.
-
Khuyết điểm: BLAST chỉ hỗ trợ ý tưởng lập tiêu chí phân loại lỗi thông
thường cho nhiều ngôn ngữ trên thế giới nhưng chưa phân định được lỗi
theo tiêu chí ngơn ngữ học như lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp hay
lỗi hệ thống và lỗi ngẫu nhiên theo tiêu chí tin học.
8
0.5.3 Phần mềm BLAST - VCL
Do hạn chế của phần mềm BLAST trong việc nhận dạng lỗi trật tự từ nên
chúng tơi đề xuất ý tưởng với nhóm nghiên cứu xử lý tiếng Việt của Trường Đại
học Khoa học tự nhiên, thành phố Hồ Chí Minh đã xây dựng phần mềm BLASTVCL (Vietnamese Computational Linguistics) nhằm bổ sung cho tiêu chí phân
loại lỗi trật tự từ thuộc lỗi ngữ pháp.
BLAST-VCL có chức năng nhận dạng lỗi trật tự từ trong tiếng Anh theo
các lỗi sau đây: lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động, lỗi
trật tự từ giữa tính từ - danh từ, trạng từ - tính từ, mạo từ - danh từ, lỗi trật tự từ
thuộc liên từ, danh từ - danh từ, danh từ - sở hữu cách - danh từ, số - danh từ, giới
từ - danh từ, chủ từ - động từ, động từ - trạng từ, động từ - túc từ và động từ động từ.
0.5.4 Nguồn ngữ liệu
Do vấn đề bảo mật thông tin trong kinh doanh nên việc thu thập ngữ liệu
của chúng tôi chỉ dừng lại ở 50 mẫu hợp đồng kinh tế Anh-Việt do học viên lớp
CEO 48 tại trường doanh nhân PACE cung cấp. Trong điều kiện đó, chúng tơi
khơng thể có được nguồn ngữ liệu mang tính cập nhật và bao quát hết các loại
văn bản ở nhiều độ khó khác nhau. Ngồi ra, do hợp đồng là thể loại mang tính
quy chuẩn về ngôn ngữ diễn đạt nên trong lĩnh vực dịch thuật chúng tôi quan tâm
nhiều về phương diện này thay vì phương diện nội dung và độ khó của văn bản.
Khảo sát lỗi liên quan đến nội dung và độ khó cần có những cơng trình nối tiếp
trên cơ sở khảo sát lỗi về phương diện đạt ngôn ngữ ở mặt hình thức, đặc biệt là
đối với dịch tự động.
Sau đây là nguồn ngữ liệu làm cơ sở cho việc nghiên cứu trong luận án:
Mẫu văn bản và hợp đồng thương mại Anh-Việt (Model of business
documents) gồm 310 trang được xuất bản năm 2001 tại nhà xuất bản Trẻ.
Sau khi văn bản được tiền xử lý thì cịn lại 516 cặp câu để khảo sát [16].
Hướng dẫn soạn thảo hợp đồng kinh tế bằng tiếng Anh gồm 250 trang được
xuất bản tại nhà xuất bản Tổng hợp thành phố Hồ Chí Minh năm 2005.
9
Tương tự như trên, sau khi văn bản được tiền xử lý thì chỉ cịn lại 137 cặp
câu để khảo sát [28].
Mẫu hợp đồng thương mại quốc tế (International business contract form)
bao gồm 269 trang được nhà xuất bản Lao động xuất bản năm 2005. Sau
khi văn bản được tiền xử lý thì cịn lại 367 cặp câu để khảo sát [25].
Các văn bản pháp luật về hợp đồng lao động, hợp đồng kinh tế, giải quyết
các tranh chấp lao động và tranh chấp kinh tế (Legal documents on labour
and economic contracts, settlement of labour and economic disputes) gồm
733 trang được nhà xuất bản Chính trị quốc gia xuất bản năm 1997. Dữ liệu
toàn văn được đánh máy lại và chia ra thành 2.947 cặp câu Anh-Việt chủ
yếu về hợp đồng kinh tế (bởi vì các văn bản pháp luật cũng như hợp đồng
lao động chưa được khảo sát trong luận án này). Sau đó, chúng tơi sử dụng
phần mềm do công ty Kim Từ Điển viết riêng cho chương trình này nhằm
lược bỏ những câu trùng thì thu được 2.068 cặp câu để khảo sát [29].
50 hợp đồng kinh tế Anh-Việt do các học viên của lớp CEO 48 tại trường
doanh nhân PACE cung cấp năm 2008 để phục vụ cho việc tìm kiếm thuật
ngữ hợp đồng kinh tế [19]. Sau khi văn bản được tiền xử lý thì còn lại 305
cặp câu để khảo sát.
0.6 Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngơn ngữ thuộc loại hình hịa kết (tiếng
Anh) và loại hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham
khảo về các tiêu chí phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể
loại văn bản hợp đồng kinh tế khi dịch tự động và sẽ là tiền đề nâng cấp chương
trình dịch tự động Anh-Việt và Việt-Anh.
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm
cho nội dung dịch sát với nội dung văn bản gốc. Hiện nay, các cơng trình dịch tự
động cịn có ứng dụng rất tốt trong việc giảng dạy ngôn ngữ. Một trong các
phương pháp đào tạo cử nhân biên phiên dịch hiện nay là cho sinh viên phân tích
các lỗi của dịch máy và từ đó rút ra những kinh nghiệm cho dịch thuật. Phương
pháp này được gọi là “Học lỗi từ dịch máy” (Machine translation as a bad
10
model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn người học cách giải
thích và chỉnh sửa. Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trong việc
học và dạy biên phiên dịch.
0.7 Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm
ba chương:
Chương 1: Đây là chương nói về cơ sở lý thuyết. Thứ nhất là khái quát một
số vấn đề chung về khái niệm lỗi (lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ
thống và lỗi ngẫu nhiên). Thứ hai bao gồm cơ sở lý luận của việc phân tích lỗi và
lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ của Google Translate
khi dịch tự động hợp đồng kinh tế Anh-Việt. Thứ ba, đặc điểm của dịch tự động,
khái niệm hợp đồng kinh tế, đặc điểm loại hình tiếng Anh và tiếng Việt. Ngồi
ra, nêu cơ sở lý luận của việc nhận diện và phân loại lỗi ngơn ngữ khi dịch tự
động như: phân tích lỗi trong chuyển dịch, giới thiệu các bước phân tích ngữ liệu
khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lý ngữ liệu để lập
tiêu chí phân loại lỗi ngơn ngữ khi dịch tự động.
Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê tồn bộ kết quả lỗi
chính tả (lỗi sai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và
lỗi từ vựng (lỗi nhập nhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại
lỗi chính tả và từ vựng thuộc lỗi hệ thống và lỗi ngẫu nhiên.
Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự
động hợp đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai
từ công cụ, lỗi dịch sai khi có sự hịa hợp giữa chủ từ và động từ, lỗi thừa từ và
lỗi thiếu từ). Lỗi trật tự từ sẽ được phân tích dựa theo tiêu chí BLAST và
BLAST-VCL và phân tích các loại lỗi ngữ pháp thuộc lỗi hệ thống và thuộc lỗi
ngẫu nhiên.
11
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
Trong chương này, luận án trình bày khái niệm về lỗi, lỗi dịch thuật và cơ
sở lý thuyết về những lỗi ngôn ngữ khi dịch tự động Anh-Việt.
1.1 Khái niệm lỗi
Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google
Translate khi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào hai
loại lỗi lớn như: lỗi ngôn ngữ (bao gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp);
và lỗi kỹ thuật (lỗi ngồi ngơn ngữ) có hai loại lỗi như: lỗi hệ thống và lỗi ngẫu
nhiên, đây là những lỗi đặc trưng của dịch tự động.Vì vậy, mục này nêu khái
niệm của các lỗi trên. Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối
chương 1.
1.1.1 Lỗi ngôn ngữ
1.1.1.1 Khái niệm lỗi chính tả
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng
vần, đúng dấu (thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ [13].
Theo Nguyễn Đức Dân (2015) [6], tr.25]: “ Sai chính tả là câu viết khơng
đúng quy định về chính tả, khơng đúng quy tắc về dấu câu, khơng đúng quy tắc
viết tắt”.
1.1.1.2 Khái niệm lỗi từ vựng
“Sai từ vựng là câu mà giữa các từ trong đó khơng tương hợp về nghĩa.”
(Nguyễn Đức Dân, 2015) [6, tr.26] và “Lỗi từ vựng có thể do viết sai âm, hiểu sai
nghĩa, dùng sai chức năng ngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện
Nam, 2001 [20]).
1.1.1.3 Khái niệm lỗi ngữ pháp
Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng
nguyên tắc ngữ pháp, nghĩa là viết không đúng cấu trúc câu. Thường là những
câu cụt, thiếu chủ ngữ hay vị ngữ, thậm chí thiếu cả hai.” [6, tr.26]
12
1.1.2 Lỗi kỹ thuật
Lỗi kỹ thuật ở đây được hiểu là lỗi ngồi ngơn ngữ bao gồm lỗi hệ thống
và lỗi ngẫu nhiên.
1.1.2.1 Khái niệm lỗi hệ thống
Lỗi hệ thống đối với dịch tự động là những lỗi mang tính khách quan và bất
biến theo thời gian. Đối với loại ngữ liệu hợp đồng kinh tế, nghĩa của thuật ngữ
chuyên ngành trong các loại lỗi hệ thống xuất hiện nhiều nhất.
1.1.2.2Khái niệm lỗi ngẫu nhiên
Lỗi ngẫu nhiên đối với dịch tự động mang yếu tố chủ quan vì có thể do bất cẩn
từ khâu nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) hay do khâu tách các
cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữ liệu hoặc những lỗi thường
xuyên dịch khác đi sau mỗi lần dịch. Tuy nhiên, đây chỉ là giả thuyết bởi vì trên
thực tế, lỗi ngẫu nhiên có thể rơi vào các trường hợp khác như: lỗi về sở hữu
cách, viết hoa không đúng cách, lỗi do sai dấu câu, lỗi dịch thừa từ, lỗi dịch thiếu
từ hoặc lỗi không dịch được từ của ngôn ngữ nguồn.
1.2 Cơ sở lý luận của việc phân tích lỗi dịch thuật
Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân
dịch (người dịch / máy dịch) gây ra. Việc thu thập các mẫu ngơn ngữ nguồn cũng
như ngơn ngữ đích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân
loại lỗi và giải thích nguyên nhân mắc lỗi.
1.2.1 Định nghĩa lỗi dịch thuật và lỗi dịch tự động
1.2.1.1 Định nghĩa lỗi dịch thuật
Lỗi dịch thuật là những sai sót trong khi dịch, khơng thực hiện đúng quy tắc
nghiên cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn
hóa của văn bản ngơn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi
ngữ pháp, lỗi ngữ dụng…).