ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
------oOo------
LÊ NGỌC SƠN
CANH LỀ VĂN BẢN SONG NGỮ
VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP
ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành : 01.02.10
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học:
Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày . . . . . tháng . . . . . năm 2006
ĐẠI HỌC QUỐC GIA TP. HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc
------oOo------
------oOo-----Tp. Hồ Chí Minh, ngày ….. tháng ….. năm 2006
NHIỆM VỤ LUẬN VĂN THẠC SĨ
I.
Họ và tên học viên
: Lê Ngọc Sơn
Phái
: Nam
Ngày sinh
: 28/05/1981
Nơi sinh
: Tiền Giang
Chuyên ngành
: Công Nghệ Thông Tin
MSHV
: 00704179
TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp
đặc thù của ngôn ngữ Anh - Việt.
II.
NHIỆM VỤ VÀ NỘI DUNG:
Tìm hiểu các cơng trình nghiên cứu trước đây về canh lề văn bản song ngữ.
Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và
LSSA.
Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn
bản song ngữ Anh - Việt.
Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại
theo lĩnh vực.
III. NGÀY GIAO NHIỆM VỤ
:
/
/ 2006
IV. NGÀY HOÀN THÀNH NHIỆM VỤ :
/
/ 2006
V.
HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi
CÁN BỘ HƯỚNG DẪN
PGS., TS. Phan Thị Tươi
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thơng qua.
Ngày ….. tháng ….. năm 2006
PHỊNG ĐÀO TẠO SAU ĐẠI HỌC
KHOA QUẢN LÝ NGÀNH
LỜI CẢM ƠN
Tôi xin được gửi lời cảm ơn chân thành đến:
PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu và
thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tơi trong những
lúc khó khăn nhất.
Các thầy cơ của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP.
Hồ Chí Minh đã tận tâm giảng dạy trong suốt q trình học, trang bị cho tơi những
kiến thức nền tảng và khả năng nghiên cứu.
Thầy TS. Võ Văn Huy, cơ ThS. Huỳnh Ngọc Liễu, KS. Nguyễn Hồng Thanh
Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong
Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tơi
trong suốt thời gian thực hiện luận văn.
Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tơi học
tập và phấn đấu.
TÓM TẮT
Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ
và bản dịch (translation) của nó ở một ngơn ngữ khác. Để khai thác được tính hữu
dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản
để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương
pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối
chính xác. Tuy nhiên, mỗi cặp ngơn ngữ có những đặc điểm riêng. Việc áp dụng vào
canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm
của ngôn ngữ tiếng Việt.
Trong đề tài này, tơi xây dựng một qui trình canh lề mới, áp dụng giải thuật
canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest
Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt
trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý
trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp
này.
Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm
các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngồi ra,
chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một
tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ
lớn.
Trong quyển luận văn này, tơi trình bày chi tiết các giải thuật sử dụng và cách
hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.
ABSTRACT
Bitext (- parallel text) is a text in one language and its translation in another
language. They are available sources of information for bilingual lexicography,
machine translation. In order to achieve this, they must be aligned first, i.e. the
various pieces of the text must be put into correspondence.
Recently, text alignment has been taken interest in very much. Many methods
and algorithm have been brought out into open and applied. The result were relatively
accurate. However, any pair of languages have their characteristics, the application of
Vietnamese- English bittext alignment needs to be adjusted in accordance with the
Vietnamese characteristics.
In this study, I am constructing a new alignment procedure which applied the
algorithm of length- based alignment, dictionary- based word alignment and Longest
Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is
taking the notice of a commonly special problem- cross translation. Then, the
algorithm must solve the cross translation problem which is often bypassed by many
previous algorithms.
The degree of accuracy is relatively high. It creates a corpus inncluding
aligned pairs of sentences and devided in the field of text. In addition, the algorithm
will mark map points between words in sentences. It will be an useful data file for
machine translation and automically create a specialist dictionary when the data
warehouse is large enough.
In this composition, I present in detail algorithms using and the realization of
applied algorithms in Vietnamese- English bitext alignment.
MỤC LỤC
Phần 1
........................................................................................................................1
Giới thiệu ......................................................................................................................1
1.1
Bối cảnh thực hiện luận văn .................................................................................1
1.2
Thực trạng – Vấn đề .............................................................................................1
1.3
Hướng giải quyết vấn đề ......................................................................................2
1.4
Mục tiêu của luận văn...........................................................................................2
1.5
Đóng góp của luận văn .........................................................................................2
1.6
Hướng phát triển...................................................................................................5
1.7
Cấu trúc của luận văn ...........................................................................................5
Phần 2............................................................................................................................7
Các cơng trình nghiên cứu liên quan .........................................................................7
2.1
2.2
Phương pháp canh lề văn bản dựa vào chiều dài câu ...........................................7
2.1.1
Phương pháp của William A.Gale và Kenneth W.Church [16]: ...........8
2.1.2
Phương pháp của Peter F.Brown [17]:...................................................9
Phương pháp canh lề dựa vào từ vựng ...............................................................10
2.2.1
Phương pháp của Michel Simard, George F. Foster, P. Isabelle [15]: 10
2.2.2
Phương pháp của Martin Kay và Martin Roscheisen [11]: .................11
2.2.3
Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi
Krishna A, Rajev Sangal, Sushma Bendre [9]: ..................................................12
2.3
2.2.4
Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: ........13
2.2.5
Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] ...14
2.2.6
Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]:.......16
Kết hợp các phương pháp...................................................................................16
2.3.1
Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu,
Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]...........................................16
2.3.2
Phương pháp của Stanley F.Chen:[14] ...............................................17
2.3.3
Phương pháp SIMR và GSA, tác giả I. Dan Melamed: [10] ...............18
2.4
Nghiên cứu của các tác giả trong nước ..............................................................20
2.4.1
Nghiên cứu của tác giả Lê Hoài Nhân (2004): ....................................20
2.4.2
Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]:............................21
Phần 3..........................................................................................................................22
Cơ sở lý thuyết............................................................................................................22
3.1
Các định nghĩa....................................................................................................22
3.1.1
Phép canh lề: ........................................................................................22
3.1.2
Phép canh lề chéo.................................................................................23
3.2
Đánh giá mức độ chính xác của phép canh lề. ...................................................24
3.3
Hệ số Dice (D)....................................................................................................24
3.4
Xác suất có điều kiện:.........................................................................................24
3.5
Phân tích hồi qui tuyến tính:...............................................................................25
Phần 4..........................................................................................................................28
Phân tích giải thuật....................................................................................................28
4.1
Giải thuật Stemming:..........................................................................................28
4.2
Giải thuật phân đoạn câu: ...................................................................................32
4.3
Giải thuật canh lề văn bản theo chiều dài câu [16]: ...........................................34
4.3.1
Khung lập trình động (A Dynamic Programming Framework): .........34
4.3.2
Thuật tốn lập trình động (A Dynamic Programming Algorithm):.....37
4.4
Phương pháp canh lề sử CBA [8]:......................................................................37
4.5
Phương pháp canh lề sử dụng LSSA [1]: ...........................................................40
4.6
So sánh phương pháp LSSA với CBA: ..............................................................41
4.7
Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] ..............................46
4.8
Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn):.............................50
Phần 5..........................................................................................................................52
Hiện thực.....................................................................................................................52
5.1
Stemming: Dùng giải thuật Porter......................................................................54
5.2
Xác định từ ghép tiếng Việt và cụm từ tiếng Anh:.............................................55
5.3
Phân đoạn câu:....................................................................................................57
5.4
Canh lề câu theo chiều dài câu: ..........................................................................58
5.5
Kiểm tra tính hợp lệ của phép canh lề ................................................................62
5.6
Canh lề chéo: ......................................................................................................65
5.7
Canh lề từ: ..........................................................................................................66
5.8
Phân loại văn bản: ..............................................................................................68
Phần 6..........................................................................................................................69
Kết quả thực nghiệm .................................................................................................69
6.1
Giới thiệu chương trình: .....................................................................................69
6.2
Kết quả sau bước canh lề câu (Bước 1):.............................................................70
6.3
Kết quả sau bước canh lề chéo (Bước 2):...........................................................75
6.4
Kết quả canh lề từ:..............................................................................................76
6.5
Các chức năng khác:...........................................................................................80
6.5.1
Lưu kết quả canh lề:.............................................................................80
6.5.2
Mở lại một qui trình canh lề: ...............................................................80
6.5.3
Chạy từng bước giải thuật:...................................................................80
Phần 7..........................................................................................................................81
Kết luận.......................................................................................................................81
7.1
Tổng kết:.............................................................................................................81
7.2
Hướng mở rộng và phát triển đề tài: ..................................................................83
7.2.1
Hoàn chỉnh luận văn: ...........................................................................83
7.2.2
Phát triển theo hướng nghiên cứu: .......................................................83
7.2.3
Phát triển theo hướng ứng dụng:..........................................................83
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT .............................................85
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH .............................................87
TÀI LIỆU THAM KHẢO ...........................................................................................89
PHỤ LỤC
DANH MỤC HÌNH
Hình 2-1 Ví dụ trong mơ hình (1) của phương pháp [6].............................................13
Hình 2-2 Ví dụ trong mơ hình (2) của phương pháp [6].............................................13
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] ...............................................14
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] ...................................................15
Hình 2-5 Khơng gian văn bản song ngữ ......................................................................19
Hình 3-1 Canh lề chéo trong văn bản song ngữ...........................................................23
Hình 4-1 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức...........................34
Hình 4-2 Đường thẳng hồi qui tuyến tính....................................................................38
Hình 4-3 Biểu đồ khoảng cách.....................................................................................39
Hình 4-4 Dãy giới hạn (CB) ........................................................................................39
Hình 4-5. Kết quả thu được khi sử dụng CBA ............................................................42
Hình 4-6. Kết quả thu được khi sử dụng LSSA...........................................................42
Hình 4-7. Tính khoảng cách trong CBA......................................................................43
Hình 4-8. Kết quả canh lề sử dụng CBA .....................................................................43
Hình 4-9. Kết quả canh lề sử dụng CBA .....................................................................44
Hình 4-10. Kết quả canh lề dùng CBA ........................................................................44
Hình 4-11. Kết quả canh lề dùng LSSA ......................................................................45
Hình 4-12. Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm ...........................47
Hình 4-13. Phát hiện những đoạn canh lề sót trong giải thuật SIRM..........................48
Hình 4-14. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM. .............................49
Hình 5-1 Sơ đồ khối cho quá trình canh lề. .................................................................53
Hình 5-2. Cấu trúc CSDL từ điển song ngữ Anh-Việt ................................................54
Hình 5-3. Từ điển từ ghép tiếng Việt...........................................................................55
Hình 5-4. Từ điển cụm từ tiếng Anh............................................................................56
Hình 5-5. Danh sách từ viết tắt trong tiếng Anh..........................................................58
Hình 5-6. Tương quan chiều dài câu Anh-Việt ...........................................................60
Hình 5-7. Kết quả canh lề câu theo chiều dài câu........................................................62
Hình 6-1. Giao diện chính của chương trình ...............................................................69
Hình 6-2. Giao diện hiển thị kết quả............................................................................79
DANH MỤC BẢNG
Bảng 2-1 Kết quả canh lề của giải thuật [14]...............................................................11
Bảng 2-2 Kết quả canh lề của phương pháp [6] ..........................................................14
Bảng 2-3. Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2] ................17
Bảng 2-4. Kết quả của phương pháp [2] ......................................................................17
Bảng 4-1. Giá trị các vector trong LSSA.....................................................................41
Bảng 5-1. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn. .......................59
Bảng 5-2. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh ............................................60
Bảng 5-3. Xác suất của các phép canh lề theo [16] .....................................................61
Bảng 5-4. Xác suất của các phép canh lề Anh-Việt.....................................................61
Bảng 5-5. Đánh giá trọng số các điểm tương ứng .......................................................63
Bảng 5-6. Thống kê γ trung bình theo chiều dài block ................................................65
Bảng 6-1. Kết quả canh lề câu trong luận văn .............................................................71
Bảng 6-2. Phát hiện các phép canh lề 1-2....................................................................71
Bảng 6-3. Phát hiện các phép canh lề 1-2, 2-1............................................................72
Bảng 6-4. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng..........................73
Bảng 6-5. Canh lề 1-0 được xác định trong canh lề 2-1 .............................................74
Bảng 6-6. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu.................................75
Bảng 6-7. Ví dụ minh họa - Kết quả canh lề chéo.......................................................76
Bảng 6-8. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA .........................................77
Bảng 6-9. Ví dụ kết quả canh lề chéo cụm từ ..............................................................78
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Phần 1
Giới thiệu
Văn bản song ngữ (bitext/ bilingual text/ parallel text) là một văn bản được thể
hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngơn ngữ khác. Văn bản
song ngữ thường được sử dụng trong các tài liệu hành chính, pháp luật, tạp chí…
1.1 Bối cảnh thực hiện luận văn:
Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch
thuật của nó rất cao. Để tận dụng được lợi ích của những văn bản loại này, việc đầu
tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), tức là tìm ra được sự
tương ứng giữa các đoạn, câu trong hai ngơn ngữ của văn bản. Điều này có ý nghĩa
rất quan trọng, nó chuyển nguồn dữ liệu này thành nguồn tri thức hữu ích. Bởi vì đó
là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu song ngữ. Nó
khơng chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà nó cịn hỗ trợ cho
nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thơng tin… Ngồi ra,
canh lề văn bản cịn là một cơng cụ hữu ích để trợ giúp cho người làm công tác phiên
dịch.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương
pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối
chính xác. Trong đó phương pháp dựa vào thống kê chiếm ưu thế so với những
phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2
ngơn ngữ. Hai ngơn ngữ có cùng họ thì kết quả canh lề rất cao.
1.2 Thực trạng – Vấn đề:
Nội dung của đề tài này là canh lề văn bản Anh - Việt. Đây là 2 ngôn ngữ có
nhiều đặc điểm khác nhau nên việc ứng dụng những cơng trình nghiên cứu trước đó
cần có sự hiệu chỉnh cho phù hợp với đặc điểm của tiếng Việt. Một số tác giả trong
Trang 1
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
nước cũng đã có những nghiên cứu về vấn đề này. Các giải thuật được áp dụng gồm
phương pháp canh lề dựa vào chiều dài câu và phương pháp canh lề dựa vào từ vựng.
Giải thuật SIRM và GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều
dài câu và dựa vào từ vựng. Tuy nhiên, các nghiên cứu này dừng lại ở mức canh lề
câu, và bỏ qua yếu tố dịch chéo (các đoạn, câu trong ngôn ngữ thứ hai không theo thứ
tự tương ứmg với câu và đoạn trong ngôn ngữ thứ nhất).
1.3 Hướng giải quyết vấn đề:
Để khắc phục những vấn đề trên, tơi đã tham khảo các cơng trình nghiên cứu
mà các tác giả trong và ngoài nước đã thực hiện, tiến hành tìm hiểu những ưu, khuyết
điểm của các phương pháp này, và khả năng áp dụng vào canh lề văn bản Anh – Việt.
Tổng hợp những kiến thức đó, trên cơ sở kế thừa và cải tiến, tôi đưa ra một qui trình
canh lề mới, và hiện thực ý tưởng của mình. Qui trình bao gồm các giải thuật: xác
định từ ghép tiếng Việt, cụm từ tiếng Anh dựa vào từ điển, phân đoạn văn bản, phân
đoạn câu, canh lề câu dựa vào chiều dài câu (số lượng từ), giải thuật canh lề theo
chuỗi được sắp xếp dài nhất LSS (Longest Sorted Sequence).
1.4 Mục tiêu của luận văn:
Nghiên cứu giải thuật canh lề dựa vào chiều dài câu, giải thuật LSSA.
Xây dựng qui trình canh lề mới, nhằm xác định phép canh lề chéo trong
canh lề văn bản song ngữ Anh - Việt.
Xử lý một số ngoại lệ trong ngôn ngữ Anh – Việt và trong dịch thuật.
Tạo kho dữ liệu gồm các cặp câu Anh – Việt, phân theo lĩnh vực.
1.5 Đóng góp của luận văn:
Các phương pháp canh lề văn bản song ngữ trước đây thường bỏ qua một số
ngoại lệ trong ngôn ngữ và trong dịch thuật, ví dụ như phân đoạn khơng tương ứng,
dấu chấm trong từ viết tắt không phải là dấu kết thúc câu, trường hợp canh lề chéo,
hay trường hợp chuyển đổi từ loại (danh từ, động từ,…) trong dịch thuật. Điều này
làm cho kết quả canh lề không thể chấp nhận được khi gặp những trường hợp đặc
biệt, thường xảy ra trong văn bản song ngữ Anh –Việt. Ngoài ra, một cụm từ, một
Trang 2
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
thành ngữ khi tách ra thành từng từ hồn tồn khơng có ý nghĩa, trong tiếng Anh cũng
như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt.
Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp
tương ứng:
Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để
canh lề đoạn (paragraph), và canh lề câu (sentence). Chiều dài câu được tính theo số
lượng từ đơn có trong câu. Mơ hình lập trình động được sử dụng một cách hợp lý và
hiệu quả. Để xác định chính xác vị trí kết thúc câu (q trình phân đoạn câu), chương
trình tập hợp những qui luật, kết hợp với thống kê danh sách từ viết tắt. Giai đoạn
canh lề câu được trình bày trong mục 5.3, 5.4, phần hiện thực.
Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh và từ ghép tiếng Việt
dựa vào danh sách thống kê cụm từ tiếng Anh và từ điển từ ghép tiếng Việt. Đây là
giai đoạn phân đoạn từ (trình bày trong mục 5.2, phần hiện thực). Đây cũng là bước
chuẩn bị cho giải thuật canh lề từ.
Để tăng độ tin cậy trong bước canh lề câu, chương trình kiểm tra lại bằng cách
tính độ tương tự của hai câu đã được canh lề. Mức độ tương tự của câu được tính dựa
trên những cặp từ giống nhau trong câu, hay khi biểu diễn trong khơng gian văn bản
song ngữ, nó là điểm tương ứng thật sự. Nếu độ tương tự thấp hơn giới hạn cho phép,
chương trình bắt buộc phải tạo một tổ hợp canh lề mới cho những cặp câu chưa được
chấp nhận này, và chọn ra cách canh lề tối ưu. Đây là giai đoạn canh lề chéo (phạm
vi là các câu trong cùng một đoạn), được trình bày trong mục 5.5, 5.6, phần hiện thực.
Xử lý canh lề chéo có được các nhà nghiên cứu nói đến nhưng chưa được hiện thực.
Đây là một đóng góp của luận văn. Chương trình có thể được cải tiến để canh lề
chéo cho các câu trong toàn văn bản.
Để canh lề từ chính xác và mịn nhất (chi tiết nhất), chương trình có sử dụng
giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming). Với nhận xét là không phải
lúc nào một danh từ tiếng Anh cũng được dịch thành một danh từ tiếng Việt, một
động từ tiếng Anh được dịch thành một động từ tiếng Việt. Việc stemming giúp cho
Trang 3
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
việc nhận dạng các cặp từ giống nhau được đầy đủ hơn. Đây là một điểm mới khi áp
dụng vào canh lề từ Anh – Việt. Trong quá trình canh lề từ, chương trình cũng loại ra
những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ khơng có giá trị canh lề
(stopword). Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo
sao cho chuỗi các từ canh lề là dài nhất. Ý tưởng và chi tiết giải thuật LSSA trình bày
trong mục 4.5, phần phân tích giải thuật và mục 5.7, phần hiện thực.
Việc áp dụng các giải thuật này vào ngôn ngữ tiếng Việt đã được điều chỉnh
và cải tiến cho phù hợp với đặc điểm của tiếng Việt, và một số ngoại lệ của ngơn ngữ.
Độ chính xác của giải thuật cịn phụ thuộc vào việc thu thập một kho dữ liệu ban đầu,
ví dụ như từ điển song ngữ, danh sách từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết
tắt, từ không có giá trị canh lề (stopwords). Ngồi ra, nó cịn phụ thuộc rất lớn vào
các thông số của hệ thống, mà các thông số này cần được điều chỉnh sau quá trình
thực nghiệm. Để chạy kiểm nghiệm chương trình, các văn bản được sử dụng thuộc 2
lĩnh vực: (1)Kinh tế: các văn bản của đại sứ quán Hoa Kỳ tại Hà Nội (website:
và />và (2)Tin học: sưu tập từ nhiều nguồn khác nhau trên mạng Internet. Điều này tạo sự
thuận lợi vì một số văn bản này đã được tác giả Trần Giang Sơn tổng hợp và thử
nghiệm, tạo nên tính chính xác khi nhận xét đánh giá kết quả của giải thuật. Ngoài ra,
việc tập hợp các văn bản từ nhiều nguồn khác nhau tạo nên tính đa dạng các ngoại lệ
trong dịch thuật.
Tổng kết lại, luận văn đã phân tích một số điểm yếu cịn tồn tại trong các giải
thuật trước đây (trình bày trong phần 4 – Phân tích giải thuật) và đưa ra hướng khắc
phục. Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật rất
thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo,
mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương
trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề từ cho văn bản Anh
– Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra
được một kinh nghiệm khi nghiên cứu về canh lề.
Ngoài ra, mục tiêu của chương trình là ứng dụng canh lề văn bản song ngữ
vào các mục đích khác. Đó là xây dựng một kho ngữ liệu gồm 10.000 cặp câu đã
Trang 4
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
được canh lề phân loại theo lĩnh vực với độ chính xác 98% và đánh dấu những điểm
mốc canh lề trong câu (lưu trữ trong hệ quản trị cơ sở dữ liệu Microsoft SQL Server
2000 rất dễ tìm kiếm và truy xuất). Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo
tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn và mang tính đại diện.
Chương trình thiết kế dễ tìm hiểu và sử dụng, hiển thị kết quả rõ ràng. Kết quả
khá chính xác (98%). Chương trình nhận dạng 70% phép canh lề chéo. Độ hồn tồn
của giải thuật canh lề là 100%. Chương trình xác định khoảng 4 điểm tương ứng cho
một câu có chiều dài trung bình là 10 từ. Kết quả chi tiết thể hiện ở các bảng thống kê
trong phần 6 - Kết quả thực nghiệm.
1.6 Hướng phát triển:
Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm
và cập nhật các thông số hệ thống. Thu thập các văn bản song ngữ thuộc
nhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu.
Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Việt và
tiếng Anh (collocation) tự động theo mơ hình n-grams, xây dựng từ điển
chuyên ngành.
Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày
rõ ở phần kết luận).
1.7 Cấu trúc của luận văn: Luận văn chia làm 7 phần
Phần 1. Giới thiệu
Phần này giới thiệu chung về bối cảnh, mục tiêu, hướng thực hiện luận văn,
một số đóng góp của luận văn.
Phần 2. Các cơng trình nghiên cứu liên quan
Trình bày một số cơng trình nghiên cứu về canh lề văn bản song ngữ trên thế
giới và trong nước.
Phần 3. Cơ sở lý thuyết
Trình bày một số định nghĩa, các cơng thức tốn học, một số hệ số đánh giá
phép canh lề, và các lý thuyết xác suất có liên quan.
Trang 5
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Phần 4. Phân tích giải thuật
Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi tiết trong phần
này. Bên cạnh đó phần này cũng đưa ra lý do chọn lựa giải thuật áp dụng
trong luận văn thông qua một số phân tích và so sánh.
Phần 5. Hiện thực
Trình bày chi tiết cách hiện thực các giải thuật trong chương trình.
Phần 6. Kết quả thực nghiệm
Kết quả chạy thực nghiệm chương trình sẽ được trình bày trong phần này.
Phần 7. Kết luận
Tổng kết lại tồn bộ q trình thực hiện luận văn, những cái đã thực hiện,
những điểm còn yếu. Và phần này cũng trình bày một số hướng phát triển và
ứng dụng,
- Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển luận văn.
- Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài.
- Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữ
Anh-Việt
- Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server
Trang 6
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Phần 2
Các cơng trình nghiên cứu liên quan
Phần này trình bày một số cơng trình nghiên cứu về canh lề văn bản song ngữ
trên thế giới và trong nước. Các phương pháp được áp dụng chủ yếu phân vào các
loại sau:
2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu:
Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong những
phương pháp xuất hiện tương đối sớm. Phương pháp này không quan tâm đến yếu tố
từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản. Ý tưởng
chính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn,
các câu dài thường được dịch thành những câu dài. Chiều dài của câu có thể được
tính bằng số lượng từ hoặc số lượng kí tự trong câu.
Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theo
đoạn trước. Có thể thực hiện cơng đoạn này theo phương pháp thủ công bằng tay.
Nếu văn bản khơng được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độ
chính xác thấp hơn, và thời gian thực thi lâu hơn. Phương pháp này tỏ ra hữu hiệu đối
với cặp ngơn ngữ cùng họ, ví dụ như Anh-Pháp. Nhưng lại kém chính xác đối với
những cặp ngơn ngữ khác họ, ví dụ như Anh-Nhật, Anh-Hoa, Anh-Việt.
Lợi điểm của phương pháp này là đơn giản. Phương pháp này có thể áp dụng
cho văn bản ngắn với độ chính xác khá cao, trong khi phương pháp dựa vào từ vựng
không thể canh lề cho những văn bản ngắn, vì số lần xuất hiện của các từ trong văn
bản không đủ lớn để xác định các cặp từ tương ứng về nghĩa.
Trong phương pháp canh lề dựa vào chiều dài câu, có hai cách xác định chiều
dài câu: tính chiều dài câu dựa trên số lượng ký tự, và tính chiều dài câu dựa trên số
lượng từ. Ở phương pháp này, các tác giả: William A.Gale và Kenneth W.Church
Trang 7
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
(1991) là các tác giả được nhiều người biết đến. Hầu như tất cả các nghiên cứu sau đó
đều có sự tham khảo cơng trình nghiên cứu của họ.
2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]:
Theo phương pháp của tác giả Gale và Church thì chiều dài câu được tính
bằng số lượng ký tự có trong câu. Tác giả cho rằng một ký tự có trong ngơn ngữ S sẽ
tương ứng với một số ngẫu nhiên ký tự có trong ngơn ngữ T. Biến ngẫu nhiên này
độc lập và có phân bố chuẩn với kỳ vọng là µ và phương sai σ2.
Mục đích của giải thuật là đi tìm một tổ hợp các phép canh lề khả dĩ sao cho
tổng khoảng cách của chúng là nhỏ nhất. Các phép canh lề khả dĩ bao gồm:
Phép canh lề một-không (1-0).
Phép canh lề không-một (0-1).
Phép canh lề một-một (1-1).
Phép canh lề một-hai (1-2).
Phép canh lề hai-một (2-1).
Ngoài ra, tác giả giả thiết rằng khơng có phép canh lề chéo. Khi đó, nếu phép
canh lề thứ k là phép canh lề giữa câu thứ i của S và câu thứ j của T, thì phép canh lề
thứ k+1 chỉ có thể là phép canh lề giữa:
câu thứ i+1 của S và ∅ (1-0), hoặc
câu thứ i+1 của S và câu thứ j+1 của T (1-1), hoặc
câu thứ i+1 của S và câu thứ j+1 và j+2 của T (1-2), hoặc
câu thứ i+1 và i+2 của S và câu thứ j+1 của T (2-1), hoặc
câu thứ i+1 và i+2 của S và câu thứ j+1 và j+2 của T (2-2)
Tác giả sử dụng lập trình động để tạo ra một tổ hợp các phép canh lề sao cho tổng
khoảng cách của chúng là nhỏ nhất.
Kết quả: Canh lề các báo cáo kinh tế của Union Bank of Switzerland, gồm 3
thứ tiếng: Anh, Pháp, Đức. Với mỗi phép canh lề khả dĩ, giá trị khoảng cách được
tính tốn và lưu lại. Tỷ lệ canh lề sai: 4%
Nếu chọn 80% phép canh lề tốt nhất (là phép canh lề có khoảng cách nhỏ nhất
trong các phép canh lề kết quả) Ỉ Tỷ lệ canh lề sai: 0.7%.
Trang 8
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Ưu điểm:
Đơn giản, tốc độ thực thi nhanh,
Độ chính xác khá cao,
Khơng yêu cầu từ điển dữ liệu,
Có thể áp dụng cho cặp ngôn ngữ mới.
Nhược điểm:
Canh lề sai khi chiều dài câu trong hai ngôn ngữ quá khác biệt so với
thống kê ban đầu,
Cần canh lề đoạn trước.
2.1.2 Phương pháp của Peter F.Brown [17]:
Theo phương pháp của tác giả này thì chiều dài câu được tính bằng số lượng
từ có trong câu. Ngồi ra tác giả cịn phân chia văn bản thành các phân đoạn (bead).
Bead là một phân đoạn gồm 0, 1 hoặc 2 câu. Cũng giống như phương pháp của tác
giả Gale, Brown tiến hành canh lề các đoạn giữa hai văn bản song ngữ trước khi tiến
hành canh lề các bead. Để canh lề đoạn, tác giả dùng các ghi chú và kí hiệu đặc biệt
có sẵn trong văn bản.
Kết quả: Canh lề một phần của Canadian Hansard (Canadian Hansard là văn
bản chính thức của các cuộc họp nghị viện quốc hội Canada
Độ chính xác: 96%, cho các đoạn đã được canh lề trước.
Ưu điểm:
Đơn giản, tốc độ thực thi nhanh,
Không cần từ điển song ngữ,
Dễn dàng áp dụng được cho các cặp ngôn ngữ khác.
Nhược điểm:
Phải canh lề đoạn trước,
Độ chính xác có thể thấp hơn nhiều nếu cho canh lề tồn bộ văn bản mà
khơng được canh lề đoạn trước.
Trang 9
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
2.2 Phương pháp canh lề dựa vào từ vựng:
Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạn
trước thì giải thuật mới cho ra kết quả tốt. Trong khi đó, phương pháp canh lề theo từ
vựng thì khơng cần phải canh lề theo đoạn trước. Ngồi ra, phương pháp canh lề theo
chiều dài câu thì có thể gây nhập nhằng. Ví dụ, thay vì canh lề 1-1 là chính xác thì
phép canh lề 1-2 lại cho khoảng cách nhỏ hơn. Hay ngược lại thay vì canh lề 1-2 là
đúng thì giải thuật lại quyết định 1-1. Đây là những quyết định khó khăn của giải
thuật. Khi đó, phương pháp canh lề theo từ vựng lại tỏ ra hữu hiệu.
2.2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle
[15]:
Cải tiến giả thuật canh lề dựa vào chiều dài câu của Gale và Church, tác giả sử
dụng yếu tố từ vựng là cognates. Cognates là những từ cùng nguồn gốc. Ví dụ trong
tiếng Anh và tiếng Pháp: generation/génération và error/erreur, hay mở rộng hơn có
thể là danh từ riêng (Paris, London/Londres), biểu thức toán học, hoặc ngay cả những
ký hiệu đặc biệt (dấu chấm hỏi, dấu ngoặc,…)
Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độ
tương tự giữa chúng là: γ = 2c/(n+m), với m,n: số từ trong mỗi đoạn, c: số lượng
cognates trong đoạn.
Tuy nhiên sử dụng cognate không thể tạo nên kết quả canh lề tốt hơn canh lề
theo chiều dài câu. Tác giả kết hợp canh lề theo chiều dài câu và canh lề sử dụng
cognates. Phương pháp canh lề này được tiến hành qua 2 bước. Đầu tiên canh lề theo
chiều dài câu. Thay vì cho ra được phép canh lề tốt nhất, phương pháp này cho ra một
tập các phép canh lề tốt. Nếu kết quả này có niều hơn một phép canh lề tốt, chương
trình tiếp tục bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất.
Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dài
câu, canh lề kết hợp 2 bước như sau:
Trang 10
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
Số cặp câu
không canh lề
Phần trăm lỗi
Thời gian xử lý
HV: Lê Ngọc Sơn
Canh lề theo chiều
dài câu
128
Canh lề dùng
Cognates
171
Canh lề kết hợp 2
phương pháp
114
1.8%
2.4%
1.6%
99.2
908.1
111.4
Bảng 2-1 Kết quả canh lề của giải thuật [14]
2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]:
Tác giả nhận xét thấy rằng: câu đầu tiên trong văn bản nguồn S sẽ có nhiều
khả năng được canh lề với câu đầu tiên trong văn bản đích T. Câu cuối cùng trong
văn bản S sẽ có nhiều khả năng được canh lề với câu cuối cùng trong văn bản T (Giả
thiết không có canh lề chéo). Giải thuật canh lề như sau:
Giả sử câu đầu tiên (câu cuối cùng) của văn bản S được canh lề với câu
đầu tiên (câu cuối cùng) của văn bản T. Khi đó ta được Anchor đầu tiên.
Trong khi các câu trong văn bản chưa được canh lề tồn bộ:
a) Tạo ra các cặp câu có nhiều khả năng được canh lề với nhau AST
(Alignable Sentence Table). Khi tạo ra AST, ta loại đi các cặp câu có phép canh lề
vượt qua các điểm neo (Anchor), hoặc khoảng cách so với các neo tương ứng trong
văn bản nguồn S và văn bản đích T quá chênh lệch.
b) Dựa vào AST, tính mức độ giống nhau giữa các cặp từ trong hai ngôn ngữ.
Danh sách các cặp từ này gọi là WAT ( Word Alignment Table). Với mỗi cặp từ, ta
tính mức độ giống nhau dựa vào phân bố của chúng trong các cặp câu thuộc AST.
Sau đó, trong WAT, ta chọn ra các cặp từ có nhiều khả năng là tương ứng nhất dựa
vào mức độ giống nhau và tần suất xuất hiện của chúng. Cặp từ nào có độ giống
nhau lớn và tần suất xuất hiện cao thì độ tin cậy càng cao.
c) Tìm cặp câu trong AST có chứa nhiều cặp từ tương ứng nhất. Đây có thể là
cặp câu tương ứng trong kết quả cuối cùng. Một khi hai câu đã được canh lề, chúng
đuợc xem như là những Anchor mới, ta thêm các Anchor này vào danh sách các
Anchor và lặp lại bước a) ở trên.
Trang 11
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Sau mỗi vòng lặp, ta được nhiều Anchor hơn, số lượng các cặp câu trong
AST giảm đi, các cặp từ trong WAT có độ tin cậy cao hơn.
Kết quả: Tác giả khơng đưa ra độ chính xác và độ hồn tồn. Chỉ đưa ra một
ví dụ với độ chính xác đến 99.7%.
Ưu điểm:
Giải quyết nhập nhằng trong canh lề theo chiều dài câu.
Không yêu cầu từ điển song ngữ.
Nhược điểm:
Tốc độ chậm hơn so với canh lề theo chiều dài câu.
Không canh lề được cho các văn bản có kích thước ngắn.
2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi
Krishna A, Rajev Sangal, Sushma Bendre [9]:
Dùng giải thuật canh lề dựa vào từ vựng để canh lề cho văn bản song ngữ
Anh-Hindi. Tác giả nhận thấy sự khác biệt giữa tiếng Anh và tiếng Hindi là: tiếng
Anh là ngôn ngữ có thứ tự cố định (fixed-word order), trong khi tiếng Hindi thì có thứ
tự tự do (free-word order), nghĩa là nếu thay đổi trật tự các từ thì khơng làm thay đổi
nghĩa. Ngoài ra, chiều dài câu trong hai ngôn ngữ không cân xứng nên phương pháp
canh lề theo chiều dài câu gặp nhiều khó khăn.
Q trình xử lý gồm 3 giai đoạn: Chunking, Scoring, Alignment.
Chunking: phân những câu trong hai ngơn ngữ thành các cụm từ. Có hai
loại: cụm danh từ và cụm động từ. Đồng thời cũng xác định được từ mang
nghĩa chính trong cụm từ.
Scoring: tính điểm cho các cụm từ, để biết được mức độ giống nhau của
chúng.
Alignment : canh lề dựa vào điểm số và những tiêu chí khác.
Kết quả: Dữ liệu dùng để kiểm tra giải thuật là tạp chí song ngữ “IndiaToday” gồm 140 văn bản của nhiều kỳ xuất bản, canh lề được 3021 câu, trong đó
Trang 12
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
chính xác là 2849 câu, đạt tỉ lệ 94.3%. Nếu sử dụng giải thuật canh lề của Gale và
Church thì đạt độ chính xác là 62%.
2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]:
Nhóm tác giả này sử dụng phương pháp canh lề theo từ và cụm từ, trên cơ sở
kết hợp thông tin từ vựng và cú pháp để canh lề cho văn bản Anh-Hàn. Tác giả đưa ra
3 mơ hình: (1) Canh lề từ, (2) Canh lề theo cụm từ, và (3) Canh lề kết hợp hai
phương pháp kia.
Hình 2-1 Ví dụ trong mơ hình (1) của phương pháp [6]
Khó khăn của mơ hình 1 (Canh lề từ) là đôi khi không thể ánh xạ từ sang từ
(word-to-word). Ví dụ một cụm danh từ (NP) tiếng Hàn có thể tương ứng với cụm
giới từ (PP) trong tiếng Anh. Nhưng một giới từ trong cụm giới từ tiếng Anh khơng
có một từ tương ứng trong tiếng Hàn. Hoặc một cụm từ trong tiếng Anh, chỉ dịch
thành một từ trong tiếng Hàn. Do đó, mơ hình canh lề cụm từ là cần thiết.
Hình 2-2 Ví dụ trong mơ hình (2) của phương pháp [6]
Trang 13
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi
HV: Lê Ngọc Sơn
Trong mô hình 2 (canh lề theo cụm từ), để canh lề theo cụm từ, vấn đề xác
định và phân loại cụm từ là hết sức quan trọng và khó khăn. Một giới từ trước một
cụm danh từ phát triển thành cụm giới từ. Ngoài ra cần tách những cụm từ lồng nhau.
Ví dụ: “by the first word in the string” được tách thành “by the first word” và “in the
string”.
Kết quả: Tiến hành canh lề cho văn bản Anh-Hàn, được lấy từ trang Web
“Korea Times”. Kho DL gồm có 13958 cặp câu, trong đó có 200 cặp câu dùng để
kiểm tra. Tỉ lệ sai được ghi lại trong bảng dưới đây khi áp dụng mơ hình 1, mơ hình 2
hoặc kết hợp cả ba mơ hình:
Mơ hình
Tỉ lệ sai (AER)
Mơ hình 1
0.33
Mơ hình 2
0.24
Mơ hình 3
0.21
Bảng 2-2 Kết quả canh lề của phương pháp [6]
2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8]
Tác giả giới thiệu một phương pháp canh lề song ngữ độc lập với ngôn ngữ là
sử dụng lại tri thức học được sử dụng thuật toán dãy giới hạn (Confidence Bands
Algorithm – CBA). Hệ thống trích ra những cặp từ tương đồng và sử dụng nó để tạo
ra những điểm mốc mới. Những điểm gây nhiễu (noisy points) có thể được lọc ra
dùng biểu đồ khoảng cách:
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8]
Trang 14