1
Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
NGUYỄN VĂN HIẾU
ĐỀ TÀI LUẬN VĂN THẠC SĨ
Chuyên ngành : Khoa học máy tính
CHUYỂN NGỮ VÀ XỬ LÝ NHẬP NHẰNG CHO
CỤM DANH TỪ VIỆT - ANH
TP. HỒ CHÍ MINH, tháng 09 năm 2007
2
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học :.............................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : ...................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : ...................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN
THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . . tháng . . . . năm . . . . .
3
TRƯỜNG ĐẠI HỌC BÁCH KHOA
PHÒNG ĐÀO TẠO SĐH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
ĐỘC LẬP – TỰ DO – HẠNH PHÚC
Tp. HCM, ngày . . . . tháng . . . . năm 200. .
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ........................................................................Phái: ...............................
Ngày, tháng, năm sinh: ..............................................................Nơi sinh: ........................
Chuyên ngành: ..........................................................................MSHV:............................
I- TÊN ĐỀ TÀI: ................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
II- NHIỆM VỤ VÀ NỘI DUNG:
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
III- NGÀY GIAO NHIỆM VỤ (Ngày bắt đầu thực hiện LV ghi trong Quyết định
giao đề tài): .........................................................................................................................
IV- NGÀY HOÀN THÀNH NHIỆM VỤ:.......................................................................
V- CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): .......................................
.............................................................................................................................................
CÁN BỘ HƯỚNG DẪN
(Học hàm, học vị, họ tên và chữ ký)
CN BỘ MÔN
QL CHUYÊN NGÀNH
Nội dung và đề cương luận văn thạc sĩ đã được Hội đồng chun ngành thơng qua.
TRƯỞNG PHỊNG ĐT – SĐH
Ngày
tháng
năm
TRƯỞNG KHOA QL NGÀNH
4
LỜI CẢM ƠN
Đầu tiên, tơi xin bày tỏ lịng biết ơn sâu sắc tới công lao của PGS.TS. Phan Thị
Tươi, người đã tận tình hướng dẫn và giúp đỡ tơi trong trong suốt q trình làm luận
văn này.
Tơi tỏ lịng cám ơn chân thành tới các cơ quan và cá nhân sau đây:
- Phòng Đào tạo sau đại học, trường Đại học Bách khoa thành phố Hồ Chí
Minh.
- Các thầy, cô trong khoa Công Nghệ Thông Tin trường Đại học Bách khoa
thành phố Hồ Chí Minh .
- Th.S Nguyễn Chánh Thành: NCS ngành Khoa học máy tính trường Đại học
Bách khoa thành phố Hồ Chí Minh.
- Tồn thể những người thân trong gia đình và bạn bè thân hữu.
Đã quan tâm, giúp đỡ, động viên, tạo điều kiện thuận lợi cho tơi hồn thành luận
văn.
TP Hồ Chí Minh, Tháng 07 năm 2007
Tác giả
Nguyễn Văn Hiếu
5
TĨM TẮT LUẬN VĂN
1. Mục đích nghiên cứu: Đưa ra một mơ hình và giải pháp hỗ trợ việc chuyển ngữ
và xử lý nhập nhằng cho cụm danh từ tiếng Việt.
2. Cấu trúc của luận văn: Luận văn dài 70 trang, gồm 5 phần: Mở đầu, Tổng
quan các nghiên cứu có liên quan đến đề tài, Cơ sở lý luận của đề tài, Chuyển ngữ và
xử lý nhập nhằng cụm danh từ, Kết luận và khuyến nghị hướng phát triển.
Trong phần mở đầu, chúng tơi trình bày lý do chọn đề tài, nội dung và nhiệm vụ
của đề tài, ý nghĩa khoa học và thực tiễn của đề tài. Trong phần tổng quan, chúng tơi
trình bày các kết quả nghiên cứu trên thế giới và ở Việt nam có liên quan đến đề tài,
gồm các phương pháp để xây dựng ma trận xác suất chuyển ngữ như “phương pháp mơ
hình kết hợp”, “phương pháp lặp”; các phương pháp chuyển ngữ dựa trên sự chuyển
đổi như “chuyển đổi case-frame”, “chuyển đổi cấu trúc vị từ - đối số”. Trong phần cơ
sơ lý luận, chúng tơi trình bày những lý luận cần thiết cho việc xây dựng giải pháp
chuyển ngữ và xử lý nhập nhằng cụm danh từ tiếng Việt, bao gồm những vấn đề về
phương pháp xây dựng từ điển điện tử, kho ngữ liệu, xây dựng ma trận xác suất chuyển
ngữ bằng phương pháp lựa chọn, chuyển ngữ dựa trên luật cố định, cấu trúc cụm danh
từ tiếng Việt, cấu trúc cụm danh từ tiếng Anh, sự khác biệt giữa hai cấu trúc và những
nhân tố ảnh hưởng đến sự khác biệt đó. Trong phần chuyển ngữ và xử lý nhập nhằng
cụm danh từ, chúng tơi đưa ra mơ hình và giải pháp để chuyển ngữ và xử lý nhập
nhằng. Việc chuyển ngữ và xử lý nhập nhằng được tiến hành theo ba bước: Tách cụm
danh từ phức tạp thành các cụm danh từ cơ sở, chuyển ngữ và xử lý nhập nhằng cho
các cụm danh từ cơ sở, kết hợp các cụm danh từ cơ sở để tạo cụm danh từ phức tạp kết
quả. Đồng thời chúng tôi cũng trình bày mơ hình cài đặt hệ thống cũng như các kết quả
thực nghiệm.Và cuối cùng từ các kết quả nghiên cứu và thực nghiệm, chúng tơi trình
bày các kết luận và những hướng phát triển của đề tài.
6
MỤC LỤC
Nội dung
Trang
MỞ ĐẦU
1
CHƯƠNG 1. TỔNG QUAN CÁC NGHIÊN CỨU TRÊN THẾ GIỚI
5
VÀ VIỆT NAM CÓ LIÊN QUAN ĐẾN ĐỀ TÀI
1.1. Xây dựng ma trận xác suất chuyển ngữ
5
1.1.1. Phương pháp mơ hình kết hợp cực đại
5
1.1.2. Phương pháp lặp
9
1.2. Dịch máy
11
1.2.1. Sơ lược về dịch máy
11
1.2.2. Chiến lược dịch máy dựa trên sự chuyển đổi
12
1.2.3. Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy
13
1.3. Kết luận chương 1
16
CHƯƠNG 2. CƠ SỞ LÝ LUẬN CỦA ĐỀ TÀI
18
2.1. Từ điển điện tử
18
2.1.1. Từ điển dành cho máy
18
2.1.2. Cấu trúc vĩ mô và vi mô của từ điển
19
2.1.3. Các vấn đề về tiếng Việt cần xét khi xây dựng từ điển
22
2.1.4. Phương pháp xây dựng bộ từ điển dữ liệu
23
2.2. Kho ngữ liệu
25
2.2.1. Khái niệm
25
2.2.2. Xây dựng kho ngữ liệu
25
2.2.3. Khai thác kho ngữ liệu
28
2.3. Xây dựng ma trận xác suất chuyển ngữ dùng phương pháp lựa chọn
28
2.4. Dịch máy
30
2.4.1. Dịch máy dựa trên tập luật cố định
31
2.4.2. Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định
32
7
2.5. Cấu tạo cụm danh từ Anh - Việt
33
2.5.1. Cấu tạo cụm danh từ tiếng Việt
33
2.5.2. Cấu tạo cụm danh từ tiếng Anh
38
2.5.3. Những khác biệt trong cấu trúc tiếng Việt so với tiếng Anh
40
2.5.4. Các nhân tố ảnh hưởng đến sự khác biệt
42
2.6. Kết luận chương 2
44
CHƯƠNG 3. CHUYỂN NGỮ VÀ XỬ LÝ NHẬP NHẰNG CHO CỤM
45
DANH TỪ VIỆT - ANH
3.1. Một số vấn đề lý thuyết
45
3.1.1.Giải thuật tách cụm danh từ phức tạp
45
3.1.2. Kết hợp các cụm danh từ cơ sở thành cụm danh từ phức tạp
46
3.1.3.Thu thập các luật chuyển đổi cụm danh từ cơ sở
47
3.2.Giải thuật chuyển ngữ và xử lý nhập nhằng
48
3.3.Cài đặt và thực nghiệm
56
3.3.1. Cài đặt
56
3.3.2. Thực nghiệm
61
3.4. Kết luận chương 3
67
KẾT LUẬN VÀ KHUYẾN NGHỊ HƯỚNG PHÁT TRIỂN
69
1. KẾT LUẬN
69
2. KHUYẾN NGHỊ MỘT SỐ HƯỚNG ĐỂ PHÁT TRIỂN ĐỀ TÀI
70
PHỤ LỤC
71
TÀI LIỆU THAM KHẢO
75
8
DANH MỤC CÁC BẢNG
BẢNG
TRANG
Bảng 2.1 Cấu trúc của mục từ trong MRD
22
Bảng 2.2 Các dấu thanh trong tiếng Việt
22
Bảng 2.3 Cấu trúc của “tiếng” trong tiếng Việt
22
Bảng 2.4 Cấu trúc bảng băm của từ điển
23
Bảng 2.5 Cấu trúc cụm danh từ tiếng Việt
35
Bảng 2.6 Vị trí các từ trong cụm danh từ tiếng Anh
42
Bảng 2.7 Vị trí các từ trong cụm danh từ tiếng Việt
42
Bảng 3.1 Độ tương tự của 2 từ
53
Bảng 3.2 Xác suất bi-gram
54
9
DANH MỤC CÁCH HÌNH
HÌNH
TRANG
Hình1.1 Mạng liên kết trong phương pháp lặp
10
Hình 2.1 Giải thuật tính tần số đồng xuất hiện của phương pháp lựa chọn
30
Hình 2.2 Sự chuyển đổi cây cú pháp trong phương pháp dịch máy dựa trên luật
32
Hình 3.1 Giải thuật chuyển ngữ và xử lý nhập nhằng cụm danh từ tiếng Việt
49
Hình 3.2. Mơ hình cài đặt hệ thống
56
Hình 3.3. Giao diện chương trình
60
Hình 3.4. Phương pháp thực nghiệm
62
10
MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Trong xã hội hiện đại, thơng tin là chìa khóa của sự thành cơng. Chính vì vậy,
việc có thể tìm kiếm, truy cập và rút trích các thơng tin quan trọng là một nhu cầu rất
thiết yếu. Để đáp ứng nhu cầu này người ta xây dựng các hệ thống truy xuất thông tin
chủ yếu dựa vào ngôn ngữ tiếng Anh và chúng đã thể hiện tính hiệu quả trong các ứng
dụng thực tế.
Song hiện nay môi trường World Wide Web (WWW) ngày càng phát triển to
lớn và vấn đề đa ngôn ngữ trên WWW được quan tâm rất nhiều do người sử dụng ở
các quốc gia khác nhau ln có nhu cầu bản địa hóa thơng tin trong việc truy vấn. Để
có thể giải quyết yêu cầu này người ta cần phải có một hệ thống truy xuất thơng tin
xun ngơn ngữ, đó chính là lĩnh vực Cross Language Information Retrieval (CLIR).
Hệ thống tìm kiếm thơng tin xun ngơn ngữ (CLIR) là hệ thống tìm kiếm cho
phép người dùng nhập câu truy vấn bằng một ngơn ngữ để tìm kiếm tài liệu trong một
ngơn ngữ khác.
Vì câu truy vấn do người dùng nhập vào và các tài liệu cần tìm kiếm thuộc các
ngơn ngữ khác nhau nên cần phải có qui trình chuyển ngữ và quy trình tìm kiếm trên
các hệ tìm kiếm đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện nay thực hiện rất tốt qui trình
tìm kiếm đơn ngữ. Do đó, vấn đề chính hiện nay là chúng ta phải xây dựng được qui
trình chuyển ngữ hoạt động có hiệu quả nhất.
Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR,
trong đó nổi cộm nhất là vấn đề nhập nhằng ngữ nghĩa khi chuyển ngữ. Vì vậy, giải
quyết nhập nhằng ngữ nghĩa là một vấn đề cốt lõi. Giải quyết tốt vấn đề này sẽ giúp
cho hệ chuyển ngữ có chất lượng tốt hơn. Bên cạnh đó, cũng góp phần giúp cho máy
tính có khả năng hiểu được ngôn ngữ tự nhiên, trở nên gần gũi hơn với con người.
Có nhiều cách tiếp cận về chuyển ngữ trong hệ thống CLIR, những cách tiếp
cận này thường được phân loại thành 3 nhóm chính đó là: “Query Translation”, xử lý
theo hướng chuyển ngữ cho truy vấn ở ngôn ngữ nguồn cho phù hợp với ngôn ngữ của
11
thơng tin cần tìm; “Document Translation”, xử lý theo hướng chuyển ngữ cho tài
liệu/thơng tin cần tìm cho phù hợp với ngôn ngữ của truy vấn; và “Interlingual
Techniques”, kết hợp hai loại ban đầu. Trong các cách tiếp cận nêu trên, chúng tôi
chọn hướng chuyển ngữ truy vấn.
Đối với việc chuyển ngữ truy vấn, có ba hướng tiếp cận để có thể tạo ra các bản
dịch là:
- Áp dụng một hệ thống dịch máy để dịch toàn bộ truy vấn sang ngơn ngữ đích.
- Sử dụng từ điển song ngữ để tạo ra một bản dịch có thể trong ngơn ngữ đích
cho các từ hay cụm từ trong ngơn ngữ nguồn.
- Sử dụng một kho ngữ liệu song ngữ để ước lượng xác suất để một từ w trong
ngôn ngữ nguồn có thể được dịch thành từ w’ trong ngơn ngữ đích.
Người ta gặp một vài trở ngại khi chuyển ngữ theo hướng tiếp cận dựa trên ngữ
liệu song ngữ. Đó là vì vẫn cịn có nhiều ngơn ngữ chưa có kho ngữ liệu song ngữ đủ
lớn để ước lượng các xác suất chuyển ngữ. Thứ hai, hầu hết các kho ngữ liệu song ngữ
thuộc về một lĩnh vực riêng biệt nào đó, vì vậy nó tạo ra một sự thiên vị và làm cho các
xác suất chuyển ngữ học được kém độ tin cậy khi áp dụng vào những lĩnh vực khác.
Một nhược điểm nữa là các xác suất chuyển ngữ nhận được từ kho ngữ liệu song ngữ
thông thường dựa trên việc ánh xạ từng từ.
Những hướng tiếp cận dựa trên từ gần đây đã bị thay thế bởi những hướng tiếp
cận dựa trên cụm từ. Các nghiên cứu thực nghiệm của các tác giả trên thế giới đã chỉ ra
rằng hướng tiếp cận này tạo ra những kết quả chuyển ngữ với chất lượng tốt hơn đáng
kể[18]. Mơ hình dựa trên cụm từ sử dụng xác suất chuyển ngữ cho một chuỗi các từ
liên tiếp chứ không phải cho những từ riêng biệt. Thuận lợi của phương pháp này là ta
có thể tận dụng được nhiều thơng tin về ngữ cảnh hơn. Mặt khác, việc tạo ra những kết
quả dịch trôi chảy (theo đúng thứ tự trong ngơn ngữ đích) có thể có những tác động
tích cực đối với việc lựa chọn những cụm từ chuyển ngữ chính xác và tất nhiên sẽ tăng
hiệu quả của việc truy xuất xuyên ngôn ngữ.
12
Đối với những cặp ngôn ngữ như Pháp - Anh, Đức - Anh, ... do có sẵn những
kho ngữ liệu song ngữ lớn, người ta có thể tiếp cận theo hướng liên kết các cặp câu rồi
rút trích các cụm từ.
Tuy nhiên, đối với tiếng Việt, vì khơng có kho ngữ liệu song ngữ Anh - Việt đủ
lớn nên chúng tôi sử dụng kết hợp từ điển song ngữ, từ điển cụm từ đơn ngữ, kho ngữ
liệu đơn ngữ và từ điển các luật chuyển đổi để chuyển ngữ các cụm từ. Cách làm này
tận dụng được các kho ngữ liệu đơn ngữ tiếng Anh rất lớn và các từ điển điện tử song
ngữ đang có sẵn, đồng thời tránh được việc phải xây dựng các kho ngữ liệu song ngữ,
bởi để xây dựng được một kho ngữ liệu song ngữ đủ lớn địi hỏi rất nhiều thời gian và
cơng sức.
Các cụm từ trong tiếng Việt có thể là cụm danh từ, cụm động từ, cụm tính từ,
cụm số từ,...Tuy nhiên, cụm danh từ và cụm động từ là hai loại cụm từ có cấu trúc
phức tạp và được sử dụng phong phú nhất. Chính vì vậy chúng tơi chọn “chuyển ngữ
và xử lý nhập nhằng cho cụm danh từ Việt - Anh” làm đề tài nghiên cứu.
2. MỤC TIÊU CỦA ĐỀ TÀI
Đưa ra một mơ hình và giải pháp hỗ trợ việc chuyển ngữ và xử lý nhập nhằng
cho cụm danh từ tiếng Việt.
3. NHIỆM VỤ CỦA ĐỀ TÀI
- Tìm hiểu đặc điểm ngữ pháp tiếng Việt và tiếng Anh, đặc biệt là về cấu trúc
cụm danh từ.
- Tìm hiểu các phương pháp xử lý nhập nhằng ngữ nghĩa khi chuyển ngữ.
- Đề nghị một mơ hình chuyển ngữ và xử lý nhập nhằng cho cụm danh từ tiếng
Việt.
- Hiện thực mơ hình và tiến hành thực nghiệm, đánh giá độ chính xác, và hiệu
quả của chương trình.
4. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
- Đưa ra được một mơ hình hỗ trợ việc chuyển ngữ và xử lý nhập nhằng cho
cụm danh từ tiếng Việt.
13
- Đưa ra các giải thuật để tiền xử lý cụm danh từ tiếng Việt.
- Kết hợp các phương pháp “giao tập hợp” và “luật cố định” để chuyển ngữ cụm
danh từ.
- Đưa ra phương pháp dùng xác suất để xử lý nhập nhằng.
(Chúng tôi đã tập hợp các kết quả nghiên cứu để viết một bài báo và đã được
chấp nhận tại hội thảo ICADL)
- Đề tài có thể ứng dụng như là một bước của quá trình chuyển ngữ và xử lý
nhập nhằng truy vấn.
14
CHƯƠNG 1
TỔNG QUAN NHỮNG NGHIÊN CỨU TRÊN THẾ GIỚI VÀ VIỆT NAM
CÓ LIÊN QUAN ĐẾN ĐỀ TÀI
Trong chương này, chúng tơi trình bày các nghiên cứu về chuyển ngữ và xử lý
nhập nhằng của các tác giả trên thế giới và Việt nam có liên quan đến đề tài. Những
nghiên cứu này đã gợi ra cho chúng tôi các ý tưởng và phương pháp để xây dựng mơ
hình chuyển ngữ và xử lý nhập nhằng trong đề tài. Chúng tôi sẽ trình bày trong chương
này các phương pháp xây dựng “ma trận xác suất chuyển ngữ” và các phương pháp
“chuyển ngữ dựa trên sự chuyển đổi cấu trúc.”
Tổng quan những nghiên cứu trên thế giới
1. 1. Xây dựng ma trận xác suất chuyển ngữ
1.1.1. Phương pháp mơ hình kết hợp cực đại
Mơ hình kết hợp cực đại ước lượng xác suất chuyển ngữ cho các từ truy vấn dựa
trên việc thống kê sự đồng xuất hiện của các từ và việc ước lượng đó được thực hiện
đồng thời. Trong mơ hình này, việc ước lượng xác suất chuyển ngữ cho tất cả các từ
truy vấn được thực hiện chính xác, nhanh chóng nhờ sử dụng phương pháp lập trình
bậc hai và dựa trên nguyên lý là cực đại sự kết hợp tổng thể của tồn bộ câu truy vấn
[15].
Khi trình bày mơ hình kết hợp cực đại tác giả đã đưa ra một số quy ước sau:
“Ngôn ngữ nguồn” đề cập đến ngơn ngữ của truy vấn
“Ngơn ngữ đích” đề cập đến ngơn ngữ của tài liệu tìm được.
Để phân biệt ngơn ngữ nguồn và ngơn ngữ đích, một chỉ số s được sử dụng cho
bất kỳ biến nào liên quan đến ngôn ngữ nguồn và một chỉ số t được sử dụng cho bất kỳ
biến nào liên quan đến ngơn ngữ đích.
Cho một truy vấn trong ngơn ngữ nguồn, ký hiệu bởi:
qs = w 1s w 2s ... w ms
s
15
với ms là số các từ phân biệt trong qs. Gọi mt là tổng số từ chuyển ngữ phân biệt được
cung cấp bởi từ điển cho tất cả các từ trong truy vấn qs. Gọi ma trận T = (tk,j)ms
t
xm
là
một phần của từ điển song ngữ liên quan đến truy vấn qs. Một phần tử tk,j trong T bằng
1 nếu từ thứ j trong ngơn ngữ đích là một từ chuyển ngữ cho từ thứ k trong ngôn ngữ
nguồn, ngược lại tk,j bằng 0.
Ngoài ra ký hiệu rk cũng sẽ được dùng để biểu diễn tập tất cả các từ chuyển ngữ
cho từ truy vấn w ks trong qs.
Mơ hình hóa sự khơng chắc chắn
Khi chuyển ngữ, mơ hình kết hợp cực đại sử dụng xác suất chuyển ngữ để duy
trì sự khơng chắc chắn.
Gọi pk,j là xác suất chuyển ngữ một từ w ks trong ngôn ngữ nguồn thành từ w tj
trong ngơn ngữ đích, với ngữ cảnh của truy vấn qs, pk,j được định nghĩa như sau:
Bằng cách gộp các xác suất chuyển ngữ cho tất cả các từ trong qs, tác giả định
nghĩa một ma trận P như sau:
Theo luật Bayes, xác suất này được tính như sau:
Lấy logarit 2 vế, thu được:
16
Ở đây:
- Pr(wt | dt) là mơ hình đơn ngữ cho tài liệu dt trong ngơn ngữ đích.
- Pr(wt | ws) là xác suất chuyển ngữ ws thành wt.
- Pr(ws | qs) là mơ hình đơn ngữ cho truy vấn qs trong ngôn ngữ nguồn. (Đây
cũng được xem là trọng số gán cho mỗi từ truy vấn ws. Để đơn giản, tác giả đã giả sử
tất cả các từ truy vấn trong ngơn ngữ nguồn có cùng trọng số).
Mơ hình kết hợp cực đại
Phần chính yếu của mơ hình là xây dựng ma trận xác suất chuyển ngữ cho một
truy vấn. Để làm được điều này, trước hết tác giả định nghĩa sự kết hợp tổng thể cho
một truy vấn là gì, sau đó xây dựng một ma trận xác suất chuyển ngữ để cực đại sự kết
hợp tổng thể trên. Tác giả đưa ra phép đo xác suất kết hợp tổng thể của truy vấn như
sau:
sj,j’ là phép đo sự tương tự giữa w tj và w tj ' và được tính theo cơng thức:
Với
- Pr(w tj ) là xác suất unigram cho w tj
- Pr(w tj , w tj ' ) là xác suất liên kết để w tj và w tj ' cùng xuất hiện trong một tài
liệu.
Các xác suất trên có thể đạt được bằng cách đếm tần suất xuất hiện của các từ
đơn cũng như phải đếm tần suất đồng xuất hiện của cả 2 từ.
Bằng cách sử dụng ký hiệu ma trận sự kết hợp tổng thể của truy vấn được biểu
diễn lại theo công thức:
17
(8)
Để cực đại Co(qs; T) phải giải bài toán tối ưu sau:
Giải bài tốn tối ưu hóa
Bài tốn tối ưu hóa ở trên là bài tốn lập trình bậc hai (QP Problem). Để biểu
diễn bài toán ở dạng QP, tác giả định nghĩa:
với
là tích kronecker thì:
Với các biến đổi 12 – 18, bài tốn tối ưu hóa bây giờ trở thành
Bài tốn này có thể giải quyết một cách hiệu quả bằng cách sử dụng QP package
của MATLAB.
18
1.1.2. Phương pháp lặp
1.1.2.1. Giới thiệu phương pháp
Xác định xác suất chuyển ngữ là một trong những yếu tố quan trọng nhất tác
động đến hiệu quả của việc chuyển ngữ truy vấn trong một hệ thống CLIR. Tác giả đã
trình bày một hướng tính các xác suất chuyển ngữ bằng cách sử dụng một từ điển song
ngữ và một kho ngữ liệu đơn ngữ trong ngơn ngữ đích. Tác giả sử dụng phương pháp
học máy dựa trên việc cực đại giá trị kỳ vọng để tính các xác suất. Các xác suất chuyển
ngữ trên được sử dụng như là trọng số cho các từ truy vấn và được tích hợp vào một
khơng gian vector tìm kiếm [17].
Hướng tiếp cận trên lặp lại việc tính tần số đồng xuất hiện của các cặp từ nên nó
sẽ ít gặp phải vấn đề dữ liệu thưa. Ngoài ra, trong phương pháp này tác giả không sử
dụng kho ngữ liệu song ngữ nên phương pháp có thể áp dụng được cho những ngơn
ngữ ít phổ biến và khơng có các kho ngữ liệu song ngữ đủ lớn, đồng thời cịn có thể áp
dụng cho nhiều lĩnh vực khác nhau vì tạo ra một kho ngữ liệu đơn ngữ cho riêng một
miền nào đó thì rất dễ dàng.
Nguyên lý của phương pháp lặp là sử dụng một giải thuật lặp để xác định xác
suất chuyển ngữ nhằm cực đại giá trị kỳ vọng.
1.1.2.2. Giải thuật lặp
Hướng tiếp cận của tác giả là dựa trên tần số đồng xuất hiện giữa các cặp từ.
Các cặp từ được coi là đồng xuất hiện nếu chúng cùng nằm trong một cửa sổ từ nào đó.
Sự đồng xuất hiện linh động hơn so với n-gram vì nó khơng khơng ràng buộc về sự kề
nhau và thứ tự của các từ.
Giả sử có 3 từ si, sj, sk mà:
si có thể dịch thành ti,1 ; ti,2 ; ti,3
sj có thể dịch thành tj,1 ; tj,2
sk có thể dịch thành tk,1
19
Hình1.1. Mạng liên kết trong phương pháp lặp
Gán :
WT (ti,1 | si) = WT (ti,2 | si) = WT (ti,3 | si) = 1/3
WT (tj,1 | sj) = WT (tj,2 | sj) = 1/2
WT (tk,1 | sk) = 1
Tổng quát, nếu t ∈ tr(si) với tr(si) là tập hợp các các từ tương ứng của si trong
ngơn ngữ đích. Thì
W T0 = (t | si) =
1
(1)
Card (tr ( si ))
lặp lại việc tính các trọng số
W Tn (t | si) = W Tn −1 (t | si) +
∑
W L (t , t ' ) WT (t ' | si ) (2)
t '∈inlink ( t )
với inlink(t) là tập hợp các từ có liên kết với t, ví dụ inlink (ti,2) = {tj,1 , tj,2 , tk,1}
thực hiện chuẩn hóa
n
T
W (t | si) =
∑
WTn (t | si )
tr ( si )
m =1
WTn (t i ,m | si )
(3)
20
Lặp lại bước 2 và bước 3 cho đến khi sự thay đổi trọng số nhỏ hơn một ngưỡng
Θ cho trước. Tức là nếu W Tn là một vector chứa tất cả các trọng số trong mạng ở bước
lặp thứ n thì giải thuật dừng nếu
| W Tn - W Tn −1 | 1 < Θ
Tác giả định nghĩa chuẩn | . |1 như sau:
V = (V1, V2, ...,Vn)
| V |1 =
n
∑| V
k =1
k
|
WL có thể có nhiều cách tính, có thể kể đến một số phương pháp như:
WL(t,t’) = log2
p(t , t ' )
p (t ) p (t ' )
p(t,t’) = (số lần t và t’ cùng xuất hiện trong cửa sổ )/( tổng số cửa sổ trong kho ngữ liệu)
WL(t,t’) =
2 freq(t , t ' )
freq(t ) freq(t ' )
Freq(t,t’) = số lần t và t’ cùng xuất hiện trong kho ngữ liệu
Freq (t) = số lần t xuất hiện trong kho ngữ liệu
1.2. Dịch Máy
1.2.1. Sơ lược về dịch máy
Dịch máy đã chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là
một bài tốn khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Việc xây dựng
được một hệ dịch tự động cho kết quả tốt là cả một quá trình phức tạp và phụ thuộc rất
nhiều vào các ngôn ngữ cần dịch. Điều này khiến cho dịch máy đã từng lâm vào một
thời kỳ “khủng hoảng” về phương pháp xây dựng một hệ dịch.
Từ năm 1960, sau một thập kỷ ra đời, dịch máy đã có nhiều chiến lược, phương
pháp rõ ràng hơn cũng như mục tiêu của hệ dịch máy được đặt ra sát với thực tế hơn.
Người ta nhận thấy rằng tham vọng xây dựng được một hệ dịch tự động có khả năng
dịch tất cả mọi câu của một ngôn ngữ tự nhiên là điều khơng tưởng, vì vậy, mục tiêu hệ
21
dịch phải thu gọn lại trong một lĩnh vực hẹp để hạn chế bớt tính nhập nhằng của ngơn
ngữ.
Các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là dịch trực
tiếp, dịch thơng qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Trong thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính hiệu
quả và tiềm năng của nó [2]. Tùy thuộc vào hai ngôn ngữ cần dịch mà hệ thống có thể
thiết kế các khối phân tích, chuyển đổi, tái tạo với độ phức tạp thích hợp. Một số hệ
dịch dựa trên chuyển đổi tiêu biểu như hệ dịch Anh-Pháp METEO được đưa vào sử
dụng để dịch các bản tin dự báo thời tiết; hệ dịch GETA (Đại học Grenoble, 1971),...
Trong hệ dịch dựa trên sự chuyển đổi, chuyển đổi cây cú pháp giữ vai trò quyết
định chất lượng hệ dịch. Chuyển đổi cây cú pháp là việc thay đổi trật tự, chèn, xoá các
thành phần trong cây cú pháp của câu nguồn sao cho sau khi hoàn tất việc gắn nghĩa
chúng ta sẽ thu được câu đích có trật tự từ hợp lý. Chúng tơi sẽ trình bày cụ thể về
chiến lược dịch máy dựa trên sự chuyển đổi trong các mục tiếp theo.
1.2.2. Chiến lược dịch máy dựa trên sự chuyển đổi
Chiến lược này chia quá trình dịch thành 3 giai đoạn
- Phân tích
- Chuyển đổi
- Phát sinh
Q trình phân tích có thể được thực hiện ở nhiều cấp độ khác nhau tùy thuộc
vào hai ngôn ngữ, chẳng hạn như phân tích hình thái, cấu trúc, ngữ nghĩa,... Các cấp độ
phân tích khác nhau dẫn đến nhiều cấp độ của dạng thức trung gian. Những dạng thức
này chứa các thành phần từ vựng nguồn và đích, phản ánh cấu trúc của hai ngơn ngữ.
Có nhiều loại biểu diễn khác nhau được sử dụng trong các hệ dịch dựa trên sự chuyển
đổi như: cây phụ thuộc, cấu trúc ngữ, ...
Chiến lược dịch máy dựa trên chuyển đổi có nhiều ưu điểm. Trước hết, tính
tương đồng giữa ngơn ngữ nguồn và đích càng cao thì bước chuyển đổi càng đơn giản.
22
Tương tự như vậy, giai đoạn phân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ
dịch dựa trên ngôn ngữ trung gian.
1.2.3. Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy
Chuyển đổi cấu trúc giữa hai ngôn ngữ trong dịch máy là một trong các vấn đề
cần được quan tâm hàng đầu trong bất kỳ một hệ dịch nào. Có nhiều cách tiếp cận khác
nhau để giải quyết vấn đề này, trong đó mỗi cách tiếp cận thường phụ thuộc nhiều vào
đặc trưng của cặp ngôn ngữ của hệ thống dịch cũng như các tài ngun sẵn có của hai
ngơn ngữ nguồn và đích. Trong chương này chúng tôi sẽ điểm lại một số hướng tiếp
cận đã được sử dụng trong các hệ dịch máy trên toàn thế giới cũng như đánh giá sơ bộ
những ưu khuyết điểm của các hướng tiếp cận này.
1.2.3.1. Hướng tiếp cận sử dụng case-frame
Tác giả Sigdem Keyder Turhan trong bài báo “Structural transfer in an English
to Turkish machine translation System” đã đưa ra phương pháp chuyển đổi sử dụng
cách biểu diễn case-frame (biểu diễn khung). Trong cách tiếp cận này, câu tiếng Anh
được phân tích thành dạng QLF (Quasi Logical Form), sau đó được chuyển thành biểu
diễn trung gian dạng case-frame. Quá trình chuyển đổi sử dụng case-frame thực chất là
một quá trình ánh xạ tuần tự từ case-frame này sang case-frame kia theo cách thức xây
dựng dần.
Những điểm đặc trưng và những mối quan hệ ngữ pháp của case-frame trong
ngôn ngữ nguồn được chuyển đổi riêng, sau đó chúng lại kết hợp với nhau để phát triển
thành case-frame trong ngơn ngữ đích. Những luật chuyển đổi có dạng sau
Rulename (SourceCF, Variable, Checklist) :- If condition then Variable = TargetCf.
Bước đầu tiên trong giai đoạn chuyển đổi là xác định loại câu nguồn, chẳng hạn
như : câu đơn, câu điều kiện, câu liên hợp, ... Nếu câu là một câu ghép chứa các mệnh
đề độc lập, thì những mệnh đề này được xem xét riêng như từng case-frame riêng lẻ.
Tiếp tục đệ qui, mỗi case-frame này sẽ được phân tích để tạo ra một bản liệt kê những
mục cần kiểm tra (checklist) của câu bao gồm tất cả những thông tin quan trọng về câu
hay mệnh đề.
23
Theo tác giả, trong suốt quá trình chuyển đổi, người ta sử dụng chủ yếu 3 loại
bản liệt kê các mục cần kiểm tra, đó là bản liệt kê cấp độ câu, động từ và danh ngữ.
Bản liệt kê câu được sử dụng cho chuyển đổi câu, trong khi đó bản liệt kê động từ và
danh từ được sử dụng cho chuyển đổi động từ và danh ngữ.
Nhận xét
Cách tiếp cận trên địi hỏi câu trong ngơn ngữ nguồn phải được phân tích khá
chi tiết về mặt cấu trúc lẫn ngữ nghĩa. Giai đoạn chuyển đổi chỉ đơn giản là tra từ điển
để ánh xạ dần từng cấu trúc thành phần. Cách làm này khiến cho câu dịch tạo ra rất tự
nhiên và hay. Tuy nhiên nó có nhiều bất lợi vì muốn dịch được nhiều dạng câu và dạng
ngữ hơn thì cần phải mở rộng từ điển và tập luật chuyển đổi dạng caseframe. Khả năng
xây dựng đầy đủ bộ case-frame phức tạp như vậy cho một ngôn ngữ tự nhiên vượt q
khả năng con người. Vì vậy cơng trình trên cũng được tác giả thừa nhận là các trường
hợp chuyển đổi chỉ giới hạn trong những dạng case-frame được xây dựng.
1.2.3.2. Cách tiếp cận dựa trên cấu trúc vị từ - đối số
Cách tiếp cận dựa trên cấu trúc vị từ - đối số thực hiện việc ánh xạ các cấu
trúc nhất định từ ngôn ngữ nguồn sang ngơn ngữ đích. Các ngun tắc này được thể
hiện thơng qua các cấu trúc vị từ - đối số được xây dựng dựa trên các quy luật về trật tự
các thành phần trong câu. Cấu trúc vị từ đối số sẽ đưa động từ chính làm trung tâm để
từ đó hình thành câu hồn chỉnh bằng cách đưa các thành phần trong câu của ngơn ngữ
nguồn vào đúng vị trí của nó trong câu ở ngơn ngữ đích.
Theo cách tiếp cận này, giai đoạn phân tích sẽ đóng vai trị quan trọng trong
việc xác định cấu trúc vị từ - đối số của câu. Các cấu trúc được xác định ở bước phân
tích dựa trên chuỗi các từ và thơng tin về từ trong câu. Hướng tiếp cận dựa trên cấu
trúc vị từ - đối số được hai tác giả K.H.Chen và H.H.Chen đưa vào mơ hình hệ dịch
dựa trên phương pháp lai của mình năm 1996. Trong cơng trình này hai ông đã đưa ra
hai mươi ba cấu trúc chính của tiếng Hoa.
24
Khi một cấu trúc vị từ - đối số được chuyển thành cơng thức thì vấn đề di
chuyển của các thành phần trong cấu trúc cần được quan tâm. Hai luật sau quy định
q trình cơng thức hố:
- Nếu là câu bị động, cấu trúc vị từ - đối số của một động từ được thêm một đối
số.
- Cấu trúc vị từ - đối số của một động từ trong một mệnh đề quan hệ có đại từ
quan hệ đóng vai trò làm bổ ngữ sẽ được thêm vào một đối số.
Dựa trên kết quả rút trích các cấu trúc vị từ - đối số từ bước phân tích, bộ phận
chuyển đổi cấu trúc cần tiến hành quá trình sắp xếp lại trật tự của các ngữ (đã được
công thức hoá thành các vị từ với các đối số của nó). Việc tái tạo câu đích có trật tự
đúng với ngơn ngữ đích được thực hiện qua hai bước: bước thứ nhất, xây dựng
“khung” của câu, tức là trật tự đúng của các thành phần tổng quát trong câu; bước thứ
hai, sắp xếp lại trật tự bên trong của các thành phần này.
Nhận xét
Cách tiếp cận sử dụng cấu trúc vị từ - đối số là một cách tiếp cận cho phép
chuyển đổi cấu trúc từ câu ở ngôn ngữ nguồn sang câu ở ngơn ngữ đích mà khơng phụ
thuộc vào ngôn ngữ nguồn. Đây là một lợi thế khá lớn so với các cách tiếp cận khác.
Một khi việc phân tích câu nguồn tốt, đảm bảo xác định chính xác các thành phần nịng
cốt trong câu thì cách tiếp cận này có thể cho chất lượng chuyển đổi khá tốt. Các luật
chuyển đổi sẽ đảm bảo các thành phần trong câu nguồn được sắp xếp theo đúng ngữ
pháp của ngơn ngữ đích. Nếu động từ chính của câu có đầy đủ các đối số thì việc quan
trọng là đặt các đối số này vào đúng chỗ của nó xung quanh động từ chính.
Tuy nhiên cách tiếp cận này cũng có những mặt hạn chế vì việc đảm bảo xác
định đúng các thành phần trong câu nguồn là điều không dễ. Để xác định được chính
xác các thành phần này cần có một q trình phân tích đầy đủ cú pháp và quan hệ của
các thành phần trong câu. Các cấu trúc vị từ - đối số cần được các nhà ngơn ngữ học
đưa ra một cách chính xác và có chọn lọc để đảm bảo bao quát hết mọi cấu trúc của
ngơn ngữ đích. Việc giải quyết trật tự từ trong các thành phần tổng quát sau khi chuyển
25
đổi khung là một chiến lược có ý nghĩa làm tăng chất lượng chuyển đổi nhờ giảm thiểu
rủi ro trong việc chuyển đổi trên tồn bộ câu.
Tóm lại, đối với phương pháp dịch máy dựa trên sự chuyển đổi cây cú pháp,
chúng ta phải có được kết quả phân tích ngữ pháp của một câu tiếng Anh và những
thông tin cần thiết khác để xác định mối liên hệ giữa các thành phần cây cú pháp. Để
giải quyết vấn đề chuyển đổi cấu trúc trong các hệ dịch, người ta có thể sử dụng nhiều
cách tiếp cận khác nhau. Chọn cách giải quyết nào còn tùy thuộc vào nhiều yếu tố như:
mơ hình chung của hệ dịch, những tài ngun sẵn có (từ điển, cơng cụ phân tích), …
Đồng thời sự khác biệt giữa hai ngôn ngữ cũng là một yếu tố hàng đầu cần quan tâm để
tận dụng tối đa những lợi thế ngơn ngữ học có sẵn.
Một số nghiên cứu ở Việt nam
Ở Việt nam hiện nay, chúng tơi nhận thấy có một số nghiên cứu của Đại học
quốc gia thành phố Hồ Chí Minh có liên quan đến đề tài:
- Hồ Bảo Quốc, Đồng Thị Bích Thủy (2003), “Ứng dụng xử lý ngôn ngữ tự
nhiên trong hệ tìm kiếm thơng tin trên văn bản tiếng Việt”, Hội thảo quốc gia về công
nghệ thông tin - Thái Nguyên - Việt Nam.
- Marie-France Bruandet, Jean-Pierre Chevallet, Thuy Dong, Quoc Ho, “An
Information to Vietnamese information retrieval”.
1.3. Kết luận chương 1
Từ việc tổng quan các nghiên cứu trên thế giới và ở Việt nam cho phép chúng
tôi rút ra những kết luận sau:
Trên thế giới đã có nhiều nghiên cứu để xây dựng ma trận xác suất chuyển ngữ
cho các từ truy vấn. Mục đích của cơng việc này là để nhằm đánh giá một cách định
lượng khả năng một từ truy vấn trong ngôn ngữ nguồn sẽ được chuyển thành từ nào
trong ngơn ngữ đích giữa nhiều khả năng lựa chon.
Chiến lược dịch máy dựa trên sự chuyển đổi là chiến lược có nhiều ưu điểm
nhất trong số ba chiến lược dịch máy đã được nghiên cứu. Việc chuyển đổi có thể là
chuyển đổi “case - frame”, chuyển đổi cấu trúc “vị từ - đối số”.