Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin về sinh viên
Họ và tên sinh viên: .Đỗ Thái Hà
Điện thoại liên lạc: 0917290 254 Email:
Lớp: Hệ Thống Thông Tin K-50 Hệ đào tạo: Đại học chính quy
Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệ
thông tin và truyền thông – Trường Đại học Bách Khoa Hà Nội
Thời gian làm ĐATN: Từ ngày / /2010 đến / /2010
2. Mục đích nội dung của ĐATN
Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồng
tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho các
trường hợp hội thoại thông dụng nhất.
3. Các nhiệm vụ cụ thể của ĐATN
• Phân loại hiện tượng đồng tham chiếu và tỉnh lược.
• Phân tích đưa ra thuật toán xử lý các trường hợp nhỏ của hiện tượng phân giải đồng
tham chiếu và tỉnh lược.
• Kết hợp các thuật toán xử lý để xử lý được tất cả các trường hợp của phân giải
đồng tham chiếu và tỉnh lược.
• Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy.
• Tổng kết, đánh giá hiệu quả đồ án
4. Lời cam đoan của sinh viên:
Tôi – Đỗ Thái Hà - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự
hướng dẫn của Tiến sĩ Lê Thanh Hương.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 1
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ
công trình nào khác.
Hà Nội, ngày tháng năm
Tác giả ĐATN
Họ và tên sinh viên
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo
vệ:
Hà Nội, ngày tháng năm
Giáo viên hướng dẫn
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 2
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
TÓM TẮT NỘI DUNG ĐỒ ÁN TÔT NGHIỆP
Ngôn ngữ tự nhiên luôn rất đa dạng và phong phú bất kể ngôn ngữ bạn sử dụng là
ngôn ngữ nào. Vì thế việc ánh xạ từ ngôn ngữ tự nhiên vào trong các hệ thống máy tính là
một vấn đề vô cùng phức tạp thu hút sự quan tâm nghiên cứu của nhiều chuyên gia. Một hệ
thống hội thoại tự động lý tưởng hiện tại vẫn chỉ là mơ ước của các chuyên gia máy
tính.Bài toán xây dựng một hệ thống như thế còn rất nhiều thách thức chưa có lời giải toàn
vẹn. Để làm cho máy tính “người” hơn, vấn đề về phân giải đồng tham chiếu và hiện tượng
tỉnh lược trong hội thoại là vấn đề không thể không quan tâm nghiên cứu.
Đồ án gồm 3 phần lớn.
Phần I : Tổng quan.
Nội dung của phần này là nêu nên cái nhìn tổng quan về đề tài.Các ý lớn trong phần này :
• Nêu lên mô hình tổng quát : Đề tài nghiên cứu về một hệ thống nằm trong hệ thống
hội thoại người – máy bằng tiếng Việt
• Tóm tắt tình hình nghiên cứu trên thế giới và tình hình nghiên cứu vấ đề tại Việt
Nam . Phân tích các khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa,
nhập nhằng đại từ quan hệ
• Mục tiêu và hướng tiếp cận của đồ án : không hướng vào chiều sâu mà hướng vào
chiều rộng – xây dựng chương trình giải quyết tổng hợp các trường hợp hay gặp
của cả đồng tham chiếu và tỉnh lược trong hội thoại.
Phần 2 : Nội dung chính.
Phần này trình bày các hướng tiếp cận cụ thể cho từng khía cạnh của vấn đề, tổng hợp các
thuật toán. Các ý lớn trong phần này bao gồm:
• Phân tích cơ bản ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động
từ, đại từ, cấu trúc câu trần thuật và câu nghi vấn
• Phân loại hiện tượng đồng tham chiếu và tỉnh lược, đưa ra cách tiếp cận cho từng
loại.
• Đưa ra kiến trúc từ điển kép theo cây Sematic
Phần 3 : Cài đặt hệ thống
Phần này đi sâu vào việc xây dựng và cài đặt chương trình.Các ý lớn gồm có :
• Các thiết kế mô hình tổng quát của hệ thống
• Kết quả kiểm thứ và đánh giá
• Hướng phát triển tương lai .
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 3
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Lời cảm ơn
Để hoàn thành tốt đồ án này, em xin cảm ơn các thầy giáo, cô giáo bộ môn hệ
thống thông tin, các thầy giáo, cô giáo khoa Công nghệ thông tin cũng như các thầy
cô của trường Đại học Bách Khoa Hà Nội đã dìu dắt em trong suốt năm năm đại
học.
Em xin gửi lời cảm ơn sâu sắc nhất tới cô giáo TS. Lê Thanh Hương, người
đã định hướng, giúp đỡ em có được những tri thức, hiểu biết để hoàn thành đồ án
này.
Con xin cảm ơn bố mẹ, những người thân đã luôn ở bên con, động viên và
tạo mọi điều kiện cho con trong quá trình làm đồ án.
Xin cảm ơn bạn bè đã luôn động viên, giúp đỡ tôi mỗi khi tôi cần.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 4
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Mục lục
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1
Danh mục các từ viết tắt và thuật ngữ Tiếng Anh 8
Danh mục các bảng 9
PHẦN I . TỔNG QUAN 11
CHƯƠNG 1. TỔNG QUAN 11
1.1 Đặt vấn đề 11
1.2. Mô hình tổng quát 11
1.3. Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong
hội thoại 12
1.3.1. Các cách tiếp cận trên thế giới 12
1.3.2. Những vấn đề còn tồn tại 12
1.3.3. Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt. 13
1.4. Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong
hội thoại tiếng Việt 14
1.4.1. Ngữ pháp phức tạp 14
1.4.2.Nhập nhằng trong việc tách từ và phân loại từ 14
1.4.3. Sự nhập nhằng , đa nghĩa của đại từ 14
1.5. Mục tiêu, giới hạn và hướng tiếp cận của đồ án. 15
PHẦN II. GIẢI QUYẾT VẤN ĐỀ 16
CHƯƠNG 2. PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC 16
2.1. Hiện tượng đồng tham chiếu – Anaphora 16
2.1.1.Định nghĩa 16
2.1.2. Phân loại 17
2.2. Hiện tượng tỉnh lược - Elliptics 19
2.2.1. Định nghĩa. 19
2.2.2.Phân loại 19
CHƯƠNG 3 . SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT 20
3.1. Danh từ và cụm danh từ 20
3.2. Động từ và cụm động từ 22
3.3. Các loại từ khác 25
3.4. Các dạng câu 28
a. Câu trần thuật 28
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 5
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
b. Câu nghi vấn 29
c. Câu cầu khiến 32
d. Câu cảm thán 32
CHƯƠNG 4 . XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ
TỈNH LƯỢC TRONG TIẾNG VIỆT 33
4.1. Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận 33
4.1.1 . Np- anaphora 33
4.1.2. “One” anaphora 37
4.1.3. VP- anaphora 37
4.1.4. S- anaphora 38
4.2. Hiện tượng tỉnh lược câu và hướng tiếp cận 38
4.2.1. Tỉnh lược ngữ pháp - Contextual ellipsis . 38
4.2.2. Hướng tiếp cận 40
4.3. Tổng hợp 41
4.3.1.Hướng giải quyết mối quan hệ chủ ngữ - động từ - bổ ngữ 41
4.3.2. Hướng xây dựng cơ sở dữ liệu từ điển mới 42
4.3.2.1. Nguyên nhân 42
4.3.2.2. Cấu trúc từ điển mới 42
4.3.3.Tổng hợp các phương pháp. 48
PHẦN 3. XÂY DỰNG HỆ THỐNG 50
CHƯƠNG 5. THIẾT KẾ HỆ THỐNG 50
5.1. Giới hạn bài toán 50
5.2. Vị trí của hệ thống trong hệ thống hội thoại tổng hợp 50
5.3. Thiết kế các usecase chính 51
5.3.1. Biểu đồ tuần tự 51
5.3.2.Biểu đồ trạng thái máy 52
5.4. Thiết kế các gói chương trình 52
5.4.1. Gói truy nhập cơ sở dữ liệu – XMLdataConnection 53
5.4.2. Gói Tiền xử lý – PrepareStructure 53
5.4.3. Gói phát hiện hiện tượng ngôn ngữ - Discover 55
5.4.4. Gói xử lý các hiện tượng ngôn ngữ 58
5.5. Thiết kế lớp 60
CHƯƠNG 6. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 62
6.1. Kiểm thử 62
6.1.1. Giao diện của chương trình 62
6.1.2. Thử nghiệm và kết quả 63
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 6
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
6.2.Đánh giá kết quả 65
CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67
7.1. Nhận xét ưu và khuyết điểm 67
7.1.1. Ưu điểm 67
7.1.2.Khuyết điểm và tồn tại 67
7.2.Hướng phát triển cho tương lai 68
Tài liệu tham khảo 70
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 7
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các từ viết tắt và thuật ngữ Tiếng Anh
STT Từ Giải nghĩa
1 antecedent Tiền ngữ - từ/câu bị thay thế
2. Anaphora Phân giải đồng tham chiếu
3. S - Anaphora Phân giải đồng tham chiếu câu
4. VP - Anaphora Phân giải đồng tham chiếu động từ
5. One - anaphora Phân giải đồng tham chiếu số từ.
6 NP – anaphora Phân giải đồng tham chiếu danh từ
7 Pronominal Phân giải đồng tham chiếu đại từ
8 Definite NP Phân giải đồng tham chiếu đại từ xác định
9 Elliptics Hiện tượng tỉnh lược
10 Contextual ellipsis Tỉnh lược ngữ pháp.
11 Pragmatic ellipsis Tỉnh lược ngữ cảnh.
12 Prefer- Constraint Ràng buộc thêm (không bắt buộc)
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 8
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các bảng
a. Lớp NounConnection 53
b. Lớp VerbConnection 53
a. Lớp WordStruct 54
b. Lớp SentenceStruct. 54
c. Lớp PrepareStructure 55
a. EcllipsisDiscover:IDisCoverInterface 55
b. Lớp NPAnaphoraDisCover 56
c. VPAnaphoraDisCover 56
d. OneAnaphoraDisCover 57
e. SAnaphoraDiscover 57
a.Lớp NPAnaphoraResolve 58
b. Lớp VPAnaphoraResolve 58
c.Lớp SPAnaphoraResolve 58
d.Lớp OneAnaphoraResolve 59
e.Lớp EcllipsisResolve 59
f. Lớp MergeClass – Đây là lớp tổng hợp các thuật toán để xử lý chung 59
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 9
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các hình vẽ
Hình 1 - Mô phỏng thuật toán Hobbs 34
Hình 2 - Mô phỏng quan hệ từ vựng 40
Hình 4 - Biểu đồ trạng thái máy tổng quát 52
Hình 5 - Minh họa sơ đồ hoạt động giai đoạn nhận diện câu 52
Hình 6- Hình biểu đồ lớp gói nhận diện câu 61
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 10
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
PHẦN I . TỔNG QUAN
CHƯƠNG 1. TỔNG QUAN
1.1 Đặt vấn đề.
Trong khoảng ba mươi năm gần đây, công nghệ thông tin đã, đang rất quan
tâm nghiên cứu đên lĩnh vực xử lý ngôn ngữ tự nhiên nhằm đạt được mục tiêu làm
cho máy tính có thể hiểu và trả lời như con người, khiến máy tính càng ngày càng
giống người.
Một trong những hướng nghiên cứu quan trọng trong lĩnh vực xử lý ngôn ngữ
tự nhiên là hướng xây dựng một hệ thống hội thoại tự động giữa người và máy. Tuy
vẫn chưa thể làm cho máy tính có thể “giống người” nhưng trong những năm qua,
lĩnh vực này đã đạt được những thành công bước đầu không chỉ với Tiếng Anh mà
còn với cả một số ngôn ngữ khác nữa.
Để máy tính có thể hiểu ngôn ngữ tự nhiên, một phần không thể thiếu được là
việc xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội thoại. Với tiếng Việt,
hiện tượng này cũng đã bắt đầu được quan tâm chú ý trong những năm gần đây,
hiện tượng đồng tham chiếu, tỉnh lược đã được nghiên cứu một cách riêng rẽ, mặc
dù vậy một nghiên cứu tổng hợp cả hai phương diện trên vẫn là một thiếu sót cần
được bổ sung.
1.2. Mô hình tổng quát.
Tổng quát bài toán xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội
thoại gồm 3 bước chính:
• Bước 1 : Quá trình tiền xử lý câu. Quá trình này tách câu đầu vào thành các
từ loại tương ứng.
• Bước 2 : Quá trình phân tích câu. Đây là quá trình phức tạp và quan trọng
nhất nhằm tìm ra hiện tượng ngôn ngữ xảy ra trong câu và biện pháp xử lý
phù hợp.
• Bước 3 : Quá trình thay thế. Đây là quá trình thay thế câu đầu vào thành câu
đã được xử lý thay thế một từ hoặc một bộ phân câu để trở thành câu hoàn
chỉnh, rõ nghĩa.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 11
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
1.3. Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược
trong hội thoại.
1.3.1. Các cách tiếp cận trên thế giới.
Phân giải đồng tham chiếu và hiện tượng tỉnh lược không phải là vấn đề mới
mẻ trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chúng đã được quan tâm nghiên cứu từ
rất sớm mà thuật toán kinh điển đầu tiên đưa vào cài đặt hiệu quả là thuật toán
Hobbs do nhà khoa học Jerry R. Hobbs công bố vào năm 1976. Kể từ đó đến nay,
nhiều cách tiếp cận mới – có thể mới chỉ là một ý tưởng mới hoặc đã được cài đặt
thử nghiệm - đã được nghiên cứu và công bố không chỉ với ngôn ngữ nghiên cứu là
tiếng Anh mà còn với nhiều ngôn ngữ khác như tiếng Đức, tiếng Pháp, tiếng
Nhật…
Trong số những cách giải quyết vấn đề đó, có thể nhắc đến các phương pháp
như Centering, Entity-Base, Contrants … Độ chính xác của các thuật toán này biến
động tùy vào từng lĩnh vực dữ liệu, nhìn chung có thể đạt kết quả chính xác khoảng
70 % đến 80%.
Mặc dù vậy, cho đến nay việc tìm kiếm một giải pháp hoàn chỉnh cho phân
giải đồng tham chiếu và hiện tượng tỉnh lược vẫn là một bài toán chưa có lời giải.
Các cách tiếp cận tuy nhiều nhưng nhìn chung đều chỉ nhằm vào một phân vùng rất
nhỏ của hiện tượng đồng tham chiếu hoặc tỉnh lược – thường chỉ tập trung vào một
trường hợp nhỏ như là đồng tham chiếu đại từ, đồng tham chiếu động từ hoặc các
trường hợp tỉnh lược cơ bản ,các kết quả thử nghiệm hầu hết là trên các bộ dữ liệu
từ hướng lĩnh vực (ví dụ như thuật toán Entity-Base đạt độ chính xác 85 % với bộ
dữ liệu về thiên tai , hơn 80 % đối với bộ dữ liệu về tai nạn )- mà không đưa ra
cách xử lý cho bài toán tổng quát.
Hiện nay, các hướng nghiên cứu mới trên thế giới chủ yếu hướng về tập trung
vào một phân vùng nhỏ của phân giải đồng tham chiếu hoặc hiện tượng tỉnh lược –
thường là đồng tham chiếu đại từ - trên môi trường đa giao diện- môi trường bao
gồm cả tiếng nói, hình ảnh.
1.3.2. Những vấn đề còn tồn tại.
Một điều khẳng định, các thuật toán được công bố và chấp nhận hiện nay chỉ
giải quyết một trường hợp nhỏ của phân giải đồng tham chiếu hoặc tỉnh lược.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 12
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Như đã nêu ở trên, mặc dù các cách giải quyết cho đề tài này đã được nghiên
cứu từ những năm 70 của thế kỷ trước nhưng giải pháp cho bài toán tổng hợp lại
thiếu hụt một cách đáng ngạc nhiên. Các thuật toán cài đặt thành công chủ yếu là
các thuật toán nghiên cứu cho phân giải đồng tham chiếu đại từ, các thuật toán cho
các trường hợp khác rất ít và độ chính xác cũng không cao. Điều này cũng dễ hiểu
vì ngôn ngữ tự nhiên có cấu trúc vô cùng phức tạp và đa dạng và hiện tượng đồng
tham chiếu đại từ cũng là hiện tượng hay gặp nhất trong thực tế.
Vì thế, hướng nghiên cứu của đồ án này sẽ không nhằm vào việc xử lý trên
môi trường đa giao diện như xu hướng hiện nay mà nhằm vào việc xây dựng một
chương trình có thể xử lý được tổng hợp cả phân giải đồng tham chiếu và tỉnh lược
hay gặp cho những đoạn hội thoại hàng ngày.
1.3.3. Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng
Việt.
Lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt cũng là lĩnh vực được quan
tâm nghiên cứu của các nhà khoa học Việt Nam, trong đó, được quan tâm nhiều
nhất là bài toán phân tích cú pháp. Các giải pháp cho phân giải đồng tham chiếu
được công bố rộng rãi còn rất ít. Vì vậy, cũng như các ngôn ngữ khác, giải pháp cho
bài toán tổng thể cho cả hiện tượng đồng tham chiếu và tỉnh lược lại càng thiếu hụt
nghiêm trọng, gần như không có.
Dĩ nhiên, việc xử lý tổng quát một trường hợp nhỏ của hiện tượng đồng tham
chiếu và tỉnh lược đã khó, tích hợp giải quyết tất cả các trường hợp đó còn khó hơn.
Tuy nhiên, trong thực tế, một hệ thống hội thoại tự động giới hạn người dùng chỉ
được sử dụng một phân dạng nhỏ - như là chỉ được sử dụng đồng tham chiếu đại từ
- là hệ thống không thật sự thuyết phục. Ngược lại, việc giới hạn lĩnh vực của hệ
thống là chấp nhận được, ví dụ như khách tham quan đến viện bảo tàng thì chỉ quan
tâm đến tất cả các thông tin liên quan đến viện bảo tàng. Vì thế, đồ án này cũng đặt
ra giới hạn là chương trình hướng lĩnh vực.
Đồ án sẽ nghiên cứu trên đối tượng ngôn ngữ là tiếng Việt, có sử dụng lại
chương trình tách từ của thầy Lê Hồng Phương.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 13
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
1.4. Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh
lược trong hội thoại tiếng Việt.
1.4.1. Ngữ pháp phức tạp.
Mặc dù có nhiều điểm căn bản giống với ngữ pháp tiếng Anh – ngôn ngữ tự
nhiên được nghiên cứu kỹ càng, tỉ mỉ nhất – nhưng do nhiều yếu tố khác nhau như
lịch sử phát triển lâu dài cùng với sự tiếp thu của nhiều nền văn hóa, ngữ pháp tiếng
Việt có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vô cùng phong phú. Việc
xây dựng một lí thuyết ngữ pháp hoàn chỉnh là điều chưa làm được. Sự phức tạp
của ngữ pháp tiếng Việt làm cho việc phân tích cấu trúc câu, phân loại và nhận diện
câu trở nên vô cùng khó khăn…
Bên cạnh đó ngữ pháp tiếng Việt còn có hiện tượng đồng âm, đồng nghĩa,
chuyển nghĩa của từ rất phức tạp. Ví dụ: từ “phát triển” trong 2 cụm từ “phát triển
đất nước” và “đất nước phát triển” là 2 loại từ khác nhau. “Phát triển” trong cụm từ
thứ nhất là động từ tác động vào danh từ “đất nước” trong khi “phát triển” trong
cụm từ thứ hai lại là tính từ bổ nghĩa cho danh từ đất nước.
1.4.2.Nhập nhằng trong việc tách từ và phân loại từ.
Đặc điểm Tiếng Việt là ngôn ngữ đơn âm tiết, điều này gây nên khó khăn
ngay từ giai đoạn tách và phân loại từ vựng. Ví dụ như câu:
• “Cụ /già đi/ nhanh/ quá”
• “Cụ già/đi/nhanh /quá”
Mặc dù nội dung trung tâm của đề tài không nhằm vào vấn đề này nhưng
giai đoạn tách từ chính là giai đoạn tiền xử lý của hệ thống, vì thế sự đúng đắn của
nó có ảnh hưởng rất lớn đến sự đúng đắn của cả thuật toán.
1.4.3. Sự nhập nhằng , đa nghĩa của đại từ.
Một trong những vấn đề phức tạp nhất của tiếng Việt là trong Tiếng Việt có
rất nhiều đại từ xưng hô. Cặp xưng hô giữa 2 ngôi thứ nhất và thứ hai phổ biến như
: tớ -ấy, tớ - cậu, tao mày…
Vấn đề rắc rối nằm ở chỗ, tuỳ vào mối quan hệ giữa người nói với nhau, hoặc
giữa người nói với người thứ ba mà các đại từ xưng hô này khác nhau. Ví dụ:
• Mẹ và con nói chuyện với nhau :
“Mẹ bao giờ đi làm ?”
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 14
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
“Lát nữa” .
• Hai chị em nới chuyện với nhau :
“Mẹ đã đi làm chưa nhỉ?”
“Hình như đi rồi”
“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau. Để xử lý
vấn đề này yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó thực hiện khi xây
dựng các thuật toán. Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các
hệ thống cụ thể hướng lĩnh vực. Ở đây, bằng mặc định, đồ án nghiên cứu cho hệ
thống hội thoại, do đó ưu tiên xét quan hệ xưng hô ngôi thứ nhất và ngôi thứ hai
giữa người và máy.
1.5. Mục tiêu, giới hạn và hướng tiếp cận của đồ án.
Mục tiêu của đồ án là đưa ra được phương pháp xử lý không phải chỉ riêng
cho từng trường hợp đồng tham chiếu hay tỉnh lược riêng lẻ mà là đưa ra phương
pháp giải quyết tổng hợp chung, ít nhất là cho các trường hợp hội thoại thông dụng
nhất.
Do sự phức tạp của ngữ pháp tiếng Việt – ta sẽ đi sâu vào phần này hơn ở
phần sau của bản báo cáo này – việc đưa ra thuật toán có thể giải quyết đúng đắn
cho tất cả các trường hợp với tỉ lệ chính xác 100% là không thể, hơn nữa mục tiêu
của đồ án tập trung vào phần hội thoại. Không có một thuật toán đơn lẻ nào có thể
xử lý đúng đắn toàn bộ các hiện tượng ngữ pháp. Vì thế để nâng cao tỉ lệ chính xác
cho thuật toán, đồ án sẽ sử dụng phương pháp tiếp cận là chia để trị với hai ý tưởng
của thuật toán Centering và Gapping, tập trung vào các câu thông thường trong hội
thoại.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 15
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
PHẦN II. GIẢI QUYẾT VẤN ĐỀ
CHƯƠNG 2. PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH
LƯỢC
2.1. Hiện tượng đồng tham chiếu – Anaphora.
2.1.1.Định nghĩa.
Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ để thay thế cho
một từ, một cụm từ, một phần câu đã được nhắc đến trước đó.
Xét một ví dụ đơn giản của anaphora:
• Họa sĩ Tô Ngọc Vân sống ở đâu?
• Ông ấy hiện tại đang ở thành phố Hồ Chí Minh.
Trong ví dụ trên, “Ông ấy” chính là đại từ thay thế cho “họa sĩ Tô Ngọc
Vân”. Vấn đề đặt ra là làm sao để hệ thống nhận diện được “Ông ấy” chính là từ
thay thế cho “họa sĩ Tô ngọc Vân”.
Ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu
mà ta gặp hàng ngày trong cuộc sống. Xử lý đồng tham chiếu là một vấn đề cực kỳ
khó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúc
ngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó đòi
hỏi cả hiểu biết “thực” trong đời sống. Mặc dù vấn đề này được nhận diện từ khá
sớm nhưng một giải pháp xử lý đồng tham chiếu hoàn chỉnh vẫn chưa có lời giải
cuối cùng. Các giải pháp được nghiên cứu trong những năm 70, 80 của thế kỷ trước
(điển hình là Hobbs 1976) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyết
được những trường hợp không có sự mập mờ về ngữ nghĩa.
Xét trường hợp sau :
• John lấy cái bánh ở trên bàn và ăn nó.
• John lấy cái bánh ở trên bàn và rửa nó.
Có thể thấy ngay rằng mặc dù có cùng một cấu trúc ngữ pháp nhưng nếu “nó”
trong câu thứ nhất chỉ đến “cái bánh” thì “nó” trong câu thứ hai lại chỉ đến “bàn”, ta
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 16
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
có thể dễ dàng đặt ra ràng buộc cho động từ “ăn” là sự vật đi đằng sau phải là “ăn
được” nhưng ta không thể đặt ra luật là đằng sau “rửa” phải là vật không ăn được
bởi như rau quả hoàn toàn vừa “ăn được” vừa “rửa được”.
Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phân
tích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp cận khác nhau tuỳ
từng loại đồng tham chiếu.
2.1.2. Phân loại.
Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:
• Từ được thay thế và từ thay thế nằm cùng trong một câu (intra-sententially)
• Từ được thay thế và từ thay thế nằm trong nhiều câu (inter- sententially )
Các dạng đồng tham chiếu thường gặp trong Tiếng Việt có :
• NP anaphora
Pronominal
Definite NP
Deictic
Các dạng NP khác
• VP anaphora
• S anaphora
• “one” anaphora
a. NP anaphora
NP – anaphora là từ dùng để chỉ trường hợp một từ thay thế cho một danh từ
hoặc cụm danh từ đã nêu trước nó.
Các đại từ thay thế, bao gồm tất cả các dạng như anh ta (he, his, him), cô ta
(she, her, hers), chúng nó (they, them)… là dạng phổ biến nhất của NP anaphora.
Dạng này có thể xảy ra ở cả hai hình thức ở hai câu kahcs nhau( intra-) và trong
cùng một câu (inter-sententially). Ví dụ:
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 17
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
• John cho Mary mượn quyển sách - quyển sách cô ấy đã đánh mất . (intra-)
• John cho Mary mượn quyển sách. Cô ấy đánh mất nó trên đường về nhà
(inter-)
Sự thay thế không nhất thiết phải là trực tiếp mà có thể xảy ra gián tiếp như:
• Tất cả các ngôi nhà trên phố cần sửa lại mái(ở đây “mái” có sự liên quan
ngầm với “tất cả các ngôi nhà”).
• Ross sử dụng thẻ tín dụng nhiều đến nỗi anh chàng tội nghiệp đó phải tuyên
bố phá sản.
b. VP-anaphora và S-anaphora
Đồng tham chiếu không phải luôn luôn chỉ thay thế cho cho một cụm danh từ
mà nhiều lúc nó lại có vai trò thay thế cho hẳn một cụm động từ hoặc thậm chí là
thay thế cho cả một câu.
VP- anaphora là trường hợp từ không thay thế cho một từ hoặc cụm danh từ
phía trước mà thay thế cho một cụm động từ đã nói đến ở phía trước. Xét ví dụ sau:
• Tuần tới Lan thi học kỳ à ?
• Ừ, Trang cũng thế.
Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “thi học kỳ”.
Tương tự, S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu đã
nêu ở phía trước. S – anaphora được minh họa thông qua ví dụ sau:
• Mary đã mở được một phòng triển lãm tranh. Đó là một điều ngạc nhiên.
c. “One” anaphora.
Một dạng đồng tham chiếu nữa không thể không kể trong đến là đồng tham
chiếu số từ “one”- anaphora. Đây là dạng đồng tham chiếu mà ở đó, số từ được thay
thế cho một danh từ (thường là một vật) đứng trước nó.
Xét ví dụ một câu hội thoại sau:
• Cả hai bức tranh này là của cậu à?
• Không, chỉ một bức thôi.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 18
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
2.2. Hiện tượng tỉnh lược - Elliptics
2.2.1. Định nghĩa.
Hiện tượng tỉnh lược là hiện tượng lược bỏ một hay nhiều từ trong cấu trúc
ngữ pháp khi nghĩa của câu đó có thể hiểu được mà không cần đến những phần đã
được lược bỏ đó.
Cũng như hiện tượng đồng tham chiếu, hiện tượng tỉnh lược cũng là hiện
tượng phổ biến trong ngôn ngữ tự nhiên. Về mặt ngôn ngữ, ta nhận diện một câu
tỉnh lược mà một phần nghĩa câu cần được tổ chức lại dựa vào ngữ cảnh của câu
nói. Ngữ cảnh đó thường là một tiền ngữ (antecedent), một mệnh đề ở trong câu nói
trước tương ứng với phần đã bị lược bỏ trong câu tỉnh lược.
2.2.2.Phân loại
VP - anaphora có thể coi là một dạng đặc biệt của câu tỉnh lược.Trong hội thoại,
hai loại câu tỉnh lược thường gặp nhất là:
• Contextual ellipsis : phần lược bỏ của câu có thể được khôi phục lại dựa vào
ngay câu phía trước, thường phần lược bỏ đó là sự lặp lại của một từ hoặc
một cụm từ đứng trước.
• Pragmatic ellipsis : phần lược bỏ của câu được khôi phục nhờ người nghe
dựa trên tình huống ngoài lĩnh vực ngôn ngữ. Ví dụ: Cả hai hành khách nhìn
thấy một người đàn ông lạ mặt. “Say” – Một người nói. Câu đầy đủ phải là
“ông ta say rồi” .
Vì hệ thống ta xây dựng là hệ thống hội thoại giữa người và máy nên chúng
ta sẽ chỉ tập trung vào contextual ellipsis.
Việc phân loại giữa hiện tượng tỉnh lược và hiện tượng đồng tham chiếu chỉ
mang ý nghĩa tượng trưng, bởi thực tế các VP anaphora , S anaphora và “one
anaphora” có thể coi là một trường hợp của tỉnh lược câu.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 19
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
CHƯƠNG 3 . SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT
3.1. Danh từ và cụm danh từ.
a. Danh từ riêng.
Kí hiệu là Np.
Danh từ riêng là những danh từ chỉ tên riêng hay tên địa điểm.
Danh từ riêng có cấu tạo như sau:
• Chỉ có một từ tên riêng: Thúy Anh, Việt
• Gồm từ chỉ họ và từ tên riêng: Bùi Thúy Anh, Nguyễn Việt
• Tên địa điểm:
Tên địa danh theo khu vực hành chính, hoặc địa lý: Hà Nội, Huế
Tên núi, tên sông, tên đất : (sông) Hồng, (trường) Đại Học Bách Khoa Hà
Nội
b. Danh từ.
Kí hiệu là N.
Danh từ là từ loại bao gồm những từ có ý nghĩa khái quát sự vật. Đó là
những thực từ chỉ vật thể-người, động vật, thực vật, đồ vật, những hiện tượng tự
nhiên, hiện tượng xã hội và những khái niệm trừu tượng được con người nhận
thức và phản ánh như các vật thể tồn tại trong hiện thực.
Ví dụ
Danh từ chỉ vật thể: ông, bà, thầy giáo, công nhân, gà, cam, đèn, áo
Danh từ chỉ hiện tượng tự nhiên: mưa, bão, sét, ngày, đêm
Danh từ chỉ hiện tượng xã hội: làng, xã, đội, đoàn
Danh từ chỉ khái niệm trừu tượng: chính trị, đường lối, đạo đức
Phân loại:
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 20
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
• Danh từ đơn thể :gồm các danh từ chỉ sự vật rời rạc: quần, áo, bạn Những
danh từ này phải kết hợp với danh từ danh từ đơn vị: chiếc quần, manh áo,
ông bạn
• Danh từ tổng thể : gồm các danh từ có cấu tạo ghép 2 tiếng: quần áo, binh
lính, bạn bè, máy móc Danh từ tổng thể không kết hợp với danh từ đơn vị
đơn thể mà kết hợp với danh từ đơn vị hợp thể: bộ quần áo, nhóm binh lính,
lũ bạn bè
• Danh từ trừu tượng : gồm các danh từ thể hiện về tư tưởng, thái độ, quan
điểm, lập trường, ý nghĩ, trí tuệ
• Danh từ đơn vị đo lường : gồm các danh từ làm phụ tố cho các danh từ chất
liệu, vật liệu, đơn vị thời gian, đơn vị tổ chức: lít rượu, nắm muối, mẫu đất,
phút suy nghĩa, tổ công nhân
• …
c. Cụm danh từ.
Cụm danh từ là cụm từ có danh từ làm thành tố trung tâm. Cụm danh từ biểu
thị sự vật nêu ở thành tố trung tâm với những đặc điểm cụ thể, riêng biệt. Trong
câu, cụm danh từ có thể giữ các chức năng ngữ pháp của danh từ: làm chủ ngữ, làm
vị ngữ
Cấu trúc cơ bản:
Phần phụ trước
Danh từ
Phần phụ sau
Phần phụ trước:
Phần này có tối đa ba thành phần: <vị trí 3><vị trí 2><vị trí 1>
Ví dụ: tất cả những chiếc kẹo
Ở vị trí 3 là số từ mang nghĩa tổng thể như tất cả, hết thảy tiếp theo là số từ
và loại từ.
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 21
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Phần phụ sau:
Có cấu tạo phức tạp hơn phần phụ trước nhiều. Nó có thể là danh từ, cụm
tính từ, cụm động từ, cụm giới từ
Ví dụ:
• Cụm danh từ đơn giản (phần phụ sau không phải là cụm giới từ, cụm động từ
hay mệnh đề phụ).
Ví dụ: cái hộp màu tím.
• Cụm danh từ phức tạp với phần phụ sau là cụm giới từ:
Ví dụ: bức ảnh của cơ quan
• Cụm danh từ phức tạp với phần phụ sau là mệnh đề phụ
Ví dụ: bức ảnh mà tôi mới mua hôm qua.
Một cụm danh từ có thể thiếu phần phụ trước hay phần phụ sau nhưng không
thể thiếu phần trung tâm.
3.2. Động từ và cụm động từ.
a. Động từ.
Kí hiệu là V.
Động từ là những từ có ý nghĩa khái quát chỉ hành động, trạng thái hoặc chỉ
tình thái hay quan hệ, nói chung là những dạng thức vận động, biến chuyển của sự
vật về mặt lí, tâm lí hay sinh lí
Ví dụ: đi, gặt, học, nói, lao động, suy nghĩ
Phân loại:
• Động từ ngoại động (Vt): gồm các động từ chỉ hành động có đối tượng: ăn
bánh, viết thư, là quần áo, xây dựng nhà
• Động từ nội động (Vi): gồm các động từ chỉ hành động nhưng không có đối
tượng: ngủ, ăn, nói, làm việc
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 22
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
• Động từ tồn tại (Ve): gồm các động từ chỉ trạng thái tồn tại của thực thể/tính
chất. Cần có phụ tố để chỉ sự tồn tại: có/còn/hết/mất tiền/máy/ngon
• Động từ biến hóa (Vf): gồm các động từ chỉ sự biến hóa của thực thể/tính
chất. Cần có phụ tố đi kèm chỉ kết quá biến hóa: người hóa (thành) ma,
nên/thành người, trở thành tốt
• Động từ tiếp thụ (Va): gồm các động từ chỉ trạng thái tiếp thụ. Cần có phụ
tốt đi kèm: bị/phải/được/chịu mắng/khen/làm
• Động từ tình thái (Vv): gồm các động từ chỉ trạng thái ý chí. Cần có phụ tố
đi kèm: muốn/dám/quyết/toan nói/làm/nghỉ ngơi
• Động từ so sánh (Vc): gồm các động từ dùng để so sánh/đánh giá giữa các sự
vật. Cần có phụ tốt đi kèm: bằng/kém/hơn bạn/người
• Động từ tổng hợp (Vg): gồm các động từ còn lại ngoại trừ động từ “là”: mua
bán, đánh đập
Các động từ, tùy thuộc vào từng nhóm có những ràng buộc vào chủ ngữ, bổ
ngữ… khác nhau mà khi xử lý các hiện tượng đồng tham chiếu và tỉnh lược đặc thù
không thể không xem xét đến. Chúng ta sẽ làm rõ vấn đề này ở phần sau của đồ án.
b. Động từ “là”.
Đây là động từ có vai trò và đặc thù riêng biệt trong ngữ pháp tiếng Việt, cần
phân tích xử lý khác biệt so với các động từ khác, nó tương đương động từ “to be”
trong tiếng Anh.
c. Cụm động từ.
Cụm động từ là cụm từ có động từ làm thành tố trung tâm. Cụm động từ biểu
thị ý nghĩa, hành động, trạng thái, tính thái nêu ở động từ trung tâm. Chức năng cú
pháp của cụm động từ trong câu là chức năng cú pháp của động từ chính.
Ví dụ: bay ngang qua bầu trời, đang ăn cơm
Cấu tạo cơ bản:
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 23
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Phần phụ trước
Động từ
Phần phụ sau
Phần phụ trước:
Là các phó từ. Ký hiệu là R. Ví dụ: hãy nhìn vào, đừng nhảy, đang ăn cơm
đang ăn cơm
(VP (R đang)
(V ăn)
(N cơm))
Phần phụ sau:
Động từ trung tâm có thể kết hợp với các từ loại khác một cách đa dạng. Mỗi
cách kết hợp có thể coi như một mẫu cú pháp của động từ: động từ đi với danh từ,
động từ đi với cụm giới từ
Ví dụ:
• Phần phụ sau là cụm danh từ
ăn cơm
(VP (V ăn)
(NP cơm))
• Phần phụ sau là cụm giới từ
Đưa cho tôi
(VP (V đưa)
(PP cho tôi))
• Phần phụ sau là hai cụm danh từ
tặng bạn món quà sinh nhật
(VP (V tặng)
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 24
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
(NP bạn)
(NP món quà sinh nhật))
• Phần phụ sau là cụm động từ
cần viết thư
(VP (V cần)
(VP viết thư))
• Phần phụ sau là cụm danh từ và cụm động từ
nhờ bạn chép bàn
(VP (V nhờ)
(NP bạn)
(VP chép bài))
• Phần phụ sau là mệnh đề phụ
nghĩ rằng cô ấy ốm
(VP (V nói)
(SBAR rằng cô ấy ốm)).
3.3. Các loại từ khác.
a. Đại từ và sự nhập nhằng của đại từ trong tiếng Việt.
Kí hiệu là P.
Đại từ là những từ dùng để xưng hô, thay thế và chỉ trỏ. Đại từ không phải là
từ loại dùng để biểu thị khái niệm sự vật, hiện tượng hay hành động, trạng thái, tính
chất mà là từ loại dùng thay thế và để chỉ trỏ những từ đã được nêu trong những từ
ngữ đó hoặc đã được xác định trong hoàn cảnh nói, viết cụ thể.
Ví dụ: tôi, tao, nó, đây, kia
Phân loại:
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50 25