1
Kiểm tra lỗi tự động dữ liệu
được gán nhãn trong tiếng Việt
Automatic Error Checking of Vietnamese Syntax - Annotated Corpus
NXB H. : Khoa Luật, 2014 Số trang 48 tr. +
Đặng Hồng Hạnh
Đại học Công nghệ
Luận văn ThS ngành: Hệ thống thông tin; Mã số: 60480104
Người hướng dẫn: TS. Nguyễn Phương Thái
Năm bảo vệ: 2014
Keywords: Hệ thống thông tin; Kiểm tra lỗi tự động; Dữ liệu
Content
1. ĐẶT VẤN ĐỀ
Phân tích cú pháp là nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tự nhiên. Trong đó,
việc gán nhãn từ loại là trọng tâm hơn cả. Kho dữ liệu tiếng Anh được gán nhãn thành công là
kho dữ liệu Peen Treebank. Kho dữ liệu này đã được gán nhãn nhờ sử dụng ba lược đồ chú thích
cơ bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn. Tuy đã sử dụng nhiều hình
thức gán nhãn để đảm bảo độ chính xác cao, nhưng vẫn không thể tránh việc xảy ra lỗi.
Đối với văn bản tiếng Việt, ngày nay cũng đã có nhiều đề tài nghiên cứu phục vụ cho việc
gán nhãn tiếng Việt. Đề tài phân tích cú pháp tiếng Việt được nhiều người biết đến là Đề tài
VLSP của nhóm tác giả Hồ Tú Bảo, Nguyễn Phương Thái và các đồng nghiệp.
Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện nay các nhà
nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn. Những lỗi này có thể là lỗi do
nhận dạng từ vựng sai, lỗi do cú pháp. Kho dữ liệu cần nghiên cứu là rất lớn nên việc phát hiện
lỗi bằng phương pháp thủ công là rất khó khăn.
2. MỤC ĐÍCH CỦA LUẬN VĂN
Từ các đặc điểm nguyên nhân gây lỗi đa dạng, tập luật trong văn bản là rất lớn, ta thấy việc
phát hiện lỗi bằng phương pháp thủ công là vô cùng khó khăn. Do đó cần có những phương pháp
phát hiện lỗi tự động hỗ trợ con người tìm ra lỗi, từ đó tìm cách khắc phục lỗi làm cho tập nhãn
ngày càng chính xác.
Theo Dickinson, khi xem xét văn phạm, có những luật không có trong treebank, chúng là
những luật lạ - gọi là những luật adhoc. Những luật này kỳ lạ vì nó không giống các luật trong
treebank nhưng nó chưa chắc đã là lỗi, chúng được xếp vào cùng lớp khi nghiên cứu. Trong
nghiên cứu của mình, Dickinson đưa ra hai phương pháp tính điểm cho các luật, từ những điểm
số được tính toán sẽ xác định những luật có nguy cơ chứa lỗi – là những luật có tần suất xuất
hiện thấp.
Trong luận văn này, tôi xây dựng công cụ phát hiện lỗi tự động dựa trên việc phát hiện các
luật Adhoc áp dụng cho treebank tiếng Việt theo hai phương pháp tính điểm cho tập luật của
Dickinson đề xuất.
2
3. BỐ CỤC CỦA LUẬN VĂN
Luận văn được trình bày trong 5 chương, có phần mở đầu, phần kết luận, phần mục lục,
phần tài liệu tham khảo. Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:
Chương 1: Giới thiệu chung
Trong chương này, trình bày các khái niệm cơ bản: Dữ liệu được gán nhãn, Lỗi trong gán
nhãn dữ liệu. Bên cạnh đó, cũng trình bày chi tiết các nguyên nhân gây ra lỗi trong gán nhãn dữ
liệu. Đồng thời, chúng tôi giới thiệu bài toán Kiểm tra lỗi dữ liệu được gán nhãn.
Chương 2: Giới thiệu về Treebank
Trong chương 2, giới thiệu cụ thể Penn Treebank và VietTreebank. Với Penn Treebank,
trình bày khái quát khái niệm và phương pháp thực hiện đối với ba kiểu lược đồ chú giải. Cùng
với việc giới thiệu tổng quan về VietTreebank, chúng tôi cũng trình bày chi tiết bảng nhãn và
hướng dẫn gán nhãn cho VietTreebank.
Chương 3: Phương pháp phát hiện lỗi của Dickinson
Đây là chương trình bày cơ sở để giải quyết bài toán đặt ra. Đầu tiên, chúng tôi trình bày
các khái niệm của Dickinson về Lớp tương đương, Lớp tương đương hẹp. Tiếp theo là hai
phương pháp tính điểm cho các luật trong tập dữ liệu do Dickinson đề xuất lần lượt được trình
bày cụ thể.
Chương 4: Kết quả thực nghiệm
Trong chương này, trình bày quá trình chúng tôi thực nghiệm trên bộ dữ liệu VietTreebank
và kết quả thu được sau khi thực nghiệm.
Chương 5: Kết luận và hướng phát triển
Kết luận đánh giá về phương pháp phát hiện lỗi do Dickinson đề xuất và nêu hướng phát
triển tiếp theo của đề tài.
References
Tiếng Việt
1. Cao Xuân Hạo. 2006, Tiếng Việt sơ thảo ngữ pháp chức năng, NXB Khoa học Xã hội.
2. Nhữ Văn Kiên (2013), Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu
tiếng Việt được chú giải từ loại, Luận văn thạc sỹ Khoa học máy tính, Trường đại học Bưu
chính viễn thông.
3. Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Xây dựng
treebank Tiếng Việt. Hà nội : ICT-08. 4. SP 7.3 – Dự án VLSP
4. Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền
Đào Minh Thu, Đào Thị Minh Ngọc, Lê Kim Ngân (2008), Thiết kế tập nhãn cú pháp và
hướng dẫn gán nhãn, SP 7.3 – Dự án VLSP
5. Nguyễn Kim Thản. 2008, Cơ sở ngữ pháp tiếng Việt, NXB Khoa học Xã hội.
6. Vương Hoài Thu (2009), Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, Khóa luận
tốt nghiệp Công nghệ thông tin, Trường đại học Công nghệ, Đại học quốc gia Hà Nội.
Tiếng Anh
7. Brill E (1999), Transformation-Based Error-Driven Learning and Natural Language
Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4),
p.543-565.
3
8. Dermatas E., Kokkinakis G (1995), Automatic Stochastic Tagging of Natural Language
Texts, Computational Linguistics 21.2, p. 137 - 163.
9. El-Bèze M, Spriet T (1995), Etiquetage probabiliste et contraintes syntaxiques, Actes de
la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille,
France,14-16/6/1995.
10. Gertjan van Noord, Error mining for wide-coverage grammar engineering, In: ACL
2004, Barcelona.
11. Markus Dickinson (2008), Ad Hoc Treebank Structures, Proceedings of ACL-08: HLT
Association for Computational Linguistics, Columbus, Ohio, USA, p.362–370
12. Markus Dickinson and Marwa Ragheb (2014), Dependency annotation of coordination
for learner language. In Kim Gerdes, Eva Hajičová, and Leo Wanner (eds), Dependency
Linguistics: Recent advances in linguistic theory using dependency structures. John
Benjamins Publishing Company.
13. Schmid H (1994), Part-of-Speech Tagging with Neural networks, International
Conference on Computational Linguistics, Japan, p. 172-176, Kyoto.
14. Tufis D (1999), Tiered Tagging and combined classifie", In Jelineck F. and Nörth E. (Eds),
Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer.