..
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
******
Bùi Thanh Tùng
ĐỀ TÀI LUẬN VĂN:
XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG
CHO VIỆN BẢO TÀNG
Chuyên ngành: Công nghệ thơng tin
LUẬN VĂN THẠC SĨ KHOA HỌC
CƠNG NGHỆ THƠNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Lê Thanh Hương
Hà Nội – 03/2011
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
MỤC LỤC
MỤC LỤC......................................................................................................................................................2
T
2
3
32T
LỜI CAM ĐOAN .........................................................................................................................................5
T
2
3
32T
DANH MỤC TỪ VIẾT TẮT......................................................................................................................6
T
2
3
32T
DANH MỤC CÁC HÌNH VẼ.....................................................................................................................7
T
2
3
32T
DANH MỤC CÁC BẢNG..........................................................................................................................8
T
2
3
32T
LỜI MỞ ĐẦU................................................................................................................................................9
T
2
3
32T
CHƯƠNG I : TỔNG QUAN.................................................................................................................... 11
T
2
3
32T
1. Giới thiệu chung về hệ thống hội thoại.............................................................................................. 11
T
2
3
T
2
3
2. Khó khăn trong xử lý ngơn ngữ tự nhiên .......................................................................................... 13
T
2
3
T
2
3
2.1. Cấu trúc ngữ pháp và các thành phần cấu tạo câu......................................................................13
T
2
3
T
2
3
2.2. Phép lặp từ.....................................................................................................................................14
T
2
3
32T
2.3. Câu tỉnh lược.................................................................................................................................14
T
2
3
32T
CHƯƠNG II. KIẾN TRÚC CHUNG HỆ THỐNG HỘI THOẠI....................................................... 17
T
2
3
T
2
3
1. Kỹ thuật nhận dạng câu hỏi và trả lời ............................................................................................... 18
T
2
3
T
2
3
1.1. Phân tích câu hỏi .........................................................................................................................19
T
2
3
32T
32T
32T
1.2. Luật phân tích từ ngữ....................................................................................................................20
T
2
3
32T
1.3. Luật viết dạng câu trả lời - query reformulation & query expansion ......................................21
T
2
3
T
2
3
2. Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction ................................................ 22
T
2
3
T
2
3
2.1. Trích rút thơng tin - Retrieve document......................................................................................22
T
2
3
T
2
3
2.2. Trích rút câu trả lời - Answer extraction .....................................................................................24
T
2
3
T
2
3
2.3. Kỹ thuật xử lý đại từ thay thế.......................................................................................................26
T
2
3
T
2
3
2.4. Tổ chức cơ sở dữ liệu độc lập......................................................................................................26
T
2
3
T
2
3
3. Kỹ thuật xử lý hiện tượng đồng tham chiếu và tỉnh lược trong tiếng việt....................................... 29
T
2
3
T
2
3
3.1. Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận. ............................................29
T
2
3
T
2
3
3.2. Hiện tượng tỉnh lược câu và hướng tiếp cận...............................................................................34
T
2
3
T
2
3
3.3. Tổng hợp.......................................................................................................................................36
T
2
3
32T
4. Kỹ thuật phân tích câu hỏi dựa vào cây Trie ......................................................................................... 39
T
2
3
T
2
3
4.1. Cấu trúc cây Trie...........................................................................................................................39
T
2
3
32T
4.2. Phân tích câu hỏi dựa vào cấu trúc trie........................................................................................41
T
2
3
T
2
3
4.3. Câu nghi vấn và cấu trúc câu nghi vấn trong tiếng việt .............................................................44
T
2
3
T
2
3
2
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
4.4. Trie trong phân tích câu hỏi tiếng Việt........................................................................................48
T
2
3
T
2
3
CHƯƠNG III. HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED
T
2
3
INFORMATION SYSTEM – IBiS ......................................................................................................... 50
T
2
3
1. Tổng quan về IBiS1............................................................................................................................ 50
T
2
3
32T
1.1. Kiến trúc IBiS1 .............................................................................................................................50
T
2
3
32T
1.2. Một số giả định ............................................................................................................................52
T
2
3
32T
1.3. IBiS1 Datatype .............................................................................................................................52
T
2
3
32T
2.Các cấu trúc cú pháp, ngữ nghĩa trong IBiS1 .................................................................................... 53
T
2
3
T
2
3
2.1. Các dạng thay thế ngữ pháp.........................................................................................................53
T
2
3
T
2
3
2.2. Mệnh đề ........................................................................................................................................54
T
2
3
32T
2.3. Câu hỏi ..........................................................................................................................................55
T
2
3
32T
2.4. Short Answer - các câu trả lời ngắn.............................................................................................56
T
2
3
T
2
3
2.5. Giới hạn phân loại ngữ nghĩa.......................................................................................................57
T
2
3
T
2
3
2.6. Mối liên hệ giữa câu hỏi và câu trả lời ........................................................................................57
T
2
3
T
2
3
2.7. Kết hợp câu hỏi và câu trả lời tạo thành các mệnh đề - Proposition .........................................60
T
2
3
T
2
3
3. Dialogue moves - các bước thực hiện hội thoại trong IBiS1 ........................................................... 60
T
2
3
T
2
3
CHƯƠNG IV: CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ........................... 63
T
2
3
T
2
3
1.Xử lý câu tỉnh lược............................................................................................................................... 63
T
2
3
32T
1.1. Vị trí trong hệ thống hội thoại tổng hợp......................................................................................63
T
2
3
T
2
3
1.2 Giới hạn bài toán............................................................................................................................63
T
2
3
32T
1.3. Thiết kế các gói cho việc xử lý câu tỉnh lược của chương trình. ...............................................63
T
2
3
T
2
3
2.Cài đặt thuật tốn phân tích câu hỏi sử dụng Trie.............................................................................. 65
T
2
3
T
2
3
2.1.Xác định loại câu hỏi và câu trả lời mong đợi cho chương trình ...............................................65
T
2
3
T
2
3
2.2. Thiết kế câu hỏi............................................................................................................................66
T
2
3
32T
2.3. Tổ chức cấu trúc Trie ...................................................................................................................67
T
2
3
32T
2.4. Quá trình duyệt Trie .....................................................................................................................68
T
2
3
32T
3.Cài đặt quá trình hỏi lại và chỉnh sửa câu hỏi của người dùng......................................................... 67
T
2
3
T
2
3
3.1 Vai trò trong hệ thống....................................................................................................................67
T
2
3
32T
3.2 Các hàm liên quan đến xử lý input-text ......................................................................................67
T
2
3
T
2
3
3.3 Sơ đồ quá trình hỏi lại và sửa câu hỏi người dùng ......................................................................68
T
2
3
T
2
3
4. Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng. ........................................................... 70
T
2
3
T
2
3
4.1 Tổ chức cơ sở dữ liệu ....................................................................................................................70
T
2
3
32T
3
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
4.2 Domain resource tài nguyên miền ...............................................................................................72
T
2
3
T
2
3
4.3 Lexicon resource - từ điển ngơn ngữ ...........................................................................................74
T
2
3
T
2
3
4.4 Ví dụ về hội thoại sử dụng IBiS1 .................................................................................................74
T
2
3
T
2
3
CHƯƠNG V. KẾT LUẬN ....................................................................................................................... 78
T
2
3
32T
TÀI LIỆU THAM KHẢO......................................................................................................................... 80
T
2
3
32T
4
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
LỜI CAM ĐOAN
Tôi tên là Bùi Thanh Tùng - học viên lớp Cao học Công nghệ thông tin – Khố
2009 – Viện Cơng nghệ thơng tin và Truyền thơng – Trường Đại học Bách Khoa
Hà Nội. Tôi xin cam đoan bản luận văn thạc sỹ khoa học này do tôi tự làm, không
sao chép nguyên bản của ai. Các nguồn tài liệu là do tôi thu thập và dịch từ các tài
liệu chuẩn nước ngoài. Số liệu trong bản luận văn này là số liệu thực tế, không bịa
đặt.
Nếu có bất cứ sai phạm nào tơi xin chịu trách nhiệm trước hội đồng tốt nghiệp và
nhà trường.
Học viên cao học:
Bùi Thanh Tùng
5
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
DANH MỤC TỪ VIẾT TẮT
STT
Dạng đầy đủ
Từ
Giải nghĩa
1
QA
Question Answering System
Hệ thống hội thoại
2
IBiS
Issue-Based Information System
3
NLP
Natural Language Processing
4
EAT
Expected Answer Type
Dạng câu trả lời mong đợi
5
RE
Regular Expression
Biểu thức chính quy
6
DME
Dialogue Move Engine
7
WHQ
Wh- Question
Câu hỏi có từ để hỏi
8
YNQ
Yes No Question
Câu hỏi đúng –sai
9
ALTQ
Alternative Question
Câu hỏi lựa chọn
10
DPs
Dialogue Participants
Người tham gia hội thoại
11
CSDL
Cơ sở dữ liệu
12
TIS
Total Information State
Tất cả các trạng thái thông tin
13
IS
Information State
Trạng thái thông tin
14
QUD
Questions Under Discussion
Câu hỏi thảo luận
15
Antecedent
Tiền ngữ - từ/câu bị thay thế
16
Anaphora
Phân giải đồng tham chiếu
17
Contextual ellipsis
Tỉnh lược ngữ pháp.
18
Prefer- Constraint
Hệ thống hội thoại hướng chủ
đề
Kỹ thuật xử lý ngôn ngữ tự
nhiên
Ràng buộc thêm (không bắt
buộc)
6
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
DANH MỤC CÁC HÌNH VẼ
H ình 1. Kiến trúc một hệ thống QA ............................................................. 12
T
2
3
T
2
3
H ình 2. Lược đồ hệ thống hội thoại ............................................................. 17
T
2
3
T
2
3
H ình 3. Hệ thống QALC ............................................................................. 23
T
2
3
32T
H ình 4. Nghĩa của từ "ship" ........................................................................ 28
T
2
3
T
2
3
H ình 5 - Mơ phỏng thuật tốn Hobbs ........................................................... 29
T
2
3
T
2
3
H ình 6 - Mơ phỏng quan hệ từ vựng ............................................................ 35
T
2
3
T
2
3
H ình 7. Cây Semantic 1 .............................................................................. 38
T
2
3
32T
B ảng 2. Các câu hỏi mẫu ............................................................................. 40
T
2
3
32T
H ình 8. Cấu trúc trie xác định thực thể ........................................................ 41
T
2
3
T
2
3
H ình 9. Duyệt Trie ...................................................................................... 42
T
2
3
32T
H ình 10. Cấu trúc Trie khơng xác định loại thực thể ..................................... 43
T
2
3
T
2
3
H ình 11. Kiến trúc IBiS1 ............................................................................ 50
T
2
3
32T
H ình 12. Cài đặt thuật tốn duyệt Trie ......................................................... 69
T
2
3
T
2
3
H ình 13. Sơ đồ khối cho việc phân tích câu hỏi sử dụng Trie ........................ 66
T
2
3
T
2
3
H ình 14. Sơ đồ quá trình hỏi lại và sửa câu hỏi người dùng .......................... 69
T
2
3
T
2
3
7
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
DANH MỤC CÁC BẢNG
Bảng 1. Sự khác nhau giữa QA và hệ thống tìm kiếm ............................................ 11
U
T
2
3
T
2
3
U
Bảng 2. Các câu hỏi mẫu ....................................................................................... 40
U
T
2
3
32T
U
Bảng 3. Thông tin về các node trong trie ............................................................... 41
U
T
2
3
T
2
3
U
Bảng 4. Mối quan hệ resolves giữa câu hỏi – câu trả lời ........................................ 58
U
T
2
3
T
2
3
U
Bảng 5. Mối quan hệ relevant giữa câu hỏi – câu trả lời......................................... 59
U
T
2
3
T
2
3
U
Bảng 6. Mệnh đề thu được khi kết hợp câu hỏi- câu trả lời .................................... 60
U
T
2
3
T
2
3
U
Bảng 7. Một số câu hỏi ví dụ khi cài đặt chương trình dùng Trie ........................... 66
U
T
2
3
T
2
3
U
Bảng 8. Chú thích các EAT ................................................................................... 67
U
T
2
3
32T
U
Bảng 9. Chú thích ngoại lệ .................................................................................... 67
U
T
2
3
32T
U
Bảng 10. Bảng ARTIST -Lưu trữ thông tin hoạ sĩ ................................................. 70
U
T
2
3
T
2
3
U
Bảng 11. Bảng PAINT – Thơng tin về tranh trong phịng triển lãm ....................... 71
U
T
2
3
T
2
3
U
Bảng 12. Bảng GENRE –Thông tin về trường phái hội hoạ ................................... 71
U
T
2
3
T
2
3
U
Bảng 13. Bảng OWNER-Lưu trữ thông tin của người chủ có tranh được triển lãm 72
U
T
2
3
T
2
3
U
Bảng 14.Các ràng buộc trong lĩnh vực phòng tranh-viện bảo tàng ......................... 73
U
T
2
3
T
2
3
U
Bảng 15. Các từ đồng nghĩa trong lĩnh vực phòng tranh-viện bảo tàng .................. 74
U
T
2
3
T
2
3
U
Bảng 16. Mối liên hệ giữa các câu trả lời ngắn và các dialogue move trong lĩnh vực
U
T
2
3
phòng tranh -viện bảo tàng .................................................................................... 74
32T
U
8
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
LỜI MỞ ĐẦU
Cùng với sự phát triển không ngừng của kinh tế - xã hội, cũng như khoa học
kỹ thuật, lượng thông tin ngày càng khổng lồ, thế giới bước vào kỷ nguyên mới, kỷ
nguyên về sự bùng nổ thơng tin số. Ở đó ai nắm bắt được nhiều thơng tin hơn thì cơ
hội thành cơng sẽ cao hơn. Chính vì vậy mà nhu cầu tìm thơng tin nhanh gọn, chính
xác và tiện lợi ngày một cao.
Để đáp ứng nhu cầu đó ta cần xây dựng một hệ thống trích rút thơng tin lý
tưởng, đó là hệ thống có khả năng thực hiện các giao tiếp và hiểu ngôn ngữ như con
người.. Nó cho phép người sử dụng đưa ra yêu cầu thông tin, những câu hỏi dưới
dạng ngôn ngữ tự nhiên (natural languge), hệ thống phải hiểu được các thơng tin đó
ở mức độ như con người: Khi nhận được u cầu thơng tin hay câu hỏi, nó phải trả
về đúng thông tin người sử dụng cần, không thiếu, khơng thừa. Bên cạnh đó nó có
thể tương tác với người sử dụng, ví dụ như : Hỏi lại hay đưa ra những gợi ý cho
người dùng trong trường hợp câu hỏi đầu vào không rõ ràng hoặc bị sai.
Đã có những hệ thống trích rút thơng tin phát triển và đạt được kết quả rất khả
quan, một trong số đó chính là hệ thống hội thoại (Question Answering System QA). Nội dung chính của luận văn bao gồm:
− Tìm hiểu về kiến trúc của hệ thống hội thoại.
− Các kỹ thuật xử lý và phân tích câu hỏi.
− Tìm hiểu về một hệ thống cụ thể là IBiS1 (issue-based information
system - hệ thống hội thoại hướng chủ đề).
− Cài đặt hệ thống hội thoại ứng dụng trong bảo tàng.
Luận văn đã tìm hiểu được mơ hình chung về hệ thống hội thoại. Trên cơ sở các
lý thuyết đã nghiên cứu, luận văn đã xây dựng được hệ thống hội thoại hướng miền
ứng dụng cho lĩnh vực bảo tàng. Có thể coi đây như một tài liệu tham khảo hữu ích,
cũng như một mơ hình để có thể mở rộng xây dựng các hệ thống hội thoại khác ứng
dụng rộng rãi hơn trong tương lai.
9
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
Em xin chân thành gửi lời cảm ơn tới các thày cô giáo trong Viện công nghệ
thông tin và truyền thông, đại học Bách Khoa Hà Nội đã tận tình giảng dạy, truyền
đạt cho em những kiến thức, những kinh nghiệm quý báu trong suốt quá trình học
tập tại trường. Đặc biệt em xin gửi lời cảm ơn sâu sắc tới TS. Lê Thanh Hương đã
nhiệt tình giúp đỡ em trong q trình tìm hiểu, nghiên cứu và hồn thành luận văn
này.
Học viên thực hiện : Bùi Thanh Tùng
10
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
CHƯƠNG I : TỔNG QUAN
1. Giới thiệu chung về hệ thống hội thoại
Trong lĩnh vực trích rút thơng tin, hệ thống hội thoại (Question-Answering,
viết tắt là QA) đảm nhận việc tự động trả lời các câu hỏi được nhập vào ở dạng
ngôn ngữ tự nhiên. Hệ thống dựa vào cơ sở dữ liệu hay các văn bản ngôn ngữ tự
nhiên có sẵn, đưa ra câu trả lời phù hợp theo ngơn ngữ tự nhiên.
QA địi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên (natural language processing
-NLP) hơn các dạng trích rút thơng tin khác, ví dụ như: trích rút văn bản (document
retrieval).
QA là nền móng để phát triển hệ thống hội thoại, kết hợp QA với các cơ chế
quản lý hội thoại (Dialogue Management), ta sẽ được một hệ thống hội thoại hoàn
chỉnh, hệ thống và người dùng đều giao tiếp hỏi – trả lời.
Cách trích rút thông tin tuyền thống là dựa vào ý tưởng coi tập văn bản như
những nhóm từ riêng biệt, nhờ đó, nội dung ngữ nghĩa của văn bản tương đương với
tập từ khố (keyword) nó chứa mà khơng quan tâm đến trật tự từ hay mối quan hệ
trong câu. Tuy nhiên, chỉ có từ khố thơi thì chưa đủ, trật tự từ và quan hệ ngữ pháp
rất quan trọng trong việc quyết định nghĩa của câu. Hệ thống hội thoại dựa trên cách
tiếp cận chú trọng hơn đến ngữ pháp câu thông qua việc cho phép người dùng nhập
câu hỏi dưới dạng ngôn ngữ tự nhiên, đưa ra câu trả lời ngắn gọn theo ngôn ngữ tự
nhiên.
Bảng 1. Sự khác nhau giữa QA và hệ thống tìm kiếm
QA
SEARCH
Input
Câu hỏi ngơn ngữ tự nhiên
Chuỗi truy vấn chứa từ khoá
Ouput
Câu trả lời ngắn gọn
Một tập hợp tài liệu
Uses
Tra cứu nhanh
Nghiên cứu mở rộng
11
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
Thực tế đã có nhiều hệ thống hội thoại được xây dựng, về cấu trúc của các hệ
thống này có thể khác nhau, nhưng nhìn chung, đều có những vấn đề chính cần
quan tâm xử lý là:
• Phân loại câu hỏi
• Xử lý câu hỏi
• Tổ chức cơ sở dữ liệu
• Trích rút thơng tin từ văn bản
• Sinh câu trả lời.
Hình 1. Kiến trúc một hệ thống QA
Một vài hệ thống hội thoại tự động tiêu biểu trong thực tế như:
• PiQASso (Attardi et al., 2001)
• Ask MSR (Brill et al., 2002)
• TREC (Text REtrieval Conference, từ 1990 đến nay )
PiQASso là hệ thống hội thoại dựa trên sự kết hợp của các kỹ thuật trích rút
thơng tin hiện đại với các bộ lọc ngôn ngữ để lựa chọn đoạn văn bản chứa thông tin
phù hợp để trả lời. Bộ lọc ngôn ngữ được dựa trên rất nhiều công cụ xử lý ngôn ngữ
12
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
tự nhiên như: POS tagger (Part-Of-Speech Tagger - nhận diện loại từ), NE tagger
17T
T
7
1
(Name Entity Tagger – nhận diện thực thể) và cả CSDL về ngơn ngữ. Nó phân tích
câu hỏi để tìm ra từ khóa để truy vấn và tìm ra EAT, phân tích các đoạn văn bao
gồm cả việc kiểm tra sự có mặt của các thực thể của EAT và mối quan hệ giữa các
từ.
AskMSR là hệ thống hội thoại có độ chính xác cao dựa vào việc phân tích
lượng dữ liệu online lớn mà nó thu được hơn là dựa vào các kỹ thuật xử lý ngôn
ngữ tự nhiên. Đây là hệ thống đơn giản nhưng hiệu quả.
TREC thực hiện lưu trữ các câu hỏi được phân theo từng loại cụ thể (ví dụ: tổ
chức, sự kiện,…). Việc phân loại câu hỏi và câu trả lời dựa trên tìm thơng tin từ một
số lượng lớn các văn bản, tài liệu.
2. Khó khăn trong xử lý ngôn ngữ tự nhiên
2.1. Cấu trúc ngữ pháp và các thành phần cấu tạo câu
Trong nghiên cứu về ngữ pháp tiếng Việt chúng ta có thể thấy rằng chưa có
một định nghĩa chuẩn về cách gọi của loại từ cũng như ngữ pháp câu tiếng Việt.
Trong tiếng Việt trật tự sắp đặt các từ là phương tiện chính để biểu thị quan hệ
ngữ pháp – tức là quan hệ cú pháp – giữa các từ trong một câu. Trật tự các yếu tố
cấu thành được quy định bằng một vị trí nhất định. Khi vị trí thay đổi thì nghĩa có
thể thay đổi theo.
Từ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng. Hơn nữa, trong
tiếng Việt, những từ nhiều tiếng lại có thể được ghép bởi những tiếng hay từ khác
có nghĩa. Ví dụ hai từ một tiếng đất, nước có thể được ghép với nhau thành một từ
có ý nghĩa trừu tượng hơn là đất nước.
Ngồi ra cịn có các cụm danh từ, động từ và tính từ với nhiều thành phần cấu
tạo, đảm nhiệm các chức năng khác nhau trong câu.
13
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
2.2. Phép lặp từ
Các đại từ, đại từ sở hữu hay danh từ thường được sử dụng để chỉ đến những
tri thức đã được nhắc đến trong các câu hỏi trước, phép ngữ pháp như vậy gọi là
phép lặp từ (anaphora). Xét đoạn hội thoaị sau:
> Quyển sách bìa đỏ kia là sách tham khảo à?
Đúng vậy.
> Nó bao nhiêu tiền?
[Quyển sách màu đỏ kia] bao nhiêu tiền ?
20.000 đồng.
Hệ thống phải hiểu được “nó” ở đây chính là “quyển sách màu đỏ kia”. Một
phương pháp đơn giản để xử lý loại câu này là lưu trữ danh sách các tri thức đã
được nêu trước đó. Khi gặp phải một đại từ, hệ thống kiểm tra lại danh sách từ điểm
mới nhất và thay thế đại từ với tri thức gần nhất thỏa mãn ngữ pháp và giới hạn câu.
Phép lặp từ là vấn đề phổ biến trong xử lý ngôn ngữ tự nhiên.
2.3. Câu tỉnh lược
Hàng ngày, con người thường xun sử dụng câu khơng hồn chỉnh (câu tỉnh
lược) trong hội thoại, mà nghĩa của những câu đó phụ thuộc vào những đoạn hội
thoại thực hiện trước đó.
Xử lý những trường hợp phức tạp của câu tỉnh lược địi hỏi hệ thống phải duy
trì một model hội thoại, điều này không phải lúc nào cũng dễ dàng mặc dù việc bắt
buộc phải hỏi câu hỏi đầy đủ khá là khó chịu với người sử dụng .
2.3.1. Ngữ pháp phức tạp.
Mặc dù có nhiều điểm căn bản giống với ngữ pháp tiếng Anh – ngôn ngữ tự
nhiên được nghiên cứu kỹ càng, tỉ mỉ nhất – nhưng do nhiều yếu tố khác nhau như
lịch sử phát triển lâu dài cùng với sự tiếp thu của nhiều nền văn hóa, ngữ pháp tiếng
Việt có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vô cùng phong phú. Việc
xây dựng một lí thuyết ngữ pháp hồn chỉnh là điều chưa làm được. Sự phức tạp
của ngữ pháp tiếng Việt làm cho việc phân tích cấu trúc câu, phân loại và nhận diện
câu trở nên vơ cùng khó khăn…
14
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
Bên cạnh đó ngữ pháp tiếng Việt cịn có hiện tượng đồng âm, đồng nghĩa,
chuyển nghĩa của từ rất phức tạp. Ví dụ: từ “phát triển” trong 2 cụm từ “phát triển
đất nước” và “đất nước phát triển” là 2 loại từ khác nhau. “Phát triển” trong cụm từ
thứ nhất là động từ tác động vào danh từ “đất nước” trong khi “phát triển” trong
cụm từ thứ hai lại là tính từ bổ nghĩa cho danh từ đất nước.
2.3.2.Nhập nhằng trong việc tách từ và phân loại từ.
Đặc điểm Tiếng Việt là ngôn ngữ đơn âm tiết, điều này gây nên khó khăn
ngay từ giai đoạn tách và phân loại từ vựng. Ví dụ như câu:
• “Cụ /già đi/ nhanh/ quá”
• “Cụ già/đi/nhanh /quá”
Mặc dù nội dung trung tâm của đề tài không nhằm vào vấn đề này nhưng
giai đoạn tách từ chính là giai đoạn tiền xử lý của hệ thống, vì thế sự đúng đắn của
nó có ảnh hưởng rất lớn đến sự đúng đắn của cả thuật toán.
2.3.3. Sự nhập nhằng , đa nghĩa của đại từ.
Một trong những vấn đề phức tạp nhất của tiếng Việt là trong Tiếng Việt có
rất nhiều đại từ xưng hô. Cặp xưng hô giữa 2 ngôi thứ nhất và thứ hai phổ biến
như : tớ -ấy, tớ - cậu, tao mày…
Vấn đề rắc rối nằm ở chỗ, tuỳ vào mối quan hệ giữa người nói với nhau, hoặc
giữa người nói với người thứ ba mà các đại từ xưng hơ này khác nhau. Ví dụ:
• Mẹ và con nói chuyện với nhau :
“Mẹ bao giờ đi làm ?”
U
U
“Lát nữa” .
• Hai chị em nới chuyện với nhau :
“Mẹ đã đi làm chưa nhỉ?”
U
U
“Hình như đi rồi”
“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau. Để xử lý
vấn đề này yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó thực hiện khi xây
dựng các thuật toán. Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các
hệ thống cụ thể hướng lĩnh vực. Ở đây, bằng mặc định, luận văn nghiên cứu cho hệ
15
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
thống hội thoại, do đó ưu tiên xét quan hệ xưng hô ngôi thứ nhất và ngôi thứ hai
giữa người và máy.
16
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
CHƯƠNG II. KIẾN TRÚC CHUNG HỆ THỐNG HỘI
THOẠI
Như đã nói ở phần trước, các hệ thống hội thoại thực tế có thể có cấu trúc sai
khác nhau nhưng đều phải tập trung xử lý các vấn đề cơ bản
• Phân loại và xử lý câu hỏi
• Tổ chức cấu trúc dữ liệu
• Cơ sở dữ liệu
• Trích rút thơng tin
• Xử lý và sinh câu trả lời
Hình 2. Lược đồ hệ thống hội thoại
Trong chương này, ta sẽ tập trung tìm hiểu kiến trúc của một hệ thống hội
thoại và đến chương III ta sẽ tìm hiểu thêm về cơ chế quản lý hội thoại, từ đó cài đặt
thử nghiệm hệ thống hội thoại.
17
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
Về kiến trúc của hệ thống hội thoại, có thể chia thành 2 nhóm chính để tiếp
cận: nhóm liên quan đến xử lý câu hỏi và câu trả lời (information extraction &
syntactic analysis), nhóm liên quan đến truy nhập, trích rút thơng tin theo từ khóa
(information retrieval). Vì thế, ta sẽ tiếp cận hệ thống hội thoại theo 2 hệ thống con
như trên.
1. Kỹ thuật nhận dạng câu hỏi và trả lời
Khi một câu hỏi được đặt ra cho một người hay một hệ thống trả lời tự động,
nhiệm vụ đầu tiên phải giải quyết nhằm đưa ra được câu trả lời là phải hiểu được
câu hỏi.
Quá trình xử lý một câu hỏi bao gồm các bước con như sau:
Phân tích câu hỏi
Phân tích ngữ pháp của câu, viết dạng câu trả lời
Lọc dạng câu trả lời
Lọc các quan hệ phù hợp
Sắp xếp nghĩa theo xác suất
Mở rộng truy vấn.
Q trình phân tích câu hỏi bao gồm việc phân tích cú pháp của câu hỏi, xác
định loại câu trả lời mong đợi, tìm từ khóa có liên quan để thực hiện trích rút đoạn
văn. Câu truy vấn ban đầu xây dựng từ những từ khóa như vây nhằm mục tiêu đạt
độ chính xác cao và có khả năng trích rút ra một số những ứng viên cho câu trả lời
thích hợp trong tập hợp lớn (q trình lọc).
Q trình lọc dạng câu có nhiệm vụ kiểm tra các ứng viên câu trả lời có chứa
những thực thể cần có ở câu trả lời mong đợi hay khơng và loại bỏ những câu
khơng thích hợp. Bộ lọc câu có nhiệm vụ nhận biết các mối quan hệ giữa các thành
phần từ khóa của câu hỏi, và tìm kiếm mối quan hệ tương tự trong những ứng viên
câu trả lời. Điều này thường được thực hiện đựa vào một cây phụ thuộc mà cấu trúc
do hệ thống quyết định. “Khoảng cách” giữa câu hỏi và câu trả lời được tính tốn để
xác định trật tự các ứng viên câu trả lời. Câu trả lời được đánh giá cao nhất là câu
trả lời được hệ thống lựa chọn.
18
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
1.1. Phân tích câu hỏi
Tác vụ phân tích câu hỏi có thể khơng rõ ràng đối với con người khi trả lời câu
hỏi, tuy nhiên đối với một hệ thống trả lời tự động nó đóng vai trị cốt yếu quyết
định độ chính xác của hệ thống.
Chắt lọc thơng tin ẩn chứa trong câu hỏi giữ vai trò quan trọng, căn bản, cho
phép hệ thống thực thi đúng lệnh để đưa ra được câu trả lời đúng đắn cho câu hỏi
đó.Khi việc phân tích câu hỏi thất bại, rất khó và gần như là khơng thể cho hệ thống
hội thoại thực hiện nhiệm vụ của nó.
Cách tiếp cận căn bản nhất để phân tích câu hỏi là chia nhiệm vụ thành 2
phần: tìm kiếm dạng câu trả lời mong đợi và tìm kiếm trọng tâm của câu hỏi. Rất
nhiều các hệ thống (Mollá-Aliod 2003, Chen et al 2001…) sử dụng một tập các luật
do người lập trình tự tạo để tìm kiếm dạng câu trả lời mong đợi (EAT).Thường thì
các luật được viết dưới dạng các biểu thức chính quy (RE) và nhiệm vụ tìm kiếm
dạng câu trả lời là việc kiểm tra sự hòa hợp giữa câu hỏi và các biểu thức đó. Mọi
biểu thức đều tương thích với một dạng câu trả lời mong đợi và được gắn cho câu
hỏi phù hợp với định dạng.
Cách tiếp cận đơn giản nhất để tìm được trọng tâm của câu hỏi đó là loại bỏ tất
cả các từ dừng (khơng có nghĩa quan trọng, chỉ có tác dụng về mặt ngữ pháp) khỏi
câu và coi những từ còn lại đại diện cho trọng tâm câu hỏi (từ khóa).
Một trong những kỹ thuật được sử dụng, đó là sử dụng cây trie (một dạng cây
phụ thuộc). Vấn đề này sẽ được làm rõ trong chương sau.
Trích rút từ khóa (keyword)
U
Đây là bước đầu cho việc lựa chọn từ ngữ để sinh câu trả lời phù hợp.
Hệ thống coi từ khóa là tất cả các danh từ, động từ, tính từ, phó từ trong câu
hỏi, loại trừ danh sách các từ bao gồm (quyết định dựa vào kinh nghiệm của người
thiết kế). Các từ mà module phân tích cú pháp khơng coi là một phần của từ, cụm từ
ngôn ngữ học cũng bị loại bỏ.
Việc phân tích câu hỏi trong hệ thống QA đóng vai trị quan trọng. Module
phân tích câu hỏi (question analysis) cho ta đầu ra là các thông tin như :
• Định dạng câu trả lời mong đợi.
19
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
• Loại câu hỏi.
• Tập từ khóa.
1.2. Luật phân tích từ ngữ.
Cách tiếp cận hệ của hệ thống QA dựa trên những công cụ xử lý ngôn ngữ tự
nhiên, mà độ chính xác và chất lượng bị giới hạn và phụ thuộc vào kiến trúc tổng
thể của toàn hệ thống. Đó là những cơng cụ như Minipar, WordNet, Name Entity
target…
Trong ngơn ngữ tồn tại những từ có nhiều nghĩa hoặc nhiều từ đồng nghĩa,
gần nghĩa… Vì vậy, trong hệ thống cần xây dựng trước những luật để quyết định từ
loại của từ để phục vụ cho quá trình phân tích câu hỏi và sinh câu trả lời. Một trong
những cách tiếp cận, đó là xây dựng WordNet.
1.2.1. Xác suất ngữ nghĩa (Sense probability).
Trong q trình phân tích câu, hệ thống thường phải quyết định xem một từ có
thuộc một loại từ nhất định nào khơng (như trong q trình tìm dạng câu trả lời
mong đợi). Điều này có thể thực hiện được dựa vào tính tốn xác suất ngữ nghĩa
của từ nằm trong một dạng WordNet (ví dụ như xác suất của từ “cat” nằm cao ở
mục “animal” trong WordNet). WordNet sắp xếp nghĩa của từ theo chuỗi. Ví dụ,
cho một danh sách sắp xếp ngữ nghĩa của từ w là {s0,…,sn} ta tính tốn xác xuất
nghĩa của từ thuộc vào mục C như sau :
Với
Và k là một biến phân cấp gần bằng xác suất của nghĩa WordNet đúng đầu
tiên (khoảng 0.7).
1.2.2. Dạng của từ
Dạng của từ w được tính bằng:
20
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
1.2.3. Khoảng cách của từ (Word Distance)
Việc tính tốn khoảng cách của từ được sử dụng để tính tốn khoảng cách
giữa 2 câu, cụ thể, giữa đoạn trả lời và câu hỏi.
Khoảng cách giữa hai từ trái nghĩa phụ thuộc vào khoảng cách ngữ nghĩa ở
cùng độ sâu trong phân loại WordNet. Chênh lệch độ sâu của tất cả các cặp ngữ
nghĩa của hai từ được đo đạc dựa vào xác suất của cặp ngữ nghĩa của 2 từ tính riêng
và kết hợp lại.
Khoảng cách giữa hai từ đồng nghĩa cũng được tính tốn dựa trên tất cả các
ngữ nghĩa của từ, tùy theo xác suất. Khoảng cách giữa hai từ, ký hiệu là dist(w1,w2)
được định nghĩa là khoảng cách đồng nghĩa hoặc trái nghĩa tùy vào 2 từ đó là đồng
nghĩa hay trái nghĩa.
1.2.4. Thay thế từ ngữ.
Việc thay thế một từ nào đó có thể cần thiết trong q trình mở rộng query,
được tính tốn dựa trên tập W tất cả các tập đồng nghĩa của từ w. Tập các từ thay
thế cho w được định nghĩa là:
Trong đó “th” là một giới hạn cố định, sử dụng để tránh trường hợp một từ gần
nghĩa với w có những nghĩa khơng thực sự gắn với w (ví dụ như “computer” với
“machine”).
1.3. Luật viết dạng câu trả lời - query reformulation & query expansion
1.3.1. Viết lại dạng truy vấn - Query reformulation
Khi một câu hỏi được đặt ra, hệ thống sẽ tự động sinh ra một hoặc vài chuỗi
có khả năng là câu trả lời cho câu hỏi.
Đối với các câu hỏi trong tiếng Việt thì cách tốt nhất là giữ nguyên cấu trúc
câu, thay vào vị trí của từ để hỏi bằng lời giải.
Ví dụ như: “Tác giả của bức tranh Thiếu nữ bên hoa huệ là ai?”
21
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
Câu trả lời đơn giản nhất sẽ là “Tác giả của bức tranh Thiếu nữ bên hoa huệ là
<NAME>”.
Cách thứ hai là viết lại câu: “<NAME> đã vẽ bức tranh Thiếu nữ bên hoa huệ”
Để tiến hành trả lời được theo cách thứ 2 ta phải thêm vào động từ sao cho
phù hợp với nội dung câu hỏi mặc dù câu hỏi khơng chứa động từ nào. Chính vì vậy
nên câu trả lời tốt nhất cho câu hỏi trong tiếng Việt là theo dạng 1.
1.3.2. Mở rộng truy vấn - Query expansion
Các từ khố tìm được trong q trình phân tích câu hỏi được đưa vào query.
Quy trình này cần thiết để có thể tự động trích rút dữ liệu sinh câu trả lời EAT.
Bước đầu tiên trong việc mở rộng query là việc phải xử lý hình thái đa ngữ
nghĩa của từ ngữ, bằng việc thay thế các từ khoá bằng những từ đồng nghĩa tương
ứng (trong tệp cơ sở dữ liệu) nếu cần thiết xác định trọng tâm câu trả lời. Một vài
tiền tố thường xuyên xuất hiện trong câu hỏi như “vị trí”, “ở”, “tại” mong đợi câu
trả lời về địa điểm; “ngày”, “lúc”, “khi” mong đợi câu trả lời về thời gian… Sau xử
lý, chúng bị loại bỏ khỏi query.
Vòng tiếp theo, ta cần mở rộng việc tìm kiếm bằng việc thêm vào (trong
trường hợp “or”) các từ đồng nghĩa với cụm từ cần tìm kiếm.
Bước tiếp theo là việc xử lý các trạng từ, bổ ngữ một cách thích hợp và loại bỏ
chúng khỏi những cụm từ cần tìm kiếm (xử lý) tiếp.
Trong vòng xử lý cuối, nếu query còn chứa nhiều hơn 3 từ khoá dưới dạng
liên từ, động từ cũng như tên người (nếu có cả họ và tên) bị loại bỏ. Nếu ngay cả
sau sự cắt tỉa như vậy mà vẫn cịn tồn tại nhiều hơn 3 từ khố liên từ, chúng ta cũng
sẽ loại bỏ nốt những từ khoá liên quan trực tiếp đến những từ khoá đã được xử lý ở
phần trước (có thể thơng qua cây phụ thuộc để phân tích cấu trúc ngơn ngữ).
2. Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction
2.1. Trích rút thơng tin - Retrieve document
Dĩ nhiên, điều khơng thể thiếu trong một hệ thống hội thoại tự động là phải
định vị được tập tài liệu chứa dữ liệu mà câu hỏi cần có. Trong q trình này, sự sai
khác giữa các định dạng câu hỏi và các ứng viên câu trả lời cần được xem xét, sự
22
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
lựa chọn phải đủ lớn để đảm bảo độ chính xác cao nhưng phải kiểm sốt được sự
nhiễu do việc viết lại định dạng câu (reformulation). Hệ thống QA đã tái sử dụng hệ
thống trích rút thơng tin để thực hiện điều này.
Ví dụ như hệ thống QALC (Question-Answering program of the Language and
Cognition):
Hình 3. Hệ thống QALC
Module phân tích câu hỏi quyết định các thơng tin như: định dạng câu trả lời
mong đợi, nhóm của câu hỏi, từ khố… Thơng tin này sẽ được sử dụng để trích rút
dữ liệu thơng qua bộ tìm kiếm.
Thơng tin hay đoạn văn mà câu trả lời đang tìm kiếm là kết quả của một vài
q trình chọn lựa thành cơng, gồm có:
• Lựa chọn đầu tiên dựa vào các từ có ý nghĩa (từ khóa) của câu hỏi tìm kiếm
tệp dữ liệu.
23
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
• Tiến hành tiếp sự lựa chọn thứ 2 thông qua việc nhận dạng các cụm ngữ
nghĩa đồng nghĩa hay đa nghĩa…
• Các câu được lựa chọn nhờ ước lượng độ chênh lệch “khoảng cách” ngữ
nghĩa giữa chúng với cụm từ của câu hỏi và tên thực thể trong dạng trả lời
mong đợi.
Đầu ra của module này thường không phải là thích hợp nhất cho hệ thống hội
thoại: tài liệu có thể khơng được xếp hạng nếu là câu hỏi đúng-sai, sự lựa chọn dựa
nhiều vào từ khoá hơn là bản thân câu hỏi…Vì thế, thường đầu ra sẽ được xử lý tiếp
ở bước sau là trích rút câu trả lời (answer extraction).
2.2. Trích rút câu trả lời - Answer extraction
Trích rút câu trả lời - Answer extraction, hay còn gọi là bước xử lý cú pháp, là
bước tiếp theo sau việc trích rút dữ liệu để đưa ra được câu trả lời mong muốn. Tại
bước này, các câu trả lời tiềm năng được tách ra và đánh giá.
Hai cách phổ biến để trích ra câu trả lời, đó là:
− Phân tích dạng câu trả lời (Answer type analysis)
− Tiếp cận theo hướng học máy (Pattern learning approach)
Phân tích dạng câu trả lời -Answer type analysis:
U
Xây dựng tập các dạng câu trả lời.
Phân loại câu trả lời.
Các khn dạng được gắn vói dạng câu trả lời tương ứng.
Cách này có tính chính xác cao nhưng khơng trả lời được các câu hỏi ngồi
khn dạng (khơng gán nhãn được).
Tiếp cận theo hướng học máy -Pattern learning approach
U
Dạng câu hỏi có thể được “học” nếu sử dụng cặp câu hỏi-trả lời như một
kiểu dữ liệu liên tục.
Thuật toán
24
Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng
− Khuôn chứa đối tượng, văn cảnh và câu hỏi được đưa ra bộ tìm kiếm. Ví
dụ: callories, Big Mac, 560.
− Tất cả các tên thực thể được thay thế bằng dạng của chúng.
− Một vài khuôn dạng cùng loại được dùng để “học” về vài dạng sở hữu đặc
trưng.
− Thực hiện tổng quát hoá (theo dạng thực thể và các lựa chọn token khác).
Sử dụng “độ tin tưởng” để đánh giá câu trả lời. Độ tin tưởng được tính băng
cơng thức (TH đúng/ TH đúng+sai).
Giai đoạn này có thể được phân rã giai đoạn này thành 4 giai đoạn con.
• Tìm ra các thực thể - Entity Extraction: Nhiệm vụ của giai đoạn là rút ra một
tập ứng viên câu trả lời từ tài liệu. Có thể thấy ngay rằng, nếu sử dụng cây
trie, quá trình duyệt cây kết thúc, ta sẽ thu được dạng câu trả lời mong muốn.
Từ dạng câu mong muốn, sinh ra tập hợp các thực thể sắp xếp theo các luật
viết lại câu (reformulation).
• Phân loại các thực thể - Entity classification: Tập thực thể thu được ở giai
đoạn trước có thể được phân vào một số nhóm nhất định. Các loại thực thể
có thể có:
+
Người, vị trí, tổ chức…
+
Ngày tháng, thời gian.
+
Định lượng, số lượng.
+
Chu kỳ, phép đo.
Mỗi dạng thực thể yêu cầu cách sắp câu và xử lý tương ứng
• Phân loại truy vấn - Query Classification: Dùng để xác định luật cú pháp cần
dung để viết câu trả lời từ câu hỏi đã được phân loại ở giai đoạn trước.
• So sánh các thực thể - Entity Ranking: Quyết định dạng thực thể có phù hợp
dạng câu hỏi khơng. Bước này có thể xử lý chung khi phân tích câu hỏi nếu
sử dụng cấu trúc cây phân tích. Sử dụng bộ lọc câu để xác định, đánh giá câu
trả lời tương thích với câu hỏi, cơng thức cho điểm được lấy từ TREC
25