Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (690.7 KB, 69 trang )

i

Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Việt Cường, Thạc sĩ Trần Mai Vũ đã tận tình
chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho tôi để
tôi học tập và nghiên cứu tại trường Đại học Công nghệ.
Tôi xin gửi lời cảm ơn tới các anh chị: CN. Vũ Tiến Thành, CN. Lê Hoàng
Quỳnh, CN. Nguyễn Tiến Thanh, CN. Nguyễn Thanh Sơn, các bạn và các em sinh
viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức
chuyên môn cũng như việc thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Khóa
luận “Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp
dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt” cũng đã
nhận được sự hỗ trợ từ đề tài QG.10.38.
Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã
ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường.
Tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!

Sinh viên

Nguyễn Tiến Tùng

ii

Tóm tắt

Trích rút quan hệ gần nghĩa (near-synonym) tiến hành việc trích rút các khái
niệm được coi là “gần nhau” hoặc về mặt ngữ nghĩa hoặc dựa vào ngữ cảnh xung
quanh chúng. Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây
dựng từ vựng, mở rộng truy vấn,… Theo Inkpen và cộng sự năm 2010 [6], W.Wang
và cộng sự năm 2010 [30], trích rút quan hệ gần nghĩa là một nội dung nghiên cứu thời
sự.
Khóa luận tập trung nghiên cứu các phương pháp trích rút quan hệ gần nghĩa
nhằm đề ra giải pháp phù hợp trong việc trích rút các động từ để mở rộng ngữ nghĩa
truy vấn trong hệ thống hỏi đáp thực thể tên người tiếng Việt [29]. Chúng tôi lựa chọn
giải pháp học bán giám sát dựa vào mẫu ngôn ngữ [30] để trích rút động từ gần nghĩa
trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống và từ dữ
liệu trên Internet.
Thực nghiệm ban đầu trên CSDL câu và trên dữ liệu Web, với động từ đầu vào
(“phát minh”), hệ thống cho ra các động từ gần nghĩa với động từ đầu vào (“Khám
phá, sáng chế, phát hiện”), (trong đó, độ gần nghĩa của mỗi động từ được tính bằng tần
suất xuất hiện của các động từ trong cùng một cụm). Kết quả này cho thấy giải pháp
đề xuất của chúng tôi có tính khả thi.

iii

Lời cam đoan
Tôi xin cam đoan giải pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút
động từ gần nghĩa dựa trên ngữ cảnh miền ứng dụng của hệ thống hỏi đáp thực thể tên
người tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện
dưới sự hướng dẫn của PGS.TS. Hà Quang Thụy và TS. Nguyễn Việt Cường.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.

Sinh viên

Nguyễn Tiến Tùng

iv

Mục lục
Lời cảm ơn i

Tóm tắt ii

Lời cam đoan iii

Mục lục iv

Danh sách các bảng vi

Danh sách các hình vẽ vii

Danh sách các chữ viết tắt viii

Mở đầu 1

Chương 1: Khái quát về trích rút quan hệ gần nghĩa 3

1.1.

Quan hệ gần nghĩa 3

1.1.1.

Quan hệ ngữ nghĩa 3

1.1.2.

Quan hệ gần nghĩa 4

1.2. Trích rút quan hệ gần nghĩa 6

Tóm tắt chương 1 8

Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa 9

2.1. Một số nghiên cứu liên quan trên thế giới 9

2.1.1. Phương pháp DIPRE 9

2.1.2. Phương pháp Snowball 9

2.1.3. Trích rút mẫu tự động sử dụng máy tìm kiếm 11

2.1.4. Phương pháp KnowItAll 11

2.1.5. Phương pháp TextRunner 12

2.2. Một số nghiên cứu liên quan trong nước 13

2.2.1. Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản 13

2.2.3. Mở rộng thực thể 13

2.2.2. Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt 14

Tóm tắt chương 2 15

Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ
thống hỏi đáp thực thể tên người tiếng Việt 16

v

3.1. Mô hình trích rút quan hệ gần nghĩa 16

3.2. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 24

3.2.1. Hệ thống hỏi đáp thực thể tên người tiếng Việt 24

3.2.2. Mở rộng truy vấn 25

3.2.3. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 26

Tóm tắt chương ba 27

Chương 4: Thực nghiệm và đánh giá 28

4.1. Môi trường và công cụ sử dụng cho thực nghiệm 28

4.2. Thực nghiệm và đánh giá trích rút quan hệ gần nghĩa 29

Kết luận 33

Phụ lục 34

Tài liệu tham khảo 35

vi

Danh sách các bảng
Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa) 5

Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm 28

Bảng 3: Các công cụ phần mềm sử dụng 28

Bảng 4: Ví dụ về trích câu và tách từ, gán nhãn 29

Bảng 5: Ví dụ về trích bộ <N/Np
i
, N/Np
j
> 30

Bảng 6. Bảng kết quả trên top 3 cụm chứa động từ đang xét 32

vii

Danh sách các hình vẽ
Hình 1: Mô hình Snowball 10

Hình 2 : Mô hình trích rút quan hệ gần nghĩa 17

Hình 3: Trích chọn tập câu chứa bộ <N/Np
i
, V, N/Np
j
> 18

Hình 4:Trích xuất tập câu đồng dạng với từng câu trong bước 1 19

Hình 5: Lựa chọn V mới 20

Hình 6: Phân cụm 21

viii

Danh sách các chữ viết tắt
Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt
CTRW Choose the Right Word Chọn từ đúng
PMI Pointwise Mutual Information Thông tin tương hỗ trên từng
điểm
HAC Hierarchical agglomerative
clustering

Phân cụm phân cấp từ dưới lên
CRF Conditional Random Field Mô hình trường điều kiện ngẫu
nhiên

1

Mở đầu
Trích rút quan hệ ngữ nghĩa nói chung và trích rút quan hệ gần nghĩa nói riêng
đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên. Quan hệ gần nghĩa (near-
synonym) là mối quan hệ ngữ nghĩa giữa các khái niệm, về mặt ngữ nghĩa hoặc ngữ cảnh
xung quanh khái niệm, gần nghĩa với nhau. Trích rút quan hệ gần nghĩa ứng dụng nhiều
cho các bài toán như: xây dựng từ vựng [11]; mở rộng truy vấn cho hệ thống hỏi đáp [3,
21] - Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm
tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin
theo ngữ cảnh nhằm cải tiến các kết quả truy vấn,…
Trong dịch máy và các hệ thống sinh ngôn ngữ tự nhiên, nhu cầu trích rút các quan
hệ gần nghĩa phải được làm một cách cNn thận [17]. Bài toán trích rút quan hệ gần nghĩa
là rất khó khăn bởi vì những từ gần nghĩa có nghĩa rất gần nhau [11], do đó chúng cũng
xuất hiện trong những ngữ cảnh tương tự, vì vậy chúng ta cần nắm bắt được sự khác biệt
tinh tế, cụ thể của từng từ gần nghĩa.
Mục tiêu của khóa luận này là khảo sát, nghiên cứu để đưa ra một phương pháp
trích rút quan hệ gần nghĩa tối ưu hơn cho ngôn ngữ tiếng Việt. Để tiếp cận mục tiêu này,
khóa luận nghiên cứu và giới thiệu một số phương pháp trích rút quan hệ gần nghĩa đang
được quan tâm hiện nay. Từ đó, đưa ra một phương pháp phù hợp nhất để trích rút quan
hệ gần nghĩa cho ngôn ngữ tiếng Việt, đó là sử dụng học bán giám sát dựa vào mẫu ngôn
ngữ để trích rút quan hệ gần nghĩa. Bên cạnh đó, khóa luận cũng áp dụng phương pháp
trích rút quan hệ gần nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan
tâm không kém – đó là mở rộng truy vấn cho hệ thống hỏi đáp, cụ thể là hệ thống hỏi đáp
thực thể tên người cho tiếng Việt.

Nội dung của khóa luận được chia thành các chương như sau:
Chương 1: Chương này đề cập tới khái niệm quan hệ ngữ nghĩa nói chung, quan
hệ gần nghĩa nói riêng, một số đặc trưng của quan hệ gần nghĩa, phân biệt đôi chút về gần
nghĩa và đồng nghĩa, một số phương pháp trích rút quan hệ gần nghĩa.
Chương 2: Đây là chương trình bày một số phương pháp trích rút quan hệ ngữ
nghĩa sử dụng kỹ thuật bootstrapping. Đồng thời đưa ra phương pháp trích rút quan hệ
gần nghĩa phù hợp đối với tiếng Việt.
2

Chương 3: Chương này trình bày mô hình trích rút quan hệ gần nghĩa và áp dụng
trích rút quan hệ gần nghĩa để mở rộng truy vấn trong hệ thống hỏi đáp thực thể tên người
cho tiếng Việt.
Chương 4: Khóa luận trình bày một số thực nghiệm việc trích rút động từ gần
nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống hỏi đáp
thực thể tên người cho tiếng Việt và từ dữ liệu trên Internet. Kết quả thực nghiệm, lựa
chọn top 3 động từ trong mỗi cụm. Độ gần nghĩa của mỗi động từ được tính bằng tần suất
xuất hiện của các động từ trong cụm.
Phần kết luận và hướng phát triển khóa luận: Tóm lược những điểm chính của
khóa luận. Chỉ ra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong
thời gian tiếp theo.

3

Chương 1: Khái quát về trích rút quan hệ gần nghĩa
Để hiểu và giải quyết được bài toán trích rút quan hệ gần nghĩa, đòi hỏi chúng ta
cần phải nắm vững được khái niệm quan hệ gần nghĩa, các đặc trưng của quan hệ gần
nghĩa, … Vì thế, khóa luận trong chương này giới thiệu các vấn đề liên quan tới trích rút
quan hệ gần nghĩa, làm tiền đề cho việc giải quyết bài toán.
1.1. Quan hệ gần nghĩa

1.1.1. Quan hệ ngữ nghĩa
Quan hệ ngữ nghĩa trong văn bản là một trong những nội dung của xử lý ngôn ngữ
tự nhiên có liên quan mật thiết tới nhiều bài toán ứng dụng trong khai phá văn bản [1]. Có
rất nhiều khái niệm hay định nghĩa về quan hệ ngữ nghĩa được đưa ra. Theo nghĩa hẹp,
Birger Hjorland đã định nghĩa quan hệ ngữ nghĩa [31]: Là quan hệ về mặt ngữ nghĩa giữa
hai hay nhiều khái niệm. Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm từ.
Ví dụ: Ta có một câu “Colombo tìm ra Châu mỹ”
(Colombo, Châu mỹ) có quan hệ là “tìm ra”.
Theo Girju [8], một số quan hệ ngữ nghĩa quan trọng thường được dùng để thể
hiện quan hệ giữa các khái niệm như: hyponymy(A là một loại của B), meronymy(A là
một phần của B), holonymy(B có A như một phần của nó), synonymy(A đồng nghĩa với
B) và antonymy(A trái nghĩa với B).
Xác định quan hệ ngữ nghĩa giữa các khái niệm là một vấn đề quan trọng trong tìm
kiếm thông tin. Việc làm rõ quan hệ giữa các khái niệm sẽ làm tăng tính ngữ nghĩa cho
câu hay tập tài liệu. Đồng thời, khi tìm kiếm một thông tin về một vấn đề nào đó, ta có thể
có được những thông tin về các vấn đề khác liên quan tới nó. Vì vậy, để tìm kiếm được
những thông tin chính xác, chúng ta cần biết các loại quan hệ giữa các khái niệm và đồng
thời tìm hiểu các phương pháp để xác định được quan hệ đó.
Quan hệ ngữ nghĩa thể hiện quan hệ giữa các khái niệm, khái niệm ở đây có thể là
một từ hoặc một cụm danh từ. Chúng được biểu diễn dưới dạng cấu trúc phân cấp thông
qua các quan hệ. Bài toán trích rút quan hệ ngữ nghĩa được đặt ra và yêu cầu cần phải
được giải quyết. Roxana Girju và cộng sự đã phát biểu bài toán trích rút mối quan hệ ngữ
nghĩa [14] như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu
4

không có cấu trúc như các trang web, các tài liệu, tin tức, … ta cần phải xác định được
các mối quan hệ ngữ nghĩa giữa chúng.
1.1.2. Quan hệ gần nghĩa
Trong ngôn ngữ, quan hệ gần nghĩa có thể tồn tại ở mức từ, cụm từ hoặc có thể ở
mức câu. Trong phạm vi khóa luận tốt nghiệp, chúng tôi đề cập quan hệ gần nghĩa ở mức

từ/cụm từ gần nghĩa.
Theo Philip Edmonds và Graeme Hirst, 2006 [23], hai từ được gọi là gần nghĩa
(near-synonym) nếu như hai từ này có ý nghĩa tương tự nhưng mang sắc thái khác nhau
về từ vựng. Ví dụ từ “lỗi” và “sai lầm” là hai từ gần nghĩa: “lỗi” (Chỗ sai sót do không
thực hiện đúng quy tắc – điều sai sót, không nên, không phải trong cách cư xử, hành
động), “sai lầm” (Trái với yêu cầu khách quan, dẫn đến hậu quả không hay) [18]. Ngoài
việc chú ý đến sắc thái từ vựng, khi lựa chọn một từ, cần phải chắc chắn rằng nó phù hợp
với các từ khác trong một câu. Nhiều bài báo nghiên cứu về các cách thức để sắp xếp lựa
chọn các từ gần nghĩa phù hợp nhất trong từng ngữ cảnh. Vấn đề này rất khó khăn vì
những từ gần nghĩa có ý nghĩa rất gần nhau và xuất hiện trong những ngữ cảnh tương tự
nhau.
Theo InkpenD.Z. và Hirst G., 2002 [16]: từ gần nghĩa là những từ về cơ bản là
đồng nghĩa, nhưng không hoàn toàn. Chúng khác nhau về sắc thái, biểu cảm, hàm ý cũng
như ý muốn nhấn mạnh; Trong một số trường hợp, chúng cũng có thể khác nhau về ngữ
pháp hoặc ràng buộc về sự sắp xếp theo thứ tự. Ví dụ theo Gove (1984), từ “foe” (kẻ thù)
nhấn mạnh vào hoạt động trong chiến tranh hơn là từ “enemy” (kẻ thù). Hoặc là theo
Room (1981) từ “forest” và “woods” là do sự kết hợp phức tạp về kích thước, sự khai
hóa, sự hoang vu (được xác định bởi các loại động thực vật trong đó). Một số ví dụ khác
được đưa ra trong bảng 1 (Hirst 1995). Tồn tại rất ít các từ đồng nghĩa tuyệt đối. Các từ
điển đồng nghĩa hiện nay, thực tế là vẫn bao hàm cả những từ gần nghĩa. Ta có thể thấy rõ
ràng điều này ở các từ điển như Webster’s New Dictionary of Synonyms (Gove 1984) và
CTRW (Hayakawa 1994), các cụm từ giống nhau được đưa vào thành từng nhóm và cắt
nghĩa sự khác nhau giữa các từ trong nhóm.

5

Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa)
Các biến thể Ví dụ

Văn phong, tính câu nệ hình thức pissed : drunk : inebriated
<say bí tỉ: say rượu: say>
Văn phong, sức mạnh

ruin : annihilate
<tàn phá: hủy diệt>
Nhấn mạnh thái độ skinny : thin : slim
<gầy nhom: gầy gò: mảnh khảnh>
Cảm xúc, tình cảm daddy : dad : father
Tính liên tục, xuyên suốt seep : drip
<rỉ ra: chảy nhỏ giọt>
Nhấn mạnh các khía cạnh khác nhau
của nghĩa
enemy : foe
<kẻ địch: kẻ thù>
Ranh giới mờ nhạt woods : forest
Sự kết hợp giữa các từ task : job (in the context of daunting)

Biến thể của các từ gần nghĩa có thế khác nhau ở nhiều khía cạnh. DiMarco, Hirst,
và Stede (1993) đã tiến hành phân tích các loại biến thể này, lấy dẫn chứng từ các từ điển
có sự phân biệt về từ gần nghĩa. Họ nhận thấy rằng không có giới hạn nguyên tắc nào về
các loại biến thể, tuy nhiên có một số lượng nhỏ các loại xảy ra thường xuyên. Edmonds
(1999) đã đưa ra một phân tích chi tiết về các loại biến thể. Sau đây là một số loại biến thể
liên quan nhất được lấy ví dụ từ CTRW:
 Biến thể về sự biểu hiện (denotational): Từ gần nghĩa có thể khác nhau về
tần số họ nhấn mạnh về thành phần nghĩa của chúng (Ví dụ, đôi khi
“invasion” có nghĩa là cuộc tấn công quy mô lớn nhưng không có kế
hoạch), trong độ trễ hay sự nhấn mạnh không trực tiếp về thành phần ngữ
nghĩa và sự khác nhau về “độ mịn” nghĩa của bản thân ý tưởng đó.
 Biến thể về biểu cảm, thái độ: Từ gần nghĩa có thể truyền đạt các sắc thái,

quan điểm khác nhau về thực thể mà người nói muốn hướng tới trong một
hoàn cảnh cụ thể. Thái độ có thể: có nghĩa xấu, trung lập hoặc tán thành.
 Biến thể về văn phong: Biến thể văn phong của từ gần nghĩa bao gồm các
mức độ khác nhau: tính hình thức, tính cụ thể, tính hoa mỹ (văn), tính thân
mật, …
6

Trong tiếng Việt, theo Mai Ngọc Trừ và cộng sự, 1997 [4], từ đồng nghĩa là những
từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt về một vài sắc
thái ngữ nghĩa hoặc sắc thái phong cách, … nào đó, hoặc đồng thời cả hai. Ví dụ: “cố”,
“gắng”, “cố gắng” là những nhóm từ đồng nghĩa. Những từ đồng nghĩa với nhau không
nhất thiết phải tương đương với nhau về số lượng nghĩa, tức là các từ trong một nhóm
đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một
hoặc hai nghĩa, nhưng từ kia có thể có nhiều hơn. Chính vì thế một từ đa nghĩa có thể
tham gia vào nhiều nhóm đồng nghĩa khác nhau. Chúng tôi chưa tìm thấy các nghiên cứu
về từ gần nghĩa trong xử lý tiếng Việt.
1.2. Trích rút quan hệ gần nghĩa
Đối với trích rút quan hệ gần nghĩa, nhiều nhà nghiên cứu có cách phát biểu và tiếp
cận bài toán theo các hướng khác nhau. Cách tự nhiên nhất để xác nhận một thuật toán để
trích rút là yêu cầu độc giả đánh giá chất lượng đầu ra của thuật toán, nhưng cách đánh
giá này sẽ mất rất nhiều thời gian. Thay vào đó, người ta xác nhận thuật toán bằng cách
xóa các từ được trích rút từ các câu mẫu, để xem liệu các thuật toán có thể khôi phục lại
những từ đó không. Đó là, người ta tạo ra các khoảng trống từ vựng và đánh giá khả năng
các thuật toán lấp khoảng trống đó.
Theo Inkpen & Hirst [15], trích rút quan hệ gần nghĩa bao gồm 2 bước: Mở rộng
siêu khái niệm; Lựa chọn những từ gần nghĩa nhất với mỗi cụm theo thứ tự ưu tiên. Họ
thực hiện theo một cách đơn giản: Module lựa chọn từ gần nghĩa tính điểm số chấp thuận
cho mỗi từ gần nghĩa; sau đó từ các điểm số chấp thuận này sẽ tính trọng số, cuối cùng sử
dụng HALogen
1

để tạo sự lựa chọn cuối cùng bằng cách kết hợp giữa các trọng số với các
xác suất của mô hình ngôn ngữ.
Islam & Inkpen [6] sử dụng mô hình ngôn ngữ 5-gram được xây dựng từ Google
với bộ dữ liệu 1T, áp dụng phương pháp thống kê không giám sát để lựa chọn tự động từ
gần nghĩa. Phương pháp này là tự động, không yêu cầu bất kỳ nguồn tài nguyên tri thức
nào của con người (ví dụ như ontology) và có thể được áp dụng cho các ngôn ngữ khác
nhau.

1

7

Inkpen D., 2007 [17] sử dụng mô hình thống kê, tính điểm cho mỗi ứng viên
candidates từ gần nghĩa dựa trên điểm số thông tin tương hỗ giữa từ gần nghĩa và nội
dung các từ trong ngữ cảnh (đã lọc bỏ các từ dừng). Thông tin tương hỗ theo từng điểm
PMI giữa hai từ x và y so sánh khả năng quan sát hai từ với nhau để xác suất của quan sát
x và y độc lập (xác suất xảy ra là ngẫu nhiên):
PMI
ሺ
x,y
ሻ
= log
ଶ
Pሺx,yሻ
P
ሺ
x
ሻ
Pሺyሻ

Các xác suất được tính xấp xỉ như sau:
P
ሺ
x
ሻ
=
Cሺxሻ
N
; P
ሺ
y
ሻ
=
Cሺyሻ
N
; P
ሺ
x,y
ሻ
=
Cሺx,yሻ
N

Trong đó: C biểu thị tần số đếm, N là tổng số các từ trong tập ngữ liệu
W.Wang và cộng sự, 2010 [30] đã đề xuất phương pháp tiếp cận xây dựng mẫu tự
động để trích rút động từ đồng nghĩa và trái nghĩa từ các bài báo tiếng Anh. Theo các tác
giả, động từ đóng vai trò quan trọng trong ngôn ngữ tự nhiên, chúng thể hiện các hành
động, sự kiện và các trạng thái. Động từ giống như các từ loại khác, có thể liên quan
thông qua các mối quan hệ đồng nghĩa, trái nghĩa và một số quan hệ khác. Bài toán học
mối quan hệ giữa các động từ có thể được coi là một dạng trong bài toán trích rút thông

tin ( chẳng hạn như trích rút vị trí tên [22] và trích rút quan hệ thượng hạ vị [18]). Điều
này có nghĩa rằng tồn tại hướng tiếp cận trích rút dựa vào mẫu ngôn ngữ và đã được áp
dụng vào bài toán trích rút quan hệ đồng nghĩa và trái nghĩa của W.Wang và cộng sự,
trong bài toán các tác giả có một số yêu cầu đặc biệt: ví dụ như tần số mà người dùng sử
dụng hai hoặc nhiều động từ đồng nghĩa trong một câu. Trích rút quan hệ đồng nghĩa và
trái nghĩa theo W.Wang và cộng sự bao gồm 4 bước chính: Phân tích xác suất, trích xuất
tập mồi, xây dựng mẫu và trích rút quan hệ đồng nghĩa/trái nghĩa.

8

Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát về quan hệ ngữ nghĩa nói
chung và quan hệ gần nghĩa nói riêng; Nêu khái niệm, các đặc trưng cũng như sự khác
biệt giữa các biến thể của từ gần nghĩa; Bài toán trích rút quan hệ gần nghĩa và một số
phương pháp trích rút quan hệ gần nghĩa.
Trong chương tiếp theo, khóa luận nêu rõ một số phương pháp học bán giám sát
dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và đưa ra phương pháp trích rút
quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt.
9

Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ
để trích rút quan hệ ngữ nghĩa
Trong chương này, chúng tôi giới thiệu tóm lược một số phương pháp học bán
giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa, cùng một số kiến thức
liên quan làm tiền đề cho việc đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ
để trích rút quan hệ gần nghĩa.
2.1. Một số nghiên cứu liên quan trên thế giới
2.1.1. Phương pháp DIPRE

Năm 1998, Brin đề xuất phương pháp học bán giám sát cho việc trích rút mẫu quan
hệ ngữ nghĩa [27]. Phương pháp được tiến hành với mối quan hệ “author-book” với tập
dữ liệu ban đầu khoảng 5 ví dụ cho mối quan hệ này, nó được mô tả qua các bước như
sau:
 Xây dựng tập mồi ban đầu <A, B> để gán nhãn cho một số dữ liệu.
 Tìm tất cả các câu có chứa đủ các thành phần của tập mồi ban đầu.
 Tìm các mẫu quan hệ giữa các thành phần của tập mồi ban đầu. Mối quan
hệ được biểu diễn dưới dạng: [order, author, book, prefix, suffix, middle]
 Từ các mẫu chưa được gán nhãn thu được tập mồi mới và sau đó tiến hành
thêm tập mồi mới này vào kho chứa tập mồi ban đầu cho mối quan hệ đó.
 Quay lại bước tìm tập mồi và mẫu mới
Phương pháp đạt hiệu quả cao trên dữ liệu HTML trong việc xác định tập mẫu và
sinh tập mồi mới. Năm 2000 Agichtein và Gravano đề xuất phương pháp Snowball [12]
dựa trên ý tưởng của phương pháp DIPRE, phương pháp Snowball tiến hành thực hiện
trên dữ liệu không có cấu trúc, xây dựng độ đo để đánh giá độ tin cậy cho việc sinh tập
mẫu quan hệ và tập mồi mới được sinh ra và bổ sung thêm việc nhận diện thực thể.
2.1.2. Phương pháp Snowball
Cũng dựa trên ý tưởng bootstrapping của phương pháp DIPRE, Snowball là hệ
thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu quan hệ mẫu làm nhân. Sau đó
trong quá trình thực hiện tập mẫu và tập quan hệ mới được sinh ra cần được đánh giá chất
lượng [12]. Giải thuật được thực nghiệm trên mối quan hệ “Organization – location”.
10

Hình 1: Mô hình Snowball
Phương pháp này gồm các bước như sau:
 Học bán tự động để trích rút mẫu: đầu vào là một tập mồi ban đầu và một
tập văn bản. Mỗi tập mồi gồm hai thực thể biểu diễn dưới dạng <A, B> hay
< thực thể 1, thực thể 2>. Hệ thống phân tích, chọn lọc và trích rút các mẫu.
Sau đó Snowball tính độ chính xác của từng mẫu dựa trên số Positive và
Negative của nó và chọn ra top N mẫu có điểm số cao nhất. Độ tin tưởng
của mẫu được tính theo công thức:
ܾ݈݂݁݅݁
ሺ
ܲ
ሻ
=
ܲ.݌݋ݏ݅ݐ݅ݒ݁
ሺܲ.݌݋ݏ݅ݐ݅ݒ݁ + ܲ.݊݁݃ܽݐ݅ݒ݁ሻ

Trong đó, Positive là tập chứa các mẫu mới đã nằm trong danh sách tập mồi.
Negative là tập chứa các mẫu mới chỉ có đúng một trong hai thành phần xuất hiện trong
danh sách tập mồi.
 Tìm các tập mồi mới cho vòng lặp tiếp theo: Trong top N được chọn, mỗi
mẫu sẽ là cặp trong danh sách tập mồi mới, tiếp tục được đưa vào vòng lặp:
ܿ݋݂݊
ሺ
ܶ
ሻ
= 1 −
ෑ

ሺ1 − ܾ݈݂݁݅݁
ሺ
ܲ
ሻ
ሻ
|௣|
௜ୀ଴

Seed Tuples Find Occurrences of Seed
Tag Entities Generate New Seed Tuples
Generate Extraction Patterns Augment Table
11

Hệ thống sẽ lựa chọn được M dùng làm tập mồi cho quá trình kế tiếp, là cặp được
đánh giá tốt nhất. Hệ thống sẽ quay lại bước học bán tự động để trích rút mẫu, quá trình
này tiếp tục lặp cho đến khi không tìm được cặp mới hoặc lặp theo số lần xác định trước.
2.1.3. Trích rút mẫu tự động sử dụng máy tìm kiếm
Năm 2002, Ravichandran và Hovy [10] đã đề xuất áp dụng kỹ thuật bootstrapping
để tìm mẫu quan hệ và những tập mồi mới cho những câu hỏi liên quan tới ngày sinh. Tận
dụng nguồn tri thức lớn từ các máy tìm kiếm như Google, Yahoo, …, phương pháp này
sử dụng máy tìm kiếm phục vụ cho việc sinh mẫu quan hệ một cách tự động dựa vào các
tài liệu web. Phương pháp này gồm các bước sau:
 Chọn các ví dụ của từng loại câu hỏi đã xác định trước
 Chọn các khái niệm trong câu hỏi và câu trả lời để tạo truy vấn vào máy tìm
kiếm
 Thu thập 1000 trang web có liên quan, chọn tập các câu có chứa cả những
khái niệm trong câu hỏi và câu trả lời.
 Tìm những xâu con hoặc các cụm từ có chứa các khái niệm trong câu hỏi và
câu trả lời.
 Thay thế những từ trong câu hỏi và câu trả lời bằng các nhãn.

2.1.4. Phương pháp KnowItAll
Năm 2004, Etzioni và cộng sự [22] đã đề xuất phương pháp KnowItAll để tiến
hành trích rút ra những sự vật, khái niệm và các mẫu quan hệ từ các trang web. KnowItAll
được mở rộng từ một ontology và dựa vào một tập các luật để từ đó trích rút ra các luật
cho mỗi lớp và các quan hệ trong ontology. Đối với phương pháp này:
Đầu vào: là một tập các lớp thực thể được trích xuất, ví dụ như thành phố, nhà
khoa học, bộ phim,…
Đầu ra: Danh sách các thực thể được trích xuất từ các trang web
Các mẫu sử dụng đã được gán nhãn bằng tay, những mẫu này được xây dựng dựa
vào việc tách cụm danh từ. KnowItAll gồm 3 bước chính:
 Bước 1: Trích xuất (Extractor): KnowItAll tạo ra một tập các luật trích xuất
cho mỗi lớp và các mẫu chung cho nhiều mối quan hệ khác nhau.
Ví dụ: Những mẫu chung là:
12

 NP
1
{“,”} “such as” NPlist
2

 NP
1
{“,”} “and other” NP
2

 NP
1
{“,”} “including” NPlist
2

 NP
1
“is a” NP
2

 NP
1
“is a” NP
2
“of” NP
3

 “the” NP
1
“of” NP
2
“is” NP
3

 Bước 2: Giao diện máy tìm kiếm (Search Engine Interface): KnowItAll tự
động lấy những câu truy vấn dựa vào việc trích xuất luật. Mỗi luật có các
câu truy vấn được tạo ra từ các từ khóa có trong các luật.
 Bước 3: Đánh giá (Assessor): KnowItAll sử dụng thống kê các truy vấn của
máy tìm kiếm để ước tính khả năng trích rút các mẫu trong bước 1. Đặc
biệt, trong bước này đã sử dụng một dạng thông tin được gọi là thông tin
tương hỗ theo từng điểm (pointwise mutual information – PMI) giữa các từ
và các cụm từ được ước lượng từ các trang web được trả về từ máy tìm
kiếm.
2.1.5. Phương pháp TextRunner

TextRunner [19] là một phương pháp không cần dữ liệu ban đầu mà tự động phát
hiện ra các mối quan hệ.
Ví dụ: Trích xuất bộ dữ liệu ba thành phần được thể hiện bởi mối quan hệ nhị phân
(Arg1, relation, Arg2). Phương pháp này gồm 3 bước chính:
 Self-Supervised Learner: Tự động gán nhãn cho tập dữ liệu nhỏ để huấn
luyện. Sau đó sử dụng nhãn này để gán nhãn cho dữ liệu huấn luyện dựa
vào Naïve Bayes. Việc trích rút được biểu diễn dưới dạng t = ሺe
୧
,r
୧,୨
,e
୨
ሻ
với e
୧
,e
୨
là các xâu biểu diễn cho các thực thể, r
୧୨
là một xâu biểu diễn mối
quan hệ giữa chúng.
 Single-Pass Extractor: Trích rút bộ dữ liệu cho tất cả những mối quan hệ có
thể xảy ra. Tìm ra các bộ dữ liệu candidates từ các câu, tiến hành phân loại
các candidates và giữ lại những candidates có kết quả nhãn tốt.
 Redundacy-Based Assessor: Thống kê mỗi bộ dữ liệu được giữ lại dựa vào
mô hình xác suất được Downey và cộng sự giới thiệu [9].
13

2.2. Một số nghiên cứu liên quan trong nước

2.2.1. Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản
Năm 2005, Vũ Bội Hằng [5] đã nghiên cứu, thực nghiệm phát hiện quan hệ ngữ
nghĩa Nguyên nhân – Kết quả từ các văn bản. Tác giả đã trình bày biểu diễn quan hệ
nguyên nhân tường minh với một động từ chỉ nguyên nhân dưới dạng:
<DT1 – động từ chỉ nguyên nhân – DT2> (DT1 và DT 2 là các danh từ/ngữ danh từ).
Thủ tục phát hiện quan hệ nhân quả bao gồm 6 bước chính:
 Với mỗi văn bản trong tập dữ liệu. Chọn ra các câu có cấu trúc <DT – động
từ - DT 2> từ các văn bản.
 So sánh động từ trong câu đã chọn với các động từ chỉ nguyên nhân trong
bảng động từ chỉ nguyên nhân. Nếu động từ này trùng với một trong các
động từ chỉ nguyên nhân trong bảng thì xét cặp (DT1, DT2)
 Nếu cặp danh từ này đã có trong cơ sở dữ liệu thì tăng giá trị tần suất
xuất hiện của chúng lên 1
 Nếu cặp danh từ này chưa tồn tại trong cơ sở dữ liệu thì thêm mới nó
vào cơ sở dữ liệu
 Lặp lại bước hai với tất cả các câu có dạng <DT1 – động từ - DT2> trong
văn bản đó
 Quay trở lại thực hiện bước 1 với mỗi văn bản trong tập dữ liệu
 Sắp xếp các cặp (DT1, DT2) thu được theo thứ tự giảm dần của tần suất
xuất hiện.
 Chọn ra m cặp đầu tiên trong cơ sở dữ liệu. Đó là những cặp quan hệ nhân
quả cần tìm.
2.2.2. Mở rộng thực thể
Năm 2010, chúng tôi [20] đề xuất sử dụng luật ngữ nghĩa, cụ thể là mối quan hệ
tương đương, để mở rộng thực thể. Luật này sẽ được kết hợp với lần lượt các thực thể
được cho trong tập mồi để xây dựng truy vấn đưa vào máy tìm kiếm, từ đó nhận được các
thực thể mới để đưa vào tập thực thể “tiềm năng”. Phương pháp này bao gồm 7 bước
chính:
14

 Tạo truy vấn: Dựa vào thực thể mồi và các mẫu. Ví dụ tập thực thể mồi:
{“nokia”, “samsung”, “sony”} và tập mẫu có mẫu “Một số * như”.
 Chọn m liên kết đầu tiên được trả về bởi kết quả tìm kiếm (m=100)
 Thu thập các trang web tương ứng với các liên kết đã được chọn ở bước
trên.
 Tiền xử lý dữ liệu: Loại nhiễu, loại bỏ thẻ HTML, lấy nội dung chính của
trang web và tách câu: sử dụng công cụ JvnTextPro.
 Trích chọn các thực thể “tiềm năng”: Sau khi tách câu, các câu này được
đưa vào bộ trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được
trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được định nghĩa
sẵn trong tập các luật. Sau bước này sẽ thu được thực thể “tiềm năng”
 Xếp hạng các thực thể “tiềm năng” dựa vào 3 thuật toán: Extracted
Frequency, Wrapper length và PageRank.
 Lựa chọn thực thể mới dựa vào tập các thực thể đã được xếp hạng.
2.2.3. Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt
Năm 2011, chúng tôi [29] đã nghiên cứu thực nghiệm với hệ thống hỏi đáp thực
thể tên người cho tiếng Việt, hệ thống gồm 2 pha chính:
 Pha phân tích câu hỏi: Tập trung vào phân tích các đặc trưng để lấy ra thông
tin của câu hỏi phục vụ cho các bước phía sau.
 Pha trích xuất câu trả lời:
• Pha trích xuất câu trả lời dựa trên tập câu hỏi và câu trả lời mẫu. Câu
hỏi đầu vào nếu tồn tại sẵn trong tập này thì hệ thống sẽ đưa ra ngay
gợi ý câu trả lời có sẵn đã được lưu.
• Pha trích xuất câu trả lời dựa trên tập dữ liệu do chính hệ thống thu
thập và đánh chỉ mục. Trong pha này hệ thống sẽ sử dụng dữ liệu có
sẵn, phân tích và xử lý trả lời nhanh cho các thông tin của câu hỏi.
• Pha trích xuất câu trả lời dựa vào máy tìm kiếm như: Google, Yahoo
… Do tốc độ xử lý phụ thuộc vào tốc độ tải các kết quả trả về từ máy
tìm kiếm nên tốc độ xử lý của pha này khá chậm. Vì thế chúng tôi sử
dụng pha này trong trường hợp pha trích xuất câu trả lời từ kho tri

thức tự thu thập không đưa ra được kết quả.
Để tăng chất lượng câu trả lời của hệ thống, chúng tôi cũng hướng tới việc mở
rộng ngữ nghĩa của truy vấn. Trong [29], chúng tôi sử dụng từ điển đồng nghĩa có sẵn,
15

chưa đề cập tới tri thức miền ứng dụng hỏi đáp thực thể tên người. Khóa luận này được
đặt ra nhằm tìm ra giải pháp tự động tìm kiếm các từ gần nghĩa thông qua quan hệ gần
nghĩa với truy vấn, trước hết là động từ.
Đây là một bài toán khó, có sự khác biệt với bài toán trích chọn quan hệ giữa các
thực thể. Bài toán trích chọn quan hệ giữa các thực thể thường xem xét ngữ cảnh câu còn
đối với bài toán trích rút quan hệ gần nghĩa đòi hỏi xem xét trong phạm vi nhiều câu.
Chúng tôi đã khai thác ngữ cảnh nghĩa của các động từ trong tập hợp các câu trả lời của
hệ thống hỏi đáp thực thể tên người trong CSDL câu và trên Internet.
Tóm tắt chương 2
Học bán giám sát để trích rút quan hệ ngữ nghĩa được xem như là một phương
pháp tối ưu để giảm thiểu chi phí xây dựng tài nguyên [1]. Hướng tiếp cận chính cho việc
học hiện nay thường sử dụng kỹ thuật bootstrapping. Kỹ thuật này nhận đầu vào là một
tập nhỏ các hạt giống (tập mồi) của một mối quan hệ ngữ nghĩa và tiến hành sinh thêm tập
mồi mới. Kết quả thu được là một tập dữ liệu lớn biểu diễn mỗi quan hệ được quan tâm.
Theo Richard C. Wang và William W. Cohen [24], kĩ thuật bootstrapping cho kết quả tốt
với tập mồi nhỏ (khoảng từ 3-5 mồi).
Từ những kiến thức về khái niệm, đặc trưng của từ gần nghĩa, một số phương pháp
trích rút từ gần nghĩa như sử dụng mô hình ngôn ngữ 5-gram, mô hình thống kê, hay dựa
vào mẫu ….(được giới thiệu trong chương 1), cũng như từ một số phương pháp dựa trên
kỹ thuật bootstrapping được giới thiệu trong chương 2, đồng thời dựa vào điều kiện thực
tế về ngôn ngữ tiếng Việt (phương pháp xử lý, tài nguyên ngôn ngữ học, kỹ thuật học
máy), chúng tôi đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút
quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt được trình bày trong chương tiếp
theo.

16

Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp
dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể
tên người tiếng Việt
3.1. Mô hình trích rút quan hệ gần nghĩa
Qua quá trình khảo sát các phương pháp trích rút quan hệ ngữ nghĩa nói chung và
các phương pháp liên quan đến trích rút quan hệ gần nghĩa nói riêng, đồng thời dựa trên
điều kiện thực tế về kỹ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kỹ
thuật học máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, thêm vào đó là việc khảo
sát dữ liệu trên web, cũng như kho dữ liệu câu chứa các thông tin liên quan tới người –
Kho CSDL câu đã được chúng tôi tạo ra trong quá trình thực nghiệm mô hình hệ thống
hỏi đáp thực thể tên người tiếng Việt [2], chúng tôi nhận thấy rằng tồn tại nhiều câu được
biểu diễn dưới dạng: <Danh từ – Động từ – Danh từ>. Từ các kiến thức cơ sở về quan
hệ gần nghĩa, các bài toán về trích rút quan hệ gần nghĩa, một số phương pháp về học bán
giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và quá trình khảo sát dữ
liệu, chúng tôi đề xuất phương pháp sử dụng học bán giám sát dựa vào mẫu ngôn ngữ để
trích rút quan hệ gần nghĩa.
 Đầu vào: Động từ/cụm động từ, từ điển giải nghĩa từ tiếng Việt, CSDL câu chứa
thông tin liên quan tới người.
 Đầu ra: Tập các động từ / cụm động từ gần nghĩa tương ứng.
Ví dụ: đầu vào là {phát minh} => đầu ra: {sáng chế, tìm ra, …}
Dưới đây là mô hình cho việc trích rút quan hệ gần nghĩa. Để đơn giản, chúng tôi ký
hiệu như sau: N/Np – Danh từ/cụm danh từ; V – Động từ

17

 Mô hình và phương pháp giải quyết

Hình 2 : Mô hình trích rút quan hệ gần nghĩa
Thủ tục trích rút quan hệ gần nghĩa:
Đầu vào: động từ
Đầu ra: Các động từ gần nghĩa
Bước 1: Với động từ trong đầu vào, trích chọn ra các câu có chứa bộ <N/Np
i
, V,
N/Np
j
> từ CSDL câu.
Bước 2: Trích chọn các câu đồng dạng với từng câu trong bước 1. Đồng dạng hiểu
theo nghĩa, cùng bộ <N/Np
i
, N/Np
j
>, chỉ khác nhau ở thành phần V.

Từ điển nghĩa
của từ tiếng
Trích chọn các câu có
chứa bộ <N/Np
i
, V,
N/Np
j
>
Bước 1
Phân cụ
m
Bước 4

V mồi và các
V gần nghĩa
Trích xuất tập câu đồng
dạng <N/Np
i
, V*,
N/Np
j
>
Bước 2
Động từ
mồi <V>
Trích rút các
V
*

Bước 3

Tập câu từ Bước 1
và Bước 2 như một
bộ dữ liệu

Trích đoạn

Thực nghiệm và đánh giá trích rút quan hệ gần nghĩa

Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về