i 
 
Lời cảm ơn 
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư 
Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Việt Cường, Thạc sĩ Trần Mai Vũ đã tận tình 
chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. 
Tôi xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho tôi để 
tôi học tập và nghiên cứu tại trường Đại học Công nghệ. 
Tôi xin gửi lời cảm ơn tới các anh chị: CN. Vũ Tiến Thành, CN. Lê Hoàng 
Quỳnh, CN. Nguyễn Tiến Thanh, CN. Nguyễn Thanh Sơn, các bạn và các em sinh 
viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức 
chuyên môn cũng như việc thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Khóa 
luận “Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp 
dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt” cũng đã 
nhận được sự hỗ trợ từ đề tài QG.10.38. 
Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã 
ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường. 
Tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu 
luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt 
nghiệp. 
Tôi xin chân thành cảm ơn! 
 
 
Sinh viên 
 
Nguyễn Tiến Tùng 
 
 
ii 
 
Tóm tắt 
Trích rút quan hệ gần nghĩa (near-synonym) tiến hành việc trích rút các khái 
niệm được coi là “gần nhau” hoặc về mặt ngữ nghĩa hoặc dựa vào ngữ cảnh xung 
quanh chúng. Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây 
dựng từ vựng, mở rộng truy vấn,… Theo Inkpen và cộng sự năm 2010 [6], W.Wang 
và cộng sự năm 2010 [30], trích rút quan hệ gần nghĩa là một nội dung nghiên cứu thời 
sự. 
Khóa luận tập trung nghiên cứu các phương pháp trích rút quan hệ gần nghĩa 
nhằm đề ra giải pháp phù hợp trong việc trích rút các động từ để mở rộng ngữ nghĩa 
truy vấn trong hệ thống hỏi đáp thực thể tên người tiếng Việt [29]. Chúng tôi lựa chọn 
giải pháp học bán giám sát dựa vào mẫu ngôn ngữ [30] để trích rút động từ gần nghĩa 
trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống và từ dữ 
liệu trên Internet. 
Thực nghiệm ban đầu trên CSDL câu và trên dữ liệu Web, với động từ đầu vào 
(“phát minh”), hệ thống cho ra các động từ gần nghĩa với động từ đầu vào (“Khám 
phá, sáng chế, phát hiện”), (trong đó, độ gần nghĩa của mỗi động từ được tính bằng tần 
suất xuất hiện của các động từ trong cùng một cụm). Kết quả này cho thấy giải pháp 
đề xuất của chúng tôi có tính khả thi.   
iii  
Lời cam đoan 
Tôi xin cam đoan giải pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút 
động từ gần nghĩa dựa trên ngữ cảnh miền ứng dụng của hệ thống hỏi đáp thực thể tên 
người tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện 
dưới sự hướng dẫn của PGS.TS. Hà Quang Thụy và TS. Nguyễn Việt Cường. 
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc 
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, 
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ 
về tài liệu tham khảo. 
 Sinh viên  
Nguyễn Tiến Tùng   
iv  
Mục lục 
Lời cảm ơn i 
Tóm tắt ii 
Lời cam đoan iii 
Mục lục iv 
Danh sách các bảng vi 
Danh sách các hình vẽ vii 
Danh sách các chữ viết tắt viii 
Mở đầu 1 
Chương 1: Khái quát về trích rút quan hệ gần nghĩa 3 
1.1. 
Quan hệ gần nghĩa 3
 1.1.1. 
Quan hệ ngữ nghĩa 3 
1.1.2. 
Quan hệ gần nghĩa 4 
1.2. Trích rút quan hệ gần nghĩa 6 
Tóm tắt chương 1 8 
Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa 9 
2.1. Một số nghiên cứu liên quan trên thế giới 9 
2.1.1. Phương pháp DIPRE 9 
2.1.2. Phương pháp Snowball 9 
2.1.3. Trích rút mẫu tự động sử dụng máy tìm kiếm 11 
2.1.4. Phương pháp KnowItAll 11 
2.1.5. Phương pháp TextRunner 12 
2.2. Một số nghiên cứu liên quan trong nước 13 
2.2.1. Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản 13
 2.2.3. Mở rộng thực thể 13 
2.2.2. Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt 14 
Tóm tắt chương 2 15 
Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ 
thống hỏi đáp thực thể tên người tiếng Việt 16 
v  
3.1. Mô hình trích rút quan hệ gần nghĩa 16 
3.2. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 24 
3.2.1. Hệ thống hỏi đáp thực thể tên người tiếng Việt 24 
3.2.2. Mở rộng truy vấn 25 
3.2.3. Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 26 
Tóm tắt chương ba 27 
Chương 4: Thực nghiệm và đánh giá 28 
4.1. Môi trường và công cụ sử dụng cho thực nghiệm 28 
4.2. Thực nghiệm và đánh giá trích rút quan hệ gần nghĩa 29 
Kết luận 33 
Phụ lục 34 
Tài liệu tham khảo 35   
vi  
Danh sách các bảng 
Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa) 5 
Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm 28 
Bảng 3: Các công cụ phần mềm sử dụng 28 
Bảng 4: Ví dụ về trích câu và tách từ, gán nhãn 29 
Bảng 5: Ví dụ về trích bộ <N/Np
i
, N/Np
j
> 30 
Bảng 6. Bảng kết quả trên top 3 cụm chứa động từ đang xét 32    
vii  
Danh sách các hình vẽ 
Hình 1: Mô hình Snowball 10 
Hình 2 : Mô hình trích rút quan hệ gần nghĩa 17 
Hình 3: Trích chọn tập câu chứa bộ <N/Np
i
, V, N/Np
j
> 18 
Hình 4:Trích xuất tập câu đồng dạng với từng câu trong bước 1 19 
Hình 5: Lựa chọn V mới 20 
Hình 6: Phân cụm 21   
viii  
Danh sách các chữ viết tắt 
Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt 
CTRW Choose the Right Word Chọn từ đúng 
PMI Pointwise Mutual Information Thông tin tương hỗ trên từng 
điểm 
HAC Hierarchical agglomerative 
clustering 
Phân cụm phân cấp từ dưới lên 
CRF Conditional Random Field Mô hình trường điều kiện ngẫu 
nhiên   
1  
Mở đầu 
Trích rút quan hệ ngữ nghĩa nói chung và trích rút quan hệ gần nghĩa nói riêng 
đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên. Quan hệ gần nghĩa (near-
synonym) là mối quan hệ ngữ nghĩa giữa các khái niệm, về mặt ngữ nghĩa hoặc ngữ cảnh 
xung quanh khái niệm, gần nghĩa với nhau. Trích rút quan hệ gần nghĩa ứng dụng nhiều 
cho các bài toán như: xây dựng từ vựng [11]; mở rộng truy vấn cho hệ thống hỏi đáp [3, 
21] - Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm 
tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin 
theo ngữ cảnh nhằm cải tiến các kết quả truy vấn,… 
Trong dịch máy và các hệ thống sinh ngôn ngữ tự nhiên, nhu cầu trích rút các quan 
hệ gần nghĩa phải được làm một cách cNn thận [17]. Bài toán trích rút quan hệ gần nghĩa 
là rất khó khăn bởi vì những từ gần nghĩa có nghĩa rất gần nhau [11], do đó chúng cũng 
xuất hiện trong những ngữ cảnh tương tự, vì vậy chúng ta cần nắm bắt được sự khác biệt 
tinh tế, cụ thể của từng từ gần nghĩa. 
Mục tiêu của khóa luận này là khảo sát, nghiên cứu để đưa ra một phương pháp 
trích rút quan hệ gần nghĩa tối ưu hơn cho ngôn ngữ tiếng Việt. Để tiếp cận mục tiêu này, 
khóa luận nghiên cứu và giới thiệu một số phương pháp trích rút quan hệ gần nghĩa đang 
được quan tâm hiện nay. Từ đó, đưa ra một phương pháp phù hợp nhất để trích rút quan 
hệ gần nghĩa cho ngôn ngữ tiếng Việt, đó là sử dụng học bán giám sát dựa vào mẫu ngôn 
ngữ để trích rút quan hệ gần nghĩa. Bên cạnh đó, khóa luận cũng áp dụng phương pháp 
trích rút quan hệ gần nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan 
tâm không kém – đó là mở rộng truy vấn cho hệ thống hỏi đáp, cụ thể là hệ thống hỏi đáp 
thực thể tên người cho tiếng Việt. 
Nội dung của khóa luận được chia thành các chương như sau: 
Chương 1: Chương này đề cập tới khái niệm quan hệ ngữ nghĩa nói chung, quan 
hệ gần nghĩa nói riêng, một số đặc trưng của quan hệ gần nghĩa, phân biệt đôi chút về gần 
nghĩa và đồng nghĩa, một số phương pháp trích rút quan hệ gần nghĩa. 
Chương 2: Đây là chương trình bày một số phương pháp trích rút quan hệ ngữ 
nghĩa sử dụng kỹ thuật bootstrapping. Đồng thời đưa ra phương pháp trích rút quan hệ 
gần nghĩa phù hợp đối với tiếng Việt. 
2  
Chương 3: Chương này trình bày mô hình trích rút quan hệ gần nghĩa và áp dụng 
trích rút quan hệ gần nghĩa để mở rộng truy vấn trong hệ thống hỏi đáp thực thể tên người 
cho tiếng Việt. 
Chương 4: Khóa luận trình bày một số thực nghiệm việc trích rút động từ gần 
nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống hỏi đáp 
thực thể tên người cho tiếng Việt và từ dữ liệu trên Internet. Kết quả thực nghiệm, lựa 
chọn top 3 động từ trong mỗi cụm. Độ gần nghĩa của mỗi động từ được tính bằng tần suất 
xuất hiện của các động từ trong cụm. 
Phần kết luận và hướng phát triển khóa luận: Tóm lược những điểm chính của 
khóa luận. Chỉ ra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong 
thời gian tiếp theo.   
3  
Chương 1: Khái quát về trích rút quan hệ gần nghĩa 
Để hiểu và giải quyết được bài toán trích rút quan hệ gần nghĩa, đòi hỏi chúng ta 
cần phải nắm vững được khái niệm quan hệ gần nghĩa, các đặc trưng của quan hệ gần 
nghĩa, … Vì thế, khóa luận trong chương này giới thiệu các vấn đề liên quan tới trích rút 
quan hệ gần nghĩa, làm tiền đề cho việc giải quyết bài toán. 
1.1. Quan hệ gần nghĩa 
1.1.1. Quan hệ ngữ nghĩa 
Quan hệ ngữ nghĩa trong văn bản là một trong những nội dung của xử lý ngôn ngữ 
tự nhiên có liên quan mật thiết tới nhiều bài toán ứng dụng trong khai phá văn bản [1]. Có 
rất nhiều khái niệm hay định nghĩa về quan hệ ngữ nghĩa được đưa ra. Theo nghĩa hẹp, 
Birger Hjorland đã định nghĩa quan hệ ngữ nghĩa [31]: Là quan hệ về mặt ngữ nghĩa giữa 
hai hay nhiều khái niệm. Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm từ. 
Ví dụ: Ta có một câu “Colombo tìm ra Châu mỹ” 
(Colombo, Châu mỹ) có quan hệ là “tìm ra”. 
Theo Girju [8], một số quan hệ ngữ nghĩa quan trọng thường được dùng để thể 
hiện quan hệ giữa các khái niệm như: hyponymy(A là một loại của B), meronymy(A là 
một phần của B), holonymy(B có A như một phần của nó), synonymy(A đồng nghĩa với 
B) và antonymy(A trái nghĩa với B). 
Xác định quan hệ ngữ nghĩa giữa các khái niệm là một vấn đề quan trọng trong tìm 
kiếm thông tin. Việc làm rõ quan hệ giữa các khái niệm sẽ làm tăng tính ngữ nghĩa cho 
câu hay tập tài liệu. Đồng thời, khi tìm kiếm một thông tin về một vấn đề nào đó, ta có thể 
có được những thông tin về các vấn đề khác liên quan tới nó. Vì vậy, để tìm kiếm được 
những thông tin chính xác, chúng ta cần biết các loại quan hệ giữa các khái niệm và đồng 
thời tìm hiểu các phương pháp để xác định được quan hệ đó. 
Quan hệ ngữ nghĩa thể hiện quan hệ giữa các khái niệm, khái niệm ở đây có thể là 
một từ hoặc một cụm danh từ. Chúng được biểu diễn dưới dạng cấu trúc phân cấp thông 
qua các quan hệ. Bài toán trích rút quan hệ ngữ nghĩa được đặt ra và yêu cầu cần phải 
được giải quyết. Roxana Girju và cộng sự đã phát biểu bài toán trích rút mối quan hệ ngữ 
nghĩa [14] như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu 
4  
không có cấu trúc như các trang web, các tài liệu, tin tức, … ta cần phải xác định được 
các mối quan hệ ngữ nghĩa giữa chúng. 
1.1.2. Quan hệ gần nghĩa 
Trong ngôn ngữ, quan hệ gần nghĩa có thể tồn tại ở mức từ, cụm từ hoặc có thể ở 
mức câu. Trong phạm vi khóa luận tốt nghiệp, chúng tôi đề cập quan hệ gần nghĩa ở mức 
từ/cụm từ gần nghĩa. 
Theo Philip Edmonds và Graeme Hirst, 2006 [23], hai từ được gọi là gần nghĩa 
(near-synonym) nếu như hai từ này có ý nghĩa tương tự nhưng mang sắc thái khác nhau 
về từ vựng. Ví dụ từ “lỗi” và “sai lầm” là hai từ gần nghĩa: “lỗi” (Chỗ sai sót do không 
thực hiện đúng quy tắc – điều sai sót, không nên, không phải trong cách cư xử, hành 
động), “sai lầm” (Trái với yêu cầu khách quan, dẫn đến hậu quả không hay) [18]. Ngoài 
việc chú ý đến sắc thái từ vựng, khi lựa chọn một từ, cần phải chắc chắn rằng nó phù hợp 
với các từ khác trong một câu. Nhiều bài báo nghiên cứu về các cách thức để sắp xếp lựa 
chọn các từ gần nghĩa phù hợp nhất trong từng ngữ cảnh. Vấn đề này rất khó khăn vì 
những từ gần nghĩa có ý nghĩa rất gần nhau và xuất hiện trong những ngữ cảnh tương tự 
nhau. 
Theo InkpenD.Z. và Hirst G., 2002 [16]: từ gần nghĩa là những từ về cơ bản là 
đồng nghĩa, nhưng không hoàn toàn. Chúng khác nhau về sắc thái, biểu cảm, hàm ý cũng 
như ý muốn nhấn mạnh; Trong một số trường hợp, chúng cũng có thể khác nhau về ngữ 
pháp hoặc ràng buộc về sự sắp xếp theo thứ tự. Ví dụ theo Gove (1984), từ “foe” (kẻ thù) 
nhấn mạnh vào hoạt động trong chiến tranh hơn là từ “enemy” (kẻ thù). Hoặc là theo 
Room (1981) từ “forest” và “woods” là do sự kết hợp phức tạp về kích thước, sự khai 
hóa, sự hoang vu (được xác định bởi các loại động thực vật trong đó). Một số ví dụ khác 
được đưa ra trong bảng 1 (Hirst 1995). Tồn tại rất ít các từ đồng nghĩa tuyệt đối. Các từ 
điển đồng nghĩa hiện nay, thực tế là vẫn bao hàm cả những từ gần nghĩa. Ta có thể thấy rõ 
ràng điều này ở các từ điển như Webster’s New Dictionary of Synonyms (Gove 1984) và 
CTRW (Hayakawa 1994), các cụm từ giống nhau được đưa vào thành từng nhóm và cắt 
nghĩa sự khác nhau giữa các từ trong nhóm.    
5  
Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa) 
Các biến thể Ví dụ 
Văn phong, tính câu nệ hình thức pissed : drunk : inebriated 
<say bí tỉ: say rượu: say> 
Văn phong, sức mạnh  
ruin : annihilate 
<tàn phá: hủy diệt> 
Nhấn mạnh thái độ skinny : thin : slim 
<gầy nhom: gầy gò: mảnh khảnh> 
Cảm xúc, tình cảm daddy : dad : father 
Tính liên tục, xuyên suốt seep : drip 
<rỉ ra: chảy nhỏ giọt> 
Nhấn mạnh các khía cạnh khác nhau 
của nghĩa 
enemy : foe 
<kẻ địch: kẻ thù> 
Ranh giới mờ nhạt woods : forest 
Sự kết hợp giữa các từ task : job (in the context of daunting)  
Biến thể của các từ gần nghĩa có thế khác nhau ở nhiều khía cạnh. DiMarco, Hirst, 
và Stede (1993) đã tiến hành phân tích các loại biến thể này, lấy dẫn chứng từ các từ điển 
có sự phân biệt về từ gần nghĩa. Họ nhận thấy rằng không có giới hạn nguyên tắc nào về 
các loại biến thể, tuy nhiên có một số lượng nhỏ các loại xảy ra thường xuyên. Edmonds 
(1999) đã đưa ra một phân tích chi tiết về các loại biến thể. Sau đây là một số loại biến thể 
liên quan nhất được lấy ví dụ từ CTRW: 
 Biến thể về sự biểu hiện (denotational): Từ gần nghĩa có thể khác nhau về 
tần số họ nhấn mạnh về thành phần nghĩa của chúng (Ví dụ, đôi khi 
“invasion” có nghĩa là cuộc tấn công quy mô lớn nhưng không có kế 
hoạch), trong độ trễ hay sự nhấn mạnh không trực tiếp về thành phần ngữ 
nghĩa và sự khác nhau về “độ mịn” nghĩa của bản thân ý tưởng đó. 
 Biến thể về biểu cảm, thái độ: Từ gần nghĩa có thể truyền đạt các sắc thái, 
quan điểm khác nhau về thực thể mà người nói muốn hướng tới trong một 
hoàn cảnh cụ thể. Thái độ có thể: có nghĩa xấu, trung lập hoặc tán thành. 
 Biến thể về văn phong: Biến thể văn phong của từ gần nghĩa bao gồm các 
mức độ khác nhau: tính hình thức, tính cụ thể, tính hoa mỹ (văn), tính thân 
mật, … 
6  
Trong tiếng Việt, theo Mai Ngọc Trừ và cộng sự, 1997 [4], từ đồng nghĩa là những 
từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt về một vài sắc 
thái ngữ nghĩa hoặc sắc thái phong cách, … nào đó, hoặc đồng thời cả hai. Ví dụ: “cố”, 
“gắng”, “cố gắng” là những nhóm từ đồng nghĩa. Những từ đồng nghĩa với nhau không 
nhất thiết phải tương đương với nhau về số lượng nghĩa, tức là các từ trong một nhóm 
đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một 
hoặc hai nghĩa, nhưng từ kia có thể có nhiều hơn. Chính vì thế một từ đa nghĩa có thể 
tham gia vào nhiều nhóm đồng nghĩa khác nhau. Chúng tôi chưa tìm thấy các nghiên cứu 
về từ gần nghĩa trong xử lý tiếng Việt. 
1.2. Trích rút quan hệ gần nghĩa 
Đối với trích rút quan hệ gần nghĩa, nhiều nhà nghiên cứu có cách phát biểu và tiếp 
cận bài toán theo các hướng khác nhau. Cách tự nhiên nhất để xác nhận một thuật toán để 
trích rút là yêu cầu độc giả đánh giá chất lượng đầu ra của thuật toán, nhưng cách đánh 
giá này sẽ mất rất nhiều thời gian. Thay vào đó, người ta xác nhận thuật toán bằng cách 
xóa các từ được trích rút từ các câu mẫu, để xem liệu các thuật toán có thể khôi phục lại 
những từ đó không. Đó là, người ta tạo ra các khoảng trống từ vựng và đánh giá khả năng 
các thuật toán lấp khoảng trống đó. 
Theo Inkpen & Hirst [15], trích rút quan hệ gần nghĩa bao gồm 2 bước: Mở rộng 
siêu khái niệm; Lựa chọn những từ gần nghĩa nhất với mỗi cụm theo thứ tự ưu tiên. Họ 
thực hiện theo một cách đơn giản: Module lựa chọn từ gần nghĩa tính điểm số chấp thuận 
cho mỗi từ gần nghĩa; sau đó từ các điểm số chấp thuận này sẽ tính trọng số, cuối cùng sử 
dụng HALogen
1
 để tạo sự lựa chọn cuối cùng bằng cách kết hợp giữa các trọng số với các 
xác suất của mô hình ngôn ngữ. 
Islam & Inkpen [6] sử dụng mô hình ngôn ngữ 5-gram được xây dựng từ Google 
với bộ dữ liệu 1T, áp dụng phương pháp thống kê không giám sát để lựa chọn tự động từ 
gần nghĩa. Phương pháp này là tự động, không yêu cầu bất kỳ nguồn tài nguyên tri thức 
nào của con người (ví dụ như ontology) và có thể được áp dụng cho các ngôn ngữ khác 
nhau.  
1  
7  
Inkpen D., 2007 [17] sử dụng mô hình thống kê, tính điểm cho mỗi ứng viên 
candidates từ gần nghĩa dựa trên điểm số thông tin tương hỗ giữa từ gần nghĩa và nội 
dung các từ trong ngữ cảnh (đã lọc bỏ các từ dừng). Thông tin tương hỗ theo từng điểm 
PMI giữa hai từ x và y so sánh khả năng quan sát hai từ với nhau để xác suất của quan sát 
x và y độc lập (xác suất xảy ra là ngẫu nhiên): 
PMI
ሺ
x,y
ሻ
= log
ଶ
Pሺx,yሻ
P
ሺ
x
ሻ
Pሺyሻ 
Các xác suất được tính xấp xỉ như sau: 
P
ሺ
x
ሻ
=
Cሺxሻ
N
 ; P
ሺ
y
ሻ
= 
Cሺyሻ
N
 ; P
ሺ
x,y
ሻ
= 
Cሺx,yሻ
N 
Trong đó: C biểu thị tần số đếm, N là tổng số các từ trong tập ngữ liệu 
W.Wang và cộng sự, 2010 [30] đã đề xuất phương pháp tiếp cận xây dựng mẫu tự 
động để trích rút động từ đồng nghĩa và trái nghĩa từ các bài báo tiếng Anh. Theo các tác 
giả, động từ đóng vai trò quan trọng trong ngôn ngữ tự nhiên, chúng thể hiện các hành 
động, sự kiện và các trạng thái. Động từ giống như các từ loại khác, có thể liên quan 
thông qua các mối quan hệ đồng nghĩa, trái nghĩa và một số quan hệ khác. Bài toán học 
mối quan hệ giữa các động từ có thể được coi là một dạng trong bài toán trích rút thông 
tin ( chẳng hạn như trích rút vị trí tên [22] và trích rút quan hệ thượng hạ vị [18]). Điều 
này có nghĩa rằng tồn tại hướng tiếp cận trích rút dựa vào mẫu ngôn ngữ và đã được áp 
dụng vào bài toán trích rút quan hệ đồng nghĩa và trái nghĩa của W.Wang và cộng sự, 
trong bài toán các tác giả có một số yêu cầu đặc biệt: ví dụ như tần số mà người dùng sử 
dụng hai hoặc nhiều động từ đồng nghĩa trong một câu. Trích rút quan hệ đồng nghĩa và 
trái nghĩa theo W.Wang và cộng sự bao gồm 4 bước chính: Phân tích xác suất, trích xuất 
tập mồi, xây dựng mẫu và trích rút quan hệ đồng nghĩa/trái nghĩa.   
8  
Tóm tắt chương 1 
Trong chương này, khóa luận đã giới thiệu khái quát về quan hệ ngữ nghĩa nói 
chung và quan hệ gần nghĩa nói riêng; Nêu khái niệm, các đặc trưng cũng như sự khác 
biệt giữa các biến thể của từ gần nghĩa; Bài toán trích rút quan hệ gần nghĩa và một số 
phương pháp trích rút quan hệ gần nghĩa. 
Trong chương tiếp theo, khóa luận nêu rõ một số phương pháp học bán giám sát 
dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và đưa ra phương pháp trích rút 
quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt. 
9  
Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ 
để trích rút quan hệ ngữ nghĩa 
Trong chương này, chúng tôi giới thiệu tóm lược một số phương pháp học bán 
giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa, cùng một số kiến thức 
liên quan làm tiền đề cho việc đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ 
để trích rút quan hệ gần nghĩa. 
2.1. Một số nghiên cứu liên quan trên thế giới 
2.1.1. Phương pháp DIPRE 
Năm 1998, Brin đề xuất phương pháp học bán giám sát cho việc trích rút mẫu quan 
hệ ngữ nghĩa [27]. Phương pháp được tiến hành với mối quan hệ “author-book” với tập 
dữ liệu ban đầu khoảng 5 ví dụ cho mối quan hệ này, nó được mô tả qua các bước như 
sau: 
 Xây dựng tập mồi ban đầu <A, B> để gán nhãn cho một số dữ liệu. 
 Tìm tất cả các câu có chứa đủ các thành phần của tập mồi ban đầu. 
 Tìm các mẫu quan hệ giữa các thành phần của tập mồi ban đầu. Mối quan 
hệ được biểu diễn dưới dạng: [order, author, book, prefix, suffix, middle] 
 Từ các mẫu chưa được gán nhãn thu được tập mồi mới và sau đó tiến hành 
thêm tập mồi mới này vào kho chứa tập mồi ban đầu cho mối quan hệ đó. 
 Quay lại bước tìm tập mồi và mẫu mới 
Phương pháp đạt hiệu quả cao trên dữ liệu HTML trong việc xác định tập mẫu và 
sinh tập mồi mới. Năm 2000 Agichtein và Gravano đề xuất phương pháp Snowball [12] 
dựa trên ý tưởng của phương pháp DIPRE, phương pháp Snowball tiến hành thực hiện 
trên dữ liệu không có cấu trúc, xây dựng độ đo để đánh giá độ tin cậy cho việc sinh tập 
mẫu quan hệ và tập mồi mới được sinh ra và bổ sung thêm việc nhận diện thực thể. 
2.1.2. Phương pháp Snowball 
Cũng dựa trên ý tưởng bootstrapping của phương pháp DIPRE, Snowball là hệ 
thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu quan hệ mẫu làm nhân. Sau đó 
trong quá trình thực hiện tập mẫu và tập quan hệ mới được sinh ra cần được đánh giá chất 
lượng [12]. Giải thuật được thực nghiệm trên mối quan hệ “Organization – location”. 
10         
  Hình 1: Mô hình Snowball 
Phương pháp này gồm các bước như sau: 
 Học bán tự động để trích rút mẫu: đầu vào là một tập mồi ban đầu và một 
tập văn bản. Mỗi tập mồi gồm hai thực thể biểu diễn dưới dạng <A, B> hay 
< thực thể 1, thực thể 2>. Hệ thống phân tích, chọn lọc và trích rút các mẫu. 
Sau đó Snowball tính độ chính xác của từng mẫu dựa trên số Positive và 
Negative của nó và chọn ra top N mẫu có điểm số cao nhất. Độ tin tưởng 
của mẫu được tính theo công thức: 
ܾ݈݂݁݅݁
ሺ
ܲ
ሻ
= 
ܲ.ݏ݅ݐ݅ݒ݁
ሺܲ.ݏ݅ݐ݅ݒ݁ + ܲ.݊݁݃ܽݐ݅ݒ݁ሻ  
Trong đó, Positive là tập chứa các mẫu mới đã nằm trong danh sách tập mồi. 
Negative là tập chứa các mẫu mới chỉ có đúng một trong hai thành phần xuất hiện trong 
danh sách tập mồi. 
 Tìm các tập mồi mới cho vòng lặp tiếp theo: Trong top N được chọn, mỗi 
mẫu sẽ là cặp trong danh sách tập mồi mới, tiếp tục được đưa vào vòng lặp: 
݂ܿ݊
ሺ
ܶ
ሻ
= 1 − 
ෑ
ሺ1 − ܾ݈݂݁݅݁
ሺ
ܲ
ሻ
ሻ
||
ୀ 
Seed Tuples Find Occurrences of Seed 
Tag Entities Generate New Seed Tuples 
Generate Extraction Patterns Augment Table 
11  
Hệ thống sẽ lựa chọn được M dùng làm tập mồi cho quá trình kế tiếp, là cặp được 
đánh giá tốt nhất. Hệ thống sẽ quay lại bước học bán tự động để trích rút mẫu, quá trình 
này tiếp tục lặp cho đến khi không tìm được cặp mới hoặc lặp theo số lần xác định trước. 
2.1.3. Trích rút mẫu tự động sử dụng máy tìm kiếm 
Năm 2002, Ravichandran và Hovy [10] đã đề xuất áp dụng kỹ thuật bootstrapping 
để tìm mẫu quan hệ và những tập mồi mới cho những câu hỏi liên quan tới ngày sinh. Tận 
dụng nguồn tri thức lớn từ các máy tìm kiếm như Google, Yahoo, …, phương pháp này 
sử dụng máy tìm kiếm phục vụ cho việc sinh mẫu quan hệ một cách tự động dựa vào các 
tài liệu web. Phương pháp này gồm các bước sau: 
 Chọn các ví dụ của từng loại câu hỏi đã xác định trước 
 Chọn các khái niệm trong câu hỏi và câu trả lời để tạo truy vấn vào máy tìm 
kiếm 
 Thu thập 1000 trang web có liên quan, chọn tập các câu có chứa cả những 
khái niệm trong câu hỏi và câu trả lời. 
 Tìm những xâu con hoặc các cụm từ có chứa các khái niệm trong câu hỏi và 
câu trả lời. 
 Thay thế những từ trong câu hỏi và câu trả lời bằng các nhãn. 
2.1.4. Phương pháp KnowItAll 
Năm 2004, Etzioni và cộng sự [22] đã đề xuất phương pháp KnowItAll để tiến 
hành trích rút ra những sự vật, khái niệm và các mẫu quan hệ từ các trang web. KnowItAll 
được mở rộng từ một ontology và dựa vào một tập các luật để từ đó trích rút ra các luật 
cho mỗi lớp và các quan hệ trong ontology. Đối với phương pháp này: 
Đầu vào: là một tập các lớp thực thể được trích xuất, ví dụ như thành phố, nhà 
khoa học, bộ phim,… 
Đầu ra: Danh sách các thực thể được trích xuất từ các trang web 
Các mẫu sử dụng đã được gán nhãn bằng tay, những mẫu này được xây dựng dựa 
vào việc tách cụm danh từ. KnowItAll gồm 3 bước chính: 
 Bước 1: Trích xuất (Extractor): KnowItAll tạo ra một tập các luật trích xuất 
cho mỗi lớp và các mẫu chung cho nhiều mối quan hệ khác nhau. 
Ví dụ: Những mẫu chung là: 
12  
 NP
1
 {“,”} “such as” NPlist
2 
 NP
1
 {“,”} “and other” NP
2 
 NP
1
 {“,”} “including” NPlist
2 
 NP
1
 “is a” NP
2 
 NP
1
 “is a” NP
2
 “of” NP
3 
 “the” NP
1
 “of” NP
2
 “is” NP
3  
 Bước 2: Giao diện máy tìm kiếm (Search Engine Interface): KnowItAll tự 
động lấy những câu truy vấn dựa vào việc trích xuất luật. Mỗi luật có các 
câu truy vấn được tạo ra từ các từ khóa có trong các luật. 
 Bước 3: Đánh giá (Assessor): KnowItAll sử dụng thống kê các truy vấn của 
máy tìm kiếm để ước tính khả năng trích rút các mẫu trong bước 1. Đặc 
biệt, trong bước này đã sử dụng một dạng thông tin được gọi là thông tin 
tương hỗ theo từng điểm (pointwise mutual information – PMI) giữa các từ 
và các cụm từ được ước lượng từ các trang web được trả về từ máy tìm 
kiếm. 
2.1.5. Phương pháp TextRunner 
TextRunner [19] là một phương pháp không cần dữ liệu ban đầu mà tự động phát 
hiện ra các mối quan hệ. 
Ví dụ: Trích xuất bộ dữ liệu ba thành phần được thể hiện bởi mối quan hệ nhị phân 
(Arg1, relation, Arg2). Phương pháp này gồm 3 bước chính: 
 Self-Supervised Learner: Tự động gán nhãn cho tập dữ liệu nhỏ để huấn 
luyện. Sau đó sử dụng nhãn này để gán nhãn cho dữ liệu huấn luyện dựa 
vào Naïve Bayes. Việc trích rút được biểu diễn dưới dạng t = ሺe
୧
,r
୧,୨
,e
୨
ሻ 
với e
୧
,e
୨
 là các xâu biểu diễn cho các thực thể, r
୧୨
 là một xâu biểu diễn mối 
quan hệ giữa chúng. 
 Single-Pass Extractor: Trích rút bộ dữ liệu cho tất cả những mối quan hệ có 
thể xảy ra. Tìm ra các bộ dữ liệu candidates từ các câu, tiến hành phân loại 
các candidates và giữ lại những candidates có kết quả nhãn tốt. 
 Redundacy-Based Assessor: Thống kê mỗi bộ dữ liệu được giữ lại dựa vào 
mô hình xác suất được Downey và cộng sự giới thiệu [9]. 
13   
2.2. Một số nghiên cứu liên quan trong nước 
2.2.1. Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản 
 Năm 2005, Vũ Bội Hằng [5] đã nghiên cứu, thực nghiệm phát hiện quan hệ ngữ 
nghĩa Nguyên nhân – Kết quả từ các văn bản. Tác giả đã trình bày biểu diễn quan hệ 
nguyên nhân tường minh với một động từ chỉ nguyên nhân dưới dạng: 
<DT1 – động từ chỉ nguyên nhân – DT2> (DT1 và DT 2 là các danh từ/ngữ danh từ). 
Thủ tục phát hiện quan hệ nhân quả bao gồm 6 bước chính: 
 Với mỗi văn bản trong tập dữ liệu. Chọn ra các câu có cấu trúc <DT – động 
từ - DT 2> từ các văn bản. 
 So sánh động từ trong câu đã chọn với các động từ chỉ nguyên nhân trong 
bảng động từ chỉ nguyên nhân. Nếu động từ này trùng với một trong các 
động từ chỉ nguyên nhân trong bảng thì xét cặp (DT1, DT2) 
 Nếu cặp danh từ này đã có trong cơ sở dữ liệu thì tăng giá trị tần suất 
xuất hiện của chúng lên 1 
 Nếu cặp danh từ này chưa tồn tại trong cơ sở dữ liệu thì thêm mới nó 
vào cơ sở dữ liệu 
 Lặp lại bước hai với tất cả các câu có dạng <DT1 – động từ - DT2> trong 
văn bản đó 
 Quay trở lại thực hiện bước 1 với mỗi văn bản trong tập dữ liệu 
 Sắp xếp các cặp (DT1, DT2) thu được theo thứ tự giảm dần của tần suất 
xuất hiện. 
 Chọn ra m cặp đầu tiên trong cơ sở dữ liệu. Đó là những cặp quan hệ nhân 
quả cần tìm. 
2.2.2. Mở rộng thực thể 
Năm 2010, chúng tôi [20] đề xuất sử dụng luật ngữ nghĩa, cụ thể là mối quan hệ 
tương đương, để mở rộng thực thể. Luật này sẽ được kết hợp với lần lượt các thực thể 
được cho trong tập mồi để xây dựng truy vấn đưa vào máy tìm kiếm, từ đó nhận được các 
thực thể mới để đưa vào tập thực thể “tiềm năng”. Phương pháp này bao gồm 7 bước 
chính: 
14  
 Tạo truy vấn: Dựa vào thực thể mồi và các mẫu. Ví dụ tập thực thể mồi: 
{“nokia”, “samsung”, “sony”} và tập mẫu có mẫu “Một số * như”. 
 Chọn m liên kết đầu tiên được trả về bởi kết quả tìm kiếm (m=100) 
 Thu thập các trang web tương ứng với các liên kết đã được chọn ở bước 
trên. 
 Tiền xử lý dữ liệu: Loại nhiễu, loại bỏ thẻ HTML, lấy nội dung chính của 
trang web và tách câu: sử dụng công cụ JvnTextPro. 
 Trích chọn các thực thể “tiềm năng”: Sau khi tách câu, các câu này được 
đưa vào bộ trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được 
trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được định nghĩa 
sẵn trong tập các luật. Sau bước này sẽ thu được thực thể “tiềm năng” 
 Xếp hạng các thực thể “tiềm năng” dựa vào 3 thuật toán: Extracted 
Frequency, Wrapper length và PageRank. 
 Lựa chọn thực thể mới dựa vào tập các thực thể đã được xếp hạng. 
2.2.3. Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt 
 Năm 2011, chúng tôi [29] đã nghiên cứu thực nghiệm với hệ thống hỏi đáp thực 
thể tên người cho tiếng Việt, hệ thống gồm 2 pha chính: 
 Pha phân tích câu hỏi: Tập trung vào phân tích các đặc trưng để lấy ra thông 
tin của câu hỏi phục vụ cho các bước phía sau. 
 Pha trích xuất câu trả lời: 
• Pha trích xuất câu trả lời dựa trên tập câu hỏi và câu trả lời mẫu. Câu 
hỏi đầu vào nếu tồn tại sẵn trong tập này thì hệ thống sẽ đưa ra ngay 
gợi ý câu trả lời có sẵn đã được lưu. 
• Pha trích xuất câu trả lời dựa trên tập dữ liệu do chính hệ thống thu 
thập và đánh chỉ mục. Trong pha này hệ thống sẽ sử dụng dữ liệu có 
sẵn, phân tích và xử lý trả lời nhanh cho các thông tin của câu hỏi. 
• Pha trích xuất câu trả lời dựa vào máy tìm kiếm như: Google, Yahoo 
… Do tốc độ xử lý phụ thuộc vào tốc độ tải các kết quả trả về từ máy 
tìm kiếm nên tốc độ xử lý của pha này khá chậm. Vì thế chúng tôi sử 
dụng pha này trong trường hợp pha trích xuất câu trả lời từ kho tri 
thức tự thu thập không đưa ra được kết quả. 
 Để tăng chất lượng câu trả lời của hệ thống, chúng tôi cũng hướng tới việc mở 
rộng ngữ nghĩa của truy vấn. Trong [29], chúng tôi sử dụng từ điển đồng nghĩa có sẵn, 
15  
chưa đề cập tới tri thức miền ứng dụng hỏi đáp thực thể tên người. Khóa luận này được 
đặt ra nhằm tìm ra giải pháp tự động tìm kiếm các từ gần nghĩa thông qua quan hệ gần 
nghĩa với truy vấn, trước hết là động từ. 
 Đây là một bài toán khó, có sự khác biệt với bài toán trích chọn quan hệ giữa các 
thực thể. Bài toán trích chọn quan hệ giữa các thực thể thường xem xét ngữ cảnh câu còn 
đối với bài toán trích rút quan hệ gần nghĩa đòi hỏi xem xét trong phạm vi nhiều câu. 
Chúng tôi đã khai thác ngữ cảnh nghĩa của các động từ trong tập hợp các câu trả lời của 
hệ thống hỏi đáp thực thể tên người trong CSDL câu và trên Internet. 
Tóm tắt chương 2 
Học bán giám sát để trích rút quan hệ ngữ nghĩa được xem như là một phương 
pháp tối ưu để giảm thiểu chi phí xây dựng tài nguyên [1]. Hướng tiếp cận chính cho việc 
học hiện nay thường sử dụng kỹ thuật bootstrapping. Kỹ thuật này nhận đầu vào là một 
tập nhỏ các hạt giống (tập mồi) của một mối quan hệ ngữ nghĩa và tiến hành sinh thêm tập 
mồi mới. Kết quả thu được là một tập dữ liệu lớn biểu diễn mỗi quan hệ được quan tâm. 
Theo Richard C. Wang và William W. Cohen [24], kĩ thuật bootstrapping cho kết quả tốt 
với tập mồi nhỏ (khoảng từ 3-5 mồi). 
Từ những kiến thức về khái niệm, đặc trưng của từ gần nghĩa, một số phương pháp 
trích rút từ gần nghĩa như sử dụng mô hình ngôn ngữ 5-gram, mô hình thống kê, hay dựa 
vào mẫu ….(được giới thiệu trong chương 1), cũng như từ một số phương pháp dựa trên 
kỹ thuật bootstrapping được giới thiệu trong chương 2, đồng thời dựa vào điều kiện thực 
tế về ngôn ngữ tiếng Việt (phương pháp xử lý, tài nguyên ngôn ngữ học, kỹ thuật học 
máy), chúng tôi đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút 
quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt được trình bày trong chương tiếp 
theo.  
16  
Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp 
dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể 
tên người tiếng Việt 
3.1. Mô hình trích rút quan hệ gần nghĩa 
Qua quá trình khảo sát các phương pháp trích rút quan hệ ngữ nghĩa nói chung và 
các phương pháp liên quan đến trích rút quan hệ gần nghĩa nói riêng, đồng thời dựa trên 
điều kiện thực tế về kỹ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kỹ 
thuật học máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, thêm vào đó là việc khảo 
sát dữ liệu trên web, cũng như kho dữ liệu câu chứa các thông tin liên quan tới người – 
Kho CSDL câu đã được chúng tôi tạo ra trong quá trình thực nghiệm mô hình hệ thống 
hỏi đáp thực thể tên người tiếng Việt [2], chúng tôi nhận thấy rằng tồn tại nhiều câu được 
biểu diễn dưới dạng: <Danh từ – Động từ – Danh từ>. Từ các kiến thức cơ sở về quan 
hệ gần nghĩa, các bài toán về trích rút quan hệ gần nghĩa, một số phương pháp về học bán 
giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và quá trình khảo sát dữ 
liệu, chúng tôi đề xuất phương pháp sử dụng học bán giám sát dựa vào mẫu ngôn ngữ để 
trích rút quan hệ gần nghĩa. 
 Đầu vào: Động từ/cụm động từ, từ điển giải nghĩa từ tiếng Việt, CSDL câu chứa 
thông tin liên quan tới người. 
 Đầu ra: Tập các động từ / cụm động từ gần nghĩa tương ứng. 
Ví dụ: đầu vào là {phát minh} => đầu ra: {sáng chế, tìm ra, …} 
Dưới đây là mô hình cho việc trích rút quan hệ gần nghĩa. Để đơn giản, chúng tôi ký 
hiệu như sau: N/Np – Danh từ/cụm danh từ; V – Động từ  
17  
 Mô hình và phương pháp giải quyết   
              Hình 2 : Mô hình trích rút quan hệ gần nghĩa 
Thủ tục trích rút quan hệ gần nghĩa: 
Đầu vào: động từ 
Đầu ra: Các động từ gần nghĩa 
Bước 1: Với động từ trong đầu vào, trích chọn ra các câu có chứa bộ <N/Np
i
, V, 
N/Np
j
> từ CSDL câu. 
Bước 2: Trích chọn các câu đồng dạng với từng câu trong bước 1. Đồng dạng hiểu 
theo nghĩa, cùng bộ <N/Np
i
, N/Np
j
>, chỉ khác nhau ở thành phần V. 
Từ điển nghĩa 
của từ tiếng 
Trích chọn các câu có 
chứa bộ <N/Np
i
, V, 
N/Np
j
> 
Bước 1 
Phân cụ
m 
Bước 4 
V mồi và các 
V gần nghĩa 
Trích xuất tập câu đồng 
dạng <N/Np
i
, V*, 
N/Np
j
> 
Bước 2 
Động từ 
mồi <V> 
Trích rút các 
V
* 
Bước 3 
Tập câu từ Bước 1 
và Bước 2 như một 
bộ dữ liệu