TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN
TỐT NGHIỆP THẠC SĨ
CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH
Tóm tắt văn bản tự động dựa trên
các kỹ thuật phân tích ma trận
Học viên
: Trần Việt Cường
SHHV
: CB170304
Giáo viên hướng dẫn
: PGS.TS Lê Thanh Hương
HÀ NỘI 07 / 2020
1
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Trần Việt Cường.
Đề tài luận văn: Tóm tắt văn bản tự động dựa trên các kỹ thuật phân tích ma trận.
Chuyên ngành: Khoa học máy tính.
Mã số SV: CB170304.
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả
đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 27/06/2020 với các
nội dung sau: Đánh số trang, bổ sung trích dẫn tài liệu tham khảo, chỉnh sửa lại bìa
và chuyên ngành, nêu rõ sự khác biệt của các phần 2.3, 3.3, và 4.3, chỉnh sửa lại đề
mục cho hợp lý, giải thích kỹ các ký hiệu và cơng thức trong các thuật tốn mục
2.1, 3.1, 4.1, mơ tả và bổ xung các tập dữ liệu, bổ sung mô tả các đường cơ sở
(baseline), mô tả ngắn gọn lại các phương pháp được so sánh trong thực nghiệm,
mô ta các bước tiền xử lý với Tiếng Việt (nếu có).
Hà Nội, ngày 20 tháng 07 năm 2020
Giáo viên hướng dẫn
Tác giả luận văn
PGS TS Lê Thanh Hương
Trần Việt Cường
CHỦ TỊCH HỘI ĐỒNG
TS Vũ Tuyết Trinh
2
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn về đề tài “Tóm tắt văn bản tự động dựa trên các kỹ
thuật phân tích ma trận” là cơng trình nghiên cứu cá nhân của tôi trong thời gian
qua. Mọi số liệu sử dụng phân tích trong luận văn và kết quả nghiên cứu là do tơi tự
tìm hiểu, phân tích một cách khách quan, trung thực, có nguồn gốc rõ ràng và đã
được công bố dưới các bài báo khoa học đã được trích dẫn. Tơi xin chịu hồn tồn
trách nhiệm nếu có sự khơng trung thực trong thơng tin sử dụng trong cơng trình
nghiên cứu này.”
Hà Nội, ngày 20 tháng 07 năm 2020
Tác giả luận văn
Trần Việt Cường
3
TÓM TẮT NỘI DUNG LUẬN VĂN
Trong suốt lịch sử, số lượng thơng tin ngày một nhiều và có q ít thời gian
đọc thông tin luôn là hai trở ngại lớn trong việc tìm kiếm thơng tin. Vì vậy, xác
định thơng tin quan trọng trong một văn bản là một việc vô cùng cần thiết. Để giải
quyết vấn đề quá tải thông tin và dư thừa thông tin, giúp chúng ta có thể xác định
nhanh chóng và hiệu quả các thơng tin cần thiết, có khá nhiều cách tiếp cận đã
được thực hiện, trong đó tóm tắt văn bản tự động giúp giải quyết khá tốt vấn đề
này.
Lĩnh vực nghiên cứu về ma trận, các kỹ thuật phân hủy ma trận (matrix
decomposition), phân tích ma trận (matrix factorizaton), phân tích tensor (tensor
analysis, tensor decomposition, tensor factorizatoin) là một trong những nền tảng
tốt trong học máy và khai phá dữ liệu, là một trong những kỹ thuật “the state of the
art”, mang lại kết quả tốt trong nhiều lĩnh vực. Ứng dụng các kỹ thuật phân tích ma
trận trong tóm tắt văn bản tự động đã có nhiều nghiên cứu và mang lại kết quả khả
quan. Luận văn này sẽ trình bày các kỹ thuật ma trận ứng dụng trong tóm tắt văn
bản đã được nghiên cứu và thử nghiệm.
Nội dung luận văn trong các chương:
• Chương 1: Giới thiệu tổng quan về bài tốn.
• Chương 2: Các vấn đề về bài tốn tóm tắt văn bản tự động, các bài tốn
tóm tắt văn bản chính và các phương pháp tóm tắt văn bản đã được sử
dụng.
• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự
động, trong đó tập trung vào các kỹ thuật phân tích ma trận không âm
NMF (Non-negative matrix factorization) và các kỹ thuật đồng phân tích
ma trận khơng âm NMCF (Non-negative matrix co-factorization) trong
bài tốn tóm tắt thơng tin trên mạng xã hội.
• Chương 4: Các thí nghiệm và kết quả đánh giá của các phương pháp
phân tích ma trận đã đề xuất ở chương 3.
• Chương 5: Kết luận và hướng phát triển.
4
Hà Nội, ngày 20 tháng 07 năm 2020
Tác giả luận văn
Trần Việt Cường
5
MỤC LỤC
TÓM TẮT NỘI DUNG LUẬN VĂN .............................................................................4
MỤC LỤC .......................................................................................................................6
DANH MỤC HÌNH.........................................................................................................9
DANH MỤC BẢNG .................................................................................................... 10
CHƯƠNG 1.
GIỚI THIỆU ...................................................................................... 11
1. Bài tốn tóm tắt văn bản tự động........................................................................ 11
1.1.
Tại sao lại cần nghiên cứu tóm tắt văn bản tự động. ................................... 11
1.2.
Định nghĩa tóm tắt văn bản tự động. ........................................................... 12
1.3.
Phân loại tóm tắt văn bản tự động. .............................................................. 12
2. Phân tích ma trận. ............................................................................................... 13
3. Tóm tắt nội dung luận văn. ................................................................................. 14
CHƯƠNG 2.
BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG. .............................. 15
1. Tóm tắt đơn văn bản. .......................................................................................... 15
1.1.
Giai đoạn tiền xử lý dữ liệu. ........................................................................ 15
1.2.
Trích chọn, trừu tượng, nén câu và dung hợp câu. ...................................... 18
2. Tóm tắt đa văn bản. ............................................................................................ 20
2.1.
Giới thiệu về tóm tắt đa văn bản. ................................................................. 20
2.2.
Các vấn đề của tóm tắt đa văn bản. ............................................................. 21
3. Tóm tắt diễn tiến. ................................................................................................ 21
4. Tóm tắt thơng tin trên mạng xã hội. ................................................................... 22
5. Phân loại các phương pháp tóm tắt văn bản tự động. ........................................ 22
5.1.
Tiếp cận dựa trên cấu trúc văn bản. ............................................................. 22
5.2.
Tiếp cận dựa trên mơ hình khơng gian vector (Vector space model). ........ 23
5.3.
Tiếp cận dựa trên đồ thị (Graph based). ...................................................... 24
5.4.
Các phương pháp dựa trên cấu trúc diễn ngôn của văn bản. ....................... 26
5.5.
Tiếp cận dựa trên học máy (machine learning). .......................................... 28
CHƯƠNG 3.
PHÂN TÍCH MA TRẬN CHO TÓM TẮT VĂN BẢN. .................. 30
6
1. Phân tích ma trận khơng âm (non-negative matrix factorization). ..................... 30
1.1.
Cơ sở lý thuyết của NMF. ........................................................................... 30
1.2.
Các thuật toán học cho NMF. ...................................................................... 31
1.3.
Ứng dụng NMF trong bài tốn tóm tắt văn bản tự động. ............................ 35
2. Đồng phân tích ma trận khơng âm (Matrix CoFactorization) NMCF................ 37
2.1.
Cơ sở lý thuyết và ý tưởng của NMCF........................................................ 38
2.2.
Thuật toán học cho NMCF. ......................................................................... 38
2.3.
Ứng dụng NMCF vào bái toán tóm tắt thơng tin mạng xã hội. ................... 39
3. Đồng phân tích ma trận khơng âm 2 (Matrix Co 2 Factorization) NMC2F. ...... 41
3.1.
Cơ sở lý thuyết cho NMC2F. ....................................................................... 41
3.2.
Thuật toán học cho NMC2F. ........................................................................ 42
3.3.
Ứng dụng NMC2F vào bái tốn tóm tắt thơng tin mạng xã hội. ................. 43
4. Đồng phân tích ma trận khơng âm 3 (Matrix Co 3 Factorization) NMC3F. ...... 46
4.1.
Cơ sở lý thuyết cho NMC3F. ....................................................................... 46
4.2.
Thuật toán học cho NMC3F. ........................................................................ 47
4.3.
Ứng dụng NMC3F vào bái tốn tóm tắt thơng tin mạng xã hội. ................. 48
CHƯƠNG 4.
THÍ NGHIỆM. .................................................................................. 51
1. Tập dữ liệu. ......................................................................................................... 51
2. Tiêu chí đánh giá. ............................................................................................... 52
2.1.
ROUGE –N (N-gram Co-Occurrence Statistics). ....................................... 52
2.2.
ROUGE –L (Longest Common Subsequence)............................................ 53
2.3.
ROUGE-W (Weighted Longest Common Subsequence) ........................... 53
2.4.
ROUGE –S (Skip-Bigram Co-Occurrence Statistics). ................................ 54
2.5.
ROUGE –SU (Extension of ROUGE-S). .................................................... 54
3. Kết quả................................................................................................................ 54
3.1.
Đồng phân tích ma trận khơng âm (Matrix Co Factorization). ................... 54
3.2.
Đồng phân tích ma trận khơng âm 2 (Matrix Co 2 Factoriation). ............... 56
3.3.
Đồng phân tích ma trận khơng âm 3 (Matrix Co 3 Factorization). ............. 60
7
CHƯƠNG 5.
KẾT LUẬN. ...................................................................................... 62
1. Cách tiếp cận ma trận cho tóm tắt văn bản......................................................... 62
2. Đóng góp của luận văn. ...................................................................................... 62
3. Hướng nghiên cứu tiêp. ...................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................................ 64
8
DANH MỤC HÌNH
Hình 1: Một vài trọng số địa phương thơng dụng. ....................................................... 17
Hình 2: Một vài trọng số tồn cục hay sử dụng............................................................ 18
Hình 3: Tóm tắt văn bản tự động dựa trên trích chọn câu. ........................................... 19
Hình 4: Mơ hình của tóm tắt đa văn bản. ..................................................................... 21
Hình 5: Giá trị PAGERANK. ....................................................................................... 25
Hình 6: Các nhóm phương pháp tóm tắt văn bản tự động............................................ 29
Hình 7: Phân tích ma trận khơng âm. ........................................................................... 30
Hình 8: Ví dụ về phân tích ma trận khơng âm. ............................................................ 31
Hình 9: Tóm tắt văn bản tự động dựa trên phân tích ma trận khơng âm NMF ............ 37
Hình 10 So sánh NMF với NMCF ............................................................................... 55
Hình 11. ROUGE score cho các thuật toán NMCF. In đậm là giá trị tốt nhất, chữ
nghiêng là giá trị gần lớn nhất (chỉ đứng sau giá trị lớn nhất). .................................... 56
Hình 12. Ảnh hưởng của phương pháp chuẩn hóa trong NMCF. ................................ 56
Hình 13. So sánh các thuật tốn NM2CF và NMF cổ điển........................................... 57
Hình 14. So sánh NM2CF với các phương pháp phức tạp hơn. ................................... 59
Hình 15. Kết quả thí nghiệm của thuật tốn NM3CF. .................................................. 61
Hình 16. Ảnh hưởng của phương pháp chuẩn hóa trong NM3CF. ............................... 61
9
DANH MỤC BẢNG
Bảng 1. Định nghĩa các thành phần của thuật toán NMC3F. ........................................ 47
Bảng 2 Tổng quan tập dữ liệu. ..................................................................................... 51
Bảng 3 Mức độ overlap của bộ dữ liệu......................................................................... 52
10
CHƯƠNG 1. GIỚI THIỆU
1. Bài tốn tóm tắt văn bản tự động.
1.1.
Tại sao lại cần nghiên cứu tóm tắt văn bản tự động.
Trong thời đại internet với sự bùng nổ của thơng tin, vấn đề chính mà con
người phải đối mặt khơng cịn là vấn đề về sự thiếu hụt thơng tin mà là làm thế nào
để có thể xác định, chọn lọc ra những thơng tin mà mình cần trong lượng thông tin
khổng lồ được gia tăng hàng ngày trên toàn cầu. Mỗi một cá nhân hay tổ chức đều
phải giải quyết bài tốn dư thừa thơng tin để có thể hoạt động hiệu quả trong thời
đại
ngày
nay.
Ví
dụ
theo
thống
kê
của
trang
web
tới đầu tháng 12 năm 2011, có tối thiểu 50 tỷ
trang web được chỉ mục bởi google, hệ thống tìm kiếm thơng tin phổ biến nhất hiện
nay. Khái niệm “quá nhiều thông tin giết chết thông tin” đã và đang xảy ra một
cách vô cùng mạnh mẽ. Vấn đề của chúng ta gặp phải hiện nay không chỉ là sự
thiếu hụt thông tin, mà với lượng thông tin khổng lồ này, làm cách nào có thể xác
định và chọn lọc các thơng tin mà mình cần trong lượng thơng tin q lớn như vậy?
Mặt khác, internet tồn tại dưới dạng đa ngôn ngữ, tuy nó khơng có vấn đề gì nhưng
sẽ gây rất nhiều khó khăn cho việc phân tích dữ liệu [1].
Để giải quyết vấn đề quá tải thông tin và dư thừa thơng tin, giúp chúng ta có
thể xác định nhanh chóng và hiệu quả các thơng tin cần thiết, có nhiều cách tiếp cận
đã được thực hiện như:
• Tìm kiểm thơng tin (information retrieval).
• Trích rút thơng tin (information extraction).
• Phân cụm văn bản (document clustering).
• Biểu diễn thơng tin trực quan (visualization).
• Các hệ thống hỏi đáp (question/answering System).
• Tóm tắt văn bản tự động (automatic text summarization).
11
Trong đó, tóm tắt văn bản tự động là phương pháp chủ đạo giúp còn người
giải quyết vấn đề trên. Các ưu điểm của việc tóm tắt văn bản tự động:
• Tóm tắt làm giảm thời gian đọc văn bản.
• Khi nghiên cứu văn bản, tóm tắt làm cho việc chọn lựa văn bản một cách
dễ dàng hơn.
• Tóm tắt tự động giúp cải thiện các chỉ mục trong văn bản.
• Tóm tắt tự động sẽ có ít “thành kiến” (bias) hơn là so với tóm tắt của con
người.
• Tóm tắt tự động sẽ cho phép các chúng ta xử lý các văn bản một cách
nhanh chóng, dễ dàng và hiệu quả hơn.
1.2.
Định nghĩa tóm tắt văn bản tự động.
Các định nghĩa về tóm tắt văn bản tự động.
• Định nghĩa 1 (Van Dijk) [1]: Chức năng chính của tóm tắt là chỉ ra, dự
đoán cấu trúc nội dung của văn bản.
• Định nghĩa 2 (Cleveland) [1]: Bản tóm tắt phải mang các nội dung quan
trọng của văn bản, và nó thực sự có thể thay thế văn bản.
• Định nghĩa 3 [1]: Bản tóm tắt là một phiên bản đặc biệt của văn bản và
có một một mục đích rất cụ thể: để cung cấp cho người đọc một nội dung
chính xác và ngắn gọn về văn bản gốc.
• Định nghĩa 4 [1]: Một bản tóm tắt tự động là một văn bản được tạo ra bởi
một phần mềm, nó mạch lạc và có chứa một lượng đáng kể các thơng tin
của văn bản gốc.
1.3.
Phân loại tóm tắt văn bản tự động.
Các tóm tắt có thể được phân loại theo các tiêu chí sau:
12
• Mục đích của tóm tắt: trần thuật, cung cấp, hay đánh giá thông tin. Trong
đề tài này tôi chủ yếu tập trung vào các tóm tắt dạng cung cấp thơng tin.
• Dạng tóm tắt: Tóm tắt bằng trích chọn (extract) (trích nguyên văn một số
đoạn, câu trong văn bản gốc) và tóm tắt bằng trừu tượng (abstract) (tạo
các câu tóm tắt nội dung văn bản, khơng nhất thiêt có trong văn bản).
Trong đề tài này chúng tôi, giống như đa phần các nhà nghiên cứu trên
thế giới, tập trung vào các tóm tắt dạng trích chọn. Tóm tắt bằng trừu
tượng (abstract) là bài tốn khó hơn rất nhiều so với tóm tắt bằng trích
chọn, vì ngồi việc phải giải quyết bài tốn tóm tắt văn bản, tóm tắt bằng
trừu tượng cịn phải giải quyết bài tốn sinh ngơn ngữ (language
generation) tự động trên máy tính. Ngồi ra, tóm tắt trừu tượng cũng rất
khó có thể đánh giá, vì đánh giá thế nào là một bản tóm tắt tốt cũng là
một vấn đề quan trọng cần phải nghiên cứu.
• Số lượng tài liệu: Tóm tắt đơn văn bản, đa văn bản (về cùng một chủ đề)
hoặc tóm tắt thơng tin trên mạng xã hội. Trong nghiên cứu này, tôi chủ
yếu nghiên cứu vào tóm tắt thơng tin trên mạng xã hội.
• Ngữ cảnh tóm tắt: Tóm tắt thơng tin theo định hướng của câu hỏi cụ thể
hay không phụ thuộc câu hỏi nào. Đề tài này tập trung vào giải quyết loại
ngữ cảnh tóm tắt (khơng phụ thuộc câu hỏi).
2. Phân tích ma trận.
Trong tóm tắt văn bản tự động sử dụng phương pháp trích chọn, một trong
những mục tiêu chính là lựa chọn những câu tốt nhất có thể. Một thể hiện tự nhiên
của các câu trong văn bản chính là một vector. Như vậy thể hiện tự nhiên của một
văn bản (gồm nhiều câu) chính là một ma trận. Vì vậy, các kỹ thuật phân tích ma
trận sẽ giúp chúng ta đánh giá được tầm quan trọng của các câu trong văn bản, từ
đó có thể trích chọn những câu quan trọng nhất.
Phân tích ma trận có một nền tảng toán học tốt, phù hợp với sự giải thích của
con người. Các kỹ thuật phân tích ma trận trong học máy, với ý nghĩa là học ra các
13
nhân tố ẩn (latent factor) có ý nghĩa trong khai phá văn bản (text mining), đặc biệt
trong việc tóm tắt văn bản tự động là học ra được các chủ đề ẩn (hidden topic), từ
đó có thể tính trọng số cho các câu dựa trên các chủ đề ẩn này.
Phân tích ma trận ứng dụng rất nhiều trong việc khai phá dữ liệu, nhất là khai
phá dữ liệu văn bản. Khơng những thế, đã có nhiều nghiên cứu chỉ ra rằng, rất
nhiều phương pháp học máy khá hiệu quả bây giờ đều được đưa về các kỹ thuật
phân tích ma trận.
3. Tóm tắt nội dung luận văn.
Trong luận văn này, em sẽ trình bày các kỹ thuật ma trận đã được ứng dụng
trong tóm tắt văn bản tự động, các kết quả và hướng nghiên cứu tiếp theo.
Nội dung luận văn trong các chương:
• Chương 2: Các vấn đề về bài tốn tóm tắt văn bản, các bài tốn tóm tắt
văn bản chính và một nhóm các phương pháp tóm tắt văn bản đã được sử
dụng.
• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự
động, xoay quay phương pháp phân tích ma trận khơng âm NMF (Nonnegative matrix factorization) và các biến thể của nó cho các bài tốn
tóm tắt thơng tin trên mạng xã hội, cụ thể là kỹ thuật đồng phân tích ma
trận khơng âm NMCF (Non-negative matrix co-factorization).
• Chương 4: Các thí nghiệm và kết quả đánh giá của các phương pháp
phân tích ma trận đề cập ở chương 3.
• Chương 5: Kết luận và hướng phát triển.
14
CHƯƠNG 2. BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG.
1. Tóm tắt đơn văn bản.
1.1.
Giai đoạn tiền xử lý dữ liệu.
a. Tổng quan về tiền xử lý dữ liệu
Tóm tắt văn bản tự động là một quá trình phức tạp, cần phải được chia nhỏ
thành các thành phần (module). Một trong những thành phần quan trọng là tiền xử
lý văn bản. Tiền xử lý cho phép tài liệu văn bản được biến đổi thành một đối tượng
với các tính năng ngôn ngữ tối thiểu, chẳng hạn như từ và câu.
Tiền xử lý có hai mục tiêu: chuẩn hóa từ và giảm số lượng từ vựng trong một
văn bản. Cả hai chức năng này là cực kỳ quan trọng bởi vì không gian thể hiện của
văn bản được giảm đáng kể và trở nên dễ dàng quản lý. Do đó, tiền xử lý là rất cần
thiết, vì nó cung cấp cho các hệ thống tóm tắt một đại diện ngắn gọn, súc tích và
đầy đủ của văn bản gốc. Trong nghiên cứu của tơi, tơi có sử dụng 2 loại văn bản
Tiếng Việt và Tiếng Anh.
Trong điều kiện bình thường, tiền xử lý văn bản Tiếng Anh gồm các giai đoạn
sau:
• Tách văn bản thành các đoạn, các câu…
• Tách các đoạn thành các từ hoặc cụm từ.
• Chuẩn hóa từ (có thể sử dụng các phương pháp stemming hoặc
lemmatization). Trong nghiên cứu của tơi sử dụng phương pháp
stemming.
• Loại bỏ các từ dừng (stop word).
Với văn bản Tiếng Việt, tiền xử lý gồm các giai đoạn sau.
• Tách văn bản thành các đoạn, các câu…
• Tách từ (phân tách những từ đơn và từ kép trong văn bản).
15
• Tách các đoạn thành các từ hoặc cụm từ.
Tiền xử lý tùy chọn có thể bao gồm các bước sau:
• Nhận dạng tên các thực thể (NER).
• Khai thác các thuật ngữ và các từ khóa.
Các kỹ thuật stemming và lemmatization, ý tưởng chính là đưa các từ với các
biến thể khác nhau trở về từ gốc. Ví dụ: "going" sau khi qua các kỹ thuật stemming
hay lemmatization sẽ thành "go". Các kỹ thuật này rất quan trọng trong việc xử lý
văn bản Tiếng Anh, vì nó làm giảm rất lớn không gian từ của văn bản gốc.
Tách từ trong Tiếng Việt là gom nhóm các từ đơn liền kề thành một cụm từ
có ý nghĩa. Ví dụ: "Cách tách từ cho Tiếng Việt." sau khi tách từ thì thành "Cách
tách từ cho Tiếng_Việt ." Về hình thức, các từ đơn được gom nhóm với nhau bằng
cách nối với nhau bằng ký tự gạch dưới "_", trong trường hợp này là từ Tiếng_Việt.
Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi một
khoảng trắng, trong trường hợp này như "Tiếng_Việt ." thì từ "Tiếng_Việt" cách
đấu "." bởi 1 khoảng trắng. Đây là quy ước chung cho tất cả các ngơn ngữ của bài
tốn tách từ trong xử lý ngôn ngữ tự nhiên. Việc quy ước như vậy là để tạo thành
chuẩn chung và để dễ xử lý hơn trong lập trình.
Tiền xử lý là một nhiệm vụ khó khăn vì phụ thuộc phần lớn vào ngơn ngữ của
văn bản. Ranh giới câu, ví dụ, được phân định bởi dấu chấm câu, bối cảnh, việc sử
dụng ba chấm (…) thay đổi đáng kể từ ngôn ngữ này đến ngôn ngữ khác. Hơn nữa,
không phải tất cả các ngôn ngữ đều tách từ bằng dấu cách. Trong thực tế, có những
khác biệt đáng kể giữa tách một văn bản viết bằng một ngôn ngữ phương Tây sử
dụng ký tự La Tinh và một ngôn ngữ phương Đông như Trung Quốc, Nhật Bản hay
Hàn Quốc. Thậm chí loại bỏ từ dừng (stop word) (liên từ, giới từ, vv) cũng không
phải là một nhiệm vụ đơn giản.
b. Không gian vector (Vector space model).
Vấn đề tiền xử lý dữ liệu, ma trận đầu vào đã được tiền xử lý: loại bỏ các từ
dừng (stopword), sử dụng các kỹ thuật stemming, lemmatization… với Tiếng Anh,
16
và tách từ với Tiếng Việt đưa về một văn bản với tập từ điển nhỏ hơn (không gian
các từ sẽ nhỏ hơn) các phần nhỏ này được gọi là “term”. Một tập từ điển các từ
được lập ra (chỉnh là tổng số term khác nhau trong văn bản, và mỗi một term được
đánh số trong vị trí của tập từ điển), và đây chính là một chiều (chiều term) của
khơng gian vector. Chiều cịn lại chính là số câu có trong văn bản. Như vậy một ma
trận term × sentence được tạo ra.
Ma trận đầu vào thường được chuyển đổi, thường được gọi là “weight
functions”. Vị trí (i,j) của ma trận thể hiện về mối tương quan giữa term và văn bản,
được định nghĩa bởi:
a(i,j) = L(i,j) * G(i)
• Với L(i,j) là trọng số địa phương (local weight), thể hiện trọng số của
term đó trong câu [7].
Hình 1: Một vài trọng số địa phương thơng dụng.
• G(i) là trọng số toàn cục (global weight), thể hiện trọng số của term trong
văn bản [7].
17
Hình 2: Một vài trọng số tồn cục hay sử dụng.
Trong nghiên cứu của chúng tôi, chúng tôi sử dụng kết hợp chính là TF (Term
frequency) và IDF (inverse document frequency).
1.2.
Trích chọn, trừu tượng, nén câu và dung hợp câu.
a. Tiếp cận bằng trích chọn (Extract):
Trích chọn bao gồm việc lựa chọn đơn vị của văn bản (câu, phân đoạn của
câu, đoạn văn hoặc đoạn), được coi là có chứa lượng thông tin cần thiết của văn
bản (nội dung thông tin), và các lắp ghép các thành phần một cách hợp lý. Về cơ
bản, trích chọn là lắp ráp các phần đã được lấy ra từ một văn bản gốc, tạo thành
một bản tóm tắt. Mục đích của trích chọn là cung cấp cho một cái nhìn tổng quan
về nội dung của văn bản gốc [1].
Các thuật tốn để tóm tắt tự động bằng cách trích chọn có thể được phân
thành ba loại: bề mặt (Surface), trung bình (Intermediate) và kỹ thuật phân tích sâu
(Deep parsing) [1].
18
Hình 3: Tóm tắt văn bản tự động dựa trên trích chọn câu.
b. Tiếp cận bằng trừu tượng (Abstract):
Kỹ thuật trích chọn chỉ đơn thuần là sao chép các thơng tin được coi là quan
trọng nhất của văn bản để tạo thành một bản tóm tắt (ví dụ, các mệnh đề chính, câu
hoặc đoạn văn), trong khi trừu tượng liên quan đến việc diễn giải các phần của văn
bản. Nói chung, trừu tượng có thể tạo ra một tóm tắt văn bản tốt hơn trích chọn,
nhưng các hệ thống có thể làm điều này khó khăn hơn rất nhiều khi cần phải sử
dụng các công nghệ xử lý ngôn ngữ tự nhiên, mà bản thân nó là một lĩnh vực đang
phát triển. Trừu tượng (Abstract) là một trong những mục tiêu cuối cùng tóm tắt
văn bản tự động. Hệ thống tạo ra tóm tắt bằng cách trừu tượng (Abstract) dựa trên
sự hiểu biết văn bản và tìm cách tạo ra một bản tóm tắt đúng ngữ pháp, ngắn gọn và
mạch lạc.
c. Tiếp cận bằng nén câu và liên hợp (sentence compression and fusion).
Nén câu và dung hợp câu (Multi-sentence fusion) là hai đối tượng tương đối
mới trong nghiên cứu tóm tắt văn bản tự động. Hai lĩnh vực này cho phép một số
cải tiến được thực hiện, bao gồm cả việc giảm dư thừa và tạo ra bản tóm tắt tương
tự bản tóm tắt của con người, nhưng nén câu và dung hợp câu thuộc hai đối tượng
hoàn toàn khác nhau [1].
• Ý tưởng đằng sau nén câu rất đơn giản: để loại bỏ tất cả các thông tin
không cần thiết trong một câu trong khi vẫn giữ được cấu trúc ngữ pháp
19
của câu. Biến ý tưởng này thành một thuật toán, tuy nhiên, hiện nay chưa
có một giải pháp tốt cho vấn đề này [1].
• Ý tưởng của Multi-sentence Fusion hoặc nén đa câu (Multi-sentence
compression) phát sinh từ tóm tắt đa văn bản: các tài liệu có nhiều hơn
và sự trùng lặp nhiều, tạo ra dư thừa khi trích chọn tạo tóm tắt. Mục đích
cần làm là giảm sự dư thừa trong khi duy trì các thơng tin cần thiết chứa
trong một nhóm ngữ nghĩa tương tự câu. Barzilay và McKeown giới
thiệu ý tưởng này trong vấn đề tóm tắt đa văn bản của họ: một bộ câu
(trích chọn theo trọng số) từ các văn bản khác nhau được hợp nhất và nén
lại tạo ra bản tóm tắt [1].
2. Tóm tắt đa văn bản.
2.1.
Giới thiệu về tóm tắt đa văn bản.
Hệ thống tóm tắt đa văn bản được xem như là phần mở rộng của một số hệ
thống tóm tắt đơn văn bản, mà trong đó kết quả đầu ra được hợp nhất tạo thành một
bản tóm tắt duy nhất. Tuy nhiên khi làm việc với một số nguồn văn bản, hệ thống
tóm tắt đa văn bản có một xác suất dư thừa thông tin lớn hơn, thông tin không
mạch lạc và thậm chí mâu thuẫn. Một điều quan trọng là dư thừa khơng chỉ là vấn
đề duy nhất của tóm tắt đa văn bản, mà còn sự gắn kết thời điểm của các sự kiện
được mô tả cũng rất quan trọng.
Tóm tắt đa văn bản cần tạo ra các thơng tin súc tích và tồn diện. Mục tiêu
của tóm tắt đa văn bản là để đơn giản hóa việc tìm kiếm thông tin và giảm thời gian
tiếp nhận thông tin bằng cách chỉ quan tâm vào các chủ đề liên quan nhất, toàn diện
nhất, hạn chế truy cập các tập tin ban đầu trong các trường hợp không cần thiết.
20
Hình 4: Mơ hình của tóm tắt đa văn bản.
2.2.
Các vấn đề của tóm tắt đa văn bản.
Hầu hết các nghiên cứu về tóm tắt đa văn bản áp dụng kỹ thuật thống kê cho
đơn vị ngôn ngữ như từ, câu và đoạn văn để lựa chọn, đánh giá, phân loại và lắp
ráp chúng lại. Điều này được thực hiện theo một cách tương tự như tóm tắt đơn văn
bản. Sau đó, xác định và loại bỏ dư thừa, trong khi cố gắng để giữ sự gắn kết của
bản tóm tắt. Tuy nhiên, so với tóm tắt đơn văn bản, những khó khăn mới phát sinh
với tóm tắt đa văn bản: phân nhóm tài liệu, thiết kế và thực hiện các biện pháp giảm
dư thừa, cần tính đến thời gian xuất hiện của văn bản và giải quyết các văn bản
trùng lặp.
Các vấn đề thơng tin mâu thuẫn cũng có mặt trong tóm tắt đa văn bản. Trong
thực tế, nhiều tài liệu có thể được viết bởi các tác giả có phong cách và cách cấu
trúc khác nhau. Do đó, thông tin trái ngược nhau về cùng một sự kiện không phải là
hiếm, không chỉ vậy, các sự kiện và ý kiến có thể thay đổi theo thời gian. Vì vậy
các tài liệu trong các giai đoạn khác nhau có thể có những thơng tin trái ngược
nhau. Quản lý mâu thuẫn thơng tin vẫn cịn là một vấn đề khó khăn.
3. Tóm tắt diễn tiến.
Các nhà nghiên cứu đã thực hiện khá tốt tóm tắt đa văn bản. Thật khơng may,
nhiều hệ thống hiện tại không những tập trung vào việc thu thập tài liệu tĩnh, mà
còn cố gắng để nắm bắt những thay đổi theo thời gian. Xây dựng một mơ hình thích
hợp cho việc thay đổi động của thơng tin rất khó khăn vì chính nó cịn khơng được
21
cơng nhận đầy đủ. Do đó, nhiệm vụ tóm tắt diễn tiến có giá trị trong việc theo dõi
những thay đổi quan trọng đối với các thông tin liên quan trong một thời gian nhất
định. Kỹ thuật tóm tắt diễn tiến cũng rất hữu ích để có được thơng tin mới hoặc
kiến thức mới bằng cách loại bỏ thông tin ngồi thời gian sự việc hoặc các thơng
tin dư thừa. Nó nhằm mục đích tạo ra một bản tóm tắt bằng cách mô tả phần lớn
nội dung thông tin từ một tập hợp các tài liệu theo giả định rằng người sử dụng đã
đọc một tập hợp các văn bản trước đó. Đây là loại tóm tắt đã được chứng minh rất
hữu ích trong việc truy tìm những câu chuyện tin tức, chỉ có nội dung và cập nhật
mới sẽ được tóm tắt nếu người dùng đã biết điều gì đó về các văn bản.
Nhiệm vụ tóm tắt diễn tiến đầu tiên là tóm tắt một tập văn bản về một chủ đề
nào đó. Tiếp theo là tạo bản tóm tắt cập nhật mà là một bản tóm tắt theo giả định
người đọc đã đọc các tập văn bản trước đó. Mục đích của việc tóm tắt cập nhật để
thơng báo cho người đọc những thông tin mới về chủ đề.
Tóm tắt diễn tiến có nhiệm vụ tạo ra một bản tóm tắt đa văn bản bằng cách
xác định các thông tin mới liên quan đến một chủ đề. Mục tiêu là để cung cấp cho
người sử dụng, những người trước đây đã đọc một số văn bản, sự kiện mới trong
khi tránh lặp lại các thông tin đã được bao gồm trong bản tóm tắt trước đó. Các
thơng tin được trích rút phải thỏa mãn: Thơng tin này quan trọng trong văn bản tóm
tắt, và kém quan trọng trong văn bản đã được tóm tắt.
4. Tóm tắt thơng tin trên mạng xã hội.
Một số nhà nghiên cứu đã thực hiện tốt cơng việc trong tóm tắt văn bản. Nhưng
với thơng tin mạng xã hội thì khác. Người dùng có thể bình luận các vấn đề, các
chủ đề vào trong một bài viết. Bài viết và chủ đề có liên quan đến nhau. Nhiệm vụ
của tóm tắt thơng tin mạng xã hội là tóm tắt thơng tin theo định hướng dư luận
(những thông tin mà dư luận quan tâm), và tóm tắt những bình luận của người
dùng, từ đó xác định được định hướng dư luận.
5. Phân loại các phương pháp tóm tắt văn bản tự động.
5.1.
Tiếp cận dựa trên cấu trúc văn bản.
22
Là các phương pháp không cần đại diện cho văn bản và chỉ dựa vào cấu trúc
văn bản.
a. Tiếp cận dựa trên vị trí câu:
• ω(s) = i−1: Điểm số cao cho câu gần với câu mở đầu của văn bản [1].
• ω(s) = i : Điểm số cao cho câu gần cuối văn bản [1].
• ω(s) = max[i−1, (ρ−i+1)−1] : Điểm số cao cho câu gần ranh rới của văn
bản [1].
• ω(s) = (i−ρ MOD 2)2 : Điểm số của câu được mô tả bởi một hàm parabol
với biến số là vị trí của nó [1].
b. Tiếp cận dựa vào độ dài của câu:
• ω(s) = |w1, w2, . . . , wn| : Số lượng từ trong câu [1].
• ω(s) = |w1| + |w2| + . . . + |wn| : Số ký tự trong các câu văn [1].
5.2.
Tiếp cận dựa trên mơ hình khơng gian vector (Vector space model).
a. Tiếp cận dựa trên tần số từ xuất hiện trong câu:
• ω(s) = maxm ∈clusters(s) {|K(s)|2/|m|} :Thuật tốn Luhn dựa trên cửa sổ các
từ khóa (keyword) [1].
• ω(s) = Sum( tfi ) : Thuật toán của Edmundson, được tính bằng tổng số
lần xuất hiện của các từ khóa [1].
• ω(s) = |K(s)|/|K(D)| : Được tính bằng tỉ lệ xuất hiện của từ khóa trong câu
và trong văn bản [1].
• ω(s) = Sum( tfi )/|s| : tần số xuất hiện trung bình của từ trong câu [1].
• ω(s) = Sum(tfi x isfj) : với isfj = 1 – log(nj/N) với nj là số lượng câu mà
chứa từ j (term frequency * inverse sentence frequency )[1].
23
• Singular value decomposition (SVD): Phân tích SVD cho ma trận văn
bản [1].
• Non-negative matrix factorization (NMF): Phân tích ma trận khơng âm
cho tóm tắt văn bản.
• Archetypal Analysis (AA): Phân tích ngun mẫu cho tóm tắt đa văn
bản.
b. Tiếp cận dựa trên tiêu đề T:
• ω(s) = |s ∩ T|/ min{|s|, |T|} : Sự chồng chéo (Overlap) [1].
• ω(s) = |s ∩ T|/|s ∪ T| : Sự tương đồng Jaccard [1].
• ω(s) = cos(s, T) : Sự tương đồng Cosin [1].
c. Tiếp cận dựa trên sự tương đồng Jaro-Winkler của ký tự s và truy vấn Q:
• ω(s) = simJW(s, Q) [1].
Phương phám này tiếp cận dựa trên sự chồng chéo của các văn bản. Phương
pháp này đánh giá khối lượng thông tin của câu dựa trên sự tương đồng của nó với
các câu trong tập văn bản khác. Cách tiếp cận này dựa trên ý tưởng: Câu chứa các
nội dung lặp đi lặp lại thì khơng quan trọng:
• ω(s) = |s ∩ T|/ min{|s|, |D\s|} : Sự chồng chéo của tiêu đề (Overlap) [1].
• ω(s) = |s ∩ T|/|S ∪ D\s| : Sự tương đồng Jaccard của tiêu đề [1].
• ω(s) = cos(s, D/s) : Sự tương đồng cosin (cosin similarity) [1].
5.3.
Tiếp cận dựa trên đồ thị (Graph based).
Trong một đồ thị, các yếu tố văn bản (từ hoặc câu) được đại diện bởi các nút
và các cạnh nối các thành phần văn bản có liên quan (ngữ nghĩa có liên quan) với
nhau.
a. Sự phổ biến của 1 đỉnh sử dụng tần số từ.
24
Từ được coi là tốt nệu nó được đại diện bởi các đỉnh mà sự phổ biến cao hơn
một ngưỡng nhất định:
• Thuật tốn Luhn.
• Đồ thị mở rộng của các tỉ lệ từ khóa.
• Đồ thị mở rộng chồng chéo lên nhau (overlap).
• ω(s) = sum(popular/|s|) : sự trong bình phổ biến của tất cả các đỉnh.
b. Tiếp cận dựa trên PAGERANK.
Các giá trị PAGERANK được sử dụng trong các tần số từ. Từ ngữ được coi là
tốt nếu chúng được đại diện bởi các đỉnh với một điểm PAGERANK cao hơn
ngưỡng xác định trước:
Hình 5: Giá trị PAGERANK.
• Thuật tốn Luhn.
• PAGERANK từ khóa.
• PAGERANK chồng lên nhau.
• LEXRANK.
• TEXTRANK.
c. Tiếp cận dựa trên sự tương đồng:
• Chồng chéo của các cạnh trong tiêu đề và các câu (Overlap).
• Sự tương đồng Jaccard giữa các cạnh trong tiêu đề và câu (Jaccard
similarity).
• Sự chồng chéo (Overlap) giữa các cạnh trong câu s và tập văn bản bổ
sung D/s.
25