Tải bản đầy đủ (.pdf) (114 trang)

Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1 MB, 114 trang )

..

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC

NGHIÊN CỨU CÁC CÁCH TIẾP CẬN TRONG TĨM TẮT
VĂN BẢN VÀ THỬ NGHIỆM
NGÀNH: CƠNG NGHỆ THÔNG TIN
MÃ SỐ:3.04.3898
SAM CHANRATHANY

Người hướng dẫn khoa học: TS. LÊ THANH HƯƠNG

HÀ NỘI - 2008


LỜI CAM ĐOAN
Tôi – SAM CHANRATHANY Học viên lớp Cao học CNTT 2005-2007
Trường Đại học Bách Khoa Hà Nội – cam kết đây là cơng trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của TS. LÊ THANH HƯƠNG Bộ mơn
HỆ THỐNG THƠNG TIN – Khoa CNTT – Trường Đại học Bách Khoa Hà
Nội.Các kết quả nêu trong luận văn là trung thực, khơng sao chép tồn văn
của bất kỳ cơng trình nào khác.
Hà Nội, tháng 04 năm 2008
SAM CHANRATHANY


Lời Cảm Ơn


Trước hết tôi xin gửi lời cảm ơn đặc biệt nhất tới TS.Lê Thanh Hương, Bộ
môn Hệ Thống Thông Tin, Khoa Công Nghệ Thông Tin, Trường Đại Học
Bách khoa Hà Nội, Người đã định hướng đề tài và tận tình hướng dẫn chỉ
báo tơi trong suốt q trình thực hiện luận văn cao học này.
Tôi xin gừi lời cảm ơn sâu sắc tới Trung Tâm Đào Tạo Sau Đại Học
và các thầy cô giáo trong Khoa Công Nghệ Thông Tin, Trường Đại học
Bách Khoa Hà Nội đã tận tình giảng dậy và truyền đạt những kiến thức,
những kinh nghiệm quý báu trong suốt 2 năm học Cao Học.
Cuối cùng tơi xin bày tỏ lịng cảm ơn chân thành tới tất cả các bạn bè,
các thầy cô giáo, các bạn khoa nghệ thông tin 2005-2007, trường đại học
Bách khoa Hà Nội đã động viên, tạo điều kiện cho tôi trong suốt thời gian
thực hiện luận văn này.
Hà Nội, tháng 04 năm 2008
Sam chanrathany


1

MỤC LỤC
Trang

LỜI CẢM ƠN
LỜI CAM ĐOAN
Mục Lục……………………………………………………………… 1
Danh Mục Từ Viết Tắt……………………………………………….. 5
Danh Mục Bảng ……………………………………………………... 6
Danh Mục Hình Vẽ…………………………………………………... 7
Mở Đầu……………………………………………………………….

8


CHƯƠNG 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

1.1. khái niệm tóm tắt văn bản ………………………………………. 10
1.2.phân loại bài tốn tóm tắt văn bản……………………………….. 11
1.2.1. Phân loại theo đầu vào………………………………………… 11
1.2.1.1. Dựa trên nguồn………………………………………………. 11
1.2.1.2.Dựa Trên Ngôn Ngữ ………………………………………… 12
1.2.2.Phân Loại Theo Mục Đích …………………………………….

13

1.2.2.1.Dựa trên cách sử dụng……………………………………….

13

1.2.2.2.Dựa Trên mục đích tóm tắt ………………………………….

13

1.2.3.Phân Loại Theo Đầu ra ………………………………………..

14

1.2.3.1. Kiểu tóm tắt…………………………………………………

14

1.2.3.2.Ứng dụng trên Desktop và ứng dụng trên Web…………….


15

1.2.4.Phân Loại theo kỹ thuật………………………………………

15

1.2.4.1.Hướng tiếp cận cô điển…………………………………….

15

1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus………………

16


2

1.2.4.3.Hướng tiếp cận dựa trên tri thức……………………………..

17

1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ…………………

17

1.3.Các chi tiểu đánh giá………………………………………… 18
1.4. Hệ thống tóm tắt văn bản điển hình……………………………... 19
CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TÓM TẮT VĂN BẢN

2.1.Giới thiệu…………………………………………………………


22

2.2. Đánh giá bên trong…………………………………………. 24
2.2.1. Tính mạch lạc của tóm tắt ………………………………... 24
2.2.2. Độ hàm chứa thơng tin của tóm tắt ……………………… 25
2.2.3.Độ chính xác và độ hồi tưởng……………………………... 25
2.2.4.Phương pháp xếp hạng câu………………………………... 27
2.2.5. Phương pháp Lợi ích liên quan…………………………… 27

2.2.6.Mức độ giống nhau về nội dung ………………………….. 28
2.3. Đánh giá bên ngoài…………………………………………. 29
2.3.1. Đánh giá trên độ phù hợp………………………………… 29
2.3.2.Đánh giá trên độ đọc hiểu…………………………………. 31
2.4. So sánh hai phương pháp ……………………………………….. 31
2.5. Hệ thống đánh giá có sẵn hiện này………………………………

32

2.5.1. MEADeval…………………………………………………….. 32
2.5.2. ROUGE………………………………………………………... 33
CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TĨM TẮT VĂN BẢN

3.1. Qúa trình tóm tắt văn bản………………………………………... 40
3.1.1. Bước Xác định chủ đề..………………………………………... 42
3.1.2.Bước Biến đổi ………………………………………................. 42


3


3.1.3. Bước Hiển Thị ………………………………………...............

43

3.2.Các phương pháp dùng trong các bước tóm tắt…………………..

44

3.2.1.Phương pháp xác định chủ đề …………………………………. 44
3.2.1.1. Phương Pháp dựa trên vị trí…………………………………. 44
3.2.1.2. Phương Pháp dựa trên từ gợi ý ……………………………… 45
3.2.1.3. Phương Pháp dựa trên tần số xuất hiện của thuận ngữ……… 46
3.2.1.4. Phương Pháp chống lấp tiêu đề và câu truy vấn…………….. 47
3.2.1.5. Phương Pháp mối quan hệ từ vựng …………………………. 47
3.2.1.6. Phương Pháp cấu trúc diễn ngôn…………………………….. 52
3.2.1.7. Lập luận dựa trên cơ sở tri thức……………………………... 53
3.2.1.9. Phương Pháp Phù Hợp Biên MMR………………………….

54

3.2.1.10.Phương pháp Ngữ nghĩa tiềm ẩn LSA……………………… 55
3.2.1.10.Trích rút thơng tin ………………………………………...... 55

3.2.2.Quá trình biến đổi ………………………………………......... 57
3.2.2.1.Giản lược về cấu trúc câu………………………………….. 57
3.2.2.2.Giản lược về mặt ngữ nghĩa ……………………………… 58
3.3.Hiển thị………………………………………................................ 59
3.3.1. Phương pháp hiển thị phân đoạn ……………………………… 60
3.3.2.Phương pháp Hiển thị liên kết………………………………….. 61
3.3.3.So sánh 2 phương pháp……………………………………….... 61

CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG
4.1. Các hệ thống dùng để so sánh…………………………………… 63
4.2. Quý trình kiểm tra……………..………………………………… 71
4.3. Kết quả thu được….………………………………………........... 72


4

4.3.1.Văn bản tham khảo của hệ thống Mead

72

4.3.1.2.Đánh giá mức độ trích chọn chung…………………………... 72
4.3.1.2.Đánh giá mức độ giống nhau về nội dung…………………… 73
4.3.2.Văn bản SUM-TREE-BANK…………………………………..

76

4.4.NHẬN XÉT CHUNG…………………………………………..... 78
TÀI LIỆU THAM KHẢO……………………………………………

82

PHỤ LỤC ……………………………………………………………

87


5


DANH MỤC CHỮ VIẾT TẮT
Chữ viết tắt

Tiếng Anh

Tiếng Việt

DUC

Document Understanding

Hội nghị về hiểu văn bản

Conference
LCS

Longest common subsequence

Dãy con chung dài nhất

LSA

Latent Sematic Analysis

Phân tích ngữ nghĩa tiềm ẩn

MMR

Maximal Marginal Relevance


Phù hợp biên tối đa

WLCS

Weighted Longest common

Dãy con chung dài nhất dựa

subsequence

trên trọng số

RUM

Relative Utility Method

Phương pháp lợi ích liên quan

RST

Rhetorical Structure Theory

Lý thuyết cấu trúc diễn ngôn

SVD

Singular Value Decomposition

Phân tách giá trị đơn


TF

Term Frequency

Tần số xuất hiện thuận ngữ

TF-IDF

Term Frequency-inverse

Tân số kết hợp của tf và idf

document frequency


6

DANH MỤC BẢNG
Trang
Hình 2-1

Bảng kết quả đánh giá tóm tắt của ROUGE

39

Hình 4-4

Bảng mức độ trích chọn chung dựa trên độ chính 73
xác và độ hồi tưởng


Hình 4-5

Bảng trung bình cộng mức độ trích chọn chung 73
dựa trên độ chính xác và độ hồi tưởng

Hình 4-6

Bảng trung bình cộng mức độ trích chọn chung 74
dựa trên Kappa

Hình 4-7

Bảng mức độ giống nhau về nội dung cosin của 75
từng văn bản

Hình 4-8

Bảng trung bình cộng mức độ giống nhau về nội 75
dung Cosin.

Hình 4-9

Bảng trung bình cộng mức độ giống nhau về nội 76
dung dựa trên đơn vị trung lặp

Hình 4-11

Bảng trung bình cộng mức độ giống nhau về nội 77
dung Cosin so với Abstract.



















×