Tải bản đầy đủ (.pdf) (41 trang)

tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 41 trang )












Đ

i h

c Qu

c gia Thành Ph


H


Chí Minh

Trường Đại học Công nghệ Thông tin

H

c viên: Dương Hoàng Thanh


Mã số: CH0901050
Lớp Cao học CNTTQM – Khóa 4
Giảng viên: TS. Nguyễn Tuấn Đăng

Tháng
04/2011



MỤC LỤC
1 GIỚI THIỆU 1
2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 1
2.1 Tình hình nghiên cứu câu trên thế giới 1
2.1.1 Thời cổ đại 1
2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX 1
2.1.3 Từ đầu thế kỷ XX đến nay 2
2.2 Tình hình nghiên cứu câu ở Việt Nam 6
2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám 6
2.2.2 Từ sau Cách mạng tháng Tám đến 1960 6
2.2.3 Từ 1960 đến 1990 7
2.2.4 Từ 1990 đến nay 7
3 CÂU TIẾNG VIỆT 7
3.1 Câu là gì 7
3.2 Các đặc trưng cơ bản của câu 8
3.2.1 Chức năng của câu 8
3.2.2 Nội dung của câu 8
3.2.3 Hình thức của câu 8
4 TÌM HIỀU DỰ ÁN GATE 9
4.1 Tổng quan về GATE 9
4.2 GATE Developer 11

4.2.1 Cửa sổ chính của GATE Developer 12
4.2.2 Nạp và xem tài liệu 13
4.2.3 Tạo và xem tập tài liệu 16
4.2.4 Làm việc với chú thích 18
4.2.5 Sử dụng các Plugin CREOLE 19
4.2.6 Nạp và sử dụng các tài nguyên xử lý 20
4.2.7 Tạo và vận hành một ứng dụng 20


4.2.8 Lưu trữ các ứng dụng và tài nguyên ngôn ngữ 20
4.3 GATE Embedded 21
5 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22
5.1 Hệ thống chiết xuất thông tin ANNIE 22
5.2 Biểu thức chính quy JAPE 23
5.2.1 Mô tả hình thức của JAPE 24
5.3 Chú thích phụ thuộc ngữ cảnh ANNIC 27
5.3.1 Khởi tạo SDD 29
5.3.2 Tìm kiếm trong kho dữ liệu 29
5.4 Các bộ phân tích 30
5.4.1 Bộ phân tích MiniPar 30
5.4.2 Bộ phân tích RASP 31
5.4.3 Bộ phân tích SUPPLE 32
5.4.4 Bộ phân tích Standford 33
6 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT 33
6.1 Xây dựng bộ phân tích cú pháp tiếng Việt 33
6.1.1 Tuỳ biến plugin SUPPLE parser 34
6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE 34
6.2 Xây dựng cơ sở dữ liệu từ vựng tiếng Việt 34
7 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 34



DANH SÁCH HÌNH ẢNH
Hình 1: Giao diện cửa sổ chính của GATE Developer 12
Hình 2: Tạo tài liệu mới 14
Hình 3: Bộ soạn thảo tài liệu 15
Hình 4: Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích 16
Hình 5: Bộ soạn thảo tập tài liệu 17
Hình 6: Bộ soạn thảo chú thích 19
Hình 7: Giao diện lập trình ứng dụng của GATE 21
Hình 8: ANNIE và LaSIE 23
Hình 9: Khung nhìn Kho dữ liệu Thứ tự Có khả năng tìm kiếm 28
Hình 10: Một văn bản được chú thích bởi MiniPar 31


DANH SÁCH BẢNG BIỂU
Bảng 1: BNF của ngữ pháp JAPE 27
Bảng 2: Đoạn mã khởi tạo SDD 29
Bảng 3: Đoạn mã tìm kiếm trong kho dữ liệu 30


DANH SÁCH TỪ VIẾT TẮT
T
ừ viết tắt

Ý ngh
ĩa

ANNIC
ANNotations-In-Context: Chú thích Phụ thuộc Ngữ cảnh.
ANNIE

A

N
early-
N
ew
I
nformation
E
xtraction system: Hệ thống Chiết
xuất Thông tin Tương đối Mới.
API
A
pplication
P
rogramming
I
nterface: Giao diện lập trình ứng
dụng.
CMS
C
ontent
M
anagement
S
ystem: Hệ thống Quản lý Nội dung.
CPSL
Common Pattern Specification Language: Ngôn ngữ Mô tả
Mẫu Thông dụng.
GATE

General Architecture for Text Engineering: Kiến trúc Tổng
quát cho Công nghệ Xử lý văn bản.
IE
Information Extraction: Chiết xuất Thông tin.
IR
Information Retrieval: Tìm kiếm Thông tin.
JAPE
J
ava
A
nnotation
P
atterns
E
ngine: Động cơ xử lý Mẫu Chú
thích trên nền Java.
LHS
L
eft
H
and
S
ide: Vế trái.
LR
Language Resource: Tài nguyên Ngôn ngữ.
PR
Processing Resource: Tài nguyên Xử lý.
RHS
Right Hand Side: Vế phải.
SDD

Searchable Serial Data-store: Kho dữ liệu Thứ tự Có khả năng
tìm kiếm.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 1

1 GIỚI THIỆU
Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng
ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt
một thời gian dài cho tới tận bây giờ. Tuy chưa có hệ thống máy tính nào có thể
thực hiện được điều này, nhưng việc nghiên cứu và khám phá xử lý ngôn ngữ tự
nhiên trên máy tính đã đem lại rất nhiều kinh nghiệm hữu ích cho con người để
có thể biến ước mơ trên thành hiện thực.
GATE là một dự án khá tham vọng khi muốn tạo ra một công cụ xử lý ngôn
ngữ đa năng, giúp các nhà nghiên cứu ngôn ngữ có thể tập trung vào nghiên cứu
chuyên sâu hơn là loay hoay giải quyết những bài toán kỹ thuật. Tuy rất được ưa
chuộng trên khắp thế giới, GATE lại hầu như chưa hỗ trợ việc phân tích tiếng
Việt. Do đó, đề tài này nhằm tìm hiểu về dự án GATE cũng như phương hướng
áp dụng công cụ này vào việc phân tích cú pháp câu tiếng Việt.
2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU
2.1 Tình hình nghiên cứu câu trên thế giới
2.1.1 Thời cổ đại
Các nhà ngữ pháp Ấn Độ giải thích: “Câu là đơn vị cơ bản của ngôn ngữ,
bởi vì chỉ có câu mới có thể diễn đạt được tư tưởng”.
Thế kỉ III – II TCN, Alêchxanđria định nghĩa: “Câu là sự tổng hợp của
các từ, biểu thị một tư tưởng tương đối trọn vẹn”.
2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX
Ngôn ngữ nói chung và câu nói riêng được nghiên cứu theo quan điểm
của các khuynh hướng, các trường phái. Đáng chú ý có các khuynh hướng
sau:

a. Khuynh hướng logic – ngữ pháp (ở Nga)
Khuynh hướng nyaf với quan điểm câu trùng với phán đoán logic, nên
đã định nghĩa “Câu là một phán đoán được biểu thị bằng từ”.
b. Khuynh hướng lịch sử - tâm lí
Khuynh hướng lịch sử - tâm lý phản đối quan niệm trên, cho rằng “Câu
(ngữ pháp) tuyệt nhiên không trùng và không song song với phán đoán
logic”.
c. Khuynh hướng hình thức ngữ pháp
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 2

Do quá thiên về hình thức của ngôn ngữ, khuynh hướng hình thức ngữ
pháp đã định nghĩa “Câu là một tổ hợp từ với ngữ điệu kết thúc”.
2.1.3 Từ đầu thế kỷ XX đến nay
Trên thế giới xuất hiện các trường phái ngôn ngữ học nổi tiếng sau:
a. Trường phái miêu tả Mĩ (còn gọi là chủ nghĩa miêu tả, chủ nghĩa phân
bố)
Với các đại diện là L. Bloomfield, Z. Harris, R. Wells, trường phái này
xuất hiện gắn liền với nhiệm vụ có tính chất lịch sử đối với các nhà
ngôn ngữ học Mĩ: nghiên cứu, miêu tả các ngôn ngữ thổ dân da đỏ ở
Mĩ. Trường phái này do ảnh hưởng của chủ nghĩa hành vi và mong
muốn miêu tả ngôn ngữ một cách khách quan, đã chủ trương xây dựng
một hệ thống kỹ thuật và thủ tục để xử lý các khối ngữ liệu của ngôn
ngữ. Câu cũng như các đơn vị ngôn ngữ khác được miêu tả theo
phương pháp: dựa vào chu cảnh, phân bố các thành hợp tố trực tiếp: L.
Bloomfield, thủ lĩnh của trường phái cho rằng câu là một cấu trúc hình
vị kết hợp theo quy tắc nhất định, gọi một cách ngắn gọn là thành tố
trực tiếp. Với trường phái miêu tả, nghĩa bị gạt bỏ khỏi ngôn ngữ, đúng
hơn là không được coi là đối tượng nghiên cứu mà chỉ được vận dụng

như phép thử để xác định một yếu tố của ngôn ngữ.
b. Trường phái ngữ vị học Copenhague – Đan Mạch
Người khởi xướng và xây dựng cơ sở lí luận của trường phái này là
Hjelmslev. Chịu ảnh hưởng bởi phương pháp cấu trúc luận của F. de
Saussuer, Hjelmslev cho rằng nhiệm vụ của ngôn ngữ học cấu trúc
luận là nghiên cứu các ngữ hàm – các hàm số trong ngôn ngữ (cũng
tức là các quan hệ) và các kiểu loại của chúng.
Ngôn ngữ học phải phát hiện ra các ngữ hàm (quan hệ) cần và đủ để
miêu tả bất cứ hệ thống tín hiệu nào, bất cứ ngôn ngữ nào một cách
đơn giản nhất. Đóng góp của Hjelmslev cho ngôn ngữ học nói chung
và cho ngữ pháp học nói riêng là ông đã phát hiện ra ba loại ngữ hàm
(quan hệ) chung nhất: quan hệ hai chiều hay lệ thuộc nhau (như quan
hệ giữa chủ ngữ với vị ngữ), quan hệ lệ thuộc một chiều hay quan hệ
quy định (như quan hệ giữa động từ với bổ ngữ; giữa danh từ với định
ngữ), quan hệ lệ thuộc tự do hay còn gọi là quan hệ liên hợp (ngoài ba
quan hệ trên, Hjelmslev còn nói đến quan hệ giao hoán, luân hoán và
thay thế). Đó là các quan hệ ngữ pháp cơ bản để phân tích mỗi quan hệ
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 3

ngữ pháp giữa các thành phần trong cụm từ, trong câu. Hjelmslev còn
là người khởi xướng xây dựng lý thuyết về phạm trù cách ngữ pháp
(như chủ cách, tặng cách, cách cập vật). Lý thuyết này đã mở đường
cho phương pháp phân tích nghĩa thành các thành tố ngữ nghĩa của câu
sau này.
c. Trường phái cấu trúc – chức năng luận (hay câu lạc bộ ngôn ngữ học
Praha)
Năm 1026, Câu lạc bộ Ngữ học Praha được thành lập ở Tiệp Khắc do
sáng kiến của nhà ngôn ngữ học V. Mathesius, đã tập hợp được nhiều

nhà nghiên cứu ngôn ngữ và ngữ văn học Slavơ và German như B.
Havrane’k, J. Mukaroxski… Tham gia vào câu lạc bộ còn có N.S.
Trubetskoy, R. Jakobson và A. Martinet – nhà cấu trúc – chức năng
luận cổ điển của ngôn ngữ học Pháp.
Thành tưu hoàn chỉnh nhất của các nhà ngôn ngữ học Praha là âm vị
học. Ngoài âm vị học, trường pháp Praha còn nghiên cứu về chức năng
giao tiếp của ngôn ngữ. Các nhà nghiên cứu của trường phái này –
thuộc lớp người đi đầu (cụ thể là R. Jakobson) trong việc nghiên cứu
ngôn ngữ trong hoạt động giao tiếp. R. Jakobson đã đề ra sơ đồ tương
đối hoàn chỉnh về các nhân tố giao tiếp, các quan hệ giữa các nhân tố
đó và các chức năng ngôn ngữ đảm nhận trong quá trình giao tiếp.
Thành tựu nghiên cứu về cú pháp của trường phái Praha, đáng chú ý
có:
- Lý thuyết phân đoạn thực tại của Mathesius. Lý thuyết này đã được
ứng dụng vào việc nghiên cứu cú pháp (như phân tích thành phần
câu) của nhiều ngôn ngữ cụ thể trên thế giới.
- Quan điểm về câu tối thiểu và biện pháp triển khai (mở rộng) câu
tối thiểu của Martinet. Nhà cấu trúc – chức năng luận cổ điển của
ngôn ngữ học Pháp này không tán thành quan niệm phân tích câu
theo thành tố trực tiếp của Bloomfield – thủ lĩnh trường phái miêu
tả Mĩ. Ông cho rằng các thành phần câu không có vị trí ngang bằng
nhau và chỉ cần phân tích chúng thành các thành tố trực tiếp. Theo
Martinet, vị ngữ là thành phần chủ yếu của câu, là trung tâm liên
kết các thành phần khác trong câu. Tất cả các thành phần khác được
xác định là nhờ quan hệ thế nào đó với vị ngữ. Nhưng vai trò của
các thành phần có liên quan đến vị ngữ cũng không ngang bằng
nhau. Trong số các thành phần đó, chủ ngữ chiếm một vị trí đặc
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 4


biệt nổi bật, bởi vì chủ ngữ là thành phần triển khai của vị ngữ để
kết hợp chủ ngữ – vị ngữ thành một câu. Các thành phần khác
không có vai trò đó, chúng có thể bị loại bỏ mà cái lõi còn lại vẫn
không mất tính chất câu – đó là câu tối thiểu.
Ba trường phái ngôn ngữ học đầu thế kỷ XX được giới thiệu ở trên đều
chịu ảnh hưởng trực tiếp hay gián tiếp học thuyết về tính hệ thống của
F. de Saussuere, dẫu khác nhau về nhiều điểm, nhưng vẫn có chung
một xuất phát điểm. Đó là tư tưởng về tính hệ thống, cũng tức là tính
cấu trúc của ngôn ngữ. Vì thế mà trong lịch sử ngôn ngữ học, ba
trường phái này được mệnh danh là các trường phái cấu trúc luận.
d. Ngữ pháp tạo sinh (Generative Grammar)
Ngữ pháp tạo sinh, một học thuyết ngôn ngữ học Mĩ mà người sáng
lập là Noam Chomsky, ra đời từ năm 1957, lúc đầu nhằm phê phán
những mặt hạn chế của chủ nghĩa miêu tả Mĩ. Sau đó, với thành tựu
của mình, nó thực sự đã có sức hút mạnh mẽ đối với ngôn ngữ học thế
giới, tạo ra được một cuộc “cách mạng” về tư duy phương pháp luận
ngôn ngữ học.
Đóng góp lớn nhất của ngữ pháp tạo sinh là phân biệt ngữ năng với
ngữ thi: Ngữ năng là hiểu biết của người sử dụng ngôn ngữ có được về
ngôn ngữ; ngữ thi là sự sử dụng thực tế trong những hoàn cảnh cụ thể
cái ngữ năng đó. Từ sự phân biệt đó, ngữ pháp tạo sinh cho rằng: ngữ
pháp của một ngôn ngữ là cơ chế hợp thành ngữ năng, nhiệm vụ hàng
đầu của ngôn ngữ học là phát hiện ra cái thứ ngữ pháp đó; đối tượng
hàng đầu của ngữ pháp là câu.
Theo Chomsky, một đặc điểm rất cơ bản của ngữ năng đó là nhờ đó
mà chúng ta có thể hiểu và tạo ra một số lượng vô hạn các câu mới. Đó
cũng là cơ sở của tạo sinh và ngữ pháp tạo sinh. Tạo sinh là tạo lập ra
những đơn vị - từ một cơ sở cho trước theo một cấu trúc nhất định.
Ngữ pháp tạo sinh là ngữ pháp nhờ nó chúng ta có thể tạo lập ra vô

hạn các câu đúng và chỉ đúng ngữ pháp dựa vào những cơ sở nhất
định. Một cách khái quát hơn, ngữ pháp tạo sinh được hiểu là ngữ pháp
có khả năng tạo ra một số lượng vô hạn những câu đúng ngữ pháp và
gán cho mỗi câu một sự miêu tả cấu trúc của nó. Với đặc điểm đó, ngữ
pháp tạo sinh được đánh giá là ngữ pháp có tính dự đoán (khi nó chỉ ra
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 5

cách tạo ra những câu từ những quy tắc và bộ cơ sở) và tính tường
minh (khi nó miêu tả cấu trúc của các câu).
Đóng góp thứ hai của ngữ pháp tạo sinh là nó đã cho chúng ta thấy
được vai trò cải biến trong ngữ pháp: cải biến trong ngữ pháp được
đánh giá là cái vạch ngang trong chữ H nằm ngang, nối cấu trúc sâu (lý
giải ngữ nghĩa) với cấu trúc bề mặt.
Tuy nhiên, hạn chế của ngữ pháp tạo sinh là quan điểm câu độc lập với
ngữ cảnh, quan điểm ngữ pháp trung hoà, bàng quan với người nghe.
e. Ngữ pháp chức năng (Functional grammar)
Ngữ pháp chức năng được hiểu là một lý thuyết tổng quát về tổ chức
ngữ pháp của ngôn ngữ tự nhiên. Cụ thể hơn, có thể hiểu ngữ pháp
chức năng là một lý thuyết về một hệ phương pháp được xây dựng trên
quan điểm coi ngôn ngữ như một phương tiện thực hiện sự giao tiếp
giữa người với người.
Khởi xướng xây dựng lý thuyết này là Dik (1987), sau đó là sự đóng
góp của các tên tuổi: L. Tesnietre, Ch. Fillmore, M. Halliday, M.
Clark…
Đứng trên quan điểm chức năng (ngôn ngữ tự nhiên là công cụ giao
tiếp của con người), các nhà ngữ pháp chức năng cho rằng ngôn ngữ tự
nhiên về căn bản là một hiện tượng ngữ dụng. Các hình thái ngôn ngữ
có mặt là để hoạt động như là những cái mang nghĩa và nghĩa tồn tại là

để chuyển tải các thông điệp từ người nói này sang người nói khác
trong ngữ cảnh của một sự kiện lời nói hiện thực. Hình thái cú pháp
phục vụ cho ngữ nghĩa và ngữ nghĩa phục vụ cho ngữ dụng. Với định
hướng đó, ngữ pháp chức năng đã tự đặt cho mình nhiệm vụ “nghiên
cứu, miêu tả và giải thích các quy tắc chi phối hoạt động của ngôn ngữ
trên các bình diện của mặt hình thức và mặt nội dung trong mối liên hệ
có tính chất chức năng”.
Thành tựu vững chắc nhất mà các tác giả ngữ pháp chức năng đạt được
là:
- Xây dựng được lý thuyết ba bình diện: bình diện ngữ pháp, bình
diện ngữ nghĩa và bình diện ứng dụng. Lý thuyết này đã tỏ ra rất có
hiệu lực khi được ứng dụng để phân tích câu (sau này, nó còn được
vận dụng để phân tích từ, các thành phần của câu).
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 6

- Làm rõ được quan hệ chức năng – ngữ nghĩa giữa vi tố và các đối
(arguments) của nó bằng các lý thuyết mang các tên khác nhau: vai
ngữ nghĩa, vai, vai cách, vai cách ngữ nghĩa, vai tham thể… Lý
thuyết này được nêu ra một cách nghiêm túc lần đầu tiên bởi Gruba
(1965) với cái tên “quan hệ đề”, tiếp đến là Fillmore (1968) với tên
“vai cách”.
Đứng trên quan điểm lấy chức năng tự nhiên của ngôn ngữ - chức năng
giao tiếp – làm đích nghiên cứu, ngữ pháp chức năng không chỉ khắc
phục được những hạn chế của trường phái cấu trúc luận (thiên lệch về
cấu trúc, coi nhẹ hoặc gạt bỏ nghĩa ra khỏi ngôn ngữ) mà còn chỉ ra
được các mối quan hệ ràng buộc, chi phối lẫn nhau giữa các mặt của
đơn vị cú pháp (như câu, cấu trúc vị tố - tham thể). Bởi vậy, ngày nay,
ngữ pháp chức năng đã và đang được các nhà nghiên cứu trên thế giới

vận dụng vào việc nghiên cứu các vấn đề của ngôn ngữ - chủ yếu là
các vấn đề cú pháp – một cách hiệu quả.
2.2 Tình hình nghiên cứu câu ở Việt Nam
2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám
Chữ quốc ngữ đã ra đời từ thế kỉ XVII (lấy năm 1961 làm gốc), nhưng
phải tới đầu thế kỉ XX (1930) mới có các công trình nghiên cứu về ngữ
pháp tiếng Việt của một số học giả người Việt và người Pháp, đó là Trần
Trọng Kim, Bùi Đức Tịnh, Lê Quang Trinh, Phạm Duy Khiêm, Trương
Vĩnh Ký, Aubaret, V. Barbier… Ở giai đoạn đầu này, những vấn đề về
“văn phạm Việt Nam” nói chung và về câu nói riêng mới được nghiên cứu
ở mức “sơ khai” và còn bị mô phỏng theo tiếng Pháp. Câu được Trần
Trọng Kim định nghĩa như sau: “Câu thành lập do một mệnh đề có nghĩa
lọn hẳn hoặc do hai hay nhiều mệnh đề”.
2.2.2 Từ sau Cách mạng tháng Tám đến 1960
Sau Cách mạng tháng Tám, ở miền Bắc Việt Nam có sách Ngữ pháp Việt
Nam do Nguyễn Lân biên soạn. Các vấn đề về ngữ pháp và về câu cũng
chưa vượt hơn giai đoạn trước. Nguyễn Lân giải thích: “Nhiều từ hợp lại
mà biểu thị được một ý hoàn chỉnh, dứt khoát về động tác, tình hình hoặc
tính chất của sự vật thì được gọi là một câu”. Định nghĩa này không rõ
ràng, không đầy đủ, có thể dùng để giải thích cho cả cụm từ.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 7

2.2.3 Từ 1960 đến 1990
Tới giai đoạn này, các vấn đề về ngữ pháp cũng như câu tiếng Việt đã
được các nhà ngôn ngữ học Việt Nam nghiên cứu, miêu tả sát với đặc
điểm loại hình của tiếng Việt, song cũng chịu ảnh hưởng chung của các
trường phái cấu trúc luận nên các đơn vị như từ, cụm từ, câu chỉ được
nghiên cứu ở phương diện cấu trúc.

Về câu, tác giả của sách ngữ pháp chỉ xem xét chúng ở bình diện ngữ
pháp: các thành phần tạo nên câu, các kiểu câu – theo cấu tạo. Bình diện
nghĩa học và dụng học chưa được đề cập đến (bốn kiểu câu theo mục đích
nói: câu trần thuật, câu nghi vấn, câu cầu khiến, câu cảm thán có được
nhắc tới, nhưng cũng chỉ được nghiên cứu ở góc độ cấu tạo).
Các nhà ngữ pháp tiêu biểu cho giai đoạn này là: Nguyễn Cẩn, Hoàng
Tuệ, Nguyễn Kim Thản, Đái Xuân Ninh, Diệp Quang Ban, Hoàng Trọng
Phiến, Lê Xuân Thai, Nguyễn Minh Thuyết…
2.2.4 Từ 1990 đến nay
Hơn mười năm lại đây, ngữ pháp Việt Nam do tiếp nhận tư tưởng của ngữ
pháp chức năng nên đã có nhiều biến chuyển. Các lý thuyết ngữ pháp
chức năng như: lý thuyết về ba bình diện của câu, về vị từ – tham thể, các
tiêu chí mới phân loại vị từ (như tiêu chí ±động, ±chủ ý), cách phân tích
câu theo quan điểm đề – thuyết, các vấn đề như: tiêu điểm, tiền giả định…
đã được vận dụng vào việc nghiên cứu ngữ pháp tiếng Việt. Các nhà ngữ
pháp học đã có công giới thiệu ngữ pháp chức năng vào Việt Nam và ứng
dụng nó để nghiên cứu là các giáo sư: Cao Xuân Hạo (với [1]), Diệp
Quang Ban (với [2], [3], [4]). Giờ đây, ở Việt Nam, có thể nói không một
công trình nào nghiên cứu về ngữ pháp lý luận không lấy ngữ pháp chức
năng làm cơ sở lý luận.
3 CÂU TIẾNG VIỆT
3.1 Câu là gì
Theo [5]: Câu là đơn vị ngôn ngữ không có sẵn, dùng để biểu thị sự tình, được
tạo nên từ các đơn vị nhỏ hơn theo những quy tắc ngữ pháp nhất định, có dấu
hiệu hình thức riêng, được sử dụng trong giao tiếp nhằm thực hiện một hành
động nói.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 8


- Các đơn vị ngôn ngữ có sẵn: âm vị, hình vị, từ, ngữ cố định. Đó là các đơn
vị có sẵn trong hệ thống ngôn ngữ, người sử dụng không phải tạo ra chúng.
Số lượng của chúng là hữu hạn.
- Các đơn vị ngôn ngữ không có sẵn: cụm từ tự do, câu. Các đơn vị này không
có sẵn trong hệ thống ngôn ngữ. Để có nó, người sử dụng phải tự tạo nên. Số
lượng của chúng là vô hạn.
Trong hoạt động giao tiếp, người ta không nói với nhau bằng âm vị, hình vị, từ,
cụm từ. Đơn vị nhỏ nhất có thể sử dụng để giao tiếp là câu (văn bản nhỏ nhất,
chỉ có thể là một câu). Đó là điểm khác nhau cơ bản của câu với các đơn vị dưới
câu, không có sẵn. Câu có nhiều phương diện: hình thức, nội dung nghĩa, chức
năng, phạm vi sử dụng.
3.2 Các đặc trưng cơ bản của câu
3.2.1 Chức năng của câu
Nói một cách khái quát, có thể nói, xét trong mối quan hệ với ý định (mục
đích) của người nói, câu được dùng để biểu thị hành vi ngôn ngữ (còn gọi
là hành động nói). Đó là chức năng cơ bản của câu. Chức năng này không
có được ở hình vị, từ, cụm từ. Bất kì câu nói nào cũng biểu thị ít nhất một
hành vi ngôn ngữ. Tuy nhiên, muốn xác định đúng hành vi ngôn ngữ mà
câu biểu thị, cần đặt nó trong ngữ cảnh.
Ngoài chức năng biểu thị hành vi ngôn ngữ, câu còn có một số chức năng
khác. Chẳng hạn, nếu xét câu trong mối quan hệ với các câu trong văn
bản, thì mỗi câu là một đơn vị ngôn ngữ dùng để tạo nên văn bản.
3.2.2 Nội dung của câu
Tạo nên nội dung câu là các thành phần nghĩa của nó. Từ góc độ đó có thể
hiểu, về nội dung, câu biểu thị:
- Hiện thực được phản ánh vào câu như: vật, việc, hiện tượng, hành
động, trạng thái, tính chất, quan hệ… Hiện thực sẽ tạo nên phần nghĩa
miêu tả (nghĩa sự vật) của câu.
- Quan hệ thái độ của người nói đối với người nghe và sự đánh giá chủ
quan đối với hiện thực được nói tới trong câu. Nội dung này chính là

một yếu tố tạo nên phần nghĩa tình thái của câu.
3.2.3 Hình thức của câu
a. Hình thức ngữ âm của câu
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 9

Khi nói, câu có ngữ điệu kết thúc (hạ giọng ở câu trần thuật, cao giọng
ở câu hỏi). Với tiếng Việt, người nói thường dùng các tiểu từ tình thái
cuối câu (à, ừ, nhỉ, nhé, hả, chứ, đi, thôi, nào, với, chứ…) để thể hiện
rõ hơn ngữ điệu kết thúc và mục đích câu.
Ngữ điệu kết thúc là một trong những dấu hiệu hân biệt câu với đơn vị
không phải là câu.
Khi viết, câu được nhận diện nhờ hình thức:
- Chữ cái đầu của âm tiết đầu câu được viết hoa.
- Cuối câu có một trong các dấu: . ! ?
b. Hình thức ngữ pháp của câu
Câu là đơn vị không có sẵn. Để có được nó, người sử dụng phải kết
hợp các đơn vị nhỏ hơn (từ, ngữ cố định, cụm từ tự do) với nhau theo
những quy tắc ngữ pháp nhất định của ngôn ngữ. Số lượng các câu cụ
thể (tức phát ngôn) là vô hạn, nó được xây dựng từ những mô hình cấu
trúc cú pháp mang tín trừu tượng, khái quát và hữu hạn. Các cấu trúc
cú pháp của câu thường gặp là:
- Cấu trúc câu đơn.
- Cấu trúc câu ghép.
- Cấu trúc câu phức.
- Cấu trúc câu đặc biệt.
4 TÌM HIỀU DỰ ÁN GATE
4.1 Tổng quan về GATE
GATE (General Architecture for Text Engineering) là một cơ sở hạ tầng cho

việc phát triển và triển khai các thành phần của phần mềm xử lý ngôn ngữ tự
nhiên. Dự án này ra đời đã gần 15 năm và vẫn còn được sử dụng tích cực trong
tất cả các loại nhiệm vụ tính toán liên quan đến ngôn ngữ con người. GATE nổi
trội về xử lý văn bản đủ các loại. Từ những tập đoàn lớn cho tới những khởi đầu
nhỏ, từ những liên doanh nghiên cứu hàng triệu EUR cho đến những đồ án tốt
nghiệp, cộng đồng người dùng của GATE là loại lớn nhất và đa dạng nhất trong
các hệ thống cùng loại và trải rộng trên hầu hết các châu lục.
GATE là một phần mềm mã nguồn mở miễn phí, người dùng có thể nhận được
hỗ trợ miễn phí từ cộng đồng người dùng và các nhà phát triển thông qua
GATE.ac.uk hoặc trên một cơ sở thương mại từ những đối tác công nghiệp của
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 10

dự án. Đây là dự án xử lý ngôn ngữ tự nhiên mã nguồn mở lớn nhất với một đội
ngũ phát triển lớn gấp đôi các dự án lớn nhất có thể so sánh được (rất nhiều
trong số đó được tích hợp với GATE). Hơn 5 triệu EUR đã được đầu tư vào việc
phát triển GATE. [8]
Bộ công cụ của GATE đã được phát triển qua nhiều năm để có được một client
trên desktop dành cho các nhà phát triển, một ứng dụng web dựa trên luồng
công việc, một thư viện Java, một kiến trúc và một quy trình xử lý. Do đó,
GATE bao gồm [7]:
- Một IDE, GATE Developer: một môi trường phát triển tích hợp cho các
thành phần xử lý ngôn ngữ, đóng gói chung với một hệ thống chiết xuất
thông tin được dùng rất rộng rãi và một tập hợp plugin khá đầy đủ.
- Một ứng dụng web, GATE Teamware: một môi trường
- Một giải pháp điện toán đám mây để vận hành các quy trình xử lý văn bản
khổng lồ, GATE Cloud (
- Một kho tìm kiếm đa mô hình, GATE Mímir, có thể được dùng để lập chỉ
mục và tìm kiếm trên văn bản, diễn giải, sơ đồ ngữ nghĩa (các ontology), và

siêu dữ liệu ngữ nghĩa (instance data). Kho này cho phép các truy vấn pha
trộn một cách tuỳ ý từ truy vấn hoàn toàn bằng văn bản, truy vấn có cấu trúc,
truy vấn ngôn ngữ và truy vấn ngữ nghĩa.
- Một framework, GATE Embedded: một thư viện đối tượng được tối ưu hoá
cho việc kết hợp các ứng dụng khác nhau cho phép truy cập đến tất cả các
dịch vụ của GATE Developer và hơn thế nữa.
- Một kiến trúc: một tổ hợp phần mềm với hình ảnh có tính tổ chức cao mô tả
về phương thức xử lý ngôn ngữ tự nhiên.
- Một quy trình cho việc tạo ra các dịch vụ mạnh mẽ và dễ bảo trì.
GATE còn phát triển:
- Một wiki / CMS, GATE Wiki ( chủ yếu để lưu trữ
những website của dự án và cũng là nơi tiến hành các thử nghiệm.
Một trong những động lực ban đầu của GATE là để giảm bớt việc giải quyết
những vấn đề công nghệ thông thường trước khi đi vào nghiên cứu thực sự,
hoặc việc tái cấu trúc trước khi triển khai những kết quả nghiên cứu vào ứng
dụng. Những chức năng cốt lõi của GATE đảm nhận phần lớn của công nghệ
về:
- Mô hình hoá và lưu trữ những cấu trúc dữ liệu chuyên biệt.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 11

- Đo đạc, thử nghiệm, đánh giá.
- Hình tượng hoá và chỉnh sửa những chú thích, ontology, cây phân tích,…
- Một ngôn ngữ di truyền trạng thái hữu hạn cho việc nhanh chóng tạo ra
nguyên mẫu và cài đặt hiệu quả của các phương pháp phân tích bề mặt
(JAPE – Java Annotation Patterns Engine) [9].
- Chiết xuất những đối tượng huấn luyện của máy học.
- Những cài đặt máy học có thể tháo lắp (Weka, SVM Light,…).
Trên cùng của những chức năng cốt lõi, GATE chứa những thành phần phục vụ

cho những tác vụ xử lý ngôn ngữ khác nhau, ví dụ như các bộ phân tích, hình
thái, dán nhãn, các công cụ tìm kiếm thông tin, các thành phần chiết xuất thông
tin cho những ngôn ngữ khác nhau và rất nhiều thứ khác. GATE Developer và
Embedded được cung cấp một hệ thống chiết xuất thông tin (ANNIE) vốn được
sử dụng và thử nghiệm rất rộng rãi. ANNIE thường được dùng để tạo ra RFD
hay OWL (siêu dữ liệu) cho nội dung không có cấu trúc (diễn giải ngữ nghĩa).
Phiên bản đầu của GATE được viết vào giữa thập niên 90. Tới đầu những năm
2000, GATE viết lại toàn bộ hệ thống bằng Java. Phiên bản 5 được phát hành
vào tháng 06/2009 và phiên bản 6 vào tháng 11/2010. Cho đến hiện tại, GATE
vẫn là hệ thống dẫn đầu trong các loại tương tự.
4.2 GATE Developer
GATE Developer là giao diện đồ hoạ của GATE. Hệ thống này cũng tương tự
các hệ thống như Mathematica cho những nhà toán học hay Eclipse cho lập
trình viên Java, cung cấp một môi trường đồ hoạ thuận tiện cho việc nghiên cứu
và phát triển phần mềm xử lý ngôn ngữ. Cùng với việc tự nó đã là một công cụ
nghiên cứu mạnh mẽ, GATE Developer còn rất hữu dụng trong việc kết hợp với
GATE Embedded (bộ giao diện lập trình ứng dụng GATE mà nhờ đó chức năng
của GATE có thể được tích hợp vào các ứng dụng tự phát triển). Ví dụ: GATE
Developer có thể được dùng để tạo ra các ứng dụng có thể được nhúng vào các
ứng dụng khác thông qua API.
Nhiệm vụ cơ bản của GATE là diễn giải văn bản. Các khái niệm cốt lõi bao
gồm:
- Các tài liệu (documents) được diễn giải.
- Các tập văn bản (corpora): bao gồm tập hợp các tài liệu, nhóm tài liệu cho
mục đích vận hành các quy trình đồng nhất trên chúng.
- Các chú thích (annotations) được tạo từ các tài liệu.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 12


- Các kiểu chú thích (annotation types): như ‘Tên gọi’ hay ‘Ngày tháng’.
- Các tập chú thích (annotation sets): bao gồm các nhóm chú thích.
- Xử lý tài nguyên (processing resources): thao tác và tạo ra các chú thích trên
tài liệu.
- Các ứng dụng (applications): bao gồm các trình tự của xử lý tài nguyên, có
thể được áp dụng vào một văn bản hay tập văn bản.
GATE chứa một hệ thống chiết xuất thông tin hoàn chỉnh có thể được sử
dụng tuỳ ý, đó là ANNIE (a Nearly-New Information Extraction System: Hệ
thống Chiết xuất Thông tin Tương đối Mới). Rất nhiều người sử dụng nhận thấy
rằng đây là điểm xuất phát lý tưởng cho ứng dụng của họ, và do đó ta cũng sẽ
tìm hiểu về hệ thống này.
4.2.1 Cửa sổ chính của GATE Developer


Hình 1: Giao diện cửa sổ chính của GATE Developer
Hình 1 thể hiện cửa sổ chính của GATE Developer, là cửa sổ ta gặp khi
chạy công cụ này lần đầu. Có năm vùng chính:
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 13

1. Ở trên cùng là thanh trình đơn và thanh công cụ với các trình đơn
‘File’, ‘Options’, ‘Tools’, ‘Help’ và các biểu tượng đại diện cho các
hành động thường dùng.
2. Ở bên trái có một cây bắt đầu từ ‘GATE’ và chứa ‘Application’,
‘Language’… – đó là cây tài nguyên.
3. Ở góc dưới bên trái có một hình chữ nhật là khung nhìn tài nguyên
nhỏ.
4. Ở chính giữa có chứa một tab với nhãn ‘Message’ hoặc tên của tài
nguyên trong cây tài nguyên gọi là khung nhìn tài nguyên chính.

5. Nằm dưới cùng là thanh thông điệp.
Trình đơn và thanh thông điệp thực hiện những việc thông thường. Những
thông điệp dài hơn được thể hiện trong tab thông điệp ở vùng khung nhìn
tài nguyên chính.
Cây tài nguyên và khung nhìn tài nguyên hoạt động cùng nhau cho phép
hệ thống thể hiện các tài nguyên khác nhau theo nhiều cách khác khác
nhau. Rất nhiều tài nguyên được tích hợp với GATE có thể có một khung
nhìn nhỏ hoặc khung nhìn lớn hoặc cả hai.
Bất kỳ lúc nào, khung nhìn chính đều có thể được dùng để thể hiện các
thông tin khác như thông điệp chẳng hạn, bằng cách nhấp chuột vào tab
tương ứng trên cửa sổ chính. Nếu một lỗi xuất hiện trong khi xử lý, tab
thông điệp sẽ chớp đỏ, và thêm vào đó, một hộp thoại thông điệp lỗi sẽ
hiện ra.
Trong hộp thoại Options từ trình đơn Options, bạn có thể quyết định có
kết nối mục chọn ở cây tài nguyên với khung nhìn chính được chọn hay
không.
4.2.2 Nạp và xem tài liệu
Nếu nhấp chuột phải vào ‘Language Resources’ trong bảng tài nguyên,
chọn ‘New’ rồi đến ‘GATE Document’, cửa sổ ‘Parameters for the new
GATE Document’ sẽ xuất hiện như trong Hình 2. Tại đây, ta có thể chỉ
định tài liệu GATE muốn tạo ra. Các tham số được xác định bằng cách
đánh dấu chọn. Nếu ta không nhập tên tài liệu, nó sẽ được tạo tự động.
Nhập URL của tài liệu hoặc dùng trình duyệt tập tin để xác định tập tin ta
muốn sử dụng làm nguồn tài liệu. Ví dụ, ta có thể dùng ‘’
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 14

hoặc duyệt đến một tập tin văn bản hay XML trên đĩa. Bấm ‘OK’ và tài
liệu GATE sẽ được tạo từ nguồn chỉ định.


Hình 2: Tạo tài liệu mới
Bộ soạn thảo tài liệu được chứa trong bảng tab trung tâm của GATE
Developer. Nhấp đúp chuột vào tài liệu trên bảng tài nguyên để hiện bộ
soạn thảo tài liệu. Bộ soạn thảo tài liệu bao gồm một bảng nằm trên cùng
với các nút và biểu tượng điều khiển việc hiển thị các khung nhìn khác
nhau và hộp tìm kiếm. Ban đầu, ta chỉ có thể thấy văn bản trong tài liệu
như trong Hình 3. Bấm vào ‘Annotation Sets’ và Annotations List’ để
xem các tập chú thích nằm bên phải và danh sách các chú thích nằm phía
dưới. Lúc này, giao diện sẽ giống Hình 4. Tại vị trí danh sách các chú
thích, ta có thể chọn xem ngăn xếp các chú thích. Tại vị trí các tập chú
thích, ta cũng có thể chọn xem bộ soạn thảo tham chiếu cộng tác.
Một vài tuỳ chọn khác có thể được thiết lập từ biểu tượng tam giác ở góc
trên bên phải.

Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 15


Hình 3: Bộ soạn thảo tài liệu
Với ‘Save Current Layout’, ta có thể lưu lại cách thể hiện của những
khung nhìn khác nhau và các kiểu chú thích được tô sáng trong tài liệu.
Sau đó, nếu ta chọn ‘Restore Layout Automatically’, ta sẽ có các khung
nhìn và kiểu chú thích giống nhau mỗi khi mở tài liệu.
Một thiết lập khác biến bộ soạn thảo tài liệu thành ‘Read-only’. Nếu bật
lên, ta sẽ không thể chỉnh sửa văn bản nhưng vẫn có thể chỉnh sửa các chú
thích. Thiết lập này rất hữu dụng để tránh những thay đổi ngoài ý muốn
lên văn bản gốc.
Cuối cùng, ta có thể lựa chọn giữa ‘Insert Append’ và ‘Insert Prepend’.

Thiết lập này chỉ liên quan đến khi ta chèn văn bản tại sát biên của một
chú thích. Nếu ta đặt con trỏ tại vị trí bắt đầu của chú thích, có khả năng
văn bản mới được nhập sẽ trở thành một phần của chú thích hoặc cũng có
thể nằm ở bên ngoài. Cũng tương tự ta đặt con trỏ tại vị trí kết thúc của
chú thích.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 16



Hình 4: Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích

4.2.3 Tạo và xem tập tài liệu
Ta có thể tạo tập tài liệu mới tương tự như cách tạo tài liệu mới: nhấp
chuột phải tại ‘Language Resources’ trong bảng tài nguyên, chọn ‘New’
và tiếp đến ‘GATE corpus’. Một hộp thoại ngắn sẽ hiển thị cho phép đặt
tên cho tập tài liệu (nếu để trống thì tên tập tài liệu sẽ tự động được đặt)
và tuỳ ý thêm các tài liệu vào tập tài liệu từ những tài liệu đã được nạp
vào GATE.
Có ba cách thêm tài liệu vào tập tài liệu:
1. Khi tạo một tập tài liệu, nhấp chuột vào biểu tượng nằm bên cạnh
trường đầu vào ‘documentList’ sẽ bung ra một hộp thoại với một
danh sách các tài liệu đã nạp sẵn vào GATE Developer. Hộp thoại
này cho phép người dùng thêm bất kỳ tài liệu nào vào tập tài liệu.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 17

2. Một cách khác, tập tài liệu có thể được nạp trước, và tài liệu được

thêm vào sau bằng cách nhấp đúp chuột lên tập tài liều và dùng biểu
tượng + và - để thêm và bớt các tài liệu ra khỏi tập. Lưu ý rằng các
tài liệu cần được nạp vào GATE Developer trước khi có thể được
thêm vào tập tài liệu.
3. Khi đã được nạp, tập tài liệu có thể được mở rộng bằng cách nhấp
chuột phải lên tập tài liệu và chọn ‘Populate’. Với phương thức này,
tài liệu không nhất thiết phải được nạp trước vào GATE Developer
vì chúng sẽ được nạp trong quá trình thực hiện. Khi đó, ta sẽ thấy
một hộp thoại cho phép chỉ định thư mục trong đó GATE sẽ tìm
kiếm các tài liệu. Ta có thể quy định phần mở rộng được phép, ví
dụ như XML hay TXT. Thao tác này sẽ ràng buộc việc mở rộng tập
tài liệu chỉ với những tài liệu có phần mở rộng mà ta muốn nạp. Ta
có thể chọn đệ quy qua các thư mục chứa trong thư mục đích hay
giới hạn việc mở rộng chỉ với những tài liệu nằm trong thư mục cấp
cao nhất.

Hình 5: Bộ soạn thảo tập tài liệu
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 18

Ngoài ra, nhấp chuột phải vào một tài liệu đã được nạp và chọn ‘New
corpus with this document’ sẽ tạo một tập tài liệu tạm thời mang tên
Corpus for document name chỉ chứa đúng tài liệu đó.
4.2.4 Làm việc với chú thích
 Xem các tập chú thích: để xem các tập chú thích, nhấp chuột trên
nút ‘Annotation Sets’ trên đầu bộ soạn thảo tài liệu. Khi đó khung
nhìn tập chú thích sẽ xuất hiện, hiển thị các tập chú thích có hiệu
lực và kiểu chú thích tương ứng của chúng.
Khung nhìn tập chú thích được hiển thị bên phải của bộ soạn thảo

tài liệu. Đó là một khung nhìn dạng cây với một gốc cho mỗi tập
chú thích. Tập chú thích đầu tiên trong danh sách luôn luôn là một
tập không tên. Đây là tập chú thích mặc định. Trong Hình 4 ta có
thể thấy có một mũi tên xổ xuống mà không có tên bên cạnh. Các
tập chú thích khác của tài liệu được thể hiện trong Hình 4 là
‘Original markups’. Bởi vì tài liệu đó là một tài liệu Word nên
những đánh đấu Word vẫn còn được giữ lại dưới dạng một tập chú
thích. Khi tập chú thích này được bung ra, ta có thể thấy các chú
thích như ‘body’, ‘div’, ‘head’, ‘html’, ‘p’, ‘title’.
Đánh dấu chọn vào hộp chọn của một loại chú thích để hiển thị tất
cả các chú thích của nó. Phân đoạn văn bản tương ứng với các chú
thích đó sẽ được tô sáng trong cửa sổ văn bản chính. Để xoá một
loại chú thích, sử dụng phím delete. Để đổi màu, bấm Enter. Có
một trình đơn ngữ cảnh cho tất cả các hành động trên mà ta có thể
hiển thị bằng cách nhấp chuột phải lên một kiểu chú thích, một
vùng chọn hoặc một tập chú thích.
Sau khi chọn một kiểu chú thích trong khung nhìn các tập chú
thích, di chuyển chuột lên trên một chú thích trong khung nhìn tài
nguyên chính, hoặc nhấp chuột phải lên đó sẽ làm bung ra một hộp
chứa một danh sách các chú thích tương ứng với nó. Từ hộp này có
thể chọn một chú thích để xem trong cửa sổ soạn thảo chú thích.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh

GVHD: TS. Nguyễn Tuấn Đăng Trang 19


Hình 6: Bộ soạn thảo chú thích
 Xem danh sách chú thích: để xem danh sách chú thích và các yếu tố
của nó, nhấp chuột vào nút ‘Annotations List’ nằm trên cùng cửa sổ
chính. Khung nhìn danh sách chú thích sẽ xuất hiện bên dưới văn

bản chính. Nó sẽ chỉ chứa các chú thích được chọn từ khung nhìn
tập chú thích. Danh sách này có thể được sắp xếp tăng dần hoặc
giảm dần theo bất kỳ cột nào, bằng cách nhấp chuột vào tiêu đề của
cột tương ứng.
 Xem ngăn xếp chú thích: Khung nhìn này tương tự như khung nhìn
ANNIC. Nó hiển thị các chú thích tại con trỏ văn bản của tài liệu
với một vài ngữ cảnh phía trước và phía sau. Các chú thích được
xếp chồng từ đỉnh xuống đáy, cung cấp một cái nhìn rõ ràng khi
chúng dẫm chân lên nhau.
 Chỉnh sửa đồng tham chiếu: Bộ soạn thảo đồng tham chiếu cho
phép các chuỗi đồng tham chiếu có thể được hiển thị và chỉnh sửa
trong GATE Developer. Để hiển thị bộ soạn thảo đồng tham chiếu,
đầu tiên mở một tài liệu trong GATE Developer, sau đó nhấp chuột
vào nút Co-reference Editor trong khung nhìn tài liệu.
4.2.5 Sử dụng các Plugin CREOLE
Trong GATE, tài nguyên xử lý được dùng để tạo và thao tác một cách tự
động các chú thích trong tài liệu. Trong hầu hết các trường hợp, để sử
dụng một tài nguyên xử lý cụ thể (và tài nguyên ngôn ngữ nào đó), ta phải
trước hết nạp plugin CREOLE có chứa nó.
Những định nghĩa của tài nguyên CREOLE (ví dụ các tài nguyên xử lý
như bộ gán nhãn và bộ phân tích) được lưu trữ trong các thư mục
CREOLE (các thư mục chứa tập tin XML mô tả các tài nguyên, gói Java
với mã nguồn thực thi đã biên dịch và bất cứ thư viện nào mà tài nguyên
đòi hỏi).

×