Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (510.59 KB, 10 trang )
<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>
<b>Võ Đình Hiếu*</b>
<b>Lê Bá Lâm**</b>
<i><b>Tóm tắt: Bài báo giới thiệu về DoIT - một hệ thống hỗ trợ nâng cao chất </b></i>
<i>lượng tài liệu tiếng Việt. Hai chức năng chính của DoIT là kiểm lỗi chính </i>
<i>tả và phát hiện trùng lặp văn bản. So với các phần mềm nước ngồi, </i>
<i>DoIT có một số ưu điểm, đặc biệt liên quan đến xử lý tiếng Việt. DoIT là </i>
<i>hệ thống đang được triển khai tại một số đơn vị đào tạo và đã có những </i>
<i>phản hồi tích cực. </i>
<i><b>Từ khóa: Tiếng Việt; Đạo văn; Chính tả.</b></i>
<b>1. Giới thiệu</b>
Sự phát triển của cơng nghệ thông tin đã mang lại nhiều đột phá
trong cuộc sống của con người. Trong lĩnh vực giáo dục, máy tính và
Internet đã giúp cho người dạy và người học tiếp cận được nhiều nguồn
thông tin, nhiều công cụ phục vụ cho việc dạy và học.
Hiện nay, nhiều trường đại học trên thế giới đang sử dụng các hệ
thống ứng dụng để hỗ trợ cho việc kiểm tra và đánh giá văn bản được
tạo ra bởi người học (bao gồm các bài tập lớn cho đến các đồ án, khóa
luận, luận văn,…). Những hệ thống như vậy thường có các chức năng
kiểm tra lỗi chính tả, ngữ pháp, và định dạng của văn bản và chức năng
kiểm tra xem nội dung của văn bản có trùng với nội dung của một tài
liệu nào đã được cơng bố trước đó hay khơng (chống sao chép). Ví dụ,
hệ thống này chủ yếu phục vụ cho các tài liệu viết bằng tiếng Anh và có
thu phí sử dụng khá cao.
Trong nước, vấn đề về chất lượng của khóa luận, luận văn và luận
án đã được đề cập rất nhiều trong thời gian vừa qua, đặc biệt là vấn đề
đạo văn (Thảo, 2018a, 2018b). Với mục đích nâng cao chất lượng của
các đồ án, khóa luận, luận văn của người học nói riêng và chất lượng
giáo dục và đào tạo nói chung, nhóm tác giả Trường Đại học Công
nghệ, ĐHQGHN đã xây dựng một hệ thống trực tuyến DoIT (Document
Improvement Tool)***hỗ trợ kiểm tra lỗi chính tả và kiểm tra trùng lặp
của các văn bản. Hệ thống này đã được triển khai tại một số đơn vị đào
tạo và đã nhận được nhiều phản hồi tích cực.
Bài nghiên cứu này sẽ giới thiệu tổng quan về hệ thống DoIT. Phần
tiếp theo sẽ giới thiệu về kiến trúc và các chức năng chính của hệ thống.
Tiếp đó, bài báo sẽ trình bày các phương án hệ thống có thể được triển
khai trước khi nêu lên những ưu điểm chính của DoIT.
<b>2. Kiến trúc hệ thống</b>
<i><b>2.1. Kiến trúc</b></i>
Giao diện Web
Q
uả
n
lý
h
Dịch vụ Web
Kiểm lỗi chính tả Kiểm tra trùng lặp
Tiền xử lý Hậu xử lý
Apache Solr
Crawler
Đánh chỉ mục
Database
<b>Hình 1: Kiến trúc của hệ thống</b>
1<sub> />2<sub> />3<sub> />
1 2
<i><b>2.2. Các bước xử lý chính</b></i>
Chuyển sang định
dạng PDF Trích xuất thơng tin
Trích xuất cấu trúc
tài liệu
Xác định các câu
cần kiểm tra
Thông tin về
trang, câu và từ
Tài liệu Tài liệu PDF
Các vùng thơng
Tìm kiếm câu
tương đồng Kiểm tra lỗi chính tả
Danh sách các câu
<b>Kết quả</b>
<b>Hình 2. Các bước xử lý chính</b>
<b>3. Các chức năng chính</b>
<i><b>3.1. Kiểm lỗi chính tả</b></i>
Hình 3 mơ tả các mơ đun chính trong phân hệ kiểm lỗi chính tả.
Câu đầu vào Tiền xử lý
Sinh tập nhầm lẫn
âm tiết
Đánh giá ứng viên <b>Từ lỗi và gợi ý</b>
Mơ hình ngơn ngữ
<b>Hình 3: Phân hệ kiểm lỗi chính tả</b>
<i><b>3.2. Phát hiện tr̀ng lặp </b></i>
Hệ thống DoIT dùng hai nguồn dữ liệu để kiểm tra sự trùng lặp:
dữ liệu từ Internet và dữ liệu nội sinh. Mô đun thập dữ liệu từ Internet
được xây dựng dựa trên Scrapy(“Scrapy,” 2018). Hệ thống sử dụng các
thuật tốn xử lý ngơn ngữ tự nhiên và trích xuất thông tin để lấy dữ liệu
văn bản từ các nguồn trên Internet. Hệ thống cũng cho phép người dùng
nhập thêm vào các website để tự động phân tích và lấy dữ liệu phục vụ
cho việc kiểm tra trùng lặp.
Dữ liệu nội sinh là các khóa luận, luận văn, luận án, và các tài liệu
khác được tạo ra bởi giảng viên và người học của các đơn vị đào tạo.
Những tài liệu này thường không được công bố trên Internet. Đây là
một nguồn dữ liệu quan trọng trong việc kiểm tra trùng lặp. Các tài liệu
này thường được lưu dưới định dạng doc, docx, hoặc PDF. Số tài liệu
cũng sẽ được đánh chỉ mục để phục vụ cho kiểm tra trùng lặp. Trong
trường hợp tài liệu ở dạng ảnh (pdf ảnh), hệ thống sẽ áp dụng kỹ thuật
nhận dạng quang học (OCR) để chuyển sang định dạng văn bản trước
khi đánh chỉ mục. Với các tài liệu theo một định dạng cho trước, hệ
thống có thể tự động trích xuất siêu dữ liệu (metadata) và chia ra thành
các thành phần như tiêu đề, mục lục, nội dung chương,... trước khi đó
lưu vào cơ sở dữ liệu.
Apache Solr
Câu cần kiểm tra
Dữ liệu từ
Internet nội sinhDữ liệu
đồng
Đánh giá bằng
Cosine
Câu tương đồng
cao nhất
<b>Hình 5: Phân hệ đánh giá trùng lặp</b>
Phương pháp độ đo Cosine đánh giá sự tương đồng của hai chuỗi
ký tự bằng việc vector hóa hai chuỗi ký tự đó thành hai vector trong
khơng gian và tính tốn cosine góc giữa hai vector. Sau đó, giá trị này
được tổng hợp thành độ tương đồng của đoạn văn bản, chương văn bản
và cuối cùng là tổng hợp cho toàn bộ văn bản.
<b>Hình 6: Giao diện kiểm tra trùng lặp</b>
Đơn vị được sử dụng để tính tốn độ trùng lặp là câu. Trong trường
hợp có sự trùng lặp của các câu liền nhau, các câu này sẽ được nối với
nhau để thể hiện mức độ tương đồng cao giữa hai văn bản.
Kết quả trùng lặp sẽ thể hiện trên tài tài liệu được kiểm tra (giữ
nguyên định dạng). Mức độ trùng lặp sẽ được thể hiện bằng các gam
màu khác nhau. Màu đỏ đậm, đỏ nhạt, và da cam theo thứ tự thể hiện
mức độ trùng lặp cao, trung bình, và thấp.
Người sử dụng có thể xuất báo cáo (định dạng pdf) về kết quả kiểm
tra trùng lặp. Báo cáo sẽ ghi rõ thời điểm kiểm tra, điểm trùng lặp chung
cho cả tài liệu và điểm trùng lặp của từng câu được kiểm tra.
<b>4. Các phương án triển khai</b>
<i><b>4.1. Với ngừi d̀ng cá nhân</b></i>
Người dùng riêng lẻ có thể đăng ký mua theo số lượt sử dụng hoặc
theo thời gian tuần/tháng/năm tại website của hệ thống*. Hiện nay, hệ
thống đang cho phép dùng thử (3 tài liệu cho người dùng với email bất kỳ,
5 tài liệu cho những người dùng đến từ các đơn vị nghiên cứu, đào tạo).
<i><b>4.2. Với các đơn vị đào tạo</b></i>
<i>Theo dạng phần mềm dịch vụ</i>
Triển khai DoIT dưới dạng ứng dụng Web theo tên miền của đơn
vị sử dụng. Phía đơn vị sử dụng khơng cần chuẩn bị cơ sở hạ tầng. Chi
<b>5. Một số điểm mạnh của DoIT</b>
Khi so sánh với các phần mềm của nước ngoài (các phần mềm phát
hiện trùng lặp như TurnItin và Unicheck), DoIT đang hạn chế về về một
số khía cạnh như các chức năng phụ, tốc độ xử lý, và quy mơ dữ liệu
nói chung. Tuy nhiên, DoIT lại có những lợi thế khác. Được phát triển
bởi các chuyên gia về xử lý tiếng Việt và phần mềm chỉ tập trung cho
tài liệu tiếng Việt nên các bước xử lý về khía cạnh ngơn ngữ (tiếng Việt)
sẽ chính xác hơn. DoIT được triển khai linh hoạt, phù hợp với nhu cầu
của đơn vị sử dụng. Ngồi ra, DoIT cịn cung cấp cơ chế để các đơn vị
sử dụng có thể chia sẻ dữ liệu nội sinh để nâng cao kết quả của chức
năng phát hiện trùng lặp. Về khía cạnh dữ liệu, DoIT có cơ sở dữ liệu
tiếng Việt chất lượng cao và cập nhật (hệ thống chỉ chú trọng vào tiếng
Việt). Công cụ đánh chỉ mục của DoIT cho phép đưa vào CSDL tìm
kiếm những tài liệu ảnh pdf.
<b>6. Kết luận</b>
<b>Tài liệu tham khảo</b>
<i>1. Foundation, A. S. (2018). Apache Solr. Retrieved from che.</i>
org/solr/ Scrapy. (2018). Retrieved from />
2. Thảo, N. (2018a, 14/3/2018). “Đạo văn ở Việt Nam: Đã đến lúc nói chuyện
<i>nghiêm túc!” Vietnamnet. Retrieved from />nguoi-thay/dao-van-o-viet-nam-da-den-luc-noi-chuyen-nghiem-tuc-435312.
html.