ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
NGUYỄN GIA THỊNH
ỨNG DỤNG HỌC SÂU VÀO BÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNG
BÀI LUẬN TIẾNG ANH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 7 năm 2023
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:
PGS.TS. Quản Thành Thơ
Cán bộ chấm nhận xét 1:
PGS.TS. Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2:
PGS.TS. Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 11 tháng 7 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học
hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: TS. Nguyễn Đức Dũng
2. Thư ký: TS. Trương Thị Thái Minh
3. Phản biện 1: PGS.TS. Võ Thị Ngọc Châu
4. Phản biện 2: PGS.TS. Đỗ Văn Nhơn
5. Ủy viên: TS. Bùi Thanh Hùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
TS. Nguyễn Đức Dũng
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN GIA THỊNH
MSHV: 2070431
Ngày, tháng, năm sinh: 19/09/1997
Nơi sinh: TP. Hồ Chí Minh
Chuyên ngành: Khoa học Máy tính
Mã số : 8480101
I. TÊN ĐỀ TÀI: ỨNG DỤNG HỌC SÂU VÀO BÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNG
BÀI LUẬN TIẾNG ANH
(APPLICATION OF DEEP LEARNING IN AUTOMATED ESSAY SCORING)
II. NHIỆM VỤ VÀ NỘI DUNG:
-
Nghiên cứu về bài toán chấm điểm tự động cho bài luận tiếng Anh sử dụng các mơ
hình học sâu.
Nghiên cứu và đề xuất các phương pháp nhằm cải thiện độ chính xác của mơ hình
tham khảo.
Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.
III.
NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV.
NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023
V.CÁN BỘ HƯỚNG DẪN: PGS.TS. Quản Thành Thơ
Tp. HCM, ngày 04 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)
PGS.TS. Quản Thành Thơ
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
i
LỜI CÁM ƠN
Sau hơn bốn tháng triển khai thực hiện nghiên cứu, em cũng đã hoàn
thành được nội dung của luận văn tốt nghiệp thạc sĩ. Đây không chỉ là cơng
sức của bản thân tác giả mà cịn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá
nhân và tập thể.
Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Quản
Thành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luận
văn, nhờ những lắng nghe và đóng góp ý kiến của thầy giúp em tìm ra và
hồn thiện nhiều ý tưởng. Bên cạnh đó, thầy là người đã truyền cảm hứng
cho em niềm đam mê hơn với lĩnh trực trí tuệ nhân tạo nói chung và xử lý
ngơn ngữ tự nhiên nói riêng.
Em cũng xin gửi lời cảm ơn đến các anh, chị, em đồng nghiệp trong
công ty đã tạo điều kiện, hỗ trợ cho em trong quá trình học tập và thực hiện
luận văn tốt nghiệp thạc sĩ.
Cuối cùng, em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các
anh, chị cùng lớp cao học đã ln động viên, quan tâm giúp đỡ em trong
q trình học tập và thực hiện luận văn.
ii
TÓM TẮT LUẬN VĂN
Chấm điểm bài luận tự động là một trong những bài toán quan trọng trong
lĩnh vực giáo dục nói chung và trong việc đánh giá trình độ ngơn ngữ nói
riêng. Trong đó, tiếng Anh là ngơn ngữ phổ biến nhất hiện nay, thúc đẩy cao
nhu cầu của việc đánh giá các kĩ năng tiếng Anh cho nhiều mục đích khác
nhau. Các phương pháp cũng như nghiên cứu trước đây tập trung vào việc
chấm điểm cho các bài luận tiếng Anh thuộc cùng một chủ đề. Điều này làm
giảm đi tính linh động của phương pháp vì trong thực tế có rất nhiều chủ đề
khác nhau cần được đánh giá. Bên cạnh đó, các phương pháp cũng chỉ đưa
ra được một điểm số tổng thể cho cả bài luận, từ đó khơng cung cấp được
nhiều thơng tin trong q trình đánh giá và hỗ trợ người viết. Chính vì vây,
trong nội dung của luận văn này, học viên tập trung vào khai thác bài toán
chấm điểm tự động bài luận tiếng Anh theo hướng tiếp cận chấm điểm chéo
chủ đề và đa thành phần (cross-prompt and multiple trait). Từ đó, học viên
đưa ra hai đề xuất để có thể cải thiện độ chính xác của mơ hình so với mơ
hình tham khảo trong cùng hướng tiếp cận.
• Sử dụng mơ hình ngơn ngữ BERT vào việc chấm điểm: học viên kết
hợp việc sử dụng mơ hình ngơn ngữ với các thơng tin từ mơ hình tham
khảo như các đặc trưng được trích xuất thủ cơng (handcrafted features) và thơng tin gán nhãn phân loại từ loại (part-of-speech). Trong
đó học viên kết hợp thơng tin trích xuất từ mơ hình ngơn ngữ và mơ
hình tham khảo để đưa ra các điểm số thành phần khác nhau.
• Sử dụng phương pháp tinh chỉnh prompt (Prompt tuning) kết hợp với
mơ hình ngôn ngữ vào việc chấm điểm: học viên xây dựng một mơ
hình mới sử dụng kĩ thuật Prompt tuning để tinh chỉnh mơ hình ngơn
ngữ BERT, tận dụng nhiều hơn sức mạnh của mơ hình ngơn ngữ, từ
đó cải thiện hiệu quả trong việc chấm điểm chéo chủ đề.
iii
ABSTRACT OF DISSERTATION
Automated essay scoring is one of the important problems in the field of
education in general and in assessing language proficiency in particular. In
which, English is currently the most widely used language, which greatly
increases the demand for evaluating English skills for various purposes. Previous methods and research have focused on scoring English essays on the
same topic. This reduces the flexibility of the approach because in reality,
there are many different topics that need to be evaluated. Additionally, these
methods only provide an overall score for the entire essay, thereby not providing much information during the evaluation process and supporting the
writer. Therefore, in the content of this thesis, the student focuses on exploring the problem of automatic essay scoring in English from the perspective
of cross-topic and multiple-trait scoring. Based on that, the student proposes
two approaches to improve the accuracy of the model compared to the reference model in the same approach.
• Using the BERT language model for automated essay scoring: the student combines the use of the language model with information from
the reference model such as handcrafted features and part-of-speech
tagging information. In this case, the student combines information
extracted from the language model and the reference model to generate different component scores.
• Using Prompt tuning technique combined with the language model
for automated essay scoring: student builds a new model using the
Prompt tuning technique to fine-tune the language model BERT in
order to exploit the capability of language model, thereby improving
the effectiveness of cross-topic scoring.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG HỌC SÂU VÀO
BÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNG BÀI LUẬN TIẾNG ANH” là cơng
trình nghiên cứu của bản thân. Những phần sử dụng tài liệu tham khảo trong
luận văn đã được nêu rõ trong phần tài liệu tham khảo. Các số liệu, kết quả
trình bày trong luận văn là hồn tồn trung thực, nếu sai tơi xin chịu hoàn
toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.
Học viên
Nguyễn Gia Thịnh
v
Mục lục
Chương 1. GIỚI THIỆU ĐỀ TÀI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1. Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Mơ tả bài tốn chấm điểm bài luận tiếng Anh tự động . . . . . .
3
1.3. Mục tiêu và nhiệm vụ của luận văn . . . . . . . . . . . . . . . . . . . . . . .
4
1.4. Giới hạn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.5. Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.6. Tóm tắt nội dung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Chương 2. CƠ SỞ KIẾN THỨC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.1. Bộ nhúng từ (Word Embedding) . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2. Cơ chế Attention và mơ hình Transformer . . . . . . . . . . . . . . .
14
2.2.1. Cơ chế Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2.2. Mơ hình Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.2.3. Các mơ hình ngơn ngữ sử dụng Transformer . . . . . . . . . . . . . . . . .
21
2.3. Kĩ thuật tinh chỉnh prompt (Prompt-tuning) . . . . . . . . . . . . .
24
Chương 3. CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN . . . . . . .
33
3.1. Tổng quan các hệ thống AES . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2. Các hướng tiếp cận của bài toán . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.3. Hướng tiếp cận prompt-specific . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.4. Hướng tiếp cận cross-prompt . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.5. Tóm tắt cơng trình nghiên cứu liên quan . . . . . . . . . . . . . . . . .
48
Chương 4. MƠ HÌNH ĐỀ XUẤT . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.1. Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.2. Tập dữ liệu đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
vi
4.3. Đề xuất 1: Kết hợp mơ hình ngơn ngữ BERT và mơ hình tham
khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.3.1. Động lực và ý tưởng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.3.2. Mô tả mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.3.3. Tham số cấu hình của mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.3.4. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.4. Đề xuất 2: Xây dựng mô hình mới sử dụng mơ hình ngơn ngữ
BERT và kĩ thuật Prompt-tuning . . . . . . . . . . . . . . . . . . . . . . . .
59
4.4.1. Động lực và ý tưởng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.4.2. Mô tả mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.4.3. Tham số cấu hình của mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.4.4. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Chương 5. KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
vii
Danh sách hình vẽ
2.1
One-hot encoding . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2
Countvectorizing . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3
Bag-of-Words . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4
Kiến trúc của mơ hình CBOW và mơ hình Skip-gram . . . . . . 12
2.5
Mối quan hệ giữa nam và nữ của Glove [1] . . . . . . . . . . . . 13
2.6
Mối quan hệ giữa so sánh hơn và so sánh nhất của Glove[1] . . . 14
2.7
Mơ hình Seq2Seq trong bài toán dịch máy . . . . . . . . . . . . 15
2.8
Mơ hình encoder-decoder với cơ chế Additive Attention [2] . . . 16
2.9
Mức độ tương quan giữa ngơn ngữ đích và nguồn qua cơ chế
Attention [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.10 Q trình tính tốn của Self-Attention . . . . . . . . . . . . . . 18
2.11 Ma trận điểm tương quan của Self-Attention . . . . . . . . . . . 19
2.12 Kiến trúc mơ hình Transformer [3] . . . . . . . . . . . . . . . . 20
2.13 Mơ hình BERT [4] . . . . . . . . . . . . . . . . . . . . . . . . 23
2.14 Đầu vào và đầu ra của mơ hình BERT [4] . . . . . . . . . . . . 23
2.15 Các hướng tiếp cận trong huấn luyện mơ hình [5] . . . . . . . . 25
2.16 Các kí hiệu trong prompting [5] . . . . . . . . . . . . . . . . . 27
2.17 Các hướng tiếp cận trong học có ngữ cảnh [6] . . . . . . . . . . 28
2.18 Kiến trúc P-tuning [7] . . . . . . . . . . . . . . . . . . . . . . . 30
2.19 Mô tả phương pháp Prefix Tuning [8] . . . . . . . . . . . . . . 32
3.1
Các hướng tiếp cận sử dụng mơ hình học sâu [9] . . . . . . . . . 39
3.2
Mơ hình phân cấp với CNN [10] . . . . . . . . . . . . . . . . . 40
3.3
Mơ hình sử dụng self-attention [11] . . . . . . . . . . . . . . . 42
3.4
Mơ hình AES dựa trên BERT [12] . . . . . . . . . . . . . . . . 42
viii
3.5
Mơ hình AES với các tác vụ học tự giám sát [13] . . . . . . . . 44
3.6
Kiến trúc của mơ hình CTS [9] . . . . . . . . . . . . . . . . . . 49
4.1
Mơ hình đề xuất CTS-BERT . . . . . . . . . . . . . . . . . . . 57
4.2
Kiến trúc của P-tuning v2 [14] . . . . . . . . . . . . . . . . . . 62
4.3
Mơ hình đề xuất CTS-Prompt . . . . . . . . . . . . . . . . . . . 63
ix
Danh sách bảng
3.1
Bảng tóm tắt các hệ thống AES thương mại . . . . . . . . . . . 36
4.1
Bảng tóm tắt tập dữ liệu ASAP-AES và ASAP++ . . . . . . . . 54
4.2
Bảng tóm tắt các điểm thành phần từ tập dữ liệu ASAP-AES
và ASAP++ được sử dụng . . . . . . . . . . . . . . . . . . . . . 54
4.3
Bảng thông tin thêm của tập dữ liệu ASAP-AES và ASAP++ . . 54
4.4
Các tham số cho mơ hình CTS-BERT . . . . . . . . . . . . . . 58
4.5
Kết quả thực nghiệm của mơ hình CTS-BERT so với mơ
hình tham khảo CTS . . . . . . . . . . . . . . . . . . . . . . . 58
4.6
Các tham số cho mơ hình CTS-Prompt . . . . . . . . . . . . . . 64
4.7
Kết quả thực nghiệm của mơ hình CTS-Prompt so với mơ
hình tham khảo CTS . . . . . . . . . . . . . . . . . . . . . . . 64
4.8
Kết quả QWK trung bình của các phương pháp đề xuất so
với mơ hình tham khảo CTS trên 8 prompt . . . . . . . . . . . . 65
4.9
Kết quả QWK trung bình trên cả 8 prompt cho từng loại
điểm thành phần
. . . . . . . . . . . . . . . . . . . . . . . . . 66
x
Chương 1
GIỚI THIỆU ĐỀ TÀI
1.1.
Giới thiệu đề tài
Lĩnh vực trí tuệ nhân tạo đang ngày càng phát triển với những nghiên
cứu và ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là giáo dục. Các
ứng dụng của trí tuệ nhân tạo trong giáo dục đã và đang tập trung vào giải
quyết các bài tốn chính như xây dựng các hệ thống kiểm tra và đánh giá
học sinh. Các hệ thơng này đóng vai trị quan trọng trong giáo dục mà thơng
qua đó, các trung tâm, bộ phận giáo dục có thể đẩy nhanh q trình đánh giá
và đưa ra phản hồi, từ đó giúp người học đạt được mục tiêu đặt ra, đồng thời
cải thiện hệ thống giảng dạy và giáo dục.
Xử lý ngôn ngữ tự nhiên, một nhánh của ngơn ngữ học và khoa học máy
tính, đã đạt được nhiều thành tựu khi có sự vận dụng của các phương pháp
học máy, đặc biệt là học sâu. Các phương pháp truyền thống vẫn được vận
dụng đan xen hay kết hợp với các phương pháp hiện đại và đạt được kết quả
cao trong các bài tốn như phân tích cảm xúc dựa trên văn bản, hệ thống
hỏi đáp, hay các hệ thống dịch máy đa ngôn ngữ. Các phương pháp hiện đại
trong xử lý ngôn ngữ tự nhiên tận dụng sức mạnh tính tốn của phần cứng
và các mơ hình mạng neuron nhân tạo để xử lý lượng dữ liệu lớn và phức
tạp một cách hiệu quả.
Hiện nay, kĩ năng sử dụng, giao tiếp đa ngôn ngữ đang trở nên quan
trọng không chỉ phục vụ đời sống thường ngày mà cịn trong cơng việc, giúp
nâng cao trình độ cạnh tranh cá nhân và mở ra nhiều cơ hội làm việc, học tập
trong môi trường quốc tế. Tiếng Anh được xem là ngôn ngữ quốc tế phổ biến
nhất, đặc biệt trong vấn đề học thuật, khi mà hầu như các tài liệu, thông tin
1
hiện hữu đều được viết bằng tiếng Anh. Chính vì vậy, việc đánh giá trình độ
và khả năng sử dụng tiếng Anh của một cá nhân là nhu cầu cần thiết và quan
trọng. Các bài kiểm tra đánh giá tiếng Anh được sử dụng như một thước đo
đánh giá chuẩn tiếng Anh của những người không phải bản xứ, một số ví dụ
như bài kiểm tra IELTS, TOEFL để đánh giá trình độ tiếng Anh tiêu chuẩn
chung, hay GRE, GMAT để đánh giá kĩ năng tiếng Anh đặc thù cho một số
lĩnh vực cụ thể như kĩ thuật, kinh tế.
Từ đó, nhu cầu có thể đánh giá, chấm điểm tự động cho những bài kiểm
tra tiếng Anh trở nên cần thiết trên các kĩ năng khác nhau. Khác với các
kỹ năng như đọc và nghe, việc đánh giá kĩ năng viết học thuật (academic
writing) là vơ cùng khó khăn, địi hỏi phải được chấm điểm thủ công bởi các
giảng viên với nhiều năm kinh nghiệm. Việc chấm điểm thủ công một bài
luận tốn rất nhiều thời gian vì người chấm cần đọc hiểu nội dung và đưa ra
đánh giá dựa trên khung điểm cho trước, và càng trở nên phức tạp hơn khi
tỉ lệ người chấm / học viên là rất lớn. Chính vì vậy, chấm điểm bài luận tự
động (Automated Essay Scoring) là bài toán cần thiết nhằm tiết kiệm công
sức chấm điểm thủ công, đồng thời rút ngắn thời gian đưa ra kết quả và phản
hồi cho phía học viên. Bài tốn có thể được phát triển và xây dựng trong
thực tiễn theo hai hướng khác nhau:
− Phục vụ việc chấm điểm tự động các bài luận của học sinh và lưu trữ
lại kết quả đánh giá.
− Hỗ trợ học sinh nói riêng và người dùng nói chung giao diện tương
tác, thực hành các bài kiểm tra để luyện tập, cải thiện kĩ năng viết và
tự đánh giá bản thân.
2
1.2.
Mơ tả bài tốn chấm điểm bài luận tiếng
Anh tự động
Có nhiều hướng tiếp cận khác nhau đối với bài toán chấm điểm bài luận
tiếng Anh tự động. Tuy nhiên, các hướng tiếp cận đều có thể quy về một
kiến trúc tổng qt. Đầu vào của mơ hình là một đoạn văn, được biểu diễn
dưới dạng tập hợp T = {T1 , T2 , ...Tn } với n là số lượng từ trong đoạn văn.
Đầu ra của mơ hình là điểm số của đoạn văn thuộc vào tập R = {r1 , r2 , ...rm }
với m là số lượng điểm thành phần cần được chấm của bài luận, m = 1 đối
với đầu ra là điểm tổng quát (overall score). Số lượng đầu ra của mơ hình
là cho trước và tùy thuộc vào khung điểm cho chủ đề bất kỳ. Dữ liệu huấn
luyện có thể là cùng một chủ đề hoặc khác chủ đề tùy vào hướng tiếp cận
bài tốn. Ngồi ra, về cách chấm điểm, số lượng điểm thành phần cũng như
thang điểm chấm là khác nhau cho từng chủ đề cụ thể, có những điểm thành
phần sẽ nằm ở nhiều chủ đề và ngược lại.
Đầu vào của mơ hình có thể được mơ tả chi tiết hơn như sau:
− Các đặc trưng được trích xuất thủ cơng từ bài luận, chẳng hạn như độ
dài của từ (word length), số lượng từ đặc biệt (unique-word count), tỉ
lệ các từ dừng (stopwords).
− Các đặc trưng được tự động trích xuất sử dụng các phương pháp, mơ
hình học sâu để học cách biểu diễn từ ngôn ngữ tự nhiên.
Dưới đây là một ví dụ về kết quả chấm điểm của một bài luận trên nhiều
điểm thành phần tương ứng thuộc chủ đề 6 trong tập dữ liệu ASAP-AES,
với thang điểm từ 0 đến 4 cho từng điểm thành phần. Cụ thể:
− Bài luận mẫu: There were many obstacles facing the builders attempting to allow dirgibles to dock on the mast of the Empire State
3
Building. One reason was that attaching a humongous blimp to the
peak of the building would add excessive strain to it. Lusted explains:
""A thousand-foot dirgible moored at the top of the building... would
add stress to the building´s frame."" @CAPS1, much revision to the
structure´s frame was needed. Another obstacle was nature. Wind currents would push the dirigible around and it would be very unsafe.
""The winds on top of the building were constantly shifting due to
violent air currents. Even if the dirgible were tethered to the mooring mast, the back of the ship would swivel around and around the
mooring mast."" This would make it unsafe for passengers to get on
or off the blimp. There was also a law in effect that prevented ""airships flying too low over urban areas."" These obstacles prevented
the builders from safely devising a way to dock the dirigibles.
− Kết quả đánh giá:
+ Điểm tổng quan (overall score): 3
+ Nội dung (content): 2
+ Thỏa mãn đề bài (prompt adherence): 2
+ Ngôn từ (language): 2
+ Tường thuật (narrativity): 2
1.3.
Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn là hướng đến việc nghiên cứu, thử nghiệm và sử
dụng các phương pháp, mơ hình học sâu trong lĩnh vực xử lý ngôn ngữ tự
nhiên vào việc xây dựng một mô hình chấm điểm tự động cho bài luận tiếng
Anh, cụ thể như:
4
− Có khả năng hiểu và áp dụng các mơ hình học sâu, kĩ thuật được sử
dụng trong lĩnh vực xử lý ngơn ngữ tự nhiên nói chung.
− Nắm được tổng quan về bài toán chấm điểm bài luận tự động nói
chung và cho tiếng Anh nói riêng, các khái niệm, các hướng tiếp cận,
các phương pháp đánh giá cũng như các tập dữ liệu được sử dụng
trong bài toán.
− Hiểu sâu được các phương pháp đã được sử dụng để giải quyết cho bài
toán chấm điểm bài luận tiếng Anh tự động, đặc biệt là các phương
pháp sử dụng các mơ hình học sâu, để từ đó nhận biết được ưu và
nhược điểm của các phương pháp.
− Dựa trên những phân tích về kết quả của các phương pháp trước và
mơ hình tham khảo, đưa ra các đề xuất mới để cải thiện kết quả của
mơ hình tham khảo.
− Học viên có kiến thức chính xác hơn về lĩnh vực trí tuệ nhân tạo, học
sâu, học máy nói chung và xử lý ngơn ngữ tự nhiên nói riêng. Đồng
thời, học viên cũng hiểu rõ hơn về các thách thức, khó khăn trong việc
vận dụng các phương pháp học sâu vào việc giải quyết một bài toán
cụ thể trong thực tế.
Với những mục tiêu được đưa ra ở trên, học viên đề xuất các công việc,
nhiệm vụ cần triển khai trong quá trình thực hiện luận văn như sau:
− Tìm hiểu tổng quan về bài toán chấm điểm tự động cho bài luận tiếng
Anh, các hướng tiếp cận, phương pháp đánh giá và tập dữ liệu được
sử dụng.
− Tìm hiểu sâu về các cơng trình nghiên cứu, phương pháp liên quan, từ
đó đưa ra được ưu và nhược điểm của các phương pháp.
5
− Đưa ra các đề xuất để cải thiện độ chính xác của mơ hình trong bài
tốn chấm điểm bài luận tiếng Anh tự động.
− Thực nghiệm và đánh giá kết quả của các mơ hình đề xuất so với mơ
hình tham khảo.
− Trình bày các vấn đề cịn tồn đọng, đưa ra kết luận và các hướng
nghiên cứu, phát triển trong tương lai.
1.4.
Giới hạn đề tài
Chấm điểm tự động bài luận tiếng Anh là một bài toán lớn với nhiều
hướng tiếp cận khác nhau, sử dụng các mơ hình và kĩ thuật khác nhau. Vì
vậy, với lượng thời gian nghiên cứu có hạn, nội dung thực hiện luận văn sẽ
được giới hạn như sau:
− Tập trung vào bài toán chấm điểm tự động bài luận tiếng Anh theo
hướng chấm điểm chéo đề tài (cross-prompt) với nhiều điểm thành
phần (multiple traits).
− Các mơ hình học sâu LSTM, cơ chế Attention và mơ hình ngơn ngữ
BERT.
− Kĩ thuật Prompt tuning, kĩ thuật tinh chỉnh mới hiện đại.
− Các mơ hình đề xuất được đánh giá dựa trên dộ đo QWK cho bài toán
chấm điểm bài luận tiếng Anh tự động.
− Sử dụng cùng một tập dữ liệu phổ biến cho tác vụ chấm điểm bài luận
tiếng Anh tự động là ASAP-AES.
6
1.5.
Đóng góp của luận văn
Trong nội dụng luận văn, học viên đề xuất 2 hướng tiếp cận giúp cải
thiện độ chính xác của mơ hình chấm điểm tự động so với mơ hình tham
khảo:
− Tích hợp mơ hình ngơn ngữ BERT kêt hợp với các đặc trưng trích
xuất thủ cơng có sẵn vào mơ hình chấm điểm tự động tham khảo.
− Xây dựng mơ hình mới dựa trên mơ hình tham khảo sử dụng mơ hình
ngơn ngữ BERT kết hợp với kĩ thuật Prompt tuning.
1.6.
Tóm tắt nội dung
Nội dung của luận văn gồm 5 chương:
− Chương 1 GIỚI THIỆU ĐỀ TÀI: giới thiệu về nhu cầu của việc
đánh giá tiếng Anh tự động nói chung và kĩ năng viết nói riêng, mơ
tả bài tốn chấm điểm bài luận tiếng Anh tự động, các tập dữ liệu và
phương pháp đánh giá thường được sử dụng cho bài toán.
− Chương 2 CƠ SỞ KIẾN THỨC: trình bày về các kiến thức cơ sở
trong học sâu, các mơ hình học sâu được xử dụng trong xử lý ngôn ngữ
tự nhiên như Recurrent Neural Network, Long Short-Term Memory,
cơ chế Attention, các mơ hình ngơn ngữ hiện đại và các kĩ thuật tinh
chỉnh (fine-tuning) mới.
− Chương 3 CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: tóm
tắt về các cơng trình nghiên cứu liên quan, từ các cơng trình nghiên
cứu sơ khai, đến các hướng tiếp cận hiện đại sử dụng các mơ hình học
sâu cho bài toán chấm điểm tự động bài luận tiếng Anh. Đây cũng
7
chính là nền tảng và cơ sở cho việc triển khai nghiên cứu và thực hiện
luận văn của học viên.
− Chương 4 CÁC MƠ HÌNH ĐỀ XUẤT: mơ tả cụ thể về mơ hình
tham khảo và các mơ hình cải tiến được đề xuất dựa trên mơ hình
tham khảo cho bài toán chấm điểm tự động bài luận tiếng Anh. Bên
cạnh đó, các kết quả thực nghiệm cho từng đề xuất cũng được trình
bày.
− Chương 5 KẾT LUẬN: tổng kết lại nội dung của luận văn, các đóng
góp của luận văn, những vấn đề còn tồn đọng và các hướng nghiên
cứu trong tương lai của bài toán chấm điểm tự động bài luận tiếng
Anh.
8
Chương 2
CƠ SỞ KIẾN THỨC
2.1.
Bộ nhúng từ (Word Embedding)
Máy tính chỉ có thể xử lý dữ liệu số, vì vậy cần thực hiện chuyển đổi
ngôn ngữ tự nhiên thành dạng số. Việc biểu diễn từ dưới dạng giá trị số có
ảnh hưởng vơ cùng lớn đến độ chính xác của các mơ hình học sâu AES nói
riêng và NLP nói chung. Các kĩ thuật word embedding thực hiện ánh xạ các
từ, hay tổng quát hơn là các token (có thể là kí tự, từ hoặc cụm từ), thành các
vec-tơ mang giá trị thực trong một không gian vec-tơ nhiều chiều mà qua đó
máy tính có thể thực hiện tính tốn và dự đốn.
Kĩ thuật biểu diễn đơn giản nhất chính là biểu diễn từ theo dạng one-hot
vec-tơ như hình 2.1 hay dạng count-vectorizing như hình 2.2. Tuy nhiên,
vấn đề với các cách biểu diễn này chính là vec-tơ sẽ trở nên thưa khi số
lượng từ là đáng kể trong các corpus lớn, từ đó khơng tối ưu về măt hiệu
năng tính tốn. Bên cạnh đó, các thơng tin về ngữ cảnh, ngữ nghĩa, sự tương
đồng giữa các từ không được thể hiện, từ đó khơng thích hợp cho các tác
vụ downstream khác như phân loại văn bản, POS-tagging. Kĩ thuật Bagof-Words (BoW) cũng là một dạng biến thể của one-hot encoding, dùng để
biểu diễn thông tin của các thành phần lớn hơn như câu, văn bản thông qua
việc tổng hợp các one-hot vec-tơ của các từ tồn tại trong câu, văn bản như
hình 2.3.
Một kĩ thuật khác cũng được sử dụng nhiều trong NLP hiện nay là Term
Frequency-Inverse Document Frequency (TF-IDF). Thành phần đầu tiên
của kĩ thuật này là Term Frequency (TF), dùng để tính tốn tần suất xuất
hiện của một từ trong một văn bản hay tài liệu, Một từ có thể xuất hiện
9
Rome
Paris
Từ thứ n
Rome = [1, 0, 0, 0, 0, 0, ..., 0]
Paris = [0, 1, 0, 0, 0, 0, ..., 0]
Italy = [0, 0, 1, 0, 0, 0, ..., 0]
France = [0, 0, 0, 1, 0, 0, ..., 0]
Hình 2.1: One-hot encoding
[ 'The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog' ]
The
quick
brown
fox
jumps
over
lazy
dog
2
1
1
1
1
1
1
1
Hình 2.2: Countvectorizing
Mỗi cột là một từ trong từ điển
Mỗi hàng là một tài liệu
(document)
[0, 1, 0, 0, 1, 1]
[1, 0, 1, 0, 1, 0]
[0, 0, 1, 1, 1, 0]
Số lượng tài liệu
Kích thước từ điển
the red dog
the
red
dog
cat
eats
food
1
1
1
0
0
0
Hình 2.3: Bag-of-Words
10
nhiều lần trong nhiều tài liệu lớn hơn so với cái tài liệu nhỏ. Vì vậy, TF được
tính bằng tỉ số giữa số lần xuất hiện của nó và tổng số từ trong tài liệu. Tuy
nhiên, nếu chỉ xét mỗi TF thì các từ xuất hiện nhiều nhưng ít ý nghĩa như
các từ ’the’, ’an’, ’and’ sẽ có ảnh hưởng lớn hơn. Để giảm mức độ ảnh hưởng
của các từ này, TF-IDF được sử dụng. Thành phần IDF có vai trò giảm ảnh
hưởng của các từ xuất hiện nhiều bằng cách lấy nghịch đảo tần số xuất hiện
của tài liệu chứa một từ cụ thể. TF-IDF được xác định bằng công thức:
T F − IDF(t, d, D) = T F(t, d) × log(
D
)
d ft
(2.1)
trong đó t biểu diễn các từ, d biểu diễn tài liệu, D biểu diễn tập hợp các
tài liệu, và tổng số lượng tài liệu có chứa từ t được biểu diễn thông qua d ft .
Tuy nhiên, cũng giống các kĩ thuật trước, TF-IDF không bắt được các thông
tin về thứ tự của từ, ngữ nghĩa hay cú pháp. Vì vậy, TF-IDF phù hợp để sử
dụng như một đặc trưng về từ vựng.
Các mơ hình word embedding được xem là kĩ thuật biểu diễn nâng cao,
sử dụng mạng neuron nhân tạo để học một cách không giám sát biểu diễn
của các từ mà có xem xét thông tin về ngữ nghĩa, cú pháp của các từ tương
ứng, nghĩa là các từ có nghĩa giống nhau sẽ có biểu diễn giống nhau. Một từ
khi đi qua word embedding sẽ được ánh xạ thành một vec-tơ N chiều với các
giá trị liên tục. Hai giải thuật phổ biến được sử dụng trong word embedding
là GloVe và Word2Vec.
Mơ hình Word2Vec được phát triển bởi Tomas Mikolov [15]. Mơ hình
này có kiến trúc đơn giản, chỉ sử dụng hai lớp mạng neuron ẩn (Fully Connected Layer) và khơng có hàm phi tuyến nào để tạo ra một vec-tơ biểu
một từ. Mơ hình này có hai kiến trúc mơ hình con là Continuous Bag of
Words (CBOW) và Skip-gram, được mô tả như hình 2.4. Để có được biểu
diễn tốt nhất của từ, cần huấn luyện mơ hình trên một corpus thật lớn. Mô
11
hình CBOW sẽ nhận đầu vào là nhiều từ trong một khung cửa sổ nhất định
và dự đoán từ trung tâm có quan hệ gần nhất với về mặt ngữ cảnh với các
từ xung quanh. Ngược lại, mơ hình Skip-gram sẽ dự đoán những từ xung
quanh trong một khung cửa sổ nhất định với đầu vào là từ trung tâm. So
sánh giữa hai mơ hình, CBOW nhanh hơn và biểu diễn tốt hơn những từ
xuất hiện nhiều, trong khi Skip-gram biểu diễn hiệu quả hơn những từ xuất
hiện ít.
Đầu vào
Tầng ánh xạ
Đầu ra
Đầu vào
CBOW
Tầng ánh xạ
Đầu ra
Skip-gram
Hình 2.4: Kiến trúc của mơ hình CBOW và mơ hình Skip-gram
Mơ hình GloVe, được phát triển bởi Jeffery Pennington [1], là một phiên
bản mở rộng và hiệu quả hơn của Word2Vec. Mơ hình GloVe sử dụng cooccurrence matrix tồn cục, trong đó mỗi thành phần Xi j biểu diễn tần số
đồng xuất hiện của cặp từ wi và w j trong một cửa sổ ngũ cảnh cục bộ (local
context window) thích hợp. Mơ hình hoạt động trên ý tưởng đó là việc đồng
xuất hiện của những từ trong một cửa sổ ngữ cảnh nhất định cũng đem lại
nhiều thơng tin ngữ nghĩa, ví dụ như từ solid thường xuất hiện cùng với từ
ice hone là từ steam nhưng từ gas lại thường xuất hiện với từ steam hơn là
12
ice. Cũng giống với Word2Vec, GloVe hỗ trợ các bộ pretrained embedding
với nhiều số chiều khác nhau (100, 200, 300). Hàm mục tiêu của Glove được
mô tả qua công thức sau:
V
∑
′
f (Xk j )(wTk w j + bk + b j − logXk j )
(2.2)
k, j=1
trong đó V là kích thước cửa từ điển, X là co-occurrence matrix, Xk j
là tần số đồng xuất hiện cửa từ k và từ j, Xk là tổng số lần xuất hiện của
từ k trong corpus, Pk j là xác suất từ j đồng xuất hiện với từ k, w là word
′
embedding có số chiều là d, w là context word embedding có số chiều d.
Hình 2.5 và 2.6 mơ tả mối quan hệ giữa những từ có ngữ nghĩa tương tự
nhau.
Hình 2.5: Mối quan hệ giữa nam và nữ của Glove [1]
13