BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
VŨ XUÂN HẠNH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
HÀ NỘI - 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
VŨ XUÂN HẠNH
NGHIÊN CỨU XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN
SINH CỦA TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
MÃ SỐ: MHN2020-09
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
HÀ NỘI - 2020
i
THÀNH VIÊN THỰC HIỆN ĐỀ TÀI
Chủ nhiệm đề tài:
Ths. Vũ Xuân Hạnh – Khoa Công nghệ Thông tin
Các thành viên:
Ths. Trần Tiến Dũng – Phịng Tổ chức Hành chính
Ths. Phạm Tiến Huy – Khoa Công nghệ điện tử
Ths. Nguyễn Thị Thu Hiền – TT Phát triển Đào tạo
Ths. Nguyễn Quỳnh Anh – TT Phát triển Đào tạo
Ths. Phan Minh Tuấn – Phịng Cơng tác Chính trị và Sinh viên
Ths. Nguyễn Anh Hồn – Phịng Cơng tác Chính trị và Sinh viên
ii
MỤC LỤC
THÀNH VIÊN THỰC HIỆN ĐỀ TÀI........................................................................... i
MỤC LỤC ........................................................................................................................ii
DANH MỤC TỪ VIẾT TẮT ........................................................................................iv
DANH MỤC HÌNH VẼ, BẢNG BIỂU ......................................................................... v
MỞ ĐẦU .......................................................................................................................... 1
1. Lý do chọn đề tài .........................................................................................................1
2. Tổng quan về vấn đề nghiên cứu...............................................................................1
3. Mục đích nghiên cứu ..................................................................................................2
4. Đối tượng và phạm vi nghiên cứu .............................................................................3
5. Phương pháp nghiên cứu ...........................................................................................3
6. Đóng gói của đề tài ......................................................................................................3
CHƯƠNG I: TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU ..................................... 5
1.1. Giới thiệu ...............................................................................................................5
1.2.
Tổng quan về chatbot ...........................................................................................5
1.2.1.
Chatbot ................................................................................................................ 5
1.2.2.
Tổng quan về ngơn ngữ tự nhiên ...................................................................... 11
1.3.
Bài tốn và thuật tốn xử lý ngơn ngữ tự nhiên .............................................14
1.3.1.
Bài tốn ............................................................................................................. 14
1.3.2.
Mơ hình.............................................................................................................. 15
1.3.3.
Phân loại văn bản ............................................................................................. 16
1.3.4.
Tách từ ............................................................................................................... 21
1.3.5.
Gán nhãn từ loại ............................................................................................... 23
1.3.6.
AIML .................................................................................................................. 25
1.3.7.
Program - Y ....................................................................................................... 27
1.4. Các giải pháp công nghệ xây dựng mạng từ tiếng Việt .................................. 27
1.4.1. Cơ sở dữ liệu ngôn ngữ tự nhiên ...................................................................... 27
1.4.2.
Đặc điểm của cơ sở dữ liệu ngôn ngữ tự nhiên Princeton (PWN) .................. 29
1.4.3.
Các kỹ thuật xây dựng mạng từ ........................................................................ 31
1.4.4.
Giải pháp xây dựng Wordnet tiếng Việt ........................................................... 32
1.5.
Kết luận chương..................................................................................................34
iii
CHƯƠNG II: MƠ HÌNH HỆ THỐNG TRỢ LÝ ẢO HỖ TRỢ TƯ VẤN TUYỂN
SINH ............................................................................................................................... 35
2.1. Giải pháp hỗ trợ tương tác người – máy .........................................................35
2.1.1.
Một số vấn đề về tương tác người – máy ..........................................................35
2.1.2.
Các dạng tương tác người – máy......................................................................36
2.2.
Phát triển phân hệ phần mềm xây dựng, quản lý mạng từ tiếng Việt .........37
2.2.1.
Yêu cầu xây dựng, quản lý mạng từ .................................................................. 37
2.2.2.
Kiến trúc tổng quan và phân tích u cầu ........................................................ 38
2.2.3.
Mơ tả chức năng .............................................................................................. 45
2.3.
Xây dựng cơ sở dữ liệu cho hệ thống................................................................45
2.3.1.
Các yêu cầu của cơ sở dữ liệu .......................................................................... 45
2.3.2.
Kiến trúc tổng quan và giao diện quản lý ........................................................ 46
2.3.3.
Nền tảng công nghệ........................................................................................... 48
2.4.
Kết chương ..........................................................................................................54
CHƯƠNG III: ỨNG DỤNG TẠI ĐẠI HỌC MỞ HÀ NỘI ..................................... 55
3.1. Trực trạng tình hình tư vấn tuyển sinh tại ĐH Mở Hà Nội ..........................55
3.1.1.
Thực trạng ......................................................................................................... 55
3.1.2.
Các giải pháp nâng cao hiệu quả công tác tuyển sinh..................................... 56
3.1.3.
Tập dữ liệu tư vấn tuyển sinh và quy trình đề xuất .......................................... 57
3.2.
Hệ thống hỗ trợ tư vấn tuyển sinh ....................................................................63
3.2.1.
Đăng nhập ......................................................................................................... 63
3.2.2.
Quản trị mạng từ ............................................................................................... 64
3.2.3.
Quản trị kịch bản .............................................................................................. 65
3.2.4.
Giao diện người dùng ....................................................................................... 69
3.3.
Đánh giá ...............................................................................................................71
3.3.1.
Kết quả thử nghiệm ........................................................................................... 71
3.3.2.
Vấn đề còn tồn đọng.......................................................................................... 71
3.3.3.
Hướng phát triển ............................................................................................... 71
3.4. Kết chương .......................................................................................................... 72
KẾT LUẬN .................................................................................................................... 73
DANH MỤC TÀI LIỆU THAM KHẢO .................................................................... 75
iv
DANH MỤC TỪ VIẾT TẮT
Viết tắt
Tiếng Anh
Tiếng Việt
AI
Artificial Intelligence
Trí tuệ nhân tạo
IR
Information Retrieval
Truy xuất thơng tin
IE
Information Extraction
Trích lọc thơng tin
ML
Machine Learning
Học máy
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
AIML
Artifical Intelligence Markup Language
Ngôn ngữ đánh dấu nhân tạo
API
Application Programming Interface
Giao diện lập trình ứng dụng
RNN
Recurrent Neural Network
Mạng nơ ron hồi quy
CNN
Convolutional Neural Networks
Mạng nơ ron tích chập
HMI
Human Machine Interaction
Tương tác người - máy
OOP
Object Oriented Programming
Lập trình hướng đối tượng
FP
Function Programming
Lập trình hướng chức năng
MT
Machine Translation
Dịch máy
ID3
Iterative Dichotomiser 3
Thuật toán cây quyết định
Phát triển từ ID3
C 4.5
SVM
Support Vector Machine
Máy hỗ trợ véc tơ
AI
Artificial Intelligence
Trí tuệ nhân tạo
RF
Random Forest
Rừng ngẫu nhiên
v
DANH MỤC HÌNH VẼ, BẢNG BIỂU
Hình 1.1: Trợ lý ảo Poli .................................................................................................... 7
Hình 1.2: Trợ lý ảo Sally .................................................................................................. 8
Hình 1.3: Google Assitant ................................................................................................ 8
Hình 1.4 Amazon Echo - IoT Client của trợ lý ảo Alexa ................................................ 8
Hình 1.5 Trợ lý ảo Cortana trên Windows 10 .................................................................. 9
Hình 1.6 Mơ hình tổng quan của Dialogflow................................................................... 9
Hình 1.7 Giao diện cơ bản của Pandorabot .................................................................... 10
Hình 1.8 Giao diện cơ bản của Trợ lý ảo FPT ............................................................... 11
Hình 1.9: Mơ hình tổng quan.......................................................................................... 15
Hình 1.10: Sơ đồ luồng xử lý ......................................................................................... 16
Hình 1.11: Sơ đồ mạng DNN ......................................................................................... 19
Hình 1.12: Sơ đồ mạng RNN ......................................................................................... 20
Hình 1.13: Mơ hình CNN ............................................................................................... 21
Hình 1.14: Một ví dụ đơn giản về AIML trợ lý ảo ghi nhớ tên người dùng ................. 26
Hình 1.15 khả năng sửa lỗi chính tả trong câu hỏi của AIML...................................... 26
Hình 1.16 AIML có khả năng ghi nhớ thơng tin người dùng cung cấp ........................ 27
Hình 1.17 Minh họa về WordNet tiếng Hà Lan ............................................................. 28
Hình 1.18: Ví dụ về cây danh từ trong PWN ................................................................. 31
Hình 1.19: Tạo synset cho VWN ................................................................................... 33
Hình 2.1: Lịch sử các hình thức tương tác người-máy .................................................. 35
Hình 2.2: Mơ hình tổng quan của mô-đun xây dựng, quản lý mạng từ........................ 38
Bảng 2.1: Danh sách usecase trong mô đun xây dựng, quản lý mạng từ ...................... 39
Hình 2.3: Biểu đồ usecase của mô-đun xây dựng, quản lý mạng từ ............................. 39
Bảng 2.2: Kịch bản xây dựng mạng từ thủ công cho lĩnh vực giáo dục........................ 40
Bảng 2.3: Kịch bản xây dựng mạng từ tự động cho lĩnh vực giáo dục ........................ 41
Bảng 2.4: Kịch bản đối chứng với mạng từ trung gian ................................................ 42
Hình 2.4: Các ký hiệu UML 2.0 sử dụng trong sơ đồ tuần tự ...................................... 43
Hình 2.5: Sơ đồ tuần tự usecase xây dựng mạng từ tự động ........................................ 43
Hình 2.6: Sơ đồ tuần tự usecase xây dựng mạng từ thủ cơng....................................... 44
Hình 2.7: Sơ đồ tuần tự usecase đối chứng với mạng từ trung gian ............................. 44
Hình 2.8: Mơ hình tổng quan của cơ sở dữ liệu lưu trữ các kịch bản ........................... 46
Hình 2.9: Mơ hình tổng quan của hệ thống .................................................................... 47
Hình 2.10: Sơ đồ tổng quan tiến trình vec-tơ hóa q trình huấn luyện ....................... 47
Hình 2.11: Sơ đồ tổng quan quá trình huấn luyện mơ hình ........................................... 47
Bảng 2.5: Chiến lược sử dụng các giải pháp, nền tảng cơng nghệ ................................ 48
Hình 3.1: Minh họa về bộ dữ liệu câu hỏi tuyển sinh trên phần mềm Excel ................ 58
vi
Hình 3.2: Minh họa về dữ liệu câu hỏi đã gán nhãn ...................................................... 60
Hình 3.3: Quy trình huấn luyện mơ hình phân loại câu hỏi .......................................... 61
Hình 3.4: Minh họa lựa chọn, nạp siêu tham số và tiến hành huấn luyện mơ hình ...... 63
Hình 3.5: Minh họa v lưu và vận hành mơ hình trong dự đốn chủ đề của câu hỏi ..... 63
Hình 3.6: Giao diện màn hình đăng nhập hệ thống quản trị .......................................... 64
Hình 3.7: Màn hình quản trị chung ................................................................................ 64
Hình 3.8: Quản trị mạng từ thơng qua các chủ đề.......................................................... 64
Hình 3.9: Màn hình thêm mới một tập từ đồng nghĩa ................................................... 65
Hình 3.10: Danh sách kịch bản theo từng topic ............................................................. 65
Hình 3.11: Danh sách thực thể gốc của một topic ......................................................... 66
Hình 3.12: Cấu trúc cây kịch bản ................................................................................... 66
Hình 3.13: Thêm mới một thực thể là con thực thể đang xét ........................................ 67
Hình 3.14: Điền các thơng tin cho node ......................................................................... 67
Hình 3.15: Chỉnh sửa một node ...................................................................................... 68
Hình 3.16: Cập nhật thơng tin trên node ........................................................................ 68
Hình 3.17: Xóa một node................................................................................................ 69
Hình 3.18: Giao diện tổng quan trợ lý ảo hỗ trợ sinh viên ............................................ 69
Hình 3.19: Nhập câu hỏi ngẫu nhiên .............................................................................. 70
Hình 3.20: Gợi ý các chủ đề hỗ trợ ................................................................................ 70
Hình 3.21: Lựa chọn một chủ đề trong danh sách được gợi ý ....................................... 70
Hình 3.22: Bỏ qua các chủ đề gợi ý và hỏi một câu ngẫu nhiên ................................... 71
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, trí tuệ nhân tạo đang ngày càng phát triển mạnh mẽ. Các hãng
công nghệ lớn như Apple, Microsoft, Google, Facebook đều đưa ra các công nghệ
tương tác trực tiếp với người dùng. Trí tuệ nhân tạo đang ngày càng được nâng cấp
hồn thiện giúp người dùng dễ dàng tương tác, dễ sử dụng và giảm q trình thực
hiện. Trí tuệ nhân tạo đang là một lĩnh vực mới mẻ và được sự quan tâm rất lớn từ
các hãng công nghệ hàng đầu. Với công nghệ đang ngày càng được áp dụng trong
đời sống giúp con người làm việc hiệu quả hơn tiết kiệm thời gian và sức lực, trí tuệ
nhân tạo và xử lý ngơn ngữ tự nhiên góp phần xây dựng những hệ thống để phục vụ
cho điều đó.
Hệ thống trợ lý ảo là một hệ thống giúp con người giao tiếp với máy thực
hiện các yêu cầu ý muốn của người dùng. Hiện nay trên thế giới hệ thống trợ lý ảo
đang được nghiên cứu và phát triển mạnh mẽ ở các hãng công nghệ hàng đầu thế giới.
Trong những năm gần đây, hệ thống trợ lý ảo đang được ứng dụng và đạt được những
kết quả rất ấn tượng trên lĩnh vực trong đời sống như Thương mại, Du lịch - Dịch vụ,
Y tế, Giáo dục - Đào tạo, …
Tại Việt Nam, công nghệ trợ lý ảo đã, đang được ứng dụng trong những năm
gần đây và đạt được nhiều kết quả khả quan. Trong đó có thể kể đến trợ lý ảo của
Ngân hàng Thương mại Cổ phần Việt Á (VAB) có chức năng tư vấn khách hàng các
thông tin về lãi suất, tỷ giá, sản phẩm, biểu phí, quy trình mở thẻ…, EVN Hà Nội đã
ứng dụng trợ lý ảo để hỗ trợ khách hàng tra cứ tiền điện, lịch ghi chỉ số, lịch tạm
ngừng cung cấp điện. Không chỉ trong doanh nghiệp, trợ lý ảo cũng được đẩy mạnh
sử dụng trong một số cơ quan nhà nước như Sở Du lịch TP Đà Nẵng đã thí điểm
thành công Chatbot Danang Fantasticity giúp tra cứu thông tin du lịch tự động trên
tin nhắn. Sở Giao thông TP Hồ Chí Minh cũng đã đưa vào sử dụng trợ lý ảo nhằm
cung cấp và giải đáp các thông tin về tình hình giao thơng tới người dân. Mặc dù vậy,
việc ứng dụng trợ lý ảo trong việc giải đáp, truy xuất thông tin phục vụ nhu cầu của
học sinh - sinh viên còn nhiều hạn chế và chưa thực sự được quan tâm..
2. Tổng quan về vấn đề nghiên cứu
Ở nước ngồi có nhiều nơi đã ứng dụng trợ lý ảo vào việc giao tiếp với con
người và đạt được kết quả khá thành công như:
Trợ lý ảo GWYN của 1-800-Flowers được triển khai từ năm 2015 đã giúp
tổng doanh thu của cơng ty tăng 6,3%, tính đến q 1 năm 2017. Trong đó, số lượng
đơn đặt hàng thơng qua trợ lý ảo chiếm đến 70%. CEO David Barrett của
1
FastCompany cho biết: Việc ứng dụng trợ lý ảo Expensify: “Concierge” giúp giảm
thiểu đến 75% chi phí đầu tư cho chăm sóc khách hàng.
Trong lĩnh vực Y tế - Chăm sóc sức khỏe, việc áp dụng trợ lý ảo cũng đạt
được nhiều thành tựu. Có thể kể đến như Dr. A.I, được phát hành bởi HealthTap Cơng ty tồn cầu cung cấp dịch vụ chăm sóc sức khỏe trực tuyến cho người dùng từ
tháng 12 năm 2016. Sản phẩm này trò chuyện, kết hợp với sử dụng hồ sơ của người
dùng để đánh giá tình trạng sức khỏe của họ. Từ đó đưa ra lời khuyên hoặc kết nối
họ với bác sĩ, chuyên gia phù hợp nhất.
Trong lĩnh vực Giáo dục, việc ứng dụng trợ lý ảo cũng đã đạt được nhiều kết
quả khả quan. Đối với giáo dục đại học, các trường đại học hàng đầu trên thế giới đã
đưa trợ lý ảo vào sử dụng như một cách để giúp sinh viên, nhân viên nhà trường với
những câu hỏi từ vấn đề thi tuyển đến những rắc rối liên quan đến vị trì phịng học,
khu vực đỗ xe.
Tại đại học Adelaide (Australia), trợ lý ảo được triển khai giúp sinh viên tính
tốn điểm số của họ một cách nhanh nhất. Bên cạnh đó, việc ứng dụng trợ lý ảo này
giúp nhà trường giảm 40% các cuộc gọi yêu cầu hỗ trợ của sinh viên, đồng thời giảm
đến 47% giờ làm việc dành cho việc giải đáp các thắc mắc của sinh viên. Cũng với ý
tưởng trên, đại học Deakin (Australia), đã triển khai trợ lý ảo Genie với mục đích hỗ
trợ sinh viên theo dõi lịch học, vị trí các phịng học, giảng đường. nộp bài tập. đăng
ký các lớp học. ….
Tại nhiều nơi trên thế giới, trợ lý ảo cũng đã và đang được đưa vào sử dụng
hỗ trợ người dẫn trong việc tìm kiếm thơng tin và sử dụng các dịch vụ hành chính
cơng như trợ lý ảo Los Angeles CHIP (City Hall Internet Personality) được sử dụng
tại Los Angeles giúp cho giảm tải số lượng email giải đáp các thắc mắc lên tới 50%.
hay trợ lý ảo GovBot (Botty Bon) của Đức cho phép người dân truy vấn các thông
tin, biểu mẫu cơ bản của Chính phủ, trợ lý ảo Alex được sử dụng tại văn phòng thuế
Úc hỗ trợ người dân giải đáp các thắc mắc liên quan đến thuế của họ. Đây cũng chính
là giải pháp hữu hiệu trong việc tinh gọn bộ máy của các Ban, Bộ, Ngành trên thế
giới nói chung và tại Việt Nam nói riêng..
3. Mục đích nghiên cứu
- Nghiên cứu tổng quan về chatbot;
- Nghiên cứu, phân tích, đánh giá một số phương pháp và công cụ để triển
khai xay dựng chatbot theo bằng tiếp cận dựa trên một số mơ hình học
máy và xử lý ngơn ngữ tự nhiên;
- Thử nghiệm, phân tích kết quả chatbot trên trên máy ảo.
2
4. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các công cụ dựa trên học máy và xử lý ngôn ngữ
tự nhiên, ngân hàng thông tin tư vấn tuyển sinh của ĐH Mở Hà Nội
- Phạm vi nghiên cứu: hệ thống thông tin về tuyển sinh tại Đại học Mở Hà
Nội.
5. Phương pháp nghiên cứu
Cách tiếp cận: Tiếp cận các tài liệu sẵn có ở trong nước và nước ngồi để tìm
hiểu. Tham khảo thơng tin từ các cơ quan chức năng, các trường đại học, nghiên cứu
các giải pháp, mơ hình ứng dụng trí tuệ nhân tạo trong xử lý ngôn ngữ tự nhiên để đề
xuất thiết kế mơ hình, tối ưu thuật tốn, phần mềm phù hợp nhằm xây dựng hệ thống.
Tham khảo ý kiến của các chuyên gia, cơ quan chức năng, trường đại học để hồn
thiện mơ hình thiết kế.
Phương pháp nghiên cứu, kỹ thuật sử dụng: Phân tích, đánh giá các sản phẩm
AI Chatbot tương tự trên thế giới, phương pháp và kỹ thuật xử lý ngôn ngữ tự nhiên
trên thế giới. Tham khảo ý kiến của các chuyên gia trong lĩnh vực xử lý ngơn ngữ tự
nhiên, trí tuệ nhân tạo vào xây dựng giải pháp, hoàn thiện sản phẩm. Thiết kế, phát
triển và thử nghiệm AI Chatbot từ đó đưa ra đánh giá để tối ưu và hoàn thiện sản
phẩm.
6. Đóng gói của đề tài
Đối với lĩnh vực KH&CN có liên quan. Xây dựng hệ thống AI Chatbot, mạng
từ tiếng Việt (Wordnet) có ý nghĩa quan trọng và đóng góp thực tiễn trong việc ứng
dụng Trí tuệ nhân tạo đối với lĩnh vực giáo dục tại Việt Nam. Việc đánh giá các thuật
tốn xử lý ngơn ngữ tự nhiên, từ đó làm nền tảng đánh giá, tối ưu cũng giúp cho cộng
đồng khoa học có thêm một tham chiếu so sánh nhằm hồn thiện hơn các nghiên cứu
của mình.
Đối với tổ chức chủ trì và các cơ sở ứng dụng kết quả nghiên cứu. Hệ thống
AI Chatbot thử nghiệm bước đầu có thể hỗ trợ sinh viên trong việc tra cứu và tìm
kiếm các thơng tin liên quan đến trường. Tuy nhiên, việc làm chủ công nghệ trong
việc ứng dụng trí tuệ nhân tạo trong xử lý ngơn ngữ tự nhiên cho phép phát triển AI
Chatbot ứng dụng trong các lĩnh vực khác nhau như Y tế, chăm sóc sức khoẻ, giáo
dục, dịch vụ. Điển hình như Theo số liệu thống kê của Bộ Y tế, tính đến năm 2011
Việt Nam có 1162 bệnh viện, trong đó có 39 bênh viện tuyến trung ương và 382 bệnh
viện tuyến tỉnh, có 48 bệnh viện Ngành và 132 bệnh viện tư nhân. Ngồi ra, cịn có
hơn 140.000 cở sở y tế tư nhân và dược tư nhân trên toàn quốc. Số lượt khám bệnh
ngoại trú bình quân (năm 2011) là 1,5 lượt/ đầu người/ năm, tương đương với khoảng
3
150.000.000 lượt khám bệnh ngoại trú mỗi năm trên toàn quốc. Với sự phát triển của
trí tuệ nhân tạo, việc chăm sóc sức khỏe cho người bệnh có thể được hỗ trợ bởi trợ lý
ảo, giúp giảm thiểu chi phí và thời gian chữa trị. Đầu năm 2015, ứng dụng Melody
được phát triển bởi Baidu, có khả năng trao đổi với người bệnh, thu hẹp phạm vi các
bệnh tiềm năng đẻ cung cấp cho bác sĩ. Năm 2017, Woebot được phát hành như một
huấn luyện viên về sức khỏe tinh thần, hướng tới các bệnh nhân có các triệu trứng
trầm cảm
Đối với kinh tế - xã hội, với môi trường. Có thể thấy, tiềm năng phát triển
của sản phẩm trợ lý ảo trong nhiều lĩnh vực khác nhau là rất lớn. Sau khi được xây
dựng, nhóm nghiên cứu AI Chatbot sẽ tiếp tục phát triển sản phẩm nhằm ứng dụng
rộng rãi hơn đối với các trường đại học khác. Đồng thời, sản phẩm hồn tồn có thể
được tiếp tục mở rộng để phát huy được tiềm năng ứng dụng trong các lĩnh vực khác
như Y tế, Du lịch, Thương mại.
4
CHƯƠNG I: TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU
1.1.
Giới thiệu
Hiện nay, thế giới đang có nhiều bước phát triển vượt bậc, công nghệ thông
tin ngày càng được đưa vào cuộc sống của con người nhiều hơn. Điều này tạo ra nhiều
cơ hội mới mẻ dành cho các lĩnh vực khác nhau trong đời sống xã hội con người. Tại
Việt Nam, vấn đề áp dụng các thành tựu của Khoa học – Kỹ thuật, Công nghệ Thông
tin vào đời sống nhân nhân đang được quan tâm hơn bao giờ hết.
Việc tìm kiếm thông tin tuyển sinh của các trường đại học là rất cần thiết đối
với các bạn học sinh năm cuối THPT và cha mẹ của họ diễn ra một cách thủ cơng
bằng các cơng cụ tìm kiếm trên các kênh thông tin như cổng thông tin điện tử của
trường và các diễn đàn, hội nhóm trên mạng xã hội . Điều này ngày càng trở thành
vấn đề thách thức khi cuộc sống trở nên hiện đại và bận rộn hơn. Bằng việc nghiên
cứu, triển khai và áp dụng công nghệ thơng minh, hiện đại vào q trình hỗ trợ tư vấn
tuyển sinh, nhà trường có thể giải đáp thắc mắc và cung cấp đầy đủ thông tin cho
người học một cách nhanh chóng và thuận lợi, tiết kiệm thời gian và cơng sức.
Thêm vào đó, cơng nghệ trí tuệ nhân tạo AI-Chatbot cũng dần được đưa vào
đời sống của người dân nói chung và học sinh - sinh viên nói riêng do tính tự động
và nhanh chóng của nó. Mọi người có thể tìm kiếm, giải đáp các thắc mắc thường gặp
một cách dễ dàng mà không phải chờ đợi sự giải đáp trực tiếp từ cơ quan, tổ chức.
Với những lý do trên, nội dung “Tổng quan tình hình nghiên cứu về trợ lý
ảo” đã được triển khai nhằm đưa ra và đánh giá tổng quan về tình hình các nghiên
cứu về trợ lý ảo nhằm phục vụ đề tài “Nghiên cứu xây dựng hệ thống tư vấn hỗ trợ
tuyển sinh tại trường Đại học Mở Hà Nội”.
1.2.
Tổng quan về chatbot
1.2.1.
Chatbot
Hệ thống trợ lý ảo là một hệ thống giúp con người giao tiếp với máy thực hiện
các yêu cầu, ý muốn của người dùng. Hiện nay trên thế giới hệ thống trợ lý ảo đang
được nghiên cứu và phát triển mạnh mẽ ở các tập đồn cơng nghệ hàng đầu thế giới.
Trong những năm gần đây, hệ thống trợ lý ảo đang được ứng dụng và đạt được những
kết quả rất ấn tượng trên lĩnh vực trong đời sống như Thương mại, Du lịch - Dịch vụ,
Y tế, Giáo dục - Đào tạo, …
5
Trợ lý ảo giúp cho con người tiết kiệm thời gian, chi phí thơng qua ứng dụng
trong việc chăm sóc khách hàng (tự động hóa quy trình...), hay nâng cao năng suất
lao động (các bot giúp đặt lịch...) hay thậm chí chăm sóc đời sống con người (các bot
chăm sóc sức khỏe...).
Trợ lý ảo có thể được phân loại thành 3 loại chính:
- Trợ lý ảo giữa người với người
- Trợ lý ảo giữa máy với máy
- Trợ lý ảo giữa người và máy
Đánh giá một cách tổng quát, việc phát triển các hệ thống trợ lý ảo đi theo 2
hướng chính: (i) Trực tiếp xây dựng trợ lý ảo phù hợp với tập yêu cầu cụ thể của một
đơn vị: hướng giải pháp này có tính chun biệt cao, phù hợp với các cơ quan có
nhiều yêu cầu đặc thù; (ii) Xây dựng một nền tảng chung sau đó chuyển giao cho đơn
vị, tổ chức có nhu cầu, đồng thời huấn luyện đơn vị đó sao cho họ có đủ khả năng để
tự xây dựng và quản lý các trợ lý ảo theo nhu cầu. Chiến lược này đề cao tính chủ
động của người dùng và tỏ ra linh hoạt trong quá trình xử lý, bổ sung dữ liệu.
Với hướng đi đầu tiên, trên thế giới hiện có một số trợ lý ảo như sau:
Trợ lý ảo GWYN của 1-800-Flowers được triển khai từ năm 2015 đã giúp
tổng doanh thu của cơng ty tăng 6,3%, tính đến q 1 năm 2017. Trong đó, số lượng
đơn đặt hàng thơng qua trợ lý ảo chiếm đến 70%. CEO David Barrett của
FastCompany cho biết: Việc ứng dụng trợ lý ảo Expensify: “Concierge” giúp giảm
thiểu đến 75% chi phí đầu tư cho chăm sóc khách hàng.
Trong lĩnh vực Y tế - Chăm sóc sức khỏe, việc áp dụng trợ lý ảo cũng đạt
được nhiều thành tựu. Có thể kể đến như Dr. A.I, được phát hành bởi HealthTap Cơng ty tồn cầu cung cấp dịch vụ chăm sóc sức khỏe trực tuyến cho người dùng từ
tháng 12 năm 2016. Sản phẩm này trò chuyện, kết hợp với sử dụng hồ sơ của người
dùng để đánh giá tình trạng sức khỏe của họ. Từ đó đưa ra lời khuyên hoặc kết nối
họ với bác sĩ, chuyên gia phù hợp nhất.
Trong lĩnh vực Giáo dục, việc ứng dụng trợ lý ảo cũng đã đạt được nhiều kết
quả khả quan. Đối với giáo dục đại học, các trường đại học hàng đầu trên thế giới đã
đưa trợ lý ảo vào sử dụng như một cách để giúp sinh viên, nhân viên nhà trường với
những câu hỏi từ vấn đề thi tuyển đến những rắc rối liên quan đến vị trí phịng học,
khu vực đỗ xe.
Tại đại học Adelaide (Australia), trợ lý ảo được khiển trai giúp sinh viên tính
tốn điểm số của họ một cách nhanh nhất. Bên cạnh đó, việc ứng dụng trợ lý ảo này
giúp Nhà trường giảm 40% các cuộc gọi yêu cầu hỗ trợ của sinh viên, đồng thời giảm
đến 47% giờ làm việc dành cho việc giải đáp các thắc mắc của sinh viên. Cũng với ý
6
tưởng trên, đại học Deakin (Australia), đã triển khai trợ lý ảo Genie với mục đích hỗ
trợ sinh viên theo dõi lịch học, vị trí các phịng học, giảng đường. nộp bài tập. đăng
ký các lớp học. [1] [2] [3] [4]
1.2.1.1.
Polibot
Ngồi việc hỗ trợ sinh viên trong q trình sinh hoạt, một số nền tảng trợ lý
ảo cịn có khả năng đào tạo ngoại ngữ. Poli là một trợ lý ảo chuyên dạy thành ngữ
tiếng Anh. Poli hoạt động tương tự như một cuốn từ điển số, cung cấp các thành ngữ
tiếng Anh phổ biến kèm theo hình minh họa dễ nhớ để người dùng có hứng thú học
hỏi hơn. Một số tính năng khi tương tác với người dùng của Poli [5]:
-
Cung cấp các thành ngữ tiếng Anh
Xem định nghĩa
Xem các ví dụ về cách dùng
Hình 1.1: Trợ lý ảo Poli
1.2.1.2.
Sally
Cùng được sáng lập bởi Airpoli như Poli Bot, trợ lý ảo Sally được xây dựng
để người dùng hiểu hơn về các cụm động từ trong tiếng Anh. Các tính năng của Sally
đáp ứng các yêu cầu sau [6]:
-
Học cụm động từ mới
Định nghĩa cụm từ đã cho
Đưa ví dụ liên quan đến cụm từ đã cho
Đưa cụm từ đã cho áp dụng vào đoạn hội thoại
7
Hình 1.2: Trợ lý ảo Sally
1.2.1.3.
Alexa và Google Assistant
Trong lĩnh vực Smarthome, 2 sản phẩm nổi tiếng nhất là Alexa của Amazon
và Google Assistant [7].
Hình 1.3: Google Assitant
Hình 1.4 Amazon Echo - IoT Client của trợ lý ảo Alexa
8
1.2.1.4.
Cortana và Siri
Ngồi ra có 2 trợ lý ảo được tích hợp trực tiếp lên hệ điều hành đó là Siri
trên iOS, mac OS của Apple và Cortana trên nền tảng Windows của Microsoft.
Hình 1.5 Trợ lý ảo Cortana trên Windows 10
Bên cạnh các trợ lý ảo chuyên biệt, các tập đồn cơng nghệ cũng phát triển
những nền tảng tổng quan để người dùng chủ động trong việc tự xây dựng trợ lý ảo
của riêng mình theo cách đơn giản nhất.
1.2.1.5.
Google Dialog Flow
Trong Dialogflow, việc hiểu ngữ nghĩa của câu hỏi được tiến hành dựa trên bộ
từ khóa và hồn cảnh câu hỏi. Yếu tố quan trọng nhất để Trợ lý ảo xây dựng trên nền
tảng Dialogflow có thể nói chuyện giống con người nhất nằm ở cơ chế xác định intent
và xử lý fulfillment của nền tảng này [8].
Hình 1.6 Mơ hình tổng quan của Dialogflow
9
1.2.1.6.
Pandora bots
Nền tảng pandorabots dựa trên ngôn ngữ AIML để xây dựng các tập luật và
ngữ cảnh phù hợp trong quá trình giao tiếp với người dùng. Các kỹ thuật xử lý ngôn
ngữ tự nhiên chưa được áp dụng triệt để trong nền tảng Pandorabots nền người sử
dụng phải chủ động hồn tồn trong q trình xây dựng nội dung trợ lý ảo của riêng
mình.
Hình 1.7 Giao diện cơ bản của Pandorabot
Ở Việt Nam, trong những năm gần đây, dựa trên nhu cầu thị trường kết hợp
với nền tảng khoa học cơng nghệ sẵn có, một số tập đồn, đơn vị đã xây dựng thành
công một số nền tảng trợ lý ảo, điển hình gồm có: bot bán hàng, harafunel,…
1.2.1.7.
Trợ lý ảo FPT AI
Một đặc điểm chung đáng chú ý là phần lớn các nền tảng trợ lý ảo đang được
sử dụng tại Việt Nam lựa chọn mơ hình trợ lý ảo dựa trên cơ chế tìm kiếm theo từ
khóa hoặc xây dựng trước kịch bản tương tác. Giải pháp này không quá phức tạp về
cả học thuật lẫn kỹ thuật cũng như dễ dàng xây dựng và triển khai, đồng thời có thể
giải quyết đủ yêu cầu của người dùng. Tuy nhiên các giải pháp này tồn tại 3 nhược
điểm lớn: (i) Bộc lộ nhiều hạn chế trong việc xử lý cú pháp, ngữ nghĩa và khả năng
"hiểu" câu hỏi của trợ lý ảo; (ii) Nội dung trao đổi giữa trợ lý ảo và người dùng chỉ
giới hạn ở việc cung cấp thơng tin. Trợ lý ảo chưa có khả năng giúp người dùng tự
động thực hiện một số thao tác phức tạp hơn, ví dụ: thanh tốn trực tuyến, tự động
đặt lịch; (iii) Chưa tận dụng được dữ liệu của người dùng cung cấp do chưa chú trọng
xây dựng các mơ-đun thu thập, tinh lọc, phân tích dữ liệu người dùng để đưa ra các
số liệu tổng hợp cũng như ứng dụng trí tuệ nhân tạo trên bộ dữ liệu thu thập được để
dự đoán xu thế trong tương lai cũng như chủ động tương tác, gợi ý cho người sử dụng
những thông tin phù hợp [9].
10
Hình 1.8 Giao diện cơ bản của Trợ lý ảo FPT
Theo thống kê sơ bộ năm 2018 của Domo và IBM [10], mỗi ngày người dùng
Internet tạo ra lượng dữ liệu có kích thước khoảng 2500 tỷ GB dữ liệu, tồn tại ở cả
dạng có cấu trúc và phi cấu trúc, trong đó có 265 triệu yêu cầu hỗ trợ của khách hàng
và doanh nghiệp phải tiêu tốn 1.3 tỷ USD để xử lý các yêu cầu đó. Lượng dữ liệu
khổng lồ này phản ánh một cách chân thực nhất về đặc điểm và xu hướng của người
sử dụng Internet. Việc xử lý và trích xuất những thơng tin q giá từ nguồn dữ liệu
trên phục vụ cho quá trình hoạch định chiến lược và đưa ra các chính sách hợp lý,
đảm bảo sự phát triển bền vững là mối quan tâm hàng đầu của các cơ quan, tổ chức.
Bên cạnh đó, với số lượng người dùng và các yêu cầu hỗ trợ ngày càng gia tăng, việc
tiếp tục duy trì ngân sách cho bộ phận hỗ trợ khách hàng thông qua tư vấn viên dần
trở thành gánh nặng tài chính. Do đó, tự động hóa hồn tồn quy trình giao tiếp, hỗ
trợ khách hàng cũng là một vấn đề được các doanh nghiệp tập trung xử lý.
Tại Việt Nam, mặc dù có nhiều đơn vị cung cấp giải pháp trợ lý ảo, tuy nhiên
các giải pháp này thường tập trung vào lĩnh vực kinh doanh và chăm sóc khách hàng.
Hầu như chưa có đơn vị nào triển khai trợ lý ảo phục vụ học sinh - sinh viên.
Do những yêu cầu đặc thù trong lĩnh vực giáo dục, việc ứng dụng trí tuệ nhân
tạo, cụ thể là các kỹ thuật xử lý ngôn ngữ tự nhiên, trong xây dựng nền tảng trợ lý ảo
là giải pháp tối ưu nhất để giải quyết được các yêu cầu và thắc mắc của học sinh sinh viên một cách tối ưu, đồng thời khắc phục triệt để các hạn chế của những nền
tảng trợ lý ảo hiện đang được sử dụng tại Việt Nam.
1.2.2. Tổng quan về ngôn ngữ tự nhiên
1.2.2.1. Ngôn ngữ tự nhiên và xử lý ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên là ngôn ngữ dùng cho việc giao tiếp giữa các sinh vật
bằng nhiều hình thức khác nhau (qua môi trường âm thanh hoặc quang học), khác
với ngôn ngữ nhân tạo là ngôn ngữ do con người tạo ra để giao tiếp với máy móc.
11
Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang
dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử. Đặc điểm
chính của các kiểu dữ liệu này là khơng có cấu trúc hoặc nửa cấu trúc (non-structured
hoặc semi-structured) và chúng không thể lưu trữ trong các khuôn dạng cố định như
các bảng biểu. Theo đánh giá của Oracle, hiện có đến 80% dữ liệu khơng cấu trúc
trong lượng dữ liệu của lồi người đang có. Với sự ra đời và phổ biến của Internet,
của sách báo điện tử, của máy tính cá nhân, của viễn thơng, của thiết bị âm thanh, …
người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói. [11]
Xử lý ngơn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo (AI), tập trung vào
các kỹ thuật, phương pháp thao tác trên ngôn ngữ tự nhiên bằng máy tính, bao gồm
02 quan điểm cơ bản: (i) Xử lý văn bản ngơn ngữ tự nhiên bằng máy tính; (ii) Làm
cho máy tính hiểu được các văn bản ngơn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là một kỹ thuật quan trọng nhằm giúp máy tính hiểu
được ngơn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con
người thực hiện một phần hoặc tồn bộ những cơng việc có liên quan đến ngơn ngữ
như: dịch thuật, phân tích - tổng hợp dữ liệu văn bản, nhận dạng tiếng nói.
Xử lý ngơn ngữ tự nhiên ra đời từ những năm 1940, với rất nhiều cơng trình
nghiên cứu theo hai hướng chính là: (i) ơ-tơ-mát (automation) và các mơ hình xác
suất vào những năm 1950; (ii) các phương pháp dựa trên ký hiệu (symbolic) và các
phương pháp ngẫu nhiên (stochastic) vào những năm 1970.
Một số ứng dụng của xử lý ngôn ngữ tự nhiên gồm có:
Truy xuất thơng tin (Information Retrieval – IR) có nhiệm vụ tìm các tài liệu
dưới dạng khơng có cấu trúc (thường là văn bản) đáp ứng nhu cầu về thông tin từ
những nguồn tổng hợp lớn. Những hệ thống truy xuất thông tin phổ biến nhất bao
gồm các công cụ tìm kiếm như Google, Yahoo, hoặc Bing search. Những cơng cụ
này cho phép tiếp nhận một câu truy vấn dưới dạng ngôn ngữ tự nhiên làm đầu vào
và cho ra một danh sách các tài liệu được sắp xếp theo mức độ phù hợp.
Trích chọn thơng tin (Information Extraction) nhận diện một số loại thực thể
được xác định trước, mối quan hệ giữa các thực thể và các sự kiện trong văn bản ngôn
ngữ tự nhiên. Khác với truy xuất thông tin trả về một danh sách các văn bản hợp lệ
thì trích chọn thơng tin trả về chính xác thơng tin mà người dùng cần. Những thơng
tin này có thể là về con người, địa điểm, tổ chức, ngày tháng, hoặc thậm chí tên cơng
ty, mẫu sản phẩm hay giá cả.
Trả lời câu hỏi (QA) có khả năng tự động trả lời câu hỏi của con người ở dạng
ngôn ngữ tự nhiên bằng cách truy xuất thông tin từ một tập hợp tài liệu. Một hệ thống
QA đặc trưng thường bao gồm ba mô đun: Mô đun xử lý truy vấn (Query Processing
12
Module) – tiến hành phân loại câu hỏi và mở rộng truy vấn. Mô đun xử lý tài liệu
(Document Processing Module) – tiến hành truy xuất thơng tin để tìm ra tài liệu thích
hợp và mơ hình xử lý câu trả lời (Answer Processing Module) – trích chọn câu trả lời
từ tài liệu đã được truy xuất.
Tóm tắt văn bản tự động là bài toán thu gọn văn bản đầu vào để cho ra một
bản tóm tắt ngắn gọn với những nội dung quan trọng nhất của văn bản gốc. Có hai
phương pháp chính trong tóm tắt, là phương pháp trích xuất (extracting) và phương
pháp tóm lược ý (abstracting). Những bản tóm tắt trích xuất được hình thành bằng
cách ghép một số câu được lấy y nguyên từ văn bản cần thu gọn. Những bản tóm lược
ý thường truyền đạt những thơng tin chính của đầu vào và có thể sử dụng lại những
cụm từ hay mệnh đề trong đó, nhưng nhìn chung được thể hiện ở ngơn ngữ của người
tóm tắt.
Dịch máy (Machine translation – MT) là việc sử dụng máy tính để tự động
hóa một phần hoặc tồn bộ q trình dịch từ ngơn ngữ này sang ngơn ngữ khác. Các
phương pháp dịch máy phổ biến bao gồm dịch máy dựa trên ví dụ (example-based
machine translation – EBMT), dịch máy dựa trên luật (rule-based machine
translation – RBMT), và dịch máy thống kê (statistical machine translation – SMT).
Những nghiên cứu gần đây tập trung vào dịch máy thống kê bởi nhiều ưu điểm của
nó so với các phương pháp khác. Dịch dựa trên từ (word-based translation), dịch dựa
trên cú pháp (syntax-based translation), dịch dựa trên cụm từ (phrase-based
translation), và dịch dựa trên cụm từ phân cấp (hierarchical phrase-based
translation) là những mơ hình dịch máy thống kê thành cơng nhất.
Xử lý ngơn ngữ tự nhiên trên máy tính là một trong những vấn đề khó nhất
của cơng nghệ thơng tin nói chung và trí tuệ nhân tạo nói riêng. Cái khó nằm ở chỗ
làm sao cho máy được hiểu ngơn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi
hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. [12]
1.2.2.2.
Yêu cầu khi xây dựng trợ lý ảo có khả năng giao tiếp
Một trợ lý ảo có khả năng giao tiếp với sinh viên dựa trên nội dung là các
thông tin liên quan đến trường đại học sẽ đáp ứng được các nhiệm vụ sau:
1) Về kênh tương tác và hình thức tương tác: Có khả năng tương tác trực tiếp
với sinh viên bằng văn bản thông qua các thiết bị cá nhân như máy tính/máy tính
bảng/điện thoại thơng minh
2) Về nội dung tương tác: (i) Hiểu nội dung yêu cầu của sinh viên; (ii) Xử lý
yêu cầu của sinh viên đầy đủ, chính xác, nhanh chóng, tối ưu nhất; (iii) Phản hồi lại
yêu cầu của sinh viên một cách đầy đủ, qua nhiều kênh thông tin khác nhau; (iv) Thu
thập đầy đủ thông tin được cung cấp bởi sinh viên; (v) Phân tích, tổng hợp các thông
13
tin được cung cấp để đưa ra các số liệu thống kê và dự báo tình hình; (vi) Đảm bảo
tính sẵn sàng, toàn vẹn và bảo mật cho dữ liệu sinh viên
Trong quá trình trợ lý ảo giao tiếp và hỗ trợ tư vấn tuyển sinh kết quả thu
được từ nhiệm vụ "hiểu nội dung yêu cầu của người học" ảnh hưởng trực tiếp và toàn
diện tới tất cả quá trình xử lý ở các bước sau, vì vậy yêu cầu quan trọng nhất là thu
thập và phân loại chính xác nội dung trao đổi ở giai đoạn này. Mặt khác, do dữ liệu
trao đổi giữa người học và trợ lý ảo tồn tại dưới dạng văn bản tiếng Việt nên để đảm
bảo độ chính xác trong thu thập và phân loại thông tin, việc áp dụng các kỹ thuật xử
lý ngôn ngữ tự nhiên ở giai đoạn này là yếu tố bắt buộc..
1.3.
Bài toán và thuật toán xử lý ngơn ngữ tự nhiên
1.3.1.
Bài tốn
Xét một cách tổng quan, để giải quyết các bài toán liên quan đến xử lý văn
bản cần xem xét và xử lý theo các tầng sau:
1) Tầng ngữ âm - phonetic, phonological layer: nghiên cứu về ngữ âm, mơ
hình hóa các từ, cách phát âm, thanh điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến
thanh. Tiếng Việt là ngôn ngữ thanh điệu, mọi âm tiết của tiếng Việt luôn mang một
thanh điệu nhất định. Do các thanh điệu của tiếng Việt trong văn bản được biểu thị
bằng các dấu thanh, hay còn gọi là dấu, nên một số người quen gọi các thanh điệu
của tiếng Việt là "dấu". Có sự khác biệt về số lượng thanh điệu và điệu trị của thanh
điệu giữa các phương ngơn của tiếng Việt, thanh điệu có tên gọi giống nhau không
đồng nghĩa với việc chúng sẽ được phát âm giống nhau trong mọi phương ngôn của
tiếng Việt. Phương ngơn tiếng Việt Bắc bộ có 06 thanh điệu, phương ngơn tiếng Việt
Trung Bộ và Nam Bộ có năm thanh điệu. Thanh điệu chuẩn của tiếng Việt gồm 6
thanh: ngang sắc, huyền, hỏi, ngã, nặng nhưng lại thiếu quy định cụ thể về việc lấy
cách phát âm trong phương ngôn nào của tiếng Việt làm cách phát âm tiêu chuẩn cho
các thanh điệu này.
2) Tầng hình thái - morphological layer: nghiên cứu về thành phần có nghĩa
của từ, cấu tạo của từ. Việc xử lý tốt tầng hình thái của tiếng Việt góp phần làm giảm
đáng kể sự nhập nhằng ngữ nghĩa trong q trình phân tích văn bản.
3) Tầng ngữ pháp - grammatical layer: nghiên cứu về các quan hệ cấu trúc
giữa các từ trong câu để tạo ra câu đúng. Giống như nhiều ngôn ngữ khác tại Đông
Nam Á, tiếng Việt là ngôn ngữ đơn lập. Các quan hệ ngữ pháp được thể hiện chủ yếu
thông qua hệ thống hư từ và cách sắp xếp trật tự từ trong câu. Trật tự từ thông dụng
nhất trong tiếng Việt là SVO: chủ ngữ - vị ngữ - phụ ngữ. Vị trí các từ được sắp xếp
theo thứ tự, tự mang ý chính đứng trước từ mang ý phụ đứng sau, bổ sung nghĩa cho
từ mang ý chính, tương tự như danh từ đứng trước tính từ đứng sau bổ sung nghĩa
14
cho danh từ. Tiếng Việt cũng có hệ thống đại từ nhân xưng phức tạp dựa trên các từ
ngữ chỉ quan hệ thân thuộc và hệ thống danh từ đơn vị. Có nhiều bài tốn quan trọng
ở tầng ngữ pháp cần phải giải quyết, gồm có: (i) Xác định từ loại - part of speech
tagging; (ii) Xác định cụm từ - chunking; (iii) Phân tích cú pháp - parsing
4) Tầng ngữ nghĩa - semantic layer: nghiên cứu xác định nghĩa của từ và tổ
hợp của chúng.
5) Tầng ngữ dụng - pragmatic layer: nghiên cứu mối quan hệ giữa ngôn ngữ
và ngữ cảnh sử dụng ngơn ngữ.
Trong một bài tốn về xử lý ngơn ngữ, việc phân tích ở các tầng từ ngữ âm
(1) đến ngữ pháp (3) gọi là phân tích sơ bộ (shallow parsing), thường áp dụng trong
bài tốn tìm kiếm thơng tin, phân tích văn bản, tổng hợp văn bản. Những bài toán đi
sâu vào ngữ nghĩa như dịch máy thì cần phân tích đầy đủ (fully parsing) đến tầng ngữ
nghĩa và ngữ dụng. Trong các vấn đề của xử lý ngơn ngữ, có vấn đề cần đến phân
tích đầy đủ (như dịch tự động), nhưng cũng có những vấn đề chỉ với phân tích sơ bộ
cũng có thể đã xử lý được.
Do đặc thù yêu cầu áp dụng cho giai đoạn phân loại thông tin trao đổi giữa
sinh viên và trợ lý ảo chỉ dừng ở mức phân tích, phân loại văn bản nên sử dụng nhóm
các kỹ thuật shallow parsing là tối ưu về mặt kết quả và phạm vi tính tốn trong
trường hợp này. [13] [14]
1.3.2.
Mơ hình
Hình 1.9: Mơ hình tổng quan
15
Với 3 tác nhân chính là người sử dụng, người hỗ trợ và quản trị viên, nền tảng
kỹ thuật và các bước thực hiện gồm:
Hình 1.10: Sơ đồ luồng xử lý
Mơ đun NLP: đóng vai trị biến đổi các câu hỏi thành dạng đầu vào phù hợp
và tiến hành phân loại câu hỏi theo chủ đề và/hoặc ngữ cảnh.
Mô đun xác định entities (thực thể): sau khi xác định chủ đề/ngữ cảnh của
câu hỏi, mô đun này được dùng để tìm kiếm các thơng tin hữu ích phục vụ việc lựa
chọn câu trả lời phù hợp. Đối với mỗi nhãn ngữ cảnh, trợ lý ảo được cung cấp một
bộ luật riêng để trích lọc những thơng tin cần thiết. Để làm được việc này, mô đun
xác định entities gồm 2 cấu phần con: (i) Phân tách câu hỏi thành các từ, cụm từ có
nghĩa và loại bỏ các từ khơng cần thiết; (ii) So khớp các từ, cụm từ có nghĩa với bộ
từ điển và bộ luật được xây dựng cho mỗi ngữ cảnh và để xác minh tính đầy đủ của
thông tin cung cấp cho người sử dụng. Nếu các thông tin thu thập chưa đáp ứng đủ
cho việc xây dựng câu trả lời, trợ lý ảo sẽ tự động hỏi lại các thơng tin cịn thiếu tương
ứng.
Mơ đun trả lời với AIML: trợ lý ảo được cung cấp nền tảng trả lời tự động
dựa trên ngôn ngữ AIML đã được tùy chỉnh để phù hợp với yêu cầu nghiệp vụ. Cụ
thể, các tính năng hiện có trong AIML 2 chưa cho phép liên kết ngữ cảnh linh hoạt
của một đoạn hội thoại, đặc biệt là tiếng Việt. Để giải quyết vấn đề này, nhóm tác giả
đã tùy chỉnh và bổ sung một số tính năng để trợ lý ảo hoạt động hiệu quả trong môi
trường giao tiếp tiếng Việt.
1.3.3.
Phân loại văn bản
Phân loại văn bản (text classification) là một bài tốn xử lý ngơn ngữ tự nhiên
dưới dạng văn bản và gắn liền với kỹ thuật phân loại trong lĩnh vực học máy (Machine
16
Learning). Kỹ thuật phân loại trong học máy gồm 02 nhánh là phân loại nhị phân và
đa lớp. Đối với bài toán phân loại văn bản cho trợ lý ảo, do nội dung đầu vào thuộc
nhiều chủ đề khác nhau nên nhiệm vụ này tương đồng với giải quyết bài tốn phân
loại đa lớp.
Các mơ hình phân lớp tuyến tính (linear classifier) thường được sử dụng để
giải quyết bài toán phân loại văn bản. Ngồi tính đơn giản, các mơ hình tuyến tính
này có tiềm năng đạt được tốc độ huấn luyện tối ưu trên các tập dữ liệu lớn cũng như
tốc độ thực thi tương đương mạng nơ-ron. Tuy nhiên ưu điểm này chỉ đạt được khi
lựa chọn đúng đặc trưng để huấn luyện. Ngồi ra, các mơ hình tuyến tính bộc lộ nhiều
nhược điểm khi thực hiện bài tốn phân loại đa lớp. Do đặc tính khơng chia sẻ các
tham số giữa các đặc trưng và lớp nên trong trường hợp phân loại đa lớp mà một vài
lớp có q ít mẫu thì tính khái qt của các mơ hình tuyến tính sẽ bị giới hạn đáng
kể. Bên cạnh đó, khi số lượng lớp quá lớn, việc huấn luyện và thực thi mơ hình tuyến
tính tiêu tốn nhiều tài nguyên do phải tính đầy đủ xác suất các lớp cho tất cả dữ liệu
(độ phức tạp O(kh)) [15] [16].
Một số mơ hình phân loại văn bản phổ biến dựa trên các phương pháp học
máy/học sâu cơ bản gồm có [17]:
Rocchio classification: Phiên bản đầu tiên của thuật tốn Rocchio được
rocchio giới thiệu vào năm 1971 để sử dụng phản hồi liên quan trong truy vấn cơ sở
dữ liệu tồn văn. Kể từ đó, nhiều nhà nghiên cứu đã giải quyết và phát triển kỹ thuật
này để phân loại văn bản và tài liệu. Phương pháp này sử dụng trọng số TF-IDF cho
mỗi từ thơng tin thay vì một bộ các đặc trưng nhị phân. Sử dụng một tập văn bản
huấn luyện, thuật toán của Rocchio xây dựng một vectơ nguyên mẫu cho mỗi lớp là
một vectơ trung bình trên tất cả các vectơ huấn luyện thuộc về một lớp nhất định. Sau
đó, nó sẽ gán từng văn bản kiểm thử cho một lớp có độ tương tự tối đa giữa tài liệu
thử nghiệm và từng vectơ nguyên mẫu. Giá trị F1 trung bình của Rocchio classifier
là 67%.
Boosting: Boosting là một thuật toán dùng để giảm phương sai trong học
máy có giám sát. Về cơ bản, nó là một nhóm các thuật tốn học máy giúp chuyển đổi
những người mơ hình học yếu thành mơ hình mạnh hơn. Thuật toán Boosting dựa
trên câu hỏi được đặt ra bởi Michael Kearns và Leslie Valiant (1988, 1989): Một tập
hợp những mô hình học máy yếu có thể tạo ra một mơ hình học mạnh hơn khơng?
Một mơ hình học máy yếu tương đương với kết quả gắn nhãn của mơ hình này thấp
hơn. Bộ phân loại văn bản sử dụng thuật tốn Boosting có giá trị F1 trung bình là
77%.
Naive Bayes: phương pháp này đã được sử dụng trong ngành công nghiệp
và học viện trong một thời gian dài (được Thomas Bayes giới thiệu trong khoảng thời
17