Tải bản đầy đủ (.pdf) (88 trang)

Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.56 MB, 88 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
-----------------------------------

NGUYỄN TRUNG HIẾU

XÂY DỰNG HỆ THỐNG HỎI ĐÁP
TRỰC TUYẾN BẰNG PHƯƠNG PHÁP
MÁY HỌC ĐỂ TỰ ĐỘNG HĨA
QUY TRÌNH TIẾP NHẬN CÂU HỎI
ÁP DỤNG CHO CHÍNH QUYỀN
ĐỊA PHƯƠNG TỈNH TÂY NINH

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
--------------------------------------

NGUYỄN TRUNG HIẾU

XÂY DỰNG HỆ THỐNG HỎI ĐÁP
TRỰC TUYẾN BẰNG PHƯƠNG PHÁP
MÁY HỌC ĐỂ TỰ ĐỘNG HĨA
QUY TRÌNH TIẾP NHẬN CÂU HỎI
ÁP DỤNG CHO CHÍNH QUYỀN
ĐỊA PHƯƠNG TỈNH TÂY NINH
Chuyên ngành: Hệ thống thông tin
Mã số:


8.48.01.04

ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. TRẦN CÔNG HÙNG

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


i

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các các số liệu, kết quả nêu trong đề án tốt nghiệp là trung thực và chưa từng
được ai cơng bố trong bất kỳ cơng trình nào khác.
Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Nguyễn Trung Hiếu


ii

LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS. Trần Công Hùng,
người thầy đã tận tâm và nhiệt tình trong việc hướng dẫn và động viên tơi suốt q
trình thực hiện đề án. Sự hỗ trợ của người thầy giúp tơi định hướng và hồn thành
mục tiêu nghiên cứu.
Tôi xin gửi lời tri ân đến quý Thầy, Cô khoa Đào tạo Sau đại học, Học viện

Cơng nghệ Bưu chính Viễn thơng cơ sở thành phố Hồ Chí Minh, đã đồng hành
và tận tình giảng dạy và hỗ trợ tôi suốt thời gian học tập và nghiên cứu.
Tôi xin cảm ơn lãnh đạo Sở Thông tin và Truyền Thông tỉnh Tây Ninh đã
cho phép tôi sử dụng dữ liệu của tỉnh và tạo điều kiện thuận lợi cho tơi trong q trình
học tập và nghiên cứu.
Tơi cũng xin gửi lời cảm ơn đến tất cả đồng nghiệp đã động viên, hỗ trợ và
đóng góp những ý kiến q báu giúp tơi hồn thiện nghiên cứu này.
Tp. Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án

Nguyễn Trung Hiếu


iii

MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................i
LỜI CẢM ƠN ............................................................................................................ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ...........................................vi
DANH SÁCH BẢNG ..............................................................................................vii
DANH SÁCH HÌNH VẼ ....................................................................................... viii
MỞ ĐẦU .................................................................................................................... 1
1. Lý do chọn đề án ............................................................................................... 1
2. Tổng quan vấn đề nghiên cứu .......................................................................... 2
3. Mục tiêu nghiên cứu.......................................................................................... 3
4. Đối tượng và phạm vi nghiên cứu .................................................................... 4
5. Phương pháp nghiên cứu.................................................................................. 5
CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU...................................... 7
1.1. Tổng quan về Cổng hỏi đáp trực tuyến........................................................ 7

1.2. Các cơng trình nghiên cứu trên thế giới .................................................... 12
1.3. Các cơng trình nghiên cứu trong nước ...................................................... 14
CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT ................................................................... 15
2.1. Tổng quan về AI và Machine Learning ..................................................... 15
2.2. Phương pháp biểu diễn dữ liệu ................................................................... 16
2.2.1. Phương pháp Tf-idf Vector ..................................................................... 16
2.2.2. Phương pháp Count Vectorization .......................................................... 17


iv

2.2.3. Phương pháp FastText ............................................................................ 18
2.3. Các phương pháp phân lớp ......................................................................... 18
2.3.1. Phân lớp với Support Vector Machines (SVM) ....................................... 20
2.3.2. Phân lớp với Naive Bayes ....................................................................... 22
2.3.3. Phân lớp với k-Nearest Neighbors (k-NN) .............................................. 25
CHƯƠNG 3 - ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ .................. 28
3.1. Mô hình thực nghiệm bài tốn .................................................................... 28
3.2. Thu thập dữ liệu ........................................................................................... 29
3.3. Chuẩn hóa dữ liệu ........................................................................................ 30
3.4. Các bước thực hiện ...................................................................................... 33
CHƯƠNG 4 - KẾT QUẢ THỰC NGHIỆM ...................................................... 35
4.1. Môi trường và dữ liệu thực nghiệm ............................................................ 35
4.1.1. Môi trường thực nghiệm ......................................................................... 35
4.1.2. Dữ liệu thực nghiệm ................................................................................ 35
4.1.3. Chuẩn hóa dữ liệu ................................................................................... 37
4.1.4. Huấn luyện dữ liệu .................................................................................. 40
4.2. Kết quả thực nghiệm .................................................................................... 40
4.2.1. Kết quả mơ hình Support Vector Machine .............................................. 40
4.2.1.1. Phương pháp Tf-idf .......................................................................... 40

4.2.1.2. Phương pháp CountVectorizer ......................................................... 43
4.2.1.3. Phương pháp Fasttext ....................................................................... 46
4.2.2. Kết quả mơ hình Naive Bayes ................................................................. 48


v

4.2.2.1. Phương pháp Tf-idf .......................................................................... 48
4.2.2.2. Phương pháp CountVectorizer ......................................................... 51
4.2.2.3. Phương pháp Fasttext ....................................................................... 53
4.2.3. Kết quả mơ hình K-NN ............................................................................ 56
4.2.3.1. Phương pháp Tf-idf .......................................................................... 56
4.2.3.2. Phương pháp CountVectorizer ......................................................... 59
4.2.3.3. Phương pháp Fasttext ....................................................................... 61
4.2.4. Kết quả tổng hợp ..................................................................................... 64
4.3. Kết luận thực nghiệm................................................................................... 65
KẾT LUẬN .............................................................................................................. 66
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 68


vi

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
VIẾT TẮT
AI

TIẾNG ANH

TIẾNG VIỆT


Artificial intelligence

Trí tuệ nhân tạo

Convolutional Neural Networks

Mạng nơ ron tích chập

DL

Deep Learning

Học sâu

DT

Decision Tree

Cây quyết định

IDF

Inverse Document Frequency

Tần suất nghịch đảo của một từ
trong tập văn bản.

IE

Information Extraction


Trích xuất thơng tin

IR

Information Retrieval

Tìm kiếm và truy xuất thơng tin

KNN

K-Nearest Neighbor

Thuật tốn K-Nearest Neighbor

LR

Logistic Regression

Hồi quy Logistic

ML

Machine Learning

Học máy

NB

Naive Bayes


Thuật toán Naive Bayes

RF

RandomForest Classifier

Trình phân loại rừng ngẫu nhiên

RNN

Recurrent Neural Networks

Mạng thần kinh hồi quy

SVM

Support Vector Machine

Máy vector hỗ trợ

Term Frequency

Tần số xuất hiện của văn bản

CNN

TF



vii

DANH SÁCH BẢNG
Bảng 4.1: Nguồn dữ liệu thực nghiệm ...................................................................... 35
Bảng 4.2: Thống kê số lượng câu hỏi sau khi chuẩn hóa theo đơn vị ...................... 37
Bảng 4.3: Chia tập dữ liệu huấn luyện ...................................................................... 40
Bảng 4.4: Kết quả mô hình SVM sử dụng TF-IDF .................................................. 40
Bảng 4.5: Kết quả mơ hình SVM sử dụng CountVectorizer .................................... 43
Bảng 4.6: Kết quả mơ hình SVM sử dụng Fasttext .................................................. 46
Bảng 4.7: Kết quả mơ hình Naive Bayes sử dụng TF-IDF ....................................... 48
Bảng 4.8: Kết quả mơ hình Navie Bays sử dụng CountVectorizer .......................... 51
Bảng 4.9: Kết quả mơ hình Navie Bays (GaussianNB) sử dụng Fasttext ................ 54
Bảng 4.10: Kết quả mô hình K-NN sử dụng Tf-idf .................................................. 56
Bảng 4.11: Kết quả mơ hình K-NN sử dụng CountVectorizer ................................. 59
Bảng 4.12: Kết quả mơ hình k-NN sử dụng FastText .............................................. 61
Bảng 4.13: Kết quả tổng hợp .................................................................................... 64


viii

DANH SÁCH HÌNH VẼ
Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh.......................................... 8
Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp ............................ 9
Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp .............................. 10
Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời ................... 11
Hình 2.1: Mơ hình SVM ........................................................................................... 21
Hình 2.2: Mơ hình phân lớp Naive Bayes ................................................................. 24
Hình 2.3: Mơ hình k-NN (k-Nearest Neighbors) ...................................................... 25
Hình 3.1: Mơ hình thực nghiệm ................................................................................ 28
Hình 3.2: Câu hỏi đã được trả lời trên trang hỏi đáp ................................................ 30

Hình 3.3: Câu hỏi có nội dung gây cho việc phân loại sai ........................................ 31
Hình 3.4: Hai bảng mã khác nhau, việc so sánh khác nhau ...................................... 31
Hình 3.5: Kết quả sau xử lý kiểu gõ .......................................................................... 32
Hình 3.6: Kết quả tách từ .......................................................................................... 32
Hình 3.7: Kết quả loại bỏ từ khơng có nghĩa ............................................................ 32
Hình 4.1: Ma trận nhầm lẫn SVM sử dụng Tf-idf .................................................... 43
Hình 4.2: Ma trận nhầm lẫn SVM sử dụng CountVectorizer ................................... 45
Hình 4.3: Ma trận nhầm lẫn SVM sử dụng Fasttext ................................................. 48
Hình 4.4: Ma trận nhầm lẫn mơ hình Naive Bayes sử dụng Tf-idf .......................... 50
Hình 4.5: Ma trận nhầm lẫn mơ hình Naive Bayes sử dụng CountVectorizer ......... 53
Hình 4.6: Ma trận nhầm lẫn mơ hình Naive Bayes sử dụng Fasttext ....................... 56
Hình 4.7: Ma trận nhầm lẫn mơ hình KNN sử dụng Tf-idf ...................................... 58
Hình 4.8: Ma trận nhầm lẫn mơ hình KNN sử dụng CountVectorizer ..................... 61
Hình 4.9: Ma trận nhầm lẫn mơ hình k-NN sử dụng Fasttext .................................. 63
Hình 4.10: Kết quả phân loại của câu 1 .................................................................... 65
Hình 4.11: Kết quả phân loại của câu 2 .................................................................... 65


1

MỞ ĐẦU
1. Lý do chọn đề án
Hiện nay với sự bùng nổ cơng nghệ thì việc người dùng tiếp cận kho dữ liệu
khổng lồ là rất dễ dàng và nhanh chóng. Tuy nhiên các thơng tin nhận được khơng
chính thống tồn tại vấn nạn tin rác, tin giả tràn lan làm ảnh hưởng rất lớn đến hoạt
động của cơ quan, tổ chức, người dùng. Trong giai đoạn hiện nay, các ngành, lĩnh
vực, đặc biệt là trong các cơ quan Nhà nước đang tiến hành chuyển đổi số để chuẩn
hóa quy trình, số hóa dữ liệu đầu vào, tự động hóa quy trình giải quyết thủ tục hành
chính theo hướng nhanh, chính xác tạo sự tiện lợi cho người dân. Đồng thời, việc ứng
dụng cơng nghệ trí tuệ nhân tạo (AI), xử lý ngơn ngữ tự nhiên, các cơng nghệ tìm

kiếm và truy xuất thơng tin (IR), trích xuất thơng tin (IE) vào các hệ thống hỏi đáp
trực tuyến nhằm tăng tốc độ phản hồi, trả về các thông tin hữu ích cho người dùng…
rất phổ biến.
Trong bối cảnh đó, Sở Thông tin và Truyên thông đã xây dựng hệ thống hỏi
đáp trực tuyến tỉnh Tây Ninh tại địa chỉ nhằm giải đáp
mọi thắc mắc của người dân trên địa bàn tỉnh Tây Ninh. Tuy nhiên, với số lượng lớn
câu hỏi được gửi về, đòi hỏi phải bộ phận quản trị tinh chỉnh hình thức và phân loại
thủ cơng theo các lĩnh vực đến cơ quan chuyên môn phụ trách xử lý, gây rất nhiều
khó khăn về thời gian, nhân sự cũng như chất lượng của hệ thống. Chính vì vậy, tôi
chọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phương
pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính
quyền địa phương tỉnh Tây Ninh” với mục tiêu là tiết kiệm được nhân lực và thời
gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn
tỉnh.


2

2. Tổng quan vấn đề nghiên cứu
Bài toán Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy
học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa
phương tỉnh Tây Ninh thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đây là một bài tốn
khó do bản chất của ngơn ngữ tự nhiên mang tính đa nghĩa, nhập nhằng nên việc phản
hồi hoặc trả lời đúng đủ nội dung cần hỏi hay nói cách khác là đúng ngữ nghĩa câu
hỏi là vấn đề khơng nhỏ. Thách thức của bài tốn ở đây là xác định ngữ nghĩa của
câu một cách chính xác. Tuy nhiên giữa câu hỏi và câu trả lời còn tồn tại các quan hệ
“ngầm” hay phụ thuộc vào ngữ cảnh. Bài toán đặt ra nhiều thách thức để phát hiện ra
được câu trả lời phù hợp nhất, thông tin hữu ích nhất.
Bài tốn xây dựng hệ thống hỏi đáp địi hỏi phải giải quyết các khía cạnh quan
trọng sau:

Hiểu ngữ nghĩa: hiểu ngữ nghĩa của câu hỏi là rất quan trọng để diễn giải và
xử lý câu hỏi một cách chính xác. Điều này bao gồm việc hiểu ý định đằng sau câu
hỏi và xác định nhu cầu thông tin cơ bản.
Trích xuất câu trả lời: Trích xuất câu trả lời phù hợp từ ngữ cảnh hoặc cơ sở
dữ liệu kiến thức đòi hỏi các kỹ thuật mạnh mẽ về tìm kiếm và trích xuất thơng tin.
Điều này bao gồm việc tìm ra câu trả lời phù hợp nhất và mang tính thơng tin nhất để
trực tiếp đáp ứng câu hỏi được đặt ra.
Phụ thuộc vào ngữ cảnh: Cần xem xét các mối quan hệ phụ thuộc vào ngữ
cảnh giữa câu hỏi và câu trả lời để cung cấp những câu trả lời chính xác và phù hợp
với ngữ cảnh. Điều này bao gồm việc xem xét văn bản xung quanh, các tương tác
trước đó và kiến thức về lĩnh vực cụ thể để cải thiện chất lượng của câu trả lời.
Hiểu ngôn ngữ tự nhiên: Phát triển các kỹ thuật để xử lý các đặc điểm phức
tạp của ngôn ngữ tự nhiên như sự nhập nhằng, biểu đạt ẩn dụ và biến thể ngôn ngữ là
rất quan trọng để hiệu quả trong việc xử lý và diễn giải câu hỏi và tạo ra câu trả lời
có ý nghĩa.


3

Các tiêu chí đánh giá: Xác định các tiêu chí đánh giá phù hợp là rất quan trọng
để đánh giá hiệu suất của hệ thống hỏi đáp. Các tiêu chí như độ chính xác, độ phủ,
F1-score và độ chính xác có thể được sử dụng để đo lường khả năng của hệ thống
cung cấp câu trả lời đúng và liên quan.
Tóm lại, xây dựng hệ thống hỏi đáp địi hỏi phải vượt qua các thách thức liên
quan đến hiểu ý nghĩa của câu hỏi, trích xuất câu trả lời phù hợp, xem xét các mối
quan hệ phụ thuộc vào ngữ cảnh và hiệu quả xử lý các đặc điểm phức tạp của ngôn
ngữ tự nhiên. Để giải quyết những thách thức này, cần áp dụng các kỹ thuật tiên tiến
trong xử lý ngôn ngữ tự nhiên và học máy, kết hợp với một khung đánh giá toàn diện
để đánh giá hiệu suất của hệ thống.


3. Mục tiêu nghiên cứu
Mục tiêu tổng quan
Xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính
quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người
dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình
tiếp nhận của chính quyền địa phương.
Mục tiêu cụ thể
Xây dựng bộ cơng cụ AI phân tích các u cầu câu hỏi để tự động hóa quy
trình tiếp nhận chuyển cho các đơn vị một cách tự động trên địa bàn tỉnh.
Mục đích của nghiên cứu trên là xây dựng hệ thống hỏi đáp trực tuyến bằng
phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính
quyền địa phương tỉnh Tây Ninh.
Nghiên cứu nhằm giải quyết các vấn đề thời gian, nhân lực và chất lượng mà
hệ thống hỏi đáp trực tuyến hiện tại gặp phải. Mục tiêu là tiết kiệm thời gian và nhân
lực trong quá trình tiếp nhận và giải quyết các yêu cầu của người dân trên địa bàn
tỉnh, đồng thời cung cấp câu trả lời chính xác và hữu ích cho người dùng. Nghiên cứu
cũng hướng đến việc áp dụng các phương pháp xử lý ngôn ngữ tự nhiên, tìm kiếm


4

thơng tin và rút trích thơng tin để xác định ý nghĩa của câu hỏi, tìm kiếm câu trả lời
và trích xuất thơng tin liên quan.
Mục tiêu cuối cùng là xây dựng một hệ thống hỏi đáp trực tuyến hiệu quả, giúp
tối ưu hóa tài nguyên và cải thiện trải nghiệm của người dùng khi tương tác với chính
quyền địa phương.

4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề án này là cơ sở dữ liệu của hệ thống hỏi đáp trực

tuyến địa phương tỉnh Tây Ninh. Nghiên cứu sẽ sử dụng các phương pháp máy học
để xây dựng hệ thống tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển
cho các đơn vị trả lời câu hỏi.
Cụ thể hơn, nghiên cứu sẽ sử dụng các thuật toán học máy (ML) để:
- Phân tích các yêu cầu của người dân từ các câu hỏi trên hệ thống hỏi đáp
trực tuyến.
- Xác định các chủ đề chính mà người dân hỏi thuộc lĩnh vực nào? Thuộc khu
vực nào?
- Xác định những nhu cầu của người dân mà chính quyền địa phương cần
phải giải quyết.
- Tự động hóa quy trình tiếp nhận và phân loại câu hỏi từ người dân.
Kết quả của nghiên cứu sẽ được sử dụng để cải thiện hiệu quả của hệ thống
hỏi đáp trực tuyến và giải quyết những nhu cầu của người dân một cách hiệu quả hơn.
Phạm vi nghiên cứu
Nghiên cứu phân tích cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến này bằng
cách sử dụng phương pháp máy học để xác định nhu cầu của người dân và tự động
hóa quy trình tiếp nhận, phân loại câu hỏi. Nghiên cứu sẽ bao gồm việc tổng quan về
Cổng hỏi đáp trực tuyến và hệ thống tự động hóa quy trình tiếp nhận câu hỏi, phân


5

tích các cơng trình liên quan trong và ngồi nước, đề xuất thuật tốn máy học và mơ
phỏng và thực nghiệm thuật toán đề xuất. Kết quả nghiên cứu sẽ được đánh giá bằng
các tiêu chí phù hợp.
Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh chỉ trả lời các câu hỏi thuộc thẩm
quyền, chức năng của các cơ quan nhà nước. Người phản ánh thông tin, đặt câu hỏi
cần cung cấp đầy đủ thông tin liên hệ để đơn vị trả lời có thể liên hệ khi cần thiết. Hệ
thống hỏi đáp trực tuyến tỉnh Tây Ninh không là cơ sở pháp lý để giải quyết các quan
hệ dân sự.

Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh là một trong số ít tỉnh có lượng
dữ liệu đáng kể về tương tác giữa cơ quan nhà nước và người dân, doanh nghiệp được
lưu trữ tại trung tâm tích hợp dữ liệu của tỉnh trên nền tảng kỹ thuật số. Hệ thống này
đã giúp người dân tiếp cận thông tin từ chính quyền một cách nhanh chóng, chính
xác, minh bạch, rõ ràng và thuận tiện.

5. Phương pháp nghiên cứu
Nghiên cứu lý thuyết
- Tìm các tài liệu, sách liên quan tới các phương pháp máy học để tiết kiệm
được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của
người dân trên địa bàn tỉnh thơng qua hệ thống hỏi đáp trực tuyến.
- Tìm tham khảo tài liệu từ những hội thảo, cơng trình, đề tài thực hiện trong
và ngồi nước.
- Tìm tài liệu, sách liên quan tới các từ khóa: text classification, text
categorization, feature selection, feature extraction, language modeling, naive bayes,
support vector machines, k-nearest neighbours


6

Nghiên cứu thực nghiệm
- Xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận câu hỏi
của người dân chuyển cho chính quyền thơng qua bộ cơ sở dữ liệu từ hệ thống hỏi
đáp trực tuyến.
- Phân tích yêu cầu: Phân tích nhu cầu của người dân và chính quyền địa
phương để xác định các câu hỏi thường gặp và hỏi đáp liên quan đến hệ thống.
- Xử lý dữ liệu: Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để tiền xử lý
các câu hỏi và trả lời trong hệ thống.
- Áp dụng máy học: Sử dụng các giải thuật máy học, như học máy phân loại,
học máy tìm kiếm, học máy cảm xúc, để phân tích cơ sở dữ liệu và xác định nhu cầu

của người dùng.
- Đánh giá hiệu quả: Sử dụng các chỉ số đánh giá, như độ chính xác, độ tương
tự, độ phù hợp.


7

CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
1.1. Tổng quan về Cổng hỏi đáp trực tuyến
Hệ thống hỏi đáp trực tuyến là hệ thống thông tin điện tử để người dân, tổ chức
và doanh nghiệp phản ánh thông tin và đặt ra những câu hỏi liên quan đến các vấn đề
cần quan tâm. Hệ thống dựa vào thông tin đầu vào là câu hỏi dưới dạng ngôn ngữ tự
nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu
hỏi hoặc chứa những thông tin sát với mong muốn của người dùng.
Hệ thống Tự động hóa quy trình tiếp nhận câu hỏi dựa vào một số kỹ thuật và
các tiêu chí khác nhau, có thể được phân loại như sau:
- Phân loại theo miền ứng dụng: Các câu hỏi được phân loại dựa trên miền
ứng dụng cụ thể mà hệ thống đang xử lý như: miền như luật pháp, y tế, giáo dục, giao
thông... giúp hệ thống hiểu rõ ngữ cảnh và áp dụng kiến thức chun mơn liên quan
đến miền đó.
- Phân loại theo khả năng trả lời mẫu hỏi: dựa trên khả năng có sẵn của hệ
thống để trả lời mẫu hỏi. Có thể có các danh sách câu trả lời mẫu hoặc cơ sở dữ liệu
kiến thức để hệ thống trả lời những câu hỏi phổ biến một cách tự động.
- Phân loại theo mức độ dài, ngắn của đoạn đối thoại giữa người dùng và hệ
thống thành các loại ngắn gọn, trung bình hoặc dài để xử lý hiệu quả.
- Phân loại theo hướng tiếp cận: hướng tiếp cận dựa trên quy tắc, hướng tiếp
cận thống kê, hướng tiếp cận dựa trên máy học hoặc hướng tiếp cận dựa trên trích
xuất thơng tin.
Những phân loại này giúp xác định và tự động hóa quy trình tiếp nhận câu hỏi
một cách hiệu quả, đồng thời cung cấp cho hệ thống khả năng xử lý đa dạng các loại

câu hỏi và cung cấp câu trả lời phù hợp cho người dùng.
Tỉnh Tây Ninh đã xây dựng hệ thống hỏi đáp trực tuyến từ năm 2016 nhằm
giải đáp nhanh chóng, minh bạch các vấn đề mà dư luận quan tâm. Hệ thống này hiện
đang hoạt động ở mức hỏi đáp của cơng dân và chính quyền trả lời, chưa xây dựng


8

được hệ thống tổng hợp, khai thác và sử dụng dữ liệu kiến nghị của công dân phục
vụ công tác quản lý nhà nước.

Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh

Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh là kênh thông tin kết nối giữa cơ
quan nhà nước với người dân, tổ chức, doanh nghiệp thơng qua Internet. Hệ thống
này có các chức năng và nhiệm vụ sau:
- Là kênh thông tin để người dân, tổ chức, doanh nghiệp phản ánh thông tin,
đặt câu hỏi đến các cơ quan nhà nước.
- Là kho dữ liệu thông tin giúp người dân, tổ chức, doanh nghiệp tra cứu những
thông tin liên quan đến chủ đề cần quan tâm.
- Tiếp nhận thông tin, câu hỏi 24/24 giờ vào tất cả các ngày trong tuần.
- Trả lời các câu hỏi của người dân, tổ chức, doanh nghiệp một cách chính xác,
kịp thời, đáp ứng nhu cầu của người dân.


9

Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp

Trình tự vận hành của hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh như sau:

1. Người dân, tổ chức, doanh nghiệp truy cập vào hệ thống hỏi đáp trực tuyến
tỉnh Tây Ninh để phản ánh thông tin, đặt câu hỏi.


10

Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp

2. Đơn vị điều phối tiếp nhận thông tin, câu hỏi và chuyển cho đơn vị trả lời.


11

Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời

3. Đơn vị trả lời đánh giá nội dung thông tin, câu hỏi.
-

Nếu thuộc thẩm quyền, chức năng của đơn vị trả lời thì đơn vị trả lời
thực hiện giao bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc liên
quan xử lý.

-

Nếu không thuộc thẩm quyền, chức năng của đơn vị trả lời thì đơn vị
trả lời nêu lý do và chuyển trả lại đơn vị điều phối.

4. Bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc đơn vị trả lời xem xét
nội dung thông tin, câu hỏi để thực hiện việc trả lời.
-


Nếu chưa đủ dữ kiện thì liên hệ người phản ánh thông tin, đặt câu hỏi
để thu thập thêm dữ kiện.

-

Nếu đã đủ dữ kiện thì thực hiện trả lời trực tiếp trên hệ thống hỏi đáp.

5. Hệ thống hỏi đáp trực tuyến gửi thông báo kết quả xử lý thông tin, câu hỏi
cho người phản ánh thông tin, đặt câu hỏi.
Thời gian xử lý thông tin, câu hỏi
-

Thời gian để đơn vị điều phối xử lý thông tin, câu hỏi là không quá 24
giờ.

-

Thời gian để đơn vị trả lời đánh giá nội dung thông tin, câu hỏi là không
quá 24 giờ.


12

-

Thời gian để đơn vị trả lời xử lý thông tin, trả lời câu hỏi là không quá
7 ngày làm việc.

1.2. Các cơng trình nghiên cứu trên thế giới

1. “XLNet:

Generalized

Autoregressive

Pretraining

for

Language

Understanding” - Yang, Z. và đồng nghiên cứu (2019). Bài báo này giới thiệu mơ
hình XLNet, một mơ hình học sâu sử dụng phương pháp huấn luyện tự động. Mơ
hình này có khả năng hiểu ngữ nghĩa và mối quan hệ giữa các từ trong câu, từ đó tạo
ra câu trả lời chính xác.
2. “BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding” - Devlin, J. và đồng nghiên cứu (2018). Tài liệu này giới thiệu mơ
hình BERT, một mơ hình học sâu đã đạt được nhiều thành công trong Hỏi và Đáp.
Nó trình bày cách BERT được huấn luyện trước và áp dụng cho nhiều tác vụ ngôn
ngữ tự nhiên, bao gồm cả Hỏi và Đáp.
3. “Attention Is All You Need” - Vaswani, A. và đồng nghiên cứu (2017). Tài
liệu này giới thiệu mơ hình Transformer, một kiến trúc quan trọng trong Hỏi và Đáp.
Mơ hình này sử dụng cơ chế attention để xử lý thông tin từ ngữ cảnh và tạo ra câu trả
lời chính xác.
4. “SQuAD 2.0: 100,000+ Questions for Machine Comprehension of Text” Rajpurkar, P. và đồng nghiên cứu (2018). Tài liệu này là phiên bản mở rộng của tập
dữ liệu SQuAD. SQuAD 2.0 bao gồm cả các câu hỏi mà câu trả lời khơng có sẵn
trong văn bản. Điều này tạo ra thách thức lớn hơn cho các hệ thống trả lời câu hỏi và
yêu cầu khả năng suy luận và hiểu biết rộng hơn từ mô hình AI.
5. “Neural Approaches to Question Answering” - Rajpurkar, P. và đồng

nghiên cứu (2016). Bài báo này tập trung vào các phương pháp sử dụng mơ hình học
sâu trong Hỏi và Đáp. Nó giới thiệu các kiến trúc mạng như LSTM, CNN và các kiến
trúc đa nhiệm để xây dựng hệ thống trả lời câu hỏi.
6. “Deep Learning for Answer Sentence Selection: A Review” - Zhou, M. và


13

đồng nghiên cứu (2018). Tài liệu này tập trung vào bài toán chọn câu trả lời phù hợp
trong Hỏi và Đáp. Nó giới thiệu các phương pháp sử dụng học sâu như Convolutional
Neural Networks (CNN) và Recurrent Neural Networks (RNN) để giải quyết bài toán
này.
7. “Question Answering Systems: A Survey” - Li, S. và đồng nghiên cứu
(2017). Bài báo này tổng hợp các phương pháp và tiến bộ trong lĩnh vực Hỏi và Đáp,
từ các kiến trúc truyền thống đến sử dụng học sâu. Nó cung cấp một cái nhìn tổng
quan về các cơng trình nghiên cứu và thách thức trong lĩnh vực này.
8. “Language Models are Unsupervised Multitask Learners” - Radford, A. và
đồng nghiên cứu (2019). Tài liệu này giới thiệu mơ hình ngơn ngữ GPT (Generative
Pre-trained Transformer). GPT là một mơ hình học sâu tự động cải thiện khả năng
hiểu ngữ nghĩa và tạo ra câu trả lời tự nhiên thông qua huấn luyện không giám sát
trên một lượng lớn dữ liệu.
9. “The Stanford Question Answering Dataset” - Rajpurkar, P. và đồng nghiên
cứu (2016). Tài liệu này giới thiệu tập dữ liệu SQuAD, một tập dữ liệu quan trọng
trong lĩnh vực Hỏi và Đáp. SQuAD chứa các cặp câu hỏi và câu trả lời đúng, được
thu thập từ các nguồn tin trực tuyến, và được sử dụng rộng rãi trong việc đánh giá và
huấn luyện các mơ hình trả lời câu hỏi tự động.
10. “MS MARCO: A Human-Generated MAchine Reading COmprehension
Dataset” - Nguyen, T. và đồng nghiên cứu (2016). Tài liệu này giới thiệu tập dữ liệu
MS MARCO, một tập dữ liệu được tạo ra bởi con người cho bài tốn đọc hiểu máy
tính. Nó chứa các cặp câu hỏi và văn bản liên quan, được sử dụng để đào tạo và đánh

giá các mơ hình trả lời câu hỏi tự động.
Những tài liệu trên cung cấp cái nhìn sâu hơn về các mơ hình học sâu, tập dữ
liệu và thách thức trong lĩnh vực Hỏi và Đáp từ các kiến trúc truyền thống đến các
mơ hình học sâu tiên tiến như Transformer, BERT và XLNet…


14

1.3. Các cơng trình nghiên cứu trong nước
1. “Xây dựng hệ thống trả lời tự động tiếng Việt dựa trên mơ hình BERT” Trần Văn Hiến, Nguyễn Thị Minh Huyền, Phạm Quỳnh Ngân (2020): Cơng trình này
tập trung xây dựng hệ thống trả lời tự động tiếng Việt sử dụng mơ hình BERT. Trình
bày cách huấn luyện mơ hình và áp dụng cho việc trả lời câu hỏi tiếng Việt.
2. “Phát triển hệ thống hỏi đáp y tế tự động tiếng Việt” - Đặng Văn Bảo, Lê
Thanh Hòa, Nguyễn Quốc Bảo (2018): Cơng trình này tập trung vào xây dựng hệ
thống hỏi đáp y tế tự động sử dụng tiếng Việt. Giới thiệu các phương pháp xử lý ngôn
ngữ tự nhiên và mơ hình học máy để đưa ra câu trả lời cho các câu hỏi y tế.
3. “Dự đoán trả lời chính xác câu hỏi tự nhiên tiếng Việt bằng phương pháp
SVM” - Trần Minh Tâm, Trần Thị Thanh Thảo (2017): Cơng trình này tập trung vào
dự đốn trả lời chính xác cho câu hỏi tự nhiên tiếng Việt bằng cách sử dụng phương
pháp máy vector hỗ trợ (SVM). Nó giới thiệu cách tiền xử lý dữ liệu và xây dựng mơ
hình SVM để phân loại câu hỏi và tìm ra câu trả lời phù hợp.
4. “Phát triển hệ thống trả lời câu hỏi tự động tiếng Việt dựa trên phương pháp
tìm kiếm trích dẫn” - Nguyễn Minh Thành, Nguyễn Huy Hùng, Lê Hồng Phong
(2016): Cơng trình này tập trung vào phát triển hệ thống trả lời câu hỏi tự động tiếng
Việt bằng cách sử dụng phương pháp tìm kiếm trích dẫn. Nó giới thiệu cách xây dựng
một cơng cụ tìm kiếm và trích dẫn thơng tin từ tài liệu để đưa ra câu trả lời cho các
câu hỏi tiếng Việt.
5. “Hệ thống trả lời câu hỏi tự động về lịch sử Việt Nam” - Lê Thị Kim Oanh,
Trần Văn Thoại (2015): Cơng trình này tập trung vào xây dựng hệ thống trả lời câu
hỏi tự động về lịch sử Việt Nam. Nó sử dụng các phương pháp xử lý ngôn ngữ tự

nhiên và các tài liệu lịch sử để trả lời các câu hỏi liên quan đến lịch sử Việt Nam.
Những cơng trình nghiên cứu này là ví dụ về những nỗ lực của các nhà nghiên
cứu Việt Nam trong lĩnh vực Hỏi và Đáp, áp dụng trí tuệ nhân tạo và xử lý ngôn ngữ
tự nhiên để xây dựng các hệ thống trả lời câu hỏi tự động tiếng Việt trong nước.


15

CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về AI và Machine Learning
Trí tuệ nhân tạo [5], [10] có lẽ là lĩnh vực khoa học máy tính lâu đời nhất và
rất rộng, xử lý tất cả các khía cạnh của việc bắt chước các chức năng nhận thức để
giải quyết vấn đề trong thế giới thực và xây dựng cơng trình. xây dựng hệ thống học
hỏi và suy nghĩ như con người. Nên nó là thường được gọi là trí thơng minh máy
(Poole, Mackworth, & Goebel, 1998) để đối lập với trí thơng minh của con người
(Russell & Norvig, 2010). Lĩnh vực này xoay quanh sự giao thoa giữa khoa học nhận
thức và khoa học máy tính (Tenenbaum, Kemp, Griffiths, & Goodman, 2011). AI
hiện đang thu hút rất nhiều sự quan tâm do những thành công thực tế trong học máy
(ML). Trong AI đã tồn tại luôn được kết hợp chặt chẽ với khả năng diễn giải, và một
ví dụ ban đầu là lời khuyên Taker do McCarthy đề xuất vào năm 1958 như một
“chương trình của nhận thức chung” (McCarthy, 1960). Có lẽ đây là lần đầu tiên
những khả năng suy luận bình thường như Phím AI. Các nghiên cứu gần đây ngày
càng nhấn mạnh rằng các hệ thống AI sẽ có thể xây dựng các mơ hình nhân quả của
thế giới hỗ trợ giải thích và hiểu, thay vì chỉ giải quyết các vấn đề nhận dạng mẫu
(Lake, Ullman, Tenenbaum, & Gershman, 2017).
Trí tuệ Nhân là lĩnh vực nghiên cứu và phát triển các hệ thống máy tính có khả
năng thực hiện các nhiệm vụ thơng minh mà thơng thường chỉ có con người mới có
thể thực hiện. AI có mục tiêu tạo ra các hệ thống thơng minh có khả năng học hỏi, tư
duy và tự động hóa các hoạt động. Trong AI, Học máy (Machine Learning) là một
lĩnh vực quan trọng, tập trung vào việc phát triển các thuật tốn và mơ hình để máy

tính có thể học hỏi từ dữ liệu và cải thiện hiệu suất theo thời gian.
Học máy (ML) [5], [10] là một lĩnh vực rất thực tế của AI với mục đích phát
triển phần mềm có thể tự động học hỏi từ dữ liệu trước đó để đạt được kiến thức từ
kinh nghiệm và để dần dần cải thiện hành vi học tập của nó để đưa ra dự đốn dựa
trên dữ liệu mới (Michalski, Carbonell, & Mitchell, 1984). Học máy dựa trên việc


×