Tải bản đầy đủ (.pdf) (13 trang)

SỬ DỤNG CÁC MÔ HÌNH MACHINE LEARNING DỰ ĐOÁN TÌNH TRẠNG SINH VIÊN TỐT NGHIỆP ĐÚNG HẠN - Full 10 điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (987.98 KB, 13 trang )

Sử dụng các mơ hình Machine Learning dự đốn tình
trạng sinh viên tốt nghiệp đúng hạn

Ngày nhận: 02/03/2023 Nguyễn Văn Thủy Ngày duyệt đăng: 14/04/2023

Học viện Ngân hàng

Ngày nhận bản sửa: 06/04/2023

Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mơ hình học máy (Machine
Learning) tối ưu để dự đốn tình trạng sinh viên tốt nghiệp đúng hạn. Bằng
việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện
Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic
Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support
Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mơ hình
Random Forest là mơ hình tối ưu nhất. Nghiên cứu đã chỉ ra các thuộc tính
thơng tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh
đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một
số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt
nghiệp của sinh viên.
Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo

Using Machine Learning models to predict the on-time graduation status of students

Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time
graduation status of students. By using the dataset of students majoring in Banking faculty from the Banking
Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression,
K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the
study has chosen Random Forest as the optimal model. The research has identified 2 attributes: Academic
processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on
the ability of students to graduate on time or late, and proposed some recommendations to help the school


provide solutions to improve the graduation rate of students.

Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence.

Doi: 10.59276/TCKHDT.2023.08.2506.

Nguyen, Van Thuy
Banking Academy of VietNam
Email:

Tạp chí Khoa học & Đào tạo Ngân hàng 52 © Học viện Ngân hàng
ISSN 1859 - 011X
Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

1. Giới thiệu tảng học vấn, khả năng và hoàn cảnh khác
nhau, làm cho việc dự báo trở nên phức
Giáo dục đại học có vai trị rất quan trọng tạp và khó chính xác tới từng cá nhân sinh
trong việc phát triển nguồn nhân lực chất viên. Thứ hai, quá trình học tập của sinh
lượng cao. Nó khơng chỉ cung cấp kiến viên là một q trình dài, bao gồm nhiều
thức chun mơn cho sinh viên, mà còn yếu tố không chỉ liên quan đến khả năng
trang bị các kỹ năng và phẩm chất cá nhân học tập của sinh viên mà còn liên quan đến
để đáp ứng nhu cầu của xã hội và thị trường các yếu tố khác như tâm lý, xã hội, môi
lao động. Các cơ sở giáo dục đại học thiết trường học tập và nhiều tác động khác từ
kế các chương trình đào tạo từ 4-5 năm để môi trường khách quan. Nhiều sinh viên có
sinh viên có thể tích lũy đầy đủ các kiến thể gặp khó khăn trong việc hòa nhập với
thức, kỹ năng, năng lực đáp ứng các nhu môi trường học tập, gặp các vấn đề về sức
cầu của xã hội. Tuy nhiên theo VnExpress khỏe hoặc tâm lý, gây ảnh hưởng đến quá
(2022), thực tế tại các cơ sở giáo dục đại trình học tập và kết quả học tập của họ. Thứ

học của Việt Nam nói riêng và trên thế giới ba, các trường đại học cịn phải đối mặt với
nói chung có một tỷ lệ không nhỏ từ 14- việc thu thập, xử lý, phân tích dữ liệu rất
50% sinh viên tốt nghiệp muộn hoặc không lớn về quá trình học tập của sinh viên để có
tốt nghiệp. Điều này gây ra một sự lãng phí thể đưa ra dự báo chính xác.
nguồn lực vô cùng lớn cho xã hội. Nguyên Khái niệm sinh viên tốt nghiệp đúng hạn
nhân của tình trạng này đến từ cả phía chủ được sử dụng trong nghiên cứu này là sinh
quan và khách quan trong quá trình học viên hồn thành chương trình đào tạo đúng
tập của sinh viên tại trường như lý do tâm thời gian thiết kế của các chương trình đào
lý, hồn cảnh gia đình, mơi trường bạn bè, tạo của các cơ sở giáo dục đại học. Sinh
phương pháp học tập đại học, không tập viên tốt nghiệp muộn là các sinh viên khi
trung trong q trình học do mơi trường tốt nghiệp có thời gian học tập tại trường
học tập của các cơ sở giáo dục đại học. Gia lớn hơn thời gian thiết kế dành cho chương
đình và nhà trường cần can thiệp sớm để trình đào tạo của các cơ sở giáo dục đại học.
xác định các sinh viên có khả năng rơi vào Sinh viên khơng đủ điều kiện tốt nghiệp là
tình trạng tốt nghiệp muộn hoặc không đủ các sinh viên bị buộc thôi học do kết quả
điều kiện tốt nghiệp để có các biện pháp học tập kém trong quá trình đào tạo hoặc
hỗ trợ tích cực cho đối tượng này. Dự đốn buộc thôi học do hết thời gian đào tạo mà
sớm tình trạng, nguy cơ của sinh viên giúp chưa hồn thành chương trình đào tạo và
cho gia đình và nhà trường có được sự tư các điều kiện tốt nghiệp. Nghiên cứu này
vấn kịp thời đến sinh viên, giúp sinh viên được thực hiện với kết cấu 5 phần là giới
định hướng tốt nhất quá trình học tập, thiệu, tổng quan nghiên cứu, phương pháp
hướng tới nâng cao hiệu quả học tập và nghiên cứu, kết quả và thảo luận, kết luận
giảm thiểu tình trạng tốt nghiệp muộn hoặc và một số kiến nghị. Nghiên cứu này tiến
không tốt nghiệp được của sinh viên. hành dựa trên các mơ hình học máy với dữ
Tuy nhiên việc dự báo sớm kết quả học tập liệu được thu thập từ các sinh viên chuyên
của sinh viên là một thách thức đối với các ngành Ngân hàng tại Học viện Ngân hàng
trường đại học. Các trường đại học đang từ năm 2010- 2020 để thực hiện dự báo
gặp khó khăn trong việc dự báo sớm kết sinh viên tốt nghiệp đúng hạn. Kết quả
quả học tập của sinh viên do nhiều yếu tố của nghiên cứu đã xác định được mơ hình
khác nhau. Thứ nhất, mỗi sinh viên có nền học máy phù hợp và chỉ ra các thuộc tính


Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 53

Sử dụng các mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

ảnh hưởng đến khả năng tốt nghiệp đúng quả dự đoán tốt nhất với độ chính xác 85%.
hạn của sinh viên, từ đó xác định được Trong nghiên cứu của Bujang và cộng sự
các nhóm sinh viên có nguy cơ tốt nghiệp (2021) đã sử dụng các mơ hình Machine
muộn và đề xuất các kiến nghị nhằm nâng Learning truyền thống như J48, Logistic
cao tỷ lệ sinh viên tốt nghiệp đúng hạn. Regression, Random Forest và SVM. Dữ
liệu được thu thập từ 489 sinh viên khoa
2. Tổng quan nghiên cứu Công nghệ thông tin và Truyền thông
thuộc Đại học Malaysia Polytechnic. Thực
Trong những năm gần đây có nhiều nghiên nghiệm này cho thấy J48 vượt trội so với
cứu liên quan đến khai thác dữ liệu giáo các mơ hình khác với độ chính xác 99,8%,
dục để ứng dụng cho việc dự đoán hiệu quả RMSE 0,0238.
học tập của sinh viên, dự đoán tỉ lệ bỏ học Trong nghiên cứu của Al Mayahi & cộng
hay dự đoán nguy cơ sinh viên đang gặp sự (2020), các tác giả đã xây dựng một mơ
khó khăn trong q trình học. Phần này hình để dự đốn điểm của sinh viên trong
trình bày tổng quan các nghiên cứu nổi bật một mơn tốn trong học kỳ thứ hai dựa trên
đã công bố trong giáo dục đại học bằng các điểm trước đây của họ ở trường và điểm
kĩ thuật Machine Learning. của họ trong các khóa học trước đó của
Nghiên cứu Hussain, S., & cộng sự (2021) học kỳ đầu tiên bằng cách sử dụng SVM
đã dự đoán kết quả học tập của sinh viên dựa và Naive Bayes. Dữ liệu được thu thập từ
trên thông tin cá nhân và thông tin kết quả học 550 sinh viên thuộc Khoa Vật lí, Tốn học,
tập. Nghiên cứu đã chọn ra 30 trong số 126 Khoa học và Khoa học máy tính thuộc Đại
thuộc tính sẽ ảnh hưởng đến kết quả dự đoán học Nizwa. SVM đã cho kết quả tốt nhất
bằng thuật toán Di truyền. Sau đó, Random với độ chính xác 87%.
Forest (RF) và K-Nearest Neighbors (KNN) Ngoài ra, có thể thấy rằng một số nghiên
được sử dụng kết hợp đã cho ra kết quả tốt cứu trước đây không giải quyết được vấn

nhất, với độ chính xác 96,64%, Root Mean đề mất cân bằng dữ liệu. Ploutz và cộng sự
Squared Error (RMSE) 5,34. (2018) đã xây dựng một mơ hình dự đoán
Tương tự, nghiên cứu của Jeslet, D. S. & tỷ lệ tốt nghiệp của sinh viên năm nhất
cộng sự (2021) đã xây dựng một mơ hình dự tại Đại học Nevada, Las Vegas. Để giảm
đoán kết quả của sinh viên năm cuối dựa trên bớt tính nhiều chiều, tác giả đã thực hiện
kết quả học tập của các kì học trước đó bằng các kỹ thuật lựa chọn đặc trưng khác nhau
cách sử dụng KNN, Support Vector Machine như Chi square, tầm quan trọng của đặc
(SVM) và Logistic Regression (LR). Dữ liệu trưng cây quyết định, loại bỏ đặc trưng đệ
được thu thập từ 1460 sinh viên từ các trường quy. SMOTE, ADASYN, ROS cũng được
đại học khác nhau. Kết quả nghiên cứu đã chỉ sử dụng để cân bằng các phiên bản phân
ra SVM và LR là hai mơ hình cho kết quả tốt phối của hai lớp. Dữ liệu được thu thập từ
nhất, với độ chính xác 99,72%. 16.074 sinh viên đã nhập học từ kì mùa thu
Theo Pallathadka và cộng sự (2021) đã dự 2010 đến kì mùa hè 2017. Kết quả cho thấy
đốn kết quả của khóa học sắp tới để phân Decision Tree đã cho hiệu quả dự đoán tốt
loại sinh viên dựa trên các mơ hình dự đốn nhất, với điểm F1 là 85%. Trong nghiên
khác nhau như Naive Bayes, ID3, C4.5 và cứu của A. Nabil và cộng sự (2021), các
SVM. Nghiên cứu đã sử dụng dữ liệu của mơ hình như DNN, DT, LR, SVM, RF, GB
649 sinh viên đến từ Đại học Minho, Bồ Đào và KNN được sử dụng để dự đốn hiệu suất
Nha. Kết quả theo mơ hình SVM đã đạt hiệu của học viên trong khóa học Cấu trúc dữ

54 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

liệu. Tác giả cũng đã áp dụng các phương Thơng qua tổng quan các nghiên cứu có thể
pháp giúp giải quyết hiện tượng mất cân thấy các kỹ thuật học máy có thể phù hợp
bằng mẫu bằng cách gia tăng kích thước với mục tiêu nghiên cứu dự báo kết quả học
mẫu thuộc nhóm thiểu số bằng các kĩ thuật tập của sinh viên nói chung và dự báo sinh
khác nhau (Over sampling) như SMOTE, viên tốt nghiệp đúng hạn nói riêng. Tùy
ADASYN, ROS, SMOTE- ENN để xử lý từng đặc thù của từng bộ dữ liệu nghiên

sự mất cân bằng phân phối mục tiêu. Dữ cứu thực nghiệm thì có các kỹ thuật học
liệu được thu thập trong 14 năm từ năm máy, học sâu phù hợp. Đã có nhiều nghiên
2006 tại một trường Đại học mở có chương cứu xác định các kỹ thuật học máy, học
trình học 4 năm dữ liệu bao gồm thông tin sâu để dự báo sinh viên tốt nghiệp đúng
4.266 sinh viên. Kết quả nghiên cứu cho hạn như Hussain, S., & cộng sự (2021),
thấy giải thuật cây quyết định (Decision Jeslet, D. S. & cộng sự (2021), Pallathadka
Tree) kết hợp với SMOTE đã cho kết quả và cộng sự (2021), Al Mayahi & cộng sự
tốt nhất, với điểm F1 là 89%. (2020), Ploutz và cộng sự (2018), Nguyễn
Tại Việt Nam, có một số nghiên cứu về dự và cộng sự (2015), Nguyễn Thị Uyên,
báo kết quả học tập của sinh viên dựa trên Nguyễn Minh Tâm (2019), Lưu Hoài Sang
một số kỹ thuật học máy, học sâu. Nguyễn và cộng sự (2020). Tuy nhiên, hầu hết các
và cộng sự (2015) “đã dự báo kết quả nghiên cứu mới dừng lại ở các tập dữ liệu
học tập của học sinh dựa trên sự kết hợp huấn luyện cho các mơ hình học máy tương
phương pháp gần đúng Taylor với hai mô đối nhỏ, khơng gian của dữ liệu trong một
hình xám GM(1,1) và GM(2,1). Hai mô thời gian ngắn và chưa chỉ ra các thuộc tính
hình kết hợp T-GM(1,1) và T-GM(2,1) có quan trọng trong tập dữ liệu ảnh hưởng đến
thể đạt được các giá trị dự báo tối ưu nhất kết quả dự báo. Độ chính xác của các mơ
bằng cách tính gần đúng nhiều lần để cải hình dự báo thường có độ chính xác cao
thiện độ chính xác dự báo của hai mơ hình với các tập dữ liệu nhỏ và khi áp dụng với
xám. Kết quả đã hỗ trợ cho giáo viên tuyển dữ liệu thực tế có độ phức tạp cao thì độ
chọn học sinh có q trình học tập ổn định chính xác của mơ hình ở mức thấp. Đây
để bồi dưỡng học sinh giỏi, đồng thời cải là khoảng trống nghiên cứu này thực hiện.
thiện kết quả học tập đối với học sinh có Dựa trên dữ liệu thực tế của sinh viên
q trình học tập khơng ổn định nhằm đáp chuyên ngành ngân hàng tại Học viện Ngân
ứng các yêu cầu và mục tiêu của giáo dục”. hàng giai đoạn 2010-2020, nghiên cứu tiến
Theo Lưu Hoài Sang và cộng sự (2020), hành thực nghiệm trên các kỹ thuật học
bằng kỹ thuật học sâu thực nghiệm với máy và lựa chọn mơ hình tối ưu phù hợp,
mạng nơ-ron truyền thẳng đa tầng trên dữ từ đó xác định các thuộc tính ảnh hưởng
liệu sinh viên 83.993 sinh viên Đại học Cần đến khả năng tốt nghiệp đúng hạn của sinh
thơ, đã đưa ra một mơ hình dự báo sớm kết viên, từ đó xác định được các nhóm sinh

quả học tập của sinh viên. Tác giả Nguyễn viên có nguy cơ tốt nghiệp muộn.
Thị Uyên, Nguyễn Minh Tâm (2019) bằng
hai thuật toán khai phá dữ liệu Logistic 3. Phương pháp nghiên cứu
Regression, Naïve Bayes với dữ liệu 555
sinh viên ngành Công nghệ thông tin của 3.1. Mơ hình nghiên cứu
Đại học Vinh đã được áp dụng để tìm ra mơ
hình tốt nhất cho việc dự báo tình trạng học Nghiên cứu tiến hành thực nghiệm trên 7 mô
tập cho sinh viên. hình học máy là Logistic Regression (LR)

Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 55

Sử dụng các mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

, K-Nearest Neighbors (KNN), Decision Bảng 1. Ma trận nhầm lẫn với tập dữ liệu
Tree (DT), Random Forest (RF), Support có 2 lớp được gán nhãn
Vector Machine (SVM), (Ray, 2019),
XGBoost, CatBoost (Prokhorenkova và Thực tế\Dự đoán Lớp dương Lớp âm
cộng sự, 2018).
Để đánh giá độ chính xác của các mơ hình Lớp dương TP FN
học máy, nghiên cứu sử dụng ma trận
nhầm lẫn (Confusion matrix), Precision, Lớp âm FP TN
Recall, đường cong AUC-ROC và F1
Score (Tharwat, A, 2021). Nguồn: Tharwat, A. (2021)
Ma trận nhầm lẫn sử dụng trong các kỹ
thuật phân lớp của các mơ hình học máy là trường hợp dự báo các quan sát thực thuộc
một ma trận tổng quát thể hiện kết quả phân nhãn lớp dương thành lớp âm.
loại đúng và kết quả phân loại sai được tạo Precision (Tỷ lệ lớp dương đốn đúng):
ra bởi mơ hình phân loại bằng cách so sánh Trong tất cả các dự đoán lớp dương
với giá trị thật của biến mục tiêu của dữ (Positive) được đưa ra, bao nhiêu dự đoán
liệu kiểm tra. Một tập dữ liệu thực tế có 2 là chính xác với cơng thức.

lớp được gán nhãn là lớp dương (Positive) Precision = TP / (TP + FP)
và lớp âm (Negative). Mơ hình dự đốn Recall (Tỷ lệ lớp dương thực): Trong tất cả
phân lớp trên tập dữ liệu kết quả cũng phân các trường hợp Positive, bao nhiêu trường
thành 2 lớp: lớp dương (Positive) và lớp hợp đã được dự đoán chính xác với cơng
âm (Negative) (Bảng 1). thức như sau:
Trong đó, TP (True Positive): Tổng số Recall = TP / (TP + FN)
trường hợp thực tế và dự báo khớp mẫu lớp Accuracy (Độ chính xác) được tính như sau:
dương; TN (True Negative): Tổng số trường Accuracy= (TP+TN) / (TP + TN + FP +FN)
hợp thực tế và dự báo khớp mẫu lớp âm; FP F1 là số dung hòa Recall và Precision giúp
(False Positive): Tổng số trường hợp dự báo ta có căn cứ để lựa chọn mơ hình tốt nhất.
các quan sát thực tế thuộc nhãn lớp âm thành F1 càng cao mơ hình càng tốt. F1 là chỉ số
lớp dương; FN (False Negative): Tổng số được tính như sau:
F1 = (2 x Precision x Recall) / ( 2 x Precision
+ Recall )
Đường cong ROC (Receiver operating

Nguồn: Hand, D. J. (2009)

Hình 1. Cách tính giá trị độ đo đánh giá mơ hình phân lớp

56 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

characteristic): Thể hiện sự tương quan đặc điểm nhân khẩu học và các thông tin
giữa Precision và Recall khi thay đổi giá trị học thuật trong quá trình học của sinh viên.
ngưỡng (threshold). Dữ liệu được thu thập tổng hợp qua cơ sở
Đường cong Area Under the ROC (AUC- dữ liệu phần mềm quản lý đào tạo của Học
ROC): Là vùng nằm dưới ROC, vùng này viện Ngân hàng (Học viện Ngân hàng,
càng lớn thì mơ hình lựa chọn càng tốt 2023). Đặc điểm nhân khẩu học của sinh

(Hình 1). viên, thông tin học thuật và chi tiết mô tả
Các mơ hình học máy được sử dụng trong về các tính năng dữ liệu và loại dữ liệu bao
nghiên cứu được tác giả thực hiện lập trình gồm trong tập dữ liệu được liệt kê trong
bằng ngôn ngữ Python để phân tích dữ liệu. Bảng 2.
Để tập dữ liệu được tạo sẵn sàng để phân tích,
3.2. Dữ liệu nghiên cứu nghiên cứu đã tiến hành làm sạch, chuyển
đổi, mã hóa dữ liệu. Với mục tiêu là dự
Dữ liệu được thu thập của 6.696 sinh viên đoán sinh viên tốt nghiệp đúng hạn hay quá
Khoa Ngân hàng hệ đại học chính quy hạn, trường dữ liệu “GradOnTime” được
thuộc Học viện Ngân hàng, Hà Nội, Việt thêm vào bộ dữ liệu để theo dõi sinh viên
Nam thuộc các học kỳ năm học từ 2010- tốt nghiệp đúng hạn hay không. Sinh viên
2020. Dữ liệu bao gồm các thuộc tính về được coi là tốt nghiệp đúng hạn khi tổng

Bảng 2. Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu

Thuộc tính Loại dữ liệu Mơ tả về thuộc tính
StudentID Categorical
Gender (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên.
Categorical Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi
GroupID
Categorical hoạt động học tập tại Học viện.
Region
AdmissionCode Categorical Giới tính – Phân loại: Nam/Nữ
EntranceScore
CreditsEarnned1 Categorical Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6»,
Numerical «7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi
THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử
(số)
Numerical tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối
tượng quân sự gửi đào tạo)


Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế
tuyển sinh của Bộ Giáo dục và Đào tạo

Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”):
Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo
quy chế tuyển sinh của Bộ Giáo dục và Đào tạo

Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét
tuyển vào Học viện Ngân hàng

Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên

CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2

CreditsEarnned3 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 3

CreditsEarnned4 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 4
GPA1 Numerical
GPA2 Numerical Điểm trung bình học kỳ 1: Điểm trung bình tích lũy ở học kì đầu tiên
(Điểm trung bình tích lũy là điểm trung bình theo trọng số các học

phần đã đạt của sinh viên tính đến thời điểm kết thúc học kỳ 1)

Điểm trung bình học kỳ 2: Điểm trung bình tích lũy ở học kì thứ 2

GPA3 Numerical Điểm trung bình tích lũy ở học kì thứ 3

Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 57


Sử dụng các mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

Thuộc tính Loại dữ liệu Mơ tả về thuộc tính
GPA4 Numerical
TermStatus1 Categorical Điểm trung bình tích lũy ở học kì thứ 4
TermStatus2 Categorical
TermStatus3 Categorical Xử lí học vụ sau học kỳ đầu tiên: Các xử lý cảnh báo kết quả học tập
TermStatus4 Categorical của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 1
NoYearGrad Numerical
GradOnTime Numerical Xử lí học vụ sau học kỳ thứ 2: Các xử lý cảnh báo kết quả học tập của
sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 2

Xử lí học vụ sau học kỳ thứ 3: Các xử lý cảnh báo kết quả học tập của
sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 3

Xử lí học vụ sau học kỳ thứ 4: Các xử lý cảnh báo kết quả học tập của
sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 4

Tổng số thời gian để hoàn thành chương trình học (năm)

Tốt nghiệp đúng hạn: 1- Sinh viên tốt nghiệp đúng hạn; 0 – Sinh viên
tốt nghiệp quá hạn.

Nguồn: Tác giả tổng hợp từ dữ liệu nghiên cứu

thời gian hồn thành chương trình học nhỏ tập dữ liệu có 6.696 dịng và 21 thuộc tính
đưa vào huấn luyện của các mơ hình học
hơn hoặc bằng 4 năm, lớn hơn 4 năm là tốt máy đã lựa chọn. Nghiên cứu thực hiện
chia tập dữ liệu ban đầu thành 2 tập dữ liệu
nghiệp quá hạn. Giá trị nhị phân của “1” sẽ train/test (tập dữ liệu huấn luyện/ tập dữ

liệu kiểm tra) theo tỷ lệ 80:20.
được chỉ định cho sinh viên tốt nghiệp đúng Trong các tập dữ liệu có 86,96% là các dữ
liệu được gán nhãn “Đúng hạn” và 13,04%
hạn, và “0” được chỉ định cho những sinh dữ liệu được gán nhãn “Quá hạn” (Hình 2).
Dữ liệu “Đúng hạn” mất cân bằng so với
viên tốt nghiệp quá hạn. Đối với các dữ liệu dữ liệu “Q hạn” do đó khi phân tích dữ
liệu nghiên cứu sử dụng kỹ thuật SMOTE
của các biến độc lập để đưa vào mơ hình dự để xử lý vấn đề mất cân bằng dữ liệu
(Chawla và cộng sự (2002)). Kết thúc huấn
báo (StudentID, Major, Gender, GroupID, luyện các mô hình, nghiên cứu sử dụng kỹ
thuật LIME (Local Interpretable Model-
Region, AdmissionCode, EntranceScore, Agnostic Explanations- Phép diễn giải cục
bộ cho mơ hình bất khả tri) để phân tích mở
CreditsEarnned1, CreditsEarnned2, rộng các kết quả.

CreditsEarnned3, CreditsEarnned4, GPA1, 4. Kết quả nghiên cứu và thảo luận

GPA2, GPA3, GPA4, TermStatus1, Theo kết quả phân tích dữ liệu các mơ hình
RF, XGBoost và CatBoost đạt được độ
TermStatus2, TermStatus3, TermStatus4, chính xác lần lượt là 92%, 89% và 89%,
cao hơn so với các mơ hình cịn lại. Mơ
NoYearGrad) nghiên cứu đã tiến hành làm hình RF đạt được giá trị 89% cho Precision,
94% Recall và 92% điểm F1, XGBoost đạt
sạch dữ liệu loại bỏ các dữ liệu khuyết được giá trị 87% cho Precision, 91% Recall
và 89% điểm F1. Mơ hình LR và SVC cho
thiếu, mã hóa dữ liệu. Kết quả nhận được

Nguồn: Tác giả tổng hợp từ dữ liệu nghiên cứu

Hình 2. Tỉ lệ nhãn trong tập dữ liệu


58 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

Bảng 3. Kết quả hiệu suất các mơ hình dự đốn Bảng 4 mô tả ma trận nhầm lẫn (Confusion
matrix) của tất cả mơ hình được quan sát.
Mơ hình Accuracy Precision Recall F1 Mơ hình RF có giá trị True Positive cao
nhất với 45,49%. Trong khi, các mơ hình
LR 0,80 0,77 0,82 0,80 LR và KNN lần lượt có sai lệch loại I và II
cao nhất với 8,5% và 14,29%.
KNN 0,83 0,79 0,85 0,82 Qua các phân tích ở phần trên, mơ hình RF
được lựa chọn để đưa ra dự đoán với các dữ
DT 0,84 0,82 0,87 0,85 liệu sinh viên tại Học viện Ngân hàng do
hiệu suất dự đoán vượt trội hơn so với các
RF 0,92 0,89 0,94 0,92 mơ hình khác.
Theo kết quả trên Hình 3 cho thấy các
SVM 0,79 0,75 0,85 0,80 thuộc tính (feature) liên quan đến kết quả
học tập trong quá trình đào tạo ảnh hưởng
XGBoost 0,89 0,87 0,91 0,89 lớn đến khả năng tốt nghiệp của sinh viên,
trong khi các thuộc tính liên quan đến nhân
CatBoost 0,89 0,85 0,94 0,89

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

thấy hiệu suất kém nhất và đạt được 80%
điểm F1. Mơ hình RF đạt giá trị hiệu suất
mô tốt nhất và đạt 92% điểm F1 (Bảng 3)

Bảng 4. Ma trận nhầm lẫn (Confusion matrix) của các mô hình


a. Mơ hình LR b. Mơ hình KNN c. Mơ hình DT

d. Mơ hình RF e. Mơ hình SVC f. Mơ hình XGBoost

g. Mơ hình CatBoost

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 59

Sử dụng các mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

Hình 3. Độ quan trọng của các thuộc tính dự báo trong mơ hình Random Forest

khẩu học của sinh viên thì ảnh hưởng rất ít là thời điểm sinh viên đã đủ thời gian quen
đến nguy cơ tốt nghiệp muộn của sinh viên. với mơi trường giáo dục đại học; kết quả
Thuộc tính TermStatus4- thông tin xử lý và tiến độ học tập của sinh viên đã dần ổn
kết quả học vụ kỳ 4 đóng vai trị quan trọng định. Đây là thời điểm quan trọng mà gia
nhất, và giữ vai trò quan trọng hơn với đình, nhà trường cần có sự quan tâm chú
TermStatus1, TermStatus2, TermStatus3 trọng đến sinh viên bên cạnh thời điểm bắt
là thơng tin xử lí học vụ của kì 1, 2, 3. đầu học kỳ 1 và học kỳ 8 để giúp cho sinh
Tương tự với xử lí học vụ thì số lượng tín viên định hướng chính xác lộ trình học đại
chỉ tích lũy và điểm trung bình tích lũy các học của mình từ đó thúc đẩy nâng cao tỷ lệ
học kỳ (GPA) cũng có quy luật như vậy. sinh viên tốt nghiệp đúng hạn.
Kết quả này cho thấy kết quả học tập của Mơ hình RF áp dụng với dữ liệu thực
sinh viên ở học kỳ 4 (điểm trung bình tích nghiệm cho kết quả 64 cây quyết định
lũy, thông tin xử lý kết quả học vụ học kỳ) (DT- Decision Tree) ảnh hưởng đến việc

đóng vai trị quan trọng nhất đến ảnh hưởng tốt nghiệp đúng hạn của sinh viên. Hình 4
đến khả năng tốt nghiệp đúng hạn của sinh biểu diễn 1 cây quyết định trong các cây
viên. Đây là mốc thời điểm quan trọng của quyết định kết quả. Các cây quyết định này
sinh viên vì kết thúc năm thứ 2 là năm bản cho thấy các quy luật ảnh hưởng đến kết
lề của các chương trình đào tạo đại học 4 quả tốt nghiệp đúng hạn của sinh viên được
năm của Học viện Ngân hàng nói riêng và rút ra từ tập dữ liệu thực nghiệm.
của Việt Nam nói chung: là thời điểm kết Để thực hiện phân tích sâu hơn tìm ra
thúc các học phần đại cương và bắt đầu với các thuộc tính ảnh hưởng đến mơ hình
các khối kiến thức cơ sở ngành đồng thời RF ra quyết định, nghiên cứu sử dụng kỹ

60 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

Hình 4. Kết quả 1 cây quyết định trong 64 cây quyết định kết quả của mơ hình RF

thuật LIME (Local Interpretable Model- giải thích cục bộ cũng như xác định tính
Agnostic Explanations- Phép diễn giải cục năng nào sẽ có ảnh hưởng cao nhất đến kết
bộ cho mơ hình bất khả tri). Kỹ thuật LIME quả dự đoán.
của Ribeiro và cộng sự (2016) dùng để mô Hình 5 cho thấy kết quả giải thích cho
tả kỹ thuật đưa ra một dự đoán tối ưu dựa trường hợp mẫu “Đúng hạn”. Theo Hình
trên lựa chọn các thuộc tính cục bộ thay 5, xác suất dự đoán cho lớp “Đúng hạn” là
cho toàn cục trên toàn bộ tập dữ liệu. Bằng 0,99. Ba thuộc tính ảnh hưởng lớn nhất đến
cách tạo ra một loạt các giải thích cho biết dự đốn (lớp “Đúng hạn”) và có ảnh hưởng
mỗi thuộc tính đóng góp như thế nào vào đến dự đoán là GPA4, GPA3, và GPA2.
kết quả dự đoán, LIME cung cấp một lời Lớp “Đúng hạn” được hỗ trợ bởi GPA4 =

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu


Hình 5. Kết quả LIME giải thích mơ hình RF bằng trường hợp tốt nghiệp đúng hạn trong
tập dữ liệu thử nghiệm

Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 61

Sử dụng các mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

Hình 6. Kết quả LIME giải thích mơ hình RF bằng trường hợp tốt nghiệp quá hạn trong
tập dữ liệu thử nghiệm

3,20; GPA2 = 2,5 và GPA3 = 3,83; Thuộc sự (2021) đã sử dụng mẫu cân bằng, kích
tính GPA4 = 3,20 có hệ số là 0,19; GPA2 thước mẫu nhỏ hơn, giải thuật đã được xử
= 2,5 có hệ số là 0,12, và GPA3 = 3,83 có lý bằng thuật toán di truyền trước khi áp
hệ số là 0,11, cho thấy rằng với hệ số lớn dụng RF, trong khi, nghiên cứu này với cỡ
hơn chứng tỏ các thuộc tính này đã tác động mãu phức tạp hơn và không xử lý dữ liệu
nhiều hơn đến kết quả dự đoán cuối cùng. bằng giải thuật nào trước khi chạy RF. So
Hình 6 cho thấy kết quả giải thích cho trường với kết quả nghiên cứu của Ploutz và cộng
hợp mẫu tốt nghiệp “Quá hạn”. Như thể sự (2018), với cùng xử lý dữ liệu mất cân
hiện trong Hình 6, xác suất dự đốn cho lớp bằng, cỡ mẫu và độ phức tạp tương đương
“Quá hạn” trong trường hợp này là 0,97. Vì nhau thì độ chính xác của mơ hình RF của
vậy, ba thuộc tính ảnh hưởng lớn nhất đến nghiên cứu này tốt hơn (92% so với 89%).
dự đoán (lớp “Quá hạn”) và có ảnh hưởng Kết quả nghiên cứu cho thấy các yếu tố như
tích cực đến dự đốn là CreditsEarned1, tình trạng xử lý học vụ các học kỳ, điểm
GPA2, và CreditsEarnned2. Lớp “Quá hạn” trung bình tích lũy các học kỳ, tín chỉ tích
được hỗ trợ bởi CreditsEarnned1 = 15,0 có lũy các học kỳ tác động mạnh mẽ đến khả
hệ số là 0,13; GPA2 = 1,69 có hệ số là 0,05; năng tốt nghiệp đúng hạn của sinh viên.
và CreditsEarnned2= 23,0 có hệ số là 0,04 Các nhóm sinh viên có nguy cơ tốt nghiệp

cho thấy rằng các thuộc tính này đã tác động muộn thuộc các sinh viên có kết quả học
nhiều hơn đến kết quả dự đoán cuối cùng. tập các học kỳ đầu thấp bao gồm các thuộc
Qua các kết quả nghiên cứu trên có thể tính số tín chỉ tích lũy, điểm trung bình tích
thấy việc sử dụng các mơ hình học máy lũy thấp.
như Random Forest có thể dự đốn sớm
các kết quả tốt nghiệp của sinh viên. Kết 5. Kết luận và một số khuyến nghị
quả này phù hợp với các nghiên cứu của
Hussain, S., & cộng sự (2021) và Ploutz 5.1. Kết luận
và cộng sự (2018). Tuy nhiên so với kết
quả nghiên cứu của Hussain, S., & cộng sự Nghiên cứu các mơ hình dự báo kết quả
(2021) độ chính xác của mơ hình RF trong học tập dựa trên các mơ hình học máy, học
nghiên cứu này có kết quả thấp hơn (92% sâu, trí tuệ nhân tạo nhằm mục đích phát
so với 96,4%) với nguyên nhân chính là triển các công cụ và phương pháp để giúp
trong nghiên cứu của Hussain, S., & cộng các trường đại học có thể dự đốn kết quả

62 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023

NGUYỄN VĂN THỦY

học tập của sinh viên và cung cấp cho họ tăng cường các hệ thống hỗ trợ sinh viên:
các giải pháp phù hợp để hỗ trợ học tập cho Hệ thống hỗ trợ sinh viên bao gồm hệ thống
sinh viên. Bằng dữ liệu sinh viên chuyên cố vấn học tập có khả năng nắm bắt đầy đủ
ngành Ngân hàng của Học viện Ngân hàng thơng tin và kết quả dự báo sớm tình hình
giai đoạn 2010-2020, nghiên cứu này đã học tập của sinh viên. Đội ngũ cố vấn học
chứng minh được hiệu quả của việc sử tập với thơng tin tồn diện về sinh viên sẽ
dụng các mơ hình Machine Learning để dự có khả năng tư vấn tốt nhất tới sinh viên
báo tình trạng tốt nghiệp đúng hạn của sinh trong việc giải quyết các vấn đề liên quan
viên. Kết quả cho thấy mơ hình Random đến học tập và cuộc sống có thể giúp tăng
Forest là mơ hình tối ưu nhất để dự đoán khả năng sinh viên tốt nghiệp đúng hạn.
tình trạng này và đã xác định được các Các hình thức hỗ trợ có thể bao gồm tư vấn

thuộc tính liên quan đến thơng tin xử lý học tập, hỗ trợ tâm lý, hỗ trợ sức khỏe và
học vụ và điểm trung bình các học kỳ các dịch vụ hỗ trợ khác.
1 đến 4 có tác động mạnh đến khả năng
tốt nghiệp đúng hạn của sinh viên. Việc áp 5.3. Định hướng nghiên cứu mở rộng
dụng các phương pháp này trong quản lý
giáo dục có thể giúp nhà trường đưa ra các Hạn chế của nghiên cứu là tập dữ liệu
quyết định đúng đắn và hiệu quả để hỗ trợ nghiên cứu chưa có các thuộc tính về hành
sinh viên đồng thời nâng cao tỷ lệ sinh viên vi, thái độ học tập của sinh viên trong quá
tốt nghiệp đúng hạn. trình học đại học như thời gian dành cho
học tập nghiên cứu mỗi học kỳ, thái độ
5.2. Một số khuyến nghị học tập với các học phần trong học kỳ, môi
trường học tập giảng dạy, sự hỗ trợ của nhà
Để nâng cao được tỷ lệ sinh viên tốt nghiệp trường, gia đình, xã hội, phương tiện dạy
đúng hạn, dựa trên kết quả phân tích trên, và học, các xu hướng xã hội liên quan đến
một số khuyến nghị được nghiên cứu đề ngành nghề theo học... Điều này có thể ảnh
xuất với các cơ sở giáo dục đại học là: hưởng đến độ chính xác của mơ hình dự
Thứ nhất, các cơ sở giáo dục cần quan tâm báo. Hạn chế khác của nghiên cứu là tập
xây dựng các công cụ và phương pháp dự dữ liệu chỉ của sinh viên ngành Ngân hàng
báo sớm kết quả học tập của sinh viên. chưa thực hiện trên tập dữ liệu tất cả các
Cùng với dữ liệu về quá trình đào tạo của ngành đào tạo đồng thời. Một hạn chế khác
sinh viên, các trường cần dựa trên các của nghiên cứu là các mơ hình nghiên cứu
phương pháp phân tích dữ liệu bằng học đang thực nghiệm là các mơ hình học máy
máy, học sâu, trí tuệ nhân tạo để xây dựng đơn lẻ, cần có sự cải tiến và áp dụng các mơ
các bộ cơng cụ và phương pháp có thể dự hình học máy kết hợp, cải tiến hoặc các mơ
báo sớm chính xác kết quả học tập của sinh hình học sâu (deep learning) để nâng cao
viên theo từng học kỳ, năm học để từ đó có độ chính xác của mơ hình dự báo.
các căn cứ có các biện pháp tác động tới cá Có nhiều hướng nghiên cứu mở rộng tiềm
nhân từng sinh viên trong quá trình đào tạo năng theo chủ đề này như: Nghiên cứu cải
tại trường. Các hệ thống này sẽ là các công tiến các mơ hình dự báo sớm kết quả học
cụ hỗ trợ tích cực, cảnh báo sớm cho chính tập của sinh viên để cải thiện độ chính xác

bản thân sinh viên, gia đình và nhà trường của mơ hình thơng qua cải tiến và kết hợp
trong quá trình học tập. các mơ hình truyền thống của học máy, học
Thứ hai, các cơ sở giáo dục cần chú trọng sâu… Nghiên cứu dự báo sớm các tình trạng

Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 63

Sử dụng các mô hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp đúng hạn

khác của sinh viên như nguy cơ buộc thôi
học, nguy cơ không tốt nghiệp, dự báo sớm
kết quả tốt nghiệp… Nghiên cứu dự báo
sớm trên tập dữ liệu tổng thể của các ngành
đào tạo của các cơ sở giáo dục đại học. ■

Tài liệu tham khảo

Al Mayahi, K., & Al-Bahri, M. (2020, October), Machine learning based predicting student academic success, In 2020
12th International Congress on Ultra Modern Telecommunications and Control Systems and Workshops (ICUMT)
(pp. 264-268), IEEE.

Bujang, S. D. A., Selamat, A., & Krejcar, O. (2021, February), A predictive analytics model for students grade prediction
by supervised machine learning, In IOP Conference Series: Materials Science and Engineering (Vol. 1051, No. 1,
p. 012005), IOP Publishing.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002), SMOTE: synthetic minority over-sampling
technique, Journal of artificial intelligence research, 16, 321-357.

Hand, D. J. (2009), Measuring classifier performance: a coherent alternative to the area under the ROC curve, Machine
learning, 77(1), 103-123.


Học viện Ngân hàng (2023), Dữ liệu phần mềm quản lý đào tạo UIS, ngày truy cập 10/03/2022.
Hussain, S., & Khan, M. Q. (2021), Student-performulator: Predicting students’ academic performance at secondary

and intermediate level using machine learning, Annals of data science, 1-19.
Jeslet, D. S., Komarasamy, D., & Hermina, J. J. (2021, May), Student Result Prediction in Covid-19 Lockdown using

Machine Learning Techniques, In Journal of Physics: Conference Series (Vol. 1911, No. 1, p. 012008), IOP
Publishing
Nabil, A., Seyam, M., & Abou-Elfetouh, A. (2021), Prediction of students’ academic performance based on courses’
grades using deep neural networks, IEEE Access, 9, 140731-140746.
Nguyễn, P. H., Tian-Wei, S., & Masatake, N. (2015), Dự báo kết quả học tập của học sinh dựa trên sự kết hợp phương
pháp gần đúng Taylor và các mơ hình xám, VNU Journal of Science: Education Research, 31(2).
Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Dự báo kết quả học tập của sinh viên bằng phương pháp khai phá dữ liệu,
Tạp chí khoa học, Đại học Vinh, Số 3A/2019, trang 68-73.
Lưu Hoài Sang, Trần Thanh Điện, Nguyễn Thanh Hải, Nguyễn Thái Nghe (2020), Dự báo kết quả học tập bằng kỹ thuật
học sâu với mạng nơ-ron đa tầng, Tạp chí Khoa học Trường Đại học Cần Thơ, 56(3), 20-28.
Pallathadka, H., Wenda, A., Ramirez-Asís, E., Asís-López, M., Flores-Albornoz, J., & Phasinam, K. (2021), Classification
and prediction of student performance data using various machine learning algorithms, Materials today:
proceedings.
Ploutz, E. C. (2018), Machine Learning Applications in Graduation Prediction at the University of Nevada, Las Vegas,
Doctoral dissertation, University of Nevada, Las Vegas.
Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., & Gulin, A. (2018), CatBoost: unbiased boosting with
categorical features, Advances in neural information processing systems, 31.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016), Model-agnostic interpretability of machine learning
Ray, S. (2019), A quick review of machine learning algorithms, In 2019 International conference on machine learning,
big data, cloud and parallel computing (COMITCon) (pp. 35-39). IEEE.
Tharwat, A. (2021), Classification assessment methods, Applied computing and informatics, 17(1), 168-192, https://
www.emerald.com/insight/content/doi/10.1016/j.aci.2018.08.003/full/pdf
VnExpress(2022), Những sinh viên không ngại ra trường muộn, Truy cập ngày 09 tháng 03 năm 2023, từ https://
vnexpress.net/nhung-sinh-vien-khong-ngai-ra-truong-muon-4533012.html.


64 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023


×