Tải bản đầy đủ (.pdf) (7 trang)

Ứng dụng thuật toán kết hợp Stacking trong quy trình xử lý dữ liệu nhằm tăng độ chính xác kết quả dự đoán xếp loại thi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (437.73 KB, 7 trang )

ỨNG DỤNG THUẬT TỐN KẾT HỢP STACKING TRONG
QUY TRÌNH XỬ LÝ DỮ LIỆU NHẰM TĂNG ĐỘ CHÍNH XÁC
KẾT QUẢ DỰ ĐOÁN XẾP LOẠI THI
Đặng Minh Quân, Cao Thị Thu Hương
Trường Đại học Kinh tế Quốc dân
Tóm tắt: Việc dự đốn chính xác kết quả thi có thể đem lại lợi ích to lớn cho người dạy
và người học. Các ý tưởng về việc dự đoán kết quả thi chủ yếu xuất hiện cách đây hơn chục
năm. Các kỹ thuật xử lý dữ liệu và dự đoán sử dụng trong các nghiên cứu đó chủ yếu sử dụng
các thuật tốn dự đốn riêng lẻ. Trong nghiên cứu này, chúng tơi muốn tìm hiểu xem liệu việc
ứng dụng thuật tốn kết hợp Stacking có đem lại kết quả dự đốn cao hơn hay khơng.
Từ khóa: xử lý dữ liệu, xếp loại thi, dự đoán, thuật toán kết hợp Stacking
1. Đặt vấn đề
Mọi hệ thống giáo dục đều bao gồm một hệ thống kiểm tra, qua đó phẩm chất và năng
lực của người học được đánh giá bằng cách cho điểm và xếp loại cho họ. Kiểm tra cung cấp
một bằng chứng hữu hình về năng lực của người học cho lớp cấp cao hơn hoặc cho một khóa
học chuyên nghiệp cụ thể. Nếu khơng có điều này, chúng ta khơng thể biết người học đạt được
những gì từ hệ thống giáo dục của mình.
Việc dự đốn chính xác kết quả thi có thể đem lại lợi ích to lớn cho người dạy và người
học. Khơng có nhà giáo nào muốn sinh viên của mình đạt kết quả thấp trong kỳ thi. Nếu có kết
quả dự đốn một cách chính xác, giáo viên có thể có kế hoạch cụ thể nhằm giúp đỡ các đối
tượng có nguy cơ đạt kết quả khơng như mong muốn. Với người học, một kết quả dự đốn
chính xác có thể như một lời cảnh tỉnh giúp họ xem xét lại quá trình học tập của mình.
Kết quả của một kỳ thi có thể có các loại sau:
- Điểm số cụ thể: Với nền giáo dục Việt Nam, điểm số phổ biến là từ 0 đến 10.
- Xếp loại: Một sinh viên có thể được xếp thành loại giỏi, khá, trung bình, yếu, kém.
- Đỗ/trượt.
Trong khn khổ bài báo này, chúng tơi tập trung vào hình thức kết quả xếp loại.
Các ý tưởng về việc dự đoán kết quả thi chủ yếu xuất hiện cách đây hơn chục năm. Do
đó, các kỹ thuật xử lý dữ liệu và dự đốn sử dụng trong các nghiên cứu đó đã tương đối lạc hậu.
Việc dự đoán chỉ mới dừng ở sự ứng dụng các thuật toán dự đoán riêng lẻ. Trong nghiên cứu
này, chúng tơi muốn tìm hiểu xem liệu việc ứng dụng thuật tốn kết hợp Stacking có đem lại


kết quả dự đốn cao hơn hay khơng.
Để làm được điều này, chúng tơi sử dụng bộ dữ liệu có sẵn đã được dùng trong cơng
trình nghiên cứu trước đó [1]. Chúng tôi xếp loại theo năm mức: giỏi, khá, trung bình, yếu,
kém. Với bộ dữ liệu này, đầu tiên, chúng tơi ứng dụng quy trình xử lý dữ liệu tiên tiến nhất hiện
nay với các thuật toán dự đoán riêng lẻ. Sau đó, chúng tơi ứng dụng thuật tốn kết hợp stacking.
Hiệu năng của các thử nghiệm được ghi lại và so sánh.

475


Bài báo này được tổ chức như sau: mô tả các nghiên cứu có liên quan đến việc dự đốn
kết quả thi; trình bày thuật tốn kết hợp Stacking trong quy trình xử lý dữ liệu tiên tiến nhằm
dự đốn kết quả thi; Thực nghiệm về hiệu năng của việc ứng dụng thuật tốn kết hợp Stacking;
cung cấp một tóm tắt ngắn của bài báo.
2. Tổng quan các nghiên cứu có liên quan
Trên thực tế, một số nghiên cứu đã đề cập đến chủ đề dự đoán kết quả thi. Ma và cộng
sự (2000) đã áp dụng cách tiếp cận khai phá dữ liệu dựa trên các luật kết hợp để chọn các sinh
viên yếu kém tại Singapore để tham gia các lớp học phụ đạo [2]. Đầu vào là các biến bao gồm
các thuộc tính nhân khẩu học (ví dụ: giới tính, khu vực) và thành tích học tập tại trường trong
những năm vừa qua. Giải pháp được đề xuất có hiệu năng vượt trội hơn so với thủ tục phân
bổ chỉ tiêu truyền thống. Năm 2003, theo Minaei-Bidgoli và cộng sự [3], điểm số của học
sinh học trực tuyến tại trường đại học Michigan State được mơ hình hóa bằng cách sử dụng
ba cách tiếp cận phân loại (nhị phân: đạt / không đạt; 3 cấp: thấp, trung bình, cao; và 9 cấp:
từ 1 - điểm thấp nhất đến 9 - điểm cao nhất) [3]. Các cơ sở dữ liệu bao gồm 227 mẫu với
các tính năng trực tuyến (ví dụ: số bài tập về nhà đã làm và làm đúng). Kết quả tốt nhất thu
được bằng cách áp dụng nhóm phân loại (ví dụ: Cây quyết định và Mạng neuron) với tỷ lệ
chính xác là 94% (nhị phân), 72% (3 lớp) và 62% (9 lớp). Kotsiantis và cộng sự [4] đã áp
dụng một số thuật toán khai phá dữ liệu để dự đoán kết quả thi của sinh viên khoa học máy
tính từ một chương trình đào tạo từ xa của trường đại học. Đối với mỗi sinh viên, các thuộc
tính nhân khẩu học (ví dụ: giới tính, tuổi, tình trạng hơn nhân) và các thuộc tính hiệu năng

(ví dụ: điểm của các bài tập về nhà) được sử dụng làm đầu vào của một bộ phân loại nhị
phân đạt/không đạt. Kết quả tốt nhất đã thu được bằng cách sử dụng thuật toán Naive Bayes
với độ chính xác 74%. Ngồi ra, các tác giả cũng nhận thấy rằng các biến hiệu năng có tác
động cao hơn nhiều hơn các biến nhân khẩu học. Gần đây hơn, Pardos và cộng sự đã thu
thập dữ liệu từ các bài kiểm tra toán lớp 8 liên quan đến hệ thống dạy kèm trực tuyến tại
Hoa Kỳ [5]. Các tác giả đã áp dụng một cách tiếp cận hồi quy với mục tiêu là dự đoán điểm
kiểm tra toán dựa trên các kỹ năng cá nhân. Các tác giả đã sử dụng Bayesian Networks và
kết quả tốt nhất là một sai số dự đoán khoảng 15%.
Trong nghiên cứu này, chúng tôi xuất phát từ dữ liệu được mô tả trong [6]. Bộ dữ liệu
có ba thành phần chính.
- Thành phần thứ nhất là bảng điểm trong quá khứ, cụ thể hơn là các điểm kiểm tra lần
1 và lần 2.
- Thành phần thứ hai là tập hợp một số thuộc tính nhân khẩu học, xã hội và trường học
được thống kê lại (ví dụ: tuổi học sinh, mức độ tiêu thụ rượu, trình độ học vấn của người mẹ).
- Thành phần thứ ba là kết quả thi được phân loại theo năm cấp độ: giỏi, khá, trung
bình, yếu, kém.
Để dự đốn kết quả thi, chúng tơi đã sử dụng quy trình xử lý dữ liệu tiên tiến với các
thuật tốn dự đoán riêng lẻ như sau [1]:

476


Data

Tóm tắt
dữ liệu

Kết
quả


Dự
đốn

Thám
hiểm
dữ liệu

Huấn
luyện

Chuẩn
hóa
dữ liệu

Phân chia
dữ liệu

Chuyển đổi
dữ liệu
phân loại

Giảm kích
thước đầu
vào dữ liệu

Hình 1: Quy trình xử lý dữ liệu với các thuật tốn riêng lẻ
Tóm tắt dữ liệu giúp chúng ta có cái nhìn tồn cảnh về dữ liệu. Khám phá dữ liệu sử
dụng các kỹ thuật thống kê và trực quan hóa dữ liệu để mơ tả các đặc điểm của tập dữ liệu,
chẳng hạn như: kích thước, số lượng và độ chính xác, nhằm hiểu rõ hơn về bản chất của dữ liệu.
Làm sạch và chuyển đổi dữ liệu xử lý các dữ liệu thừa, thiếu và đưa chúng về dạng chuẩn. Giảm

kích thước đầu vào sẽ chọn ra các trường dữ liệu quan trọng nhất. Mơ tả cụ thể các bước của
quy trình xử lý dữ liệu này có thể được xem trong [1].
Trong nghiên cứu này, chúng tôi vẫn tiếp tục sử dụng quy trình xử lý dữ liệu trên. Tuy
nhiên, ở bước huấn luyện và dự đốn, thay vì dùng các thuật tốn đơn lẻ, chúng tôi dùng phương
pháp kết hợp stacking.
3. Quy trình xử lý dữ liệu dự đốn xếp hạng thi sử dụng thuật tốn kết hợp stacking
Tổng quan quy trình dự đoán xếp hạng thi sử dụng thuật toán kết hợp Stacking được mơ
tả trong Hình 2.
Thám hiểm
dữ liệu

Chuẩn hóa
dữ liệu

Chuyển đổi
dữ liệu
phân loại

Thuật toán kết hợp stacking

Phân chia
dữ liệu

Giảm kích
thước đầu
vào dữ liệu

Tóm tắt
dữ liệu


Data

Kết
quả

Hình 2: Quy trình xử lý dữ liệu dùng thuật toán kết hợp stacking
Thuật toán kết hợp Stacking được mô tả cụ thể hơn trong Hình 3. Trong thuật tốn này,
chúng ta sử dụng nhiều mơ hình dự đốn riêng lẻ để tạo ra tập dữ liệu huấn luyện/dự đốn mới. Sau
đó, tập dữ liệu mới này được dùng để huấn luyện một mơ hình dự đốn khác và thực hiện dự đốn.

Dữ
liệu

Tạo các
mơ hình dự
đốn cơ sở

Tạo tập dữ
liệu huấn
luyện/dự
đốn mới

Huấn
luyện và
dự đốn

Kết
quả

Hình 3: Thuật toán kết hợp stacking

477


Quy trình huấn luyện các mơ hình
Từ Hình 3, chúng ta có thể thấy việc huấn luyện một mơ hình dự đoán trong thuật toán
kết hợp Stacking được thực hiện khá nhiều lần. Q trình huấn luyện được mơ tả theo Hình 4.

Tiến trình
Dữ liệu

Thuật
tốn

Tiến trình

Mơ hình
dự đốn

Tiến trình

Tập các
tham số
Hình 4: Cơ chế huấn luyện mơ hình dự đốn
Để huấn luyện mơ hình dự đốn, bên cạnh việc sử dụng dữ liệu đã được chuẩn hóa,
chúng tơi cịn cần tập các tham số. Quá trình huấn luyện sẽ sử dụng các tập tham số khác nhau
để luyện, xác thực nhằm tìm ra tập tham số tối ưu. Do có nhiều tập tham số nên q trình huấn
luyện có thể sẽ kéo dài. Để hạn chế tình trạng này, chúng tơi cài đặt để việc huấn luyện có thể
được thực hiện song song trên các lõi của bộ vi xử lý.
Tạo các mơ hình dự đốn cơ sở


Dữ liệu
huấn
luyện

Thuật
tốn
cơ sở
1

Thuật
tốn
cơ sở
2



Thuật
tốn
cơ sở
n

Các mơ
hình dự
đốn cơ
sở

Hình 5: Tạo các mơ hình dự đoán cơ sở
Với cùng một bộ dữ liệu huấn luyện đầu vào, chúng ta dùng nhiều thuật toán cơ sở khác
nhau để huấn luyện nhằm tạo ra các mô hình dự đốn cơ sở. Điều này có thể khả thi do hiện
nay các thuật toán dự đoán riêng lẻ cho mỗi lớp bài toán đã xuất hiện khá nhiều. Ví dụ với bài

tốn phân loại đa nhóm trong bài báo này, chúng ta có thể có các thuật tốn riêng lẻ như RF
[7], RPART [8], XGB [9], SDA [10], KNN [11],…

478


Tạo tập dữ liệu huấn luyện/dự đốn mới

Các mơ hình
dự đốn cơ sở

Các mơ
hình dự
đốn cơ sở

Dữ liệu
huấn luyện

Thực hiện
dự đốn
Dữ liệu dự
đốn mới

Dữ liệu dự
đốn

Hình 6: Tạo tập dữ liệu huấn luyện/dự đốn mới
Ở bước này, các mơ hình dự đoán cơ sở được áp dụng với bộ dữ liệu huấn luyện và bộ
dữ liệu dự đoán nhằm tạo ra bộ dữ liệu huấn luyện mới và bộ dữ liệu dự đoán mới. Lưu ý rằng,
kết quả dự đoán của các mơ hình dự đốn cơ sở là các giá trị phân loại. Vì vậy, sau bước này,

bộ dữ liệu huấn luyện mới và bộ dữ liệu dự đoán mới chỉ bao gồm các giá trị phân loại.
Huấn luyện và dự đoán với bộ dữ liệu mới

Dữ liệu
huấn
luyện
mới

Luyện thuật
toán cơ sở

Tập các
tham số

Mơ hình
dự đốn

Dự đốn

Kết quả

Dữ liệu dự
đốn mới

Hình 7: Quy trình huấn luyện/dự đốn với tập dữ liệu mới
Ở bước này, chúng ta lại sử dụng một thuật toán cơ sở để thực hiện huấn luyện và dự
đoán trên tập dữ liệu mới. Như vậy chúng ta thấy tư tưởng chủ đạo của thuật toán kết hợp
Stacking là sử dụng nhiều thuật toán cơ sở và sử dụng lặp lại các thuật toán cơ sở với các bộ dữ
liệu được biến đổi từ dữ liệu gốc.


479


4. Kiểm tra hiệu năng
Bảng 1: Kết quả kiểm tra hiệu năng
Tên thuật toán
rút gọn

Hiệu năng
(%)

SDA

80,26

RF

84,21

Recursive Partitioning and
Regression Trees

RPART

86,80

Extreme gradient boosting

XGB


86,80

K nearest neighbors

KNN

81,58

Tên thuật toán đầy đủ
Shrinkage Discriminant Analysis
Random forest

Hiệu năng thuật
toán Stacking (%)

88,15

Việc kiểm tra hiệu năng nhằm đánh giá xem liệu việc sử dụng thuật toán kết hợp
Stacking có đem lại kết quả dự đốn tốt hơn các thuật tốn riêng lẻ hay khơng. Để thực hiện
việc này, chúng tơi sử dụng bộ dữ liệu có sẵn đã được dùng trong tài liệu tham khảo số [6].
Chúng tôi chia dữ liệu ra năm phần. Bốn phần dùng để huấn luyện. Một phần dùng để dự đoán
và kiểm tra kết quả. Ở bước thứ sáu, với quy trình sử dụng các thuật tốn riêng lẻ chúng tơi sử
dụng một số thuật toán dự đoán phổ biến hiện nay cho mục đích phân loại nhiều lớp như RF
[7], RPART [8], XGB [9], SDA [10], KNN [11]. Với thuật toán kết hợp stacking, các thuật toán
cơ sở bao gồm RPART [8], SDA [10], thuật toán kết hợp là RPART [8]. Kết quả được mô tả
trong Bảng 1.
Từ kết quả mô tả trong Bảng 1, chúng ta có thể thấy với quy trình xử lý dữ liệu dùng thuật
tốn kết hợp stacking, chúng ta có thể đạt được hiệu năng cao hơn so với việc sử dụng các thuật toán
dự đoán đơn lẻ trong tất cả các trường hợp. Tuy nhiên, sự khác nhau về hiệu năng là không đồng nhất.
Một số thuật tốn riêng lẻ có hiệu năng tiếp cận với thuật toán kết hợp như XGB, RPART.

5. Kết luận
Dự đoán chính xác kết quả thi rất quan trọng cho cơng tác cố vấn học tập trong các cơ
sở giáo dục và đào tạo. Bài báo này của chúng tôi nằm trong chuỗi các nỗ lực nhằm tăng độ
chính xác kết quả dự đoán xếp hạng thi. Cụ thể hơn, chúng tơi đã ứng dụng thuật tốn kết hợp
Stacking vào quy trình xử lý dữ liệu tiên tiến. Quy trình xử lý dữ liệu tiên tiến tạo ra bộ dữ liệu
đầu vào hiệu quả cho các thuật toán dự đoán. Thuật toán Stacking đi xa hơn bằng cách tạo ra
một bộ dữ liệu đầu vào hoàn toàn mới. Bộ dữ liệu mới này giúp các thuật toán dự đoán cho ra
kết quả tốt hơn.
Để kiểm tra hiệu năng chúng tôi đã dùng một bộ dữ liệu của nghiên cứu trong quá khứ
để dễ kiểm tra. Kết quả thực nghiệm cho thấy với quy trình xử lý dữ liệu dùng thuật tốn kết
hợp Stacking, chúng ta có thể đạt được hiệu năng cao hơn so với việc sử dụng các thuật toán
dự đoán đơn lẻ trong tất cả các trường hợp. Đây là kết quả rất đáng khích lệ để ứng dụng, cập
nhật quy trình xử lý dữ liệu cho các hệ thống hiện có hoặc chuẩn bị được xây dựng. Quy trình
xử lý dữ liệu này cũng là tiền để để phát triển các kỹ thuật xử lý dữ liệu tốt hơn nhằm đem lại
hiệu năng cao hơn của chúng tôi trong tương lai.

480


Tài liệu tham khảo
1. Quân, Đ.M. (2021), Ứng dụng quy trình xử lý dữ liệu tiên tiến nhằm tăng độ chính
xác kết quả dự đốn xếp loại thi, in Ứng dụng công nghệ thông tin trong đổi mới phương pháp
giảng dạy theo hướng Blended Learning. p. 114-121.
2. Ma, Y., et al. (2000), Targeting the right students using data mining. In Proceedings of
the sixth ACM SIGKDD international conference on Knowledge discovery and data mining. 2000.
3. Minaei-Bidgoli, B., et al., (2003), Predicting student performance: an application
of data mining methods with an educational web-based system. in 33rd Annual Frontiers in
Education, 2003. FIE 2003. 2003. IEEE.
4. Kotsiantis, S., C. Pierrakeas, and P. J. A. A. I. Pintelas (2004), Predicting students'
performance in distance learning using machine learning techniques. 18(5): p. 411-426.

5. Pardos, Z.A., et al. (2006), Using fine-grained skill models to fit student
performance with Bayesian networks. in Workshop in Educational Data Mining held at the 8th
International Conference on Intelligent Tutoring Systems. Taiwan.
6. Cortez, P. and A.M.G. Silva (2008), Using data mining to predict secondary school
student performance.
7. Hastie, T., R. Tibshirani, and J. Friedman (2009), Boosting and additive trees, in
The elements of statistical learning, Springer. p. 337-387.
8. Breiman, L., et al. (2017), Classification and regression trees. 2017: Routledge.
9. Chen, T. and C. Guestrin (2016). Xgboost: A scalable tree boosting system. in
Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and
data mining.
10. Hilpisch, Y. (2018), Python for finance: Mastering data-driven finance. 2018:
O'Reilly Media.
11. Venables, W.N. and B.D. Ripley (2013), Modern applied statistics with S-PLUS.
2013: Springer Science & Business Media.

481



×