Tải bản đầy đủ (.pdf) (77 trang)

Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 77 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

TRẦN THỊ THU TRANG

NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT LẤY MẪU
PHỤC VỤ CHO BÀI TOÁN DỰ ĐOÁN ĐIỂM
SINH VIÊN ĐẠI HỌC
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 8340405

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 07 năm 2023



CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS. TS. Thoại Nam
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1: TS. Đặng Trần Trí
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2: PGS. TS. Nguyễn Tuấn Đăng
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM
ngày 10 tháng 7 năm 2023


Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch hội đồng: PGS. TS. Trần Minh Quang
2. Ủy viên phản biện 1: TS. Đặng Trần Trí
3. Ủy viên phản biện 2: PGS. TS. Nguyễn Tuấn Đăng
4. Ủy viên hội đồng: TS. Trương Thị Thái Minh
5. Thư ký hội đồng: TS. Nguyễn Thị Ái Thảo
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

i


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TRẦN THỊ THU TRANG

MSHV: 2170514

Ngày, tháng, năm sinh: 01/06/1982


Nơi sinh: TPHCM

Ngành: Hệ thống Thông tin quản lý

Mã số: 8340405

I. TÊN ĐỀ TÀI
Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho bài toán dự đoán điểm sinh viên
đại học
(Research and develop sampling techniques for the problem of predicting university
students' scores)

-

II. NHIỆM VỤ VÀ NỘI DUNG
-

Tìm hiểu các phương pháp, kỹ thuật lấy mẫu ứng dụng phục vụ cho bài toán dự đoán
điểm sinh viên đại học
Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên và xây dựng mơ hình dự đốn
điểm của sinh viên đại học.

III. NGÀY GIAO NHIỆM VỤ : 06/02/2023.
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 11/6/2023
V.

CÁN BỘ HƯỚNG DẪN: PGS.TS. Thoại Nam
Tp. HCM, ngày 12 tháng 6 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)


HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)

PGS.TS Thoại Nam
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)

ii


LỜI CẢM ƠN

Với lòng biết ơn sâu sắc nhất, em xin gửi đến các Thầy Cô khoa Khoa học và
Kỹ thuật Máy tính trường Đại học Bách Khoa TPHCM đã hết lòng chỉ dạy, trang bị
cho em kiến thức nền tảng bổ ích, cùng với sự hỗ trợ của gia đình đã tạo điều kiện,
động viên, ủng hộ em trong quá trình học tập tại trường.
Đặc biệt, em xin chân thành cảm ơn PGS.TS. Thoại Nam đã tận tâm hướng
dẫn, động viên, truyền đạt nhiều kiến thức, kinh nghiệm quý báu giúp em thực hiện
luận văn này.
Mặc dù, đã có nhiều cố gắng nhưng luận văn sẽ không thể tránh khỏi những
thiếu sót, chưa hồn thiện, em rất mong nhận được những ý kiến đóng góp quý báu của
quý Thầy Cơ để em rút kinh nghiệm, tích lũy kiến thức trong lĩnh vực này được hoàn
thiện hơn.
Sau cùng, em xin kính chúc q Thầy Cơ cùng gia đình dồi dào sức khỏe, luôn
thành công trong sự nghiệp và cuộc sống.

iii



TÓM TẮT

Trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM cũng như nhiều
trường đại học khác đang có số liệu về kết quả học tập của sinh viên hằng năm học tại
trường. Tuy nhiên, việc ứng dụng bộ dữ liệu này phục vụ công tác dự báo điểm cho
sinh viên và quản lý trường Đại học còn nhiều hạn chế. Khi các khoa và trường đại
học thực hiện các dự án nghiên cứu, việc chọn mẫu dữ liệu là một bước quan trọng để
thu thập thông tin cần thiết. Việc chọn mẫu dữ liệu phù hợp với đặc điểm riêng của
từng trường sẽ đảm bảo rằng dữ liệu được xử lý đưa vào mơ hình phân tích dự đốn sẽ
có tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích.
Mục tiêu luận văn của tôi là việc nghiên cứu, áp dụng các kỹ thuật lấy mẫu
trong thống kê kết hợp phương pháp lấy mẫu trong học máy (Machine Learning) dựa
vào heuristic nghiên cứu giáo dục đại học để ứng dụng vào việc tiền xử lý dữ liệu và
chọn mẫu phân tích để đưa vào mơ hình dự đốn sớm điểm các mơn học cho sinh viên
đại học dựa trên dữ liệu quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại
học Bách Khoa - ĐHQG - TPHCM. Phương pháp lấy mẫu trong luận văn này hướng
đến xây dựng tập dữ liệu huấn luyện nhỏ nhưng kết quả dự đốn điểm của sinh viên
phải đảm bảo một độ chính xác nhất định.

iv


ABTRACT
Ho Chi Minh City University of Technology - Vietnam National University Ho
Chi Minh City (HCMUT), as well as many other universities, are having data on the
student learning outcomes every year. However, the application of this dataset for
student perfomance forecasting and the University management is still limited. When
faculties and universities undertake research projects, data sampling is an important
step in gathering the necessary information. Matching the data sample to the unique

characteristics of each school will ensure that the processed data fed into the predictive
analytics model will be representative and applicable to research and analysis.
The goal of my thesis is a combination of research and application of sampling
techniques in statistics combined with sampling methods in machine learning based on
heuristics in the higher education research to apply in pre-processing data and selecting
analytical samples to include in an early prediction model of subject grades for
university students based on past data that students of all faculties have studied at Ho
Chi Minh City University of Technology - Vietnam National University Ho Chi Minh
City. The sampling methods in this thesis is aimed to building a small training dataset,
but the student's grades prediction results must ensure a certain accuracy.

v


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu, phát triển kỹ thuật lấy mẫu phục vụ cho
bài toán dự đoán điểm sinh viên đại học” là nghiên cứu của riêng tôi. Các số liệu, tài
liệu sử dụng trong luận văn là trung thực. Tất cả những tài liệu tham khảo, kế thừa đều
được trích dẫn và tham chiếu đầy đủ.
TP. HCM, ngày 12 tháng 6 năm 2023.
Người cam đoan

Trần Thị Thu Trang

vi


MỤC LỤC
LỜI CẢM ƠN .............................................................................................................. iii
TÓM TẮT.................................................................................................................... iv

ABTRACT.................................................................................................................... v
LỜI CAM ĐOAN ........................................................................................................ vi
MỤC LỤC .................................................................................................................. vii
DANH MỤC TỪ VIẾT TẮT ....................................................................................... x
DANH MỤC BẢNG ................................................................................................... xi
DANH MỤC HÌNH VÀ BIỂU ĐỒ............................................................................ xii
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ............................................................................ 1
1.1. Giới thiệu đề tài............................................................................................... 2
1.1.1.

Giới thiệu vấn đề cần nghiên cứu ......................................................... 2

1.1.2.

Đối tượng nghiên cứu ........................................................................... 2

1.1.3.

Phạm vi nghiên cứu .............................................................................. 2

1.2. Mục tiêu nghiên cứu ....................................................................................... 3
1.3. Nội dung nghiên cứu ....................................................................................... 3
1.4. Ý nghĩa đề tài .................................................................................................. 4
1.4.1

Ý nghĩa khoa học ..................................................................................... 4

1.4.2

Ý nghĩa thực tiễn của luận văn ................................................................. 4


1.4.2.1

Ý nghĩa thực tiễn đối với nhà trường ................................................ 4

1.4.2.2

Ý nghĩa thực tiễn đối với sinh viên đại học ...................................... 5

1.5. Cấu trúc luận văn ............................................................................................ 5
1.6. Kết luận chương 1 ........................................................................................... 6
CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU .............................................................. 7
2.1. Một số khái niệm ............................................................................................ 8
2.1.1.

Lấy mẫu (Sampling) là gì ? .................................................................. 8

2.1.2.

Học máy có giám sát (Supervised Machine Learning)......................... 9

2.1.3.

Cây quyết định (Decision Trees) .......................................................... 9

2.1.4.

Hàm mất mát (Loss function) ............................................................... 9
vii



2.1.5.

Kỹ thuật xuống đồi (Gradient descent) ................................................. 9

2.2. Ưu điểm, nhược điểm lấy mẫu theo thống kê truyền thống ......................... 11
2.3. Phân biệt các phương pháp Lấy mẫu ............................................................ 12
2.4. Phương pháp Lấy mẫu theo nhóm (Clustering Sampling) ........................... 14
2.5. Phương pháp dự đoán điểm sinh viên đại học .............................................. 15
2.5.1.

Gradient Boosting (tăng cường độ dốc) ............................................. 15



Thuật toán Gradient Boosting tổng qt ................................................... 15



Hoạt động của mơ hình tăng cường độ dốc (Gradient Boosting model)... 16

2.5.2.


XGBoost ............................................................................................. 17

Hoạt động của mơ hình XGBoost ............................................................. 17

2.6. Đánh giá độ chính xác của mơ hình dự đốn ................................................ 18
2.7. Các cơng trình nghiên cứu nổi bật trong giáo dục đại học ........................... 19

2.8. Kết luận chương 2 ......................................................................................... 20
CHƯƠNG 3: PHÂN TÍCH VÀ GIẢI PHÁP ......................................................... 21
3.1

Mơ tả bài tốn ............................................................................................... 22

3.2

Các đặc trưng của dữ liệu sinh viên đại học Bách Khoa .............................. 22

3.3

Phân bố điểm sinh viên đại học Bách Khoa ................................................. 23

3.4

Độ xiên (skewness) và Kurtosis điểm của sinh viên .................................... 31

3.5

Xây dựng mơ hình dự đốn điểm sinh viên .................................................. 32

3.5.1.

Kiến trúc tổng quan của bài toán ........................................................ 32

3.5.2.

Các bước thực hiện Tiền xử lý dữ liệu ............................................... 33


3.6

Giải pháp cho bài toán .................................................................................. 36

3.7

Kết luận chương 3 ......................................................................................... 37

CHƯƠNG 4 : KẾT QUẢ VÀ ĐÁNH GIÁ ................................................................ 38
4.1

Thực nghiệm dự đoán điểm sinh viên ........................................................... 39

4.1.1.
4.2

Tiền xử lý dữ liệu ................................................................................ 39

Đánh giá độ chính xác của mơ hình dự đốn điểm ....................................... 46

4.2.1

Phương pháp Gradient Boosting Regression............................................. 46

4.2.2

Phương pháp XGBoost .............................................................................. 50
viii



4.3

Kết luận chương 4 ......................................................................................... 53

CHƯƠNG 5: KẾT LUẬN .......................................................................................... 54
5.1

Đối chiếu mục tiêu và nội dung nghiên cứu ................................................. 55

5.2

Thuận lợi khi thực hiện đề tài ....................................................................... 55

5.2.1.

Thuận lợi của đề tài ............................................................................ 55

Đã có đề tài nghiên cứu trước về dữ liệu sinh viên đại học Bách Khoa. ........... 55
5.2.2.

Khó khăn khi thực hiện đề tài ............................................................. 55

5.3

Hướng phát triển đề tài ................................................................................. 56

5.4

Kết luận chung .............................................................................................. 56


TÀI LIỆU THAM KHẢO .......................................................................................... 57
PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT .................................. 60

ix


DANH MỤC TỪ VIẾT TẮT
STT

Từ viết tắt

Nội dung

1

TPHCM

Thành phố Hồ Chí Minh

2

SVĐH

sinh viên Đại học chính quy

3

ĐHBK

Đại học Bách Khoa


4

ĐHQG

Đại học Quốc gia

5

CK

khoa Cơ khí

6

DC

khoa Kỹ thuật Địa chất và Dầu khí

7

DD

khoa Điện - Điện tử

8

GT

khoa Kỹ thuật Giao thơng


9

HC

khoa Kỹ thuật Hóa học

10

MO

khoa Mơi trường và Tài ngun

11

MT

khoa Khoa học và Kỹ thuật Máy tính

12

QL

khoa Quản lý Cơng nghiệp

13

UD

khoa Khoa học Ứng dụng


14

VL

khoa Công nghệ Vật liệu

15

XD

khoa Kỹ thuật Xây dựng

16

BD

Trung tâm Bảo dưỡng Công nghiệp

17

PD

khoa Chất lượng cao

18

VP

Kỹ sư chất lượng cao PFIEV Việt Pháp


x


DANH MỤC BẢNG
Bảng 2. 1: Ưu điểm, khuyết điểm lấy mẫu theo thống kê truyền thống .................... 11
Bảng 2. 2: Phân biệt các phương pháp Lấy mẫu ........................................................ 12
Bảng 3. 1: Danh sách các môn học chung .................................................................. 34
Bảng 4. 1: Chỉ số đo độ chính xác của phương pháp Gradient Boosting................... 46
Bảng 4. 2: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo
nhóm các môn học chung ........................................................................................... 47
Bảng 4. 3: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo
nhóm các mơn học chung gồm tất cả sinh viên học chung toàn trường .................... 48
Bảng 4. 4: Chỉ số đo độ chính xác của phương pháp Gradient Boosting lấy mẫu theo
nhóm các mơn học chun ngành của từng khoa ....................................................... 49
Bảng 4. 5: Chỉ số đo độ chính xác của phương pháp XGBoost ................................. 50
Bảng 4. 6: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các
mơn học chung............................................................................................................ 51
Bảng 4. 7: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các
mơn học chung gồm tất cả sinh viên học các môn học chung ................................... 52
Bảng 4. 8: Chỉ số đo độ chính xác của phương pháp XGBoost lấy mẫu theo nhóm các
mơn học chun ngành của từng khoa ....................................................................... 53

xi


DANH MỤC HÌNH VÀ BIỂU ĐỒ
Hình 2. 1: Định nghĩa Lấy mẫu .................................................................................... 8
Hình 2. 2: Supervised machine learning [24] ............................................................... 9
Hình 2. 3: Chọn mẫu theo nhóm ................................................................................ 15

Hình 2. 4: Thuật tốn Gradient Boosting [2] .............................................................. 16
Hình 2. 5: Flowchart xử lý tuần tự của Gradient Boosting ........................................ 17
Hình 3. 1: Tổng quan các khoa ngành của trường Đại học Bách Khoa TP.HCM ..... 23
Hình 3. 2: Biểu đồ phân bố điểm sinh viên Đại học Bách Khoa................................ 23
Hình 3. 3: Biểu đồ phân bố điểm trung tâm Bảo dưỡng Cơng nghiệp ....................... 24
Hình 3. 4: Biểu đồ phân bố điểm khoa Cơ khí ........................................................... 24
Hình 3. 5:Biểu đồ phân bố điểm khoa Kỹ thuật Địa chất và Dầu khí ........................ 25
Hình 3. 6: Biểu đồ phân bố điểm khoa Điện - Điện tử ............................................... 25
Hình 3. 7: Biểu đồ phân bố điểm khoa Kỹ thuật Giao thông ..................................... 26
Hình 3. 8: Biểu đồ phân bố điểm khoa Hố học ........................................................ 26
Hình 3. 9: Biểu đồ phân bố điểm khoa Mơi trường và Tài ngun ........................... 27
Hình 3. 10: Biểu đồ phân bố điểm khoa Khoa học và Kỹ thuật máy tính ................. 27
Hình 3. 11: Biểu đồ phân bố điểm khoa Chất lượng cao ........................................... 28
Hình 3. 12: Biểu đồ phân bố điểm khoa Quản lý Công nghiệp ................................. 28
Hình 3. 13: Biểu đồ phân bố điểm khoa Khoa học Ứng dụng ................................... 29
Hình 3. 14: Biểu đồ phân bố điểm khoa Cơng nghệ Vật liệu..................................... 29
Hình 3. 15: Biểu đồ phân bố điểm Kỹ sư chất lượng cao PFIEV Việt Pháp ............. 30
Hình 3. 16: Biểu đồ phân bố điểm khoa Xây dựng .................................................... 30
Hình 3. 17: Biểu đồ hộp (boxplot) phân bố điểm sinh viên của từng khoa ............... 31
Hình 3. 18: Chỉ số độ xiên của dữ liệu điểm và Kurtosis ........................................... 31
Hình 3. 19: Kiến trúc Tổng quan của bài tốn ........................................................... 32
Hình 4. 1: Quy trình Tiền xử lý dữ liệu tổng qt của mơ hình dự đốn điểm .......... 39
Hình 4. 2: Phân bố điểm SV tất cả các Khoa - Trước và Sau khi loại bỏ điểm 0 ...... 40
xii


Hình 4. 3: Phân bố điểm SV khoa BD - Trước và Sau khi loại bỏ điểm 0 ................ 40
Hình 4. 4: Phân bố điểm SV khoa CK - Trước và Sau khi loại bỏ điểm 0 ................ 41
Hình 4. 5: Phân bố điểm SV khoa DC - Trước và Sau khi loại bỏ điểm 0 ................ 41
Hình 4. 6: Phân bố điểm SV khoa DD - Trước và Sau khi loại bỏ điểm 0 ................ 41

Hình 4. 7: Phân bố điểm SV khoa GT - Trước và Sau khi loại bỏ điểm 0 ................ 42
Hình 4. 8: Phân bố điểm SV khoa HC - Trước và Sau khi loại bỏ điểm 0 ................ 42
Hình 4. 9: Phân bố điểm SV khoa MO - Trước và Sau khi loại bỏ điểm 0 ............... 42
Hình 4. 10: Phân bố điểm SV khoa MT - Trước và Sau khi loại bỏ điểm 0 .............. 43
Hình 4. 11: Phân bố điểm SV khoa PD - Trước và Sau khi loại bỏ điểm 0 ............... 43
Hình 4. 12: Phân bố điểm SV khoa QL - Trước và Sau khi loại bỏ điểm 0 .............. 43
Hình 4. 13: Phân bố điểm SV khoa UD - Trước và Sau khi loại bỏ điểm 0 .............. 44
Hình 4. 14: Phân bố điểm SV khoa VL - Trước và Sau khi loại bỏ điểm 0 .............. 44
Hình 4. 15: Phân bố điểm SV khoa VP - Trước và Sau khi loại bỏ điểm 0 ............... 44
Hình 4. 16: Phân bố điểm SV khoa XD - Trước và Sau khi loại bỏ điểm 0 .............. 45

xiii


Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Phần mở đầu giới thiệu các nội dung tổng quan các vấn đề cần nghiên cứu, mục
tiêu, ý nghĩa mà đề tài muốn hướng đến trên phương diện khoa học và ý nghĩa áp dụng
vào thực tiễn phục vụ cho các bài toán dự đoán điểm sinh viên đại học, cũng như trong
công tác quản lý, tư vấn đăng ký môn học và cung cấp thêm cho sinh viên công cụ hỗ
trợ học tập được cải thiện tốt hơn.

Gồm các nội dung chính như sau:
➢ Giới thiệu đề tài







Đối tượng và phạm vi nghiên cứu
Mục tiêu nghiên cứu
Nội dung nghiên cứu
Ý nghĩa thực tiễn của đề tài
Cấu trúc luận văn

HV: Trần Thị Thu Trang

Trang 1 / 61


Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Giới thiệu đề tài

1.1.

Giới thiệu vấn đề cần nghiên cứu

1.1.1.

Trong bối cảnh nền kinh tế tri thức và tồn cầu hóa, nhiều nước trên thế giới
khơng ngừng tìm kiếm các cách thức khác nhau để nâng cao chất lượng giáo dục, đáp
ứng yêu cầu nguồn nhân lực chất lượng cao trong môi trường cạnh tranh quốc tế. Việt

Nam đang thực hiện công cuộc đổi mới căn bản mơi trường “số hóa” và tồn diện nền
giáo dục, nhất là giáo dục đại học và sau đại học. Giáo dục đại học Việt Nam thay đổi
mạnh mẽ từ triết lý, mục tiêu giáo dục đến vai trò của người thầy, từ phương pháp dạy
học đến vị trí “trung tâm” của người học v.v nhằm đáp ứng nhu cầu phát triển xã hội
và đẩy mạnh sự tiến bộ của quốc gia nói chung và đổi mới giáo dục nói riêng.
Hiện nay, trường Đại học Bách Khoa - Đại học Quốc gia - TPHCM (ĐHBK) cũng
như nhiều trường đại học khác đang có số liệu về kết quả học tập của sinh viên nhưng
việc ứng dụng tập dữ liệu này cho công tác dự báo phục vụ sinh viên cũng như quản
lý của nhà trường còn nhiều hạn chế. Đối với các trường có bề dày lịch sử lâu đời như
trường Đại học Bách Khoa sẽ có số lượng dữ liệu đáng kể, nhưng cũng có một số
trường đại học có quy mơ nhỏ và mới thành lập thì phải cần có thời gian thu thập dữ
liệu đủ lớn để có thể thực hiện các nghiên cứu về dự đoán điểm cho sinh viên cho phù
hợp với quy mô cụ thể của từng trường. Do đó, “Nghiên cứu, phát triển kỹ thuật lấy
mẫu phục vụ cho bài toán dự đoán điểm sinh viên đại học” là cần thiết phục vụ cho
việc sinh viên lựa chọn đăng ký môn học, định hướng học tập và phục vụ cho nhà
trường trong việc lập kế hoạch, chiến lược phát triển đào tạo, định hình chương trình
đào tạo và hỗ trợ tuyển sinh trong giai đoạn hiện nay.
1.1.2.

Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận văn là kết quả điểm học tập của sinh viên hệ Đại
học chính quy của tất cả các khoa tại trường ĐHBK từ năm 2014 đến năm 2017.
1.1.3.

Phạm vi nghiên cứu

Phạm vi nghiên cứu của luận văn trong lĩnh vực giáo dục bậc đại học. Đề tài được
thực hiện trên bộ dữ liệu sinh viên Đại học chính quy của trường ĐHBK từ năm 2014


HV: Trần Thị Thu Trang

Trang 2 / 61


Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

đến năm 2017. Dữ liệu này là các thông tin về điểm của các môn học mà sinh viên đã
học qua các học kỳ tương ứng trong quá trình học tập của sinh viên của tất cả các khoa.
1.2. Mục tiêu nghiên cứu
Tìm hiểu các đặc trưng của bộ dữ liệu sinh viên Đại học Bách Khoa từ năm 2014
đến năm 2017.
Nghiên cứu, áp dụng các kỹ thuật lấy mẫu trong thống kê và phương pháp lấy
mẫu trong học máy (Machine Learning)
Tìm hiểu các phương pháp phân tích dữ liệu từ đó, xây dựng mơ hình và đưa ra
dự đốn kết quả học tập (điểm các môn học) của sinh viên Đại học dựa trên dữ liệu
quá khứ mà sinh viên tất cả các khoa đã học tại trường Đại học Bách Khoa - ĐHQG TPHCM (ĐHBK).
Cuối cùng, đưa ra kết luận làm sao để chọn mẫu dữ liệu tốt nhất, phù hợp với bộ
dữ liệu của sinh viên ĐHBK.
Phương pháp lấy mẫu trong luận văn này hướng đến xây dựng tập dữ liệu huấn
luyện nhỏ nhưng kết quả dự đoán điểm của sinh viên phải đảm bảo một độ chính xác
nhất định dựa trên những đặc trưng riêng phù hợp với bộ dữ liệu.

1.3. Nội dung nghiên cứu
Để hoàn thành các mục tiêu nghiên cứu nêu trên, luận văn tập trung nghiên cứu
các nội dung chính sau:
Tìm hiểu các kỹ thuật lấy mẫu, chọn mẫu trong nghiên cứu khoa học thống kê và
phương pháp lấy mẫu ứng dụng trong học máy (Machine Learning) để ứng dụng vào

luận văn.
Nghiên cứu các đặc trung trên bộ dữ liệu sinh viên Đại học tại trường Đại học
Bách Khoa - TPHCM gồm độ thưa dữ liệu, mật độ phân bố dữ liệu, các mối quan hệ
tương quan đa biến của dữ liệu, độ xiên Skewness và Kutossis v.v.
Xây dựng mơ hình dự đốn điểm các môn học của sinh viên đại học.

HV: Trần Thị Thu Trang

Trang 3 / 61


Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

1.4. Ý nghĩa đề tài
1.4.1

Ý nghĩa khoa học

Vận dụng các kỹ thuật lấy mẫu, kỹ thuật phân tích dữ liệu trên nền tảng công
nghệ khai phá dữ liệu dữ liệu giáo dục và học máy.
Kết quả nghiên cứu có giá trị tham khảo cho các nghiên cứu tiếp theo về phân
tích dữ liệu sinh viên Đại học
1.4.2

Ý nghĩa thực tiễn của luận văn
1.4.2.1

Ý nghĩa thực tiễn đối với nhà trường


Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có
thể mang lại lợi ích cho khoa và các trường đại học nói chung, cụ thể là quản lý đào
tạo, cố vấn học tập sinh viên như sau:
Ứng dụng lấy mẫu trong nghiên cứu và phân tích dữ liệu: Khi các khoa và
trường đại học thực hiện các dự án nghiên cứu, việc lấy mẫu dữ liệu là một bước quan
trọng để thu thập thông tin cần thiết. Lấy mẫu đảm bảo rằng dữ liệu được thu thập có
tính đại diện và có khả năng áp dụng cho nghiên cứu và phân tích.
Lấy mẫu dữ liệu có nhiều lợi ích như đảm bảo tính đại diện, tiết kiệm thời gian
và nguồn lực, kiểm sốt quy mơ và đặc điểm, giảm bias và lỗi, cũng như áp dụng trong
q trình phân tích và dự đốn. Điều này làm cho phương pháp lấy mẫu trở thành một
công cụ quan trọng trong q trình nghiên cứu và phân tích dữ liệu.
Thực hiện lấy mẫu dữ liệu và phân tích dự báo điểm cho sinh viên đại học có thể
mang lại lợi ích cho các cố vấn học tập, quản lý đào tạo sinh viên có thể biết được với
dữ liệu về kết quả học tập của sinh viên hiện có thì các mơn nào có nhiều sinh viên học
khơng tốt, kết quả cịn thấp để có thể tìm ra nguyên nhân cải thiện giúp sinh viên khắc
phục, học tập tốt hơn.
Từ đó, bộ mơn chun ngành sẽ có kế hoạch xây dựng nội dung môn học,
phương pháp giảng dạy cho môn học phù hợp hơn với sinh viên, cũng như khoa và các
trường đại học cải thiện, đánh giá, điều chỉnh nội dung chương trình đào tạo, xây dựng
chuẩn đầu ra của chương trình đào tạo dựa trên mục tiêu và ngành đào tạo của khoa và
cung cấp sự hỗ trợ phù hợp để nâng cao hiệu quả học tập của sinh viên.
Bên cạnh đó, giúp cho nhân viên phòng Đào tạo tư vấn, hỗ trợ sinh viên khi
đăng ký môn học tự chọn hoặc tư vấn kết quả học tập của sinh viên tốt hơn

HV: Trần Thị Thu Trang

Trang 4 / 61



Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

Giảm bớt lượng công việc tư vấn hỗ trợ sinh viên trong quá trình sinh viên học
tập tại trường.
Phát hiện sớm những mơn học sinh viên khơng đạt trong q trình học tập của
sinh viên tại trường. Cảnh báo cho sinh viên khi đăng ký môn học, chọn môn học phù
hợp với năng lực học tập của mình.
1.4.2.2

Ý nghĩa thực tiễn đối với sinh viên đại học

Hỗ trợ SV trong suốt quá trình học tập tại trường. Dựa vào kết quả học tập của
sinh viên của các mơn đã học, dự đốn các môn học mà sinh viên sẽ học trong các học
kỳ tiếp theo để sinh viên có thể đăng ký mơn học có kết quả học tập tốt nhất, phù hợp
với khả năng của mình.
Dự báo sớm về các mơn học khơng đạt, có thể xảy ra trong tương lai để có chiến
lược học tập phù hợp. Từ đó, có được định hướng, cảnh báo sớm cho sinh viên chú
tâm, cố gắng hơn nữa trong việc học để có điểm trung bình tồn khóa cao nhất.
Giúp sinh viên đã và đang học yếu kém biết được khả năng của mình để chọn học
môn học phù hợp với khả năng bản thân mình sao cho kết quả học tập của SV đạt được
cao nhất nhằm nâng cao điểm tích lũy học tập của sinh viên.
Giúp sinh viên có cái nhìn tổng quan, có thể tự xây dựng lộ trình học tập, điều
chỉnh phương pháp học cho phù hợp với năng lực.
1.5. Cấu trúc luận văn
Cấu trúc luận văn bao gồm 5 chương, cụ thể như sau:
Chương 1: Giới thiệu đề tài
Giới thiệu các vấn đề cần nghiên cứu, mục tiêu, nội dung, ý nghĩa khoa học và
thực tiễn của đề tài ứng dụng cho các bài toán dự đoán điểm sinh viên đại học.

Chương 2: Tổng quan nghiên cứu
Giới thiệu nền tảng cơ sở lý thuyết về các công nghệ, kỹ thuật lấy mẫu và kỹ thuật
Machine Learning xây dựng mô hình dự đốn điểm sinh viên áp dụng trong luận văn
và các cơng trình nghiên cứu nổi bật có liên quan.
Chương 3: Phân tích và giải pháp
Từ nền tảng cơ sở lý thuyết và nghiên cứu các cơng trình nghiên cứu trước,
chương này trình bày các phân tích đặc trưng trên bộ dữ liệu hiện có.
HV: Trần Thị Thu Trang

Trang 5 / 61


Chương 1: Giới thiệu đề tài

GVHD: PGS.TS. Thoại Nam

Từ đó, nêu lên những giải pháp đề xuất chọn mẫu dữ liệu và xây dựng mơ hình
phân tích dựa vào học máy cho bài toán dự đoán điểm số của sinh viên dựa trên dữ liệu
quá khứ của sinh viên đã học.
Chương 4: Kết quả và đánh giá
Từ những phân tích và đề xuất giải pháp trong chương 3, nội dung chính của
chương này trình bày các thực nghiệm và những kết quả đạt được khi thực hiện gom
nhóm lấy mẫu dữ liệu và xây dựng mơ hình phân tích dự báo kết quả học tập của sinh
viên Đại học của trường Đại học Bách Khoa - ĐHQG - TPHCM.
Đánh giá kết quả thực hiện việc lấy mẫu dữ liệu và phân tích dự đốn điểm sinh
viên đại học.
Chương 5: Kết luận
Tóm lại các nội dung đã trình bày trong các chương, khẳng định lại các vấn đề
cần nghiên cứu, đánh giá lại những mặt còn tồn đọng, và nêu lên các đề xuất phát triển
trong tương lai.


1.6. Kết luận chương 1
Phân tích dự đốn kết quả học tập của sinh viên là một lĩnh vực đang được nhiều
sự quan tâm, nghiên cứu và vận dụng để cải thiện chất lượng giáo dục, đào tạo hiện
nay tại Việt Nam nói chung và Đại học Bách Khoa - ĐHQG - TPHCM nói riêng.
Phương pháp lấy mẫu trong thống kê và lấy mẫu dữ liệu để phân tích trong machine
learning đóng vai trị quan trọng trong việc giảm chi phí, thời gian và độ phức tạp tính
tốn, đồng thời đảm bảo đại diện dữ liệu và đưa ra kết quả chính xác.
Với mục tiêu vận dụng cơ sở lý thuyết về kỹ thuật lấy mẫu dữ liệu cho phân tích
dữ liệu và học máy để đưa ra phương án chọn mẫu dữ liệu phù hợp với bộ dữ liệu điểm
sinh viên đại học Bách Khoa và dự đoán kết quả học tập của sinh viên Đại học Bách
Khoa khi lựa chọn đăng ký mơn học.
Từ đó, đưa ra kết luận giúp cho các trường đại học đang sẵn có dữ liệu điểm sinh
viên đại học có thể chọn mẫu dữ liệu tốt nhất, phù hợp với bộ dữ liệu của trường mình.
Và nghiên cứu này cũng làm cơ sở tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực
giáo dục đại học trong thời gian sắp tới.

HV: Trần Thị Thu Trang

Trang 6 / 61


Chương 2: Cơ sở lý thuyết

GVHD: PGS.TS. Thoại Nam

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU
Nội dung chính của chương này trình bày các kiến thức tổng quan về kiến
thức nền tảng, cơ sở lý thuyết để thực hiện luận văn. Là cơ sở nền tảng cho các
phân tích, giải pháp giải quyết ở các chương tiếp theo


Gồm các nội dung chính như sau:
➢ Một số khái niệm
➢ Ưu điểm, nhược điểm các phương pháp lấy mẫu theo thống kê truyền
thống
➢ Phân biệt phương pháp Lấy mẫu
➢ Phương pháp lấy mẫu theo nhóm
➢ Phương pháp dự đốn điểm sinh viên đại học
➢ Đánh giá độ chính xác của mơ hình dự đốn
➢ Các cơng trình nghiên cứu nổi bật trong giáo dục đại học

HV: Trần Thị Thu Trang

Trang 7 / 61


Chương 2: Cơ sở lý thuyết

GVHD: PGS.TS. Thoại Nam

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU
Một số khái niệm

2.1.
2.1.1.

Lấy mẫu (Sampling) là gì ?

Theo lý thuyết điều tra chọn mẫu (theory of sample surveys) nhằm mục đích
lựa chọn một mẫu đơn vị để đại diện cho một tổng thể lớn hơn. Sự ra đời của

phương pháp đại diện bắt nguồn từ [3], người đề xuất tạo ra các ước tính bằng
cách sử dụng mẫu các thành phố và cá nhân được kiểm sốt khơng ngẫu nhiên,
thay vì điều tra dân số. Nhưng điều này thực sự với Neyman [4] rằng những điều
cơ bản của lấy mẫu khảo sát hiện đại đã được ổn định. Neyman đề xuất một thiết
lập chặt chẽ cho các khảo sát ngẫu nhiên, đặt nền móng cho các khảo sát xác suất
nhưng có kiểm sốt, cho phép kiểm sốt thống kê độ chính xác của các cơng cụ
ước tính [1].
“Lấy mẫu là một phương pháp cho phép lấy thông tin về tổng thể
(population) dựa trên số liệu thống kê từ một tập hợp con của tổng thể (mẫu) mà
khơng cần phải điều tra từng cá nhân” [20].

Hình 2. 1: Định nghĩa Lấy mẫu
Tuy nhiên, trong học máy có giám sát và khơng giám sát trong Machine
Learning có thể lấy mẫu [1] theo các dạng sau:
➢ Phương pháp lấy mẫu ngẫu nhiên đơn giản
➢ Lấy mẫu với xác suất khơng bằng nhau
➢ Thuộc tính thống kê của thiết kế lấy mẫu

HV: Trần Thị Thu Trang

Trang 8 / 61


Chương 2: Cơ sở lý thuyết

2.1.2.

GVHD: PGS.TS. Thoại Nam

Học máy có giám sát (Supervised Machine Learning)

Học máy có giám sát sử dụng các thuật tốn để đào tạo một mơ hình

nhằm tìm các mẫu trong tập dữ liệu có nhãn và tính năng, sau đó sử dụng mơ
hình đã đào tạo để dự đốn nhãn trên các tính năng của tập dữ liệu mới [24].

Hình 2. 2: Supervised machine learning [24]
2.1.3.

Cây quyết định (Decision Trees)
Cây quyết định tạo ra một mơ hình dự đốn nhãn bằng cách đánh giá cây

câu hỏi đặc trưng nếu-thì-khác đúng/sai và ước tính số lượng câu hỏi tối thiểu cần
thiết để đánh giá xác suất đưa ra quyết định đúng. Cây quyết định có thể được sử
dụng để phân loại để dự đoán một danh mục hoặc hồi quy để dự đoán một giá trị
số liên tục [24].
2.1.4.

Hàm mất mát (Loss function)

Hàm mất mát là một trong những tham số cần thiết để xác định mức độ gần
của một mạng neuron cụ thể đối với trọng số trong quá trình đào tạo
2.1.5.

Kỹ thuật xuống đồi (Gradient descent)

Kỹ thuật xuống đồi (Gradient descent) là “kỹ thuật có thể giúp sự biến thiên
của một hàm số ln là giảm (xuống đồi) dựa trên sự thay đổi của các tham số
cấu tạo nên hàm số này” [8].
Gradient Descent là cơ sở của nhiều trình tối ưu hố và là một trong những
thuật toán tối ưu hoá phổ biến nhất trong Machine Learning và Deep learning.


HV: Trần Thị Thu Trang

Trang 9 / 61


Chương 2: Cơ sở lý thuyết

GVHD: PGS.TS. Thoại Nam

Gradient descent sử dụng đạo hàm cấp một (gradient) của loss function khi cập
nhật các tham số. Gradient cho độ dốc của một hàm tại thời điểm đó.
Q trình này bao gồm chuỗi dẫn xuất của giá trị mất mát (loss value) của
từng tầng ẩn (hidden layer) từ các dẫn xuất của loss value của lớp trên nó, kết hợp
chức năng kích hoạt trong phép tính tốn.
Trong mỗi lần lặp lại, khi tất cả các neuron có giá trị của gradient của loss
funtion tương ứng với chúng, giá trị của tham số được cập nhật theo hướng ngược
lại với các giá trị được chỉ ra bởi gradient.


Mục tiêu: tìm vector các tham số sao cho tối ưu hoá hàm mục tiêu cụ thể

P* = arg min P  ( P)


Phương pháp Gradient descent:

 ( P) 
g
=

{
g
}
=
{

 P = Pm−1}
m
jm
Gradient:

P
i


Parameters:

Pm = − m g m

Learning rate:  m = arg min   ( Pm −1 −  g m )

P* =  m=0 Pm
M

Target parameters:

Như vậy, kết quả của gradient descent là kết hợp các trọng số (weight) của các
độ dốc (gradient).

HV: Trần Thị Thu Trang


Trang 10 / 61


×