Tải bản đầy đủ (.pdf) (50 trang)

Ứng dụng mô hình hồi quy tuyến tính đa mức đánh giá điểm rèn luyện sinh viên trường đại học thủ dầu một

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 50 trang )

UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT



TRẦN ĐỨC HỒN

ỨNG DỤNG MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC
ĐÁNH GIÁ ĐIỂM RÈN LUYỆN
SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
Mã ngành: 8480104

LUẬN VĂN THẠC SỸ

BÌNH DƯƠNG - 2019


UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT



TRẦN ĐỨC HỒN

ỨNG DỤNG MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC
ĐÁNH GIÁ ĐIỂM RÈN LUYỆN
SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

LUẬN VĂN THẠC SỸ


CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HỒNG MẠNH HÀ

BÌNH DƯƠNG - 2019


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi, các trích
dẫn đều được sự đồng ý của tác giả trước khi đưa vào luận văn. Các kết quả
trong luận văn là trung thực và chưa từng cơng bố trong một cơng trình
khoa học nào khác.


LỜI CẢM ƠN
Để hoàn thành luận văn này, trước hết em xin bày tỏ lòng biết ơn sâu
sắc tới Thầy TS Hồng Mạnh Hà đã tận tình chỉ dạy và có những góp ý quý
báu cho em trong thời gian thực hiện luận văn.
Em xin chân thành cảm ơn ban Lãnh đạo Khoa Kỹ Thuật Công Nghệ
Trường Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học và Quý thầy Cô
Trường Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dương,
đã tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại
trường. Cảm ơn các bạn Tập thể lớp Cao học CH16HT đã sát cánh cùng nhau
chia sẽ kinh nghiệm học tập quý báu, giúp đỡ nhau vượt qua khó khăn.
Cảm ơn Các Thầy, cơ Phịng Cơng tác Sinh viên trường Đại học Thủ
Dầu Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ và trao đổi các thơng
tin trong lĩnh vực quản lí sinh viên.
Do thời gian có hạn và khả năng cịn hạn chế nên khơng tránh khỏi

những thiếu sót, rất mong được sự đóng góp ý kiến từ Thầy Cơ và bạn bè để
em luận văn hồn chỉnh hơn nữa.


MỤC LỤC

LỜI CAM ĐOAN ........................................................................................
LỜI CẢM ƠN ..............................................................................................
MỞ ĐẦU ..................................................................................................... i
CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN .......................................... 1
1.1 Quy định về điểm rèn luyện ............................................................................. 1
1.2 Đánh giá điểm rèn luyện .................................................................................. 1
1.2.1 Đánh giá về ý thức học tập ...................................................................... 1
1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường .......... 2
1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị - xã hội,
văn hóa, văn nghệ, thể thao .............................................................................. 3
1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng ................... 3
1.2.5 Đánh giá về ý thức và kết quả tham gia công tác các bộ lớp, cán bộ đoàn,
các đoàn thể, tổ chức trong Nhà trường hoặc người học có thành tích đặc biệt
trong học tập – rèn luyện .................................................................................. 4
1.3 Phân loại kết quả rèn luyện .............................................................................. 4

CHƯƠNG 2: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA MỨC ............. 6
2.1 Phát biểu bài toán ............................................................................................. 6
2.2 Một số thuật toán áp dụng ................................................................................ 9
2.2.1 Phân cụm dữ liệu ........................................................................................... 9
2.2.2 Mơ hình hồi quy tuyến tính đa biến ............................................................ 12

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................... 14
3.1 Dữ liệu bài toán .............................................................................................. 14

3.1.1 Thu thập dữ liệu ..................................................................................... 14
3.1.2 Mô tả dữ liệu .......................................................................................... 18
3.2 Thực nghiệm trên bộ dữ liệu điểm rèn luyện ngành Kỹ thuật Phần mềm ..... 21
3.3 Đánh giá kết quả............................................................................................. 36

KẾT LUẬN VÀ KIẾN NGHỊ ................................................................. 39
1. Kết luận ............................................................................................................ 39


2. Kiến nghị .......................................................................................................... 39
TÀI LIỆU THAM KHẢO ................................................................................. 40


DANH MỤC CÁC BẢNG
Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu Một... 5
Bảng 3.1.1.1: Phiếu đánh giá kết quả rèn luyện của sinh viên ...................... 17
Bảng 3.1.1.3: Mô tả các biến trên dữ liệu điểm rèn luyện ............................ 20
Bảng 3.2.2: Giá trị trung bình của các biến điểm rèn luyện .......................... 24
Bảng 3.2.3: Độ lệch chuẩn của các biến điểm rèn luyện ............................... 25


DANH MỤC CÁC HÌNH
Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học tập ....... 6
Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức ................................ 8
Hình 3.1.1.2: Dữ liệu điểm rèn luyện ngành Kỹ thuật phần mềm ................ 18
Hình 3.2.1:Biểu đồ phân bố dữ liệu ngành Kỹ thuật Phần mềm .................. 23
Hình 3.2.4: Biểu đồ chọn k tối ưu ............................................................... 26
Hình 3.2.5: Biểu đồ phân cụm PAM ........................................................... 28
Hình 3.2.6: Biểu đồ phân cụm CLARA ...................................................... 28
Hình 3.3.1: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với

cụm điểm rèn luyện có ảnh hưởng mạnh ................................. 38
Hình 3.3.2: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với
cụm điểm rèn luyện có ảnh hưởng yếu .................................... 38


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong quá suốt quá trình học tập của sinh viên tại trường Đại học Thủ Một
tỉnh Bình Dương nói riêng các cơ sở giáo dục đại học, cao đẳng nói chung có hai
vấn đề tiên quyết đó chính là kết quả học tập và rèn luyện. Trong đó điểm rèn luyện
của sinh viên có vai trị rất quan trọng trong đánh giá sinh viên bên cạnh điểm học
tập, điểm này còn thể hiện quá trình rèn luyện, phấn đấu của sinh viên trong quá
trình học tập và tham gia sinh hoạt cộng đồng. Đánh giá rèn luyện là một yêu cầu
bắt buộc đối với sinh viên. Điểm rèn luyện là điểm đạt được khi đánh giá về phẩm
chất chính trị, đạo đức, lối sống của sinh viên trên 05 tiêu chí đánh giá như sau:
Đánh giá về ý thức tham gia học tập; Đánh giá về ý thức chấp hành nội quy, quy
chế, quy định trong nhà trường; Đánh giá về ý thức tham gia các hoạt động chính
trị, xã hội, văn hóa, văn nghệ, thể thao, phòng chống tội phạm và các tệ nạn xã
hội; Đánh giá về ý thức công dân trong quan hệ cộng đồng; Đánh giá về ý thức và
kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong nhà trường
hoặc sinh viên đạt được thành tích đặc biệt trong học tập, rèn luyện.
Trên cơ sở việc đánh giá điểm rèn luyện, tác giả đề ra mục tiêu nghiên cứu
về mối tương quan giữa điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh
viên trường Đại học Thủ Dầu Một.
Dựa trên cơ sở về lý thuyết hồi quy tuyến tính và để giải quyết vấn đề này
tác giả đề xuất phương án đó là “Ứng dụng mơ hình hồi quy tuyến tính đa mức
đánh giá điểm rèn luyện sinh viên trường Đại học Thủ Dầu Một” cho luận văn của
mình. Nhằm tìm ra sự ảnh hưởng của điểm rèn luyện với kết quả học tập của sinh
viên.
2. Mục tiêu nghiên cứu của luận văn

Trên cơ sở lý thuyết hồi quy tuyến tính, đưa ra một mơ hình nhằm đánh giá
các yếu tố điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh viên trường Đại
học Thủ Dầu Một dựa trên điểm rèn luyện.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Lý thuyết Hồi quy tuyến tính, thuật tốn phân cụm,

i


bảng điểm rèn luyện và kết quả học tập của khóa D14PM - Đại học Kỹ thuật Phần
mềm trường Đại học Thủ Dầu Một.
- Phạm vi nghiên cứu: Nghiên cứu về cách xây dựng mơ hình hồi quy tuyến
tính đa mức. Phương pháp lựa chọn phân tích điểm rèn luyện tìm ra mối tương
quan với điểm học tập của sinh viên.
4. Phương pháp nghiên cứu
- Kết hợp nghiên cứu lý thuyết và xây dựng mơ hình.
- Nghiên cứu tài liệu, sách báo về lý thuyết hồi quy: hồi quy tuyến tính đa
biến, hồi quy tuyến tính đa mức, các thuật toán phân cụm.
- Áp dụng các kết quả nghiên cứu để xây dựng mơ hình.
5. Kết cấu của luận văn
Ngồi phần mở đầu và kết luận, tài liệu tham khảo, nội dung luận văn được
trình bày trong 3 chương:
- Chương 1: Trình bày về về dữ liệu điểm rèn luyện
- Chương 2: Trình bày bài tốn hồi quy tuyến tính đa mức
- Chương 3: Kết quả nghiên cứu của tác giả về đánh giá sự ảnh hưởng của
điểm rèn luyện lên kết quả học tập trên dữ liệu tại trường Đại học Thủ Dầu Một.

ii



CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN
1.1 Quy định về điểm rèn luyện
Căn cứ Quy chế đánh giá rèn luyện của người học được đào tạo trình độ đại
học hệ chính quy ban hành kèm theo Thơng tư số 16/2015/TT-BGDĐT ngày 12
tháng 8 năm 2015 của Bộ trưởng Bộ Giáo dục và Đào tạo [1].
Điểm rèn luyện là điểm xem xét, đánh giá kết quả rèn luyện của người học
là đánh giá ý thức, thái độ của người học dựa trên các yếu tố về ý thức tham gia
học tập; ý thức chấp hành nội quy, quy chế, quy định trong nhà trường; ý thức
tham gia các hoạt động chính trị, xã hội, văn hố, văn nghệ, thể thao, phịng chống
tội phạm và các tệ nạn xã hội; ý thức công dân trong quan hệ cộng đồng; ý thức và
kết quả tham gia cơng tác cán bộ lớp, các đồn thể, tổ chức khác trong cơ sở giáo
dục đại học hoặc người học đạt được thành tích đặc biệt trong học tập, rèn luyện.
Nguyên tắc đánh giá kết quả rèn luyện của người học phải được thực hiện
nghiêm túc, đảm bảo khách quan, cơng khai, cơng bằng, chính xác. Có sự phối hợp
đồng bộ, chặt chẽ các bộ phận, các đơn vị có liên quan trong nhà trường tham gia
cơng tác đánh giá kết quả rèn luyện của người học.
1.2 Đánh giá điểm rèn luyện
Dữ liệu được thu thập từ phiếu chấm điểm của sinh viên trường Đại học
Thủ Dầu Một của ngành Cơng nghệ Phần mềm (khóa D14). Việc chấm điểm rèn
luyện theo từng học kỳ được đánh giá cụ thể theo hướng dẫn đánh giá kết quả rèn
luyện của sinh viên trình độ đại học, hệ chính quy [5] trên các tiêu chí sau:
1.2.1 Đánh giá về ý thức học tập
- Đánh giá về ý thức học tập:
+ Chuyên cần: Đi học đầy đủ, đúng giờ, nghiêm túc trong giờ học,
không vi phạm quy chế về thi, kiểm tra: số điểm từ 0 đến 10 điểm. Sinh viên vi
phạm quy chế học vụ (nghỉ học không phép, bỏ tiết ...): trừ 01điểm/ lần, nếu vi
phạm quy chế thi, kiểm tra bất cứ hình thức gì thì mục này = 0 điểm.
+ Kết quả học tập trong học kỳ: Được tính cụ thể sau: Điểm trung

1



bình chung học tập trong học kỳ đạt: 9 đến 10 = 08 điểm; 8 đến cận 9 = 06 điểm;
7 đến cận 8 = 04 điểm; 5 đến cận 7 = 02 điểm; dưới 5 = 0 điểm.
+ Có cố gắng, vượt khó trong học tập: Sinh viên có điểm trung bình
chung học tập học kỳ sau lớn hơn học kỳ trước đó; đối với sinh viên năm thứ nhất,
học kỳ I khơng có điểm dưới 5). Nếu đạt chấm 2 điểm, không đạt 0 điểm.
- Tham gia nghiên cứu khoa học, nâng cao trình độ ngoại ngữ, tin học:
+ Nghiên cứu khoa học: Có tham gia đề tài nghiên cứu khoa học của
sinh viên hoặc của Khoa và cấp tương đương, có xác nhận của Chủ nhiệm đề tài
(khơng tính bài tập, tiểu luận, đồ án mơn học, luận văn…) chấm 5 điểm, không
thực hiện chấm 0 điểm.
+ Hoàn thành chuẩn đầu ra Tin học, Ngoại ngữ: Tin học chấm 5
điểm. Ngoại ngữ chấm 10 điểm. Điểm này chỉ được chấm 1 lần trong suốt thời
gian học tập của sinh viên.
Điểm cộng tối đa của mục 1.2.1 là 20 điểm
1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường
- Không vi phạm và có ý thức tham gia thực hiện nghiêm túc các quy định
của Lớp, nội quy, quy chế của Trường, Khoa và các tổ chức trong nhà trường: Nếu
không vi phạm được 15 điểm. Mỗi lần vi phạm, tùy mức độ bị trừ điểm cho đến =
0.
- Sinh viên có tích cực tham gia các hoạt động tuyên truyền, vận động mọi
người xung quanh thực hiện nghiêm túc nội quy, quy chế, các quy định của nhà
trường về:
+ Giữ gìn an ninh, trật tự nơi cơng cộng: có tham gia tổ chức đội,
nhóm và hoạt động có kết quả cụ thể, được cấp Khoa và tương đương xác nhận.
Tuỳ mức độ chấm điểm từ 0 đến 10 điểm.
+ Giữ gìn vệ sinh, bảo vệ cảnh quan môi trường, nếp sống văn minh
(có xác nhận của đồn thể, Khoa…). tùy theo mức độ chấm điểm từ 0 đến 10
điểm.

Điểm cộng tối đa của mục 2.1.2 là 25 điểm

2


1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị xã hội, văn hóa, văn nghệ, thể thao
- Tham gia đầy đủ các hoạt động chính trị, xã hội, văn hóa, văn nghệ, thể
thao các cấp từ Lớp, Chi hội, Chi đoàn trở lên tổ chức: Tuỳ mức độ tích cực, tự
giác của từng sinh viên có thể cho điểm từ 0 đến 12 điểm.
- Là lực lượng nòng cốt trong các phong trào văn hóa, văn nghệ, thể thao:
+ Lực lượng nịng cốt được các cấp xác nhận: Cấp Bộ mơn, Chi đồn,
Chi hội, Đội, Nhóm chấm 3 điểm; Cấp Khoa (và tương đương), Trường chấm 5
điểm; Không tham gia 0 điểm.
- Được khen thưởng trong các hoạt động phong trào: Xét 1 lần. Nếu đạt
nhiều mức thành tích cùng nội dung thì tính 1 mức cao nhất.
+ Quyết định khen thưởng của Đoàn Khoa (và tương đương) chấm 6
điểm.
+ Giấy khen cấp Trường chấm 8 điểm.
+ Giấy khen cấp cao hơn (cấp tỉnh): 10 điểm.
Điểm cộng tối đa của mục 1.2.3 là 20 điểm.
1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng
- Không vi phạm pháp luật của Nhà nước: Sinh viên không vi phạm chấm
10 điểm. Nếu vi phạm 1 lần (như thủ tục cư trú, Luật giao thơng…) thì mục này =
0.
- Có tinh thần giúp đỡ bạn bè trong học tập, trong cuộc sống: Có vụ việc,
nội dung cụ thể được tập thể lớp cơng nhận chấm 5 điểm.
- Tham gia đội, nhóm sinh hoạt hướng đến lợi ích cộng đồng (tham gia cơng
tác xã hội ở Trường, nơi cư trú, địa phương): Các phong trào như chiến dịch tình
nguyện hè, làm sạch mơi trường, tham gia công tác tại nơi cư trú, địa phương…Tuỳ
mức độ mà chấm điểm từ 0 đến 10 điểm

Điểm cộng tối đa của mục 1.2.4 là 25 điểm

3


1.2.5 Đánh giá về ý thức và kết quả tham gia cơng tác các bộ lớp, cán
bộ đồn, các đồn thể, tổ chức trong Nhà trường hoặc người học có thành tích
đặc biệt trong học tập – rèn luyện
- Là Lớp trưởng, Bí thư Chi đồn, Ủy viên BCH đồn thể cấp cao hơn Chi
đoàn, BCH Hội sinh viên Trường, Liên Chi hội trưởng, Chi hội trưởng Hội Sinh
viên, Đội trưởng các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên, đoàn thanh niên
Trường đã hoàn thành nhiệm vụ được giao. Tùy mức độ hồn thành nhiệm vụ có
thể cho điểm từ 0 đến 10 điểm.
- Là thành viên của Ban Cán sự lớp, Ban Chấp hành chi đoàn, Ban chấp
hành Liên Chi hội Sinh viên, Chi hội Sinh viên Trường (trừ các thành viên nêu
mục trên), là thành viên các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên trường
(phải có tổ chức thừa nhận tư cách thành viên hoặc có xác nhận bằng văn bản),
Đồn Thanh niên đã hoàn thành nhiệm vụ được giao. Tùy mức độ hoàn thành
nhiệm vụ có thể cho điểm từ 0 đến 8 điểm.
- Thành tích đặc biệt : tối đa 10 điểm (nếu sinh viên có nhiều thành tích lấy
thành tích cao nhất để chấm điểm). Khơng có thành tích chấm 0 điểm.
+ Được kết nạp Đảng, đạt sinh viên 5 tốt, đạt giải thưởng sao tháng
giêng chấm 10 điểm.
+ Tham gia các kỳ thi olympic, đạt các giải thưởng trong nghiên cứu
khoa học, có các báo cáo khoa học trong hội nghị, hội thảo, các bài báo khoa học
chấm 10 điểm.
+ Được khen thưởng trong các lĩnh vực học tập rèn luyện (từ cấp
trường trở lên, trừ các trường hợp đã tính điểm phần trên) chấm 10 điểm
Điểm cộng tối đa của mục 1.2.5 là 10 điểm
1.3 Phân loại kết quả rèn luyện

- Điểm rèn luyện học kỳ là tổng điểm của 05 nội dung (1+2+3+4+5) = 100
điểm, nếu vượt quá 100 điểm thì quy về thành 100 điểm để phân loại kết quả rèn
luyện.

4


Phân loại

Điểm rèn luyện

Xuất sắc

Từ 90 đến 100 điểm

Tốt

Từ 80 đến dưới 90 điểm

Khá

Từ 65 đến dưới 80 điểm

Trung bình

Từ 50 đến dưới 65 điểm

Yếu

Từ 35 đến dưới 50 điểm


Kém

Dưới 35 điểm

Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu
Một
- Các trường hợp đặc biệt:
+ Trong thời gian sinh viên bị kỷ luật mức khiển trách, khi đánh giá
kết quả rèn luyện không được vượt quá loại khá.
+ Trong thời gian sinh viên bị kỷ luật mức cảnh cáo, khi đánh giá kết
quả rèn luyện khơng được vượt q loại trung bình.
+ Trong q trình đánh giá nếu phát hiện sinh viên không trung thực
trong đánh giá sẽ hạ 1 bậc trong phân loại kết quả rèn luyện.
+ sinh viên bị kỷ luật mức đình chỉ học tập không được đánh giá rèn
luyện trong thời gian bị đình chỉ.
+ Sinh viên bị kỷ luật mức buộc thôi học không được đánh giá kết
quả rèn luyện.
+ Sinh viên nghỉ học tạm thời được bảo lưu kết quả rèn luyện sẽ được
đánh giá kết quả rèn luyện khi tiếp tục trở lại học tập theo quy định.
+ Sinh viên chuyển trường được bảo lưu kết quả rèn luyện của trường
cũ và tiếp tục được đánh giá kết quả rèn luyện ở các học kỳ tiếp theo.

5


CHƯƠNG 2: BÀI TỐN HỒI QUY TUYẾN TÍNH ĐA MỨC
2.1 Phát biểu bài tốn
Trong q trình tham gia việc đánh giá điểm rèn luyện tại trường Đại học
Thủ Dầu Một tác giả nhận thấy giữa điểm rèn luyện có một mối tương quan nào

nào đó với kết quả chung bình trung học tập từng sinh viên.

CN

HTHT

DTBHK

NCKH

CGVK
Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học
tập
Để biểu diễn mối tương quan giữa các giá trị biến điểm rèn luyện với kết
quả học tập, tác giả sử dụng mơ hình hồi quy tuyến tính đa biến. Bài tốn phát biểu
như sau:
Có hàm chưa biết 𝑓: 𝑅𝑛 → 𝑅
𝑁
Biết tập 𝐷{(𝑥 𝑗 , 𝑦 𝑗 )}𝑁
𝑗=1 trong 𝑅 × 𝑅 có 𝑁 đối tượng quan sát được 𝑦𝑗 =
𝑗

𝑗

𝑓(𝑥1 , … , 𝑥𝑛 ), với 𝑗 = 1, 2, … 𝑁
Trong đó
𝑗

𝑗


𝑥 𝑗 = (𝑥1 , … , 𝑥𝑛 ) ∈ 𝑅𝑛
𝑗

𝑗

Hãy tìm hàm xấp xỉ 𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥)
Trong đó:

𝜀(𝑥): Sai số có phân phối chuẩn hóa

6


Giải
Việc xây dựng hàm 𝑔 được mô tả như sau:
- Chọn trước một hàm dạng tổng quát phụ thuộc 𝑁 tham số dạng
𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 )
Trong đó, hàm xấp xỉ 𝑔 cũng được mơ tả qua hệ phương trình tuyến tính
𝑗
sau ∑𝑁
𝑘=1 𝛽𝑘 𝜑𝑘 = 𝑦

với 𝑗 = 1, … , 𝑁
- Xác định các hệ số 𝛽1 , … , 𝛽𝑁 thông qua phương pháp cực tiểu hóa bình
𝑗
𝑗 2
phương sai số ∑𝑁
𝑗=1[𝜑(𝑥 ) − 𝑦 ]

Ý nghĩa phân tích của phương pháp hồi quy tuyến tính:

Cho hàm xấp xỉ được xác định sau quá trình hồi quy:
𝑗

𝑗

𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥)
Trong đó
𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 )
Hàm số trên cũng được mô tả bằng hình vẽ sau
𝑥1

𝛽1



𝑥𝑛

𝑔(𝑥)

𝛽𝑛

Trong đó ( 𝛽1 , … , 𝛽𝑁 ) là các trọng số biểu diễn mức độ ảnh hưởng của các
𝑗

𝑗

yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑔(𝑥).

7



𝑗
𝑗
Vì 𝑦 𝑗 ≈ 𝑔(𝑥1 , … , 𝑥𝑛 ), do vậy có thể hiểu ( 𝛽1 , … , 𝛽𝑁 ) phản ánh ảnh hưởng
𝑗

𝑗

của các yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑦 𝑗
Do vậy, mô hình hồi quy tuyến tính được sử dụng cơng cụ phân tích các
yếu tố ảnh hưởng. Đồng thời, để thực hiện mơ hình hồi quy tuyến tính đa biến đối
với điểm rèn luyện phải thỏa các điều kiện sau:
-

Biến độc lập có tương quan với biến phụ thuộc.

-

Các cột dữ liệu phải độc lập với nhau.

-

Các sai số tương ứng với các quan sát khác nhau là độc lập.

-

Sai số 𝜖 phải có phân phối chuẩn.

Trên thực tế, bộ dữ liệu được thu thập của các sinh viên tại trường Đại học
Thủ Dầu Một, cùng ngành Công nghệ Phần mềm, trong đó có những sinh viên

trong cùng một lớp. Trên cơ sở đó, có khả năng là các biến khơng độc lập với nhau.
Do đó, việc sử dụng mơ hình hồi quy tuyến tính đa biến là khơng phù hợp.

Các cột dữ liệu không
độc lập với nhau

Các sinh viên trong
cùng lớp, cùng trường

Đề xuất áp dụng mơ hình
Hồi quy tuyến tính đa
mức

Nhận xét: Có phân cụm trong
Điểm rèn luyện -> Đề xuất phân
cụm áp dụng PAM và Slara

Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức
Vì vậy, để giải quyết bài tốn điểm rèn luyện có ảnh hưởng đến kết quả
học tập của sinh viên. Tác giả đề xuất sử dụng mơ hình hồi quy tuyến tính đa
mức.
Các bước thực hiện mơ hình:

8


+ Bước 1: chuẩn hóa dữ liệu sao cho có trung bình 0 và phương sai
1.
+ Bước 2: tiến hành phân cụm dữ liệu để chọn các sinh viên có cùng
mức điểm rèn luyện về mỗi cụm khác nhau.

+ Bước 3: Ứng dụng mơ hình hồi quy tuyến tính đa biến cho từng
cụm, tìm ra mối tương quan giữa các biến điểm rèn luyện trên từng cụm.
2.2 Một số thuật tốn áp dụng
2.2.1 Phân cụm dữ liệu
Ngun tắc chính của phân cụm vẫn là làm sao cho độ giống nhau trong
cùng một cụm là cao và độ giống nhau giữa các cụm là thấp [9]. Do vậy trong luận
văn này chọn phương pháp phân hoạch để phân cụm với mục đích chọn ra các
nhóm sinh viên có cùng mức điểm rèn luyện vào một nhóm.
Độ đo khoảng cách
d(i, j) là khoảng cách giữa sinh viên i và sinh viên j; khoảng cách này được
tính theo cơng thức: Độ đo khoảng cách Euclidean [2]:
𝟐

𝟐

𝟐

𝒅(𝒊, 𝒋) = √(|𝒓𝒊𝟏 − 𝒓𝒋𝟏 | + |𝒓𝒊𝟐 − 𝒓𝒋𝟐 | + ⋯ + |𝒓𝒊𝒑 − 𝒓𝒋𝒑 | )

Chỉ số Silhouette Giả sử điểm rèn luyện được chia thành k cụm. Với mỗi
cụm sinh viên(i) I , đặt:
-

a(i) là khoảng cách trung bình từ i tới tất cả các sinh viên trong cùng

cụm với i.
-

b(j) là khoảng cách trung bình ngắn nhất từ i tới bất kỳ cụm nào


không chứa i.
Cụm tương ứng với b(j) này được gọi là cụm hàng xóm của i. Khi đó
chỉ số Silhouette s(i) được định nghĩ như sau:
𝑠 (𝑖 ) =

𝑏(𝑗) − 𝑎(𝑖)
max(𝑎(𝑖), 𝑏(𝑗))

Với chỉ số s(i) nằm trong đoạn [-1,1] cho thấy s(i) càng gần 1 thì sinh viên(i)
càng phù hợp với cụm mà nó được phân vào, s(i) = 0 thì khơng thể xác định được

9


sinh viên(i) nên thuộc về cụm nào giữa cụm hiện tại và cụm hàng xóm của nó, s(i)
càng gần -1 thì chứng tỏ i bị phân sai cụm, nó nên thuộc về cụm hàng xóm chứ
khơng phải cụm hiện tại.
Các phương pháp phân chia nổi tiếng và thường được dùng nhất là KMeans (MacQueen 1967), k-medoids (Kaufman và Rousseew 1987) và các dạng
biến đổi của chúng [9]. Đối với phương pháp k-means thường được áp dụng khi
trung bình của một cụm được xác định. K- Means nhạy cảm với các điểm dữ liệu
nhiễu vào outlier, một số lượng nhỏ dữ liệu như vậy về căn bản có ảnh hưởng tới
giá trị trung bình [2]. Nên chọn lựa PAM hay CLARA vào bài tốn phân cụm có
những thuận lợi nhất định.
Thuật toán PAM
PAM (partition around medoids) - phân chia xung quanh các medoid –
trung tâm: Đây là một giải thuật phân cụm kiểu k-medoids.Tìm k cụm trong n sinh
viên bằng cách: trước tiên tìm một sinh viên đại diện làm tâm cụm (sc) hay medoid
cho mỗi cụm. Tập các medoid ban đầu được lựa chọn tuỳ ý. Sau đó lặp lại các thay
thế một trong số các medoid bằng một trong số những đối tượng không phải
medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện [9].

Gọi là sc hay gọi là mediod.
Gọi gi: sinh viên khác với sc(i=1..n)
Có thể phát biểu thuật tốn PAM như sau [9]
Đầu vào:
Tập hợp các sinh viên N = {n1,n2,…,nn},
Số cụm k
Đầu ra: Tập hợp sinh viên đã được phân vào k cụm.

10


Thuật toán:
(1) Chọn tùy ý k sinh viên giữ vai trò là các sc ban đầu;
(2)

repeat

(3)

Với mỗi sc

Lần lượt xét các sinh viên gi khơng là sc
Tính S là độ lợi khi hoán đổi sc với gi
S = Esc - E1gi
(4)

If S<0 then swap gi with sc

(5)


until no change;

Thuật toán CLARA
Đối với dữ liệu lớn việc dùng PAM để phân cụm tốn thời gian và chất lượng
phân cụm thấp và quan trọng là khó xác định được tập dữ liệu, thuật toán CLARA
khắc phục nhược điểm của thuật toán PAM trong trường hợp này. CLARA tiến
hành trích mẫu cho tập dữ liệu có n phần tử, nó áp dụng thuật tốn PAM cho mẫu
này và tìm ra các đối tượng trung tâm medoid cho mẫu được trích ra từ dữ liệu
này. Nếu mẫu dữ liệu được trích theo một cách ngẫu nhiên, thì các medoid của nó
xấp xỉ với các medoid của toàn bộ tập dữ liệu ban đầu. Để tiến tới một xấp xỉ tốt
hơn, CLARA đưa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trường
hợp, sau đó tiến hành chọn kết quả phân cụm tốt nhất khi thực hiên phân cụm trên
mẫu này. Để đo chính xác, chất lượng của các cụm được đánh giá thơng qua độ
phi tương tự trung bình của tồn bộ các đối tượng dữ liệu trong tập đối tượng dữ
liệu ban đầu [9]. Sau đây là thuật toán CLARA

11


Gọi S là kích thước mẫu được trích từ tập dữ liệu rèn luyện
G = {g1,g1,…,gn},

k: số cụm,

n: số sinh viên.

S: tập hợp các sinh viên được đưa vào cụm
Đầu vào:
Tập hợp các sinh viên G = {g1,g2,…,gn}
Số cụm k

Đầu ra: Tập hợp sinh viên đã được phân vào k cụm.
Thuật toán:
(1) For i = 1 to S do
(2) Lấy một mẫu có Sj sinh viên ngẫu nhiên từ tập dữ liệu G. Áp dụng
thuật toán PAM cho mẫu dữ liệu này nhằm để tìm các sinh viên medoid
đại diện cho các cụm.
(3) Đối với mỗi đối tượng trong tập dữ liệu ban đầu, xác định sinh viên
medoid tương tự nhất trong số k đối tượng medoid.
(4) Tính độ phi tương tự 2 trung bình cho phân hoạch các đối tượng thu
được ở bước trước, Nếu giá trị này bé hơn giá trị tối thiểu hiện thời thì sử
dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trước, như vậy, tập k
đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này.
(5) Quay về bước 1.

2.2.2 Mơ hình hồi quy tuyến tính đa biến
Mơ hình hồi quy tuyến tính đa biến được diễm đạt theo phương trình 𝜸𝒊 =
𝜶 + 𝜷𝒙𝒊 + 𝜺 có một yếu tố duy nhất (đó là x), và vì thế thường được gọi là mơ
hình hồi quy tuyến tính đơn giản (simple linear regression model). Trong thực tế,
chúng ta có thể phát triển mơ hình này thành nhiều biến, chứ không phải dạng một
biến như trên:
𝜸𝒊 = 𝜶 + 𝜷𝟏 𝒙𝟏𝒊 + 𝜷𝟐 𝒙𝟐𝒊 +. .. 𝜷𝒌 𝒙𝒌𝒊 + 𝜺
Nói cụ thể hơn:

12


𝜸𝟏 = 𝜶 + 𝜷𝟏 𝒙𝟏𝟏 + 𝜷𝟐 𝒙𝟐𝟏 +. .. 𝜷𝒌 𝒙𝒌𝟏 + 𝜺𝟏
𝜸𝟐 = 𝜶 + 𝜷𝟏 𝒙𝟏𝟐 + 𝜷𝟐 𝒙𝟐𝟐 +. .. 𝜷𝒌 𝒙𝒌𝟐 + 𝜺𝟐

𝜸𝒏 = 𝜶 + 𝜷𝟏 𝒙𝟏𝒏 + 𝜷𝟐 𝒙𝟐𝒏 +. . . … 𝜷𝒌 𝒙𝒌𝒏 + 𝜺𝟏

Trong phương trình trên, chúng ta có nhiều biến 𝒙 (𝒙𝟏 , 𝒙𝟐 ,…,đế𝒏 𝒙𝒌 ), và
mỗi biến có một thơng số 𝜷𝒋 (j = 1, 2, …,k) cần phải ước tính. Vì thế mơ hình này
cịn được gọi là mơ hình hồi quy tuyến tính đa biến.
Phương pháp ước tính 𝜷𝒋 cũng chủ yếu dựa vào phương pháp bình phương
̂𝟏 , 𝜷
̂𝟐 , 𝜷
̂𝟑 …, 𝜷
̂𝒌 sao cho ∑𝒏𝒊=𝟏(𝜸𝒊 − 𝜸̂𝒊 )𝟐 nhỏ nhất. Đối với
̂, 𝜷
nhỏ nhất tìm giá trị 𝜶
mơ hình hồi quy tuyến tính đa biến, cách viết và mơ tả mơ hình gọn nhất là dùng
ký hiệu ma trận. Mơ hình có thể thể hiện bằng ký hiệu ma trận như sau:
Y = Xβ + ε
Trong đó Y là một vectơ n x 1, X là một ma trận n x k phần tử, β là một
vectơ k x 1, và ε là một vectơ gồm n x 1 phần tử:
𝑦1
𝑦2
𝒀 = [ ],

𝑦𝑛

1 𝑥11
12
𝑿 = [ 1… 𝑥…
1 𝑥1𝑛

𝑥21
𝑥22

𝑥2𝑛


𝑥𝑘1
𝑥𝑘2 ] ,

𝑥𝑘𝑛

𝛽1
𝛽
𝜷 = [ 2] ,

𝛽𝑛

𝜀1
𝜀2
𝝐= [ ]

𝜀𝑛

Phương pháp bình phương nhỏ nhất giải vectơ β bằng phương trình sau đây:
𝛽̂ = (𝑋 𝑇 𝑋 )−1 𝑋 𝑇 𝑌
và tổng bình phương phần dư:
2
𝜖 𝑇 𝜖 = ‖𝑌 − 𝑌̂‖

13


CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.1 Dữ liệu bài toán
3.1.1 Thu thập dữ liệu

- Dữ liệu của bài toán được thu thập từ phiếu đánh giá rèn luyện của sinh
viên ngành Kỹ thuật Phần mềm (khóa D14) trong 8 học kỳ tại trường Đại học Thủ
Dầu Một.
- Dữ liệu điểm rèn luyện của sinh viên được khảo sát trên bảng đánh giá rèn
luyện sinh viên theo mẫu sau:

Mức

Nội dung đánh giá

điểm

1. Đánh giá về ý thức học tập
a. Tinh thần thái độ và kết quả học tập
- Đi học đầy đủ, đúng giờ, nghiêm túc trong giờ

10

học, không vi phạm quy chế về thi, kiểm tra
- Kết quả học tập trong học kỳ:
 ĐTBCHK 9 đến 10

8

 ĐTBCHK 8 đến cận 9

6

 ĐTBCHK 7 đến cận 8


4

 ĐTBCHK 5 đến cận 7

2

- Có cố gắng, vượt khó trong học tập (có ĐTBCHK
sau lớn hơn học kỳ trước đó; đối với SV năm thứ
nhất, học kỳ I khơng có điểm dưới 5)
b. Tham gia nghiên cứu khoa học, nâng cao trình
độ ngoại ngữ, tin học
- Nghiên cứu khoa học (NCKH):

14

2

SV tự

Lớp

chấm

chấm

điểm

điểm

Ghi

chú


Mức

Nội dung đánh giá

điểm

 Có tham gia đề tài nghiên cứu khoa học của

5

sinh viên hoặc của Khoa và cấp tương đương,
có xác nhận của Chủ nhiệm đề tài (khơng tính
bài tập, tiểu luận, đồ án mơn học, luận văn…)
- Hoàn thành chuẩn đầu ra Tin học, Ngoại ngữ
 Tin học

5

 Ngoại ngữ

10

Điểm cộng tối đa của mục 1 là 20 điểm
2. Đánh giá về ý thức và kết quả chấp hành nội
quy, quy chế trong nhà trường
- Không vi phạm và có ý thức tham gia thực hiện


15

nghiêm túc các quy định của Lớp, nội quy, quy chế
của Trường, Khoa và các tổ chức trong nhà trường
- Sinh viên tích cực và tham gia các hoạt động tuyên
truyền, vận động mọi người xung quanh thực hiện
nghiêm túc nội quy, quy chế, các quy định của nhà
trường về:
 Giữ gìn an ninh, trật tự nơi cơng cộng

10

 Giữ gìn vệ sinh, bảo vệ cảnh quan môi trường,

10

nếp sống văn minh (có xác nhận của đồn thể,
Khoa, Trường...)
Điểm cộng tối đa của mục 2 là 25 điểm
3. Đánh giá về ý thức và kết quả tham gia các
hoạt động chính trị - xã hội, văn hóa, văn nghệ,
thể thao.

15

SV tự

Lớp

chấm


chấm

điểm

điểm

Ghi
chú


×