Tải bản đầy đủ (.pdf) (10 trang)

Ứng dụng phương pháp phân tích thành phần chính và phân cụm dữ liệu đánh giá kết quả kiểm định chất lượng cơ sở giáo dục đại học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (395.73 KB, 10 trang )

ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN
CHÍNH VÀ PHÂN CỤM DỮ LIỆU ĐÁNH GIÁ KẾT QUẢ
KIỂM ĐỊNH CHẤT LƯỢNG CƠ SỞ GIÁO DỤC ĐẠI HỌC
Lê Phước Thành1
Tóm tắt: Hiện nay các trung tâm kiểm định chất lượng giáo dục đại học
(KĐCLGDĐH) đã công bố kết quả kiểm định các trường đại học theo bộ tiêu chuẩn của
thông tư 12/2017/TT-BGDÐT. Kết quả kiểm định được chuẩn hóa dưới dạng một cơ sở
dữ liệu đa chiều theo các tiêu chuẩn. Sự kết hợp giữa hai kỹ thuật phân tích thành phần
chính với phân cụm dữ liệu nhằm trình bày, phân tích và trích ra những tri thức hữu ích
trong việc đánh giá. Theo đó, bài báo chỉ ra những điểm mạnh, yếu về hoạt động của
các trường theo các tiêu chuẩn, mối quan hệ giữa các lĩnh vực cũng như so sánh mức độ
đánh giá giữa các trung tâm kiểm định với nhau. Đây là cơ sở để thực hiện việc đối sánh
và cải tiến chất lượng tại các cơ sở giáo dục.
Từ khóa: Phân tích thành phần chính, Phân cụm dữ liệu, Thuật toán K-Means, Hệ
số tương quan, Kiểm định chất lượng giáo dục đại học.
1. Mở đầu
1.1. Giới thiệu về kiểm định chất lượng cơ sở giáo dục đại học ở Việt Nam
Ngày 19 tháng 5 năm 2017 Bộ Giáo dục và Đào tạo ban hành thông tư số 12/2017/
TT-BGDÐT Quy định về KĐCLGDĐH, theo đó bộ tiêu chuẩn đánh giá gồm 25 tiêu
chuẩn, 111 tiêu chí và được phân vào 4 lĩnh vực:
(1) Đảm bảo chất lượng về chiến lược: Tiêu chuẩn 01 đến 08, gồm các vấn đề về
sứ mệnh, tầm nhìn, mục đích, mục tiêu chiến lược, các chính sách…
(2) Đảm bảo chất lượng về hệ thống: Tiêu chuẩn 09 đến 12, gồm các vấn đề về
hệ thống đảm bảo chất lượng bên trong, hệ thống thông tin, …
(3) Đảm bảo chất lượng về thực hiện chức năng: Tiêu chuẩn 13 đến 21, gồm các
vấn đề về hoạt động đào tạo, nghiên cứu khoa học và phục vụ cộng đồng.
(4) Kết quả hoạt động: Tiêu chuẩn 22 đến 25, gồm các vấn đề về kết quả của hoạt
động đào tạo, nghiên cứu khoa học, phục vụ cộng đồng và tài chính-thị trường.
Mỗi tiêu chuẩn được đánh giá theo thang điểm 7
Bộ tiêu chuẩn này tiếp cận theo mơ hình đánh giá CLGDĐH của Mạng lưới
các trường đại học khu vực Đông Nam Á (ASEAN University Network - Quality


Assurance, viết tắt là AUN-QA).
Về các trung tâm kiểm định, đến tháng 09-2020 Việt Nam 5 trung tâm KĐCLGD đã
công bố kết quả kiểm định của 28 trường đại học và học viện theo bộ tiêu chuẩn này gồm:
1 ThS., Trường Đại học Quảng Nam

91


ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH...
(1) Trung tâm KĐCLGD−Đại học Quốc gia Hà Nội (CEA_HN), 6 trường
(2) Trung tâm KĐCLGD−Quốc gia Thành phố Hồ Chí Minh (CEA_TPHCM), 5
trường
(3) Trung tâm KĐCLGD−Đại học Đà Nẵng (CEA_DN), 4 trường
(4) Trung tâm KĐCLGD−Trường Đại học Vinh (CEA_Vinh), 5 trường
(5) Trung tâm KĐCLGD−Hiệp hội các trường đại học, cao đẳng Việt Nam (CEA_
HiepHoi), 8 trường
1.2. Kỹ thuật phân tích thành phần chính và phân cụm dữ liệu
Phân tích thành phần chính (PCA - Principal Component Analysis) là kỹ thuật
thường được sử dụng khi làm việc với đối tượng có quá nhiều biến (thuộc tính/số chiều)
(đối tượng được biểu diễn ở khơng gian nhiều chiều) sang không gian 2 hoặc 3 chiều
nhưng có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ
biến thiên của dữ liệu trên mỗi chiều mới. Ngồi ra có thể phát hiện những liên kết tiềm
ẩn của dữ liệu có thể được khám phá trong không gian mới. Hai công dụng lớn nhất của
phân tích thành phần chính là tìm mối liên hệ giữa đối tượng với các chiều của không
gian mới và các biến cũ với nhau trong các chiều của không gian mới.
Khi các đối tượng được biểu diễn trong khơng gian 2 chiều với trục ngang là thành
phần chính thứ nhất (Component 1) và thành phần chính thứ hai (Component 2) ta tiếp
tục dùng dùng kỹ thuật phân cụm dữ liệu để nhóm các đối tượng có tính chất “tương tự”
nhau theo một tiêu chí nào đó (chẳng hạn theo khoảng cách), và các đối tượng của hai
nhóm khác nhau khơng có cùng tính chất trên.

2. Nội dung
2.1. Nguồn dữ liệu cho việc phân tích
Nguồn dữ liệu để phân tích được lấy từ kết quả KĐCLGD đã cơng bố trên website
của 5 trung tâm kiểm định [9], [10], [11], [12], [13], dữ liệu bao gồm các trung tâm kiểm
định, các trường được kiểm định và thang điểm 7 của 25 tiêu chuẩn được phân vào 4 lĩnh
vực sau đó được tổng hợp bằng bảng 1 như sau:
Bảng 1. Tra cứu số thứ tự các trường đại học trong phân tích
Số
TT
1
2
3
4
5
6
7
92

TT KĐ
CEA_DN
CEA_DN
CEA_DN
CEA_DN
CEA_HN
CEA_HN
CEA_HN

Trường đại học đã

Cơng nghệ TP HCM

Quốc tế Sài Gòn
SPKT Vĩnh Long
Văn Hiến
Nội vụ Hà Nội
Phan Thiết
Phennikaa

T1 … T25 LV1 LV2 LV3 LV4
4.60 … 4.00 4.44 4.53 4.49 4.54
4.00
5.00 3.93 4.06 4.10 4.27
4.20
4.00 4.07 4.06 4.07 4.02
4.00
4.00 3.88 3.95 3.81 3.79
3.80
3.50 3.79 3.69 3.76 3.75
4.20
3.50 3.84 3.64 3.68 3.63
4.40
4.00 4.01 3.80 3.88 4.00


LÊ PHƯỚC THÀNH
Số
TT
8
9
10
11


Trường đại học đã
T1 … T25 LV1 LV2 LV3 LV4

CEA_HN
TDTT Hà Nội
4.00
4.00 3.84 3.73 3.82 3.88
CEA_HN
Thủy Lợi
4.60
4.00 4.37 4.03 4.29 4.31
CEA_HN
Học viện Ngoại giao 4.20
4.50 3.98 3.81 4.14 4.36
CEA_TPHCM Đà Lạt
4.00
3.50 3.82 3.50 3.58 3.52
Kinh tế-Tài chính TP
12 CEA_TPHCM
3.80
3.50 3.81 3.53 3.76 3.63
HCM
13 CEA_TPHCM Quốc tế Miền Đông 4.00
4.00 4.03 3.64 3.74 3.61
14 CEA_TPHCM Trà Vinh
4.20
4.00 4.16 4.17 4.15 4.00
Văn hóa TP Hồ Chí
15 CEA_TPHCM

4.00
3.50 3.64 3.55 3.53 3.50
Minh
Công nghệ Miền
16 CEA_Vinh
3.80
4.50 3.72 3.73 3.82 4.08
Đông
17 CEA_Vinh
FPT
4.80
5.00 4.56 4.03 4.32 4.52
18 CEA_Vinh
Hoa Lư
3.80
3.50 3.79 3.84 3.87 3.63
Kinh tế C.Nghiệp
19 CEA_Vinh
4.00
4.00 3.96 3.72 3.82 3.88
Long An
20 CEA_Vinh
Thủ Đô Hà Nội
4.00
3.50 4.03 4.06 3.93 3.71
21 CEA_HiepHoi Bà Rịa-Vũng Tàu
4.00
4.50 4.19 3.93 4.01 3.96
22 CEA_HiepHoi Đại Nam
4.00

4.00 3.85 4.17 3.99 4.00
23 CEA_HiepHoi Dầu khí Việt Nam
4.20
5.00 4.25 4.28 4.03 4.40
Điều dưỡng Nam
24 CEA_HiepHoi
4.40
5.00 4.04 4.27 4.11 4.33
Định
25 CEA_HiepHoi Hoa Sen
4.20
4.00 3.94 4.02 3.84 3.86
26 CEA_HiepHoi Quốc tế Hồng Bàng 4.60
4.50 4.44 4.54 4.41 4.38
27 CEA_HiepHoi Tân Trào
4.20
4.50 4.16 4.21 4.22 4.38
28 CEA_HiepHoi Học viện Phụ nữ
3.80
4.00 3.83 3.78 3.79 3.77
Sau đây là bảng tra cứu (bảng 2) danh mục tên của 25 tiêu chuẩn để thuận lợi theo
dõi kết quả phân tích, đánh giá những mặt mạnh, yếu của các trường theo các tiêu chuẩn.
TT KĐ

Bảng 2. Tra cứu danh mục các tiêu chuẩn
STT
01
02
03
04

05
06
07

Tên tiêu chuẩn
Tầm nhìn, sứ mạng và văn hóa
Quản trị
Lãnh đạo và quản lý
Quản trị chiến lược
Các C.Sách về ĐT, NCKH và PVCĐ
Quản lý nguồn nhân lực
Quản lý tài chính và cơ sở vật chất

STT
14
15
16
17
18
19
20

Tên tiêu chuẩn
Chương trình dạy học
Giảng dạy và học tập
Đánh giá người học
Hỗ trợ người học
Quản lý nghiên cứu khoa học
Quản lý tài sản trí tuệ
Hợp tác và đối tác NCKH

93


ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH...
08
09
10
11
12
13

Các mạng lưới và quan hệ đối ngoại
Hệ thống ĐBCL bên trong
Tự đánh giá và đánh giá ngồi
Hệ thống thơng tin ĐBCL bên trong
Nâng cao chất lượng
Tuyển sinh và nhập học

21
22
23
24
25

Kết nối và phục vụ cộng đồng
Kết quả đào tạo
Kết quả nghiên cứu khoa học
Kết quả phục vụ cộng đồng
Kết quả tài chính và thị trường


2.2. Thuật tốn
2.2.1. Phân tích thành phần chính [1], [2]
Bài tốn: Cho ma trận X={xi, j}
, như vậy:
(i) Một đối tượng có thể biểu diễn trong khơng gian , trong đó mỗi điểm có tọa
độ
,i=
, gọi là khơng gian các đối tượng.
(ii) Một biến có thể biểu diễn trong khơng gian , trong đó mỗi biến có tọa độ
,j=
, gọi là không gian các biến.
Các bước sau đây nhằm tìm thành phần chính trong khơng gian các đối tượng (trường
hợp (i)), trường hợp (ii) thực hiện tương tự trong không gian các biến.
Các bước thực hiện
(1) Xác định tâm của đám mây dữ liệu
Mỗi đối tượng luôn biểu diễn thành một điểm trong không gian, tập các điểm này gọi
là đám mây dữ liệu. Quy tâm tức là tịnh tiến gốc tọa độ về trọng tâm của đám mây. Tâm của
đám mây dữ liệu được thực hiện bằng cách đưa ma trận số liệu về ma trận độ lệch so với
trung bình chung.
Mỗi đối tượng i của biến đều được trừ cho số bình quân của biến . Ta được
ma trận quy tâm X =
(2) Tìm các trục chính
a) Ma trận phương sai-hiệp phương sai (Variance-Covariance Matrix)
Ma trận phương sai-hiệp phương sai nhằm đánh giá sự biến thiên (tập trung hay phân
tán) của dữ liệu quanh tâm của đám mây dữ liệu. Ma trận này được tính theo gốc mới như
sau:
: Ma trận chuyển vị của ma trận X
Nếu biểu diễn sự biến thiên của dữ liệu theo hình học, nghĩa là tìm đường thẳng sao
cho đi qua tâm của đám mây dữ liệu và “gần” với các điểm nhất, nghĩa là khoảng cách từ các
điểm đến đường thẳng cần tìm là nhỏ nhất, hay hình chiếu của các điểm trên trục thứ nhất

(thành phần chính 1) có biến động (phương sai) lớn nhất.
b) Tìm giá trị riêng và véc tơ riêng (Eigenvalues and Eigenvectors)
Tìm giá trị riêng và véc tơ riêng nhằm để xác định các đường thẳng đi qua tâm gần
94


LÊ PHƯỚC THÀNH
đám mây dữ liệu nhất. Tìm các giá trị riêng
theo phương trình:
, I: Ma trận đơn vị
Về mặt hình học, giá trị riêng là tổng bình phương khoảng cách hình chiếu của các
điểm trên những đường thẳng sao cho giá trị này là nhỏ nhất.
Với mỗi giá trị (j =
, qbằng cách giải phương trình:
Véc tơ riêng là cách xác định sự biến thiên giữa các điểm hình chiếu trên trục mới
với đơn vị mới so với sự biến thiên dữ liệu trên hệ tọa độ cũ với đơn vị phương sai bằng 1.
Căn cứ vào giá trị riêng và véc tơ riêng xác định các thành phần chính thứ nhất
(trục chính thứ nhất). Trong PCA, trục chính thứ hai qua tâm và trực giao với trục chính thứ
nhất, trục chính thứ ba qua tâm và trực giao với mặt phẳng tạo thành hai trục trước đó,…
(3) Biểu diễn các đối tượng theo hệ tọa độ mới.
Hình chiếu của đối tượng i lên trục chính j là

2.2.2. Phân cụm dữ liệu bằng thuật toán K-Means [1], [2], [3]
- Bài toán
+ Đầu vào: Cho CSDL gồm n đối tượng và k cụm
+ Đầu ra: Phân các đối tượng vào k cụm
- Các bước thực hiện
+ Bước 1. Khởi tạo: Lấy ngẫu nhiên k điểm làm trọng tâm (centroid)
+ Bước 2. Tính khoảng cách: Với mỗi đối tượng tính khoảng cách từ nó đến các trọng

tâm, các đối tượng gần với trọng tâm hơn được gom vào một cụm
+Bước 3. Cập nhật lại tâm: Trong mỗi cụm tính khoảng cách trung bình giữa các đối
tượng và cập nhật lại tâm cụm (tâm cụm là khoảng cách trung bình giữa các đối tượng trong
cụm)
+ Bước 4. Điều kiện dừng: Lặp lại bước 2 và 3 cho đến khi trọng tâm của cụm khơng
thay đổi
2.3. Kết quả phân tích và đánh giá
Khi biểu diễn các biến cũ qua hệ tọa độ mới với 2 thành phần chính, mối quan hệ giữa
các biến được xác định như sau:
- Góc giữa các vector nhỏ (ở gần nhau) thì các biến có tương quan mạnh với nhau hay
có sự phụ thuộc lẫn nhau.
- Hai vector gần như vng góc thì sự phụ thuộc khơng đáng kể hay khơng có khả
năng tương quan nhau.
- Hai vector ngược nhau 180 độ đó là sự tương quan nghịch.
95


ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH...
Đối với các đối tượng, mối quan hệ với các biến được xác định như sau:
Khi các đối tượng nằm về phía xa của trục dương ứng với thành phần nào thì có giá
trị cao với các biến gần với thành phần đó và ngược lại.
Sau đây là kết quả phân tích bằng biểu đồ và một số đánh giá theo từng lĩnh vực:
Trong lĩnh vực 1 (hình 1): Các trường trong nhóm với số thứ tự 1, 17, 9, 26 được đánh
giá cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này. Trong khi đó các trường trong nhóm
có số thứ tự 11, 15 đánh giá thấp nhất ở các tiêu chuẩn 4, 5, 7. Ngoài ra các trường trong
nhóm có số thứ tự 4, 18, 22 đánh giá thấp ở các tiêu chuẩn 2, 3, 8. Các trường thuộc nhóm
bố trí quanh gốc tọa độ được đánh giá trung bình đối với các tiêu chuẩn.

Hình 1. Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 1

Trong lĩnh vực 2 (hình 2): Các trường trong nhóm với số thứ tự 1, 26 được đánh giá
cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này. Trong khi đó các trường trong nhóm có
số thứ tự 12, 15 đánh giá thấp nhất các 4 lĩnh vực đặc biệt rất thấp ở tiêu chuẩn 9, trường số
11 đánh giá rất thấp ở tiêu chuẩn 12.

Hình 2. Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 2
Trong lĩnh vực 3 (hình 3): Các trường trong nhóm với số thứ tự 1, 17, 26 được đánh
giá cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này, đặc biệt trường số 17 vượt trội ở các
tiêu chuẩn 13, 15, 16, 17. Trong khi các đó các trường 11, 15 đánh giá thấp nhất ở các tiêu
chuẩn 21, các trường thuộc nhóm số 6, 11, 12 đánh giá thấp ở tiêu chuẩn 14, 18, 19, 20,
96


LÊ PHƯỚC THÀNH
nhưng trường số 12 đánh giá rất cao ở tiêu chuẩn 17.

Hình 3. Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 3
Trong lĩnh vực 4 (hình 4): Các trường trong nhóm với số thứ tự 1, 17 được đánh giá
cao nhất ở các tiêu chuẩn 22, 24, 25, nhưng trường số 17 đánh giá thấp ở tiêu chuẩn 23; các
trường trong nhóm với số thứ tự 7, 9, 1 đánh giá cao ở tiêu chuẩn 23, trong khi đó các trường
trong nhóm có số thứ tự 6, 13, 15 đánh giá thấp ở tiêu chuẩn 23. Trường số 11 đánh giá thấp
ở tiêu chuẩn 22, 24, 25.

Hình 4. Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 4
Tổng hợp 4 lĩnh vực (hình 5): Mỗi lĩnh vực bao gồm một số tiêu chuẩn thuộc lĩnh vực
đó, điểm của lĩnh vực được tính bằng trung bình của các tiêu chuẩn.
Căn cứ vào giá trị riêng (Bảng 3) để xác định số lượng thành phần chính. Chọn

Eigenvalues>=1, chỉ có 1 thành phần chính bao gồm cả 4 lĩnh vực được trích ra và giải thích
được 85.9% sự biến thiên của dữ liệu (giữ được 85.9% lượng thông tin ban đầu).
Bảng 3. Giá trị riêng và phần trăm giải thích phương sai của dữ liệu
STT
1

Giá trị riêng
3.4384

Phần trăm Biểu đồ phần trăm
85.959

Phần trăm tích lũy
85.959
97


ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH...
2
3
4

0.2785
6.962
92.921
0.2240
5.601
98.521
0.0591
1.479

100.000
Căn cứ vào véc tơ riêng để xác định mối quan hệ giữa thành phần chính và các biến.
Nói cách khác, đây là mối quan hệ tuyến tính giữa thành phần chính và các biến. Mối quan
hệ được thể hiện bằng bảng ma trận tải (Loading Matrix) bảng 4 như sau:
Bảng 4. Ma trận tải các thành phần chính
Các thành phần chính
1
2
3
4
LV1
0.90147
0.38525
0.18539
0.06760
LV2
0.90174
-0.35876
0.23410
0.05791
LV3
0.97774
0.00926
-0.04143
-0.20550
LV4
0.92553
-0.03548
-0.36489
0.09483

Sau đây là một số đánh giá khi phân tích theo 4 lĩnh vực:
(i) Các trường thuộc nhóm có số thứ tự 1, 26, 17 được đánh giá cao ở 4 lĩnh vực, đặc
biệt trường 27 đánh giá cao nhất ở lĩnh vực 1. Trong khi đó các trường số 15, 11, 6, 12 đánh
giá thấp ở 4 lĩnh vực, trường số 15 đánh giá thấp nhất ở lĩnh vực 3 và 4.
(ii) Kết quả kiểm định của các trung tâm có sự phân bố tương đối đều nhau ở các mức
cao, trung bình và thấp đối với các trường được kiểm định, tuy nhiên đối với kết quả kiểm
định các trường thuộc trung tâm kiểm định−Đại học quốc gia TP Hồ Chí Minh hầu hết đạt ở
mức thấp so với các trung tâm khác, đó là các trường có số thứ tự 11, 12, 13, 15
Lĩnh vực

Hình 5. Biểu đồ sự phân bố các đối tượng theo các thành phần chính, cách phân cụm ở 4
lĩnh vực và các trung tâm phụ trách kiểm định các trường
(iii) Mối quan hệ giữa các lĩnh vực: Xây dựng hệ số tương quan giữa các lĩnh vực
(Hình 6). Lĩnh vực 3 và 4 có hệ số tương quan lớn nhất, điều này chứng tỏ lĩnh vực 3 về chức
năng, hệ thống, chính sách của hoạt động đào tạo, nghiên cứu khoa học và phục vụ cộng
đồng đã tác động trực tiếp đến lĩnh vực 4 về kết quả hoạt động. Trong khi đó lĩnh vực 2 và 3
có hệ số tương quan thấp hơn, điều này chứng tỏ chưa có sự kết nối chặt chẽ giữa lĩnh vực 1
về sứ mệnh, tầm nhìn, mục đích, mục tiêu chiến lược, các chính sách đến lĩnh vực 2 về xây
dựng hệ thống đảm bảo chất lượng bên trong, hệ thống thông tin.
98


LÊ PHƯỚC THÀNH
Hơn nữa khi xoay dữ liệu với cột là các
trường được kiểm định và dòng là các lĩnh
vực, lúc đó lĩnh vực 3 được bố trí gần gốc tọa
độ, điều này chứng tỏ điểm số của lĩnh vực 3
khơng có sự chênh lệch lớn giữa các trường
(tương đối đều nhau), trong khi đó các lĩnh
vực 1, 2 và 4 có sự khác biệt giữa các trường

với nhau. Hay nói cụ thể là các trường có chức
năng, hệ thống, chính sách về hoạt động đào
tạo, nghiên cứu khoa học và phục vụ cộng
đồng là đồng đều nhau.
Hình 6. Hệ số tương quan giữa các lĩnh vực
Một cách phân cụm dữ liệu khác là phân
cụm theo thứ bậc (hierarchical clustering) [2],
[3], hình 7. Ở đây phân thành 4 cụm và được
trình bày một cách trực quan những trường
có kết quả kiểm định cao như ĐH Cơng nghệ
TP Hồ Chí Minh, Quốc tế Hồng Bàng, …
những trường có kết quả kiểm định thấp như
ĐH Phan Thiết, Kinh tế-Tài Chính TP Hồ Chí
Minh, … Thuật tốn phân cụm theo K-Means
và phân cụm theo thứ bậc mỗi cách tiếp cận
khác nhau nhưng kết quả phân cụm nhóm các
trường là tương đương nhau.
Hình 7. Biểu đồ phân cụm theo thứ bậc
3. Kết luận
Phương pháp phân tích thành phần chính dựa trên mơ hình tốn học là phép biến đổi
tuyến tính từ khơng gian này đến không gian khác với số chiều của dữ liệu giảm đi nhưng
vẫn giữ được phần lớn thông tin của dữ liệu, thuận lợi trong việc trình bày, phân tích và
đánh giá chất lượng hoạt động của các trường theo các tiêu chuẩn và lĩnh vực. Khi khơng
gian bài tốn ban đầu được đưa về mặt phẳng 2 chiều với hai thành phần chính được trích
ra, tiếp tục áp dụng kỹ thuật phân cụm dữ liệu dựa trên “sự tương tự” giữa các đối tượng
trong nhóm, bằng cách nhóm các trường có những tiêu chuẩn, lĩnh vực mạnh/ yếu theo từng
cụm để đánh giá. Sự kết hợp của hai kỹ thuật này nhằm trình bày một cách trực quan nhất
khơng gian nhóm các đối tượng (các trường đại học) theo các biến/ thành phần chính (các
tiêu chuẩn, lĩnh vực).
Đây mới chỉ là kết quả của 28 trường đại học và học viện được đánh giá theo bộ tiêu

chuẩn của thông tư 12/2017/TT-BGDÐT, khi các trung tâm kiểm định có kết quả kiểm định
ngày càng đầy đủ, việc phân tích mối liên hệ giữa các tiêu chuẩn, lĩnh vực sẽ tạo điều kiện
cho các trường đại học có những định hướng đúng đắn trong việc xây dựng hệ thống đảm
bảo chất lượng bên trong nhà trường.
99


ỨNG DỤNG PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH...
TÀI LIỆU THAM KHẢO
1. Tài liệu:
[1]. Đỗ Phúc (2008), Giáo trình khai thác dữ liệu. Nhà xuất bản Đại học Quốc gia TP Hồ
Chí Minh.
[2]. Tơ Cẩm Tú, Nguyễn Huy Hồng (2003), Phân tích số liệu nhiều chiều. Nhà xuất bản
Khoa học và Kỹ thuật.
[3]. Hoàng Trọng & Chu Nguyễn Mộng Ngọc (2005), Phân tích dữ liệu nghiên cứu với
SPSS, tập 2. Nhà xuất bản Thống kê.
[4]. Hoàng Xuân Huấn (2015), Giáo trình học máy, Đại học Quốc gia Hà Nội.
[5]. ZHOU Shuangxi (2015), University Teachers’Performance Comprehensive Evaluation
Based on Principal Component Analysis, Higher Education of Social Science,
CSCanada
[6]. MengYi (2019), Application of Principal Component Analysis in Teaching Evaluation,
Published by Francis Academic Press, UK
[7]. JMP 13 Multivariate Methods, Second Edition (2017). Cary, NC: SAS Institute Inc.
[8]. Thông tư 12/2017/TT-BGDÐT Ban hành Quy định về kiểm định chất lượng cơ sở giáo
dục đại học, Bộ Giáo dục và Đào tạo.
2. Các website của trung tâm kiểm định để truy cập dữ liệu:
[9]. , truy cập ngày 24/09/2020
[10]. , truy cập ngày 24/09/2020
[11]. , truy cập ngày 24/09/2020
[12]. , truy cập ngày 24/09/2020

[13]. , truy cập ngày 24/09/2020
Title: APPLYING PRINCIPAL COMPONENT ANALYSIS AND CLUSTERING
TO ASSESS ACCREDITATION RESULTS IN HIGHER EDUCATION
INSTITUTIONS
LE PHUOC THANH
Quang Nam University
Abstract: Currently, the centers for education accreditation (CEA) have announced
university accreditation results by the standard set under Circular 12/2017 / TT-BGDĐT.
The accreditation results are standardized in the form of a multi-dimensional database
based on these standards. This research is carried out in a combination of two main
techniques- principal component analysis and clustering- to present, analyze and extract
useful knowledge from the accreditation results. At the same time, the paper points out the
educational institutions’ strengths and weaknesses based on the standards, the relationship
between different fields as well as compare the assessment levels among accreditation
centers. This is the foundation to compare and improve the quality in educational institutions.
Keywords: Principal Component Analysis, Clustering, K-MEANS clustering
algorithm, Correlation Coefficient, Higher Education Quality Accreditation.

100



×