ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM
TRẦN MINH KHƠI
KHĨA LUẬN TỐT NGHIỆP
TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC
NGHIÊN CỨU
COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2022
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
TRẦN MINH KHÔI - 18520947
KHĨA LUẬN TỐT NGHIỆP
TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC
NGHIÊN CỨU
COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. HUỲNH NGỌC TÍN
TP. HỒ CHÍ MINH, 2022
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ........................của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1.
2.
3.
4.
Chủ tịch.
Thư ký.
Ủy viên.
Ủy viên.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN
Độc Lập - Tự Do - Hạnh Phúc
TP. HCM, ngày ….. tháng ….. năm 20.....
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
Nhóm SV thực hiện:
Trần Minh Khơi
18520947
Cán bộ hướng dẫn:
TS. Huỳnh Ngọc Tín
Đánh giá khóa luận:
1. Về cuốn báo cáo
Số trang
108
Số chương
5
Số bảng số liệu
28
Số hình vẽ
58
Số tài liệu tham
khảo
28
Sản phẩm
1
Một số nhận xét về hình thức cuốn báo cáo:
2. Về nội dung nghiên cứu:
3. Về chương trình ứng dụng:
4. Về thái độ làm việc của sinh viên:
Đánh giá khóa luận:
Điểm sinh viên:
Trần Minh Khôi:.............../10
Người nhận xét
(Ký và ghi rõ họ tên)
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN
Độc Lập - Tự Do - Hạnh Phúc
TP. HCM, ngày ….. tháng ….. năm 20.....
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
Nhóm SV thực hiện:
Trần Minh Khơi
18520947
Cán bộ hướng dẫn:
ThS. Đinh Nguyễn Anh
Dũng
Đánh giá khóa luận:
1. Về cuốn báo cáo
Số trang
108
Số chương
5
Số bảng số liệu
28
Số hình vẽ
58
Số tài liệu tham
khảo
28
Sản phẩm
1
Một số nhận xét về hình thức cuốn báo cáo:
2. Về nội dung nghiên cứu:
3. Về chương trình ứng dụng:
4. Về thái độ làm việc của sinh viên:
Đánh giá khóa luận:
Điểm sinh viên:
Trần Minh Khôi:.............../10
Người nhận xét
(Ký và ghi rõ họ tên)
LỜI CẢM ƠN
Khoảng thời gian nghiên cứu và làm việc tại trường Đại học Công nghệ Thông tin ĐHQG TP.HCM, về cơ bản đã cung cấp cho nhóm khá đầy đủ kiến thức nền tảng xây
dựng và phát triển ứng dụng nói chung. Cảm ơn trường đã tạo ra một mơi trường học
tập cạnh tranh, lành mạnh. Cảm ơn vì chúng tơi đã có cơ hội được trải nghiệm áp lực
chạy deadline, va chạm với nhiều sinh viên giỏi, mày mị các cơng nghệ hay mang tính
thực tiễn cao.
Nhóm xin chân thành cảm ơn giảng viên hướng dẫn Huỳnh Ngọc Tín đã kiên trì theo
sát, thúc đẩy nhóm trong suốt quá trình làm việc. Tài liệu và bài báo tham khảo do thầy
cung cấp là khung sườn giúp nhóm bám theo, mở rộng và hoàn thiện đề tài đề tài nói
riêng cũng như nắm bắt kiến thức thực tiễn về hệ khuyến nghị và dữ liệu lớn nói
chung.
Tp. Hồ Chí Minh, ngày 1 tháng 07 năm 2022
Sinh viên thực hiện đề tài
Trần Minh Khôi
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
TÊN ĐỀ TÀI (TIẾNG ANH): Collaboration recommender system for researchers
Cán bộ hướng dẫn: TS. Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 25/2/2022 đến ngày 15/6/2022
Sinh viên thực hiện:
Trần Minh Khôi – 18520947
Nội dung đề tài
● Bối cảnh
○ Một người làm nghiên cứu, người theo học các chương trình thạc sĩ, tiến
sĩ có nhu cầu tìm kiếm người cộng tác tiềm năng. Hệ thống có thể tìm
kiếm và gợi ý các hợp tác nghiên cứu dựa trên thông tin về hướng nghiên
cứu và tổ chức cơng tác.
○ Một đồn nghiên cứu trường NUS đến thăm và tìm kiếm cơ hội hợp tác
với trường UIT. Hệ thống có thể tìm kiếm và gợi ý các quan hệ hợp tác
tiềm năng.
● Mục tiêu
○ Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng tin, khai thác dữ
liệu mạng xã hội.
○ Phân tích và thử nghiệm mơ hình. Ứng dụng xây dựng hệ thống khuyến
nghị cộng tác viên tiềm năng trên bộ dữ liệu nghiên cứu.
● Phạm vi
○ Các quan hệ tương tác chiết xuất từ bộ dữ liệu Arnet Citation V13
○ Các framework hỗ trợ lập trình máy học, xử lý đại số, hiển thị dữ liệu:
Tensorflow, Numpy, Matplotlib.
○ Các framework dữ liệu lớn, xử lý dữ liệu: Apache Hadoop, Apache
Spark.
○ Các thư viện hỗ trợ xây dựng ứng dụng web: Fast API, SqlAlchemy,
React.
● Phương pháp
○ Đọc hiểu văn bản, báo cáo khoa học.
○ Nghiên cứu mã nguồn.
○ Thực nghiệm đánh giá
● Kết quả mong đợi
○ Hệ thống sau deploy phản hồi nhanh.
○ Độ chính xác dự đốn cao.
○ Giao diện web cho phép người dùng tương tác.
Kế hoạch thực hiện
Đề án sẽ được chia làm 3 giai đoạn
1. Tìm hiểu, nghiên cứu các giải pháp khuyến nghị cộng tác. Các framework hỗ trợ
máy học
2. Xử lý dữ liệu thô, xây dựng hệ thống. Chạy thực nghiệm kết quả, canh chỉnh
thông số
3. Xây dựng giao diện web demo
Meeting định kỳ giảng viên hướng dẫn
● Hàng tuần thứ 5 - 9:30 PM
25/02 - 15/04
● Nghiên cứu các bài báo liên quan
● Nghiên cứu framework hỗ trợ máy học
● Viết báo cáo giai đoạn 1
16/04 - 29/04
● Xử lý dữ liệu từ dblp. Xây dựng hệ thống lưu trữ, truy xuất dữ liệu lớn
● Canh chỉnh thông số hệ thống
● Viết báo cáo giai đoạn 2
30/04 - 14/05
● Cài đặt thuật toán huấn luyện
● Chạy số liệu
● Viết báo cáo giai đoạn 3
15/05 - 5/06
● Giao diện demo
● Deploy hệ thống
● Viết báo cáo giai đoạn 4 (cuối)
5/06 - 11/06
● Tổng hợp báo cáo
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
TP. HCM, ngày 25 tháng 2 năm 2022
LỜI CẢM ƠN
8
DANH MỤC HÌNH VẼ
16
DANH MỤC BẢNG
20
DANH MỤC TỪ VIẾT TẮT
22
TÓM TẮT KHÓA LUẬN
1
Chương 1 - Mở đầu
1.1. Dẫn nhập
1.2. Mục tiêu
1.3. Nội dung thực hiện
1.4. Phạm vi thực hiện
1.5. Bố cục báo cáo
1.6. Kết quả đạt được
1.7. Kết chương 1
2
2
3
3
4
4
5
5
Chương 2 - Những nghiên cứu liên quan
2.1. Bài toán khuyến nghị
2.1.1. Khái niệm hệ khuyến nghị
2.1.2. Phát biểu bài toán
2.2. Khảo sát nghiên cứu liên quan
2.2.1. Các phương pháp lọc truyền thống
2.2.1.1. Lọc nội dung (Content-base)
2.2.1.2. Lọc cộng tác (Collaborative filtering)
2.2.1.3. Lọc nhân khẩu (Demographic filtering)
2.2.1.4. Kết luận hướng phát triển
2.2.2. Tìm kiếm hàng xóm gần nhất (NNS)
2.2.2.1. Tìm kiếm tuyến tính (Linear search)
2.2.2.2. Tìm kiếm xấp xỉ (Approximate nearest neighbor, ANN)
2.2.2.3. Mơ hình khuyến nghị 2 giai đoạn (2 phase recommender)
2.2.3.4. Kết luận hướng phát triển
2.2.3. Xếp hạng trang (PageRank)
2.2.3.1. Xếp hạng trang truyền thống
2.2.3.2. Lướt ngẫu nhiên với xác suất khởi động (RWR)
6
6
6
6
8
8
8
10
12
13
14
15
16
18
19
20
21
23
2.2.3.3. Kết luận hướng phát triển
2.3. Kết chương 2
24
25
Chương 3 - Khuyến nghị cộng tác dựa trên phân tích mạng xã hội
3.1. Phát biểu bài toán
3.2. Tổng quan tiếp cận
3.3. Dữ liệu mạng xã hội
3.3.1. Định nghĩa
3.3.2. Hiện thực lưu trữ, khai thác dữ liệu mạng xã hội
3.4. Phân tích dữ liệu
3.4.1. Giới thiệu bộ dữ liệu
3.4.2. Tương đồng nội dung
3.4.2.1. Biểu diễn vector nội dung
3.4.2.2. Phân tích đặc trưng
3.4.3. Tương đồng trích dẫn
3.4.3.1. Lướt ngẫu nhiên với xác suất khởi động (RWR)
3.4.3.2. Phân tích đặc trưng
3.4.4. Tổ chức cộng tác
3.4.4.1. Tính chất địa phương của tổ chức
3.4.4.2. Phân tích đặc trưng
3.4.5. Tần suất hoạt động
3.4.5.1. Ước lượng tần suất hoạt động
3.4.5.2. Phân tích đặc trưng
3.5. Mơ hình khuyến nghị
3.5.1. Tổng quan mơ hình
3.5.2. Đặc trưng và kỹ thuật khai thác
3.5.3. Mô đun truy vấn
3.5.4. Mô đun xếp hạng
3.6. Kết chương 3
26
26
27
28
28
29
30
30
32
33
33
37
38
39
42
43
45
49
50
50
53
53
54
56
58
60
Chương 4 - Thiết kế hệ thống
4.1. Phân tích Use Case
4.1.1. Sơ đồ Use Case
4.1.2. Đặc tả Use Case
4.1.2.1. Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng”
61
61
61
62
62
4.1.2.2. Đặc tả Use Case “Tìm kiếm mối quan hệ cộng tác tiềm năng giữa 2
tổ chức”
63
4.1.2.3. Đặc tả Use Case “Tìm kiếm báo khoa học”
64
4.1.2.4. Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng theo bài báo”
65
4.2. Khai thác dữ liệu
65
4.2.1. Công nghệ dữ liệu lớn
66
4.2.1.1. Hadoop
67
4.2.1.2. Spark
69
4.2.2. Cấu hình máy chủ
70
4.2.3. Luồng khai thác dữ liệu
71
4.2.3.1. Luồng khai thác dữ liệu thô
72
4.2.3.2. Luồng khai thác tương đồng nội dung
74
4.2.3.3. Luồng khai thác tương đồng trích dẫn
76
4.2.3.4. Luồng khai thác tương đồng tổ chức
77
4.2.3.5. Luồng khai thác tương đồng tần suất hoạt động
79
4.3. Kiến trúc hệ thống
80
4.4. Giao diện ứng dụng
82
4.4.1. Use case UC-1
82
4.4.2. Use case UC-2
83
4.4.3. Use case UC-3, UC-4
84
4.5. Kết chương
85
Chương 5 - Thực nghiệm và đánh giá mơ hình
5.1. Dữ liệu thực nghiệm
5.2. Tổ chức thực nghiệm
5.3. Phương pháp đánh giá
5.3.1. Độ đo Binary Accuracy
5.3.2. Độ đo Precision
5.3.3. Độ đo Recall
5.3.4. Độ đo AUC
5.3.5. Độ đo Top-K content quality
5.4. Kết quả thực nghiệm
5.4.1. Độ đo Confusion Matrix
86
86
90
93
94
94
94
95
96
97
97
5.4.2. Độ đo top-k
5.4.3. Biểu đồ hội tụ
99
101
Kết luận và hướng phát triển
102
Tài liệu tham khảo
104
Phụ lục
108
DANH MỤC HÌNH VẼ
Hình 1.1: Các phương pháp lọc truyền thống
8
Hình 1.2: Lọc nội dung minh họa (Internet)
8
Hình 1.3: Lọc cộng tác minh hoạ [2]
10
Hình 1.4: Lọc nhân khẩu minh hoạ [8]
12
Hình 1.5: Minh họa hàng xóm gần nhất (Internet)
14
Hình 1.6: Biểu đồ vùng Voronoi, dùng cơng thức Euclidean (Wikipedia)
16
Hình 1.7: Biểu đồ vùng Voronoi, dùng cơng thức Manhattan (Wikipedia)
16
Hình 1.8: Biểu đồ thể hiện hiệu năng các giải thuật ANN, với mỗi truy vấn q cho k
= 10 (ann-benchmarks.com)
16
Hình 1.9: Mơ hình khuyến nghị Youtube DNN [15]
18
Hình 2.1: Minh họa xếp hạng trang (Internet)
20
Hình 2.2: Mơ phỏng xếp hạng truyền thống [20]
21
Hình 2.3: Minh họa lướt ngẫu nhiên với xác suất khởi động (Internet)
23
Hình 2.4: Minh họa tiếp cận hệ thống CL-PUB
27
Hình 2.5: Minh họa mạng xã hội (Internet)
28
Hình 2.6: Minh họa lưu trữ đồ thị 2 chiều biểu diễn quan hệ bạn bè
29
Hình 2.7: Minh họa lịch sử xuất bản
32
Hình 2.8: Minh họa kỹ thuật BOW (Internet)
33
Hình 2.9: Minh họa kỹ thuật Average Pooling, với Pool = 2, Stride = 2 (Internet)
34
Hình 3.1: Biểu đồ mật độ thể hiện tương quan giữa tương đồng nội dung và số cặp
cộng tác
36
Hình 3.2: Minh họa trích dẫn
37
Hình 3.3: Phân hoạch đồ thị theo đỉnh (Pregel) [25]
39
Hình 3.4: Biểu đồ đường biểu thị sự thay đổi phân phối xếp hạng RWR qua 12
vịng lặp
40
Hình 3.5: Biểu đồ tần suất thể hiện tương quan giữa tương đồng trích dẫn và số
cặp cộng tác (RWR)
41
Hình 3.6: Biểu đồ tần suất thể hiện tương quan giữa tương đồng trích dẫn và số
cặp cộng tác (RWR thiên kiến)
41
Hình 3.7: Minh họa cộng tác tổ chức
42
Hình 3.8: Minh họa cụm trong đồ thị (Internet)
44
Hình 3.9: Biểu đồ trịn thể hiện tương quan giữa cộng tác tổ chức và số cặp cộng
tác. Sử dụng phân loại cụm Org-Discrete
47
Hình 4.1: Biểu đồ tròn thể hiện tương quan giữa cộng tác tổ chức và số cặp cộng
tác. Sử dụng ước lượng độ quan trọng phần tử trong cụm Org-Rank
48
Hình 4.2: Minh hoạ tần suất hoạt động của 1 tác giả (Internet)
49
Hình 4.3: Biểu đồ tần suất thể hiện tương quan giữa tần suất hoạt động và số cặp
cộng tác. Sử dụng Node Avg, với Window lần lượt là 2, 5, 10
51
Hình 4.4: Biểu đồ tần suất thể hiện tương quan giữa tần suất hoạt động và số cặp
cộng tác. Sử dụng Node Proximity, với Window lần lượt là 2, 5, 10
52
Hình 4.5: Minh họa mơ đun truy vấn
56
Hình 4.6: Minh họa mơ đun xếp hạng
58
Hình 4.7: Minh họa SVM 2 trường hợp Hard và Soft margin (Internet)
59
Hình 4.8: Sơ đồ Use Case
61
Hình 4.9: Minh họa cấu trúc Hadoop Master-Slave (Internet)
67
Hình 5.1: Minh họa cấu trúc Spark driver (Internet)
69
Hình 5.2: Minh họa dịch vụ điện tốn AWS EMR (Internet)
70
Hình 5.3: Minh họa mơ hình ETL (Internet)
71
Hình 5.4: Luồng khai thác dữ liệu thơ
72
Hình 5.5: Luồng khai thác tương đồng nội dung
74
Hình 5.6: Luồng khai thác tương đồng trích dẫn
76
Hình 5.7: Luồng khai thác tương đồng tổ chức
77
Hình 5.8: Luồng khai thác tương đồng tần suất hoạt động
79
Hình 5.9: Tổng quan hệ thống CL-PUB
80
Hình 5.10.1: Giao diện tìm kiếm tác giả
82
Hình 5.10.2: Giao diện khuyến nghị tác giả
83
Hình 5.10.3: Giao diện tìm kiếm tổ chức
83
Hình 5.10.4: Giao diện khuyến nghị các cặp cộng tác tiềm năng giữa 2 tổ chức
84
Hình 5.10.5: Giao diện tìm kiếm báo khoa học
84
Hình 5.10.6: Giao diện khuyến nghị tác giả dựa trên bài báo
85
Hình 6.1: Phân phối năm xuất bản trong bộ dữ liệu (DBLP)
86
Hình 6.2: Minh họa học sâu (Internet)
90
Hình 6.3: Minh họa Confusion Matrix (Internet)
93
Hình 6.4: Minh họa độ đo AUC (Internet)
95
Hình 6.5: So sánh hiệu năng giữa các mơ hình thử nghiệm
98
Hình 6.6: So sánh hiệu năng các kết quả khuyến nghị
100
Hình 6.7: Biểu đồ hội tụ mơ hình lần lượt là RE1, RE2, RE4
101
DANH MỤC BẢNG
Bảng 1.1: Các phiên bản bộ dữ liệu Arnet Citation
30
Bảng 1.10: Số liệu quan hệ xã hội từ bộ dữ liệu
31
Bảng 1.2: Số liệu từ vựng
34
Bảng 1.3: Tỉ lệ trùng vector nội dung theo kích thước H
35
Bảng 1.4: Thơng số đồ thị trích dẫn
39
Bảng 1.5: Thơng số đồ thị cộng tác tổ chức
45
Bảng 1.6: Thông số cặp công tác khơng có thơng tin tổ chức
46
Bảng 1.7: Thơng số đồ thị cộng tác tổ chức
46
Bảng 1.8: Danh sách đặc trưng
54
Bảng 1.9: Kỹ thuật khai thác đặc trưng
56
Bảng 2.1: Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng”
62
Bảng 2.2: Đặc tả Use Case “Tìm kiếm mối quan hệ cộng tác tiềm năng giữa 2 tổ
63
chức”
Bảng 2.3: Đặc tả Use Case “Tìm kiếm báo khoa học”
64
Bảng 2.4: Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng theo bài báo”
65
Bảng 2.5: Phần cứng máy chủ
71
Bảng 2.6: Mô tả bảng luồng khai thác dữ liệu thô
74
Bảng 2.7: Mô tả bảng luồng khai thác tương đồng nội dung
75
Bảng 2.8: Mô tả bảng luồng khai thác tương đồng trích dẫn
77
Bảng 2.9: Mô tả bảng luồng khai thác tương đồng tổ chức
78
Bảng 3.1: Mô tả bảng tần suất hoạt động
79
Bảng 3.2: Dữ kiện năm xuất bản trong bộ dữ liệu
86
Bảng 3.3: Kích thước mẫu
88
Bảng 3.4: Tập dữ liệu ứng với từng đặc trưng
89
Bảng 3.5: Thơng số mơ hình cơ sở
90
Bảng 3.6: Nội dung thử nghiệm mơ hình
92
Bảng 3.7: Mơ tả thuộc tính Confusion Matrix
93
Bảng 3.8: Kết quả thực nghiệm, các độ đo Confusion Matrix
97
Bảng 3.9: Kết quả thực nghiệm, các độ đo top-k
99
DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
Từ đầy đủ
Giải thích
SQL
Structured Query Language
Một loại cú pháp thường dùng
truy xuất dữ liệu trong các cơ sở
dữ liệu thông dụng.
NoSQL
Not only SQL
Là một khái niệm truy vấn dữ
liệu trong cơ sở dữ liệu, tuy
nhiên loại bỏ những Constraints
(cưỡng ép) thường thấy trong
SQL.
RDBMS
Relational database
management system
Đại ý chỉ những giải pháp lưu
trữ dữ liệu truyền thống. Như
MSSQL, MySQL, Oracle…
RWR
Random walk with restart
Thuật toán xếp hạng đỉnh trong
đồ thị.
BFS
Breadth-first search
Duyệt đồ thị loang
DFS
Depth-first search
Duyệt đồ thị theo chiều sâu
TF-IDF
Term frequency - Inverse
document frequency
Kỹ thuật vector hóa văn bản, chỉ
ưu tiên trọng số cao với từ khóa
khác biệt, các từ khóa xuất hiện
nhiều có trọng số thấp.
BOW
Bag of words
Kỹ thuật vector hóa văn bản
bằng cách đếm từ.
SVM
Support Vector Machine
Mơ hình AI phân loại nhị phân
NNS
Nearest Neighbor Search
Tìm kiếm hàng xóm gần nhất
ANN
Approximate Nearest Neighbor
Tìm kiếm xấp xỉ hàng xóm gần
nhất
RE
Recommender
Hệ khuyến nghị
ORG
Organization
Tổ chức
UC
Use case
Use case hệ thống
TÓM TẮT KHÓA LUẬN
Các hệ thống khuyến nghị sản phẩm, khuyến nghị tin tức… đã trở nên rất phổ biến và
là một phần không thể thiếu trong đời sống nhiều người. Trong đề tài đồ án kỳ này,
chúng tôi mong muốn nghiên cứu sâu về chuyên đề khuyến nghị và ứng dụng xây dựng
hệ thống khuyến nghị người cộng tác tiềm năng phục vụ các nghiên cứu sinh, các bạn
sinh viên làm nghiên cứu trong các trường đại học.
Chuyên đề nghiên cứu cộng tác học thuật có vẻ được khá ít nhà nghiên cứu quan tâm,
các tiếp cận khuyến nghị cơ bản không phù hợp với đặc thù kết nối mang tính địa
phương giữa 2 đối tượng khuyến nghị. Trong phạm vi khóa luận, chúng tơi khơng giải
quyết bài tốn thu thập thông tin (Crawl) mà sử dụng lại bộ dữ liệu nghiên cứu dành
riêng cho chuyên đề khuyến nghị học thuật. Từ bộ dữ liệu sẵn có, chúng tơi khảo sát
các nghiên cứu liên quan, xây dựng hệ thống và khai thác đặc trưng từ bộ dữ liệu. Với
tập đặc trưng đã khai thác, chúng tôi thử nghiệm các mơ hình máy học khác nhau để
tìm ra mơ hình cho kết quả khuyến nghị tốt nhất. Tích hợp mơ hình vào hệ thống, mở
rộng thêm nhánh phục vụ người dùng.
Kết đề tài, chúng tôi thẳng thắn nhận định các thiếu sót trong các tiếp cận, đề xuất
hướng nghiên cứu phát triển tiềm năng cho các “nhà nghiên cứu” trong tương lai với
mong muốn kế thừa và nâng cấp đề tài.
1
Chương 1 - Mở đầu
1.1. Dẫn nhập
Nghiên cứu và xuất bản báo khoa học là hoạt động không thể thiếu ở các trường đại
học. Không chỉ dành cho cấp bậc đào tạo thạc sĩ, tiến sĩ. Bất kỳ sinh viên đại học nào
cũng được chào đón tham gia hoạt động, và thực tế cho thấy càng ngày càng có nhiều
bài báo được xuất bản ở các đầu báo khoa học nổi tiếng với tác giả là các bạn sinh viên
chương trình cử nhân, kỹ sư… Nghiên cứu khoa học trở nên sôi nổi, tạo tiền đề ứng
dụng các giải pháp khuyến nghị vào việc khuyến nghị các mối quan hệ cộng tác tiềm
năng. Một hệ khuyến nghị cộng tác, không những góp phần nâng cấp hoạt động nghiên
cứu khoa học trong nội tại tổ chức. Mà thông qua kết quả khuyến nghị cộng tác viên
trực thuộc tổ chức khác góp phần không nhỏ thúc đẩy sự hợp tác giữa các trường đại
học trong và ngồi nước.
Các bài tốn khuyến nghị học thuật phổ biến như: khuyến nghị báo khoa học, khuyến
nghị cộng tác viên, khuyến nghị hội đồng nộp báo… Cũng như các giải pháp khuyến
nghị kinh điển như lọc lý lịch (Demographic Filtering), lọc nội dung (Content-Based
Filtering), lọc cộng tác (Collaborative Filtering), kết hợp các giải pháp lọc (Hybrid),
tiếp cận mơ hình (Model-Based), tương đồng gần nhất (K-Nearest neighbor)... có nhiều
bất cập. Một số có thể kể đến là dữ liệu lớn (Big Data), dữ liệu thưa (Sparse), chưa có
cách thức chuẩn để đánh giá mơ hình (Benchmark), khởi động lạnh (Cold start).
2