Tải bản đầy đủ (.pdf) (131 trang)

Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu (khóa luận tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.81 MB, 131 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM

TRẦN MINH KHƠI

KHĨA LUẬN TỐT NGHIỆP

TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC
NGHIÊN CỨU
COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2022


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

TRẦN MINH KHÔI - 18520947

KHĨA LUẬN TỐT NGHIỆP

TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC
NGHIÊN CỨU
COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS


KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
TS. HUỲNH NGỌC TÍN

TP. HỒ CHÍ MINH, 2022


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ........................của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1.
2.
3.
4.

Chủ tịch.
Thư ký.
Ủy viên.
Ủy viên.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN


Độc Lập - Tự Do - Hạnh Phúc

TP. HCM, ngày ….. tháng ….. năm 20.....
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
Nhóm SV thực hiện:
Trần Minh Khơi

18520947

Cán bộ hướng dẫn:
TS. Huỳnh Ngọc Tín

Đánh giá khóa luận:
1. Về cuốn báo cáo
Số trang

108

Số chương

5

Số bảng số liệu

28

Số hình vẽ


58

Số tài liệu tham
khảo

28

Sản phẩm

1

Một số nhận xét về hình thức cuốn báo cáo:

2. Về nội dung nghiên cứu:


3. Về chương trình ứng dụng:

4. Về thái độ làm việc của sinh viên:

Đánh giá khóa luận:

Điểm sinh viên:
Trần Minh Khôi:.............../10

Người nhận xét

(Ký và ghi rõ họ tên)



ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN

Độc Lập - Tự Do - Hạnh Phúc

TP. HCM, ngày ….. tháng ….. năm 20.....
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
Nhóm SV thực hiện:
Trần Minh Khơi

18520947

Cán bộ hướng dẫn:
ThS. Đinh Nguyễn Anh
Dũng

Đánh giá khóa luận:
1. Về cuốn báo cáo
Số trang

108


Số chương

5

Số bảng số liệu

28

Số hình vẽ

58

Số tài liệu tham
khảo

28

Sản phẩm

1

Một số nhận xét về hình thức cuốn báo cáo:

2. Về nội dung nghiên cứu:


3. Về chương trình ứng dụng:

4. Về thái độ làm việc của sinh viên:


Đánh giá khóa luận:

Điểm sinh viên:
Trần Minh Khôi:.............../10

Người nhận xét

(Ký và ghi rõ họ tên)


LỜI CẢM ƠN
Khoảng thời gian nghiên cứu và làm việc tại trường Đại học Công nghệ Thông tin ĐHQG TP.HCM, về cơ bản đã cung cấp cho nhóm khá đầy đủ kiến thức nền tảng xây
dựng và phát triển ứng dụng nói chung. Cảm ơn trường đã tạo ra một mơi trường học
tập cạnh tranh, lành mạnh. Cảm ơn vì chúng tơi đã có cơ hội được trải nghiệm áp lực
chạy deadline, va chạm với nhiều sinh viên giỏi, mày mị các cơng nghệ hay mang tính
thực tiễn cao.
Nhóm xin chân thành cảm ơn giảng viên hướng dẫn Huỳnh Ngọc Tín đã kiên trì theo
sát, thúc đẩy nhóm trong suốt quá trình làm việc. Tài liệu và bài báo tham khảo do thầy
cung cấp là khung sườn giúp nhóm bám theo, mở rộng và hoàn thiện đề tài đề tài nói
riêng cũng như nắm bắt kiến thức thực tiễn về hệ khuyến nghị và dữ liệu lớn nói
chung.

Tp. Hồ Chí Minh, ngày 1 tháng 07 năm 2022
Sinh viên thực hiện đề tài
Trần Minh Khôi


ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu
TÊN ĐỀ TÀI (TIẾNG ANH): Collaboration recommender system for researchers

Cán bộ hướng dẫn: TS. Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 25/2/2022 đến ngày 15/6/2022
Sinh viên thực hiện:
Trần Minh Khôi – 18520947
Nội dung đề tài
● Bối cảnh
○ Một người làm nghiên cứu, người theo học các chương trình thạc sĩ, tiến
sĩ có nhu cầu tìm kiếm người cộng tác tiềm năng. Hệ thống có thể tìm
kiếm và gợi ý các hợp tác nghiên cứu dựa trên thông tin về hướng nghiên
cứu và tổ chức cơng tác.
○ Một đồn nghiên cứu trường NUS đến thăm và tìm kiếm cơ hội hợp tác
với trường UIT. Hệ thống có thể tìm kiếm và gợi ý các quan hệ hợp tác
tiềm năng.
● Mục tiêu
○ Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng tin, khai thác dữ
liệu mạng xã hội.
○ Phân tích và thử nghiệm mơ hình. Ứng dụng xây dựng hệ thống khuyến
nghị cộng tác viên tiềm năng trên bộ dữ liệu nghiên cứu.


● Phạm vi
○ Các quan hệ tương tác chiết xuất từ bộ dữ liệu Arnet Citation V13
○ Các framework hỗ trợ lập trình máy học, xử lý đại số, hiển thị dữ liệu:
Tensorflow, Numpy, Matplotlib.
○ Các framework dữ liệu lớn, xử lý dữ liệu: Apache Hadoop, Apache
Spark.
○ Các thư viện hỗ trợ xây dựng ứng dụng web: Fast API, SqlAlchemy,
React.
● Phương pháp
○ Đọc hiểu văn bản, báo cáo khoa học.

○ Nghiên cứu mã nguồn.
○ Thực nghiệm đánh giá
● Kết quả mong đợi
○ Hệ thống sau deploy phản hồi nhanh.
○ Độ chính xác dự đốn cao.
○ Giao diện web cho phép người dùng tương tác.
Kế hoạch thực hiện
Đề án sẽ được chia làm 3 giai đoạn
1. Tìm hiểu, nghiên cứu các giải pháp khuyến nghị cộng tác. Các framework hỗ trợ
máy học
2. Xử lý dữ liệu thô, xây dựng hệ thống. Chạy thực nghiệm kết quả, canh chỉnh
thông số
3. Xây dựng giao diện web demo


Meeting định kỳ giảng viên hướng dẫn
● Hàng tuần thứ 5 - 9:30 PM
25/02 - 15/04
● Nghiên cứu các bài báo liên quan
● Nghiên cứu framework hỗ trợ máy học
● Viết báo cáo giai đoạn 1
16/04 - 29/04
● Xử lý dữ liệu từ dblp. Xây dựng hệ thống lưu trữ, truy xuất dữ liệu lớn
● Canh chỉnh thông số hệ thống
● Viết báo cáo giai đoạn 2
30/04 - 14/05
● Cài đặt thuật toán huấn luyện
● Chạy số liệu
● Viết báo cáo giai đoạn 3
15/05 - 5/06

● Giao diện demo
● Deploy hệ thống
● Viết báo cáo giai đoạn 4 (cuối)
5/06 - 11/06
● Tổng hợp báo cáo
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)

TP. HCM, ngày 25 tháng 2 năm 2022


LỜI CẢM ƠN

8

DANH MỤC HÌNH VẼ

16

DANH MỤC BẢNG

20

DANH MỤC TỪ VIẾT TẮT

22

TÓM TẮT KHÓA LUẬN

1


Chương 1 - Mở đầu
1.1. Dẫn nhập
1.2. Mục tiêu
1.3. Nội dung thực hiện
1.4. Phạm vi thực hiện
1.5. Bố cục báo cáo
1.6. Kết quả đạt được
1.7. Kết chương 1

2
2
3
3
4
4
5
5

Chương 2 - Những nghiên cứu liên quan
2.1. Bài toán khuyến nghị
2.1.1. Khái niệm hệ khuyến nghị
2.1.2. Phát biểu bài toán
2.2. Khảo sát nghiên cứu liên quan
2.2.1. Các phương pháp lọc truyền thống
2.2.1.1. Lọc nội dung (Content-base)
2.2.1.2. Lọc cộng tác (Collaborative filtering)
2.2.1.3. Lọc nhân khẩu (Demographic filtering)
2.2.1.4. Kết luận hướng phát triển
2.2.2. Tìm kiếm hàng xóm gần nhất (NNS)

2.2.2.1. Tìm kiếm tuyến tính (Linear search)
2.2.2.2. Tìm kiếm xấp xỉ (Approximate nearest neighbor, ANN)
2.2.2.3. Mơ hình khuyến nghị 2 giai đoạn (2 phase recommender)
2.2.3.4. Kết luận hướng phát triển
2.2.3. Xếp hạng trang (PageRank)
2.2.3.1. Xếp hạng trang truyền thống
2.2.3.2. Lướt ngẫu nhiên với xác suất khởi động (RWR)

6
6
6
6
8
8
8
10
12
13
14
15
16
18
19
20
21
23


2.2.3.3. Kết luận hướng phát triển
2.3. Kết chương 2


24
25

Chương 3 - Khuyến nghị cộng tác dựa trên phân tích mạng xã hội
3.1. Phát biểu bài toán
3.2. Tổng quan tiếp cận
3.3. Dữ liệu mạng xã hội
3.3.1. Định nghĩa
3.3.2. Hiện thực lưu trữ, khai thác dữ liệu mạng xã hội
3.4. Phân tích dữ liệu
3.4.1. Giới thiệu bộ dữ liệu
3.4.2. Tương đồng nội dung
3.4.2.1. Biểu diễn vector nội dung
3.4.2.2. Phân tích đặc trưng
3.4.3. Tương đồng trích dẫn
3.4.3.1. Lướt ngẫu nhiên với xác suất khởi động (RWR)
3.4.3.2. Phân tích đặc trưng
3.4.4. Tổ chức cộng tác
3.4.4.1. Tính chất địa phương của tổ chức
3.4.4.2. Phân tích đặc trưng
3.4.5. Tần suất hoạt động
3.4.5.1. Ước lượng tần suất hoạt động
3.4.5.2. Phân tích đặc trưng
3.5. Mơ hình khuyến nghị
3.5.1. Tổng quan mơ hình
3.5.2. Đặc trưng và kỹ thuật khai thác
3.5.3. Mô đun truy vấn
3.5.4. Mô đun xếp hạng
3.6. Kết chương 3


26
26
27
28
28
29
30
30
32
33
33
37
38
39
42
43
45
49
50
50
53
53
54
56
58
60

Chương 4 - Thiết kế hệ thống
4.1. Phân tích Use Case

4.1.1. Sơ đồ Use Case
4.1.2. Đặc tả Use Case
4.1.2.1. Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng”

61
61
61
62
62


4.1.2.2. Đặc tả Use Case “Tìm kiếm mối quan hệ cộng tác tiềm năng giữa 2
tổ chức”
63
4.1.2.3. Đặc tả Use Case “Tìm kiếm báo khoa học”
64
4.1.2.4. Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng theo bài báo”
65
4.2. Khai thác dữ liệu
65
4.2.1. Công nghệ dữ liệu lớn
66
4.2.1.1. Hadoop
67
4.2.1.2. Spark
69
4.2.2. Cấu hình máy chủ
70
4.2.3. Luồng khai thác dữ liệu
71

4.2.3.1. Luồng khai thác dữ liệu thô
72
4.2.3.2. Luồng khai thác tương đồng nội dung
74
4.2.3.3. Luồng khai thác tương đồng trích dẫn
76
4.2.3.4. Luồng khai thác tương đồng tổ chức
77
4.2.3.5. Luồng khai thác tương đồng tần suất hoạt động
79
4.3. Kiến trúc hệ thống
80
4.4. Giao diện ứng dụng
82
4.4.1. Use case UC-1
82
4.4.2. Use case UC-2
83
4.4.3. Use case UC-3, UC-4
84
4.5. Kết chương
85
Chương 5 - Thực nghiệm và đánh giá mơ hình
5.1. Dữ liệu thực nghiệm
5.2. Tổ chức thực nghiệm
5.3. Phương pháp đánh giá
5.3.1. Độ đo Binary Accuracy
5.3.2. Độ đo Precision
5.3.3. Độ đo Recall
5.3.4. Độ đo AUC

5.3.5. Độ đo Top-K content quality
5.4. Kết quả thực nghiệm
5.4.1. Độ đo Confusion Matrix

86
86
90
93
94
94
94
95
96
97
97


5.4.2. Độ đo top-k
5.4.3. Biểu đồ hội tụ

99
101

Kết luận và hướng phát triển

102

Tài liệu tham khảo

104


Phụ lục

108


DANH MỤC HÌNH VẼ
Hình 1.1: Các phương pháp lọc truyền thống

8

Hình 1.2: Lọc nội dung minh họa (Internet)

8

Hình 1.3: Lọc cộng tác minh hoạ [2]

10

Hình 1.4: Lọc nhân khẩu minh hoạ [8]

12

Hình 1.5: Minh họa hàng xóm gần nhất (Internet)

14

Hình 1.6: Biểu đồ vùng Voronoi, dùng cơng thức Euclidean (Wikipedia)

16


Hình 1.7: Biểu đồ vùng Voronoi, dùng cơng thức Manhattan (Wikipedia)

16

Hình 1.8: Biểu đồ thể hiện hiệu năng các giải thuật ANN, với mỗi truy vấn q cho k
= 10 (ann-benchmarks.com)

16

Hình 1.9: Mơ hình khuyến nghị Youtube DNN [15]

18

Hình 2.1: Minh họa xếp hạng trang (Internet)

20

Hình 2.2: Mơ phỏng xếp hạng truyền thống [20]

21

Hình 2.3: Minh họa lướt ngẫu nhiên với xác suất khởi động (Internet)

23

Hình 2.4: Minh họa tiếp cận hệ thống CL-PUB

27


Hình 2.5: Minh họa mạng xã hội (Internet)

28

Hình 2.6: Minh họa lưu trữ đồ thị 2 chiều biểu diễn quan hệ bạn bè

29

Hình 2.7: Minh họa lịch sử xuất bản

32

Hình 2.8: Minh họa kỹ thuật BOW (Internet)

33

Hình 2.9: Minh họa kỹ thuật Average Pooling, với Pool = 2, Stride = 2 (Internet)

34


Hình 3.1: Biểu đồ mật độ thể hiện tương quan giữa tương đồng nội dung và số cặp
cộng tác

36

Hình 3.2: Minh họa trích dẫn

37


Hình 3.3: Phân hoạch đồ thị theo đỉnh (Pregel) [25]

39

Hình 3.4: Biểu đồ đường biểu thị sự thay đổi phân phối xếp hạng RWR qua 12
vịng lặp

40

Hình 3.5: Biểu đồ tần suất thể hiện tương quan giữa tương đồng trích dẫn và số
cặp cộng tác (RWR)

41

Hình 3.6: Biểu đồ tần suất thể hiện tương quan giữa tương đồng trích dẫn và số
cặp cộng tác (RWR thiên kiến)

41

Hình 3.7: Minh họa cộng tác tổ chức

42

Hình 3.8: Minh họa cụm trong đồ thị (Internet)

44

Hình 3.9: Biểu đồ trịn thể hiện tương quan giữa cộng tác tổ chức và số cặp cộng
tác. Sử dụng phân loại cụm Org-Discrete


47

Hình 4.1: Biểu đồ tròn thể hiện tương quan giữa cộng tác tổ chức và số cặp cộng
tác. Sử dụng ước lượng độ quan trọng phần tử trong cụm Org-Rank

48

Hình 4.2: Minh hoạ tần suất hoạt động của 1 tác giả (Internet)

49

Hình 4.3: Biểu đồ tần suất thể hiện tương quan giữa tần suất hoạt động và số cặp
cộng tác. Sử dụng Node Avg, với Window lần lượt là 2, 5, 10

51

Hình 4.4: Biểu đồ tần suất thể hiện tương quan giữa tần suất hoạt động và số cặp
cộng tác. Sử dụng Node Proximity, với Window lần lượt là 2, 5, 10

52

Hình 4.5: Minh họa mơ đun truy vấn

56

Hình 4.6: Minh họa mơ đun xếp hạng

58

Hình 4.7: Minh họa SVM 2 trường hợp Hard và Soft margin (Internet)


59

Hình 4.8: Sơ đồ Use Case

61


Hình 4.9: Minh họa cấu trúc Hadoop Master-Slave (Internet)

67

Hình 5.1: Minh họa cấu trúc Spark driver (Internet)

69

Hình 5.2: Minh họa dịch vụ điện tốn AWS EMR (Internet)

70

Hình 5.3: Minh họa mơ hình ETL (Internet)

71

Hình 5.4: Luồng khai thác dữ liệu thơ

72

Hình 5.5: Luồng khai thác tương đồng nội dung


74

Hình 5.6: Luồng khai thác tương đồng trích dẫn

76

Hình 5.7: Luồng khai thác tương đồng tổ chức

77

Hình 5.8: Luồng khai thác tương đồng tần suất hoạt động

79

Hình 5.9: Tổng quan hệ thống CL-PUB

80

Hình 5.10.1: Giao diện tìm kiếm tác giả

82

Hình 5.10.2: Giao diện khuyến nghị tác giả

83

Hình 5.10.3: Giao diện tìm kiếm tổ chức

83


Hình 5.10.4: Giao diện khuyến nghị các cặp cộng tác tiềm năng giữa 2 tổ chức

84

Hình 5.10.5: Giao diện tìm kiếm báo khoa học

84

Hình 5.10.6: Giao diện khuyến nghị tác giả dựa trên bài báo

85

Hình 6.1: Phân phối năm xuất bản trong bộ dữ liệu (DBLP)

86

Hình 6.2: Minh họa học sâu (Internet)

90

Hình 6.3: Minh họa Confusion Matrix (Internet)

93

Hình 6.4: Minh họa độ đo AUC (Internet)

95


Hình 6.5: So sánh hiệu năng giữa các mơ hình thử nghiệm


98

Hình 6.6: So sánh hiệu năng các kết quả khuyến nghị

100

Hình 6.7: Biểu đồ hội tụ mơ hình lần lượt là RE1, RE2, RE4

101


DANH MỤC BẢNG
Bảng 1.1: Các phiên bản bộ dữ liệu Arnet Citation

30

Bảng 1.10: Số liệu quan hệ xã hội từ bộ dữ liệu

31

Bảng 1.2: Số liệu từ vựng

34

Bảng 1.3: Tỉ lệ trùng vector nội dung theo kích thước H

35

Bảng 1.4: Thơng số đồ thị trích dẫn


39

Bảng 1.5: Thơng số đồ thị cộng tác tổ chức

45

Bảng 1.6: Thông số cặp công tác khơng có thơng tin tổ chức

46

Bảng 1.7: Thơng số đồ thị cộng tác tổ chức

46

Bảng 1.8: Danh sách đặc trưng

54

Bảng 1.9: Kỹ thuật khai thác đặc trưng

56

Bảng 2.1: Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng”

62

Bảng 2.2: Đặc tả Use Case “Tìm kiếm mối quan hệ cộng tác tiềm năng giữa 2 tổ

63


chức”
Bảng 2.3: Đặc tả Use Case “Tìm kiếm báo khoa học”

64

Bảng 2.4: Đặc tả Use Case “Tìm kiếm người cộng tác tiềm năng theo bài báo”

65

Bảng 2.5: Phần cứng máy chủ

71

Bảng 2.6: Mô tả bảng luồng khai thác dữ liệu thô

74

Bảng 2.7: Mô tả bảng luồng khai thác tương đồng nội dung

75

Bảng 2.8: Mô tả bảng luồng khai thác tương đồng trích dẫn

77


Bảng 2.9: Mô tả bảng luồng khai thác tương đồng tổ chức

78


Bảng 3.1: Mô tả bảng tần suất hoạt động

79

Bảng 3.2: Dữ kiện năm xuất bản trong bộ dữ liệu

86

Bảng 3.3: Kích thước mẫu

88

Bảng 3.4: Tập dữ liệu ứng với từng đặc trưng

89

Bảng 3.5: Thơng số mơ hình cơ sở

90

Bảng 3.6: Nội dung thử nghiệm mơ hình

92

Bảng 3.7: Mơ tả thuộc tính Confusion Matrix

93

Bảng 3.8: Kết quả thực nghiệm, các độ đo Confusion Matrix


97

Bảng 3.9: Kết quả thực nghiệm, các độ đo top-k

99


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Từ đầy đủ

Giải thích

SQL

Structured Query Language

Một loại cú pháp thường dùng
truy xuất dữ liệu trong các cơ sở
dữ liệu thông dụng.

NoSQL

Not only SQL

Là một khái niệm truy vấn dữ
liệu trong cơ sở dữ liệu, tuy
nhiên loại bỏ những Constraints

(cưỡng ép) thường thấy trong
SQL.

RDBMS

Relational database
management system

Đại ý chỉ những giải pháp lưu
trữ dữ liệu truyền thống. Như
MSSQL, MySQL, Oracle…

RWR

Random walk with restart

Thuật toán xếp hạng đỉnh trong
đồ thị.

BFS

Breadth-first search

Duyệt đồ thị loang

DFS

Depth-first search

Duyệt đồ thị theo chiều sâu


TF-IDF

Term frequency - Inverse
document frequency

Kỹ thuật vector hóa văn bản, chỉ
ưu tiên trọng số cao với từ khóa
khác biệt, các từ khóa xuất hiện
nhiều có trọng số thấp.

BOW

Bag of words

Kỹ thuật vector hóa văn bản
bằng cách đếm từ.

SVM

Support Vector Machine

Mơ hình AI phân loại nhị phân

NNS

Nearest Neighbor Search

Tìm kiếm hàng xóm gần nhất


ANN

Approximate Nearest Neighbor

Tìm kiếm xấp xỉ hàng xóm gần
nhất


RE

Recommender

Hệ khuyến nghị

ORG

Organization

Tổ chức

UC

Use case

Use case hệ thống


TÓM TẮT KHÓA LUẬN
Các hệ thống khuyến nghị sản phẩm, khuyến nghị tin tức… đã trở nên rất phổ biến và
là một phần không thể thiếu trong đời sống nhiều người. Trong đề tài đồ án kỳ này,

chúng tôi mong muốn nghiên cứu sâu về chuyên đề khuyến nghị và ứng dụng xây dựng
hệ thống khuyến nghị người cộng tác tiềm năng phục vụ các nghiên cứu sinh, các bạn
sinh viên làm nghiên cứu trong các trường đại học.
Chuyên đề nghiên cứu cộng tác học thuật có vẻ được khá ít nhà nghiên cứu quan tâm,
các tiếp cận khuyến nghị cơ bản không phù hợp với đặc thù kết nối mang tính địa
phương giữa 2 đối tượng khuyến nghị. Trong phạm vi khóa luận, chúng tơi khơng giải
quyết bài tốn thu thập thông tin (Crawl) mà sử dụng lại bộ dữ liệu nghiên cứu dành
riêng cho chuyên đề khuyến nghị học thuật. Từ bộ dữ liệu sẵn có, chúng tơi khảo sát
các nghiên cứu liên quan, xây dựng hệ thống và khai thác đặc trưng từ bộ dữ liệu. Với
tập đặc trưng đã khai thác, chúng tôi thử nghiệm các mơ hình máy học khác nhau để
tìm ra mơ hình cho kết quả khuyến nghị tốt nhất. Tích hợp mơ hình vào hệ thống, mở
rộng thêm nhánh phục vụ người dùng.
Kết đề tài, chúng tôi thẳng thắn nhận định các thiếu sót trong các tiếp cận, đề xuất
hướng nghiên cứu phát triển tiềm năng cho các “nhà nghiên cứu” trong tương lai với
mong muốn kế thừa và nâng cấp đề tài.

1


Chương 1 - Mở đầu
1.1. Dẫn nhập
Nghiên cứu và xuất bản báo khoa học là hoạt động không thể thiếu ở các trường đại
học. Không chỉ dành cho cấp bậc đào tạo thạc sĩ, tiến sĩ. Bất kỳ sinh viên đại học nào
cũng được chào đón tham gia hoạt động, và thực tế cho thấy càng ngày càng có nhiều
bài báo được xuất bản ở các đầu báo khoa học nổi tiếng với tác giả là các bạn sinh viên
chương trình cử nhân, kỹ sư… Nghiên cứu khoa học trở nên sôi nổi, tạo tiền đề ứng
dụng các giải pháp khuyến nghị vào việc khuyến nghị các mối quan hệ cộng tác tiềm
năng. Một hệ khuyến nghị cộng tác, không những góp phần nâng cấp hoạt động nghiên
cứu khoa học trong nội tại tổ chức. Mà thông qua kết quả khuyến nghị cộng tác viên
trực thuộc tổ chức khác góp phần không nhỏ thúc đẩy sự hợp tác giữa các trường đại

học trong và ngồi nước.
Các bài tốn khuyến nghị học thuật phổ biến như: khuyến nghị báo khoa học, khuyến
nghị cộng tác viên, khuyến nghị hội đồng nộp báo… Cũng như các giải pháp khuyến
nghị kinh điển như lọc lý lịch (Demographic Filtering), lọc nội dung (Content-Based
Filtering), lọc cộng tác (Collaborative Filtering), kết hợp các giải pháp lọc (Hybrid),
tiếp cận mơ hình (Model-Based), tương đồng gần nhất (K-Nearest neighbor)... có nhiều
bất cập. Một số có thể kể đến là dữ liệu lớn (Big Data), dữ liệu thưa (Sparse), chưa có
cách thức chuẩn để đánh giá mơ hình (Benchmark), khởi động lạnh (Cold start).

2


×