Tải bản đầy đủ (.pdf) (14 trang)

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN
TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH
NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN
THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM
HỌC TẬP CỦA SINH VIÊN
Ngành: Hệ thống Thông Tin
Chuyên ngành: Hệ thống Thông Tin
Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Trần Thị Oanh

Hà Nội – 2016




i
LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện
dưới sự hướng dẫn của TS. Trần Thị Oanh.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn
rõ ràng tên tác giả, thời gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi
xin chịu hoàn toàn trách nhiệm.
Hà Nội, ngày

tháng

năm 2016

HỌC VIÊN

Nguyễn Văn Thành


ii
LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành
đến giáo viên hướng dẫn TS. Trần Thị Oanh, người đã tận tình chỉ
bảo tôi trong định hướng nghiên cứu, đề xuất các ý tưởng và giúp
đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng đối
với luận văn này.
Tôi xin chân thành cảm ơn các thày cô trong khoa Công

nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội,
khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội đã giúp đỡ
tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện
giúp tôi trong công tác để tôi có thời gian thực hiện việc học tập
và hoàn thành luận văn.
Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc
tới bố mẹ những người động viên tôi về mặt tinh thần và hỗ trợ
nhiều về mọi mặt.
HỌC VIÊN

Nguyễn Văn Thành


iii
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ............................vii
DANH MỤC CÁC BẢNG ........................................................ viii
DANH MỤC HÌNH VẼ, ĐỒ THỊ ..............................................ix
MỞ ĐẦU ........................................................................................ 1
Chương 1: Tổng quan về vấn đề nghiên cứu ............................. 4
Khai phá dữ liệu ................................................................ 4
1.1.1 Khái niệm ................................................................... 4
1.1.2 Quy trình khai phá dữ liệu.......................................... 4
Bài toán khai phá quan điểm trên mạng truyền thông ...... 5
1.2.1 Khái quát khai phá quan điểm .................................... 5
1.2.2 Khai phá quan điểm với mạng truyền thông .............. 5
Khai phá quan điểm sinh viên trên phương tiện truyền
thông xã hội ................................................................................ 6
1.3.1 Giới thiệu bài toán ...................................................... 6
1.3.2 Tình hình nghiên cứu trên thế giới ............................. 6

1.3.3 Tình hình nghiên cứu tại Việt Nam ............................ 7
1.3.4 Ý nghĩa và mục tiêu của bài toán ............................... 8
Kết luận chương 1 ............................................................. 8
Chương 2: Các kiến thức nền tảng ............................................. 9
Giới thiệu........................................................................... 9


iv
2.1.1 Tổng quan về bài toán phân loại ................................ 9
2.1.2 Các bước giải quyết bài toán phân loại ...................... 9
2.1.3 Bài toán phân lớp văn bản .......................................... 9
Bài toán phân lớp đa nhãn ............................................... 10
Một số phương pháp phân lớp đa nhãn ........................... 10
2.3.1 Phương pháp chuyển đổi bài toán ............................ 10
2.3.2 Phương pháp thích nghi thuật toán........................... 13
Một số mô hình học máy được sử dụng cho bài toán ..... 14
2.4.1 Phân lớp Bayes ......................................................... 14
2.4.2 Cây quyết định.......................................................... 14
Kết luận chương 2 ........................................................... 16
Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu
mạng truyền thông để hiểu kinh nghiệm học tập sinh viên .... 17
Mô hình hoá bài toán ...................................................... 17
3.1.1 Xác định vấn đề và không gian dữ liệu .................... 17
3.1.2 Phát biểu bài toán theo góc độ toán học ................... 17
Một mô hình giải quyết bài toán ..................................... 18
3.2.1 Mô hình tổng thể ...................................................... 18
3.2.2 Môi trường thực nghiệm .......................................... 20
Kết luận chương 3 ........................................................... 21
Chương 4: Kết quả thực nghiệm ............................................... 22
Thu thập và tiền xử lý dữ liệu ......................................... 22



v
4.1.1 Thu thập dữ liệu ....................................................... 22
4.1.2 Tiền xử lý dữ liệu ..................................................... 22
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu.................... 23
4.1.4 Một số thống kê về bộ dữ liệu .................................. 24
Các công cụ phân tích được sử dụng trong luận văn ...... 24
4.2.1 MEKA ...................................................................... 24
4.2.2 vnTokenizer .............................................................. 25
Thiết lập thực nghiệm ..................................................... 25
4.3.1 Chuyển đổi dữ liệu ................................................... 25
4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử
nghiệm .................................................................................. 26
4.3.3 Các độ đo đánh giá thực nghiệm .............................. 26
Huấn luyện mô hình và kiểm tra ..................................... 27
4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân
lớp
27
4.4.2 Thực nghiệm với Binary Relevance ......................... 27
4.4.3 Thực nghiệm với Label Combination ...................... 27
Kết quả thực nghiệm ....................................................... 28
4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân
lớp
28
4.5.2 Thực nghiệm với Binary Relevance ......................... 28
4.5.3 Thực nghiệm với Label Combination ...................... 29


vi

Phân tích lỗi..................................................................... 31
Kết luận chương 4 ........................................................... 31
Chương 5: Kết luận và hướng phát triển tiếp theo ................. 32
TÀI LIỆU THAM KHẢO .......................................................... 34


vii

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
Chữ viết tắt

Ý nghĩa

1. Tiếng Việt

2. Tiếng Anh
MLC

Multi Label Classification

BR

Binary Relevance

LP

Label Power-Set

LC


Label Combination

BP-MLL

Backpropagation for Multi-Label Learning


viii

DANH MỤC CÁC BẢNG
Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn ................ 6
Bảng 2.1. Mẫu bộ dữ liệu đa nhãn ................................................ 10
Bảng 2.2. Dữ liệu được chuyển đổi bẳng phương pháp Select
Transformation ............................................................................. 11
Bảng 2.3. Dữ liệu được chuyển đổi bẳng phương pháp Ignore
Transformation ............................................................................. 12
Bảng 2.4. So sánh kết quả đầu ra của AdaBoost.MH và
AdaBoost.MR ............................................................................... 13
Bảng 3.1 Thông số phần cứng môi trường thực nghiệm .............. 21


22

Chương 4: Kết quả thực nghiệm
Trong chương này, luận văn trình bày nội dung liên quan tới
thực nghiệm phân tích các ý kiến phản hồi của sinh viên dưới
dạng ngôn ngữ tự nhiên bằng các phương pháp học máy và khai
phá dữ liệu. Để tiến hành thực nghiệm, đầu tiên chúng tôi tiến
hành xây dựng một bộ dữ liệu cho tiếng Việt từ diễn đàn của sinh
viên Đại học BK Hà Nội. Sau đó, chúng tôi tiến hành bóc tách,

gán nhãn dữ liệu, thiết lập các tham số và cách thức tiến hành
thực nghiệm. Trong chương này, chúng tôi cũng trình bày một số
độ đo để đánh giá mô hình phân tích. Cuối cùng, chúng tôi trình
bày các kết quả thực nghiệm dựa trên mô hình đã đề xuất ở
chương 3 và một số phân tích lỗi của hệ thống.
Thu thập và tiền xử lý dữ liệu
4.1.1 Thu thập dữ liệu
Tuy người dùng của diễn đàn SVBK chủ yếu là sinh viên
của trường Đại học Bách Khoa Hà Nội, nhưng không vì thế mà
các trao đổi thảo luận tất cả đều có chủ đề về học tập. Đó là một
thử thách với chúng tôi khi làm nhiệm vụ thu thập dữ liệu từ một
nguồn có tính chất như mạng xã hội, mang trong mình rất nhiều
dữ liệu không liên quan hoặc sự đa dạng về ngôn ngữ sử dụng.
4.1.2 Tiền xử lý dữ liệu
4.1.2.1 Loại bỏ hoặc thay thế các từ và ký tự nhiễu
Các cuộc trao đổi trên diễn đàn thường không chính thức
và chứa trong nó rất nhiều các loại diễn đạt khác nhau. Do đó,
chúng tôi đã thực hiện bước làm sạch dữ liệu trước khi đưa vào
tập huấn với mô hình phân lớp.
4.1.2.2 Tách từ
Tách từ là một quá trình nhằm xử lý mục đích xác định
ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản răng
tách từ là quá trình xác định các từ đơn, từ ghép … có trong câu.
Một ví dụ về kết quả xử lý sau khi tách từ được cho ở Hình 4.1.


23

Hình 4.1: Dữ liệu sau khi tách từ
4.1.2.3 Loại bỏ từ dừng

Từ dừng (stop-words) là các từ mà tần suất xuất hiện quá
nhiều trong các câu văn bản của toàn tập kết quả, thường thì
không giúp ích gì trong việc phân biệt nội dung của các tài liệu
văn bản. Ví dụ, những từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,
… [21].
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu
4.1.3.1 Lựa chọn tập nhãn
Chúng tôi chia các dữ liệu 7 chủ đề chính như sau: áp lực
thi cử học hành, học ngoại ngữ, nguồn tài liệu tham khảo, tâm lí
tình cảm, cảm xúc tiêu cực, định hướng nghề nghiệp và loại khác.
4.1.3.2 Gán nhãn dữ liệu
Với bộ dữ liệu 1834 bài đăng trên diễn đàn SVBK đã thu
thập và tiền xử lý ở các bước trên, chúng tôi gồm hai người nghiên
cứu A và B tiến hành gán nhãn lần lượt 500 mẫu ngẫu nhiên từ bộ
dữ liệu này vào 7 nhãn trên

Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn


24
4.1.3.3 Độ đo Inter-rater agreement
Độ đo F1 giữa hai người nghiên cứu A, B là F1AB= 0.82.
Với 500 dữ liệu ngẫu nhiên, chúng tôi thu lại được 420 dữ liệu có
sự giao thoa đồng thuận về tập đã gán, nếu không đạt được điều
kiện này các dữ liệu sẽ bị loại bỏ khỏi tập dữ liệu của nghiên cứu.
4.1.4 Một số thống kê về bộ dữ liệu
Từ bộ dữ liệu đã được gán nhãn, số lượng mẫu dữ liệu của
mỗi nhãn được thể hiện như ở Hình 4.3 bên dưới. Các thống kê
của các loại gồm: Loại khác (462), Nguồn tài liệu tham khảo
(353), Tâm lí tình cảm (293), Học ngoại ngữ (231), Định hướng

nghề nghiệp (142), Cảm xúc tiêu cực (136), Áp lực thi cử học
hành (449).

Thống kê các nhãn
500
400
300
200
100
0

458

444
348
141

143

236

228

ÁP LỰC CẢM XÚC ĐỊNH
HỌC
THI CỬ TIÊU CỰC HƯỚNG NGOẠI
NGHỀ
HỌC
NGỮ
NGHIỆP

HÀNH

NGUỒN
TÀI LIỆU
THAM
KHẢO

TÂM LÍ
TÌNH
CẢM

LOẠI
KHÁC

Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu
Các công cụ phân tích được sử dụng trong luận văn
4.2.1 MEKA
MEKA là một công cụ học máy mã nguồn mở, dựa trên nền
công cụ WEKA của trường đại học Waikato, NewZeland. MEKA
cung cấp các tính năng huấn luyện và đánh giá mô hình của phân
lớp đa nhãn (là các tính năng mà WEKA thiếu).


25

Hình 4.4: Giao diện công cụ MEKA
4.2.2 vnTokenizer
vnTokenizer là công cụ chuyên dùng để tách từ và gán nhãn
từ loại cho tiếng Việt, được phát triển bởi tác giả Lê Hồng
Phương. vnTokenizer có thể sử dụng với cả giao diện dòng lệnh

hoặc nhúng vào ứng dụng như một thư viện độc lập.
Thiết lập thực nghiệm
4.3.1 Chuyển đổi dữ liệu
4.3.1.1 Vector hoá dữ liệu thông thường
Công cụ MEKA chỉ chấp nhận đầu vào của bộ dữ liệu dưới
định dạng file .ARFF. Việc chuyển đổi dữ liệu từ dạng file CSV
sang file ARFF được thực thi bằng chức năng lọc với CSVLoader
của MEKA. Sau khi thực hiện bước này ta thu được file .arff có
cấu trúc như ở Hình 4.5 sau:

Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu
Sau khi chạy với công cụ MEKA, ta có được tập dữ liệu như ở
Hình 4.6 dưới đây:



×