Tải bản đầy đủ (.pdf) (69 trang)

Phát hiện tin tức được quan tâm từ các nguồn trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 69 trang )

..

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Nguyễn Thành Huy

PHÁT HIỆN TIN TỨC ĐƯỢC QUAN TÂM
TỪ CÁC NGUỒN TRỰC TUYẾN

Chuyên ngành: Công nghệ thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. CAO TUẤN DŨNG

Hà Nội – Năm 2018


LỜI CẢM ƠN
Em xin bày tỏ lịng kính trọng và cảm ơn chân thành đến thầy giáo PGS.TS. Cao
Tuấn Dũng - Viện Công nghệ thông tin và Truyền thông – Trường Đại học Bách
Khoa Hà Nội, người đã định hướng, tận tình hướng dẫn, giúp đỡ em trong suốt quá
trình thực hiện luận văn.
Em xin chân thành cảm ơn các thầy giáo, cô giáo - Viện Công nghệ Thông tin và
Truyền thông - Trường Đại học Bách Khoa Hà Nội, những người đã tận tình truyền
đạt các kiến thức cho em trong suốt thời gian em học tập và nghiên cứu tại Trường.
Em cũng xin gửi lời cảm ơn tới gia đình đã ủng hộ, động viên em trong suốt quá
trình học tập vừa qua.


Cuối cùng, em xin cảm ơn các bạn học cùng lớp 15BCNTT khoá 2015, các đồng
nghiệp và đơn vị công tác đã giúp đỡ em trong quá trình học tập và thực hiện luận
văn.
Do trong quá trình nghiên cứu, tìm hiểu và thực nghiệm luận văn chắc chắn khơng
thể tránh khỏi những sai sót nhất định, em rất mong nhận được sự góp ý của thầy, cơ
giáo và các bạn để luận văn được hồn chỉnh hơn.
Em xin trân trọng cảm ơn!
Hà Nội, tháng 09 năm 2018
Tác giả luận văn

Nguyễn Thành Huy


LỜI CAM ĐOAN
Em xin cam đoan luận văn “Phát hiện tin tức được quan tâm từ các nguồn trực
tuyến” này là cơng trình nghiên cứu của em dưới sự hướng dẫn khoa học của PGS.TS.
Cao Tuấn Dũng. Tất cả những tài liệu tham khảo em đã liệt kê rõ ở phần cuối của
luận văn. Các nội dung công bố và kết quả trình bày trong luận văn này là trung thực
và khơng có sự sao chép của người khác.
Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm trước
hội đồng, cũng như kết quả tốt nghiệp của mình.
Hà Nội, tháng 09 năm 2018
Tác giả luận văn

Nguyễn Thành Huy


MỤC LỤC
Danh mục các ký hiệu, viết tắt ..............................................................................6
Danh mục hình ảnh ...............................................................................................7

Danh mục bảng biểu .............................................................................................9
LỜI MỞ ĐẦU .....................................................................................................10
CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC
TUYẾN VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN TIN TỨC .................................13
1.1

Tổng quan các nền tảng tin tức của người dùng trực tuyến ..................13

1.2

Nguồn tin tức từ mạng xã hội ...............................................................15

1.3

Nền tảng mạng xã hội Facebook ...........................................................17

1.4

Tình hình ở Việt Nam ...........................................................................18

1.5

Một số phương pháp tiếp cận ................................................................19

1.5.1

Hướng phát hiện tin tức quan tâm từ từ khố tìm kiếm trực tuyến...
.......................................................................................................19

1.5.2


Hướng phát hiện tin tức từ công cụ của các hãng công nghệ .......20

1.5.3

Hướng phát hiện tin tức quan tâm từ mạng xã hội sử dụng thuật

toán phân cụm tin tức ........................................................................................20
CHƯƠNG II: MỘT SỐ GIẢI PHÁP PHÁT HIỆN TIN TỨC QUAN TÂM ..
.......................................................................................................................22
2.1

Khảo sát dữ liệu ....................................................................................22

2.2

Phân cụm dữ liệu ...................................................................................26

2.2.1

Thuật toán K-means (K-means Clustering) ..................................28

2.2.2

Thuật toán phân cụm theo thứ bậc (Hierarchical Clustering) .......30

2.2.3

Thuật toán LDA (Latent Dirichlet Allocation) .............................32


2.3

Đánh giá chủ đề tin tức được quan tâm ................................................38

4


CHƯƠNG III: GIẢI PHÁP PHÁT HIỆN THÔNG TIN ĐƯỢC QUAN
TÂM TỪ FACEBOOK SỬ DỤNG PHƯƠNG PHÁP LDA ...................................40
3.1

Mơ hình tổng quát .................................................................................40

3.2

Khối thu thập dữ liệu.............................................................................41

3.2.1

Graph API và khai thác dữ liệu từ Facebook ................................41

3.2.2

Khai thác dữ liệu ...........................................................................44

3.3

Khối thuật tốn ......................................................................................46

3.3.1


Tiền xử lý ......................................................................................46

3.3.2

Ước lượng mơ hình chủ đề và phân cụm tin tức ...........................49

3.4

Khối truy vấn và hiển thị.......................................................................51

CHƯƠNG IV: THỰC NGHIỆM VÀ KẾT QUẢ.........................................52
4.1

Xây dựng hệ thống thử nghiệm .............................................................52

4.1.1

Xây dựng hệ thống database .........................................................52

4.1.2

Xây dựng hệ thống dịch vụ và luồng xử lý liên tục ......................53

4.2

Kết quả ..................................................................................................57

4.3


Đánh giá ................................................................................................65

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................................66
TÀI LIỆU THAM KHẢO...................................................................................68

5


DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT
Ký hiệu
API

Tiếng Anh
Application Programming

Tiếng Việt
Giao diện lập trình ứng dụng

Interface
LDA

Latent Dirichlet Allocation

Phân bố Dirichlet ẩn

JSON

JavaScript Object Notation

Ký hiệu đối tượng Javascript


Weka

Waikato Environment for

Bộ phần mềm học máy được

Knowledge Analysis

Đại học Waikato, New
Zealand phát triển bằng Java

HTTP

Hypertext Transfer Protocol

Giao thức truyền tải siêu văn
bản

XML

eXtensible Markup Language

Ngôn ngữ đánh dấu mở rộng

pLSI

probabilistic Latent Semantic

Xác suất xác định ngữ nghĩa


Indexing

tiềm ẩn

CRFs

Conditional Random Fields

Trường xác suất có điều kiện

SOA

Service Oriented Architecture Kiến trúc hướng dịch vụ


DANH MỤC HÌNH ẢNH
Hình 1: Biểu đồ các nguồn tin tức của Mỹ giai đoạn 2012-2017 ............................13
Hình 2: Biểu đồ tỷ lệ các kênh dẫn tới nội dung tin tức ..........................................14
Hình 3: Biểu đồ phân bố tỷ lệ sử dụng nguồn tin theo độ tuổi ................................16
Hình 4: Lượng người hoạt động trên các nền tảng mạng xã hội 2017 ....................16
Hình 5: So sánh giữa các cách lựa chọn tin tức .......................................................18
Hình 6: Mơ tả dữ liệu của tin tức trên Facebook .....................................................22
Hình 7: Minh hoạ thuật tốn phân cụm dữ liệu bằng phân cấp theo 2 kiểu ............30
Hình 8: Mơ tả chủ đề văn bản trong mơ hình chủ đề ...............................................33
Hình 9: So sánh mơ hình chủ đề với phân cụm văn bản ..........................................34
Hình 10: Nguyên lý xử lý của thuật tốn LDA ........................................................35
Hình 11: Ký hiệu khối lặp lại ...................................................................................36
Hình 12: Biểu diễn mơ hình xử lý của LDA ............................................................37
Hình 13: Mơ hình hệ thống phát hiện tin tức quan tâm ...........................................41

Hình 14: Facebook Graph API .................................................................................42
Hình 15: Cơng cụ Facebook Graph Explorer...........................................................44
Hình 16: Luồng xử lý khai thác dữ liệu ...................................................................44
Hình 17: Luồng xử lý dữ liệu thơ.............................................................................46
Hình 18: Tiến trình tiền xử lý ..................................................................................47
Hình 19: Tiến trình xử lý phân cụm chủ đề tin tức ..................................................50
Hình 20: Sơ đồ thiết kế database ..............................................................................52
Hình 21: Bảng dữ liệu thơ ........................................................................................54
Hình 22: Bảng dữ liệu các bản ghi sau khi phân tách dữ liệu thơ ...........................54
Hình 23: Bảng lưu thơng tin tiền xử lý của tin tức ..................................................54
Hình 24: Bảng dữ liệu mơ hình chủ đề ....................................................................55
Hình 25: Bảng dữ liệu tỷ lệ mỗi tin tức ứng với từng chủ đề ..................................55
Hình 26: Giao diện web của TrendNews .................................................................57


Hình 27: Biểu đồ so sánh sự quan tâm của người dùng trực tuyến giữa 2 chủ đề ...64
Hình 28: Biểu đồ quan tâm của người dùng theo từng chủ đề tin tức trong tháng
6/2018 ................................................................................................................65

8


DANH MỤC BẢNG BIỂU

Bảng 1: Bảng danh các ký hiệu loại từ .....................................................................48
Bảng 2: Bảng danh sách các trang thông tin thu thập ...............................................58
Bảng 3: Bảng thống kê dữ liệu đã thu thập ...............................................................58
Bảng 4: Bảng danh sách từ khoá của hai chủ đề tin tức ...........................................59
Bảng 5: Bảng xác suất top 10 tin tức ứng với chủ đề 11 trong tháng 06/2018 .........60
Bảng 6: Bảng so sánh mức độ quan tâm của 2 chủ đề tin tức...................................63



LỜI MỞ ĐẦU
Theo thời gian, phương tiện truyền tải tin tức tới người dùng đi từ nhật báo, tạp
chí trên giấy tới phát thanh, truyền hình rồi tới các báo điện tử trên web, gần đây là
mạng xã hội. Trong hai thập kỷ vừa qua với sự ra đời của công nghệ kỹ thuật số và
phổ biến thông tin trên internet đã tạo ra một sự thay đổi trong việc đọc báo giấy, vì
người dân ngày càng đọc tin tức thông qua điện thoại thông minh và các thiết bị điện
tử khác.
Hiện nay, thông tin trên mạng trực tuyến là quá lớn, tin tức được truyền tải qua
internet dưới nhiều hình thức và cực kỳ đa dạng. Một trong các hình thức chính mà
người dùng trực tuyến sử dụng là mạng xã hội. Việc sử dụng hình thức tiếp cập tin
tức trên mạng xã hội sẽ mạng lại sự chủ động cao cho người dùng, và mang tính
tương tác nhiều hơn. Sự tương tác trên mạng xã hội khá là đa chiều, mọi người có thể
bày tỏ ý kiến cá nhân, cũng như cảm xúc với từng loại tin tức. Từ đó, bài tốn phát
hiện tin tức được quan tâm của người dùng trực tuyến trở nên cấp thiết hơn.
Bài toán phát hiện tin tức được quan tâm là bài tốn khó và phức tạp, địi hỏi phải
tổng hợp nhiều tri thức để giải quyết nhiều vấn đề. Bài toán này cũng thu hút sự quan
tâm rất lớn của tác giả với mong muốn đóng góp được phần nào đó cho các nghiên
cứu tương tự. Vì vậy, đề tài “Phát hiện tin tức được quan tâm từ các nguồn trực
tuyến” được chọn làm đề tài nghiên cứu cho luận văn của mình.
Phương pháp tiếp cận để phát hiện tin tức quan tâm của người dùng trực tuyến đã
có một số cơng trình nghiên cứu, và mỗi phương pháp có ưu nhược điểm riêng. Trong
khuôn khổ luận văn, các nội dung sẽ như sau:
Mục tiêu và nhiệm vụ:
-

Mục tiêu: Đưa ra một giải pháp phát hiện tin tức được quan tâm từ các nguồn
trực tuyến với hướng tiếp cận mới, khắc phục được một số hạn chế của một
vài phương pháp hiện tại gặp phải.


-

Nhiệm vụ: Để đạt được mục tiêu như trên thì luận văn cần phải thực hiện được
các nhiệm vụ sau:


o Tìm hiểu về các nguồn tin tức trực tuyến hiện tại, đánh giá thực trạng
và đưa ra chọn lựa nguồn tin tức để nghiên cứu
o Khảo sát dữ liệu từ nguồn tin tức đã chọn, đánh giá một số giải thuật
có thể áp dụng cho phương pháp phát hiện tin tức được quan tâm.
o Xây dựng mơ hình hệ thống thực thi giải pháp đã đề xuất
o Đưa ra phương pháp định lượng để đánh giá mức độ quan tâm của
người dùng với tin tức
Đối tượng và phạm vi nghiên cứu của luận văn:
-

Đối tượng nghiên cứu: nguồn tin tức trực tuyến

-

Phạm vi nghiên cứu:
o Về lý thuyết: Lý thuyết về phân cụm dữ liệu
o Về thực nghiệm: nguồn tin tức trực tuyến rất đa dạng, tuy nhiên sau
khi đánh giá các nguồn tin tức và để phục vụ cho mục đích thử nghiệm,
luận văn chỉ nghiên cứu nguồn dữ liệu từ Facebook với các nguồn tin
tiếng Việt.

Phương pháp nghiên cứu: Đánh giá các xu hướng của người dùng trực tuyến,
tìm hiểu một số nghiên cứu, đưa ra giải pháp, thử nghiệm và bàn luận.

Ý nghĩa khoa học và thực tiến:
-

Ý nghĩa khoa học: “Phát hiện tin tức được quan tâm từ các nguồn trực tuyến”
là chủ đề nóng trên thế giới, hiện tại ở Việt Nam chưa có nhiều, nên nó sẽ góp
phần nào đó để mở ra các nghiên cứu khác.

-

Ý nghĩa thực tiễn:
o Nghiên cứu đóng góp một giải pháp để phát hiện tin tức được quan tâm
bằng tiếng Việt
o Ứng dụng nghiên cứu tại Việt Nam sẽ tạo ra nhiều hướng đi khác nhau
trong các lĩnh vực tương tự để phát hiện xu hướng

Cấu trúc của luận văn bao gồm các phần sau:

11


MỞ ĐẦU: Nội dung phần mở đầu chỉ ra lý do chọn đề tài; mục đích, đối tượng,
phạm vi nghiên cứu của luận văn; tóm tắt những điểm cơ bản và đóng góp mới của
tác giả và phương pháp nghiên cứu.
CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI DÙNG TRỰC TUYẾN
VÀ HƯỚNG PHÁT HIỆN TIN TỨC: Nội dung chương này trình bày về các xu
hướng quan tâm của người dùng và định hướng nguồn tin tức được chọn để phát hiện
tin tức được quan tâm bởi người dùng trực tuyến
CHƯƠNG II: MỘT SỐ GIẢI PHÁP PHÁT HIỆN TIN TỨC QUAN TÂM: Khảo
sát nguồn dữ liệu, đánh giá một số giải thuật có thể áp dụng và đưa ra lựa chọn giải
thuật thích hợp. Tiếp đó đưa ra phương pháp đánh giá tin tức được quan tâm bởi

người dùng trực tuyến
CHƯƠNG III: GIẢI PHÁP PHÁT HIỆN THÔNG TIN ĐƯỢC QUAN TÂM TỪ
FACEBOOK SỬ DỤNG PHƯƠNG PHÁP LDA: Xây dựng mơ hình hệ thống
TrendNews hoàn chỉnh để phát hiện tin tức được quan tâm.
CHƯƠNG IV: THỰC NGHIỆM VÀ KẾT QUẢ: Trình bày về kết quả thu được
thực nghiệm và đánh giá kết quả đó
KẾT LUẬN: Tổng kết tồn bộ luận văn và đưa ra một số hướng phát triển luận
văn.

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]

12


1 CHƯƠNG I: XU HƯỚNG QUAN TÂM CỦA NGƯỜI
DÙNG TRỰC TUYẾN VÀ CÁC PHƯƠNG PHÁP PHÁT
HIỆN TIN TỨC
1.1 Tổng quan các nền tảng tin tức của người dùng trực tuyến
Trong những năm vừa qua, sự phát triển các dịch vụ thông tin trên nền Internet
đã đem lại cho mọi người trên thế giới những lợi ích khơng thể phủ nhận. Nhân loại
trở nên gần nhau hơn, mọi người có thể dễ dàng tiếp cận với những thông tin vô cùng
phong phú, đa dạng và những kho dữ liệu khổng lồ được cập nhật hàng ngày, hàng
giờ từ khắp nơi trên thế giới. Internet tăng cường khả năng giao lưu, trao đổi thông
tin giữa mọi người với nhau, thúc đẩy xã hội phát triển. Đây là xu thế phát triển chung
của thời đại khoa học công nghệ.
Theo dữ liệu nghiên cứu 6 năm (từ 2012 – 2017) của Viện nghiên cứu báo chí
Reuters (RISJ) về các nguồn tin tức mọi người sử dụng, ở hầu hết các quốc gia, tin
tức truyền hình và tin tức trực tuyến được truy cập thường xuyên nhất, trong khi độc
giả báo in đã giảm đáng kể [7].


Hình 1: Biểu đồ các nguồn tin tức của Mỹ giai đoạn 2012-2017 (nguồn [7])

13


Mặc dù sự phát triển của trang tổng hợp tin tức, phương tiện truyền thơng xã hội
và tìm kiếm vẫn là cửa ngõ quan trọng nhất đối với nội dung trực tuyến, cùng với lưu
lượng đến các trang web và các ứng dụng riêng.

Hình 2: Biểu đồ tỷ lệ các kênh dẫn tới nội dung tin tức (nguồn [7])

Nhiều thị trường châu Á có một mơ hình độc đáo, nơi các thương hiệu truyền
thông đơn lẻ thường được gộp lại trong các cổng thơng tin khổng lồ. Yahoo đóng vai
trị này ở Nhật Bản, hay như Naver và Daum ở Hàn Quốc, nơi các trang tổng hợp tin
tức trả tiền cho các nhà cung cấp nội dung một số tiền không được tiết lộ (được cho
là khoảng 30 triệu đô la một năm) cho nội dung được xuất bản thông qua nền tảng
của họ.
Thông báo trên thiết bị di động cũng phổ biến ở 1 số nơi của châu Á, nhất là ở
Đài Loan (32%) và Hồng Kông (27%) [7]. Họ cũng đã phát triển mạnh mẽ trong năm
qua tại Hoa Kỳ (20%), nơi các nhà xuất bản đã đầu tư mạnh mẽ vào việc thúc đẩy
nhiều nội dung hơn trên màn hình khóa của điện thoại.
Hình thức nhận tin tức từ email cũng quay trở lại thời gian gần đây ở một vài
nước, thậm chí chiếm tỷ lệ cịn nhiều hơn mạng xã hội, ví dụ như ở Bỉ (34%).
Sự phong phú của nội dung trên internet kết hợp với các hình thức tiếp cận tin tức
mới của người dùng đã góp phần vào cuộc khủng hoảng niềm tin vào ngành báo chí,
nơi khó phân biệt sự thật đã được xác minh từ những người không đúng sự thật, thông

14



tin theo hướng cực đoan. Đồng thời, việc sản xuất tin tức không phân biệt người dùng,
thường với tiêu đề giật gân (nhằm tăng lượng người đọc), hiện đang phơi bày sự chia
rẽ xã hội, nơi người tiêu dùng ít nhận thức được nguồn gốc hơn và khơng đi tìm kiếm
chọn một thương hiệu tin tức tin cậy.
1.2 Nguồn tin tức từ mạng xã hội
Mạng xã hội, còn gọi là mạng xã hội ảo (social network) là dịch vụ kết nối các
thành viên có cùng sở thích trên mạng internet lại với nhau, với nhiều mục đích khác
nhau khơng phân biệt khơng gian và thời gian.
Mạng xã hội có những tính năng như chat, email, phim ảnh, voice chat, chia sẻ
file, blog và xã luận. Mạng đổi mới hoàn toàn cách mọi người liên kết với nhau và
trở thành một phần tất yếu mỗi ngày cho hàng tỷ người trên khắp thế giới. Các dịch
vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo
nhóm (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa
chỉ email hoặc nickname), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh,
sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán,…
Ở hầu hết các quốc gia, các nhóm trẻ có nhiều khả năng sử dụng phương tiện
truyền thông xã hội và phương tiện kỹ thuật số làm nguồn tin chính, trong khi các
nhóm độ tuổi lớn hơn bám vào thói quen cũ (TV, radio và in). Theo số liệu thống kê
của Viện nghiên cứu báo chí Reuters (RISJ) năm 2017, một phần ba số người ở độ
tuổi 18–24 (33%) hiện nay nói rằng truyền thơng xã hội là nguồn tin tức chính - đó
là con số nhiều hơn các trang tin tức trực tuyến (31%) và hơn cả tin tức truyền hình
và báo in lại với nhau (29%) [7].

15


Hình 3: Biểu đồ phân bố tỷ lệ sử dụng nguồn tin theo độ tuổi (nguồn [7])

Trong nguồn tin tức từ mạng xã hội, có một xu hướng đang nổi lên trong thời
gian gần đây là các ứng dụng nhắn tin. Lượng người hoạt động theo thống kê 2017

của WeAreSocial thì trong top 5 nền tảng mạng xã hội thì ứng dụng nhắn tin chiếm
3 vị trí (FB Messager, WhatsApp, QQ) [10]. Ứng dụng nhắn tin có tiềm năng trở
thành nền tảng nhận tin tức phổ biến trong tương lai.

Hình 4: Lượng người hoạt động trên các nền tảng mạng xã hội 2017 (nguồn [10])

Có thể thấy nguồn tin tức từ mạng xã hội đang dần trở thành xu hướng chính của
người dùng và cần có sự nghiên cứu nhiều hơn.

16


1.3 Nền tảng mạng xã hội Facebook
Thế giới có hàng trăm mạng mạng xã hội khác nhau: Twitter, Facebook, Youtube,
Instagram, Flickr, Tumblr, Pinterest, LinkedIn,… và tại Việt Nam xuất hiện nhiều
mạng xã hội như: ZingMe, YuMe, Tamtay... Theo thống kê 2017 của Hootsuite và
WeAreSocial thì lượng người sử dụng internet trên toàn thế giới chiếm trên 50% dân
số. Lượng người sử dụng mạng xã hội lên tới 2,8 tỷ người, chiếm 37% dân số. Trong
đó, riêng nền tảng mạng xã hội Facebook lớn nhất thế giới với lượng người sử dụng
đang hoạt động là 1,8 tỷ người [10].
Hiện tại, Facebook thống trị trong cả mạng xã hội và tin nhắn. Sự phát triển của
tin nhắn bắt đầu là một tính năng trên mạng xã hội chứ không phải là một sự thay thế.
Đại đa số những người sử dụng ứng dụng nhắn tin song song đó sử dụng ít nhất một
mạng xã hội cho tin tức. Thông thường, mọi người sử dụng hai hoặc nhiều mạng xã
hội và ứng dụng nhắn tin trong một tuần.
Những xu hướng mới ở nhiều mạng xã hội khơng có khả năng gây lo lắng cho
Facebook. Facebook sở hữu WhatsApp và Messenger, hai ứng dụng nhắn tin phổ
biến nhất, cùng với Instagram, đã kết hợp nhiều tính năng phổ biến nhất của Snapchat.
Có tới 80% người dùng ít nhất một sản phẩm Facebook hàng tuần, trong đó hơn 50%
sử dụng cho mục đích tin tức (theo số liệu nghiên cứu năm 2017 của Viện nghiên cứu

báo chí Reuters [7]). Cùng với Google, Facebook đã mua lại các cơng ty khác để duy
trì sức mạnh trong việc khai phá và phân phối nội dung.
Một khía cạnh nghiên cứu khác, phần lớn người dùng thích khám phá tin tức
thơng qua thuật tốn hơn là lựa chọn của biên tập viên. Khi so sánh tin tức được chọn
bởi thuật tốn (tìm kiếm, xã hội và các trang tổng hợp tin tức) và tin tức được chọn
bởi biên tập viên (trên trang tin tức, email và thông báo tới điện thoại di động). Theo
nghiên cứu của Viện nghiên cứu báo chí Reuters [7], hơn một nửa (54%) thích tin tức
được đưa ra bởi thuật toán hơn là biên tập viên hoặc nhà báo (44%). Hiệu ứng này
thậm chí cịn rõ rệt hơn đối với những người chủ yếu sử dụng điện thoại thông minh
(58%) và người dùng trẻ tuổi (64%). Những người trẻ tuổi có xu hướng thoải mái

17


hơn với lựa chọn câu chuyện thuật tốn thì khơng đáng ngạc nhiên vì họ sử dụng chủ
yếu phương tiện truyền thơng qua mạng xã hội.

Hình 5: So sánh giữa các cách lựa chọn tin tức (nguồn [7])

Từ cuối 2015, mạng xã hội Facebook ra mắt tính năng Reactions, người dùng
Facebook sẽ có nhiều lựa chọn tương tác hơn với thông tin được chia sẻ để thể hiện
cảm xúc cá nhân. Sáu biểu tượng cảm xúc mới được bổ sung bao gồm “yêu” (love),
“vui sướng” (haha), “biết ơn” (thankful), “ngạc nhiên” (wow), “buồn” (sad) và “tức
giận” (angry). Với tính năng Facebook Reactions, có thể phân tích sâu hơn về tương
tác cũng như cảm xúc của người đọc với tin tức. Đây là một lợi thế rất lớn so với các
nền tảng tiếp cận tin tức trực tuyến hiện có như truy cập trực tiếp trang tin tức hay
qua công cụ tìm kiếm.
Đối với các nhà phát triển và nghiên cứu, Facebook cung cấp cơng cụ để có thể
khai thác dữ liệu khổng lồ từ mạng xã hội này, là GraphAPI. GraphAPI là API dựa
trên HTTP cấp thấp mà ứng dụng có thể sử dụng để truy vấn dữ liệu, đăng tin mới,

quản lý quảng cáo, tải ảnh lên và thực hiện nhiều tác vụ khác theo lập trình [15].
Tóm lại, lựa chọn mạng xã hội Facebook để phân tích xu hướng quan tâm của
người dùng trực tuyến và hướng phát hiện tin tức vì:
-

Lượng người sử dụng lớn

-

Cho phép sử dụng công cụ khai thác dữ liệu trên mạng xã hội

-

Có phân loại tương tác theo cảm xúc của người dùng

1.4 Tình hình ở Việt Nam
Tại Việt Nam, theo thống kê 2017, lượng người sử dụng internet là 50 triệu người,
chiếm 53% dân số. Chỉ tính riêng lượng người sử dụng mạng xã hội Facebook tại
Việt Nam hoạt động hàng tháng là 46 triệu người, có tỷ lệ là 92% số người dùng
internet tại Việt Nam [11]. Điều đó cho thấy, internet đã trở thành phương tiện truyền

18


thơng rất quan trọng, và thậm chí đang từng bước lấn át các phương tiện truyền thông
truyền thống như báo, tạp chí in. Lượng người truy cập internet chủ yếu tiếp cận
thông tin qua mạng xã hội và các website tổng hợp tin tức. Facebook nổi lên là mạng
xã hội lớn nhất tại Việt Nam, chiếm tuyệt đại đa số người dùng online.
1.5 Một số phương pháp tiếp cận
Đã có nhiều cách tiếp cận để phát hiện xu hướng từ luồng dữ liệu: trích xuất chủ

đề và sự kiện từ luồng tin tức [8], hình tượng hố sự xuất hiện và sự biến mất của các
chủ đề trong một loạt các câu chuyện tin tức đã được khám phá [9], khám phá sự
bùng nổ từ luồng dữ liệu được thực hiện trong các cộng đồng khai thác dữ liệu [8],
hướng phát hiện tin tức quan tâm từ từ khố tìm kiếm trực tuyến [1], hay phân cụm
tin tức từng vùng theo ngữ nghĩa với dữ liệu từ Twitter và Wikipedia [4], phân nhóm
tin tức với TF-IDF với các tin nhắn trên Twitter [3]. Một số cách tiếp cận là hồi tưởng
toàn bộ luồng dữ liệu được dùng để phát hiện tin tức.
Việc thu thập dữ liệu Web từ nhiều tài nguyên được kỳ vọng sẽ giúp phát hiện ra
tin tức được quan tâm. Mỗi phương pháp tiếp cận sẽ có đặc điểm khác nhau.
1.5.1 Hướng phát hiện tin tức quan tâm từ từ khố tìm kiếm trực tuyến
Phương pháp của nghiên cứu dựa trên các từ khóa tìm kiếm Web [1] được chỉnh
sửa hoặc không được chỉnh sửa trong SearchSpy. Các từ khóa tìm kiếm chưa được
chỉnh sửa có thể được sử dụng để phát hiện các tin tức được quan tâm bằng các
chương trình máy tính. Các từ tìm kiếm được kết hợp với từ tin tức theo thủ tục sau:
- Từ khố tìm kiếm thu được từ SearchSpy cứ ba giây một lần. Chúng được gom
vào một tập tin mỗi giờ.
- 100 từ mới được lấy từ 10x10 mỗi giờ.
- Từ khố tìm kiếm (có thể một phần) phù hợp với bất kỳ từ tin tức nào được trích
xuất và đếm.
Số lượng từ khóa tìm kiếm liên quan đến tin tức được thu thập mỗi giờ theo thủ
tục trên. Lưu ý rằng nhiều tìm kiếm được thực hiện bằng cách sử dụng nhiều từ khố.
Một tìm kiếm được tính nếu bất kỳ từ khóa tìm kiếm nào khớp với từ trong tin tức.

19


Các từ khố tìm kiếm cịn lại định lượng từ tin tức và cho ra manh mối để phân tích
nhu cầu thông tin của mọi người về tin tức.
Phương pháp này khá đơn giản nhưng nguồn dữ liệu đầu vào lại phụ thuộc từ
cơng cụ tìm kiếm và bộ trích xuất từ trong các tin tức. Chất lượng lượng các từ tin

tức ảnh hưởng rất lớn tới kết quả (trong trường hợp này là từ 10x10).
1.5.2 Hướng phát hiện tin tức từ công cụ của các hãng công nghệ
Google Trends ( hiển thị biểu đồ thay đổi động
của số lần tìm kiếm liên quan đến từ khố đầu vào. Các bài báo liên quan tới các từ
khóa đầu vào cũng được đính kèm vào đồ thị. Biểu đồ này chỉ phù hợp để phân tích
xu hướng của quá khứ, nhiều tin tức được quan tâm không được cho vào báo cáo.
Facebook Trending đã từng được giới thiệu cho người dùng sử dụng từ 2014,
nhưng gần đây đã thông báo dừng cung cấp tính năng này. Ngồi ra, Facebook cũng
khơng chia sẻ dữ liệu hay API liên quan tới chức năng này nên khó đánh giá.
Một nhược điểm lớn khi dùng công cụ của các hãng là dữ liệu đã bị lọc và được
sắp xếp lại, khơng có dữ liệu gốc để nghiên cứu.
1.5.3 Hướng phát hiện tin tức quan tâm từ mạng xã hội sử dụng thuật toán phân
cụm tin tức
Việc phát hiện các chủ đề quan tâm của xã hội trong thời đại bùng nổ thơng tin
địi hỏi các kỹ thuật phân tích tiên tiến nhất. Một số hướng tiếp cận theo hướng phân
cụm tin tức như dựa trên phân tích phân cụm theo địa lý dựa cho các chủ đề xã hội
sử dụng phương pháp liên kết các từ được giải nghĩa bằng đồ hoạ với dữ liệu từ
Twitter và Wikipedia [4]. Có hướng tiếp cận khác như nhóm và xếp hạng tin tức sử
dụng phương pháp TF-IDF với dữ liệu Twitter được thu thập [3].
Với phương pháp tiếp cận sử dụng TF-IDF, tác giả Swit P. [3] đã phải đưa thêm
tham số điểm cho các danh từ được nhận diện bởi Stanford Named Entity Recognizer
(NER), kết hợp áp dụng TF-IDF để xác định mức độ tương đồng giữa hai tin tức.
Hướng tiếp cận của tác giả rất xem trọng các danh từ riêng, như vậy cũng sẽ coi nhẹ
các yếu tố khác của cấu trúc câu từ trong tin tức, mang tính chất quan trọng khơng
kém.

20


Với mong muốn rằng tin tức nóng hổi được phát hiện trong thời gian thực, và sử

dụng phương án tiếp cận mới có thể áp dụng ở Việt Nam. Kết hợp công cụ khai thác
dữ liệu mạnh mẽ theo thời gian thực từ Facebook GraphAPI với lựa chọn phương
pháp phân cụm thích hợp để tự động phân loại các chủ đề tin tức có thể giải quyết
vấn đề ngữ nghĩa và cấu trúc. Đó là hướng đi tiếp theo của luận văn.
Sau đó, để đưa ra được đánh giá mức độ quan tâm của người dùng trực tuyến,
trong luận văn cũng đề xuất phương pháp và cơng thức tính tốn phù hợp.
Ngồi ra, luận văn cịn đề xuất mơ hình xây dựng hệ thống phát hiện tin tức được
quan tâm gọi là TrendNews.
Tiểu kết chương
Chương này đã phân tích xu hướng tin tức của người dùng trực tuyến trên thế giới
và xu hướng của người dùng tại Việt Nam. Từ đó, xác định nguồn trực tuyến sẽ khai
thác để nghiên cứu là Facebook, với lượng người sử dụng áp đảo tới 92% [11]. Trong
các phân tích ở cuối chương, đã tìm hiểu một số phương pháp nghiên cứu trên thế
giới và xác định sử dụng phương pháp phân cụm tin tức trong nghiên cứu ở các
chương tiếp theo. Cuối cùng, hệ thống được xây dựng trong luận văn được gọi là
TrendNews.

21


2 CHƯƠNG II: MỘT SỐ GIẢI PHÁP PHÁT HIỆN TIN
TỨC QUAN TÂM
Trong chương trước đã định hướng nghiên cứu, ở chương này sẽ tiếp tục phân
tích sâu hơn về một số thuật tốn có thể sử dụng và lựa chọn thuật tốn thích hợp.
Trước khi phân tích thuật tốn cần bắt đầu từ khảo sát nguồn dữ liệu thu thập được.
2.1 Khảo sát dữ liệu
Bước đầu tiên để đánh giá sự quan tâm của tin tức cần đưa ra được các tham số
đo lường được. Có rất nhiều kênh để đo lường tin tức:
-


Trang tin tức: thu thập được số lượng xem, số lượng người truy cập, thời gian
người dùng đọc,…

-

Trang tìm kiếm Google: số lượt tìm kiếm từ khố liên quan tới tin tức, số
lượng click vào tin tức,…

-

Mạng xã hội Facebook: số lượng comment, số lượng người thích, số lượng
cảm xúc, số lượng người chia sẻ, tần xuất,…

Mỗi kênh đo lường có một ưu điểm riêng, nhưng với mạng xã hội Facebook cho
ra rất nhiều chỉ số chi tiết của người đọc với tin tức nhất định. Từ phân tích ở chương
trước và trong khn khổ của luận văn, Facebook được lựa chọn là nguồn dữ liệu để
đánh giá xu hướng người dùng trực tuyến.

Hình 6: Mơ tả dữ liệu của tin tức trên Facebook

Thông tin thu thập trên mạng xã hội Facebook bao gồm thông tin về đường link,
ảnh, tên, mô tả nội dung chia sẻ, các bình luận, loại chia sẻ, ngày tạo, ngày cập nhật,

22


các thông tin về phản ứng của người tương tác,… Rất nhiều thông tin thu thập được
từ Facebook mà không có kênh nào có được như lượng người bày tỏ cảm xúc khác
nhau đối với mỗi tin: thích, tức giận, cảm ơn, buồn, ngạc nhiên,…
Ví dụ về thơng tin của 1 post thu thập được từ Facebook:

{
"permalink_url":
" />",
"created_time":"2018-05-17T14:35:28+0000",
"full_picture":
" />mp;url=https%3A%2F%2Fvcdnkinhdoanh.vnecdn.net%2F2018%2F05%2F17%2Fbietthu-1526563415-29191526563450_500x300.jpg&_nc_hash=AQCXtHb9ihr5svSh",
"picture":
" />mp;w=130&h=130&url=https%3A%2F%2Fvcdnkinhdoanh.vnecdn.net%2F2018%2F05%2F17%2Fbietthu-1526563415-29191526563450_500x300.jpg&cfs=1&_nc_hash=AQBq22vZPILP0VBU",
"id":"262700667105773_2319075211468298",
"message":"Vụ trưởng Vụ Chính sách Thuế, Tổng cục Thuế cho
biết, Luật Thuế tài sản (trong đó đánh thuế với nhà, đất) đang
trong chương trình nghiên cứu, chưa được đưa vào chương trình xây
dựng pháp luật. Do đó, trong năm nay và sang năm, loại thuế này
chưa được ban hành.",
"name":"'Nhà đất chưa phải chịu Thuế tài sản trong hai năm
tới' - VnExpress Kinh Doanh",
"caption":"kinhdoanh.vnexpress.net",
"description":"Đại diện ngành thuế khẳng định năm 2018 và 2019
chưa thể ban hành Luật Thuế tài sản vì hiện vẫn trong giai đoạn
nghiên cứu.",
"updated_time":"2018-05-17T14:35:28+0000",
"link":" />"icon":" />"from":{
"name":"VnExpress.net",

23


"id":"262700667105773"
},
"privacy":{

"allow":"",
"deny":"",
"description":"",
"friends":"",
"value":""
},
"type":"link",
"status_type":"shared_story",
"actions":[
{
"name":"Like",
"link":
" />"
},
{
"name":"Comment",
"link":
" />"
},
{
"name":"Share",
"link":
" />"
}
],
"comments":{
"data":[],
"summary":{
"order":"ranked",


24


"total_count":29,
"can_comment":true
}
},
"shares":{
"count":25
},
"like":{
"data":[],
"summary":{
"total_count":142,
"viewer_reaction":"NONE"
}
},
"reaction_total":{
"data":[],
"summary":{
"total_count":173,
"viewer_reaction":"NONE"
}
}
}

Có nhiều trường thể hiện nội dung tin tức (như “message”, “name”,
“description”). Trường “message” là nội dung của bài viết khi đăng tải nhiều khi
mang tính chất lơi kéo người đọc. Trường “name” chính là tiêu đề của tin tức, nội
dung q ngắn khó thể hiện được. Chính xác và đầy đủ nhất vẫn là trường tóm tắt nội

dung tin tức “description”. Với mỗi tin tức được đưa lên mạng xã hội Facebook, thơng
tin cơng khai có thể sử dụng để phân tích mức độ quan tâm của người dùng trực tuyến
được bao gồm:
-

Nội dung tin tức tóm tắt (trường “description”)

25


×