Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00072
ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM NGƯỜI DÙNG
TRÊN MẠNG XÃ HỘI DỰA VÀO CÁC NHĨM THAM GIA
Nguyễn Thị Hội1, Trần Đình Quế2
1
Trường Đại học Thương mại
2
Học viện Cơng nghệ Bưu chính Viễn thơng
,
TÓM TẮT: Phát hiện quan tâm của người dùng trên các mạng xã hội là một trong những chủ đề thu hút nhiều quan tâm nghiên cứu
và áp dụng trong nhiều ứng dụng như các hệ tư vấn người dùng, các chiến lược quảng cáo, phân loại người dùng,... Trong bài báo
này, chúng tơi đề xuất một mơ hình dựa trên phân tích những nhóm tham gia của người dùng trên các mạng xã hội để phát hiện và
so sánh tương quan về quan tâm của họ, sau đó, đánh giá bằng thực nghiệm với dữ liệu thực. Kết quả thực nghiệm cho thấy nếu hai
người dùng có tham gia nhiều nhóm tương tự nhau thì sẽ có quan tâm tương tự nhau và ngược lại.
Từ khóa: Mạng xã hội, nhóm người dùng, quan tâm của người dùng, độ đo tương tự.
I. GIỚI THIỆU
Theo từ điển Tiếng Việt thì quan tâm là sự chú ý và để tâm một cách thường xuyên đến chủ đề, sự vật, hiện
tượng đang xảy ra trong những hoàn cảnh cụ thể. Trên các mạng xã hội (social network sites) các chủ đề quan tâm của
người dùng thường rất đa dạng và không dễ dàng để xếp vào một lĩnh vực cụ thể. Người dùng trên mạng xã hội là
những người tham gia vào một trang mạng xã hội bất kỳ, có tài khoản trên trang mạng xã hội đó và sử dụng mạng để
trao đổi, tương tác với người dùng khác. Người dùng trên mạng xã hội cũng thường quan tâm đến nhiều chủ đề khác
nhau, chẳng hạn như một người dùng thường xuyên chia sẻ các bài viết về lịch trình các chuyến du lịch, tham gia vào
nhóm giới thiệu về địa điểm du lịch, thường xun thích hoặc bình luận hình ảnh các địa điểm, vị trí du lịch,… có thể
xem người dùng đó quan tâm đến chủ đề du lịch, hoặc một người dùng thường xuyên chú ý đến các bộ phim bom tấn,
tham gia nhóm giới thiệu về phim, thường xuyên chia sẻ các bài viết về các bộ phim, theo dõi lịch chiếu và các sự kiện
bên lề của các liên hoan phim,… có thể xem người dùng đó quan tâm đến chủ đề giải trí phim ảnh,… Như vậy, có thể
nói rằng, quan tâm của người dùng trên các mạng xã hội là sự để tâm và chú ý thường xuyên đến một hoặc một số chủ
đề nào đó trên các mạng xã hội.
Hiện nay, với sự lớn mạnh và ảnh hưởng sâu rộng của các mạng xã hội, các nghiên cứu về quan tâm của người
dùng trên các mạng xã hội không những được rất nhiều cá nhân, tổ chức chú ý mà chúng cịn có rất nhiều ứng dụng
trong các dịch vụ trực tuyến như các hệ thống khuyến nghị người dùng, các chiến lược quảng cáo sản phẩm, các
chương trình giới thiệu dịch vụ cho người dùng,… Quan tâm của người dùng trên các mạng xã hội là một hướng được
rất nhiều nhà nghiên cứu phân tích và đưa ra nhiều cách thức để thu được các kết quả nghiên cứu khác nhau. Theo
khảo sát của chúng tơi, có một số cách phát hiện quan tâm người dùng phổ biến dùng trên các phương tiện truyền thơng
như: trích xuất thơng tin từ thơng tin cá nhân người dùng (profile) [2, 8, 17]; trích xuất từ các liên kết của người dùng
đến các người dùng khác [2, 7, 12]; trích xuất hành vi đánh dấu, các bài đăng của người dùng [9, 10, 12, 13],… Tuy
nhiên, các thông tin cá nhân của người dùng trên các mạng xã hội hiện nay rất khó thu thập do yêu cầu bảo mật người
dùng hoặc người dùng không muốn cung cấp đầy đủ thông tin. Thêm nữa, các thông tin cá nhân người dùng thường
quá ít cũng là một trở ngại trong phân tích và nghiên cứu về quan tâm của người dùng trên các mạng xã hội. Vì vậy,
các nghiên cứu về quan tâm của người dùng trên các mạng xã hội những năm gần đây thường đi theo hai hướng tiếp
cận chính: một là phân tích về các kết nối, quan hệ bạn bè, những danh sách những người được theo dõi, các đánh dấu
của người dùng trên các mạng xã hội như [2, 7, 8]; hai là phân tích các bài đăng (status) và các thuộc tính liên quan đến
các bài đăng của người dùng trên các mạng xã hội [7, 9, 11, 12]. Các nghiên cứu này chủ yếu đi sâu vào vấn đề phát
hiện quan tâm của từng cá nhân người dùng mà chưa chú ý nghiên cứu nhiều về mối liên quan giữa những người dùng
trên các mạng xã hội.
Vì vậy, bài báo nhằm đề xuất một cách ước lượng quan tâm tương tự của hai người dùng dựa trên các nhóm
cộng đồng mà họ tham gia hoặc theo dõi trên các mạng xã hội. Mục đích chính để trả lời cho câu hỏi: Nếu hai người
dùng cùng tham gia một số nhóm cộng đồng tương tự nhau liệu rằng họ có quan tâm các chủ đề tương tự nhau hay
không? và ngược lại. Trong bài báo, kỹ thuật N-gram và TF-IDF được sử dụng để phân tích và ước lượng mối tương
quan giữa hành vi tham gia nhóm cộng đồng và các chủ đề quan tâm của người dùng, sau đó mơ hình đề xuất được
đánh giá và so sánh bằng thực nghiệm dựa trên dữ liệu thực.
Phần còn lại của bài báo được tổ chức như sau: Phần 2 là đề xuất cách thức ước lượng mối tương quan giữa
quan tâm và hành vi của người dùng; Phần 3 là phần thực nghiệm và đánh giá; Phần 4 là kết luận.
Nguyễn Thị Hội, Trần Đình Quế
555
II. TƯƠNG TỰ GIỮA CÁC NHÓM VÀ ƯỚC LƯỢNG QUAN TÂM CỦA NGƯỜI DÙNG
2.1. Độ tương tự các nhóm cộng đồng trên mạng xã hội
2.1.1. Nhóm hay cộng đồng trên mạng xã hội
Trong một mạng xã hội, có nhiều người dùng kết nối với nhau theo các kiểu quan hệ gần với các quan hệ thực tế
ngoài xã hội, chẳng hạn như quan hệ bạn bè, quan hệ gia đình, quan hệ đồng nghiệp... Trong đó, mỗi người dùng có
một khơng gian cá nhân riêng và người dùng có tồn quyền làm những việc họ muốn, chẳng hạn như đăng các bài viết
mô tả trạng thái cá nhân; thích và chia sẻ niềm vui vì hồn thành cơng việc hay đạt được một thành tựu nào đó; trích
dẫn và chia sẻ lại những bài viết, bài báo, bức ảnh, đoạn phim mà bản thân thấy thú vị và tham gia vào một hoặc một số
nhóm cộng đồng (group) trên các mạng xã hội
Nhóm cộng đồng hay group là một tính năng được cung cấp bởi rất nhiều trang mạng xã hội như Facebook.com
có tính năng Nhóm (group), Twitter.com có tính năng Nhóm (list), …
Mỗi cộng đồng hay nhóm (a community /a group) trên các mạng xã hội là tập hợp những người cùng quan tâm
về một chủ đề, đối tượng hay nhóm đối tượng nào đó. Mỗi nhóm được biểu diễn bởi một meta-data (siêu dữ liệu) của
chúng, một người dùng có thể khơng hoặc có thể tham gia từ một cho đến nhiều nhóm trên mạng xã hội. Mỗi meta-data
của nhóm được xem là một đặc trưng của nhóm, để ước lượng và phân tích các đặc trưng này được ký hiệu như sau:
- Tên nhóm là name: Tên nhóm thường được đặt theo nguyên tắc đặt tên do dịch vụ của mạng xã hội cung cấp,
được tạo khi người quản trị tạo nhóm, tên nhóm có thể thay đổi trong q trình tồn tại và hoạt động của nhóm
- Kiểu hoặc loại hình của nhóm là style: Trên các mạng xã hội, loại hình của nhóm có thể là câu lạc bộ, có thể là
cộng đồng, có thể là hoạt động trường lớp, nhóm mua và bán, học tập nghiên cứu, …
- Mơ tả về nhóm là desc: Mơ tả về nhóm thường trình bày tổng qt nhất về hoạt động chính của nhóm, các quy
định và các nội dung thực hiện trong nhóm.
Ví dụ minh họa trong Bảng 1
Bảng 1. Minh họa các đặc trưng của một nhóm trên mạng xã hội
Tên thuộc tính
Tên (name)
Mơ tả (desc)
Loại (styl)
Giá trị
Mua bán trao đổi Kính thiên văn, Ống nhịm, linh kiện
Nơi trao đổi mua bán các loại Kính thiên văn, Ống nhịm, linh phụ kiện thiên
văn cho các bạn trong toàn quốc. Nhận trách nhiệm trung gian trao đổi các hàng
hóa khi các bạn ở xa cần xem hàng mới trả tiền. Danh sách nơi mua hàng uy
tín, giá cả tốt tại Việt Nam: Hội thiên văn
Mua và bán
2.1.2. Ước lượng độ tương tự các nhóm trên mạng xã hội
Để ước lượng độ tương tự quan tâm của hai người dùng trên các mạng xã hội dựa trên các nhóm tham gia, trước
hết bài báo ước lượng độ tương tự của các nhóm trên mạng xã hội mà hai người dùng đó đã tham gia, sau đó, ước
lượng độ tương tự của các nhóm đó với các chủ đề phổ biến trên mạng xã hội để xem xét về độ quan tâm tương tự của
người dùng dựa trên các chủ đề.
Việc ước lượng độ tương tự hai nhóm mà hai người dùng đã tham gia trên mạng xã hội được bài báo tiến hành
như sau:
Bước 1: Xây dựng bộ từ khóa cho các thuộc tính dựa trên kỹ thuật N-gram
Bước 2: Xây dựng vectơ giá trị cho các bộ từ khóa bằng cách tính TF-IDF cho các từ khóa
Bước 3: Ước lượng độ tương tự giữa 2 vectơ ở bước 2 theo độ đo Cosine.
Để xây dựng bộ từ khóa cho các thuộc tính là name, styl và desc của hai nhóm trên mạng xã hội theo Bước 1,
bài báo thực hiện bằng cách sử dụng kỹ thuật N-gram mà W. B. Cavnar và J. M. Trenkle [16] đề xuất để tách mỗi
thuộc tính của nhóm thành các từ theo các N-gram với N=1, 2, 3. Sau đó, bái báo sử dụng từ điển Wikipedia và danh
sách từ dừng Tiếng Việt để loại bỏ các từ dừng và từ khơng có nghĩa và thu được bộ từ khóa của mỗi thuộc tính của
nhóm. Cách lấy định nghĩa các từ và danh sách từ dừng bài báo kế thừa và mở rộng từ đề xuất của S. A. Takale và S. S
Nandgaonkar [14], trong nghiên cứu này S. A. Takale và S. S. Nandgaonkar tách các word đơn và tìm từ khóa theo
NetWord trên Tiếng Anh, bài báo áp dụng và mở rộng trên các N-gram và sử dụng cho ngôn ngữ Tiếng Việt.
Để xây dựng vectơ giá trị cho các bộ từ khóa, bài báo sử dụng cách tính TF-IDF cho các từ khóa đã tìm được
trong Bước 1. TF-IDF (Term Frequency - Inverse Document Frequency) là trọng số của một từ trong danh sách từ
khóa của các nhóm mà người dùng đã tham gia. TF-IDF được tính dựa trên thống kê mức độ quan trọng hay số lần
xuất hiện của từ này trong danh sách các từ khóa đã có. Cách tính TF-IDF trong bài báo được thực hiện dựa trên cơng
trình nghiên cứu [5] như sau:
556 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG
Giả sử U là một tập người dùng trên một mạng xã hội và mỗi ∈ có một tập các nhóm/group mà người dùng
, với mỗi
∈
được biểu diễn bởi 3 thành phần là name, styl và desc
đó đã tham gia
Gọi
∈
,
∈
,
là hai nhóm cộng đồng trên mạng xã hội mà hai người dùng
∈
tương ứng
đã tham gia. Mỗi tập từ khóa của một nhóm
∈
được biểu diễn bằng một vectơ
tương ứng. Gọi
là số lần
từ khóa xuất hiện trong vectơ v của nhóm ,
là tổng số từ khóa của vectơ ,
là tổng số các nhóm của người
dùng u, là tổng số các nhóm của người dùng u có chứa từ khóa k. Khi đó:
( , )=
và
ứng
−
( ,
,
( , )=
)=
( ),
( , )∗
( ,
(1)
)
(2)
Sau khi tính TF-IDF của các từ khóa trong hai vectơ biểu diễn hai nhóm đã tham gia của hai người dùng tương
, ∈ , các giá trị trọng số của hai nhóm được lưu vào hai vectơ tương ứng , .
Khi đó độ tương tự của hai nhóm/group mà
,
,
Trong đó,
=
,
∈
đã tham gia được tính như sau:
,
(3)
là các vectơ chứa TF-IDF của hai nhóm
,
tương ứng.
2.1.3. Ước lượng độ tương tự hai người dùng dựa vào các nhóm đã tham gia trên mạng xã hội
Dựa trên công thức (3), bài báo ước lượng độ tương tự của hai người dùng dựa trên các nhóm/group mà họ đã
tham gia như sau: Gọi , ∈ là hai người dùng, mỗi người dùng có tập các nhóm/group đã tham gia trên mạng xã
,
∈ và mỗi người dùng có một vectơ trọng số biểu diễn tập các nhóm mà họ đã tham gia tương
hội gồm
ứng là ,
. Với mỗi cặp người dùng , ∈ thì mỗi thành phần
của vectơ
được tính như sau:
∈
của tính độ tương tự của
với tất cả các nhóm g ∈ G
Với mỗi
=
(
( , ), … ,
( , ))
u được tính theo cơng thức:
của u ∈ U. Mỗi thành phần
(4)
∈
và m là số nhóm của
và
,
là độ tương tự của hai nhóm ,
Trong đó,
ứng. Mỗi thành phần
của vectơ
cũng được tính tương tự. Khi đó, độ tương tự của hai người dùng ,
dựa trên các nhóm đã tham gia được tính bằng:
,
Trong đó
thấy rằng
,
=
(
,
tương
∈
)
là các vec tơ chứa trọng số các nhóm đã tham gia của hai người dùng
,
nằm trong khoảng [0,1]
(5)
,
tương ứng. Có thể
2.2. Ước lượng quan tâm của người dùng theo chủ đề
2.2.1. Xác định các chủ đề trên mạng xã hội
Phát hiện các chủ đề và các quan tâm đến các chủ đề của người dùng đã được rất nhiều nghiên cứu đưa ra như
các nghiên cứu của Bhattacharya et al [2], Diana et al [7], Li Xin et al [9], Sheng Bin et al [13]. Bài báo dựa trên các
kết quả nghiên cứu trước đó của chính nhóm tác giả [11] để áp dụng cho bài toán phân loại các nhóm/group của người
dùng theo các chủ đề, nhóm nghiên cứu sau khi phân tích đã thu được một danh sách gồm 21 chủ đề chính và 81 chủ
đề con được sử dụng phổ biến trên mạng xã hội. Bài báo kế thừa kết quả nghiên cứu đó để áp dụng cho ước lượng và
phân loại các nhóm/group vào các chủ đề. Ví dụ một số chủ đề được minh họa trong Bảng 2.
Bảng 2. Ví dụ về chủ đề cùng từ khóa của chủ đề
Chủ đề
Giáo dục
Cơng nghệ
Danh sách từ khóa
Giáo dục, tiếng Anh, học tập, kiến thức, thói quen, thế hệ, giảng dạy, đào tạo, nghiên cứu,
trải nghiệm, giáo dục, tiểu học, trung học, từ nguyên, từ đồng, tiếng Việt, toàn cầu, Quốc tế,
Kinh tế, Xã hội, Văn hóa, Quốc cơng, cha mẹ, trực tuyến, Liên Hiệp Quốc, học trực tuyến,
giáo dục tiểu học, …
Công nghệ, biến đổi, sử dụng, kiến thức, cơng cụ, máy móc, kỹ thuật, kỹ năng, nghề nghiệp,
hệ thống, phương pháp, tổ chức, giải quyết, vấn đề, cải tiến, giải pháp, tồn tại, mục đích, thực
hiện, chức năng, cụ thể, tập hợp, bao gồm, sắp xếp, quy trình, ảnh hưởng, đáng kể, khả năng,
kiểm sốt, thích nghi, con người, động vật, mơi trường, tự nhiên, Thuật ngữ, lĩnh vực, công
nghệ, xây dựng, khoa học, đôi khi, tương tự, với nhau, chẳng hạn, Tuy vậy, Khoa học, tồn
bộ, hoạt động, hình thức, giải thích, tiên đoán, kiểm tra, vũ trụ, ứng dụng, kinh tế, xã hội,
thực tiễn, thiết kế, duy trì, cấu trúc, thiết bị, vật liệu, quá trình
Nguyễn Thị Hội, Trần Đình Quế
557
Mỗi chủ đề sau khi xác định danh sách từ khóa được biểu diễn bằng một vectơ trọng số
được tính tốn theo
cơng thức (2). Trong đó, chỉ số k là chủ đề thứ k trong danh sách các chủ đề và w là ký hiệu vectơ chứa trọng số các từ
khóa của chủ đề thứ k.
2.2.2. Xác định quan tâm theo các chủ đề
Gọi
là tập danh sách các từ khóa được xây dựng từ ba thuộc tính gồm name, styl và desc của các
nhóm mà người dùng ∈ đã gia nhập trên các mạng xã hội. T là danh sách các chủ đề phổ biến trên các mạng xã
∈
có vectơ trọng số
hội đã được xây dựng và đề cập đến trong mục B.1. Khi đó, độ tương tự của mỗi nhóm
tính theo TF-IDF
với chủ đề ∈ được tính bằng:
,
=
(
,
)
(6)
là vec tơ trọng số của danh sách các từ khóa thu được từ nhóm thứ k của người dùng ∈ và
Trong đó,
∈
thì độ quan tâm dựa trên các
là vectơ trọng số của chủ đề ∈ . Sau khi tính độ tương tự của mỗi nhóm
nhóm đã tham gia của người dùng u ∈ U theo chủ đề t ∈ T được tính như sau:
0,
,
(
=
,
…
∈
(7)
,
(
Trong đó, n là số các nhóm mà người
đang xem xét của bài báo.
,
đã gia nhập và
∈
là chủ đề thứ j trong danh sách các chủ đề
2.3. Ước lượng quan tâm tương tự của người dùng dựa trên nhóm
Với mỗi , ∈ trên mạng xã hội cùng tập các nhóm , ∈ , độ quan tâm của người dùng ∈ với các
chủ đề ∈ dựa trên các nhóm tham gia trên mạng xã hội được biểu diễn bằng công thức (7). Dựa trên công thức
∈ dựa trên các
(7), bài báo, ước lượng độ tương tự quan tâm của hai người dùng , ∈ với chủ đề
nhóm/group đã tham gia như sau:
,
,
,
Có thể thấy rằng
=
,
( ,
(
),
,
)
(8)
nằm trong khoảng [0,1].
Sau khi đề xuất cách ước lượng độ quan tâm tương tự giữa hai người dùng dựa trên các nhóm/group mà họ đã
tham gia trên các mạng xã hội theo các chủ đề nghiên cứu, bài báo đề xuất giả thuyết rằng: Nếu hai người dùng tương
tự nhau theo các nhóm/group mà họ đã tham gia trên các mạng xã hội thì họ cũng sẽ quan tâm đến một số chủ đề tương
tự nhau và ngược lại. Để trả lời cho giả thuyết này, trong phần 3 bài báo trình bày thực nghiệm dựa trên dữ liệu thực để
kiểm nghiệm lại các công thức đã đề xuất.
III. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Như bài báo đã trình bày cuối mục II.B, mục đích của thực nghiệm là kiểm nghiệm giả thuyết của bài báo cho
rằng: “Nếu hai người dùng tương tự nhau theo các nhóm họ đã tham gia trên các mạng xã hội thì họ sẽ quan tâm đến
một số chủ đề tương tự nhau và ngược lại” dựa trên dữ liệu thực.
3.1. Thu thập dữ liệu và xây dựng tập dữ liệu thử nghiệm
Bài báo thực hiện việc thu thập dữ liệu từ trang mạng xã hội Facebook.com. Mỗi người dùng được trích xuất
các nhóm họ đã tham gia, bài báo chỉ thu thập được các nhóm cơng khai (public) của người dùng mà khơng thu thập
được các nhóm bí mật (secret) hoặc các nhóm kín. Trong mơ hình đề xuất, bài báo chỉ xem xét các nhóm với ba thuộc
tính là tên nhóm, mơ tả nhóm và loại hình của nhóm, những nhóm bị khuyết một trong ba đặc trưng thì bài báo coi giá
trị bằng Null. Những nhóm nào bị khuyết 2 đặc trưng trở lên thì bài báo sẽ loại bỏ khỏi tập dữ liệu thử nghiệm. Sau khi
đã xử lý, cơ sở dữ liệu thử nghiệm thu được 20 người dùng thực tế và tạo thành bộ dữ liệu thử nghiệm với 210 cặp
người dùng để so sánh, bài báo thực hiện mã hóa tên người dùng thành danh sách từ U001 đến U020 thành các cặp so
sánh là mẫu dữ liệu như minh họa trong Bảng 3
Bảng 3. Danh sách các cặp người dùng thử nghiệm
U001
U002
...
U019
U020
U001
C1,1
...
U002
C1,2
C2,2
...
U003
C1,3
C2,3
…
...
...
...
U019
C1,19
C2,19
...
C9,19
U020
C1,20
C2,20
...
C9,20
C20,20
558 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG
Sau khi phân tích và loại bỏ các bớt các cặp trùng lặp, ví dụ C1,2 và C2,1, bài viết loại bỏ C2,1 chỉ để C1,2. Các
cặp C1,1 vẫn giữ nguyên. Bài viết thu được tổng cộng số lượng mẫu thử nghiệm ở Bảng 4.
Bảng 4. Bộ dữ liệu mẫu thu được
Người dùng
Số cặp người dùng so sánh
Số nhóm tham gia
Số lượng
20
210
21
3.2. Thực nghiệm
Kịch bản thực nghiệm được thực hiện theo 6 bước như sau:
Bước 1: Xây dựng bộ từ khóa của các nhóm mà người dùng đã tham gia dựa trên kỹ thuật N-gram, trích chọn
các từ khóa theo từ điển, loại bỏ từ dừng và tính TF-IDF của mỗi từ khóa thu được
Bước 2: Ước lượng độ tương tự của mỗi cặp người dùng theo TF-IDF thu được ở Bước 1
Bước 3: Xây dựng bộ từ khóa của các chủ đề theo từ điển, tách từ dừng và tính TF –IDF của chúng
Bước 4: Ước lượng độ tương tự của các nhóm của mỗi người dùng với mỗi chủ đề đã thu được
Bước 5: Ước lượng độ quan tâm tương tự của các cặp người dùng với mỗi chủ đề.
Thực hiện lần lượt với tất cả các nhóm của các cặp người dùng trong bộ dữ liệu thử nghiệm. Chi tiết các bước
thử nghiệm như sau: Đầu tiên, phân tích các bài viết thành các từ khóa, loại bỏ từ dừng, lấy định nghĩa các từ khóa theo
từ điển, phân tích lại và tính TF-IDF của mỗi từ khóa được minh họa trong Bảng 5 theo công thức (2).
Bảng 5. Phân tích một nhóm cộng đồng và danh sách từ khóa tương ứng
Tên (name)
Mơ tả (desc)
Mua bán trao đổi Kính thiên văn, Ống nhòm, linh kiện
Nơi trao đổi mua bán các loại Kính thiên văn, Ống nhịm, linh phụ kiện thiên văn cho
các bạn trong toàn quốc. Nhận trách nhiệm trung gian trao đổi các hàng hóa khi các
bạn ở xa cần xem hàng mới trả tiền. Danh sách nơi mua hàng uy tín, giá cả tốt tại Việt
Nam: Hội thiên văn
Loại (styl)
Mua và bán
mua bán, trao đổi, ống nhòm, linh kiện, kính thiên văn, phụ kiện, tồn quốc, trách nhiệm, trung gian,
hàng hóa, trả tiền, danh sách, mua hàng, uy tín, giá cả, Việt Nam, văn nghiệp, nghiệp dư, Hà Nội, cửa
hàng, thế giới
Một
nhóm
của
U011
Từ
khóa
Sau đó, tính độ tương tự giữa các nhóm dựa trên danh sách từ khóa thu được và trọng số TF-IDF. Ở bước thứ
hai các cặp nhóm của các người dùng được ước lượng độ tương tự bằng cosine của hai vec tơ chứa TF-IDF tương ứng
của chúng theo công thức (3).
Bảng 6. Độ tương tự hai nhóm theo TF-IDF
Tên
nhóm
Từ khóa
Mua bán trao đổi Kính thiên văn,
Ống nhòm, linh kiện
mua bán, trao đổi, ống nhòm, linh kiện,
kính thiên văn, phụ kiện, tồn quốc, trách
nhiệm, trung gian, hàng hóa, trả tiền, danh
sách, mua hàng, uy tín, giá cả, Việt Nam,
văn nghiệp, nghiệp dư, Hà Nội, cửa hàng,
thế giới
Group Tinh tế
tinh tế, anh em, nội dung, phù hợp, chính thức, diễn
đàn, khoa học, cơng nghệ, nghệ được, ưu tiên, một số,
như sau, quảng cáo, điện thoại, màn hình, đạo lý, vấn
đề, nhảm nhỉ, cô giáo, học sinh, khiếu nại, chữ hoa,
giải thích, quy định, áp dụng, phía trước, liên tục
Sau đó, bài báo phân tích định nghĩa của các chủ đề thành các từ khóa dựa trên kỹ thuật N-gram, loại bỏ từ dừng
và tính TF –IDF của chúng theo công thức (2). Cuối cùng, ước lượng độ tương tự của các nhóm của mỗi người dùng
với các chủ đề đã thu được minh họa trong Bảng 7.
Bảng 7. Độ quan tâm của người dùng theo chủ đề
U001
U003
U006
U007
U008
U010
…
Môi trường
0.0159
0.0357
0.0357
0.0349
0.0366
0.0429
…
Sức khỏe
0.0133
0.0259
0.0167
0.0218
0.0318
0.0262
…
Công nghệ
0.0400
0.0242
0.0264
0.0298
0.0210
0.0239
…
Du lịch
0.0293
0.0319
0.0095
0.0247
0.0170
0.0282
…
Giáo dục
0.0135
0.0338
0.0281
0.0269
0.0268
0.0
…
Hôn nhân
0.0482
0.0244
0.0
0.0229
0.1213
0.0274
…
Nguyễn Thị Hội, Trần Đình Quế
559
Độ quan tâm của người dùng đối với các chủ đề phổ biến trên các mạng xã hội được tính theo cơng thức (6).
Dựa trên Bảng 7 và công thức (8) để ước lượng độ tương tự quan tâm của người dùng theo các chủ đề dựa trên các
nhóm đã tham gia, bài báo lựa chọn ngưỡng
, , >=0.55. Những cặp người dùng nào không thỏa
mãn được ngưỡng này, bài báo coi là quan tâm ít tương tự nhau hay khác nhau theo các chủ đề trên mạng xã hội.
Bảng 8. Độ quan tâm tương tự dựa trên các nhóm/group
U001
U002
U003
…
U019
U020
U001
1.0
0.633
0.510
U002
U003
1.0
0.327
1.0
…
U019
U020
…
0.643
0.121
0.816
0.572
0.744
0.667
…
1.0
0.842
…
1.0
3.3. Đánh giá
Để đánh giá độ tương quan của công thức (4) và công thức (8), bài báo sử dụng giá trị trung bình độ lệch tuyệt
đối và giá trị trung bình độ lệch tương đối để tính tốn như sau:
Đánh giá theo trung bình độ lệch tuyệt đối và độ chính xác của mơ hình:
,
TB độ lệch tuyệt đối = TB của các |
−
,
,
|
(9)
Với kết quả từ thực nghiệm trong từ bộ mẫu dữ liệu thực nghiệm thì mơ hình đề xuất có trung bình độ lệch tuyệt
đối là: 0.118, khi đó, độ chính xác của mơ hình đề xuất được tính theo:
CR=(1- TB độ lệch tuyệt đối)*100% , và CR thu được là 88.2%
Đánh giá theo trung bình độ lệch tương đối:
TB độ lệch tương đối = TB của các
|
,
,
,
(
,
,
,
|
,
(10)
)
Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thực nghiệm thì mơ hình đề xuất có trung bình độ lệch tương
đối sẽ là: 0.148. Khi đó, độ chính xác của mơ hình đề xuất được tính theo:
CR =(1- TB độ lệch tương đối)*100% , và CR thu được có độ chính xác bằng 85.2%
Bảng 9. Đánh giá mơ hình và sự tương quan
Facebook
TB độ lệch tuyệt đối
TB độ lệch tương đối
0.118
0.148
CR theo độ lệch tuyệt đối CR theo độ lệch tương đối
88.2%
85.2%
IV. KẾT LUẬN
Bài báo đã đề xuất mơ hình ước lượng độ tương tự quan tâm của người dùng dựa trên các nhóm mà người dùng
đã tham gia trên các mạng xã hội. Mơ hình đề xuất có thể áp dụng trong việc phân loại người dùng trên các mạng xã
hội hoặc xác định quan tâm của người dùng theo các chủ đề ứng dụng trong các chương trình quảng cáo, các hệ thống
khuyến nghị người dùng, hoặc có thể ứng dụng trong các bài toán dự báo dựa trên quan tâm của người dùng trên các
mạng xã hội…
[1].
[2].
[3].
[4].
[5].
[6].
TÀI LIỆU THAM KHẢO
Attacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Ghosh Saptarshi, Gummadi Krishna P. Inferring
User Interests in the Twitter Social Network Proceedings of the 8th ACM Conference on Recommender Systems,
RecSys '14 pgs 357-360, ACM, New York, NY, USA.
Bruno Ohana and Brendan Tierney. Sentiment classification of reviews using sentiwordnet. 2009.
Chihli Hung and Hao-Kai Lin. Using objective words in sentiwordnet to improve word-of-mouth sentiment
classification. IEEE Intelligent Systems, 28(2):47–54, 2013.
D. Manning, Prabhakar Raghavan, Hinrich Schutze, 2008. Introduction to Information Retrieval. 27 Oct 2013.
Dekang Lin. An information-theoretic definition of similarity. In Proc. 15th International Conf. on Machine
Learning, pages 296–304. Morgan Kaufmann, San Francisco, CA, 1998.
Diana Palsetia, Md. Mostofa, Ali Patwary, Kunpeng Zhang , Kathy Lee, Christopher Moran, Yves Xie, Daniel
Honbo, Ankit Agrawal, Wei-keng Liao, Alok Choudhary. User-Interest based Community Extraction in Social
Networks ACM, NY, USA, 2012.
560 ƯỚC LƯỢNG TƯƠNG TỰ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI DỰA TRÊN NHÓM CỘNG ĐỒNG
[7]. Elie Raad, Richard Chbeir, and Albert Dipanda. User profile matching in social networks. In Proceedings of the
2010 13th International Conference on NetworkBased Information Systems, NBIS’10, pages 297–304,
Washington, DC, USA, 2010. IEEE Computer Society.
[8]. Li Xin, Guo Lei, Zhao Yihong Eric. Tag-based Social Interest Discovery. Proceedings of the 17th International
Conference on World Wide Web Beijing, China,pages 675- 684, ACM, New York, NY, USA.
[9]. Manh Hung Nguyen and Thi Hoi Nguyen. General model for similarity measurement between objects.
International Journal of Advanced Computer Science and Applications(IJACSA) 6(2):235-239, 2015.
[10]. Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế. Độ tương đồng ngữ nghĩa các bài viết trên mạng xã hội dựa
trên Wikipedia. Hội nghị Khoa học Quốc gia: Nghiên cứu cơ bản và ứng dụng CNTT lần 10 - FAIR'10.
Thg8/2017.
[11]. Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit Sheth. User Interests Identification on Twitter
Using a Hierarchical Knowledge Base 11th ESWC 2014 (ESWC2014), 2014, May.
[12]. Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou. Tag-Based Interest-Matching Users Discovery
Approach in Online Social Network. International Journal of Hybrid Information Technology Vol. 9, No. 5
(2016), pp. 61-70.
[13]. Sheetal A Takale, Sushma S Nandgaonkar. Measuring semantic similarity between words using web documents.
International Journal of Advanced Computer Science and Applications (IJACSA) Volume 1, Issue 4. 2010.
[14]. Nguyen T. H., Tran D. Q., Dam G. M., Nguyen M. H. (2018). Integrated Sentiment and Emotion into Estimating
the Similarity Among Entries on Social Network. In: Chen Y., Duong T. (eds) Industrial Networks and Intelligent
Systems. INISCOM 2017. Lecture Notes of the Institute for Computer Sciences, Social Informatics and
Telecommunications Engineering, vol 221. Springer, Cham.
[15]. W. B. Cavnar and J. M. Trenkle. N-gram-based text categorization. Ann Arbor MI, 48113(2):161–175, 1994.
[16]. Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai. Improving User Topic Interest Profiles by Behavior
Factorization 2015, Pages 1406-1416, ACM, New York, NY, USA.
[17]. Perelman L. C., Paradis J., Barrett E.. Mayfield Handbook of Technical and Scientific Writing, Mayfield,
Mountain View, California (1997).
ESTIMATING USER’S INTEREST ON SOCIAL NETWORKS BASED ON GROUPS
Nguyen Thi Hoi, Tran Dinh Que
ABSTRACT: Discovering interests of users on social networks is one of the issues attracting many researches and being applied to
various fields, such as user recommendations, personalized ads, or categorizing users into groups. In this paper, we propose an
approach based on the analysis of user’s groups on social networks to detect and compare the correlations of interest of two users
on the network. Our proposal is also empirically evaluated with the real data. The evaluation shows that the more same bahaviors
two users have, the more similar interests they have. And vice versa, if two users have similar interests, their entries are the same.