Deep learning for sentiment analysis

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 30 trang )

Deep Learning in Sentiment Analysis
Phan Minh Tồn

Abstract
Phân tích cảm xúc (Sentiment Analysis - còn
được gọi là khai thác ý kiến) là một lĩnh vực
tìm kiếm tích cực trong xử lý ngơn ngữ tự
nhiên. Nhiệm vụ nhằm xác định, trích xuất
và sắp xếp các cảm xúc từ các văn bản do
người dùng tạo trong các mạng xã hội, blog
hoặc các bài đánh giá sản phẩm. Trong hai
thập kỷ qua, nhiều nghiên cứu trong tài liệu
đã khai thác các phương pháp tiếp cận máy
học để giải quyết các nhiệm vụ phân tích tình
cảm từ các khía cạnh khác nhau. Vì hiệu suất
của người học máy phụ thuộc nhiều vào các
lựa chọn biểu diễn dữ liệu, nhiều nghiên cứu
dành để xây dựng trình trích xuất tính năng
mạnh mẽ với chun mơn về miền và kỹ
thuật cẩn thận. Gần đây, các phương pháp
học sâu nổi lên như những mơ hình tính tốn
mạnh mẽ giúp khám phá các bản tái hiện ngữ
nghĩa phức tạp của văn bản một cách tự động
từ dữ liệu mà không cần kỹ thuật tính năng.
Những cách tiếp cận này đã cải thiện tình
trạng của nghệ thuật trong nhiều nhiệm vụ
phân tích tình cảm, bao gồm phân loại tình
cảm, trích xuất ý kiến, phân tích tình cảm chi
tiết, v.v.

1 Introduction

Phân tích cảm xúc (còn được gọi là khai thác ý
kiến) là một lĩnh vực tự động phân tích ý kiến, tình
cảm, cảm xúc của mọi người từ các văn bản do
người dùng tạo (Pang và cộng sự 2008; Liu 2012).
Phân tích cảm xúc là một lĩnh vực nghiên cứu
rất tích cực trong xử lý ngôn ngữ tự nhiên (Manning
và cộng sự 1999; Jurafsky 2000), và cũng được
nghiên cứu rộng rãi trong khai thác dữ liệu, khai

thác web và phân tích truyền thơng xã hội vì cảm
xúc là yếu tố ảnh hưởng chính đến hành vi của con
người.
Với sự phát triển nhanh chóng của các phương
tiện truyền thơng xã hội như Twitter, Facebook và
các trang web đánh giá như IMDB, Amazon, Yelp,
phân tích tình cảm thu hút sự chú ý ngày càng tăng
từ cả cộng đồng nghiên cứu và ngành (Bảng 1).

Mục tiêu

Sentiment

Người
đưa ra
ý kiến
Alice

Thời điểm
đưa ra ý
kiến

04/06/2015

iPhone
tích cực
Màn hình
tích cực
Alice 04/06/2015
cảm ứng
Giá
tiêu cực
Alice 04/06/2015
Bảng 1: Một ví dụ minh họa cho định nghĩa của
tình cảm.
Theo định nghĩa từ (Liu 2012), tình cảm (hoặc
một ý kiến) được biểu thị dưới dạng ngũ phân e, a,
s, h, t, trong đó e là tên của một thực thể, a là khía
cạnh của e, s là tình cảm trên khía cạnh a của thực
thể e, h là người có ý kiến và t là thời điểm mà ý
kiến được thể hiện bởi h.
Theo định nghĩa này, tình cảm có thể là tình cảm
tích cực (positive), tiêu cực (negative) hoặc trung
lập (neutral) hoặc điểm số xếp hạng thể hiện độ
mạnh / cường độ của tình cảm (ví dụ: 1–5 sao) trên
các trang web đánh giá như Yelp và Amazon. Thực
thể có thể là một sản phẩm, dịch vụ, tổ chức chủ đề
hoặc sự kiện (Hu và Liu 2004; Deng và Wiebe
2015).
Một ví dụ để giải thích định nghĩa của
"sentiment". Giả sử một người dùng có tên Alice đã
đăng một bài đánh giá “Tôi đã mua một chiếc

iPhone cách đây vài ngày. Đó là một chiếc điện
thoại đẹp. Màn hình cảm ứng thực sự rất tuyệt. Tuy

nhiên giá hơi cao một chút.” vào ngày 4 tháng 6
năm 2015.
Ba loại sentiment có liên quan trong ví dụ này,
như được trình bày trong Bảng 1.
Dựa trên định nghĩa của "sentiment", sentiment
analysis nhằm mục đích khám phá tất cả các nhóm
sentiment trong một tài liệu. Các nhiệm vụ phân
tích cảm xúc được bắt nguồn từ năm thành phần của
sentiment.
Ví dụ, phân loại cảm xúc ở cấp độ tài liệu / câu
(Pang và cộng sự 2002; Turney 2002) nhắm vào
thành phần thứ ba (sentiment như là positive,
negative và neutral) trong khi bỏ qua các khía cạnh
khác. Việc trích xuất ý kiến chi tiết tập trung vào
bốn thành phần đầu tiên của bài tốn sentiment.
Phân loại tình cảm phụ thuộc vào mục tiêu tập trung
vào khía cạnh thứ hai và thứ ba.
Trong hai thập kỷ qua, các phương pháp dựa
trên học máy đã thống trị hầu hết các nhiệm vụ phân
tích cảm xúc. Vì biểu diễn tính năng ảnh hưởng lớn
đến hiệu suất của người học máy (LeCun và cộng
sự 2015; Goodfellow và cộng sự 2016), rất nhiều
nghiên cứu trong tài liệu tập trung vào các tính năng
hiệu quả cùng với chuyên môn về domain và kỹ
thuật cẩn thận. Nhưng điều này có thể tránh được
bằng các thuật tốn học biểu diễn, thuật toán này tự

động khám phá các biểu diễn văn bản giải thích và
phân biệt từ dữ liệu.
Học sâu là một loại phương pháp tiếp cận học
đại diện, học nhiều cấp độ biểu diễn với mạng nơron phi tuyến, mỗi cấp độ biến đổi biểu diễn ở một
cấp độ thành biểu diễn ở cấp độ cao hơn và trừu
tượng hơn. Các biểu diễn đã học có thể được sử
dụng một cách tự nhiên như đặc trưng và áp dụng
cho các nhiệm vụ phát hiện hoặc phân loại.
Tác giả sẽ giới thiệu các thuật tốn học sâu thành
cơng để phân tích cảm xúc. Ký hiệu “Deep
learning” trong chương này là viết tắt của việc sử
dụng các phương pháp tiếp cận mạng nơ-ron để học
các đặc trưng/biểu diễn văn bản liên tục và có giá
trị thực một cách tự động từ dữ liệu.
Phần trình bày sẽ được thể hiện theo thứ sau:

• Vì từ là đơn vị tính tốn cơ bản của ngôn
ngữ tự nhiên, trước tiên sẽ mô tả các
phương pháp để học lặp lại từ liên tục
(continuous word representation), cịn
được gọi là word embedding. Các word
embedding này có thể được sử dụng làm
đầu vào cho các nhiệm vụ phân tích cảm
xúc (sentiment analysis task) sau.
• Tiếp theo là trình bày các phương pháp
cấu tạo ngữ nghĩa tính tốn các biểu diễn
của các biểu thức dài hơn (ví dụ: câu hoặc
văn bản) cho nhiệm vụ phân loại cảm xúc
ở cấp độ câu / tài liệu (Socher và cộng sự
2013; Li và cộng sự 2015; Kalchbrenner

và cộng sự 2014).
• Sau đó bằng các mơ hình tuần tự thần
kinh (neural squential models) để trích
xuất ý kiến chi tiết.
• Cuối cùng tổng kết và kết luận bài báo
này và đưa ra một số hướng đi trong
tương lai.
2 Sentiment-Specific Word Embedding
Biểu diễn từ hay cịn gọi là word representation
nhằm mục đích biểu diễn các khía cạnh của từ nghĩa
từ. Một cách đơn giản là mã hóa một từ dưới dạng
one hot vector. Nó có cùng độ dài với kích thước
của từ vựng và chỉ có một chiều là 1, với tất cả các
chiều khác là 0. Tuy nhiên, cách biểu diễn một từ
theo dạng one hot word chỉ mã hóa các chỉ số của
từ trong tập từ vựng, với cách biểu diễn này sẽ
không thể hiện được thông tin cũng như mối quan
hệ về cấu trúc của các từ trong từ điển.
Và ta có một cách tiếp cận khác cũng khá phổ
biến là khám phá sự giống nhau giữa các từ là bằng
cách học thông tin của các cụm từ (Brown và cộng
sự 1992; Baker và McCallum 1998).
Mỗi từ thường được liên kết với một lớp rời rạc,
và các từ trong cùng một lớp tương tự nhau về một
mặt nào đó. Điều này giúp cho cách biểu diễn dạng
one-hot trên kích thước từ vựng nhỏ hơn. Thay vì
mơ tả sự tương tự với một biến rời rạc dựa trên kết

quả phân cụm tương ứng với phân vùng mềm hoặc

cứng của tập hợp các từ, nhiều nhà nghiên cứu
nhắm mục tiêu vào việc học một vectơ liên tục và
có giá trị thực cho mỗi từ, còn được gọi là nhúng từ
(Word Embedding).
Các thuật toán embedding learning hiện tại
thường dựa trên giả thuyết phân phối (Harris 1954),
trong đó nói rằng các từ trong ngữ cảnh tương tự có
nghĩa tương tự. Dựa trên ý tưởng này, nhiều
phương pháp phân tích nhân tử ma trận có thể được
xem như mơ hình hóa các biểu diễn từ. Ví dụ:
phương pháp lập chỉ mục ngữ nghĩa tiềm ẩn hay
còn gọi là Latent Semantic Indexing (LSI)
(Deerwester và cộng sự 1990) có thể được coi là
học cách linear embedding với mục tiêu tái tạo, sử
dụng ma trận “term-document” thống kê từ xuất
hiện, ví dụ: mỗi hàng là viết tắt của một từ hoặc
thuật ngữ và mỗi cột tương ứng với một tài liệu
riêng lẻ trong kho ngữ liệu. Hyperspace Analogue
to Language (Lund và Burgess 1996) sử dụng ma
trận thống kê số từ cùng xuất hiện, trong đó cả hàng
và cột tương ứng với các từ và các mục nhập đại
diện cho số lần một từ nhất định xuất hiện trong ngữ
cảnh của một từ khác.
Hellinger PCA (Lebret và cộng sự 2013) cũng
tìm hiểu cách word embedding qua thống kê đồng
xuất hiện "term-term". Vì các phương pháp phân
tích nhân tử của ma trận tiêu chuẩn hay gọi là
matrix factorization không kết hợp thông tin cụ thể
về nhiệm vụ thực hiện của task, nên không đủ hiệu
quả để biểu diễn thông. Supervised Senmentic

Indexing (Bai và cộng sự 2010) giải quyết vấn đề
này và xem xét thông tin cụ thể của riêng
supervised task (ví dụ: Truy xuất thơng tin). Họ học
mơ hình embedding của dữ liệu thơng qua margin
rank loss. DSSM (Huang và cộng sự 2013; Shen và
cộng sự 2014) cũng đưa ra mơ hình học text
embedding với nhiệm vụ cụ thể kết hợp week
supervised trong bài toán truy xuất thơng tin (IR).
Một cơng trình tiên phong khám phá các phương
pháp tiếp cận mạng nơ-ron được đưa ra bởi (Bengio
và cộng sự 2003), giới thiệu một mơ hình ngơn ngữ
xác suất thần kinh học hay còn gọi là neural

probabilitistic language model đưa ra cách một biểu
diễn liên tục cho các từ và một hàm xác suất cho
các chuỗi từ dựa trên các biểu diễn từ này. Cho một
từ và các từ ngữ cảnh đứng trước nó, thuật tốn đầu
tiên ánh xạ tất cả các từ này thành các vectơ liên tục
với một bảng tra cứu (lookup table) được chia sẻ.
Sau đó, các vectơ từ được đưa vào một mạng nơron chuyển tiếp với softmax làm lớp đầu ra để dự
đoán xác suất có điều kiện của từ tiếp theo. Các
tham số của mạng nơ-ron và bảng tra cứu được ước
tính chung với sự lan truyền ngược.
Theo Bengio và cộng sự (2003) đề xuất một số
phương pháp tiếp cận nhằm tăng tốc độ xử lý
training hoặc nắm bắt thông tin ngữ nghĩa phong
phú hơn.
Bengio và cộng sự (2003) giới thiệu một kiến
trúc thần kinh bằng cách nối các vectơ của từ ngữ
cảnh và từ hiện tại, và sử dụng importance sampling

để tối ưu hóa mơ hình một cách hiệu quả với
“positive samples” và “negative samples” được
quan sát.
Morin và Bengio (2005) phát triển hàm softmax
theo dạng phân cấp để phân rã xác suất có điều kiện
với cây nhị phân phân cấp.
Mnih và Hinton (2007) giới thiệu mơ hình ngơn
ngữ log- bilinear.
Collobert và Weston (2008) huấn luyện mơ hình
wording embedding với hàm ranking-type hinge
loss bằng cách thay thế từ ở giữa trong cửa sổ bằng
từ được chọn ngẫu nhiên.
Mikolov và cộng sự (2013a, b) giới thiệu túi từ
liên tục (CBOW) hay còn gọi là continous bag-ofword và continous skip-gram, đồng thời đưa ra mơ
hình word2vec khá phổ biến. Mơ hình CBOW dự
đốn từ hiện tại dựa trên việc embeddings ngữ cảnh
của nó và mơ hình skip-gram dự đốn các từ xung
quanh khi embedding từ hiện tại.
Mnih và Kavukcuoglu (2013) đẩy nhanh quy
trình wording embedding với phương pháp Noise
Contrastive Estimation (Gutmann và Hyvärinen
2012).
Ngoài ra cịn có nhiều thuật tốn được phát triển
để thu thập thông tin ngữ nghĩa phong phú hơn như:

• Bao gồm thơng tin tài liệu tồn cầu –
global document information (Huang và
cộng sự 2012).
• Word morphemes (Qiu và cộng sự 2014).

• Ngữ cảnh dựa trên phụ thuộc hay gọi là
dependency-based contexts (Levy và
Goldberg 2014).
• Từ đồng sự xuất hiện word-wor coocccurence (Levy và Goldberg 2014).
• Phần tích khía cạnh của các từ không rõ
ràng hay gọi là sence of ambiguous
words (Li và Jurafsky 2015).
• Phân tích thơng tin từ vựng ngữ nghĩa
hay gọi là semantic lexical infor-mation
trong WordNet (Faruqui và cộng sự
2014).
• Phân tích quan hệ thứ bậc giữa các từ
(Yogatama và cộng sự 2015).
Các thuật toán mạng nơ-ron nói trên thường chỉ
sử dụng các ngữ cảnh của từ để học cách biểu diễn
word embedding.
Kết quả là, các từ có ngữ cảnh tương tự nhưng
phân cực cảm xúc trái ngược nhau như “good” và
“bad” được ánh xạ thành các vectơ gần trong khơng
gian emdedding. Điều này có ý nghĩa đối với một
số tác vụ như gắn thẻ POS vì hai từ có cách sử dụng
và vai trị ngữ pháp tương tự nhau, nhưng điều này
có vấn đề đối với khi phân tích theo khía cạnh tình
cảm là "good" và "bad" có thái cực tình cảm trái
ngược nhau. Để học cách biểu diễn như vậy thì
word embedding được thiết kế riêng cho các nhiệm
vụ phân tích cảm xúc (sentiment analysis task), một
số nghiên cứu mã hóa sentiment của văn bản trong
biểu diễn từ liên tục.
Maas và cộng sự (2011) giới thiệu một mơ hình

chủ đề xác suất bằng cách suy ra cực của một câu
dựa trên việc nhúng mỗi từ mà nó chứa.
Labutov và Lipson (2013) đã thực hiện embed
lại một word embedding hiện có với mơ hình hồi

quy logistic bằng tận dụng thông tin suppervied liên
quan đến phân tích sentiment các câu như một
nhiệm vụ.
Tang và cộng sự (2014) mở rộng mơ hình C&W
và phát triển ba mạng nơ-ron để học cách
embedding word cụ thể theo sentiment từ các tweet.
Tang và cộng sự (2014) sử dụng các tweet có
chứa biểu tượng cảm xúc tích cực và tiêu cực làm
dữ liệu để huấn luyện. Các tín hiệu biểu tượng cảm
xúc tích cực và tiêu cực được coi là week sentiment
suppervision.
Tác giả mô tả hai phương pháp tiếp cận theo
sentiment cụ thể là kết hợp phân tích sentiment của
các giai đoạn để học cách word embedding.
Mơ hình của Tang và cộng sự (2016c) mở rộng
mơ hình dựa trên ngữ cảnh của Collobert và
Weston (2008), và mơ hình của Tang và cộng sự
(2016a) mở rộng mơ hình dựa trên bối cảnh của
Mikolov và cộng sự (2013b).
Ý tưởng cơ bản của mô hình dựa trên ngữ cảnh
(Collobert và Weston 2008) là gán cho một cặp từ
ngữ cảnh thực (wi, hi) một điểm số cao hơn một
một điểm nhiễu (wn, hi) bởi 1 margin. Mơ hình
được học để tối thiếu hóa hàm loss hinge, trong đó
T là kho dữ liệu đào tạo thì hàm loss sẽ có dạng:

𝑙𝑜𝑠𝑠 =

∑

𝑚𝑎𝑥(0, 1 − 𝑓𝜃 (𝑤𝑖 , ℎ𝑖 )

(𝑤𝑖 ,ℎ𝑖 )∈𝑇

+ 𝑓𝜃 (𝑤 𝑛 , ℎ𝑖 )) .
Hàm scoring 𝑓𝜃 (𝑤, ℎ) đạt được với một mạng
nơron chuyển tiếp. Với giá trị đầu vào kết hợp
thông của từ hiện tại wi và thông tin ngữ cảnh của
từ hi, và giá trị đầu ra của của mạng là sẽ là 1 lớp
tuyến tính với 1 node đại diện cho sự tương tích
giữa w, h. Trong q trình huấn luyện thì 1 điểm
(1)
nhiễu 𝑤 𝑛 sẽ được chọn ngẫu nhiên trong tập từ
vựng.
Ý tưởng cơ bản về phương pháp tiếp cận
sentiment cụ thể của Tang và cộng sự (2014) là nếu
gold sentiment của một chuỗi từ là positive, thì
positive score được dự đốn phải cao hơn negative
score. Tương tự như vậy, nếu gold sentiment phân

cực của một chuỗi từ là negative, thì positive score
của nó phải nhỏ hơn negative score.
Ví dụ: nếu một chuỗi từ được liên kết với hai
𝑟𝑎𝑛𝑘 , 𝑓 𝑟𝑎𝑛𝑘 ], với các giá trị [0.7, 0.1] có thể
điểm [𝑓𝑝𝑜𝑠

𝑛𝑒𝑔

được hiểu là positive case vì positive score là 0.7
lớn hơn negative score là 0.1. Bằng cách tương tự
đó, đối với kết quả [-0.2, 0.6] thì sẽ là negative case.
Mơ hình xếp hạng dựa trên mạng nơ-ron được
đưa ra trong Hình 1b, có một số điểm tương đồng
với (Collobert và Weston 2008). Như được minh
họa, mơ hình xếp hạng là một mạng nơ-ron truyền
về thẳng bao gồm bốn lớp (lookup→ linear →
hTanh → linear). Giá trị vectơ đầu ra của mơ hình
xếp hạng là thứ hạng 𝑓 𝑟𝑎𝑛𝑘 , trong đó C = 2 cho phân
loại binary positive và binary negative.
Hàm loss margin ranking dùng huấn luyến cho
mơ hình được mơ tả như bên dưới:
𝑇

𝑙𝑜𝑠𝑠 = ∑ max (0,1 − 𝛿𝑠 (𝑡)𝑓0𝑟𝑎𝑛𝑘 (𝑡)

1,
𝛿𝑠 (𝑡) = {
−1,

𝑓 𝑔 (𝑡) = [1, 0]
𝑓 𝑔 (𝑡) = [0, 1]

Với một ý tưởng tương tự, một phần mở rộng
của mơ hình skip-gram (Mikolov và cộng sự
2013b) được phát triển để học cách embedding
(3)

words theo sentiment cụ thể. Cho trước 1 từ 𝑤𝑖 , mơ
hình skip-gram ánh xạ nó thành biễu diễn liên tục
𝑒𝑖 để dự báo thông ngữ cảnh của từ 𝑤𝑖 , cụ thể là
𝑤𝑖−2 , 𝑤𝑖−1 , 𝑤𝑖+1 , 𝑤𝑖+2 . Hàm mục tiêu của mơ hình
skip-gram là tối đa hóa trung bình trị phân phối log:
𝑇

𝑓𝑆𝐺

1
= ∑
𝑇

∑

𝑙𝑜𝑔 𝑝(𝑤𝑖+𝑗 |𝑒𝑖 ).

𝑖=1 −𝑐≤𝑗≤𝑐,𝑗≠0

Trong đó T là sự xuất hiện của mỗi cụm từ trong
kho ngữ liệu, c là kích thước cửa sổ, 𝑒𝑖 là embedding của cụm từ hiện tại 𝑤𝑖 , 𝑤𝑖+𝑗 là các từ ngữ
(4)
cảnh của 𝑤𝑖 , 𝑝(𝑤𝑖+𝑗 |𝑒𝑖 ) được tính theo hàm

𝑡

softmax.
Mơ hình sentiment-specific được đưa ra trong

+ 𝛿𝑠 (𝑡)𝑓1𝑟𝑎𝑛𝑘 (𝑡)).

(2)

Hình 1. Mở rộng trên mơ hình dựa trên xếp hạng để học cách embedding words theo sentiment cụ
thể.
Trong đó T là training corpus, 𝑓0𝑟𝑎𝑛𝑘 là positive

Hình 2b. Với bộ ba 〈𝑤𝑖 , 𝑠𝑗 , 𝑝𝑜𝑙𝑗 〉 làm đầu vào,

score được dự đoán, 𝑓0𝑟𝑎𝑛𝑘 là negative score được
dự đoán, 𝛿𝑠 (𝑡) là một hàm chỉ báo phản ánh thái
cực gold sentiment (positive hoặc negative) của
một câu.

trong đó 𝑤𝑖 là một cụm từ có trong câu 𝑠𝑗 có gold

Hình 2. Mở rộng trên mơ hình skip-gram để học embedding word theo sentiment cụ thể.

Hình 3. Các cách khác nhau để học cách embedding word theo sentiment cụ thể (a) và mở rộng kết
hợp thông tin chủ đề của văn bản (b).
sentiment polarity là 𝑝𝑜𝑙𝑗 , mục tiêu của việc huấn
luyện là không chỉ sử dụng việc embedding thông
của 𝑤𝑖 để dự đốn các từ ngữ cảnh của nó mà còn
để sử dụng biểu diễn câu 𝑠𝑒𝑗 để dự đoán gold
sentiment polarity của 𝑠𝑗 , cụ thể là 𝑝𝑜𝑙𝑗 . Vectơ câu
được tính bằng cách lấy trung bình các embedding
của từ trong một câu. Hàm mục tiêu là tối đa hóa
trọng số trung bình của hàm lỗi ở dưới đây:
𝑇

1
𝑓 =𝛼∙ ∑
𝑇

∑

𝑙𝑜𝑔 𝑝(𝑤𝑖+𝑗 |𝑒𝑖 )

𝑖=1 −𝑐≤𝑗≤𝑐,𝑗≠0

positive và negative thì phân phối của positive là từ
[0, 1] là dương và của negative [0, 1].
Có nhiều cách khác nhau để hướng dẫn q trình
học embedding với thơng tin sentiment của văn
bản. Ví dụ, mơ hình của Tang và cộng sự (2014)
mở rộng mơ hình xếp hạng của Collobert và
Weston (2008) và sử dụng vectơ ẩn (hidden vector) của văn bản để dự đoán nhãn cảm xúc.
Ren và cộng sự (2016b) mở rộng SSWE và dự
đoán thêm về phân phối chủ đề của văn bản dựa
trên n-gam đầu vào. Hai cách tiếp cận này được đưa
ra trong Hình 3.

𝑆

1
+ (1 − 𝛼)). ∑ 𝑙𝑜𝑔 𝑝(𝑝𝑜𝑙𝑗 |𝑠𝑒𝑗 ).
𝑆
𝑗=1
(5)

Trong đó S là sự xuất hiện của mỗi câu trong
ngữ liệu, α trọng số ngữ cảnh và các phần tình cảm,
∑𝑘 𝑝𝑜𝑙𝑗𝑘 = 1. Đối với phân loại nhị phân giữa

3 Sentence-level Sentiment Classification
Sentence-level sentiment analysis tập trung vào
việc phân lớp các hướng ý kiến (sentiment
polarities) của một câu cho trước. Thông thường,
chúng ta chia các hướng ý kiến thành 2 hoặc 3 loại.
Trong đó + đại diện cho hướng ý kiến tích cực, -

đại diện cho hướng tiêu cực và 0 là trung lập
(neutral).
Khi vận dụng Neural Networks, sentence-level
sentiment analysis có thể được mơ hình thành một
bài tốn có 2 bước (a two-phase framwork). Bước
đầu tiên là biểu diễn câu (sentence representation)
thông qua việc sử dụng các câu trúc nơ-ron tân tiến
(sophisticated neural structures), và bước cịn lại là
phân lớp mà ở đó có thể được giải bằng một hàm
softmax (Hình 4).

Hình 4. Framework của sentiment classification.
Về cơ bản, khi sử dụng word embedding để biểu
diễn các từ, chúng ta có thể sử dụng các phương
pháp pooling để có được một biểu diễn đơn giản
cho một câu. Một hàm pooling có thể bắt được các
đặc trưng nổi bật của một chuỗi đầu vào với chiều
dài không cố định.

Tang và cộng sự (2004) vận dụng 3 phương
pháp pooling để kiểm chứng sentiment-encoded
word embeddings mà họ đề xuất. Đây chỉ là một ví
dụ đơn giản của việc biểu diễn câu. Trong thực tế,
nhiều tiến bộ trong biểu diễn câu cho bài toán
sentence classification đã vượt qua phương pháp
trên. Một số cấu trúc Neural Networks tiên tiến đã
đã được đề xuất. Nói chung lại, các nghiên cứu liên
quan có thể được chia làm 4 loại:

(1) Convolutional netral networks.
(2) Recurrent neural networks.
(3) Recursive neral networks.

(4) Enhanced sentence representation by
auxilary resources.
3.1 Convolutional Neural Networks
Khi sử dụng các phương pháp pooling để tạo ra
biểu diễn cho câu, chúng ta chỉ có thể lấy được các
đặc trưng của từ (word-level features). Điều này có
nghĩa là khi thứ tự của từ trong câu thay đổi, kết
quả biểu diễn của câu không thay đổi. Trong các
mơ hình thống kê cổ điển, n-gram word feature
được vận dụng để cải thiện vấn đề trên và hiệu xuất
của bài tốn đã được cải thiện. Cịn đối với các mơ
hình Neural Networks, một tầng convolution có thể
được khai thác để đạt được kết quả tương tự.
Nói một cách chi tiết, một tầng convolution thực
hiện các biến đổi phi tuyến tính thơng qua việc
duyệt chuỗi đầu vào với một filter cục bộ có kích

thước cố định (a fixed-size local filter).
Thông thường, convolutional neural networks
(CNN) là một loại network mà nó tích lợp một tầng
convolution và một tầng pooling lại với nhau và
CNN đã được nghiên cứu rộng rãi cho bài tốn
sentence-level sentiment classification (Hình 5).

Hình 5. Framework của CNN.
Nghiên cứu đầu tiên được thực hiện thông qua
việc trực tiếp áp dụng một mạng CNN chuẩn bởi
Collobert và cộng sự (2011). Nghiên cứu trên đạt
được biểu diễn câu thông qua việc sử dụng một tầng

convolution trên một chuỗi của các word
embeddings đầu vào, và tiếp tục sử dụng một tầng
max pooling trên các hidden vectors đạt được.
Kalchbrenner và cộng sự (2014) mở rộng mạng
CNN chuẩn để đạt được biểu diễn câu tốt hơn ở 2
phương diện. Đầu tiên, họ sử dụng dynamic k-max
pooling, trong đó top-k giá trị được giữ lại trong lúc
vận dụng pooling thay vì chỉ có một giá trị cho mỗi
chiều trong tầng max pool đơn giản. Giá trị của k
được định nghĩa một cách linh động dựa vào chiều
dài của câu. Tiếp theo đó, họ mở rộng mạng số
lượng tầng của mạng CNN, sử dụng nhiều cầu trúc
mạng CNN, việc này dựa vào một nhận định
(intuition) là Neural Networks sâu hơn có thể bắt
được nhiều đặc trưng hơn (Hình 6).
Hình 7. Mơ hình phi tuyến, gián đoạn tích chập.

Hình 6. Multilayer CNNs.
Một vài biến thể của CNN đã được nghiên cứu
để đạt được những biểu diễn câu tốt hơn. Trong đó
nổi bật nhất là thao tác phi tuyến, gián đoạn tích
chập được đề xuất bởi Lei và cộng sự (2015) (Hình
7).

Ý tưởng này nhắm đến việc chiết xuất tất cả kết
hợp của n-word thơng qua tensor algebra, việc các
từ có liên tiếp (consecutive) hay khơng là khơng
quan trọng. Q trình này được thực hiện lặp, một
từ, hai từ và rồi kết hợp 3 từ tương ứng như vậy. Họ
chiết xuất tất cả các đặc trưng unigram, bigram và
trigram.
Một số nghiên cứu khác tập trung vào các word
embeddings đầu vào không đồng nhất. Ví dụ, Kim
(2014) thực hiện nghiên cứu 3 phương pháp khác
nhau cho việc sử dụng word embedding. Tác giả sử
dụng 2 loại embeddings, một embedding loại khởi
tạo ngẫu nhiên và một pretrained embedding, và
cho phép tham số của các embeddings được thay
đổi trong quá trình huấn luyện. Cuối cùng, họ kết
hợp 2 loại embeddings và đề xuất các mạng CNN
đa kênh dựa trên word embeddings khơng đồng
nhất (Hình 8).

Hình 8. Multichannel CNNs.
Sau đó nghiên cứu trên được mở rộng bởi Yin

và Schütze (2015), họ sử dụng nhiều loại word
embeddings cho các CNNs đa kênh. Và thêm vào
đó họ khai thác các kỹ thuật mở rộng cho
pretraining việc khởi tạo các trọng số của mơ hình.
Tuy nhiên, một phiên bản đơn giản hơn được trình
bài bởi Zhang và cộng sự (2016d), với một hiệu
xuất tốt hơn.
Một mở rộng của các word embedings là cải
thiện việc biểu diễn từ thông qua đặc trưng ở mức
ký tự (character-level features). Mạng Neural
Network được để xây dựng biểu diễn của từ dựa
trên chuỗi ký tự đầu sử dụng cùng ý tưởng với việc
xây dựng biểu diễn của câu từ chuỗi các từ đầu vào.
Vì vậy chúng ta cũng có thể áp dụng một cấu trúc
mạng CNN chuẩn lên chuỗi các character
embedding để có được các biểu diễn từ. dos Santos
và Gatti (2014) đã nghiên cứu sự hiệu quả của việc
mở rộng này. Các biểu diễn từ được nối với nhau
với những word embeddings ban đầu vì thế có thể
cải thiện được các biểu diễn từ cuối cùng để mã hóa
câu (Hình 9).

Hình 9. Biểu diễn từ thông qua đặc trưng ở mức
ký tự.

3.2 Recurrent Neural Networks
Các cấu trúc của mạng CNN sử dụng một cửa sổ từ
với kích thước cố định (a fixed-size of word
window) để bắt các đặc trưng kết hợp xung quanh
một vị trí cho trước, lưu trữ lại những thơng tin tiềm

năng. Tuy nhiên, nó bỏ qua các đặc trưng xa (longdistance feature) mà những đặc trưng lại phản ánh
thông tin về ngữ nghĩa, do đó những đặc trưng này
đặc biệt quan trọng trong việc giải mã các câu của
ngôn ngữ tự nhiên. Những đặc trưng phụ thuộc này
được giải quyết thông qua mạng RNN, và đã cho ra
kết quả tốt. Nói một cách cụ thể, một mạng RNN
chuẩn tính toán các hidden output một cách tuần tự.
Wang và cộng sự (2015) đề xuất nghiên cứu đầu
tiên trong việc sử dụng mạng LSTM cho bài toán
tweet sentiment analysis. Đầu tiên họ áp dụng một
mạng RNN chuẩn trên một chuỗi các embedding
đầu vào. Sau đó các tác giả thay thế RNN bằng
LSTM-RNN, bởi vì mạng RNN chuẩn có thể sẽ bị
tác động bởi vấn đề gradient explosion và diminish,
cịn LSTM thì tốt hơn nhiều bằng cách sử dụng 3
cổng và một memory cell để kết nối các vectors đầu
vào và đầu ra. Chi tiết tại Hình 10.

Hình 10. Sentence representation bằng mạng RNN.
Tiếp theo đó, Teng và cộng sự (2016) mở rộng
giải thuật trên ở 2 điểm (Hình 11). Đầu tiên, họ
dùng bidirectional LSMT thay vì một left-to-right
LSTM độc lập. Bi-LSTM có thể biểu diễn một câu
hồn thiện hơn, mà ở đó mỗi hidden output của mỗi
điểm có thể có liên kết với cả những từ phía trước
và phía sau của nó. Thứ hai là họ mơ hình bài tốn
sentence-levlel sentiment classification như một
vấn đề học có câu trúc (structural learning
problem), việc dự đốn hướng (polarities) cho tất

cả các từ có ngữ nghĩa trong một câu và kết nối
chúng lại với nhau để tạo thành minh chứng để xác
định xu hướng ngữ nghĩa (sentiment polarity).
Thông qua việc sử dụng biderectional LSTM, mơ
hình của họ có thể kết hợp một cách hiệu quả các
từ vựng (lexicons) được sử dụng rộng rãi trong các
mơ hình thống kê truyền thống.

dependencies). Vì thế một ý tưởng rõ ràng là kết
hợp chúng lại với nhau, để có được lợi thế của cả 2
mơ hình học. Zhang và cộng sự (2016c) đề xuất một
mơ hình dependency-sensitive CNN, mà ở đó nó
kết hợp của LSTM và CNN, tạo nên một cấu trúc
mạng CNN cũng có khả năng bắt các phụ thuộc ở
xa (Hình 12). Cụ thể là đầu tiên họ xây dựng một
left-to-right LSTM trên các word embedding đầu
vào, và rồi một mạng CNN được xây dựng trên các
hidden outputs của mạng LSTM. Vì thế mơ hình
cuối cùng có thể tận dụng hồn toàn cả các đặc
trưng cục bộ và các đặc trưng tồn cục.

Hình 11. Framework của Teng và cộng sự (2016).
CNN và RNN mơ hình hóa các câu văn trong
ngơn ngữ tự nhiên bằng những cách hồn tồn
khác. Ví dụ, CNN có thể bắt được các đặc trưng kết
hợp cục bộ tốt hơn, cịn RNN thì hiệu quả trong
việc học các đặc trưng xa (long-distance

Hình 12. Sự kết hợp giữa RNN và CNN.

3.3 Recursive Neural Networks
Recursive neural network được đề xuất để mơ hình
các đầu vào có cấu trúc dạng cây được sinh ra bởi
các bộ tách ngữ pháp. Socher và cộng sự (2012)
trình bài một recursive matrix-vector neural
network để kết hợp 2 nút lá để tạo ra biểu diễn của
nút cha. Bằng cách này việc biểu diễn câu được xây
dựng một cách lặp lại từ dưới lên (bottom to up).
Đầu tiên họ tiến hành tiền xử lý các cây đầu vào,
chuyển đổi chúng thành một cây nhị phân mà ở đó
mỗi nút cha có 2 nút con. Sau đó họ sử dụng một
mạng recursive neural network trên cây nhị phân
này thông qua việc sử dụng các phép tốn matrixvector.
Thêm vào đó, Socher và cộng sự (2013) áp dụng
các phép toán tensor bậc thấp (low-rank tensor
operations), để thay thế các phép toán matrixvector, để tính tốn các biểu diễn của nút cha. Mơ
hình này đạt được hiệu suất cao hơn nhờ vào sự kết
hợp của các tensors đơn giản hơn so với các phép
tốn matrix-vector, và mơ hình cũng có số lượng
tham số ít hơn. Thêm vào đó, họ xác định các xu
hướng ý kiến (sentiment polarities) trên các nút
không phải là nút gốc của cây ngữ pháp, vì thế mơ
hình có thể bắt được việc chuyển đổi của các hướng
ý kiến từ các cụm đến các câu (the transition of
sentiments from phrases to sentences). Chi tiết
tham khảo Hình 13.

một hàm tuyến tính dạng 𝒉𝑝 = 𝑓(𝑊1 𝒉𝑙 + 𝑊2 𝒉𝑟 )
để kết hợp các nút lá. Phương pháp này đơn giản

hơn, nhưng nó phải chịu ảnh hưởng từ vấn đề
gradient explosion hoặc diminish, việc này làm cho
việc học các tham số trở nên cực kì khó. Lấy ý
tưởng từ nghiên cứu của LSTM-RNN, một số
nghiên cứu đã đề suất việc tích hợp LSTM cho
recursive neural network. Các nghiên cứu nổi bật
gồm Tai và cộng sự (2015) và Zhu và cộng sự
(2015), cả 2 đã cho thấy sự hiệu quả của LSTM trên
các cấu trúc cây.
Thứ hai là recursive neural network để biểu diễn
câu có thể được cải thiện thơng qua việc kết hợp đa
kênh. Dong và cộng sự (2014b) nghiên cứu về tính
hiệu quả của những kết hợp như vậy. Họ áp dụng C
kết hợp đồng nhất, thu được C output hidden
vectors, và chúng tiếp tục được sử dụng để biểu
diễn các nút cha thơng qua việc tích hợp cơ chế
attention. Họ áp dụng phương pháp này trên những
recursive neural networks đơn giản và đạt được kết
quả với hiệu xuất ổn định và tốt hơn trên nhiều bộ
dữ liệu đánh giá. Chi tiết tham khảo Hình 14.

Hình 13. Recursive neural network.
Hướng nghiên cứu này được mở rộng theo 3
hướng khác nhau. Đầu tiên, nhiều nghiên cứu cố
gắng tìm các phép tốn kết hợp tốt hơn để xây dựng
cây. Ví dụ, một số nghiên cứu chỉ đơn giản sử dụng

Hình 14. Recursive neural network với multicompositions.
Hướng nghiên cứu thứ 3 là xem xét việc sử dụng

các cấu trúc deeper neural network giống như của
nghiên cứu về multilayer CNN. Nói một cách ngắn
gọn, ở tầng đầu tiên, recursive neural network được
áp dụng lên các word embeddings đầu vào. Khi tất
cả các output hidden vectors đã sẵn sàng, một mạng
recursive neural network y như vậy có thể được sử
dụng thêm một lần nữa. Phương pháp này được
nghiên cứu thông qua thực nghiệm bởi Irsoy và
Cardie (2014a) (Hình 15).

pháp nhị phân được xây dựng cẩn thận, mà chúng
thì ít khi thỏa mãn. Do đó chúng địi hỏi một việc
tiền xử lý nhất định để chuyển đổi cây ngữ pháp
ban đầu sang cây nhị phân, và q trình này thường
dễ có vấn đề khi khơng có sự tham gia của các
chun gia. Sau đó, một vài nghiên cứu đã đề xuất
việc mơ hình các cây trực tiếp với số lượng nút là
khơng có giới hạn. Ví dụ, Mou và cộng sự (2015)
và Ma và cộng sự (2015) cả hai đã trình bài một
phép pooling dựa trên các nút con để kết hợp các
inputs với chiều dài không cố định. Teng and Zhang
(2016) thực hiện q trình pooling thơng qua việc
xem xét các nút con bên trái và bên phải. Thêm vào
đó, họ đề xuất sử dụng bidirectional LSTM
recursive neural network, và xem xét một phép toán
top-to-down recursive, giống với mạng bidirectional LSTM-RNN.
Một trong những điều đáng chú ý là, một vài
nghiên cứu xem xét việc biểu diễn câu thông qua
việc sử dụng recursive neural network mà không
cần sử dụng tới cây ngữ pháp. Cũng nghiên cứu này

đề suất các cấu trúc cây giả (pseudo tree structures)
dựa trên những câu đầu vào chưa qua xử lý (raw
sentence inputs). Ví dụ, Zhao và cộng sự (2015)
xây dụng một pseudo-directed acyclic graph để áp
dụng recursive neural network (Hình 16).

Hình 16. Pseudo-directed acyclic graph của
Zhao và cộng sự (2015).
Hình 15. Multilayer recursive neural network.
Kết quả thực nghiệm cho thấy deeper recursive
neural network có thể đem lại hiệu suất cao hơn một
single-layer recursive neural network.
Tất cả những nghiên cứu trên xây dựng
recursive neural network dựa trên những cây ngữ

Thêm vào đó Chen và cộng sự (2015) sử dụng
một phương pháp đơn giản hơn để xây dựng một
cấu trúc cây cho một câu một cách tự động (Hình
17). Cả hai nghiên cứu đạt được kết quả tốt gần như
nhau cho setence-level sentiment analysis.

Hình 17. Cấu trúc cây nhị phân pseudo của
Chen và cộng sự (2015).

3.4 Integration of External Resources
Các phương pháp được liệt kê ở trên vận dụng
nhiều cấu trúc neural network để xây dựng biểu
diễn cho câu, với sự tham gia chỉ từ thông tin về các
câu đầu vào, bao gồm các từ, các cây ngữ pháp. Gần

đây, một nhánh nghiên cứu quan trọng khác cho
việc cải thiện các biểu diễn của câu thơng qua việc
tích hợp với các tài ngun ngồi (external
resources). Các tài ngun đáng kể có thể được chia
thành 3 loại bao gồm các kho ngữ liệu thô lớn để
huấn luyện trước tham số cho các mơ hình giám sát,
external humman-annotated hoặc automatically
extracted sentiment lexicons, và cuối cùng là kiến
thức nền của những bài tốn nhất định, ví dụ là
Twitter sentiment classification.

LSTM-RNN encoder, và sau đó mơ hình cố gắng
sinh lại câu ban đầu từng từ một, vì thế tham số của
mơ hình được học theo giám sát trong kiến trúc này
(Hình 18). Đặc biệt, Gan và cộng sự (2016) đề xuất
một CNN encoder thay thế, với mục tiêu giải quyết
vấn đề kém hiệu quả trong LSTM-RNN.
External sentiment lexicons đã được nghiên cứu
nhiều trong các mơ hình thống kê, mà trong đó có
rất ít nghiên cứu về việc vận dụng chúng vào các
mơ hình Neural Networks, mặc dù đã có nhiều
nghiên cứu trong việc tự động hóa việc xây dựng
các sentiment lexicons. Tuy vậy, Teng và cộng sự
(2016) tích hợp context-sensitive lexicon features
vào một LSTM-RNN neural network, xem xét
điểm của các sentence-level sentiment như một
weighted sum của điểm của các negation words và
sentiment words trước đó. Qian và cộng sự (2017)
tiếp tục cải thiện hướng nghiên cứu này, nghiên cứu
của Qian liên quan đến việc tìm hiểu sentiment

shifting effect của sentiment, negation và intensity
words, sau đó đề xuất một mơ hình linguistically
regularized LSTM cho sentence-level sentiment
analysis.
Có vài nghiên cứu để xem xét tới những thông
tin khác cho sentence-level sentiment analysis

Hình 18. Autoencoder bằng LSTM-RNN.
Việc khám phá các kho dữ liệu thô lớn để cải
thiện việc biểu diễn câu đã được thực hiện bởi một
số nghiên cứu. Và trong những nghiên cứu này, mơ
hình sequence autoencoder được đề xuất bởi Hill
và cộng sự (2016) là tiêu biểu nhất. Trong mơ hình
này, đầu tiên các câu được biểu diễn thơng qua

trong một số bài toán tương ứng nhất định. Như
trong Twitter sentiment classification, chúng ta có
thể sử dụng một vài thông tin liên quan đến ngữ
cảnh, bao gồm các tweets trước đó của tác giả của
tweet đang được xem xét, hoặc những đoạn tweets
giao tiếp xuanh quanh đoạn tweet này, và những

đoạn tweets có cùng topic. Những thơng tin này có
thể được sử dụng như thông tin ngữ cảnh để hỗ trợ
cho việc quyết định xu hướng ý kiến của một tweet.
Ren và cộng sự (2016a) khám phá những thông tin
liên quan này trong một mơ hình neural network
thơng qua việc thêm vào một phần ngữ cảnh cho
kiến trúc của mạng ban đầu, sau đó họ áp dụng một

pooling neural network trên một tập các từ có thơng
tin ngữ cảnh nổi bật (Hình 19).

từ ý kiến cùng với xu hướng ý kiến của chúng, và
kết hợp với negation và intensification để tính tốn
ra xu hướng ý kiến của từng văn bản. Một phương
pháp tiêu biểu dựa trên từ vựng được đưa ra bởi
(Turney 2002) có 3 bước. Đầu tiên các cụm từ được
chiết xuất ra, trong trường hợp từ loại của chúng
(POS tags) tuân thủ theo các mẫu được định nghĩa
trước. Sau đó xu hướng ý kiến của từng cụm từ
được ước lượng thơng qua phương pháp PMI

Hình 19. Sentiment classification với contextual features.
Gần đây, Mishra và cộng sự (2017) đề xuất một
tích hợp của cognitive features từ gaze data để cải
thiện sentence-level sentiment analysis, đạt được
thông qua việc thêm một cấu trúc mạng CNN để
mơ hình hóa các gaze features.

4 Document-Level Sentiment Classification
Document-level sentiment classification hướng tới
việc nhận ra ý kiến của một văn bản (Pang và cộng
sự 2002; Turney 2002). Các ý kiến này được phân
thành 2 loại, loại đầu tiên là thumbs up and thumbs
down (Pang và cộng sự 2002) hoặc chúng có thể
được phân theo hạng từ 1-5 sao như trong các trang
review (Pang và Lee 2005).
Trong các nghiên cứu, các phương pháp về phân
loại ý kiến hiện có thể được nhóm thành 2 hướng:

hướng dựa trên từ vựng (lexicon-based) và hướng
dựa trên kho ngữ liệu (corpus-based). Các phương
pháp dựa trên từ vựng (Turney 2002; Taboada và
cộng sự 2011) đa số sử dụng một từ điển của những

(pointwise mutual information), đó là một phương
pháp đo độ phụ thuộc dựa trên thống kê giữa 2 cụm
từ. Trong nghiên cứu của Turney, điểm PMI được
tính tốn bằng cách sử dụng một cơng cụ tìm kiếm
và đếm số lượng cụm từ tìm được. Cuối cùng
Turney lấy điểm trung bình của tất cả các cụm từ
trong một review để phân loại xu hướng ý kiến của
nó. Ding và cộng sự (2008) sử dụng các từ mang
nghĩ phủ định như ‘not’, ‘never’, ‘cannot’ và các
giới từ thể hiện sự trái ngược như ‘but’ để cải thiện
hiệu suất của phương pháp dựa trên từ vựng.
Taboada và cộng sự (2011) kết hợp intensification
và các từ mang nghĩa phủ định với các từ vựng
mang nghĩa quyết định ý kiến được kết hợp với xu
hướng ý kiến của chúng.
Các phương pháp dựa trên các bộ ngữ liệu xem bài
toán sentiment classification như một trường hợp
đặc biệt của bài toán text categorization (Pang và
cộng sự 2002). Phần lớn các phương pháp này xây
dựng một công cụ phân lớp ý kiến (a sentiment

classifier) từ những văn bản được gắng với xu
hướng ý kiến của chúng. Việc xây dựng các văn bản
này có thể được thực hiện bằng cách gắn nhãn một

cách thủ công, hoặc được tự động thu thập thông
qua các dấu hiệu của ý kiến như emoticons trong
các tweets hoặc thông qua điểm reivew của mọi
người. Pang và cộng sự (2002) đi đầu trong việc
xem bài toán sentiment classification của các
reviews như một trường hợp đặc biệt của text
categorization và đầu tiên tìm hiểu tới việc áp dụng
các giải thuật machine learning. Họ áp dụng Naive
Bayes, Maximum Entropy, và Support Vector
Machines (SVM) với các nhiều bộ đặc trưng. Trong
các thí nghiệm của họ, hiệu suất cao nhất đạt được
là khi sử dụng SMV với các đặc trưng xây dựng
trên phương pháp bag-of-words. Tiếp nối với
nghiên cứu của Pang, nhiều nghiên cứu tập trung
vào việc thiết kế hoặc xây dựng các đặc trưng hiệu
quả để đạt được một hiệu suất phân loại cao hơn.
Trong các bài toán liên quan đến phim và reviews,
Wang và Manning (2012) trình bài giải thuật
NBSVM, đó là một sự đánh đổi giữa Naive Bayes
và đặc trưng NB (NB-features) được cải thiện bởi
SVM. Paltoglou và Thelwall (2010) học các trọng
số thuộc tính thơng qua việc vận dụng các biến thể
của hàm tính trọng số từ Information Retrieval, như
là tf.idf và các biến thể BM25 của nó. Nakagawa và
cộng sự (2010) tận dụng các cây phụ thuộc, luật
polarity-shifting và các trường điều kiện ngẫu
nhiên (conditional random fields) với hidden
variables để tính tốn đặc trưng của văn bản.
Nguồn gốc khơi dậy về việc phát triển các
phương pháp neural network là do việc chiết xuất

đặc trưng rất tốn công (labor intensive). Thay vào
đó các phương pháp sử dụng Neural Network có
khả năng phát hiện các nhân tố cần thiết và làm cho
các giải thuật học trở lên ít phụ thuộc vào việc chiết
xuất đặc trưng một cách thủ công. Bespalov và
cộng sự (2011) trình bài mỗi từ như một vector
(embedding), và rồi tạo các vectors cho các cụm với
temporal convolution network. Các document
embedding được tính tốn bằng cách lấy trung bình
các vectors của các cụm. Le and Mikolov (2014)

mở rộng phương pháp skip-gram và CBOW chuẩn
của Mikolov và cộng sự (2013b) để học các
embeddings cho câu và văn bản. Họ biểu diễn mỗi
văn bản thành một dense vector, mà dense vector
này được huấn luyện để dự đốn ra lại chính các từ
trong văn bản. Đặc biệt, mơ hình PV-DM mở rộng
mơ hình skip-gram bằng cách lấy trung bình/nối
các vector của văn bản với các vector của thông tin
ngữ cảnh để dự đốn từ ở giữa. Các mơ hình của
Denil và cộng sự (2014); Tang và cộng sự (2015a);
Bhatia và cộng sự (2015); Yang và cộng sự (2016);
Zhang và cộng sự (2016c) có cùng ý tưởng như vậy.
Chúng mơ hình hóa các embedding của các câu từ
các từ, và rồi sử dụng các vectors của các câu để tạo
ra vector cho văn bản. Đặc biệt Denil và cộng sự
(2014) sử dụng convolutional network như vậy như
một thành phần để mơ hình hóa các câu và các văn
bản. Tang và cộng sự (2015a) sử dụng
convolutional neural network để tính tốn các

vectors cho các câu, và rồi sử dụng bidirectional
gated recurrent neural network để tính tốn ra
document embedding (Hình 20). Mơ hình của
Bhatia và cộng sự (2015) tính tốn các document
vectors dựa trên cấu trúc đạt được từ RST parse.

Hình 20. Kiến trúc neural network cho document-level sentiment classification (Tang và cộng sự 2015a).
Zhang và cộng sự (2016c) tính toán các sentence
vectors sử dụng recurrent neural network, và rồi sử
dụng convolutional network để tính tốn các
document vectors. Yang và cộng sự (2016) sử dụng
2 tầng attention để có được sentence vectors, và rồi
tương tự cho document vectors. Để tính được các
trọng số của các từ khác nhau trong một câu và rồi
các trọng số của các câu khác nhau trong một văn
bản, họ sử dụng 2 vectors ‘ngữ cảnh’, chúng được
học cùng với nhau trong quá trình học. Joulin và
cộng sự (2016) giới thiệu một phương pháp đơn
giản và hiệu quả, nó trung bình hóa các biểu diễn
của các từ thành một biểu diễn của một ‘text’, và
rồi sử dụng một linear classifier để phân lớp dựa
trên biểu diễn đó. Johnson và Zhang (2014, 2015,
2016) phát triển các convolutional neural networks
mà ở đó chúng nhận vào một one-hot vector của
một từ và biểu diễn một văn bản với các nghĩa khác
nhau dựa tùy vào vùng miền. Các nghiên cứu vừa
được đề cập xem từ như một đơn vị tính toán nhỏ
nhất, và rồi xây dựng các biểu diễn của các văn bản
dựa trên biểu diễn của từ. Zhang và cộng sự (2015b)

và Conneau và cộng sự (2016) sử dụng kí tự như
những đơn vị tính tốn, và rồi sử dụng các kiến trúc
của convolution để tính tốn ra document vectors.

Bộ từ điển của các ký tự là nhỏ hơn nhiều so với bộ
từ điển từ. Trong nghiên cứu của Zhang và cộng sự
(2015b), bộ từ gồm có 70 kí tự, bào gồm 26 chứ cái
trong Tiếng Anh, 10 chứ số và 33 các ký tự khác và
cuối cùng là ký tự xuống dịng. Mơ hình của Zhang
và cộng sự (2015b) có 5 tần convolution, và mơ
hình của Conneau và cộng sự (2016) gồm có 29
tầng.
Cũng tồn tại những nghiên cứu sử dụng những
thơng tin lề như sở thích cá nhân của từng người
dùng hoặc chất lượng của các sản phẩm để cải thiện
bài tốn document-level sentiment classification.
Ví dụ, Tang và cộng sự (2015b) tích hợp usersentiment consitency với user-text consistency vào
một convolutional neural network. Đối với usertext consistency, mỗi người dùng được biểu diễn
như một ma trận để xây dựng ý nghĩa của một từ.
Còn trong user-sentiment consistency, mỗi người
dùng được mã hóa như một vector, sau đó vector
này được nối trực tiếp với một document vector và
được xem như một phần của các đặc trưng dùng
cho bài toán sentiment classification (Hình 21). Mơ
hình của Chen và cộng sự (2016) là một mở rộng

Hình 21. Neural network kết hợp thơng tin người dùng và sản phẩm cho document-level sentiment
classification (Tang và cộng sự 2015b).
của mơ hình trên thơng qua việc phát triển thêm cơ

chế attention để xem xét đến sự quan trọng của các
từ.

5 Fine-Grained Sentiment Analysis
Khác với phân loại sentiment theo cấp độ câu, tài
liệu hay cịn gọi là docment-level sentiment, thì
phân tích sentiment chi tiết (Fire-Grained
Sentiment) là một câu được chia thành các cụm từ
hoặc mệnh đề, và mỗi phần được phân tích theo mối
liên hệ với những phần khác, nó liên quan đến một
số nhiệm vụ, hầu hết đều có những đặc điểm riêng.
Do đó, các tác vụ này được mơ hình hóa khác
nhau, nên cẩn thận xây dựng các cài đặt ứng dụng
đặc biệt của chúng. Ở đây, tác giả giới thiệu năm
chủ đề khác nhau của phân tích tình cảm chi tiết,
bao gồm khai thác ý kiến (Opinion mining), phân
tích tình cảm có mục tiêu (Targeted Sentiment
Analysis), phân tích tình cảm ở cấp độ khía cạnh
(Aspect – Level Sentiment Analysis), phát hiện lập
trường (stance detection) và phát hiện mỉa mai
(sarcasm detection).

5.1 Opinion Mining
Khai thác ý kiến đã là một chủ đề nóng trong
cộng đồng NLP, nhằm mục đích trích xuất các ý
kiến có cấu trúc từ các bài đánh giá do người dùng
tạo. Hình 22 cho thấy một số phương pháp khai thác

ý kiến. Thông thường, nhiệm vụ liên quan đến hai
nhiệm vụ con. Các thực thể ý kiến đầu tiên như chủ

sở hữu (holders), mục tiêu và biểu thức được xác
định và thứ hai, tác giả xây dựng quan hệ trên các
thực thể này, ví dụ: quan hệ IS-ABOUT xác định
mục tiêu của một biểu hiện ý kiến nhất định và quan
hệ IS-FROM liên kết một ý kiến biểu hiện với chủ
sở hữu (holders) của nó.

Hình 22.Các ví dụ về khai thác ý kiến.

Hình 23. Mơ hình Bi-LSTM ba lớp để phát hiện thực thể ý kiến.
Ngoài ra, việc phân loại sentiment polarities
cũng là một nhiệm vụ quan trọng. Optinion mining
là một bài tốn học cấu trúc điển hình, đã được
nghiên cứu rộng rãi bằng cách sử dụng các mơ hình
thống kê truyền thống với các đặc trưng rời rạc do
con người thiết kế.
Trong khi gần đây, được thúc đẩy bởi sự thành
công lớn của các mơ hình học sâu về các nhiệm vụ
NLP khác, đặc biệt là về phân tích cảm xúc, các mơ
hình dựa trên mạng nơ-ron cũng đã nhận được sự
quan tâm ngày càng lớn đối với nhiệm vụ này.
Trong phần dưới đây, đã mô tả một số nghiên cứu
tiêu biểu về nhiệm vụ này bằng cách sử dụng mạng
nơ-ron.
Công việc ban đầu của mơ hình mạng nơ-ron tập
trung vào việc phát hiện các thực thể ý
kiến(detection of opinion entities), coi nhiệm vụ
như một bài tốn ghi nhãn trình tự (sequence
labeling) để nhận ra ranh giới của các thực thể ý

kiến (boundaries of opinion entitiess).
Irsoy và Cardie (2014b) thực hiện với kiến trúc
RNN cho bài toán này. Họ áp dụng Elman-type
RNNs, nghiên cứu RNN hai chiều hiệu quả và quan
sát ảnh hưởng của độ sâu của mang RNN, như được
thể hiện trong. Kết quả của họ cho thấy RNN hai

chiều có thể có được hiệu suất tốt hơn và RNN hai
chiều ba lớp có thể đạt được hiệu suất tốt nhất.
Một cơng trình tương tự được đề xuất bởi Liu và
cộng sự (2015). Họ thực hiện một các kiến trúc biến
thể của RNN, bao gồm Elman-type, Jordan-type
RNN và LSTM. Họ cũng nghiên cứu với mơ hình
theo hướng hai chiều. Ngồi ra, họ so sánh ba loại
word embedding đầu vào. Họ so sánh các mơ hình
mạng nơ-ron này với các mơ hình rời rạc và tạo sự
kết hợp của hai loại đặc trưng khác nhau. Các thực
nghiệm của họ cho thấy mạng nơ-ron LSTM kết
hợp với các tính năng rời rạc có thể đạt được hiệu
suất tốt nhất.
Hai nghiên cứu trên không liên quan đến việc
xác định mối quan hệ giữa các thực thể ý kiến. Gần
đây nhất, Katiyar và Cardie (2016) đề xuất mạng
thần kinh đầu tiên khai thác theo kiến trúc LSTM
để cùng thực hiện nhận dạng thực thể (entiy
recognition )và phân loại quan hệ ý kiến(opinion
relation classificagion).
Họ xử lý hai nhiệm vụ phụ bằng một mơ hình
học tập đa nhiệm(multitask learning), huấn luyện
trên cấp độ câu và xem xét cả ranh giới thực thể và

mối quan hệ của chúng, dựa trên LSTM hai chiều
đa lớp được chia sẻ.

Đặc biệt, họ xác định hai chuỗi để biểu thị
khoảng cách đến các thực thể bên trái và bên phải
của chúng trong các quan hệ nhất định, tương ứng.
Kết quả thử nghiệm trên bộ dữ liệu MPQA điểm
chuẩn cho thấy mơ hình mạng nơ ron này đạt được
kết quả hiệu suất hàng đầu.

5.2 Targeted Sentiment Analysis
Phân tích tình cảm mục tiêu (Targeted
Sentiment Analysis) nghiên cứu thái cực của tình
cảm đối với một thực thể nhất định trong một câu.
Hình 24 cho thấy một số ví dụ cho nhiệm vụ, trong
đó {+, -, 0} lần lượt biểu thị positive, negative và
neutral sentiment.

Hình 25. Framework của Dong và cộng sự
(2014a).

Hình 24. Phân tích cảm xúc mục tiêu.
Mơ hình mạng nơ-ron đầu tiên dùng để phân
tích tình cảm phụ thuộc vào mục tiêu được đưa ra
bởi Dong và cộng sự (2014a). Mơ hình này được
phỏng theo cơng trình trước đây của Dong và cộng
sự (2014b), mà tác gỉa đã giới thiệu trong phần phân
tích tình cảm ở cấp độ câu. Tương tự như vậy, họ
xây dựng mạng nơron đệ quy (Recursive neural

network) từ cấu trúc cây phụ thuộc nhị phân, bằng
cách sử dụng nhiều thành phần từ các nút con.
Tuy nhiên, công việc này khác ở chỗ chúng
chuyển đổi cây phụ thuộc theo mục tiêu đầu vào,
biến từ đầu của mục tiêu trở thành gốc trong cây kết
quả, không phải từ đầu gốc của câu đầu vào. Hình
25 cho thấy các phương pháp tổng hợp và cấu trúc
cây phụ thuộc kết quả, trong đó "phone" là mục
tiêu.

Cơng việc trên phụ thuộc nhiều vào các cây
phân tích cú pháp phụ thuộc đầu vào, được tạo ra
bởi các trình phân tích cú pháp tự động. Các cây có
thể có lỗi, do đó mắc phải vấn đề về lan truyền lỗi.
Để tránh vấn đề này, các nghiên cứu gần đây đề
xuất tiến hành phân tích tình cảm có mục tiêu chỉ
với đầu vào câu thơ.

Hình 26. Framework của Vo và Zhang (2015).

Vo và Zhang (2015) khai thác các chiến lược
pooling khác nhau để trích xuất một số đặc trưng
nơ rơn cho bài toán. Đầu tiên, họ chia câu đầu vào
thành ba phân đoạn theo một mục tiêu nhất định, và
sau đó áp dụng các hàm pooling khác nhau trên ba
phân đoạn cùng với tồn bộ câu, như thể hiện trong
Hình 26.
Các nơ ron đặc trưng được tổng hợp và được nối
với nhau để dự đoán cho bài toán sentiment

analyisis
Gần đây, một số cơng trình đánh giá tính hiệu
quả của RNN đối với bài toán tương tự, đã mang lại
những hiệu quả đầy hứa hẹn trong các bài toán
sentiment analyisis. Zhang và cộng sự (2016b) đề
xuất sử dụng RNN gated để nâng cao tính đại diện
của các từ mang tính ủy nhiệm.
Bằng cách sử dụng RNN, các biểu diễn kết quả
có thể nắm bắt thông tin nhạy cảm với ngữ cảnh,
như được thể hiện trong Hình 27. Hơn nữa, Tang
và cộng sự (2016a) khai thác mơ hình LSTM-RNN
như một lớp nơ ron cơ bản để mã hóa các từ tuần tự
đầu vào. Hình 28 cho thấy framework cơng việc
của họ. Cả hai kiến trúc này đều đạt được những
hiệu quả tiên tiến trong việc phân tích tình cảm có
mục tiêu.

Hình 27. Framework của Zhang và cộng
sự (2016b).

Hình 28. Hình của Tang và cộng sự (2016a).
Bên cạnh việc sử dụng RNN, Zhang và cộng sự
(2016b) trình bày một mạng nơ-ron có kiểm sốt để
tạo ra các đặc điểm của bối cảnh bên trái và bên
phải một cách có giám sát, như thể hiện trong Hình
27. Động lực chính đằng sau là các đặc trưng ngữ
cảnh-thần kinh (context neural features) không nên
được xem là có ý nghĩa tương nhau bằng cách đơn
giản là pooling. Nhiệm vụ cũng nên xem xét kỹ
lưỡng mục tiêu để lựa chọn các đặc trưng một cách

hiệu quả. Liu và Zhang (2017) cải thiện cơ chế
kiểm soát hơn nữa, bằng cách áp dụng chiến lược
là thêm thông tin về attention. Với việc cộng thêm
tin về sự chú ý, mơ hình của họ đạt được hiệu suất
cao nhất trên hai bộ dữ liệu điểm chuẩn.
Các nghiên cứu trước đây đã chứng minh rằng
các ranh giới của mục tiêu đầu vào (boundaries of
input target) là quan trọng để suy ra các sentiment
polarities của nó.
Họ giả định rằng các mục tiêu đã được định sẵn
đã được đưa ra, điều này không phải lúc nào cũng
là một kịch bản thực tế.
Ví dụ, nếu chúng ta muốn xác định các
sentiment polarities của các open target, thì cần
phải nhận biết trước các target này. Zhang và cộng
sự (2015a) nghiên cứu phân tích cảm xúc nhắm
target open domain bằng cách sử dụng mạng nơron.
Họ thử nghiệm với nhiều cài đặt khác nhau, bao
gồm các pipeline (qui trình), kết hợp và thu gọn
kiên trúc framework.
Hình 29 cho thấy ba framework. Ngoài ra, họ
kết hợp các nơ ron feature rời rạc và truyền thống

Hình 29. Phân tích tình cảm được nhắm mục tiêu theo miền mở.
trong một mơ hình duy nhất, nhận thấy rằng các
hiệu suất tốt hơn có thể đạt được nhất quán trong ba
cài đặt.

5.3 Aspect-Level Sentiment Analysis

Phân tích cảm xúc ở cấp độ khía cạnh (AspectLevel Sentiment Analyis) nh ằm mục đích phân
loại các thái độ cảm xúc trong một câu cho một khía
cạnh. Một khía cạnh là một thuộc tính của mục
tiêu(target), qua đó con người có thể bày tỏ ý kiến
của họ.

thường xuyên trong một bài đánh giá trong một số
trường hợp.
Ban đầu, nhiệm vụ được mơ hình hóa như một
bài tốn phân loại câu, do đó chúng ta có thể khai
thác phương pháp tương tự như phân loại tình cảm
ở cấp độ câu, mong rằng các phân loại là khác nhau.
Thông thường, giả sử rằng một sản phẩm có N khía
cạnh được xác định trước bởi chun gia, thì việc
phân loại tình cảm ở cấp độ khía cạnh thực sự là
một bài toán phân loại - 3N, vì mỗi khía cạnh có thể
có ba sentiment polarities: positve, negative và
neutral.

Hình 30. Phân tích cảm xúc ở cấp độ khía cạnh.
Hình 30 cho thấy một số ví dụ về nhiệm vụ.
Thơng thường, nhiệm vụ nhằm phân tích nhận xét
của người dùng về một sản phẩm nhất định, ví dụ:
khách sạn, thiết bị điện tử hoặc phim. Sản phẩm có
thể có một số khía cạnh. Ví dụ: các khía cạnh của
khách sạn bao gồm môi trường, giá cả và dịch vụ
và người dùng thường đăng bài đánh giá để bày tỏ
ý kiến của họ về các khía cạnh nhất định.
Khác với phân tích tình cảm có mục tiêu, các
khía cạnh có thể được liệt kê khi sản phẩm được

đưa ra và khía cạnh đó có thể khơng được thể hiện

Lakkaraju và cộng sự (2014) đề xuất thành phần
ma trận - vector (model - base matrix - vector composition) dựa trên mơ hình mạng nơ-ron đệ quy cho
bài tốn, tương tự như Socher và cộng sự (2012)
thực hiện phân loại cảm xúc ở cấp độ câu.
Trong công việc sau này, nhiệm vụ đã được đơn
giản hóa bằng cách giả định rằng khía cạnh đó đã
được đưa ra trong một câu đầu vào, do đó nó tương
đương với phân tích cảm xúc có mục tiêu đã nói ở
trên.
Nguyen và Shirai (2015) đề xuất mơ hình mạng
nơ-ron đệ quy dựa trên cụm từ để phân tích cảm xúc

ở cấp độ khía cạnh, trong đó cây cấu trúc cụm từ
đầu vào được chuyển đổi từ cấu trúc phụ thuộc
cùng với các khía cạnh đầu vào.
Tang và cộng sự (2016b) áp dụng mạng nơ-ron
bộ nhớ sâu (deep memory neural network) trong
cùng một cài đặt, mà không sử dụng cây cú pháp.
Mơ hình của họ đạt được hiệu suất hiện đại và đồng
thời có hiệu quả cao về tốc độ so với các mơ hình
nơ-ron theo kiến LSTM. Hình 31 cho thấy mạng
nơ-ron bộ nhớ sâu ba lớp của chúng. Các tính năng
cuối cùng để phân loại được trích xuất bằng sự chú
ý với khía cạnh giám sát.

luyện bằng cách giám sát từ xa với các ví dụ huấn
luyện tự động. Hình 32 cho thấy khung của chúng.

Ơng và cộng sự (2017) khai thác mơ hình
unsuppervised auto-encoder framework để trích
xuất thơng tin khía cạnh, mơ hình có thể học thơng
tin quy mơ của các từ khía cạnh một cách tự động
bằng cơ chế chú ý (attention mechanism).

Hình 32. Frame work của Xiong và cộng sự
(2016).

5.4 Stance Detection

Hình 31. Framework của Tang và cộng sự
(2016a).
Trong các tình huống thực tế, một khía cạnh của
một sản phẩm nhất định có thể có nhiều biểu hiện
khác nhau. Lấy máy tính xách tay làm ví dụ, chúng
ta có thể thể hiện màn hình bằng cách hiển thị, độ
phân giải và giao diện có liên quan chặt chẽ đến
màn hình. Nếu chúng ta có thể nhóm các cụm từ
khía cạnh tương tự thành một khía cạnh, thì kết quả
phân tích tình cảm ở cấp độ khía cạnh sẽ hữu ích
hơn cho việc áp dụng sau này.
Xiong và cộng sự (2016) đề xuất mơ hình mạng
lưới nơ ron đầu tiên cho nhóm cụm từ khía cạnh.
Họ học các cách biểu diễn của cụm từ khía cạnh
bằng mạng nơ-ron truyền thẳng nhiều lớp đơn giản,
trích xuất các đặc trưng với thông tin các thành
phần chú ý. Các tham số của mơ hình được huấn

Mục tiêu của việc phát hiện lập trường (Stand

detection) là nhận biết thái độ của một câu đối với
một chủ đề nhất định. Nói chung, chủ đề được chỉ
định cho nhiệm vụ như một đầu vào(i) và đầu vào
còn lại là câu cần được phân loại. Các câu đầu vào
có thể khơng có quan hệ rõ ràng với chủ đề đã cho.
điều này làm cho nhiệm vụ khá khác biệt với phân
tích tình cảm mục tiêu / mức độ khía cạnh ở trên (ví
dụ Hình 33).
Do đó việc phát hiện lập trường là vơ cùng khó
khăn.
Cơng việc đầu tiên huấn luyện các classifier một
cách độc lập cho mỗi chủ đề. Do đó, task này được
coi như một bài toán phân loại 3 lớp đơn giản.

Hình 33. Các ví dụ về phát hiện lập trường.
Ví dụ, Vijayaraghavan và cộng sự (2016) khai
thác mơ hình CNN nhiều lớp cho task này. Chúng
tích hợp cả word+character embedding và làm đầu
vào để giải các từ mà chưa biết.
Trong nhiệm vụ 6 của SemEval 2016 về phát
hiện lập trường, mơ hình của Zarrella và Marsh
(2016) đã đạt được hiệu suất cao nhất, mơ hình này
xây dựng một mạng nơ-ron dựa trên LSTM-RNN,
mơ hình này có khả năng học các tính năng cú pháp
và ngữ nghĩa mạnh mẽ. Ngồi ra, được thúc đẩy bởi
tinh thần học hỏi chuyển giao (transfer learning),
các tham số mơ hình đã đc huấn lun và học bằng
kiến thức tiên nghiệm từ nội dung các hashtags trên
Twitter, và các câu đầu vào là dữ liệu thô, nó được

SemEval được thu thập từ Twitter.
Các mơ hình cơng việc trên lập trường phân loại
các chủ đề khác nhau một cách độc lập, có hai
nhược điểm chính. Một là việc chú thích các ví dụ
đào tạo cho mỗi chủ đề là không thực tế, nhằm phân
loại thái độ của một câu cho các chủ đề trong tương
lai. Hai là một số chủ đề có thể có mối quan hệ chặt
chẽ, ví dụ: “Hillary Clinton” và “Donald Trump”
trong khi huấn luyện classifier một cách độc lập
không thể sử dụng thông tin này.
Augenstein và cộng sự (2016) đề xuất mơ hình
đầu tiên đào tạo một mơ hình duy nhất khơng quan
tâm đến các chủ đề đầu vào nói chung, sử dụng
mạng nơ-ron LSTM. Họ mơ hình hóa câu đầu vào
và chủ đề cùng nhau, bằng cách sử dụng biểu diễn
kết quả của các chủ đề làm đầu vào cho LSTM trên
các câu. Hình 34 cho thấy khung của phương pháp
của họ. Mơ hình của họ đạt được hiệu suất tốt hơn

đáng kể so với các bộ phân loại riêng lẻ của tác
phẩm trước đó.

Hình 34. Conditional - LSTM để phát hiện lập
trường.

5.5 Sarcasm Recognition
Trong phần này, tác giả thảo luận về một hiện tượng
ngơn ngữ đặc biệt có mối liên hệ chặt chẽ với phân
tích tình cảm, đó là châm biếm hoặc mỉa mai. Hiện
tượng này thường làm thay đổi nghĩa đen của câu

và ảnh hưởng lớn đến tình cảm xúc mà câu đó thể
hiện. Hình 35 cho thấy một số ví dụ.
Thơng thường, phát hiện mỉa mai được mơ hình
hóa như một bài toán phân loại nhị phân, điều này
tương tự với phân tích tình cảm ở cấp độ câu là điều
cần thiết. Sự khác biệt chính giữa hai nhiệm vụ nằm
ở mục tiêu của chúng.
Ghosh và Veale (2016) nghiên cứu chi tiết các
mơ hình mạng nơ-ron khác nhau cho nhiệm vụ, bao
gồm CNN, LSTM và mạng nơ-ron chuyển tiếp sâu.
Họ trình bày một số mơ hình thần kinh khác nhau

Hình 37. Ví dụ về Sarcasm.

Hình 36. Framework của Ghosh và Veale (2016).

Hình 35. Framework của Zhang và cộng sự (2016a).
và điều tra hiệu quả của chúng theo kinh nghiệm.
Kết quả thử nghiệm cho thấy sự kết hợp của các
mạng nơ-ron này có thể mang lại những màn trình
diễn tốt nhất. Mơ hình cuối cùng được cấu tạo bởi
CNN hai lớp, một LSTM hai lớp và một lớp chuyển
tiếp thức ăn khác, như thể hiện trong Hình 36.
Để phát hiện châm biếm trên các phương tiện
truyền thông xã hội như Twitter, thông tin dựa trên
tác giả là một trong những tính năng hữu ích.
Zhang và cộng sự (2016a) đề xuất một mơ hình
thần kinh đ ược ngữ cảnh hóa để nhận dạng châm

biếm Twitter. Cụ thể, họ trích xuất một tập hợp các
từ nổi bật từ các bài đăng lịch sử của tác giả tweet,
sử dụng những từ này để đại diện cho tác giả tweet.
Mơ hình mạng nơ-ron được đề xuất của họ bao
gồm hai phần, như được thể hiện trong Hình 37,
một phần là RNN được kiểm sốt để đại diện cho
các câu và phần còn lại là mạng nơ-ron tổng hợp
đơn giản để đại diện cho tác giả tweet.

6 Summary

References

Giới thiệu tổng quan về sự thành công gần đây của
các phương pháp tiếp cận mạng nơ-ron trong phân
tích cảm xúc.
Trước tiên, mơ tả cách tích hợp thơng tin cảm
xúc của các văn bản để học cách embedding word
cụ thể về cảm xúc.
Sau đó, mơ tả phân loại tình cảm của các câu và
tài liệu, cả hai đều yêu cầu cấu tạo ngữ nghĩa của
văn bản. Cũng như trình bày cách phát triển các mơ
hình mạng nơ-ron để giải quyết các tác vụ chi tiết.
Mặc dù các phương pháp tiếp cận học tập sâu đã
đạt được những hiệu quả đầy hứa hẹn trong các
nhiệm vụ phân tích cấp độ cao trong những năm
gần đây, vẫn có một số hướng tiềm năng để cải
thiện hơn nữa lĩnh vực này.
Hướng đầu tiên là phân tích tình cảm có thể giải

thích được. Các mơ hình học sâu hiện tại là chính
xác nhưng khơng thể giải thích được. Tận dụng
kiến thức từ khoa học nhận thức, kiến thức thông
thường hoặc kiến thức rút ra từ kho ngữ liệu văn
bản có thể là một hướng tiềm năng để cải thiện lĩnh
vực này.
Hướng thứ hai là học một mơ hình mạnh mẽ cho
một miền mới. Hiệu suất của mơ hình học sâu phụ
thuộc vào số lượng và chất lượng của dữ liệu đào
tạo. Do đó, làm thế nào để tìm hiểu một cơng cụ
phân tích tình cảm mạnh mẽ cho một miền có ít /
khơng có ngữ liệu chú thích là rất khó nhưng rất
quan trọng đối với ứng dụng thực tế.
Hướng thứ ba là làm thế nào để hiểu được cảm
xúc. Phần lớn các nghiên cứu hiện tại tập trung vào
các biểu hiện quan điểm, mục tiêu và chủ sở hữu.
Gần đây, các thuộc tính mới đã được đề xuất để
hiểu rõ hơn về cảm xúc, chẳng hạn như nguyên
nhân và lập trường quan điểm. Đẩy mạnh khu vực
này u cầu các mơ hình mạnh mẽ và kho tài liệu
lớn.
Hướng thứ tư là phân tích tình cảm chi tiết, nhận
được sự quan tâm ngày càng tăng trong thời gian
gần đây. Cải thiện lĩnh vực này đòi hỏi kho dữ liệu
đào tạo lớn hơn.

Augenstein, I., Rocktäschel, T., Vlachos, A., &
Bontcheva, K. (2016). Stance detection with
bidirectional
conditional

encoding.
In
EMNLP2016 (pp. 876–885).
Bai, B., Weston, J., Grangier, D., Collobert, R.,
Sadamasa, K., Qi, Y., et al. (2010). Learning to
rank with (a lot of) word features. Information
Retrieval, 13(3), 291–314.
Baker, L. D. & McCallum, A. K. (1998).
Distributional clustering of words for text
classification. In Proceedings of the 21st Annual
International ACM SIGIR Conference on
Research and Development in Information
Retrieval (pp. 96–103). ACM.
Bengio, Y., Ducharme, R., Vincent, P., & Jauvin,
C. (2003). A neural probabilistic language
model. Journal of Machine Learning Research,
3(Feb), 1137–1155.
Bespalov, D., Bai, B., Qi, Y., & Shokoufandeh, A.
(2011). Sentiment classification based on
supervised latent n-gram analysis. In
Proceedings of the 20th ACM International
Conference on Information and Knowledge
Management (pp. 375–382). ACM.
Bhatia, P., Ji, Y., & Eisenstein, J. (2015). Better
document-level sentiment analysis from rst
discourse parsing. arXiv:1509.01599.
Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra,
V. J. D., & Lai, J. C. (1992). Class-based n-gram
models of natural language. Computational
Linguistics, 18(4), 467–479.

Chen, X., Qiu, X., Zhu, C., Wu, S., & Huang, X.
(2015). Sentence modeling with gated recursive
neural network. In Proceedings of the 2015
Conference on Empirical Methods in Natural
Language Processing (pp. 793–798). Lisbon,
Portugal: Association for Computational
Linguistics.
Chen, H., Sun, M., Tu, C., Lin, Y., & Liu, Z.
(2016). Neural sentiment classification with
user and product attention. In Proceedings of
EMNLP.
Collobert, R. & Weston, J. (2008). A unified
architecture for natural language processing:
Deep neural networks with multitask learning.
In Proceedings of the 25th International

Deep learning for sentiment analysis

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về