Chuyên đề thực tập tốt nghiệp: Phân tích cảm xúc của người dùng trên trang Thương mại điện tử Foody

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (15.93 MB, 60 trang )

Trang 1<div class="page_container" data-page="1">

TRUONG ĐẠI HOC KINH TE QUOC DÂNKHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

Người hướng dẫn : TS. Chu Thị Bich NgọcSinh viên thực hiện: Trần Ngọc Kiên

Lớp : Thống kê kinh tế 61A

Hà Nội-2023

</div>Trang 2<div class="page_container" data-page="2">

Phụ lục

LOT CAM ĐOANN... 5< 2.922.449.434 0771130 E202431 E972434 E9rAa1pEetrsdeeotrrsdee 4

LOT CẢM ƠNN... 5< HH7... 07034077944 97744 07744090941 929410294 prree 5

PHAN MỞ ĐẦU onsssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssesessssnssssssseesssssesess 6

Li do Chon dé 81... ...)... 6

Mục dich nghiÊn CỨU ...d..d G6 5É 2 9 9999 99.99 998990 99980400090980500808906..8 7

Đối tượng & Phạm vi nghiên €ứu...-.----e- 2s s2 ssssssssssessessezssessessesssrsee 7

Phương pháp nghiÊn CỨU... << 6 9< 5 9 9.9. 99.909.000.000 06 7

Cá 8n 0Š... ... 8

CHƯƠNG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TRENTRANG THUONG MAI DIEN TU VA CAC PHUONG PHAP XU LY NGONNGU TỰ NHIÊN ...sssssssssssssssssssssssssscssssssssseosesssssssecsssssssssecssssssssssssssssssnsessssssssssesenseess 10

1.1. Tổng quan về van đề nghiên cứu...--.---°ssssssss+ssszssessessesszssscsee 101.2. Đề xuất mơ hình nghiên €ứu...-- << s°s£ s£ se s£Ss£Ss£ss£se se se =sessesses 111.3. Những vấn đề chung về Thương mại điện (ử...--- se sesssssessee 12

L.3.1. Thuong mai 1g... nan ... 121.3.2. Sàn thương MAI iN ÍÚ:... ...c- 5= sọ... 9 vế 12

1.3.3. Nhà cung cấp trên sàn thương mại điện tử. ...--.--.-- 12

1.3.4. Người dùng trên sàn thương mại điỆN fÚ:...--<<<<<<<<< 131.3.5. Đánh Sid của Hgười đÙNHg... «<< i. ng. 13

1.3.6. Ngn dữ liệu trén ÏTH€TH€I... e2 555 ©se©cecreerserserxeerseree 131.4. Những van đề chung về các phương pháp phân loại văn bản... 14

1.4.1. Khoa NC dit ÏÏỆU... . c- << < << < 1. ve 14

1.4.2. Xử lý ngôn NUH CW TIÏIÏÊNH... ..c- G5 Ă << St xi. 1 91 193 99v ve 14

1.4.3. Bài toán Phân loại VGN ĐẲIH... Si 1 1 ng 15

CHƯƠNG 2: QUY TRÌNH ĐÁNH GIÁ CẢM XÚC NGƯỜI DÙNG TRÊN

TRANG THƯƠNG MẠI ĐIỆN TỬ FOODY...- 25s csecssessessersscssss 31

2.1. Các đặc trưng cơ bản về bộ dữ liệu. ...s--s-s<ssssssecssesssssesserserssss 31

2.1.1. Thu thập và xử lý dit HIỆU... .-- << nh nung, 31

2.1.2. Phân bô về điêm của người đÙng... co s1 se 33

</div>Trang 3<div class="page_container" data-page="3">

2.1.3. Gán nhấn Aik LGU. ...-œ- 5-5 + 5 2 5 9 90900100 090040.080000550 34

2.2. Tiền xử lý đữ liệu...-- 2s +©es+Y+se©E+e©Eke©EAAEEAAEEEAACEEAAeErkserrkerrrssee 38

2.2.1. Làm sạch dit liệu van ÙỈH... o << <5 5= s9 38

2.2.2. Phân COM (Ù... 5 << HH. TH cọ. TH TH ch 40

2.2.3. Đám NGY 10 HG ÍT... s- < ì H H H HHÌ h nư nHngugờ 40

2.2.4. Vector NOG VAN ĐẲH... - << 5= <<... ch. 42

2.3. Các chỉ số đánh giá hiệu quả mơ hình. ...---- 2 2s se ssessessesssessese 43

2.3.1. DG CHINN XIỐC... << HH HH. T I gg 43

2.3.2. Precision về ÏĐ€C(ÏÏ,... ós- <<... họ Ti 44

"NT nẽ nh nh. ... 44

2.3.4. Đường cong ÌĐOC...- s- << sọ TH it ườ 45

2.4. Kết quả mơ hình phân lớp 2 nhãn. ...-- 2-2-5 sssssesseseese=sessessess 462.4.1. Kết quả ứng dụng mơ hình hồi quy Logistic...--.--- 462.4.2. Kết quả ứng dụng mơ hình Naive Bayes...---«--<«- 47

2.4.3. Kết quả ứng dụng mơ hình SVM. ..scessssessessesssessessesssessesesssessesees 48

2.4.4. Kết quả ứng dụng mơ hình phoBE.RT. ...--.---s--scss se 492.5. Kết quả mơ hình phân lớp 3 nhãn. ... 2-2-2 s sssessese=se=sssessese 502.5.1. Kết quả ứng dụng mơ hình hồi quy Logisti...-..--- 50

2.5.2. Kết quả ứng dụng mơ hình Naive Bayes...- s5: 52

2.5.3. Kết quả ứng dụng mơ hình SVM. .ve.essesessecssessesessesssessessesseessesees 33

2.5.4. Kết quả ứng dụng mơ hình phoBERT. ...---- c5 ©-scse- 54

KET LUẬN VÀ KIÊN NGHỊ,...-- 2< << ©se£EsetxsEssersetssersserssrrssersee 56

TÀI LIEU THAM KHHẢO...- 2-2-2 22s s2£Ess£SseEsseEsserssersersserssersee 60

</div>Trang 4<div class="page_container" data-page="4">

LỜI CAM ĐOAN

Tôi tên là Trần Ngọc Kiên, mã số sinh viên 11192625, khóa 61, giảng viênhướng dẫn là TS. Chu Thị Bích Ngọc. Tơi xin cam đoan đề án: “Phân tích cảm xúc của

người dùng trên trang Thương mại điện tử Foody.” là một cơng trình nghiên cứu độc

lập dưới sự hướng dẫn của giảng viên hướng dẫn TS. Chu Thị Bích Ngọc, ngồi ra

khơng có bat cứ sự sao chép của người khác. Nghiên cứu này là sản pham mà tơi đã nỗlực thực hiện trong q trình học tập. Các số liệu, kết quả trình bày trong báo cáo là

hồn tồn trung thực. Tơi xin chân thành cảm ơn.

Hà Nội, ngày 12 tháng 04 năm 2023

Người cam đoan

Trần Ngọc Kiên

</div>Trang 5<div class="page_container" data-page="5">

LOI CAM ON

Em xin bày tỏ long biết ơn tới Trường Dai học Kinh tế Quốc dân, tập thé thaycô ở Khoa Thống kê đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốt quá trình học tập vànghiên cứu. Đặc biệt em xin gừi lời cảm ơn sâu sắc tới TS. Chu Thị Bích Ngọc đã tậntình hướng dẫn và có nhiều ý kiến đóng góp quý báu dé tác giả có thé hoàn thành chuyênđề thực tập này.

Một lần nữa, xin cảm ơn gia đình, bạn bè, thầy cơ trong trường và khoa đã luônủng hộ, động viên và chia sẻ khó khăn, cảm ơn thầy cơ đã ln tận tình chỉ dạy và hỗ

trợ em trong suốt quá trình học tập và nghiên cứu.

Sinh viên thực hiện

Trần Ngọc Kiên

</div>Trang 6<div class="page_container" data-page="6">

PHAN MỞ DAULi do chon dé tai

Phân tích dữ liệu của khách hang là một bai tốn khơng hề xa lạ với những ngườilàm thống kê, những chuyên viên về xử lý dit liệu. Việc thu thập được thông tin, phảnhồi của khách hàng là một lợi thé tuyệt vời của các doanh nghiệp, tô chức; giúp họ nambắt được điểm mạnh, điểm yếu trong sản phẩm và dịch vụ của mình. Từ đó có thể nhanhchóng năm bắt được tâm lý và nhu cầu của khách hàng, mang đến cho họ trải nghiệmvề sản phẩm và dịch vụ tốt nhất.

Ngày nay, với sự tiến bộ của khoa học máy tính và cơng nghệ lưu trữ hay tínhtốn, nguồn dữ liệu đã và đang trở nên đa dạng và phong phú hơn bao giờ hết. Hiện

nay, dữ liệu thu thập được của khách hàng khơng chỉ có những thông tin thu thập được

từ bảng hỏi, những dữ liệu số điện thoại, email có được khi khách mua hàng; mà cịncó những dữ liệu phi cấu trúc như ảnh, âm thanh, hay những bình luận của khách hàng

trên các nền tảng xã hội. Việc lưu trữ và phân tích các loại dữ liệu này mang lại thửthách lớn hơn các kiểu dữ liệu cau trúc cổ điển rất nhiều, có thé phải sử dụng đến những

phương pháp hiện đại như Big Data (Dữ liệu lớn), Machine Learning (Học máy), Deep

Learning (Học sâu). Tuy nhiên nếu có thê tận dụng được, các doanh nghiệp hay tổ chứcsẽ thu được những lợi ích rất lớn, có thé quảng bá nhiều các sản phâm có khả năng hợpvới nhu cầu của khách hàng hơn, từ đó tăng được lượng mua của khách hàng, mang lạinhiều doanh thu hơn cho tổ chức.

Do đó, em quyết định chọn đề tài Phân tích cảm xúc của người dùng trên trangthương mại điện tử Foody. Đề tài nghiên cứu dựa trên dữ liệu trên sàn thương mại điệntử Foody, một trang chuyên về đặt đồ ăn. Dữ liệu được thu thập bao gồm hơn 40000

bình luận dạng văn bản kèm theo đánh giá về sản phẩm mà khách đặt. Bài nghiên cứu

sẽ ung dụng các kỹ thuật Natural Language Processing (NLP-Xử lý ngôn ngữ tự nhiên)

phô biến trong thống kê, khai phá dữ liệu và học sâu, nhằm phân tích các đặc trưng của

các bình luận này và đưa ra dự đốn bình luận đó là tích cực, trung lập hay tiêu cực,

nhằm đem lại trải nghiệm tốt hơn cho người dùng ở những lần đặt hàng sau.

</div>Trang 7<div class="page_container" data-page="7">

Mục đích nghiên cứu

Mục tiêu của nghiên cứu này nhằm phân tích các đánh giá của người dùng về

chất lượng đồ ăn trên trang thương mại điện tử Foody từ đó đưa ra dự đốn phù hợp về

cảm xúc của người dùng khi mua hàng cho cả những bình luận thiếu mất phần điểm

đánh giá. Dựa trên kết quả đó đưa ra những giải pháp và kiến nghị nhăm thúc đây quảngbá sản phẩm phù hợp hơn với người tiêu dùng.

phá dữ liệu như SVM, hồi quy Logistics, Naive Bayes,... nhằm dự đoán thái độ tích

cực hay tiêu cực của người dùng.

- Xây dung mơ hình va dự đốn cam xúc của người dùng biêu hiện qua đánh giá.

- Đề xuất và kiến nghị nhằm thúc day lượng mua của người dùng trên Foody.

Đối tượng & Phạm vỉ nghiên cứu

Cảm xúc của người dùng khi đặt mua sản phẩm trên Foody thơng qua các bình luận

Dữ liệu cho chuyên đề được thu thập từ những đánh giá của người dùng trên trang

thương mại điện tử Foody. Những người dùng sau khi sử dụng dịch vụ thường sẽ được

hệ thống đề xuất một phan quà nhỏ như mã giảm giá, điểm tích luỹ để viết bài đánh giákèm theo cho điểm. Tuy nhiên, vì nhiều lý do như lỗi hệ thống, người dùng quên không

cho điểm, một phan các đánh giá trên Foody thiếu mat mục điểm số. Các bình luận trênFoody hầu như đều có độ dài khá ơn, có tính xác thực khá cao, những đánh giá sai lệchcũng như spam thường sẽ bị kiểm duyệt và loại bỏ.

</div>Trang 8<div class="page_container" data-page="8">

Phân tích

Nghiên cứu tập trung vào tiền xử lý do tính phức tạp của mơ hình. Trước hết làsử dụng các cơng cụ tìm kiếm tích hợp trong các ngơn ngữ lập trình để làm sạch vănbản, sau đĩ dùng mơ hình RDRSegmenter tích hợp trong gĩi VNCoreNLP đề phân đoạn

các từ và cuối cùng sử dụng phương pháp TF-IDF nhằm vector hố văn ban dé tiễn

hành đưa vào chạy mơ hình.

Từ các vector được mã hố, nghiên cứu ứng dụng các mơ hình khai phá dữ liệu

đơn giản như hồi quy Logistic, Nạve Bayes, SVM nhằm tính tốn các đặc trưng của

vector mã hố và đưa ra dự đốn. Ngồi ra, nghiên cứu cịn ứng dụng một mơ hình học

sâu khác nhằm mục đích tham khảo và so sánh: mơ hình PhoBERT cho bài tốn phânloại cảm xúc. Bằng các mơ hình trên, nghiên cứu tiễn hành phân loại các bình luận thành

3 nhĩm: tích cực/trung lập/tiêu cực hoặc thành 2 nhĩm tích cực/tiêu cực và đưa ra các

mơ hình tốt nhất dựa trên việc chạy thực nghiệm các mơ hình trên các cách phân loại

nhãn khác nhau.

Kết cau đề tai

Dé án của nhĩm gơm những phân sau:

- Phan mở đầu: Giới thiệu tổng quát đề tài nghiên cứu, lý do chọn đề tài, mục tiêu,

đối tượng nghiên cứu và phạm vi.

- _ Chương 1: Lý luận chung về đánh giá của người dùng trên trang thương mại điện

tử và các phương pháp xử lý ngơn ngữ tự nhiên. Chương này tập trung giải thích

các khái niệm cĩ trong dé tài, đồng thời lý luận những van đề tơng quan, nêu ý

nghĩa của đề tài nghiên cứu và đề xuất phương pháp, mơ hình nghiên cứu.

- Chương 2: Quy trình đánh giá cảm xúc của người dùng trên trang thương maiđiện tử Foody.

+ Vì bộ đữ liệu lấy trực tiếp từ những đánh giá trên Foody, hồn tồn chưa quaxử lý nên ở chương này, nghiên cứu sẽ tiến hành tiền xử lý những đánh giá này.

Đây là bước quan trọng trong những bài tốn NLP vì dữ liệu thu thập được

thường khơng được “đẹp” như dữ liệu dạng bảng, gồm rất nhiều từ viết tắt, email,

số điện thoại,... hồn tồn cĩ thé gây anh hưởng lớn đến kết quả mơ hình về sau.+ Bên cạnh đĩ nghiên cứu sẽ phân tích qua các đặc điểm chung của bộ dữ liệudựa trên các từ ngữ phơ biến hay gặp và đánh giá của người dùng. Dựa trên phânphối điểm và các bình luận cụ thể của từng nhĩm điểm, nghiên cứu sẽ gán nhãn

cho các đánh giá nhằm tiến hành chạy mơ hình cho phan sau.

</div>Trang 9<div class="page_container" data-page="9">

+ Sau cùng nghiên cứu sẽ tiến hành phân tích bằng các mơ hình hay được sửdụng trong các bài tốn phân lớp và tiễn hành dự đoán rồi đưa ra kết quả về hiệu

năng của mơ hình tương ứng, so sánh giữa các mơ hình và chọn ra mơ hình tốt

Kết luận và kiến nghị. Chương cuối cùng nghiên cứu đưa ra những so sánh vềmơ hình, cách gán nhãn và thời gian chạy. Từ đó đưa ra các kiến nghị dựa trênđặc điểm dit liệu cũng như đề xuất các mơ hình phù hợp.

</div>Trang 10<div class="page_container" data-page="10">

CHUONG 1: LÝ LUẬN CHUNG VE ĐÁNH GIA CUA NGƯỜI DUNG TRENTRANG THUONG MẠI ĐIỆN TU VÀ CÁC PHƯƠNG PHAP XỬ LÝ

NGÔN NGỮ TỰ NHIÊN

1.1. Tổng quan về vấn đề nghiên cứu.

Thương mại điện tử trong những năm qua đã có sự bùng phát trên thị trường thếgiới và trở thành đòn bay cho sự tăng trưởng kinh tế và thương mại ở nhiều quốc giatrong mơi trường tồn cầu hố. Có thé coi đây là một lĩnh vực giao thoa giữa thươngmại truyền thống và công nghệ thông tin đang càng ngày càng phát triển. Trong thương

mại điện tử, các công tác người dùng hoá và marketing một mục tiêu, tương tác

một-một được đầu tư phát triển mạnh hơn nhiều so với thương mại truyền thống. Bên cạnhđó, lượng dữ liệu thu thập được trên các trang thương mại điện tử vơ cùng dồi dào. Mỗi

ngày có hàng triệu các đơn hàng được đặt từ các sản thương mại điện tử, kèm theo các

đánh giá, hình ảnh liên quan. Tuy nhiên van đề nảy sinh ra là dit liệu trên những sànthương mại điện tử này hầu hết đều ở dang dữ liệu phi cau trúc (những loại dữ liệu vănbản, hình ảnh, âm thanh,...) khác biệt rất lớn so với dữ liệu bảng thơng thường nên việcphân tích cũng như lưu trữ cũng gặp nhiều khó khăn, khơng thể sử dụng các cơ sở dữ

liệu quan hệ hay các phương pháp thống kê đơn giản để xử lý.

Với sự phát triển của khoa học công nghệ, các phương pháp thống kê ngày càng

trở nên mạnh mẽ với sự kết hợp của tốn học cũng như cơng nghệ tính tốn. Ngày nayvới sự trợ giúp của những thiết bị máy tính mạnh mẽ, chúng ta có thể thiết kế những mơhình học máy với hàng tỷ các biến số với hiệu năng cao hơn nhiều so với các mơ hìnhtốn và thong kê cổ điển. Bài toán dự đoán thái độ của người dùng dựa trên phản hồiđánh giá khơng cịn là đề tài quá mới mẻ trong phân tích dữ liệu. Trong 10 năm trở lại

đây, có nhiều những nghiên cứu được xem là bước nhảy vọt trong xử lý ngôn ngữ tựnhiên như “Attention Is All You Neeđ” (tạm dịch là Sự chú ý là tất cả chúng ta cần) về

mơ hình Transformers (mạng biến đổi) của Ashish Vaswani, Noam Shazeer, Niki

Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia

Polosukhin là những nhà nghiên cứu từ Google nham cải thiện cơng nghệ dich máy của

mình và cơng nghệ đi ngay sau nó chuyên sâu hơn cho các bài toán phân loại văn bản

như trong đề tài nghiên cứu là “BERT: Pre-training of Deep Bidirectional Transformers

for Language Understanding” (tạm dịch là BERT: Mơ hình biến đổi 2 chiều dùng trong

xử lý ngôn ngữ) cua Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova.

Ca 2 công nghệ trên ngay sau khi được cơng bố đều đem lại một làn sóng đột phá rấtlớn tới cộng đồng những nhà phân tích dữ liệu chuyên sâu về ngôn ngữ tự nhiên. Ở Việt

Nam, VinAI cũng có một phiên ban BERT của riêng mình là “PhoBERT: Pre-trained

language models for Vietnamese” (PhoBERT: mơ hình ngôn ngữ cho Tiếng Việt) củaDat Quoc Nguyen, Anh Tuan Nguyen với cái tên lay cảm hứng từ món ăn đặc trưng ởViệt Nam là “Phở”. Rất nhiều những nghiên cứu sau này đều được tiễn hành dựa trên

10

</div>Trang 11<div class="page_container" data-page="11">

các mơ hình mạng biến đổi hay BERT với bài toán khá tương tự với dé tài nghiên như

“Vietnamese hate and offensive detection using PhoBERT-CNN and social media

streaming data” (tạm dịch: Phat hiện thai độ tiêu cực sử dung PhoBERT-CNN từ nền

tảng xã hội trực tuyến) từ Quoc Tran Khanh, Trong Nguyen An, Hoang Phu Gia, Luu

Canh Duc, Do Trong-Hop & Nguyen Kiet Van va A Text Classification for Vietnamese

Feedback via PhoBERT-Based Deep Learning (Phân loại văn bản cho các phan hồi

Tiếng Việt qua PhoBERT) của Cu Vinh Loc, Truong Xuan Viet, Tran Hoang Viet, LeHoang Thao & Nguyen Hoang Viet. Do vay, em quyết định sử dung các bình luận trênFoody dé đưa vào phân tích và đưa ra dự đoán phù hợp về đánh giá của người dùng sửdụng PhoBERT nêu trên và một số các phương pháp khai phá đữ liệu cơ bản như SVM,

Hồi quy Logistics, Naive Bayes,... nhằm so sánh hiệu quả của các mơ hình dé chọn ra

mơ hình tốt nhất.

1.2. Đề xuất mơ hình nghiên cứu.

Dựa trên cơ sở các nghiên cứu nêu ở phân tơng quan, nhóm nghiên cứu đê xtmơ hình nghiên cứu như sau.

người dùng tính tốn vê sản phâm

Bình luận của được Cảm xúc của người dùng

từ vănbản

Biến độc lập Biến phụ thuộc

Bình luận của người dùng là dạng văn bản phi cấu trúc, do đó sẽ khơng thể trựctiếp đưa vào phân tích được. Vì vậy sẽ phải mã hoá thành dạng véc tơ phù hợp bằng cácphương pháp vector hố dùng phơ biến trong xử lý ngôn ngữ tự nhiên là TF-IDF. Từ

các véc tơ được mã hố chứa thơng tin của ngơn ngữ kết hợp với điểm dự đoán thu thập

được, ta sẽ đưa vào mơ hình huấn luyện và dé tiến hành dự đoán thái độ của người dùngvề sản phâm đã đặt trước đó.

11

</div>Trang 12<div class="page_container" data-page="12">

3. Những vấn đề chung về Thương mại điện tử.

1.3.1. Thương mại điện tử.

Thuong mại điện tử (Electronic commerce hay eCommerce) là khái niệm được

dùng dé mơ tả q trình mua và bán hoặc trao đôi sản phẩm, dịch vụ thông qua manginternet. Khái niệm trên là kết hợp của thuật ngữ “Thương mại” được hiểu rộng rãi là

q trình trao đơi, giao dịch giữa các bên kinh doanh; và “điện tử” là các thiết bị điện

tử. Do vậy, thương mại điện tử có thể hiểu đơn giản là mua và bán hàng hoá, dịch vụ ở

trên mạng, thông qua các phương thức điện tử.

Với sự phát triển của mạng máy tính, các phương thức thanh tốn ngày càng trở

nên đa dạng và phơ biến, thương mại điện tử là một trong những thuật ngữ, những ngành

nghề trở nên phổ biến những năm gần đây ở Việt Nam nói riêng hay tồn thế giới nóichung. Những năm gần đây, những sàn thương mại điện tử ngày một mọc lên và phát

triển với tốc độ chóng mặt như Shopee, Lazada, Tiki,... với hàng triệu giao dịch hàng

ngày. Chính vì sự phát triển mạnh mẽ này kết hợp với cơ sở hạ tầng số ngày càng đượcđầu tư phát triển của nước ta hiện nay, các doanh nghiệp đã và đang giành sự quan tâmmạnh mẽ đến lĩnh vực này. Hiện nay khơng khó bắt gặp các kênh bán của những thươnghiệu nồi tiếng trên thế giới như Samsung, NVIDIA, LG,... trên các san thương mại điện

tử, một số bên cịn có riêng sàn cho riêng mình. Có thể nói, thương mại điện tử đã trởthành yếu tố xúc tác làm thay đổi cơ cấu hoạt động và quan lý của các tô chức.

1.3.2. Sàn thương mại điện tử.

Sàn thương mại điện tử được hiểu là một khơng gian mạng được mở ra nhằmmục đích giao bán những sản phẩm dich vụ từ đa dang các nhà cung cấp một cách trựctiếp đến người tiêu dùng. Mỗi ngày có đến hàng triệu các giao dịch được diễn ra trên

một sản thương mại điện tử lớn.

San thương mại điên tử mang đến nhiều loi ích cho người tiêu dùng. Đồng thời với hệthống giao hàng công nghệ được phát triển song song mạnh mẽ, người mua hàng có thểnhận hàng ở nơi mình mong muốn mà khơng tốn cơng sức đi lại. Chính vì vậy, đâychính là hình thức mua sắm được đây mạnh trong những năm vừa qua.

1.3.3. Nhà cung cấp trên sàn thương mại điện tử.

Nhà cung cấp trên sản thương mại điện tử là những các nhân hay tơ chức cungcấp hàng hố và tham gia bán hàng trên các sàn thương mại điện tử. Các bên nhà cung

cấp sẽ phải đồng ý với những chính sách cũng như chỉ phí, thuế suất phải trả cho sàn vànhà nước, cũng như phải đảm bảo nguồn cung hàng hoá và cung cấp hàng đúng thời

hạn cho bên vận chuyền.

12

</div>Trang 13<div class="page_container" data-page="13">

1.3.4. Người dùng trên sàn thương mại điện tử.

Nếu như nhà cung cấp trên sàn thương mại điện tử chính là người bán thì người

dùng trên sàn sẽ là người mua. Người dùng trên sàn được định danh bằng tài khoản cánhân hoặc một số trường hợp có thể là tài khoản dành riêng cho doanh nghiệp. Tàikhoản cá nhân của người dùng thông thường cần cung cấp đầy đủ các thông tin như têntuổi, số điện thoại, địa chỉ, email, số căn cước công dân, hộ chiếu hay mã số thuế tuỳ

vào các đối tượng khác nhau dé được hưởng day đủ chính sách của sàn. Người dùngtrong sàn thương mại điện tử là một đối tượng có khả năng xem và mua hàng, nhắn tincho người ban và dé lại những đánh giá về sản phẩm.

1.3.5. Đánh giá của người dùng.

Đánh giá của người dùng chính là những bình luận của người dùng về hàng hoáhay dịch vụ sau khi đã mua và trải nghiệm qua sản phẩm. Thường thì đánh giá của ngườitiêu dùng sẽ được chia làm 2 phần: phần bình luận (dạng văn bản) và phần điểm đánh

giá (thang đo định khoảng từ 0-10).

1.3.6. Nguồn dữ liệu trên Internet.

Với sự thúc day của Internet, nội dung do người dùng tạo (user-generated contenthay UI) ngày nay đã va dang phát triển nhanh chóng, đặc biệt là với sự lan rộng củaWeb 2.0 và ngày nay đã phát triển thành Web 3.0, ngoài việc chia sẻ kinh nghiệm củahọ, khách du lịch hiện có thé đưa ra các đề xuất cụ thé về khách sạn, nhà hàng và điểm

tham quan (Sotiriadis & van Zyl, 2013, Sparks & Browning, 2011; Vermeulen &

Seegers, 2009; Ye, Law, & Gu, 2009; Ye, Zhang, & Law, 2009). Do vay, đánh gia của

người dùng trực tuyến là một kênh quan trọng đã được chứng minh là một nguồn thơngtin có giá tri có thể hỗ trợ các nhà nghiên cứu xác định sở thích và nhu cầu của người

tiêu dùng (Chau & Xu, 2012; Chevalier & Mayzlin, 2006; Clemons, Gao, & Hitt, 2006;

Ghose & Ipeirotis, 2011; Liu, 2006; Ye, Law, Li, & Li, 2011). Các cá nhân mới có thédựa trực tiếp vào trải nghiệm của những người tiêu dùng trước đó khi mua sắm trựctuyến bằng cách bỏ qua các sản phẩm hoặc dịch vụ có đánh giá thấp hoặc mơ tả khơngrõ ràng, khơng chính xác, đặc biệt là đối với các sản phẩm có giá tri cao. Hơn nữa, mộtsố cơng ty tích cực khuyến khích người dùng của họ gửi ý kiến trực tuyến về sản phamhoặc dịch vụ của mình của băng cách gửi tặng các phiếu thưởng hoặc phiếu giảm giá.

Các ý kiến đánh giá của người dùng được coi là những phản hồi mang tính tựphát, “insightful” (sâu sắc) và “passionate” (đam mê) bởi người tiêu dùng, được cung

cấp rộng rãi, miễn phí hoặc chi phí thấp và có thé dé dàng truy cập moi lúc moi nơi

(guo2017). Các yếu tổ tiềm an từ người tiêu dùng có thé được nghiên cứu từ khối lượng

lớn các nội dung này. Kết quả là, số lượng các nghiên cứu sử dụng các đánh giá trựctuyến của người tiêu dùng ngày càng tăng trong thập trong kỷ qua (Clemons và cộng

sự, 2006; Dellarocas, Zhang, & Awad, 2007; Ho-Dac, Carson, & Moore, 2013). Các

13

</div>Trang 14<div class="page_container" data-page="14">

phương pháp khai thác ý kiến của người dùng đang được chuyên dần từ các phương

pháp điều tra/khảo sát tới tự động hoá dựa trên các đánh giá được người dùng cung cấp

trên mang. Do đó, các đánh giá trực tuyến ngày càng trở thành nguồn thông tin hữu ích

cho các doanh nghiệp.

1.4. Những vấn đề chung về các phương pháp phân loại văn bản.

1.4.1. Khoa học dữ liệu.

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác các khía cạnh

chuyên sâu của dữ liệu có ý nghĩa với các hoạt động kinh doanh. Đây là một lĩnh vực

nghiên cứu kết hợp nhiều nguyên tắc và phương pháp của các lĩnh vực khác nhau, trongđó chủ yếu là tốn học, thống kê và khoa học máy tính. Khoa học dữ liệu áp dụng cácngun lý, phép tốn của đại số tuyến tính, giải tích và các ngun lý xác suất thống kê;sau đó được lập trình và tính tốn trên máy tính nhằm phân tích những tập dữ liệu lớn

và phức tạp.

Về cơ bản, thống kê học và khoa học dữ liệu đều giải quyết bài tốn dữ liệu bằngcác mơ hình kết hợp giữa tốn và thống kê. Tuy nhiên, các mơ hình của thống kê sẽ đềcập nhiều hơn đến cả ý nghĩa của mơ hình cũng như giải thích các khía cạnh của bộ dữ

liệu. Mặt khác, các mơ hình của khoa học dữ liệu thường áp dụng các thuật tốn của

khoa học máy tính và được dựa trên nhiều giả định, sử dụng nhiều hàm ngẫu nhiên và

chỉ tập trung vào hiệu quả của mơ hình.

1.4.2. Xử lý ngơn ngữ tự nhiên.

Xử lý ngôn ngữ tự nhiên (Natural Languge Processing hay NLP) là một thuật

ngữ dé mô tả một nhánh của khoa học dữ liệu, cụ thé hơn là nhánh về trí tuệ nhân tạo(Artificial Intelligence hay AI), nghiên cứu về việc xây dựng các mơ hình hiểu được dữliệu dạng văn bản và lời nói giống với cách con người có thé hiểu được. Một số mơ hình

ngơn ngữ phổ biến hiện nay như GPT3.0 (sử dụng cho ChatGPT) hay BERT (mơ hìnhxử lý ngơn ngữ được Google công bố năm 2018),... đã cho thấy tiềm năng của lĩnh vực

NLP là sự kết hợp của thuật ngữ máy tính — các mơ hình dựa theo quy luật củangơn ngữ con người, với thống kê, học máy và các mơ hình học sâu. Những cơng nghệnày kết hợp lại giúp cho máy tính có thé xử lý được ngơn ngữ con người dưới định dạngvan bản (báo chí, bình luận,...) hay định dạng âm thanh (giọng nói) dé có thé hiểu đượcngữ nghĩa, từ đó đưa ra câu đối thoại thích ứng hay phân tích thái độ của người nói hay

14

</div>Trang 15<div class="page_container" data-page="15">

NLP có nhiều ứng dụng khác nhau như dịch đoạn văn bản này sang ngôn ngữkhác (bài toán dịch máy); phản hồi lại cuộc hội thoại (bài toán chat bot); đánh giá tháiđộ của các đánh giá, phản hồi của người dùng (bài toán phân tích cảm xúc) hay sinh ra

đoạn thơ, văn bản từ các cụm từ gợi ý của người dùng (bài toán sinh ngơn ngữ).1.4.3. Bài tốn Phân loại văn bản.

Phân loại văn ban (Text classification) là một bài toán trong bài tốn phân tích

thái độ của NLP. Sự phát triển của các mơ hình ngơn ngữ mạnh như BERT hay GPT đãkhiến NLP trở thành một công cụ quan trọng trong việc khai phá những khía cạnh quantrọng của dữ liệu từ các bài viết trên trang mạng xã hội, từ các phản hồi, đánh giá, nhận

xét,... Từ đó có thể nắm bắt cảm xúc của người dùng nhằm đưa ra các chiến lược xúc

tiễn, các thông tin giúp doanh nghiệp cải thiện sản phẩm, nam bat tép khach hang tiém

năng và hơn thê nữa.

Đề có thể xây dựng được một mơ hình phân loại văn bản hồn chỉnh, trước hết dữliệu cần được xử lý chin chu và được mã hố chính xác. Bài tốn phân loại văn bản gồm

các bước chính như sau:

- _ Tiền xử lý dữ liệu: chuẩn hoá văn bản, loại bỏ những ký tự và thông tin khôngcần thiết (tên, số điện thoại, đường dan,...), phân đoạn từ,...

- Vector hoá văn bản: đưa văn ban dạng chuỗi ký tự thành dang vector số thực mã

hoá các đặc trưng về ngữ nghĩa, chuỗi thứ tự.

- _ Xây dựng mơ hình: nghiên cứu và thử nghiệm nhằm đưa ra mô hinh tốt nhất dé

phân loại văn bản thành các nhãn khác nhau (tích cực/tiêu cực hay tích cực/trung

tuân theo thì biểu thức mới nhận diện được. Do vậy, RegEx hay được sử dụng để tìmkiếm các ký tự, chuỗi đặc biệt trong một chuỗi văn bản như số điện thoại, email, đườngdẫn URL,... Đó là những thơng tin khơng thực sự quan trọng với mơ hình NLP và cần

được loại bỏ đi dé tránh nhiễu mơ hình, quá tải bộ nho,...

15

</div>Trang 16<div class="page_container" data-page="16">

1.4.3.1.2. RDRsegmenter

Phân đoạn từ là một trong những bước đầu tiên và quan trọng nhất trong xử lý

ngôn ngữ Tiếng Việt. Không như tiếng Anh, dấu cách trong tiếng Việt không phải làmột dau hiệu rõ ràng dé ngăn cách các từ, bởi vì khi trong ngơn ngữ của chúng ta, nócịn được dùng dé cách giữa các âm tiết riêng biệt dé tạo thành một từ. Ví dụ, trong cụmtừ Trường Đại học Kinh tế Quốc dân, tiếng anh là National Economics University.

Tiếng Việt có tổng cộng 7 âm tiết ghép thành 4 từ (Trường / Dai_hoc / Kinh tế /

Quốc_ dân), tuy nhiên với tiếng Anh chỉ có 3 âm tiết ghép thành đúng 3 từ National /

Economics / University. Cu thé, tiéng Việt có đến 85% từ là tổ hợp của it nhất 2 âm tiết

và hơn 80% âm tiết có nghĩa khi đứng một minh (theo nghiên cứu của Quang Thang

Dinh va cộng sự (2008) và Oanh Thi Tran, Cuong Anh Le, Thuy Quang Ha (2010)).

Điều này khiến cho việc xử lý các văn bản tiếng Việt gặp nhiều khó khăn trở ngại.

Nhiều nghiên cứu trước kia đã được cơng bố dé giải quyết bài tốn phân đoạn từtiếng Việt, tuy nhiên vì cịn hạn chế về nhân lực cũng như công nghệ thời bây giờ nên

chưa đạt được nhiều hiệu quả cao. Mơ hình RDRsegmenter được cơng bố năm 2018 và

là một mơ hình mã nguồn mở thuận tiện cho việc nghiên cứu và phát triển. Mơ hìnhphân đoạn RDRsegmenter được sử dụng trong nhiều dự án NLP ở Việt Nam và điểnhình nhất được sử dụng trong phoBERT — mơ hình BERT được VinAI phát triển nhằmgiải quyết các bài toán NLP tiếng Việt. RDRsegmenter xây dựng cây phân loại lớp theo

quy tắc gon xuống (Single Classification Ripple Down Rules tree — SCRDR tree) được

phatt rién bới Compton va Jansen vào năm 1990 nhằm sửa lai các phân đoạn bị sai bang

hệ thống khớp phân đoạn từ dài nhất. Trên bảng so sánh kết quả trong nghiên cứu của

Nguyễn và cộng sự (2009), kết quả thực nghiệm cho thấy mơ hình RDRsegmenter chođược kết quả tốt hơn cả về tốc độ lẫn độ chính xác so với phương pháp JvnSegmenter

(Nguyễn và cộng sự - 2006), vnTokenizer (Lê và cộng sự - 2008), DongDu (Luu vàKazuhide — 2012) và UETsegmenter (Nguyễn và Lê — 2016).

RDRsegmenter sử dụng một cây SCRDR tự động dé sửa cái phân đoạn sai đượctạo ra từ một công cụ phân đoạn gốc. Dựa theo nghiên cứu của Nguyen và cộng sự(2006) và Tran và cộng sự (2010), mơ hình được đưa về dưới dạng tác vụ gán nhãn chocác âm tiết. Cụ thể, mỗi âm tiết được gán nhãn bằng B (Begin of a word-bắt đầu một

từ) hoặc I (Inside of a word-trong một từ).

16

</div>Trang 17<div class="page_container" data-page="17">

Mơ hình được huấn luyện trên bộ dữ liệu bao gồm các từ đã được phân đoạn thủcơng, ví dụ như “thuế _thu_nhập cá nhân” và được gan nhãn B/I như đã mô tả ở trên(ví dụ "th/B thư/I nhập/I cá/B nhân/I"). Sau đó, các nhà nghiên cứu trích xuất các âm

tiết để xây dựng bộ dữ liệu thơ (khơng có các nhãn phân đoạn B và I và sẽ trông giống

như "thuê thu nhập cá nhân").

Tan Initial Initialized

removal segmenter corpus

Hình 1. Sơ do về quy trình xây dung cây SCRDR của phương pháp RDRSegmenter

Dữ liệu phân đoạn sốc sau khi được gán nhãn sẽ được so sánh với bộ dữ liệuđược khởi tạo từ mơ hình dé tạo ra một chuỗi ngữ cảnh với 5 âm tiết mà mỗi cap giá tribao gom một chuỗi cửa số 5 âm tiết chạy theo văn bản cần phân đoạn được dự đoán

nhãn B/I và một nhãn B/I chuẩn.

Bang 1. Bang minh hoạ chuỗi ngữ cảnh với 5 âm tiết liền nhau

Tuple as key Value

co," thuế B.thu,B nhập D | BV

</div>Trang 18<div class="page_container" data-page="18">

Hinh 2. Cay SCRDR duoc khoi tao ban dau

Sau khi thuc hién du doan bang cây khởi tao, mơ hình sẽ tự xem xét và cap nhậpđiều kiện trong các nút và thêm nút mới, dựa trên bộ điều kiện sốc (rule templates) vàtrình chọn điều kiện (rule selector, được lập trình dựa trên các nguyên tắc cập nhật điều

kiện mà nhóm nghiên cứu đặt ra) .

Với cây SCRDR đã được huấn luyện, mơ hình RDRsegmenter thực hiện phân

đoạn từ trên văn bản chưa được phân đoạn như sau: Bộ phân đoạn ban dau sẽ lay văn

bản chưa được phân đoạn để tạo ra một văn bản khởi tạo dạng B/I. Tiếp theo, bang cachtrượt một cửa số có 5 van từ trái sang phải, một bộ giá tri được tạo ra cho mỗi van trongvăn bản khởi tạo; sau đó, cây SCRDR đã học sẽ lay bộ giá tri đó lam đầu vào dé trả vềmột nhãn phân đoạn cuối cùng cho vần tương ứng. Cuối cùng, đầu ra của quá trình gánnhãn này được chuyền đổi sang dạng biéu diễn truyền thống dựa trên dấu gạch dưới dé

phân cách các âm tiết trong từ, ví dụ “Trường Đại học Kinh tế Quốc dân” sau khi phânđoạn sẽ thành “Truong Dai_hoc Kinh tế Quốc dân”.

1.4.3.2. Vector hoá van bản với TF-IDF.

Vector hoá văn bản, hay nhúng văn ban (Word embedding) là một nhóm các kỹ

thuật đặc biệt trong xử lý ngơn ngữ tự nhiên nhăm ánh xạ một từ hay cụm từ trong mộtbộ từ vựng đến một vector số thực Các vector được mã hố tốt có thể thể hiện được

ngữ nghĩa của từ, thể hiện được cả những mối liên hệ về ngữ nghĩa (đồng nghĩa, trái

nghĩa,...). Hiện nay đã có nhiều mơ hình phơ biến dé vector hố văn bản như xây dựngma trận đồng xuất hiện, mạng thần kinh nhân tạo (Neural Network) với fast-text hayword2vec; mơ hình xác suất thống kê như TF-IDF.

TF-IDF (term frequency — inverse document frequency) là một phương pháp

thong kê dùng dé tính trọng số thé hiện mức độ quan trong của một từ trong một vanbản mà văn bản đang xét lại năm trên một tập hợp các văn bản.

Đây là một phương pháp xuất pháp từ thực tế rang trong bat kỳ ngơn ngữ nào,cũng có một nhóm các từ tuy ít những tần suất sử dụng lại rất nhiều. Phương pháp chỉ

18

</div>Trang 19<div class="page_container" data-page="19">

đơn giản tính tốn và kết hợp 2 trọng số TF (term frequency) va IDF (inverse document

frequency). Trong đó:

- TF: dùng dé ước lượng tần xuất xuất hiện của từ trong văn bản. Tuy nhiên vớimỗi văn ban thì có độ dài khác nhau, vì thế số lần xuất hiện của từ có thé nhiềuhơn. Vì vậy số lần xuất hiện của từ sẽ được chia độ dài của văn bản (tong số tir

trong văn ban đó).

nghĩa của đoạn van , ví dụ : Từ nối: và, nhưng, tuy nhiên, vì thế, vì vậy, ...; giới

từ: ở, trong, trên, ...; từ chỉ định: ay, đó, nhi, ...

Vì vậy ta cần giảm di mức độ quan trọng của những từ đó bang cách sử dung

1.4.3.3. Các mơ hình Phân loại văn bản.

Trong đó P(X) là xác suất xảy ra biến cố X, P(Y) là xác suất xảy ra biến cé Y,

P(XIY) là xác suất xảy ra Y khi biết Y, P(YIX) là xác suất xảy ra biến cố Y khi biết X.

19

</div>Trang 20<div class="page_container" data-page="20">

Trong bài tốn phân lớp, nêu biệt được xác suât xảy ra biên mục tiêu y = c từ cácbiên độc lap x, tức là tính được xác suât đê dau ra là lớp c khi biệt vector dau vào x, bài

tốn sẽ được giải quyết.

Việc tinh P(X) va P(Y) cũng vơ cùng dé dang vì đã cĩ đầy đủ dit liệu cần thiết.Tuy nhiên việc tính xác suất pŒIc) lại phức tạp hon nhiều do X là một biến ngẫu nhiênnhiều chiều và rất khĩ ước lượng phân phối. Do đĩ, dé tiện cho việc tính tốn, mơ hình

Naive Bayes được sinh ra với một giả định đơn giản:

c = are max‹ p(clx) = arg max. = arg max, p(xlc)p(c)

Trong lớp thứ k, các thành phan của biến ngẫu nhiên X là hồn tồn độc lập.

Giả thiết trên là vơ cùng khĩ chấp nhận vì ít nhiều, các thành phần trong vectorX vẫn cĩ sự tương quan với nhau. Tuy nhiên trên thực tế, mơ hình này vẫn được sửdụng rộng rãi vì tính đơn giản và vẫn cĩ hiệu quả trên một số bộ đữ liệu nhất định. Vớigiả định trên, xác suất P(XIc) cĩ thể được tính như sau:

p(xlc) = p(X1,X2,...,Xal €) = a p(x;\|c)

Các xác suất p(xilc) trong mơ hình được tính tốn bang phương pháp ước lượnghợp lý tối da (maximum likelihood estimation). Cĩ 3 cách tính tốn xác suất phố biếnhay được sử dụng là Gaussian Naive Bayes (Naive Bayes theo phân phối chuẩn),Multinomial Nạve Bayes (Nạve Bayes theo phân phối đa thức) và Bernoulli Nạve

Bayes (Naives Bayes theo phân phối Bernoulli).1.4.3.3.2. Hoi quy Logistic.

Phương trình hồi quy tương quan thơng thường chỉ cĩ thé được sử dụng khi biếnđầu ra là dạng tiêu thức số lượng. Tuy nhiên trong thực tế cĩ nhiều trường hợp mà kết

quả chỉ nhận 2 giá trị nhị phân là 0 và 1. Ví dụ trong bài tốn dự đốn cảm xúc củangười dùng dựa trên đánh giá trên Foody, biến kết quả chỉ nhận giá trị khơng hài lịng

và hài lịng với dịch vụ bán hàng. Do vậy, dé giải quyết bài tốn phân loại văn bản, cầnsử dụng đến mơ hình hồi quy Logistic.

Phương trình hồi quy don Logistic cĩ dạng:

log(T——) = bạ + byx

hay cĩ thé biến đổi thành dang:

20

</div>Trang 21<div class="page_container" data-page="21">

p(X) = 1+ebotbix

Trong đó bo, b; là các tham số trong phương trình.

Xác suât p(X) là xác suât mà biên cô y=1 xảy ra khi biệt bộ tham sơ mơ hình và

dữ liệu dau vào x.

Trên thực tế có nhiều biến độc lập nên việc tính tốn các tham số trong hồi quyLogistic là rất khó khăn. Dé tìm ra các tham số trong mơ hình hồi quy Logistic, phươngpháp thường được sử dụng là ước lượng hợp lý tối đa và được tối ưu bằng thuật toángradient descent (suy giảm đạo ham). Mơ hình hồi quy Logistic thường được tính tốntrên các phần mềm thống kê như SPSS, R, STATA,.. hay các cơng cụ lập trình phân

tích dữ liệu như Python, Java, R,...

1.4.3.3.3. SVM.

SVM (Support Vector Machine — Máy vector hỗ tro) là một cách tiếp cận chocác bài toán phân lớp được phát triển bởi cộng đồng khoa học máy tính vào những năm90 và đã phát triển mạnh mẽ từ đó. Mơ hình SVM đã chứng minh được hiệu năng củamình trong các bài tốn đa dạng, các bộ dữ liệu khác nhau và được cân nhắc là mộttrong những thuật tốn phân lớp tốt nhất.

SVM là mơ hình phát triển của một mơ hình cơ bản là maximal margin classifier(Phân lớp tối đa đường cận biên).

Phân lớp tối đa đường cận biên

21

</div>Trang 22<div class="page_container" data-page="22">

Ý tưởng của bài tốn này là tìm một siêu mặt phăng (một khơng gian con dạng

phăng của một không gian p chiều với kích thước p-1) sao cho siêu mặt phang đó phân

tách dữ liệu ra làm 2 phần khác nhau tương ứng với 2 nhãn trong bộ dữ liệu.

Hình 3. Hình minh hoa đường phân lớp trong bài toán dữ liệu phân cách tuyến tính

Ở vi dụ trên, dé thấy đường thang 1 + 2X1 +3X2 = 0 chính là siêu mặt phắngphân tách điểm dữ liệu đỏ và xanh trong bộ dit liệu. Trên thực tế, mơ hình phân lớp tối

đa đường cận biên được đưa về bài toán tối ưu đối ngẫu dé giải ra phương trình của siêumặt phẳng phân cách 2 điểm, sao cho khoảng cách của các điểm gần siêu mặt phăng tới

siêu mặt phăng là lớn nhất. Giả sử xét bộ đữ liệu 2 chiều với 2 nhãn sau đây:

22

</div>Trang 23<div class="page_container" data-page="23">

Hình 4 Hình minh hoạ phương pháp tối đa đường cận biên

WIxI + w2x2 + b chính là phương trình của đường thang phân cách 2 nhãn xanhđỏ trong bộ dữ liệu với w = (w1,w2) là vector chứa các tham số cần tìm và b là hằng sốtự đo. Ta có thê thay với điểm dữ liệu Xa = (xn,ya) bat kỳ, khoảng cách từ điểm đó đếnsiêu mặt phang là:

= arg TnaXwp { MiNn Vn (W' Xn + bt

Việc giải trực tiếp bai tốn này khá phức tạp, tuy nhiên có thé biến nó về thành

dạng đơn giản hơn như sau:

23

</div>Trang 24<div class="page_container" data-page="24">

(Ww, b) = arg min,» 5 |Iwilổ

Với điều kiện: 1 — y,(w7x, + b) < 0,Vn = 1,2,3,...,N

Ở đây, hàm mục tiêu đã trở thành hàm khả vi và là một norm của một vector, do

đó là một hàm lôi, các hàm bat đăng thức ràng buộc cũng là hàm lồi do là tuyến tínhtheo w và b. Bài toán trở thành một bài tối ưu lỗi dạng quy hoạch tồn phương(Quadratic Programming). Việc giải thủ cơng bài tốn này vẫn rất khó khăn, tuy nhiên

có thé sử dụng những cơng cu tìm nghiệm như excel, hay các thư viện của các ngơn

ngữ lập trình.

Phương pháp phân lớp tối đa đường cận biên có một nhược điểm vô cùng lớn là

chỉ áp dụng được cho các bài tốn mà dữ liệu phân cách tuyến tính (tức là tồn tại mộtsiêu mặt phẳng phân tách được 2 nhãn của bộ dữ liệu). Tuy nhiên, phần lớn bộ dữ liệu

trong thực tế đều không như vậy, nhất là các bộ dữ liệu nhiều biến, nhiều chiều. Mặcdù sau này đã có phương pháp soft-margin (cận biên mềm) giúp hỗ trợ giải bài toán trênvới bộ dữ liệu gần phân cách tuyến tính, tuy nhiên nhiều bộ dữ liệu có mối quan hệ phi

tuyến vẫn không thé giải quyết được bang phương pháp này. Do đó, các nhà nghiên cứuđưa ra kỹ thuật kernel — một ham sỐ thay thế cho các điểm đữ liệu trong bộ dữ liệu, tạora một bộ dữ liệu mới với mỗi vector X được thay thé bằng ®(X) với ®Q là hàm số

kernel, sao cho sau khi sang không gian mới, dữ liệu trở nên gần phân biệt tuyến tính.

Lúc này, nghiệm của Phương pháp phân lớp cận biên lớn nhất sẽ cho ra một bộ phânlớp tốt hơn. Phương pháp này được gọi là Kernel SVM. Sau đây là một số hàm Kernelthông dụng hay được sử dụng tuỳ vào nhu cầu bài toán và kiểm thử thực nghiệm như:

o_ x và z là 2 điểm dữ liệu trong bộ dữ liệu.

o dla bậc cua đa thức.

or và g là các siêu tham số-hyperparameters được điều chỉnh trong q

trình chạy mơ hình.

1.4.3.3.4. BERT.

BERT (Bidirectional Encoder Representations from Transformers - Mơ hình

biến đồi 2 chiều dùng trong xử lý ngôn ngữ) là một mô hình dai diện ngơn ngữ (language

24

</div>Trang 25<div class="page_container" data-page="25">

representation) được google công bố vào đầu thang 11 năm 2018. BERT được thiết kếđể tạo ra các vector đại diện cho ngôn ngữ văn bản thông qua ngữ cảnh 2 chiều (trái và

phải) của chúng. Các vector đại diện cho dt liệu van bản được sinh ra từ mơ hình BERT

được tinh chỉnh với các lớp đầu ra b6 sung nhằm tạo ra các mơ hình cải tiễn đáng ké

hơn cho các tác vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, phân loại văn bản,...

Mơ hình BERT ứng dụng kiến trúc mạng noron Transformers (mang bién déi)

được sử dung trong nhiều mơ hình kiến trúc hiện dai, điển hình nhất là BERT như trên

và GPT (Generative Pre-training Transformers), là mơ hình chatbot nổi tiếng gây ảnhhưởng mạnh đến cộng đồng gần đây. Mơ hình BERT là một mơ hình đơn giản và cótính ứng dụng cao, nó đã thu được kết quả 80.4% (cải thiện 7.6% so với mơ hình tốtnhất trước đó) trên bảng xếp hạng kết quả GLUE Benchmark và bộ dữ liệu SquAD v.1.1

cho tác vụ trả lời câu hỏi với điểm F1 trên tập dữ liệu test lên 93.2% (cải thiện 1.5%)và tốt hơn 2% so với con người. Mơ hình BERT thường được sử dụng theo 2 cách: lấy

mã nguồn về phát triển trên tập dữ liệu và nhu cầu riêng dựa trên kiến trúc cơ bản củaBERT (phoBERT, RoBERTa) hay fine-tuning (tinh chỉnh) mơ hình dé nó học đượcthêm cách xử lý tác vụ cần thiết.

Mơ hình BERT là một kiến trúc đa tầng gồm nhiều lớp Bidirectional Transformerencoder (lớp mã hoá biến đổi 2 chiều) dựa trên bản sốc được mô tả bởi Vaswani vacộng sự (2017) và được lấy trong thư viện tensor2tenssor.

Trong nghiên cứu gốc về BERT, kích thước mơ hình được mơ tả như sau:

Mơ hình BERTsasr có cùng kích thước với mơ hình GPT của OpenAI nhằm mục

đích so sánh. Mạng biến đổi trong BERT có khác biệt là sử dung mạng attention 2 chiều

trong khi Mạng biến đổi trong GPT (6 các phiên ban đầu tiên) là một chiều. Day có thécoi là một cải tiễn do trong một số câu, ý nghĩa của từ cịn ảnh hưởng bởi ngữ cảnh sau

nó. Ví dụ 2 câu sau:

- Tdi tìm “trường” cho con hoc.

- _ Tơi tìm “trường” trong bảng dữ liệu.

Chúng ta dé thay từ “trường” trong 2 câu trên có ý nghĩa hoàn toàn khác nhau

(“trường” trong “trường học” và “trường” để tạo cột trong một bảng của cơ sở dữ liệu)và nếu chỉ đơn giản xét ngữ cảnh phía bên trái (như cơ chế biến đổi 1 chiều) thì từ“trường” sẽ chỉ có được một ý nghĩa nhất định. Do đó cần phải xét cả ngữ cảnh bên phải

25

</div>Trang 26<div class="page_container" data-page="26">

thì mơ hình mới có khả năng sinh ra 2 vector biểu diễn riêng biệt cho 2 từ “trường” như

Mơ hình BERT được đào tạo trên bộ dữ liệu BooksCorrpus (800 triệu từ) (Zhu

và cộng sự, 2015) va English Wikipedia (2500 triệu từ), tổng cộng là 16GB dữ liệu. Vớibộ dữ liệu Wikipedia, các nhà nghiên cứu bóc tách phần văn bản và bỏ qua các danh

sách đề mục hay bảng tiêu đề.

Việc đào tạo BER TbBAs được thực hiện trên 4 Cloud TPUs với tổng cộng 16 chipTPUs. BERTiIAnoe được đào tạo trên 16 Cloud TPUs và tổng cộng 64 chip. Thời gianhuấn luyện vào khoảng 4 ngày. Bên cạnh đó, việc tinh chỉnh mơ hình BERT so với việchuấn luyện lại tồn bộ thi tốn ít phan cứng hay chi phí hơn. Tồn bộ các kết quả của bàinghiên cứu về BERT được chạy trong vòng | tiếng trên 1 Cloud TPU, cần it dit liệu vànhân lực hơn rất nhiều.

1.4.3.3.5. RoBERTa.

Mơ hình RoBERTa (Robustly Optimized BERT Pretraining Approach — tạm

dịch là Phuong pháp tiếp cận tiền đào tạo BERT được tối ưu vượt trội) là một mơ hìnhcải tiến của BERT được xây dựng bởi Facebook với một s6 các thay đổi như sau:

(i) Mô hình được huấn luyện lâu hơn, với nhiều dữ liệu và batches lớn hơn.

(ii) Loại bỏ phan dự đoán câu tiếp theo của BERT.

(ii) Huan luyện trên các chuỗi dài hơn.

(iv) _ Chỉnh sửa phần các mẫu 4n đi trong phan Mơ hình ngơn ngữ an.

Ngồi ra, bộ dữ liệu dùng dé huấn luyện mơ hình RoBERTa cũng lớn hơn so với

BERT với các bộ dữ liệu sau được sử dụng:

- BookCorpus (Zhu và cộng sự, 2015) và Wikipedia tiếng Anh. Day là phần dữliệu dùng dé huấn luyện BERT (16GB).

- CC-News, được thu thập từ phần dữ liệu tiếng Anh từ Bộ dữ liệu báo

CommonCrawl (Nagel, 2016). Bộ dữ liệu bao gồm 63 triệu đầu báo tiếng Anhtừ tháng 9/2016 đến tháng 2/2019 (76GB).

- OpenWebText (Gokaslan và Cohen, 2019), là bộ dữ liệu mã nguồn mở lấy từ bộWebText (Radford và cộng sự, 2019). Dữ liệu được trích xuất từ các bài đăng

được chia sẻ trên mạng xã hội Reddit với 3 upvotes đồ lên (38GB).

- Stories, bộ dữ liệu được công bồ với Trinh và Le (2018), chứa một phần của bộdữ liệu CommonCrawl gồm những văn bản gần với những câu truyện (31GB).Tổng cộng bộ dữ liệu để huấn luyện RoBERTa lên đến hơn 160GB dữ liệu vănbản. Mơ hình được huấn luyện sau khi thay đơi một chút về kiến trúc mơ hình BERTnhư đã nêu ở trên cùng với tinh chỉnh các siêu tham số của thuật toán tối ưu Adam, cụthé giảm 2 xuống 0.98 dé tăng sự 6n định khi huấn luyện với kích cỡ batch lớn hơn.

26

</div>Trang 27<div class="page_container" data-page="27">

Ngồi ra khác với BERT, RoBERTa không huấn luyện bang cách sử dụng những câungắn hay giảm chiều dài của câu đi mà huấn luyện thăng với những câu đầy đủ độ dài.RoBERTa được huấn luyện trên hệ thống máy tính DGX-1, mỗi máy có 8 GPU Nvidia

VI00 với dung lượng 32GB, được kết nối với nhau bang giao thức Infiniband

(Micikevicius và cộng sự, 2018).

RoBERTa chứng minh sự vượt trội cua mình so với mơ hình tiền nhiệm BERT

và đạt được kết quả cao hơn rất nhiều. Dưới đây là một số kết quả của BERT và

RoBERTa trên một số bài toán NLP quan trọng:

e GLUE Benchmark: BERT đã đạt được kết quả tốt nhất trên GLUEbenchmark khi ra mắt và RoBERTa đã cải thiện kết quả của BERT trêntất cả các tác vụ trong GLUE. Cụ thể, BERT đã đạt được độ chính xác

80,4% trên GLUE và RoBERTa đã đạt được 88,5%.

® SQuAD: SQuAD là một tập dữ liệu về hỏi đáp dựa trên văn bản và địi

hỏi mơ hình trả lời các câu hỏi dựa trên thơng tin có trong văn bản. BERT

đã đạt được kết quả tốt nhất trên SQuAD với độ chính xác 93,2%, cịn

RoBER Ta đã đạt được 96,4% độ chính xác trên SQUAD.

e SuperGLUE: SuperGLUE là một tập dữ liệu lớn hơn GLUE và bao gồm

các tác vụ phức tạp hơn. BERT đã đạt được độ chính xác 88,4% trênSuperGLUE và RoBERTa đã dat được 90,9% độ chính xác.

1.4.3.3.6. PhoBERT.

PhoBERT (“Phở” BERT) là phiên ban BERT được xây dung cho các tác vụ xử

lý ngôn ngữ dành riêng cho tiêng Việt và được dựa trên kiến trúc của mơ hình ROBERTacủa VinAI cơng bố vào năm 2020. Cũng giống như BERT, PhoBERT có 2 phiên ban

PhoBERTpasz và PhoBERTLAnor. Theo như tác giả Dat Quoc Nguyen và Anh Tuan

Nguyen, có 2 khó khăn khi xây dựng bộ mơ hình ngơn ngữ tiếng Việt:

- Wikipedia tiếng Việt là bộ dir liệu duy nhất để huấn luyện mơ hình đơn ngơn

ngữ (Vu và cộng sự, 2019), và đó cũng là bộ dit liệu tiếng Việt duy nhất được sửdụng đề huấn luyện các mơ hình đa ngơn ngữ trên thế giới (trừ XLM-r). Rõ rànglà không đáng ké do bộ dữ liệu Wikipedia tiếng Việt rat nhỏ (chỉ khoảng 1GB —theo bài nghiên cứu về PhoBERT, so với khoảng 18.9 GB là kích thước của bộdữ liệu Wikipedia tiếng Anh — số liệu lay từ tháng 12/2020 trên Google). Trongkhi cần nhiều dữ liệu hơn dé tăng kết quả của mơ hình ngơn ngữ.

- _ Tiếng Việt có nhiều phần có cấu trúc phức tạp hơn so với tiếng Anh. Điển hìnhlà dau cách trong tiếng Việt cịn dùng dé phân cách các âm tiết trong 1 từ, khôngphải là công cụ phân tách các từ mạnh như trong tiếng Anh (như đã đề cập ở mục

Phân đoạn từ). Do đó nêu khơng tiến hành phân đoạn từ, sẽ rất khó dé huấn luyệnđược một mơ hình đơn ngơn ngữ tốt dành riêng cho tiếng Việt.

27

</div>Trang 28<div class="page_container" data-page="28">

Nhăm giải quyết van dé đầu tiên, nhóm của tác giả sử dụng thêm một bộ dữ liệuđược lẫy từ các trang tin tức của Việt Nam sau khi loại bỏ các tiêu đề trùng lặp (khoảng19GB), kết hợp với bộ dữ liệu từ Wikipedia tiếng Việt (1GB). Tổng cộng là 20GB dữliệu, phù hợp cho quá trình huấn luyện mơ hình ngơn ngữ. Tiếp đến là vấn đề phân

đoạn, PhoBERT sử dụng RDRSegmenter (Nguyen và cộng sự, 2018) trong gói

VnCoreNLP (Vu và cộng sự, 2018) được mơ tả ở phần trên. Tác giả tiễn hành phân

đoạn từ cho khoảng 145 triệu câu (khoảng 3 ty token từ). Khác với RoBERTa,

PhoBERT áp dụng fastBPE (Sennrich và cộng sự, 2016) để phân khúc các câu với cácphụ từ. Bộ từ điển được dùng bao gồm 64000 phụ từ. Trung bình mỗi câu có khoảng

24.4 phụ từ.

Mơ hình PhoBERT được triển khai dựa trên mơ hình RoBERTa trước đó được

phát triển bởi Facebook. Mơ hình được tối ưu bởi thuật tốn Adam dựa theo nghiên cứucủa Liu và cộng sự (2019) với kích thước batch là 1024 và tốc độ học tối đa = 0.0004cho PhoBERTsasz ; bên cạnh đó, kích thước batch là 512 với tốc độ học tối đa = 0.0002cho PhoBERT;arce. Mơ hình được huấn luyện trên 4 chiếc GPU V100 (dung lượng

16GB mỗi chiếc) với 40 epochs (vòng lặp). Mơ hình PhoBERTaase được huấn luyệntrong 3 tuần và PhoBERTLano được huấn luyện trong 5 tuần.

PhoBERT là một phiên bản tiếng Việt của mơ hình BERT được dao tạo trên mộttập dữ liệu tiếng Việt lớn. PhoBERT đã đạt được kết quả rất ấn tượng trên nhiều bài

toán tiếng Việt, trong đó bao gồm các bộ dữ liệu sau:

e VNTC: VNTC là một tập dữ liệu lớn về phân loại văn bản tiếng Việt.PhoBERT đã đạt được độ chính xác 92,1% trên VNTC, vượt qua kết quảcủa các mô hình tiếng Việt khác.

e VLSP 2018: VLSP 2018 là một cuộc thi phân loại ý kiến tiếng Việt trêncác bài báo điện tử. PhoBERT đã đạt được kết quả tốt nhất trên VLSP

2018, với độ chính xác 90,2%.

e XNLI Việt Nam: XNLI là một tập dữ liệu về dịch máy đa ngôn ngữ. XNLIViệt Nam là phiên bản tiếng Việt của XNLI. PhoBERT đã đạt được độchính xác 81,4% trên XNLI Việt Nam, vượt qua kết quả của các mô hình

đa ngơn ngữ khác.

e PMB-QA: PMB-QA là một tập dữ liệu về hỏi đáp văn bản tiếng Việt.

PhoBERT đã dat được kết quả tốt nhất trên PMB-QA, với độ chính xác

</div>Trang 29<div class="page_container" data-page="29">

nhà nghiên cứu cũng như phát triển trí tuệ nhân tạo. PyTorch cung cấp nhiều giải phápcho các mơ hình học sâu (deep learning) với kiểu đữ liệu tensor phù hợp trong việc lưu

trữ các mảng dữ liệu lớn. Chính vì vậy, PyTorch đã nhanh chóng trở thành một trong

những bộ công cụ mạnh mẽ nhất cho các nhà phát triển khoa học dữ liệu và trí tuệ nhân

tạo, bên cạnh Keras hay Tensorflow.

PyTorch tích hợp các lớp trong các mạng noron cơ bản như LSTM, CNN, ReLU,

Sigmoid, Softmax Regression,... Đồng thời tự động tính tốn các trọng số bằng cách

sử dụng tài nguyên máy tính như GPU (Graphic Processing Unit - Bộ xử lý đồ hoạ,CPU (Central Processing Unit - Bộ xử lý trung tâm). Hiện nay ở Việt Nam có nhiềudoanh nghiệp lớn sử dụng PyTorch trong quá trình nghiên cứu cũng như phát triển sảnphẩm của mình như Viettel, VinAI, VinBigData, FPT,...

1.4.3.4.2. Scikit-learn.

Nếu như PyTorch là cơng cụ tích hợp nhiều các mơ hình hay kiểu dữ liệu phục

vụ cho trí tuệ nhân tạo thì Scikit-learn tích hợp các mơ hình học máy và khai phá dữ

liệu như Decison Tree (cây quyết định), hồi quy Logistic, SVM, KNN.... Scikit-learnlà một bộ công cụ mã nguồn mở đơn giản và hiệu quả cho phân tích dữ liệu và có thểđược sử dụng cho nhiều các bối cảnh khác nhau. Scikit-learn được xây dựng dựa trên

các thư viên Numpy (thư viện chuyên về xử lý dit liệu dạng mang), SciPy (thư viện vềtoán học) và Matplotlib (thư viện về trực quan hoá dữ liệu). Tất cả đều được xây dựng

trên nền ngôn ngữ C/C++ hoặc Matlab dé tối ưu tốc độ tính tốn nhưng van sử dụngcấu trúc câu lệnh Python đơn giản.

1.4.3.4.3. Hugging Face.

Hugging Face là một hệ sinh thái tích hop các mơ hình NLP đã huấn luyện sẵnnhư BERT, RoBERTA, phoBERT,... Đây là một hệ sinh thái mã nguồn mở hoàn toànmiễn phí được đón nhận và sử dụng rộng rãi trong cộng đồng nghiên cứu về NLP vớiđa dang các mô hình nổi tiếng liên quan tới mơ hình transformers (mơ hình biến đơi),nhiều các bộ dữ liệu cơng khai, cơng cụ tách từ được tích hợp san, và các tinh năng hỗtrợ tăng tốc mơ hình tích hợp với PyTorch, sử dụng phần cứng như CPU hay GPU déhuấn luyện.

Các mơ hình huấn luyện sẵn trên Hugging Face có thé sử dụng dé tinh chỉnh(fine-tuning: sử dụng sẵn kiến thức từ mơ hình này và tinh chỉnh lại để giúp mơ hìnhhọc được một tác vụ tương đồng) hay học chuyền giao (transfer learning: sử dụng kiénthức từ mơ hình này va bô sung dtr liệu khác dé giúp mô hình hoc được tác vu khác).Trong bài nghiên cứu này, kỹ thuật fine-tuning sẽ được sử dụng nhằm giúp mô hình

29

</div>Trang 30<div class="page_container" data-page="30">

phoBERT được huấn luyện sẵn bởi VinAI “học” thêm kỹ năng dự đoán thái độ củangười dùng từ những đánh giá trên trang đặt đồ ăn Foody.

30

</div>