Tải bản đầy đủ (.pdf) (44 trang)

MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (938 KB, 44 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Minh Tươi

MƠ HÌNH HĨA CHỦ ĐỀ SUỐT ĐỜI VÀ
ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thơng tin

HÀ NỘI - 2018

HÀ NỘI - 2018


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Minh Tươi

MƠ HÌNH HĨA CHỦ ĐỀ SUỐT ĐỜI VÀ
ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thơng tin

Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy


Cán bộ đồng hướng dẫn: TS. Phạm Thị Ngân

HÀ NỘI - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả được trình bày trong khóa luận này do tơi thực hiện dưới
sự hướng dẫn của PGS. TS. Hà Quang Thụy và TS. Phạm Thị Ngân.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách
rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, khơng có việc
sao chép tài liệu, cơng trình nghiên cứu của người khác mà khơng chỉ rõ về tài liệu tham
khảo.
Hà Nội, ngày 26 tháng 04 năm 2018
Người cam đoan

Trần Thị Minh Tươi

i


LỜI CẢM ƠN
Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất đến PGS. TS. Hà Quang Thụy
và TS. Phạm Thị Ngân, những người đã trực tiếp tận tình chỉ bảo và hướng dẫn tơi từ
những ngày đầu tiên bước chân vào lĩnh vực nghiên cứu này. Thầy, Cô luôn là động lực
và nguồn cảm hứng lớn lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong suốt
quá trình học tập và tham gia nghiên cứu tại trường Đại học Công nghệ - Đại học Quốc
gia Hà Nội.
Tôi xin gửi lời cảm ơn đến các quý Thầy, Cô giáo thuộc trường Đại học Công
nghệ - Đại học Quốc gia Hà Nội nói chung, và khoa Cơng nghệ thơng tin nói riêng, đã
truyền đạt nhiều kiến thức quý báu và tạo điều kiện học tập thuận lợi cho tôi trong suốt

bốn năm đại học.
Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các anh chị, các
bạn và các em sinh viên thuộc phịng thí nghiệm Khoa học dữ liệu và Cơng nghệ tri
thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội,
đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ trợ tơi rất nhiệt tình về cả kiến
thức chun mơn, vật chất và tinh thần để tơi có thể hồn thành tốt khóa luận này.
Cuối cùng, tơi gửi lời cảm ơn sâu sắc tới gia đình và bạn bè của tôi, những người luôn
đồng hành, ủng hộ và động viên tơi để tơi có thể vượt qua nhiều thử thách và khó khăn
trong cuộc sống.
Tơi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 04 năm 2018
Sinh viên

Trần Thị Minh Tươi

ii


TĨM TẮT
Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng
tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề của các
mơ hình học máy cơ lập như: địi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm
vụ hẹp và xác định…
Mục đích chính của khóa luận này là nghiên cứu giải thuật mơ hình hóa chủ đề suốt đời
AMC (Z. Chen và B. Liu, 2014), qua đó đề xuất một phương pháp mơ hình hóa chủ đề suốt đời
học thiên mức miền và sử dụng mơ hình chủ đề suốt đời vào bài tốn phân lớp đa nhãn văn bản
tiếng Việt.
Phương pháp đề xuất bao gồm hai pha chính: (1) mơ hình hóa chủ đề suốt đời và (2)
phân lớp đa nhãn. Tại pha thứ nhất, ý tưởng cơ bản là chỉ sử dụng các miền gần trong việc sinh
mơ hình chủ đề. Các miền gần được xác định thông qua một độ tương tự giữa hai chủ đề. Tại

pha thứ hai, một giải thuật phân lớp đa nhãn bán giám sát được sử dụng để đánh giá đóng góp
của mơ hình chủ đề đề xuất trong phân lớp đa nhãn. Mơ hình chủ đề sinh từ pha (1) được dùng
để biểu diễn đặc trưng trong phân lớp đa nhãn.
Một vài thực nghiệm được thực hiện trên miền dữ liệu tiếng Việt và một giải thuật phân
lớp đa nhãn MULTICS (Pham và cộng sự, 2017). Dữ liệu thực nghiệm được chia thành các tập
có kích thước từ nhỏ tới lớn nhằm khai thác sự ảnh hưởng của mơ hình đề xuất lên một tập dữ
liệu nhỏ - vấn đề có ý nghĩa quan trọng trong học suốt đời. Các kịch bản thực nghiệm so sánh
hiệu suất của phương pháp đề xuất với các phương pháp mơ hình chủ đề khác như LDA, AMC.
Kết quả thực nghiệm cho thấy phương pháp đề xuất tốt hơn phương pháp LDA và AMC trong
mọi trường hợp.
Từ khóa: học máy suốt đời, chủ đề suốt đời, miền gần, chủ đề gần, học thiên mức miền, độ đo
tương tự của hai túi từ, phân lớp đa nhãn

iii


MỤC LỤC
LỜI CAM ĐOAN .................................................................................................... i
LỜI CẢM ƠN ......................................................................................................... ii
TÓM TẮT ..............................................................................................................iii
MỤC LỤC ............................................................................................................... iv
DANH SÁCH THUẬT NGỮ ................................................................................ vii
DANH SÁCH HÌNH VẼ....................................................................................... viii
DANH SÁCH BẢNG .............................................................................................. ix
MỞ ĐẦU .................................................................................................................. 1
CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA
NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT ........................................................... 3
1.1.

Học máy suốt đời ....................................................................................... 3


1.1.1.

Định nghĩa LML .................................................................................. 3

1.1.2.

Mô hình học máy suốt đời.................................................................... 4

1.2.

Phân lớp đa nhãn ........................................................................................ 5

1.3.

Sơ bộ bài tốn trong khóa luận .................................................................. 6

CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS.......................... 8
2.1.

Mơ hình chủ đề suốt đời ............................................................................ 8

2.1.1.

Mơ hình chủ đề ..................................................................................... 8

2.1.2.

Mơ hình chủ đề suốt đời ....................................................................... 9


2.1.3.

Must-Links và Cannot-Links ............................................................... 9

2.2.

Mô hình chủ đề ẩn LDA .......................................................................... 10

2.3.

Mơ hình chủ đề suốt đời AMC ................................................................ 11

2.3.1.

Tổng quan về AMC ............................................................................ 11

2.3.2.

Mô hình AMC .................................................................................... 14
iv


2.4.

Thuật toán phân lớp đa nhãn bán giám sát MULTICS ............................ 15

2.4.1.

Phân lớp đa nhãn bán giám sát ........................................................... 15


2.4.2.

Thuật toán phân lớp đa nhãn bán giám sát MULTICS ...................... 15

2.5.

TF-IDF ..................................................................................................... 18

2.5.1.

TF (term-frequency) ........................................................................... 19

2.5.2.

IDF (inverse document frequency) .................................................... 19

Tóm tắt chương ................................................................................................... 19
CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT ....................................................... 20
3.1.

Xây dựng bài toán .................................................................................... 20

3.2.

Xác định miền gần ................................................................................... 20

3.2.1.

Độ đo tương tự của hai túi từ ............................................................. 20


3.2.2.

Chủ đề gần .......................................................................................... 21

3.2.3.

Xác định miền gần ............................................................................. 21

3.3.

Phương pháp mơ hình hóa chủ đề suốt đời đề xuất ................................. 22

3.4.

Phân lớp đa nhãn văn bản tiếng Việt áp dụng chủ đề suốt đời ................ 23

Tóm tắt chương ................................................................................................... 24
CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ................................................. 25
4.1.

Tập dữ liệu ............................................................................................... 25

4.2.

Các kịch bản thực nghiệm và đánh giá .................................................... 26

4.3.

Kết quả thực nghiệm và đánh giá ............................................................ 27


4.1.1. Đánh giá chất lượng chủ đề của mơ hình đề xuất với chủ đề của các
mơ hình LDA, AMC ........................................................................................ 28
4.1.2. Đánh giá hiệu suất phân lớp đa nhãn sử dụng mơ hình chủ đề đề
xuất với các mơ hình chủ đề LDA, AMC ........................................................ 28
Tóm tắt chương ................................................................................................... 30
KẾT LUẬN ........................................................................................................... 31
Kết luận ............................................................................................................... 31
v


Các công việc trong tương lai ............................................................................. 31
TÀI LIỆU THAM KHẢO.................................................................................... 32

vi


DANH SÁCH THUẬT NGỮ
Từ hoặc cụm từ

Từ viết tắt

Knowledge Base (Hệ cơ sở tri thức)

KB

Trí tuệ nhân tạo

AI

Học máy suốt đời


LML

Term Frequency - Inverse Document Frequency

TF-IDF

vii


DANH SÁCH HÌNH VẼ
Hình 1.1. Mơ hình học máy suốt đời…………………………………………………….4
Hình 1.2. Mơ hình tổng quan bài tốn…………………………………………………..6
Hình 2.1. Mơ hình AMC………………………………………………………………14
Hình 2.2. Khung phân lớp đa nhãn bán giám sát với việc giảm và làm giàu đặc trưng…16
Hình 3.1. Mơ hình chủ đề suốt đời đề xuất……………………………………………..22
Hình 3.2. Mơ hình phân lớp đa nhãn văn bản tiếng Việt sử dụng chủ đề suốt đời……...24

viii


DANH SÁCH BẢNG

Bảng 4.1. Các tập dữ liệu thực nghiệm .........................................................................25
Bảng 4.2. Số liệu kiểm tra miền gần .............................................................................28
Bảng 4.3. Kết quả các kịch bản thực nghiệm ................................................................ 29

ix



MỞ ĐẦU
Hiện nay, khoa học cơng nghệ đang có những bước phát triển mạnh mẽ với nhiều
thành tựu vượt bậc trong lĩnh vực trí thơng minh nhân tạo, sự phát triển đó đồng nghĩa
với việc địi hỏi một nền tảng tri thức ngày càng thơng minh hơn, do đó khả năng học
tựa như con người càng trở nên quan trọng. Học máy suốt đời chính là một giải pháp
cho vấn đề đó.
Theo Z.Chen và B.Liu [1], học máy suốt đời là một mơ hình học máy tiên tiến,
học liên tục, tích lũy tri thức học được trong quá khứ và sử dụng chúng cho việc học
trong tương lai. Trong quá trình này, máy học ngày càng trở nên hiệu quả và hiểu biết
hơn. Khả năng học tập này chính là một trong những điểm nổi bật của trí tuệ con người.
Trong chương “The construct of general intelligence” của [2], Loyd Humphreys chỉ ra
rằng trí thơng minh là kết quả của q trình tiếp thu, lưu trữ, trích xuất, kết hợp, so sánh
và sử dụng trong bối cảnh thông tin và kĩ năng tư duy mới. Như vậy, học máy suốt đời
có thể mang lại trí thơng minh thực sự cho hệ thống. Hiện nay, học máy suốt đời đã
được ứng dụng trong một số lĩnh vực trí thơng minh nhân tạo và xử lí ngơn ngữ tự nhiên
như chatbot, trợ lí thơng minh, robot vật lý…
Mặc dù đã mang lại những đột phá nhất định trong khoa học công nghệ, nhưng
ứng dụng của học máy suốt đời trong khai phá văn bản tiếng Việt vẫn là một bài toán
khá mới. Đặc biệt, trong một số hoạt động kinh doanh, việc khai phá các đánh giá của
người dùng là một công việc quan trọng trong quá trình cải tiến, phát triển của doanh
nghiệp.
Trong khóa luận này, tơi đề xuất một phương pháp mơ hình hóa chủ đề suốt đời
học thiên mức miền và ứng dụng vào phân lớp đa nhãn văn bản tiếng Việt trên miền dữ
liệu khách sạn.
Mơ hình hóa chủ đề suốt đời là một phương pháp học không giám sát suốt đời.
KB là nơi lưu trữ các mô hình chủ đề học được từ các nhiệm vụ trong quá khứ. Khi học
một nhiệm vụ mới, các tri thức “phù hợp” trong KB được trích xuất để giúp mơ hình
hóa chủ đề của tập dữ liệu hiện tại, mơ hình chủ đề kết quả được lưu vào KB phục vụ
cho các nhiệm vụ học trong tương lai. Tri thức “phù hợp” được nêu trong bài toán là tri
thức của các miền gần với miền hiện tại.

Một phương pháp phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
MULTICS [4] được sử dụng trong bài toán để đánh giá hiệu quả của phương pháp đề
xuất. Tuy nhiên MULTICS[4] sử dụng mơ hình chủ đề ẩn cơ lập để biểu diễn các đặc

1


trưng phân lớp, khóa luận đề xuất sử dụng mơ hình chủ đề suốt đời thay thế cho mơ hình
chủ đề cơ lập trong phân lớp đa nhãn.
Nội dung khóa luận bao gồm các phần:
Chương 1: Trình bày tổng quan về học máy suốt đời và phân lớp đa nhãn và sơ
lược bài tốn đề xuất trong khóa luận.
Chương 2: Trình bày những nội dung cơ bản và trọng tâm nhất về các lý thuyết
và công nghệ được sử dụng trong bài tốn như: mơ hình chủ đề suốt đời, mơ hình chủ
đề ẩn LDA, mơ hình chủ đề suốt đời AMC, thuật toán phân lớp đa nhãn MULTICS.
Chương 3: Trình bày chi tiết về phương pháp đề xuất
Chương 4: Trình bày về quá trình thực nghiệm, kết quả thực nghiệm và đánh giá
phương pháp đề xuất.
Phần kết luận: Tóm lược các vấn đề đã giải quyết trong khóa luận và định hướng
phát triển trong tương lai.

2


CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN
LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT
1.1.

Học máy suốt đời
Học máy suốt đời được đề xuất vào năm 1996 bởi S. Thrun và T. M. Mitchell [6,


7] và nổi lên trong những năm gần đây nhờ vào khả năng sử dụng tri thức học được
trong quá khứ cho việc học trong tương lai. Có thể thấy q trình học này mô phỏng
cách học của con người, giải quyết được một số vấn đề hạn chế mà học máy cơ lập mang
lại như: địi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm vụ hẹp và xác
định. Theo Z.Chen và B.Liu [1], học máy suốt đời có ba đặc điểm chính: (i) là một q
trình học liên tục, (ii) tích lũy và duy trì tri thức đã học, (iii) sử dụng tri thức đã học
trong quá khứ cho việc học trong tương lai.
Như vậy quá trình học suốt đời là một chuỗi các nhiệm vụ có thể khơng bao giờ
kết thúc, trong q trình đó bộ học (learner) trở nên thơng minh hơn và học ngày một
tốt hơn. Nghiên cứu về học suốt đời có thể mang lại những tiến bộ lớn đối với sự phát
triển của trí thơng minh nhân tạo.
1.1.1. Định nghĩa LML
Một định nghĩa học suốt đời được đưa ra bởi Fei và cộng sự [14], Shu và cộng
sự [15, 16] như sau:
Học suốt đời là một quá trình học liên tục. Vào một thời điểm bất kì, bộ học biểu
diễn một chuỗi N nhiệm vụ học 𝑇1 , 𝑇2 , … , 𝑇𝑁 . Các nhiệm vụ đó được gọi là nhiệm vụ
quá khứ với các tập dữ liệu tương ứng là 𝐷1 , 𝐷2 , … , 𝐷𝑁 . Các tri thức học được từ các
nhiệm vụ quá khứ được gọi là tri thức quá khứ, được lưu trữ trong KB.
Khi có một nhiệm vụ thứ (N+1) 𝑇𝑁+1 (được gọi là nhiệm vụ mới hay nhiệm vụ
hiện tại) với tập dữ liệu tương ứng 𝐷𝑁+1 , bộ học có thể sử dụng tri thức quá khứ trong
KB để giúp học 𝑇𝑁+1 .
Mục tiêu của LML thường là tối ưu hiệu suất trên 𝑇𝑁+1 , nhưng nó có thể tối ưu
trên bất kì nhiệm vụ nào bằng cách coi phần còn lại của các nhiệm vụ như các nhiệm vụ
quá khứ, giả sử LML có thể coi 𝑇𝑁 là nhiệm vụ hiện tại và các nhiệm vụ còn lại:
𝑇1 , 𝑇2 , … , 𝑇𝑁−1 là các nhiệm vụ quá khứ. Sau khi hoàn thành việc học 𝑇𝑁+1 , các tri thức

3



thu được (ví dụ như các kết quả trung gian hay kết quả cuối cùng) được cập nhật và lưu
trữ trong KB.
1.1.2. Mơ hình học máy suốt đời

Hình 1.1. Mơ hình học máy suốt đời
Mơ hình học máy suốt đời được mơ tả như Hình 1.1 gồm các thành phần [1]:
(1) KB: là nơi lưu trữ tri thức quá khứ, có thể bao gồm một số thành phần con:
-

Nơi lưu trữ thông tin quá khứ (PIS): Lưu trữ thông tin từ quá trình học trước. Tùy
vào nhiệm vụ học hay thuật tốn mà PIS có thể bao gồm các kho thông tin con
như: (i) dữ liệu được sử dụng trong nhiệm vụ trước, (ii) kết quả trung gian trong
nhiệm vụ trước, (iii) kết quả cuối cùng từ nhiệm vụ trước.

-

Bộ khai phá siêu tri thức (MKM): Thực hiện việc khai phá ở mức cao hơn các tri
thức trong PIS và trong MKS. Kết quả được lưu trong MKS.
Nơi lưu trữ siêu tri thức (MKS): Nơi lưu trữ các tri thức được củng cố hoặc khai
phá từ PIS và KMS.
Knowledge Reasoner (KR): Suy luận tri thức trong MKS và PIS để sinh ra nhiều
tri thức hơn.

-

4


(2) Bộ học dựa trên tri thức (KBL): trong học máy suốt đời học dựa trên tri
thức quá khứ là vấn đề cốt lõi. KBL có thể củng cố tri thức trong KB để học nhiệm vụ

mới. KBL gồm hai thành phần con:
-

TKM: khai phá, xác định những tri thức phù hợp với nhiệm vụ hiện tại từ những

-

thông tin, tri thức thô trong KB.
Sau khi đã khai phá những tri thức phù hợp với nhiệm vụ học hiện tại, máy học
có thể sử dụng những tri thức đó vào việc học.

(3) Đầu ra: Là kết quả của quá trình học, kết quả có thể là một mơ hình dự đốn,
bộ phân lớp trong học có giám sát hay các cụm, chủ đề trong học không giám sát.
(4) Task Manager: Tiếp nhận và quản lí các nhiệm vụ đầu vào của hệ thống, xử
lí sự thay đổi các nhiệm vụ và chuyển nhiệm vụ học mới tới KBL để bắt đầu tiến trình
học.
1.2.

Phân lớp đa nhãn
Phân lớp đa nhãn là nhiệm vụ gán từng phần tử đã cho vào một tập các lớp được

xác định trước, trong một miền dữ liệu, ở đó một phần tử có thể thuộc nhiều lớp khác
nhau cùng một lúc [4].
Theo Zhi-Hua Zhou và cộng sự [11], phân lớp đa nhãn được phát biểu như sau:
Cho X 𝜖 ℝ𝑛 biểu thị một không gian phần tử n chiều và Y = {𝑦1 , 𝑦2 , … , 𝑦𝑞 } biểu
thị không gian nhãn gồm q nhãn lớp. Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2𝑌
từ dữ liệu huấn luyện đa nhãn D = {(𝑥𝑖 , 𝑌𝑖 |1 ≤ 𝑖 ≤ 𝑚), trong đó với mỗi phần tử (𝑥𝑖 , 𝑌𝑖 ),
𝑥𝑖 ∈ X là một véc tơ đặc trưng n chiều 𝑥𝑖 = (𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑛 ) và 𝑌𝑖 ⊆ Y là tập các nhãn
của 𝑥𝑖 . Với một phần tử mới x ∈ X, hàm số f(.) trả về f(x) là một tập các nhãn dự đoán
cho x.

Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như
phân loại văn bản, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein
(Zhang & Zincir-Heywood, 2005), phân lớp âm nhạc (Li & Ogihara, 2003)…
Hiện nay, các phương pháp phân lớp đa nhãn được phân thành hai loại chính là
các phương pháp chuyển đổi vấn đề và các phương pháp thích nghi thuật tốn. Trong
pha áp dụng mơ hình chủ đề đề xuất vào phân lớp đa nhãn văn bản tiếng Việt, khóa luận
5


sử dụng một phương pháp phân lớp dựa trên thích nghi thuật tốn sẽ được trình bày tại
chương kế tiếp.
1.3.

Sơ bộ bài tốn trong khóa luận
Các tri thức học được trong quá khứ là vô cùng quý giá, được xem như là cơ sở

giúp con người trở nên thông minh hơn, hiểu biết hơn, có cái nhìn chính xác hơn về các
vấn đề xung quanh; trong học máy suốt đời, các tri thức học được từ các nhiệm vụ trong
quá khứ cũng mang ý nghĩa tương tự đối với các bộ học.
Trong khố luận này, tơi xin đề xuất một phương pháp sử dụng học máy suốt đời:
mơ hình hố chủ đề suốt đời, tận dụng tri thức quá khứ giúp sinh các chủ đề tốt hơn,
nhằm nâng cao hiệu suất mơ hình phân lớp đa nhãn văn bản tiếng Việt.
Tuy nhiên, khố luận khơng sử dụng tri thức q khứ từ tất cả các miền để mơ
hình hố chủ đề của nhiệm vụ hiện tại, mà chỉ sử dụng tri thức quá khứ từ các miền gần
với miền hiện tại (miền của nhiệm vụ hiện tại). Phương pháp xác định miền gần sẽ được
giới thiệu trong chương 3.
Bài toán: Mơ hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa nhãn văn bản tiếng
Việt.
Bài toán đề xuất gồm hai pha được mơ tả như trong Hình 1.2:
Pha 1. Mơ hình hóa chủ đề suốt đời: dựa trên phương pháp AMC [2], tuy nhiên áp

dụng miền gần trong mơ hình chủ đề suốt đời.
Pha 2. Phân lớp đa nhãn: áp dụng mơ hình chủ đề suốt đời sinh từ pha 1 để biểu diễn
các đặc trưng trong phân lớp đa nhãn MULTICS [3], xem xét ảnh hưởng của chủ đề
suốt đời trong hiệu suất của phân lớp đa nhãn văn bản tiếng Việt.

Hình 1.2. Mơ hình tổng quan của bài toán
6


Tóm tắt chương
Chương 1 đã trình bày những kiến thức tổng quan về học máy suốt đời, phân lớp đa
nhãn, đồng thời giới thiệu sơ bộ về bài toán đưa ra trong khóa luận.
Chương tiếp theo sẽ trình bày về cơ sở lý thuyết và các công nghệ đã được áp dụng để
giải quyết bài tốn đưa ra trong khóa luận này.

7


CHƯƠNG 2. CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS
2.1.

Mơ hình chủ đề suốt đời

2.1.1. Mơ hình chủ đề
Mơ hình hố chủ đề là công cụ để khai phá văn bản, giúp khám phá cấu trúc ngữ
nghĩa ẩn của một văn bản. Một chủ đề ẩn được biểu diễn bởi một cụm các từ thường
xun xuất hiện cùng nhau. Các mơ hình chủ đề coi rằng mỗi văn bản là một phân phối
đa thức trên các chủ đề, mỗi chủ đề là một phân phối đa thức trên các từ. Do đó, có hai
loại phân phối đa thức trong mơ hình chủ đề là phân phối văn bản – chủ đề và phân phối
chủ đề - từ.

Kể từ khi được đề xuất lần đầu tiên, mơ hình chủ đề đã nhận được rất nhiều chú
ý và thu hút sự quan tâm rộng rãi của các nhà nghiên cứu trong nhiều lĩnh vực. Cho đến
nay, bên cạnh việc khai phá văn bản, mô hình chủ đề cũng mang lại nhiều ứng dụng
thành cơng trong các lĩnh vực thị giác máy tính, tin sinh học, di truyền học quần thể và
mạng xã hội.
Tuy nhiên, mơ hình chủ đề là mơ hình học khơng giám sát có xu hướng sinh ra
các chủ đề khó hiểu. Nguyên nhân chính là do các hàm mục tiêu của các mơ hình chủ
đề khơng phải lúc nào cũng phù hợp với đánh giá của con người. Để giải quyết vấn đề
này chúng ta có thể sử dụng các phương pháp sau [1]:
(1) Tạo ra các chủ đề tốt hơn: Phương pháp này khả thi khi có một lượng lớn các
văn bản, vì mơ hình hố chủ đề là phương pháp học không giám sát và số lượng văn bản
nhỏ sẽ không đủ để cung cấp số liệu thống kê tin cậy cho mơ hình.
(2) u cầu người dùng cung cấp tri thức miền quá khứ: Phương pháp này yêu
cầu người dùng hoặc một chuyên gia miền cung cấp một số tri thức miền quá khứ. Tri
thức có thể ở dạng must-links hay cannot-links. Tuy nhiên trong thực tế, việc yêu cầu
người dùng cung cấp tri thức quá khứ là một vấn đề khơng đơn giản, bởi người dùng có
thể không biết tri thức nào để cung cấp hoặc không phải tất cả tri thức do người dùng
cung cấp đề đúng, đồng thời nó làm cho phương pháp này khơng được tự động.
(3) Sử dụng mơ hình chủ đề suốt đời: Phương pháp này sử dụng LML trong
mơ hình hố chủ đề. Thay vì yêu cầu người dùng cung cấp tri thức, tri thức quá khứ
được học và tích lũy một cách tự động trong q trình mơ hình hóa chủ đề của các nhiệm
vụ quá khứ. Đây cũng là phương pháp được sử dụng trong khoá luận.
8


2.1.2. Mơ hình chủ đề suốt đời
Một số mơ hình chủ đề cô lập như LDA[8], pLSA[9] được sử dụng rộng rãi trong
việc trích xuất chủ đề từ các văn bản. Tuy nhiên, các mơ hình này có một số hạn chế của
học khơng giám sát được trình bày ở phần trước, trong đó có yêu cầu một lượng lớn dữ
liệu để cung cấp các số liệu thống kê tin cậy. Trong thực tế, có rất ít tập dữ liệu lớn. Do

đó, địi hỏi một phương pháp mơ hình hóa chủ đề có thể hoạt động tốt hơn, thậm chí trên
các tập dữ liệu nhỏ - phương pháp mơ hình hóa chủ đề suốt đời.
Ý tưởng của mơ hình hóa chủ đề suốt đời là trích xuất tri thức từ các chủ đề kết
quả của các miền dữ liệu hoặc nhiệm vụ q khứ, sử dụng cho q trình mơ hình hóa
chủ đề của miền dữ liệu hoặc nhiệm vụ hiện tại. Mơ hình hóa chủ đề suốt đời bao gồm
các bước chính:
Bước 1. Cho N tập dữ liệu D = {𝐷𝑖 |i=1, 2, …, N} từ N miền, chạy một mơ hình
chủ đề cơ lập (ví dụ: LDA) trên mỗi tập 𝐷𝑖 thuộc D sinh ra tập các chủ đề tương ứng
𝑇𝑜𝑝𝑖𝑐𝑠𝑖 . Các chủ đề này được gọi là các p-chủ đề (chủ đề quá khứ).
Bước 2. Một KB gồm tập các tri thức quá khứ được khai phá từ tất cả các p-chủ
đề trong S=∪𝑖 𝑆𝑖 .
Bước 3. Tri thức quá khứ trong KB được sử dụng để giúp sinh chủ đề cho tập dữ
liệu hiện tại. Các chủ đề kết quả tiếp tục được khai phá và tích hợp trong KB để sử dụng
cho các nhiệm vụ mơ hình hố chủ đề tiếp theo trong tương lai.
2.1.3. Must-Links và Cannot-Links
Must-links và cannot-links là hai dạng tri thức trong mơ hình chủ đề suốt đời.
Must-links và cannot-links được sinh ra từ các mơ hình chủ đề q khứ, lưu trữ trong
KB và sử dụng trong mơ hình chủ đề mới, giúp sinh ra các chủ đề chặt chẽ hơn. Một
must-link có nghĩa là hai từ nên thuộc cùng một chủ đề, ví dụ “giá” và “đắt”. Một cannotlink có nghĩa là hai từ khơng nên thuộc cùng một chủ đề, ví dụ “máy_tính” và “mưa”.
Cho một ví dụ các đánh giá thuộc ba miền. Một mơ hình chủ đề cô lập được sử
dụng để sinh các tập chủ đề ở mỗi miền. Mỗi miền có một chủ đề giả sử là dịch vụ. Dưới
đây là top bốn từ có xác suất cao nhất trong chủ đề dịch vụ của từng miền:
- Miền 1: lễ_tân, xa, ngon, nhân_viên
- Miền 2: nhân_viên, chu_đáo, lễ_tân, phong_phú
- Miền 3: nhân_viên, cũ, chu_đáo, thân_thiện
9


Nếu chúng ta chú ý tới những từ xuất hiện cùng nhau ở ít nhất hai miền, ta sẽ tìm
thấy các tập:

{lễ_tân, nhân_viên}, {nhân_viên, chu_đáo}.
Các từ trong mỗi tập trên dường như thuộc cùng một chủ đề, khi đó các tập trên
được gọi là must-links. Vì vậy, must-links là một tập các từ có liên hệ nhau về mặt ngữ
nghĩa, thường xuyên xuất hiện cùng nhau trong một chủ đề, đồng thời ta cũng có thể
thấy cannot-links là một khái niệm ngược lại chỉ tập các từ khơng có liên hệ về mặt ngữ
nghĩa, ví dụ máy tính và mưa.
2.2.

Mơ hình chủ đề ẩn LDA
LDA là mơ hình xác suất sinh mẫu của một tập văn bản. Ý tưởng cơ bản là trong

LDA, các văn bản được biểu diễn dưới dạng hỗ hợp ngẫu nhiên các chủ đề ẩn, trong đó
mỗi chủ đề được đặc tả bởi một phân phối từ.
Quá trinh sinh mẫu của LDA cho mỗi văn bản w thuộc tập văn bản D được biểu
diễn như sau [8]:
(1) Chọn N ~ Poisson(𝜉)
(2) Chọn 𝜃 ~ Dir(𝛼)
(3) Với mỗi từ 𝑤𝑛 trong N words:
(a) Chọn một chủ đề 𝑧𝑛 ~ Đa thức(𝜃)
(b) Chọn một từ 𝑤𝑛 từ p(𝑤𝑛 |𝑧𝑛 , 𝛽), một xác suất đa thức ở trạng thái chủ đề 𝑧𝑛
Trong đó:
-

N là độ dài của văn bản

-

𝜃 = (𝜃1 , 𝜃2 , … , 𝜃𝑘 ) là xác suất mà một từ được chọn ngẫu nhiên trong w thuộc
chủ đề i, i = {1, 2, …, k}


-

Poisson(𝜉) là phân phối Poisson với tham số 𝜉 (𝜉: số thực dương)

-

Dir(𝛼) là phân phối Dirichlet ẩn với tham số 𝛼 (𝛼: một véc tơ các số thực dương)

Một số giả thiết đơn giản hóa được thực hiện trong mơ hình cơ bản này như sau.
Kích thước k của phân phối Dirichlet (là kích thước của biến chủ đề z) được cho trước
10


và cố định. Các xác suất của từ được tham số hóa bởi một ma trận 𝛽 (k x V) chiều, 𝛽𝑖𝑗
= 𝑝(𝑤 𝑗 = 1|𝑧 𝑖 = 1).
Một biến Dirichlet k chiều ngẫu nhiên 𝜃 có thể nhận các giá trị trong đơn hình
(k – 1) (một k-véc tơ 𝜃 nằm trong đơn hình (k – 1) nếu 𝜃𝑖 ≥ 0, ∑𝑘𝑖=1 𝜃𝑖 = 1) và có mật
độ xác suất trên đơn hình này như sau:
𝑝 (𝜃 | 𝛼 ) =

Γ(∑𝑘𝑖=1 𝛼𝑖 ) 𝛼1 −1
𝛼 −1
𝜃
… 𝜃𝑘 𝑘
∏𝑘𝑖=1 Γ(𝛼𝑖 ) 1

Trong đó tham số 𝛼 là một k-véc tơ với các thành phần 𝛼𝑖 > 0, và Γ(x) là hàm
Gamma.
Cho các tham số 𝛼 và 𝛽, một phân phối chung của một hỗn hợp chủ đề 𝜃, một
tập N chủ đề z và một tập N từ w, ta có:

𝑁

𝑝(𝜃, 𝑧, 𝑤|𝛼, 𝛽 ) = 𝑝(𝜃|𝛼) ∏ 𝑝(𝑧𝑛 |𝜃)𝑝(𝑤𝑛 |𝑧𝑛 , 𝛽)
𝑛=1

Trong đó, 𝑝(𝑧𝑛 |𝜃) là 𝜃𝑖 với i duy nhất mà 𝑧𝑛𝑖 = 1. Tích hợp trên 𝜃 và tổng hợp
trên z, chúng ta thu được phân phối biên của một văn bản như sau:
𝑁

𝑝(𝑤 |𝛼, 𝛽 ) = ∫ 𝑝(𝜃 |𝛼)(∏ ∑ 𝑝(𝑧𝑛 |𝜃)𝑝(𝑤𝑛 |𝑧𝑛 , 𝛽))𝑑𝜃
𝑛=1 𝑧𝑛

Cuối cùng, lấy kết quả các xác suất biên của các văn bản đơn lẻ, thu được xác
suất của một tập văn bản:
𝑀

𝑁𝑑

𝑝(𝐷 |𝛼, 𝛽 ) = ∏ ∫ 𝑝(𝜃𝑑 |𝛼)(∏ ∑ 𝑝(𝑧𝑑𝑛 |𝜃𝑑 )𝑝(𝑤𝑑𝑛 |𝑧𝑑𝑛 , 𝛽))𝑑𝜃𝑑
𝑑=1

2.3.

𝑛=1 𝑧𝑑𝑛

Mơ hình chủ đề suốt đời AMC

2.3.1. Tổng quan về AMC
AMC là một mơ hình chủ đề suốt đời được đề xuất bởi Z.Chen và B.Liu [2].


11


Một số phương pháp mơ hình chủ đề như DF-LDA [18], MC-LDA [19] có thể
sử dụng cả hai dạng tri thức must-links và cannot-links để giúp sinh các chủ đề tốt hơn.
Tuy nhiên tri thức must-links và cannot-links được sử dụng trong hai phương pháp trên
được cung cấp bởi người dung, được giả định rằng chúng đều đúng và không có xung
đột, tuy nhiên các giả định này là khơng chính xác [8]. LTM [20] là một mơ hình chủ đề
suốt đời đầu tiên, tuy nhiên LTM mới chỉ xem xét các must-links.
AMC là phương pháp mơ hình chủ đề tự động, khơng có sự can thiệp của con
người, do đó có thể giải quyết được vấn đề tính chính xác của tri thức do người dùng
cung cấp. AMC sử dụng tri thức thu được từ các miền dữ liệu trong q khứ giúp mơ
hình chủ đề trên miền hiện tại, vì vậy thay vì cần sử dụng một tập dữ liệu lớn (hiếm có
trong thực tiễn) như các mơ hình chủ đề cơ lập, AMC có thể sử dụng các tập dữ liệu nhỏ
(có nhiều trong thực tiễn). AMC xem xét đồng thời hai dạng tri thức must-links, cannotlinks, và khai phá tri thức must-links tốt hơn LTM qua việc giải quyết được một số vấn
đề khó khăn có thể gặp phải trong quá trình sinh tri thức must-links và cannot-links như
đa ngữ nghĩa: một từ có thể có nhiều nghĩa, ví dụ từ đồng có nhiều nghĩa, có thể là ruộng
đồng, đồng tiền, đồng thau…, tri thức không thích hợp: bởi khơng phải tất cả các mustlinks đều đúng với tất cả các miền, ví dụ, một must-link {cao, rẻ} đúng trong miền giá
cả nhưng không đúng trong miền hình dạng…
AMC khai phá tri thức must-links bằng cách sử dụng thuật tốn MS-FIM [21] để
tìm các tập mục thường xuyên, trong phạm vi ngữ cảnh bài toán, các tập mục thường
xuyên là các tập gồm hai từ thường xuyên xuất hiện cùng nhau trong các p-chủ đề và
các tập mục này được sử dụng như là các must-links. MS-FIM được phát triển dựa trên
kĩ thuật khai phá tập mục thường xuyên FIM, tuy nhiên nếu như FIM sử dụng một độ
hỗ trợ tối thiểu (minsupp) duy nhất thì MS-FIM sử dụng nhiều minsupp. MS-FIM được
mô tả tổng quát như sau:
Cho một tập các giao dịch T, mỗi giao dịch 𝑡𝑖 ∈ T là một tập mục từ một tập mục
toàn cục I: 𝑡𝑖 ⊆ 𝐼. Trong ngữ cảnh bài toán, 𝑡𝑖 là một véc tơ chủ đề gồm top 𝑀 từ có xác
suất xảy ra nhất của một chủ đề (khơng đính kèm xác suất). Khi đó, một mục trong giao


12


dịch 𝑡𝑖 là một từ trong véc tơ chủ đề 𝑡𝑖 . Do vậy T chính là tập các p-chủ đề trong KB S
và I là tập các từ trong S.
Mỗi mục (từ) được cung cấp một độ hỗ trợ tập mục tối thiểu (MIS). Độ hỗ trợ tối
thiểu (minsupp) mà một tập mục cần thỏa mãn là không cố định, nó phụ thuộc vào giá
trị MIS của tất cả các mục trong một tập mục. MS-FIM cũng có một ràng buộc khác là
ràng buộc SDC – ràng buộc khác nhau về độ hỗ trợ, thể hiện yêu cầu rằng các độ hỗ trợ
của các mục trong một tập mục không được quá khác nhau.
MIS và SDC đã giải quyết được các ngược điểm của thuật toán FIM cổ điển khi
FIM chỉ sử dụng một minuspp duy nhất. Các chủ đề khác nhau có thể có tần suất rất
khác nhau. Với một minsupp duy nhất, khi đặt minsupp quá thấp, sẽ tạo các tập mục
thường xuyên giả mạo (kết quả là các must-links sai) và nếu đặt minsupp quá cao chúng
ta có thể khơng tìm được bất cứ must-links nào từ các chủ đề có tần suất thấp, do đó có
thể bỏ lỡ nhiều tri thức must-links.
Trong AMC, hai từ 𝑤1 , 𝑤2 trong mỗi chủ đề hiện tại tạo thành một cannot-links
nếu thoả mãn hai điều kiện sau[2]:
𝑁𝑑𝑖𝑓𝑓
𝑁𝑑𝑖𝑓𝑓 + 𝑁𝑠ℎ𝑎𝑟𝑒

≥ 𝜋𝑐

Ndiff ≥ 𝜋𝑑𝑖𝑓𝑓
Trong đó: - Ndiff là số miền quá khứ mà hai từ w1 và w2 thuộc các p-chủ đề khác nhau
- Nshare là số miền quá khứ mà w1 và w2 thuộc cùng một p-chủ đề
- Ndiff/(Nshare + Ndiff) được gọi là độ hỗ trợ
- 𝜋𝑑𝑖𝑓𝑓 và 𝜋𝑐 là hai ngưỡng cho trước.

13



2.3.2. Mơ hình AMC

Hình 2.1. Mơ hình AMC
Mơ hình AMC được biểu diễn như Hình 2.3, và được mơ tả chi tiết sau đây:
Pha 1 – Khởi tạo:
Các nhiệm vụ quá khứ 𝑇1 , 𝑇2 , … , 𝑇𝑛 với các tập dữ liệu tương ứng 𝐷 = {𝐷1 , 𝐷2 , … , 𝐷𝑛 }
của n miền. Áp dụng mơ hình LDA cho từng tập 𝐷𝑖 ∈ 𝐷 để sinh tập các p-chủ đề
𝑇𝑜𝑝𝑖𝑐𝑠𝑖 tương ứng. Gọi S = ∪𝑖 𝑆𝑖 là các tập p-chủ đề được sử dụng để mơ hình hóa chủ
đề mới. Một tập must-links M được khai phá từ S.
Pha 2 – Học suốt đời với AMC:
Nhiệm vụ hiện tại 𝑇𝑁+1 với tập dữ liệu 𝐷𝑁+1 . Pha này sử dụng AMC[2] để sinh tập các
chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 từ 𝐷𝑁+1 được gọi là các c-chủ đề (chủ đề hiện tại). Thuật tốn AMC
được mơ tả như sau đây, trong đó, N là số vịng lặp lấy mẫu GibbsSampling(.)
(GibbsSampling(.) được giới thiệu trong [2]).
14


×