ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Hoàng Tuấn Long
NGHIÊN CỨU VÀ XÂY DỰNG
PHƯƠNG PHÁP PHÁT HIỆN CÁC BÀI VIẾT
CÓ NỘI DUNG PHẢN ĐỘNG
LUẬN VĂN THẠC SĨ CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TP. HỒ CHÍ MINH - NĂM 2017
ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Hoàng Tuấn Long
NGHIÊN CỨU VÀ XÂY DỰNG
PHƯƠNG PHÁP PHÁT HIỆN CÁC BÀI VIẾT
CÓ NỘI DUNG PHẢN ĐỘNG
LUẬN VĂN THẠC SĨ CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Ngô Thanh Hùng
TP. HỒ CHÍ MINH - NĂM 2017
LỜI CẢM ƠN
Trong quá trình học tập và làm luận văn tốt nghiệp cao học, được sự giúp
đỡ của quý thầy, cô giáo trường Đại học Công nghệ thông tin, đặc biệt là thầy
TS. Ngô Thanh Hùng, sự góp ý của các nhà khoa học, các nhà quản lý, bạn bè,
đồng nghiệp và cùng sự nỗ lực của bản thân. Đến nay, tác giả đã hoàn thành luận
văn thạc sĩ với đề tài luận văn: “Nghiên cứu và xây dựng phương pháp phát
hiện các bài viết có nội dung phản động” chuyên ngành Khoa học máy tính.
Các kết quả đạt được là những đóng góp nhỏ về mặt khoa học cũng như thực
tiễn trong việc phát hiện được các bài viết phản động. Tuy nhiên, trong khuôn
khổ luận văn, do điều kiện thời gian và trình độ có hạn nên không thể tránh khỏi
những thiếu sót. Tác giả rất mong nhận được những lời chỉ bảo và góp ý của quý
thầy, cô giáo.
Tác giả bày tỏ lòng biết ơn sâu sắc tới thầy TS. Ngô Thanh Hùng đã hướng
dẫn, chỉ bảo tận tình và cung cấp các kiến thức khoa học cần thiết trong quá trình
thực hiện luận văn. Xin chân thành cảm ơn quý thầy, cô giáo thuộc Khoa Khoa học
máy tính, phòng Đào tạo Sau Đại học trường Đại học Công nghệ thông tin đã tạo
mọi điều kiện thuận lợi cho tác giả hoàn thành tốt luận văn thạc sĩ của mình.
Tác giả chân thành cảm ơn các cán bộ công tác tại tại trường Đại học
CSND, đã tạo điều kiện cung cấp các tài liệu liên quan và giúp đỡ tác giả hoàn
thành luận văn.
TP. Hồ Chí Minh, ngày 01 tháng 08 năm 2017
Học viên
Hoàng Tuấn Long
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.
Học viên
Hoàng Tuấn Long
MỤC LỤC
Số trang
Trang phụ bìa
Lời cảm ơn
Lời cam đoan
Mục lục………………………………………………………………... 1
Danh mục các ký hiệu và chữ viết tắt…………………………………
3
Danh mục các bảng…………………………………………………… 4
Danh mục các hình vẽ, đồ thị…………………………………………
5
Chương 1. MỞ ĐẦU…………………………………………………
6
Chương 2. CƠ SỞ THỰC TIỄN VÀ LÝ THUYẾT.………………… 10
2.1. Tìm hiểu về hoạt động tuyên truyền các bài viết chứa nội dung có
yếu tố phản động...……………………………………………………. 10
2.1.1. Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố
phản động……………………………………………………………... 10
2.1.2. Một số quan điểm, chính sách của Đảng, Nhà nước trong công
tác đấu tranh với hoạt động này…………………………………
11
2.1.3. Một số khó khăn, thách thức trong công tác này……………. 12
2.2. Phương pháp để xác định nội dung bài viết có yếu tố phản động... 13
2.2.1. Phương pháp chuyên gia…………………………………….
13
2.2.2. Phương pháp phát hiện thông qua các cụm từ đặc trưng……. 15
2.2.3. Kỹ thuật phân lớp văn bản sử dụng các phương pháp phân tích
ngữ pháp.………………………………………………………….
16
2.2.4. Kỹ thuật phân lớp văn bản sử dụng các phương pháp máy học
thống kê…………………………………………………………...
19
2.2.5. Giới thiệu về Apache Spark, GraphX và Scrapy……………. 20
2.3. Kết luận…………………………………………………………... 24
Chương 3. PHÂN TÍCH THIẾT KẾ THUẬT TOÁN VÀ HỆ THỐNG 25
3.1. Ý tưởng cấu trúc dữ liệu và thuật toán…………………………… 25
3.2. Mô tả thuật toán………………………………………………….
1
28
3.3. Thuật giải xác định bài viết chứa nội dung có yếu tố phản động… 30
3.4. Hệ thống mở rộng tập các bộ ba dựa trên VietWordNet…………
32
3.5. Hệ thống tích hợp rút trích và phân tích bài viết…………………
33
Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ………………………… 36
4.1. Môi trường hiện thực hóa thuật toán và hệ thống………………..
36
4.2. Môi trường thử nghiệm…………………………………………..
36
4.3. Dữ liệu thử nghiệm………………………………………………
36
4.4. Kết quả thử nghiệm………………………………………………
37
4.5. Đánh giá kết quả………………………………………………….
38
4.6. Kết luận…………………………………………………………..
40
Chương 5. KẾT LUẬN VÀ KIẾN NGHỊ……………………………
41
5.1. Kết luận…………………………………………………………..
41
5.2. Kiến nghị…………………………………………………………. 43
DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ……………... 44
TÀI LIỆU THAM KHẢO…………………………………………….. 45
PHỤ LỤC……………………………………………………………... 48
2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
CSVN
: Cộng sản Việt Nam
LAS
: Labeled Attachment Score
LDA
: Latent Dirichlet Allocation
RDD
: Resilient Distributed Dataset
TBCN
: Tư bản chủ nghĩa
UAS
: Unlabeled Attachment Score
VietWordNet : Mạng từ tiếng Việt
XHCN
: Xã hội chủ nghĩa
3
DANH MỤC CÁC BẢNG
Số hiệu bảng
Tên bảng
Trang
4.1
Kết quả và thời gian chạy phân tán với tập bộ ba thủ công
38
4.2
Kết quả và thời gian chạy phân tán với tập bộ ba mở rộng
38
4.3
Kết quả thực nghiệm với tập bộ ba thủ công
39
4.4
Kết quả thực nghiệm với tập bộ ba mở rộng
39
4
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Số hiệu hình
Tên hình
Trang
2.1
Cấu trúc bộ ba chứa các phần tử bộ ba với thuộc tính của chúng
18
2.2
Mô hình hoạt động phân tán của Apache Spark
21
2.3
Mô tả luồng dữ liệu thực hiện trong Scrapy
23
3.1
Mô tả thực hiện phân tán
30
3.2
Minh hoạ hệ thống trong thời gian chờ thực hiện
34
3.3
Minh hoạ hệ thống trong thời gian thực hiện rút trích
35
3.4
Minh hoạ hệ thống trong thời gian thực hiện phân tích bài viết
35
3.5
Minh hoạ lựa chọn Stop Crawl and Process
35
4.1
Mô tả chạy phân tán với 1 worker
37
4.2
Mô tả chạy phân tán với 5 worker
37
5
Chương 1
MỞ ĐẦU
* Lý do lựa chọn đề tài:
Ngày nay, Internet đã trở thành phương tiện giúp việc truyền đạt, trao đổi
thông tin, hợp tác, giao lưu… giữa mọi cá nhân, tổ chức và quốc gia trên khắp hành
tinh diễn ra nhanh chóng và cực kỳ tiện ích, góp phần vào sự phát triển của quyền
tự do ngôn luận trên toàn thế giới. Với sự hiện diện của công nghệ thông tin và
truyền thông, thông tin do cá nhân thực hiện quyền tự do ngôn luận gửi đến xã hội
trở nên thần tốc với tốc độ mà tin tức từ bên kia trái đất có thể tới bên này trái đất
chỉ sau ít phút. Mọi người đều có quyền bình đẳng như nhau, có thể bày tỏ ý kiến
của mình trên các diễn đàn, bình luận về vấn đề liên quan đến pháp luật và việc
quản lý nhà nước. Mọi người có cơ hội được trao đổi, thảo luận, chia sẻ buồn vui,
bày tỏ ý kiến và học hỏi kinh nghiệm khi tham gia các diễn đàn. Chính vì vậy,
Internet giúp cho mọi người trên toàn thế giới gần gũi nhau hơn, là đòn bẩy giúp
phát huy sức mạnh cộng đồng, trong đó có sức mạnh của những người trẻ, góp
phần xây dựng và phát triển kinh tế tri thức.
Chính những lợi ích mà Internet mang lại kể trên sẽ là nguồn động lực quan
trọng để thúc đẩy nền kinh tế nước nhà phát triển. Tuy nhiên, điều này cũng tiềm ẩn
những yếu tố đe dọa an ninh quốc gia, trật tự, an toàn xã hội, điển hình là tình trạng
các thế lực thù địch phản động sử dụng mạng Internet để tuyên truyền, đưa thông tin
“thật giả, lẫn lộn” nhằm phá hoại tư tưởng, gây chia rẽ nội bộ, kích động biểu tình,
gây rối, bạo loạn với mục đích là xóa bỏ chế độ, lật đổ sự lãnh đạo của Đảng cũng
như chủ nghĩa Mác – Lênin và tư tưởng Hồ Chí Minh.
Về phương thức tuyên truyền, các đối tượng tiếp tục sử dụng hệ thống
website, blog có máy chủ ở nước ngoài, đồng thời đẩy mạnh thiết lập tài khoản
mạng xã hội để tuyên truyền thông tin có nội dung xấu. Từ ngày 21/11/2015 đến
01/11/2016 phát hiện trên 400 trang mạng, blog (tăng 125 so với cùng kỳ năm
2015), 554 trang facebook thường xuyên đăng tải thông tin có nội dung xấu (thống
kê riêng các trang mạng, blog có nội dung xấu đã đăng tải trên 75000 lượt bài, tập
trung vào thời điểm Đại hội Đảng 12, bầu cử Quốc hội khoá 14, sự cố môi trường
biển tại một số tỉnh ven biển miền Trung).
6
Đây là những đối tượng phạm tội có trình độ về công nghệ thông tin, với nhiều
thủ đoạn đối phó gây khó khăn cho quá trình điều tra của lực lượng công an. Đặc
biệt, đáng chú ý hơn nữa là, hiện nay hầu hết các trang mạng đều đặt máy chủ đặt ở
nước ngoài, có sự hỗ trợ lưu trữ của các công ty lớn, bảo mật tốt, dùng điện toán
đám mây. Việc thu thập dữ liệu trên các trang mạng cũng rất khó do các cơ chế bảo
mật mới với yêu cầu xác thực tương tác của người dùng cao, ngăn chặn thu thập tự
động gây rất nhiều khó khăn và tốn nhiều chi phí cho lực lượng chức năng trong
công tác phòng ngừa, phát hiện và đấu tranh. Vì vậy, việc đưa ra những giải pháp
ngăn chặn các hoạt động chống phá nhà nước, đồng thời tìm kiếm, phát hiện các đối
tượng phản động mới, cũng như nắm bắt nhanh thông tin sai lệch trên Internet, nơi
tập trung một số lượng lớn người dùng Việt Nam, đã và đang được các tổ chức, cơ
quan ban ngành chính phủ và nhà nước quan tâm.
Vừa là học viên cao học chuyên ngành Khoa học máy tính của trường Đại học
Công nghệ thông tin - Đại học Quốc gia TP. Hồ Chí Minh, vừa là một chiến sĩ công
an, tác giả mong muốn được ứng dụng các sản phẩm công nghệ phục vụ công tác
thực tiễn trong việc phòng, chống các loại tội phạm sử dụng Internet ngày càng gia
tăng hiện nay. Đó là lý do vì sao tác giả chọn đề tài "Nghiên cứu và xây dựng
phương pháp phát hiện các bài viết có nội dung phản động" làm đề tài luận văn
thạc sĩ. Trong phạm vi đề tài này, tác giả sẽ thực hiện nghiên cứu và đề xuất giải
pháp nhằm phân tích nội dung bài viết, xác định được nội dung các bài viết đó có
chứa yếu tố phản động trên mạng Internet.
* Mục tiêu của đề tài:
Mục tiêu của luận văn là nghiên cứu và xây dựng phương pháp phát hiện các
bài viết chứa nội dung có yếu tố phản động.
Để đạt được mục tiêu đó, trong đề tài thực hiện 2 nội dung cơ bản là: xây dựng
hệ thống thu thập thông tin; xây dựng hệ thống phân tích văn bản nhằm xác định các
bài viết chứa nội dung có yếu tố phản động hay không; tích hợp cả 2 hệ thống trên
tạo thành một hệ thống rút trích và phân tích tự động hoàn toàn.
* Phạm vi của đề tài:
Đề tài chỉ tập trung xây dựng thuật toán và hệ thống phát hiện các bài viết có
7
nội dung phản động được thể hiện rõ trong văn bản thông qua các cụm từ ngữ trong
từng câu văn. Các văn bản chứa đựng nội dung phản động thông qua ẩn ý, ẩn dụ
hoặc thông qua sự kết hợp ngữ nghĩa của từ trên 2 câu văn trở lên không được xem
xét giải quyết trong khuôn khổ đề tài này.
* Nội dung, phương pháp của đề tài:
Nội dung 1: Nghiên cứu hệ thống thu thập dữ liệu trên mạng Internet.
Phương pháp: Trong nội dung này, tác giả sẽ nghiên cứu thông qua các bài báo,
các luận văn, luận án, các sách chuyên khảo, giáo trình. Dự kiến sử dụng hỗ trợ từ
các API của mạng Internet và kỹ thuật bóc tách nội dung thu thập được bằng phương
pháp định nghĩa cấu trúc trang web. Sau đó sẽ xây dựng hệ thống thu thập tự động
trên trang mạng, blog và lưu trữ dữ liệu bài viết.
Nội dung 2: Tìm hiểu về các bài viết chứa nội dung có yếu tố phản động trên
các trang mạng, blog.
Phương pháp: Tác giả sẽ khảo sát thông qua các tài liệu nghiệp vụ, các văn bản
pháp luật, các báo cáo, các bài báo. Để nhằm hiểu được các loại thông tin phản động
trên mạng Internet, các đặc điểm của mỗi loại thông tin phản động cũng như các biện
pháp nghiệp vụ nhằm phát hiện ra các dấu hiệu phản động, các quy định của Bộ Công
an Việt Nam có liên quan. Từ đó sẽ có những định hướng cho lựa chọn, xây dựng
phương pháp phát hiện.
Nội dung 3: Nghiên cứu một số kỹ thuật phân tích nội dung bài viết dựa trên
các kỹ thuật phân tích văn bản và kỹ thuật xử lý dữ liệu lớn để phát hiện các bài viết
chứa nội dung có yếu tố phản động.
Phương pháp: Dựa trên các phương pháp cũng như các đặc điểm của văn bản
có tính chất phản động nghiên cứu được, tác giả sẽ thực hiện chọn lựa phương
pháp, cài đặt hệ thống nhằm xác định một bài viết có mang tính chất phản động
hay không. Các phương pháp dự kiến áp dụng: phương pháp phân tích ngữ pháp,
phương pháp máy học.
Nội dung 4: Thử nghiệm phương pháp đề xuất và xây dựng hệ thống thực hiện
yêu cầu đó.
Phương pháp: Bằng phương pháp gán nhãn bộ dữ liệu huấn luyện và bộ dữ liệu
8
kiểm tra; thực hiện huấn luyện, kiểm thử; thống kê, đánh giá, giải thích kết quả thực
nghiệm để kiểm chứng hiệu quả của phương pháp.
* Bố cục báo cáo luận văn:
Đề tài nghiên cứu sẽ được chia làm 05 chương:
Chương 1. Mở đầu
Chương 2. Cơ sở thực tiễn và lý thuyết
Chương 3. Phân tích thiết kế thuật toán và hệ thống
Chương 4. Thử nghiệm và đánh giá
Chương 5. Kết luận và kiến nghị
9
Chương 2
CƠ SỞ THỰC TIỄN VÀ LÝ THUYẾT
2.1. Tìm hiểu về hoạt động tuyên truyền các bài viết chứa nội dung có yếu
tố phản động
2.1.1. Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố
phản động
Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động là hành
vi tấn công phá hoại nền tảng tư tưởng của chế độ XHCN và nhà nước CHXHCN
Việt Nam, thâm nhập và truyền bá những tư tưởng phi XHCN từ đó tiến tới lật đổ
chế độ XHCN ở Việt Nam, hướng Việt Nam đi theo con đường phi XHCN.
Hoạt động này là hoạt động phổ biến của đối tượng phản động, hoạt động này
diễn ra dưới 3 hình thức chủ yếu:
- Tuyên truyền miệng: phao tin đồn thất thiệt, tuyên truyền qua hội thảo, giảng
dạy, truyền đạo…
- Tuyên truyền qua các phương tiện thông tin đại chúng; qua sách, báo, Internet,
truyền hình, báo chí…
- Phát tán công khai bất hợp pháp hoặc lén lút bí mật có nội dung phản động.
Nội dung, luận điệu tuyên truyền nhằm phá hoại tư tưởng, chính trị của các phần
tử phản động có thể khái quát ở một số nội dung sau:
- Tuyên truyền, xuyên tạc chế độ XHCN, chủ nghĩa Mác-Lênin và tư tưởng Hồ
Chí Minh và vai trò lãnh đạo của Đảng cộng sản.
- Tuyên truyền, đề cao học thuyết, lối sống, giá trị phi XHCN tập trung truyền
bá chế độ TBCN.
- Kích động tư tưởng, thù hận giai cấp, tư tưởng bất mãn với chế độ, tư tưởng
hẹp hòi, tư tưởng kỳ thị chủng tộc…nhằm chia rẽ khối đại đoàn kết toàn dân tộc, kích
động tầng lớp nhân dân chống Đảng và nhà nước CHXHCN Việt Nam.
Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động, quan
điểm sai trái là một trong nhiều âm mưu, thủ đoạn của các thế lực thù địch đối với
Việt Nam, mà bản chất là nhằm xóa bỏ nền tảng tư tưởng của Đảng là chủ nghĩa Mác
- Lênin, tư tưởng Hồ Chí Minh; phủ nhận vai trò lãnh đạo của Đảng với Nhà nước,
xã hội; đòi xóa bỏ chế độ XHCN. Để thực hiện toan tính, các thế lực thù địch ráo riết
10
đẩy mạnh đầu tư, hiện đại hóa trang thiết bị, các phương tiện thông tin, truyền thông,
triệt để sử dụng Internet và địa chỉ truyền thông nước ngoài để phát tán tài liệu, tuyên
truyền quan điểm xuyên tạc, vu cáo, gieo rắc thông tin xấu, độc hại hòng làm nhiễu
loạn đời sống văn hóa, tinh thần của xã hội, làm nhân dân mất niềm tin vào Đảng,
Nhà nước và chế độ XHCN [2].
2.1.2. Một số quan điểm, chính sách của Đảng, Nhà nước trong công tác
đấu tranh với hoạt động này
Nhận thức rõ âm mưu, thủ đoạn thâm độc, nham hiểm của các thế lực thù địch,
những năm qua, Đảng và Nhà nước chú trọng lãnh đạo, chỉ đạo, tổ chức tốt việc
phòng, chống các quan điểm sai trái và đã đạt được những thành tựu đáng khích lệ,
qua đó góp phần bảo vệ nền tảng tư tưởng của Đảng, chính sách và pháp luật của Nhà
nước; kiên định mục tiêu độc lập dân tộc và CNXH, giữ vững định hướng tư tưởng,
nâng cao cảnh giác cách mạng, củng cố lòng tin trong cán bộ, đảng viên và quần
chúng vào công cuộc đổi mới, từ đó đoàn kết, cố gắng thực hiện tốt hai nhiệm vụ xây
dựng và bảo vệ Tổ quốc.
Tuy nhiên, bên cạnh những thành tựu đó, cuộc đấu tranh chống các quan
điểm xuyên tạc, sai trái, thù địch còn có hạn chế nhất định. Văn kiện Đại hội XII
của Đảng chỉ rõ: “Đấu tranh chống âm mưu, hoạt động “diễn biến hòa bình” của
các thế lực thù địch, phòng chống “tự diễn biến”, “tự chuyển hóa” còn bị động,
hiệu quả chưa cao”. Biểu hiện cụ thể của hiện tượng này là một số hạn chế, bất
cập trong nhận thức của một bộ phận cán bộ, đảng viên và nhân dân về âm mưu,
thủ đoạn chống phá của các thế lực thù địch. Hơn thế, tác động từ mặt trái của cơ
chế thị trường, quá trình mở cửa, hội nhập quốc tế,… đã làm cho một bộ phận
không nhỏ cán bộ, đảng viên và quần chúng suy thoái về tư tưởng chính trị, đạo
đức, lối sống. Cộng hưởng các nguyên nhân này đã làm cho một bộ phận cán bộ,
đảng viên bị “lây nhiễm”, mắc bệnh “tự diễn biến” và tự đẩy mình vào quá trình
“tự chuyển hóa”, như Văn kiện Đại hội XII của Đảng đã nhận định: “…những biểu
hiện “tự diễn biến”, “tự chuyển hóa” có xu hướng diễn biến phức tạp trong Đảng,
trong hệ thống chính trị và trong xã hội. Không ít cán bộ, đảng viên có những biểu
hiện dao động, mất phương hướng, hoài nghi về vai trò lãnh đạo của Đảng, về mục
tiêu, lý tưởng và con đường đi lên chủ nghĩa xã hội ở Việt Nam. Đã xuất hiện
11
những việc làm và phát ngôn vô nguyên tắc, trái với Cương lĩnh, đường lối, Điều
lệ Đảng ở một số cán bộ, đảng viên”.
Trong thời gian tới, tình hình quốc tế, khu vực và trong nước còn diễn biến phức
tạp, đối với sự nghiệp cách mạng nước ta, bên cạnh những thuận lợi là cơ bản, đã và
sẽ còn có diễn biến khó lường với khó khăn, thách thức mới. Trong bối cảnh ấy, các
thế lực thù địch sẽ triệt để lợi dụng mọi phương tiện để chống phá, nhất là sử dụng
không gian mạng, sử dụng các phương tiện truyền thông quốc tế để đẩy mạnh “diễn
biến hòa bình”, thúc đẩy “tự diễn biến”, “tự chuyển hóa”… Tình hình đó đòi hỏi toàn
Đảng, toàn dân và toàn quân Việt Nam phải đẩy mạnh đấu tranh phòng, chống các
quan điểm xuyên tạc, sai trái, thù địch, góp phần làm thất bại âm mưu, thủ đoạn “diễn
biến hòa bình”. Và để hoàn thành nhiệm vụ quan trọng đó, toàn Đảng, toàn dân, toàn
quân cần quán triệt sâu sắc, thực hiện nghiêm túc các chủ trương, đường lối, các giải
pháp mà Văn kiện Đại hội XII của Đảng đã xác định [3].
Như vậy, đấu tranh chống các quan điểm xuyên tạc, sai trái, thù địch luôn được
Đảng, Nhà nước, nhân dân và xã hội ta đặc biệt quan tâm. Đại hội XII của Đảng xác
định đó là một trong những nhiệm vụ trọng tâm của công tác tư tưởng, lý luận trong
nhiệm kỳ tới. Chúng ta tin tưởng rằng, dưới sự lãnh đạo của Đảng, sự điều hành, quản
lý tập trung thống nhất của Nhà nước, toàn Đảng, toàn dân và toàn quân sẽ thực hiện
thắng lợi chủ trương chủ động ngăn chặn, phản bác các thông tin, quan điểm xuyên
tạc, sai trái, thù địch, góp phần làm thất bại mọi âm mưu, hoạt động “diễn biến hòa
bình” chống phá Việt Nam của các thế lực thù địch.
2.1.3. Một số khó khăn, thách thức trong công tác này
Như chúng ta đã thấy là do hiện nay, để có thể xác định một bài viết có mang
nội dung phản động hay không vẫn chỉ có một phương pháp đó là sử dụng ý kiến
chuyên gia, nên đã gây ra rất nhiều khó khăn, thách thức cho Đảng, Nhà nước, các cơ
quan chức năng trong công tác đấu tranh với hoạt động tuyên truyền các nội dung
phản động của loại đối tượng này.
Về phương thức tuyên truyền, các đối tượng tiếp tục sử dụng hệ thống website,
blog có máy chủ ở nước ngoài, đồng thời đẩy mạnh thiết lập tài khoản mạng xã hội
để tuyên truyền thông tin có nội dung xấu. Chính việc sử dụng mạng Internet để tuyên
truyền nội dung phản động đã gây ra cho các cơ quan chức năng rất nhiều khó khăn
12
trong việc xác định các bài viết có nội dung phản động để kịp thời đấu tranh, xử lý
và ngăn chặn hoạt động này [6].
- Thứ nhất, đó là do số lượng các website, blog… do các đối tượng phản động
dùng để tuyên truyền trên mạng Internet là rất lớn. Chính vì vậy nên việc đọc từng
bài viết để tìm và xác định các bài viết có nội dung phản động là rất khó khăn và
mất rất nhiều thời gian, mà hiện nay chưa có công cụ nào giúp tự động hóa để thực
hiện được.
- Thứ hai, đó là do nội dung của các website, blog… đó rất nhiều. Trong nhiều
website, blog… không phải bài viết nào cũng có nội dung phản động, do vậy cần phải
đọc hết tất cả nội dung của website, blog… đó với số lượng bài viết là rất lớn để có
thể xác định được chính xác.
- Thứ ba, đó là việc phát hiện sớm trong công tác đấu tranh với hoạt động
này là rất quan trọng, tuy nhiên điều này cũng gặp rất nhiều khó khăn. Do tốc độ
truyền tải thông tin trên mạng Internet rất nhanh, nhất là trên mạng xã hội như
Facebook… nên nhiều website, blog… phản động rất nhanh chóng được đưa được
các nội dung phản động đó đến với người đọc. Hiện nay, nhiều website, blog...
phản động không chỉ có những nội dung trong trang đó, mà còn có trang mạng xã
hội như Facebook tương ứng để kích động, tuyên truyền… những nội dung phản
động một cách nhanh chóng. Việc xác định những trang Facebook phản động này
cũng cần các cơ quan chức năng tự đọc để xác định và cũng chưa có công cụ hỗ
trợ nào cả. Vì vậy, rất khó khăn trong việc phát hiện sớm để có thể ngăn chặn kịp
thời hậu quả của hoạt động này.
2.2. Phương pháp để xác định nội dung bài viết có yếu tố phản động
2.2.1. Phương pháp chuyên gia
Phương pháp sử dụng ý kiến chuyên gia (hay phương pháp chuyên gia) đó là
phương pháp dựa trên các kiến thức đã được học về loại đối tượng phản động, về
các loại hoạt động của chúng và phương pháp đấu tranh với loại đối tượng này,
cộng với kinh nghiệm thực tiễn rút ra được trong quá trình đấu tranh với các đối
tượng này.
Qua quá trình khảo sát tại một số đơn vị nghiệp vụ thuộc Bộ Công an trực tiếp
làm công tác xác định các bài viết đó có nội dung phản động hay không, tác giả thấy
13
các bài viết được phát hiện là chứa nội dung có yếu tố phản động dựa trên một trong
hai yếu tố sau:
- Thứ nhất, đó là các bài viết có các cụm từ thể hiện sự đả kích, nói xấu, xuyên
tạc chính quyền, Đảng CSVN, lãnh đạo cấp cao nhằm gieo rắc vào dân chúng sự
nghi ngờ, bất mãn, mất niềm tin vào chính quyền, vào Đảng CSVN; gây chia rẽ nội
bộ lãnh đạo cấp cao; vu cáo chính quyền đàn áp tôn giáo, tự do dân chủ, nhân quyền;
hạ uy tín lực lượng Công an hoặc có các cụm từ kích động người dân biểu tình trái
phép, gây bạo loạn cục bộ hoặc gây bạo loạn lật đổ chế độ, chính quyền trên quy
mô lớn có sự phối hợp với các tổ chức phản động từ bên ngoài.
Ví dụ: “Nhưng ở đây, lại có một vấn đề mà tôi muốn làm rõ, chẳng những với
cá nhân ông "trí ngủ" Đỗ Văn Xê mà còn với hằng ngàn dư luận viên đang ngày đêm
giúp đảng CSVN che giấu sự thật tồi bại của đảng.”
Các bài viết dạng này thường thì chỉ cần có một câu chứa một trong các cụm từ
kiểu này thì được xác định ngay là có yếu tố phản động. Như ở ví dụ trên thì cụm từ
là “sự thật tồi bại của đảng”. Sau đó bài viết được phân tích cẩn thận, đặc biệt là các
câu, đoạn có chứa các cụm từ trên, để tìm ra từng luận điểm có yếu tố phản động để
có cách tuyên truyền, giải thích lại với nhân dân, giúp quần chúng nhân dân không bị
ảnh hưởng, tác động sai trái bởi những luận điểm phản động, sai trái đó;
- Thứ hai, đó là các bài viết không có các cụm từ đặc biệt kể trên nhưng lại vẫn
có ý nghĩa phản động, sai trái như trên, xuyên tạc sự thật, gây chia rẽ nội bộ hoặc kêu
gọi, kích động bạo loạn lật đổ một cách bóng gió, hài hước, …
Ví dụ: ”Cuộc CCRĐ Hồi Thứ Nhất với mục tiêu lừa đảo là Người Cày Có
Ruộng kéo dài từ năm 1953 đến năm 1956 đã diệt chủng long trời lở đất đến phải
sửa sai và chấm dứt. Trong khi “bác Hồ” đóng phim nhỏ vài giọt lệ khóc những
người chết oan thì Võ Đại tướng phải thay mặt cụ và Tổng bí thư Trường Chinh
đứng ra nhận sửa sai.”
Các bài viết dạng thứ hai thường không chứa một trong các cụm từ kiểu này
nhưng vẫn mang yếu tố phản động. Như ở ví dụ trên không chứa cụm đặc biệt nào,
tuy nhiên vẫn có ý là nói xấu các đồng chí lãnh đạo, gây mất lòng tin ở nhân dân.
14
Các bài viết dạng này thường thì sẽ được phân tích kỹ ý tứ, ý nghĩa để xác định
rõ các luận điểm phản động, sai trái nhằm có cách đấu tranh với các luận điểm đó, và
giải thích, tuyên truyền phù hợp đến người dân.
Qua thực tiễn đấu tranh với các đối tượng phản động này thì thấy rằng phần lớn
các bài viết chứa nội dung có yếu tố phản động trên thực tế thuộc dạng thứ nhất –
nghĩa là có chứa các cụm từ thể hiện yếu tố phản động, sai trái. Tỷ lệ các bài viết
dạng này lên đến hơn 95% trên tổng số các bài viết phản động.
Phương pháp chuyên gia cho kết quả có độ chính xác cao. Tuy nhiên phương
pháp chuyên gia hiện được thực hiện thủ công nên mất rất nhiều thời gian, nhân lực.
Ngoài ra thì kết quả cũng phụ thuộc vào ý kiến của từng chuyên gia khác nhau, đặc
biệt là đối với những bài viết thuộc dạng thứ hai.
2.2.2. Phương pháp phát hiện thông qua các cụm từ đặc trưng
Qua việc phân tích nghiệp vụ ở trên, chúng ta thấy một trong các phương
pháp đơn giản nhất đó chính là phân tích từng câu đơn để có thể phát hiện ra sự
có mặt của các cụm từ đặc trưng ở trong câu hay không – ta sẽ gọi là phương pháp
thứ nhất. Nếu có xuất hiện cụm từ đặc trưng thì câu đó sẽ chứa nội dung có yếu tố
phản động, sai trái và suy ra cả bài viết đó cũng sẽ chứa nội dung có yếu tố phản
động, sai trái. Và ngược lại, nếu không có câu nào trong bài viết chứa các cụm từ
đặc trưng đó thì bài viết đó sẽ được xét là không chứa nội dung có yếu tố phản
động, sai trái.
Phương pháp này có ưu điểm là đơn giản, dễ thực hiện. Tuy nhiên thì nó gặp
phải một số hạn chế đó là việc xây dựng tập các cụm từ đặc trưng như vậy cũng rất
nhiều. Đồng thời khi có một số từ ngữ khác xen giữa vào trong cụm từ đặc trưng thì
sẽ không phát hiện được dẫn tới độ chính xác giảm xuống, nhất là với một số cụm
từ có thể tách ra thành các thành phần ngữ pháp khác nhau như S-V-O (Subject, Verb,
Object), ví dụ như cụm từ: “chính quyền đán áp nhân dân” có thể tách ra thành “chính
quyền” as S, “đàn áp” as V, “nhân dân” as O, thì việc tìm cả cụm từ như vậy trong
câu có thể không thành công khi các đối tượng phản động viết thêm các chủ ngữ/hoặc
trạng từ /hoặc vị ngữ/ hoặc túc từ khác xen vào giữa. Câu được viết xen thêm các từ
khác vẫn có cấu trúc S-V-O giữa các thành phần của cụm từ đặc trưng nhưng không
được phát hiện bởi thuật toán tìm kiếm đơn giản nữa.
15
Ví dụ: Phân tích câu: “Hiện nay, chính quyền ra sức đàn áp đối với nhân dân
tham gia các cuộc biểu tình chống đối lại quyết định của họ.”
Ở ví dụ này chúng ta có thể thấy được là vẫn có cấu trúc S-V-O: “chính quyền,
đàn áp, nhân dân”, tuy nhiên có các từ khác xen giữa nên việc phát hiện cả cụm từ
như vậy là không thực hiện được.
2.2.3. Kỹ thuật phân lớp văn bản sử dụng các phương pháp phân tích
ngữ pháp
Một trong các phương pháp có thể được xem xét tiếp theo để giải quyết bài toán
đặt ra đó là sử dụng các thuật toán phân tích ngữ pháp văn bản để tìm ra các cụm từ
có yếu tố phản động. Các nghiên cứu liên quan đến phân tích ngữ pháp văn bản tiếng
Việt hiện nay cũng chưa nhiều. Phần lớn hiện tập trung vào việc tách từ, ngữ [19];
một vài nghiên cứu xác định chức năng ngữ pháp của các từ, ngữ trong câu.
Nghiên cứu Xây dựng Treebank cho phân tích cú pháp phụ thuộc tiếng Việt
[17] dựa trên Việt Treebank để xây dựng Treebank phụ thuộc. Ở đây nghiên cứu đã
định nghĩa tập nhãn phụ thuộc theo lược đồ phụ thuộc và dựa trên những đặc điểm
của văn phạm tiếng Việt. Nghiên cứu cũng đề xuất thuật toán chuyển đổi tự động
treebank thành tố sang treebank phụ thuộc. Sau đó thì tiến hành thử nghiệm phân tích
cú pháp phụ thuộc cho tiếng Việt sử dụng bộ phân tích MaltParser và treebank phụ
thuộc. Kết quả thử nghiệm: UAS đạt 73.03% và LAS đạt 66.35%.
Nghiên cứu Từ chuyển đổi Treebank đến phân tích cú pháp phụ thuộc cho tiếng
Việt [11] thì trình bày phương pháp chuyển đổi tự động Việt Treebank sang những
cây phụ thuộc. Kiểm tra trên hai bộ phân tích tiên tiến nhất hiện nay đó là MSTParser
và MaltParser. Ở đây nghiên cứu đã đưa ra bộ treebank phụ thuộc tiếng Việt. Sau đó
thì tiến hành thử nghiệm và thu được kết quả thử nghiệm trên MSTParser đạt được
kết quả cao hơn so với MaltParser. Trên MSTParser thì UAS đạt 76.21% và LAS đạt
66.95%; trên MaltParser thì UAS đạt 74.52% và LAS đạt 65.77%.
Nghiên cứu Cải tiến phân tích cú pháp phụ thuộc tiếng Việt dựa trên đặc trưng
biểu diễn phân bố từ [10] thì trình bày về việc cải tiến phân tích cú pháp phụ thuộc
tiếng Việt bằng cách sử dụng các biểu diễn từ phân tán. Và đã cho thấy đây là phân
tích cú pháp phụ thuộc có độ chính xác nhất đối với tiếng Việt khi so với các ngôn
ngữ khác cùng được huấn luyện và kiểm thử trên cùng một treebank phụ thuộc.
16
Nghiên cứu này đã sử dụng hai mô hình học không giám sát là mô hình Skip-gram
và mô hình GloVe. Nghiên cứu này đã cho kết quả với độ chính xác khá cao: UAS
đạt 76.29% và LAS đạt 69.25%.
Nghiên cứu thử nghiệm phân tích cú pháp phụ thuộc tiếng Việt [12] đã tiến
hành thử nghiệm phân tích cú pháp phụ thuộc tiếng Việt dựa trên phương pháp
mạng neural. Ở đây thì nghiên cứu trình bày so sánh việc thực nghiệm các bộ phân
tích cú pháp phụ thuộc khác nhau cho tiếng Việt, và đã cho thấy được là có một
số đặc điểm không giống nhau. Kết quả thực nghiệm ở đây cho thấy các nghiên
cứu phân tích cú pháp phụ thuộc dựa trên mạng neural cho kết quả tốt hơn đáng
kể so với các nghiên cứu phân tích cú pháp phụ thuộc truyền thống trước đó. Kết
quả phân tích cú pháp phụ thuộc tiếng Việt với độ chính xác khá cao: UAS đạt
73.53% và LAS đạt 80.66%.
Nghiên cứu Phân tích cú pháp phụ thuộc tiếng Việt với đặc trưng siêu nhãn [15]
đã sử dụng đặc trưng siêu nhãn để phân tích cú pháp phụ thuộc tiếng Việt. Siêu nhãn
là nhãn cho từ vựng, nó mã hóa tương đối nhiều thông tin về cú pháp bằng cách đưa
ra các ràng buộc trong một ngữ cảnh cục bộ nào đó. Các văn phạm từ vựng hóa được
sử dụng thành công ở trong việc sử dụng các siêu nhãn như LTAG (Lexicalized TreeAdjoining Grammar), HPSG (Head-driven Phrase Structure Grammar) và CCG
(Combinatory Categorial Grammar). Nghiên cứu này đã đề xuất việc tận dụng các
đặc trưng ngôn ngữ học để từ đó cải thiện việc phân tích cú pháp phụ thuộc cho tiếng
Việt. Mỗi từ ở đây sẽ được gán một siêu nhãn, cũng giống như từ loại nhưng chúng
đã được mã hóa về thông tin cú pháp. Để phù hợp với phân tích cú pháp phụ thuộc
thì thiết kế các siêu nhãn ở đây tập trung vào các quan hệ phụ thuộc như NMOD,
VMOD, SUB, DOB, ROO, AMOD, COORD, CONJ, và IOB, vì những quan hệ này
thường có độ chính xác thấp và cần được cải thiện. Nghiên cứu này đã thiết kế được
ba mô hình đặc trưng siêu nhãn. Nghiên cứu tiến hành gán tự động cho siêu nhãn
bằng phương pháp tiếp cận giống như đối với nhãn từ loại, ở đây sử dụng phương
pháp gán nhãn tự động C&C supertagger. Kết quả nghiên cứu này thu được thiết kế
đặc trưng siêu nhãn đã làm tăng độ chính xác cho bộ phân tích cú pháp phụ thuộc
tiếng Việt. Kết quả phân tích đạt cao nhất trên ngữ liệu phụ thuộc với độ chính xác là
74.6% trong trường hợp LAS.
17
* Ý nghĩa sử dụng bộ ba thành phần:
Một trong các phương pháp phân tích ngữ pháp khác cũng thường được sử dụng
đó là phương pháp phân tích ngữ pháp theo các bộ ba (triplet extraction) [13, 16] .
Phương pháp này làm nổi bật các thành phần chủ ngữ, động từ và vị ngữ (các thành
phần của bộ ba) trong mỗi câu khỏi những thành phần bổ nghĩa cho chúng.
Hình 2.1. Cấu trúc bộ ba chứa các phần tử bộ ba với thuộc tính của chúng
Như chúng ta đã phân tích ở trên thì phương pháp thứ nhất mặc dù rất đơn giản
chỉ là phát hiện ra những cụm từ đặc trưng có trong nội dung bài viết, tuy nhiên,
chúng ta có thể thấy được là nó lại tỏ ra khá hiệu quả trong bài toán thực tế này.
Vì vậy, tác giả giới thiệu một mô hình biểu diễn quan hệ ngữ pháp dựa trên việc
sử dụng phương pháp phát hiện thông qua các cụm từ đặc trưng, đó là phân tích mỗi
cụm từ đặc trưng thành một bộ của các thành phần có liên hệ với nhau về mặt ngữ
nghĩa. Mỗi bộ sẽ có ba thành phần và được gọi là bộ ba. Ví dụ bộ ba có dạng S-V-O
(Subject, Verb, Object) để từ đó có thể phát hiện được các bài viết này theo nguyên
tắc đó là nếu trong nội dung bài viết có ít nhất một câu chứa các thành phần của một
bộ ba trên theo đúng trật tự của chúng trong bộ đó thì bài viết đó sẽ được xác đinh là
chứa nội dung có yếu tố phản động và ngược lại.
Phương pháp phân tích cấu trúc ngữ pháp - gọi là phương pháp thứ hai, khi áp
dụng để xác định quan hệ ngữ pháp giữa các thành phần trong cụm từ sẽ giải quyết
được hạn chế của phương thứ nhất, bởi vì nó phát hiện chính xác trường hợp các
thành phần của một cụm từ đặc trưng xuất hiện trong một câu nhưng có liên kết về
nghĩa với nhau hay không.
18
Ví dụ: phân tích câu: “Dưới sự lãnh đạo của Đảng Cộng sản thì chúng ta thấy
được sự dã man, tàn độc của các thế lực thù địch” thì cụm từ “dã man, tàn độc” không
bổ nghĩa cho cụm từ “Đảng Cộng sản” mặc dù trong câu trên có đầy đủ thành phần
của một cụm từ đặc trưng.
Tuy nhiên qua nghiên cứu kết quả trong thực tế thì tỷ lệ các câu chứa đầy đủ
các thành phần của cụm từ phản động nhưng lại không có liên quan ngữ pháp với
nhau thường xuất hiện rất hiếm.
Ngoài ra, chúng ta có thể thấy một số vấn đề khi sử dụng phương pháp thứ hai
để áp dụng vào giải quyết bài toán thực tế đó là khi trong câu cần phân tích xuất hiện
các từ bị viết sai chính tả, hoặc gặp các từ, thuật ngữ mới/ít phổ biến/từ vay mượn
nước ngoài, hoặc khi câu viết sai ngữ pháp do dùng thiếu hoặc sai dấu câu, thiếu hoặc
sai liên từ,… thì thuật toán không thể phân tích hoặc phân tích sai so với khi câu đó
được viết đúng. Mà trong thực tế thì hai tình huống trên xuất hiện rất thường xuyên
do các đối tượng phản động thường không quan tâm đến vấn đề đó, chúng chỉ quan
tâm là bài viết đó có được đăng tải, chia sẻ, lan truyền nhanh chóng đến các tầng lớp
nhân dân hay không. Ngoài ra thì kết quả phân tích câu tiếng Việt hiện nay cũng chưa
được cao. Sau khi phân tích thì việc gom các từ lại để thành các cụm từ đặc trưng
giúp phân lớp văn bản cũng rất khó khăn.
Ví dụ: Phân tích câu: “Nhưng đó chỉ là kế hoãn binh của những kẻ câm quyền,
cộng sản, hệ thống đảng, chuyên lừa, lọc dối trá.” thì ta có thể thấy được do dùng sai
dấu câu “lừa, lọc” và sai chính tả từ “câm quyền” nên thuật toán phân tích sẽ bị sai
so với khi chúng ta viết đúng chính tả và dùng đúng dấu câu, dẫn tới độ chính xác
của thuật toán bị giảm xuống.
2.2.4. Kỹ thuật phân lớp văn bản sử dụng các phương pháp máy học
thống kê
Một số phương pháp máy học như Bayes, LDA,… [4, 8, 9] - sẽ gọi chung là
phương pháp thứ ba. Các phương pháp này hỗ trợ phân lớp văn bản trước hết xác
định tập các từ đại diện cho từng phân lớp và sau khi sử dụng các hàm thuộc để
xét xem văn bản, với các cụm từ đặc trưng mà nó chứa, sẽ thuộc lớp nào trong các
lớp đang xét.
19
Nghiên cứu Xây dựng hệ thống phân loại tài liệu tiếng Việt dựa trên phương
pháp Naïve Bayes [7] sử dụng phương pháp Naïve Bayes vào chương trình phân
loại với cách tiếp cận Naïve Bayes là sử dụng xác suất có điều kiện giữa từ và chủ
đề để dự đoán xác suất chủ đề của một văn bản cần phân loại. Điểm quan trọng của
phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong
văn bản đều độc lập với nhau. Giả định đó làm cho việc tính toán Naïve Bayes hiệu
quả và nhanh chóng hơn các phương pháp khác vì không sử dụng việc kết hợp các
từ để đưa ra phán đoán chủ đề.
Nghiên cứu Phân loại nội dung tài liệu web tiếng Việt ứng dụng thuật toán LDA
[5] phân tích chủ đề ẩn để tìm tập đặc trưng cho các chủ đề áp dụng cho bài toán phân
loại nội dung tài liệu web. Trong nghiên cứu này, các cụm danh từ được sử dụng để
làm đặc trưng văn bản trong mô hình vector. Thuật toán LDA được sử dụng để tìm
tập đặc trưng cho các chủ đề mà không cần quan tâm đến tần số xuất hiện, độ quan
trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác. Kết quả đã cài đặt thử
nghiệm vào bài toán phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với
độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra.
Như vậy phương pháp thứ ba này khi áp dụng vào việc phân loại bài viết có nội
dung phản động sẽ có ưu điểm so với phương pháp thứ nhất và thứ hai đó là việc tự
động hóa xây dựng tập các từ, cụm từ đặc trưng, tuy nhiên thì vẫn sẽ không tránh
được một số hạn chế đó là các cụm từ xây dựng được cũng chưa được kiểm tra việc
có liên hệ về ngữ pháp hay không, cũng như không kiểm tra được các từ đó có xuất
hiện đồng thời trong một câu văn hay không. Ngoài ra thì có rất nhiều bài có cùng
chủ đề, cùng tập từ đặc trưng nhưng có bài thì chứa yếu tố phản động, có bài thì
không. Ví dụ như những bài viết phản động cũng như chính thống đều có nói về chủ
đề “tham nhũng” nhưng các bài viết chính thống viết về tham nhũng lại không chứa
yếu tố phản động. Những trường hợp này sẽ gây nhiễu rất lớn đối với phương pháp
thứ ba và làm giảm độ chính xác của nó.
2.2.5. Giới thiệu về Apache Spark, GraphX và Scrapy
* Giới thiệu Apache Spark:
Một trong những mô hình xử lý dữ liệu lớn rất phổ biến được sử dụng nhiều
trong các tính toán phân tán hiện nay đó là MapReduce. Đây là một mô hình luồng
20
dữ liệu, nó thích hợp và được ứng dụng với đa số các công cụ xử lý dữ liệu lớn hiện
nay. Tuy nhiên cũng có những ứng dụng không thích hợp khi áp dụng mô hình này,
đó là những ứng dụng có dạng mô hình lặp. Trong mô hình này, quá trình xử lý cứ
được lặp đi lặp lại. Lúc đó mô hình MapReduce sẽ bộc lộ nhiều hạn chế thể hiện qua
việc mỗi lần thực thi sẽ là một lần truy vấn lại dữ liệu từ đĩa cứng, điều này làm cho
cả quá trình bị chậm đi rất nhiều. Bên cạnh đó, những dữ liệu được sử dụng nhiều lần
trong quá trình thực thi không được tải sẵn lên bộ nhớ đệm để truy vấn mà nó được
tải lại đối với mỗi thành phần công việc riêng biệt gây nên độ trễ lớn.
Chính vì thế tác giả chọn tìm hiểu và cài đặt xử lý dữ liệu lớn trên framework
Apache Spark [18]. Được cải tiến và khắc phục những khuyết điểm từ mô hình
Hadoop MapReduce, Apache Spark sử dụng một đối tượng bộ nhớ đặc biệt gọi là
RDD (Resilient Distributed Dataset), nó là một tập hợp chỉ đọc chứa các loại đối
tượng dữ liệu trong các ngôn ngữ lập trình hay các lớp mà người dùng tự định nghĩa,
được phân tán lưu trữ ở các nút tính toán (các máy con trong mạng tính toán). Tập
hợp này cũng có khả năng mở rộng một cách mềm dẻo, tự cân bằng và khả năng
chịu lỗi, phục hồi khi có sự cố xảy ra giống như Hadoop. Khi thao tác RDD sẽ được
Spark tải lên bộ nhớ đệm của những nút tính toán để sử dụng nhiều lần qua các quá
trình tính toán song song, chính vì thế tốc độ của Spark có thể nhanh hơn Hadoop
đến gấp 10 lần.
Hình 2.2. Mô hình hoạt động phân tán của Apache Spark
21