z
Tiểu luận
Internet và giao thức
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA VIỄN THÔNG I
TIỂU LUẬN HỌC PHẦN
INTERNET VÀ GIAO THỨC
ĐỀ TÀI: Ứng dụng của Big Data và giao thức ứng dụng mới
phục vụ cho xu hướng Big Data hiện nay
Giảng viên:
Nhóm:
Nguyễn Tiến Ban
02
STT
Họ và tên
Mã sinh viên
1
2
3
4
5
Phạm Thanh Tùng
Nguyễn Xuân Minh (C)
Nguyễn Thị Diệu Linh
Cao Văn Phong
Tống Duy Hưng
B18DCVT390
B18DCVT294
B18DCVT247
B18DCVT316
B18DCVT218
HÀ NỘI – 2021
Nhóm 02
i
Tiểu luận
Internet và giao thức
LỜI NÓI ĐẦU
Trong cuộc cách mạng công nghiệp 4.0 hiện nay, nguồn tài nguyên giá trị
nhất của thế giới khơng cịn là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp
độ lũy thừa mỗi ngày. Và phần mềm quản lý Big Data là một yếu tố đóng vai trị
then chốt. Vậy Big Data thực chất là gì, và nó đang được ứng dụng như thế nào?
Chúng ta hãy hình dung rằng một khối dữ liệu khổng lồ được tạo ra từ các
hoạt động trong lĩnh vực kinh doanh, giải trí, giáo dục,... Và việc cập nhật, kiểm
soát liên tục này bằng phương tiện truyền thông xã hội, ứng dụng kinh doanh, viễn
thông và các lĩnh vực khác đang dẫn đến sự hình thành của Big data.
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức
tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào
đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thơng tin q
giá mà nếu trích xuất thành cơng, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên
cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định
điều kiện giao thơng theo thời gian thực. Chính vì thế, những dữ liệu này phải
được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình
thường.
Trong thực tế, Big Data (Dữ liệu lớn) được ứng dụng vào rất nhiều lĩnh
vực, giúp doanh nghiệp ở mọi quy mô tạo nên biến chuyển ấn tượng, gia tăng tính
hiệu quả, năng suất và lợi thế cạnh tranh so với đối thủ trong kỷ nguyên chuyển
đổi số digital transformation.
Trên cơ sở làm rõ những vấn đề này, nhóm em xin được trình bày về đề tài
“Ứng dụng của Big Data và giao thức ứng dụng mới phục vụ cho xu hướng Big
Data hiện nay”.
Nhóm 02
i
Tiểu luận
Internet và giao thức
MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................................. i
MỤC LỤC ......................................................................................................................ii
THUẬT NGỮ VIẾT TẮT ........................................................................................... iii
DANH MỤC HÌNH ẢNH .......................................................................................... iiii
1. Giới thiệu .................................................................................................................... 1
2. Khái niệm và ứng dụng của Big Data ...................................................................... 1
2.1. Khái niệm về Big Data ........................................................................................ 1
2.2. Ứng dụng của Big Data ....................................................................................... 2
2.2.1. Trong lĩnh vực ngân hàng ............................................................................ 2
2.2.2. Trong lĩnh vực y tế........................................................................................ 2
2.2.3. Thương mại điện tử ...................................................................................... 3
2.2.4. Điện toán đám mây ....................................................................................... 3
2.2.5. Ngành bán lẻ.................................................................................................. 3
3. Big Data - thách thức và cơ hội ................................................................................ 4
3.1. Góc nhìn doanh nghiệp ....................................................................................... 4
3.2. Góc nhìn kỹ thuật ................................................................................................ 5
3.3. Góc nhìn xã hội .................................................................................................... 6
4. Xây dựng hệ thống lưu trữ phân tích dữ liệu Big Data ......................................... 7
5. Giao thức ứng dụng mới phục vụ cho truyền tải dữ liệu Big Data ....................... 9
6. Mô phỏng sử dụng công cụ để tiếp cận Big Data ................................................. 11
6.1. Lợi ích của việc crawler data và mơ hình crawl............................................. 11
6.2. Demo sử dụng Python để Crawl Linkedin và công cụ phân tích xử lý dữ
liệu Power BI............................................................................................................. 12
KẾT LUẬN .................................................................................................................. 16
TÀI LIỆU THAM KHẢO........................................................................................... 17
Nhóm 02
ii
Tiểu luận
Internet và giao thức
THUẬT NGỮ VIẾT TẮT
Thuật ngữ
Tiếng Anh
Tiếng Việt
AI
AWS
BI
CSS
CSDL
DA
DS
DWH
ETL
GPS
HDFS
IoT
OLTP
OLAP
ML
URL
TCP
WEF
IP
UDP
HTML
Artificial intelligence
Amazon web services
Business Intelligence
Cascading Style Sheets
Trí tuệ nhân tạo
Dịch vụ đám mây
Trí tuệ doanh nghiệp
Ngơn ngữ lập trình
Cơ sở dữ liệu
Phân tích dữ liệu
Khoa học dữ liệu
Kho dữ liệu thường
Trích xuất-Biến đổi-Tả
Hệ thống định vị tồn cầu
Hệ thống tệp phân tán Hadoop
Internet vạn vật
Xử lý giao dịch trực tuyến
Xử lý phân tích trực tuyến
Máy học
Địa chỉ web
Giao thức điều khiển truyền vận
Diễn đàn Kinh tế thế giới
Địa chỉ giao thức Internet
Giao thức dữ liệu người dùng
Ngơn ngữ lập trình web
Nhóm 02
Data Analyst
Data Science
Data warehouse
Extra-Transform-Load
Global positioning
Hadoop Distributed File System
Internet of things
On-line transactional processing
Online Analytical Processing
Machine Learning
Uniform Resource Locator
Transmission Control Protocol
World Economic Forum
Internet Protocol
User datagram protocol
Hypertext Markup Language
iii
Tiểu luận
Internet và giao thức
DANH MỤC HÌNH ẢNH
Hình 1: Đặc tính của Big Data ................................................................................................... 2
Hình 2: Nguồn nhân lực phải được trang bị kiến thức nhiều lĩnh vực khác nhau ...................... 5
Hình 3: Sơ đồ tổng quát của một chu trình xử lý dữ liệu. .......................................................... 6
Hình 4: Hệ thống lưu trữ Data Lake ........................................................................................... 7
Hình 5: So sánh tốc độ truyền tải dữ liệu TCP và MTP ............................................................. 9
Hình 6: Minh họa luồng dữ liệu TCP qua mạng WAN bị tắc nghẽn. Sự dao động dòng chảy,
các vấn đề về tỷ lệ và tắc nghẽn dẫn đến băng thơng bị lãng phí ............................................. 10
Hình 7: Minh họa luồng dữ liệu MTP qua cùng một mạng WAN như Hình 4. Khả năng mở
rộng quy mơ và thích ứng với lưu lượng của bên thứ ba làm tăng mức sử dụng lên gần 100%.
.................................................................................................................................................. 11
Hình 8: Mơ hình crawl data ...................................................................................................... 12
Hình 9: Giao diện web khi chưa có dữ liệu .............................................................................. 13
Hình 10: Ví dụ về dữ liệu cần crawl ......................................................................................... 13
Hình 11: Cơ sở dữ liệu MongoDB ........................................................................................... 14
Hình 12: Dữ liệu sau khi crawl được hiển thị lên web ............................................................. 14
Hình 13: Mơ tả dữ liệu được crawl theo thời gian ................................................................... 15
Hình 14: Tỉ lệ phần trăm của bài viết được crawl theo từ khóa ............................................... 15
Nhóm 02
iiii
Tiểu luận
Internet và giao thức
1. Giới thiệu
Trong đại dịch covid-19 mọi người đều phải cách ly tại nhà, tất cả các hoạt động
đều chuyển lên mỗi trường trực tuyến như học tập, giải trí, làm việc từ xa …
Dữ liệu trên internet từ đó được tạo ra theo cấp số nhân, tuy nhiên chúng ta vẫn
chưa biết cách tận dụng lượng dữ liệu khổng lồ này một cách hiệu quả đặc biệt là trong
ngành viễn thông. Câu hỏi đặt ra là làm thế nào để tận dụng được lượng dữ liệu khổng
lồ này trong việc tối ưu hóa mạng lưới kết nối, nâng cao trải nghiệm khách hàng, tăng
cường bảo mật, phát triển các nguồn thu. Tuy nhiên hiện nay không nhiều công ty làm
được điều này.
Trong những năm gần đây các cơng khác nhau đang tích cực triển khai ứng dụng
Big Data trong hoạt dộng quản lý nhưng chưa đạt được kết quả như mong đợi. Theo
khảo sát của MCKinsey đã thực hiện khảo sát riêng chỉ 80 công ty viễn thơng trên tồn
thế giới đãt đầu tư và khai thác Big Data nhưng chỉ 8% các công ty viễn thông được hỏi
cho rằng họ đã khai thác hết được tiềm năng Big Data trong quản lý.
Mục tiêu của bài tiểu luận này là tìm hiểu Big Data là gì và ứng dụng thực tiễn
Big Data hiện nay như thế nào cũng như tìm hiểu các giao thức ứng dụng mới trong Big
Data.
2. Khái niệm và ứng dụng của Big Data
2.1 Khái niệm về Big Data?
Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của
các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu trong
một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục
thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu. Dữ
liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để
khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mơ lớn.
Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META Group
(bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách thức và cơ hội
tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của dữ liệu (velocity), và
khổ giới hạn của kiểu dữ liệu (variety). Gartner, và nhiều ngành cơng nghiệp tiếp tục sử
dụng mơ hình '3Vs' để mô tả dữ liệu lớn. Trong năm 2012, Gartner đã cập nhật định
nghĩa như sau: "Dữ liệu lớn là khối lượng lớn, tốc độ cao và/hoặc loại hình thơng tin rất
đa dạng mà yêu cầu phương thức xử lý mới để cho phép tăng cường ra quyết định, khám
Nhóm 02
1
Tiểu luận
Internet và giao thức
phá bên trong và xử lý tối ưu". Định nghĩa '3Vs' của Gartner vẫn được sử dụng rộng rãi,
và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin
mà đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng (Variety)
để yêu cầu phương thức phân tích và cơng nghệ riêng biệt để biến nó thành có giá trị".
Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để mơ tả về nó. 3Vs đã được
mở rộng để bổ sung đặc tính của dữ liệu lớn.
Hình 1: Đặc tính của Big Data
2.2. Ứng dụng Big Data
2.2.1. Trong lĩnh vực ngân hàng
Big Data đã và đang được ứng dụng hiệu quả với các hoạt động trong ngân hàng
từ thu tiền mặt đến quản lý tài chính quản lý rủi ro …
- Sử dụng các kỹ thuật phân lớp phân cụm giúp ngân hàng đưa ra quyết định quan
trọng, hệ thống phân tích có thể xác định các đại điểm chi nhánh tập trung nhiều
nhu cầu của khách hàng, đề xuất mở chi nhánh mới
- Học máy AI, ML đang được các ngân hàng sử dụng để phát hiện các hoạt động
gian lận, cũng như dự đoán tỉ lệ nợ xấu của khách hàng từ đó đưa ra khuyễn nghị
có nên tiếp tục cho vay hay khơng.
- Khoa học dữ liệu hỗ trợ phân tích lượng dữ liệu khổng lồ từ các hoạt động hàng
ngày giúp tối ưu hóa quy trình, giảm thiểu chi phí
- Phân tích hành vi khách hàng từ đó nâng cao trải nghiệm của khách hàng.
2.2.2. Trong lĩnh vực y tế
Nhóm 02
2
Tiểu luận
Internet và giao thức
Theo báo cáo của IDC, dữ liệu lớn dự kiến sẽ tăng nhanh hơn trong lĩnh vực chăm
sóc sức khỏe so với các ngành cơng nghiệp khác như sản xuất, dịch vụ tài chính hoặc
truyền thơng. Dự kiến, dữ liệu chăm sóc sức khỏe sẽ có tốc độ tăng trưởng kép hàng
năm (CAGR) là 36% đến năm 2025.
-
-
Những lợi ích cụ thể của Big Data trong lĩnh vực y tế:
Như trong đại dich covid, các dự đốn trước về tương lai trong tình hình dịch
bệnh đã giúp cứu hàng triệu người ví dụ như afghanistan nhờ việc dự đoán số ca
nhiễm cũng như các ca tử vong đã giúp cho quốc gia này đã dồn sức chuẩn bị
cho cuộc thảm họa về y tế
Theo dõi tình trạng bênh nhân bằng hồ sơ sức khỏe điện tử
Big Data có thể đánh giá các triệu chứng và xác định nhiều bênh ở giai đoạn đầu
Cảnh báo những khu vực có nguy cơ bùng phát dịch
2.2.3. Thương mại điện tử
Big Data tạo ra lợi thế cạnh tranh khổng lồ cho cách doanh nghiệp bằng cung cấp
thông tin về các bản báo cáo thu, phân tích xu hướng.
- Thu thập dữu liệu khách hàng để giới thiệu sản phẩm phù hợp ví dụ như khách
hàng mua điện thoại thì sẽ thường mua thêm phụ kiện như ốp lưng, cường lực …
- Tạo ra chiến lược maketting hiệu quả tiết kiệm chi phí nhưng mang về hiệu quả
cao nhất.
- Tạo ra các tiêu chí theo dõi như độ tuổi, báo cáo tài chính từ đó giới thiệu sản
phẩm phù hợp tăng khả năng mua của khách hàng.
- Ứng dụng AI, ML trong việc quản lý kho bãi giảm lượng hàng tồn kho.
2.2.4. Điện toán đám mây
Big Data là lượng dữ liệu khổng lồ kiến cho việc tổ chức lưu trữ phân tích dữ liệu
trở nên tốn kém, có một giải pháp có thể giải quyết vấn đề này đó là Cloud.
- Cloud tăng tốc độ quản lý và truy cập cơ sở dữ liệu.
- Cung cấp cơng cụ để tính tốn, phân tích dữ liệu.
2.2.5. Ngành bán lẻ
Phân tích dữ liệu lớn trong bán lẻ cho phép các công ty tạo đề xuất khách hàng
dựa trên lịch sử mua hàng của họ, dẫn đến trải nghiệm mua sắm được cá nhân hóa và
dịch vụ khách hàng được cải thiện. Những bộ dữ liệu siêu lớn này cũng giúp dự báo xu
hướng và đưa ra quyết định chiến lược dựa trên phân tích thị trường.
Nhóm 02
3
Tiểu luận
Internet và giao thức
- Dự đoán chi tiêu: Amazon sử dụng dữ liệu khách hàng để giới thiệu các mặt hàng
cho bạn dựa trên các tìm kiếm và mua hàng trong quá khứ của bạn. Họ đã tạo ra
29% doanh số bán hàng thông qua công cụ đề xuất của họ, phân tích hơn 150
triệu tài khoản. Điều này đã dẫn đến lợi nhuận lớn cho gã khổng lồ thương mại
điện tử.
- Cá nhân hóa trải nghiệm khách hàng, mỗi khách hàng có một nhu cầu và xu
hướng mua sắm riêng ví dụ như khách hàng nữ, độ tuổi từ 20 -25 tuổi sẽ có xu
hướng mua sắm khác với nhóm tuổi từ 25-30
- Phân tích q trình mua hàng của khách hàng. Hành trình của khách hàng khơng
phải là một đường thẳng. Đó là một zig-zag trên các kênh từ nghiên cứu đến mua
hàng. Cách duy nhất để có được một xử lý trên hành trình của khách hàng và tạo
ra trải nghiệm tốt hơn là sử dụng dữ liệu lớn. Các giải pháp phân tích có thể giúp
các nhà bán lẻ trả lời các câu hỏi như: Khách hàng thực sự tìm kiếm thơng tin sản
phẩm ở đâu? Chúng ta đang mất họ ở đâu? Những cách hiệu quả nhất để tiếp cận
họ và buộc họ phải mua là gì?
3. Big Data – thách thức và cơng nghệ
3.1 Góc nhìn doanh nghiệp
Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM,
Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các cơng ty chun về quản
lí và phân tích dữ liệu. Năm 2010, ngành cơng nghiệp Big Data có giá trị hơn 100 tỉ USD
và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm
nói chung.
Vậy Big Data tạo ra cái gì? Giá trị. Nhưng chính xác là giá trị gì? Big Data về
bản chất không sản sinh ra bất kỳ giá trị gì, nó đơn giản chỉ là dữ liệu mà thôi.
Việc tăng trưởng dữ liệu đặt ra một thách thức cho mọi công ty IT phải giải quyết.
Các doanh nghiệp khơng chỉ cần lưu trữ dữ liệu mà cịn phải tận dụng nó nhanh chóng
và hiệu quả để đạt được giá trị kinh doanh.
Giá trị chỉ đến từ thứ chúng ta suy luận được từ dữ liệu. Đó chính là lý do chúng
ta cần phân tích Big Data. Werner Vogels, CTO của Amazon định nghĩa phân tích Big
Data như sau: "trong thế giới cũ của phân tích dữ liệu, bạn biết chính xác câu hỏi bạn
cần hỏi, sinh ra mơ hình lưu trữ và tập dữ liệu có thể tiên đốn được. Trong thế giới mới
của việc phân tích dữ liệu, câu hỏi của bạn sẽ tiến triển và thay đổi qua thời gian cũng
như việc bạn cần thu thập, lưu trữ và phân tích dữ liệu mà khơng bị hạn chế bởi nguồn
lực."
Nhóm 02
4
Tiểu luận
Internet và giao thức
Tuy nhiên, hiện tại thì việc khai phá Big Data đang gặp một số hạn chế như thiếu
nguồn nhân lực, thiếu kiến thức về thống kê, học máy, cơ sở hạ tầng lưu trữ vẫn là một
vấn đề lớn.
Khó khăn trong phân cấp phân quyền
Dữ liệu rất nhạy cảm đặc biệt là các dữ liệu quan trọng như dữ liệu khách hàng,
đối tác, hoạt động của doanh nghiệp. Thông thường những dữ liệu này được tổ chức lưu
trữ tại Data warehouse (DWH) các hoạt động truy cập vào cơ sở dữu liệu này phải được
thông qua nhóm kỹ thuật duy nhất điều này dễn đến mỗi khi các nhóm khác cần truy
cập dữ liệu như team BI, DA, DS trong cơng ty phải được nhóm kỹ thuật cho phép và
chuẩn bị dữ liệu phù hợp.
Thiếu hụt nguồn nhân lực
Nguồn nhân lực về công nghệ đủ điều kiện có thể làm việc với hệ thống Big Data
hiện nay rất ít do yêu cầu về kỹ năng, kinh nghiệm làm việc chun sâu. Cơng nghệ Big
Data cịn khá mới nên chỉ có một số ít trường đại học đưa Big Data vào chương trình
giảng dạy.
Hình 2: Nguồn nhân lực phải được trang bị kiến thức nhiều lĩnh vực khác nhau
để có thể ứng dụng Big Data để giải quyết vấn đề
3.2. Góc nhìn kỹ thuật
Một hệ thống Big Data trong thực tế có rất nhiều thách thừu về mặt kỹ thuật, như
là khó khăn về mặt dữ liệu. Doanh nghiệp phải đảm bảo dữ liệu nhiều, chính xác, khơng
Nhóm 02
5
Tiểu luận
Internet và giao thức
chỉ có thế dữ liệu phải được trích xuất, làm sạch, và tải vào hệ thống lưu trữ Data
warehouse tiến trình này cịn gọi là ETL viết tắt của extract, transform và load.
Tiếp theo là phải xử lý và quản lý dữ liệu. Từ những dữ liệu thụ thập được sẽ
được lưu vào cơ sở dữ liệu rồi từ đo sẽ được đưa lên các hệ thống phân tích, tranning
model AI,ML, đưa vào hệ thống OLTP…
Hình 3: Sơ đồ tổng quát của một chu trình xử lý dữ liệu.
3.3. Góc nhìn của xã hội
Rất ít người nhận ra Big Data có thể dùng để giải quyết các vấn đề xã hội, tạo ra
các tác động tích cực. Hầu hết các ví dụ thực tiễn khơng đi theo hướng tiếp cận này. Gạt
sang một bên các khía cạnh riêng tư, Big Data có thể được khai thác để phục vụ hàng tỷ
người đã tạo ra dữ liệu, và cả xã hội mà họ đang sống.
Vào năm 2012, diễn đàn kinh tế thế giới (WEF) xuất bản một báo cáo với tiêu
đề “Big Data, Big Impact: New Possibilities for International Development.” Báo cáo
trình bày nhiều ý tưởng, cơ hội, thách thức trong thời đại bùng nổ dữ liệu, cũng như việc
các nhà nghiên cứu và hoạch định chính sách bắt đầu nhận thấy tiềm năng trong việc khai
Nhóm 02
6
Tiểu luận
Internet và giao thức
thác Big Data để trích xuất kiến thức có thể dùng cho cộng đồng, đặc biệt là người dân
có thu nhập thấp.
Đã có rất nhiều dự án Big Data nhằm mục đích phục vụ cộng đồng dựa vào thu
thập dữ liệu GPS, điện thoại di động, thiết bị y tế … như là:
- Dự đoán sự thiếu hụt thực phẩm dựa trên dữ liệu về sự biến động giá cả thị trường,
hạn hán, di cư …
- Cải thiện kết quả học tập trong trường học.
- Mô hình dự báo phục vụ người dân sống ở các khu định cư và khu ổ chuột.
- Quy hoạch giao thông.
- Kết nối mối quan hệ giữa tội phạm và các địa điểm trong thành phố.
4. Xây dựng hệ thống lưu trữ và phân tích Big Data
Một hệ thống dữ liệu lớn (BigData) ở mỗi doanh nghiệp sẽ được triển khai khác
nhau, tuỳ thuộc vào mơ hình kinh doanh của doanh nghiệp, đặc điểm dữ liệu, và phụ
thuộc vào đầu tư mà sẽ được thiết kế, xây dựng trên các bộ giải pháp công nghệ khác
nhau. Tuy vậy chúng ta có thể tham khảo chung 1 kiến trúc xây dụng hệ thống Big Data.
Hình 4: Hệ thống lưu trữ Data Lake
Đây là một kiến trúc xử lý chung cho các hệ thống Big Data. Nó bao gồm các
thành phần:
Nguồn dữ liệu (Data Sources): nơi dữ liệu được sinh ra, bao gồm dữ liệu có cấu
trúc (structure), dữ liệu phi cấu trúc (un-structure) cũng như dữ liệu bán cấu trúc (semistructure). Dữ liệu có thể đến từ rất nhiều nguồn khác nhau như dữ liệu từ các ứng dụng,
cơ sở dữ liệu quan hệ (giao dịch mua/ bán hàng từ một hệ thống bán lẻ, giao dịch gửi
tiền vào ngân hàng…), hoặc dữ liệu file được tạo ra bởi các log của ứng dụng (dữ liệu
Nhóm 02
7
Tiểu luận
Internet và giao thức
log ghi lại thời gian xử lý của hệ thống…), hay dữ liệu thời gian thực từ các thiết bị IoT
(hình ảnh theo dõi từ camera, cảm biến nhiệt độ, độ ẩm…).
Lưu trữ dữ liệu (Data Storage): thành phần này được thiết kế để lưu trữ lại khối
lượng rất lớn các loại dữ liệu với các định dạng khác nhau được sinh ra bởi nguồn dữ
liệu (Data Source) trong mơ hình xử lý dữ liệu theo lơ (Batch Processing). Mơ hình phổ
biến cho thành phần này là các hệ thống lưu trữ file phân tán trên nhiều node khác nhau
trong 1 cụm (cluster), đảm bảo cho khả năng xử lý lượng rất lớn các file dữ liệu cũng
như tính an tồn của dữ liệu (replica). Apache Hadoop HDFS đang được sử dụng phổ
biến để implement thành phần này trong các hệ thống Big Data.
Xử lý dữ liệu theo lô (Batch Processing): thành phần này cho phép xử lý một
lượng lớn dữ liệu thông qua việc đọc dữ liệu từ các file nguồn, lọc dữ liệu theo các điều
kiện nhất định, tính tốn trên dữ liệu, và ghi kết quả xuống 1 file đích. Trong thành phần
này bạn có thể sử dụng Spark, Hive, MapReduce … với nhiều ngơn ngữ lập trình khác
nhau như Java, Scala hoặc Python.
Thu thập dữ liệu thời gian thực (Real-time Message Ingestion): như đã nói ở
trên, dữ liệu được sinh ra từ nguồn (Data Source) có thể bao gồm dữ liệu thời gian thực
(ví dụ từ các thiết bị IoT) do đó thành phần này cho phép một hệ thống Big Data có thể
thu thập và lưu trữ các loại dữ liệu trong thời gian thực phục vụ cho việc xử lý dữ liệu
theo luồng (Streaming Processing). Công nghệ phổ biến nhất chắc các bạn hay nghe đến
Kafka, ngồi ra cịn có những cái tên khác như RabbitMQ, ActiveMQ, … và gần đây là
Apache Pulsar với so sánh nhanh hơn 2.5 lần và độ trễ thấp hơn 40% so với Kafka.
Xử lý dữ liệu theo luồng (Stream Processing): tương tự như việc xử lý dữ liệu
theo lô (Batch Processing), sau khi thu thập dữ liệu thời gian thực, dữ liệu cũng cần phải
được lọc theo các điều kiện nhất định, tính tốn trên dữ liệu, và ghi kết quả dữ liệu sau
khi được xử lý. Chúng ta có thể nhắc đến Apache Storm, Spark Streaming…
Lưu trữ dữ liệu phân tích (Analytical Data Store): chịu trách nhiệm lưu trữ
dữ liệu đã được xử lý theo định dạng có cấu trúc để phục vụ cho các cơng cụ phân tích
dữ liệu (BI Tools). Dữ liệu có thể được lưu trữ dưới dạng OLAP trong thiết kế Kimball
(cho bạn nào chưa biết thì Kimball là một trong 3 phương pháp luận khi thiết kế 1 Data
warehouse: Inmon, Kimball và Data Vault) hoặc dữ liệu có thể lưu trữ bằng các công
nghệ NoQuery như HBase, Cassandra…
Lớp phân tích và báo cáo (Analysis and Reporting): thành phần này đáp ứng
việc tự khai thác dữ liệu Data self-service. Cho phép người dùng cuối trực quan hóa dữ
liệu (Data visualization), phân tích dữ liệu, cũng như kết xuất các báo cáo khác nhau.
Nhóm 02
8
Tiểu luận
Internet và giao thức
Công nghệ được sử dụng ở tầng này khá đa dạng, có thể là các open source tool như
D3.JS, Dygaphs, … đến các công cụ commercial như Tableau, Power BI, …, hay bạn
có thể tự code bằng các ngôn ngữ Python, R…
Điều phối (Orchestration): thành phần này có nhiệm vụ điều phối các cơng việc
trong một hệ thống Big Data để đảm bảo luồng xử lý dữ liệu được thông suốt, từ việc
thu thập dữ liệu, lưu trữ dữ liệu đến lọc, tính tốn trên dữ liệu. Apache Oozie, Airflow…
5. Giao thức ứng dụng mới đáp ứng nhu cầu truyền tải Big Data
Trong hệ thống lưu trữ và phân tích Big Data hiện nay, một hệ thống lưu trữ như
thế có thể lưu trữ lên tới 100PB và dữ liệu thu được được đổ về hệ thống lưu trữ hàng
chục Gb dữ liệu một ngày. Do đó hoạt động truyền tải file cũng phải cải được cải thiện
để đáp ứng nhu cầu đó. Tuy nhiên với công nghệ truyền tải dữ liệu TCP/IP đã ra đời
được gần 40 năm tuổi, thường bị quá tải khi được yêu cầu truyền dữ liệu quy mô lớn,
TCP/IP đã trở nên lỗi thời, một điểm tắc nghẽn trong nhiều cơ sở hạ tằng tính tốn quy
mơ tiên tiến.
Để khắc phục vấn đề đó người sáng lập Data Expedition đã âm thầm giải quyết
vấn đề truyền dữ liệu trong gần 25 năm. Trong năm 2017 đã công bố phần mềm
CloudDat, phần mềm truyền dữ liệu mới dữu trên giao thức đa năng Multipurpose
Transaction Potocol (MTP/IP) của công ty, với công nghệ này dữu liệu có thể được
truyền đi với tốc độ 900 MB/s, so với TPC/IP chỉ là 100-150MB/s. Hiện nay CloudDat
đã được tích hợp vào dịch vụ lưu trữ đám mây của Oracle để quản lý các sản phẩm kỹ
thuật số. Ngoài ra CloudDat hỗ trợ truyền dữu liệu ra vào Amazone Web Services
(AWS), Microsoft Azure và Google Cloud Plafrom, cùng với các cơ sở hạ tầng đám
mây tại chỗ.
Hình 5: So sánh tốc độ truyền tải dữ liệu TCP và MTP
Nhóm 02
9
Tiểu luận
Internet và giao thức
Phần mềm giao thức Multipurpose Transaction Potocol (MTP/IP) là một giao
thức truyền tải độc quyền (OSI 4 lớp). MTP được triển khai bằng cách sử dụng định
dạng gói giao thức User Datagram protocol (UDP), nó sử dụng thuật toán điều khiển
luồng và sửa lỗi đọc quyền để đạt được sự phân phối dữ liệu đáng tin cậy tránh tình
trạng mạng q tải.
MTP tận dụng tính chất bán song cơng điển hình của hầu hết các q trình truyền
dữ liệu bằng cách định vị các thuật tốn điều khiển luồng cốt lõi của nó ở đầu nhận, thay
vì đầu gửi. Điều này mang lại cho nó một cái nhìn trực tiếp và thực tế hơn nhiều về
những gì đang diễn ra trong mạng. Đầu vào tốt hơn có nghĩa là thích ứng nhanh hơn với
các điều kiện mạng tại thời điểm này, cả khi khởi động và trong suốt q trình giao dịch.
Do đó, MTP có thể đảm bảo rằng đường ống dữ liệu luôn đầy nhưng khơng bị tràn.
Hình 6: Minh họa luồng dữ liệu TCP qua mạng WAN bị tắc nghẽn. Sự dao động
dòng chảy, các vấn đề về tỷ lệ và tắc nghẽn dẫn đến băng thơng bị lãng phí
Khi các kỹ sư tại nhóm Advanced Computing Engineering (ACE) bắt đầu thử
nghiệm MTP / IP ExpeDat, họ đã thấy thời gian truyền của họ tăng từ khoảng 6 megabit
/ giây lên hơn 42 megabit / giây. Quá trình truyền đã mất 90 phút, giờ đã được thực hiện
chỉ trong 12 phút. Họ luôn biết mạng WAN của họ có dung lượng lý thuyết là 45 megabit
/ giây, nhưng đã khơng thể đạt được nó bằng công nghệ dựa trên TCP. Các kỹ sư ACE
ngay lập tức nhìn thấy tiềm năng; các cơng việc mơ phỏng có thể được cân bằng tải trên
quy mơ tồn cầu. Các nhà quản lý nhận thấy tiềm năng tăng cấp độ dịch vụ với các cụm
giống nhau hoặc thậm chí ít hơn.
Nhóm 02
10
Tiểu luận
Internet và giao thức
Hình 7: Minh họa luồng dữ liệu MTP qua cùng một mạng WAN như Hình 4.
Khả năng mở rộng quy mơ và thích ứng với lưu lượng của bên thứ ba
làm tăng mức sử dụng lên gần 100%.
VÌ MTP/IP sử dụng các thuật tốn độc quyền, phần mềm tương thích phải được
đặt ở cả hai đầu của đường truyền. Việc sử dụng định dạng gói UDP cho phép tương
thích với phần cứng và phần mềm mạng Internet Protocol (IP) tiêu chuẩn. Các ứng dụng
MTP/IP có thể sử dụng bất kì số cổng UDP có sẵn nào.
MTP và các ứng dụng sử dụng nó đã được triển khai cho các hệ điều hành như
Microsoft Windows, MacOS, Linux, Solaris. Các nền tảng phần cứng bao gồm x86 và
ARM.
6. Mô phỏng sử dụng công cụ để tiếp cận Big Data
6.1. Lợi ích của việc crawler data và mơ hình crawl
Hiện tại là thời đại công nghệ 4.0 và Big Data cho nên bạn càng làm chủ bao
nhiêu thì bạn càng có nhiều cơ hội trong việc thương mại của doanh nghiệp của bạn
hoặc cho cá nhân bạn vào một ứng dụng nào đó.
Crawler data là giảm tải cơng việc sáng tạo cho các nhân viên , sử dụng Data vào
nhiều mục đích khác nhau như nghiên cứu thị trường , thiết kế các Website hoặc mua
giới bất động sản, sử dụng thơng tin nguời dùng để phân tích dữ liệu tối ưu các hình
thức thương mại hóa trong thị trường đặc biệt về viễn thơng.
Nhóm 02
11
Tiểu luận
Internet và giao thức
Hình 8: Mơ hình crawl data
Internet khơng ngừng thay đổi và mở rộng. Vì khơng thể biết tổng số website có
trên Internet, web crawlers bắt đầu từ một danh sách các URL đã biết. Trước tiên, chúng
thu thập dữ liệu webpage tại các URL đó. Từ các page này, chúng sẽ tìm thấy các siêu
liên kết đến nhiều URL khác và thêm các liên kết mới tìm được vào danh sách các trang
cần thu thập thơng tin tiếp theo.Với số lượng lớn các website trên Internet có thể được
lập chỉ mục để tìm kiếm, q trình này có thể diễn ra gần như vơ thời hạn. Tuy
nhiên, web crawler sẽ tuân theo một số chính sách nhất định giúp nó có nhiều lựa chọn
hơn về việc nên thu thập dữ liệu trang nào, trình tự thu thập thông tin ra sao và tần suất
thu thập lại thông tin để kiểm tra cập nhật nội dung.
6.2. Demo sử dụng Python để Crawl Linkedin và công cụ phân tích xử lý dữ liệu
Power BI
Nhóm 02
12
Tiểu luận
Internet và giao thức
Phần demo này chúng ta sẽ sử dụng ngơn ngữ lập trình Python, sử dụng
MongoDB để lưu trữ dữ liệu và Power BI để phân tích dữ liệu.
Hình 9: Giao diện web khi chưa có dữ liệu
Hình 9 là giao diện hiển thị dữ liệu sử dụng framework Python Django, HTML
và CSS. Hình này mơ tả khi chưa crawl dữ liệu.
Hình 10: Ví dụ về dữ liệu cần crawl
Đây là một ví dụ bài viết được đăng trên LinkedIn, nhiệm vụ của chúng ta là
crawl dữ liệu này về như tên tác giả, nội dung, thời gian hay các bình luận của bài viết.
Nhóm 02
13
Tiểu luận
Internet và giao thức
Hình 11: Cơ sở dữ liệu MongoDB
MongoDB là một hệ quản trị cơ sở dữ liệu mã nguồn mở, là CSDL thuộc NoSql
và được hàng triệu người sử dụng. MongoDB là một database hướng tài liệu
(document), các dữ liệu được lưu trữ trong document kiểu JSON thay vì dạng bảng
như CSDL quan hệ nên truy vấn sẽ rất nhanh.
Sau khi crawl dữ liệu về sẽ được lưu vào MongoDB, từ đó sẽ được sử dụng
theo yêu cầu.
Hình 12: Dữ liệu sau khi crawl được hiển thị lên web
Nhóm 02
14
Tiểu luận
Internet và giao thức
Sau khi đã có dữ liệu trong MongoDB, mình sẽ truy vấn dữ liệu và hiển thị chúng
lên giao diện web. Đây chính là dữ liệu mà chúng ta cần lấy từ LinkedIn ban đầu. Từ
đây có thể dùng dữ liệu để
Dưới đây là một số hình ảnh sử dụng cơng cụ Power BI để phân tích dữ liệu:
Hình 13: Mơ tả dữ liệu được crawl theo thời gian
Hình 14: Tỉ lệ phần trăm của bài viết được crawl theo từ khóa
Nhóm 02
15
Tiểu luận
Internet và giao thức
KẾT LUẬN
Qua bài tiểu luận được trình bày bên trên, chúng ta đã thấy được các tiềm năng
to lớn của công nghệ Big Data mang lại. Big Data thực sự đã len lỏi đến khắp mọi ngóc
ngách của cuộc sống, mà chính chúng ta cũng có thể cảm nhận được. Tuy nhiên đi cùng
với đó cũng là hàng loạt các vấn đề phát sinh như bảo mật dữ liệu người dùng, hệ thống
lưu trữ, phân tích còn chưa đáp ứng kịp với tiềm năng của Big Data mang lại.
Kể cả các giao thức ứng dụng cũng đã trở nên lỗi thời nhanh chóng vì khơng đáp
ứng được nhu cầu truyền tải dữ liệu quá lớn như hiện nay, để khắc phục điều này các
giao thức ứng dụng mới đã được nghiên cứu và đưa vào ứng dụng như MTP/IP để khắc
phục tình trạng này.
Ngồi ra, bài tiểu luận cũng đã đề cập đến việc sử dụng một số ngơn ngữ lập trình
để crawl dữ liệu từ các nền tảng xã hội (LinkedIn, Twitter...). Sau đó dùng cơng cụ
Power BI để phân tích dữ liệu và vẽ biểu đồ thể hiện mối tương quan các dữ liệu đó.
Nhóm 02
16
Tiểu luận
Internet và giao thức
TÀI LIỆU THAM KHẢO
[1] Reaping the benefits of Big data in telecom - SpringerOpen
[2] The Role of Big Data in Banking : How do Modern Banks Use Big Data? Finextra
[3] How to make the best of Big data in healthcare: Benefits, challenges, and use
cases - NiX
[4] Đầu tư vào Big Data cứu sống hàng triệu người - Vietnamnet
Nhóm 02
17