Tiểu luận
Internet và giao thức
Nhóm 02
i
Tiểu luận
Internet và giao thức
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA VIỄN THÔNG I
TIỂU LUẬN HỌC PHẦN
INTERNET VÀ GIAO THỨC
ĐỀ TÀI: Ứng dụng của Big Data và giao thức ứng dụng mới
phục vụ cho xu hướng Big Data hiện nay
Giảng viên:
Nhóm:
Nguyễn Tiến Ban
02
STT
Họ và tên
Mã sinh viên
1
2
3
4
5
Phạm Thanh Tùng
Nguyễn Xuân Minh (C)
Nguyễn Thị Diệu Linh
Cao Văn Phong
Tống Duy Hưng
B18DCVT390
B18DCVT294
B18DCVT247
B18DCVT316
B18DCVT218
HÀ NỘI – 2021
Nhóm 02
i
Tiểu luận
Internet và giao thức
LỜI NÓI ĐẦU
Trong cuộc cách mạng công nghiệp 4.0 hiện nay, nguồn tài nguyên giá trị
nhất của thế giới khơng cịn là dầu mỏ, mà là kho dữ liệu số đang tăng lên với
cấp độ lũy thừa mỗi ngày. Và phần mềm quản lý Big Data là một yếu tố đóng
vai trị then chốt. Vậy Big Data thực chất là gì, và nó đang được ứng dụng như
thế nào?
Chúng ta hãy hình dung rằng một khối dữ liệu khổng lồ được tạo ra từ các
hoạt động trong lĩnh vực kinh doanh, giải trí, giáo dục,... Và việc cập nhật, kiểm
soát liên tục này bằng phương tiện truyền thông xã hội, ứng dụng kinh doanh,
viễn thông và các lĩnh vực khác đang dẫn đến sự hình thành của Big data.
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức
tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào
đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thơng tin
q giá mà nếu trích xuất thành cơng, nó sẽ giúp rất nhiều cho việc kinh doanh,
nghiên cứu khoa học, dự đốn các dịch bệnh sắp phát sinh và thậm chí là cả việc
xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu
này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so
với bình thường.
Trong thực tế, Big Data (Dữ liệu lớn) được ứng dụng vào rất nhiều lĩnh
vực, giúp doanh nghiệp ở mọi quy mô tạo nên biến chuyển ấn tượng, gia tăng
tính hiệu quả, năng suất và lợi thế cạnh tranh so với đối thủ trong kỷ nguyên
chuyển đổi số digital transformation.
Trên cơ sở làm rõ những vấn đề này, nhóm em xin được trình bày về đề
tài “Ứng dụng của Big Data và giao thức ứng dụng mới phục vụ cho xu hướng
Big Data hiện nay”.
Nhóm 02
i
Tiểu luận
Internet và giao thức
Nhóm 02
i
Tiểu luận
Internet và giao thức
MỤC LỤC
LỜI NÓI ĐẦU
i
MỤC LỤC ii
THUẬT NGỮ VIẾT TẮTiii
DANH MỤC HÌNH ẢNH iiii
1. Giới thiệu 1
2. Khái niệm và ứng dụng của Big Data
2.1. Khái niệm về Big Data
1
2.2. Ứng dụng của Big Data
2
2.2.1. Trong lĩnh vực ngân hàng
2.2.2. Trong lĩnh vực y tế
2
2.2.3. Thương mại điện tử
3
2.2.4. Điện toán đám mây
3
2.2.5. Ngành bán lẻ
1
2
3
3. Big Data - thách thức và cơ hội
3.1. Góc nhìn doanh nghiệp
4
4
3.2. Góc nhìn kỹ thuật 5
3.3. Góc nhìn xã hội
6
4. Xây dựng hệ thống lưu trữ phân tích dữ liệu Big Data
7
5. Giao thức ứng dụng mới phục vụ cho truyền tải dữ liệu Big Data
9
6. Mô phỏng sử dụng cơng cụ để tiếp cận Big Data 11
6.1. Lợi ích của việc crawler data và mơ hình crawl
11
6.2. Demo sử dụng Python để Crawl Linkedin và cơng cụ phân tích xử lý dữ
liệu Power BI
12
KẾT LUẬN 16
TÀI LIỆU THAM KHẢO
Nhóm 02
17
ii
Tiểu luận
Internet và giao thức
THUẬT NGỮ VIẾT TẮT
Thuật ngữ
Tiếng Anh
Tiếng Việt
AI
AWS
BI
CSS
CSDL
DA
DS
DWH
ETL
GPS
HDFS
IoT
OLTP
OLAP
ML
URL
TCP
WEF
IP
UDP
HTML
Artificial intelligence
Amazon web services
Business Intelligence
Cascading Style Sheets
Trí tuệ nhân tạo
Dịch vụ đám mây
Trí tuệ doanh nghiệp
Ngơn ngữ lập trình
Cơ sở dữ liệu
Phân tích dữ liệu
Khoa học dữ liệu
Kho dữ liệu thường
Trích xuất-Biến đổi-Tả
Hệ thống định vị tồn cầu
Hệ thống tệp phân tán Hadoop
Internet vạn vật
Xử lý giao dịch trực tuyến
Xử lý phân tích trực tuyến
Máy học
Địa chỉ web
Giao thức điều khiển truyền vận
Diễn đàn Kinh tế thế giới
Địa chỉ giao thức Internet
Giao thức dữ liệu người dùng
Ngơn ngữ lập trình web
Nhóm 02
Data Analyst
Data Science
Data warehouse
Extra-Transform-Load
Global positioning
Hadoop Distributed File System
Internet of things
On-line transactional processing
Online Analytical Processing
Machine Learning
Uniform Resource Locator
Transmission Control Protocol
World Economic Forum
Internet Protocol
User datagram protocol
Hypertext Markup Language
iii
Tiểu luận
Internet và giao thức
DANH MỤC HÌNH ẢNH
Hình 1: Đặc tính của Big Data
2
Hình 2: Nguồn nhân lực phải được trang bị kiến thức nhiều lĩnh vực khác nhau
Hình 3: Sơ đồ tổng quát của một chu trình xử lý dữ liệu.
5
6
Hình 4: Hệ thống lưu trữ Data Lake 7
Hình 5: So sánh tốc độ truyền tải dữ liệu TCP và MTP
9
Hình 6: Minh họa luồng dữ liệu TCP qua mạng WAN bị tắc nghẽn. Sự dao động dòng chảy,
các vấn đề về tỷ lệ và tắc nghẽn dẫn đến băng thơng bị lãng phí
10
Hình 7: Minh họa luồng dữ liệu MTP qua cùng một mạng WAN như Hình 4. Khả năng mở
rộng quy mơ và thích ứng với lưu lượng của bên thứ ba làm tăng mức sử dụng lên gần 100%.
11
Hình 8: Mơ hình crawl data 12
Hình 9: Giao diện web khi chưa có dữ liệu 13
Hình 10: Ví dụ về dữ liệu cần crawl 13
Hình 11: Cơ sở dữ liệu MongoDB
14
Hình 12: Dữ liệu sau khi crawl được hiển thị lên web
Hình 13: Mơ tả dữ liệu được crawl theo thời gian
15
Hình 14: Tỉ lệ phần trăm của bài viết được crawl theo từ khóa
Nhóm 02
14
15
iiii
Tiểu luận
Internet và giao thức
1. Giới thiệu
Trong đại dịch covid-19 mọi người đều phải cách ly tại nhà, tất cả các hoạt
động đều chuyển lên mỗi trường trực tuyến như học tập, giải trí, làm việc từ xa …
Dữ liệu trên internet từ đó được tạo ra theo cấp số nhân, tuy nhiên chúng ta vẫn
chưa biết cách tận dụng lượng dữ liệu khổng lồ này một cách hiệu quả đặc biệt là trong
ngành viễn thông. Câu hỏi đặt ra là làm thế nào để tận dụng được lượng dữ liệu khổng
lồ này trong việc tối ưu hóa mạng lưới kết nối, nâng cao trải nghiệm khách hàng, tăng
cường bảo mật, phát triển các nguồn thu. Tuy nhiên hiện nay không nhiều công ty làm
được điều này.
Trong những năm gần đây các cơng khác nhau đang tích cực triển khai ứng
dụng Big Data trong hoạt dộng quản lý nhưng chưa đạt được kết quả như mong đợi.
Theo khảo sát của MCKinsey đã thực hiện khảo sát riêng chỉ 80 công ty viễn thơng
trên tồn thế giới đãt đầu tư và khai thác Big Data nhưng chỉ 8% các công ty viễn
thông được hỏi cho rằng họ đã khai thác hết được tiềm năng Big Data trong quản lý.
Mục tiêu của bài tiểu luận này là tìm hiểu Big Data là gì và ứng dụng thực tiễn
Big Data hiện nay như thế nào cũng như tìm hiểu các giao thức ứng dụng mới trong
Big Data.
2. Khái niệm và ứng dụng của Big Data
2.1 Khái niệm về Big Data?
Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng
của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu
trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên
tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ
liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình
thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mơ lớn.
Nhóm 02
8
Tiểu luận
Internet và giao thức
Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META Group
(bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách thức và cơ hội
tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của dữ liệu (velocity), và
khổ giới hạn của kiểu dữ liệu (variety). Gartner, và nhiều ngành công nghiệp tiếp tục
sử dụng mơ hình '3Vs' để mơ tả dữ liệu lớn. Trong năm 2012, Gartner đã cập nhật định
nghĩa như sau: "Dữ liệu lớn là khối lượng lớn, tốc độ cao và/hoặc loại hình thơng tin
rất đa dạng mà u cầu phương thức xử lý mới để cho phép tăng cường ra quyết định,
khám phá bên trong và xử lý tối ưu". Định nghĩa '3Vs' của Gartner vẫn được sử dụng
rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập
thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng
(Variety) để yêu cầu phương thức phân tích và cơng nghệ riêng biệt để biến nó thành
có giá trị". Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để mơ tả về nó.
3Vs đã được mở rộng để bổ sung đặc tính của dữ liệu lớn.
Hình 1: Đặc tính của Big Data
2.2. Ứng dụng Big Data
2.2.1. Trong lĩnh vực ngân hàng
Big Data đã và đang được ứng dụng hiệu quả với các hoạt động trong ngân
hàng từ thu tiền mặt đến quản lý tài chính quản lý rủi ro …
- Sử dụng các kỹ thuật phân lớp phân cụm giúp ngân hàng đưa ra quyết định
quan trọng, hệ thống phân tích có thể xác định các đại điểm chi nhánh tập trung
nhiều nhu cầu của khách hàng, đề xuất mở chi nhánh mới
- Học máy AI, ML đang được các ngân hàng sử dụng để phát hiện các hoạt động
gian lận, cũng như dự đoán tỉ lệ nợ xấu của khách hàng từ đó đưa ra khuyễn
nghị có nên tiếp tục cho vay hay khơng.
Nhóm 02
9
Tiểu luận
Internet và giao thức
- Khoa học dữ liệu hỗ trợ phân tích lượng dữ liệu khổng lồ từ các hoạt động hàng
ngày giúp tối ưu hóa quy trình, giảm thiểu chi phí
- Phân tích hành vi khách hàng từ đó nâng cao trải nghiệm của khách hàng.
2.2.2. Trong lĩnh vực y tế
Theo báo cáo của IDC, dữ liệu lớn dự kiến sẽ tăng nhanh hơn trong lĩnh vực
chăm sóc sức khỏe so với các ngành công nghiệp khác như sản xuất, dịch vụ tài chính
hoặc truyền thơng. Dự kiến, dữ liệu chăm sóc sức khỏe sẽ có tốc độ tăng trưởng kép
hàng năm (CAGR) là 36% đến năm 2025.
-
-
Những lợi ích cụ thể của Big Data trong lĩnh vực y tế:
Như trong đại dich covid, các dự đoán trước về tương lai trong tình hình dịch
bệnh đã giúp cứu hàng triệu người ví dụ như afghanistan nhờ việc dự đoán số
ca nhiễm cũng như các ca tử vong đã giúp cho quốc gia này đã dồn sức chuẩn
bị cho cuộc thảm họa về y tế
Theo dõi tình trạng bênh nhân bằng hồ sơ sức khỏe điện tử
Big Data có thể đánh giá các triệu chứng và xác định nhiều bênh ở giai đoạn
đầu
Cảnh báo những khu vực có nguy cơ bùng phát dịch
2.2.3. Thương mại điện tử
-
Big Data tạo ra lợi thế cạnh tranh khổng lồ cho cách doanh nghiệp bằng cung
cấp thông tin về các bản báo cáo thu, phân tích xu hướng.
Thu thập dữu liệu khách hàng để giới thiệu sản phẩm phù hợp ví dụ như khách hàng
mua điện thoại thì sẽ thường mua thêm phụ kiện như ốp lưng, cường lực …
Tạo ra chiến lược maketting hiệu quả tiết kiệm chi phí nhưng mang về hiệu quả cao
nhất.
Tạo ra các tiêu chí theo dõi như độ tuổi, báo cáo tài chính từ đó giới thiệu sản phẩm
phù hợp tăng khả năng mua của khách hàng.
Ứng dụng AI, ML trong việc quản lý kho bãi giảm lượng hàng tồn kho.
2.2.4. Điện toán đám mây
Big Data là lượng dữ liệu khổng lồ kiến cho việc tổ chức lưu trữ phân tích dữ
liệu trở nên tốn kém, có một giải pháp có thể giải quyết vấn đề này đó là Cloud.
- Cloud tăng tốc độ quản lý và truy cập cơ sở dữ liệu.
- Cung cấp công cụ để tính tốn, phân tích dữ liệu.
2.2.5. Ngành bán lẻ
Nhóm 02
10