Tải bản đầy đủ (.pdf) (96 trang)

Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (16.81 MB, 96 trang )

B

GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------

ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN

H I PHÒNG 2016


B GIÁO D
O
I H C DÂN L P H I PHÒNG

-------o0o-------

ÁP D NG CÁC K THU T TRONG BIG DATA
D LI U

ÁN T T NGHI
I H C H CHÍNH QUY
Ngành: Công Ngh Thông Tin

H I PHÒNG - 2016


B GIÁO D
O


I H C DÂN L P H I PHÒNG

-------o0o-------

ÁP D NG CÁC K THU T TRONG BIG DATA VÀO
D LI U

ÁN T T NGHI
I H C H CHÍNH QUY
Ngành: Công Ngh Thông Tin

Sinh viên th c hi n: Nguy n Chí Thanh
ng d n: Nguy n Tr
Mã s sinh viên: 1212101002

H I PHÒNG - 2016


B GIÁO D
O
I H C DÂN L P H I PHÒNG

C NG HÒA XÃ H I CH
T NAM
c l p T do H nh phúc
-------o0o-------

NHI M V THI T K T T NGHI P

Sinh viên: Nguy n Chí Thanh


Mã sinh viên: 1212101002

L p: CT1601

Ngành: Công Ngh Thông Tin

tài: Áp d ng các k

thu

d

li u


NHI M V

TÀI

1. N i dung và các yêu c u c n gi i quy t trong nhi m v
tài t t nghi p
a. N i dung:
- Tìm hi u v các thành ph n công ngh và qu n lý Big data.
- Tìm hi u mô hình x lý d li u phân tán MapReduce.
- Tìm hi u h th ng Hadoop.
ng h th ng.
- Th nghi m v i các công c
gi i quy t bài toán.
b. Các yêu c u c n gi i quy t

- N
c các thành ph n công ngh Big data.
- N
c nguyên lý ho
ng mô hình Map Reduece.
- N
c quy trình ho
n c a h th ng Hadoop.
- Áp d ng ki n th c trong xây d ng ph n m m th nghi m.
2. Các s li u c n thi
thi t k , tính toán

3.

m th c t p


CÁN B

NG D

TÀI T T NGHI P

ng d n th nh t:
H và tên: Nguy n Tr
H c hàm, h c v : Th
i h c Dân l p H i Phòng
N

ng d n:

-

Tìm hi u v các thành ph n công ngh và qu n lý Big data.
Tìm hi u mô hình x lý d li u phân tán MapReduce.
Tìm hi u h th ng Hadoop.
ng h th ng.
Th nghi m v i các công c
gi i quy t bài toán.

tài t t nghi

c giao ngày 0

Yêu c u ph

c ngày 30
n nhi m v
Sinh viên

n nhi m v
Cán b
ng d

H
HI

NG

n H u Ngh



PH N NH N XÉT TÓM T T C A CÁN B
NG D N
Tinh th
c
tài t t nghi p:
............................................................................................................................
...................................................................................................................
............................................................................................................................
............................................................................................................................
...........................................................................................................................
............................................................................................................................
............................................................................................................................
............................................................................................................................
ng c
tài t t nghi p (so v i n i dung yêu c
ra trong nhi m v
tài t t nghi p)
............................................................................................................................
............................................................................................................................
............................................................................................................................
...........................................................................................................................
............................................................................................................................
..........................................................................................................................
............................................................................................................................
............................................................................................................................
m c a cán b
ng d n
m ghi b ng s và ch )
............................................................................................................................

...........................................................................................................................
Cán b
ng d n chính
(Ký, ghi rõ h tên)


PH N NH
1.

t
thuy

2.

A CÁN B CH M PH N BI
TÀI T T NGHI P
tài t t nghi p (v các m
th c t

lý lu n,

m c a cán b ph n bi n
m ghi b ng s và ch )

............................................................................................................................
............................................................................................................................
Ngày
Cán b ch m ph n bi n
(Ký, ghi rõ h tên)



L IC
Qua th i gian h c t p và nghiên c u t
i h c Dân l p H i Phòng,
u tiên em xin chân thành c
c t i th y giáo GS.TS NG
n
H u Ngh hi
u ki n v
v t ch t
trang thi t b giúp chúng em h c t p và nghiên c u trong th i gian qua.
Em xin chân thành c
i t t c th y giáo, cô giáo trong nhà
ng.Em xin chân thành c
ác th y giáo cô giáo trong B môn Tin h c
tr c ti p gi ng d y cho em nh ng ki n th c b ích.
c bi t em xin chân thành c
th i gian làm t t nghi p v a qua, th
ng d n em th c hi
tài này.

y giáo Nguy n Tr
u th i gian và tâm huy

t qu c a quá trình tìm hi u và nghiên c
t
c trong th i gian v a qua. M c dù r t c g
c th
u bi t và kinh nghi m c a mình còn h n ch nên có th
ph i là k t qu mà th

i t em. Em r t mong nh
c nh ng l i
nh
a th
bài lu
c hoàn
thi
u kinh nghi m cho công vi c sau này.
Em xin chân thành c
H i Phòng, tháng 12

16

Sinh viên th c hi n

Nguy n Chí Thanh

1


M CL C
M C L C............................................................................................................. 2
DANH M C HÌNH .............................................................................................. 4
DANH M C B NG............................................................................................. 5
DANH M C T
L IM

VIÊT T T................................................................................ 6

U ....................................................................................................... 7

CÔNG NGH QU N LÝ D

LI U L N .................................. 9

1.1 Công ngh n n t ng áp d ng cho Big data .................................................. 9
1.1.1 Tìm hi u các thành ph n công ngh Big data........................................ 9
1.1.2 o hóa và h tr tính toán phân tán..................................................... 16
1.1.3 Ki

............................................................ 24

1.2 Qu n lý d li u l n..................................................................................... 36
1.2.1

d li u ho

ng ....................................................................... 36

1.2.2 Thi t b và kho d li u l n................................................................... 49
XÂY D NG KHO D

LI

N.................................. 51

2.1 Khám phá d li u phi c u trúc ................................................................... 51
2.2 Tìm hi u v

n................................................................... 52


2.3 Phân tích và k thu t khai thác .................................................................. 54
2.3.1 Tìm hi u thu th p thông tin.................................................................. 56
2.3.2 Nguyên t c phân lo i ........................................................................... 57
2.4

t qu cùng v i d li u có c u trúc .................................................. 57

2.5

li u l n s d ng............................................................................. 58

2.6 Công c

n cho Big data ................................................... 60

2.6.1 Attensity ............................................................................................... 60
2.6.2 Clarabridge........................................................................................... 60
2.6.3 IBM ...................................................................................................... 61
2.6.4 OpenText.............................................................................................. 61
2.6.5 SAS ...................................................................................................... 62
2


HADOOP VÀ TH C NGHI M................................................. 63
3.1 Gi i thi u h th ng Hadoop....................................................................... 63
3.1.1 Mô hình x lý d li u phân tán Mapreduce......................................... 63
3.1.2 Hadoop n n t ng l p trình theo mô hình Mapreduce ....................... 66
3.1.3 Xây d ng m

y trên n n Hadoop ............................ 73


3.2 Th c nghi m .............................................................................................. 76
ng d
3.2.2 Kh

t Hadoop cluster....................................................... 76

ng h th ng.............................................................................. 80

K T LU N ......................................................................................................... 87
TÀI LI U THAM KH O................................................................................... 88

3


DANH M C HÌNH
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình

Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình

2-1: M u h
c g i............................................................................ 52
3-1: Mô hình t ng quát c a Mapreduce .................................................... 63
3-2: Quá trình Split.................................................................................... 64
3-3: Quá trình Mapper và Shuffle trên m t máy....................................... 64
3-4: Quá trình Reduce ............................................................................... 65
3-5: Các thành ph n c a Hadoop cluster .................................................. 67
3ho
ng c a JobTracker và TaskTracker trong Hadoop .... 68
3-7: Ki n trúc Master/Slave c a h th ng t p tin phân tán Hadoop ......... 70
3-8: Nhân b n block trong HDFS ............................................................. 71
3c d li u trên HDFS....................................................... 72
3-10: Quy trình ghi d li
ng d n.................... 72
3-11: Quá trình ho
ng c a m t tác v MapReduce trên Hadoop ....... 76
3p vào tài kho
i dùng hduser .................................. 80
3-13: Kh

ng Hadoop........................................................................... 80
3-14: Ki m tra Hadoop.............................................................................. 81
3-15: Trang qu n lý Hadoop All Aplications ........................................... 82
3-16: Trang qu n lý Hadoop Namenode................................................... 82
3-17: Trang qu n lý Hadoop SecondaryNamenode.................................. 83
3-18: Trang qu n lý Hadoop Directory..................................................... 83
3-19: T t Hadoop ...................................................................................... 84
3-20: T
c vidu............................................................................. 84
3c vidu ..................................... 85
3c t o....................................... 85
3c vidu vào hdfs............................................................ 86

4


DANH M C B NG
B ng 2-1: Chuy
b n phi c u trúc thành d li u có c u trúc .................... 53
B ng 2-2: Truy v n, khai thác d li u, tìm ki
n............. 54
B ng 2-3: K t h p d li u có c u trúc và d li u không có c u trúc ................ 58

5


DANH M C T
T vi t t t
API
XML

SQL
HDFS
SaaS
IaaS
PaaS
DaaS
RDBMS
KVP

VIÊT T T

T

Di n gi i

Application Programming Interfaces

Giao di n l p trình ng
d ng
Extensible Markup Language
Ngôn ng
u m
r ng
Structured Query Language
Ngôn ng truy v n có
c u trúc
Hadoop Distributed File System
H th ng phân tán t p tin
c a Hadoop
Software as a Service

Tri n khai ph n m m
t d ch v
Infrastructure as a Service
Tri
h t ng
t d ch v
Platform as a Service
Tri n khai n n t
là m t d ch v
Data as a Service
Tri n khai d li
m t d ch v
Relational Database Management H th ng qu
System
d li u quan h
Key-Value pair
C p khóa giá tr

6


L IM

U

S phát tri n c a xã h i d
n bùng n d li u trong nh ng th p niên g n
ng s n ph m công ngh m
i nhi u ti n ích trong cu c s ng,
c ng d ng nhi

c thông tin truy n thông. H th
n
t , tr c tuy n, các website c a nh ng doanh nghi p t ch
c phát tri n
m nh m góp ph
ng m i quan h , h p tác nhi
hóa xã h i, khoa h c công ngh , y t , giáo d c, gi
i có trong tay
nhi u công c
chia s thông tin qua blog, website, di
ng xã h i
tr c tuy
2000, ch m i có m t ph
d ng k thu t s trên th
gi i. Ba ph
trên gi y t
n
an
ng d li u k thu t s bùng n quá nhanh c
l
c c di
c. Ngày nay, ch
i 2%
t
c chuy
d ng k thu t s .
Tuy nhiên nh
tr d li
c l r t nhi u h n ch .
Ngày nay kh

ng d li u vô cùng l n, kích c
n petabyte ch cho m t t p h p d li u. Cùng v
li u sinh ra là phi c u trúc (tài li u, blog, hình nh, video, bài hát, d li u c m
bi n, thi t b
c kh
d li u
truy n th ng không th
c. Nh
phép liên k t và phân tích nhi u d ng d li u khác nhau. Kh
ng d li u gia
x lý d li u (thu nh n, x
) m t r t nhi u
th i gian trong khi nhu c u c
i mu n x
c ngay d li u t c
th
nb
i t o ra m
pháp và qu n lý d li u khác phù h p
u m t trang m i trong l ch s phát tri n công
ngh . Big data là m t h th ng d li u li u vô cùng l
n m c không th
tr trong các h th
d li u truy n th ng. S ph c t p và không th nh
hình thành m t th th ng nh t c a d li
t nhân t làm nó
tr
ng b
trong m t h th
d li u truy n th ng.

D li
c thu th p t nhi u ngu n khác nhau bao g m: d li u không gi i
h n t internet, web 2.0, t các thi t b nghiên c u (d li
ch v y
t
li u t các thi t b thông minh (hay còn g
mang c u trúc không c
nh.Big data
.
7


8


CÔNG NGH QU N LÝ D

LI U L N

1.1.1 Tìm hi u các thành ph n công ngh Big data
Big data có s l ng d li
li u có ki u khác nhau t
cao. Nhi
và các nhà phát tri n bi
nh
hoàn toàn d dàng. Ví d , n u b n ph
v i yêu c u kh
u l i, b n có th
d li u v
t , n u yêu c u là k t h p nhi u lo i d

ngu n thông tin n danh, l a ch n có th
kho d li u theo yêu c u c a khách hàng.

r tl

các dòng d
n m m d y d n kinh nghi m
n m t th m chí là hai tình hu ng này
i m t d li u l n c n gi i quy t cùng
l a ch n tri n khai c
d li u
h t ng m ng r t nhanh.
li u khác nhau t s hi u bi t và các
là xây d ng m t mô hình di chuy n

Tuy nhiên b n có th
u ki
tri n khai c th . Khi
b n r i kh
u khi n và ki m soát d li u ch t ch , b n
c n t o ra m t mô hình ki
nh
n lo
ng
m
i ki n trúc này ph i hi u v tính ch t c a Big data và yêu c
a ki n th c vào gi
tìm hi u
v ki
n d li u l n.

1.1.1.1 S
h t ng v t lý
c p th p nh
h t ng v
n c ng, m ng, ... Công ty
c a b n có th
li u ho
v t ch t nên b n
mu n tìm m
s d ng d li u hi n h u. Thi hành d li u l n có yêu c u
r t c th trên t t c các ph n t trong ki n trúc tham kh o, vì th b n c n ki m
tra nh ng yêu c u này v n n t
l p l
m b o s th c hi n và
nâng c
uc
u quan tr ng là ph i th c hi n theo
c. M
c này bao g m:
- Performance (Hi
): Th
c ti n hành n
nhau d a trên m t giao d ch hay m t câu h i có yêu c u t
r t
nhanh (hi u su t cao), do v
h t
ng r t t n
kém.

9



- Availability (Tính s n có): B n có c
m b o th i gian d ch v 100%?
Công ty c a b n có th ch
ng h p d ch v gián
n ho
t yêu c
h t
m b o tính s n sàng cao
t t n kém.
- Scalability (Kh
r
h t ng c a b n c
cm
r
c
m bao yêu c u
trong th
m hi n t
- Flexibility (Linh ho t): B
h t ng s m nh t
h t ng khôi ph c sau th t b i nhanh m
h t
t m c linh ho t nh t r t t n ké
ki m soát b ng
d ch v
n ch tr ti n cho nh ng gì b n th c
s s d ng.
- Cost (Chi phí): B n có th

kh
cho cái gì? B
h
t ng là t p h p c a r t nhi u thành ph n, b n có th mua h th ng m ng
t t nh t và ti t ki m ti n cho vi
ho
c l i. B n c n l p
yêu c
iv im
c trong hoàn c nh ngân sách c th và chi tr
cho nh
n thi t.
Big data hoàn toàn t p trung vào t
x lý cao, kh
d li u
l
v t ch
quy
n s thành b i
c a vi c th c hi n. H u h t vi c th c thi Big data c n m
s n sàng cao
nên m ng, server và b
ph i v a có th
i (m r ng, thu h p), v a
ph
a. Kh
a có m i quan h v i nhau. V
b n ch t luôn có lý do khi n cho ngay c h th ng m ng t t nh
b
l

t tr c tr c ph n c
ông ngh d
m b o r ng
tr c tr c này s
.
a. S

a m ng

M
a và ph
kh
cs
ng và t c
c a d li u ra vào trong m
i giao thông trên m ng. Khi b n b
u
làm v Big data, m ng là ph n thi t y u trong chi
c tin h c c a b n. Nó là
ng và v n t c.
Nh

i thi t k
h t ng nên l p k ho ch cho h th ng m ng.
ng giao thông m
m), có s
ng t i tài
s n v t ch
n vi c tri n khai th c hi
h t ng c a b n nên

u hành có th ph n
ng tài
i kh
ng công vi c.

10


b. Qu n lý ph n c ng: B

và Server

Ph n c ng (b
và server) ph
t
c x lý t t c
các kh
d ng m
có m ng t
cao cùng v i
các server ch m b i vì các máy ch có th trong tình tr ng th t nút c chai. Tuy
nhiên m t b
d li u nhanh và tính toán các máy ch có th
t qua
hi u su t m ng. T t nhiên, s không có gì ho
ng t t n u hi u su t m ng th p
và kém ch
ng.
c. Ho


h t ng

M t thi t k quan tr ng c n quan tâm là qu n lý ho
h t ng.
M c cao nh t v hi u su t và tính linh ho t ch xu t hi n trong m
ng
c qu n lý t t. Các nhà qu n lý d li u có th d
n các th t
b i th m h
y gi
c s toàn v n c a d li u và duy trì quy trình
nghi p v .
1.1.1.2
h t ng an ninh
An ninh và b o m
uv
ng
d li
ng. Các yêu c u v an ninh ph
c liên k t ch t ch v i
nhu c u nghi p v c th . M t s thách th c phát sinh khi Big data tr thành
m t ph n c a chi
c bao g m:
- Truy c p d li u: Kh
p d li u c
tính toán
d li u l n có cùng m
yêu c
n khai d li u
không l n. D li u c n có ch dành cho nh

i có nhu c u nghi p
v
ki m tra ho
i nó. H u h t các n n t
d
li u có h th ng an ninh nghiêm ng
ng v i
m kh
n d ng h p nh t, cung c p truy c p thích h p trên
nhi u l p c a ki n trúc.
- Truy c p ng d ng: Truy c p d li u ng d
n
t
t. H u h t các giao di n l p trình ng d ng (API) cung
c p b o v t vi c s d ng trái phép ho c truy c p. M
b o v thích
h p nh t cho tri n khai th c hi n Big data.

11


- Mã hóa d li u: Mã hóa d li u là thách th c l n nh t v b o m t trong
ng truy n th ng, mã hóa và gi i mã
d li u th c s c n ngu n l c l n c a h th ng. V i kh
ng, t
và s
ng c a Big data, v n
Mã hóa d
li u là cách t t nh
cung c p kh

i m t b ng giá. Do v y c
nh
ph n d li u nào c n b o m
mã hóa các m c c n thi t.
- Phát hi
a: Bao g m các thi t b
ng và các m ng xã h i theo
c ps
s
ng d li u và các m
u quan tr ng là các t ch c có cách ti p c n vòng ngoài an ninh.
1.1.1.3 Giao di n ng d ng và Internet
h t ng v t lý cho phép t t c m i th
h t ng an ninh b o
v t t c các y u t
ng Big data. Các c
ti p theo là các giao
di n mà cung c p truy c p hai chi u cho t t c các thành ph n c a Stack t các
ng d ng doanh nghi
n d li u t Internet. M t ph n quan tr ng c a vi c
thi t k các giao di n này là t o ra m t c u trúc phù h p có th chia s c bên
trong l
i tác trong kinh doanh.
Trong nhi u th p k , các l
d
cung c p truy c p
vi c tri n khai ph n m m. Các nhà cung c p công c và công ngh
s
dài l
m b o r ng nó là m t nhi m v

t o ra các ng d ng m i s d ng s n ph m c a h . Nó c n thi t cho các chuyên
t o ra tùy ch nh ho
c quy n cho công ty. B n c n làm
u này cho l i th c nh tranh, m t s nhu c u nghi p v
i là
m t nhi m v
n. API c
b o toàn giá tr cho
doanh nghi p. Vì lý do này, m t s công ty l a ch
s d ng b công c API
cm
c nh y v ho
ng quan tr ng này.
B công c API có m
tiên là b công c API là s n ph
bên th ba d c l p. Th
thu t c th . N u b n c n các API cho
nhi u l a ch n cho b n b
u.

m so v i các API phát tri n n i b
u
ct
c qu n lý và duy trì b i m t
c thi t k
gi i quy t m t yêu c u k
ng d ng web ho c ng d
ng, có

12



B i vì thu th p d li u và chuy
m r t gi ng nhau, có th
thi t k m t b d ch v
thu th p, làm s ch, bi
i, chu
các d li u l n trong h th
t o ra s linh ho t khi c n thi t, các
u khi n cùng v i mô t giao di
c vi t b ng Extensible
Markup Language (XML). M
này cho phép các giao di n c th
ct o
ra m t cách d dàng và nhanh chóng mà không c n ph i xây d ng các d ch v
c th cho t ng ngu n d li u.
1.1.1.4
d li u ho
ng
lõi c a
ng Big data là nh
d li u ch a các ph n d li u
n công ty c a b n. Không có s l a ch n duy nh
n ngôn ng
d li u. M c dù SQL là ngôn ng thông d ng truy v
d li
cung c p m t cách hi u qu
Ví d n u b n s d ng m t mô hình quan h , b n có th s d
truy
v n nó. Tuy nhiên b n có th s d ng ngôn ng

va. Nó
là r t quan tr
hi u các d ng d li u có th
u khi n b
d
li u và h tr các hành vi giao d
tk
d li u mô t hành
vi này v
- Atomicity (M c nguyên t ): M t giao d
t c ho
khi nó m c nguyên t . N u b t c ph n nào c a giao d ch ho c nh ng
th t b i c a h th ng m
n thì toàn b giao d ch s th t b i.
- Consistency (Tính nh t quán): Ch nh ng giao d ch v i d li u h p l s
c th c hi
d li u. N u d li u b h ng ho c không phù
h p thì các giao d ch s
c hoàn thành và d li u s không
d li u.
- Isolation ( c l p): Nhi u giao d ch di
ng th i s không
ng
vào nhau. T t c các giao d ch h p l s th c hi
n khi hoàn
thành và theo th t
cg
x lý.
b n v ng): Sau khi d li u t các giao d
c ghi vào

d li u, nó s n m
1.1.1.5 T ch c d ch v và công c d li u
T ch c d ch v d li u và các công c xác th c, l p ráp các ph n khác
nhau thành ph n d li u l
p theo ng c nh có liên quan. B i
vì là d li u l n nên k thu
x lý d li u hi u qu và liên t c.

13


T ch c d ch v d li u, trong th c t là m t h sinh thái c a các công c
và công ngh có th
cs d
thu th p và t ng h p s li
y các
công c c n tích h p, d ch thu t, chu n hóa, ph m vi. Công ngh trong l p này
bao g m:
- M t h th ng t p tin phân ph i: c n thi
thích ng v i s phân tách
c a các lu ng d li u và cung c p kh
.
- D ch v chuy
i c u trúc: c n thi t cho vi
d li u b n v ng
và các cu c g i th t
t xa (RPC).
- D ch v
u ph i: c n thi t cho vi c xây d ng ng d ng phân tán.
n, bi

i, t i (ETL): c n thi t cho vi c t i và chuy
ic u
trúc phi c u trúc vào Hadoop.
- D ch v ti
công vi c: c n thi t cho vi c l p k ho ch và cung c p
m tc
ng b hóa y u t quá trình trên l p.
1.1.1.6 Kho d li u phân tích
Các kho d li u t
c coi là các k thu t chính mà các t ch c s
d
t
li
giúp các nhà s n xu t quy
ng,
các kho d li
ng thu th p t nhi u ngu n khác nhau và l p rá
t o
u ki n phân tích c a doanh nghi p. Kho d li
n hóa vi c t o ra các
báo cáo và tr c quan c a các m c d li
c t o ra
t
d li u quan h
d li
u, các t p tin ph
d
li
i t ng - v
n c a b t k ki

. Trong m
ng
truy n th
u su t có th không ph
t, s l a ch n
c a các công ngh
u khi n b i các yêu c u cho vi c phân tích,
báo cáo và tr c quan c a d li u công ty.
Là m t t ch c d li u và nó luôn s
phân tích, tri n khai h u h t
kho d li
qua hàng lo t quá trình. V
là kho d có th không
cho nhi u ng d ng d li u l n. S
t b i các dòng d li u
t
cao có kh
i m t cách ti p c n th i gian th
i kho d
li u l
ns
c t o ra và cung c p m t
kho d li u và phân tích m t siêu kho d li u v i các quá trình th c thi. Thay
n có th s có kho d li u ho c siêu kho d li u, hi u su t và quy mô
s ph n ánh k p th i yêu c u c a các nhà phân tích và ra quy
nh.

14



B i vì kho nhi u d li u và siêu kho d li
c bao g m các d li u thu
th p t nhi u ngu n khác nhau trong công ty, các chi phí liên quan n vi c làm
s
ng hóa c a d li
c gi i quy t. V i d li u l n,
b n tìm th y m t s khác bi t quan tr ng:
- Dòng d li u truy n th ng (t giao d ch, ng d ng, vv) có th s n xu t
r t nhi u d li u khác nhau.
- Hàng ch c các ngu n d li u m
n t i, m t trong s chúng c n
m t s thao tác x
c khi nó có th
c dùng cho doanh nghi p.
- Ngu n n
c n ph
c làm s ch, và có nh ng yêu c u
k thu
có th s d ng v i d li u có c u trúc.
Trong l ch s , các n i dung c a kho d li u và siêu kho d li
ct
ch
o kinh doanh ph trách chi
c và quy
ho ch. V i d li u l
c t n d ng d li u
cho vi c ra quy
nh. Nhi u tri n khai d li u l n cung c p kh
i gian
th c, vì v y doanh nghi p s có th cung c p n i dung cho phép các cá nhân v i

vai trò ho
gi i quy t các v
tr
i kinh
doanh, và th c thi d ch v trong th i gian th c g n. B ng cách này, d li u l n
giúp di chuy
ng t
l
1.1.1.7 Phân tích Big data
Hi n t i công c phân tích k thu t và s r t h u ích trong vi
a d li u l n. Tuy nhiên, có m
m. Các thu t toán là m t
ph n c a nh ng công c
có th làm vi c v i m
ng l n có kh
i gian th c và d li
h t ng s c n ph
c
th c hi
h tr . Các nhà cung c p các công c
n ph
m
b o r ng các thu t toán c a h làm vi c qua vi c tri n khai phân ph i.
- Báo cáo và bi
: Nh ng công c này cung c p m
i di n "thân
thi n" c a thông tin t các ngu n khác nhau. M c dù là m t tr c t
trong th gi i d li u truy n th ng, chúng v
iv id
li u l n. M t s công c

c s d ng là lo i m i c a
d
li u g i chung là NoSQL.

15


- Hình dung: Nh ng công c

c ti p theo trong quá trình báo
ng trong t
nhiên. M t khác bi t quan tr ng gi
u ra và hình dung là
hình
ng
i dùng doanh nghi p có th
i trong
các d li u s d ng m t lo t các k thu t hi n th khác nhau, bao g m
b
tâm trí, b
nhi t, b
k t n i. Thông
ng, báo cáo và hình dung x y ra ph n cu i c a các ho
ng kinh
doanh. M c dù các d li u có th
c nh p kh u vào m t công c khác
tính toán thêm, ki
c cu i cùng.
- Phân tích: Nh ng công c ti p c n vào kho d li u và x lý d li u cho
i dùng.

1.1.1.8 Nh ng ng d ng c a Big data
Tu ch nh và bên th ba ng d ng cung c p m
chia
s và ki m tra các ngu n d li u l n. M c dù t t c các l p c a ki n trúc tham
kh o r t quan tr ng trong quy n riêng c a h , l
mh uh
i
m i và sáng t o.
Gi
t k sáng ki n phát tri n ng d ng nào, vi
d ng d li u l n s yêu c
u, tiêu chu n, s ch t ch
nh rõ. H u h t các ng d ng kinh doanh mu n t n d ng d li
API trên toàn b stack. Nó có th là c n thi
x
các c a hàng d li u c p th p và k t h p các d li u thô v i
t ng h p t các kho hàng.

c t o ra các ng
c xác
u l n s c n ph i
lý d li u thô t
ng d li u
c

Big data di chuy
i trong ch p m t, vì v y nhóm
phát tri n ph n m m c n nhanh chóng t o ra các ng d ng phù h
gi i quy t
nh ng thách th c kinh doanh c a th

m này. Các công ty có th c n ph i suy
vi c t o phát tri
ng v i nh
i trong môi
ng kinh doanh b ng cách t o và tri n khai các ng d ng theo yêu c u. Trong
th c t , nó có th thích h
nh ng ng d
nh bán"
b
nl
c t mã hóa m
th p.
1.1.2

o hóa và h tr tính toán phân tán

o hóa là m t công ngh n n t ng áp d
i v i vi c th c hi
n toán
li u l n. Nó cung c
cho nhi u thu c tính n n t ng c n
thi
truy c
, phân tích và qu n lý các thành ph n tính toán phân tán
ng d li u l n. o hóa - quá trình s d ng tài nguyên máy tính
b
c các ngu n l c khác ngu n l c CNTT hi u qu và kh
r ng. M t ng d ng chính c a o
16



hóa là h p nh t máy ch , giúp các t ch c nâng cao vi c s d ng các máy ch
v t lý và có kh
t ki
h t ng. Tuy nhiên, có th tìm th y
nhi u l i ích c a
u ch t p trung vào công ngh o
hóa máy ch hi
n ra r ng nó có th
c áp d
h
t ng CNTT toàn b , bao g m c các ph n m
và h th ng m ng.
1.1.2.1 Tìm hi u nh ng v
n c a o hóa
o hóa phân tách ngu n l c và d ch v t
ng phân ph i v t lý
n, cho phép b n t o ra nhi u h th ng o trong m t h th ng v t lý duy
nh t. M t trong nh
c hi n
c i
thi n hi u su t và hi u qu x lý k t h
ng c a các kh
ng công vi c.
Thay vì ch nh m t nhóm dành riêng cho các ngu n l c v t ch
m i nhóm
th c hi n nhi m v , m t nhóm g p tài nguyên
có th nhanh chóng phân b
trên t t c các kh
ng công vi c. S ph thu c vào bi n tài nguyên o cho

phép các công ty c i thi
tr
cung c p d ch v và hi u qu
là m t ch
a b n ch t phân tán c
ng o hóa và giúp c i
thi n t ng th th i gian t i giá tr .
S d ng m t b phân ph i các ngu n l c v t ch t, ch ng h
,
m t cách linh ho t và hi u qu mang l i l
u ki n c n ti t
ki m chi phí và c i thi
t. Vi c th c hành có nhi u l i ích, bao g m
nh
-

o hóa các ngu n l c v t ch
, và các m ng) cho
phép c i thi
trong vi c s d ng các ngu n l c này.
o hóa cho phép c i ti n ki m soát vi c s d ng và hi u su t c a ngu n
l c CNTT.
o hóa có th cung c p m t m
t
ng hóa và tiêu chu
t
ng máy tính.
o hóa cung c p n n t
M c dù có th s d ng
b sung ngu n l c song o hóa không

ph i là không t n chi phí. Tài nguyên o ph
c qu
m b o an toàn.
M t hình nh có th là m t k thu t cho k l xâm nh p truy c p tr c ti p vào
trong h th ng. N u công ty không có m t quá trình xóa nh ng hình nh không
s d ng, h th ng s không còn ho
ng hi u qu .

17


×