B
GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁN T T NGHI P
NGÀNH CÔNG NGH THÔNG TIN
H I PHÒNG 2016
B GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁP D NG CÁC K THU T TRONG BIG DATA
D LI U
ÁN T T NGHI
I H C H CHÍNH QUY
Ngành: Công Ngh Thông Tin
H I PHÒNG - 2016
B GIÁO D
O
I H C DÂN L P H I PHÒNG
-------o0o-------
ÁP D NG CÁC K THU T TRONG BIG DATA VÀO
D LI U
ÁN T T NGHI
I H C H CHÍNH QUY
Ngành: Công Ngh Thông Tin
Sinh viên th c hi n: Nguy n Chí Thanh
ng d n: Nguy n Tr
Mã s sinh viên: 1212101002
H I PHÒNG - 2016
B GIÁO D
O
I H C DÂN L P H I PHÒNG
C NG HÒA XÃ H I CH
T NAM
c l p T do H nh phúc
-------o0o-------
NHI M V THI T K T T NGHI P
Sinh viên: Nguy n Chí Thanh
Mã sinh viên: 1212101002
L p: CT1601
Ngành: Công Ngh Thông Tin
tài: Áp d ng các k
thu
d
li u
NHI M V
TÀI
1. N i dung và các yêu c u c n gi i quy t trong nhi m v
tài t t nghi p
a. N i dung:
- Tìm hi u v các thành ph n công ngh và qu n lý Big data.
- Tìm hi u mô hình x lý d li u phân tán MapReduce.
- Tìm hi u h th ng Hadoop.
ng h th ng.
- Th nghi m v i các công c
gi i quy t bài toán.
b. Các yêu c u c n gi i quy t
- N
c các thành ph n công ngh Big data.
- N
c nguyên lý ho
ng mô hình Map Reduece.
- N
c quy trình ho
n c a h th ng Hadoop.
- Áp d ng ki n th c trong xây d ng ph n m m th nghi m.
2. Các s li u c n thi
thi t k , tính toán
3.
m th c t p
CÁN B
NG D
TÀI T T NGHI P
ng d n th nh t:
H và tên: Nguy n Tr
H c hàm, h c v : Th
i h c Dân l p H i Phòng
N
ng d n:
-
Tìm hi u v các thành ph n công ngh và qu n lý Big data.
Tìm hi u mô hình x lý d li u phân tán MapReduce.
Tìm hi u h th ng Hadoop.
ng h th ng.
Th nghi m v i các công c
gi i quy t bài toán.
tài t t nghi
c giao ngày 0
Yêu c u ph
c ngày 30
n nhi m v
Sinh viên
n nhi m v
Cán b
ng d
H
HI
NG
n H u Ngh
PH N NH N XÉT TÓM T T C A CÁN B
NG D N
Tinh th
c
tài t t nghi p:
............................................................................................................................
...................................................................................................................
............................................................................................................................
............................................................................................................................
...........................................................................................................................
............................................................................................................................
............................................................................................................................
............................................................................................................................
ng c
tài t t nghi p (so v i n i dung yêu c
ra trong nhi m v
tài t t nghi p)
............................................................................................................................
............................................................................................................................
............................................................................................................................
...........................................................................................................................
............................................................................................................................
..........................................................................................................................
............................................................................................................................
............................................................................................................................
m c a cán b
ng d n
m ghi b ng s và ch )
............................................................................................................................
...........................................................................................................................
Cán b
ng d n chính
(Ký, ghi rõ h tên)
PH N NH
1.
t
thuy
2.
A CÁN B CH M PH N BI
TÀI T T NGHI P
tài t t nghi p (v các m
th c t
lý lu n,
m c a cán b ph n bi n
m ghi b ng s và ch )
............................................................................................................................
............................................................................................................................
Ngày
Cán b ch m ph n bi n
(Ký, ghi rõ h tên)
L IC
Qua th i gian h c t p và nghiên c u t
i h c Dân l p H i Phòng,
u tiên em xin chân thành c
c t i th y giáo GS.TS NG
n
H u Ngh hi
u ki n v
v t ch t
trang thi t b giúp chúng em h c t p và nghiên c u trong th i gian qua.
Em xin chân thành c
i t t c th y giáo, cô giáo trong nhà
ng.Em xin chân thành c
ác th y giáo cô giáo trong B môn Tin h c
tr c ti p gi ng d y cho em nh ng ki n th c b ích.
c bi t em xin chân thành c
th i gian làm t t nghi p v a qua, th
ng d n em th c hi
tài này.
y giáo Nguy n Tr
u th i gian và tâm huy
t qu c a quá trình tìm hi u và nghiên c
t
c trong th i gian v a qua. M c dù r t c g
c th
u bi t và kinh nghi m c a mình còn h n ch nên có th
ph i là k t qu mà th
i t em. Em r t mong nh
c nh ng l i
nh
a th
bài lu
c hoàn
thi
u kinh nghi m cho công vi c sau này.
Em xin chân thành c
H i Phòng, tháng 12
16
Sinh viên th c hi n
Nguy n Chí Thanh
1
M CL C
M C L C............................................................................................................. 2
DANH M C HÌNH .............................................................................................. 4
DANH M C B NG............................................................................................. 5
DANH M C T
L IM
VIÊT T T................................................................................ 6
U ....................................................................................................... 7
CÔNG NGH QU N LÝ D
LI U L N .................................. 9
1.1 Công ngh n n t ng áp d ng cho Big data .................................................. 9
1.1.1 Tìm hi u các thành ph n công ngh Big data........................................ 9
1.1.2 o hóa và h tr tính toán phân tán..................................................... 16
1.1.3 Ki
............................................................ 24
1.2 Qu n lý d li u l n..................................................................................... 36
1.2.1
d li u ho
ng ....................................................................... 36
1.2.2 Thi t b và kho d li u l n................................................................... 49
XÂY D NG KHO D
LI
N.................................. 51
2.1 Khám phá d li u phi c u trúc ................................................................... 51
2.2 Tìm hi u v
n................................................................... 52
2.3 Phân tích và k thu t khai thác .................................................................. 54
2.3.1 Tìm hi u thu th p thông tin.................................................................. 56
2.3.2 Nguyên t c phân lo i ........................................................................... 57
2.4
t qu cùng v i d li u có c u trúc .................................................. 57
2.5
li u l n s d ng............................................................................. 58
2.6 Công c
n cho Big data ................................................... 60
2.6.1 Attensity ............................................................................................... 60
2.6.2 Clarabridge........................................................................................... 60
2.6.3 IBM ...................................................................................................... 61
2.6.4 OpenText.............................................................................................. 61
2.6.5 SAS ...................................................................................................... 62
2
HADOOP VÀ TH C NGHI M................................................. 63
3.1 Gi i thi u h th ng Hadoop....................................................................... 63
3.1.1 Mô hình x lý d li u phân tán Mapreduce......................................... 63
3.1.2 Hadoop n n t ng l p trình theo mô hình Mapreduce ....................... 66
3.1.3 Xây d ng m
y trên n n Hadoop ............................ 73
3.2 Th c nghi m .............................................................................................. 76
ng d
3.2.2 Kh
t Hadoop cluster....................................................... 76
ng h th ng.............................................................................. 80
K T LU N ......................................................................................................... 87
TÀI LI U THAM KH O................................................................................... 88
3
DANH M C HÌNH
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
2-1: M u h
c g i............................................................................ 52
3-1: Mô hình t ng quát c a Mapreduce .................................................... 63
3-2: Quá trình Split.................................................................................... 64
3-3: Quá trình Mapper và Shuffle trên m t máy....................................... 64
3-4: Quá trình Reduce ............................................................................... 65
3-5: Các thành ph n c a Hadoop cluster .................................................. 67
3ho
ng c a JobTracker và TaskTracker trong Hadoop .... 68
3-7: Ki n trúc Master/Slave c a h th ng t p tin phân tán Hadoop ......... 70
3-8: Nhân b n block trong HDFS ............................................................. 71
3c d li u trên HDFS....................................................... 72
3-10: Quy trình ghi d li
ng d n.................... 72
3-11: Quá trình ho
ng c a m t tác v MapReduce trên Hadoop ....... 76
3p vào tài kho
i dùng hduser .................................. 80
3-13: Kh
ng Hadoop........................................................................... 80
3-14: Ki m tra Hadoop.............................................................................. 81
3-15: Trang qu n lý Hadoop All Aplications ........................................... 82
3-16: Trang qu n lý Hadoop Namenode................................................... 82
3-17: Trang qu n lý Hadoop SecondaryNamenode.................................. 83
3-18: Trang qu n lý Hadoop Directory..................................................... 83
3-19: T t Hadoop ...................................................................................... 84
3-20: T
c vidu............................................................................. 84
3c vidu ..................................... 85
3c t o....................................... 85
3c vidu vào hdfs............................................................ 86
4
DANH M C B NG
B ng 2-1: Chuy
b n phi c u trúc thành d li u có c u trúc .................... 53
B ng 2-2: Truy v n, khai thác d li u, tìm ki
n............. 54
B ng 2-3: K t h p d li u có c u trúc và d li u không có c u trúc ................ 58
5
DANH M C T
T vi t t t
API
XML
SQL
HDFS
SaaS
IaaS
PaaS
DaaS
RDBMS
KVP
VIÊT T T
T
Di n gi i
Application Programming Interfaces
Giao di n l p trình ng
d ng
Extensible Markup Language
Ngôn ng
u m
r ng
Structured Query Language
Ngôn ng truy v n có
c u trúc
Hadoop Distributed File System
H th ng phân tán t p tin
c a Hadoop
Software as a Service
Tri n khai ph n m m
t d ch v
Infrastructure as a Service
Tri
h t ng
t d ch v
Platform as a Service
Tri n khai n n t
là m t d ch v
Data as a Service
Tri n khai d li
m t d ch v
Relational Database Management H th ng qu
System
d li u quan h
Key-Value pair
C p khóa giá tr
6
L IM
U
S phát tri n c a xã h i d
n bùng n d li u trong nh ng th p niên g n
ng s n ph m công ngh m
i nhi u ti n ích trong cu c s ng,
c ng d ng nhi
c thông tin truy n thông. H th
n
t , tr c tuy n, các website c a nh ng doanh nghi p t ch
c phát tri n
m nh m góp ph
ng m i quan h , h p tác nhi
hóa xã h i, khoa h c công ngh , y t , giáo d c, gi
i có trong tay
nhi u công c
chia s thông tin qua blog, website, di
ng xã h i
tr c tuy
2000, ch m i có m t ph
d ng k thu t s trên th
gi i. Ba ph
trên gi y t
n
an
ng d li u k thu t s bùng n quá nhanh c
l
c c di
c. Ngày nay, ch
i 2%
t
c chuy
d ng k thu t s .
Tuy nhiên nh
tr d li
c l r t nhi u h n ch .
Ngày nay kh
ng d li u vô cùng l n, kích c
n petabyte ch cho m t t p h p d li u. Cùng v
li u sinh ra là phi c u trúc (tài li u, blog, hình nh, video, bài hát, d li u c m
bi n, thi t b
c kh
d li u
truy n th ng không th
c. Nh
phép liên k t và phân tích nhi u d ng d li u khác nhau. Kh
ng d li u gia
x lý d li u (thu nh n, x
) m t r t nhi u
th i gian trong khi nhu c u c
i mu n x
c ngay d li u t c
th
nb
i t o ra m
pháp và qu n lý d li u khác phù h p
u m t trang m i trong l ch s phát tri n công
ngh . Big data là m t h th ng d li u li u vô cùng l
n m c không th
tr trong các h th
d li u truy n th ng. S ph c t p và không th nh
hình thành m t th th ng nh t c a d li
t nhân t làm nó
tr
ng b
trong m t h th
d li u truy n th ng.
D li
c thu th p t nhi u ngu n khác nhau bao g m: d li u không gi i
h n t internet, web 2.0, t các thi t b nghiên c u (d li
ch v y
t
li u t các thi t b thông minh (hay còn g
mang c u trúc không c
nh.Big data
.
7
8
CÔNG NGH QU N LÝ D
LI U L N
1.1.1 Tìm hi u các thành ph n công ngh Big data
Big data có s l ng d li
li u có ki u khác nhau t
cao. Nhi
và các nhà phát tri n bi
nh
hoàn toàn d dàng. Ví d , n u b n ph
v i yêu c u kh
u l i, b n có th
d li u v
t , n u yêu c u là k t h p nhi u lo i d
ngu n thông tin n danh, l a ch n có th
kho d li u theo yêu c u c a khách hàng.
r tl
các dòng d
n m m d y d n kinh nghi m
n m t th m chí là hai tình hu ng này
i m t d li u l n c n gi i quy t cùng
l a ch n tri n khai c
d li u
h t ng m ng r t nhanh.
li u khác nhau t s hi u bi t và các
là xây d ng m t mô hình di chuy n
Tuy nhiên b n có th
u ki
tri n khai c th . Khi
b n r i kh
u khi n và ki m soát d li u ch t ch , b n
c n t o ra m t mô hình ki
nh
n lo
ng
m
i ki n trúc này ph i hi u v tính ch t c a Big data và yêu c
a ki n th c vào gi
tìm hi u
v ki
n d li u l n.
1.1.1.1 S
h t ng v t lý
c p th p nh
h t ng v
n c ng, m ng, ... Công ty
c a b n có th
li u ho
v t ch t nên b n
mu n tìm m
s d ng d li u hi n h u. Thi hành d li u l n có yêu c u
r t c th trên t t c các ph n t trong ki n trúc tham kh o, vì th b n c n ki m
tra nh ng yêu c u này v n n t
l p l
m b o s th c hi n và
nâng c
uc
u quan tr ng là ph i th c hi n theo
c. M
c này bao g m:
- Performance (Hi
): Th
c ti n hành n
nhau d a trên m t giao d ch hay m t câu h i có yêu c u t
r t
nhanh (hi u su t cao), do v
h t
ng r t t n
kém.
9
- Availability (Tính s n có): B n có c
m b o th i gian d ch v 100%?
Công ty c a b n có th ch
ng h p d ch v gián
n ho
t yêu c
h t
m b o tính s n sàng cao
t t n kém.
- Scalability (Kh
r
h t ng c a b n c
cm
r
c
m bao yêu c u
trong th
m hi n t
- Flexibility (Linh ho t): B
h t ng s m nh t
h t ng khôi ph c sau th t b i nhanh m
h t
t m c linh ho t nh t r t t n ké
ki m soát b ng
d ch v
n ch tr ti n cho nh ng gì b n th c
s s d ng.
- Cost (Chi phí): B n có th
kh
cho cái gì? B
h
t ng là t p h p c a r t nhi u thành ph n, b n có th mua h th ng m ng
t t nh t và ti t ki m ti n cho vi
ho
c l i. B n c n l p
yêu c
iv im
c trong hoàn c nh ngân sách c th và chi tr
cho nh
n thi t.
Big data hoàn toàn t p trung vào t
x lý cao, kh
d li u
l
v t ch
quy
n s thành b i
c a vi c th c hi n. H u h t vi c th c thi Big data c n m
s n sàng cao
nên m ng, server và b
ph i v a có th
i (m r ng, thu h p), v a
ph
a. Kh
a có m i quan h v i nhau. V
b n ch t luôn có lý do khi n cho ngay c h th ng m ng t t nh
b
l
t tr c tr c ph n c
ông ngh d
m b o r ng
tr c tr c này s
.
a. S
a m ng
M
a và ph
kh
cs
ng và t c
c a d li u ra vào trong m
i giao thông trên m ng. Khi b n b
u
làm v Big data, m ng là ph n thi t y u trong chi
c tin h c c a b n. Nó là
ng và v n t c.
Nh
i thi t k
h t ng nên l p k ho ch cho h th ng m ng.
ng giao thông m
m), có s
ng t i tài
s n v t ch
n vi c tri n khai th c hi
h t ng c a b n nên
u hành có th ph n
ng tài
i kh
ng công vi c.
10
b. Qu n lý ph n c ng: B
và Server
Ph n c ng (b
và server) ph
t
c x lý t t c
các kh
d ng m
có m ng t
cao cùng v i
các server ch m b i vì các máy ch có th trong tình tr ng th t nút c chai. Tuy
nhiên m t b
d li u nhanh và tính toán các máy ch có th
t qua
hi u su t m ng. T t nhiên, s không có gì ho
ng t t n u hi u su t m ng th p
và kém ch
ng.
c. Ho
h t ng
M t thi t k quan tr ng c n quan tâm là qu n lý ho
h t ng.
M c cao nh t v hi u su t và tính linh ho t ch xu t hi n trong m
ng
c qu n lý t t. Các nhà qu n lý d li u có th d
n các th t
b i th m h
y gi
c s toàn v n c a d li u và duy trì quy trình
nghi p v .
1.1.1.2
h t ng an ninh
An ninh và b o m
uv
ng
d li
ng. Các yêu c u v an ninh ph
c liên k t ch t ch v i
nhu c u nghi p v c th . M t s thách th c phát sinh khi Big data tr thành
m t ph n c a chi
c bao g m:
- Truy c p d li u: Kh
p d li u c
tính toán
d li u l n có cùng m
yêu c
n khai d li u
không l n. D li u c n có ch dành cho nh
i có nhu c u nghi p
v
ki m tra ho
i nó. H u h t các n n t
d
li u có h th ng an ninh nghiêm ng
ng v i
m kh
n d ng h p nh t, cung c p truy c p thích h p trên
nhi u l p c a ki n trúc.
- Truy c p ng d ng: Truy c p d li u ng d
n
t
t. H u h t các giao di n l p trình ng d ng (API) cung
c p b o v t vi c s d ng trái phép ho c truy c p. M
b o v thích
h p nh t cho tri n khai th c hi n Big data.
11
- Mã hóa d li u: Mã hóa d li u là thách th c l n nh t v b o m t trong
ng truy n th ng, mã hóa và gi i mã
d li u th c s c n ngu n l c l n c a h th ng. V i kh
ng, t
và s
ng c a Big data, v n
Mã hóa d
li u là cách t t nh
cung c p kh
i m t b ng giá. Do v y c
nh
ph n d li u nào c n b o m
mã hóa các m c c n thi t.
- Phát hi
a: Bao g m các thi t b
ng và các m ng xã h i theo
c ps
s
ng d li u và các m
u quan tr ng là các t ch c có cách ti p c n vòng ngoài an ninh.
1.1.1.3 Giao di n ng d ng và Internet
h t ng v t lý cho phép t t c m i th
h t ng an ninh b o
v t t c các y u t
ng Big data. Các c
ti p theo là các giao
di n mà cung c p truy c p hai chi u cho t t c các thành ph n c a Stack t các
ng d ng doanh nghi
n d li u t Internet. M t ph n quan tr ng c a vi c
thi t k các giao di n này là t o ra m t c u trúc phù h p có th chia s c bên
trong l
i tác trong kinh doanh.
Trong nhi u th p k , các l
d
cung c p truy c p
vi c tri n khai ph n m m. Các nhà cung c p công c và công ngh
s
dài l
m b o r ng nó là m t nhi m v
t o ra các ng d ng m i s d ng s n ph m c a h . Nó c n thi t cho các chuyên
t o ra tùy ch nh ho
c quy n cho công ty. B n c n làm
u này cho l i th c nh tranh, m t s nhu c u nghi p v
i là
m t nhi m v
n. API c
b o toàn giá tr cho
doanh nghi p. Vì lý do này, m t s công ty l a ch
s d ng b công c API
cm
c nh y v ho
ng quan tr ng này.
B công c API có m
tiên là b công c API là s n ph
bên th ba d c l p. Th
thu t c th . N u b n c n các API cho
nhi u l a ch n cho b n b
u.
m so v i các API phát tri n n i b
u
ct
c qu n lý và duy trì b i m t
c thi t k
gi i quy t m t yêu c u k
ng d ng web ho c ng d
ng, có
12
B i vì thu th p d li u và chuy
m r t gi ng nhau, có th
thi t k m t b d ch v
thu th p, làm s ch, bi
i, chu
các d li u l n trong h th
t o ra s linh ho t khi c n thi t, các
u khi n cùng v i mô t giao di
c vi t b ng Extensible
Markup Language (XML). M
này cho phép các giao di n c th
ct o
ra m t cách d dàng và nhanh chóng mà không c n ph i xây d ng các d ch v
c th cho t ng ngu n d li u.
1.1.1.4
d li u ho
ng
lõi c a
ng Big data là nh
d li u ch a các ph n d li u
n công ty c a b n. Không có s l a ch n duy nh
n ngôn ng
d li u. M c dù SQL là ngôn ng thông d ng truy v
d li
cung c p m t cách hi u qu
Ví d n u b n s d ng m t mô hình quan h , b n có th s d
truy
v n nó. Tuy nhiên b n có th s d ng ngôn ng
va. Nó
là r t quan tr
hi u các d ng d li u có th
u khi n b
d
li u và h tr các hành vi giao d
tk
d li u mô t hành
vi này v
- Atomicity (M c nguyên t ): M t giao d
t c ho
khi nó m c nguyên t . N u b t c ph n nào c a giao d ch ho c nh ng
th t b i c a h th ng m
n thì toàn b giao d ch s th t b i.
- Consistency (Tính nh t quán): Ch nh ng giao d ch v i d li u h p l s
c th c hi
d li u. N u d li u b h ng ho c không phù
h p thì các giao d ch s
c hoàn thành và d li u s không
d li u.
- Isolation ( c l p): Nhi u giao d ch di
ng th i s không
ng
vào nhau. T t c các giao d ch h p l s th c hi
n khi hoàn
thành và theo th t
cg
x lý.
b n v ng): Sau khi d li u t các giao d
c ghi vào
d li u, nó s n m
1.1.1.5 T ch c d ch v và công c d li u
T ch c d ch v d li u và các công c xác th c, l p ráp các ph n khác
nhau thành ph n d li u l
p theo ng c nh có liên quan. B i
vì là d li u l n nên k thu
x lý d li u hi u qu và liên t c.
13
T ch c d ch v d li u, trong th c t là m t h sinh thái c a các công c
và công ngh có th
cs d
thu th p và t ng h p s li
y các
công c c n tích h p, d ch thu t, chu n hóa, ph m vi. Công ngh trong l p này
bao g m:
- M t h th ng t p tin phân ph i: c n thi
thích ng v i s phân tách
c a các lu ng d li u và cung c p kh
.
- D ch v chuy
i c u trúc: c n thi t cho vi
d li u b n v ng
và các cu c g i th t
t xa (RPC).
- D ch v
u ph i: c n thi t cho vi c xây d ng ng d ng phân tán.
n, bi
i, t i (ETL): c n thi t cho vi c t i và chuy
ic u
trúc phi c u trúc vào Hadoop.
- D ch v ti
công vi c: c n thi t cho vi c l p k ho ch và cung c p
m tc
ng b hóa y u t quá trình trên l p.
1.1.1.6 Kho d li u phân tích
Các kho d li u t
c coi là các k thu t chính mà các t ch c s
d
t
li
giúp các nhà s n xu t quy
ng,
các kho d li
ng thu th p t nhi u ngu n khác nhau và l p rá
t o
u ki n phân tích c a doanh nghi p. Kho d li
n hóa vi c t o ra các
báo cáo và tr c quan c a các m c d li
c t o ra
t
d li u quan h
d li
u, các t p tin ph
d
li
i t ng - v
n c a b t k ki
. Trong m
ng
truy n th
u su t có th không ph
t, s l a ch n
c a các công ngh
u khi n b i các yêu c u cho vi c phân tích,
báo cáo và tr c quan c a d li u công ty.
Là m t t ch c d li u và nó luôn s
phân tích, tri n khai h u h t
kho d li
qua hàng lo t quá trình. V
là kho d có th không
cho nhi u ng d ng d li u l n. S
t b i các dòng d li u
t
cao có kh
i m t cách ti p c n th i gian th
i kho d
li u l
ns
c t o ra và cung c p m t
kho d li u và phân tích m t siêu kho d li u v i các quá trình th c thi. Thay
n có th s có kho d li u ho c siêu kho d li u, hi u su t và quy mô
s ph n ánh k p th i yêu c u c a các nhà phân tích và ra quy
nh.
14
B i vì kho nhi u d li u và siêu kho d li
c bao g m các d li u thu
th p t nhi u ngu n khác nhau trong công ty, các chi phí liên quan n vi c làm
s
ng hóa c a d li
c gi i quy t. V i d li u l n,
b n tìm th y m t s khác bi t quan tr ng:
- Dòng d li u truy n th ng (t giao d ch, ng d ng, vv) có th s n xu t
r t nhi u d li u khác nhau.
- Hàng ch c các ngu n d li u m
n t i, m t trong s chúng c n
m t s thao tác x
c khi nó có th
c dùng cho doanh nghi p.
- Ngu n n
c n ph
c làm s ch, và có nh ng yêu c u
k thu
có th s d ng v i d li u có c u trúc.
Trong l ch s , các n i dung c a kho d li u và siêu kho d li
ct
ch
o kinh doanh ph trách chi
c và quy
ho ch. V i d li u l
c t n d ng d li u
cho vi c ra quy
nh. Nhi u tri n khai d li u l n cung c p kh
i gian
th c, vì v y doanh nghi p s có th cung c p n i dung cho phép các cá nhân v i
vai trò ho
gi i quy t các v
tr
i kinh
doanh, và th c thi d ch v trong th i gian th c g n. B ng cách này, d li u l n
giúp di chuy
ng t
l
1.1.1.7 Phân tích Big data
Hi n t i công c phân tích k thu t và s r t h u ích trong vi
a d li u l n. Tuy nhiên, có m
m. Các thu t toán là m t
ph n c a nh ng công c
có th làm vi c v i m
ng l n có kh
i gian th c và d li
h t ng s c n ph
c
th c hi
h tr . Các nhà cung c p các công c
n ph
m
b o r ng các thu t toán c a h làm vi c qua vi c tri n khai phân ph i.
- Báo cáo và bi
: Nh ng công c này cung c p m
i di n "thân
thi n" c a thông tin t các ngu n khác nhau. M c dù là m t tr c t
trong th gi i d li u truy n th ng, chúng v
iv id
li u l n. M t s công c
c s d ng là lo i m i c a
d
li u g i chung là NoSQL.
15
- Hình dung: Nh ng công c
c ti p theo trong quá trình báo
ng trong t
nhiên. M t khác bi t quan tr ng gi
u ra và hình dung là
hình
ng
i dùng doanh nghi p có th
i trong
các d li u s d ng m t lo t các k thu t hi n th khác nhau, bao g m
b
tâm trí, b
nhi t, b
k t n i. Thông
ng, báo cáo và hình dung x y ra ph n cu i c a các ho
ng kinh
doanh. M c dù các d li u có th
c nh p kh u vào m t công c khác
tính toán thêm, ki
c cu i cùng.
- Phân tích: Nh ng công c ti p c n vào kho d li u và x lý d li u cho
i dùng.
1.1.1.8 Nh ng ng d ng c a Big data
Tu ch nh và bên th ba ng d ng cung c p m
chia
s và ki m tra các ngu n d li u l n. M c dù t t c các l p c a ki n trúc tham
kh o r t quan tr ng trong quy n riêng c a h , l
mh uh
i
m i và sáng t o.
Gi
t k sáng ki n phát tri n ng d ng nào, vi
d ng d li u l n s yêu c
u, tiêu chu n, s ch t ch
nh rõ. H u h t các ng d ng kinh doanh mu n t n d ng d li
API trên toàn b stack. Nó có th là c n thi
x
các c a hàng d li u c p th p và k t h p các d li u thô v i
t ng h p t các kho hàng.
c t o ra các ng
c xác
u l n s c n ph i
lý d li u thô t
ng d li u
c
Big data di chuy
i trong ch p m t, vì v y nhóm
phát tri n ph n m m c n nhanh chóng t o ra các ng d ng phù h
gi i quy t
nh ng thách th c kinh doanh c a th
m này. Các công ty có th c n ph i suy
vi c t o phát tri
ng v i nh
i trong môi
ng kinh doanh b ng cách t o và tri n khai các ng d ng theo yêu c u. Trong
th c t , nó có th thích h
nh ng ng d
nh bán"
b
nl
c t mã hóa m
th p.
1.1.2
o hóa và h tr tính toán phân tán
o hóa là m t công ngh n n t ng áp d
i v i vi c th c hi
n toán
li u l n. Nó cung c
cho nhi u thu c tính n n t ng c n
thi
truy c
, phân tích và qu n lý các thành ph n tính toán phân tán
ng d li u l n. o hóa - quá trình s d ng tài nguyên máy tính
b
c các ngu n l c khác ngu n l c CNTT hi u qu và kh
r ng. M t ng d ng chính c a o
16
hóa là h p nh t máy ch , giúp các t ch c nâng cao vi c s d ng các máy ch
v t lý và có kh
t ki
h t ng. Tuy nhiên, có th tìm th y
nhi u l i ích c a
u ch t p trung vào công ngh o
hóa máy ch hi
n ra r ng nó có th
c áp d
h
t ng CNTT toàn b , bao g m c các ph n m
và h th ng m ng.
1.1.2.1 Tìm hi u nh ng v
n c a o hóa
o hóa phân tách ngu n l c và d ch v t
ng phân ph i v t lý
n, cho phép b n t o ra nhi u h th ng o trong m t h th ng v t lý duy
nh t. M t trong nh
c hi n
c i
thi n hi u su t và hi u qu x lý k t h
ng c a các kh
ng công vi c.
Thay vì ch nh m t nhóm dành riêng cho các ngu n l c v t ch
m i nhóm
th c hi n nhi m v , m t nhóm g p tài nguyên
có th nhanh chóng phân b
trên t t c các kh
ng công vi c. S ph thu c vào bi n tài nguyên o cho
phép các công ty c i thi
tr
cung c p d ch v và hi u qu
là m t ch
a b n ch t phân tán c
ng o hóa và giúp c i
thi n t ng th th i gian t i giá tr .
S d ng m t b phân ph i các ngu n l c v t ch t, ch ng h
,
m t cách linh ho t và hi u qu mang l i l
u ki n c n ti t
ki m chi phí và c i thi
t. Vi c th c hành có nhi u l i ích, bao g m
nh
-
o hóa các ngu n l c v t ch
, và các m ng) cho
phép c i thi
trong vi c s d ng các ngu n l c này.
o hóa cho phép c i ti n ki m soát vi c s d ng và hi u su t c a ngu n
l c CNTT.
o hóa có th cung c p m t m
t
ng hóa và tiêu chu
t
ng máy tính.
o hóa cung c p n n t
M c dù có th s d ng
b sung ngu n l c song o hóa không
ph i là không t n chi phí. Tài nguyên o ph
c qu
m b o an toàn.
M t hình nh có th là m t k thu t cho k l xâm nh p truy c p tr c ti p vào
trong h th ng. N u công ty không có m t quá trình xóa nh ng hình nh không
s d ng, h th ng s không còn ho
ng hi u qu .
17