Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
iu Phi Tác V Trong H Thng MAP-REDUCE
Da Trên Tính a Phưng Ca D Liu
Hunh Tn t
Hc viên Khoa Công Ngh Thông Tin II
Hc Vin Công Ngh Bưu Chính Vin Thơng
Email:
Bùi Xn Lc
Khoa K Thut
i Hc Tân To
Email:
Abstract— Vn d liu a phưng là mt vn quan trng
cn xem xét khi thit k thut tốn iu phi cơng vic cho h
thng Map-Reduce. Gn ây, bài báo k thut [13] ã gii quyt
ưc vn d liu a phưng bng vic xut mt kin trúc
hàng i mi và mt thut toán iu phi tác v ánh x (map
task) da trên chính sách JSQ (Join the Shortest Queue) kt hp
vi chính sách MaxWeight. Tuy nhiên, bài báo [13] ch xem xét
trưng hp sao lưu d liu là mt giá tr c th bng 3. Trên
thc t, tu thuc vào cu hình h thng, sao lưu d liu có th
ln hn hoc nh hn 3. Trong bài báo này, chúng tôi m rng
nghiên cu ca bài báo [13] và so sánh hiu sut h thng trong
các trưng hp sao lưu d liu có giá tr khác nhau, t ó
giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí
chn các thơng s h thng phù hp.
thêm to ra kt qu cui cùng. Khi thc hin các tác v
“map”, mt trong nhng xem xét quan trng là vic phân b
tác v gn vi máy tính lưu tr khi d liu u vào cho tác v
ó; vn này cịn ưc gi là vn d liu a phưng.
i vi mi tác v, chúng ta gi mt máy tính là mt máy
tính a phưng cho tác v nu on d liu liên quan n tác
v này ưc lưu tr ngay ti máy tính ó, và chúng ta gi tác
v này là mt tác v a phưng trên máy tính. Trong trưng
hp cịn li (ngha là d liu cn thit cho tác v khơng ưc
lưu tr ti máy tính), máy tính ó ưc gi là máy tính t xa
cho tác v, và tưng ng vi tác v này ưc gi là tác v t
xa trên máy tính. Tính a phưng nên ưc xem xét n trong
vic phân b các tác v “map” chy trên các máy tính. Vic
ci thin tính a phưng có th gim thi gian x lý ca các
tác v “map” và lưu lưng ti t mng khi mt vài tác v
“map” cn ly d liu t xa. Tuy nhiên, vic gán tt c các tác
v n các máy tính a phưng có th dn n mt s phân
phi khơng ng u ca các tác v gia các máy, tc là mt
s máy b tc nghn trong khi các máy khác nhàn ri. Vì vy
chúng ta cn phi cân bng gia các d liu a phưng và cân
bng ti trong Map-Reduce. ây chính là ng lc thúc y
các nhà nghiên cu tìm hiu, ci tin, xut các thut tốn
mi nhm nâng cao hiu qu s dng và hiu sut h thng.
Mt s thut toán iu phi ưc xut trưc ây trong h
thng Map-Reduce/Hadoop ci thin d liu a phưng.
Thut toán FIFO scheduler trong Hadoop [12] vi vic iu
phi mt máy sn sàng phc v tác v “map” t công vic
head-of-line vi d liu gn nht n máy tính. Mc dù mt vài
ti ưu hố a phưng ã ưc thc hin, vn head-of-line
blocking a phưng vn tn ti và hiu sut thông lưng vn
b hn ch. Thut toán Fair Scheduler trong Hadoop [6] vi k
thut iu phi chm tr ưc s dng ci thin a phưng.
Khi mt máy tính yêu cu mt tác v mi, nu công vic ưc
iu phi tip công bng không có tác v a phưng sn có
cho máy tính này, thì cơng vic tm thi b qua và máy tính
kim tra các công vic tip theo trong danh sách. K t khi
máy tính ưc gii phóng nhanh, nhiu tác v a phưng ưc
phc v. Tuy nhiên, máy tính ang rnh s ưc gii thiu t
mt máy sn sàng có th b qua tt c các cơng vic khi nó
khơng th tìm mt tác v a phưng và vic cân bng gia
thi gian rnh và a phưng là không rõ ràng. Thut toán iu
phi Quincy ưc thit k cho Dryad [7] vi mt mơ hình phân
phi máy tính cho phép lưu d liu phc tp hn Map-Reduce.
Quincy s dng tng s d liu truyn như n v o a
Keywords- in toán ám mây, Map-Reduce, d liu a
phưng, Hadoop.
I.
GII THIU
Ngày nay, chúng ta ang sng trong thi i thông tin, vi
s tng trưng bùng n thông tin theo cp s nhân. Nhng
công ty hàng u v công ngh thông tin như Google, Yahoo!,
Amazon, Microsoft, Facebook, Twitter… ang i mt vi
mt khi lưng d liu khng l. S tng trưng này òi hi
các chin lưc mi x lý và phân tích d liu. in toán
ám mây ưc phát trin và Map-Reduce/Hadoop ang là mt
mơ hình tính tốn mnh m ưc ng dng trong in toán
ám mây. Vic x lý các tp d liu quy mô ln ã tr thành
mt vn ngày càng quan trng và y thách thc vi s
lưng d liu ưc to ra bi các mng xã hi trc tuyn,
nghiên cu khoa hc… Map-Reduce/Hadoop [9]-[15] là mt
framework n gin nhưng mnh m x lý các tp d liu
quy mô ln trong môi trưng phân tán và x lý song song, và
ang ưc s dng rng rãi trong thc t. Mt cm máy tính
Map-Reduce có th bao gm hàng chc ngàn máy tính [2]. Các
d liu ưc lưu tr thưng ưc t chc trên h thng phân
phi tp tin (ví d h thng tp tin Google (GFS) [10], h thng
tp tin phân tán Hadoop (HDFS) [4]) trong ó phân chia mt
tp d liu ln thành nhiu on d liu và lưu tr thành nhiu
bn sao (mc nh là 3 bn sao) ca mi on d liu trên các
máy tính khác khau. Mt yêu cu x lý d liu trong
framework Map-Reduce ưc gi là mt công vic (job) bao
gm hai loi tác v: “map” (“ánh x”) và “reduce” (“gim”).
Mt tác v “map” c mt on d liu và x lý nó to ra
kt qu trung gian (các cp khố – giá tr). Sau ó tác v
“reduce” ly kt qu trung gian và thc hin các tính tốn
ISBN: 978-604-67-0635-9
24
24
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
phưng và mã hố nó vào trong mơ hình giá. Sau ó, quyt
nh iu phi ưc thc hin bng cách gii quyt vn chi
phí thp nht. Ngồi ra, cịn có rt nhiu cơng trình nghiên cu
ã xut thut toán iu phi gii quyt vn ci thin
d liu a phưng trong Map-Reduce và ưc trin khai trong
thc t. Tuy nhiên chưa có cơng trình nghiên cu nào ưa ra
thut tốn iu phi cơng vic có th t ưc min dung
lưng y (full capacity region) gim thiu thi gian ch
i và tc nghn trong mt cm máy tính Map-Reduce.
Vi tình hình ó, mt kin trúc hàng i mi và mt thut
toán iu phi tác v “map” ã ưc xut gn ây trong bài
báo k thut [13]. Kin trúc và thut toán này gii quyt ưc
vn d liu a phưng bng vic t ưc min dung lưng
y nhm gim thiu thi gian ch i và tc nghn trong
mt cm máy tính Map-Reduce. Kin trúc hàng i này gm
mt hàng i a phưng tưng ng vi tng máy tính lưu
tr các tác v a phưng cho các máy này và mt hàng i
chung cho tt c các máy tính. Da trên kin trúc hàng i này,
các tác gi nghiên cu mt thut toán iu phi tác v ánh x
(map) vi hai giai on: khi mt tác v mi n nó s ưc
chuyn n mt trong 3 hàng i tưng ng vi 3 máy tính a
phưng hoc hàng i chung bng chính sách Join the Shortest
Queue (JSQ) và khi mt máy tính rnh nó s chn mt tác v
t hàng i a phưng tưng ng vi nó hoc hàng i chung
bng cách s dng chính sách MaxWeight [14].
Có th d dàng thy rng các tác gi ca [13] ch xem xét
trưng hp sao lưu d liu bng 3 (ngha là mi on d
liu có 3 bn sao ưc lưu tr 3 máy tính khác nhau). Trên
thc t, tu thuc vào cu hình h thng, sao lưu d liu có
th ln hn hoc nh hn 3. Trong bài báo này, chúng tôi m
rng nghiên cu ca bài báo [13] bng vic xem xét và so sánh
hiu sut h thng trong các trưng hp sao lưu d liu có
giá tr khác nhau. C th, chúng tôi chng minh lý thuyt và
mô phng h thng dùng công c mô phng OMNeT++ cho
trưng hp sao lưu d liu K có giá tr tng quát; ng thi
so sánh hiu sut ca h thng vi các trưng hp dưi ti
(underload), gn ti (load), và q ti (overload). Chúng tơi tin
rng nhng kt qu có ưc s giúp ngưi vn hành h thng
Map-Reduce có thêm mt tiêu chí chn các thơng s h
thng phù hp.
Phn còn li ca bài báo ưc t chc như sau. Trong phn
II, chúng tơi miêu t mơ hình h thng. Trong phn III, chúng
tơi trình bày chng minh lý thuyt v ti ưu hố thơng lưng.
Phn IV cung cp các kt qu mô phng. Cui cùng, chúng tôi
kt lun bài báo trong phn V.
II.
MƠ HÌNH H THNG
Chúng tơi xem xét mt mơ hình thi gian ri rc cho mt cm
máy tính bao gm M máy tính, ưc ánh s th t 1, 2, …,
M. Chúng tôi gi nh rng mi công vic n yêu cu mt tác
v “map”, và mi tác v “map” yêu cu mt mu d liu u
vào. Chúng tôi cng gi s rng mi mt mu d liu ưc
sao lưu K (K > 1) máy tính khác nhau. Vì vy mi tác v
liên quan n K máy tính a phưng. Phi mt mt thi gian
dài hn cho mt máy tính x lý mt tác v nu on d liu
cn thit không ưc lưu tr ti a phưng k t khi máy tính
cn ly d liu u tiên. Các tác v có th phân loi theo các
máy tính a phưng mà chúng liên kt vi nhau. i vi mi
tác v chúng tôi gán ch s ca K máy tính cc b theo mt
trt t tng dn vào trong mt vector hình thành các loi tác
v:
∈ , , … , ∈ 1,2, … , , < < ⋯
< .
Các ký hiu ∈ ch rng máy tính m là mt máy tính a
phưng cho kiu tác v . Chn ký hiu ℒ biu th cho tp
hp các kiu công vic tn ti trong cm và = ℒ.
A. Quá trình n và quá trình phc v
Cho biu din tng s lưng kiu công vic n h
thng cho n thi im bt u ca khe thi gian t. Chúng tôi
gi s rng quá trình n là hàm tng theo thi gian vi tc
n . Ti mi máy tính thi gian phc v công vic ưc gi
s là tuân theo phân phi hình hc (geometric distribution).
Tham s phân phi hình hc cho mt cơng vic ti mt máy
tính a phưng là và ti máy tính t xa là . Q trình phc
v ca mt cơng vic có th ưc xem như là mt chui các
s kin c lp vi xác sut thành công (hoc ) và chui s
kin s dng mt khi chúng ta có mt s thành cơng tc là
mt cơng vic ã hồn thành. Trong mơ hình này chúng tơi gi
s > , ngha là, thi gian phc v trung bình ca cơng vic
a phưng là ít hn thi gian phc v cơng vic t xa. Chú ý
rng các giá tr khác nhau ca và th hin hiu qu x lý
khác nhau i vi d liu a phưng.
B. Thut tốn iu phi cơng vic (task scheduling algorithm)
iu phi công vic là vic gán các cơng vic n các máy
tính x lý. Vi vn d liu a phưng, thut tốn iu
phi cơng vic có th nh hưng áng k n hiu qu ca h
thng. Trong bài báo này, chúng tôi xem xét mt thut tốn
iu phi cơng vic bao gm hai phn, nh tuyn và iu
phi, ưc xut trong bài báo k thut [13]. H thng iu
phi bao gm mt kin trúc hàng i ưc minh ho bi Hình
1. Máy Master duy trì mt hàng i các cơng vic cc b cho
mi máy tính m, ưc ký hiu là và ưc gi là hàng i
cc b. Có mt hàng i chung cho tt c các máy tính ưc
ký hiu là (hoc ôi khi ngưi ta ký hiu ) và ưc
gi là hàng i chung t xa (common remote queue). Chúng
tôi dùng mt vector chiu dài hàng i = , … ,
, ký hiu cho chiu dài các dàng i ti thi
im bt u ca khe thi gian t. Khi mt công vic n, máy
Master nh tuyn công vic này n mt hàng i trong h
thng hàng i. Khi mt máy tính là idle, nó chn mt cơng
vic t hàng i a phưng tưng ng hoc hoc t hàng i
chung t xa phc v. Hai bưc này ưc minh ho trong
Hình 1. Chúng ta gi bưc u tiên là nh tuyn (routing) và
bưc th hai là iu phi (scheduling). Thut toán c th như
sau.
Bưc 1 - Join the Shortest Queue (JSQ) Routing: Khi mt
cơng vic n, máy tính Master s so sánh chiu dài hàng i
ca K hàng i cc b và hàng i chung t xa và sau ó nh
tuyn n mt hàng i có chiu dài ngn nht. Cho ,
2525
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
nu máy tính m là idle tc là = , là 1 hoc 2
ưc quyt nh bi máy tính Master bng thut tốn
MaxWeight. Chúng tôi dùng vector iu phi =
, , … , biu din quyt nh iu phi cho
tt c các máy tính.
và biu din các công vic ưc giao tưng ng vi
và . Các công vic ưc giao n cho mi hàng i có
th
ưc
biu
din
bng
vector
n
= , … , , ưc nh ngha như sau:
=
∈
, , = 1,2, … , ,
C. ng hc hàng i (queue dynamics)
Trong khe thi gian t, u tiên máy tính Master kim tra thơng
tin trng thái làm vic và chiu dài hàng i . Sau ó
các cơng vic n ti máy tính Master và máy tính Master
thc hin nh tuyn và iu phi, cho ta thông tin
. Chúng tôi nh ngha:
= .
= = 1,
= ,
= ,
= = 2.
Vi nh ngha trên, dch v t máy tính m cho hàng i a
phưng và hàng i t xa là hai bin Bernoulli
và
. Do ó, các
dch v ưc áp dng cho mi hàng i có th ưc biu din
,
bng vector dch v = , … ,
vi
tc dch v hoc . Khi ó chiu dài các hàng i tho
mãn các phưng trình sau:
Hàng i a phưng (Local queues): vi m=1,2, …, M,
,
1 =
trong ó:
Hình 1: Kin trúc hàng i và thut tốn iu phi
1,
=
= .
Bưc 2 - MaxWeight Scheduling: Nu mt máy tính m va
hồn thành mt cơng vic ti khe thi gian t-1, thì trng thái
làm vic ca nó là idle. Nu khơng, máy tính phi thc hin
mt cơng vic a phưng hoc mt công vic t xa. Cho
= , 1, 2 biu din tưng ng cho 3 trng thái: idle,
ang thc hin mt công vic a phưng, và ang thc hin
mt công vic t xa. Vector trng thái làm vic =
, , … , và vector chiu dài hàng i
ưc báo cáo v cho máy tính Master ti thi im bt u ca
khe thi gian t và máy tính Master quyt nh iu phi cho
tt c các máy tính da trên và . Các máy tính idle
ưc iu phi bi thut tốn MaxWeight: gi s máy tính m
là idle ti slot thi gian t, thì nó phc v mt cơng vic a
phưng nu và phc v mt công vic t
xa cho các trưng hp khác. Các máy tính khác tip tc thc
hin các cơng vic chưa hồn thành tc là thc hin các công
vic không ưu tiên. Cho biu din quyt nh iu phi
ca máy tính m ti slot thi gian t, thì nó là mt hàm ca
và và
Hàng i t xa (Remote queue)
1 =
trong ó:
=
,
,
∈
vi là tp các máy tính mà nó phc v mt vài cơng vic
t hàng i t xa ti slot thi gian t. Chú ý rng có th có mt
vài máy tính c gng phc v hàng i t xa nhưng tht bi do
thiu cơng vic.
Chúng ta có th vit li phưng trình ng hc hàng i như
sau:
1 = ,
.
vi = , … , ,
(1)
Trong trưng hp thi gian phc v là xác nh, quá trình
hàng i , là chui Markov. Tuy nhiên thi gian
phc v trong mô hình này là ngu nhiên và khơng ng nht
do vn d liu a phưng. Do ó chúng ta cn xem xét
thêm các vector trng thái làm vic ; c th, cùng
vi s to thành chui Markov , , .
Chúng ta gi nh trng thái ban u là , =
, và không gian trng thái
,1,2 bao gm tt c các trng thái mà nó có th t ưc
1
,
=
2.
Lưu ý rng cho bit hàng i máy tính m ã ưc iu
phi phc v. Nó ch có giá tr 1 hoc 2 k t khi ưc iu
phi phc v mt công vic a phưng hoc mt công vic
t xa. Nu máy tính m khơng idle tc là = 12 ,
chúng ta thit lp iu phi bng vi . Tuy nhiên,
26
26
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
chn ngồi Ʌ. Do ó thut tốn này là ti ưu thông lưng và Ʌ
cng là min dung lưng ca h thng.
t trng thái ban u, vi là tp s nguyên không âm. D
thy rng chui Markov này là ti gin (irreducible) và khơng
tun hồn (aperiodic).
Chng minh:
Chng minh này tưng t như chng minh ca nh lý 1
trong bài báo k thut [13], tuy nhiên, [13] ch xét trưng hp
K=3. Vi trưng hp K tng quát, ta thy rng tp ℒ (tp hp
các kiu công vic) s thay i, và = ℒ cng thay i. Tuy
nhiên, chng minh ca nh lý 1 trong [13] vn có th ưc
m rng cho trưng hp K tng quát. Vì lý do gii hn v
dài bài báo, chúng tôi ch nêu ý tưng chng minh ây và
mi ngưi c tham kho bài báo [13] v chi tit. Ý tưng ca
chng minh như sau: Vì , , là mt chui
Markov ti gin và khơng tun hồn, s n nh ưc nh
ngha là s hi quy dưng (positive recurrence) ca chui
Markov này. Da theo nh lý Foster-Lyapunov m rng, ta
ch cn tìm mt s dưng T và mt hàm Lyapunov sao cho
trôi ca hàm Lyapunov (Lyapunov drift) sau T khe thi gian b
chn nu bên trong mt tp con hu hn ca không gian
trng thái và là âm nu bên ngoài tp con này. C th hàm
Lyapunov ưc chn có dng:
TI U HỐ THƠNG LNG
III.
Trong phn này, chúng tơi s chng minh tính nng ti ưu hố
thơng lưng ca thut tốn iu phi ưc trình bày phn
trưc. Chú ý rng tính nng này ã ưc chng minh trong bài
báo k thut [13] vi trưng hp K=3; trong phn này chúng
tôi m rng chng minh vi trưng hp K tng quát.
Ý tưng ca chng minh như sau: Trưc tiên chúng ta xác
nh min chn ngoài (outer bound) ca min dung lưng ca
h thng. Sau ó chúng ta chng minh rng thut tốn iu
phi trên có th n nh hố bt k vector tc n nào
thuc min chn ngồi này (n nh hố theo ngha các hàng
i u n nh và không tng theo thi gian). iu ó có
ngha là thut tốn iu phi trên là ti ưu thông lưng, và
min dung lưng cng trùng vi min chn ngoài.
A. Min dung lng (capacity region)
i vi bt k kiu công vic ∈ ℒ, chúng ta gi nh rng s
lưng kiu công vic n ưc phân b n máy m có tc
, , vi =
,
, . Tp tc
, = =
∈ℒ,,…,
Khi ó ta có th chng minh rng (tham kho chi tit trong
[13]) trôi Lyapunov sau T khe thi gian t t0 ưc chn bi
, ≤ 2 vi hng s > . nh
ưc gi là mt phân tích (decomposition) ca vector tc
= , , … , . Vi vector tc n , xét mt máy
tính m bt k, iu kin cn h thng ưc n nh là khi
lưng tác v trung bình ưc phân b cho máy tính m trong
mt khe thi gian có th ưc phc v ht trong khe thi gian
ó, có ngha là:
∈
,
,
≤ 1,
ngha tp ß = , ∈ ⋯ ≤ vi
> bt k. Khi ó ß là mt tp con hu hn ca khơng
gian trng thái vi , ∈ ß , , ≤ và , ∈
ß, , ≤ . iu này tho mãn nh lý Foster-Lyapunov
m rng và hồn thành chng minh.
(2)
∉
IV.
trong ó v trái là thi gian máy tính m cn có phc v
lưng tác v trung bình phân b cho nó trong mt khe thi
gian, vi tc dch v cho công vic a phưng và cho
công vic t xa.
Gi Ʌ là tp giá tr tc n mà mi phn t phân tích ca nó
tho mãn (2). C th:
Ʌ = = , , … ,
= , , ∀ ∈ ℒ,
Trong phn trưc chúng tơi ã chng minh tính ti ưu hố
thơng lưng ca thut toán iu phi ưc xut ngay c vi
sao lưu d liu K tng quát. Tuy nhiên, câu hi ưc t ra
là hiu sut h thng ca thut toán iu phi thay i th nào
vi các giá tr K khác nhau. Chúng tôi s tr li câu hi ó
trong phn này vi các kt qu mơ phng.
Chúng tơi mơ phng thut tốn vi các giá tr sao lưu
d liu: K = 2, 3, 4, 6, 8, 10, và so sánh hiu sut ca h thng
vi các trưng hp dưi ti (underload), trong ti (load) và
quá ti (overload). Tiêu chun ánh giá da vào tng s lưng
các tác v còn tn ti trong các hàng i a phưng và hàng
i t xa sau mi khe thi gian.
(3)
, , ∀ ∈ ℒ, ∀ = 1, … ,
∈
,
∉
,
≤ 1, ∀ = 1, … ,
KT QU MƠ PHNG
.
Chúng tơi thc hin mơ phng trên h thng vi 400 máy
tính và mt tp d liu ưc phân b ng u trên 320 máy
trong s ó. Thi gian phc v cho tác v a phưng và tác
v t xa tuân theo phân phi hình hc vi tham s tưng ng
là = .8 và = .2. Vì vy tng dung lưng ca h thng
(tính theo s tác v n trong mt n v thi gian) bng =
320 α + 80γ = 272. Tng thi gian chy ca h thng là 2000
n v thi gian.
D thy rngɅ chính là min chn ngồi ca min dung lưng
ca h thng.
B. Tính ti u thơng lng (throughput optimality)
nh lý 1: Thut toán iu phi ưc xut Phn II.B có
th n nh h thng vi vector tc n bt k thuc min
27
27
HộiHội
Thảo
Quốc
GiaGia
2015
và Cơng
CơngNghệ
NghệThơng
Thơng
(ECIT
2015)
Thảo
Quốc
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và
TinTin
(ECIT
2015)
Bng 1 cho thy kt qu trung bình theo thi gian ca tng
s lưng tác v còn trong hàng i (tưng ng vi tng chiu
dài ca tt c các hàng i) vi các giá tr khác nhau ca tc
tác v n () và sao lưu d liu (K). Kt qu này cng
ưc th hin trong th Hình 2. C th, Hình 2 biu din
s bin thiên ca tng chiu dài trung bình hàng i theo s
thay i ca tc tác v n ng vi các trưng hp K = 2,
3, 4, 6, 8, 10. Ta có th thy rng khi tc n nh (dưi ti
– underload), tng chiu dài trung bình hàng i tng dn khi
K tng dn, ngha là giá tr K nh s có hiu sut cao hn trong
trưng hp này. Tuy nhiên, khi tc n tng dn (ti tng
dn), tng chiu dài trung bình hàng i ng vi giá tr K nh
tng nhanh hn tng chiu dài trung bình hàng i ng vi giá
tr K ln. c bit, khi tc n gn ti (gn dung lưng h
thng), tng chiu dài trung bình hàng i gim dn khi K
tng dn, ngha là giá tr K ln s cho hiu sut cao hn.
A. Trng hp di ti (underload)
Vi trưng hp này chúng ta cho h thng chy vi tc
tác v n = 100 (tác v trong mt n v thi gian). Chy
vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian.
Chúng ta theo dõi tng s lưng tác v tc thi trong h
thng quan sát s n nh. Hình 3 cho thy con s i din
này n nh theo thi gian, qua ó thy rõ s n nh ca h
thng. Vi kt qu như Hình 3 chúng ta thy rng hiu sut h
thng vi sao chép d liu K = 2, 3, 4, 6, 8, 10 luôn luôn n
nh theo thi gian. Tuy nhiên vi trưng hp này sao chép
d liu K = 2 tt hn các trưng hp khác.
Hình 3: Kt qu trưng hp = 100
B. Trng hp gn ti (load)
Vi trưng hp này chúng ta cho h thng chy vi tc tác
v n ln lưt là = 200 (tác v trong mt n v thi gian),
= 250 (tác v trong mt n v thi gian), = 260 (tác v
trong mt n v thi gian), và = 270 (trong mt n v thi
gian). Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v
thi gian.
Hình 2: Hiu sut thông lưng h thng
Bng 1: Kt qu s lưng cơng vic trung bình trong h thng
CCCCCCSSCC
K
100
120
140
160
180
200
220
230
240
250
260
272
300
K=2
K=3
K=4
K=6
K=8
K=10
42
65
114
371
503
596
713
798
937
1613
8277
22941
57792
48
66
89
122
330
445
530
584
663
849
7673
22514
57420
55
75
96
122
159
347
444
490
555
690
7608
22456
57438
68
90
113
138
166
203
344
390
444
544
7209
22042
57050
77
101
127
153
180
211
270
349
398
482
7280
22205
57246
85
110
136
163
191
220
258
316
371
437
6788
21752
56792
Vi kt qu như Hình 4, Hình 5 chúng ta thy rng tng s
lưng tác v tc thi trong h thng vn n nh theo thi
gian. Kt qu Hình 6, Hình 7 cho thy tng s lưng tác v
tc thi trong h thng có chiu hưng quá ti. Tuy nhiên vi
các trưng hp này sao chép d liu K = 10 tt hn các
trưng hp khác.
K tip, chúng tôi xem xét quá trình thay i ca tng chiu
dài hàng i theo thi gian ng vi các giá tr khác nhau ca
và K.
Hình 4: Kt qu trưng hp = 200
28
28
HộiHội
Thảo
Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
V.
KT LUN
Trong bài báo này chúng tôi ã k tha và m rng kt qu
nghiên cu ca các tác gi W. Wang, K. Zhu, L. Ying, J. Tan,
và L. Zhang trong bài báo k thut [13] cho trưng hp sao
lưu d liu có giá tr tng quát. Trong h thng Map-Reduce
thc t, sao lưu d liu là mt thông s quan trng và
chúng tôi tin rng nhng kt qu có ưc trong bài báo này s
giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu
chí chn các thơng s h thng phù hp.
TÀI LIU THAM KHO
Hình 5: Kt qu trưng hp = 250
[1]
[2]
[3]
[4]
[5]
Hình 6: Kt qu trưng hp = 260
[6]
[7]
[8]
[9]
[10]
Hình 7: Kt qu trưng hp = 270
[11]
C. Trng hp quá ti (overload)
Vi trưng hp này chúng ta cho h thng chy vi tc tác
v n ln lưt = 272 (tác v trong mt n v thi gian),
= 300 (tác v trong mt n v thi gian). Chy vi K = 2, 3,
4, 6, 8, 10 vi thi gian 2000 n v thi gian.
[12]
[13]
Vi kt qu Bng 1 chúng ta thy rng ng vi c hai giá tr
trong trưng hp này tng s lưng tác v trung bình theo thi
gian là tưng ưng nhau cho tt c các giá tr ca K, và h
thng luôn luôn quá ti.
[14]
[15]
[16]
29
29
C. Abad, Y. Lu, and R. Campbell (2011), “DARE: Adaptive data
replication for efficient cluster scheduling” in IEEE Int. Conf. Cluster
Computing (CLUSTER), pp. 159–168.
G. Ananthanarayanan, S. Agarwal, S. Kandula, A. Greenberg, I. Stoica,
D. Harlan, and E. Harris (2011), “Scarlett: coping with skewed content
popular in MapReduce clusters” in Proc. European Conf. Computer
Systems (EuroSys), pp. 287–300.
J. Dean and S. Ghemawat (2008), “MapReduce: simplified data
processing on large clusters” ACM Commun, vol 51 (no. 1), pp. 107–
113.
K. Shvachko, H. Kuang, S. Radia, and R. Chansler (2010), “The hadoop
distributed file system” in IEEE Symp. Mass Storage Systems and
Technologies (MSST), pp. 1–10.
L. Tassiulas and A. Ephremides (1992), “Stability properties of
constrained queueing systems and scheduling policies for maximum
throughput in multihop radio networks” IEEE Trans. Autom. Control,
vol 4, pp. 1936–1948.
M. Zaharia, D. Borthakur, J. Sen Sarma, K. Elmeleegy, S. Shenker, and
I. Stoica (2010), “Delay scheduling: a simple technique for achieving
locality and fairness in cluster scheduling” in Proc. European Conf.
Computer Systems (EuroSys), pp. 265–278.
M. Isard, V. Prabhakaran, J. Currey, U. Wieder, K. Talwar, and A.
Goldberg (2009), “Quincy: fair scheduling for distributed computing
clusters” in Proc. ACM Symp. Operating Systems Principles (SOSP),
Big Sky, MT, pp. 261-276.
S. T. Maguluri and R. Srikant (2013), “Scheduling jobs with unknown
duration in clouds” in Proc. IEEE Int. Conf. Computer Communications
(INFOCOM), Turin, Italy.
S. T. Maguluri, R. Srikant, and L. Ying (2012), “Heavy traffic optimal
resource allocation algorithms for cloud computing clusters” in Int.
Teletraffic Congr. (ITC), Krakow, Poland.
S. Ghemawat, H. Gobioff, and S.-T. Leung (2003), “The google file
system” in Proc. ACM Symp. Operating Systems Principles (SOSP), pp.
29–43.
S. Kavulya, J. Tan, R. Gandhi, and P. Narasimhan (2010), “An analysis
of traces from a production MapReduce cluster” in Proc. IEEE/ACM Int.
Conf. Cluster, Cloud and Grid Computing (CCGRID), pp. 94–103.
T. White (2010), Hadoop: The definitive guide, Yahoo Press.
W. Wang, K. Zhu, L. Ying, J. Tan, and L. Zhang, (2013), “MapTask
scheduling in MapReduce with data locality: Throughput and heavytraffic optimality”, in Proc. IEEE Int. Conf. Computer Communications
(INFOCOM), Turin, Italy.
L. Tassiulas and A. Ephremides (1993), “Dynamic server allocation to
parallel queues with randomly varying connectivity” IEEE Trans. Inf.
Theory, vol. 39, pp. 466–478.
.
.