Tải bản đầy đủ (.pdf) (110 trang)

Một số vấn đề cơ bản về thiết kế và xây dựng mô hình datawarehouse

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (40.57 MB, 110 trang )

Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I
KHOA CÔNG NGHỆ
----------------------------- 0 O 0

-----------------------------

NGUYỄN XU ÂN TÙNG

Những vấn đề cơ bản về thiết kế và
xây dựng mơ hình Datawarehouse

LUẬN VÃN TH ẠC s ĩ
Chuyên ngành : Công Nghệ Thông Tia
Mà số: 010110



____

___

/

Người hướng dán khoa học: TS Đặng Q uang A

Hà Nội - N ăm 2003


ĐỂ MỤC

Chương I



L.í.
1.2.
1.2.1.
1.2.2.
1.2.3.
1.2.4.
1.3.
1.3.1.
1.3.2.
1.3.3.
1.3.4.
1.3.5
1.36
1.3.7.
1.3 8
1 4.
ÌA A .
1.4.2.

1.4.3.
1.4.4.
1.4.5.
1.4.6.

K H O D ữ L IỆ U - L Ị C H s ử P H Ắ T T R IE N VÀ
M Ộ T S Ố K H Ả I N I Ê M c ơ BẢN
Lịch s ử p h á t t r i ể n
C á c y ê u cầu cơ b ủn c ủ a m ộ t hệ t h ô n g DVVH
H ư ớ n g c h ủ đề

Sị liệu có tín h lịch s ử
Sị liệu chỉ cỉẻ đọc
Sơ liệu k h ô n g b i ế n đ ộ n g
Kiến t r ú c t h a m c h i ế u c ủ a m ộ t DVVH
K hối c á c n g u ồ n d ữ liệu
K h ối t ạ o d ự n g k h o d ữ liệu
K h ối tạ o d ự n g k h o d ữ liệu cục bộ
K hối t r u y n h ậ p v à s ử d ụ n g
Lứp q u ả n lý d ữ liệu
L ớ p q u ă n lý siêu d ữ liệu
Lớp c h u y ê n tải d ừ ỉiệu
L ớ p kết c ấ u h ạ t ầ n g
C á c D W H t r o n g m ộ t s ố lĩnh vực
DVVH t r o n g lĩnh vực tài c h í n h
D W H t r o n g lĩnh vự c b ả o h i ể m
DYVH t r o n g lình vự c đ i ề u k h i ể n n g u ồ n n h ã n lực
DYVH d i ệ n r ộ n g
DVVH với t í n h n ă n g D a t a n iỉn in g
DVVH t r o n g lĩnh v ự c viễn t h ô n g

C Ấ U T R Ú C K H O D ữ L I Ệ U VÀ

C hirư ng II

2.1.
2.1.1.
2.1.2.
2.1.3.
-> J


M Ơ H ÌN H D ữ LIỆU
Các
Cấu
Cáu
Cáu
Các

lựa c h ọ n vế c á u t r ú c
t r ú c k h o d ừ liệu t ổ n g t h ể
t r ú c D a t a I ìia rt độc lậ p
t r ú c D a t a m a r t liên kế t với n h a u
lựa c h o n t h ự c h iê n

Trang

1

1
7
7
7
7
7
8
8
9
10
10
II
12

13
14
15
16
17
17
18
19
19

21

22
23
24
25
26


? 1 \
1 -> J

2.2.3.
2.3.
2.3.1.
•) 3 7
23 3 .
2.3.4.

C h ư ơ n g I II

3.1.
,
.
3.2.1.
3.3.1.

C h ư ơ n g IV

4.1.
, 4.1.2.
, 7

T h ự c liièn từ t r ẽ n x u ố n g
T h ự c h iệ n từ dưới lèn
P h ư ơ n g th ứ c kết hợp
M ị h ì n h d ữ liệu cho k h o d ữ liệu
T ạ i sao việc xủ y í lư n g m ó h ìn h d ữ liệu IÌ1 q u a n t r ọ n g
Các kỹ t h u ậ t xây d ự n g mõ h ì n h d ữ liệu
Xày d ự n g mị h ì n h ER
Xây d ự n g m ỏ h ì n h th eo chiều

27
28
29
30
31
32
32
39


T H I Ế T K Ế K H O DỮ LĨỆU

46

C á c p h a t r o n g q u á t r ì n h t h iế t kẻ DVVH
P h a 1 và p h a 2: X â y d ự n g mơ h ì n h kinh d o a n h và
mổ h ì n h logic
P h a 3: T ạ o m ị h ì n h ch iều ( m ơ h ì n h sao)
P h a 4 : Xây d ự n g m ỏ h ì n h vật lý

TH U T ĨIẬ P SỐ LIỆU T ừ CÁ C NGUỔN K H Á C
N H A U p H ụ C y ụ C H ;VM S Ó C K H Á C H H À N G

46

51
67

79

M ô tả t h ự c t r ạ n g d ữ liệu
82
Dữ liệu p h á t t ri ển t h u ê b a o
tại T r u n g t â m Dịch vụ
83
K hách hàng BĐHN
D ử liệu p h á t triể n tluiè b a o tại các B ư u điện h u y ệ n
85
IVĨỒ t ả q u á t r ì n h thiết kẽ v à
xây d ự n g k h o d ữ liệu

c h ă m sóc k h á c h h à n g c ủ a B Đ H N

M ộ t sô c ụ m từ tiếng A nh vfi viết tát
T à i liêu t h a m k h á o

106
107


CHƯƠNG 1
KHO DỮ LIỆU - LỊCH s ử PHÁT TRIEN VẢ
KHÁI NIỆM C ơ BẢN

MỘT s ố

1.1. LỊCH SỬ PHÁT TRIỂN
Chương này sẽ Lrình bày sự hình ihành khái niệm DYVH và các dặc điểm
của m ột hệ Ihống DWH (.liến hình.
M áy tính từ khi ra dời dã đóng vai trò vổ cung quan trọng irong lịch sử
phát triển của nhàn loại. Các m áy tính đấu tiên là những cơng cụ tính tốn
mạnh mẽ, cho phép con người giái được các bài tốn có số lượng tính tốn
k hổng lổ mà trước dó khơng thể ihực hiện dược bằng tay. Trong thời gian đầu
các máy tính chủ yếu tập trung giãi quyết các bài toán như giải hệ phương
trình, tính tốn kết cấu cồ nâ irình, tính tốn xây đựng kế hoạch quốc gia,
thống kê diều tra dàn số, luyen sinh..., là những bài tốn lớn, có thuật toán xấc
định.
T ừ cuối những nãm 70, (lầu những năm 80, cùng với sự xuấl hiện của
dòng máy PC với năng lực lương Lự máy tính lớn của Ihời kỳ đầu và với má
thành ngày càng ré, m áy vi Lính dã iham gia vào mọi mặt của dời sống xã hội.
Rất nhiêu lĩnh vực tnrớc dây được thực hiện Ihử công như giao dịch bấn hàng,

quàn lý vật lư, nhàn sự..., dược vi tính hố.Góp phần tích cực vào q trình
này !à sự xuất hiện của những ngơn ngữ lập trình hướng cấu trúc, phần mềm
được coi Lì một nghé và có quỵ trình phái trien tn thủ các quy trình rmhiêrn
ngặt. Các cịng tỵ phần m ém bán trên thị trường những CSDL quan hệ chạy
trên các máy dể bàn như DBASE,ACCESS, F OXP RO , SQL Server..., tạo diều
kiện vố cùnii thuận lợi cho nguời phát triên. Dường như máy tính và những
chương n inh cứa nó dã giai tjuyêi (lược háu hết các vân đè irong lĩnh vực quán
lý. Tuy nhiên vấn cté có lẽ khỏnn đơn gián như vậy.
Trên thực tế, các công ty muốn thành cơng irên thị trường, ngồi việc tổ
chức bán hàng lốt (giao dịch dơn gián, thuận liên cho người mua và nsười
qn !ý bán lùm“ ...), neưịi lãnh dạo cơng ty phái nám được thực chát các quá
trình diễn ra irons» đơn vị mình và irong mỏi trườnií kỉnh doanh mà đưn vị đó
hoạt động. Thèm nữa, sự hiếu biết đó khơn 14 chỉ đặi ru khi corta: ty đang ỉ ặ p
khó khăn mà ìmav cá trong iiiai đoạn cõny việc phát Iriên tốt . Phương pháp
được coi là tối ưu dế dieu hành là phàn lích mội cách phổ phán hoạt động của


xớ riỹhiỗp mỡnh, tll ra cỏu hụi vộ nhnu vn ló anh lì ƯỚM‘2 (lốn CỊIIÚ trình sán
xi va lìm ra càu nã lịi chính xac [rong thời iiiun imán nhàm dại !ựi nhuận
cao nhất.
Đè thực hiện các cỏn li việc của một cơnn ly. niiirời la có nhiều hộ ch ươn ti
Irình lự (-lộng hố các tĩnh vực quan trọn» như ke loán. lập kế hoạch, iĩiao dịch
khách liànu. lập hoii dơn... Tuy nhiên, mỏi hệ điươnií Irình này chí phục vụ
chủ yếu cho sự hoạt độntĩ của cơiiiĩ ty n o n g mội lĩnh vực nào dó.Vì vậy các
mẩu tin trong các hệ ihống ctó, vé hán chất phan ánh một hoặc mội vài khía
cạnh của một giao dịch. Chính vì lý do đó những hộ ihốiiiì này có một cái tồn
c ố điên là hệ thống xử lý sitio dịch (OLTP- online transaction processing).
Sau ctûv là sơ đổ một hệ thống O L T P diên hình.

H ìn h l . M ỏ h ìn h m ộ t h ệ thoiiỊỊ O Í.T Ỉ’


Minh I irình bấy mỏ hình 1 hộ thởi OLTP, hệ thống này cho phép các
giao dịch ihay dổi dữ liệu trona biins (ví dụ bang các lệnh inserí, update,
delete,join.,.) irong quá irình xứ lv. Tron tì hình I ớ irèn, 3 ứ nu dụng trinh
khách dang truy cập dữ liệu từ cơ sỏ' dữ liệu quan hệ với các Ihiio tác insert,
update... Hộ thông cho phcp nhiêu Ứ1V.Ĩ dụng truy cập dữ liệu cùim một thời
gian.


Các ứiiii (June Irền cliciii hao gồm lúi cá các loại ứng dụng như ngân
hàng, bán vé trực luyến, bán vé hàng khơng, Ihanh tốn cước phí... Sứ (lụnti hệ
thống O L T P có các ưu cticm sau:

-

Xứ íý các c hu yển lác tươns tác.

-

Dẻ báo trì và khống c h ế dữ liệu thừa.

-

Thiết lập dữ liệu quan hệ trọn vẹn.

-

Tính hiệu quá cao.

-


Giám thời gian cùa khách hàng.

Các CSDL trong các hệ O L T P thường dược thiết kế theo chuan 3 hoác tốt
hơn.
Đặc điểm của hệ thống O L T P là nó lưu trữ các dữ liệu '’thơ", có nghĩa là
mức độ tổng qt, trừu tượng của dữ liệu này rất ihítp. Nói

cách khác O L P T

rất có ích để lìm Irả lời những càu truy víín dạng: Tổng sán lượng

sàn pham X

do công ty bán được trong 6 tháng đáu năm,mặt hàng nào bán chạy nhất tại
địa phương Y trong tháng vừa qua ... Trong khi đó các nhà quan lý ở mức cao
của cơng ty rất ít khi quan tâm đến những câu hịi loại đó. Điểu họ cần chú ý
là những càu hỏi trừu tượng hơn như: Tiêu thụ A tại B dang giam, nếu thay đối
3%~5% giá của san phẩm A lại khu vực B, tình trạ ns tiêu thụ sẽ thay đổi ra

sao trong 6 tháng cuối năm và tại sao?
Rõ I'àng là các hệ thống O L T P hiện nay Irã lời rất lốt câu hỏi ỉ bồng các
công cụ của hệ CSDL quan hệ nhưng dể lìm đáp án cho những câu hỏi dạng 2
là không đơn gian. Crin phái xem xél 1 loạt các yếu tố ánh hướng đến việc liêu
thu san phẩm A, các yếu lốt dó có thế là:
+ Chương trình quáng cáo khống hiệu LỊuá
+ Việc tìm hiếu thị trường không lốt
+ Việc tổ chức bán hàng ớ B kém
+ Việc bảo dám chất lượng của sân phfim A khô im tôt
+ Sự ihay đối cúa mức sống tại địa bàn B....

Bán Ihùn việc tìm ra nhữniĩ nhân lố có ánh lurớnũ đến q trình dã là một
vìỌ
y cú

tính irừu tượnũ cao và có nhicu yếu lố của trí tuệ nhàn lạo. Sau khi

>

ì

xác


định sơ bộ dược c;íc you tố náy can xây ilựniỉ các chươnụ Irình nhăm xác (.tịnh
mối quan hệ cú a you lố (.10 với quá Iiình liêu (hụ săn plũiiìi. Dày là một cõng
việc khơng hể dơn gián bới các sỏ liệu cúa các võ LI lò can xem xél nám ớ
nhún« CSDL khác nhau. Nhữnií yếu lố căn hãn cán trớ việc sứ đụiì‘j tlữ liệu
của các hệ thổn '2 O L P T trorìíỉ việc phàn tích (lữ liệu là:
+ Các số liệu ớ mức quá chi tiếl
+ Các số liệu được phân bố ớ nhữnu hệ Ihốntí khúc nhau, cổ các ihủ lục
Iruy cập khác nhau và ớ những CSDL hoàn toàn khác nhau.
+ Các số liệu không dược cập nhập cù 112 mội chu kv dẫn đến sự mất
dồng bộ.
+ Việc lố chức truy cập lừ rất nhiều bán ự; dữ liệu khúc nhau có ảnh
hưởng rất xấu lới hiệu suất cùa các hệ Ihống VI mục đích của các hộ thống này
là nhằm phụ c vụ cấc giao dịch trực luyến.
Vào giữa nhữnu năm 80, nsiười la bát đáu dề cập tiến khái niệm khủng
hoang phàn tích số liệu tác níihiộp.Niĩiin nhãn của tình trạriíĩ này tương đối
kỳ lạ: Trong mơi irường thừa thãi số liệu, nhà phân tích khơng thể tìm ra cho
mình thơng tin cắn ihiêì nhằm, có được sự hiếu biết Ihấu dáo vổ những quá

trình xáy ra xung qiuml). Tình trạ ns số liệu q chi tiết và khơn« có dược sự
liên kết với nhau của các số liệu phàn ánh các q Irì nil lươn li dơi độc lập cúa
một thực thể là lý

do

trực tiếp dẫn đốn sự khủng hoủnỉĩ này .Tinh trạng thừa

Ihỏng tin,thiếu tri ihức dược John Naisbeli cánh báo:”Chímỉỉ ta dang chìm
ngập trong dữ liệu mà vần đói tri thức."
Từ nlìừnỉĩ h cập cùa các hệ !hô'rm xử lý lỉiao dịch trong việc cung cấp
các thông tin hỗ trự việc ra quyết định, từ nhữnỉĩ nãm 1983 các nhà nghiên
cứu dặt ra một vài giai pháp nham vượi qua các bế lác vừa dinh bày ờ trên.
Giái pháp đầu liên là lích hợp các hệ Ihốnii O L T P tie tạo ra mộl hệ thống chứa
dẩy ti ủ Ih ị n
11.

SI

Ún. Giãi pháp dó có hai nhược điếm lớn:

Phái liên kết các hệ ihơYig có xuất xứ khác nhau ve phan cứng và phán

mồm hệ (lìóne.Các chươnu trình cần có sự thốn« nhà! ve định nuhìa dữ liệu
cũ nạ như phương pháp biếu diễn dữ liệu. Vấn đc này rãi phức lạp thậm chí đối
với các hệ 1'hốniĩ c ó thiết kế phan lích tốt và hồn tồn khơng khá itii dối với
nhữna hệ (hống dược mô lá kém.


I).Việc truy vàn de lạo báo cáo 1hường xu vòn phái khua rát nhiều bán Li,

cán trớ sự truy xuàì của nhũn viên khai Ihác ironu quá Irình làm việc hàng
ngày và làm ánh hướng lrực liếp den khách hàim.
Mội cácl '1 tiếp cạn khác dược 90 là lììộl sự kèì hợp cúa mộl số ũiái pháp kỹ lliuặt và dược đặt lèn là Data
W:ựchoushinsí - kỹ Ihuật xây tlựrm các kho dữ liệu.Data Warehouse hay DWH
(kho dữ liệu) được dịnh nghía như một tập hợp cúc phiíơniĩ liệu cho phép hình
đung dữ liệu một cách tổng thế, lurớnu (-tối lirựiiũ dế ui úp cho việc phân tích và
ra quì định.
Những người dầu tiên dưa ra ý urởng vể DVVH xác (tịnh rằng tiến hành
phân tích trực tiếp irên dừ liệu của các hộ xử !ý aiao dịch vù khơng hiệu qua
và cío đó kh ơng được khuyến khích. Thay vào đỏ dữ liệu từ một vài OLTP
được biển đối và sau dó dưa vào một nguồn dữ liệu duy nhất là DWH. Quá
Irình này được gọi là đưa dữ liệu vào DWH, gồ m các cơng đoạn chính sau:
+ Làm sạch (Bỏ các dữ liệu khơng cần thiết hoặc q chun dụng)
ì- Liên kết các số liệu (Tính trước số liệu tích, tổn«, trung bình .. ..)
+ Biến dổi dữ liệu: số liệu dược biến dổi thành dạng thích hợp, tổ chức
lại phù hựp với DVVH
+ Tích hợp số liệu lừ các nguồn khác nhau.
+ Đổng bộ lioá số liệu ớ mội ihời điếm xác định.
DWH là hệ thống dữ liệu dã được ch nấn bị đế xây (ỉựnsi hệ hỗ irự quyối
định (DSS-Decision Support Systems) và hệ phàn tích trực tuyến (C)LAPOnline Analysis Processing) vì rang dữ liệu troniz DWH ihố mãn tính châì
lồn vẹn và có sự liên kết nội lại : Mặc dù dữ liệu được cuna cấp lừ nhiéu
OLTP, chúng được liên kết bằn ũ sự thốnu nhài tro nu quy lắc dặt tôn, (lơn vị
do, hệThốns các thuộc tính chunụ...

Điều này có ỊỊÌá irị dặc hiệt khi xí nghiệp

vận hành một lúc vài hệ [hống, trone dó các dữ ỉ ICII íitrọc biếu dien bàn»
nhữnu dơn vị khác nhau(Ví dụ như các cách bicu dien Iiìỉày, tháng khác nhau
hoặc biếu dien logic khác nhau.) Các chỉ số quan trọiiiĩ có như tổntĩ số, »iii irị

trung hình trong các lĩiai đoạn kluic nhau, Irunự hình cọn II.. .. cũng được biêu
dien ral đa clans ớ các hệ khác nhau.


Khi dưa số liệu vào DWH. mọi chí số khỏnii urơng ihícli được chuyến
dổi, tránh các lỏi tiềm làng Imnụ hệ ihống.
Sau dây chima ta sẽ xem xét các khác biệt cơ bán giữa O L P T và DW H để
dẻ dàng phàn biêi DVVH với các OLIr r vốn đã tlươe xày đuìm khá nhiều
OL PT

DW H

- Hướng phục vụ giao dịch

- Hướng chủ đé

- Phục vụ hàng ngàn người dùng

- Thirànsz có ít hơn 100 ngườiđùng
- Kích thước lớn

- Kích thước nhỏ

(Từ vài trâm GB->vài TB)

(Từ vài trảm MB->vài GB)
- Dữ liệu lức thời

- Dữ liệu có tính lịch sử


- Dữ liệu chuẩn hố

- Dữ liêu khơng chuẩn hố
(Nhiều dịng,ít bang)

(Nhiều báng,ít dịng)
- Cập nhạt lên lục

- Cập nhạt theo chu kỳ

- Đáp úng các câu hói ciưon tỉiàn

- Đáp ứng các câu hỏi râì phức tạp

<1


1.2. CÁC YÊU CẦU CO BẢN CỦA MỘT HỆ THỐNG DHW
DW H là sự lích hợp các (lũ liệu lừ các O L P T khác nhau nhằm tạp hợp dữ

liệu phục vụ q trình phân tích hoại dộng kinh doanh nên dữ liệu Irong ỉ hệ
thông D W H cẩn ihố mãn một số u cáu chính sau.
1.2.1. Hướng chủ (lè:
Các hệ thống OL TP có the chứa hàng trám Gb số liệu, tuy nhiên những
số liệu này có thế hồn tồn vơ ích trong việc phàn tích trực tuyến (VD: Địa
chi, ID khách h à n g . . . ) Các dữ liệu kiểu này thường không dược đưa vào DWH
để hạn c h ế dữ liệu cần xem xét xuống mức tối thiếu nhưng cũng báo đám các
thông tin theo từng SA(vùng chủ để- Subject area)
M ội vùng chủ để là một chú để dược tách ra từ một tập hợp lớn các chủ
dề


mà người sử dụng quan tâm trong cơng việc kinh doanh, (Ví dụ khách

hàng,thời gian hay sản phẩm.)

1.2.2. Số liệu có tính lịch sử:
Các hệ O L T P thường bao quát một khống thời gian khơng lớn và chúng
được kru trữ theo chu kỳ. Ngưực lại trong DWH, dữ liệu của hàng chục năm
dược !ưu trữ nhằm phát hiện sự liên hệ của các yêu tố có thể ánh hưởng đến
những chi tiêu cán quan tủm trong một thời gian dài.

1.2.3. Sô liệu chỉ đè đọc
Dữ liệu đưa vào D W H chí dể đọc, việc sửa dữ liệu hầu như khơng được
liến hành vì (.tiều này có thể ciãn tiến phú vỡ sự tồn vẹn. Th ơn g thường người
ta khơng yêu cầu giảm thời gian dưa dữ liệu vào D W H xuống mức tối thiểu,
nhưng cẩn tối ưu hoá DWI-I sao cho các truy vấn phục vụ cho việc phân tích
đại lốc độ tốt nhiít. Các sơ đồ quan hệ sẽ lạo ra các Index hợp lý cũng như tạo
ra sẩn các d ữ liệu kết hợp.

1.2.4. Sò liệu không biến động
T h ô n g till tronc DW được lai vào sau khi dữ liệu trong hệ thống điều
hành được cho lù quá cũ. Không biến động thể hiện ớ chỗ: Dữ liệu được [ưu
trữ làu dại trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ
liệu cũ trong kho vần không bị xố, điều dó cho phép cung cấp ihởng tin về
một khoàng thời gian dài, cunạ cấp đủ số liệu cấn ihiết cho các mơ hình
na hiệp vụ phân lích, dự báo.

7



1.3. KIẾN TRÚC THAM CHIẾU CỦA MỘT DYVH
Kiến !rúc tham chiếu cua một DYVH cho phép người xây dựng và người
khai thác cỏ cái nhìn tổng quát vế các bộ phận cấu thành nên DYVH.Sau đay là
kiến trúc tham chiếil điển hình

Lớp quán lý dữ liệu
Cầc
nguồn
dữ liệu

Khối tạo
dựng D W

Khối tạo
dựng
Daiamart

Truy
nhập và
sử dụng

Lớp quán lý Metadata
Lớp ch uyển tài dữ liệu
Lớp kết cấu hạ lầng

Trong dó Data Mart ỉà các kho dữ liệu cục bộ và MelaData là siêudữ liêu
nhằm mô tá cấu trúc và nguồn gốc dữ liệu trong D W H
1.3.1. K hối các n g u ồ n d ữ liệu
Bao gồm các phần sau:



Dữ liệu sán phẩm. Đó la dữ liệu được chái lọc từ các phán mềm ứng
dụng và các hệ CSDL tách nghiệp đủ loại.



Dữ liệu kế chừa. Vể cơ bán loại dữ liệu này
phục vụ cho q trình phàn' tính dữ liệu.

có tính lịch sử. Chúng

Mặc khác các phương pháp

khai thác dữ liệu cũng ihường xứ lý trơn các dữ liệu.


Các hệ ihống dữ liệu bên trong.



Các hệ t h ố n 2 dữ liệu bên ngồi,



Hệ qn lý siêu dữ liệu cho khối này.

X


1.3.2. Khối tạo dự ng kho (lữ liệu

Bao g ồm các khối con:
K h ố i con lin h chư: Liên quan tiến việc nànu cao clùil lượng cùa dữ liệu.

Có các chức nâng chính sau dối với các dữ liệu:


Chuẩn hố



Làm sạch



Sàng lọc



Tương hợp



Phàn định thời gian cho các thơng tin nguồn



Cơ c h ế quản lý siêu dữ liệu cho khối con này.

K h ô i c o / 1 íiia cơ)IX la i: Có các chức năng sau:




Tích hợp các dữ liệu khác từ cấc hệ thống để tạo ra dữ liệu mới.



Phân dữ liệu thành ra các loại cho de xử lý.



Tính lốn sơ bộ, lốntĩ hợp và kết xuất dữ liệu theo yêu cáu của người
sử dụng.



Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau,
kết hợp trong cùng m ột dạng.



Biến đổi và gia cơn lĩ lại dữ liệu lưu irừ thành các nguồn cỉữ liệu gốc.



Cơ ch ế quàn lý các siêu dữ liệu.

K h ố i coII D ata W arehouse':




hao gồm cúc chức năng chính sau

Mơ hình hố, lổn« hợp và kết nối mức độ cao các dữ liệu.



Tă ng chấl lượng eiá trị của dữ liệu.



Tạo ra các duníĩ hồ các loại dữ liệu trorm Data War ehouse



Mồ tà các loại cơ sở dữ liệu.



Xây dựng các từ (liến thuật ngữ lác nghiệp...



Vé cơ hán các dử liệu dược xử lý à đây được lấy irực tiếp từ khối các
nguồn ilữ liệu

.


1.3.3. K h ố i tạo d ự n g k ho d ữ liệu cục hộ
Dùriũ đê lạo ra Dalumart từ các nội (.luna của Data Warehouse. Cũng

giống như khối tạo dựng Data Warehouse, trong khối này cũng có những chức
năng như khối Irèn nhưng ilurờng ớ mức cao hơn và có hướníi chủ dể rõ ràng.
Các chức năng chính có trono; khối này là:


Tinh chê và gia cơng lại như khối lạo dựng Dala W arehouse bằng
các phương pháp:
-

Sàng lọc các dữ liệu đã chất lọc từ khối tạo dựng Data Warehouse

-

Tích hợp các dữ liệu vào các ỉĩnh vực có chủ để cụ thể.

~ Tạo ra các dữ liệu tổng hợp...


Kiến

tạo các kho dữ liệu chuyên dùng băng

các phương pháp mỏ

hình hố, tổng hợp, kết nối, dung hồ và ní\ng cao giá trị chẩt lượng
dữ liệu.


Cơ c h ế quan !ý các siêu dữ liệu dùng trong khối này.


1.3.4. K h ố i t r u y n h ậ p và s ử d ụ n g
Khối này bao gồm hai khối con chính là khối con truy nhập và khối con
phân tích và tạo báo cáo.
Khối con 1 có những chức nâng chính sau:


Truy

nhập irực tiếp vào khối tạo dim a Data Warehouse

.



Truy

nhập vào các Datamart.



Gia cơng ỉại và biến đổi dữ liệu ihành các loại dữ liệu có cấu trúc
phức lạp hưn.

Khối con 2 chứa các chức năng chính sau:


Tạo ra các cổng cụ chu ấn đe tạo báo cáo, phàn lích, mị hình hố tác
nghiệp.




Tạo ra các phán mềm trợ iziúp ra quyết định, các phần mềm khai
thác dữ liệu.

10


Cá hai khối con này ctéu có cơ c h ế quán lý sicu dữ liệu của chúng.
Ngoài ra người ta có thể cát ngang một hệ thống DWH Ihành các
lớp,phạm vi các lớp nàyclược xác dinh dựa vào kỹ n ans của đội ngũ cài đặt
n h à m dưa ra được những lựa chọn về sán phàm và dối tấc.Các lớp này bao
gồm :
1.3.5. Lớ p q u ả n lý d ữ liệu
Bản thân kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống
như các hệ quản trị cơ sở dữ liệu tác nghiệp thống thường việc quán lý dữ liệu
đ ó n g một vai trị rất quan trọng, n h í t là khi phải quản lý một khối lượng rất
lớn các dữ liệu lịch sử và hiện tại, với nhiều kiểu loại khác nhau rất phong phú
và đa dạn g dược lưu trữ lĩung nhiều loại hình vật mang thơng tin. Việc quản lý
d ữ liệu này tạo môi trường hoạt dộng cho chính các khối chức năng. Có thể
thấy rằng những chức năng như nhập vào, nạp lại, trích đoạn dữ liệu, tuân thú
an toàn, lưu trữ, khỏi phục dữ liêu có trong Data Warehouse là riliờ lớp quản !ý
d ữ liệu.
Những chức năng chính ở lớp quán Ịý dữ liệu là:
-

Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho
việc tinh chế và gia cơng lại dữ íiệu trong Data Warehouse.

-


G iám sál và đáp ứng các địi hói cho các dữ liệu mới rút từ các
nguồn dữ liệu khác nhau.

-

Báo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại
hoặc cập nhật và làm sạch dữ liệu.

Mặt khác, có thể thấy lớp quán lý dữ liệu sẽ Ihống nhài các phương pháp
quán lý dữ liệu, các tlìú lục, các phép lốn phục vụ cho việc an tồn, phàn
quyển truy nhập, 1ưu trữ và khôi phục dữ liệu. Việc thực hiện các xử lý song
song cấc chất vấn và phục hổi việc sú dụng các xử lý song song cho việc iruy
nhẠp dữ liệu cung được quán lý irons lớp này.
Chúng la có thể thấy lớp quán lý dừ liệu có những chức nũng quản ]ý mới
khác với các chức nàng của hệ quán trị cơ sớ dữ liệu thông thường.


1.3.6. Lóp (ỊUiin íỷ sicu (lữ iiộu
Vì lính da (lạníi của Cite kiếu loại dữ liệu và các phươniĩ pháp quán !ý dữ
liệu mới khác so với các hệ CỊUÚn trị CSDL tác ntỉhiệp, việc s ứ d ụ n a các dữ liệu
dùng dế dịnh rmhìa và xác định các loại dừ liệu, các phươrm pháp xứ lý, các
phương pháp quán lý dữ liêu, các biếu báng... trong kho dữ liệu tăng lên rất
lớn, cho nên phái tính đến việc quán lý dữ liệu này. Vì thế trong kho dữ liệu
phái hình thành lớp quan lý siêu dữ liệu phục vụ cho công việc lưu irữ, xử lý
các dữ liệu này.
Trong việc thiết k ế các kho dữ liệu, các siêu dữ liệu thể hiện ớ khắp nơi.
Các nguồn dữ liệu dược dặc trims bởi định nghĩa của các dữ liệu nhập vào.
Việc bổ xung các nhãn ihời gian đòi hỏi phải định nghĩa các nhãn thời gian
dùng trong siêu dữ liệu... Lớp quan lý siêu dữ liệu cũng quan lý các dữ liêu
mơ tả đầy dủ và hồn chính các dữ liệu được Um trữ trong DW.

Các chức năng chính của Ịớp này là sao chép, tạo mới, lưu trữ, phục hồi,
làm sạch và cập nhật các siêu dữ liệu sau dày:


Các mơ hình dữ liệu vật lý, logic của Data Warehouse và Datarnart;
Các sơ đổ iương ứng cũng như các hàng chú giái về kỷ thuật, nghiệp
vụ ctirợc lưu và qn lý troníĩ dó.



Các định nghĩa dữ liệu chuán (bao gổm ca định nghĩa kỹ thuật và
miêu úi nghiệp vụ) của các dữ liệu lưu trữ trong DW.



Các siêu dữ

liệ u

được báo quan và lạo ru Irong các khối linh chế và

gia cơng lại.


Các siêu dừ liệu có trong các q trình phàn {loạn, kếi nối . tổng
hợp,...



Các siêu dữ liệu (ỉế mỏ lá các báo cáo và cấc cáu hỏi/tru cứu.




Các siêu dữ liệu mị tá các chi số, các chú giái dùne dế truy nhập dữ

liệu.


Các siêu dữ liệu mỏ tá các ỈLiật xác định ihời aian sao chép, cập nhậl
và nạp lại dữ liệu...

i:


1.3.7. Lớp chuyên tài dữ liệu
Nhiêm vụ chuyến tái dữ liệu giữa các khối (lo lớp này thực hiện. Lớp nay
sử dụng các chức lúíim cập nhật, sao chép, chuyên lái dữ liệu và cấc hệ thống
mạng, các phán mềm lớp Iruim gian (Middleware tools), báo đà m tính an toàn
vù phân quyền cho các nhu cầu chuyến tái dữ liệu.
Lớp chuyển lái xác định các cầu nối ưưyền thôn Li cần thiết giữa các trang
Ihiết bị phấn cứng và phần mểm của Data Warehouse.
Lớp này có thành phần chuyến tải cỉữ liệu và m ạ n s bao gồm các loại hệ
thống sau:


Các giao tác mạng như TCP/IP (Đó là các quy định chung cho irao
đổi dữ liệu).




Các cơ ch ế quản lý mạng: Ví dụ như IBM Net View, Sun s o f t ’Sunnet

manager


Các hệ diều hành mạng.



Các ỉoại mạng ví dụ Ethernet, Tokenring...

Lớp này chứa các loại thiết bị SLiu:


Các cổng kết nối cơ sớ dữ liệu (Database gateways), các Ihiết bị
ch uy ển lải giữa các giao thức.



Các phần m ềm lớp trung gian hướng thịng háo (Message oriented
Middleware) ví dụ như



IBM MOSeries.

Các hệ sao chép và truyền bá như hệ [BM truyền

bá đữ liệu quan


hệ.

Các yêu cáu về an toàn (lữ liệu và phủn quyền iruy nhập cũng được thực
hiện ứ Ironu lớp này.


1.3.8. Lớp kết cáu hạ táng
Bao 1'ồ m các Ihành phẩn sau:
T hành phấn

LỊ min

lý các hệ ihốns: cung cấp các khá năng tìm kiếm, quán

lý và xác định các phấn m ềm chuẩn và các phấn mồm ứne dụng cho nỵười
thiết k ế hệ thốn« và người sử dụng niĩhiệp vụ.
T hành phíìn thứ hai của lớp này sẽ trợ giúp cho

Lị LI á

trình tích hợp, qn

lý các phần mém chuán, các phần mồm ứng dụng và hoạt dộng khác để sao
chép, cập nhật, kết nối, lổng hựp dữ liệu..trone các khối tạo dựng Data
W ar eh ouse và Datamart nhằm nâng cao hiệu quà và năng suất làm việc cho
người thiết kế hệ ihống và xử dụng nghiệp vụ.
Thành phán tiếp theo phục vụ cho cổng việc lưu Irữ. Th ành phần này
cững cung cấp các dịch vụ quan lý cho khối các nguồn dữ liệu, các khối tạo
dựng Data Warehouse và Datamart, cấc lưu trừ cục bộ và nhiều chiểu cho khối
truy nhập và sử dụng.

Th ành phẩn cuối cùng của lớp này bao gồm các hệ thống xử lý. Chúng
tạo ra các môi trường làm việc cho các khối chính như: Các nguồn dữ liệu, tạo
dựng Data Warehouse, tạo dựng Datamart. Ngoài ra, [ớp kết cấu hạ tầng còn
bao gồm các hệ Ihống sau:
Các hệ quán lý cấu hình trang thiết bị.
Các hệ quàn lý việc lưu trữ
Các hệ quán lý an loàn dữ liệu
Các hộ quản lý phân phối cúc phán mém
Các hệ quán lý các liccnce


CÁC DVVH TRONG MỘT số LÌNH v ự c

1.4.

Trong thời kỳ dầu (.lịnh nghĩa DWH lương dối đơn uiãn. Đến hiện nav
DVVH vấn được hiếu là lập hợp
-

Hướng dối urợnsi.

-

Tích hựp.

-

Tha y dổi theo thời gian.


-

Lưu trữ hiu dài.

Nhiệm vụ chính của DW H là phục vụ cho các hệ hỗ irợ quyết định. Các
dữ liệu cơ sớ irong D W H có thể được biếu diễn dưới vài khuỏn dạn g khác
nhau nhằm đáp ứng khơng chí các câu hỏi cho trước mà cho cá các câu hỏi
chưa xác định.
D W H có kích thước ml lớn vì nó chứa tồn bộ dừ liệu lịch sử. Chính vì lý
do kích thước, dử liệu trong DW dược phán chia làm hai loại: tích cực và
khơng tích cựe.DVVỊ I chứa các dữ liệu tích hựp ớ nhiều mức.
M ứ c ỉìiỊttỵên tử (m ức ỉ hấp n ỉìẩỉ) chứa cốt lõi căn bàn nhất và là một

snapshot (dữ liệu được ghi lại ở một thời điếm) đúng lúc của dữ liệu. Dữ liệu
được tống kếl theo các giai đoạn thời gian như theo từng giờ, theo nửa ngày,
theo ngày hoặc Iheo lừng tuần. Mức theo (ừng giờ là xứ lý phức tạp nhất.
M ứ c ỉd/ìiị th ế thấp: Thơng lin dược tổng kết lại là các thông tin được lốm

lái và kêì hợp lại chơ một mục đích kinh doanh cụ ihế. Điển hình là dữ liệu
được tổng kết theo thời gian như íheo ngày, tuần, 2 luẩn hoặc một tháng.
M ứ c toiìíỊ ỉìiâ ca o : Thơn lì Ún (.lược tổng kêl lại ớ mức cao là những thơng

1ìn được lỏm lát và kết hợp theo mội lý đo nào dó rấỉ .cụ thể. Điển hình là dữ
liệu dược lổn í» kết sau mội thời Siian dài ví dụ như hàn.» ihán.ỉỉ, hàng quí hoặc
hàng năm.
Các dữ liệu này được xử lý một cách thôn 12 nhấi trong DW H dể phục vụ
cho quá trình khai thác san này.
C ác dặc Lính này là chung cho mọi DVVH.Troniỉ ý nviliĩa đó, mọi DWH
tiếu cỏ cấu Irúc như nhau. Tuy vậy các DVVỊ-Ị iron lĩ các lình vực khác nhau
(leu có các dặc (liếm riịnii.Chúnii la có Ilie xem XĨI mội vài loại liêu biếu



1.4.1. DYVH trong lĩnh vực tài chính.
Đây là những DW được xúy dựng sớm nhất hỡi lẩm quan trọng của nó.
Nguy ên nhàn của điéu này là:
-

D ữ liệu tài chính ln có tầm quan trọng sống cịn trong một tổ
chức. Chính vì vậy việc khai thác dữ liệu này dưới nhiều khía cạnh
khác nhau ln là một vấn đề hấp dẫn.

- Dữ liệu tài chính có mức ổn định cao.
- Dữ liêu tài chính liên quan đến mọi lĩnh vực hoạt

động của cơng ty

và có độ đo (ương đối rõ ràng (các đơn vị liền tệ).
- Các dữ liệu về tài chính về bản chất đã được phân

loại theo cấu trúc

tài khoản, điều này ành hưởng trực tiếp lên quá trình xử lý và khai
ihác dữ liệu.
Các nguy ên nhAn kê’ trên trở thành một lý do chính để xAy dựng các
D W H phục vụ công tác phán tích hoạt động tài chính. Tuy nhiên xây dựng các
D W H từ các dữ liệu tài chính có những khó khàn rất đáng kể, đạc ihù cho
những dữ liệu loại này. Điều đầu tiên là người ta thường yêu cáu clữìiệu trong
D W H phải chính xác tuyệt đối với các dữ liệu từ các nguổn OLTP. Điều này
rõ ràng là khơng tưởng vì dữ liệu từ O L T P phải qua q trình chuyển đổi và có
thổ thay đổi các độ đo theo yêu cáu của DWH. Các thay đổi này có thể rơi vào

một số trường hợp như sau:
-

Thay đổi chu trình thu thạp dữ liệu (Theo u cáu phân tích dữ liệu,
q trình thu thập khơng chí trong mội tháng mà theo các tiêu chí
phục vụ q trình phùn tích,ví dụ theo năm tài chính).

-

C ác dữ liệu có thế được nhóm theo các tiêu chí khác nhau, khơns
nhất thiết phủi giống các háo cáo lài chính.

-

Các dữ liệu được phAn chia theo các tiêu chí khác nhau, theo các ctơn
vị đo khác nhau (VND,USD...) đặc biệt là các đơn vị tiền tệ thay dổi
trong nhiều hộ thống O L TP và DWH.

Đ ày Ịà những lý do chú yếu khiến cho tiữ liệu trong các DW H tài chính
khác với các hệ xử lý iĩiao dịch. ĐAy là đặc điểm m ấu chốt cán làm rõ trong
quá Iiinb xây Ilụn lĩ DW H.




1.4.2. DYVH trong fililí vực bao hiểm.
Các D W H phục vụ bảo hiếm có vài nét khác biệt so với các hệ thống
khác. Điểm khác biệt đầu tiên nằm ở chồ dữ liệu trong lĩnh vực này được lưu
trữ trong một thời gian râì dài. Hồn tồn lự nhiên nếu chúng ta cần phùn tích
các dữ liệu báo hiểm trong vòng 50 năm hoặc 100 nãrn. Vấn dể cần giai quyết

là đưa những dữ liệu có nguồn gỗc rấi xa xưa đó (khi chưa tổn tại các hệ thống
máy tính) vào hẹ ihống DWH.
Vấn đề Ihứ hai là sự đa dạng của dữ liệu. Các hệ thống bảo hiểm có mức
độ phong phú về dữ liệu hơn hần các hệ thống khác do bản chất bảo hiểm bao
trùm mọi lĩnh vực hoạt động xã hội. Việc chuẩn hoá cấc đơn vị là vấn đề cần
giải quyết khi xây dựng DWH.
Một vấn để nữa cần giải quyết là chu trình dữ liệu trong các hệ thống bảo
hiểm hồn lồn khóc với các hệ thống mà chúng la thường làm quen. Trong
lĩnh vực bảo hiểm có thể có những yêu cầu bảo hiểm cần thiết thực hiện sau 5
năm hoặc sau một thời gian thố thuận nào đó. Có thể nói rằng tốc độ biến
dổi đặc trung cho báo hiểm sẽ khác với tốc độ đặc trimg cho các lĩnh vực
khác.
Sự khác biệt tốc độ dược phản ánh trong DYVH.Trong các D W H khác các
giao dịch đơn giản được go m góp lại và xử lý. Trong lĩnh vực bao hiểm giao
dịch có thể được tích luỹ với thời hạn khơng xác định, các thành phán khác
nhau của nó được thể hiện trong DWH. Kết quá dó là sự tiếp cận hoàn toàn
dạc biệt với sự thiết kế và ứng dụng các DW H như vậy.

L.4.3. DYVH tronịỊ lĩnh vực điều khicn nguồn nhân lực.
DWH dùng điều khiến nguồn nhân lực có những khác biệt rất cơ bán
với DW H khác . Thứ nhất là số lưựng các lình vực đối tượng. DYVH này chỉ có
một đối tượng tối quan trọng là cơng nhân, tất cá những cỉiéu cịn lại chí là thứ
yếu. Trong khi đố,phẩn lớn các DWH khác có nhiều đối tượng cơ sở.
Tuy nhiên, sự khác biệt cơ bãn của D W H dùng cho quán lý nguồn nhân
lực là ớ chỗ các D W H đó SỪ dụng râì ít giao dịch. Có dữ liệu thể hiện đối
tưựng là cơng nhủn, có dữ liệu thế hiện khi có người thơi việc, những bố sung
phát triển hàng năm. Nhưng ngoài quỹ tiền lưưnu và một vài yếu tố liên quan
đến công nhân khác, thực tế trong D W H đó chán« cịn gì hơn. So sánh mỏi
(rường quàn lv nhàn lực với mỏi trường ngàn hàng chẳng hạn sự khác biệt về


số lượng íỊÍao dịch rã! rõ rà nu.

17


Sự kh ác biệt VC tốc độ giao dịch giữa mỏi irườnỉỉ trên với những mòi
Irường hoạt động khác là nguyên nhân xuất hiện sự phức tạp nhất ctịnh, đó là
trong lĩnh vực quán lý

iiũ U ồn

nhân lực có xu hướim đua việc dieu chính lực

lượng lao dộng chân tay và những nhàn lực trong hệ thống tiếp nhận quyci
định vào một môi trường thống nhất. T r o n s các lĩnh vực khác việc thực hiện
những chỉnh lý kiến trúc như vậy rất ít.
1.4.4. DYVH diện r ộ n g
D W H diện rộng dược sứ dụng cho việc mị là bao qt các tập đồn lớn.
P hâ n biệt 3 loại D W H :
-

X ử ỉý dữ liệu theo cấu trúc địa lý: Ví dụ: cần thiết phải tích hợp các
hoạt động kinh doanh tại Hồng cơng với những hoạt động kinh
doanh tại Paris, mà nó đến lượt mình lại cần tích hợp với Rio de
Janero, và thành phố này lại tích hợp với Nevv-yok.

-

X ử lý dữ liệu theo chức năng: hoạt động san xuất cần được tích hợp
với các hoạt đ ộ n " cung ứng, hoạt động này lại tích hợp với kinh

doanh, và cơng việc này đến lượt minh lại cần tích hợp với các hoạt
đồng nghiên cứu ..V ..V .

-

X ử lý dữ liệu iheo lĩnh vực: Ví dụ tích hợp lĩnh vực dược phám, mà
nó lại nằm trong việc tích hợp với việc kinh doanh các thiết bị y lế,
lĩnh vực này lại liên quan đến cung ứng theo các chuyên nghành ..

Đ iều đặc biệt của D W H diện rộng là ờ chỗ ớ mức độ tổng thể có rất ít
điểm ch ung. Điéu chung duy nhất là tiền. Và sự tích hợp việc kinh doanh chí
đạt dược với sự trợ giúp của nó. Những điểu khác có Ihể có hoậc khơng có ý
nghĩa trên mức độ tổng thể. Ví như khách hàng, sán phấm, người cung cấp,
tất cá các yếu tố này cổ thể có mạt hoặc khơng ớ mịi trường (ích hợp diện
rộng đó là các DWH diện rộng.

IX


Nếu như trong các DWH khác sự thay đối các dữ liệu cơ sớ xáy ra 1'âì ít
ihì với d ạ n " DW H này xảy ra thường xuyên và thậm chí lận gốc rỗ. Ví dụ vào
thời điểm bất kỳ nào đó có thể tìm thấy giếne dầu mới, ví dụ tại Vênèxucla.
Mội phút sau đó ớ Peru lại xúy ra cuộc cách mạng. Và những diều đó ánh
hướng tới OPEC. Hoặc ở Mexico hệ thốn" luật pháp bị thay dối

..V..V .

Nếu

như xét trên phương diện tổng thế thì những thay đối đó mang tính chất

thường xun. Vì vậy cấu trúc và công nghệ được áp dụng cho D W H dạng
diện rộng cần cho phép đáp ứng các thay đối liên tục này.
1.4.5. D W H với tí n h n â n g D a t a m i n i n g
D W H với công nghệ Data mining (khai phá dữ liệu) là các biến thể của
các D W H truyền thông. Những D W H này sử dụng dể thực hiện các hiệu chỉnh
các dừ liệu thống kê lớn. Những đặc điểm của D W H loại này là :
-

Rất chi tiết

-

Có quan hệ lịch sử sâu xa

-

Được thiết kế tối ƯU để phàn tích Ihống kê

Ngồi ra các D W H này cịn định hướng tới một dự án nào dó. Điều dó có
nghĩa là khác với các D W H khác nó được sử dụng ngay lộp tức đế thực hiện
các phân tích cán thiết cho dự án.
Một khác biệt quan trọng nữa cúa D W H với công nghệ Data mining là
chúng rất thường xuyên [fl'y thêm các dữ liệu bên ngồi. Những dữ liệu đó rất
có ích xét theo quan điểm đám bảo liềm năng kinh doanh mà (tiều này rất khó
nếu thiếu thiếu các dữ liệu mới nhất.
1.4.6. D W H t r o n g lĩnh vực viễn t h ô n g
Điều đặc biệi của các DW H ớ chỗ chúng được xây đựng phục vụ nhu cáu
phíìn tích. Tất nhiên trong lình vực viễn ihổng có rất nhiều dạng dữ liệu khác
nhau. Nhung chúng đều dược xác định ớ mức độ rất lớn bời cấc chi liờỡ mc
ụ cuc ôoi.

ô-<ã ã


Có nhiều phương pháp lưu trữ chi tiết ớ mức cuộc gọi:


Lưu trữ chi tiết trong một vài tháng;



Lưu trữ nhiều chi tiết trên những phương liện lưu trữ khác nhau;



L

Rất

ưu

trữ chỉ những chi liết chọn lọc

.V..V.

tiếc, tuy có nhiều phương pháp xứ lý khác nhau nhưng đối với dạng

DYVH này chí xử lý trên các chi tiết ở mức độ cuộc gọi,rất ít các dữ liệu tổng
hợp ho ặc tích hợp.
Như vậy, chúng ta đã xem xét những khác biệt chính của các dạng DWH
khác nhau.



D ữ liêu của D W H tài chính - (hường được thiết lập trước tiên và
k hơng có sự chính xác tuyệt dối với các thơng tin trong mơi trường
tài chính đặc dụng.



D W H trong lĩnh vực bảo hiểm với sự giống nhau rất ít với các DWH
khác: thời gian tồn tại của những DW H này, những dữ liệu khác biệt
và thời gian của các chu kỳ kinh tế.



D W H dể quán lý nguồn nhân lực khác với các D W H khác ,với
ch úng đặc tnm g là chí có một lĩnh vực đối tượng cư bản duy nhất.



D W H với các chức nang Data mining, chúng được sử dụng để thực
hiện việc xử lý những dư liệu thống kê rấi lớn, là biến thể của những
D W H truyền ihốns.



Điều khác biệt cùa DWH trong lĩnh vực viễn thông là ở chồ chúng
dược xác định ớ mức (!ộ rất lớn bời các dữ liệu chi tiết với tính lổng
qt thấp.

Và tất nhicn, ngồi những D W H này cịn có các dạng DVVH khác. Mỗi

một dạng mang những nét khác biệt riêng.Naười triển khai một hệ thống
DYVH phái xem xét các yếu tố đạc thù này dế báo đ âm việc xử dụng hệ thống
có hiệu qua.

20


CHƯƠNG 2.
CẤU TRÚC KHO DỮ LIỆU VẦ MÔ HỈNH DỮ LIỆU.

Chương này sẽ trình bầy về cấu trúc và các cách lựa chọn dế tiến hành
xây dựng kho dữ liệu. Một thuật ngữ sẽ thường xuyên dược xử dụng là data
m art. Datamarts hiểu một cách dơn giản là các kho cỉữ liệu nhó hơn có chức

năng độc lạp hoặc có thể kết nối với nhau để tạo thành một kho dữ liệu lích
hợp tổng thế

M ặc dù khơng phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc
cho kho d ữ liệu trước khi bát đẩu tiến hành. Cấu trúc cũng có thể được quyết
định hoặc sửa đổi sau khi bắt đầu tiến hành. Tuy nhiên, nếu chậm trễ hơn thì
cũng có nghĩa là làm tăng khá năng phải làm lại. Việc lựa chọn đúng cấu trúc
là một quy ết dịnh có tính chất qn lý diều hành dựa trèn các nhân tố như cơ
sờ hạ tầng hiện tại, mỏi trường kinh doanh, cấu trúc quản lý và điều hành
mong muốn, cam kết và phạm vi thực hiện, năng lực môi trường kỹ thuật mà
tổ chức dùng, và các nguồn sẩn có.

Lựa chọn phương pháp thực hiện cũng là yếu tố quyết định và có tác
động ỉớn tới sự thành công của việc xây dựng kho dữ liệu.Sự lựa chọn này tác
dộng tới thời gian hoàn thành, hoàn vốn dầu lơ, tốc tlộ thu lợi nhuận, mức độ
hài lòng của người sử dụng, khá năng phai liến hành lại công việc, các yêu càu

về nguồn cán vào bâì cứ ihời điếm nào, và cấu trúc kho dữ liệu được lựu chọn.


2.1. CÁC CHON LỰA VỂ CẤU TRÚC
Việc lựa chọn cấu irúc sẽ quyết định, hoặc dược quyết định tụi những nơi
tạp trung các kho dữ liệu và các data marts và ớ những nơi tập trung sự quản
lý. Ví dụ như, dữ liệu có thể tập trung ở phần tru n s tâm có sự quan \ý trung
tâm. Hoặc, dữ liệu có thể phân bố ở các nơi và/hoặc các nơi xa trung tâm mà
có sự quán lý cứa trung tủm hoác quan [ý độc lập.
Việc lựa chọn cấu trúc ở đay có thể là tổng thể, dộc lập, kết nối với nhau
hoặc tà sự kết hợp của củ ba yếu tố. Việc lựa chọn dế thực hiện được cồn nhác
lới là từ trên xuống dưới, từ dưới lên hoặc kết hợp cả hai. Các lựa chọn cấu
trúc và lựa chọn phương pháp thực hiện cũng có thế được sử dụ ng kết hợp. Ví
dụ, cấu trúc kho dữ iiệu có thể phàn bổ về mặt vật lý, nhưng được quản lý tập
trung và được thực hiện

Lừ

dưới lên bất đẩu với các data marts chun phụ

trách cho từng nhóm, phịng ban, lĩnh vực kinh doanh riêng biệt.
2.1.1. C ấ u t r ú c k h o d ữ ỉ i ệ u t ổng t h ể
Cấu trúc kho dữ liệu lổng thể dược trình bẩy ờ dây là một cấu trúc hỗ trợ
cho tất cả, hoặc một phẩn lớn của một Tổng Cơng ty có nhu cổu về một kho
dữ liệu tích hợp đáy đủ với mức độ truy nhập cao và được sử dụng xuyên suốt
các ban ngành hoặc ngành nghề kinh doanh. Có nghĩa là, nó được thiết kế và
xAy đựng dựa trên các nhu càu của tồn bơ doanh nghiệp. Nó cũng có thể
dược coi như là một kho chứa chung cho các dữ liệu hỗ trợ quyết định ln có
sán và xun suốt tồn doanh nghiệp hoặc phán lớn doanh nghiệp.
Có một sự nhầm lẩn về khái niệm hay xảy m là kho dữ liệu lống thể ctược

tập trung hóa. Thuật ngừ tống thế được sử dụng ở dày đế phán ánh về phạm vi
truy cập và sử dụng số liệu, chứ không phái là vể cấu trúc vật lý. Kho dữ liệu
tổng thế có thế được tập trung hóa vé mặt vật lý hoặc được phàn bố xuyên suốt
lố chức do an h nghiệp. Một kho dữ tiệu tập trung tống thể về mặt vật lý sẽ
dược một doanh nghiệp mà toàn bộ doanh nghiệp dó chí đổng trên một địa
bàn ihống nhất sử dựng và được một hộ phận gọi ià Phòng Hệ thống thông tin
(ỈS Department; quán lý. Một Kho dữ liệu phiìn bơ' tóng thế cũng có thể được
một doanh nghiệp llìống nhất dùng, nhưng nó sẽ phủn bố dữ liệu chông qua
các địa điếm vật lý khác nhau trong doanh nghiệp và được Phịng Hệ thống
thơng tin (IS Department) quàn lý.


×