ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNGKHO DỮ LIỆU VÀ HỆ THỐNG HỖ
TRỢ RA QUYẾT ĐỊNHTẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT
TRIỂN NÔNG THÔN VIỆT NAM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
LÊ MẠNH TUẤN
NGHIÊN CỨU BÀI TOÁN XÂY DỰNGKHO DỮ LIỆU VÀ HỆ THỐNG
HỖ TRỢ RA QUYẾT ĐỊNHTẠI NGÂN HÀNG NÔNG NGHIỆP
VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã số: Chuyên ngành đào tạo thí điểm
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:PGS. TS Nguyễn Đình Hóa
Hà Nội - 2015
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết luận được đưa ra trong luận văn là trung thực,
có nguồn gốc rõ ràng.
Tác giả luận văn
Lê Mạnh Tuấn
LỜI CẢM ƠN
Để hoàn thành được hoàn thành được công trình nghiên cứu này, ngoài sự nô
lực của bản thân, tác giả còn nhận được sự giúp đỡ rất lớn từ PGS.TS Nguyễn Đình
Hóa, người đã luôn quan tâm, trách nhiệm và nhiệt tình hướng dẫn, giúp đỡ, động viên
tác giả trong quá trình thực hiện nghiên cứu của mình. Tác giả xin gửi lời cảm ơn chân
thành tới PGS.TS Nguyễn Đình Hóa.
Tác giả cũng xin trân trọng cảm ơn các thầy, cô trong Viện Cộng nghệ thông tin
– Đại học Quốc Gia Hà Nội, các bạn đồng nghiệp, lãnh đạo và cán bộ nhân viên Ngân
hàng Nông nghiệp và phát triển Nông thôn Việt Nam và các bạn lớp Cao học CIO2 đã
giúp đỡ tác giả trong suốt thời gian học tập và nghiên cứu luận văn của mình.
Để đạt được những kết quả nghiên cứu tốt hơn trong tương lai, tác giả rất mong
tiếp tục nhận được sự hướng dẫn, giúp đỡ của các nhà chuyên môn, của các thầy cô
trong Viện Công nghệ thông tin – Đại học Quốc Gia Hà Nội về phương pháp luận,
cách thức tiếp cận khoa học và hợp lý.
Tác giả luận văn
Lê Mạnh Tuấn
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT.................................................................8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.....................................................................................8
DANH MỤC CÁC BẢNG, BIỂU..............................................................................................9
PHẦN MỞ ĐẦU.........................................................................................................................1
CHƯƠNG I. GIỚI THIỆU VỀ DW&BI....................................................................................3
1.1. Các khái niệm cơ bản..........................................................................................3
1.1.1. Data Warehouse và BI là gì?.........................................................................3
1.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI.............................4
1.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS..........................................4
1.2.
Các phương pháp luận xây dựng hệ thống DW&BI....................................5
1.2.1. Phương pháp luận Top-down........................................................................6
1.2.2. Phương pháp luận Bottom-up.......................................................................6
1.2.3. Phương pháp luận Spiral...............................................................................6
1.2.4. Ưu/Nhược điểm của từng phương pháp........................................................7
1.2.5. Cơ sở lựa chọn phương pháp luận................................................................8
1.3. Thiết kế logic một hệ thống DW&BI..................................................................8
1.3.1. Phạm vi công việc và phương pháp thực hiện..............................................8
1.3.2. Thiết kế tổng thể...........................................................................................9
1.4. Thiết kế chi tiết từng thành phần.......................................................................11
1.4.1. Thiết kế Data Warehouse (Kho dữ liệu tập trung)......................................11
1.4.2. Thiết kế metadata........................................................................................19
1.4.3. Thiết kế tầng khai thác và phân tích thông tin............................................20
CHƯƠNG II. BÀI TOÁN ĐẦU TƯ PHÁT TRIỂN HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM..........22
2.1. Bối cảnh xây dựng dự án...................................................................................22
2.1.1. Xu hướng xây dựng DW&BI......................................................................22
2.1.2. Hiện trạng hệ thống CNTT tại Ngân hàng Nông nghiệp.............................22
2.2. Đánh giá về hệ thống báo cáo (MIS) hiện tại....................................................24
2.3. Sự cần thiết phải đầu tư.....................................................................................24
2.3. Mục tiêu đầu tư.................................................................................................25
2.3.1. Mục tiêu chung...........................................................................................25
2.3.2. Mục tiêu cụ thể...........................................................................................25
2.4. Yêu cầu năng lực sợ bộ của hệ thống................................................................26
2.5. Yêu cầu về các thiết bị phần cứng.....................................................................27
2.6. Quan điểm thực hiện dự án...............................................................................27
2.7. Dự kiến quy mô đầu tư......................................................................................28
2.8. Thiết kế sơ bộ....................................................................................................28
2.8.1. Mô hình tổng thể........................................................................................28
2.8.2. Thiết kế mô hình vật lý của hệ thống..........................................................31
2.8.3. Giải pháp tích hợp hệ thống........................................................................31
2.8.4. Giải pháp đồng bộ dữ liệu...........................................................................32
CHƯƠNG III. ĐỀ XUẤT DỰ ÁN XÂY DỰNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ
RA QUYẾT ĐỊNH....................................................................................................................33
3.1. Căn cứ lựa chọn giải pháp xây dựng DW&BI...................................................33
3.2. Phân tích lựa chọn giải pháp.............................................................................33
3.2.1. Giải pháp DW&BI của IBM.......................................................................34
3.2.2. Giải pháp DW&BI của Oracle....................................................................36
3.2.3. Giải pháp DW&BI của SAP.......................................................................38
3.2.4. Đánh giá về tính năng của ba giải pháp......................................................44
3.3. Giải pháp được lựa chọn...................................................................................45
3.4. Dự trù kinh phí và nguồn vốn đầu tư.................................................................46
3.4.1. Căn cứ lập tổng mức đầu tư........................................................................46
3.4..2. Chi phí mua sắm và triển khai...................................................................46
3.4.3. Các chi phí quản lý.....................................................................................47
3.4.4. Chi phí dự phòng........................................................................................47
3.4.5. Tổng mức đầu tư.........................................................................................47
KẾT LUẬN...............................................................................................................................48
TÀI LIỆU THAM KHẢO.........................................................................................................49
PHỤ LỤC..................................................................................................................................50
PHỤ LỤC 1: Danh sách báo cáo Phân theo nghiệp vụ tại NHNo............................50
PHỤ LỤC 2: Bảng đánh giá yêu cầu chức năng đối với người sử dụng cuối...........52
PHỤ LỤC 3: Bảng đánh giá yêu cầu chức năng đối với người quản trị và vận hành
................................................................................................................................. 54
PHỤ LỤC 4: Bảng đánh giá yêu cầu chức năng đối với người phát triển/ xây dựng
và triển khai.............................................................................................................. 56
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
T
T
Từ, Cụm từ
1
BOE
2
3
CNTT
CSDL
4
DSS
5
DW&BI
6
ETL
7
IBM
7
NHNo
8
OLTP
9
ORACLE
11
SAP
Nội dung
Ghi chú
Sản phẩm BI của SAP - Business Object
Enterprise
Công nghệ thông tin
Cơ sở dữ liệu
Hệ thống hô trợ quyết định (Decision Support
System)
Data warehouse & Business Intelligence
Thu thập, làm sạch và tích hợp dữ liệu (Extraction
– Transformation - Loading)
Công tyInternational Business Machines
Ngân hàng Nông nghiệp và phát triển Nông thôn
Việt Nam
Hệ thống xử lý giao dịch trực tuyến (OnLine
Transaction Processing)
Công ty Oracle
Công ty phần mềm đa quốc gia Đức (Systems
Applications and Products)
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Tên Hình
Hình 1.1: Vai trò của DW&BI
Hình 1.2: Các thành phần chính của DW&BI
Hình 1.3: Các phương pháp luận xây dựng DW&BI
Hình 1.4: Mô hình logic tổng thể hệ thống DW&BI
Hình 1.5: Star Schema (CSDL hình sao)
Hình 1.6: Snowflake Schema (CSDL hình bông tuyết)
Hình 1.7: Ví dụ về Data Mart
Hình 1.8: Ví dụ về Enterprise Model
Hình 2.1: Mô hình báo cáo hiện tại của Ngân hàng Nông nghiệp
Hình 2.2: thông tin theo đối tượng người sử dụng
Hình 2.3: Mô hình thiết kế tổng thể hệ thống DW&BI
Hình 2.4: Thiết kế mô hình vật lý hệ thống DW&BI
Trang
12
13
15
19
21
21
25
26
32
34
38
39
DANH MỤC CÁC BẢNG, BIỂU
Tên Bảng
Bảng 1.1: Phân biệt giữa hệ thống OLTP và DSS
Bảng 1.2: Ưu nhược điểm của các phương pháp xây dựng DW&BI
Bảng 2.1: Danh sách các ứng dụng hiện tại của Ngân hàng Nông nghiệp
Bảng 2.2: Yêu cầu phần cứng tối thiều
Bảng 3.1: Chi phí trang thiết bị phần cứng của giải pháp IBM
Bảng 3.2: Chi phí phần mềm tiêu chuẩn của giải pháp IBM
Bảng 3.3: Chi phí đào tạo và triển khai của giải pháp IBM
Bảng 3.4: Tổng chi phí của giải pháp IBM
Bảng 3.5: Chi phí trang thiết bị phần cứng của giải pháp Oracle
Bảng 3.6: Chi phí phần mềm tiêu chuẩn của giải pháp Oracle
Bảng 3.7: Chi phí đào tạo và triển khai của giải pháp Oracle
Bảng 3.8: Tổng chi phí của giải pháp Oracle
Bảng 3.9: Chi phí trang thiết bị phần cứng của giải pháp SAP
Bảng 3.10: Chi phí phần mềm tiêu chuẩn của giải pháp SAP
Bảng 3.11: Chi phí đào tạo và triển khai của giải pháp SAP
Bảng 3.12: Tổng chi phí của giải pháp SAP
Bảng 3.13: Đánh giá tính năng của ba giải pháp
Bảng 3.14: So sánh tổng điểm của ba giải pháp
Bảng 3.15: So sánh tổng chi phí của ba giải pháp
Bảng 3.16: Dự trù tổng chi phí mua sắm và triển khai
Bảng 3.17: Dự trù tổng mức đầu tư
Trang
14
16
31
36
43
43
44
44
45
45
46
46
49
51
52
52
53
53
54
54
55
1
PHẦN MỞ ĐẦU
Cơ sở khoa học và thực tiễn của đề tài
Trong nền kinh tế hiện nay, thông tin là yếu tố sống còn đối với bất kỳ doanh
nghiệpnào.Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định các chiến
lược kinhdoanh cho mình một cách chính xác
Trong những năm gần đây, công nghệ kho dữ liệu ra đời đáp ứng được nhu cầu
quản lý, lưu trữ thông tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều
và theo chiều sâu nhằm hô trợ việc ra quyết định của các nhà quản lý.
Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng
lớn. Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu
đểcung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh
trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh
doanh có chất lượng cao và ổn định.
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý
phân tíchdữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến
lược kinhdoanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu.
Tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam (NHNo) việc
xây dựng kho dữ liệu và hệ thống hô trợ ra quyết định là rất cần thiết. Kho dữ liệu sẽ
thu thập dữ liệu từ hệ thống nghiệp vụ, cung cấp các thông tin hữu ích cho các nhà
quản lý có thể có những thông tin chính xác, nhanh chóng, hô trợ cho việc ra các quyết
định kịp thời và có lợi nhất cho hoạt động tín dụng của NHNo. Ngoài ra, kho dữ liệu
còn hô trợ trong công việc quản trị rủi ro tín dụng – một vấn đề hết sức quan trọng
trong bối cảnh khó khăn hiện tại của các ngân hàng.
Xuất phát từ nhu cầu thực tế tại NHNo,luận văn nghiên cứu bài toán xây dựng
kho dữ liệu và hệ thống hô trợ ra quyết định (DW&BI) tại Ngân hàng Nông nghiệp và
phát triển Nông thôn Việt Nam, với mong muốn đưa ra một dự án khả thi nhằm xây
dựng kho dữ liệu hoàn chỉnh hô trợ cho việc quản lý và ra quyết định tại NHNo.
Mục tiêu đề tài
Xây dựng dự án khả thi để triển khai kho dữ liệu và hệ thống hô trợ ra quyết
định đáp ứng các yêu cầu nghiệp vụ thông minh tại NHNo.
Phạm vi và đối tượng của đề tài:
-
Đối tượng nghiên cứu: Kho dữ liệu và hệ thống hô trợ ra quyết định cho hoạt
động nghiệp vụ ngân hàng tại NHNo.
-
Phạm vi áp dụng: đề tài được áp dụng tại NHNo.
Kết quả của đề tài
2
Một nghiên cứu dự án khả thi xây dựng Kho dữ liệu và hệ thống hô trợ ra quyết
định tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam, trình bày đầy đủ
cơ sở phương pháp luận, lựa chọn giải pháp, các bước xây dựng, thiết kế hệ thống
DW&BI cũng như tổng mức đầu tư cho dự án.
Kết cấu của đề tài
Đề tài được kết cấu gồm 3 phần (chương) chính trong đó:
Phần mở đầu:
Giới thiệu các yêu cầu khách quan, chủ quan, cơ sở thực tiễn nghiên cứu và xây
dựng đề tài.
Chương I: Giới thiệu về DW&BI.
Nội dung chính của chương này trình bầy các khái niệm cơ bản về kho dữ liệu
và hệ thống hô trợ ra quyết định, các phương pháp luận và cơ sở lựa chọn phương
pháp luận để xây dựng kho dữ liệu và hệ thống hô trợ ra quyết định. Các bước xây
dựng, thiết kế hệ thống DW&BI.
Chương II: Bài toán đầu tư phát triển hệ thống hỗ trợ ra quyết định tại
Ngân hàng Nông nghiệp và phát triền Nông thôn Việt Nam
Đánh giá hiện trạng hệ thống CNTT tại NHNo, xu hướng xây dựng DW&BI tại
các Ngân hàng nói chung và nhu cầu cấp thiết cần phải xây dựng Kho dữ liệu và hệ
thống hô trợ ra quyết định tại NHNo nói riêng.
Đưa ra mục tiêu đầu tư, yêu cầu năng lực sơ bộ của hệ thống.
Đưa ra bản thiết kế logic, bản thiết kế vật lý để xây dựng kho dữ liệu và hệ
thống hô trợ ra quyết định.
Chương III:Đề xuất dự án xây dựng kho dữ liệu và hệ thống hỗ trợ ra
quyết định.
Đưa ra các căn cứ để phân tích, lựa chọn giải pháp đồng thời phân tích chi tiết
về ba giải pháp phổ biến, đứng đầu về DW&BI, qua đó khuyến nghị giải pháp kỹ thuật
công nghệ sử dụng trong dự án và dự trù tổng kinh phí của dự án.
Phần kết luận: Kết luận tổng thể về luận văn.
Đưa ra những điều làm được, những điều chưa làm được và hướng phát triển
của luận văn.
3
CHƯƠNG I. GIỚI THIỆU VỀ DW&BI
Chương này đưa ra các khái niệm cơ bản về Data Warehouse và BI. Từ đó tìm ra
phương pháp phù hợp để xây dựng DW&BI tại Ngân hàng Nông nghiệp.
1.1. Các khái niệm cơ bản
1.1.1. Data Warehouse và BI là gì?
Data Warehouse (viết tắt là DW, còn gọi là Kho Dữ Liệu) là hệ thống tập trung
dữ liệu nhằm mục đích khai thác, phân tích thông tin và hô trợ quyết định, với các đặc
trưng về mặt dữ liệu là: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến.
Business Intelligence (viết tắt là BI) là tầng ứng dụng khai thác dữ liệu và phân
tích thông tin từ các nguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DW
với thiết kế CSDL đa chiều (OLAP). Tầng ứng dụng BI này bao gồm các dữ liệu
metadata, các chương trình ứng dụng, các công cụ phần mềm… nhằm mục đích đưa
các kết quả báo cáo, phân tích nghiệp vụ,… đến trực tiếp các người dùng cuối (những
cán bộ nghiệp vụ, các lãnh đạo,…).
Vai trò của DW&BI trong việc cung cấp thông tin hô trợ quyết định được minh
họa (hình1.1):
Hình 1.1: vai trò của DW&BI
Các thành phần chính của một hệ thống DW&BI được minh họa (hình
1.2), bao gồm:
-
Data Sources (Dữ liệu nguồn): bao gồm các CSDL của các hệ thống tác nghiệp,
các dữ liệu dạng file,…
4
-
Data Warehouse (Kho dữ liệu tập trung): bao gồm CSDL tích hợp và các CSDL
chủ đề.
-
BI:tầng ứng dụng khai thác và phân tích thông tin hô trợ quyết định; các enduser tương tác với hệ thống qua tầng BI này.
-
Administration: Metadata và quản trị hệ thống.
Hình 1.2:Các thành phần chính của DW&BI
1.1.2. Các đặc trưng về mặt dữ liệu của một hệ thống DW&BI
Một hệ thống DW bao gồm 4 đặc trưng về mặt dữ liệu, bao gồm: tích hợp,
hướng chủ đề, tích lũy theo thời gian, bất biến.
-
Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn
khác nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu,…
-
Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu
trữ theo các chủ đề nghiệp vụ mà người khai thác quan tâm.
-
Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch
sử, theo dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện
tại và các dữ liệu sẽ phát sinh trong tương lai.
-
Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng
read-only và rất hiếm khi thay đổi (không update, không delete). DW
chính là những CSDL được thiết kế cho mục đích Khai thác và Phân tích
thông tin (query, truy vấn) chứ không phải mục cập nhật (update, delete)
như trong CSDL của các ứng dụng tác nghiệp.
1.1.3. Phân biệt giữa hệ thống OLTP và hệ thống DSS
-
OLTP (OnLine Transaction Processing): Hệ thống xử lý giao dịch trực tuyến.
Đặc trưng của các ứng dụng OLTP là các tác vụ tự động ghi chép dữ liệu để
5
xử lý các nghiệp vụ của một tổ chức như ghi nhận đơn đặt hàng hoặc các
giao dịch ngân.Các tác vụ này thường đọc hoặc cập nhật một vài dòng dữ
liệu dựa trên khoá chính của chúng. Những tác vụ đó có cấu trúc, được lặp
lại, bao gồm các giao dịch ngắn, tối giản và tách biệt, yêu cầu dữ liệu chi tiết
và mới nhất. Các cơ sở dữ liệu tác nghiệp có kích thước từ vài trăm
megabyte đến hàng gigabyte và chỉ lưu trữ các dữ liệu hiện hành (vòng đời
dữ liệu ngắn). Cơ sở dữ liệu có tính nhất quán, khả năng phục hồi cao.
-
DSS (Decision Support System): Hệ thống hô trợ quyết định.
Phân biệt giữa Hệ thống OLTP và Hệ thống DSS:
Đặc điểm
OLTP
DWHS
Thời gian đáp ứng
một thao tác người
dùng
Dưới 1 giây đến hàng giây
Từ hàng giây đến hàng
giờ
Loại thao tác với
dữ liệu
Cập nhật (thêm, sửa, xóa)
và tra cứu
Chủ yếu là đọc dữ liệu
(read-only)
Phạm vi dữ liệu
30 - 60 ngày
Tích lũy theo thời gian
Tổ chức dữ liệu
Theo chương trình ứng
dụng
Theo thời gian, theo chủ
đề
Quy mô dữ liệu
Nhỏ đến lớn
Lớn đến rất lớn
Nguồn dữ liệu
Dữ liệu tác nghiệp, dữ liệu
bên trong
Dữ liệu tác nghiệp, dữ
liệu bên trong, bên ngoài
Hoạt động
Xử lý, tác động lên dữ liệu
Phân tích trên dữ liệu
Bảng 1.1: Phân biệt giữa hệ thống OLTP và DSS
1.2. Các phương pháp luận xây dựng hệ thống DW&BI
Có nhiều phương pháp tiếp cận đã được sử dụng và phổ biến trên thế giới. Nhưng
thông dụng nhất là 3 phương pháp sau:
-
Business-Wide Data Warehouse (hay còn gọi là Top-down)
-
Independent Data Marts (hay còn gọi là Bottom-up)
-
Interconnected Data Marts (hay còn gọi là Spiral)
6
Hình 1.3: Các phương pháp luận xây dựng DW&BI
1.2.1. Phương pháp luận Top-down
Xây dựng kho dữ liệu theo phương pháp luận Top-down là xây dựng kho dữ
liệu “đầy đủ”, xây dựng ngay và một lần kho dữ liệu đáp ứng được tất cả hoặc phần
lớn những nhu cầu khai thác thông tin, phân tích và lập dự báo chiến lược của mọi đối
tượng sử dụng. Một lần thiết kế cho toàn bộ hệ thống và thực hiện xây dựng toàn bộ
như thiết kế.
1.2.2. Phương pháp luận Bottom-up
Phương pháp Bottom-up xây dựng từng kho dữ liệu cho môi chủ đề riêng biệt
và độc lập, đáp ứng được nhu cầu khai thác thông tin, phân tích và lập dự báo chiến
lược của một hoặc một số phòng ban cụ thể trong tổ chức / doanh nghiệp. Với môi chủ
đề thông tin nghiệp vụ phát sinh là một lần thiết kế và xây dựng riêng biệt.
1.2.3. Phương pháp luận Spiral
Phương pháp Spiral là phương pháp xây dựng dần từng kho dữ liệu cho môi
chủ đề dựa trên mô hình xoáy trôn ốc, môi kho dữ liệu chủ đề có khả năng tích hợp lại
thành một Kho dữ liệu đầy đủ.
Sau khi phân tích nghiệp vụ mức tổng thể của toàn bộ doanh nghiệp,liệt kê danh
sách các chủ đề thông tin cần xây dựng kho. Sau đó sẽ thiết kế và xây dựng dần cho
từng kho chủ đề dựa trên thiết kế tổng thể của toàn tổ chức / doanh nghiệp. Thứ tự của
việc xây dựng các kho chủ đề sẽ được dựa trên tính quan trọng của nghiệp vụ và tính
hiệu quả.
7
1.2.4. Ưu/Nhược điểm của từng phương pháp
Dưới đây là bảng phân tích những ưu điểm và nhược điểm của từng phương
pháp xây dựng hệ thống DW&BI.
Phương pháp
tiếp cận
Ưu điểm
- Hệ thống được xây dựng
với định hướng là đáp ứng
được các nhu cầu về thông
Business-wide
tin nghiệp vụ tổng hợp của
data warehouse
mọi đối tượng sử dụng.
Nhược điểm
- Rủi ro cao do thời gian thực hiện
dự án lâu (2-4 năm) và chi phí ban
đầu rất lớn và nghiệp vụ bị thay đổi
ngay trong quá trình triển khai dự
án
- Đòi hỏi tài nguyên và cơ sở hạ
tầng tốt
(Top-Down)
- Đòi hỏi trình độ của người sử
dụng và kỹ thuật cao và đồng đều
Independent
Data Marts
(Bottom_Up)
- Đáp ứng nhanh các nhu
cầu khai thác thông tin của
một hoặc một số đối tượng
sử dụng. Nên rất dễ nhìn
thấy hiệu quả đầu tư
- Không đáp ứng được nhu cầu khai
thác thông tin mức tổng thể của tổ
chức / doanh nghiệp
- Dữ liệu bị dư thừa nhiều do đó
tính nhất quán không cao
- Chi phí ban đầu cho việc - Chi phí bảo trì vận hành hàng
xây dựng từng kho dữ liệu năm lớn
thấp
- Chi phí cho việc “tích hợp” thành
một hệ thống tổng thể là rất lớn
- Tính hiệu quả và khả thi - Cần thời gian cho việc phân tích
cao
tổng thể trong giai đoạn đầu của dự
án
- Độ rủi ro thấp
- Đáp ứng dần từng nhu cầu
Interconnected khai thác thông tin của đối
Data Marts
tượng sử dụng theo mức độ
ưu tiên
(Spiral)
- Cần có sự đánh giá đúng về thứ tự
ưu tiên và phạm vi trong tứng giai
đoạn phát triển
- Cần có sự giám sát chặt chẽ sự
- Đáp ứng được nhu cầu khai đồng bộ giữa thiết kế của từng Kho
thác thông tin mức tổng thể dữ liệu thành viên và Kho dữ liệu
tổng thể
của tổ chức / doanh nghiệp
- Tính nhất quán của dữ liệu
cao
Bảng 1.2: Ưu nhược điểm của các phương pháp xây dựng DW&BI
8
1.2.5. Cơ sở lựa chọn phương pháp luận
Việc lựa chọn phương pháp tiếp cận để xây dựng một hệ thống Kho dữ liệu là
một quyết định quan trọng. Ngoài việc dựa vào những phân tích ưu điểm, nhược điểm
như đã nêu ở trên, quyết định lựa chọn cần dựa trên các yếu tố khác như:
-
Nhu cầu khai thác thông tin, phân tích, lập báo cáo chiến lược của từng loại
đối tượng sử dụng - mức độ ưu tiên đối với từng loại đối tượng và từng loại
yêu cầu
-
Kiến trúc hạ tầng / cơ sở vật chất hiện tại
-
Kinh phí
-
Công nghệ
-
Khả năng hô trợ, cung cấp dịch vụ của đối tác
-
Khả năng của đội ngũ nội tại (người sử dụng và nhân viên kĩ thuật)
Thông thường các doanh nghiệp / tổ chức có quy mô vừa và nhỏ và có nghiệp
vụ ổn định hay chọn phương pháp tiếp cận Top-Down (hay Business-Wide Data
Warehouse). Với các doanh nghiệp và tổ chức lớn có nhiều phòng ban, chi nhánh khác
nhau và có nhu cầu khai thác thông tin rộng lớn của người sử dụng bên ngoài thường
chọn phương pháp tiếp cận Spiral (hay Interconnected Data Marts).Phương pháp
Independent Data Marts rất ít được sử dụng. Đối với các ngân hàng và tổ chức tài
chính lớn, nên chọn theo phương pháp tiếp cận Spiral.
1.3. Thiết kế logic một hệ thống DW&BI
1.3.1. Phạm vi công việc và phương pháp thực hiện
1.3.1.1. Phạm vi công việc
Thiết kế logic đưa ra mô hình tổng thể và chi tiết các thành phần của hệ thống
nhưng ở mức logic (chưa gắn với các công nghệ cụ thể), mô tả cấu trúc của các bảng
dữ liệu, quan hệ dữ liệu giữa các bảng, quan hệ giữa các thành phần trong hệ thống,…
với mục tiêu là hệ thống sẽ đáp ứng được các nhu cầu thông tin của người dùng đã xác
định ở giai đoạn khảo sát và phân tích.
Đầu vào của giai đoạn thiết kế logic là bộ tài liệu kết quả của những giai đoạn
trước: Khảo sát, Phân tích. Những tài liệu đầu vào chính cho giai đoạn thiết kế logic
bao gồm:
-
Báo cáo khảo sát:
Hiện trạng của việc cung cấp thông tin
Các nhu cầu thông tin trong tương lai
Hiện trạng dữ liệu nguồn
Hiện trạng hạ tầng thông tin
-
Tài liệu phân tích
9
Mức độ đáp ứng các nhu cầu thông tin: về nội dung và về phương
thức cung cấp
Mức độ ưu tiên của thông tin (dựa trên tầm quan trọng, tính cấp thiết,
…)
Tổng hợp thành các chủ đề thông tin mà hệ thống mới sẽ đáp ứng,
thống nhất phạm vi xây dựng hệ thống.
Nội dung công việc của giai đoạn thiết kế logic:
-
Thiết kế mô hình tổng thể của hệ thống (ở mức logic, chưa gắn với các công
nghệ cụ thể).
-
Thiết kế chi tiết từng thành phần (ở mức logic, chưa gắn với các công nghệ
cụ thể.
Các kết quả của giai đoạn thiết kế logic:
-
Tài liệu thiết kế logic của hệ thống với các nội dung chính
Mô hình tổng thể
Thiết kế chi tiết từng thành phần (các sơ đồ quan hệ ERD, cấu trúc
logic các bảng, các mapping, các thủ tục chuyển đổi dữ liệu,…).
1.3.1.2. Phương pháp thực hiện
Giai đoạn thiết kế logic được thực hiện theo trình tự sau:
-
Thiết kế mô hình tổng thể
-
Thiết kế các CSDL chủ đề (DM)
-
Thiết kế CSDL tích hợp (EM)
-
Thiết kế CSDL trung chuyển (các DSA nguồn và DSA đích)
-
Thiết kế Metadata
-
Thiết kế các tiến trình ETL:
Chuyển dữ liệu từ Data Source sang DSA
Chuyển dữ liệu từ DSA sang EM
Chuyển dữ liệu từ EM sang các DM
-
Thiết kế tầng khai thác và phân tích thông tin
Thiết kế CSDL đa chiều (OLAP)
Thiết kế tầng dữ liệu người dùng (End_User Layer)
1.3.2. Thiết kế tổng thể
1.3.2.1. Mô hình logic tổng thể của hệ thống
Tùy theo từng dự án cụ thể, mô hình logic tổng thể có thể khác nhau, nhưng
nhìn chung một hệ thống DW và BI điển hình sẽ được thể hiện như hình 1.4 dưới đây:
10
Hình 1.4: Mô hình logic tổng thể hệ thống DW&BI
1.3.2.2. Dữ liệu nguồn (Data source)
Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sách
nguồn dữ liệu được lựa chọn để đưa vào kho dữ liệu tập trung. Dữ liệu nguồn điển
hình của DW là các CSDL tác nghiệp bên trong tổ chức, cung cấp số liệu chi tiết về
các giao dịch phát sinh hàng ngày; các CSDL này có thể được xây dựng trên các công
nghệ khác nhau (Oracle, SQL Server, Foxpro,…).
Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file (text, xml, excel,
…);có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chức liên kết, các cơ
quan nhà nước,…)
1.3.2.3. Kho dữ liệutập trung (Data Warehouse)
Kho dữ liệu tích hợplà thành phần trung tâm của hệ thống, là nơi lưu trữ dữ liệu
tập trung từ các nguồn về, DW bao gồm một tập hợp các CSDL quan hệđược thiết kế
nhằm đảm bảo lưu trữ khối lượng lớn dữ liệu đồng thời đáp ứng tốt nhất các nhu cầu
tra cứu, khai thác dữ liệu. Trong DW có các CSDL sau:
-
DSA: CSDL trung chuyển, chứa dữ liệu tạm thời của một phiên chuyển dữ
liệu, phục vụ công việc xử lý, làm sạch trước khi đưa vào CSDL chính. DSA
có hai loại:
DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở
dạng 1:1 về nội dung và cấu trúc, phạm vi dữ liệu là một phiên
DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ
liệu là một phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển
đổi dữ liệu vào CSDL tích hợp.
11
-
EM: CSDL tích hợp, chứa dữ liệu của toàn bộ các nguồn, đó là các dữ liệu
đã được xử lý, làm sạch và tích hợp. EM cần đảm bảo cung cấp đủ dữ liệu
cho tất cả các DM.
-
DM: CSDL chủ đề, chứa dữ liệu về một chủ đề thông tin xác định, phục vụ
một lớp đối tượng người dùng cụ thể. Tất cả các DM đều có dữ liệu nguồn
là EM.
-
OLAP: CSDL chủ đề đã được tổng hợp sẵn, được tổ chức ở dạng đa chiều
nhằm mục đích đáp ứng nhanh nhất việc khai thác thông tin. Nguồn dữ liệu
cho OLAP là từ EM hoặc các DM.
Bên trong DW có tiến trình ETL: thu thập, làm sạch, tích hợp dữ liệu; chuyển
dữ liệu từ nguồn vào các CSDL bên trong DW
1.3.2.4. BI: Tầng ứng dụng khai thác và phân tích thông tin
BI là một môi trường thuận tiện để người dùng nghiệp vụ làm việc với hệ
thống, cho phép người dùng chủ động khai thác, phân tích, tạo báo cáo, chia sẻ thông
tin,… Thành phần BI này bao gồm:
-
Lớp dữ liệu nghiệp vụ: các thuật ngữ/tên gọi dành cho người dùng nghiệp
vụ, môi thuật ngữ tương ứng với các trường dữ liệu trong các DM.
-
Nơi chứa các kết quả phân tích, báo cáo.
-
Các chương trình ứng dụng, các công cụ dùng để khai thác và phân tích.
-
Cổng giao tiếp với end-user (ví dụ: web portal, office, …).
1.3.2.5. Administration: Quản trị hệ thống
Administration là thành phần dành cho các chuyên gia kỹ thuật thực hiện việc
quản trị, vận hành hệ thống, đảm bảo hệ thống hoạt động ổn định, an toàn và các dữ
liệu được làm mới định kỳ. Thành phần này bao gồm:
-
Metadata: lưu thông tin về các nguồn dữ liệu, thông tin của các CSDL
thành phần trong kho dữ liệu tập trung; thông tin quản lý các tiến trình
ETL.
-
Các công cụ quản trị, vận hành hệ thống (quản trị, vận hành các tiến
trình, các job tự động, các công việc backup/recovery…).
1.4. Thiết kế chi tiết từng thành phần
1.4.1.Thiết kế Data Warehouse (Kho dữ liệu tập trung)
1.4.1.1. Các mô hình CSDL trong thiết kế Data Warehouse
Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó
là: mô hình sao và mô hình bông tuyết:
Star Schema (CSDL hình sao): là CSDL quan hệ được thiết kế logic dạng hình
sao bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu
12
danh mục xung quanh (kiểu 1:N). Môi bảng danh mục đều là bảng duy nhất của
nhánh, không có quan hệ với bảng danh mục nào khác. Ví dụ, trong mô hình star sau
đây, bảng dữ liệu trung tâm thể hiện sản lượng và doanh số, các bảng danh mục xung
quanh là: khách hàng, sản phẩm, kênh phân phối, thời gian. Mục tiêu của mô hình sao
là truy vấn dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục.
Hình 1.5: Star Schema (CSDL hình sao)
Snowflake Schema (CSDL hình bông tuyết): là CSDL hình sao nhưng đã được
chuẩn hóa thành dạng chuẩn 3: môi bảng danh mục được tách thành các bảng danh
mục phân cấp (nếu có) để đảm bảo không dư thừa dữ liệu. Trong ví dụ dưới đây,
nhánh bảng Khách Hàng đã được tách thành các bảng phân cấp. Mục tiêu của mô hình
bông tuyết là kế thừa việc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu.
Hình 1.6: Snowflake Schema (CSDL hình bông tuyết)
1.4.1.2. Một số thuật ngữ thường dùng
Dimension Table (bảng Dimension): là bảng danh mục trong CSDL hình sao
hoặc bông tuyết, lưu trữ thông tin về các đối tượng như: khách hàng, sản phẩm, thời
gian, … Các trường của bảng dimension bao gồm:
-
Primary key: kiểu số (ví dụ: id sản phẩm)
13
-
Các trường thông tin thuộc tính (ví dụ: mã sản phẩm, tên sản phẩm, mã
chủng loại, tên chủng loại,…)
-
Trong mô hình sao, dimension table còn có thêm các trường sau:
Các trường thông tin tổng hợp (aggregate data): các giá trị tổng
hợp và tính sẵn (ví dụ: tổng số lượng, tổng tiền, số lượng lớn
nhất, số lượng nhỏ nhất, số lượng trung bình,…)
Các trường thông tin dẫn xuất (derived data): các giá trị được tính
theo công thức dựa trên các trường thông tin tổng hợp đã có.
Fact Table (bảng Fact hay còn gọi là Master Table) : là bảng trung tâm trong
CSDL hình sao hoặc bông tuyết, lưu trữ dữ liệu chi tiết về các giao dịch phát sinh.
Trong bảng fact, tất cả các trường đều có kiểu dữ liệu là kiểu số (hoặc kiểu ngày), các
trường của bảng fact bao gồm:
-
Primary key: kiểu số, định danh duy nhất 1 dòng của bảng fact (ví dụ: id
giao dịch).
-
Foreign key: tham chiếu tới Primary Key của các bảng danh mục (ví dụ: id
sản phẩm).
-
Các trường thông tin phát sinh: kiểu số (ví dụ Số lượng, Doanh thu,...)
Slave Table: bảng dữ liệu chi tiết có quan hệ 1:1 với bảng fact (Master Table),
dùng để lưu các trường dữ liệu không phải kiểu số. Các trường của Slave Table bao
gồm:
-
Primary key: kiểu số (thường trùng tên trường và cùng kiểu dữ liệu với
Primary Key của bảng fact), cũng đồng thời đóng vai trò Foreign Key trong
quan hệ 1:1 với bảng fact.
-
Các trường thông tin không phải kiểu số (Ví dụ: ghi chú, mô tả giao dịch,
…)
-
(Slave Table không dùng Foreign Key đến các bảng dimension)
Surrogate Key (khóa giả): là trường kiểu số, dùng để làm Primary Key cho các
bảng dimension hoặc bảng fact trong trường hợp Primary Key gốc của các bảng này
không phải là kiểu số hoặc là key tổ hợp của nhiều trường.
Measure (hay còn gọi là Fact): là những thông tin có thể đo lường được, môi
measure tương ứng với một trường thông tin phát sinh trong bảng fact như: Số lượng,
Doanh số, ....
Dimension (hay còn gọi là Chiều): là những chiều tổng hợp, phân tích về các
measure, ví dụ: chiều sản phẩm, chiều thời gian,…; thông tin về dimension được lưu ở
table demension; trong dữ liệu chi tiết phát sinh, dimension chính là các trường Foregn
Key của bảng fact. Dimension bao gồm một tập các thuộc tính (attribute) đi kèm, ví
dụ: dimension Khách hàng bao gồm các thuộc tính sau: mã khách hàng, tên khách
14
hàng, mã quận huyện, tên quận huyện, mã tỉnh thành, tên tỉnh thành, mã loại hình, tên
loại hình…
Level:cấp độ tổng hợp dữ liệu bên trong một dimension; một level bao gồm các
thuộc tính ngang cấp của một dimension, khi tổng hợp dữ liệu thì các thuộc tính này ở
cùng một nhóm. Ví dụ: trong dimension Khách hàng có 4 level sau:
-
level Khách hàngbao gồm 2 thuộc tính: mã khách hàng, tên khách hàng.
-
level Tỉnh thành bao gồm 2 thuộc tính: mã tỉnh thành, tên tỉnh thành.
-
level Quận huyện bao gồm 2 thuộc tính: mã quận huyện, tên quận huyện.
-
level Loại hình bao gồm 2 thuộc tính: mã loại hình, tên loại hình.
Hierarchy: là một tập các level có quan hệ phân cấp bên trong một dimension;
trong một dimension có thể có nhiều hieararchy. Hieararchy là căn cứ để thực hiện các
thao tác trên dữ liệu tổng hợp: tổng hợp lên (roll-up) hoặc chi tiết xuống (drill-down).
Ví dụ: trong dimension Khách Hàng, có 2 hierarchy sau:
-
hieararchy
Khách
hàng
địa
hàng<
chỉ
là:
Khách
-
hieararchy Khách hàng - loại hình là: Khách hàng<
-
Thông tin: môi thông tin là một bảng số liệu với 2 thành phần:
-
Phần measure: các cột giá trị bằng số (các con số nghiệp vụ: sản lượng,
doanh thu,…)
-
Phần dimension: các cột thể hiện chiều phân tích (như: sản phẩm, thời gian,
…)
-
Chủ đề thông tin: là tập hợp các thông tin có chung phần measure
-
Ví dụ: chủ đề thông tin Sản Lượng Xuất Nhập Khẩu bao gồm các báo cáo về
sản lượng xuất nhập khẩu (cùng là thông tin về sản lượng) nhưng môi báo
cáo có các chiều phân tích khác nhau: quốc gia, hàng hóa, chi cục,…
1.4.1.3. Data Mart (DM): các CSDL chủ đề
Data Mart là CSDL được thiết kế theo mô hình sao (như đã nêu ở mục a.), chứa
dữ liệu về một chủ đề thông tin xác định, phục vụ một lớp đối tượng người dùng cụ
thể. Trong một Kho dữ liệu tập trung (DW), có thể có nhiều DM, môi DM tương ứng
với một chủ đề thông tin.
Dựa trên các kết quả đã có từ giai đoạn khảo sát và phân tích về nhu cầu thông
tin, dựa trên việc phân tích khả năng cung cấp những thông tin có thể lấy ra từ dữ liệu
nguồn (mặc dù người dùng chưa yêu cầu), các bước để thiết kế DM bao gồm:
-
Xác định danh sách các chủ đề thông tin mà hệ thống cần đáp ứng. Môi chủ
đề thông tin cần có các nội dung sau:
15
Các measure: các giá trị số (những con số nghiệp vụ như: Số
lượng bán, Giá trị bán thể hiện chủ đề Tình Hình Bán Hàng)
Các dimension: các chiều phân tích thông tin (ví dụ: sản phẩm,
cửa hàng, thời gian,…)
-
Với môi chủ đề, thiết kế một DM:
Vẽ sơ đồ thực thể quan hệ (ERD, mô hình sao)
Thiết kế các bảng dimension
Primary key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời
chưa phải là kiểu số.
Các trường gốc, các trường aggregate (thông tin tổng hợp), derived
(thông tin dẫn xuất).
Thiết kế bảng fact (môi DM chỉ có một bảng fact)
Primary key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời
chưa phải là kiểu số.
Foreign Key: sang các bảng dimension
Các trường measure
Thiết kế Slave Table (nếu cần lưu thông tin bổ sung, không phải kiểu số,.. như
đã mô tả ở trên)
Thiết kế các hierarchy (cho từng dimension): như đã mô tả ở trên
Thiết kế các partition
-
Với bảng fact: thường chia partition theo chiều thời gian (tức là chia theo
trường FK link sang bảng dimension thời gian).
-
Với các bảng dimension lớn, có sự tăng trưởng dữ liệu: chia partition theo
trường có nhu cầu tìm kiếm chủ yếu (nếu xác định được).
Thiết kế các index
-
Với bảng fact: index trên các trường FK (trừ FK đã được chọn để chia
partition)
-
Với các bảng dimension: index trên các trường có nhu cầu tìm kiếm (trừ
trường đã được chọn để chia partition)
Thiết kế giải pháp phi chuẩn:
-
Làm dư thừa dữ liệu để tăng tốc độ thực hiện các câu lệnh truy vấn, ví dụ:
mview trong Oracle.
Hình 1.7 dưới đây là một ví dụ về ERD của một Data Mart, trong đó có bảng
fact DOANH_SO với 2 measure là Số lượng, Doanh số và 4 dimension là Thời gian,
Cửa hàng, Khách hàng, Sản phẩm:
16
Hình 1.7: Ví dụ về Data Mart
1.4.1.4. Enterprise Model (EM): CSDL tích hợp
Enterprise Model là CSDL được thiết kế theo mô hình bông tuyết (như đã nêu ở
mục a.), chứa dữ liệu tích hợp của tất cả các chủ đề thông tin mà hệ thống cần đáp
ứng, cung cấp dữ liệu cho tất cả các Data Mart. Trong một Kho dữ liệu tập trung
(DW), chỉ có một EM, nhưng bên trong EM này có thể có một hoặc nhiều bảng
fact.Dựa trên bản thiết kế logic các Data Mart đã có, các bước để thiết kế EM bao
gồm:
-
Phân tích bản thiết kế logic các DM đã có
-
Chuẩn hóa và tích hợp các bảng dimension:
Môi DM có một tập hợp các bảng dimension, môi bảng này cần được
chuẩn hóa (tách bảng) thành các bảng quan hệ theo dạng chuẩn 3 để
không bị dư thừa dữ liệu.
Sau khi chuẩn hóa, những bảng danh mục nào tương đương nhau (cùng ý
nghĩa nghiệp vụ, cùng primary key,…) thì tích hợp thành một bảng
(primary key là chung, các trường thuộc tính là hợp từ hai bảng); những
bảng dimension còn lại được giữ nguyên cấu trúc và nếu có quan hệ thì
tạo Foreign Key với các bảng dimension khác.
-
Tích hợp các bảng fact: Môi DM có một bảng fact, môi bảng fact bao gồm
một số hoặc tất cả các trường thông tin của một loại dữ liệu nghiệp vụ cụ thể
(ví dụ: dữ liệu hóa đơn bán hàng). Những bảng fact nào lưu thông tin về
cùng một loại dữ liệu (và cùng primary key) thì tích hợp thành một bảng
(primary key là chung, các foreign key và các trường measure là hợp từ hai
bảng); những bảng fact còn lại được giữ nguyên cấu trúc.
17
-
Tích hợp các bảng slave (nếu có): tương tự và đi kèm với bảng fact.
-
Vẽ sơ đồ thực thể quan hệ (ERD, mô hình bông tuyết, có thể có nhiều bảng
fact)
-
Thiết kế các bảng dimension theo dạng chuẩn 3.
-
Thiết kế các index
Với bảng fact: index trên các trường FK (trừ FK đã được chọn để chia
partition)
Với các bảng dimension: index trên các trường có nhu cầu tìm kiếm (trừ
trường đã được chọn để chia partition)
Thiết kế giải pháp phi chuẩn, làm dư thừa dữ liệu để tăng tốc độ thực
hiện các câu lệnh truy vấn, ví dụ: mview trong Oracle.
Hình 1.8 là một ví dụ về ERD của một Enterprise Model, trong đó có 2 bảng
fact là Công nợ và Sản lượng doanh thu
Hình 1.8: Ví dụ về Enterprise Model
1.4.1.5. Data Staging Area (DSA): CSDL trung chuyển
Data Staging Area (DSA) là một tập các CSDL đóng vai trò trung chuyển dữ
liệu giữa các nguồn dữ liệu với EM. DSA là môi trường dữ liệu trung gian, lưu trữ tạm
thời dữ liệu để xử lý, làm sạch và tích hợp trước khi đưa vào EM. DSA chỉ lưu trữ tạm