CHƢƠNG 1. KHO DỮ LIỆU ............................................................. 5
1.1.Tổng quan về kho dữ liệu (Data Warehouse – DW) .......................... 5
1.1.1. Khái niệm kho dữ liệu .............................................................. 5
1.1.2. Mục đích của kho dữ liệu ........................................................ 5
1.1.3. Đặc tính dữ liệu trong kho dữ liệu .......................................... 6
1.1.3.1.
1.1.3.2.
1.1.3.3.
1.1.3.4.
1.1.3.5.
Tính tích hợp(Integration) ................................................. 7
Hướng chủ đề ................................................................... 9
Dữ liệu gắn thời gian và có tính lịch sử ...................... 10
Dữ liệu có tính ổn định (nonvolatility) ........................ 11
Dữ liệu không biến động ............................................... 11
1.1.4. Phân biệt DW với những hệ cơ sở dữ liệu tác nghiệp .......... 12
1.1.5. Một số khái niệm cơ bản ........................................................ 13
1.1.5.1. Kho dữ liệu cục bộ - Datamart .................................. 13
1.1.5.2. Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác ................ 15
1.1.6. Tổ chức lưu trữ dữ liệu trong kho ......................................... 21
1.2.Các kiểu dữ liệu .................................................................................... 22
1.2.1
Dữ liệu nghiệp vụ ................................................................... 22
1.2.2
Dữ liệu phi cấu trúc ............................................................... 23
1.2.3.1 Siêu dữ liệu nghiệp vụ (Business Metadata) .................... 24
1.2.3.2 Siêu dữ liệu kỹ thuật (Technical Metadata) ...................... 25
1.2.3.3 Siêu dữ liệu tác nghiệp (Operational Metadata: OM) .... 26
1.3.Kiến trúc kho dữ liệu ............................................................................ 27
1.3.1. Kiến trúc kho dữ liệu nghiệp vụ ........................................... 27
1.3.1.1
1.3.1.2
1.3.1.3
Kiến trúc dữ liệu một tầng (Single-layer Architecture) .... 27
Kiến trúc dữ liệu hai tầng (Two-layer Architecture) ........ 28
Kiến trúc dữ liệu ba tầng (Three-layer Architecture) ...... 30
1.3.2. Kiến trúc logic của DW ......................................................... 32
1.4.Mô hình kho dữ liệu .............................................................................. 36
1.4.1. Sơ đồ hình sao (Star Schema) .............................................. 36
1.4.2. Sơ đồ hình tuyết rơi - Snowflake ........................................... 40
1.4.3. Sơ đồ kết hợp ......................................................................... 42
1.4.4. Mô hình dữ liệu đa chiều ....................................................... 42
1.5.Xử lý phân tích trực tuyến OLAP (Online Analytical Processing) 44
1.5.1. ROLAP (Relational OLAP) ................................................... 46
1.5.2. MOLAP (Multidimensional OLAP) ...................................... 47
CHƢƠNG 2. THIẾT KẾ KHO DỮ LIỆU CHO TRƢỜNG ...................... 49
ĐẠI HỌC TÂY NGUYÊN ......................................................................... 49
2.1 Khảo sát thực trạng sử dụng dữ liệu ở Trƣờng Đại học Tây Nguyên
..................................................................................................................... 49
2.2Chọn chủ đề thiết kế kho dữ liệu cho trƣờng Đại học Tây Nguyên 51
2.3Phƣơng pháp chung xây dựng kho dữ liệu ....................................... 52
2.3.1
Xác định các yêu cầu và phân tích các yêu cầu ................... 52
2.3.2
Thiết kế mô hình quan hệ đa chiều ...................................... 52
2.3.3
Xây dựng kho dữ liệu ( với SQL Server 2005) ..................... 53
2.3.4
Quản lý và quản trị DW ......................................................... 54
2.4Thiết kế kho dữ liệu chủ đề “Đào tạo sinh viên chính quy” cho
trƣờng Đại học Tây Nguyên ..................................................................... 54
2.4.1. Xác định, thu thập dữ liệu cho kho dữ liệu chủ đề đào tạo
sinh viên chính quy ............................................................................ 56
2.4.2. Thiết kế sơ đồ kho dữ liệu chủ đề đào tạo sinh viên chính
quy
................................................................................................. 57
2.5Từ điển dữ liệu ..................................................................................... 60
CHƢƠNG 3. XÂY DỰNG KHO VÀ KHAI THÁC DỮ LIỆU
CHỦ ĐỀ ĐÀO TẠO SINH VIÊN CHÍNH QUY ...................................... 66
3.1.Thu thập và tạo lập dữ liệu ................................................................ 66
3.1.1. Trích chọn dữ liệu (Extract) ................................................ 67
3.1.2. Lọc (Filter), làm sạch dữ liệu (Cleaning) ......................... 68
2
3.1.3. Thẩm định (Validate) và chuyển đổi (Transforming) dữ
liệu
................................................................................................. 69
3.1.4. Tích hợp (Integrated) dữ liệu ............................................. 69
3.1.5. Nạp, tải (Load) dữ liệu vào kho.......................................... 70
3.2.Tích hợp dữ liệu................................................................................... 70
3.2.1. Quy trình tích hợp dữ liệu ................................................... 70
3.3.Phân tích dữ liệu và một số kết quả kết quả khai thác kho dữ liệu 77
3.3.1. Quy trình phân tích dữ liệu ................................................... 77
Hình 3.17 Hiển thị dữ liệu của Khối sinh viên ............................ 82
3.3.2. Một số kết quả khai thác kho dữ liệu .................................... 84
3.3.2.1.
Các báo cáo OLAP ......................................................... 84
A.Quy trình tạo báo cáo ................................................................... 84
B.Một số báo cáo............................................................................... 85
3.3.2.2.
Khai phá dữ liệu với công cụ phân cụm dữ liệu .......... 91
[A]Định nghĩa về khai phá dữ liệu ................................................ 91
[B]Phân cụm dữ liệu ........................................................................ 92
[C]Quy trình phân cụm dữ liệu ...................................................... 94
TÀI LIỆU THAM KHẢO CHÍNH............................................................. 98
3
4
CHƢƠNG 1. KHO DỮ LIỆU
1.1. Tổng quan về kho dữ liệu (Data Warehouse – DW)
1.1.1. Khái niệm kho dữ liệu
Theo John Ladley [1], công nghệ kho dữ liệu (Data Warehouse
Technology) là tập các phƣơng pháp, kỹ thuật và các công cụ có thể kết
hợp, hỗ trợ nhau để cung cấp thông tin cho ngƣời sử dụng trên cơ sở
tích hợp từ nhiều nguồn dữ liệu, nhiều môi trƣờng khác nhau.
Định nghĩa: Kho dữ liệu (Data Warehouse - DW) là tuyển tập các
CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ t r ợ cho chức năng trợ
giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời
gian cụ thể. [1]
Kho dữ liệu thƣờng rất lớn tới hàng trăm Gigabyte hay thậm chí hàng
Terabyte.
Kho dữ liệu đƣợc xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp đƣợc cả
những ứng dụng của các công nghệ hiện đại và kế thừa đƣợc từ những
hệ thống đã có sẵn từ trƣớc. Dữ liệu phát sinh từ các hoạt động hàng
ngày và đƣợc thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của
một tổ chức thƣờng đƣợc gọi là dữ liệu tác nghiệp (operational data) và
hoạt động thu thập, xử lý loại dữ liệu này đƣợc gọi là xử lý giao dịch
trực tuyến (On_line Transaction Processing - OLPT). Kho dữ liệu trái
lại phục vụ cho việc phân tích với kết quả mang tính thông tin chất
lƣợng cao. Các hệ thống thông tin thu thập xử lý dữ liệu loại này còn gọi
là hệ xử lý phân tích trực tuyến (On_Line Analytical Processing OLAP).
1.1.2. Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ
bản:
5
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc
của mình, nhƣ có những quyết định hợp lý, nhanh và bán đƣợc nhiều
hàng hơn, năng sản cao hơn, thu đƣợc lợi nhuận cao hơn, v.v.
Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các
nghiệp vụ một cách hiệu quả và chính xác.
Muốn đạt được các yêu cầu trên thì DW phải:
Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau
Nâng cao chất lƣợng dữ liệu bằng các phƣơng pháp làm sạch và
tinh lọc dữ liệu theo những hƣớng chủ đề xác định.
Tổng hợp và kết nối dữ liệu.
Đồng bộ hóa các nguồn dữ liệu với DW.
Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp nhƣ
là các công cụ chuẩn phục vụ cho DW.
Quản lý siêu dữ liệu.
Cung cấp thông tin đƣợc tích hợp, tóm tắt hoặc đƣợc liên kết, tổ
chức theo các chủ đề.
Dùng trong các hệ thống hỗ trợ quyết định (Decision support
system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho
các truy vấn đặc biệt.
1.1.3. Đặc tính dữ liệu trong kho dữ liệu
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một t ập hợ p dữ
liệu có tính chất sau:
6
1.1.3.1. Tính tích hợp(Integration)
Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống
nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm
nào đó. Dữ liệu trong DW đƣợc tổ chức theo nhiều cách khác nhau sao
cho phù hợp với các qui ƣớc đặt tên, thống nhất về độ đo, cơ cấu m ã h ó a
v à c ấ u trúc vật lý của dữ liệu, v.v.
Ví dụ: Hệ thống OLTP (xử lý giao dịch trực tuyến) truyền thống
đ ƣ ợ c xây dựng trên một v ù n g n g h i ệ p vụ. Một hệ thống bán hàng và
một hệ thống tiếp thị có thể có chung một dạng thông tin về khách
hàng, nhƣng các vấn đề về tài chính cần một khung nhìn khác cho thông
tin về khách hàng. Một DW sẽ có một khung nhìn toàn thể về một
khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài
chính và tiếp thị.
Nhƣ vậy, tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ
liệu đ ƣ ợ c thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một
thể thống nhất.
Ví dụ: Dữ liệu từ những chƣơng trình ứng dụng thực hiện trên các
CSDL tác nghiệp đƣợc tích hợp lại theo một cách mã hóa (encoding) và độ
đo (measurement) thống nhất nhƣ sau:
7
Sự tích hợp
CSDL tác nghiệp
Data Warehouse
encoding
Appl. A: m, f
m, f
Appl. B: 0, 1
measurement
Appl. C: male, female
Appl. A: pipeline cm
cm
Appl. B: pipeline inch (2,54 cm)
Appl. C: pipeline yard (0.914 cm)
Hình 1.1 Tích hợp dữ liệu
8
Hình 1.2 Tạo ra record dữ liệu tích hợp từ nhiều ứng dụng khác nhau
1.1.3.2. Hướng chủ đề
Dữ liệu trong DW đƣợc tổ chức theo các chủ đề phục vụ cho những tổ
chức dễ dàng xác định đƣợc những thông tin cần thiết trong từng hoạt
động của mình. Ví dụ, trong hệ thống quản lý tài chính cũ (có tính tác
nghiệp) có thể dữ liệu đƣợc tổ chức theo chức năng: cho vay, quản lý tín
dụng, quản lý ngân sách, v.v. Trong khi đó ở DW về tài chính, dữ liệu
đƣợc tổ chức theo chủ điểm dựa chủ yếu theo các đối tƣợng: khách hàng,
sản phẩm, các xí nghiệp, v.v. Sự khác nhau của hai cách tiếp cận trên dẫn
đến sự khác nhau về nội dung dữ liệu đƣợc lƣu trữ trong hệ thống:
9
DW không lƣu trữ dữ liệu chi tiết, chỉ lƣu trữ những dữ liệu có tính
tổng hợp phục vụ chủ yếu cho qúa trình phân tích để trợ giúp quyết định.
Các hệ thống ứng dụng tác nghiệp (Operational Application SystemOAS), CSDL tác nghiệp lại cần những dữ liệu chi tiết, phục vụ trực tiếp
cho những yêu cầu xử lý theo các chức năng của lĩnh vực ứng dụng hiện
thời. Do vậy mối quan hệ của dữ liệu trong những hệ thống này cũng khác,
đòi hỏi phải có tính chính xác, có tính thời sự, v.v.
1.1.3.3. Dữ liệu gắn thời gian và có tính lịch sử
Một kho dữ liệu bao hàm một khối lƣợng lớn dữ liệu lịch sử. Dữ liệu
đƣợc lƣu trữ thành một loạt các snapshot (ảnh chụp dữ liệu), mỗi bản ghi
phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một
khung nhìn của một chủ điểm trong một giai đoạn. Do vậy cho phép khôi
phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau.
Yếu tố thời gian đóng vai trò nhƣ một phần của khóa để bảo đảm tính đơn
nhất của mỗi hàng và cung cấp đặc trƣng về thời gian cho dữ liệu.
Dữ liệu trong OAS cần phải chính xác ở chính thời điểm truy cập, còn
ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó, trong khoảng 5
đến 10 năm hoặc lâu hơn. Dữ liệu của CSDL tác nghiệp thƣờng sau một
khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ đƣợc
chuyển vào kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ
điểm cần lƣu trữ.
10
CSDL tác nghiệp
Data Warehouse
Dữ liệu tác nghiệp:
Ảnh chụp dữ liệu:
+ Thời gian ngắn 30-60 ngày
+ Có thể có yếu tố thời gian hoặc không
+ Dữ liệu có thể cập nhật
+ Thời gian dài: 5 đến 10 năm
+ Luôn có yếu tố thời gian
+ Khi dữ liệu đƣợc chụp lại thì
không cập nhật đƣợc
Hình 1.3 Tính thời gian của dữ liệu
1.1.3.4. Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể đƣợc kiểm tra,
không đƣợc sửa đổi bởi ngƣời sử dụng đầu cuối. Nó chỉ cho phép thực
hiện hai thao tác cơ bản:
Nạp dữ liệu vào kho (Load),
Truy cập vào các vùng trong DW (Access).
1.1.3.5. Dữ liệu không biến động
Thông tin trong DW đƣợc tải vào sau khi dữ liệu trong hệ thống điều
hành đƣợc cho là quá cũ. Tính không biến động thể hiện ở chỗ: Dữ liệu
đƣợc lƣu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhƣng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép
cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần
thiết cho các mô hình nghiệp vụ phân tích, dự báo, từ đó có đƣợc những
quyết định hợp lý, phù hợp với các qui luật tiến hóa của tự nhiên.
1.1.3.6. Dữ liệu tổng hợp
Dữ liệu tác nghiệp thuần tuý không đƣợc lƣu trữ trong DW. DW chỉ
lƣu những dữ liệu tổng hợp đƣợc tích lại qua nhiều giai đoạn khác nhau
11
theo các chủ điểm nhƣ đã nêu ở trên.
1.1.4. Phân biệt DW với những hệ cơ sở dữ liệu tác nghiệp
Dựa trên cơ sở các đặc trƣng của DW, ta phân biệt DW với những hệ
quản trị cơ sở dữ liệu tác nghiệp truyền thống:
Kho dữ liệu phải đƣợc xác định theo hƣớng chủ đề. Nó đƣợc thực
hiện theo ý đồ của ngƣời sử dụng đầu cuối, ví dụ nhƣ những ngƣời
quản lý, những ngƣời phân tích, những chuyên gia, v.v trong khi các
hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung.
Các hệ CSDL tác nghiệp phục vụ xử lý giao dịch, cho phép cập nhật.
DW thƣờng chỉ đọc, phục vụ cho những nhu cầu báo cáo ra quyết
định.
DW quản lý một khối lƣợng lớn thông tin đƣợc lƣu trữ trên nhiều
phƣơng tiện lƣu trữ và xử lý khác nhau phục vụ cho công việc phân
tích, thống kê, dự báo, lập kế hoạch, v.v Những hệ CSDL thông
thƣờng không phải quản lý những lƣợng thông tin lớn mà quản lý
những lƣợng thông tin vừa và nhỏ phục vụ cho các công việc hàng
ngày. Trong khi đó thì DW phải quản lý những lƣợng thông tin rất
lớn và đó cũng chính là đặc thù của kho dữ liệu.
DW tích hợp và kết nối thông tin từ những nguồn khác nhau: DB2,
Oracle, SQL Server thậm chí cả những file thông thƣờng, chẳng hạn
nhƣ Word, Excel…, rồi làm sạch và đƣa vào cấu trúc của nó.
DW có thể lƣu trữ các thông tin tổng hợp theo một chủ đề nghiệp vụ
nào đó sao cho tạo ra các thông tin phục vụ hiệu quả cho việc phân
tích của ngƣời sử dụng.
DW thông thƣờng chứa các dữ liệu lịch sử kết nối nhiều năm trƣớc
12
của các thông tin tác nghiệp đƣợc tổ chức lƣu trữ có hiệu quả và có
thể hiệu chỉnh lại dễ dàng. Dữ liệu trong CSDL tác nghiệp thƣờng là
mới, có tính thời sự trong khoảng thời gian ngắn.
Dữ liệu từ CSDL tác nghiệp đƣợc chắt lọc và tổng hợp lại để chuyển
sang môi trƣờng DW. Rất nhiều dữ liệu khác không đƣợc chuyển về
DW, chỉ những dữ liệu cần thiết cho công tác quản lý hay trợ giúp
quyết định mới đƣợc chuyển sang DW.
Một điểm quan trọng là CSDL thƣờng đƣợc chuẩn hóa để tiện cho
việc khai thác. DW thì lại phải phi chuẩn hóa rồi sau đó có thể chuẩn
hóa theo giản đồ hình sao trong kho dữ liệu cục bộ (DataMart –
DM), nghĩa là kho dữ liệu sẽ trùng lặp thông tin. Điều này là hiển
nhiên vì mục đích của chuẩn hóa nhằm tránh sự trùng lặp dữ liệu, do
đó sẽ nhất quán trong việc cập nhật, thêm, xóa, sửa. Trong khi đó
DW là CSDL rất lớn phục vụ chủ yếu cho báo cáo truy vấn chỉ đọc
nên việc trùng lặp thông tin sẽ giúp tìm kiếm thông tin nhanh hơn.
Nói một cách tổng quát, DW làm nhiệm vụ phân phát dữ liệu cho
nhiều đối tƣợng (khách hàng) xử lý thông tin dƣới nhiều dạng nhƣ: CSDL,
SQL query, Reports, v.v.
1.1.5. Một số khái niệm cơ bản
1.1.5.1. Kho dữ liệu cục bộ - Datamart
Kho dữ liệu cục bộ (Datamart – DM) là CSDL có những
đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và
lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. [1]
DM là kho dữ liệu hƣớng chủ đề. Các DM có thể đƣợc hình thành từ
một tập con dữ liệu của kho dữ liệu hoặc cũng có thể đƣợc xây dựng độc
13
lập và sau khi xây dựng xong, các DM có thể đƣợc kết nối, tích hợp lại với
nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho dữ liệu bắt đầu
bằng việc xây dựng các DM hay ngƣợc lại xây dựng kho dữ liệu trƣớc sau
đó tạo ra các DM.
DM hƣớng tới một phần của dữ liệu thƣờng đƣợc gọi là một vùng chủ
đề (Subject Area -SA) đƣợc tạo ra và dành cho một nhóm ngƣời sử dụng.
Dữ liệu trong DM cho thông tin về một chủ đề xác định, không phải về
toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện
thƣờng xuyên nhất của DM là một kho dữ liệu riêng rẽ theo phƣơng diện
vật lý, thƣờng đƣợc lƣu trữ trên một Server riêng, trong một mạng cục bộ
phục vụ cho một nhóm ngƣời nhất định.
Có thể chia các DM ra làm 2 loại: DM độc lập và DM phụ thuộc
DM phụ thuộc (Dependent data mart): chứa những dữ liệu đƣợc lấy
từ DW và những dữ liệu này sẽ đƣợc trích lọc và tinh chế, tích hợp
lại ở mức cao hơn để phục vụ một chủ đề nhất định của DM.
DM độc lập (Independent data mart): không giống nhƣ DM phụ
thuộc, DM loại này đƣợc xây dựng trƣớc DW và dữ liệu đƣợc trực
tiếp lấy từ các nguồn khác nhau. Phƣơng pháp này đơn giản hơn và
chi phí thấp hơn nhƣng đổi lại có những điểm yếu. Mỗi DM độc lập
có cách tích hợp riêng, do đó dữ liệu từ nhiều DM khó đồng nhất với
nhau.
DM thể hiện hai vấn đề: thứ nhất là tính ổn định trong các tình huống
từ một DM nhỏ ban đầu lớn lên nhanh chóng theo nhiều chiều và thứ hai là
sự tích hợp dữ liệu. Vì vậy khi thiết kế DM phải chú ý kỹ tới tính ổn định
của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả năng quản lý.
Xây dựng Kho dữ liệu (Data Warehousing) không phải là một sản
14
phẩm mà là một quá trình kỹ thuật thu thập, quản lý và khai thác dữ liệu
một cách hợp lý từ nhiều nguồn khác nhau, để thiết lập một kho dữ liệu là
tập hợp các dữ liệu hợp nhất phản ánh chi tiết một phần hay toàn bộ công
tác nghiệp vụ của một tổ chức hay nói cách khác, đây là quá trình xác lập
cách nhìn, lập kế hoạch, xây dựng, sử dụng, quản trị, bảo trì và nâng cấp
Kho dữ liệu và DM. Không phụ thuộc vào việc xây dựng một kho dữ liệu
hay một DM, quá trình này rất phức tạp và luôn luôn tiếp diễn với trọng
tâm là các nhu cầu nghiệp vụ đối với kiến thức lấy dữ liệu làm căn cứ.
1.1.5.2. Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác
Kho dữ liệu tác nghiệp (Operational Database Store - ODS) là hệ thống
tác nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp
quyết định và phân tích trên dữ liệu giao dịch tác nghiệp [2].
Nói một cách khác, ODS là một khái niệm có kiến trúc để hỗ trợ cho
việc tạo quyết định tác nghiệp hàng ngày lƣu trữ những dữ liệu có giá trị
hiện thời đƣợc chuyển đến từ các ứng dụng tác nghiệp. Điều đó khiến cho
dữ liệu lƣu trữ trong ODS biến động thƣờng xuyên khi những dữ liệu liên
quan trong các hệ thống tác nghiệp có sự thay đổi. ODS cung cấp một sự
lựa chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ
liệu một cách trực tiếp từ các hệ thống xử lý các giao dịch trực tuyến.
Kho dữ liệu tác nghiệp cần phải đƣợc xây dựng riêng biệt và là một
phần của DW.
15
Hình 1.4 Sự phân cách giữa ODS và DW
Phân biệt giữa ODS với DW
Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội
dung và các cấu trúc dữ liệu đƣợc lƣu trữ. ODS chứa những dữ liệu
có giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn DW chứa
những dữ liệu lịch sử, có giá trị trong một quá khứ gần. ODS có thể
cập nhật còn DW không cập nhật đƣợc.
Nói chung dữ liệu trong DW thƣờng là rất lớn, nhiều hơn ở ODS,
nghĩa là chúng khác nhau về số lƣợng, phạm vi lƣu trữ dữ liệu.
ODS chỉ tập trung lƣu trữ những dữ liệu thuần nhất và có giá trị hiện
thời còn DW có thể chứa rất nhiều dữ liệu ở nhiều mức độ khác
nhau, những dữ liệu không thuần nhất.
16
Hình 1.5 Sự khác biệt giữa hai môi trường
Hình 1.6 Sự phong phú về chủng loại dữ liệu trong DW
Một sự khác nhau nữa là công nghệ hỗ trợ cho hai hệ thống đó. ODS
đòi hỏi phải là môi trƣờng đƣợc phép cập nhật, ghi, thay đổi đƣợc
những dữ liệu cần thiết để cho phù hợp với nghiệp vụ và nhanh
chóng trả lời đƣợc các yêu cầu của ngƣời sử dụng, DW thì ngƣợc lại,
chỉ yêu cầu đơn giản là nạp và truy cập dữ liệu.
17
Hình 1.7 Hai môi trường khác nhau về kỹ nghệ
Về mặt chức năng, ODS cung cấp một khung nhìn tập trung về dữ
liệu gần với thời gian thực từ các hệ thống tác nghiệp.
Nhƣ vậy ODS là hệ thống:
Hƣớng chủ đề
Tích hợp
Có thể thay đổi đƣợc, có thể cập nhật đƣợc
Tuyển tập các dữ liệu hiện tại hoặc gần với hiện tại hỗ trợ cho những
quyết định tác nghiệp hàng ngày.
Do đó có thể nói ODS khác chủ yếu với DW ở hai điểm cuối. Dữ liệu
từ nhiều ứng dụng hiện tại cần đƣợc chuyển đổi để lƣu vào ODS
Ví dụ: Trƣớc tiên chúng ta xét các bảng dữ liệu thu đƣợc từ ba ứng
dụng App1, App2, App3 đƣợc tích hợp lại nhƣ sau:
18
Hình 1.8 Tạo ra record dữ liệu tích hợp từ nhiều ứng dụng khác nhau
Một khách hàng có thể có nhiều tài khoản, nhƣ hình trên Tran Anh có
ba tài khoản. Một điểm cần lƣu ý trong ODS là phải tạo ra khóa chung
(Customer id) để lấy đƣợc dữ liệu từ nhiều nguồn khác nhau và đƣợc đƣa
vào record tƣơng ứng.
Tóm lại, các đặc tính của hệ thống dữ liệu thao tác ODS và kho dữ
liệu DW có các đặc tính chính nhƣ sau:
19
Đặc trƣng
Mục đích
ODS
DW
Một ứng dụng tại mỗi thời Một hay nhiều chủ đề
ở
điểm trong môi trƣờng hiện cùng một thời điểm
tại hoặc chứa dữ liệu về
một chủ đề
ở từng thời
điểm
Các yêu cầu
Ứng dụng chính
Biết tƣờng tận
Mơ hồ
Trợ giúp quyết định, quản lý,
Nghiệp vụ hàng ngày
tăng lợi nhuận, lợi thế cạnh
tranh.
Một số nhỏ các dòng dữ
Truy cập dữ liệu
liệu tìm đƣợc trong mỗi lần
gọi
Khối lƣợng dữ
Khối lƣợng dữ liệu vừa
liệu
phải cho các công việc
hàng ngày
Tập dữ liệu rất lớn đƣợc đọc
để tìm kiếm thông tin.
Khối lƣợng rất lớn dữ liệu cần
để phân
tích,
thống kê,
dự
báo, lập kế hoạch, báo cáo, v.v.
Lƣu giữ các dữ liệu nghiệp Dữ liệu có tính lịch sử đƣợc
Duy trì dữ liệu
vụ ngắn hạn để đối sánh, duy trì dài hàng ngày.
phân tích, v.v.
Khả năng
Mức độ sẵn sàng
của dữ liệu
thực hiện đồng thờiPhần lớn xử lý tĩnh và dữ
Có thể trong từng phút
liệu không thay đổi.
Độ sẵn sàng ở mức cao Không yêu cầu dữ liệu phải
theo yêu cầu
sẵn
sàng
sàng
caocao
20
Nhỏ, quản lý đƣợc và dự Lớn, không đoán trƣớc và
Đơn vị công việc
Hiệu quả công
đoán đƣợc từng đơn vị các đơn vị công việc hay thay
công tác
đổi.
Hiệu quả cao
Linh hoạt
việc
1.1.6. Tổ chức lưu trữ dữ liệu trong kho
Có hai cách lƣu trữ dữ liệu theo đa chiều:
Mô hình dữ liệu đa chiều MDD (MultiDimensional Database) sử
dụng cấu trúc khối Cube để lƣu trữ. Kỹ thuật khai thác tƣơng ứng là
MOLAP.
Hình 1.9 Mô hình dữ liệu đa chiều sử dụng cấu trúc khối để lưu trữ
Lƣu trữ theo mô hình dữ liệu quan hệ đa chiều sử dụng sơ đồ hình
sao, kỹ thuật khai thác tƣơng ứng là ROLAP
21
Hình 1.10 Mô hình dữ liệu quan hệ đa chiều sử dụng sơ đồ hình sao
1.2. Các kiểu dữ liệu
1.2.1 Dữ liệu kinh doanh
Dữ liệu kinh doanh (Business data – BD) là dữ liệu dùng để vận hành
và quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt
động của doanh nghiệp và những đối tƣợng trong thế giới thực nhƣ là
khách hàng, địa điểm, sản phẩm v.v.. Nó đƣợc tạo ra và sử dụng bởi các hệ
thống xử lý giao tác cũng nhƣ các hệ thống hỗ trợ quyết định (DSS).[2]
Dựa trên dữ liệu có cấu trúc, dữ liệu nghiệp vụ đƣợc chia làm 3 loại
sau:
Dữ liệu thời gian thực (real-time data): Dữ liệu chi tiết, tức thời
(up-to-the second) dùng để vận hành công việc và đƣợc truy xuất
theo chế độ đọc/ghi thông qua các giao dịch đã đƣợc xác định trƣớc.
Dữ liệu thời gian thực đƣợc tạo lập, thao tác và sử dụng trong các
ứng dụng thao tác hay sản xuất. Chúng có thể tổ chức thành các files
hay CSDL.
22
Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm
(point-in- time) hoặc dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp,
thuộc chế độ chỉ đọc, nhận đƣợc từ việc xử lý dữ liệu thời gian
thực và dùng để quản lý công việc nghiệp vụ. Dữ liệu dẫn xuất là
tập dữ liệu thƣờng đƣợc sử dụng để trợ giúp quyết định.
Dữ liệu tương hợp, hòa hợp (reconciled data): Dữ liệu tƣơng hợp là
một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình đƣợc
thiết kế nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến
trình này đƣợc thực hiện dựa vào dữ liệu thời gian thực tại mức chi
tiết, duy trì hoặc tạo ra các dữ liệu lịch sử.
1.2.2 Dữ liệu phi cấu trúc
Ngƣợc lại với dữ liệu có cấu trúc, dữ liệu phi cấu trúc là những dữ
liệu không thuần nhất.
Ví dụ: hình ảnh, âm thanh hay phim là những dữ liệu phi cấu trúc.
Tầm quan trọng của dữ liệu phi cấu trúc ngày càng tăng lên trong công
việc nghiệp vụ cũng nhƣ trong các hệ thống thông tin.
Dữ liệu phi cấu trúc có kích thƣớc lớn, khó thao tác và không đƣợc
hỗ trợ tốt trong các cơ sở dữ liệu và các công cụ khác. Tuy vậy một kho
chứa thông thƣờng không thể không có dữ liệu loại này, nhƣng nó chỉ
đƣợc đƣa vào kho sau khi đã hoàn thành việc đƣa dữ liệu có cấu trúc vào
kho.
1.2.3 Siêu dữ liệu (Metadata)
Một thành phần quan trọng của kho dữ liệu là metadata (dữ liệu về
dữ liệu), trả lời cho các câu hỏi ai, cái gì, khi nào, tại sao, nhƣ thế nào về
dữ liệu. Metadata đƣợc sử dụng cho việc xây dựng, duy trì, quản lý và sử
23
dụng kho dữ liệu [2].
Metadata đƣợc chia thành 3 loại: siêu dữ liệu nghiệp vụ, siêu dữ liệu
kỹ thuật và siêu dữ liệu tác nghiệp.
1.2.3.1
Siêu dữ liệu nghiệp vụ (Business Metadata)
Chứa đựng những thông tin giúp cho ngƣời sử dụng dễ dàng hiểu
đƣợc khung cảnh của thông tin đƣợc lƣu trữ trong DW, bao gồm những
thông tin cho tất cả những ngƣời sử dụng đầu cuối về:
Các vùng chủ điểm và các loại đối tƣợng thông tin bao gồm các câu
truy vấn, các báo cáo, các hình ảnh, video và các audio clip.
Các trang chủ trên Internet.
Các thông tin khác để hỗ trợ cho tất cả các thành phần cấu thành
DW. Chẳng hạn nhƣ các thông tin liên quan tới các hệ thống phân
phối thông tin bao gồm: lịch làm việc, những chi tiết về nơi phân
phối, các đối tƣợng truy vấn nhƣ những truy vấn, báo cáo và các
phân tích đƣợc xác định trƣớc.
Các thông tin tác nghiệp của DW nhƣ lịch sử của dữ liệu (các
snapshot, các version), quyền sở hữu, theo dõi sổ sách, sử dụng dữ
liệu.
Miêu tả các thuộc tính DW bằng cách xác định tên của công việc,
các định nghĩa, các bảng mô tả và các bí danh.
Những thông tin trên nhằm trả lời những câu hỏi sau:
Tên nghiệp vụ của cột, định nghĩa, mô tả hoặc các bí danh?
Các cột liên kết với nhau nhƣ thế nào?
Tìm thông tin ở đâu?
24
Dữ liệu xuất phát từ đâu, hệ thống nguồn là gì?
Các luật nghiệp vụ và sự biến đổi đƣợc thực hiện với dữ liệu trong
các giai đoạn nghiệp vụ ?
Ai làm chủ dữ liệu, biết đƣợc ai nắm giữ dữ liệu là rất quan trọng
cho việc thay đổi, truy nhập các câu hỏi and, or về dữ liệu?
Dữ liệu đƣợc làm mới (refresh) lần cuối khi nào?
1.2.3.2
Siêu dữ liệu kỹ thuật (Technical Metadata)
Chứa đựng những thông tin về dữ liệu trong DW cho những ngƣời
thiết kế và quản trị khi tiến hành công việc phát triển và quản lý, bao gồm:
Thông tin về các nguồn dữ liệu kể cả những nguồn tác nghiệp và
những hệ thống nguồn bên ngoài môi trƣờng DW về vị trí, tên các
file, kiểu file, tên các trƣờng và các đặc tính, bí danh, thông tin về
phiên bản, những mối quan hệ, độ lớn, tính dễ biến động, ngƣời chủ
dữ liệu và những ngƣời sử dụng có quyền truy nhập.
Những mô tả về sự chuyển đổi, ví dụ nhƣ cách thức ánh xạ từ cơ sở
dữ liệu tác nghiệp lên DW và các thuật toán đƣợc sử dụng để biến
đổi và cải thiện hay chuyển đổi dữ liệu.
Những định nghĩa cấu trúc dữ liệu và đối tƣợng trong môi trƣờng
Warehouse cho dữ liệu đích.
Những luật dùng để làm sạch và cải thiện dữ liệu.
Những phép toán ánh xạ dữ liệu khi lấy dữ liệu từ các hệ thống
nguồn và đƣa chúng vào cơ sở dữ liệu đích.
Quyền truy nhập, lịch sử dữ liệu đƣợc sao lƣu dự phòng (backup), về
quá trình lƣu trữ, về sự phân phối thông tin, về sự thu nhận dữ liệu,
25