ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC BÁCH KHOA
----------------------------
TRỊNH PHONG NHÃ
XÂY DỰNG KHO DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU
ĐA CHIỀU NHẰM TRỰC QUAN HÓA DỮ LIỆU NHÂN SỰ
TRONG DỰ ÁN TẠI MỘT CÔNG TY PHẦN MỀM
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 60340405
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, THÁNG 7 NĂM 2016
i
CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM
Cán bộ hƣớng dẫn khoa học: PGS.TS Đặng Trần Khánh
.......................................................................................................................................
Cán bộ chấm nhận xét 1: TS. Lê Lam Sơn ..................................................................
.......................................................................................................................................
Cán bộ chấm nhận xét 2: TS. Nguyễn Tuấn Đăng......................................................
.......................................................................................................................................
Luận văn thạc sĩ đƣợc bảo vệ tại Trƣờng Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 18 tháng 7 năm 2016
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Nguyễn Thanh Bình .........................................................................................
2. TS. Trƣơng Tuấn Anh ............................................................................................
3. TS. Lê Lam Sơn .......................................................................................................
4. TS. Nguyễn Tuấn Đăng...........................................................................................
5. PGS.TS. Vũ Thanh Nguyên ...................................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trƣởng Khoa quản lý chuyên
ngành sau khi luận văn đã đƣợc sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TS. Nguyễn Thanh Bình
TRƢỞNG KHOA KH&KTMT
ii
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Trịnh Phong Nhã
MSHV:13320798
Ngày, tháng, năm sinh: 27/01/1985
Nơi sinh: Quảng Bình
Chun nghành: Hệ thống thơng tin quản lý
Mã số: 60340405
I.
TÊN ĐỀ TÀI
XÂY DỰNG KHO DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU ĐA CHIỀU NHẰM TRỰC
QUAN HÓA DỮ LIỆU NHÂN SỰ TRONG DỰ ÁN TẠI MỘT CÔNG TY PHẦN
MỀM
II. NHIỆM VỤ VÀ NỘI DUNG
1. Tổng hợp một số lý thuyết về kho dữ liệu.
2. Xây dựng kho dữ liệu với cơ sở dữ liệu đa chiều.
3. Trực quan hóa dữ liệu nhân sự trong dự án của công ty phần mềm.
III. NGÀY GIAO NHIỆM VỤ: 12/01/2016
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2016
V. HỌ VÀ TÊN CÁN BỘ HƢỚNG DẪN: PGS.TS Đặng Trần Khánh
Tp. HCM, ngày . . . tháng. . . năm 20…
CÁN BỘ HƢỚNG DẪN
TRƢỞNG KHOA KH & KTMT
(Họ tên và chữ ký)
(Họ tên và chữ ký)
PGS.TS Đặng Trần Khánh
iii
LỜI CẢM ƠN
Em xin bày tỏ lịng kính trọng và biết ơn sâu sắc tới Thầy giáo, PGS. TS.
ĐẶNG TRẦN KHÁNH, trƣờng Đại học Bách khoa TPHCM đã hƣớng dẫn và
động viên em rất nhiều trong quá trình làm đề cƣơng luận văn.
Em xin đƣợc gửi lời cảm ơn tới các Thầy, Cô trong khoa Khoa học và kỹ thuật
máy tính và Khoa Quản lý cơng nghiệp trƣờng Đại học Bách khoa TPHCM, những
ngƣời đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập.
Cuối cùng, xin gửi lời biết ơn tới ba mẹ, em gái, vợ và con trai, những ngƣời
đã luôn bên cạnh và khích lệ con trong thời gian qua.
Biển học là vơ bờ, mà khả năng của em thì có giới hạn, em kính mong sẽ đƣợc
sự chỉ bảo của các Thầy Cô trong Hội đồng bảo vệ luận văn.
Trân trọng!
iv
TĨM TẮT NỘI DUNG LUẬN VĂN
Đề tài tìm hiểu các đặc tính của kho dữ liệu cơ sở dữ liệu đa chiều, kiến trúc
khối. Từ đó xây dựng một kho dữ liệu với cơ sở dữ liệu đa chiều về nhân sự của
một công ty gia công phần mềm. Tiếp theo đề tài trực quan hóa cơ sở dữ liệu này
theo từng cấp dự án (project). Kết quả thực tế của đề tài là một hệ thống cung cấp
thông tin trực quan về nhân sự cho các cấp quản lý. Hệ thống này bao gồm các biểu
đồ, báo cáo… đa chiều, có thể tƣơng tác đƣợc (chọn dạng thức hiển thị biểu đồ,
chọn loại thông tin, lọc dữ liệu, sắp xếp (order), đi sâu vào chi tiết hoặc tổng hợp
lên theo nhiều chiều (drill down và roll up)…)
v
ABSTRACT
This thesis dealed with data warehouse, multidimentional database, cube
architecture in order to build a mulitdimentional human resources data warehouse
for an outsource software company. It also visualize this database to the project
hierachy. The final result of this thesis is an application that provides visual
information on human resources for the managers. This system includes interacive
multidimentional charts, reports, dashboards…that we can choose type options,
choose important information to present, filter, sort, and drill down or roll up…
vi
LỜI CAM ĐOAN
Tôi xin cam đoan những số liệu đƣợc sử dụng trong nghiên cứu này là do tôi
tự nghiên cứu, khảo sát và thực hiện. Các dữ liệu đƣợc thu thập và xử lý một cách
khách quan và trung thực.
Tp. Hồ Chí Minh, tháng 6 năm 2016
vii
MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... iii
TÓM TẮT NỘI DUNG LUẬN VĂN................................................................... iv
ABSTRACT ........................................................................................................... v
LỜI CAM ĐOAN ................................................................................................. vi
DANH MỤC BẢNG BIỂU ................................................................................... x
DANH MỤC HÌNH ẢNH ................................................................................... xii
DANH MỤC CHỮ VIẾT TẮT........................................................................... xiv
CHƢƠNG 1. TỔNG QUAN .................................................................................. 1
1.1
Tóm tắt đề tài .................................................................................................1
1.2
Giới hạn nghiên cứu ......................................................................................1
1.3
Phƣơng pháp nghiên cứu ...............................................................................1
1.4
Bố cục báo cáo luận văn ................................................................................1
CHƢƠNG 2. CƠ SỞ LÝ THUYẾT ...................................................................... 3
2.1
Kho dữ liệu ....................................................................................................3
2.1.1
Khái niệm ................................................................................................3
2.1.2
Sự khác nhau của cơ sở dữ liệu tác nghiệp và kho dữ liệu .....................4
2.1.3
Các mục tiêu của kho dữ liệu..................................................................5
2.1.4
Các thành phần của một kho dữ liệu: .....................................................6
2.1.5
Mơ hình dữ liệu và việc thiết kế kho dữ liệu: .......................................11
2.2
Cơ sở dữ liệu đa chiều .................................................................................17
2.2.1
Mơ hình đa chiều ..................................................................................17
2.2.2
Mơ hình hóa đa chiều: ..........................................................................18
2.2.3
Các loại mơ hình đa chiều.....................................................................19
viii
2.2.4
2.3
Các ngun lý thiết kế mơ hình đa chiều ..............................................21
ETL ..............................................................................................................26
2.3.1
Khái quát về tích hợp dữ liệu. ...............................................................26
2.3.2
Các phƣơng pháp nạp dữ liệu cho kho dữ liệu .....................................27
2.3.3
Những hoạt động tích hợp dữ liệu. .......................................................29
2.4
Xử lý phân tích trực tuyến ...........................................................................35
2.4.1
Khái niệm ..............................................................................................35
2.4.2
Các kiến trúc OLAP ..............................................................................36
2.4.3
So sánh các kiến trúc OLAP. ................................................................37
2.4.4
Khối (Cube) và Chiều (Dimension) trong OLAP. ................................37
2.4.5
Ngôn ngữ MDX. ...................................................................................39
CHƢƠNG 3. YÊU CẦU - THIẾT KẾ - HIỆN THỰC ....................................... 44
3.1
Yêu cầu ........................................................................................................44
3.2
Thiết kế ........................................................................................................46
3.2.1
Kho dữ liệu ban đầu dạng cơ sở dữ liệu quan hệ..................................46
3.2.2
Headcount Datamart .............................................................................52
3.3
Hiện thực .....................................................................................................58
3.4
Kết quả .........................................................................................................59
CHƢƠNG 4. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ..................................... 65
4.1
Kết luận........................................................................................................65
4.2
Hạn chế ........................................................................................................66
4.3
Đánh giá ứng dụng ......................................................................................66
4.4
Hƣớng phát triển ..........................................................................................66
TÀI LIỆU THAM KHẢO .................................................................................... 67
ix
PHỤ LỤC A ......................................................................................................... 69
PHỤ LỤC B ......................................................................................................... 77
LÝ LỊCH TRÍCH NGANG .................................................................................. 88
x
DANH MỤC BẢNG BIỂU
Bảng 2-1 Ví dụ CSDL thơng tin nhân viên ...............................................................23
Bảng 2-2 Bảng CSDL thông tin nhân viên sau cập nhật (SCD1) .............................24
Bảng 2-3 Bảng CSDL thông tin nhân viên sau cập nhật (SCD2) .............................24
Bảng 2-4 Bảng CSDL thông tin nhân viên sau cập nhật (SCD3) .............................25
Bảng 2-5 Bảng NhanVien (SCD4) ............................................................................25
Bảng 2-6 Bảng NhanVienHistory (SCD4)................................................................25
Bảng 2-7 Bảng nhân viên trƣớc khi cập nhật (SCD5) ..............................................26
Bảng 2-8 Bảng nhân viên sau khỉ cập nhật (SCD6) .................................................26
Bảng 2-9 Bảng nhân viên sau khi tiếp tục cập nhật (SCD5) ....................................26
Bảng 2-10 Bảng so sảnh các kiến trúc OLAP ...........................................................37
Bảng 2-11 Bảng dữ kiện của khối .............................................................................38
Bảng 2-12 Các trục trong MDX ................................................................................40
Bảng 3-1 Bảng Unit ..................................................................................................47
Bảng 3-2 Bảng Nationality........................................................................................47
Bảng 3-3 Bảng.EmployeeUnitHistory ......................................................................48
Bảng 3-4 Bảng EmployeeUnit ..................................................................................48
Bảng 3-5 Bảng EmployeePosition ............................................................................49
Bảng 3-6 Bảng EmloyeeLevel ..................................................................................49
Bảng 3-7 Bảng EmployeeAttrition ...........................................................................49
Bảng 3-8 Bảng Employee .........................................................................................50
Bảng 3-9 Bảng AttritionReason ................................................................................51
Bảng 3-10 Bảng UnitType ........................................................................................51
Bảng 3-11 Bảng FactResourceWeek ........................................................................52
Bảng 3-12 Bảng FactResourceMonth .......................................................................53
Bảng 3-13 Bảng FactNewHire ..................................................................................53
Bảng 3-14 Bảng FactAtrition ....................................................................................53
Bảng 3-15 Bảng DimWeek .......................................................................................54
Bảng 3-16 Bảng DimUnit .........................................................................................54
xi
Bảng 3-17 Bảng DimPosition ...................................................................................55
Bảng 3-18 Bảng DimMonth ......................................................................................55
Bảng 3-19 Bảng DimEmployee ................................................................................56
Bảng 3-20 Bảng DimDate .........................................................................................56
Bảng 3-21 Bảng DimAttritionReason .......................................................................57
xii
DANH MỤC HÌNH ẢNH
Hình 2-1 Các thành phần của kho dữ liệu [11] ...........................................................6
Hình 2-2 Bảng sự kiện (tác giả) ..................................................................................9
Hình 2-3 Bảng chiều dữ liệu (tác giả) .......................................................................10
Hình 2-4 Chuyển dữ liệu từ hệ thống điều hành sang môi trƣờng kho dữ liệu khơng
chỉ đơn thuần là việc trích xuất dữ liệu [15] .............................................................12
Hình 2-5 Dữ liệu từ các ứng dụng khác nhau cực kỳ rời rạc [15] ............................12
Hình 2-6 Chuyển đổi dữ liệu từ các hệ thống hiện tại sang môi trƣờng kho dữ liệu
một cách hợp lý thì nó sẽ đƣợc tích hợp [15]............................................................13
Hình 2-7 Các thực thể và các mối quan hệ [15]........................................................14
Hình 2-8 Mỗi thực thế trong mơ hình ERD sẽ đƣợc xác định bằng mơ hình DIS [15]
...................................................................................................................................14
Hình 2-9 Các quan hệ trong ERD sẽ đƣợc phản ánh bằng các kết nối trong DIS [15]
...................................................................................................................................15
Hình 2-10 Các đầu vào của bảng đƣợc trình bày bằng hai giao tác [15] ..................16
Hình 2-11 Các yếu tố thiết kế liên quan đến hiệu suất [15] ......................................16
Hình 2-12 Mơi trƣờng đọc ghi dữ liệu [15] ..............................................................17
Hình 2-13 Sơ đồ hình sao (star schema) [3] .............................................................19
Hình 2-14 Sơ đồ bơng tuyết (Snowflake schema) [3]...............................................20
Hình 2-15 Sơ đồ chịm sao sự kiện (Fact constellations schema) [3] .......................21
Hình 2-16 Cách tiếp cân ETL với tầng dữ liệu trung gian [13] ................................27
Hình 2-17 Cách tiếp cân ETL khơng có tầng dữ liệu trung gian [13] ......................28
Hình 2-18 Cách tiếp cân ELT cho phép việc chuyến đối dữ liệu trên máy chủ kho
dữ liệu [13] ................................................................................................................29
Hình 2-19 Ví dụ khối 3 chiều. ...................................................................................38
Hình 3-1 Sơ đồ kho dữ liệu ban đầu dạng cơ sở dữ liệu quan hệ .............................46
Hình 3-2 Sơ đồ Headcount datamart .........................................................................52
Hình 3-3 Thiết kế nhóm kỹ năng của nhân viên [11] ...............................................57
Hình 3-4 Thiết kế bảng sự kiện và bảng chiều nhân viên [10] .................................57
xiii
Hình 3-5 Thiết kế Data Source View ........................................................................58
Hình 3-6 Thiết kế khối dữ liệu ..................................................................................58
Hình 3-7 Thiết kế Calcutated Members ....................................................................59
Hình 3-8 Cây phân tích có thể mở rộng và thu gọn các đơn vị theo phân cấp dự án
...................................................................................................................................59
Hình 3-9 Biểu đồ so sánh Headcount của các group trong cơng ty ..........................60
Hình 3-10 Biểu đồ Headcount của các trung tâm trực thuộc khi click vào nhóm 1 .60
Hình 3-11 Xu hƣớng số lƣợng nhân viên mới vào và nhân viên nghỉ việc theo tuần
...................................................................................................................................61
Hình 3-12 Biểu đồ cột kết hợp hiện thị song song số lƣợng và tỷ lệ phần trăm nhân
viên Billable ..............................................................................................................61
Hình 3-13 Biểu đồ đƣờng thẳng Headcount của tồn cơng ty, Headcount và Billable
của trung tâm .............................................................................................................62
Hình 3-14 Tùy chỉnh phần giải thích của biểu đồ ....................................................62
Hình 3-15 Tùy chỉnh dạng thể hiện của biểu đồ .......................................................62
Hình 3-16 Lọc (filter) các giá trị trong biểu đồ.........................................................63
Hình 3-17 Drill down biểu đồ xuống các cây phân cấp của dự án ...........................63
Hình 3-18 Sắp xếp thứ tự trình bày các thành phần biểu đồ theo giá trị ..................64
xiv
DANH MỤC CHỮ VIẾT TẮT
BI
Business Intelligent (Trí tuệ kinh doanh)
DSS Decision Support System (Hệ hỗ trợ ra quyết định)
DM
Data Mart (Siêu thị dữ liệu)
DW
Data warehouse (Kho dữ liệu)
1
CHƢƠNG 1. TỔNG QUAN
1.1 Tóm tắt đề tài
Đề tài tìm hiểu các đặc tính của kho dữ liệu cơ sở dữ liệu đa chiều, kiến trúc
khối. Từ đó xây dựng một kho dữ liệu với cơ sở dữ liệu đa chiều về nhân sự của
một công ty gia công phần mềm. Tiếp theo đề tài trực quan hóa cơ sở dữ liệu này
theo từng cấp dự án (project). Kết quả thực tế của đề tài là một hệ thống cung cấp
thông tin trực quan về nhân sự cho các cấp quản lý. Hệ thống này bao gồm các biểu
đồ, báo cáo… đa chiều, có thể tƣơng tác đƣợc (chọn dạng thức hiển thị biểu đồ,
chọn loại thông tin, lọc dữ liệu, sắp xếp (order), đi sâu vào chi tiết hoặc tổng hợp
lên theo nhiều chiều (drill down và roll up)…)
1.2 Giới hạn nghiên cứu
Đề tài đƣợc thực hiện tại một công ty gia công phần mềm lớn. Do nhu cầu bảo
mật của công ty, xin đƣợc phép ẩn danh công ty đƣợc sử dụng trong nghiên
cứu này, và gọi tắt là công ty.
Đề tài thu thập dữ liệu về nhân sự trong từng dự án: những nhân viên đang
làm, những nhân viên đƣợc khách hàng trả lƣơng (billable) [*], và những nhân
viên không đƣợc khách hàng trả lƣơng (non billable, backup)[*], những nhân
viên nghỉ việc, những nhân viên mới vào. Hệ thống cấp bậc quản lý từ trên
xuống dƣới gồm: cơng ty, nhóm các trung tâm gia cơng phần mềm, trung tâm
gia cơng phần mềm, chƣơng trình, dự án.
1.3 Phƣơng pháp nghiên cứu
Đầu tiên, đề tài sử dụng phƣơng pháp thu thập thông tin và thống kê. Sau đó,
đề tài sử dụng các phƣơng pháp chính là phƣơng pháp thực nghiệm khoa học và
phƣơng pháp phân tích tổng kết kinh nghiệm thực tiễn.
1.4 Bố cục báo cáo luận văn
Chƣơng đầu tiên nêu tổng quan về luận văn, gồm có tóm tắt đề tài, giới hạn
nghiên cứu, phƣơng pháp nghiên cứu.
Chƣơng 2 nêu cơ sở lý thuyết về kho dữ liệu và cơ sở dữ liệu đa chiều, trong
đó bao gồm khái niệm, các mục tiêu, các thành phần, việc thiết kế kho dữ liệu, các
2
phƣơng pháp nạp dữ liệu cho kho dữ liệu, mô hình hóa đa chiều và các loại mơ hình
đa chiều.
Chƣơng 3 nêu yêu cầu của hệ thống, thiết kế kho dữ liệu ban đầu dạng cơ sở
dữ liệu quan hệ, rồi chuyển sang dạng cơ sở dữ liệu đa chiều, hiện thực chuyển đổi
thành các khối dữ liệu, trực quan hóa dữ liệu nhân sự trong các cấp dự án và kết quả
là các biểu đồ, báo cáo động.
Chƣơng cuối cùng nêu kết luận, hạn chế, đánh giá và hƣớng phát triển của
luận văn.
3
CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
2.1 Kho dữ liệu
2.1.1 Khái niệm
Định nghĩa về kho dữ liệu lần đầu đƣợc Bill Inmon phát biểu “Kho dữ liệu là
một tập hợp dữ liệu hƣớng chủ đề, tích hợp, cập nhật theo thời gian và ổn kiên định,
nhằm hỗ trợ quá trình ra quyết định” [15]. Inmon giải thích cụ thể:
Hướng chủ đề (Subject-Oriented): Các hệ thống xử lý giao dịch trực tuyến có
thể chứa khối lƣợng lớn dữ liệu, tuy nhiên những số liệu này có thể hồn tồn
khơng có ích trong việc phân tích trực tuyến (VD: diễn giải, mã số nhân
viên...). Các dữ liệu kiểu này sẽ không đƣợc đƣa vào kho dữ liệu để hạn chế
dữ liệu cần xem xét xuống mức tối thiểu nhƣng cũng bảo đảm các thông tin
theo từng vùng chủ đề (Subject area). Một vùng chủ đề là một chủ đề đƣợc
tách ra từ một tập hợp lớn các chủ đề mà ngƣời sử dụng quan tâm trong q
trình kinh doanh (Ví dụ nhân viên, thời gian hay dự án).
Tích hợp (Integrated):có nghĩa là dữ liệu đƣợc thu thập trong kho dữ liệu có
thể đến từ nhiều nguồn khác nhau, nhƣng đƣợc kết hợp thành một đơn vị hợp
lý và có liên quan mật thiết với nhau. Ví dụ: dữ liệu có thể lấy từ bộ phận
Marketing và Sales để đƣa vào kho dữ liệu thành doanh thu hàng năm.
Cập nhật theo thời gian (Time-Variant): Yêu cầu quan trong cho kho dữ liệu
là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp. Kho dữ liệu
lƣu trữ dữ liệu trong quá khứ cũng nhƣ hiện tại để hỗ trợ các quyết định kinh
doanh trong tƣơng lai. Dữ liệu quá khứ sẽ trợ giúp trong việc xác định các
mẫu dữ liệu đƣa đến một số quyết định kinh doanh nào đó. Nó phụ thuộc vào
ngƣời quản trị và nhà quản lý doanh nghiệp về việc quyết định cách lƣu trữ dữ
liệu trong kho dữ liệu trong bao lâu. Yếu tố thời gian đƣợc lƣu trữ trong
CSDL.
Ồn định (Non-Volatile): việc cập nhật dữ liệu đƣợc lƣu trữ trong kho dữ liệu
sẽ khơng diễn ra, mà thay vào đó là các thông tin đƣợc tổ chức để lƣu trữ các
thay đổi của dữ liệu đó. Dữ liệu trong kho dữ liệu đƣợc sử dụng cho việc phân
4
tích nên các thao tác xóa hay cập nhật dữ liệu có thể làm ảnh hƣởng tới việc
phân tích này. Vì vây, nói chung là dữ liệu trong kho dữ liệu khơng bao giờ
đƣợc xóa bỏ hay cập nhật. Bất cứ khi nào một trƣờng cụ thể hoặc mục dữ liệu
đƣợc cập nhật tại nguồn thì phiên bản mới của nó đƣợc lƣu trữ trong kho dữ
liệu để vơ hiệu phiên bản dữ liệu cũ.
Ralph Kimball đƣa ra một định nghĩa đơn giản hơn, nhƣ đề cập trong cuốn
“The Data Warehouse Toolkit”: kho dữ liệu là một nơi sao lƣu dữ liệu tác nghiệp,
nhƣng đƣợc cấu trúc đặc thù để phục vụ cho việc truy vấn và phân tích [11]. Định
nghĩa này ít đi vào chi tiết hơn định nghĩa của Inmon, nhƣng vẫn bảo đảm tính tổng
quát của kho dữ liệu.
2.1.2 Sự khác nhau của cơ sở dữ liệu tác nghiệp và kho dữ liệu
Thông thƣờng, khi tin học hóa hoạt động quản lý một tổ chức, ngƣời ta thƣờng
xây dựng CSDL cho các hoạt động quản lý nghiệp vụ thƣờng xuyên của tổ chức
và ta có đƣợc CSDL tác nghiệp. Hệ thống thông tin tác nghiệp với các dữ liệu tác
nghiệp có các đặc điểm sau đây:
Trợ giúp cho công việc hàng ngày
Lƣu các dữ liệu hiện thời, phản ánh trạng thái của công việc.
Hoạt động của hệ thống thƣờng đơn giản, giới hạn trong một phạm vi nghiệp
vụ đã đƣợc xác định, và hoạt động chủ yếu là cập nhật dữ liệu.
Xử lý thông tin hƣớng đến việc xử lý nhanh các tác vụ đã đƣợc xác định trƣớc
Ngƣời dùng là ngƣời làm công việc cụ thể, ở mức độ chi tiết nhƣ thƣ ký,nhân
viên bán hàng, thủ kho,…
Thiết kế thƣờng khó hiểu (các bảng dữ liệu phải đạt chuẩn 3 trở lên) đối với
ngƣời dùng và che dấu đi những quan hệ trực quan của đời thƣờng.
Trong khi đó kho dữ liệu chủ yếu trợ giúp q trình phân tích và ra
quyết định cần có các tính chất sau:
Trợ giúp q trình quản lý và điều hành cơng việc
Lƣu các dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của cơng việc
trong một giai đoạn hay các thời điểm trong quá khứ.
5
Đƣợc tối ƣu hóa cho việc truy vấn, với câu hỏi đã xác định trƣớc hay đƣợc
thiết lập theo yêu cầu ngƣời sử dụng.
Ngƣời dùng là những nhà quản lý, phân tích, dự báo hay đánh giá cơng việc
và ra quyết định, các yêu cầu thƣờng đa dạng và có tính nghiệp vụ chun
ngành.
Dữ liệu đƣợc thiết kế dễ hiểu và dễ sử dụng đối với ngƣời dùng.
2.1.3 Các mục tiêu của kho dữ liệu
Trƣớc khi đi vào chi tiết của các thành phần kho dữ liệu, chúng ta sẽ tìm hiểu
về các mục tiêu cơ bản của kho dữ liệu. Các vấn đề nảy sinh có thể xảy ra là:
Chúng ta có cả núi dữ liệu nhƣng không thể truy cập đƣợc.
Chúng ta cần cắt và chia nhỏ dữ liệu bằng mọi cách.
Mọi ngƣời có thể dễ dàng lấy dữ liệu một cách trực tiếp.
Chỉ cho biết những thành phần quan trọng.
Ngăn chặn việc diễn giải cùng một vấn đề mà khác nhau các con số.
Chúng ta muốn mọi ngƣời sử dụng thông tin để hỗ trợ việc ra quyết định.
Nhƣ vậy, với các yêu cầu về công việc nhƣ trên, chúng ta sẽ chuyển đổi thành
các yêu cầu của một kho dữ liệu. Các mục tiêu này đƣợc phát triển dựa trên
các yêu cầu và việc quản lý kinh doanh.
Truy cập dễ dàng: Thông tin lƣu trữ trong kho dữ liệu phải trực quan và dễ
hiểu với ngƣời dùng. Dữ liệu nên đƣợc trình bày thơng qua các tên gọi quen
thuộc và gần gũi với nghiệp vụ của ngƣời dùng. Tốc độ truy cập kho dữ liệu
phải nhanh. Do phải xử lý một số lƣợng bản ghi lớn cùng một lúc nên đây là
một trong những yêu cầu cơ bản cần phải có của một kho dữ liệu
Thông tin nhất quán: Dữ liệu trong một kho dữ liệu thƣờng đến từ nhiều
nguồn khác nhau. Do vậy trƣớc khi đƣợc đƣa vào kho dữ liệu dữ liệu cần phải
đƣợc làm sạch và đảm bảo về chất lƣợng. Việc làm sạch sẽ giúp cho việc đồng
nhất dữ liệu trở nên dễ dàng. Một nguyên tắc đƣợc đặt ra cho qúa trình này là:
Nếu dữ liệu có cùng tên thì bắt buộc phải chỉ đến cùng một địa chỉ. Nếu dữ
liệu chỉ đến các thực thể khác nhau thì phải đƣợc đặt tên khác nhau.
6
Thích nghi với sự thay đổi: kho dữ liệu cần phải đƣợc thiết kế để xử lý những
thay đổi có thể xảy ra, vì thay đổi là điều khơng thể tránh khỏi cho bất cứ ứng
dụng nào. Nói vậy có nghĩa là khi có thay đổi mới dữ liệu cũ trong kho dữ liệu
vẫn phải đảm bảo tính đúng đắn.
Hỗ trợ ra quyết định: Đây là mục tiêu quan trọng nhất của doanh nghiệp khi
xây dựng kho dữ liệu. Những ngƣời quản lý doanh nghiệp muốn dƣa vào
thông tin để từ đó đƣa ra những chiến lựơc góp phần đem lại kết quả kinh
doanh tốt nhất.
Bảo mật: Dữ liệu trong kho dữ liệu đến từ nhiều nguồn khác nhau. Vì vậy
việc đảm bảo thơng tin khơng bị lộ ra ngồi là một điều vơ cùng quan trọng.
2.1.4 Các thành phần của một kho dữ liệu:
Hình 2-1 Các thành phần của kho dữ liệu [11]
Có bốn thành phần riêng rẽ và phân biệt sẽ đƣợc trình bày trong mơi trƣờng
kho dữ liệu, đó là: hệ thống nguồn dữ liệu, khu vực tầng dữ liệu, khu vực trình bày
dữ liệu và các cơng cụ trình bày dữ liệu.
Hệ thống nguồn dữ liệu (Operational Source Systems):
7
Các nguồn dữ liệu thƣờng nằm trong hệ thống xử lý giao dịch trực tuyến
OLTP (On-Line Transaction Processing ), hay còn go ̣i là TPS
(Transaction
Processing Systems)
o Hiê ̣u suấ t và tính sẵn sàng ở mƣ́c đô ̣ cao
o Thƣờng truy vấ n mô ̣t bảng ghi ta ̣i mô ̣t thời điể m
(one-record-at a
time), có thể hiểu là truy vấn tại một thời điểm nhấ t đinh
̣
o Đây là hoa ̣t đô ̣ng thông thƣờng của các tổ chƣ́c
o Với mô ̣t hê ̣ thố ng OLTP thì đáng tin câ ̣y và phù hơ ̣p , nhƣng giƣ̃a các
hê ̣ thố ng OLTP khác nhau thƣờng có nhƣ̃ng xung đô ̣t nhấ t đinh
̣
o Các loại định dạng dữ liệu và cấu trúc dƣ̃ liê ̣u khác nhau trong các hê ̣
thố ng OLTP khác nhau.
Theo giả đinh
̣ của Kimball và cô ̣ng sƣ̣ thì :
-
Hê ̣ thố ng nguồ n không đƣơ ̣c truy vấ n rô ̣ng và đô ̣t xuấ t
-
Duy trì dƣ̃ liê ̣u lich
̣ sƣ̉ rấ t ít (dƣ̃ liê ̣u quá khƣ́, hiê ̣n ta ̣i…)
Khu vực tầng dữ liệu (Data Staging Area):
Khu vực tầng dữ liệu của kho dữ liệu là nơi diễn ra việc lƣu trữ và cả quá trình
xử lí phổ biến nhƣ là trích xuất – chuyển đổi – nạp dữ liệu. Khu vực tầng dữ
liệu gồm tất cả các thành phần giữa các hệ thống nguồn dữ liệu và khu vực
trình bày dữ liệu. Trong kho dữ liệu, dữ liệu làm việc thô đƣợc chuyển đổi vào
kho dữ liệu để chuyển giao cho ngƣời sử dụng có yêu cầu truy vấn và sử dụng.
Do đó, ngƣời sử dụng sẽ không đƣợc phép truy cập vào khu vực tầng dữ liệu
này. Khu vực tầng dữ liệu bị chi phối bởi các hoạt động đơn giản là phân loại
và xử lý tuần tự. Đôi khi khu vực tầng dữ liệu không dựa trên công nghệ liên
quan mà thay vào đó là bao gồm một hệ thống các tập tin. Sau khi xác nhận dữ
liệu cho phù hợp với những quy tắc công việc đƣợc định nghĩa là một –nhiều
và một – một, thì bƣớc cuối cùng trong việc xây dựng một cơ sở dữ liệu vật lý
chuẩn 3 đầy đủ là vơ nghĩa.
Trình bày dữ liệu (Data Presentation):
Khu vực trình bày dữ liệu là nơi dữ liệu đƣợc tổ chức, lƣu trữ và sẵn có cho
các truy vấn trực tiếp của ngƣời dùng, các báo cáo và các ứng dụng phân tích
8
khác. Vì khu vực tầng dữ liệu là khu vực phía sau nên khu vực trình bày dữ
liệu sẽ là kho dữ liệu cho các công việc xử lý liên quan. Đó là tất cả những thứ
mà việc xử lý dữ liệu cần quan tâm thông qua các công cụ truy cập dữ liệu. Có
thể xem khu vực trình bày nhƣ là một loạt các khối dữ liệu tích hợp lại. Với
hình thức đơn giản nhất, một siêu thị dữ liệu (data mart) trình bày dữ liệu từ
một quy trình cơng việc đơn giản.
Mơ hình đa chiều là một tên mới cho một kỹ thuật cũ làm cho cơ sở dữ liệu
đơn giản và dễ hiểu. Bắt đầu từ những năm 1970, các tổ chức, công ty tƣ vấn, ngƣời
dùng và các nhà cung cấp CNTT đã hƣớng về một cấu trúc chiều đơn giản để làm
cho các nhu cầu cơ bản của con ngƣời phù hợp với sự đơn giản.
Mơ hình chuẩn hóa là vơ cùng hữu ích cho việc xử lí các cơng việc điều hành
bởi vì một giao dịch thêm hoặc cập nhật chỉ cần tác động vào cơ sở dữ liệu ở một
nơi. Tuy nhiên, các mơ hình chuẩn hóa là q phức tạp đối với dữ liệu kho cho việc
thực hiện truy vấn.Ngƣời dùng không thể hiểu, xác định hoặc ghi nhớ các mơ hình
chuẩn hóa tƣơng tự nhƣ hệ thống đƣờng giao thơng.Việc sử dụng các mơ hình
chuẩn hóa trong khu vực trình bày dữ liệu của kho dữ liệu sẽ phá toàn bộ mục đích
của kho dữ liệu, cụ thể là, truy vấn dữ liệu trực quan và hiệu suất cao.
Thay vào đó, mơ hình đa chiều giải quyết các vấn đề về lƣợc đồ phức tạp
trong khu vực trình bày dữ liệu. Một mơ hình đa chiều chứa các thơng tin giống nhƣ
một mơ hình chuyển hóa, nhƣ gói dữ liệu trong định dạng thiết kế với mục tiêu là
làm cho ngƣời dùng dễ hiểu, tăng hiệu suất truy vấn và thay đổi linh hoạt.
Trong mơ hình đa chiều có hai thuật ngữ hay đƣợc sử dụng, đó là bảng sự kiện
(fact tables) và bảng chiều dữ liệu (dimension tables).
Bảng sự kiện (fact tables): một bảng sự kiện là một bảng chính trong mơ
hình đa chiều có chức năng lƣu trữ các dữ liệu tổng hợp cho quá trình hoạt động.
Ngƣời dùng cố gắng để lƣu trữ dữ liệu tổng hợp từ kết quả của một q trình cơng
việc trong một siêu thị dữ liệu đơn lẻ. Bởi vì dữ liệu tổng hợp đa phần là lớn nhất
trong bất kỳ siêu thị dữ liệu nào nên cần tránh việc lặp lại ở nhiều nơi khác.
9
Hình 2-2 Bảng sự kiện (tác giả)
Việc sử dụng thuật ngữ sự kiện là để trình bày độ lớn của dữ liệu. Chúng ta có
thể tƣởng tƣợng là từ một thị trƣờng biết đƣợc bán ra với số lƣợng bao nhiêu và
doanh số mỗi ngày cho mỗi sản phẩm trong mỗi cửa hang nhƣ thế nào. Độ lớn dữ
liệu đƣợc thực hiện tại các giao điểm của tất cả các chiều (ngày, sản phẩm và cửa
hàng). Danh sách các chiều sẽ xác định đặc tính của bảng sự kiện tổng hợp và cho
ta biết phạm vi của công việc là gì.
Bảng chiều dữ liệu (dimension tables):
10
Hình 2-3 Bảng chiều dữ liệu (tác giả)
Bảng chiều dữ liệu là bảng luôn đồng hành không thể tách rời với bảng sự
kiện. Bảng chiều dữ liệu chứa các mô tả văn bản của cơng việc. Trong một mơ hình
đa chiều, bảng chiều dữ liệu sẽ có nhiều cột hay nhiều thuộc tính. Những thuộc tính
này mơ tả các hàng trong bảng chiều dữ liệu.Trong bảng chiều dữ liệu chiều, càng
nhiều mô tả văn bản càng tốt. Bảng dữ liệu chiều ít khi có hơn 50 thuộc tính. Kích
thƣớc bảng chiều dữ liệu thƣờng ít về số hàng (ít hơn một triệu hàng rất nhiều),
nhƣng có nhiều cột thuộc tính. Mỗi chiều đƣợc xác định bởi khóa chính duy nhất
của nó, đƣợc ký hiệu là PK (primary key) và là khóa ngoại cho bảng sự kiện tổng
hợp nào kết hợp với nó.
Thuộc tính của bảng chiều dữ liệu đóng vai trị quan trọng trong kho dữ liệu.
Bởi vì chúng là nguồn của hầu hết mọi ràng buộc và dữ liệu báo cáo, nên chúng là
chìa khóa làm cho kho dữ liệu dễ hiểu và dễ sử dụng. Sức mạnh của kho dữ liệu là tỉ
lệ thuận với chất lƣợng và chiều sâu của các thuộc tính của bảng chiều dữ liệu. Thời