ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TRUNG
THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU
KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN
THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH
VIỄN THƠNG VIỆT NAM (VNPT)
LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN
HÀ NỘI - 2008
TIEU LUAN MOI download :
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TRUNG
THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU
KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN
THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH
VIỄN THƠNG VIỆT NAM (VNPT)
Chun ngành: Cơng nghệ thơng tin
Mã số: 1 01 10
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: PGS.TS. Đặng Hữu Đạo
HÀ NỘI - 2008
TIEU LUAN MOI download :
1
MỤC LỤC
MỤC LỤC ...................................................................................................................... 1
DANH SÁCH HÌNH VẼ ............................................................................................... 3
CÁC THUẬT NGỮ VÀ VIẾT TẮT ............................................................................ 5
MỞ ĐẦU ......................................................................................................................... 6
Chƣơng 1: TỔNG QUAN ............................................................................................. 8
1.1. Thị trường viễn thông ...................................................................................................... 8
1.2. Dữ liệu ngành viễn thông ................................................................................................ 9
1.3. Mục tiêu của luận văn.................................................................................................... 10
1.4. Phạm vi của luận văn ..................................................................................................... 10
1.5. Công cụ thực hiện .......................................................................................................... 10
1.6. Phương pháp xây dựng kho dữ liệu ............................................................................... 12
Chƣơng 2: TỔNG QUAN VỀ DATA WAREHOUSE ............................................. 15
2.1. Định nghĩa kho dữ liệu .................................................................................................. 15
2.2. Đặc tính của kho dữ liệu ................................................................................................ 16
2.3. Kho dữ liệu và các cơ sở dữ liệu ................................................................................... 17
2.4. Lợi ích của kho dữ liệu .................................................................................................. 18
2.5. Kho dữ liệu hiện nay ..................................................................................................... 18
2.6. Xu hướng tương lai của kho dữ liệu .............................................................................. 20
2.7. Kiến trúc của kho dữ liệu .............................................................................................. 22
2.7.1. Nguồn dữ liệu ......................................................................................................... 23
2.7.2. Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) ............................................. 24
2.7.3. Siêu dữ liệu ............................................................................................................. 24
2.7.4. Kho dữ liệu chủ đề.................................................................................................. 25
2.7.5. Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu ............................................. 26
2.8. Tổ chức dữ liệu lơgíc ..................................................................................................... 26
2.8.1. Lược đồ kho dữ liệu ............................................................................................... 26
2.8.2. Mơ hình dữ liệu đa chiều ........................................................................................ 28
2.8.3. Bảng sự kiện ........................................................................................................... 29
2.8.4. Bảng chiều .............................................................................................................. 30
2.8.5. Bảng sự kiện tổng hợp ............................................................................................ 30
2.9. Tổ chức dữ liệu vật lý .................................................................................................... 31
2.9.1. Phân vùng ............................................................................................................... 31
2.9.2. Chỉ mục .................................................................................................................. 31
Chƣơng 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU
KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG........................................... 33
3.1. Phân tích ........................................................................................................................ 33
3.1.1. Tìm hiểu hệ thống nguồn CCBS ............................................................................ 33
3.1.2. Xác định yêu cầu phân tích .................................................................................... 37
3.2. Thiết kế .......................................................................................................................... 42
3.2.1. Kiến trúc của kho dữ liệu ....................................................................................... 43
3.2.2. Thiết kế mơ hình dữ liệu......................................................................................... 45
TIEU LUAN MOI download :
2
3.2.2. Thiết kế mơ hình vật lý ........................................................................................... 72
3.2.4. Thiết kế trích xuất chuyển đổi nạp dữ liệu ............................................................. 84
3.2.5. Thiết kế công cụ báo cáo, tra cứu động .................................................................. 92
3.2.6. Thiết kế công cụ quản trị hệ thống ......................................................................... 99
3.3. Cài đặt, triển khai ........................................................................................................ 101
3.3.1. Cài đặt hệ thống .................................................................................................... 101
3.3.2. Triển khai.............................................................................................................. 101
Chƣơng 4: KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN .............................................. 103
4.1. Kết quả......................................................................................................................... 103
4.2. Giao diện chương trình ................................................................................................ 103
4.3. Báo cáo phân tích ........................................................................................................ 107
4.4. Hướng phát triển của đề tài ......................................................................................... 115
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................... 117
TÀI LIỆU THAM KHẢO......................................................................................... 118
Phụ lục 1: SƠ ĐỒ CSDL BẢNG SỰ KIỆN CỦA DWH ........................................ 119
Phụ lục 2: LỆNH SCRIPT CỦA CÁC ÁNH XẠ ETL SẢN SINH TỪ OWB ..... 125
Phụ lục 3: CÂU LỆNH SQL LẤY DỮ LIỆU CỦA CÁC BÁO CÁO PHÂN TÍCH131
TIEU LUAN MOI download :
3
DANH SÁCH HÌNH VẼ
Hình 1.
Hình 2.
Hình 3.
Hình 4.
Hình 5.
Hình 6.
Hình 7.
Hình 8.
Hình 9.
Hình 10.
Hình 11.
Hình 12.
Hình 13.
Hình 14.
Hình 15.
Hình 16.
Hình 17.
Hình 18.
Hình 19.
Hình 20.
Hình 21.
Hình 22.
Hình 23.
Hình 24.
Hình 25.
Hình 26.
Hình 27.
Hình 28.
Hình 29.
Hình 30.
Hình 31.
Hình 32.
Hình 33.
Hình 34.
Hình 35.
Hình 36.
Hình 37.
Hình 38.
Hình 39.
Hình 40.
Hình 41.
Hình 42.
Hình 43.
Hình 44.
Hình 45.
Hình 46.
Mơ hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án..................12
Định nghĩa DWH ..........................................................................................15
Kiến trúc DWH cơ bản .................................................................................22
Kiến trúc DWH với Staging Area ................................................................ 23
Kiến trúc kho dữ liệu với Staging Area và Data Mart..................................23
Lược đồ hình sao ..........................................................................................27
Lược đồ bơng tuyết rơi .................................................................................28
Mơ hình đa chiều ..........................................................................................28
Hệ thống CCBS tổng thể ..............................................................................34
Kiến trúc của DWH thử nghiệm ...............................................................43
Sơ đồ kho dữ liệu Bán hàng ......................................................................46
Chiều thời gian ..........................................................................................47
Phân cấp thời gian .....................................................................................48
Chiều dịch vụ viễn thông ..........................................................................48
Chiều khách hàng ......................................................................................49
Chiều kênh giao tiếp..................................................................................50
Chiều điểm giao dịch ................................................................................51
Phân cấp điểm giao dịch ...........................................................................51
Chiều địa chỉ .............................................................................................52
Phân cấp địa chỉ ........................................................................................52
Chiều kiểu yêu cầu ....................................................................................53
Chiều khuyến mãi .....................................................................................53
Sơ đồ kho dữ liệu Phát triển thuê bao .......................................................54
Chiều thuê bao ...........................................................................................55
Chiều đơn vị quản lý .................................................................................56
Chiều đối tượng khách hàng .....................................................................56
Sơ đồ kho dữ liệu chủ đề Điều hành thi công ...........................................57
Chiều hướng giao ......................................................................................57
Sơ đồ kho dữ liệu Khiếu nại......................................................................58
Chiều nhóm khiếu nại ...............................................................................58
Sơ đồ kho dữ liệu Xử lý khiếu nại ............................................................59
Chiều kết quả khiếu nại .............................................................................60
Sơ đồ kho dữ liệu Cước khách hàng .........................................................60
Chiều mã vùng ..........................................................................................61
Chiều kiểu dịch vụ ....................................................................................62
Chiều đối tượng khách hàng .....................................................................63
Sơ đồ kho dữ liệu tổng hợp cước khách hàng ..........................................63
Chiều thanh toán .......................................................................................64
Chiều khoản mục cước ..............................................................................65
Sơ đồ kho dữ liệu thanh tốn nợ khách hàng ............................................65
Chiều hình thức thanh toán .......................................................................66
Sơ đồ kho dữ liệu nợ cước khách hàng .....................................................66
Sơ đồ kho dữ liệu nhắc nợ cước khách hàng ............................................67
Sơ đồ kho dữ liệu khóa mở nợ cước .........................................................67
Sơ đồ kho dữ liệu xử lý nợ cước ...............................................................68
Chiều hình bước xử lý nợ ..........................................................................68
TIEU LUAN MOI download :
4
Hình 47.
Hình 48.
Hình 49.
Hình 50.
Hình 51.
Hình 52.
Hình 53.
Hình 54.
Hình 55.
Hình 56.
Hình 57.
Hình 58.
Hình 59.
Hình 60.
Hình 61.
Hình 62.
Hình 63.
Hình 64.
Hình 65.
Hình 66.
Hình 67.
Hình 68.
Hình 69.
Hình 70.
Hình 71.
Hình 72.
Hình 73.
Hình 74.
Hình 75.
Hình 76.
Hình 77.
Hình 78.
Hình 79.
Hình 80.
Hình 81.
Hình 82.
Hình 83.
Hình 84.
Hình 85.
Hình 86.
Hình 87.
Hình 88.
Hình 89.
Hình 90.
Hình 91.
Hình 92.
Hình 93.
Hình 94.
Sơ đồ kho dữ liệu báo hỏng ......................................................................69
Chiều tình trạng .........................................................................................69
Sơ đồ kho dữ liệu xử lý báo hỏng .............................................................70
Chiều nguyên nhân ....................................................................................70
Sơ đồ kho dữ liệu sử dụng dịch vụ viễn thông.........................................71
Sơ đồ kho dữ liệu sử dụng dịch vụ gia tăng ..............................................71
Kiến trúc vật lý kho dữ liệu viễn thông.....................................................72
Mô hình quan hệ bán hàng ........................................................................74
Bảng thống kê cuộc gọi theo giờ bắt đầu. .................................................79
Bảng thống kê cuộc gọi theo dịch vụ. .......................................................80
Bảng thống kê cuộc gọi theo mã vùng. .....................................................80
Bảng thống kê doanh thu...........................................................................80
Bảng thống kê tiền nợ cước ......................................................................81
Bảng thống kê tiền thanh toán ...................................................................81
Bảng tổng hợp cước sử dụng khách hàng .................................................82
Bảng tổng hợp tiền nợ khách hàng ............................................................82
Bảng tổng hợp tiền thanh toán khách hàng ...............................................82
Sơ đồ ánh xạ DICHVU_VT_MAP ...........................................................85
Sơ đồ ánh xạ DIACHI_MAP ....................................................................86
Sơ đồ ánh xạ KIEU_YC_MAP .................................................................86
Sơ đồ ánh xạ KHACHHANG_MAP ........................................................86
Sơ đồ ánh xạ THANHTOAN_MAP .........................................................87
Sơ đồ ánh xạ THUEBAO_MAP ...............................................................87
Sơ đồ ánh xạ DANGKY_DVVT_MAP ....................................................87
Sơ đồ ánh xạ PHATTRIEN_TB_MAP .....................................................88
Sơ đồ ánh xạ DIEUHANH_TC_MAP ......................................................88
Sơ đồ ánh xạ KHIEUNAI_MAP ...............................................................89
Sơ đồ ánh xạ XL_KHIEUNAI_MAP .......................................................89
Sơ đồ ánh xạ BAOHONG_MAP ..............................................................89
Sơ đồ ánh xạ XL_BAOHONG_MAP .......................................................90
Sơ đồ ánh xạ CT_CUOC_KH_MAP ........................................................90
Sơ đồ ánh xạ TH_CUOC_KH_MAP ........................................................90
Sơ đồ ánh xạ CT_NO_KH_MAP..............................................................91
Sơ đồ ánh xạ CT_TTNO_KH_MAP .........................................................91
Sơ đồ ánh xạ SUDUNG_DVVT_MAP ....................................................91
Mơ hình báo cáo truyền thống ..................................................................92
Mơ hình báo cáo từ xa sử dụng Webservice .............................................93
Kiến trúc và công nghệ hệ thống báo cáo, tra cứu ....................................94
Mơ hình cở sở dữ liệu của hệ thống báo cá, tra cứu .................................95
Mơ hình cở sở dữ liệu của công cụ quản trị hệ thống .............................100
Giao diện chính .......................................................................................104
Giao diện định nghĩa báo cáo và tra cứu .................................................104
Giao diện chung hiển thị báo cáo ............................................................104
Giao diện tra cứu động ............................................................................105
Giao diện cấu hình form nhập dữ liệu từ điển ........................................105
Giao diện chung nhập dữ liệu từ điển .....................................................106
Giao diện định nghĩa quyền ....................................................................106
Giao diện phân quyền cho nhóm người dùng .........................................107
TIEU LUAN MOI download :
5
CÁC THUẬT NGỮ VÀ VIẾT TẮT
BI (Business Intelligence): Quản trị doanh nghiệp thông minh.
CCBS (Customer Care and Billing System): Hệ thống Tính cước và Chăm sóc
khách hàng.
CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng.
CSDL: Cơ sở dữ liệu.
CRM (Customer relationship management): Quản lý mối quan hệ với khách
hàng.
DM (Data mart): Kho dữ liệu chủ đề.
DOLAP (Database Online Analytical Processing): Xử lý phân tích trực tuyến
CSDL.
DWH (Data Warehouse): Kho dữ liệu.
EIS (Executive Information System): Hệ thống thông tin điều hành.
ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu.
HOLAP (Hybric Online Analytical Processing): Xử lý phân tích trực tuyến kết
hợp.
MDM (Master Data Management): Quản lý dữ liệu chủ.
MOLAP (Multi dimensional Online Analytical Processing): Xử lý phân tích
trực tuyến đa chiều.
ODS (Operational data store): Kho dữ liệu vận hành.
OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến.
OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến.
OWB (Oracle Warehouse Builder): Cơng cụ xây dựng kho dữ liệu của Oracle.
SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ.
ROLAP (Relational Online Analytical Processing): Xử lý phân tích trực tuyến
quan hệ
VNPT (Vietnam Posts and Telecommunications Group): Tập đồn Bưu chính
Viễn thơng Việt nam.
VLDB (Very large DB): Cơ sở dữ liệu rất lớn.
TIEU LUAN MOI download :
6
MỞ ĐẦU
Trong nền kinh tế thị trường hiện nay, thông tin là yếu tố sống còn đối với bất
kỳ một doanh nghiệp nào. Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch
định chiến lược kinh doanh cho mình một cách chính xác.
Sự ra đời của cơng nghệ kho dữ liệu (Data Warehouse - DWH) trong những
năm gần đây đã đáp ứng nhu cầu quản lý, lưu trữ một khối lượng dữ liệu lớn và có khả
năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của
các nhà quản lý.
Trong nước hiện nay có rất nhiều doanh nghiệp đã và đang nghiên cứu, tiến
hành triển khai hệ thống DWH.
Đối với nước ngoài, hệ thống kho dữ liệu được áp dụng từ lâu và đã phát huy
được những hiệu quả rất lớn giúp ích cho các doanh nghiệp trong việc hoạch định
chiến lược kinh doanh cũng như việc nghiên cứu phát triển các ứng dụng.
Đối với Tổng công ty Bưu chĩnh Viễn thơng Việt Nam (VNPT), xây dựng hệ
thống Data Warehouse có ý nghĩa hết sức quan trọng. Ngoài việc thu thập lưu trữ các
thơng tin từ các hệ thống như Tính cước và chăm sóc khách hàng nói chung và các hệ
thống khác nói riêng hệ thống DWH cịn cung cấp các thơng tin hữu ích giúp cho các
nhà phát triển cập nhật các thay đổi hệ thống một cách nhanh chóng. Hơn thế nữa, hệ
thống cịn cung cấp cho nhà quản lý những thơng tin quan trọng chính xác và nhanh
chóng giúp họ có tầm nhìn chiến lược và hỗ trợ nhà quản lý ra những quyết định kịp
thời và có lợi nhất cho doanh nghiệp trong điều kiện cạnh tranh của ngành viễn thông
đang diễn ra rất gay gắt.
Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng cơng
nghệ kho dữ liệu trên môi trường Oracle vào “Thiết kế và triển khai kho dữ liệu khách
hàng sử dụng dịch vụ viễn thông của Tổng công ty Bưu chinh Viễn thông Việt Nam
(VNPT)” được thực hiện với mong muốn xây dựng được một DWH ban đầu để hỗ trợ
VNPT đặc biệt là các Viễn thông tỉnh trong việc quản lý, điều hành doanh nghiệp.
Nội dung luận văn này bao gồm các phần chính như sau:
Mở đầu
Đây là phần giới thiệu chung về lý do chọn luận văn, cũng như bố cục
chung của luận văn.
Chương 1: Tổng quan.
Nội dung chính của chương này là trình bày tổng quan về thị trường viễn
thơng; dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ
và phương pháp xây dựng DWH.
Chương 2: Tổng quan về DWH.
TIEU LUAN MOI download :
7
Nội dung chính của chương này là trình bày tổng quan về DWH gồm
định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lơ gíc, tổ
chức vật lý của DWH.
Chương 3: Phân tích, thiết kế và triến khai DWH khách hàng sử dụng dịch
vụ viễn thông.
Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn
CCBS; xác định yêu cầu phân tích; thiết kế mơ hình dữ liệu dựa trên u cầu
phân tích và CSDL (Cở sở dữ liệu) của Hệ thống Tính cước và Chăm sóc khách
hàng (Customer Care and Billing System – CCBS); thiết kế mơ hình vật lý;
thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây
dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai
DWH.
Chương 4: Kết quả và hướng phát triển.
Nội dung chính của chương này là trình bày các kết quả của luận văn;
một số giao diện của công cụ báo cáo, tra cứu, quản trị hệ thống; một số báo
cáo phân tích; hướng phát triển của luận văn.
Kết luận và kiến nghị
Phần này nêu các kết luận của luận văn và đưa ra các khuyến nghị áp
dụng.
Các tài liệu và địa chỉ tham khảo.
Các phụ lục liên quan.
TIEU LUAN MOI download :
8
Chƣơng 1: TỔNG QUAN
Tóm lược nội dung:
Nội dung chính của chương này là trình bày tổng quan về thị trường viễn thông;
dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ và
phương pháp xây dựng DWH.
1.1. Thị trường viễn thông
Trong thập niên qua, mọi lĩnh vực cơng nghiệp đã có kinh nghiệm biến đổi sâu
sắc trong môi trường kinh doanh của họ. Việc bãi bỏ các quy định (cho phép thị
trường viễn thông tự do cạnh tranh), sự cạnh tranh, sự tiến bộ công nghệ và tồn cầu
hóa kết hợp lại tạo ra sức ép khổng lồ lên những nhà cung cấp lĩnh vực viễn thông và
khả năng của họ phản ứng lại với những sự thay đổi này.
Những nhà cung cấp trong lĩnh vực viễn thông hôm nay đang phải đối mặt với
những thách thức như:
-
Tiếp tục cạnh tranh xuất phát từ việc cho phép thị trường viễn thông tự do cạnh
tranh.
-
Tỷ lệ dời bỏ nhà cung cấp cao trong sự gia tăng thâm nhập thị trường.
-
Sự suy giảm mang tính hệ thống lợi ích sử dụng dịch vụ thoại.
-
Những yêu cầu cơ sở hạ tầng do cuộc chạy đua về công nghệ mới.
-
Sự suy giảm về sự thu nhận.
Trong công nghiệp viễn thông, sự tự do cạnh tranh dẫn đến sự cạnh tranh khơng
chỉ trong nước mà mang tính quốc tế. Điều này làm cho thị phần bị chia sẽ và đe dọa
những nguồn lợi tức.
Sự cạnh tranh đã tạo ra những sản phẩm mới ra thị trường. 3G, VOIP, dịch vụ
định vị, ứng dụng dữ liệu di động và sự tích hợp đa phương tiện,…có quy mơ rủi ro
cao bổ sung tới nền công nghiệp mà yêu cầu sự đầu tư vốn lớn để nâng cấp mạng lưới,
tính cước, sự hỗ trợ và cơ sở hạ tầng khác. Trong lúc đó những lợi tức và những lợi
nhuận trong kinh doanh dịch vụ thoại suy giảm mang tính hệ thống.
Trong những năm qua, thị trường viễn thông ở Việt Nam phát triển rất nhanh.
Với chính sách mở cửa, khuyến khích cạnh tranh của Nhà nước, trên thị trường đã
xuất hiện nhiều nhà cung cấp dịch vụ mới, cạnh tranh gay gắt với VNPT, khiến cho thị
phần của VNPT bị chia sẻ đáng kể. Đặc biệt, trong điều kiện Việt Nam đã chính thức
gia nhập WTO, thị trường viễn thông sẽ ngày càng sôi động hơn, VNPT sẽ phải đối
mặt với sự cạnh tranh ngày càng gay gắt hơn không chỉ với các đối thủ trong nước mà
còn với các đối thủ nước ngồi. Để có thể đứng vững và phát triển trong môi trường
kinh doanh mới, VNPT cần phải không ngừng nâng cao năng lực cạnh tranh nói chung
và đặc biệt là nâng cao năng lực cạnh tranh dịch vụ di động, băng thông rộng.
TIEU LUAN MOI download :
9
Tính đến cuối năm 2007, có 44 triệu th bao điện thoại; trong đó thuê bao di
động 30 triệu thuê bao chiếm 75,5%; mật độ điện thoại đạt 52 máy / 100 dân; 1,2 triệu
thuê bao ADSL; đã có 18,64 triệu người sử dụng Internet (quy đổi).
Trên thị trường viễn thông, nhu cầu về dịch vụ điện thoại cố định có chiều
hướng giảm dần và giữ mức tăng khoảng 9% trong giai đoạn 2007-2011 do người tiêu
dùng chuyển hướng sang sử dụng các dịch vụ di động và băng rộng.
Cạnh tranh sôi động nhất đang diễn ra trên thị trường di động giữa 7 nhà cung
cấp dịch vụ như Vinaphone, Mobifone, Viettel, EVN Telecom, SPT, HTC, GTel qua
đó thúc đẩy thị trường di động đạt mức tăng trưởng nhanh.
Các mạng di động của Việt Nam hiện thời vẫn theo chuẩn 2G hay 2.5 G cung
cấp chủ yếu dịch vụ thoại và một số loại dịch vụ giá trị gia tăng như SMS, WAP,
GPRS. Hiện các nhà khai thác di động đang tập trung chuyển đổi sang mạng 3G,
nhưng với tốc độ chậm chạp do cịn gặp nhiều khó khăn về dịch vụ nội dung thông tin
và thiết bị đầu cuối đắt đỏ. Dự kiến đến 2011, thị trường dịch vụ 3G đạt khoảng 3 triệu
thuê bao chiểm 6% tổng thuê bao di động.
Hàng loạt dịch vụ điện thoại cố định không dây ra đời thời gian qua đã tạo điều
kiện cho người sử dụng có cơ hội thử nghiệm và lựa chọn. Trước Gphone của VNPT,
Tập đoàn Điện lực Việt Nam (EVN) đã cho ra đời dịch vụ điện thoại cố định không
dây E-Com và Tổng Cty Viễn thông Quân đội tung ra HomePhone.
WiMAX đang được các doanh nghiệp viễn thông thử nghiệm. Hiện nay VNPT
cũng đã thử nghiệm dịch vụ WiMax thành công ở trên Lào Cai, đang triển khai thử
nghiệm ở Hà Nội và TP. HCM.
Cạnh tranh thị trường viễn thông lâu nay chủ yếu là cạnh tranh bằng giá, mà
chưa phải là bằng chất lượng và cách thức phục vụ. Cuộc đua giữa các đại gia ngày
càng quyết liệt, bên cạnh các gói giảm cước cũng như dịch vụ mới, các doanh nghiệp
trong lĩnh vực này cũng cần nâng cao chất lượng của dịch vụ vì đây mới là vấn đề mấu
chốt trong chiến lược thu hút khách hàng về với doanh nghiệp mình. Chính vì thế sự
cạnh trang quyết liệt này sẽ cịn diễn ra khơng chỉ trên mặt trận giá cước mà còn cả về
chất lượng của dịch vụ.
1.2. Dữ liệu ngành viễn thông
Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao
gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thơng và
thơng tin dữ liệu về khách hàng:
-
Dữ liệu chi tiết cuộc gọi( call detail data ): Mỗi một cuộc gọi của khách hàng
trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi. Các mẫu tin
này bao gồm các thơng tin đặc tả thuộc tính quan trọng của cuộc gọi như: số
chủ gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại. Thông thường các
dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data
TIEU LUAN MOI download :
10
mining mà thường kết hợp với thông tin cá nhân khách hàng để tổng qt hóa
thành thơng tin về hành vi sử dụng điện thoại của khách hàng.
-
Dữ liệu trạng thái mạng ( network data ): Mạng viễn thơng có cấu hình rất
phức tạp, được cấu trúc bởi hàng ngàn thiết bị viễn thông kết nối với nhau. Các
thông điệp trạng thái (status message) của mỗi thiết bị phải được lưu trữ thành
một kho dữ liệu trạng thái mạng (network data) và chúng được phân tích theo
trình tự để hỗ trợ chức năng quản lý mạng. Mỗi thông điệp trạng thái ít nhất
phải bao gồm thời gian phát sinh và thơng tin mã hóa về lỗi hay trạng thái của
thiết bị.
-
Dữ liệu khách hàng ( customer data ): Cũng như các lĩnh vực kinh doanh lớn
khác, các thông tin về khách hàng cần được lưu trữ để dùng cho các ứng dụng
như tính cước, tiếp thị... Thơng tin về khách hàng bao gồm số điện thoại, họ tên,
địa chỉ và các thuộc tính quan trọng khác như q trình thanh tốn nợ, q trình
sử dụng các dịch vụ, thu nhập... Thông thường dữ liệu khách hàng phải được
kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử
dụng data mining.
1.3. Mục tiêu của luận văn
Xây dựng và triển khai DWH khách hàng sử dụng dịch vụ viễn thông cho Viễn
thông tỉnh dựa trên việc tìm hiểu và phân tích hệ thống nguồn CCBS mà các viễn
thông tỉnh đang sử dụng nhằm hỗ trợ lảnh đạo, các phòng ban,…đưa ra các chiến lược
kinh doanh nhanh chóng chính xác. Xây dựng được CSDL tương đối hoàn chỉnh cho
DWH; xây dựng các ánh xạ thu thập số liều từ hệ thống nguồn CCBS; xây dựng công
cụ báo cáo, tra cứu và quản trị hệ thống; xây dựng được một số báo cáo phân tích ban
đầu. Trong thiết kế hệ thống hướng tới tính mở và thiết kế tổng thể để dễ dàng mở
rộng và áp dụng cho các doanh nghiệp viễn thông khác.
1.4. Phạm vi của luận văn
Xây dựng DWH đặc biệt là DWH viễn thơng là một q trình lâu dài với nhiều
cơng việc. Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào dữ
liệu khách hàng và dữ liệu chi tiết cuộc gọi (Dữ liệu từ hệ thống nguồn CCBS). Quy
mô hệ thống thử nghiệm được xây dựng áp dụng cho một Viễn Thơng Tỉnh của Tập
Đồn Bưu Chính Viễn Thơng Việt Nam VNPT. Mỗi Viễn Thơng Tỉnh coi như mơ
hình thu nhỏ của VNPT, là nơi cung cấp đầy đủ các dịch vụ viễn thông tại địa bàn đó
như dịch vụ: Điện thoại cố định, điện thoại di động, dịch vụ Gphone, điện thoại vệ
tinh, Internet, kênh th riêng,….Tập trung thiết kế mơ hình dữ liệu và thu thập số liệu
từ hệ thống nguồn CCBS, thiết kế một số các báo cáo, tra cứu cơ bản.
1.5. Công cụ thực hiện
Hệ quản trị cở sở dữ liệu cho kho dữ liệu:
TIEU LUAN MOI download :
11
Một số yêu cầu kĩ thuật dùng để đánh giá khả năng của hệ quản trị cơ sở dữ liệu
trong q trình xây dựng DWH:
-
Có khả năng mở rộng: khả năng mở rộng là yêu cầu rất cần thiết trong việc xây
dựng kho dữ liệu vì có nhiều trường hợp, ban đầu kho dữ liệu có thể có kích
thước vừa phải nhưng sau đó do nhu cầu phát triển nên kho dữ liệu cần được
mở rộng thêm.
-
Hỗ trợ cơ sở dữ liệu lớn: do đặc trưng của kho dữ liệu là có kích thước lớn.
-
Năng lực tính tốn song song: Kho dữ liệu lớn cũng đồng nghĩa với việc sẽ có
nhiều dữ liệu cần được xử lý, do đó khả năng tính tốn song song của hệ thống
là rất cần thiết.
-
Khả năng quản trị: quản trị và bảo trì một Kho dữ liệu lớn là một công việc rất
phức tạp như sao lưu và phục hồi dữ liệu, đòi hỏi những công cụ trợ giúp hữu
hiệu, tiện lợi và dễ sử dụng. Đối với kho dữ liệu lớn công việc bảo trì và quản
trị khơng được làm gián đoạn hoạt động của hệ thống.
-
Đáp ứng được các truy vấn phức tạp, có nhiều điều kiện và phải tham chiếu đến
nhiều liên kết khác nhau.
-
Hỗ trợ đánh chỉ mục và truy vấn hình sao nhằm cải thiện thời gian truy vấn.
-
Hỗ trợ các cơng cụ xử lý phân tích trực tuyến.
Trong những năm gần đây, trên thế giới xu hướng phát triển của thị trường cung
cấp các giải pháp cho công nghệ kho dữ liệu dần dần thuộc về các hãng CSDL truyền
thống như Oracle, DB2, Microsoft Sql Server,... Oracle là một trong số các hãng hàng
đầu trên thế giới về lĩnh vực quản trị cơ sở dữ liệu có cơng nghệ xây dựng DWH tiên
tiến (Theo báo cáo thị phần hệ thống Quản lý cơ sở dữ liệu trên toàn cầu của Gartner,
Oracle chiếm 47,1% thị phần năm 2006). Đặc biệt Oracle 11g hỗ trợ rất nhiều cho cở
sở dữ liệu rất lớn.
-
Oracle Database 11g có khả năng đáng kể về nén và phân vùng dữ liệu mới đối
với khả năng quản lý lưu trữ và vòng đời dữ liệu với chi phí hiệu qủa hơn.
-
Oracle Database 11g tự động hóa nhiều hoạt động phân vùng dữ liệu thủ cơng
và mở rộng phương pháp phân vùng theo khoảng giá trị, hash và liệt kê phân
vùng hiện có để có khoảng đệm, tham chiếu và phân vùng ảo theo cột.
-
Thêm vào đó, Oracle Database 11g cung cấp một bộ hồn chỉnh các lựa chọn
phân vùng hỗn hợp cho phép quản lý lưu trữ được thực hiện theo các qui định
kinh doanh.
-
Oracle Database 11g đưa đến khả năng nén dữ liệu tiên tiến cho cả dữ liệu có
cấu trúc và khơng có cấu trúc được xử lý trong quy trình giao dịch, lưu trữ dữ
liệu và các môi trường quản trị nội dung. Tỷ lệ nén tất cả các dữ liệu lớn từ 2 - 3
lần hoặc cao hơn có thể đạt được với khả năng nén tiên tiến mới trong Oracle
Database 11g.
TIEU LUAN MOI download :
12
-
Khối dữ liệu xử lý giao dịch trực tuyến (Online Transaction Processing –
OLAP) nhúng được tăng cường để hoạt động như những thơng số hiển thị
được cụ thể hóa trong cơ sở dữ liệu.
Hệ thống Tính cước và Chăm sóc khách hàng ở hầu hết Viễn thơng các tỉnh có
CSDL là Oracle. Nếu chọn Oracle làm hệ quản trị cở sở cho kho dữ liệu sẽ dễ dàng
cho việc xây dựng công cụ thu thập số liệu.
Công cụ xây dựng và quản trị kho dữ liệu
Oracle Warehouse Builder, công cụ xây dựng DWH của hãng Oracle, cho phép
người phân tích và thiết kế hệ thống xây dựng DWH đáp ứng được các yêu cầu kĩ
thuật trên đây là sự lựa chọn của đồ án nhằm xây dựng kho dữ liệu. Công cụ này
thường đi kèm với Oracle Database.
Công cụ xây dựng quản trị báo cáo
Crystal Report thiết kế các mẫu báo cáo phân tích.
Crystal Report Server quản trị hệ thống báo cáo từ xa.
Ngơn ngữ lập trình
Sử dụng ngôn ngữ C#, Asp.Net để xây dựng hệ thống báo cáo động và quản trị hệ
thống kho dữ liệu.
1.6. Phương pháp xây dựng kho dữ liệu
Dựa trên cở sở của cơng nghệ phần mềm như mơ hình thác nước để xây dựng
DWH, nó bao gồm các bước chính sau: Nghiên cứu khả thi, yêu cầu, kiến trúc, thiết
kế, phát triển, kiểm thử, triển khai, hoạt động. Có thể bổ sung vào mơ hình thác nước
hai bước thiết lập cơ sở hạ tầng và quản lý dự án.
Hình 1. Mơ hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án
TIEU LUAN MOI download :
13
Có thể cải tiến bằng nhiều cách: nhận dạng các tác vụ lặp, định nghĩa các tác vụ
một cách nhất quán, xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ
liệu, định nghĩa việc quản lí tác vụ, tối ưu hóa các tác vụ.
Chu trình xây dựng một DWH chủ đề bao gồm nhiều pha. Ta sẽ xem xét chi tiết
về từng pha cụ thể trong quá trình xây dựng kho dữ liệu chủ đề bằng công cụ Oracle
Warehouse Builder. Việc xây dựng kho dữ liệu thử nghiệm sử dụng Oracle Warehouse
Builder có thể chia thành các giai đoạn sau:
Phân tích u cầu:
o Tìm hiểu hệ thống nguồn.
o Xác định yêu cầu
Thiết kế mơ hình dữ liệu:
o Xác định, thiết kế các chiều (dimension table).
o Xác định, thiết kế các bảng fact (fact table).
o Xác định, thiết kế các khối cube (Lược đồ hình sao).
Thiết kế vật lý:
o Kiến trúc DWH
o Ước lượng dung lượng
o Tạo cấu trúc database: từ các định nghĩa logic ở giai đoạn đầu, sử dụng
các DDL (Data definition Language) để xây dựng kho cùng với các lược
đồ vật lý.
o Xác định, thiết kế các bảng tổng hợp (summary table), view và
materiallized view.
o Phân vùng.
o Chỉ mục.
Thiết kế trích xuất chuyển đổi và nạp số liệu (Extract Transform Load - ETL):
Các lệnh PL/SQL, SQL*Loader sẽ trích lọc, ánh xạ, chuyển đổi dữ liệu vào
DWH.
o Ánh xạ các chiều
o Ánh xạ bảng sự kiện
Xây dựng hệ thống báo cáo, quản trị hệ thống
o Xây dựng hệ thống báo cáo động
o Xây dựng công cụ quản trị hệ thống
Cài đặt, triển khai và quản trị dữ liệu:
o Cài đặt các thành phần của hệ thống.
o Tạo cấu trúc cở sở dữ liệu DWH. Lúc này cơ sở hạ tầng của kho dữ liệu
đã được hoàn chỉnh.
TIEU LUAN MOI download :
14
o Thu thập số liệu ban đầu. Sử dụng các công cụ Proccess flow và schedule
tạo các luồng công việc và đặt lịch cho chúng.
o Quản trị người dùng, xây dựng báo cáo tra cứu, quản trị dữ liệu.
TIEU LUAN MOI download :
15
Chƣơng 2: TỔNG QUAN VỀ DATA WAREHOUSE
Tóm lược nội dung:
Nội dung chính của chương này là trình bày tổng quan về DWH gồm định
nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lơ gíc, tổ chức
vật lý của DWH.
2.1. Định nghĩa kho dữ liệu
Định nghĩa do W.H. Inman đề xướng: DWH được hiểu là một tập hợp các dữ liệu
tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo
hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý.
Hình 2.
Định nghĩa DWH
Hƣớng chủ đề (subject-oriented):
Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản
phẩm (product), bán hàng (sales).
Tập trung vào việc mơ hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết
định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày.
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các
chủ đề.
Tích hợp (integrated):
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ:
Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi giao dịch
trực tuyến.
Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng:
TIEU LUAN MOI download :
16
– Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo,
thuộc tính,…giữa các nguồn khác nhau .
– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi.
Biến thời gian (time-variant):
Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các
hệ thống tác nghiệp.
– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.
– Dữ liệu của kho dữ liệu: cung cấp thơng tin lịch sử (ví dụ như, 5-10 năm
trước).
Yếu tố thời gian được lưu trữ trong CSDL
Bền vững (non-volatile):
Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp.
Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu.
– Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương
tranh.
– Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ
liệu.
2.2. Đặc tính của kho dữ liệu
Trước hết ta tìm hiểu khái niệm về vùng chủ đề (Subject Area – SA): một SA là
một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm
trong một lĩnh vực tác nghiệp cụ thể nào đó.
Những đặc điểm cơ bản của DWH:
Tính tích hợp
Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều
nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau.
Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng
thơng tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho
thơng tin về khách hàng. Một kho sẽ có một khung nhìn tồn thể về một khách hàng.
Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác
nhau.
Gắn thời gian
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa
chính để bảo
đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ
liệu. Toàn bộ
TIEU LUAN MOI download :
17
dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định.
Có tính lịch sử
Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một
khung nhìn của một chủ đề trong một giai đoạn.
Chỉ đọc
Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi bởi
người sử dụng cuối.
Khơng biến động
Tính khơng biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ
lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ
trong kho vẫn khơng bị xóa, điều đó cho phép cung cấp thơng tin về một khoảng thời
gian dài, cung cấp đủ số liệu cần thiết cho các mơ hình nghiệp vụ phân tích, dự báo.
Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu
tác nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua
nhiều giai đoạn khác nhau.
2.3. Kho dữ liệu và các cơ sở dữ liệu
DWH về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ
liệu quản lý và lưu trữ nó như các database thơng thường (tuy nhiên có hỗ trợ thêm về
quản lý dữ liệu lớn và truy vấn). Thực ra nét khác biệt của DWH so với database là ở
quan niệm, cách nhìn vấn đề:
-
Trước tiên DWH là database rất lớn (very large database-VLDB).
-
Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định.
-
Database phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc,
phục vụ cho những nhu cầu báo cáo. VD: Chúng ta sẽ yêu cầu hãy cho biết
trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta
sẽ có quyết định về hiệu năng của nhóm này.
-
DWH sẽ lấy thơng tin có thể từ nhiều nguồn khác nhau: DB2, Oracle,
SQLserver thậm chí cả File thơng thưởng rồi làm sạch chúng và đưa vào cấu
trúc của nó-đó là VLDB(very large database). DWH rất lớn nên muốn cho từng
bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thơng dễ dàng thì
bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó
những chủ đề chun mơn hóa đó tạo thành một Database chuyên biệt-đó là
Data mart. VD: DWH của Microsoft là rất lớn, trong một núi thơng tin đó làm
sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật,
testing,…. Có một điểm lưu ý ở đây là có một cơng cụ hay đúng hơn là một
chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin
TIEU LUAN MOI download :
18
trong Datamart rồi đưa ra những quyết định, nhận dịnh những thơng tin trong
Datamart - Đó là OLAP, bộ phân tích trực tuyến.
-
Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3,
BCK) để khai thác. DWH phải phi chuẩn hố rồi sau đó có thể chuẩn hoá theo
start chema trong Data mart, điều này đồng nghĩa vớI việc DWH sẽ trùng lắp
thông tin. Thật ra điều này theo tơi nghĩ là hiển nhiên vì việc chuẩn hố nhằm
tránh sự trùng lắp thơng tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá,
sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc
nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn. Đây cũng
là một quy luật: Càng trùng lắp thơng tin thì tìm kiếm càng dễ dàng và ngược
lại.
2.4. Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài
nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo
dựa vào cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có
kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một
chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.
Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính
linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của
kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc
kinh doanh cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo được dữ liệu chính
xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có
chất lượng cao và ổn định (trusted data).
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan
hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua
một kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích khơng ngừng
thơng tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh
doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình
này lại. Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá
được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn.
Tái sáng tạo hệ thống thơng tin: Một DWH là nền tảng cho các yêu cầu dữ liệu
trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói
quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành
theo chuẩn quốc tế.
2.5. Kho dữ liệu hiện nay
Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp
thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship
TIEU LUAN MOI download :
19
Management) và khai thác dữ liệu. Một số được sử dụng để báo cáo tổng hợp, một số
được sử dụng để tích hợp dữ liệu. Các cách sử dụng này đều tương quan với nhau; ví
dụ, quản trị doanh nghiệp thông minh (Business Intelligence - BI) và CRM sử dụng
khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, cịn BI và CRM cịn sử
dụng tích hợp dữ liệu. Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản
trị doanh nghiệp thơng minh, CRM và khai thác dữ liệu.
Quản trị doanh nghiệp thông minh:
Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thơng minh
hơn là DWH. Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho
doanh nghiệp. Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu
công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến
lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh.
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu.
Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu
có thể là một cơng cụ hỗ trợ tốt cho mục đích đó. Điều này có được là do sử dụng báo
cáo và OLAP. Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp
trong DWH tới những người kinh doanh. OLAP cho phép doanh nghiệp phân tích sự
ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa
chiều.
Quản lý mối quan hệ khách hàng:
Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship
Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng.
Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một
DWH đa chiều:
o Đồng nhất khách hàng.
o Quản lý cho phép.
o Phân đoạn chiến dịch.
o Dịch vụ/hỗ trợ khách hàng.
o Phân tích khách hàng.
o Cá nhân hóa,…
Khai phá dữ liệu:
Data mining là quá trình tìm kiếm các mẫu mới, những thơng tin tiềm ẩn mang
tính dự đốn trong các khối dữ liệu lớn. Những cơng cụ data mining có thể phát hiện
những xu hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh
nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh
doanh mà trước đây tốn nhiều thời gian để xử lý. Với ưu điểm trên, Data mining đã
chứng tỏ được tính hữu dụng của nó trong mơi trường kinh doanh đầy tính cạnh tranh
TIEU LUAN MOI download :
20
ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị
y học, giáo dục, viễn thông,…
Quản lý dữ liệu chủ:
Trong hệ thống OLTP, có hai loại dữ liệu: dữ liệu giao dịch và dữ liệu chủ. Dữ
liệu giao dịch ghi các sự kiện kinh doanh. Dữ liệu chủ bao gồm các thực thể mô tả các
sự kiện kinh doanh. Dữ liệu chủ bao gồm những câu trả lời của những câu hỏi của ai,
cái gì, và ở đâu về một giao dịch kinh doanh.
Ví dụ: Trong cửa hàng âm nhạc trực tuyến, sự kiện kinh doanh là một khách
hàng mua một bài hát đây là dữ liệu giao dịch. Dữ liệu chủ là khách hàng, sản phẩm,
nhãn hiệu.
MDM là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ.
Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP. Hệ thống MDM cũng
cố dữ liệu chủ và xử lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất
lượng dữ liệu. Dữ liệu chủ sau đó được nạp tới DWH chủ. Bất kỳ sự thay đổi nào trên
dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập
nhật để phản ánh những thay đổi đó. Hệ thống MDM sau đó chuyển dữ liệu chính tới
những hệ thống khác.
Tích hợp dữ liệu khách hàng:
Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ
liệu khách hàng. CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ
liệu của khách hàng. CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm
sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách
hàng, lưu giữ nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác.
Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy
nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng. Điều
này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách
hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử
dụng dữ liệu khách hàng. Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là
sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng. CDI cung cấp dữ liệu tích hợp
sạch cho quản lý mối quan hệ khách hàng.
2.6. Xu hướng tương lai của kho dữ liệu
Dữ liệu phi cấu trúc:
Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ
sở dữ liệu quan hệ như Oracle, MS SQL Server, MySQL,… trong đó các thực thể và
các thuộc tính được định nghĩa sẵn. Ví dụ, dữ liệu của một thí sinh dự thi đại học có
thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các mơn.
Trong khi đó dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở
TIEU LUAN MOI download :
21
dạng tự do (free type) và khơng cần có cấu trúc định nghĩa sẵn. Các trang web, video,
ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc.
Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi
lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ?
Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa
thuộc tính và sau đó thiết lập những thành phần đó theo các thuộc tính. Bạn có thể lưu
trữ các thành phần dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối
tượng nhị phân, với các thuộc tính như là các cột khác. Hoặc bạn có thể lưu trữ các
thành phần dữ liệu phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ
vào tập tin trong cơ sở dữ liệu.
Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau.
Các thuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép
người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết. Nội dung của các dữ
liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ
trợ truy vấn thơng tin.
Tìm kiếm:
Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông
tin ra? Câu trả lời là bằng cách tìm kiếm (Search). Để có được thơng tin từ dữ liệu có
cấu trúc, bạn có thể sử dụng các câu truy vấn như báo cáo tỉnh, hoặc câu truy vấn tự
xây dựng. Nếu bạn sử dụng một ứng dụng BI, các ứng dụng có thể đi qua các siêu dữ
liệu và hiển thị các cấu trúc dữ liệu, và sau đó hỗ trợ bạn trong việc điều hướng qua
các dữ liệu để lấy lại thông tin bạn cần.
Để có được thơng tin từ dữ liệu phi cấu trúc, đặc biệt là các văn bản dữ liệu như
các tài liệu, email, và các trang web, bạn thực hiện tìm kiếm. Giống như trên Internet,
các cơng cụ tìm kiếm đã thu thập thông tin kho dữ liệu và đánh chỉ mục các dữ liệu phi
cấu trúc. Các cơng cụ tìm kiếm có phân loại các dữ liệu phi cấu trúc dựa trên kiểu và
thuộc tính của nó và , trong trường hợp các trang web, liên kết của nó.
Khi bạn gõ thơng tin tìm kiếm vào ơ tìm kiếm, và các cơng cụ tìm kiếm sẽ đi
qua các chỉ mục, tìm đến vị trí của những thơng tin, và hiển thị các kết quả. Nó cũng
có thể cung cấp giới hạn trước tìm kiếm, nó có thể hiển thị cấu trúc cây cho bạn để
điều hướng và lựa chọn. Nó cũng có thể nhớ người sử dụng tìm kiếm mà có thể hỗ trợ
bạn trong việc xác định những gì để loại khi tìm kiếm.
Hiện nay tìm kiếm đã trở thành một xu hướng trong quản trị doanh nghiệp
thông minh và kho dữ liệu, bởi họ có thể lựu chọn dữ liệu phi cấu trúc của kho trong
kho dữ liệu khổng lồ.
Kiến trúc hƣớng dịch vụ:
Kiến trúc hướng dịch vụ (Service-Oriented Architecture - SOA) là một hướng
tiếp cận với việc thiết kế và tích hợp các phần mềm, chức năng, hệ thống theo dạng
TIEU LUAN MOI download :
22
module, trong đó mỗi module đóng vai trị là một dịch vụ và có khả năng truy nhập
thơng qua mơi trường mạng. Hiểu một cách đơn giản thì một hệ thống SOA là một tập
hợp các dịch vụ được chuẩn hóa trên mạng trao đổi với nhau trong nhữ cảnh một tiến
trình nghiêp vụ.
Một DWH hệ thống bao gồm nhiều thành phần: hệ thống nguồn, hệ thống ETL,
hệ thống siêu dữ liệu, hệ thống báo cáo, hệ thống cơ sở dữ liệu riêng của mình,… Bạn
có thể xây dựng nó như một ứng dụng khổng lồ với tất cả các thành phần quan hệ chặt
chẽ; có nghĩa là, bạn khơng thể thay thế một phần mà không ảnh hưởng đến các thành
phần khác. Hoặc bạn có thể xây dựng theo kiến trúc hướng dịch vụ với nhiều thành
phần nhỏ hơn, các thành phần độc lập mà nói chuyện với nhau bằng cách cung cấp và
sử dụng các dịch vụ của nó. Trong tương lai, nó cũng có thể dễ dàng hơn để cập nhật
một thành phần không ảnh hưởng của những người khác và các thành phần khác nhau
để kết nối được thực hiện bằng cách sử dụng các công nghệ khác nhau.
Kho dữ liệu thời gian thực:
DWH ngày nay thông thường được cập nhật từng ngày, từng tuần, từng
tháng,...Có một số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho
dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực. Một DWH thời
gian thực (Real-Time Data Warehouse) là một DWH mà được cập nhật (bởi ETL)
ngay thời điểm giao dịch xảy ra trong hệ thống nguồn.
2.7. Kiến trúc của kho dữ liệu
DWH và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức. Có 3 kiến trúc
phổ biến của DWH:
Kiến trúc DWH cơ bản: Đây là kiến trức đơn giản cho DWH.
Hình 3. Kiến trúc DWH cơ bản
Kiến trúc DWH với Staging Area: thêm thành phần làm sạch và xử lý dữ liệu trước
khi đưa vào DWH.
TIEU LUAN MOI download :
23
Hình 4.
Kiến trúc DWH với Staging Area
Kiến trúc DWH với Staging Area và Data Mart: So với kiến trúc trên có thêm data
mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người
dùng đặc biệt.
Hình 5.
Kiến trúc kho dữ liệu với Staging Area và Data Mart
2.7.1. Nguồn dữ liệu
Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:
Dữ liệu từ các hệ thống tác nghiệp
o Chứa dữ liệu chi tiết và hiện tại
o Được sử dụng cho các giao dịch hàng ngày
o Chứa dữ liệu thích hợp hiện hành
o Là nguồn dữ liệu được tích hợp để xây dựng kho dữ liệu
Hệ thống kế thừa
TIEU LUAN MOI download :