Tải bản đầy đủ (.docx) (15 trang)

Bài Tập Lớn Kho Dữ Liệu và Khai Phá Dữ Liệu Cô Nguyễn Quỳnh Chi PTIT Data Warehouse

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.12 MB, 15 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
-----🙞🙞🙞🙞🙞-----

BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài: DATA WAREHOUSE
Giảng Viên: NGUYỄN QUỲNH CHI

Thành viên :

Hà Nội, tháng 05 năm 2022


Mục lục

Nội dung
Mục lục

2

NHẬN XÉT CỦA GIẢNG VIÊN

3

1. Giới thiệu

4

2. Yêu cầu nghiệp vụ

4



3. Đặc tả chức năng

5

4. Thiết kế kho dữ liệu – phương pháp luận cho các bước thiết kế bao gồm cả lược
đồ hình sao
5
5. Cài đặt các khối dữ liệu và tải dữ liệu vào các khối

11

6. Sinh báo cáo phân tích xử lí trực tuyến

14

7. Kết luận

15

2


1. Giới thiệu
1.1. Mục tiêu
Mục tiêu của bài toán là xây dựng kho dữ liệu tích hợp các dữ liệu của doanh
nghiệp để tạo lập các báo cáo kinh doanh nhằm hỗ trợ người quản lý đưa ra quyết
định, chiến lược phát triển. Ngồi ra, trong tương lai có thể áp dụng thêm kỹ thuật
mining để khai phá dữ liệu mới.
1.2. Phạm vi

‒ Quản lý việc kinh doanh của một doanh nghiệp gồm nhiều cửa hàng nằm rải rác
ở nhiều thành phố và bang khác nhau nhằm đáp ứng được nhu cầu của khách
hàng.
‒ Nguồn dữ liệu: từ hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh nghiệp.
‒ Xây dựng các khối OLAP để lưu trữ dữ liệu đa chiều về sản phẩm kinh doanh
của doanh nghiệp, cụ thể ở đây là sản phẩm đã bán và sản phẩm lưu trữ.
2. Yêu cầu nghiệp vụ
Các đặc tả ứng dụng của kho dữ liệu cho người dùng:
● Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mơ tả, kích
cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó.
● Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực
hiện bởi khách hàng đó.
● Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán
các mặt hàng được đặt bởi một khách hàng nào đó.
● Tìm địa chỉ văn phịng đại diện với tên thành phố, bang của tất cả các cửa
hàng lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể.
● Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với
mô tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó.
● Tìm thành phố và bang mà một khách hàng nào đó sinh sống.
● Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một
thành phố cụ thể nào đó.
● Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một
đơn đặt hàng.
● Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách
hàng thuộc cả hai loại.

3


3. Đặc tả chức năng

Công cụ sử dụng cho bài tập lớn là SQL Server.
Đầu vào của kho dữ liệu:
- Lược đồ quan hệ của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh nghiệp
này như sau:
● Cơ sở dữ liệu Văn phòng đại diện bao gồm những quan hệ với các lược đồ
như sau:
▪ Khách hàng (Mã KH, Tên KH, Ngày đặt hàng đầu tiên)
▪ Khách hàng du lịch (* Mã KH, Hướng dẫn viên du lịch, Thời gian)
▪ Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)
● Cơ sở dữ liệu Bán hàng gồm những quan hệ với lược đồ như sau:
▪ Văn phòng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang,
Thời gian)
▪ Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)
▪ Mặt hàng (Mã MH, Mơ tả, Kích cỡ, Trọng lượng, Giá, Thời gian)
▪ Mặt hàng được lưu trữ (* Mã cửa hàng, * Mã mặt hàng, Số lượng trong
kho, Thời gian)
▪ Đơn đặt hàng (Mã đơn, Ngày đặt hàng, Mã Khách hàng)
▪ Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt,
Thời gian)
Đầu ra của kho dữ liệu: các báo cáo (bảng dữ liệu động) cho phép người dùng thực
hiện các thao tác roll up, drill down, slice, dice … cung cấp thông tin để hỗ trợ
người quản lý ra quyết định.

4


4. Thiết kế kho dữ liệu – phương pháp luận cho các bước thiết kế bao gồm cả
lược đồ hình sao
4.1 Xây dựng mơ hình thực thể liên kết
Bước 1 Chuyển đổi ngược DB1, DB2 → EER1, EER2

DB1: Văn phòng đại diện
▪ Khách hàng (Mã KH, Tên KH, Ngày đặt hàng đầu tiên)
▪ Khách hàng du lịch (* Mã KH, Hướng dẫn viên du lịch, Thời gian)
▪ Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)
PR1: Khách hàng -> Thực thể Khách hàng.
PR2: Khách hàng du lịch, Khách hàng bưu điện là tập con của Khách hàng.
Ta có EER1:

DB2: Bán hàng
▪ Văn phịng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang, Thời
gian)
▪ Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)
▪ Mặt hàng (Mã MH, Mô tả, Kích cỡ, Trọng lượng, Giá, Thời gian)
5


▪ Mặt hàng được lưu trữ (* Mã cửa hàng, * Mã mặt hàng, Số lượng trong kho,
Thời gian)
▪ Đơn đặt hàng (Mã đơn, Ngày đặt hàng, Mã Khách hàng)
▪ Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt, Thời
gian)

PR1: Văn phòng đại diện, Cửa hàng, Mặt hàng, Đơn đặt hàng -> Các thực thể
tương ứng.
Mapping SR1 và các FKA: Mặt hàng được lưu trữ và Mặt hàng được đặt.
Ta có EER2:

Bước 2 Tích hợp EER1, EER2 thành IEER
Giải quyết xung đột ngữ nghĩa:
Trường Thời gian ở các thực thể là đồng âm (homonyms):

Thực hiện đổi tên thuộc tính:
- Văn phịng đại diện: Thời gian -> Ngày thành lập văn phòng
- Cửa hàng: Thời gian -> Ngày thành lập cửa hàng
6


- Mặt hàng: Thời gian -> Ngày bắt đầu bán
- Mặt hàng được lưu trữ: Thời gian -> Ngày nhập hàng

Trường Thời gian ở các thực thể là đồng nghĩa (synonyms):
Thực hiện xóa bỏ:
- Khách hàng bưu điện: Thời gian -> Xoá bỏ.
- Khách hàng du lịch: Thời gian -> Xoá bỏ.
- Mặt hàng được đặt: Thời gian -> Xoá bỏ.

KHÁCH HÀNG chứa Mã TP và ĐƠN HÀNG chứa Mã KH, ta tích hợp được 2
lược đồ EER1 và EER2 được IEER:

7


4.2 Thiết kế mơ hình cho data warehouse
4.2.1 Lược đồ hình sao

8


4.2.2 Đặc tả chi tiết
Sale_Fact: Các bản ghi chứa thông tin về tổng số lượng (quantity_sell), tổng số
tiền (total_price) mà một khách hàng đã chi cho một sản phẩm ở 1 thành phố theo

ngày.
Customer_Dim: Các bản ghi chứa thông tin khách hàng. customer type mang một
trong 3 giá trị (“1”, “2”, “3”) tương ứng với 1: Khách hàng bưu điện, 2 khách hàng
du lịch, 3 khách hàng thuộc cả 2
Time_Dim: Các bản ghi chứa thông tin thời gian, với các cấp bậc Year, Month,
Date. Mỗi hàng trong bảng Time thể hiện 1 ngày.
Office_Dim: Các bản ghi chứa thông tin về văn phịng đại diện.
Store_Dim: Các bản ghi chứa thơng tin về cửa hàng. store_key, city_key là mã, tên
thành phố tương ứng của cửa hàng.
Item_Dim: Các bản ghi chứa thông tin sản phẩm.
4.2.3 Ánh xạ lược đồ quan hệ sang mô hình data warehouse
Các bảng Dim:
Office_Dim

Item_Dim

Time_Dim
9


Store_Dim

Customer_Dim

Bảng Sale_Fact:

10


5. Cài đặt các khối dữ liệu, tải dữ liệu vào các khối

Công cụ sử dụng: SQL Server Analysis Service và SQL Server Data Tools.
Bước 1: Tạo các bảng fact, dimension và đổ dữ liệu vào các bảng.
Bước 2: Mở SQL Server Data Tools, tạo mới một Project Analysis Service. New
Data Source để kết nối với database.

11


Bước 3: Tạo New Data Source Views mới

Bước 4: Tạo khối dữ liệu Cube. New Cube từ bảng Fact. Chọn các Measure và
Dimension tương ứng

12


Bước 5: Thiết lập, lựa chọn thuộc tính, phân cấp dữ liệu cho các bảng Dimension.

13


6. Sinh các báo cáo phân tích trực tuyến
Thực hiện Deploy, sau đó Process để chạy và xem các báo cáo phân tích OLAP
trực tuyến:

Chuột phải vào khối Cube dữ liệu sau đó chọn Browser để xem các báo cáo phân
tích. Kéo các thuộc tính hoặc độ đo vào giữa để truy vấn lọc theo yêu cầu.

14



7. Kết luận
Cơng việc mà nhóm đã hồn thành:
● Tích hợp lược đồ thành một mơ hình liên kết mở rộng.
● Thiết kế lược đồ hình sao.
● Thử sinh báo cáo xử lý phân tích trực tuyến.
Cảm ơn cơ đã tận tâm và giúp đỡ chúng em trong học kì qua để có thể hồn thành
bài báo cáo này. Nếu có sai sót nào trong q trình thực hiện bài báo cáo, mong cơ
góp ý để nhóm có thể rút kinh nghiệm. Kho và khai phá dữ liệu thực sự là một mơn
học hay và rất có ý nghĩa với chúng em. Chúc cô luôn mạnh khoẻ, vui vẻ và thành
cơng hơn nữa trong sự nghiệp của mình!

15



×