1
Massive Parallel Processing for
Large Scale Database
Giảng viên : Nguyễn Hà Nam
Nhóm 12 : Lê Hồng Hà
Đào Thị Thu Hiền
2
Các nội dung trình bày
Sự cần thiết của MPP và Large Scale
Database
Phương hướng thực thi MPP
Một số hệ thống cơ sở dữ liệu thực thi
MPP hiện nay
3
Sự cần thiết của MPP và Large Scale
Database
Có rất nhiều những dịch vụ trên thế giới
cho phép người dùng có thể truy cập bất
cứ nơi đâu, bất cứ lúc nào.
Công nghệ Web Service phát triển nhanh
chóng.
DBMS sử dụng đơn CPU không thể xử lý
hiệu quả lượng dữ liệu cỡ terabyte ở tốc
độ hàng chục nghìn TPS.
Dễ dàng mở rộng lên tới hàng nghìn node
4
Phương hướng thực thi MPP
Kiến trúc Share-nothing
Parallel DBMS
Mô hình lập trình MapReduce
5
MapReduce
Là một mô hình lập trình được giới thiệu
bởi Google
Dùng để xử lý, phân tích song song lượng
dữ liệu lớn, phân tán trên hàng nghìn máy
khác nhau
Cấu trúc gồm có hàm Map và Reduce
6
Ví dụ MapReduce
7
Một số hệ thống cơ sở dữ liệu thực thi
MPP
HadoopDB
Aster Data Database
8
HadoopDB
Dựa trên SQL và hệ thống Hadoop
(MapReduce)
Sử dụng RDBMS
Sử dụng Hive để thực thi pseudo-SQL
trên HDFS (Hadoop Distributed File
System)
Có khả năng mở rộng tốt giống như
Hadoop trong khi vẫn đảm bảo được hiệu
năng tốt trong phân tích dữ liệu
9
Kiến trúc của HadoopDB
10
Truy vấn dữ liệu trên HadoopDB
11
Aster Data Database
12
Aster Data Database
Aster Data Database hỗ trợ SQL-
MapReduce và SQL chuẩn
Các hàm MapReduce có thể tích hợp vào
trong SQL
SELECT
FROM functionname(
ON table-or-query
[ PARTITION BY expr ]
[ ORDER BY expr ]
[ clausename ( arg ) ]
)
13
Aster Data Database
14
SQL-MapReduce Function
15
SQL-MapReduce Function
16
SQL-MapReduce Function
SELECT word, SUM (occurrence) as
frequency
FROM WordCount (
ON (select line from book_table)
)
GROUP BY word
17
Tham khảo
/>
/>b.html
/>platform/database-technology-for-large-
scale-data/
/>18
Xin chân thành cảm ơn!