Tải bản đầy đủ (.pdf) (60 trang)

Quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và phân tích dữ liệu lớn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 60 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------------------------------

HỒNG VĂN CƠNG

QUẢN LÝ THƠNG TIN GIAO THƠNG ĐƠ THỊ DỰA VÀO DỮ
LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 8 năm 2020


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------------------------------

HỒNG VĂN CƠNG

QUẢN LÝ THƠNG TIN GIAO THƠNG ĐƠ THỊ DỰA VÀO DỮ
LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ


TP. HỒ CHÍ MINH, tháng 8 năm 2020


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS.TS Trần Minh Quang

Cán bộ chấm nhận xét 1: TS. Phan Trọng Nhân

Cán bộ chấm nhận xét 2: TS. Đặng Trần Trí

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 29 tháng 8 năm 2020
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS.TS Đặng Trần Khánh
2. Thư ký: TS. Lê Hồng Trang
3. Phản biện 1: TS. Phan Trọng Nhân
4. Phản biện 2: TS. Đặng Trần Trí
5. Ủy viên: PGS.TS Vũ Thanh Nguyên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH&KTMT


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: HỒNG VĂN CƠNG ................................... MSHV: 1670213
Ngày, tháng, năm sinh: 10/10/1988 ........................................... Nơi sinh: Hà Tĩnh
Chuyên ngành: Khoa học máy tính ........................................... Mã số :
I. TÊN ĐỀ TÀI: QUẢN LÝ THÔNG TIN GIAO THÔNG ĐÔ THỊ DỰA VÀO

DỮ LIỆU TỪ CỘNG ĐỒNG VÀ PHÂN TÍCH DỮ LIỆU LỚN
( URBAN TRAFFIC INFORMATION MANAGEMENT BASED ON
CROWD-SENSING AND BIG DATA ANALYTICS)
II. NHIỆM VỤ VÀ NỘI DUNG:
-

Quản lý thông tin dữ liệu giao thông từ cộng đồng, phân tích dữ liệu lớn

-

Tìm hiểu về kho dữ liệu, phân tích thiết kế kho dữ liệu quản lý thông tin giao
thông đô thị (TPHCM)

III. NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 24/02/2020
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 21/6/2020
V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Trần Minh Quang

Tp. HCM, ngày . . . . tháng .. . . năm 2020
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO


TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH


LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lời cảm ơn sâu sắc nhất tới thầy giáo hướng dẫn
PGS.TS. Trần Minh Quang là người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em
rất nhiều trong quá trình tìm hiểu nghiên cứu để hoàn thành luận văn tốt nghiệp
này.
Em xin chân thành cảm ơn các thầy cô trong khoa Khoa học và Kỹ thuật
máy tính, trường Đại học Bách khoa – DHQG TP.HCM đã dạy bảo, trang bị cho
em những kiến thức cơ bản trong suốt thời gian nghiên cứu và học tập tại trường
của em.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình và bạn bè, đồng nghiệp vì
đã ln hỗ trợ em và khuyến khích liên tục trong suốt những năm học tập và qua
quá trình nghiên cứu và viết luận văn này.
Xin chân thành cảm ơn!


TĨM TẮT LUẬN VĂN
Ngồi phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm
có 4 chương được tóm tắt như sau:
Chương 1: Tổng quan.
Nội dung chính của chương này là trình bày tổng quan về thực trạng giao
thông, công tác quản lý giao thông thành phố Hồ Chí Minh hiện nay; mục tiêu,
phạm vi và đối tượng nghiên cứu của luận văn.
Chương 2: Tổng quan về Data Warehouse.
Nội dung chính của chương này là trình bày tổng quan kho dữ liệu gồm
định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lơ gíc, tổ chức
vật lý của kho dữ liệu.
Chương 3: Xây dựng kho dữ liệu quản lý thông tin giao thơng đơ thị

Nội dung chính của chương này bao gồm: Tìm hiểu về dữ liệu giao thơng;
xác định u cầu phân tích; thiết kế mơ hình dữ liệu dựa trên u cầu phân tích;
thiết kế mơ hình; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống cung
cấp dữ liệu vào kho dữ liệu; xây dựng công cụ báo cáo, thống kê.
Chương 4: Kết quả và hướng phát triển.
Nội dung chính của chương này là trình bày các kết quả của luận văn, đồng
thời đưa ra những vấn đề nghiên cứu tiếp theo cho tương lai.


SUMMARY OF THESIS
In addition to the introduction and conclusion, the content structure of the
thesis includes 4 chapters summarized as follows:
Chapter 1: Overview.
The main content of this chapter is to present an overview of the current
traffic situation, traffic management in Ho Chi Minh City today; the dissertation's
research objectives, scope and object.
Chapter 2: Overview of Data Warehouse.
The main content of this chapter is to present an overview of a data
warehouse, including definition, characteristics, benefits, future trends,
architecture, logical organization, and physical organization of the data
warehouse.
Chapter 3: Building urban traffic information management data
warehouse.
The main contents of this chapter include: Learn about traffic data;
determine analysis requirements; design the data model based on analysis
requirements; model design; design, extract, convert and load data from data
provisioning system into data warehouse; build tools for reporting and statistics.
Chapter 4: Results and development direction.
The main content of this chapter is to present the results of the thesis, and
at the same time give further research issues for the future.



LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chun
mơn nên tơi đã làm luận văn này một cách nghiêm túc và hồn tồn trung thực.
Trong luận văn, tơi có sử dụng một số tài liệu tham khảo của một số tác
giả. Tôi đã nêu ra trong phần tài liệu tham khảo ở cuối luận văn.
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong
luận văn tốt nghiệp Thạc sĩ của mình!
Học viên, Hồng Văn Cơng.


MỤC LỤC
DANH SÁCH HÌNH VẼ ..................................................................................... 8
DANH SÁCH BẢNG BIỀU................................................................................ 8
CÁC THUẬT NGỮ VÀ VIẾT TẮT .................................................................. 8
MỞ ĐẦU ............................................................................................................ 10
Chương 1: TỔNG QUAN ................................................................................. 11
1.1. Thực trạng giao thông Thành phố Hồ Chí Minh ........................................ 11
1.2. Cơng tác quản lý giao thông tại TP.HCM hiện nay ................................... 13
1.3. Lý do chọn đề tài ........................................................................................ 14
1.4. Mục tiêu nghiên cứu ................................................................................... 14
1.5. Đối tượng và phạm vi nghiên cứu .............................................................. 14
1.6. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu ................................. 15
Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE .................................. 16
2.1. Định nghĩa kho dữ liệu ............................................................................... 16
2.2. Đặc tính của kho dữ liệu ............................................................................. 17
2.3. Kho dữ liệu và các cơ sở dữ liệu ................................................................ 19
2.4. Lợi ích của kho dữ liệu ............................................................................... 20
2.5. Kho dữ liệu hiện nay................................................................................... 21

2.6. Xu hướng tương lai của kho dữ liệu ........................................................... 23
2.7. Kiến trúc của kho dữ liệu ........................................................................... 26
2.7.1. Nguồn dữ liệu ...................................................................................... 27
2.7.2. Cơng cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) .......................... 28
2.7.3. Siêu dữ liệu .......................................................................................... 29
2.7.4. Kho dữ liệu chủ đề .............................................................................. 30
2.7.5. Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu .......................... 31
2.8. Tổ chức dữ liệu lơgíc .................................................................................. 31
2.8.1. Lược đồ kho dữ liệu ............................................................................ 31
2.8.1.1. Lược đồ hình sao ........................................................................... 31
2.8.1.2. Lược đồ bơng tuyết rơi .................................................................. 32
2.8.1.3. Lược đồ kết hợp ............................................................................ 33
2.8.2. Mơ hình dữ liệu đa chiều ..................................................................... 33
2.8.3. Bảng sự kiện ........................................................................................ 35
2.8.4. Bảng chiều ........................................................................................... 35
2.8.5. Bảng sự kiện tổng hợp ......................................................................... 36


2.9. Tổ chức dữ liệu vật lý ................................................................................. 37
2.9.1. Phân vùng ............................................................................................ 37
2.9.2. Chỉ mục................................................................................................ 37
Chương 3: XÂY DỰNG KHO DỮ LIỆU QUẢN LÝ THÔNG TIN GIAO
THÔNG ĐÔ THỊ............................................................................................... 39
3.1. Cơng trình liên quan và tổng quan hệ thống .............................................. 39
3.1.1. Một số nghiên cứu liên quan ............................................................... 39
3.1.2. Tổng quan về hệ thống ........................................................................ 40
3.2. Mục tiêu của kho dữ liệu quản lý thông tin giao thông .............................. 41
3.3. Dữ liệu giao thông sử dụng trong nghiên cứu ............................................ 42
3.4. Tiêu chí xác định ùn tắc giao thơng............................................................ 43
3.5. Xây dựng kho dữ liệu quản lý thông tin giao thông đô thị ........................ 44

3.5.1. Xác định yêu cầu phân tích ................................................................. 44
3.5.2. Kiến trúc của kho dữ liệu .................................................................... 45
3.5.3. Thiết kế mơ hình dữ liệu ..................................................................... 46
3.5.4. Tạo cấu trúc database .......................................................................... 49
3.5.5. Thiết kế trích xuất chuyển đổi nạp dữ liệu .......................................... 49
3.5.5.1. Mô tả chung................................................................................... 49
3.5.5.2. Kết nối dữ liệu nguồn vào các bảng chiều .................................... 50
3.5.6. Xử lý bằng kĩ thuật OLAP sử dụng công cụ Schema-workbench ...... 51
3.5.6.1. Tạo Cube và publish lên server ..................................................... 51
3.5.6.2. Thiết kế biểu đồ thống kê, báo cáo ............................................... 53
Chương 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ...................................... 54
4.1. Các kết quả đạt được .................................................................................. 54
4.2. Hướng nghiên cứu ...................................................................................... 55
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................... 56


DANH SÁCH HÌNH VẼ
Hình 1. Kiến trúc DWH cơ bản........................................................................... 26
Hình 2. Kiến trúc DWH với Staging Area .......................................................... 27
Hình 3. Kiến trúc kho dữ liệu với Staging Area và Data Mart ........................... 27
Hình 4. Lược đồ hình sao .................................................................................... 32
Hình 5. Lược đồ bơng tuyết rơi ........................................................................... 33
Hình 6. Mơ hình đa chiều .................................................................................... 34
Hình 7. Kiến trúc của DWH thử nghiệm ............................................................ 45
Hình 8: Mơ hình quan hệ thơng tin giao thơng ................................................... 49
Hình 9. Các trường dữ liệu trong SegmentsReport............................................. 50
Hình 10. Kết nối dữ liệu nguồn vào chiều Dim_Date ........................................ 50
Hình 11. Kết nối dữ liệu nguồn vào bảng Dim_time_of_day............................. 51
Hình 12. Kết nối dữ liệu nguồn vào bảng Dim_Location ................................... 51
Hình 13. Kết nối dữ liệu vào bảng fact ............................................................... 51

Hình 14. Tạo Cube .............................................................................................. 52
Hình 15. Public lên server ................................................................................... 53
Hình 16. Thiết kế thống kê, báo cáo ................................................................... 53

DANH SÁCH BẢNG BIỀU
Bảng 1: Cấu trúc bảng mô tả chiều ngày ............................................................ 46
Bảng 2: Bảng mô tả chiều thời gian của ngày .................................................... 47
Bảng 3: Bảng mơ tả chiều vị trí .......................................................................... 47
Bảng 4: Bảng mô tả Bảng sự kiên ....................................................................... 48

CÁC THUẬT NGỮ VÀ VIẾT TẮT


TP.HCM: Thành phố Hồ Chí Minh



GTVT: Giao thơng vận tải



CNTT: Cơng nghệ thơng tin



ATGT: An tồn giao thơng



DWH (Data Warehouse): Kho dữ liệu.




BI (Business Intelligence): Quản trị doanh nghiệp thông minh.
8




CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng.



CSDL: Cơ sở dữ liệu.



CRM (Customer relationship management): Quản lý mối quan hệ với khách
hàng.



DM (Data mart): Kho dữ liệu chủ đề.



ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu.




MDM (Master Data Management): Quản lý dữ liệu chủ.



OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến.



OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến.



SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ.



VLDB (Very large DB): Cơ sở dữ liệu rất lớn.



SA (Subject Area) : Vùng chủ đề

9


MỞ ĐẦU
Với dân số hơn 10 triệu người, Thành phố Hồ Chí Minh (TP.HCM) là điểm
nóng về an tồn giao thông (ATGT). Tắc nghẽn giao thông không chỉ làm tê liệt
thành phố vào giờ cao điểm, mà còn tăng lượng khí thải độc hại. Tình trạng thiếu
phương tiện giao thơng công cộng cũng ảnh hưởng rất lớn đến chất lượng sống

của người dân. Trong thời gian qua, TP.HCM đã không ngừng nỗ lực cải tạo, xây
dựng phát triển hệ thống cơ sở hạ tầng giao thông vận tải (GTVT) đảm bảo trật tự
an tồn giao thơng ở mức độ cao nhất với việc triển khai nhiều giải pháp; đặc biệt
là việc ứng dụng khoa học công nghệ vào công tác quản lý điều hành giao thông
đô thị. TP.HCM đã đạt được những thành tựu đáng kể trong việc ứng dụng công
nghệ vào quản lý điều hành giao thông vận tải gắn với Đề án xây dựng TP.HCM
trở thành đô thị thông minh và gắn với xu hướng ứng dụng những thành tựu khoa
học công nghệ trên thế giới, nhất là những thành tựu của cuộc cách mạng công
nghiệp 4.0. Tuy nhiên, bên cạnh kết quả đạt được, việc ứng dụng các giải pháp
khoa học công nghệ cho công tác quản lý giao thơng đơ thị vẫn cịn nhiều mặt hạn
chế, chưa theo kịp với tốc độ phát triển đô thị của thành phố và tình hình giao
thơng diễn biến ngày càng phức tạp. Nguyên nhân là do các vướng mắc về cơ chế
phối hợp, về xây dựng, quản lý cơ sở dữ liệu (CSDL).
Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng
cơng nghệ thông tin (CNTT) mà cụ thể là ứng dụng công nghệ kho dữ liệu (DWH
- Data Warehouse) vào “Quản lý thông tin giao thông đô thị dựa vào dữ liệu
từ cộng đồng và phân tích dữ liệu lớn” được thực hiện với mong muốn xây
dựng được một DWH ban đầu để hỗ trợ quản lý thông tin giao thông tại Thành
phố Hồ Chí Minh.

10


Chương 1: TỔNG QUAN
1.1.

Thực trạng giao thông Thành phố Hồ Chí Minh

Giao thơng Thành phố Hồ Chí Minh là tổng hịa của nhiều loại hình giao
thơng hiện hữu phục vụ nhu cầu đi lại trong phạm vi thành phố, giữa TP.HCM

với các vùng lân cận và tồn cầu. Là đơ thị lớn nhất và là đầu mối giao thông quan
trọng của Việt Nam, Thành phố Hồ Chí Minh có hệ thống cơ sở hạ tầng đa dạng
và hiện đại với nhiều đường trục liên vùng lớn, hai đường cao tốc chính nối các
tỉnh miền Tây và miền Đơng Nam Bộ, cùng nhiều tuyến quốc lộ trọng điểm. Hệ
thống đường bộ của TP.HCM dày đặc, có tổng chiều dài 4.044 km lớn nhất trong
các đô thị ở Việt Nam.
Trong những năm qua, q trình đơ thị hóa diễn ra mạnh mẽ, dân số nhập
cư tăng cao, hệ thống cơ sở hạ tầng chưa đồng bộ, định hướng quy hoạch đô thị
chưa thật sự đúng đắn, sự quản lý yếu của cơ quan quản lí, ý thức kém của người
tham gia giao thơng... đã làm cho giao thơng thành phố Hồ Chí Minh ngày càng
tồi tệ. Tình trạng kẹt xe, tiếng ồn, ô nhiễm bụi do khí thải của các phương tiện
tham gia giao thông đã trở thành một vấn nạn của thành phố Hồ Chí Minh.
1.1.1. Quy hoạch đơ thị khơng ổn định
Quy hoạch đô thị bao gồm rất nhiều lĩnh vực (không gian, hạ tầng kỹ thuật
đô thị, kinh tế, dân số, mơi trường, cảnh quan…) trong đó quy hoạch giao thông
luôn là một nôi dung cơ bản, gắn liền với quy hoạch không gian và quy hoạch các
phân khu chức năng. Tuy nhiên, phần lớn các đô thị trên thế giới không được quy
hoạch hiện đại ngay từ khi mới xây dựng mà thường là kế thừa những đô thị đã
hình thành một cách tự nhiên trước đó, Sài Gịn - TP.HCM cũng nằm trong trường
hợp này.
Quy hoạch khơng ổn định là khó khăn lớn nhất đối với ngành GTVT thành
phố vì khơng cịn quỹ đất để tăng tỷ lệ diện tích giao thơng thì cũng khơng thể cải
thiện được tình trạng tắc đường, kẹt xe và khi cần chỉnh trang, mở rộng hay tạo ra
những trục đường mới cũng không thể làm xáo trộn cuộc sống của quá nhiều
người dân và khơng đủ kinh phí rất lớn để đền bù giải tỏa.
11


1.1.2. Dân số đông, mật độ cao
Những năm gần đây, TP.HCM đang chịu áp lực lớn từ việc gia tăng dân

số. TP.HCM cũng là nơi đông dân nhất cả nước (chiếm 9,35%) và chiếm hơn 50%
dân số vùng Đông Nam bộ. Mật độ dân số TP.HCM là 4.292 người/km2 (tăng
gần 26% so với năm 2009) và cũng là thành phố có mật độ dân số cao nhất của cả
nước. Dân số đông, tỷ lệ gia tăng dân số cơ học cao đang dẫn đến tình trạng
phương tiện cá nhân tăng cao đây là vấn đề gây nên tình trạng ùn tắc giao thông
tại TP.CHCM.
1.1.3. Ý thức của người tham gia giao thơng cịn thấp.
Theo thống kê của Ban An tồn giao thơng TP.HCM, có đến 90% tai nạn
giao thơng xảy ra do ý thức người dân cịn kém, khơng chấp hành luật lệ gây hậu
quả đáng tiếc.
Tình trạng ùn tắc giao thông hiện nay xảy ra hầu hết các nước trên thế
giới. Tuy nhiên, ở các nước đó khác với ta ở chỗ, khi có ùn tắc giao thơng những
người điều khiển phương tiện vẫn chấp hành nghiêm chỉnh Luật Giao thơng,
khơng luồn lách, đi lên vỉa hè, rú cịi inh ỏi, cịn ở nước ta thì ngược lại mạnh ai
nấy đi, "hở chỗ nào đi chỗ nấy", không theo qui định nào cả.
Phần lớn người đi đường cố ý vượt đèn đỏ, leo lề, lấn làn… không chỉ gây
ùn tắc, dễ xảy ra tai nạn, mà còn làm xấu xí bộ mặt giao thơng đơ thị tại Việt Nam.
Lâu nay chúng ta vẫn nói nhiều đến văn hóa giao thơng. Nhiều người bảo do dân
trí cịn thấp nên việc vi phạm giao thơng cịn diễn biến phức tạp. Nhưng thực tế
khẳng định rằng, văn hóa giao thơng khơng phụ thuộc vào trình độ văn hóa. Bởi,
ở các đơ thị là nơi tập trung của rất nhiều nhân sĩ, trí thức, người có trình độ văn
hóa cao… Tơn trọng pháp luật là tơn trọng chính mình. Có ý thức chấp hành luật
lệ giao thông đồng nghĩa với việc đem lại an tồn cho chính bạn và những người
xung quanh. Tình trạng ùn tắc giao thông, tai nạn giao thông gia tăng như hiện
nay không thể chỉ đổ lỗi tại hạ tầng giao thơng mà trong đó ngun nhân khơng
nhỏ từ ý thức của người Việt khi tham gia giao thông.

12



1.1.4. Hạ tầng giao thông kém, phương tiện cá nhân tăng cao
Cho đến nay, hạ tầng giao thông TP.HCM chỉ đáp ứng được khoảng 30%
so với quy hoạch phát triển giao thơng của thành phố. Các cơng trình hạ tầng,
đường xá, cầu cống chật hẹp, xuống cấp. Quá trình xây dựng chậm chạp, đình trệ.
Trong khi đó lượng dân cư tập trung đông, số phương tiện cá nhân ngày
càng gia tăng đã trở thành "gánh nặng" cho hạ tầng giao thơng. Giải pháp mang
tính quyết định, trước hết phải là cải tạo, mở rộng và xây dựng mới cơ sở hạ tầng,
nhanh chóng mở rộng, xây dựng mới các đường trục chính, hồn thành các tuyến
vành đai, cải tạo các nút giao thông.
1.2.

Công tác quản lý giao thông tại TP.HCM hiện nay

Trong thời gian qua, TP.HCM đã và đang triển khai nhiều giải pháp ứng
dụng CNTT trong quản lý và điều hành giao thông đô thị, đảm bảo trật tự ATGT
trên địa bàn thành phố. Cụ thể, từ đầu năm 2019, đã hoàn thành và đưa vào sử
dụng Trung tâm quản lý điều hành giao thông đặt tại Trung tâm Quản lý đường
hầm sơng Sài Gịn, tăng cường ứng dụng CNTT giải quyết tình trạng ùn tắc giao
thơng, tai nạn giao khu vực trung tâm thành phố.
Theo đó, khu vực giám sát - vận hành hệ thống thiết bị đường hầm gồm 9
màn hình 42 inch để giám sát tình hình giao thơng qua đường hầm sơng Sài Gịn,
2 màn hình 65 inch phục vụ cơng tác vận hành hệ thống thiết bị điện, thơng gió,
thốt nước và hệ thống khẩn cấp đường hầm. Khu vực giám sát - vận hành và điều
khiển giao thơng TP gồm 18 màn hình 42 inch để giám sát camera giao thơng, 30
màn hình ghép thành 2 Video Wall (1 video wall có 9 màn hình 46 inch và 1 video
wall có 21 màn hình 49 inch) để giám sát, vận hành các hệ thống điều khiển giao
thơng tích hợp.
Bên cạnh đó, TP cũng triển khai một số các giải pháp khác liên quan đến
việc ứng dụng CNTT trong lĩnh vực GTVT như: Đưa vào hoạt động hệ thống thu
phí dịch vụ sử dụng đường bộ điện tử tự động không dừng (ETC) tại Trạm thu phí

cầu Phú Mỹ, Trạm thu phí An Sương - An Lạc. Đồng thời, triển khai thí điểm sử
dụng vé điện tử smartcard dành cho cho xe buýt; triển khai thực hiện việc thu phí
13


và quản lý cơng tác thu phí sử dụng lịng đường để đỗ xe ô tô thông qua ứng dụng
di động MyParking trên 22 tuyến đường trên địa bàn TP;...
1.3.

Lý do chọn đề tài

Trong tình hình giao thơng thành phố cịn nhiều phức tạp như hiện nay, cơng
tác quản lý giao thơng đơ thị cịn nhiều bất cập, chưa giải quyết hồn tồn được
tình trạng ùn tắc giao thơng thường xuyên trên địa bàn thành phố. Công tác quản
lý, khai thác dữ liệu thơng tin giao thơng đơ thị cịn nhiều hạn chế. Do đó, tơi chọn
đề tài “Quản lý thông tin giao thông đô thị dựa vào dữ liệu từ cộng đồng và
phân tích dữ liệu lớn” để từ đó sử dụng dữ liệu giao thơng có được tiến hành
phân tích và xây dựng báo cáo giúp các nhà quản lý giao thông cũng như công
chúng những người tham gia, quan tâm đến vấn đề giao thông dễ dàng tìm hiểu
thơng tin giao thơng.
1.4.

Mục tiêu nghiên cứu

Xây dựng và triển khai kho dữ liệu để lưu trữ và quản lý thông tin giao
thông một cách hiệu quả hơn. Với việc quản lý thông tin giao thông đô thị dựa
vào dữ liệu từ cộng đồng và phân tích dữ liệu lớn hệ thống sẽ giúp ích trong việc
quản lý: thơng tin về hạ tầng giao thơng, tình trạng giao thơng, xác định được tình
trạng giao thơng của từng con đường cụ thể, lưu lượng phương tiện tham gia giao
thông ở các thời điểm khác nhau. Phát hiện ra những điểm nóng giao thơng và

những ngun nhân gây ra tình trạng giao thơng đó từ đó có các phương án giải
quyết vấn đề.
1.5.

Đối tượng và phạm vi nghiên cứu

Xây dựng Kho dữ liệu đặc biệt là DWH u về quản lý thơng tin giao thơng
TP.HCM là một q trình lâu dài với nhiều công việc. Trong luận văn này, dữ liệu
DWH được xây dựng chủ yếu tập trung vào xử lý, chuẩn dữ liệu thông tin giao
thông từ nhiều nguồn khác nhau để đưa vào kho dữ liệu. Quy mô hệ thống thử
nghiệm được xây dựng áp dụng cho việc quản lý thơng tin giao thơng ở thành phố
Hồ Chí Minh. Tập trung thiết kế mơ hình dữ liệu và thu thập dữ liệu từ hệ thống
nguồn, xử lý chuẩn hóa dữ liệu, thiết kế một số các báo cáo, thống kê và tra cứu
14


cơ bản.
1.6.

Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

Ý nghĩa khoa học: Chuẩn hóa dữ liệu từ nhiều nguồn khác nhau vào kho dữ
liệu. Làm tiền đề cho việc phát triển các hệ thống quản lý thông tin sau này.
Ý nghĩa thực tiễn: Kết quả nghiên cứu làm cơ sở để công tác theo dõi, quản
lý cũng như khi cần tra cứu các thông tin giao thông hiệu quả hơn. Từ các nhà
quản lý cũng như người dân, những người quan tâm đến dữ liệu giao thơng sẽ
nắm được tình trạng giao thơng một cách chính xác hơn.

15



Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE
2.1.

Định nghĩa kho dữ liệu
Kho dữ liệu trong tiếng Anh là Data Warehousing.
Kho dữ liệu là kho lưu trữ điện tử của một lượng lớn thông tin của một

doanh nghiệp hoặc tổ chức. Kho dữ liệu là một thành phần quan trọng của phân
tích kinh doanh, sử dụng các kĩ thuật phân tích trên dữ liệu doanh nghiệp.
Khái niệm kho dữ liệu được giới thiệu vào năm 1988 bởi 2 nhà nghiên
cứu của IBM là Barry Devlin và Paul Murphy. Nhu cầu lưu trữ dữ liệu phát triển
khi các hệ thống máy tính trở nên phức tạp hơn và phải xử lí lượng dữ liệu ngày
càng tăng. Một cuốn sách quan trọng về lưu trữ dữ liệu là "Xây dựng kho dữ liệu"
của W.H Inmon, được xuất bản lần đầu tiên vào năm 1990 và đã được tái bản
nhiều lần kể từ đó.
Kho dữ liệu được sử dụng để cung cấp cái nhìn sâu sắc hơn về hiệu suất
của một công ty bằng cách so sánh dữ liệu được hợp nhất từ nhiều nguồn không
đồng nhất. Kho dữ liệu được thiết kế để chạy các câu hỏi và phân tích trên dữ liệu
lịch sử có nguồn gốc từ các nguồn giao dịch.
Dữ liệu có tính hướng chủ đề (subject-oriented)
 Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer),
sản phẩm (product), bán hàng (sales).
 Tập trung vào việc mơ hình hóa và phân tích dữ liệu cho các nhà đưa ra
quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch
hàng ngày.
 Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của
các chủ đề.
Dữ liệu có tính tích hợp (integrated):
 Dữ liệu mà ta có được chính là kết quả của việc tích hợp dữ liệu từ nhiều

nguồn dữ liệu hướng ứng dụng khác nhau với các định dạng khác nhau
 Dữ liệu từ các nguồn khác khi di chuyển về kho dữ liệu phải được chuyển
16


đổi về các dạng qui định, tạo nên một sự nhất quán trong việc hiển thị nội
dung khung nhìn duy nhất cho người dùng. Để làm được việc này ta cần
phải sử dụng các kĩ thuật làm sạch và tích hợp dữ liệu
Dữ liệu có tính biến đổi theo thời gian (time-variant):
 Vì nó chỉ đúng và chính xác tại một thời điểm nào đó, hay trong một khoản
thời gian nào đó. Các CSDL tác nghiệp lưu trữ dữ liệu có giá trị hiện thời,
cịn kho dữ liệu cung cấp thông tin để thể hiện triển vọng dựa vào những
dữ liệu mang tính lịch sử (chẳng hạn như dựa vào dữ liệu được tích hợp
trong 5-10 năm qua)
 Có thể hình dung dữ liệu bên trong kho dữ liệu ở đây được thể hiện như
một dãy hình ảnh theo dãy thời điểm trong tiến triển của thời gian.
Dữ liệu có tính ổn định (non-volatile):
 Vì khơng được cập nhập theo thời gian thực dữ liệu mới sẽ được đưa vào
kho dữ liệu như là dữ liệu cung cấp thêm chứ khơng phải như một thay đổi
cho dữ liệu đã có.
 Kho dữ liệu liên tục hấp thu những dữ liệu mới tích hợp và thêm vào bổ
sung vào những dữ liệu trước đó
 Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ
liệu.
o Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương
tranh.
o Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập
dữ liệu.
2.2.


Đặc tính của kho dữ liệu

Trước hết ta tìm hiểu khái niệm về vùng chủ đề (SA - Subject Area): một SA
là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan
tâm trong một lĩnh vực tác nghiệp cụ thể nào đó.
17


Những đặc điểm cơ bản của DWH:
 Tính tích hợp
Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ
nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác
nhau. Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung
một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung
nhìn khác cho thơng tin về khách hàng. Một kho sẽ có một khung nhìn tồn thể
về một khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ
thống tác nghiệp khác nhau.
 Gắn thời gian
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa
chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về
thời gian cho dữ liệu. Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một
giá trị thời gian nhất định.
 Có tính lịch sử
Các thơng tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một
khung nhìn của một chủ đề trong một giai đoạn.
 Chỉ đọc
Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, khơng được sửa đổi
bởi người sử dụng cuối.
 Khơng biến động

Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu
trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu
cũ trong kho vẫn khơng bị xóa, điều đó cho phép cung cấp thơng tin về một khoảng
thời gian dài, cung cấp đủ số liệu cần thiết cho các mơ hình nghiệp vụ phân tích,
dự báo.
18


 Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ
liệu tác nghiệp chính là thơng tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp
lại qua nhiều giai đoạn khác nhau.
2.3.

Kho dữ liệu và các cơ sở dữ liệu

DWH về bản chất cũng là một database bình thường, các hệ quản trị CSDL
quản lý và lưu trữ nó như các database thơng thường (tuy nhiên có hỗ trợ thêm về
quản lý dữ liệu lớn và truy vấn). Thực ra nét khác biệt của DWH so với database
là ở quan niệm, cách nhìn vấn đề:
 Trước tiên DWH là database rất lớn (VLDB - very large database).
 Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định.
 Database phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ
đọc, phục vụ cho những nhu cầu báo cáo. VD: Chúng ta sẽ yêu cầu hãy cho
biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó
chúng ta sẽ có quyết định về hiệu năng của nhóm này.
 DWH sẽ lấy thơng tin có thể từ nhiều nguồn khác nhau: DB2, Oracle,
SQLserver thậm chí cả File thơng thưởng rồi làm sạch chúng và đưa vào
cấu trúc của nó đó là VLDB. DWH rất lớn nên muốn cho từng bộ phận
chuyên biệt người sử dụng cuối cùng có thể khai thác thơng dễ dàng thì bản

thân DWH phải được chun hố, phân ra thành những chủ đề, do đó những
chủ đề chun mơn hóa đó tạo thành một Database chuyên biệt-đó là Data
mart. VD: DWH của Microsoft là rất lớn, trong một núi thơng tin đó làm
sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ
thuật, testing,....Có một điểm lưu ý ở đây là có một cơng cụ hay đúng hơn
là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn
thông tin trong Datamart rồi đưa ra những quyết định, nhận dịnh những
thông tin trong Datamart - Đó là xử lý phân tích trực tuyến (OLAP - Online
Analytical Processing).
19


 Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1,
2, 3, BCK) để khai thác. DWH phải phi chuẩn hố rồi sau đó có thể chuẩn
hố theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH
sẽ trùng lắp thông tin. Thật ra điều này theo tơi nghĩ là hiển nhiên vì việc
chuẩn hố nhằm tránh sự trùng lắp thơng tin, do đó sẽ nhất quán trong việc
cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho
báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm
kiếm sẽ nhanh hơn. Đây cũng là một quy luật: Càng trùng lắp thơng tin thì
tìm kiếm càng dễ dàng và ngược lại.
2.4.

Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút

tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các
báo cáo dựa vào CSDL hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng
kể. Có kho dữ liệu cũng trích rút tài ngun khan hiếm của hệ thống sản xuất khi
thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.

Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và
tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa
tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết
của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo
được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ
chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data).
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối
quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách
hàng qua một kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích khơng
ngừng thơng tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương
thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra
những tiến trình này lại. Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì
mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính
20


xác hơn.
Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ
liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là
đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động
của hệ điều hành theo chuẩn quốc tế.
2.5.

Kho dữ liệu hiện nay
Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh

nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer
Relationship Management) và khai thác dữ liệu. Một số được sử dụng để báo cáo
tổng hợp, một số được sử dụng để tích hợp dữ liệu. Các cách sử dụng này đều

tương quan với nhau; ví dụ, quản trị doanh nghiệp thơng minh (BI - Business
Intelligence) và CRM sử dụng khai thác dữ liệu, kinh doanh thơng minh sử dụng
báo cáo, cịn BI và CRM cịn sử dụng tích hợp dữ liệu. Trong các phần sau sẽ mơ
tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai
thác dữ liệu.
 Quản trị doanh nghiệp thông minh
Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thơng
minh hơn là DWH. Nói cách khác, họ tập trung hơn vào việc xem DWH có thể
làm gì cho doanh nghiệp. Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh
doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành
động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh
doanh.
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ
liệu. Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của
kho dữ liệu có thể là một cơng cụ hỗ trợ tốt cho mục đích đó. Điều này có được
là do sử dụng báo cáo và OLAP. Báo cáo DWH được sử dụng để đưa ra số liệu
kinh doanh đã tổng hợp trong DWH tới những người kinh doanh. OLAP cho phép
doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh
được lưu trữ trong DWH đa chiều.
21


 Quản lý mối quan hệ khách hàng:
Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer
Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan
hệ khách hàng. Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây
dựng trong một DWH đa chiều:
o Đồng nhất khách hàng.
o Quản lý cho phép.
o Phân đoạn chiến dịch.

o Dịch vụ/hỗ trợ khách hàng.
o Phân tích khách hàng.
o Cá nhân hóa,...
 Khai phá dữ liệu:
Data mining là quá trình tìm kiếm các mẫu mới, những thơng tin tiềm ẩn
mang tính dự đốn trong các khối dữ liệu lớn. Những cơng cụ data mining có thể
phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại
cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi
trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý. Với ưu điểm
trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong mơi trường kinh
doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực
thương mại, tài chính, điều trị y học, giáo dục, viễn thông,...
 Quản lý dữ liệu chủ:
Trong hệ thống xử lý giao dịch trực tuyến (OLTP - Online Transaction
Processing), có hai loại dữ liệu: dữ liệu giao dịch và dữ liệu chủ. Dữ liệu giao dịch
ghi các sự kiện kinh doanh. Dữ liệu chủ bao gồm các thực thể mô tả các sự kiện
kinh doanh. Dữ liệu chủ bao gồm những câu trả lời của những câu hỏi của ai, cái
gì, và ở đâu về một giao dịch kinh doanh.
Ví dụ: Trong cửa hàng âm nhạc trực tuyến, sự kiện kinh doanh là một khách
hàng mua một bài hát đây là dữ liệu giao dịch. Dữ liệu chủ là khách hàng, sản
22


×