ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
MAI TẤN HÀ
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CẢNH BÁO
ÙN TẮC GIAO THƠNG DỰA VÀO PHÂN TÍCH DỮ
LIỆU LỚN
Chun ngành: Hệ thống thông tin quản lý
Mã số: 83 40 405
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 8 năm 2020
1
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HỌ VÀ TÊN HỌC VIÊN
MAI TẤN HÀ
TÊN ĐỀ TÀI
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CẢNH BÁO ÙN TẮC
GIAO THÔNG DỰA VÀO PHÂN TÍCH DỮ LIỆU LỚN
NGÀNH: HỆ THỐNG THƠNG TIN QUẢN LÝ
MÃ NGÀNH: 8340405
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS TRẦN MINH QUANG
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2020
2
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM
Cán bộ hướng dẫn khoa học: PGS.TS TRẦN MINH QUANG
Cán bộ chấm nhận xét 1: TS. LÊ LAM SƠN
Cán bộ chấm nhận xét 2: PGS.TS NGUYỄN TUẤN ĐĂNG
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 25
tháng 8 năm 2020
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: PGS.TS ĐẶNG TRẦN KHÁNH…………………………………………..
2. Thư ký: TS. PHAN TRỌNG NHÂN…………………………………………………
3. Phản biện 1: TS. LÊ LAM SƠN……………………………………………………...
4. Phản biện 2: PGS.TS NGUYỄN TUẤN ĐĂNG…………………………………….
5. Ủy viên: PGS.TS VŨ THANH NGUYÊN…………………………………………..
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KH & KTMT
3
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: MAI TẤN HÀ
MSHV: 1870303
Ngày, tháng, năm sinh: 21/07/1992
Nơi sinh: Phú Yên
Ngành: Hệ thống thông tin quản lý
Mã số: 83 40 405
I. TÊN ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CẢNH BÁO ÙN TẮC
GIAO THƠNG DỰA VÀO PHÂN TÍCH DỮ LIỆU LỚN
II. NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu và đề xuất mơ hình khai phá dữ liệu về tình trạng giao thông được thu thập
trong quá khứ dựa trên phương pháp phân tích dữ liệu như học máy, thống kê,…để đưa ra
dự đốn tình trạng giao thơng tại thời điểm hiện tại trên địa bàn Tp.HCM.
III. NGÀY GIAO NHIỆM VỤ: 24/02/2020
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 27/07/2020
V. CÁN BỘ HƯỚNG DẪN: PGS. TS TRẦN MINH QUANG
Tp. HCM, ngày 27 tháng 07 năm 2020
CÁN BỘ HƯỚNG DẪN
TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)
(Họ tên và chữ ký)
TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)
4
LỜI CÁM ƠN
Lời đầu tiên, tơi xin bày tỏ lịng biết ơn và gửi đến thầy PGS.TS. Trần Minh Quang lời
cám ơn chân thành. Thầy đã tận tình chỉ bảo, hướng dẫn và định hướng cho tơi trong suốt
q trình thực hiện luận văn này.
Tôi xin gửi lời cám ơn chân thành đến quý thầy cô Khoa Khoa học và Kỹ thuật Máy
Tính, Khoa Quản Lý Cơng Nghiệp vì đã hết lịng truyền dạy cho tơi cũng như các bạn
trong khóa MIS 2018 những kiến thức trong suốt thời gian được học tập và nghiên cứu
tại trường Đại học Bách Khoa – Đại học Quốc Gia Tp. Hồ Chí Minh.
Tơi cũng xin chân thành cám ơn các bạn tình nguyện viên đã giúp đỡ, hỗ trợ tôi rất nhiều
trong quá trình thu thập dữ liệu giao thơng thực tế trên ứng dụng di động cũng như ứng
dụng chạy tự động trên Google Colab.
Sau cùng tôi xin được gửi lời cám ơn chân thành nhất đến gia đình tơi, bạn bè, những
người đã ln động viên, khuyến khích và tạo điều kiện thuận lợi cho tơi trong tồn bộ
q trình học tập cũng như thực hiện đề tài nghiên cứu này.
Tp Hồ Chí Minh, ngày 27 tháng 07 năm 2020
Người thực hiện luận văn
MAI TẤN HÀ
5
TÓM TẮT LUẬN VĂN THẠC SĨ
Mục tiêu của nghiên cứu đề xuất các phương pháp khai phá dữ liệu dựa vào dữ liệu
TTGT trong quá khứ được thu thập từ cộng đồng và các hệ thống giao thông khác nhau
trong thành phố như: dữ liệu giao thông của GPS từ các xe buýt, ứng dụng trên thiết bị di
động, dữ liệu từ những hệ thống khác, để đưa ra ước lượng và dự đoán TTGT tại những
đoạn đường bị thiếu dữ liệu ở thời điểm hiện tại.
Cụ thể hơn, mục tiêu của nghiên cứu này tập trung vào đề xuất các mơ hình phân tích và
khai phá dữ liệu dựa trên: mơ hình thống kê, phân tích tương quan, học máy,... để phân
tích một lượng lớn dữ liệu (big data) về TTGT trong quá khứ và các khu vực có liên
quan nhằm dự đoán TTGT ở những nơi thiếu dữ liệu hiện thời (không nhận được dữ liệu
cung cấp từ cộng đồng và các hệ thống khác), qua đó mở rộng độ bao phủ và tính hiệu
quả của hệ thống đề xuất.
Kết quả của đề tài sẽ làm tiền đề để xem xét tính hiệu quả của phương pháp tiếp cận từ
đó có kế hoạch phát triển và ứng dụng vào thực tiễn nhằm ứng dụng giảm thiểu ùn tắc
giao thơng của Tp.HCM.
Từ khóa: dự đốn tình trạng giao thơng, khai phá dữ liệu, dữ liệu chia sẻ từ cộng đồng,
giao thông đô thị.
6
ABSTRACT
Aiming to advocate data mining methods based on historical traffic data collected from
the community and various transport systems in Ho Chi Minh city such as GPS traffic
data from buses, mobile apps, and other systems, this thesis provides a mechanism to
make estimations and predictions of traffic conditions at roads missing real-time traffic
data.
Mainly, this research focuses on proposing data mining models stand on statistical,
algorithms, correlation analysis, machine learning to analyze large amounts of data (big
data) from past traffic conditions and related areas to predict traffic conditions when the
real-time data are missing, thereby expanding the coverage and effectiveness of the
proposed system.
The results of the thesis will serve as a premise to consider the effectiveness of the
proposed method before developing and applying it in practice to reduce traffic
congestion in the Ho Chi Minh city.
Keywords: Estimate traffic condition - Data mining – Crowd-sourced data – Urban
traffic
7
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu khoa học tôi đã tự thực hiện. Dữ liệu
được sử dụng trong tồn bộ q trình phân tích của luận văn có nguồn gốc rõ ràng và
minh bạch, được công bố theo đúng quy định và đạo đức nghiên cứu khoa học. Các kết
quả đạt được của nghiên cứu trong luận văn này, tôi đã tự thực hiện một cách trung thực
và khách quan. Kết quả luận văn được công bố lần đầu tiên trong bản báo cáo này và
chưa từng được công bố trong bất kỳ luận văn trước đó.
Tp Hồ Chí Minh, ngày 27 tháng 07 năm 2020
Người thực hiện luận văn
MAI TẤN HÀ
8
MỤC LỤC
1. PHẦN MỞ ĐẦU .................................................................................................... 11
1.1
Lý do chọn đề tài .............................................................................................. 11
1.2
Mục đích nghiên cứu ........................................................................................ 12
1.3
Phạm vi và đối tượng nghiên cứu ..................................................................... 13
2. CÁC NGHIÊN CỨU LIÊN QUAN......................................................................... 16
2.1
Tổng quan về tình hình ùn tắc giao thơng ở Tp. HCM ...................................... 16
2.2
Các nghiên cứu ở Việt Nam.............................................................................. 17
2.3
Các nghiên cứu ngoài nước .............................................................................. 18
3. NỀN TẢNG LÝ THUYẾT ..................................................................................... 20
3.1
Các cách tiếp cận hiện có về cảnh báo TTGT trong đô thị ................................ 20
3.2
Định nghĩa khai phá dữ liệu .............................................................................. 21
3.3
Dữ liệu lớn ....................................................................................................... 22
3.4
Các thuật toán ứng dụng trong các giải thuật phân loại dữ liệu ......................... 23
4. GIẢI PHÁP ĐỀ XUẤT ........................................................................................... 29
4.1
Các mơ hình thu thập dữ liệu đề xuất ................................................................ 29
4.1.1
Mơ hình thu thập dữ liệu trực tiếp từ ứng dụng di động.............................. 30
4.1.2
Mơ hình thu thập dữ liệu từ TomTom ........................................................ 31
4.2
Mơ hình dự đốn dữ liệu................................................................................... 33
5. THỰC NGHIỆM .................................................................................................... 39
5.1
Phương pháp thu thập dữ liệu ........................................................................... 39
5.1.1
Thu thập dữ liệu thông qua ứng dụng di dộng ............................................ 39
5.1.2
Thu thập dữ liệu từ TomTom. .................................................................... 41
5.2
Tiền xử lý dữ liệu ............................................................................................. 43
5.2.1
Tiền xử lý dữ liệu thu thập từ ứng dụng di dộng ......................................... 43
5.2.2
Tiền xử lý dữ liệu thu thập từ TomTom ..................................................... 46
5.3
Kết quả thực nghiệm quá trình phân tích dữ liệu ............................................... 47
5.3.1
Kết quả khai phá từ bộ dữ liệu trên ứng dụng di dộng ................................ 47
5.3.2
Kết quả khai phá từ bộ dữ liệu từ TomTom ................................................ 51
6. TÍCH HỢP CÁC MƠ HÌNH KHAI PHÁ VÀO HỆ THỐNG .................................. 55
6.1
Mơ hình dự đốn TTGT trong hệ thống ITS ..................................................... 55
9
6.2
Các trường hợp sử dụng mơ hình dự đốn TTGT ............................................. 56
6.3
Huấn luyện và cập nhật mơ hình theo lịch trình ................................................ 58
7. ĐÁNH GIÁ VÀ TỔNG KẾT NGHIÊN CỨU ......................................................... 60
7.1
Đánh giá kết quả đạt được ................................................................................ 60
7.1.1
Kết quả về khoa học................................................................................... 60
7.1.2
Kết quả thực tiễn ........................................................................................ 60
7.2
Giới hạn của nghiên cứu ................................................................................... 62
7.3
Đề xuất hướng mở rộng .................................................................................... 62
KẾT QUẢ ĐẠT ĐƯỢC TỪ QUÁ TRÌNH NGHIÊN CỨU........................................... 64
DANH MỤC TÀI LIỆU THAM KHẢO ....................................................................... 64
PHỤ LỤC ...................................................................................................................... 70
PHỤ LỤC 1: DANH MỤC HÌNH ẢNH .................................................................... 70
PHỤ LỤC 2: DANH MỤC BẢNG BIỂU................................................................... 70
PHỤ LỤC 3: DANH MỤC VIẾT TẮT ...................................................................... 71
LÝ LỊCH TRÍCH NGANG ........................................................................................... 72
Q TRÌNH ĐÀO TẠO ........................................................................................... 72
Q TRÌNH CƠNG TÁC ......................................................................................... 72
CÁC CƠNG TRÌNH CÔNG BỐ ................................................................................ 73
10
1. PHẦN MỞ ĐẦU
1.1 Lý do chọn đề tài
Ùn tắc giao thông (UTGT) đã và đang từng ngày ảnh hưởng đến nhiều mặt
của đời sống xã hội như làm tăng thời gian đi lại, tiêu hao nhiều nhiên liệu, hao
mòn phương tiện và trực tiếp làm ô nhiễm môi trường. UTGT không những kiềm
hãm sự phát triển của kinh tế đơ thị, khi hàng hóa bị vận chuyển chậm,… mà còn
làm giảm chất lượng cuộc sống gây nhiều hệ lụy như căng thẳng, thậm chí cịn gây
ảnh hưởng lớn đến an ninh cũng như chất lượng cuộc sống của người dân [1- 2].
Do đó, bài tốn làm thế nào để giảm thiểu tình trạng giao thơng (TTGT) trong các
thành phố lớn ở các nước phát triển đang nhận được rất nhiều sự quan tâm.
Trong thời đại công nghệ số phát triển như vũ bão, cuộc sống của con người
gắn liền với công nghệ đã tạo nhiều điều kiện thuận lợi giúp người dân có thể tiếp
cận cơng nghệ và internet một cách dễ dàng. Thêm vào đó, sự bùng nổ của thiết bị
di dộng và dữ liệu lớn đã góp phần mang đến nhiều hơn những giải pháp tiềm
năng để giải quyết những vấn đề của xã hội như vấn đề giao thông của Tp. HCM.
Cùng với sự tiến bộ của khoa học công nghệ và nguồn dữ liệu dồi dào được thu
thập từ nhiều nguồn và được chia sẻ từ cộng đồng, nghiên cứu này sẽ tận dụng
những nguồn lực đó để xây dựng một mơ hình dự đốn TTGT dựa vào dữ liệu lớn,
nhằm góp phần cung cấp thông tin thông suốt cho người tham gia giao thông cũng
như cơ quan quản lý để có những ứng phó, điều chỉnh kịp thời, hướng đến giảm
thiểu tình trạng UTGT cho thành phố.
Như đã đề cập ở trên, công nghệ phát triển không những cung cấp thêm nhiều
giải pháp khả thi để giải quyết vấn đề hơn mà còn là địn bẩy để đưa thơng tin đến
với đơng đảo người dân. Tuy nhiên, bên cạnh những thuận lợi vẫn còn những vấn
đề cần được quan tâm và giải quyết trong đề tài này, cụ thể như vấn đề trong bài
toán dự đoán TTGT là làm thế nào để thu thập được dữ liệu giao thông trong quá
khứ phải đủ lớn để sử dụng vào quá trình khai phá và dự đốn TTGT trong hiện
tại. Bên cạnh đó, những vấn đề về chất lượng dữ liệu cũng như xác định chiều dữ
liệu đầu vào cần thiết để việc khai phá dữ liệu mang lại kết quả khả quan và dự
đoán được TTGT một cách chính xác nhất có thể .v.v. Trong thời kì đầu phát triển
hệ thống cảnh báo giao thơng, nhóm nghiên cứu cịn hạn chế về mặt dữ liệu, khi
mà số lượng người dùng sử dụng ứng dụng chưa nhiều và dữ liệu TTGT trong quá
khứ còn rất hạn chế. Thời điểm tiến hành thực hiện đề tài tháng 11 năm 2019, thì
11
dữ liệu TTGT trong quá khứ chỉ có được từ dữ liệu thu thập từ GPS trên xe buýt,
đây cũng là đề tài đã được nghiên cứu và phát triển từ nhóm của thầy Phạm Trần
Vũ [52]. Với bộ dữ liệu này thì việc khai phá dữ liệu chưa mang lại những kết quả
khả quan, khi độ chính xác của mơ hình khi sử dụng dữ liệu từ GPS trên xe bus
chỉ khoảng 45%, kết quả này còn thấp và chưa thể áp dụng vào thực tế để dự đoán
TTGT trên địa bàn TP. HCM. Do đó, để đề tài này có thể mang lại kết quả khả
quan, kết quả mà có thể ứng dụng vào thực tế thì bên cạnh bài tốn đề xuất mơ
hình dự đốn, ước lượng TTGT hiệu quả, cần phải giải quyết vấn đề không kém
phần quan trọng là về mặt dữ liệu, câu hỏi đặt ra làm như thế nào có được dữ liệu
đủ lớn, đủ đa dạng như tên của đề tài là phân tích TTGT dựa trên dữ liệu lớn.
Những vấn đề này sẽ được giải quyết thông qua giải pháp đề xuất được trình bày ở
mục 4.
1.2 Mục đích nghiên cứu
Đề tài Nghiên cứu xây dựng hệ thống cảnh báo ùn tắc giao thơng dựa vào
phân tích dữ liệu lớn trong báo cáo này sẽ nghiên cứu và đề xuất các phương
pháp khai phá dữ liệu dựa vào dữ liệu TTGT trong quá khứ được thu thập từ cộng
đồng và các hệ thống giao thông khác nhau trong thành phố như: dữ liệu giao
thông của GPS từ các xe buýt, ứng dụng trên thiết bị di động, … Đưa ra ước lượng
và dự đoán TTGT tại những đoạn đường bị thiếu dữ liệu ở thời điểm hiện tại. Cụ
thể hơn, mục tiêu của nghiên cứu này tập trung vào đề xuất các mơ hình phân tích
và khai phá dữ liệu lớn như: mơ hình thống kê, phân tích tương quan, học máy,...
để phân tích một lượng lớn dữ liệu (big data) về TTGT trong quá khứ và các khu
vực có liên quan nhằm dự đoán TTGT ở những nơi thiếu dữ liệu hiện thời (không
nhận được dữ liệu cung cấp từ cộng đồng và các hệ thống khác), qua đó mở rộng
độ bao phủ và tính hiệu quả của hệ thống đề xuất.
Với những vấn đề hiện tại, luận văn này sẽ tập trung giải quyết 3 vấn đề chính
sau đây:
Đề xuất một cơ chế thu thập dữ liệu đảm bảo chất lượng dữ liệu đầu
vào nhằm phục vụ cho q trình học máy và phân tích dữ liệu một
cách hiệu quả.
Cung cấp một bộ khung cho việc ước lượng, dự đoán TTGT dựa trên
cách tiếp cận máy học thơng qua những thuật tốn dự đốn nhằm
12
tăng độ chính xác của mơ hình dự đốn TTGT để giải quyết vấn đề
thiếu dữ liệu TTGT trong thời gian thực tại TP. Hồ Chí Minh.
Một hệ thống thực nghiệm sẽ được triển khai để đánh giá tính hiệu
quả và khả thi cho việc thu thập và khai phá dữ liệu dựa trên cơ chế,
mơ hình được đề xuất trong luận văn này.
Tính mới và đặc sắc của đề tài này là người thực hiện đề xuất phương pháp
thu thập dữ liệu thực tế bằng xe máy trực tiếp tại một số tuyến đường tại Tp.HCM
thông qua ứng dụng trên điện thoại thông minh được phát triển bởi nhóm nghiên
cứu, cũng như thu thập dữ liệu về TTGT từ hệ thống của bên thứ 3 như TomTom
[55], Sở GTVT [11]. Phương pháp đề xuất này còn xác định các chiều dữ liệu đầu
vào của mơ hình vừa đủ, không quá nhiều và phức tạp nhưng vẫn đảm bảo được
chất lượng cũng như độ chính xác. Các tuyến đường và thời gian thu thập cũng
được khảo sát và chọn lọc nhằm mục đích phản ánh gần đúng nhất TTGT tại
Tp.HCM, dữ liệu được thu thập trong quá trình này được xem như dữ liệu hạt
giống cho quá trình phân tích và xây dựng mơ hình dự đốn TTGT ban đầu. Kết
quả của mơ hình dự đốn dựa trên dữ liệu được thu thập trực tiếp bởi nhóm nghiên
cứu thơng qua ứng dụng đi động lúc đầu cho kết quả rất khả quan, độ chính xác
tăng hơn 25% so với mơ hình dự đốn TTGT dựa trên dữ liệu từ xe bt trước đó.
Kết quả này cho thấy tính khả thi của phương pháp thu thập dữ liệu cũng như mơ
hình dự đốn được đề xuất.
1.3 Phạm vi và đối tượng nghiên cứu
Phạm vi nghiên cứu: ý tưởng khoa học chính của đề tài là nghiên cứu, đề
xuất các giải pháp và xây dựng hệ thống cảnh báo ùn tắc giao thơng dựa vào phân
tích dữ liệu lớn. Dữ liệu được sử dụng trong nghiên cứu này là dữ liệu được thu
thập từ cộng đồng, từ quá trình thu thập trực tiếp từ nhóm nghiên cứu thơng qua
ứng dụng trên điện thoại di động và dữ liệu TTGT từ những hệ thống khác. Phạm
vi thực hiện của nghiên cứu trên địa bàn Tp. HCM. Nghiên cứu hướng đến việc
xác định các chiều dữ liệu đầu vào cần thiết cần được thu thập từ người dùng
thông qua ứng dụng thu thập dữ liệu giao thơng trên điện thoại dựa vào tín hiệu
GPS. Cụ thể hơn, nghiên cứu này sẽ hiện thực việc thu thập dữ liệu về TTGT tại 1
số tuyến đường trong Tp. HCM thông qua ứng dụng được phát triển trên di động
13
(android). Từ dữ liệu có được, tơi sẽ tiến hành phân tích, khai phá dữ liệu dựa trên
các mơ hình sẽ được đề xuất trong mục 4 giải pháp đề xuất.
Đề tài này đòi hỏi người thực hiện phải áp dụng các thuật tốn có sẵn để
thực hiện phân tích, khai phá dữ liệu nhằm rút trích ra những thơng tin có ý nghĩa
cho người sử dụng cũng như nhà quản lý. Đồng thời người thực hiện sẽ đề xuất
các mơ hình thu thập dữ liệu cũng như đánh giá tính hiệu quả, khả thi của giải
pháp. Với những yêu cầu trên, đề tài này phù hợp với những học viên đang theo
học ngành đào tạo hệ thống thông tin quản lý cũng như ngành khoa học máy tính.
Đối tượng nghiên cứu: Để xác định đối tượng được nghiên cứu trong mục
này, trước tiên cần có cái nhìn tổng qt về kiến trúc tổng quan của hệ thống được
đề xuất như minh họa ở hình 1 [32].
Hình 1. Kiến trúc tổng quan của hệ thống cảnh báo giao thông thông minh dựa vào
dữ liệu từ cộng đồng và phân tích dữ liệu lớn.
Hệ thống tổng quan sẽ bao gồm 3 khối chính như sau: (1) thu thập dữ liệu từ
cộng đồng thông qua thiết bị di động (cụ thể là điện thoại thơng minh có kết nối
14
Internet) và dữ liệu từ các thiết bị phần cứng như camera, GPS, ... (2) Các dữ liệu
này sẽ được lưu trữ và phân tích tại hệ thống máy chủ nhằm xác định được TTGT
và từ đó cảnh báo UTGT cho người dùng. (3) Các thông tin này sẽ được hiển thị
trên bản đồ giao thông của thành phố thông qua ứng dụng di động hoặc ứng dụng
web.
Các thông tin về TTGT sẽ thường xuyên được cập nhật giúp người tham gia
giao thơng chọn được những lộ trình phù hợp, tránh đi vào những điểm ùn ứ, qua
đó góp phần giảm thiểu tình trạng UTGT vốn xảy ra ngày càng thường xuyên và
nghiêm trọng trên địa bàn Tp. HCM. Các thông tin tổng hợp, thống kê về TTGT
giúp nhà quản lý giao thơng, quy hoạch đơ thị,... có những quyết định hợp lý trong
điều hành, hoạch định chiến lược trong công tác chỉnh trang hạ tầng giao thông,
hướng đến xây dựng hệ thống giao thông thông minh, bền vững cho thành phố.
Đối tượng được nghiên cứu trong đề tài này là Bộ phân tích và dự đốn
TTGT (Traffic state Analysis & Prediction) để hiện thực được bộ phân tích và
dự đốn TTGT một cách chính xác và hiệu quả thì cần phải có dữ liệu đầu vào phù
hợp, cộng với các mơ hình khai phá dữ liệu hợp lý. Để trả lời câu hỏi này một
cách rõ ràng về mặt thực nghiệm, đối tượng nghiên cứu sẽ được chia làm 3 công
việc nhỏ hơn sau đây: (1) Đề xuất phương pháp thu thập dữ liệu giao thông trong
thực tế tại những con đường đã nêu ở trên thông qua ứng dụng trên điện thoại di
động, (2) Từ dữ liệu thu thập được, sẽ tiến hành xử lý dữ liệu và tiến hành khai
phá dữ liệu để đưa ra các mô hình dự đốn, ước lượng TTGT ở những nơi thiếu
dữ liệu, (3) Đánh giá kết quả đạt được từ quá trình thực nghiệm và đưa ra nhận
xét cũng như hướng phát triển tiếp theo trong tương lai.
15
2. CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Tổng quan về tình hình ùn tắc giao thơng ở Tp. HCM
Q trình đơ thị hóa là một trong những điều tất yếu và đang diễn ra mạnh mẽ
trên tồn thế giới. Khơng nằm ngồi quy luật đó trong những năm trở lại đây, Tp.
HCM được xem là trung tâm kinh tế của cả nước và là một trong những thành phố
năng động có tốc độ phát triển nhanh bậc nhất khu vực Đông Nam Á. Theo đánh
giá của tổng cục thống kê dân số Tp. HCM vượt ngưỡng 10 triệu dân trong năm
2018. Sự gia tăng dân số nhanh đã tạo ra những áp lực rất lớn lên khả năng đáp
ứng hệ thống giao thông cũng như cơ sở hạ tầng của thành phố [3-4]. Với hơn
90% phương tiện là xe máy, con số thống kê hơn 7,6 triệu phương tiện, tình trạng
ùn tắc giao thông (UTGT) diễn ra phức tạp về tần số cũng như phạm vi ảnh hưởng
(thời gian ùn tắc kéo dài) [7]. Thiệt hại do tắc nghẽn giao thông hàng năm vào
khoảng 23.000 tỷ đồng (hơn 1 tỷ USD), một con số vô cùng lớn cùng với số liệu
từ Sở Giao thông vận tải (GTVT) Tp. HCM cho thấy hiện nay quỹ đất dành cho
giao thông trên địa bàn thành phố rất thấp dẫn đến hệ lụy trung bình mỗi giờ kẹt
xe thành phố phải chịu thiệt tới khoảng 2,4 tỉ đồng [5-6].
Tại các thành phố lớn và đang phát triển như Tp. HCM, ùn tắc giao thông là
một trong những vấn đề nan giải thu hút sự quan tâm sâu sắc của lãnh đạo thành
phố, nhà khoa học, doanh nghiệp và đông đảo người dân sinh sống và làm việc tại
Tp. HCM. Trên thực tế Tp. HCM đã chú ý đầu tư và quan tâm nhiều hơn để giải
quyết các vấn đề giao thông trên địa bàn thành phố. Được thể hiện rõ trong những
năm qua thành phố đã đầu tư xây dựng nhiều cầu vượt tại các điểm giao lộ nhằm
giải quyết và cải thiện TTGT, cũng như xây dựng tuyến tàu điện trên cao Sài Gòn
– Suối Tiên để chia sẽ tải cho các tuyến đường vốn đang bị quá tải [3]. Bên cạnh
đầu tư vào phát triển cơ sở hạ tầng, thành phố cũng chủ trương đẩy mạnh các giải
pháp về công nghệ thông tin và truyền thông (ICT) để phục vụ công tác giám sát
và điều khiển cũng như vận hành, mục đích xây dựng và hướng đến các hệ thống
giao thông thông minh (ITS) đã và đang trong giai đoạn nghiên cứu và triển khai
[8-14]. Tuy nhiên, trên thực tế tình hình giao thơng trên địa bàn thành phố vẫn cịn
nhiều vấn đề nan giải, ùn tắc vẫn thường xảy ra, thậm chí xảy ra với tần suất và
mức độ ngày càng nghiêm trọng hơn.
16
2.2 Các nghiên cứu ở Việt Nam
Trong nước đã có một số cơng trình nghiên cứu liên quan nhằm góp phần
giảm thiểu ùn tắc giao thông với những hỗ trợ của cơng nghệ thơng tin và truyền
thơng như chương trình thơng tin giao thơng của Đài Tiếng nói Việt Nam (VOV)
[6] và Đài Tiếng nói Nhân dân Tp. HCM (VOH) [7]; cổng thông tin giao thông
của Sở GTVT Tp. HCM [8]; các nghiên cứu từ các trường đại học lớn như nghiên
cứu tại trường Đại học Bách Khoa Tp. HCM về các giải pháp nền tảng cho giao
thông thông minh [9]; hệ thống mạng lưới camera giám sát và điều khiển giao
thông [10]; hệ thống giám sát và xử lý vi phạm giao thơng [11 - 12]. Các cơng
trình này đã bước đầu đem lại những kết quả đáng khích lệ và đưa ra các định
hướng nghiên cứu nhằm giảm ùn tắc giao thông cho Tp. HCM.
Tuy nhiên, các chức năng xử lý trong các hệ thống hiện có vẫn cịn khá thơ
sơ, và đây cũng là những điểm yếu cần được đầu tư nghiên cứu nhằm nâng cao
sức mạnh của các hệ thống giám sát và cảnh báo giao thông ở Việt Nam và đặc
biệt là ở TP. HCM. Cụ thể, cơ chế phân tích dữ liệu của hệ thống thông tin giao
thông của VOV [6] và VOH [7] còn đơn giản, chủ yếu dựa vào con người (quan
sát hệ thống camera ở trung tâm, các phân tích của phóng viên thơng qua tương tác
với cộng tác viên). Các chức năng hỗ trợ như tìm đường thay thế, tìm đường đi
ngắn nhất, cập nhật thông tin trên ứng dụng di động, vẫn chưa được phát triển.
Các hệ thống khác như hệ thống của ĐHBK TP. HCM [9] thì tập trung vào
phân tích TTGT từ dữ liệu GPS từ những xe buýt, dữ liệu này vốn chứa nhiều
thông tin nhiễu (do sai số trên GPS). Do vậy, cần phải có nhiều giải thuật phân
tích tinh vi để phân tích dữ liệu này. Hơn nữa, dữ liệu GPS thường bao hàm nhiều
nhiễu nên cần có cơ chế loại bỏ nhiễu phù hợp. Các giải thuật lý này nhìn chung là
khá phức tạp. Tính hiệu quả của hệ thống sẽ tốt hơn nếu có cơ chế thu thập dữ liệu
chi tiết và liên quan mật thiết với TTGT hơn như cơ chế thu thập dữ liệu trên ứng
dụng di động về Thông tin giao thông của Sở GTVT TP. HCM [8]. Tuy nhiên, các
chức năng phân tích chuyên sâu dựa vào thống kê, học máy hay khai phá dữ liệu
để đánh giá tính hợp lệ của dữ liệu, đánh giá TTGT trong điều kiện thiếu dữ liệu
(nhằm mở rộng độ phủ của hệ thống),... vẫn cịn thiếu trong các nghiên cứu hiện
có và cần được đào sâu nghiên cứu.
17
2.3 Các nghiên cứu ngoài nước
Trên thế giới, giải pháp giảm ùn tắc giao thông cũng được nghiên cứu nhiều.
Những nghiên cứu này tập trung vào giải quyết các vấn đề lớn từ thu thập dữ liệu
(data acquisition), truyền thông dữ liệu (data communications) từ các hệ thống thu
thập đến trung tâm xử lý số liệu, xử lý dữ liệu (data analysis) tại trung tâm nhằm
cung cấp thông tin chi tiết, kịp thời và đa chiều về ùn tắc giao thơng giúp nhà quản
lý cũng như người dân có thể triển khai các biện pháp ứng phó kịp thời. Các hệ
thống này có thể được kể đến như hệ thống VICS (Vehicle Information and
Communication System) [13], hay NAVITIME [14] của Nhật Bản, hệ thống ITS
của bang Kansas, Mỹ [15]. Phần lớn các nghiên cứu này sử dụng công nghệ mạng
cảm biến cố định được triển khai trên các cung đường cần giám sát. Hệ thống các
cảm biến này có thể là hệ thống sử dụng vòng cảm biến từ trường (loop detector)
[16 - 17], hệ thống phát hiện phương tiện dựa vào cơng nghệ định danh sóng radio
RFID [18 - 19], hệ thống mạng camera [20],..
Tương tự như các hệ thống chủ yếu dựa vào các thiết bị cảm biến, dữ liệu từ
các phương tiện và tín hiệu vơ tuyến đã được nghiên cứu như: Trong [61] D.B.
Nguyễn và các đồng nghiệp đề xuất một hệ thống giám sát tắc nghẽn giao thông
bằng internet của các phương tiện, bao gồm thu thập dữ liệu, thiết lập cấu trúc
phân đoạn, mô hình lưu lượng giao thơng, dự đốn tắc nghẽn giao thông cục bộ và
dịch vụ tắc nghẽn giao thông điểm đến cho người lái xe. M. Lewandowski và các
đồng nghiệp của ông đề xuất một hệ thống giám sát tắc nghẽn giao thơng bằng
cách phân tích cường độ tín hiệu vô tuyến mà các thiết bị di động nhận được từ
các đèn hiệu được đặt ở hai bên đường [62]. M. Elloumi và các đồng nghiệp của
cô đề xuất một hệ thống giám sát giao thông đường bộ sử dụng nhiều phương tiện
bay không người lái, đây là một giải pháp hấp dẫn để giám sát giao thông đường
bộ [63]. T. T. de Almeida và các đồng nghiệp của ông đề xuất một hệ thống theo
dõi và phổ biến các điều kiện giao thông bằng cơ sở hạ tầng phi tập trung
(DOCTraMS) với dữ liệu giao thông được áp dụng từ Sao Paulo, Brazil [64].
Bên cạnh đó, có nhiều nghiên cứu tập trung vào khảo sát tài liệu học thuật về
nguồn dữ liệu được chia sẻ từ đám đông [56], E. Estellés-Arolas và các đồng
nghiệp của ơng đã tìm thấy gần bốn mươi cách hiểu khác nhau về nguồn cung dữ
liệu từ đám đơng. Song song với đó những nghiên cứu khác như [57 - 58] cho thấy
những tiến bộ của cơng nghệ di động đã cho phép việc tìm nguồn cung dữ liệu từ
18
đám đông thông qua di động trong các lĩnh vực khác nhau bao gồm sản xuất, cung
cấp dịch vụ, chia sẻ dữ liệu. Nguồn dữ liệu được cung cấp từ đám đơng được giải
thích là một hành động của một tổ chức, một công ty hoặc của nhiều người (người
yêu cầu) đưa ra các yêu cầu cho những người khác thông qua Internet, đám đông
sẽ cung cấp giải pháp, dữ liệu hoặc kiến thức cho người yêu cầu với mục đích ban
đầu của họ, để thúc đẩy việc chia sẻ các nhà cung cấp dịch vụ hoặc dữ liệu sẽ khen
thưởng theo đóng góp của những người chia sẻ từ đám đông thông qua nhiều cách
khác nhau như tiền, xác nhận trách nhiệm xã hội, quyền truy cập thông tin hoặc sử
dụng dịch vụ miễn phí .v.v. Phương pháp tiếp cận nguồn cung ứng đám đông đã
được sử dụng rộng rãi trong quản lý thảm họa và chia sẻ thông tin trong các cơng
ty hoặc cộng đồng [59]. Ushahi có thể là một ví dụ thành cơng của phương pháp
tìm nguồn cung ứng đám đông để chia sẻ và phân tích dữ liệu, phổ biến các hướng
dẫn sơ tán cho người dùng tại chỗ và hỗ trợ các tình nguyện viên tiến hành giải
cứu hiệu quả trong trận động đất ở Haiti [60].
Tuy nhiên, ở những nước đang phát triển như Việt Nam, những hệ thống
mạng cảm biến cố định như các phân tích ở trên chưa thể áp dụng vì những lý do
về bài tốn chi phí xây dựng, vận hành và bảo trì. Trong những năm gần đây,
những nghiên cứu sử dụng công nghệ mạng di động, thiết bị di động (điện thoại
thơng minh, máy tính bảng, ...) để đo đạt, thu thập dữ liệu liên quan đến giao thông
[21 - 24] đã cho thấy được sự hiệu quả và tính khả thi khi áp dụng vào thực tế. Do
thiết bị di động xuất hiện ở mọi nơi và hầu như đã được phổ cập đến mọi người
dân nên các vấn đề về độ bao phủ, chi phí vận hành sẽ được giải quyết nếu có một
mơ hình thu thập, xử lý và phân tích dữ liệu hiệu quả. Bên cạnh đó, tính hiệu quả
của phương pháp sử dụng dữ liệu từ đám đông được thể hiện thông qua các nghiên
cứu trong [57 – 60].
19
3. NỀN TẢNG LÝ THUYẾT
3.1 Các cách tiếp cận hiện có về cảnh báo TTGT trong đơ thị
Như đã trình bày ở mục 2.2 các nghiên cứu trong nước, một số cơng trình
nghiên cứu liên quan nhằm góp phần giảm thiểu UTGT với những hỗ trợ của công
nghệ thông tin và truyền thông phải kể đến như: kênh giao thông đô thị trên tần số
95.6 MHz (VoH), trang web thông tin về TTGT của Sở GTVT Tp. HCM thơng
qua tín hiệu thu thập được từ GPS xe buýt, thông qua hệ thống mạng lưới camera
giám sát [11]. Các hệ thống này đã và đang được sử dụng để cung cấp những cảnh
báo về TTGT cho người dân trên địa bàn Tp. HCM. Bên cạnh những thế mạnh của
những hệ thống như: được đơng đảo người dân quan tâm, đóng góp thông tin về
TTGT bằng cách gọi trực tiếp đến đường dây nóng, hay sự thuận tiện mà hệ thống
camera của sở GTVT mang lại là cung cấp dữ liệu về TTGT gần như theo thời
gian thực trên địa bàn thành phố. Tuy nhiên, vẫn cịn đó những hạn chế từ 2 hệ
thống trên như sau: (1) về độ bao phủ (đã được đề cập ở phần trước, liên quan đến
chi phí lắp đặt hệ thống camera, các thiết bị giám sát) (2) cơ chế dự đoán, thống
kê, cảnh báo về TTGT đến người dùng còn nhiều hạn chế như chưa có các chức
năng hỗ trợ tìm đường thay thế, tìm đường đi ngắn nhất, cập nhật thông tin về
TTGT trực tiếp đến ứng dụng di động, cũng như các báo cáo, dự đoán … vẫn chưa
được phát triển. Thay vào đó, các chức năng nêu trên được thực hiện chủ yếu dựa
vào con người.
Với những hạn chế trên, phương pháp thu thập và đánh giá TTGT dựa vào dữ
liệu từ cộng đồng có thể giải quyết những khuyết điểm của các phương pháp thu
thập dữ liệu truyền thống về độ bao phủ. Tuy nhiên, vấn đề thiếu dữ liệu (data
missing) vẫn có thể cịn tồn tại. Cụ thể, tại thời điểm phân tích dữ liệu giao thơng
để tính ra vận tốc trung bình của dịng xe trên các đoạn đường, dữ liệu của nhiều
đoạn đường sẽ bị thiếu (do không có người chia sẻ dữ liệu ở tuyến đường đang
xét). Khi dữ liệu bị thiếu thì các phương pháp tính tốn, suy diễn thơng thường sẽ
khơng thực hiện được.
Để giải quyết vấn đề này, các kỹ thuật khai phá dữ liệu có thể được sử dụng
để phân tích dữ liệu trong quá khứ, dự đoán được TTGT. Cụ thể, các phương pháp
này sẽ "học" các quy luật về TTGT ở các tuyến đường trong một khung thời gian
cụ thể, đã thu thập được trong quá khứ (ví dụ TTGT của đoạn đường cụ thể vào
20
khoảng 7:00 đến 9:00 sáng các ngày trong tuần là ln đơng xe), để dự đốn
TTGT ở thời điểm hiện tại.
3.2 Định nghĩa khai phá dữ liệu
Thuật ngữ khai phá dữ liệu (KPDL) mới được biết đến trong những năm
1990. Sự ra đời của KPDL cùng với ba ngành khoa học khác: thống kê (Statistics),
trí tuệ nhân tạo (AI-Artificial Intelligence) và học máy (Machine Learning) nhấn
mạnh tầm quan trọng, và lợi ích của dữ liệu [43]. KPDL được các cơng ty và tổ
chức trên thế giới định nghĩa theo nhiều chiều như sau:
Theo Data-Flair [44], một trang web cung cấp các khóa học, các kiến thức về
Dữ liệu lớn (Big Data) và khoa học dữ liệu (Data Science), định nghĩa, “là một tập
hợp, một hệ thống các phương pháp tính toán, thuật toán được áp dụng cho các cơ
sở dữ liệu lớn và phức tạp (cơ sở dữ liệu lớn, từ nhiều nguồn với nhiều định dạng
phi cấu trúc khác nhau như âm thanh, hình ảnh, văn bản, …) mục đích loại bỏ các
chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá các mẫu, mơ hình, quy luật tiềm ẩn,
các thơng tin có giá trị trong bộ dữ liệu. KPDL là thành quả công nghệ tiên tiến
ngày nay, là q trình khám phá các kiến thức vơ giá bằng cách phân tích khối
lượng lớn dữ liệu đồng thời lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau”.
Còn theo SAS [45], công ty chuyên cung cấp các phần mềm, giải pháp lưu trữ
và phân tích dữ liệu tồn cầu, định nghĩa KPDL “là quá trình tìm kiếm các chi tiết
bất thường, các mẫu, mơ hình, quy luật của dữ liệu và mối tương quan giữa các tập
dữ liệu lớn để dự đoán kết quả, thiết lập các dự báo. Bằng cách áp dụng một loạt
các kỹ thuật khác nhau, thơng tin có được từ KPDL sẽ hỗ trợ tăng doanh thu, cắt
giảm chi phí, cải thiện mối quan hệ khách hàng, giảm rủi ro”. Tuy có nhiều định
nghĩa về KPDL nhưng nhìn chung có thể hiểu KPDL là q trình khám phá và
phân tích khối lượng lớn dữ liệu để tìm ra các mẫu dữ liệu và quy tắc có ý nghĩa,
là một trong lĩnh vực nghiên cứu khoa học dữ liệu, khai thác và sử dụng các dữ
kiện, thơng tin có giá trị từ dữ liệu để phục vụ đưa ra dự báo, quyết định trong
tương lai [43].
Mục đích việc phát hiện tri thức từ dữ liệu KPDL là cốt lõi của quá trình
khám phá tri thức gồm có các giải thuật KPDL chuyên dùng, dưới một số quy định
về hiệu quả tính tốn chấp nhận được. KPDL nhằm tìm ra những mẫu mới, những
thơng tin tiềm ẩn mang tính dự đốn chưa được biết đến, có khả năng mang lại lợi
21
ích cho người sử dụng và KPDL là tìm ra các mẫu được quan tâm nhất tồn tại
trong CSDL, nhưng chúng lại bị che giấu bởi một số lượng lớn dữ liệu [42].
3.3 Dữ liệu lớn
Dữ liệu lớn (Big data) là một thuật ngữ được sử dụng từ cuối những năm
1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở
các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử. Big data là
một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ
liệu truyền thống không thể nào đảm đương được. Tuy nhiên, nó lại chứa trong
mình rất nhiều thơng tin q giá mà nếu trích xuất thành công sẽ giúp rất nhiều
cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng
tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm, hay đo lường điều kiện
giao thông theo thời gian thực [46].
Nói đến Big Data chúng ta thường nói đến 5V (Volume, Velocity, Variety,
Veracity, Value) để thể hiện đặc trưng của Big Data [54], dựa vào 5 đặc trưng trên
để liên hệ và giải thích về lý do đề tài này có tiêu đề là dựa vào phân tích dữ liệu
lớn.
Về mặt Volume (độ lớn của dữ liệu) được hiểu là sự tăng về khối lượng, nói
đến sự khơng ngừng tăng lên về kích thước, khối lượng của dữ liệu trong các hệ
thống thơng tin. Dữ liệu có thể được tìm thấy dưới nhiều định dạng khác nhau
như: hình ảnh, âm thanh, văn bản, video, … Velocity (tốc độ) dùng để mô tả sự
tăng tưởng về mặt tốc độ. Bên cạnh sự gia tăng không ngừng về khối lượng, tốc độ
tăng trưởng của dữ liệu cũng tăng lên một cách rất nhanh chóng. Variety (đa
dạng) thể hiện sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu sẽ phong phú với
rất nhiều cấu trúc khác nhau như: dữ liệu có cấu trúc và dữ liệu phi cấu trúc (dữ
liệu dưới dạng video, hình ảnh, dữ liệu cảm biến, các file logs hệ thống, …). Chính
vì sự đa dạng về mặt dữ liệu trong các doanh nghiệp và các tổ chức tăng lên dẫn
đến tính phức tạp của dữ liệu trở nên ngày càng phức tạp. Trong khi đó Veracity
(độ tin cậy/ chính xác) là tính xác thực của dữ liệu, với sự bùng nổ của công nghệ
cũng như các nền tảng mạng xã hội dẫn đến sự gia tăng mạnh mẽ tính tương tác và
chia sẻ dữ liệu người dùng làm cho bài toán xác định độ tin cậy và chính xác của
dữ liệu ngày một khó khăn hơn, thách thức về phân tích và loại bỏ dữ liệu thiếu
chính xác cũng như nhiễu sẽ đóng vai trò quan trọng của Big Data. Đặc trưng cuối
22
cùng của Big Data là Value (giá trị) giá trị thơng tin là tính chất quan trọng nhất
của xu hướng cơng nghệ Big Data, vì khi bắt đầu triển khai xây dựng dữ liệu lớn
thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thơng tin
mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu
lớn hay khơng. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu
lớn mang lại.
Với những đặc điểm của dữ liệu lớn được mô tả ở trên, dữ liệu lớn trong đề
tài này thể hiện ở những điểm sau: Volume (độ lớn dữ liệu) dữ liệu được thu thập
đa dạng từ nhiều nguồn khác nhau như dữ liệu thu thập từ TomTom [55], từ ứng
dụng cảnh báo TTGT trên di động (phục vụ cho người dân tại Tp. HCM, với dân
số 10 triệu), thu thập từ hệ thống của VoH, sở GTVT. Velocity (tốc độ) lượng dữ
liệu tăng nhanh từng ngày thông qua các ứng dụng thu thập dữ liệu tự động từ
TomTom (ước lượng với dữ liệu thu thập từ ứng dụng TomTom sẽ thu thập được
25,000 records mỗi giờ, lượng dữ liệu này cịn có thể tăng lên khi chúng ta tăng số
lượng key API được đăng ký từ TomTom), sở GTVT, VoH; dữ liệu được thu thập
từ ứng dụng giao thông được cài đặt trên máy người dùng cũng không ngừng tăng
nhanh khi số lượng người sử dụng tăng lên (trên ứng dụng này cứ mỗi 8 giây sẽ
thu thập được 1 dữ liệu về TTGT, mỗi giờ sẽ thu thập được 450 records, lượng dữ
liệu này sẽ tăng theo tỉ lệ thuận với số lượng người sử dụng ứng dụng). Variety
(đa dạng) dữ liệu thể hiện tính đa dạng dưới những định dạng khác nhau (dữ liệu
thu thập được từ TomTom ở dạng text; dữ liệu thu thập từ ứng dụng di động ở
dạng text, hình ảnh, âm thanh; dữ liệu thu thập từ camera của sở GTVT ở dạng
hình ảnh, dữ liệu thu thập được từ kênh giao thông VoH ở dạng text). Veracity
(độ tin cậy) với những dữ liệu được thu thập từ những hệ thống nêu trên có độ tin
cậy cao được thể hiện thơng qua những biểu mẫu để báo TTGT trên ứng dụng di
động, cũng tương tự như vậy đối với dữ liệu từ VoH khi người dùng gọi lên tổng
đài để chia sẻ dữ liệu về TTGT tại 1 địa điểm. Đối với dữ liệu thu thập từ sở
GTVT và TomTom, những dữ liệu này được thu thập từ các thiết bị cảm biến,
camera nên có độ tin cậy cũng như tính chính xác cao.
3.4 Các thuật toán ứng dụng trong các giải thuật phân loại dữ liệu
Phân loại dữ liệu là quá trình phân lớp một đối tượng dữ liệu vào một hay
nhiều lớp đã cho trước nhờ một mơ hình phân lớp. Mơ hình này được xây dựng
23
dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay cịn gọi là tập
huấn luyện). Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu [47].
Hình 2. Xác định bi mới thêm vào thuộc lớp bi màu nào?
Hình 2 là một ví dụ minh họa cho bài tốn phân lớp, mục đích xác định bi
mới thêm vào thuộc nhóm bi màu đỏ hay bi màu xanh. Qua ví dụ này, ta nắm
được nhiệm vụ chính của bài tốn phân lớp là tìm một mơ hình phân lớp để khi có
dữ liệu đầu vào sẽ có thể xác định được dữ liệu này thuộc phân lớp nào. Những
giải thuật thường được sử dụng trong bài tốn phân lớp sẽ được trình bày sau đây.
Giải thuật Support Vector Machine (SVM)
Support Vector Machine (SVM) là một thuật tốn giám sát, có thể sử dụng
cho cả việc phân loại hoặc đệ quy. Tuy nhiên nó được sử dụng chủ yếu cho việc
phân loại (phân chia dữ liệu thành các nhóm riêng biệt).
24
Hình 3. Ví dụ phân loại dữ liệu bằng thuật tốn SVM.
Hình 3 là một ví dụ phân loại dữ liệu trên cùng một mặt phẳng với các điểm
xanh và đỏ. Bằng phương pháp sử dụng giải thuật SVM ta có thể tìm được các
đường thẳng để phân chia hai nhóm điểm xanh và đỏ riêng biệt [48]. Với những
bộ dữ liệu phức tạp hơn hai chiều, khơng thể tìm được đường thẳng để phân chia
thì ta cần dùng thuật tốn để ánh xạ dữ liệu đó vào khơng gian nhiều chiều hơn, từ
đó tìm ra siêu mặt phẳng (hyperplane) để phân chia.
Hình 4. Ví dụ phân loại dữ liệu 3 chiều bằng thuật toán SVM.
25