Tải bản đầy đủ (.pdf) (73 trang)

Nghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây Ninh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.35 MB, 73 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
-----------------------------------

TRƯƠNG ĐÌNH LỢI

NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN
MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO TẠI
TỈNH TÂY NINH

ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
--------------------------------------

TRƯƠNG ĐÌNH LỢI

NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN
MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO TẠI TỈNH
TÂY NINH
Chuyên ngành: Hệ thống thông tin
Mã số:
8.48.01.04
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TÂN HẠNH


THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023


i

LỜI CAM ĐOAN
Tôi cam đoan rằng đề án tốt nghiệp thạc sĩ: “NGHIÊN CỨU DỰ BÁO
KHÔNG GIAN PHÁT TRIỂN MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO
TẠI TỈNH TÂY NINH” là cơng trình nghiên cứu của chính tơi.
Tơi cam đoan các số liệu, kết quả nêu trong đề án là trung thực và chưa từng
được ai công bố trong bất kỳ cơng trình nào khác.
Khơng có sản phẩm/nghiên cứu nào của người khác được sử dụng trong đề
án này mà không được trích dẫn theo đúng quy định.

TP. Hồ Chí Minh, ngày 21 tháng 08 năm 2023
Học viên thực hiện đề án

Trương Đình Lợi


ii

LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu thực hiện đề án tốt nghiệp thạc sĩ,
ngoài nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình q báu của
q Thầy Cơ, cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp.
Với lịng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:
Tôi xin chân thành cảm ơn Thầy TS. Tân Hạnh, người thầy kính u đã hết
lịng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt quá trình thực
hiện và hồn thành đề án tốt nghiệp thạc sĩ.

Ban Giám Đốc, Phòng đào tạo sau đại học và quý Thầy Cô đã tạo mọi điều
kiện thuận lợi giúp tơi hồn thành đề án.
Tơi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã
động viên, hỗ trợ tơi trong lúc khó khăn để tơi có thể học tập và hồn thành đề án.
Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế nên khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận
được sự góp ý của q Thầy Cơ cùng bạn bè đồng nghiệp để kiến thức của tôi ngày
một hồn thiện hơn.
Xin chân thành cảm ơn!

TP. Hồ Chí Minh, ngày 21 tháng 08 năm 2023
Học viên thực hiện đề án

Trương Đình Lợi


iii

MỤC LỤC
LỜI CAM ĐOAN.......................................................................................................i
LỜI CẢM ƠN...........................................................................................................ii
MỤC LỤC...............................................................................................................iii
DANH SÁCH HÌNH VẼ...........................................................................................v
DANH SÁCH BẢNG..............................................................................................vi
DANH MỤC CÁC THẬT NGỮ, CHỮ VIẾT TẮT................................................vii
PHẦN MỞ ĐẦU.......................................................................................................1
1.

Tính cấp thiết của đề tài..................................................................................1


2.

Tình hình nghiên cứu liên quan đến đề tài......................................................2

3.

Mục tiêu, ý nghĩa khoa học và thực tiễn.........................................................3

4.

Đối tượng và phạm vi nghiên cứu..................................................................3

5.

6.

4.1

Đối tượng nghiên cứu..............................................................................3

4.2

Phạm vi nghiên cứu.................................................................................4

Phương pháp nghiên cứu................................................................................4
5.1

Phương pháp nghiên cứu lý thuyết..........................................................4

5.2


Phương pháp nghiên cứu thực nghiệm....................................................4

Bố cục đề án...................................................................................................5

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI.......................................................................6
1.1. Tổng quan về Internet di động........................................................................6
1.2. Tổng quan về dữ liệu không gian (Spatial Data).............................................7
1.3. Tổng quan về học máy với dữ liệu không gian.............................................10
1.4. Các cơng trình liên quan quốc tế và trong nước............................................14
CHƯƠNG 2: MƠ HÌNH DỰ BÁO.........................................................................20
2.1. Tổng quan mơ hình dự báo dựa trên học máy...............................................20
2.1.1. Giới thiệu mơ hình dự báo......................................................................20
2.1.2. Mơ hình dự báo dựa trên học máy..........................................................21


iv

2.1.3. Các mơ hình hồi quy..............................................................................22
2.2. Thiết kế mơ hình...........................................................................................23
2.3. Giới thiệu về bộ dữ liệu................................................................................27
2.4. Tiêu chí đánh giá...........................................................................................33
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ....................................................35
3.1 Hiện trạng mạng internet di động.................................................................35
3.1.1

Khảo sát mạng internet di động tại Việt Nam....................................35

3.1.2


Tình hình mạng internet di động tại Tây Ninh...................................36

3.2. Phân tích dữ liệu không gian trạm BTS........................................................38
3.2.1

Dữ liệu lưu lượng 2G.........................................................................41

3.2.2

Dữ liệu lưu lượng 3G:........................................................................44

3.2.3

Dữ liệu lưu lượng 4G:........................................................................47

3.3 Huấn luyện và kiểm thử mơ hình...................................................................50
3.3.1

Dự báo lưu lượng 2G theo không gian...............................................51

3.3.2

Dự báo lưu lượng 3G theo không gian...............................................53

3.3.3

Dự báo lưu lượng 4G theo không gian...............................................54

3.4 Kết quả và thảo luận......................................................................................57
PHẦN KẾT LUẬN.................................................................................................60

1.

Kết quả nghiên cứu của đề tài.......................................................................60

2.

Hạn chế đề tài...............................................................................................60

3.

Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu:..............................60

DANH MỤC TÀI LIỆU THAM KHẢO.................................................................62


v

DANH SÁCH HÌNH VẼ
Hình 1.1: Điểm trong GIS......................................................................................................9
Hình 1.2: Cấu trúc dữ liệu Raster và Vector trong GIS.........................................................9
Hình 1.3: Ví dụ về phân tích dữ liệu khơng gian và trực quan hóa chúng...........................11
Hình 1.4: Ví dụ về ứng dụng học máy để tách lớp..............................................................12
Hình 1.5: Ví dụ về sử dụng SVM để phân lớp ảnh raster....................................................13
Hình 2. 1 Lưu đồ mơ hình huấn luyện đề xuất.....................................................................26
Hình 2. 2 Biểu đồ heatmap Hệ số tương quan Pearson của các biến kiểu số......................29
Hình 2. 3 Thống kê mơ tả các trường dữ liệu có kiểu số.....................................................29
Hình 2. 4 Biểu đồ phân bổ vị trí theo các cặp biến..............................................................31
Hình 2. 5 Biểu đồ phân bổ các trạm theo huyện..................................................................31
Hình 2. 6 Biểu đồ histogram các biến kiểu số.....................................................................33
Hình 3. 1 Xếp hạng 5 thành phố về tốc độ và độ trễ Internet di động trong quý I/2022.....33

Hình 3. 2 Kết quả thống kê chất lượng truy cập Internet của các mạng di động quý 1 năm
2020 (Theo VNNIC)............................................................................................................34
Hình 3. 3 Bản đồ tỉnh Tây Ninh theo hành chánh Huyện....................................................36
Hình 3. 4 Bản đồ tỉnh Tây Ninh theo hành chánh phường xã.............................................37
Hình 3. 5 Lưu Lượng 2G phân bổ ở các trạm BTS..............................................................39
Hình 3. 6 Các trạm có lưu Lượng 2G lớn nhất.....................................................................40
Hình 3. 7 Lưu Lượng 3G phân bổ ở các trạm BTS..............................................................42
Hình 3. 8 Các trạm có lưu Lượng 3G lớn nhất.....................................................................43
Hình 3. 9 Lưu Lượng 4G phân bổ ở các trạm BTS..............................................................45
Hình 3. 10 Các trạm có lưu Lượng 4G lớn nhất...................................................................47


vi

DANH SÁCH BẢNG
Bảng 3. 1 Tổng hợp kết quả R-Squared trong 2 mơ hình dự báo........................................55


vii

DANH MỤC CÁC THẬT NGỮ, CHỮ VIẾT TẮT
VIẾT TẮT

NGHĨA TIẾNG ANH

NGHĨA TIẾNG VIỆT

BTS

Base Transciever Station


Trạm trạm thu phát sóng

Cell

Base Transciever Station

Trạm trạm thu phát sóng

GIS

Geographic Information
System
2nd Generation
3rd Generation

2G
3G
4G
5G

4th Generation
5th Generation

LTE

Long Term Evolution

Hệ thống Thông tin Địa lý
thế hệ thứ 2

thế hệ thứ 3
thế hệ thứ 4
thế hệ thứ 5


1

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài
Hiện nay, mạng thiết bị di động hay mạng di động, mạng internet di động đã trở nên
khá quen thuộc với người dùng hiện đại. Với sự phát triển mạnh mẽ của công nghệ
thông tin và viễn thông, những năm gần đây, mạng internet di động mỗi lúc một tốt
hơn và ổn định hơn về chất lượng và số lượng. Tuy nhiên, sự phát triển của các
công nghệ mới và nhu cầu sử dụng chất lượng cao của người dùng đòi hỏi nhà cung
cấp dịch vụ phải luôn nâng cấp, cải tiến và mở rộng vùng phủ sóng của mình. Chính
vì vậy, việc ứng dụng GIS, dữ liệu không gian vào quản lý, dự báo phát triển vùng
phủ sóng mạng internet di động là bài toán bắt buộc. Đặc biệt hơn gần đây là ứng
dụng hệ thống thông tin địa lý GIS tích hợp với các ứng dụng của trí tuệ nhân tạo,
giúp cho quá trình ra quyết định và quản lý chất lượng mạng thông tin di động mỗi
lúc một tốt hơn.
Việc phát triển của trí tuệ nhân tạo, đặc biệt là máy học giúp ta dự đốn được
vùng khơng gian phù hợp với nhu cầu phát triển mạng internet di động, điều này sẽ
hỗ trợ tốt cho quy hoạch và quản lý chiến lược phát triển các trạm BTS. Với ứng
dụng hệ thống thông tin địa lý GIS để số hóa Quy hoạch phát triển hạ tầng kỹ thuật
viễn thơng thụ động; hệ thống và số hóa tồn bộ dữ liệu trạm thu, phát sóng thơng
tin di động của tất cả các doanh nghiệp thông tin di động trên địa bàn quản lý. Từ
đó, hỗ trợ nâng cao hiệu quả quản lý nhà nước về mạng lưới thông tin di động.
Nhu cầu truy cập Internet di động cùng với sự xuất hiện của các cơng nghệ
mới như trí tuệ nhân tạo, Internet vạn vật (IoT), và tự động hóa đang thúc đẩy sự gia
tăng khổng lồ về lượng dữ liệu được tạo ra. Việc tạo ra dữ liệu đang phát triển theo

cấp số nhân với khối lượng được nhận định sẽ tăng thêm vài trăm zettabyte trong
thập kỷ tới. Cơ sở hạ tầng di động hiện tại không được thiết kế cho tải thông tin lớn
như vậy và cần được nâng cấp.
Số liệu mới được công bố của Ookla Speedtest vào quý 1 năm 2022, cho
thấy Việt Nam đứng thứ 56 toàn cầu về Internet di động, giảm từ vị trí 50 trong


2

tháng 2 và 45 trong tháng 1 năm 2022. Ở hạng mục Internet băng rộng cố định, Việt
Nam vẫn giữ nguyên vị trí 49. Tốc độ Internet di động trung bình trong tháng trước
đo được là 33,9 Mb/giây. Trong khi đó, tốc độ Internet băng rộng cố định của Việt
Nam đạt 67,96 Mbps.
Tuy nhiên, hiện nay ở tỉnh Tây Ninh việc chú trọng công nghệ và phát triển
mạng internet di động tốc độ cao chưa thể so sánh bằng với khu vực như TP.HCM.
Vì vậy việc phát triển và xây dựng chiến lược quy hoạch vùng Internet di động với
các mức độ chất lượng khác nhau đáp ứng nhu cầu sử dụng của người dân ở Tây
Ninh rất cần thiết. Việc dự báo vùng phát triển phù hợp và đúng nhu cầu người dân
với mạng internet di động tốc độ cao sẽ giúp ích cho việc ra quyết định, định hướng
khu vực phát triển ưu tiên và ít ưu tiên, từ đó tạo hiệu quả cho xã hội đạt mức tối
ưu.
Đề tài như sau:
NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN MẠNG INTERNET DI
ĐỘNG TỐC ĐỘ CAO Ở TỈNH TÂY NINH
2. Tình hình nghiên cứu liên quan đến đề tài
Các nghiên cứu gần đây về "NGHIÊN CỨU DỰ BÁO KHÔNG GIAN
PHÁT TRIỂN MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO" đang chú trọng vào
việc dự báo sự phát triển và nhu cầu về mạng internet di động. Dữ liệu không gian
trong bối cảnh này chủ yếu liên quan đến vị trí địa lý, môi trường xung quanh, tốc
độ truyền dẫn và thông lượng mạng ở khu vực nghiên cứu.

Một số nghiên cứu đang tập trung vào việc thu thập và phân tích dữ liệu
khơng gian để đưa ra dự đốn về tốc độ và chất lượng dịch vụ mạng tại các khu vực
khác nhau của Tây Ninh. Các phương pháp phân tích khơng gian giúp xác định các
khu vực có nhu cầu cao về dịch vụ mạng tốc độ cao, tối ưu hóa vị trí của các trạm
phát sóng và cải thiện độ phủ sóng.
Bằng cách sử dụng cơng nghệ học máy và trí tuệ nhân tạo, các mơ hình dự
báo được phát triển nhằm dự đoán nhu cầu và hiệu suất của mạng internet di động


3

tốc độ cao ở Tây Ninh. Những mơ hình này giúp định hình quy hoạch mạng và quản
lý tài nguyên mạng một cách hiệu quả.
Dữ liệu không gian cung cấp thơng tin q giá về vị trí và mơi trường xung
quanh, giúp xác định các khu vực tiềm năng để triển khai mạng tốc độ cao. Thơng
qua việc phân tích dữ liệu này, các nhà khai thác mạng có thể tập trung đầu tư vào
cơ sở hạ tầng ở những khu vực có nhu cầu cao và cải thiện chất lượng dịch vụ ở
những khu vực có hiệu suất khơng đạt yêu cầu [1]. Hơn nữa, việc dự báo không
gian này cũng giúp định hướng chiến lược phát triển mạng tại Tây Ninh, đáp ứng
nhu cầu thực tế của người dân và doanh nghiệp tại đây [2].
3. Mục tiêu, ý nghĩa khoa học và thực tiễn
Mục tiêu tổng quát: Nghiên cứu các mơ hình dự báo dữ liệu khơng gian
nhằm phát triển mạng Internet di động tại tỉnh Tây Ninh.
Mục tiêu cụ thể như sau:
 Nghiên cứu dữ liệu không gian liên quan phát triển mạng Internet di
động tại tỉnh Tây Ninh
 Nghiên cứu các thuật toán dự báo, máy học trong dữ liệu khơng gian
 Nghiên cứu mơ hình dự báo dữ liệu không gian và GIS
 Đánh giá các kết quả dự báo và độ chính xác của mơ hình xây dựng
4. Đối tượng và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu:


Đối tượng nghiên cứu chính là dữ liệu khơng gian liên quan phát triển
Internet di động tại tỉnh Tây Ninh



Bên cạnh đó, nghiên cứu các thuật toán dự báo & máy học, học sâu ứng
dụng vào dữ liệu không gian.


4



Ngồi ra, đề tài sẽ sử dụng cơng cụ học máy và visualize để xây dựng
mơ hình dự báo dữ liệu không gian. Đánh giá các kết quả dự báo và độ
chính xác của mơ hình.

4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu:


Tập dữ liệu không gian liên quan phát triển Internet di động tại tỉnh Tây
Ninh đã được thông qua ý kiến của lãnh đạo VNPT Tây Ninh cấp
duyệt.




Thu thập được trong từ 2022 đến 2023.



Nghiên cứu các thuật toán machine learning phù hợp với bộ spatial data
thu thập được.

5. Phương pháp nghiên cứu

5.1 Phương pháp nghiên cứu lý thuyết
-

Tìm các tài liệu, sách liên quan tới dữ liệu khơng gian, mơ hình dự đốn sử
dụng dữ liệu khơng gian, GIS, phân bố khu vực mạng Internet di động tại
tỉnh Tây Ninh theo thời gian (GSM, 2G, 3G, 4G, 5G), số lượng người dùng
và thuộc tính thu thập được, các thuật tốn dự báo có thể áp dụng được.

-

Tìm tham khảo tài liệu từ những hội thảo, cơng trình, đề tài, luận văn thực
hiện trong và ngồi nước.

-

Tìm tài liệu, sách liên quan tới học sâu, dữ liệu lớn như Python NoteBook,
Google Colab, Rstudio, MatLab.

5.2 Phương pháp nghiên cứu thực nghiệm
-


Sau khi nghiên cứu lý thuyết, các bài toán, đề xuất mơ hình; xây dựng và
phát triển ứng dụng dựa trên mơ hình đề xuất; cài đặt thử nghiệm chương
trình, đánh giá các kết quả đạt được; cơng bố kết quả nghiên cứu.


5

6. Bố cục đề án
Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khào, phần nội dung
chính của bài nghiên cứu được chia thành 3 chương chính như sau:
Chương 1: Tổng quan đề tài
Chương 2: Mơ hình dự báo
Chương 3: Thực nghiệm và đánh giá


6

CHƯƠNG 1: TỔNG

QUAN ĐỀ TÀI

1.1. Tổng quan về Internet di động
Đi cùng với tiến trình phát triển của điện thoại di động chính là sự thay đổi của
cơng nghệ được sử dụng [3]. Khi GSM xuất hiện, những chiếc điện thoại dần
chứng tỏ được vai trị hồn hảo của mình hơn trong việc liên lạc đặc biệt là việc
truy cập Internet. Mạng Internet di động đã phát triển và theo các thế hệ như sau:
mạng 2G, mạng 3G, mạng 4G và mạng 5G.
Mạng 2G: Đây chính là thế hệ mạng di động thứ 2 với tên gọi đầy đủ là hệ
thống thơng tin di động tồn cầu. Mạng 2G có tên tiếng anh là Global System for

Mobile Communications hay còn gọi là GSM. Mạng 2G có khả năng phủ sóng
rộng khắp, làm cho những chiếc điện thoại có thể được sử dụng ở nhiều nơi trên thế
giới. GSM gồm nhiều các trạm thu phát sóng để những điện thoại di động có thể
kết nối mạng qua việc tìm kiếm các trạm thu phát gần nhất. Mạng 2G chia làm 2
nhánh chính: nền TDMA và CDMA và nhiều dạng kết nối tùy theo yêu cầu sử
dụng. Các chuẩn thương mại chính: D-AMPS, GSM/GPRS/EDGE, cdmaOne. Khi
mạng 2G xuất hiện, chất lượng cuộc gọi được cải thiện đáng kể, tín hiệu và tốc độ
cũng tốt hơn rất nhiều so với thế hệ trước đó. Thời gian và chi phí được tiết kiệm
khi mã hóa dữ liệu theo dạng kĩ thuật số. Những thiết bị được thiết kế nhỏ gọn và
nhẹ hơn, ngoài ra chúng cịn có thể thực hiện tin nhắn dạng SMS.
Mạng 3G: Thế hệ thứ 3 của chuẩn công nghệ điện thoại di động chính là
mạng 3G Third-generation technology, cho phép truyền cả dữ liệu thoại như nghe
gọi, nhắn tin và dữ liệu ngoài thoại như gửi mail, tải dữ liệu, hình ảnh. Nhờ có 3G
ta có thể truy cập Internet cho cả thuê bao cố định hay di chuyển ở các tốc độ khác
nhau. Đa số các smart phone hiện nay đều hỗ trợ công nghệ 3G. Hiện nay công
nghệ 3G được xây dựng với 4 chuẩn chính: W-CDMA, CDMA2000, TD-CDMA,
TD-SCDMA. Mạng 3G cải thiện chất lượng cuộc gọi, tín hiệu, tốc độ so với 2G.
Ta có thể truy cập Internet tốc độ cao ngay khi đang di chuyển, truy cập thế giới


7

nội dung đa phương tiện: nhạc, phim, hình ảnh chất lượng cao. Người dùng có thể
trị chuyện mọi nơi với chi phí rẻ hơn rất nhiều qua các ứng dụng hỗ trợ như: zalo,
Viber, Line,…
Mạng 4G: 4G hay Fourth-generation là cơng nghệ truyền thơng khơng dây
thứ 4 có thể truyền tỉa dữ liệu với tốc độ lên đến 1 -> 1.5 Gb/giây. Công nghệ 4G
vượt trội hơn 3G ở nhiều điểm. Với 4G người dùng có thể tải và truyền lên hình
ảnh động chất lượng cao. Với 4G, băng thơng rộng hơn, tốc độ nhanh hơn, hỗ trợ
các dịch vụ di động cao cấp như truyền hình trực tuyến, video HD, game online cao

cấp, đáp ứng cùng lúc nhiều người sử dụng. Các chuẩn thương mại chính: LTE,
LTE Advanced, Mobile Wimax và WiMax Release 2.
Mạng 5G: Giống như những gì chúng ta hình dung, 5G nhanh hơn 4G. Hiện
tại, mạng 5G mới được lên kế hoạch hoạt động trong dải tần số cao của băng tần
khơng dây – nó nằm giữa 30 GHz và 300 GHz, hay còn được gọi là băng tần bước
sóng milimet. Đối với các thiết bị di động, 5G sẽ giúp sửa chữa rất nhiều vấn đề
của 4G và các công nghệ không dây hiện tại. Nó sẽ được thiết kế để hỗ trợ đồng
thời nhiều người dùng và thiết bị hơn (theo thông số kỹ thuật ITU mỗi cell 5G sẽ
hỗ trợ cho 1 triệu thiết bị trên diện tích 1 km2), với tốc độ cao hơn cả 4G. Việc tốc
độ dữ liệu của bạn bị chậm đi khi đang ở một sự kiện đông người sẽ chỉ còn là quá
khứ. Tuy vậy 5G vẫn còn là một khái niệm khá trừu tượng với nước ta. Để 5G có
thể trở nên phổ biến phát mất nhiều thời gian nữa.
1.2. Tổng quan về dữ liệu không gian (Spatial Data)
Dữ liệu không gian [7] là bất kỳ loại dữ liệu nào tham chiếu trực tiếp hoặc
gián tiếp đến một khu vực hoặc vị trí địa lý cụ thể. Đôi khi được gọi là dữ liệu
không gian địa lý hoặc thông tin địa lý, dữ liệu không gian cũng có thể biểu thị bằng
số một đối tượng vật lý trong hệ tọa độ địa lý. Tuy nhiên, dữ liệu không gian không
chỉ là một thành phần không gian của bản đồ. Người dùng có thể lưu dữ liệu khơng
gian ở nhiều định dạng khác nhau, vì nó cũng có thể chứa nhiều hơn dữ liệu về vị trí
cụ thể. Phân tích dữ liệu này giúp hiểu rõ hơn về cách mỗi biến số tác động đến các


8

cá nhân, cộng đồng, quần thể, v.v. Có một số loại dữ liệu không gian, nhưng hai
loại dữ liệu không gian chính là dữ liệu hình học và dữ liệu địa lý.
Dữ liệu khơng gian [8] có thể tồn tại ở nhiều định dạng khác nhau và không
chỉ chứa thông tin cụ thể về vị trí. Dữ liệu vecter và raster [9] nằm trong một cơ sở
dữ liệu của hệ thống thông tin địa lý nhằm hỗ trợ xử lý và phân tích dữ liệu ảnh viễn
thám. Mỗi loại có những đặc điểm riêng và chúng khác nhau về yêu cầu lưu giữ số

liệu, hiệu quả, xử lý và hiển thị.
Dữ liệu khơng gian (hay cịn gọi là Vecter): Cơ sở dữ liệu không gian chứa
đựng những thông tin định vị của các đối tượng, cho biết vị trí, kích thước, hình
dạng, sự phân bố… của các đối tượng. Các đối tượng không gian được định dạng về
3 loại: đối tượng dạng điểm, dạng đường và dạng vùng. Dữ liệu khơng gian có hai
mơ hình lưu trữ: mơ hình dữ liệu raster và mơ hình dữ liệu vector.
Mơ hình thơng tin không gian: Dữ liệu là trung tâm của hệ thống GIS, hệ
thống GIS chứa càng nhiều thì chúng càng có ý nghĩa. Dữ liệu của hệ GIS được lưu
trữ trong cơ sở dữ liệu và chúng được thu thập thơng qua các mơ hình thế giới thực.
Dữ liệu trong hệ GIS cịn được gọi là thơng tin khơng gian. Đặc trưng thơng tin
khơng gian là có khả năng mơ tả “vật thể ở đâu” nhờ vị trí tham chiếu, đơn vị đo và
quan hệ khơng gian. Chúng cịn khả năng mơ tả “hình dạng hiện tượng” thơng qua
mơ tả chất lượng, số lượng của hình dạng và cấu trúc. Cuối cùng, đặc trưng thông
tin không gian mô tả “quan hệ và tương tác” giữa các hiện tượng tự nhiên. Mơ hình
khơng gian đặc biệt quan trọng vì cách thức thông tin sẽ ảnh hưởng đến khả năng
thực hiện phân tích dữ liệu và khả năng hiển thị đồ hoạ của hệ thống.
Kiểu đối tượng điểm (Points): Điểm được xác định bởi cặp giá trị. Các đối
tượng đơn, thông tin về địa lý chỉ gồm cơ sở vị trí sẽ được phản ánh là đối tượng
điểm. Từ đó, tổ hợp thành kiểu đối tượng đường (Arcs), kiểu đối tượng vùng
(Polygons).


9

Hình 1.1: Điểm trong GIS

Hệ thống phi khơng gian (Raster): Những mơ hình dữ liệu dạng raster phản
ánh tồn bộ vùng nghiên cứu dưới dạng một lưới các ô vuông hay điểm ảnh
(pixcel). Mơ hình raster có các đặc điểm: Các điểm được xếp liên tiếp từ trái qua
phải và từ trên xuống dưới; Mỗi một điểm ảnh (pixcel) chứa một giá trị; Một tập các

ma trận điểm và các giá trị tương ứng tạo thành một lớp (layer); Trong cơ sở dữ liệu
có thể có nhiều lớp.

Hình 1.2: Cấu trúc dữ liệu Raster và Vector trong GIS


10

1.3. Tổng quan về học máy với dữ liệu không gian
Học máy, hay gọi là Machine Learning [10] là môn khoa học nhằm phát
triển những thuật tốn và mơ hình thống kê mà các hệ thống máy tính sử dụng để
thực hiện các tác vụ dựa vào khuôn mẫu và suy luận mà không cần hướng dẫn cụ
thể. Các hệ thống máy tính sử dụng thuật tốn máy học để xử lý khối lượng lớn dữ
liệu trong quá khứ và xác định các khuôn mẫu dữ liệu. Việc này cho phép chúng dự
đốn kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào cho trước. Ví dụ: các
nhà khoa học dữ liệu có thể đào tạo một ứng dụng y tế chẩn đoán ung thư từ ảnh
chụp X-quang bằng cách lưu trữ hàng triệu ảnh quét và chẩn đốn tương ứng.
Phân tích dữ liệu khơng gian [11]: GIS bao gồm thu thập, quản lý, thao tác,
phân tích và trực quan hóa dữ liệu khơng gian dưới dạng một hệ thống. Dữ liệu
không gian, không giống như dữ liệu dạng bảng, có các thuộc tính khơng gian cho
mỗi lần quan sát. Có hai loại dữ liệu khơng gian: vecter và raster. Dữ liệu vecter có
thể có dạng điểm, đường hoặc đa giác. dữ liệu raster bao gồm các pixel dưới dạng
hình ảnh. Dữ liệu khơng gian có thể biểu diễn dưới dạng dữ liệu dạng bảng, nhưng
sự quan sát của nó có các thuộc tính khơng gian. Nói cách khác, mỗi quan sát đại
diện cho một vị trí trong thế giới thực. Kết quả là, các quan sát trong dữ liệu khơng
gian có vĩ độ, kinh độ, diện tích (đa giác), chu vi (đa giác), trọng tâm (đa giác) và độ
dài (đường thẳng). Một nhóm các thuộc tính khơng gian khác có thể có là mật độ,
khoảng cách và centography (điểm). Ví dụ về dữ liệu hình dạng đa giác là các thành
phố, khu dân cư, khu vực sử dụng đất và các khu vực khác. Mạng lưới đường bộ,
đường ống, sông và tuyến đường được thể hiện bằng các hình dạng nội tuyến. Dữ

liệu điểm thường chứa thông tin về điểm độ cao, điểm độ sâu mực nước ngầm và
các điểm quan tâm khác. Dữ liệu đa giác, đường và điểm có thể được chuyển đổi
sang dữ liệu khác tùy thuộc vào những gì chúng ta cần.


11

Hình 1.3: Ví dụ về phân tích dữ liệu khơng gian và trực quan hóa chúng

Trong dữ liệu dạng bảng, một quan sát khơng có bất kỳ mối quan hệ không
gian nào với các quan sát khác. Trong dữ liệu khơng gian, mỗi quan sát có một
khoảng cách với các quan sát khác. Do thuộc tính khơng gian, chúng ta có thể thực
hiện phân tích khơng gian (hoặc thao tác hình học), chẳng hạn như clip, xóa, đệm,
hợp nhất, nội suy, v.v.
Học máy áp dụng vào phân tích dữ liệu khơng gian: Chúng ta có thể chạy
các thuật tốn học máy về hồi quy, phân loại và phân cụm trong xử lý dữ liệu không
gian. Một trong những công cụ trong GIS được sử dụng thường xuyên là phép nội
suy, ví dụ nội suy một tập hợp các điểm chứa thông tin giá nhà thành đa giác hoặc
raster. Trên thực tế, phân tích hồi quy trong dữ liệu khơng gian là để nội suy vì
chúng ta muốn dự đốn các giá trị chưa biết trong các khu vực giữa các điểm. Công
cụ nội suy thường được sử dụng là Kriging. Để nội suy các điểm bằng học máy,
chúng ta có thể thử công cụ Empirical Bayesian Kriging (EBK). Kriging thông
thường chỉ sử dụng một mơ hình bán biến số duy nhất để dự đoán các giá trị chưa
biết, trong khi EBK dự đoán các giá trị chưa biết bằng cách sử dụng nhiều biểu đồ
bán biến và quy tắc Bayes. EBK đã giải thích ở trên nội suy dữ liệu đơn biến.


12

Chúng ta cũng có thể nhập các biến phụ thuộc có ảnh hưởng đến biến mục tiêu. Ví

dụ: nhập "khoảng cách từ đường chính", "khoảng cách từ cơ sở cơng cộng", "xảy ra
tội phạm" và "rủi ro thiên tai" có thể hỗ trợ nội suy giá nhà bằng cách sử dụng EBK.
Các thuật tốn khác cho phép nội suy khơng gian là Hồi quy bình phương nhỏ nhất
thơng thường (OLS) và Hồi quy theo trọng số địa lý (GWR).

Hình 1.4: Ví dụ về ứng dụng học máy để tách lớp

Học máy để nội suy: Hồi quy học máy thông thường, như hồi quy tuyến
tính, hồi quy dựa trên cây hoặc hồi quy Support Vector Machine, cũng có thể dự
đốn các biến mục tiêu theo các biến phụ thuộc, nhưng không thể thấy rằng các biến
mục tiêu ở khoảng cách gần hơn có xu hướng có nhiều giá trị giống nhau hơn. Giá
nhà ở các khu vực gần hơn có xu hướng tương tự nhau. Phép nội suy không gian
tuân theo định luật địa lý đầu tiên do Tobler viện dẫn: “những thứ ở gần thì liên
quan nhiều hơn những thứ ở xa”.
Định luật địa lý thứ nhất (FIRST LAW) 1do Tobler đưa ra, cho thấy rằng các
vật thể hoặc hiện tượng ở gần nhau về mặt địa lý có nhiều khả năng giống nhau
hoặc có một số loại mối quan hệ không gian so với các vật thể ở xa hơn. Ví dụ ta có
thể áp dụng cho ơ nhiễm, tiếng ồn, khoa học về đất và vô số hiện tượng khác. Có
thể thấy một ví dụ về Định luật Địa lý thứ nhất của Tobler trong các hoạt động kinh
tế. Hãy xem xét việc phân bổ các cửa hàng bán lẻ trong một thành phố. Theo luật
1

This is the first law of Geography introduced by Waldo R. Tobler in 1969.
Everything is related to everything else, but near things are more related than distant things.


13

Tobler, các cửa hàng nằm gần nhau thường có đặc điểm nhân khẩu học, mơ hình
mua hàng và thậm chí cả loại hàng hóa được bán giống nhau. Điều này là do khách

hàng ở một khu vực lân cận cụ thể có nhiều khả năng mua hàng tại các cửa hàng
gần đó hơn do sự thuận tiện và khả năng tiếp cận, dẫn đến đặc điểm chung giữa các
cửa hàng ở gần nhau. Ngược lại, các cửa hàng nằm ở các khu vực lân cận có thể
phục vụ các phân khúc khách hàng khác nhau, cung cấp các sản phẩm khác nhau và
thể hiện sự khác biệt trong hiệu quả kinh doanh do sự khác biệt về nhân khẩu học,
sở thích địa phương và khả năng tiếp cận.
Bên cạnh phép nội suy điểm, chúng ta cũng có thể thực hiện Phép nội suy
diện tích. Phép nội suy diện tích trả về một tập hợp các đa giác lớn hơn thành một
tập hợp các đa giác nhỏ hơn tùy theo môi trường xung quanh chúng. Một đa giác có
thể được ghép lại thành một vài đa giác với các giá trị bị ảnh hưởng bởi các giá trị
lân cận. Nhiệm vụ thứ hai của học máy là phân loại. Trong Machine Leaning thơng
thường, chúng ta biết các thuật tốn phân loại như Maximum Likelihood, Support
Vector Machine, và Decision Tree. Trong phân tích khơng gian, chúng ta hồn tồn
sử dụng tốt các thuật toán này. Nhiệm vụ phổ biến của Machine Learning để phân
loại không gian là phân loại lớp phủ đất từ hình ảnh vệ tinh.

Hình 1.5: Ví dụ về sử dụng SVM để phân lớp ảnh raster

1.4. Các cơng trình liên quan quốc tế và trong nước
Vùng phủ sóng tín hiệu tối ưu [9] luôn là vấn đề cơ bản đối với các nhà khai thác
mạng di động. Các vấn đề khác liên quan đến năng lực, chất lượng dịch vụ và hiệu


14

quả chi phí cũng nhanh chóng được quan tâm. Để xác định phạm vi phủ sóng của
tín hiệu, các kỹ sư mạng thường chủ yếu dựa vào bản đồ địa hình hai chiều (2D) và
các mơ hình dự đốn lan truyền theo kinh nghiệm khá đơn giản. Trong nghiên cứu
này, một khung cung cấp tối ưu hóa vùng phủ sóng mạng hiệu quả hơn và tiết kiệm
chi phí hơn cho môi trường đô thị dày đặc đã được nghiên cứu. Hệ thống thông tin

địa lý 3D (GIS) của khu vực nghiên cứu đã được xây dựng. Cơng cụ dự đốn lan
truyền tín hiệu dựa trên dị tia kết hợp với thông tin địa lý 3D đã được sử dụng để
lập mơ hình vùng phủ sóng tín hiệu vơ tuyến cho các Trạm thu phát cơ sở cho một
trong những nhà khai thác điện thoại di động được cấp phép cung cấp dịch vụ điện
thoại di động ở Kenya. Để xác định vị trí tốt nhất của các trạm BTS nhằm phủ sóng
tín hiệu tối ưu cho khu vực nghiên cứu, các cơng cụ phân tích khơng gian trong GIS
đã được sử dụng. So sánh phương pháp được đề xuất với các phương pháp cổ điển
chứng minh rằng phương pháp phân tích khơng gian này có thể được sử dụng để tối
ưu hóa vùng phủ sóng tín hiệu di động trong bất kỳ môi trường đô thị dày đặc nào
mà không cần dùng đến các phép đo trường dài, do đó giảm thiểu chi phí quy hoạch
mạng khơng dây.
Theo [10], với sự phát triển nhanh chóng của truyền thơng khơng dây và quy
mô ngày càng tăng của mạng di động, nhiệm vụ lập kế hoạch mạng di động và tối
ưu hóa tài nguyên ngày càng trở nên khó khăn hơn. Một quy hoạch mạng tốt sẽ là
một quy hoạch dẫn đến chi phí cơ sở hạ tầng ít hơn bằng cách sử dụng các nguồn
lực tối ưu đồng thời đảm bảo sự hài lòng của khách hàng nhiều hơn. Sự gia tăng số
lượng trạm thu phát sóng di động (BTS) với lượng khách hàng ngày càng tăng,
không chỉ làm tăng tổng chi phí của mạng di động mà cịn có tác động lớn đến các
vấn đề về nguy cơ bức xạ. Điều quan trọng là lựa chọn tối ưu các trạm BTS trong
thiết kế mạng di động. Việc lựa chọn các trạm BTS ở khu vực địa hình khác nhau
với sự phân bổ người dùng không đồng đều, chẳng hạn như Uttarakhand, là một
thách thức lớn khác. Với ước tính tổn thất đường dẫn cùng với các mơ hình dự đốn
lan truyền kết hợp với phân tích cẩn thận dữ liệu khơng gian và thu thập thơng tin
địa hình từ Hệ thống thơng tin địa lý (GIS), có thể xác định được các vị trí tháp tiềm


15

năng. Bài báo đề xuất một phương pháp để đánh giá sự phù hợp của vị trí Trạm gốc
của mạng vô tuyến di động BSNL ở Uttarakhand với mục tiêu tối ưu hóa và tự động

hóa quy trình lập kế hoạch mạng. Thơng tin địa lý, chẳng hạn như hình ảnh vệ tinh,
bản đồ địa hình, bản đồ kỹ thuật số thành phố, Aster DEM, thơng số vị trí của các
tháp BSNL hiện có (như Vĩ độ và Kinh độ, chiều cao ăng-ten, tần số) của khu vực
nghiên cứu được thu thập từ các nguồn khác nhau. Sử dụng những dữ liệu này, các
lớp khác nhau của mạng lưới đường bộ, sơng ngịi, mơi trường sống và độ che phủ
rừng đã được hình thành trong phần mềm ArcGIS để xác định vị trí các địa điểm
phù hợp. Vùng chết và vùng chồng lấn của vùng phủ sóng tháp hiện có đã được
phát hiện. Do đó, việc phân tích các tháp hiện có của khu vực nghiên cứu đã được
thực hiện để tìm ra các vị trí đặt tháp tối ưu.
B. Nikparvar và J.-C. Thill [11] đã nghiên cứu và công bố về ứng dụng
Machine learning và dữ liệu không gian. Các thuộc tính của dữ liệu rõ ràng về mặt
khơng gian thường bị bỏ qua hoặc xử lý không đầy đủ trong học máy đối với các
miền ứng dụng không gian. Đồng thời, các tài nguyên xác định các thuộc tính này
và điều tra ảnh hưởng của chúng cũng như phương pháp xử lý chúng trong các ứng
dụng máy học đang bị tụt lại phía sau. Trong khảo sát tài liệu của nhóm tác giả, đưa
ra cách xác định và thảo luận về các thuộc tính khơng gian của dữ liệu ảnh hưởng
đến hiệu suất của máy học. Các tác giả xem xét một số thực tiễn tốt nhất trong việc
xử lý các thuộc tính như vậy trong các miền không gian và thảo luận về ưu điểm và
nhược điểm của chúng. Các tác giả nhận ra hai vấn đề trong nghiên cứu của mình.
Đầu tiên, các thuộc tính của dữ liệu không gian được phát triển trong ma trận quan
sát không gian mà không sửa đổi nội dung của thuật tốn học, mặt khác các thuộc
tính dữ liệu khơng gian được xử lý trong chính thuật tốn học. Mặc dù vấn đề thứ 2
ít được khám phá hơn, nhưng nhóm tác giả cho rằng chúng mang lại những triển
vọng hứa hẹn nhất cho tương lai của máy học không gian.
Theo A. W. Kiwelekar và các cộng sự [12], các thiết bị điện tử tiêu dùng
như thiết bị cầm tay di động, hàng hóa được gắn nhãn RFID, vị trí và cảm biến vị trí
đang liên tục tạo ra một lượng lớn dữ liệu được làm giàu về vị trí được gọi là dữ


16


liệu không gian địa lý. Thông thường dữ liệu không gian địa lý như vậy được sử
dụng cho các ứng dụng quân sự. Trong thời gian gần đây, nhiều ứng dụng dân sự
hữu ích đã được thiết kế và triển khai xung quanh dữ liệu không gian địa lý như
vậy. Ví dụ: một hệ thống khuyến nghị để gợi ý các nhà hàng hoặc địa điểm thu hút
khách du lịch đến thăm một địa phương cụ thể. Đồng thời, các cơ quan dân sự đang
khai thác dữ liệu không gian địa lý được tạo thông qua các thiết bị viễn thám để
cung cấp các dịch vụ tốt hơn cho người dân như giám sát giao thông, xác định ổ gà
và báo cáo thời tiết. Thông thường, các ứng dụng như vậy được tận dụng dựa trên
các kỹ thuật học máy không phân cấp như Bộ phân loại Naive-Bayes, Máy vectơr
hỗ trợ và cây quyết định. Những tiến bộ gần đây trong lĩnh vực học sâu cho thấy các
kỹ thuật dựa trên Mạng nơ-ron vượt trội hơn các kỹ thuật thông thường và cung cấp
các giải pháp hiệu quả cho nhiều nhiệm vụ phân tích dữ liệu khơng gian địa lý như
nhận dạng đối tượng, phân loại hình ảnh và hiểu cảnh.
Bài viết của K. Kopczewska [13] là một hướng dẫn phương pháp để sử dụng
học máy trong bối cảnh không gian. Nó cung cấp một cái nhìn tổng quan về hộp
cơng cụ khơng gian hiện có được đề xuất trong tài liệu: học tập không giám sát, liên
quan đến việc phân cụm dữ liệu khơng gian và học tập có giám sát, thay thế kinh tế
lượng không gian cổ điển. Nó cho thấy tiềm năng của việc sử dụng phương pháp
đang phát triển này, cũng như những cạm bẫy của nó. Nó lập danh mục và nhận xét
về việc sử dụng các phương pháp phân cụm không gian (đối với các vị trí và giá trị,
cả riêng biệt và chung) để lập bản đồ, bootstrapping, xác thực chéo, mơ hình hóa
GWR và các chỉ số mật độ. Nó cung cấp thơng tin chi tiết về các mơ hình máy học
khơng gian, được kết hợp với tích hợp dữ liệu khơng gian, lập mơ hình, tinh chỉnh
mơ hình và dự đốn để xử lý tự tương quan không gian và dữ liệu lớn. Bài viết mơ
tả các phương pháp “đã có” và “sắp có” và tạo cảm hứng cho việc áp dụng các
phương pháp định lượng hiện đại từ các lĩnh vực chủ đề khác vào nghiên cứu khoa
học khu vực.
Theo bài báo đề cập [14], chúng ta đang chứng kiến một xu hướng tăng
nhanh chóng trong nhu cầu về lưu lượng truyền thông di động. Trong thời đại số,



×