ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------
BÙI QUANG THUẬN
XÂY DỰNG HỆ THỐNG TRA CỨU
THỰC VẬT RỪNG TẠI THÀNH PHỐ ĐÀ NẴNG
ỨNG DỤNG MƠ HÌNH HỌC SÂU
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Đà Nẵng - Năm 2022
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------
BÙI QUANG THUẬN
ĐỀ TÀI XÂY DỰNG HỆ THỐNG TRA CỨU
THỰC VẬT RỪNG TẠI THÀNH PHỐ ĐÀ NẴNG
ỨNG DỤNG MƠ HÌNH HỌC SÂU
Chun ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. TS. Nguyễn Văn Hiệu
Đà Nẵng - Năm 2022
i
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi và được sự hướng dẫn
của TS. Nguyễn Văn Hiệu. Các nội dung nghiên cứu, kết quả trong luận văn này là
trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong các
bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ
các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngồi ra, trong luận văn cịn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu
phát hiện có bất kỳ sự gian lận nào tơi xin hoàn toàn chịu trách nhiệm về nội dung luận
văn của mình.
Tác giả
Bùi Quang Thuận
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
ii
MỤC LỤC
LỜI CAM ĐOAN......................................................................................................i
MỤC LỤC………………………………………………………………………………...ii
DANH MỤC CÁC BẢNG .................................................................................................. v
DANH MỤC CÁC HÌNH ..................................................................................................vi
TĨM TẮT LUẬN VĂN .....................................................................................................xi
MỞ ĐẦU ............................................................................................................................. 1
1. Lý do chọn đề tài ............................................................................................................. 1
2. Mục đích và ý nghĩa đề tài .............................................................................................. 2
3. Mục tiêu và nhiệm vụ ...................................................................................................... 2
4. Đối tượng và phạm vi nghiên cứu ................................................................................... 3
5. Phương pháp nghiên cứu ................................................................................................. 4
6. Dàn ý nội dung chính....................................................................................................... 4
CHƯƠNG 1: TỔNG QUAN HỆ THỐNG TRA CỨU THỰC VẬT VÀ CƠ SỞ LÝ
THUYẾT ............................................................................................................................. 6
1.1. Tổng quan hệ thống tra cứu thực vật ............................................................................ 6
1.1.1. Giới thiệu................................................................................................................ 6
1.1.2. Bài toán tra cứu thực vật ........................................................................................ 7
1.1.3. Tra cứu thực vật bằng hình ảnh.............................................................................. 9
1.2 Hệ thống thơng tin địa lí .............................................................................................. 11
1.3 Mạng học sâu ............................................................................................................... 13
1.3.1 Mạng nơ-ron tích chập .......................................................................................... 13
1.3.2 Kiến trúc mạng VGG16 ........................................................................................ 17
1.3.3 Kiến trúc mạng MobilenetV2 ............................................................................... 18
1.3.4 Kiến trúc mạng MobileFacenet ............................................................................. 20
CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG TRA CỨU THỰC VẬT ........ 25
2.1 u cầu hệ thống ......................................................................................................... 25
2.2 Ứng dụng mơ hình học sâu vào tra cứu hình ảnh ........................................................ 27
2.2.1 Thu thập dữ liệu .................................................................................................... 27
2.2.1.1. Quy trình thu thập dữ liệu trên địa bàn Đà Nẵng .......................................... 28
2.2.1.2. Quy trình thu thập dữ liệu từ nguồn Internet ................................................. 30
2.2.2 Tiền xử lí dữ liệu ................................................................................................... 31
2.2.3 Các mơ hình huấn luyện ........................................................................................ 34
2.2.3.1 Module phân biệt bộ phận loài thực vật với mơ hình VGG16 ....................... 34
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
iii
2.2.3.1.1 Chuẩn bị dữ liệu ....................................................................................... 35
2.2.3.1.2 Mơ hình huấn luyện VGG16 và thực hiện điều chỉnh các layers ........... 36
2.2.3.1.3 Tăng cường dữ liệu và huấn luyện ........................................................... 39
2.2.3.2 Module nhận diện lá và định danh loài thực vật với MobilenetV2 ................ 39
2.2.3.2.1 Chuẩn bị dữ liệu ....................................................................................... 40
2.2.3.2.2 Mơ hình trích xuất đặc trưng với MobileNetV2 ...................................... 41
2.2.3.2.3 Phân loại vector đặc trưng ........................................................................ 43
2.2.3.3. Module nhận diện thực thể và định danh thực vật với MobileFacenet ......... 44
2.2.3.3.1. Cơ sở áp dụng mơ hình MobileFacenet vào bài toán phân loại thực vật 45
2.2.3.3.2. Chuẩn bị dữ liệu ...................................................................................... 46
2.2.3.3.3. Xây dựng mơ hình MobileFacnet kết hợp cùng ArcFace ....................... 48
2.2.4 Đánh giá kết quả.................................................................................................... 49
2.2.4.1 Kết quả module phân biệt bộ phận lồi thực vật với mơ hình VGG16 .......... 49
2.2.4.2 Kết quả module nhận diện lá và định danh loài thực vật với MobilenetV2 ... 50
2.2.4.3 Kết quả nhận diện thực thể và định danh thực vật với MobileFacenet .......... 50
2.3 Cơ sở dữ liệu quan hệ về thực vật ............................................................................... 50
2.3.1 Thiết kế mơ hình ER ............................................................................................. 50
2.3.2 Thiết kế mơ hình dữ liệu quan hệ.......................................................................... 52
2.4 Thiết kế kiến trúc hệ thống với Microservices ............................................................ 55
CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ........................... 58
3.1 Cài đặt môi trường ....................................................................................................... 58
3.1.1 Triển khai các dịch vụ hệ thống với Docker Compose ......................................... 58
3.1.2 Triển khai API Gateway với Nginx ...................................................................... 59
3.2 Triển khai chức năng tra cứu thông tin hệ thống......................................................... 61
3.2.1 Triển khai chức năng ứng dụng Web với Vuejs ................................................... 61
3.2.2 Triển khai chức năng trên nền bản đồ ................................................................... 62
3.3 Kết quả đạt được .......................................................................................................... 63
3.3.1Chức năng chính..................................................................................................... 63
3.3.2 Chức năng tra cứu bằng hình ảnh (chụp màn hình) .............................................. 64
3.3.3 Chức năng bổ trợ (thống kê, bản đồ) .................................................................... 66
3.3.3.1 Phân hệ chức năng bản đồ nền ...................................................................... 66
3.3.3.2 Phân hệ chức năng thống kê báo cáo ............................................................. 67
3.4 Đánh giá kết quả .......................................................................................................... 69
3.4.1 Khả năng ứng dụng của các module nhận diện hình ảnh...................................... 69
3.4.2 Khả năng hệ thống thông tin vào tra cứu thực vật ................................................ 70
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
iv
KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 72
DANH MỤC TÀI LIỆU THAM KHẢO .......................................................................... 74
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
v
DANH MỤC CÁC BẢNG
Số hiệu bảng
Tên bảng
Trang
Bảng chú thích các phân hệ chức năng cho hệ thống
thông tin
27
2.2.1-1.
Thống kế số lượng dữ liệu thu thập tại Đà Nẵng
28
2.2.2-1.
Danh mục tình trạng của loài thực vật
32
2.2.2-2.
Danh mục giá trị hữu dụng của loài thực vật
32
2.2.2-3.
Danh mục dạng sống hữu dụng của lồi thực vật
33
2.2.4-1.
Đánh giá độ chính xác sau khi huấn luyện mơ hình
VGG16
50
2.2.4-2.
Đánh giá độ chính xác sau khi huấn luyện mơ hình
MobilnetV2
50
2.2.4-3.
Đánh giá độ chính xác sau khi huấn luyện mơ hình
MobileFacenet
50
2.3.1-1.
Bảng chú thích thiết kế lược đồ quan hệ cơ sở dữ liệu
thực vật
52
2.3.2-1.
Cơ sở dữ liệu quan hệ - Bảng Ngành
52
2.3.2-2.
Cơ sở dữ liệu quan hệ - Bảng Họ
53
2.3.2-3.
Cơ sở dữ liệu quan hệ - Bảng Loài
53
2.3.2-4.
Cơ sở dữ liệu quan hệ - Bảng Cây
54
2.3.2-5.
Cơ sở dữ liệu quan hệ - Bảng Hình ảnh
55
2.3.2-6.
Cơ sở dữ liệu quan hệ - Bảng Khu vực nghiên cứu
55
Bảng chú thích kiến trúc Microservices cho hệ thống
thông tin
56
3.4.1-1.
Đánh giá về độ chính xác ba giải pháp nhận diện
69
3.4.1-2.
Đánh giá về tốc độ xử lí của ba giải pháp nhận diện
70
2.1-1.
2.4-1.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
vi
DANH MỤC CÁC HÌNH
Số hiệu hình
Tên hình
Trang
Hiện trạng rừng Việt Nam năm 2019
6
Ví dụ phân tích đặc trưng thực vật bằng hình ảnh
9
1.2-1.
Ví dụ giới thiệu các cơng dụng của GIS.
12
1.2-2.
Ví dụ về lớp dữ liệu cho hệ thống thơng tin địa lí
13
Cấu trúc minh họa của một mạng nơ ron tích chập
14
1.1.1
1.1.3-1.
1.3.1-1.
Ví dụ bộ lọc tích chập được sử dụng trên ma trận điểm
1.3.1-2.
ảnh
15
1.3.1-3.
Trường hợp thêm/không thêm viền trắng vào ảnh khi tích
chập
16
1.3.1-4.
Phương thức Avarage Pooling và Max Pooling
17
1.3.2-1.
Mơ hình kiến trúc tổng thể của VGG16
18
1.3.3-1.
Khối chuyển đổi mơ hình MobileNetV2
19
1.3.3-2.
Ba lớp của MobileNetV2
19
1.3.3-3.
Mơ hình kiến trúc tổng thể của MobileNetV2.
20
1.3.4-1.
Mơ hình kiến trúc tổng thể của MobileFacenet.
22
1.3.4-2.
Mơ hình huấn luyện một mạng CNN với ArcFace.
23
1.3.4-3.
So sánh Softmax và ArcFace.
24
2.0.
Quy trình tiến hành để triển khai hệ thống thơng tin
25
2.2.1-1.
Quy trình tiến hành thu thập dữ liệu tại hiện trường
28
2.2.1-2.
Thu thập dữ liệu thông tin chi tiết về từng cá thể loài thực
vật
29
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
vii
2.2.1-3.
Thu thập dữ liệu mẫu về chi tiết về tọa độ (theo chuẩn
WGS84 và VN2000) phân bố từng cá thể loài thực vật
29
2.2.1-4.
Thu thập dữ liệu ảnh về từng cá thể lồi thực vật
29
2.2.1-5.
Dữ liệu hình ảnh 1 trên trang eol.org
30
2.2.1-6.
Kết quả tìm kiếm hình ảnh của Google khi nhập tên khoa
học của loài
31
2.2.2-1.
Dữ liệu được biên tập cho loài Quyết lá thơng
31
2.2.3-1.
Quy trình tiến hành để triển khai module định danh thực
vật bằng hình ảnh
34
2.2.3.1-1.
Các bộ phận của một loài thực vật
35
2.2.3.1-2.
Dữ liệu hoa, lá, quả, thân cây, toàn thực thể sử dụng cho
mơ hình huấn luyện VGG16
35
2.2.3.1-3.
Thống kê số lượng dữ liệu ảnh huấn luyện với mơ hình
VGG16
36
2.2.3.1-4.
Mơ phỏng kiến trúc VGG16 theo layers
36
2.2.3.1-5.
Thay thế lớp Fully Connected tùy chỉnh vào mơ hình
VGG16
37
2.2.3.1-6.
Thay Fully Connected tùy chỉnh vào mơ hình VGG16
38
2.2.3.1-7.
Trích xuất đặc trưng Hoa, Lá, Quả với mơ hình VGG16
38
2.2.3.1-8.
Mơ phỏng trích xuất đặc trưng Thân, Thực thể với mơ
hình VGG16
39
2.2.3.1-9.
Accuracy và Training Loss sau khi huấn luyện mơ hình
VGG16
39
2.2.3.2-1.
Dữ liệu Lá chuẩn bị cho mơ hình huấn luyện MobilenetV2
40
2.2.3.2-2
Thống kê số lượng dữ liệu ảnh huấn luyện với mơ hình
MobilenetV2
41
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
viii
2.2.3.2-3.
2.2.3.2-4.
Mơ phỏng phần trích chọn đặc trưng lá cây
42
Mơ phỏng trích xuất đặc trưng Lá với mơ hình
MobilenetV2
42
2.2.3.2-5.
Minh họa việc phân loại với Support Vector Machine
43
2.2.3.3-1.
Hình ảnh thực thể của lồi thực vật
44
2.2.3.3-2.
Cơ sở so sánh MobileFacenet với các mơ hình khác
45
2.2.3.3-3.
Dữ liệu Lá chuẩn bị cho mơ hình huấn luyện
MobilenetFacenet
46
2.2.3.3-4.
Thống kê số lượng dữ liệu ảnh huấn luyện với mơ hình
MobilenetFacenet
46
2.2.3.3-5.
So sánh giải pháp phân loại Softmax, Sphere, CosFace,
ArcFace
47
2.2.4-1.
Đánh giá Confusion Matrix sau khi huấn luyện mơ hình
VGG16
48
2.3.1-1
Quy trình thiết kế cơ sở dữ liệu
51
2.3.1-2
Lược đồ quan hệ cơ sở dữ liệu thực vật
51
2.3.2-1.
Thiết kế cơ sở dữ liệu hệ thống thông tin tra cứu thực vật
52
2.4-1.
Thiết kế hệ thống thông tin theo kiến trúc MicroServices
53
3.1.1-1.
Docker Containers và Virtual Machines
58
3.1.1-2.
Các dịch vụ được triển khai với Docker-compose
59
3.1.2-1.
Mô tả Nginx Webserver
60
3.1.2-2.
API Gateway với Nginx
60
3.2.1-1.
Triển khai mơ hình chức năng với ứng dụng Web
62
3.2.2-1.
Triển khai công nghệ bản đồ vào hệ thống thông tin tra
cứu thực vật
62
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
ix
3.3.1-1.
Màn hình giao diện trang chủ của hệ thống tra cứu thực
vật
64
3.3.2-1.
Tra cứu thơng tin bằng nhận diện hình ảnh
64
3.3.2-2.
Kết quả tra cứu thể hiện xác suất nhận diện
65
3.3.2-3.
Chi tiết thơng tin lồi thực vật sau khi tra cứu bằng hình
ảnh
65
3.3.2-4.
Bản đồ phân bố lồi Quyết Lá Thơng khi tra cứu bằng
hình ảnh
66
3.3.3-1.
Tra cứu theo khu vực phân bố
66
3.3.3-2.
Tra cứu theo tình trạng
67
3.3.3-3.
Thống kê theo khu vực
67
3.3.3-4.
Thống kê theo tình trạng
68
3.3.3-5.
Thống kê số lượng theo Ngành
69
3.3.3-6.
Thống kê số lượng theo Họ
69
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
x
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt
Tiếng Anh
Tiếng việt
ANN
Artificial Neural Network
Mạng nơ ron nhân tạo
CNN
Convolutional Neural Network
Mạng nơ ron tích chập
GIS
Geographic Information
Systems
Hệ thống thơng tin địa lí
SVM
Support Vector Machine
Máy vectơ hỗ trợ
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
xi
TÓM TẮT LUẬN VĂN
XÂY DỰNG HỆ THỐNG TRA CỨU THỰC VẬT RỪNG
TẠI THÀNH PHỐ ĐÀ NẴNG ỨNG DỤNG MƠ HÌNH HỌC SÂU
Học viên: Bùi Quang Thuận Chuyên ngành: Khoa học máy tính
Mã số:
Khóa: K41 Trường Đại học Bách khoa – ĐH Đà Nẵng
Tóm tắt - Việt Nam được xếp thứ 16 về mức độ đa dạng sinh học, chiếm 6.5% số lồi có trên
thế giới, nhưng thật đáng tiếc là chúng ta chưa có nhiều ứng dụng phục vụ việc khai thác thông
tin từ nguồn đa dạng sinh học này. Nhiệm vụ định danh và tra cứu thông tin của các lồi thực vật
địi hỏi phải có các chun gia chuyên ngành về quản lý thực vật, có kỹ năng đào tạo kỹ lưỡng
và kiến thức chuyên sâu. Với tầm nhìn chiến lược dài hạn đề tài này đi xa hơn, chúng tôi đã ứng
dụng và triển khai 3 giải pháp hỗ trợ tra cứu thông tin thực vật bằng hình ảnh dựa vào các mơ
hình học sâu. Thứ nhất là giải pháp biệt bộ phận loài thực vật với mơ hình VGG16, thứ hai là
giải pháp định danh lồi thực vật thơng qua lá cây với mơ hình Mobilenet và thứ ba là giải pháp
định danh loài thực vật thơng qua ảnh thực thể với mơ hình MobileFacenet. Bên cạnh đó, chúng
tơi cịn triển khai xây dựng hệ thơng tin địa lí nhằm trực quan hóa dữ liệu phân bố đa dạng sinh
học trên bản đồ nền để tạo nên một hệ thống thơng tin về thực vật hồn chỉnh trong việc hỗ trợ
tra cứu thông tin thực vật. Trong phạm vi đề tài này, chúng tôi đã tổng hợp được bộ dữ liệu bao
gồm ảnh, thông tin, tọa độ của 433 loài thực vật được thu thập từ các địa điểm trên địa bàn thành
phố Đà Nẵng như: Bán Đảo Sơn Trà, Bà Nà Núi Chúa, Ngũ Hành Sơn với sự hỗ trợ của các
chuyên gia giàu kinh nghiệm đang nghiên cứu trong lĩnh vực sinh học. Để quá trình xây dựng hệ
thống định danh và tra cứu thực vật được tốt hơn, chúng tơi cịn thu thập dữ liệu ảnh từ nhiều
nguồn khác nhau trên Internet như EoL, vncreatures.net và Bách khoa toàn thư trực tuyến về
sinh vật Việt Nam
Từ khóa - đa dạng sinh học, tra cứu thơng tin, mơ hình học sâu, hệ thống thơng tin
Abstract - Vietnam is ranked 16th in terms of biodiversity, accounting for 6.5% of the species in
the world, but unfortunately we do not have many applications for information extraction from
this biodiversity source. The task of identifying and retrieving information about plant species
requires specialized plant management experts, with thorough training skills and in-depth
knowledge. With a long-term strategic vision for this topic to go further, we have applied and
deployed 3 solutions to support image retrieval of plant information based on deep learning
models. The first is the solution to distinguish plant species with the VGG16 model, the second
is the solution to identify plant species through leaves with the Mobilenet model, and the third is
the solution to identify plant species through entity images. with the MobileFacenet model. In
addition, we also develop a geographic information system to visualize biodiversity distribution
data on the base map to create a complete plant information system in support of surveying.
plant information. Within the scope of this topic, we have synthesized a dataset including
photos, information, coordinates of 433 plant species collected from locations in Da Nang city
such as: Son Tra Peninsula , Ba Na Nui Chua, Ngu Hanh Son with the support of experienced
experts who are doing research in the field of biology. In order to make the process of building a
better plant identification and search system, we also collect image data from various sources on
the Internet such as EoL, vncreatures.net and the online encyclopedia of Vietnamese organisms.
Male
Keyword - biodiversity, information retrieval, deep learning models, information systems
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
1
MỞ ĐẦU
1. Lý do chọn đề tài
Theo các tài liệu thống kê, Việt Nam là một trong 25 nước có mức độ đa
dạng sinh học cao trên thế giới với dự tính có thể có tới 20.000-30.000 lồi thực
vật. Việt Nam được xếp thứ 16 về mức độ đa dạng sinh học, chiếm 6.5% số lồi
có trên thế giới. Theo dự đốn của các nhà thực vật học số lồi thực vật bậc cao
có mạch ít nhất sẽ lên đến 12.000 lồi, trong đó có khoảng 2.300 lồi đã được
nhân dân dùng làm nguồn lương thực, thực phẩm, thuốc chữa bệnh, thức ăn cho
gia súc, lấy gỗ, tinh dầu và nhiều nguyên vật liệu khác.
Tuy nhiên bởi sự phong phú đó mà việc định danh, tra cứu và phân bố địa
lý của một loài thực vật trên thực tế yêu cầu các chuyên gia phải có một lượng
kiến thức đầy đủ và chính xác, khơng những vậy trong q trình khảo sát các
chun gia cịn gặp nhiều khó khăn khi phải đối mặt với số lượng loài thực vật
quá nhiều và độ tương đồng về ngoại hình rất lớn.
Hiện nay trên thế giới có rất nhiều bộ cơ sở dữ liệu, các hệ thống và ứng
dụng đề cập về đa dạng tài nguyên thực vật phổ biến rộng rãi trên Internet.
Nhưng ở Việt Nam thì có rất ít thơng tin hay các ứng dụng đề cập đến vấn đề
này, và nếu có thì dữ liệu vẫn cịn rất ít, rời rạc hoặc chưa chính xác. Bên cạnh
đó, việc quản lý dữ liệu của các ứng dụng còn sơ sài, chưa đáp ứng được khả
năng cung cấp một cái nhìn tổng qt và thơng tin bổ ích đến người sử dụng. Ví
dụ như các chun gia cần tra cứu thơng tin sinh học về ngành, bộ, họ, chi,
lồi… và cơng dụng chữa bệnh hay vị trí phân bố địa lí của loài thực vật để đưa
ra các kế hoạch bảo tồn và nhân giống.
Vì vậy, việc lên kế hoạch để thu thập và hoàn thành xây dựng bộ cơ sở dữ
liệu về đa dạng thực vật là vấn đề cần thiết trong việc bảo vệ và duy trì đa dạng
sinh học ở nước ta. Khơng dừng lại ở đó, chúng tơi hướng đến việc mở rộng
hơn chủ đề này từ các dữ liệu liên quan đến đa dạng thực vật bằng việc trực
quan hóa các thơng tin, phân bố địa lí của loài thực vật trên bản đồ nền như một
hệ thống thông tin địa lý cho thực vật và một module hỗ trợ tra cứu thực vật từ
các thông tin cơ bản như tên loài, khu vực phân bố… và đặc biệt là có thể định
danh các lồi thực vật bằng hình ảnh.
Chính vì những lý do trên, tơi đề xuất triển khai đề tài “Xây dựng hệ
thống tra cứu thực vật rừng tại Thành Phố Đà Nẵng ứng dụng mơ hình học
sâu”.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
2
2. Mục đích và ý nghĩa đề tài
a. Mục đích
Đề tài “Xây dựng hệ thống tra cứu thực vật rừng tại Thành Phố Đà
Nẵng ứng dụng mơ hình học sâu” được triển khai nhằm mục đích chính và
duy nhất là xây dựng cổng thông tin đa dạng sinh học về tài nguyên thực vật.
b. Ý nghĩa khoa học
Đề tài này hoàn thành việc thu thập dữ liệu về các loài thực vật và trực
quan hóa phân bố địa lý thực vật trên bản đồ nền sẽ giúp ích rất nhiều cho các
chuyên gia, những ai đang làm việc trong lĩnh vực sinh vật học dễ dàng tra cứu
thông tin, nghiên cứu các khu hệ thực vật. Ngoài ra, đề tài này được hoàn thành
là cơ sở xây dựng kế hoạch quản lý, bảo tồn tính đa dạng sinh học, bảo vệ môi
trường và phát triển kinh tế, xã hội.
c. Ý nghĩa thực tiễn
Một ứng dụng về tra cứu thực vật thật sự là một công cụ tuyệt vời cho
sinh viên, nghiên cứu sinh và chuyên gia đang hoạt động trong lĩnh vực tài
nguyên môi trường trong việc khai thác thông tin về các khu bảo tồn thiên
nhiên, vườn quốc gia… trong thời buổi Việt Nam đang thiếu chuyên gia sinh
học và trong thời đại chuyển đổi số như hiện nay.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
Đề tài bao gồm 3 mục tiêu chính
•
Hồn thành thu thập và xây dựng bộ khung cở sở dữ liệu về đa dạng thực
vật học (bộ khung sau này có thể áp dụng cho thực vât Việt Nam)
•
Hồn thành triển khai hệ thống thơng tin địa lý về đa dạng thực vật học ở
Đà Nẵng
•
Triển khai các module định danh và tra cứu thực vật thơng qua hình ảnh
b. Nội dung thực hiện
Để đạt được mục tiêu nêu ở trên, thì đề tài đặt ra một số nội dung cơ bản
sau:
- Nội dung 1: Thu thập dữ liệu về tài nguyên đa dạng thực vật bao gồm dữ liệu
liên quan đến thông tin, phân bố địa lí và hình ảnh thực vật tại các khu bảo tồn
thiên nhiên, vườn quốc gia. Thu thập dữ liệu từ các nguồn sau:
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
3
•
•
Các chuyên gia thu thập dữ liệu (tên thực vật, hình ảnh, tọa độ) từ thực
tế.
Các phương pháp thu thập dữ liệu thực vật từ các nguồn trên Internet.
- Nội dung 2: Tổng hợp và chỉnh sửa dữ liệu thu thập được để hoàn thành bộ
CSDL đa dạng thực vật khu hệ thực vật.
•
•
•
Hình ảnh: dữ liệu hình ảnh chụp được từ thực tế hoặc thu thập từ internet
sẽ được tổ chức vào các thư mục server theo từng loại phục vụ cho việc
xây dựng module tra cứu và định danh thực vật
Tọa độ địa lý: tọa độ thập của từng loại thực vật sẽ được lưu trữ vào cơ sở
dữ liệu phù hợp để phục vụ cho việc trực quan hóa trên bản đồ nền
Thơng tin thực vật: sẽ được các chuyên gia về thực vật hiệu chỉnh về tên,
cơng dụng, chức năng, đặc điểm, sinh thái, vị trí phân bố…Hoặc tham
khảo từ liệu từ Internet.
- Nội dung 3: Xây dựng hệ thống thơng tin địa lí quản lý đa dạng thực vật tại
các khu bảo tồn thiên nhiên, vườn quốc gia. Bao gồm các chức năng sau:
•
•
Xây dựng module học máy để định danh và tra cứu thực vật với đầu vào
text (sử dụng Elasticsearch) và đầu vào hình ảnh (sử dụng module học
máy).
Xây dựng hệ thống thơng tin trên nền tảng Web với các chức năng định
danh và tra cứu thực vật. Đồng thời triển khai dữ liệu tài nguyên thực vật
trên bản đồ nền
4. Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ
giới hạn nghiên cứu các vấn đề sau:
Đối tượng:
•
Đề tài chỉ tập trung vào thực vật rừng tại thành phố Đà Nẵng.
Phạm vi:
•
Dữ liệu phân bố thực vật tại các khu bảo tồn thiên nhiên, vườn quốc gia
như bán đảo Sơn Trà, khu bảo tồn Bà Nà Núi Chúa, khu bảo tồn thiên
nhiên Nam Hải Vân
•
Tra cứu thơng tin liên quan đến thực vật
•
Các mơ hình học máy phục vụ tra cứu bằng hình ảnh.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
4
5. Phương pháp nghiên cứu
a. Phương pháp lý thuyết
•
Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.
•
Nghiên cứu các kiến thức về thực vật phục vụ cho việc thu thập dữ liệu
•
Nghiên cứu các kiến thức liên quan đến bản đồ nền MapBox, GIS…
•
Nghiên cứu các cơng nghệ để giải quyết bài tốn “Xây dựng hệ thống tra
cứu thực vật rừng tại Thành Phố Đà Nẵng ứng dụng mơ hình học
sâu”
•
Nghiên cứu các mơ hình học máy hỗ trợ tra cứu thực vật bằng hình ảnh
MobileNet, VGG16, MobiFaceNet…
b. Phương pháp thực nghiệm
•
Phân tích yêu cầu thực tế của bài toán đa dạng thực vật.
•
Thu thập dữ liệu và xây dựng chương trình thử nghiệm đa dạng thực vật
Việt Nam sử dụng hệ thống thơng tin địa lí
•
Triển khai các giải pháp tra cứu thơng tin thực vật kết hợp các mơ hình
học sâu
•
Đánh giá và hiệu chỉnh kết quả
6. Dàn ý nội dung chính
Bố cục luận văn bao gồm 03 chương chính:
CHƯƠNG 1: “TỔNG QUAN HỆ THỐNG TRA CỨU THỰC VẬT
VÀ CƠ SỞ LÝ THUYẾT” trình bày tổng quan các vấn đề và cách tiếp cận để
triển khai một hệ thống thông tin cho bài tốn tra cứu thơng tin thực vật. Tiếp
theo trình bày các cơ sở lý thuyết về phương pháp học sâu là Mạng nơ ron tích
chập và các mơ hình biến thể được sử dụng trong đề tài nghiên cứu này như
VGG16, MobilenetV2 và MobileFacenet. Và giới thiệu sơ lược về cơ sở lý
thuyết của hệ thông tin địa lý
CHƯƠNG 2: “XÂY DỰNG HỆ THỐNG TRA CỨU THỰC VẬT”
trình bày về quy trình triển khai hệ thống thơng tin tra cứu thông tin thực vật.
tthực hiện các giải pháp để thu thập dữ liệu loài thực vật rồi từng bước biên tập
thành bộ khung cơ sở dữ liệu hoàn chỉnh. Từ đó triển khai mơ hình thành ứng
dụng với các giải pháp tra cứu dựa trên nền bản đồ, tra cứu dựa trên hình ảnh,
tra cứu dựa trên dữ liệu biên tập cho hệ thống thông tin
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
5
CHƯƠNG 3: “TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT
QUẢ” trình bày về kết quả đạt được với các chỉ tiêu đề ra và quy trình ở nội
dung Chương 2. Và cuối cùng là việc thực hiện đánh giá về khả năng và tính
ứng dụng của hệ thống tra cứu thực vật.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
6
CHƯƠNG 1: TỔNG QUAN HỆ THỐNG TRA CỨU THỰC VẬT VÀ CƠ
SỞ LÝ THUYẾT
1.1. Tổng quan hệ thống tra cứu thực vật
1.1.1. Giới thiệu
Theo các tài liệu thống kê, Việt Nam là một trong 25 nước có mức độ đa
dạng sinh học cao trên thế giới với dự tính có thể có tới 20.000-30.000 lồi thực
vật. Việt Nam được xếp thứ 16 về mức độ đa dạng sinh học, chiếm 6.5% số lồi
có trên thế giới. Theo dự đốn của các nhà thực vật học số loài thực vật bậc cao
có mạch ít nhất sẽ lên đến 12.000 lồi, trong đó có khoảng 2.300 lồi đã được
nhân dân dùng làm nguồn lương thực, thực phẩm, thuốc chữa bệnh, thức ăn cho
gia súc, lấy gỗ, tinh dầu và nhiều nguyên vật liệu khác. Số liệu Hình 1.1.1 được
lấy từ Bộ Nơng nghiệp và Phát triển nông thôn công bố hiện trạng rừng tồn
quốc năm 2019. Theo đó, tính đến ngày 31/12/2019, diện tích đất rừng tồn
quốc là 14.609.220 ha.
Hình 1.1.1 Hiện trạng rừng Việt Nam năm 2019
Tuy nhiên bởi sự phong phú đó mà việc định danh, tra cứu và phân bố địa
lí của một lồi thực vật trên thực tế yêu cầu các chuyên gia phải có một lượng
kiến thức đầy đủ và chính xác, khơng những vậy trong q trình khảo sát các
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
7
chun gia cịn gặp nhiều khó khăn khi phải đối mặt với số lượng loài thực vật
quá nhiều và độ tương đồng về ngoại hình rất lớn.
Hiện nay trên thế giới có rất nhiều bộ cơ sở dữ liệu, các hệ thống và ứng
dụng đề cập về đa dạng tài nguyên thực vật phổ biến rộng rãi trên Internet.
Nhưng ở Việt Nam thì có rất ít thơng tin hay các ứng dụng đề cập đến vấn đề
này, và nếu có thì dữ liệu vẫn cịn rất ít, rời rạc hoặc chưa chính xác. Bên cạnh
đó, việc quản lí dữ liệu của các ứng dụng còn sơ sài, chưa đáp ứng được khả
năng cung cấp một cái nhìn tổng quát và thơng tin bổ ích đến người sử dụng. Ví
dụ như các chuyên gia cần tra cứu thông tin sinh học về ngành, bộ, họ, chi,
lồi… và cơng dụng chữa bệnh hay vị trí phân bố địa lí của lồi thực vật để đưa
ra các kế hoạch bảo tồn và nhân giống.
Vì vậy, việc lên kế hoạch để thu thập và hoàn thành xây dựng bộ cơ sở dữ
liệu về đa dạng thực vật là vấn đề cần thiết trong việc bảo vệ và duy trì đa dạng
sinh học ở nước ta. Khơng dừng lại ở đó, chúng tơi hướng đến việc mở rộng
hơn chủ đề này từ các dữ liệu liên quan đến đa dạng thực vật bằng việc trực
quan hóa các thơng tin, phân bố địa lí của lồi thực vật trên bản đồ nền như
một hệ thống thông tin địa lí cho thực vật và một module hỗ trợ tra cứu thực vật
từ các thông tin cơ bản như tên loài, khu vực phân bố… và đặc biệt là có thể
định danh các lồi thực vật bằng hình ảnh.
Chính vì những lý do trên, chúng tơi đề xuất triển khai đề tài “Xây dựng
hệ thống tra cứu thực vật tại Thành phố Đà Nẵng ứng dụng mơ hình học
sâu”. Trong phạm vi đề tài này, chúng tôi cho triển khai tại thành phố Đà Nẵng
trước tiên và sẽ mở rộng cho các tỉnh thành khác của Việt Nam trong tương lai.
1.1.2. Bài toán tra cứu thực vật
Hệ thực vật Việt Nam rất phong phú nên việc ghi nhớ các loài thực vật rất
phức tạp. Việc quản lý và lưu trữ một cách có hệ thống những lồi thực vật đã
gặp sẽ hỗ trợ tích cực cho việc tiếp cận tính đa dạng của một hệ thực vật nói
chung và hệ thực vật Việt Nam nói riêng. Và việc tra cứu định danh lồi là cơng
việc diễn ra thường xuyên đối với những người làm trong lĩnh vực sinh học. Để
xây dựng được các giải pháp tra cứu thông tin thực vật chúng ta cần phải có
kiến thức về giới thực vật để công việc “Xếp Loại” và “Định Danh” thực vật đạt
được độ chính xác cao nhất. Xếp loại là việc đặt thực vật được biết đến vào
nhóm hoặc thể loại để hiển thị một số mối quan hệ. Định danh thực vật sau đó
tuân theo một hệ thống các quy tắc được tiêu chuẩn hóa các kết quả, và tiếp tục
gộp các thể loại đã được xếp vào một hệ thống phân cấp. Việc định danh thực
vật tạo ra một hệ thống được cấu trúc để đặt tên và xếp danh mục cho các loài
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
8
được phát hiện, và trong trường hợp lý tưởng nó phản ánh các ý tưởng khoa học
về mối quan hệ giữa các lồi thực vật. Từ đó, việc tra cứu thơng tin định danh
thực vật có thể dùng nhiều giải pháp khác nhau như sử dụng tên để tìm kiếm và
định danh thơng qua hình ảnh …
Định danh thực vật là việc tìm hiểu sự giống nhau và khác nhau của thực
vật rồi xếp chúng thành cấp bậc phân loại theo trật tự nhất định. Người ta phân
chia thực vật thành các bậc phân loại từ cao đến thấp theo trật tự sau: Ngành Lớp - Bộ - Họ - Chi - Loài. Loài là bậc phân loại cơ sở. Bậc càng thấp thì sự
khác nhau giữa các thực vật cùng bậc càng ít. Như vậy, lồi là tập hợp của
những cá thể có nhiều đặc điểm giống nhau về hình dạng, cấu tạo… Hai mục
tiêu chính của phân loại thực vật là xác định và xếp loại thực vật. Sự khác biệt
giữa hai mục tiêu này là quan trọng và thường bị bỏ qua. Xác định thực vật là
việc xác định danh tính của một thực vật chưa biết bằng cách so sánh với mẫu
vật thu thập được trước đó hoặc với sự trợ giúp của sách hoặc hướng dẫn định
danh dựa vào các đặc điểm cụ thể. Quá trình xác định sẽ liên kết mẫu với một
tên xuất bản. Khi một mẫu thực vật đã được xác định, tên và thuộc tính của nó
được biết đến. Bài tốn phân loại thực vật kèm theo các khó khăn riêng của như:
số lượng khổng lồ về chủng loại thực vật theo mùa, vùng miền, địa hình… với
vơ số loại thực vật có hình dáng, màu sắc, kết cấu giống nhau, dải biến thiên
màu sắc theo chu kỳ phát triển của cây từ lúc là mầm cho đến khi trưởng thành,
hay sự đa dạng về hình dạng của cùng một loại cây do ảnh hưởng của thời tiết,
điều kiện thổ nhưỡng và chế độ dinh dưỡng…
➢ Sử dụng công cụ tra cứu để định danh thực vật
Công cụ tra cứu thực vật là 1 giải pháp cho phép người dùng sử dụng
ngân hàng dữ liệu để quản lý và tra cứu dữ liệu đa dạng thực vật của một đơn vị
địa lý hoặc của một cá nhân. Giúp người sử dụng tra cứu và xác định giới thực
vật, đồng thời thực hiện các thống kê đa dạng thực vật cho các nhóm được chọn
hoặc tồn bộ ngân hàng dữ liệu
➢ Sử dụng giải pháp tra cứu và định danh thực vật bằng hình ảnh
Định danh vật thể trong ảnh được coi là bài toán cơ bản nhất trong lĩnh
vực thị giác máy tính, là nền tảng cho rất nhiều bài tốn mở rộng khác như bài
toán phân lớp, định vị, tách biệt vật thể.... Tuy bài toán cơ bản này đã tồn tại
hàng thế kỷ nhưng con người vẫn chưa thể giải quyết nó một cách triệt để, do
tồn tại rất nhiều khó khăn để máy tính có thể hiểu được các thơng tin trong một
bức ảnh. Những khó khăn tiêu biểu có thể kể đến: sự đa dạng điểm nhìn, sự đa
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
9
dạng kích thước, điều kiện ánh sáng khác biệt, sự ẩn giấu vật thể sau các đối
tượng khác trong ảnh, sự lẫn lộn với nền và sự đa dạng về chủng loại vật thể…
1.1.3. Tra cứu thực vật bằng hình ảnh
Bài tốn tra cứu thực vật bằng hình ảnh hay phân loại thực vật đã xuất
hiện từ lâu và đã có rất nhiều bài báo, cơng trình khoa học được đưa ra nhằm đề
xuất hoặc cải tiến các thuật toán cũ. Trong đó, xuất hiện sớm nhất là các phương
pháp xử lý ảnh. các phương pháp này tập trung vào phát triển các thuật tốn
nhằm trích xuất tin, ví dụ như các tham số về màu sắc, hình dạng, kết cấu, kích
thước, …từ bức ảnh đầu vào để phân loại thực vật. Tham khảo Hình 1.1.3-1
được trích từ [1]:
Hình 1.1.2 Ví dụ phân tích đặc trưng thực vật bằng hình ảnh
Do chỉ đơn thuần xử lý trên một vài ảnh đầu vào trong khi sự biến thiên
về màu sắc, hình dạng, kích thước…của các lồi thực vật lại phức tạp, kết quả
đạt được của phương pháp này không được cao và phạm vi áp dụng trên số loài
thực vật cũng hạn chế.
Bắt đầu từ những năm 2000, sau khi xuất hiện một bài báo khoa học đề
xuất áp dụng học máy vào bài toán phân loại thực vật với độ chính xác cao,
hướng giải quyết bài tốn đã tập trung vào sử dụng và cải tiến các thuật toán
học máy, cụ thể là nghiên cứu, thử nghiệm trích chọn đặc trưng phù hợp nhất để
đưa vào huấn luyện cho bộ nhận dạng tự động. Trong thời kỳ đầu, các nhà
nghiên cứu toàn cầu đã sử dụng lá như một đặc điểm vật lý tiêu chuẩn để phân
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
10
biệt giữa các loài khác nhau, sử dụng các đặc điểm về kết cấu, hình dạng và
màu sắc [2-4]. Nam và cộng sự [5,6] đã đề xuất một phương pháp tìm kiếm dựa
trên hình dạng trong hệ thống định danh thực vật của họ. Bằng cách sử dụng
không chỉ đường viền lá mà còn cả dữ liệu đường vân của chúng, họ đã cố gắng
nâng cao độ chính xác bằng cách sử dụng thuật toán Đa giác chu vi tối thiểu
(MPP) và Không gian tỷ lệ cong mở rộng (CSS). Đào tạo về tập dữ liệu bao
gồm 1.032 hình ảnh lá cây, một biểu đồ có trọng số đã được trình bày và mang
lại tỷ lệ chính xác tích cực. Một thuật toán định danh cây khác đã được đề xuất
bởi Aakif và cộng sự [7] bằng cách tiến hành ba bước, từ tiền xử lý đến chiết
xuất và phân loại. Họ đã sử dụng Mạng nơ-ron nhân tạo (ANN) để phân loại các
đặc điểm hình thái lá, mơ tả Fourier và hình dạng. Các thuật tốn đã đạt được độ
chính xác hơn 96% trên 817 mẫu lá khác nhau từ 14 cây ăn quả.
Trong [8], Wang-Su và đồng nghiệp của ông đã đưa ra một phương pháp
mới để phân loại các lá bằng cách sử dụng mơ hình Mạng nơ ron tích chập
(CNN) và hai mơ hình cịn lại bằng cách sử dụng GoogleNet để điều chỉnh độ
sâu của mạng. Các mơ hình này đạt được hơn 94% trong trường hợp cao nhất,
ngay cả khi lá thử nghiệm bị hư hỏng 30%. Có thể nhận thấy rằng hầu hết các
nghiên cứu đã đề cập đều tập trung vào việc sử dụng các đặc điểm hình ảnh thủ
cơng để xác định thực vật; tuy nhiên, chúng bị hạn chế chung theo cách tiếp cận
này. Nhiễu và nền là những yếu tố ảnh hưởng đến việc thể hiện hình ảnh ở mức
độ thấp trên hầu hết các tính năng được làm thủ công này. Carranza-Rojas và
Mata-Montero (2016) đã tạo ra một tác phẩm để chứng minh quan hệ của nhiễu
và nền, trong đó họ tạo ra hai bộ dữ liệu: một bộ sạch và một bộ nhiễu [9]. Các
kết quả đã tính tốn rằng các số liệu sạch vượt trội so với số liệu nhiễu bởi ít
nhất 7,3%. Kết quả này tun bố rằng hình ảnh được xử lý thủ cơng trong
phịng thí nghiệm và sau đó được phân loại tạo ra mức độ chính xác đạt yêu cầu
cao hơn so với hình ảnh được chụp trực tiếp trên điện thoại thơng minh. Do đó,
để áp dụng trong thực tế, việc sử dụng các hình ảnh đầu vào rất sạch mà khơng
có bất kỳ nền nào mà các tác giả đã đề cập đã áp dụng là một thách thức. Vì lý
do này, để đạt được hiệu quả cao hơn trong việc định danh và truy xuất hình ảnh
thực vật trong thế giới thực, địi hỏi phải thiết kế một hình ảnh ở mức độ cao và
ít bị ảnh hưởng bởi môi trường.
Nhiều nhà nghiên cứu đã tập trung về mặt lý thuyết và thực tế vào ứng
dụng này [10, 11]. Áp dụng mười hai đặc điểm hình thái của bộ dữ liệu hình
ảnh tự nhiên từ 20 lồi, Du và cộng sự (2007) [12] đạt độ chính xác 93% trong
hệ thống đề xuất của họ bằng cách sử dụng bộ phân loại k láng giềng gần nhất.
Trong năm 2009, họ đạt 92,35% về tỷ lệ công nhận trên một tập dữ liệu lớn hơn
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
11
về 2000 hình ảnh mơi trường từ 20 loại lá khác nhau [13]. Một cách tiếp cận
mới đã được họ đề xuất vào năm 2013, dựa trên các đặc điểm kích thước Fractal
của hình dạng và các kiểu vân của lá [14]. Cuối cùng, họ đã đạt được độ chính
xác 87,1% trong hệ thống định danh thực vật của họ với k láng giềng gần nhất
bằng cách sử dụng 20 tính năng. Trong nỗ lực tạo ra một bộ dữ liệu hình ảnh
thực vật trong mơi trường tự nhiên, Yu và cộng sự [15] đã chụp 10.000 hình ảnh
bằng điện thoại di động của 100 loài cây cảnh mọc xung quanh khuôn viên Đại
học Lâm nghiệp Bắc Kinh để xây dựng bộ dữ liệu BJFU100. Một hệ thống định
danh thực vật khơng kiểm sốt được tạo ra trên mơ hình học sâu 26 lớp, sử dụng
tám khối xây dựng còn lại. Cuối cùng họ đã đạt tới 91,78% trong tỷ lệ định
danh trên tập dữ liệu hình ảnh tự nhiên của các loài thực vật.
Trong những năm gần đây, nhờ sự phát triển vượt bậc về sức mạnh tính
tốn của máy tính cũng như sự bùng nổ dữ liệu trên internet, học sâu đã đạt
được nhiều thành tựu đáng kể trong lĩnh vực xử lý ảnh và xử lý ngôn ngữ tự
nhiên. Học sâu cũng đã áp dụng thành công vào bài toán phân loại thực vật và
bước đầu đã đạt được một số kết quả kinh ngạc.
1.2 Hệ thống thơng tin địa lí
Hệ thống thơng tin địa lý [26] (viết tắt của cụm từ tiếng Anh Geographic
Information Systems - GIS) là một cơng cụ tập hợp những quy trình dựa trên
máy tính để lập bản đồ, lưu trữ và thao tác dữ liệu địa lý, phân tích các sự vật
hiện tượng thực trên trái đất, dự đoán tác động và hoạch định chiến lược
Một tập hợp có tổ chức của phần cứng, phần mềm, cơ sở dữ liệu và con
người được thiết kế để thu nhận, lưu trữ, cập nhật, thao tác phân tích làm mơ
hình và hiển thị tất cả các dạng thơng tin địa lý có quan hệ không gian nhằm
giải quyết các vấn đề về quản lý và quy hoạch. GIS sẽ làm thay đổi đáng kể tốc
độ mà thông tin địa lý được sản xuất, cập nhật và phân phối. GIS cũng làm thay
đổi phương pháp phân tích dữ liệu địa lý, hai ưu điểm quan trọng của GIS so
với bản đồ giấy là dễ dàng cập nhật thông tin không gian và tổng hợp hiệu quả
nhiều tập hợp dữ liệu thành một cơ sở dữ liệu kết hợp.
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ
12
Hình 1.2-1. Ví dụ giới thiệu các cơng dụng của GIS.
GIS lưu giữ thông tin về thế giới thực dưới dạng tập hợp các lớp chuyên
đề có thể liên kết với nhau nhờ các đặc điểm địa lý. Điều này đơn giản nhưng
vô cùng quan trọng và là một công cụ đa năng đã được chứng minh là rất có giá
trị trong việc giải quyết nhiều vấn đề thực tế, từ thiết lập tuyến đường phân phối
của các chuyến xe, đến lập báo cáo chi tiết cho các ứng dụng quy hoạch, hay mơ
phỏng sự lưu thơng khí quyển tồn cầu. GIS giúp tham khảo các thông tin địa lý
như kinh độ, vĩ độ hoặc toạ độ lưới quốc gia, hoặc chứa những tham khảo địa lý
ẩn như địa chỉ, mã bưu điện, tên vùng điều tra dân số, bộ định danh các khu vực
rừng hoặc tên đường... Các tham khảo địa lý cho phép định vị đối tượng như
khu vực rừng hay địa điểm thương mại và sự kiện trên bề mặt quả đất phục vụ
mục đích phân tích. Ứng dụng của GIS được áp dụng trong nhiều ngành như:
Mơi trường, Khí tượng thuỷ văn, Nơng nghiệp, Quản lý đất đai, Y tế, Giao
thông…
Chúng tôi hiểu được những giá trị và khả năng GIS có thể giải quyết để
ứng dụng trong hệ thống tra cứu thực vật. Cần phải hiểu tra cứu thơng tin thực
vật đóng vai trị rất quan trọng trong nhiệm vụ bảo tồn tính đa dạng sinh học
(ĐDSH) ngày nay trên phạm vi toàn thế giới. "Khơng khí mà chúng ta thở, thức
ăn mà chúng ta ăn, những giọt nước mà chúng ta uống đều có từ đa dạng sinh
học." (Global Marine Biological Divesity, 1993). Qua đó chúng ta thấy được giá
trị to lớn của ĐDSH đối với đời sống của con người là như thế nào. Nghiên cứu
về ĐDSH hiện nay là một vấn đề có tính chiến lược, đảm bảo sự sống cịn của
trái đất, trong đó đa dạng thực vật chiếm vị trí hàng đầu vì thực vật có vai trị
quyết định tồn bộ sự sống còn của các sinh vật khác [16]. Việt Nam là một
quốc gia có vị trí địa lý đặc biệt, với khí hậu gió mùa và có điều kiện tự nhiên
đa dạng, kéo dài trên 15 vĩ độ. Các dãy núi trải mì nh theo hướng Tây Bắc-
THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG.
Lưu hành nội bộ