Tải bản đầy đủ (.docx) (69 trang)

Nghiên cứu mạng nơ ron tích chập và ứng dụng xây dựng mô hình camera chống trộm thông minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.73 MB, 69 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

--------------

ĐỖ QUANG NGỌC

NGHIÊN CỨU MẠNG NƠ - RON TÍCH CHẬP VÀ
ỨNG DỤNG XÂY DỰNG MƠ HÌNH CAMERA
CHỐNG TRỘM THÔNG MINH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG, 2024BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN
--------------
ĐỖ QUANG NGỌC

NGHIÊN CỨU MẠNG NƠ - RON TÍCH CHẬP VÀ
ỨNG DỤNG XÂY DỰNG MƠ HÌNH CAMERA
CHỐNG TRỘM THÔNG MINH

Chuyên ngành: Khoa học máy tính
Mã số: 848 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. PHẠM VĂN TRUNG

ĐÀ NẴNG, 2024


i

LỜI CẢM ƠN

Trước tiên, tơi xin được bày tỏ lịng cảm ơn chân thành đến thầy giáo
hướng dẫn TS. Phạm Văn Trung, người đã tận tình dẫn dắt, truyền đạt kinh
nghiệm, trí thức và tạo mọi điều kiện tốt nhất để tơi có thể nghiên cứu và hồn
thành luận văn này.

Tôi xin chân thành cảm ơn Quý Thầy, Cô trường Đại học Duy Tân đã
giảng dạy cho tơi trong suốt khóa học, những người đã truyền đạt cho tôi
những tri thức mới, phương pháp và kinh nghiệm trong cách tiếp cận tri thức
mới, phương pháp nghiên cứu khoa học và ứng dụng các kết quả nghiên cứu
vào đời sống xã hội.

Xin được cảm ơn ban giám hiệu Trường TH Sơn Hạ số 1- tỉnh Quảng
Ngãi, tất cả q thầy/cơ trong trường đã tạo mọi điều kiện để tôi được đi học
và hồn thành tốt khố học.

Xin chân thành cảm ơn các anh chị lớp cao học Khoa học máy tính khố
K24MCS.2 tại Quảng Ngãi và các bạn đồng nghiệp đã luôn bên cạnh, động
viên, khuyến khích tơi trong suốt thời gian học tập và thực hiện đề tài.

Cuối cùng tôi muốn dành lời cảm ơn sâu sắc nhất đến gia đình tơi, những
người ln dành cho tơi những lời động viên, những hỗ trợ kịp thời nhất giúp
tơi hồn thành tốt luận văn này.

Xin chân thành cảm ơn.
Học viên


Đỗ Quang Ngọc

ii

LỜI CAM DOAN

Tôi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi, dưới sự
hướng dẫn của thầy TS. Phạm Văn Trung. Các số liệu và kết quả nghiên cứu
nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ một
cơng trình nào khác.

Học viên

Đỗ Quang Ngọc

iii

MỤC LỤC

LỜI CẢM ƠN....................................................................................................i
LỜI CAM DOAN.............................................................................................ii
MỤC LỤC.......................................................................................................iii
DANH MỤC CÁC TỪ VIẾT TẮT.................................................................vi
DANH MỤC HÌNH ẢNH..............................................................................vii
DANH MỤC BẢNG.......................................................................................vii
MỞ ĐẦU...........................................................................................................1

1. Lý do chọn đề tài:.......................................................................................1
2. Mục đích nghiên cứu:..................................................................................1
3. Nhiệm vụ nghiên cứu:.................................................................................1

4. Đối tượng và phạm vi nghiên cứu:...............................................................2
5. Phương pháp nghiên cứu:............................................................................2
6. Bố cục của luận văn:...................................................................................2
Chương 1. TỔNG QUAN VỀ DEEP-LEARNING.........................................4
1.1. Giới thiệu tổng quan về Deep-Learning....................................................4
1.2. Mơ hình hoạt động của Deep-Learning.....................................................6
1.3. Một số mơ hình Deep-Learning trong nhận dạng đối tượng.....................10

1.3.1. YOLO (You Only Look Once).....................................................10
1.3.2. Faster R-CNN (Region-based Convolutional Neural Network):. .11
1.3.3. SSD (Single Shot MultiBox Detector)..........................................11
1.3.4. Mask R-CNN................................................................................12
1.3.5. RetinaNet.......................................................................................12
1.3.6. EfficientDet...................................................................................13
1.4. Một số ứng dụng kỹ thuât Deep-Learning...............................................13
1.4.1. Ứng dụng xe tự động.....................................................................13

iv

1.4.2. Trợ lý ảo........................................................................................14
1.4.3. Mơ phỏng và nhận diện hình ảnh..................................................14
1.4.4. Tính năng dịch tự động.................................................................14
1.5. Tổng kết chương....................................................................................15
Chương 2. MẠNG NƠ-RON TÍCH CHẬP VÀ ỨNG DỤNG......................16
2.1. Mạng Nơ-ron nhân tạo..........................................................................16
2.1.1. Giới thiệu tổng quan về mạng nơ-ron nhân tạo.............................16
2.1.2. Cấu trúc mạng nơ-ron nhân tạo.....................................................16
2.1.3. Một số hàm kích hoạt phổ biến.....................................................17
2.1.4. Kiến trúc mạng nơ-ron nhân tạo....................................................20
2.1.5. Huấn luyện mạng..........................................................................22

2.2. Mạng nơ-ron tích chập...........................................................................23
2.2.1. Tổng quan về mạng nơ-ron tích chập............................................23
2.2.2. Lý thuyết mạng tích chập..............................................................24
2.2.3. Kiến trúc mạng nơ-ron tích chập...................................................25
2.3. Một số tham số ảnh hưởng trong mạng nơ-ron tích chập.........................28
2.3.1. Các chiều của một bộ lọc.........................................................................28
2.3.2. Độ trượt S (Stride)......................................................................................29
2.3.3. Zero-padding...............................................................................................29
2.3.4. Một số hàm kích hoạt sử dụng trong mạng nơ-ron tích chập..........30
2.4. Ứng dụng mạng nơ-ron tích chập............................................................30
2.5. Tổng kết chương....................................................................................33

Chương 3: MƠ HÌNH CAMERA CHỐNG TRỘM THƠNG MINH DỰA
TRÊN MẠNG NƠ-RON TÍCH CHẬP..........................................................34

3.1. Giới thiệu tổng quan...............................................................................34
3.2. Giới thiệu về thiết bị Rasberry Pi, modun tạo Camera chống trộm...........34

3.2.1. Tổng quan về Rasberri Pi.........................................................................34

v

3.2.2. Nhận dạng đối tượng dựa trên Rasberry Pi..........................................35
3.3. Mơ hình cảnh báo trộm dựa trên mạng nơ-ron tích chập..........................37

3.3.1.Mơ hình cảnh báo trộm khi hệ thống phát hiện có người trong vùng
quan sát.....................................................................................................................37
3.3.2. Mơ hình theo dõi đối tượng trong vùng quan sát...............................41
3.4. Mơ hình huấn luyện và tập dữ liệu..........................................................44
3.4.1. Mơ hình huấn luyện...................................................................................44

3.4.2. Bộ dữ liệu coco được sử dụng để dị tìm và phát hiện đối tượng. .47
3.5. Cài đặt thực nghiệm...............................................................................47
3.6. Tổng kết chương....................................................................................50
KẾT LUẬN.....................................................................................................51
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

Từ viết tắt vi
CNNs
COCO DANH MỤC CÁC TỪ VIẾT TẮT
MLP
R-CNN Giải thích
SSD Convolutional Neural Network: Mạng nơ-ron tích chập
YOLO Common Objects in Context
Multi layer perceptron
Region-based Convolutional Neural Network
Single Shot MultiBox Detector
You Only Look Once

vii

DANH MỤC BẢNG

Bảng 2.1: Bảng so sánh 2 phương pháp gộp max pooling và average pooling.....27
Bảng 2.2: Một số phương pháp Zero-padding....................................................29
Bảng 2.3: Các nhóm thuật tốn CNNs...............................................................31
Bảng 2.4: Phương pháp định vị và phát hiện đặc trưng phức tạp của đối tượng...32

viii


DANH MỤC HÌNH ẢNH

Hình 1.1: Kiến trúc mơ hình nhận dạng đối tượng Machine-Learning và Deep-
Learning.............................................................................................................8
Hình 1.2: Mơ hình nhận dạng đối tượng với YOLO...........................................10
Hình 1.3: Mơ hình nhận dạng đối tượng với Faster R-CNN...............................11
Hình 1.4: Mơ hình nhận dạng đối tượng với SSD..............................................11
Hình 1.5: Mơ hình nhận dạng với Mask R-CNN................................................12
Hình 1.6: Mơ hình nhận dạng với RetinaNet......................................................12
Hình 1.7: Mơ hình nhận dạng đối tượng với EfficientDet...................................13
Hình 2.1: Mơ hình nơ-ron nhân tạo k [5]...........................................................17
Hình 2.2: Đồ thị hàm ngưỡng............................................................................17
Hình 2.3: Đồ thị hàm ReLU..............................................................................18
Hình 2.4: Đồ thị hàm Logistic sigmoid..............................................................18
Hình 2.5: Đồ thị hàm Hyperbolic Tangent.........................................................19
Hình 2.6: Ví dụ minh họa giá trị đầu vào và giá trị đầu ra hàm Softmax.............20
Hình 2.7: Mơ hình mạng MLP..........................................................................20
Hình 2.8: Mơ hình mạng MLP truyền thẳng......................................................21
Hình 2.9: Mơ hình mạng truyền ngược..............................................................22
Hình 2.10: Q trình trượt theo chiều rộng W1...................................................24
Hình 2.11: Cấu trúc mạng nơ-ron tích chập (Nguồn Mathworks.com)................26
Hình 2.12: Mơ hình làm phẳng dữ liệu và kết nối đến mạng nơ-ron kết nối đầy đủ
.........................................................................................................................28
Hình 2.13: Mơ hình áp dụng bộ lọc K có kích thước K x K lên dữ liệu vào........28
Hình 2.14: Mơ hình xác định hộp đối tượng trong mạng R-CNNs......................32
Hình 3.1: Mơ hình cảnh báo trộm khi phát hiện người trong vùng quan sát........37
Hình 3.2: Mơ hình phát hiện đối tượng sử dụng mạng YOLO............................41

ix


Hình 3.3: Mơ hình theo dõi đối tượng trong vùng quan sát.................................41
Hình 3.4: Mơ hình huấn luyện và dự đốn nhãn, khung bao đối tượng...............45
Hình 3.5: Camera chống trộm dựa trên Raspberry Pi và Camera Pi v2...............47
Hình 3.6: Hệ thống lưu và theo dõi đối tượng “Cell phone”...............................48
Hình 3.7: Hệ thống phát cảnh báo khi đối tượng giám sát ra khỏi vùng giám sát.49
Hình 3.8: Vùng quan sát của hệ thống camera giám sát thông minh khơng có đối
tượng người......................................................................................................49
Hình 3.9: Vùng quan sát của hệ thống camera giám sát thơng minh có đối tượng
người và hệ thống phát cảnh báo.......................................................................50

1

MỞ ĐẦU

1. Lý do chọn đề tài:
Mạng nơ-ron tích chập (CNNs – Convolutional Neural Network) là một trong

những mô hình Deep Learning hiện đại, cho phép xây dựng các ứng dụng thông
minh như hệ thống xử lý ảnh lớn của Facebook, Google hay Amazon; đã đưa vào
sản phẩm của họ những chức năng thông minh như nhận diện khuôn mặt người
dùng, phát triển xe hơi tự lái. CNNs được sử dụng nhiều trong các bài tốn nhận
dạng các đới tượng trong ảnh. CNNs được áp dụng vào giải nhiều bài toán thị giác
máy tính như bài toán nhận diện biển số xe, bài toán nhận diện khuôn mặt, bài toán
phân lớp đối tượng, …với độ chính xác cao.

Deep-learning được nhiều nhà nghiên cứu quan tâm và ứng dụng vào nhiều
bài toán thực tế như hệ thống kiểm soát an ninh vào ra, hệ thống cảnh báo và phát
hiện tội phạm, hệ thống lái tự động, …

Hiện nay, trên thị trường bán nhiều chủng loại thiết bị cảnh báo trộm như cảm

biến chống trộm, camera chống trộm, …Tuy nhiên, các thiết bị này hoạt động dựa
trên hoạt động của cảm biết hồng ngoại hoặc cảm biết nhiệt. Do đó, khi có vật
không phải là người đi vào vùng cảm biến, các thiết bị đều phát cảnh báo. Với lý do
trên, tôi chọn đề tài “Nghiên cứu mạng nơ-ron tích chập và ứng dụng xây dựng mơ
hình camera chống trộm thơng minh”. Mơ hình camera chống trộm của đề tài dựa
trên dữ liệu thực nhận từ camera gắn trên Rasberry Pi 4, sử dụng mạng mạng nơ-ron
tích chập để huấn luyện, nhận dạng người trong vùng quan sát và đưa ra cảnh báo.
2. Mục đích nghiên cứu:

Nghiên cứu mạng nơ-ron tích chập nhằm mục đích mở rộng kiến thức của bản
thân về các mơ hình học sâu trong trí tuệ nhân tạo. Đồng thời tìm hiểu và ứng dụng
mơ hình học sâu vào trong bài toán thực tế của đời sống xã hội, cụ thể là ứng dụng
mạng nơ-ron tích chập vào xây dựng mơ hình camera chống trộm thơng minh.
3. Nhiệm vụ nghiên cứu:

- Nghiên cứu mạng nơ-ron tích chập.
- Nghiên cứu nhận dạng đối tượng dựa trên mạng nơ-ron tích chập.

2

- Nghiên cứu huấn luyện tập dữ liệu nhận dạng đối tượng cho mạng nơ-ron
tích chập.

- Ứng dựng mạng nơ-ron tích chập vào nhận dạng các đối tượng qua camera.

4. Đối tượng và phạm vi nghiên cứu:
- Đối tượng nghiên cứu: Mạng nơ-ron tích chập và ứng dụng trong nhận
dạng, phát hiện đối tượng, mạng YOLOv3.
- Phạm vi nghiên cứu: Mạng nơ-ron tích chập, mạng YOLOv3 và ứng dụng.


5. Phương pháp nghiên cứu:
- Nghiên cứu tài liệu: thu thập tìm kiếm các tài liệu có liên quan đến lĩnh vực và đối
tượng cần nghiên cứu; các giải pháp liên quan đã được nghiên cứu và đề xuất trước
đó.
- Phương pháp nghiên cứu thực nghiệm: Nghiên cứu mạng nơ-ron tích chập,
mạng YOLOv3, Rasberry PI 4, từ đây đề xuất mô hình ứng dụng mạng nơ-
ron tích chập để xây dựng mơ hình cảm báo trộm thơng minh.

6. Bố cục của luận văn:
TÊN ĐỀ TÀI: “NGHIÊN CỨU MẠNG NƠ-RON TÍCH CHẬP VÀ ỨNG

DỤNG XÂY DỰNG MƠ HÌNH CAMERA CHỐNG TRỘM THÔNG MINH”.
PHẦN MỞ ĐẦU
PHẦN NỘI DUNG
CHƯƠNG I: TỔNG QUAN VỀ DEEP-LEARNING
1.1. Giới thiệu tổng quan về Deep-Learning
1.2. Mơ hình hoạt động của Deep-Learning
1.3. Một số ứng dụng kỹ thuât Deep-Learning
1.4. Tổng kết chương
CHƯƠNG II: MẠNG NƠ-RON TÍCH CHẬP VÀ ỨNG DỤNG
2.1. Giới thiệu tổng quan về mạng nơ-ron tích chập
2.2. Lý thuyết mạng nơ-ron tích chập
2.3. Kiến trúc mạng nơ-ron tích chập
2.4. Một số tham số ảnh hưởng đến mạng nơ-ron tích chập

3

2.5. Ứng dụng mạng nơ-ron tích chập
2.6. Tổng kết chương
CHƯƠNG III: ứng dụng xây dựng mơ hình kiểm sát an ninh qua camera

3.1. Giới thiệu tổng quan
3.2. Mơ hình giám sát an ninh dựa trên mạng nơ-ron tích chập
3.3. Mơ hình huấn luyện và tập dữ liệu
3.4. Cài đặt thực nghiệm
3.5. Tổng kết chương
KẾT LUẬN

4

Chương 1. TỔNG QUAN VỀ DEEP-LEARNING

1.1. Giới thiệu tổng quan về Deep-Learning
Deep Learning (Học sâu) là một nhánh của Machine Learning (Học máy) sử

dụng các mạng nơ-ron nhân tạo (neural network) để học từ dữ liệu. Các mạng nơ-
ron này được mô phỏng theo cấu trúc và chức năng của não bộ con người, bao gồm
nhiều lớp nơ-ron kết nối với nhau. Deep Learning đã tạo ra một cuộc cách mạng
trong lĩnh vực trí tuệ nhân tạo và được ứng dụng rộng rãi trong nhiều lĩnh vực, bao
gồm xử lý ngôn ngữ tự nhiên, thị giác máy tính, xử lý âm thanh, dự đốn chuỗi thời
gian, và nhiều ứng dụng khác.

Dưới đây là một số đặc điểm quan trọng của Deep Learning:
Kiến trúc mạng neuron sâu: Deep Learning sử dụng các mạng neuron nhân tạo
với nhiều lớp (hay còn gọi là mạng neuron sâu). Mỗi lớp có thể chứa nhiều neuron,
và các lớp này kết nối với nhau thông qua trọng số. Các mơ hình deep learning
thường có hàng trăm, thậm chí hàng nghìn lớp và hàng triệu trọng số.
Học sâu qua dữ liệu: Deep Learning học từ dữ liệu. Mơ hình deep learning
được huấn luyện bằng cách sử dụng một tập dữ liệu lớn để tối ưu hóa trọng số của
mạng neuron. Q trình này bao gồm lan truyền ngược (backpropagation) để điều
chỉnh trọng số dựa trên sai số giữa đầu ra dự đoán và giá trị thực tế.

Ứng dụng đa dạng: Deep Learning có thể được áp dụng trong nhiều lĩnh vực,
bao gồm:
Xử lý hình ảnh: Nhận dạng khn mặt, phân loại đối tượng, tự động lái xe,
v.v.
Xử lý ngơn ngữ tự nhiên: Dịch máy, phân tích cảm xúc, sinh ra văn bản tự
động, v.v.
Xử lý âm thanh: Nhận dạng giọng nói, chuyển văn bản thành giọng nói, v.v.
Dự đoán chuỗi thời gian: Dự đoán giá cổ phiếu, dự báo thời tiết, v.v.
Khả năng học biểu diễn tự động: Một trong những điểm mạnh của Deep
Learning là khả năng học biểu diễn dữ liệu một cách tự động. Điều này có nghĩa là

5

chúng ta không cần phải tạo các đặc trưng (features) thủ cơng cho mơ hình, mà mơ
hình có thể học và trích xuất thơng tin quan trọng từ dữ liệu.

Phức tạp tính tốn: Mơ hình Deep Learning thường u cầu tính tốn lớn và
cần sử dụng phần cứng mạnh để huấn luyện và triển khai. Điều này có thể bao gồm
việc sử dụng GPU hoặc TPU để gia tăng tốc độ tính tốn.

Deep Learning đã đạt được nhiều thành tựu đáng kể và đã tạo ra những ứng
dụng thực tế quan trọng. Tuy nhiên, việc huấn luyện và triển khai các mơ hình deep
learning vẫn đòi hỏi sự hiểu biết sâu rộng và kỹ năng chuyên môn trong lĩnh vực
này.

Lịch sử của Deep Learning
Khái niệm về mạng nơ-ron nhân tạo đã được đề xuất từ những năm 1940,
nhưng mãi đến những năm 1980, Deep Learning mới bắt đầu được nghiên cứu một
cách nghiêm túc. Tuy nhiên, do các hạn chế về sức mạnh tính tốn và dữ liệu, Deep
Learning lúc đó vẫn chưa thể đạt được những thành tựu đáng kể.

Từ năm 2006 trở đi, với sự phát triển của các công nghệ như GPU và Internet,
Deep Learning đã có những bước tiến vượt bậc và trở thành một trong những lĩnh
vực nghiên cứu quan trọng nhất trong trí tuệ nhân tạo (AI).
Deep Learning có thể được áp dụng cho nhiều loại nhiệm vụ khác nhau, bao
gồm:
Phân loại: Xác định phân loại của một đối tượng hoặc hiện tượng, chẳng hạn
như phân loại hình ảnh, phân loại văn bản, phân loại âm thanh, v.v.
Hồi quy: Dự đoán giá trị của một biến dựa trên các biến khác, chẳng hạn như
dự đoán giá cổ phiếu, dự đoán doanh thu, v.v.
Xử lý ngôn ngữ tự nhiên: Hiểu và xử lý ngôn ngữ tự nhiên, chẳng hạn như
dịch ngơn ngữ, nhận dạng giọng nói, v.v.
Thị giác máy tính: Nhận dạng và xử lý hình ảnh, chẳng hạn như nhận dạng
khuôn mặt, nhận dạng vật thể, v.v.
Một số thuật toán Deep Learning phổ biến bao gồm:

6

- Mạng nơ-ron truyền trực tiếp (Feedforward neural network): Đây là loại
mạng nơ-ron đơn giản nhất, trong đó dữ liệu đi từ đầu vào đến đầu ra theo một
hướng duy nhất.

- Mạng nơ-ron hồi quy (Recurrent neural network): Đây là loại mạng nơ-ron
có khả năng lưu trữ thơng tin từ các bước trước đó, giúp xử lý các vấn đề liên quan
đến thời gian, chẳng hạn như nhận dạng giọng nói, dịch ngơn ngữ, v.v.

- Mạng nơ-ron tích chập (Convolutional neural network): Đây là loại mạng
nơ-ron được sử dụng phổ biến trong xử lý hình ảnh, video, v.v.

- Mạng nơ-ron Boltzmann (Boltzmann machine): Đây là loại mạng nơ-ron
được sử dụng để học các mơ hình phân phối xác suất.


Deep Learning đang ngày càng trở nên phổ biến và có tiềm năng ứng dụng
rộng rãi trong nhiều lĩnh vực khác nhau. Với sự phát triển của công nghệ, Deep
Learning được kỳ vọng sẽ tiếp tục đạt được những thành tựu mới, mang lại những
thay đổi đáng kể trong cuộc sống của con người.

1.2. Mơ hình hoạt động của Deep-Learning
Deep-learning hoạt động bằng cách khám phá các cấu trúc phức tạp trong dữ

liệu mà chúng trải nghiệm. Cụ thể là xây dựng các mơ hình tính tốn bao gồm nhiều
lớp xử lý, mạng huấn luyện có thể tạo ra nhiều mức trừu tượng để biểu diễn dữ liệu.

Mơ hình hoạt động của Deep Learning dựa trên kiến trúc mạng neuron nhân
tạo (Artificial Neural Network) với nhiều lớp (được gọi là mạng neuron sâu) để học
và thực hiện các nhiệm vụ máy học phức tạp. Dưới đây là một số thành phần cơ bản
để mơ hình Deep Learning hoạt động:

- Đầu vào (Input): Mơ hình Deep Learning bắt đầu với một tập dữ liệu đầu
vào. Đối với ứng dụng thị giác máy tính, dữ liệu đầu vào có thể là hình ảnh; đối với
xử lý ngôn ngữ tự nhiên, dữ liệu đầu vào là văn bản.

- Biểu diễn dữ liệu (Data Representation): Dữ liệu đầu vào được biểu diễn
dưới dạng các đặc trưng (features) hoặc biểu diễn số hóa để mơ hình có thể hiểu. Ví
dụ, hình ảnh có thể được biểu diễn dưới dạng ma trận điểm ảnh, văn bản có thể
được biểu diễn dưới dạng các vector từ.

7

- Lớp ẩn (Hidden Layers): Mơ hình Deep Learning chứa một hoặc nhiều lớp
ẩn giữa lớp đầu vào và lớp đầu ra. Mỗi lớp ẩn chứa nhiều neuron và thực hiện các

phép tính tuyến tính và phi tuyến tính để học biểu diễn dữ liệu. Mỗi neuron trong
lớp ẩn tính tốn một tổng trọng số của đầu vào, sau đó áp dụng một hàm kích hoạt
phi tuyến tính (ví dụ: hàm ReLU) để tạo ra đầu ra.

- Trọng số (Weights): Trọng số là các tham số quan trọng của mơ hình. Chúng
đại diện cho mức độ quan trọng của mỗi đầu vào cho mỗi neuron trong mạng.
Trọng số được tối ưu hóa trong quá trình huấn luyện để mơ hình có khả năng dự
đốn chính xác hơn.

- Lan truyền ngược (Backpropagation): Để huấn luyện mơ hình, chúng ta sử
dụng thuật tốn lan truyền ngược. Q trình này bắt đầu từ đầu ra dự đốn của mơ
hình và tính toán gradient của hàm mất mát (loss function) theo trọng số của mơ
hình. Sau đó, gradient này được truyền ngược qua mạng để điều chỉnh trọng số của
mỗi neuron trong mạng nhằm giảm thiểu sai số giữa dự đoán và giá trị thực tế.

- Hàm mất mát (Loss Function): Hàm mất mát là một thước đo cho sự sai khác
giữa dự đốn của mơ hình và giá trị thực tế. Mục tiêu trong quá trình huấn luyện là
tối thiểu hóa giá trị hàm mất mát để mơ hình có khả năng dự đốn chính xác hơn.

- Đầu ra (Output): Sau khi mơ hình được huấn luyện, nó có khả năng thực hiện
các dự đoán dựa trên dữ liệu đầu vào. Đầu ra của mơ hình có thể là lớp phân loại
cho bài toán phân loại hoặc một giá trị liên tục cho bài toán dự đoán.

- Điều chỉnh và Đánh giá (Fine-tuning and Evaluation): Sau q trình huấn
luyện ban đầu, mơ hình có thể cần được điều chỉnh các giá trị tham số huấn luyện
và đánh giá trên tập kiểm tra để đảm bảo hiệu suất tốt trên dữ liệu mới.

Mơ hình Deep Learning hoạt động bằng cách lặp đi lặp lại quá trình lan truyền
ngược và điều chỉnh trọng số để học biểu diễn dữ liệu và thực hiện các nhiệm vụ
máy học. Việc huấn luyện mơ hình deep learning có thể u cầu nhiều dữ liệu và

tính tốn mạnh mẽ, nhưng nó đã cho thấy khả năng xử lý dữ liệu ấn tượng và cho ra
giá trị đầu ra để giải quyết một số vấn đề trong nhiều ứng dụng thực tế. Một mơ
hình học sâu được gọi là mạng nơ-ron phức hợp, nó có thể được huấn luyện bằng
cách sử dụng số lượng lớn (hàng triệu) hình ảnh để nhận dạng các đối tượng chứa

8

trong ảnh. Loại mạng nơ-ron này thường học hỏi từ các pixel có trong hình ảnh mà
nó thu được. Nó có thể phân loại các nhóm pixel đại diện cho các đặc điểm nào đó
của đối tượng, ví dụ nhận dạng mèo trong ảnh, các nhóm đặc điểm đặc trưng như
móng vuốt, tai và mắt. Từ các đặc điểm đặc trưng này, mơ hình mạng nơ-ron cho
biết sự hiện diện của mèo trong hình ảnh hay không.

Đối với nhiều tác vụ khác, chẳng hạn như thị giác máy tính, nhận dạng giọng
nói cịn được gọi là xử lý ngơn ngữ tự nhiên, dịch máy và robot, hiệu suất của các
hệ thống deep learning vượt xa so với các hệ thống machine learning.

Việc xây dựng các hệ thống học sâu là tương đối khó so với các hệ thống học
máy thơng thường. Nó địi hỏi dữ liệu lớn với hàng nghìn nút nơ-ron, qua mỗi lần
huấn luyện cần được điều chỉnh lại các tham số huấn luyện để mơ hình học sâu
deep learning đạt hiệu quả bài toán đặt ra.

Hình 1.1: Kiến trúc mơ hình nhận dạng đối tượng Machine-Learning và
Deep-Learning

Ưu điểm lớn nhất của deep learning là khả năng hoạt động tốt với dữ liệu phi
cấu trúc. Điều này đặc biệt phù hợp khi phần lớn dữ liệu kinh doanh hiện nay đều
khơng có cấu trúc. Hình ảnh, văn bản và giọng nói được cho là những định dạng dữ
liệu phổ biến nhất được các doanh nghiệp sử dụng. Khác với deep learning, các
thuật toán machine learning cổ điển bị hạn chế về khả năng phân tích dữ liệu phi

cấu trúc, có nghĩa là lượng thơng tin này không được khai thác thường xuyên. Tuy
nhiên, deep learning sẽ đem đến những tác động lớn nhất đối với dữ liệu phi cấu

9

trúc. Huấn luyện mạng deep learning với dữ liệu phi cấu trúc và ghi nhãn phù hợp
sẽ giúp các doanh nghiệp có thể tối ưu hóa mọi chức năng từ bán hàng, tiếp thị cho
đến tài chính và các hoạt động điều hành khác của doanh nghiệp.

Các lớp nơ-ron trong deep learning cho phép các mơ hình trở nên hiệu quả
hơn, cụ thể là thực hiện được các tính năng phức tạp, các tác vụ tính tốn chun
sâu, và có thể thực hiện đồng thời nhiều hoạt động phức tạp.

Deep learning thể hiện sự vượt trội hơn, điều này thể hiện rõ trong các nhiệm
vụ nhận thức máy, còn được gọi là khả năng hiểu được các đầu vào như: hình ảnh,
âm thanh và video giống như con người, liên quan đến các bộ dữ liệu phi cấu trúc.
Điều này là do khả năng của các thuật tốn học sâu để q trình học, giúp máy học
hỏi được từ các lỗi của chính nó. Deep learning cịn hỗ trợ việc xác minh tính chính
xác, cụ thể là các dự đoán/kết quả đầu ra và thực hiện điều chỉnh trong trường hợp
cần thiết. Trong một số trường hợp deep learning yêu cầu sự hỗ trợ của con người
nhằm xác định dữ liệu đầu ra được chính xác nhất.

Một mạng nơ-ron điển hình hoặc mơ hình học sâu cần thực hiện nhiều lần để
tìm hiểu các tham số xác định mơ hình. Các thuật tốn song song và phân tán giúp
giải quyết các vấn đề khó khăn bằng cách huấn luyện các mơ hình học sâu thực hiện
nhanh hơn, cho kết quả tốt hơn so với các thuật tốn thơng tường. Deep learning
huấn luyện tập dữ liệu thông qua phương pháp huấn luyện cục bộ qua GPU, hoặc
phân tán, hoặc kết hợp cả hai phương thức này với nhau. Tuy nhiên, một khối lượng
lớn các bộ dữ liệu huấn luyện có liên quan đến nhau khơng thể lưu trữ cùng một
máy, điều này đã tạo nên dữ liệu song song. Việc dữ liệu hoặc deep learning được

phân bổ trên nhiều máy giúp quá trình đào tạo được hiệu quả hơn.

Mặc dù đào tạo mô hình học sâu có thể tốn kém nhiều chi phí, tuy nhiên nếu
được đào tạo bài bản, deep learning sẽ giúp doanh nghiệp tối ưu những chi tiêu
không cần thiết. Trong các ngành công nghiệp như sản xuất, tư vấn hoặc thậm chí
bán lẻ, chi phí cho một dự đốn khơng chính xác hoặc lỗi sản phẩm là rất lớn. Nó
thường lớn hơn chi phí đào tạo mơ hình học sâu. Các thuật tốn học sâu có thể tạo
ra sự thay đổi giữa các tính năng học tập để giảm tỷ lệ sai sót đáng kể giữa các


×