ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
TRẦN TRƯƠNG TUẤN PHÁT
PHƯƠNG PHÁP HỌC SÂU BẢO VỆ TÍNH RIÊNG TƯ
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 7 năm 2023
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học:
PGS.TS. Đặng Trần Khánh
PGS.TS. Lê Hồng Trang
Cán bộ chấm nhận xét 1:
TS. Đặng Trần Trí
Cán bộ chấm nhận xét 2:
PGS.TS. Nguyễn Tuấn Đăng
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 12 tháng 7 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học
hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ tịch: PGS.TS. Trần Minh Quang
2. Thư ký: TS. Nguyễn Thị Ái Thảo
3. Phản biện 1: TS. Đặng Trần Trí
4. Phản biện 2: PGS.TS. Nguyễn Tuấn Đăng
5. Ủy viên: TS. Phan Trọng Nhân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
PGS.TS. Trần Minh Quang
i
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Trương Tuấn Phát
MSHV: 2070677
Ngày, tháng, năm sinh: 03/10/1998
Nơi sinh: Vĩnh Long
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
I. TÊN ĐỀ TÀI: PHƯƠNG PHÁP HỌC SÂU BẢO VỆ TÍNH RIÊNG TƯ
(PRIVACY-PRESERVING DEEP LEARNING METHODS)
II. NHIỆM VỤ VÀ NỘI DUNG:
1) Nghiên cứu rủi ro vi phạm riêng tư của mô hình học sâu và các phương pháp bảo vệ
tính riêng tư.
2) Đề xuất và phát triển được một phương pháp bảo vệ tính riêng tư cho học sâu.
3) Thực nghiệm và đánh giá được điểm mạnh, điểm yếu, khả năng ứng dụng thực tiễn
của giải pháp đề xuất.
III.
NGÀY GIAO NHIỆM VỤ : 05/09/2022
IV.
NGÀY HOÀN THÀNH NHIỆM VỤ: 21/05/2023
V.CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên):
1) PGS. TS. Đặng Trần Khánh
2) PGS. TS. Lê Hồng Trang
Tp. HCM, ngày 04 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
ii
Lời cảm ơn
Đầu tiên, tôi xin gửi lời cảm ơn và những tình cảm sâu sắc nhất đến hai thầy hướng dẫn
- PGS.TS. Đặng Trần Khánh và PGS.TS. Lê Hồng Trang. Đặc biệt hơn là thầy Khánh
- người đã hướng dẫn tôi trong cả hai luận văn đại học và thạc sĩ. Bên cạnh những kiến
thức mà thầy truyền dạy, nhờ sự tận tình và chu đáo của thầy mà tơi có đủ dũng cảm để
đối mặt và vượt qua những khó khăn gặp phải trong q trình thực hiện đề tài.
Bên cạnh đó, tơi xin gửi lời cảm ơn đến các thầy/cô trường Đại học Bách Khoa, Đại học
Quốc gia Thành phố Hồ Chí Minh, đặc biệt là các thầy/cơ khoa Khoa học và Kỹ thuật
Máy tính đã truyền đạt những kiến thức quý báu trong bốn năm học Đại học và khoảng
thời gian học Thạc sĩ. Nhờ những kiến thức này mà tơi có được một hành trang vững trãi
để bước vào lĩnh vực mà tôi theo đuổi.
Tiếp đến, tơi khơng thể hồn thành luận văn này nếu khơng có sự hỗ trợ về mọi mặt,
trong cơng việc cũng như trong cuộc sống của bạn bè và đồng nghiệp. Tôi rất biết ơn bạn
bè và đồng nghiệp trong thời gian tôi học Đại học-Thạc sĩ ở Đại học Bách Khoa cùng
khoảng gần 4 năm làm việc của mình. Thời gian học tập và làm việc ở Đại học Bách khoa
thực sự đã mở ra cho tôi nhiều cơ hội. Những kỷ niệm ở Bách Khoa là những kỷ niệm
đẹp mà tôi không bao giờ quên.
Cuối cùng, tôi xin gởi lời cảm ơn chân thành nhất đến gia đình - cha mẹ đã nuôi dạy tôi
và tạo mọi điều kiện để cho tơi có mơi trường học tập và phát triển tốt nhất!
TRẦN TRƯƠNG TUẤN PHÁT.
iii
TÓM TẮT LUẬN VĂN
Với sự gia tăng sử dụng và hiện diện mọi mặt của công nghệ trong cuộc sống hàng ngày,
riêng tư dữ liệu đã trở thành một vấn đề quan trọng không chỉ đối với từng cá nhân cần
bảo vệ chính mình khi tham gia trên khơng gian mạng mà cịn nghiêm trọng đối an ninh
của các cơng ty, các tổ chức và chính phủ hiện nay. Thật vậy, dữ liệu về cá nhân đưa ra
một thách thức rất thú vị: các công ty, các tổ chức và chính phủ nếu thu thập và khai
thác các dữ liệu này sẽ giúp xây dựng các dịch vụ, mơ hình trí tuệ nhân tạo siêu cá nhân
hố có thể hỗ trợ khách hàng, người dân tốt hơn, tuy nhiên song hành với đó là rủi ro
làm sao để các cơng ty, tổ chức này không xâm phạm quyền riêng tư cá nhân từ "thứ dầu
mỏ của thế kỷ 21" này.
Các cơng nghệ trí tuệ nhân tạo và học sâu được coi là những công nghệ định hướng xã
hội trong cuộc cách mạng 4.0. Tuy nhiên, trong những năm gần đây (khoảng 2017 - nay),
cùng với những tiến bộ về cả lý thuyết lẫn ứng dụng thực tiễn của các công nghệ dựa trên
học sâu thì ngày càng nhiều cơng trình, bài báo đã chỉ ra những rủi ro về vi phạm riêng
tư dữ liệu mà các cơng nghệ trí tuệ nhân tạo này mang lại. Thậm chí các cơng nghệ này
cịn có thể được tận dụng như là một phương pháp để khai thác trái phép dữ liệu riêng tư
người dùng trên không gian mạng. Mặc dù về phương pháp luận tấn cơng lẫn cách thức
bảo vệ vẫn cịn rời rạc và chưa có phương pháp tối ưu nhưng những cơng trình này cho
ta thấy rủi ro đáng báo động, đặc biệt khi AI ngày càng len lỏi vào cuộc sống. Đề tài này
sẽ đi sâu nghiên cứu, tìm hiểu, phân tích cụ thể các phương thức chủ yếu để tấn công và
khai thác dữ liệu riêng tư từ học sâu và các cách phổ biến hiện tại đã và đang được sử
dụng để bảo vệ tính riêng tư của các mơ hình học sâu.
Bên cạnh đó, đề tài cũng chỉ ra rằng những gì chúng ta cần là các công nghệ tăng cường
bảo mật riêng tư (Privacy Enhancing Technoloiges - PETs) thay vì chỉ tập trung vào các
cơng nghệ riêng lẻ. AI cùng học sâu cũng không phải là ngoại lệ. Do đó, đề tài đề xuất
một phương pháp huấn luyện học sâu bảo vệ riêng tư thoả riêng tư vi phân (differential
privacy), một tiêu chuẩn "vàng" trong việc bảo vê tính riêng tư dữ liệu xây dựng trên
cơ sở lý thuyết toán học vững chắc. Phương pháp này là tổng quát, có thể dùng cho bất
kỳ thủ tục huấn luyện học sâu nào và đặt biệt, phương pháp này dễ hiểu đối với người
khơng có nhiều kiến thức nền về bảo vệ riêng tư dữ liệu cũng như riêng tư vi phân. Do
đó nó phù hợp cho bất kỳ người theo đuổi AI nào, từ nghiên cứu viên đến kỹ sư, triển
khai và sử dụng.
Cụ thể hơn, khung phương pháp mà đề tài đề xuất được trên một cài đặt, gọi là Private
Aggregation of Teacher Ensembles (PATE), trong đó có nhiều cải tiến để đạt được mức
độ chính xác và bảo vệ quyền riêng tư tốt hơn. Bằng cách sử dụng một cơ chế tổng hợp
riêng tư khác, cụ thể là kỹ thuật vector thưa, và kết hợp nó với một số cải tiến khác như
human-in-the-loop và mơ hình được đào tạo trước, giải pháp mà chúng tơi đề xuất đã
chứng minh rằng phương pháp này có thể tạo ra các mơ hình học bảo vệ quyền riêng
tư gần như chính xác như các mơ hình khi huấn luyện bình thường trong khi vẫn giữ
ngân sách riêng tư cố định. Những mơ hình này có khả năng xử lý một lượng lớn các
dữ liệu huấn luyện, khiến chúng phù hợp cho quá trình huấn luyện học sâu. Hơn nữa, đề
tài cũng đóng góp cách cài đặt huấn luyện phân tán của phương pháp được đề xuất. Do
iv
đó, phương pháp trong đề tài có điểm mạnh ứng dụng không dừng lại ở triển khai huấn
luyện tập trung, giới hạn ở quy mơ nhỏ, tổ chức mà cịn có thể được sử dụng huấn luyện
ở quy mơ lớn hơn nơi có nhiều bên, tổ chức tham gia, phù hợp với xu thế nghiên cứu và
triển khai các phương pháp huấn luyện cộng tác - rất cần thiết trong tương lai sử dụng
các ngữ cảnh học với quy mô lớn như trong thành phố thông minh và internet vạn vật.
v
THESIS ABSTRACT
With the increasing use and presence of technology in everyday life, data privacy has
become an important issue not only for individuals who need to protect themselves when
participating in cyberspace, but also for the security of companies, organizations and
governments today. Indeed, personal data poses a very interesting challenge: companies,
organizations and governments, if they collect and exploit these data, will help to build
hyper-personalized services and AI models that can better support customers and citizens.
However, there is a risk that these companies and organizations will not violate individual
privacy from this "21st century oil".
Artificial intelligence (AI) and deep learning are considered as socially-oriented technologies in the 4.0 revolution. However, in recent years (around 2017-now), along with
advances in both theory and practical applications of deep learning-based technologies,
more and more research has indicated the risks of violating data privacy that these AI
technologies bring about. In fact, these technologies can even be exploited as a method to
illegally exploit users’ private data on the internet. Although the attack and protection
methods are still disparate and have not yet been optimized, these studies show alarming
risks, especially when AI is increasingly infiltrated into our lives. This topic will delve
into researching, investigating, and specifically analyzing the main methods of attacking
and exploiting privacy data from deep learning, as well as common protection methods
currently used to protect the privacy of deep learning models.
Furthermore, the topic also points out that what we need are Privacy Enhancing Technologies (PETs) rather than just focusing on technologies solely. AI and deep learning are
not exceptions. Therefore, the topic proposes a privacy-preserving deep learning training method satisfying differential privacy, a "golden" standard in protecting data privacy
based on solid mathematical theory. This method is general and can be used for any deep
learning training procedures. Moreover, it is easy to understand for those who do not have
much background knowledge in data privacy protection and differential privacy. Thus, it
is suitable for all kinds of AI practitioners, from researchers to engineers, implement and
utilize.
Specifically, the proposed framework in this topic is implemented on a setting called
Private Aggregation of Teacher Ensembles (PATE), which has many improvements to
achieve better accuracy and privacy protection. By using a different private aggregation mechanism, specifically the sparse vector technique, and combining it with other
enhancements such as human-in-the-loop and pre-trained models, our proposed solution
has demonstrated that this method can generate privacy-protecting models that are almost as accurate as ground-truth models while still maintaining a fixed privacy budget.
These models can handle a large amount of training data, making them suitable for deep
learning training processes. Moreover, the topic also contributes to the implementation of
distributed learning for the proposed method. Therefore, this method is not only applicable to centralized training implementation limited to small scale organizations but can
also be used for larger-scale collaborative training methods - essential for future large-scale
machine learning contexts such as smart cities and the Internet of Things.
vi
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác có liên
quan đã ghi rõ trong phần tài liệu tham khảo, các nội dung trình bày trong luận văn này
là do chính tơi thực hiện và chưa có phần nội dung nào được nộp để lấy bằng cấp ở một
trường khác.
Tôi sẽ hoàn toàn chịu trách nhiệm và xử lý theo quy định nhà trường nếu có bất cứ sai
phạm nào so với lời cam đoan.
TP. HCM, ngày 05 tháng 6 năm 2023
TRẦN TRƯƠNG TUẤN PHÁT
vii
Mục lục
NHIỆM VỤ LUẬN VĂN THẠC SĨ
i
LỜI CẢM ƠN
ii
TÓM TẮT LUẬN VĂN
iii
THESIS ABSTRACT
v
LỜI CAM ĐOAN
vi
MỤC LỤC
vii
DANH MỤC HÌNH ẢNH
ix
DANH MỤC CHỮ VIẾT TẮT
xi
CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI
1.1 Giới thiệu đề tài . . . . . . . . . . .
1.2 Đặt vấn đề . . . . . . . . . . . . . . .
1.3 Ý nghĩa đề tài . . . . . . . . . . . . .
1.3.1 Ý nghĩa khoa học . . . . . .
1.3.2 Ý nghĩa thực tiễn . . . . . .
1.4 Mục tiêu và phạm vi nghiên cứu . .
1.5 Cấu trúc luận văn . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CHƯƠNG 2 KIẾN THỨC NỀN TẢNG
2.1 Nền tảng học sâu . . . . . . . . . . . . . . . . . . . . .
2.2 Riêng tư vi phân . . . . . . . . . . . . . . . . . . . . .
2.3 Private Aggregation of Teacher Ensembles (PATE)
2.4 Kỹ thuật vector thưa . . . . . . . . . . . . . . . . . .
2.5 Lược đồ mã hoá Paillier . . . . . . . . . . . . . . . . .
2.6 Human-in-the-loop . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CHƯƠNG 3 CƠNG TRÌNH LIÊN QUAN
3.1 Rủi ro vi phạm riêng tư dữ liệu trong học sâu . . . . . . . .
3.1.1 Tấn công suy luận thành viên . . . . . . . . . . . . . .
3.1.2 Các cuộc tấn cơng khác vi phạm tính riêng tư khác
3.1.3 Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Các phương pháp bảo vệ . . . . . . . . . . . . . . . . . . . . .
3.2.1 Che dấu điểm tin cậy . . . . . . . . . . . . . . . . . . .
3.2.2 Chính quy hóa . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Riêng tư vi phân . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Tính tốn an tồn nhiều bên và mã hóa đồng hình .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
4
7
7
7
8
9
.
.
.
.
.
.
10
11
12
16
17
18
19
.
.
.
.
.
.
.
.
.
20
21
22
30
33
34
34
34
35
36
viii
CHƯƠNG 4 GIẢI PHÁP ĐỀ XUẤT
4.1 Nguyên lý thiết kế . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Phương pháp học sâu bảo vệ tính riêng tư . . . . . . . . . . . . .
4.2.1 Tổng hợp thoả riêng tư vi phân dựa vào kỹ vector thưa
4.2.2 Cải thiện khung PATE với Human-in-the-loop . . . . . .
4.2.3 Triển khai phân tán với lược đồ mã hoá Paillier . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
39
41
41
44
46
CHƯƠNG 5 THIẾT KẾ THÍ NGHIỆM VÀ ĐÁNH GIÁ
48
5.1 Thiết kế thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
52
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC
54
TÀI LIỆU THAM KHẢO
107
LÝ LỊCH TRÍCH NGANG
120
ix
DANH MỤC HÌNH ẢNH
2.1
2.2
2.3
2.4
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
4.1
4.2
4.3
4.4
Cơ chế trả lời ngẫu nhiên M để thu thập dữ liệu mà chủ dữ liệu có thể phủ
nhận hợp lý kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cơ chế ngẫu nhiên M thoả ϵ-differential privacy - ảnh hưởng của điểm dữ
liệu x đối với kết quả của cơ chế M là nhỏ (đặc trưng bởi đại lượng ϵ) . .
So sánh phân phối Gauss và Laplace . . . . . . . . . . . . . . . . . . . . . . .
PATE framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Thế nào là một mô hình học sâu vi phạm tính riêng tư? . . . . . . . . . . .
Tấn công suy luận thành viên . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trong trường hợp hộp đen kẻ tấn công sử dụng dữ liệu đầu vào và kết quả
dự đoán trả ra từ một dịch vụ AI hộp đen để thực hiện suy luận thành viên
Xây dựng mơ hình tấn cơng học sự khác biệt giữa vector dự đoán của điểm
dữ liệu trong tập dữ liệu huấn luyện và điểm dữ liệu trong tập dữ liệu . .
Tấn công suy luận thành viên bằng cách xây dựng một mạng nơ-ron dự
đoán xem điểm dữ liệu có thuộc vào tập dữ liệu của mơ hình đối tượng
khơng [82] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Trong trường hợp hộp trắng kẻ tấn cơng có khả năng quan sát được các
thơng số học và gradient trong q trình dự đốn. Do đó kẻ này có thể sử
dụng dữ liệu đầu vào, kết quả dự đốn trả ra, thơng số học và gradient
từng lớp để thực hiện suy luận thành viên . . . . . . . . . . . . . . . . . . .
Phương pháp tấn công hộp trắng [81] . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác của mơ hình học sâu khơng trực tiếp ảnh hưởng đến tính
riêng tư của dữ liệu mà nó dùng để huấn luyện . . . . . . . . . . . . . . . . .
Các mơ hình học sâu ngày càng “sâu” thông qua việc ngày càng chứa nhiều
tham số hơn giúp cho việc học dữ liệu và tổng quát học tốt hơn. Tuy nhiên
điều này vơ tình làm các mơ hình học sâu này ghi nhớ (thay vì học) một
số điểm dữ liệu trong chính nó. Do đó rủi ro suy luận thành viên cũng cao
hơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tấn cơng trích xuất mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tấn cơng suy luận thuộc tính và đảo ngược mơ hình . . . . . . . . . . . . .
Hình bên phải là dữ liệu gốc để xây dựng mơ hình nhận diện khn mặt,
Hình bên trái là kết quả của tấn cơng đảo ngược mơ hình . . . . . . . . . .
Tấn cơng suy luận tính chất . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phương pháp min-max game [83] là hàm tối ưu hoá hai cấp (bi-level optimization) dựa vào ý tưởng tối thiểu hoá hàm mất mát với biểu thức chính
quy hố là tối đa hố của hàm thu được thông tin từ suy luận (gain function)
Confidential & private collaborative learning (CAPC) [129] . . . . . . . . .
Mơ hình trực giác về PATE . . . . . . . . . . . . . . .
Khung PATE sử dụng cơ chế tổng hợp vector thưa .
Khung PATE với cơ chế tổng hợp dựa trên kỹ thuật
hình huấn luyện trước và sự tham gia của chuyên gia
Giải pháp đề xuất dựa vào khung PATE [141] . . . .
. . . . . . . . . .
. . . . . . . . . .
vector thưa với
. . . . . . . . . .
. . . . . . . . . .
. . .
. . .
mô
. . .
. . .
12
13
15
16
21
22
23
23
24
26
27
29
30
31
32
32
33
35
36
40
44
46
47
x
5.1
5.2
5.3
Kiến trúc mạng CNN Lenet-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Độ chính xác của mơ hình đầu ra đảm bảo quyền riêng tư như một hàm
của ngân sách quyền riêng tư cho mỗi truy vấn do vanilla PATE huấn luyện 50
Độ chính xác của mơ hình bảo vê riêng tư tương ứng với các ngân sách
riêng tư khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
xi
DANH MỤC CÁC TỪ VIẾT TẮT
Danh sách dưới đây liệt kê các từ viết tắt sẽ được sử dụng về sau trong nội dung cuốn
luận văn này.
AI
Artificial Intelligence
DL
Deep Learning
DP
Differential Privacy
GDPR
General Data Protection Regulation
IoTs
Internet of Things
ML
Machine Learning
PATE
Private Aggregation of Teacher Ensembles
PETs
Privacy Enhancing Technologies
SGD
Stochastic Gradient Descent
SVT
Sparse Vector Technique
1
1
TỔNG QUAN ĐỀ TÀI
Trong chương đầu tiên, luận văn sẽ giới thiệu về học sâu và vấn đề bảo vệ tính riêng tư
dữ liệu. Trên cơ sở đó, đề tài sẽ đúc kết ra một số vấn đề cần phải giải quyết trong việc
xây dựng một phương pháp học sâu bảo vệ tính riêng tư và liệt kê một số đóng góp chính.
Tiếp đến, chương sẽ trình bày ý nghĩa về mặt khoa học lẫn thực tiễn của đề tài. Cuối
cùng, chương này sẽ kết thúc bằng việc trình bày về mục tiêu, phạm vi, giới hạn và cấu
trúc luận văn.
2
1.1
Giới thiệu đề tài
Nhờ sự phát triển của các công nghệ phần cứng và dữ liệu lớn, các mơ hình học sâu dựa
vào mạng nơron lần lượt vượt qua các phương pháp học máy trước đó trong hàng loạt
các lĩnh vực, đặc biệt là trong thị giác máy tính [1]–[3] và xử lý ngôn ngữ tự nhiên [4]–[6].
Các ứng dụng trí tuệ nhân tạo (AI) hiện nay đã phổ biến rộng khắp. Một số lĩnh vực
xử lý dữ liệu cá nhân như điều trị y tế, tài chính, nhận diện khn mặt cũng đã tích
hợp AI vào các quy trình của mình. Tuy vậy, gần đây các mơ hình xây dựng dựa trên
phương pháp học sâu bị khai thác và chứng minh có khả năng khơng an tồn trước nhiều
rủi ro và các cuộc tấn công: tấn công trốn tránh (adversarial/evasion attack ) [7], [8] tấn
công cửa sau (backdoor attack ) [9], [10] làm vi phạm tính tồn vẹn (integrity) của an
tồn thơng tin; bên cạnh đó, tấn cơng đầu độc dữ liệu (data poisoning attack ) [11], [12]
làm vi phạm tính tồn vẹn (integrity) và sẵn sàng (availability), tấn cơng trích xuất mơ
hình (model extraction attack ) [13], [14], tấn cơng đảo ngược mơ hình (model inversion
attack ) [15] làm vi phạm tính bảo mật (confidentiality); tấn cơng riêng tư dữ liệu (privacy
attack ) [16]–[20], làm vi phạm tính bảo mật (confidentiality) và tính riêng tư dữ liệu (data
privacy), v.v. Việc liên tiếp bị khai thác và tìm ra những điểm yếu mới khiến cho tính an
tồn và tin tưởng khi áp dụng rộng rãi các công nghệ ứng dụng học sâu là một câu hỏi
lớn. Trong đó, rủi ro vi phạm về riêng tư dữ liệu mà một vấn đề nhức nhối vì nó khơng
chỉ ảnh hưởng đến bên cung cấp dịch vụ, người dùng mà còn cả đến sự an tồn, lịng tin
của con người vào việc sử dụng công nghệ và các vấn đề xã hội, pháp lý.
Riêng tư dữ liệu hay riêng tư người dùng có rất nhiều định nghĩa và có thể giải thích
khác nhau ở những trường hợp cụ thể, tuy nhiên ở đây là có thể hiểu là quyền riêng tư
là quyền mà cá nhân được tiết lộ có chọn lọc thơng tin về bản thân với thế giới. Ví dụ,
trong khơng gian mạng khi tham gia sử dụng các dịch vụ của một cơng ty, tổ chức nào
đó cung cấp, ta có quyền được chọn lọc những thơng tin về bản thân mình để thể hiện
và đưa ra bên ngồi. Khi quyền riêng tư được bảo vệ đúng đắn, các công ty, tổ chức cung
cấp dịch vụ trên không gian mạng đó phải có nghĩa vụ bảo vệ quyền riêng tư đó cho người
dùng. Đó có thể là những thoả thuận giữa khách hàng, người dùng với cơng ty, tổ chức
đó thơng qua cách điều khoản, chính sách riêng tư (privacy policies, privacy regulations).
Ví dụ, như là bảo vệ về việc chia sẻ dữ liệu cho một công ty, tổ chức khác nữa hoặc về
mục đích sử dụng của dữ liệu,.v.v.
Rộng hơn nữa, với sự xuất hiện và có hiệu luật của Quy định về bảo vệ dữ liệu chung
(General data protection regulation - GDPR) [21] thì bảo vệ riêng tư dữ liệu còn thể hiện
qua các quyền như: quyền truy cập (right of access - Article 15 ) - chủ dữ liệu phải được
truy cập dữ liệu cá nhân của họ và thông tin về cách dữ liệu cá nhân này đang được xử
lý; thêm nữa là dữ liệu này phải có định dạng điện tử tiêu chuẩn thường được sử dụng
và có cấu trúc (right to data portability - Article 20 ); quyền được lãng quên (right to be
forgotten - Article 17 ) - chủ dữ liệu có quyền yêu cầu xóa dữ liệu cá nhân liên quan đến
họ theo bất kỳ lý do nào trong vòng 30 ngày; quyền phản đối các quyết định cá nhân
tự động (right to object to automated individual decisions - Article 21 ) - chủ dữ liệu có
quyền phản đối việc xử lý thơng tin cá nhân cho các mục đích liên quan đến tiếp thị hoặc
phi dịch vụ; cung cấpnhững đánh giá tác động bảo vệ dữ liệu (Data protection impact
assessments - Article 35 ) - đo đạc, đánh giá cụ thể các rủi ro có thể xảy ra đối với các
quyền và tự do của chủ thể dữ liệu; v.v. Nó ảnh hưởng trực tiếp đến cách mà ta thiết kế
và phát triển các công nghệ, phần mềm, cụ thể hơn đối với phạm vi đề tài này là huấn
3
luyện các mạng nơ-ron học sâu. Ví dụ, người dùng có thể u cầu cơng ty/tổ chức cung
cấp dịch vụ các quyền như giải trình về sử dụng dữ liệu cá nhân của mình - việc này làm
cho các tổ chức sử dụng học sâu gây khó khăn khi cơ chế dự đoán của các mạng nơ-rơn
hiện nay là hộp đen (black-box ) và khó giải thích về kết quả [22], [23]; hay quyền được yêu
cầu xóa dữ liệu cá nhân cũng mình - việc này làm cho các mơ hình học sâu sẽ khơng ổn
định (robust) [24], [25].v.v. Thực tế hiện nay, quyền riêng tư đã và đang là vấn đề nhức
nhối khi các công ty, tổ chức đang cố gắng khai thác tối đa dữ liệu riêng tư khách hàng
để đem lại lợi ích tối đa cho mình về cả mặt cải thiện chất lượng dịch vụ lẫn mục đích
riêng cho mình. Và mặt khác, càng có nhiều những người, cá nhân, tổ chức am hiểu về
công nghệ cố gắng khai thác dữ liệu riêng tư trên không gian mạng để phục vụ lợi ích
bản thân. Những đối tượng này có thể gọi chung là kẻ tấn cơng (attacker hay hacker ).
Về mặt kỹ thuật xử lý, lý thuyết thơng tin thì riêng tư dữ liệu theo định nghĩa của
Dalenius [26] truy cập, xử lý vào dữ liệu/thông tin được công bố không cho phép kẻ tấn
công học bất cứ điều gì thêm về bất kỳ nạn nhân mục tiêu (target victim) nào, ngay cả
với sự hiện diện của bất kỳ kiến thức nền (background knowledge) có được từ các nguồn
khác nhau. Ví dụ, khi trong qua một mơ hình phân tích và chúng ta xuất bản kết quả
của một cuộc khảo sát dịch tễ thì khi cơng bố các kết quả, những người xem hay thậm
chí tìm cách truy vết, phân tích ngược, kỹ thuật đảo ngược (reverse-engineering) phải
khơng suy luận ra thêm gì về bất kỳ cá nhân nào thuộc quần thể (population) mà cuộc
khảo sát, điều tra tiến hành. Đã có rất nhiều cơng trình phân tích, thiết kế và hiện thực
các cơ chế, phương pháp để bảo vệ tính riêng tư [27], tuy nhiên tiêu chí, định nghĩa của
Dalenius là rất khó đạt được [26]. Trong đó có một lớp các kỹ thuật được coi là tiêu chí
và sử dụng trong một thời gian dài, còn được gọi là riêng tư cú pháp (syntactic privacy)
- vì khơng mang q nhiều ý nghĩa về xác suất thống kê, k-anonymity [28], [29] và các
mơ hình mở rộng l-diversity [30], t-closeness [31]. Về mặt ngữ nghĩa, k-anonymity đảm
bảo rằng một dữ liệu, thông tin nhạy cảm phải giống với k − 1 điểm dữ liệu khác, hay nói
cách khác có k điểm dữ liệu mang tính nhạy cảm giống nhau. Khi kẻ tấn công suy luận từ
thông tin được cơng bố thì kẻ tấn cơng chỉ có xác suất thành công nhắm một nạn nhân
mục tiêu cụ thể là k1 . Tuy nhiên, các cơng trình [32], [33] đã chỉ ra điểm yếu của các mơ
hình này, ngay cả khi không thể phân biệt được với (k − 1) điểm dữ liệu khác và sử dụng
những mô hình mở rộng chặt hơn nữa thì rủi ro lộ những thơng tin nhạy cảm vẫn xảy
ra. Đó là vì kẻ tấn cơng có thể có kiến thức nền, dữ liệu có thể có số chiều rất cao, đặc
biệt là thời đại dữ liệu lớn (big data) hiện nay [34], [35], việc khai phá và đào kiến thức
nền từ đa dạng nguồn, kênh khác nhau là rất khó mơ hình và quản lý. Bên cạnh đó, thế
nào là dữ liệu nhạy cảm, phần nào công khai, phần nào cần che giấu đi với từng người
là hồn tồn khác nhau vì vậy việc địi hỏi phải tìm được k điểm dữ liệu giống nhau mới
đem phân tích, xử lý và cũng xuất bản kết quả như vậy là một điều khó khăn. Và cuối
cùng đặc biệt hơn, k-anonymity không đảm bảo ý nghĩa về mặt thống kê vì thay vì phải
suy luận cụ thể dữ liệu nhạy cảm của một đối tượng mục tiêu nào, kẻ tấn cơng cịn có
thể suy luận thuộc tính nhạy cảm của một nhóm cá nhân, hay cả tập dữ liệu được xử
lý, và rồi sau đó có thể suy luận ngược lại một điểm dữ liệu trong đó . Vì những sự khó
khăn như thế khi xử lý các dữ liệu liên quan đến tính riêng tư, một tiêu chí, kỹ thuật
mới được đề xuất và dần trở thành “de facto” khi xây dựng các kỹ thuật, cơng nghệ bảo
vệ tính riêng tư, đó là riêng tư vi phân (differential privacy) [36]–[39]. Tiêu chí, kỹ thuật
này dựa trên nguyên lý riêng tư của một điểm dữ liệu (hay một cá nhân), cụ thể nếu sự
xuất hiện hay vắng mặt của điểm dữ liệu/cá nhân này khơng ảnh hưởng nhiều đến kết
quả của một phân tích, tính tốn, mơ hình thì điểm dữ liệu khơng bị vi phạm tính riêng
4
tư khi xuất bản kết quả của phân tích, tính tốn, mơ hình đó (Cụ thể sẽ trình bày ở 2.2).
Xét nguyên nhân, dữ liệu riêng tư có thể bị lộ theo hai cách trực tiếp hoặc gián tiếp.
Nguyên nhân trực tiếp là những nguyên nhân mà bản thân chính nó đã vi phạm tính
riêng tư - những cơng nghệ, dịch vụ, kênh trao đổi thông tin, nơi lưu trữ khơng bảo vệ
được sự riêng tư cho người dùng. Nó có thể đến từ các cơng ty/tổ chức cơng nghệ cung
cấp dịch vụ khơng hồn thiện về tính bảo vệ riêng tư, hay đến từ chính bản thân của
chính người dùng sử dụng sai cách vơ tình cơng khai sự riêng tư của mình.. Một trong
những những ví dụ tiêu biểu hiện nay là mạng xã hội Facebook khi liên tục bị cáo buộc
và phạt khi vi phạm về các quy định bảo vệ quyền riêng tư. Các sai phạm (và đã thực
hiện thủ tục đóng phạt) có thể kể thêm là vào năm 2018-2019, Facebook làm vơ tình làm
lộ 1,5 triệu dữ liệu email người dùng và nội dung bên trong; các thông tin của hàng triệu
người dùng sử dụng điện thoại di động và phân tích hành vị sử dụng bị lộ ra bên ngoài,
vi phạm nghiêm trọng quyền riêng tư; hơn 267 triệu dữ liệu người dùng Facebook bị công
khai lộ trên các web đen (dark web). Tuy rằng việc vi phạm riêng tư có thể đến từ công
ty/tổ chức cung cấp dịch vụ lẫn người dùng, nhưng theo một báo cáo thống theo của
công ty Intel thì phần lớn nguyên nhân chủ yếu đến từ dịch vụ/tổ chức mà thậm chí là
do người bên trong cơng ty cố tình làm vậy để bán dữ liệu hay sử dụng tài ngun đó để
thực hiện mục đích trái phép, không đúng cam kết với khách hàng như vụ lộ thơng tin
của trang web tìm kiếm nổi tiếng đầu thế kỷ XX - AOL (2004) - gần 100 triệu người bị vi
phạm quyền riêng tư trong không gian mạng trong vụ này. Tổng quát hơn, dữ liệu riêng
tư có thể lộ do dịch vụ/tổ chức giữ dữ liệu, kênh trao đổi/truyền dữ liệu hay nơi lưu trữ
dữ liệu riêng tư không đáng tin cậy.
Mặc dầu vậy, kể cả khi được xem xét cẩn thận về các quá trình chia sẻ, thu thập, sử dụng,
lưu trữ thì quyền riêng tư vẫn có thể bị vi phạm do những cá nhân/tổ chức có hiểu biết
cơng nghệ cố gắng khai thác thơng tin riêng tư. Những nguyên nhân này có thể xem là
gián tiếp vì phải qua quá trình nghiên cứu, tìm hiểu để khai thác thông tin riêng tư [29],
[28]. Các cơng nghệ trí tuệ nhân tạo, học sâu đang dần len lỏi vào hầu hết các lĩnh vực
trong cuộc sống. Q trình học của các thuật tốn, mơ hình học sâu đã giúp chúng ta
đưa ra những quyết định, những dự đoán cho một dữ liệu đầu vào mới sau quá trình huấn
luyện trên nhiều dữ liệu đã biết trước đó. Tuy nhiên, chính nhờ khả năng như vậy trí tuệ
nhân tạo, học sâu có thể trở thành cơng cụ để khai thác quyền riêng tư. Ví dụ, bằng việc
cho học sâu học trên những dữ liệu nhạy cảm, ta có thể làm cho nó có khả năng đưa ra
tiên đốn khá chính xác về dữ liệu riêng tư của một người khác. Như trong [40], [41], ta
có thể làm một mơ hình dự đốn một người nào đó có thuộc vào một tập dữ liệu (ví dụ
tập dữ liệu nhạy cảm như bệnh án) nào không.
1.2
Đặt vấn đề
Trong những năm gần đây, đã có những tranh cãi gay gắt liên quan đến riêng tư dữ liệu
của các công ty cơng nghệ hoặc cơng nghệ nói chung như Facebook [42], Tiktok [43]. Dữ
liệu nhạy cảm là một nguồn thông tin quý giá giúp cho các công ty công nghệ hiểu rõ hơn
về trải nghiệm của từng người dùng và tùy chỉnh các dịch vụ kỹ thuật số của mình. Do đó,
khơng thể phủ nhận rằng họ sẽ phải tìm cách khai thác dữ liệu nhạy cảm của khách hàng
mục tiêu. Những thách thức được đặt ra đó là làm thế nào để quản lý và xử lý các dữ
liệu đó sao cho sự riêng tư của dữ liệu được bảo vệ. Điều đó địi hỏi cho các nhà lập pháp,
5
chuyên gia và những người làm công nghệ phải nghiên cứu, điều tra để đưa quy định chặt
chẽ các luật bảo vệ dữ liệu hoặc các sắc lệnh liên quan đến quyền riêng tư. GDPR [21]
có hiệu lực đánh dấu một cột mốc quan trọng, tuy nhiên, vẫn còn sự chênh lệch nghiêm
trọng giữa các quy định và công nghệ [44]. Điều này có thể được minh họa bởi cuộc khủng
hoảng liên quan đến quyền riêng tư dữ liệu mới đây của Tiktok [43]. Sự thật như phân
tích ở trên, ngay cả với các quy trình, cơ chế lưu trữ và quản lý cẩn thận, dữ liệu nhạy
cảm cũng có thể bị tiết lộ thông qua các cơ chế tinh vi. Vì vậy ta có thể thấy rằng để bảo
vệ quyền riêng tư chúng ta không chỉ cần các thủ tục, quy trình bảo vệ riêng tư (như quy
định trong GDPR), mà cịn chúng ta cịn rất cần các cơng nghệ tăng cường quyền riêng
tư (Privacy Enhancing Technologies - PETs) trong đó quyền riêng tư của dữ liệu được
thiết kế đi đơi với độ hiệu dụng, thậm chí là ưu tiên hàng đầu (privacy-first). Nếu công
nghệ, kỹ thuật không được "privacy-by-design", chúng ta khơng nên tận dụng cơng nghệ
đó phịng khi các vấn đề pháp lý, xã hội và đạo đức về sau. Các cơng nghệ dựa trên trí
tuệ nhân tạo và học sâu cũng không phải ngoại lệ. Như vậy, một vấn đề được đặt ra trong
đề tài là phải xây dựng và thiết kết một phương pháp học sâu có "privacy-by-design",
phương pháp này là tổng quát và có thể áp dụng ở mọi quy trình, thủ tục huấn luyện đa
dạng và vẫn cịn đang phát triển khơng ngường của các phương pháp học sâu.
Hiện nay, học sâu đã được chứng minh nếu không được thiết kế kỹ lưỡng có thể bị tấn cơng
khai thác tính riêng tư, điển hình là các cuộc tấn cơng: khai thác mơ hình (model extraction
attack ) [13], [14], suy luận thuộc tính (attribute inference attack ) [15], suy luận tính chất
(property inference attack ) [45], suy luận thành viên (membership inference attack ) [40].
Tuy nhiên, đặc điểm các cuộc tấn cơng là cịn khá là rời rạc và chưa có một phương pháp
luận tấn cơng thống nhất và tối ưu. Ngồi ra, trong cuộc đua giữa hai bên tấn cơng phịng thủ như thường thấy ở bất cứ vấn đề an tồn thơng tin nào thì bên bảo vệ cũng
đưa ra một số phương pháp, cách thức để phòng chống lại việc khai thác dữ liệu riêng tư
từ các mơ hình học sâu. Nhưng cũng tương tự vậy, các phương pháp này hoặc là chỉ có
khả năng bảo vệ trước một vài tấn công cụ thể hoặc là chưa rõ ràng về mặt phương pháp
luận cũng như tối ưu. Vấn đề được đặt ra là với những cách tấn công đã được công bố và
có thể sẽ có những cách tấn cơng mới trong tương lai (zero-day) thì chúng ta học được
gì và những đặc điểm nào chúng ta cần phải quan tâm khi thiết kế các phương pháp bảo
vệ. Các cơng trình [46]–[49] đã chỉ ra và phân loại các cuộc tấn cơng và phương pháp bảo
vệ tính riêng tư dữ liệu trong học sâu. Tuy nhiên, các bài báo này hoặc là phân tích một
cuộc tấn cơng cụ thể hoặc là chỉ ngừng ở mức độ phân loại theo kỹ thuật tấn công, bảo
vệ. Do vậy, để đưa ra một phương pháp bảo vệ tính riêng tư học sâu, đề tài khơng chỉ
cần tìm hiểu, nghiên cứu một, một vài cuộc tấn cơng lẫn phịng thủ mà cần đưa ra được
một số phương pháp luận từ các cơng trình trước đây.
Bên cạnh đó, mặc dù riêng tư dữ liệu người dùng là một vấn đề nghiêm trọng nhưng theo
thơng lệ thì các kỹ sư, nhà nghiên cứu AI thường cố gắng tối ưu hố q trình huấn luyện
các mơ hình học sâu để đạt được độ hiệu dụng cao nhất có thể mà không chú trọng đến
vấn đề riêng tư đi kèm với mơ hình. Hơn thế nữa, riêng tư vi phân là một tiêu chuẩn có
nền tảng tốn học phức tạp có thể gây khó hiểu và áp dụng với người khơng có kiến thức
nền. Khó khăn hơn, trong ngữ cảnh của học sâu, riêng tư vi phân rất dễ làm suy giảm
nghiêm trọng độ hữu dụng của mơ hình học sâu. Điều này là cho việc tích hợp riêng tư
vi phân vào học sâu trong những cơng trình trước đây trở thành một cơng việc đầy khó
khăn cho người theo đuổi trí tuệ nhân tạo và học sâu [50]. Do vậy, đề tài cần đưa ra một
phương pháp học sâu bảo vệ tính riêng tư thoả riêng tư vi phân nhưng vẫn giữ được độ
hữu dụng xấp xỉ với mơ hình khi được huấn luyện bình thường (ground-truth model ). Đặc
6
biệt hơn, phương pháp này ngồi tổng qt thì phải dễ hiểu, dễ ứng dụng mặc cho nền
tảng toán học phức tạp của riêng tư vi phân. Điều này là cực kỳ quan trong vì nếu khơng
thì phần kỹ thuật xử lý bảo vệ riêng tư (privacy engineering part) sẽ lấn át và gây khó
khăn, lẫn cản trở cho phần kỹ thuật học sâu, trí tuệ nhân tạo (AI engineering part).
Cuối cùng, giống như các công nghệ khác như cơ sở dữ liệu (database), ứng dụng web
(web application),.v.v. Các phương pháp học cũng dần tiến đến việc phân tán việc học
(distributed learning) và học cộng tác (collaborative learning) [51]. Các phương pháp học
này càng được củng cố mạnh mẽ hơn với các xu hướng công nghệ về mặt phần cứng như
điện toán biên (edge computing) và điện toán sương mù (fog computing) thay thế một
phần hay hồn tồn điện tốn đám mây (cloud computing) trong tương lai. Các phương
pháp học có thể dễ dàng phân tán và cộng tác được nhiều bên là rất cần thiết trong xu
thế: thành phố thông minh (smart cities) - công nghệ thông tin được ứng dụng trong các
hoạt động thành phố và dữ liệu thu thập từ nhiều nguồn khác nhau cần được đưa ra mơ
hình học sâu phân tích nhưng vẫn phải đảm bảo tính riêng tư dữ liệu; IoTs - các thiết
bị được thơng minh hố và kết nối mạng với nhau cũng cần được phân tích bảo vệ tính
riêng tư. Đề tài này cũng quan tâm vấn đề thiết kết này và đưa ra một giải pháp học sâu
bảo vệ riêng tư có khả năng dễ dàng huấn luyện phân tán và phù hợp với việc học công
tác nhiều bên.
Các vấn đề nêu trên sẽ lần lượt được giải quyết và trình bày lại trong các phần tiếp đề
tài. Tóm lại, đề tài có những đóng góp sau:
• Đầu tiên, đề tài tiến hành phân tích, tìm hiểu những cuộc tấn công khai thác dữ
liệu riêng tư trong học sâu lẫn cách thức phịng thủ trong những năm gần đây. Các
tìm hiểu và nghiên cứu phân tích này là tiền đề cho chúng tôi đưa ra một phương
pháp học sâu tổng qt bảo vệ tính riêng tư.
• Thứ hai, đề tài đề xuất một khung học tập thực dụng (pragmatic), thông qua đó
có thể tạo ra các mơ hình học sâu bảo vệ quyền riêng tư có độ chính xác xấp xỉ
như các mơ hình huấn luyện bình thường. Giải pháp này đảm bảo được cho các quy
trình, thủ tục huấn luyện học sâu là "privacy-by-design" với tính riêng tư thoả tiêu
chuẩn riêng tư vi phân. Nó được đề xuất dựa trên một khởi tạo, tên là PATE. Giải
pháp này có đặc điểm là thân thiện với bất kỳ người theo đuổi AI nào, từ nghiên
cứu viên đến kỹ sư, có thể dễ dàng triển khai và sử dụng.
• Tiếp đến, bằng cách cải tiến giải pháp bằng kỹ thuật tổng hợp riêng tư khác, cụ
thể kỹ thuật vector thưa (SVT), khung học học sâu được xuất đã có một ngân sách
riêng tư chấp nhận được, cố định và có thể trả lời vơ số u cầu dự đốn. Điều này
là rất phù hợp với huấn luyện bằng học sâu.
• Cuối cùng, đề tài mở rộng giải pháp trong ứng dụng học phân tán. Bằng việc sử
dụng lược đồ mã hoá đồng hình một phần Paillier, khung học sâu bảo vệ riêng tư
được đề xuất có thể được áp dụng thực tiễn cho học đa bên và loại trừ được rủi ro
về các vấn đề an tồn thơng tin và riêng tư dữ liệu tron ngữ cảnh có bên nửa trung
thực (semi-honest/curious-but-honest).
Trong quá trình giải quyết các vấn đề nêu trên thì song hành với đó đề tài cũng có các
kết quả khoa học tương ứng. Bài báo khoa học (??) là kết quả của đóng góp đầu và các
bài báo khoa học (??, ??) là kết quả của đóng góp còn lại.
7
1.3
1.3.1
Ý nghĩa đề tài
Ý nghĩa khoa học
Nghiên cứu về phương pháp học sâu bảo vệ tính riêng tư, trước hết, sẽ góp phần làm
giảm thiểu rủi ro lộ dữ liệu riêng tư hoặc dữ liệu mà chủ dữ liệu không muốn cơng khai
của các mơ hình học. Qua đó tăng sự tin tưởng của chủ dữ liệu đối với công ty/ tổ chức/
nhà khoa học xây dựng mơ hình. Các tổ chức có thể cơ sở để xây dựng các mơ hình khai
phá dữ liệu, tăng trải nghiệm, hài lịng của khách hàng mà không phải lo sợ sẽ bị rủi ro
về pháp lý.
Thứ hai, sự xuất hiện với những hình thức phạt rất nặng của các đạo luật, tiêu biểu là
GDPR địi hỏi các cơng nghệ mà các cơng ty/ tổ chức phải tuân thủ nghiêm ngặt. Học
sâu cũng không phải ngoại lệ. Nếu không đảm bảo được rằng các mơ hình mà mình xây
dựng bảo vệ tính riêng tư cho dữ liệu của chủ dữ liệu, các công ty/ tổ chức sẽ không dám,
không thoải mái trong việc xây dựng và sử dụng.
Rộng hơn, việc nghiên cứu về các phương pháp bảo vệ mạng nơ-ron học sâu trước rủi ro
của việc lộ thông tin riêng tư sẽ giúp chúng ta hiểu sâu hơn về cách thức mà mạng nơ-ron
học sâu học và đưa ra dự đoán, thứ mà trước giờ để được xem là hộp đen (black-box ).
Càng hiểu tốt hơn thì càng giúp thúc đẩy một số mảng nghiên cứu AI đang ngày càng
hấp dẫn gần đây: trí tuệ nhân tạo khả giải thích, khả diễn giải (explanable & interpretable
AI ) - tìm hiểu và giải thích kết quả dự đốn của một mơ hình AI sao cho có thể hiểu được
bởi con người. Mở rộng hơn, hiểu được cách thức hoạt động của mạng nơ-ron học sâu
trên các dữ liệu nhạy cảm còn giúp ta hiểu giải thích các sai lệch về thiên kiến (biases)
và xây dựng các mơ hình, giải thuật học cơng bằng (fair learning).
Bên cạnh đó, học sâu đang dần cho thấy khả năng ứng dụng cách tân của nó trong vơ
vàn lĩnh vực và ngày càng được nghiên cứu khai phá tính ứng dụng vào các lĩnh vực mới
hơn nữa. Tuy nhiên, hiện nay lý thuyết học dựa trên học sâu vẫn cịn chưa hồn tồn
hồn thiện. Nếu một mơ hình, cơng trình nào đó hữu ích thì hãy làm cho nó tốt hơn.
Việc nghiên cứu khía cạnh đưa ra dự đốn riêng tư dữ liệu sẽ làm hoàn chỉnh hơn cho lý
thuyết học dựa trên học sâu. Qua đó, góp phần cho học sâu độ đo khơng chỉ về dự đốn
chính xác mà còn độ đo về bảo vệ riêng tư.
1.3.2
Ý nghĩa thực tiễn
Các cơng nghệ trí tuệ nhân tạo dụa trên học sâu đã, đang và sẽ len lỏi vào hầu hết các
lĩnh vực của cuộc sống. Vì vậy, việc giải quyết được những hạn chế hiện tại của nó, ở đây
là rủi ro lộ dữ liệu riêng tư, có ý nghĩa thực tiễn quan trọng: loại bỏ những điểm hạn chế
- rào cản để công nghệ học sâu đem lại những lợi ích sâu sắc cho xã hội.
Bên cạnh đó, mặc dầu vẫn chưa có và chưa thống kê thiệt hại được những cuộc tấn công
dữ liệu nào vào các hệ thống học sâu gây thiệt hại nghiêm trọng giống như trong các cuộc
tấn công dữ liệu trước đây nhưng dựa vào thực tiễn đang diễn ra, chúng ta thấy được
rằng nếu thực sự có vụ tràn dữ liệu riêng tư do áp dụng cơng nghệ học sâu thì thiệt hại
8
sẽ rất lớn cả về mặt tài chính lẫn niềm tin. Do đó, việc nghiên cứu về phương pháp học
sâu bảo vệ tính riêng tư sẽ giúp tiên liệu trước những trường hợp, khả năng xảy ra và
phòng tránh cả về chủ động lẫn bị động.
1.4
Mục tiêu và phạm vi nghiên cứu
Việc tìm hiểu các cơng trình liên quan cho thấy tuy cũng đã có nhiều giải pháp đề xuất
cho việc bảo vệ tính riêng tư cho các mạng học sâu nhưng nghiên cứu và tìm ra giải pháp
tối ưu cho sự đánh đổi độ chính xác và rủi ro lộ riêng tư vẫn còn là một câu hỏi mở. Bên
cạnh đó, nhiều giải pháp tiếp cận hiện nay vẫn cịn rời rạc, chưa có tính áp dụng cao chỉ
tập trung vào một mạng nơ-ron cụ thể hay một bài toán dự đoán cụ thể, hay chủ yếu
dựa vào quan sát để thêm các hàm chính quy hố tối ưu chứ vẫn chưa có một hướng giải
quyết vững chắc.
Do đó, đề tài hiện tại nhắm đến các mục tiêu chính như sau:
• Nghiên cứu và hiểu rõ được bản chất các cuộc tấn công khai thác riêng tư dữ liệu
của các mơ hình học sâu.
• Tìm hiểu và nghiên cứu các cách bảo vệ tính riêng tư cho học sâu; phân tích và
phân loại phương pháp luận của các cách; đưa ra đánh giá ưu, khuyết điểm.
• Đề xuất và pháp triển được giải pháp bảo vệ tính riêng tư cho học sâu. Giải pháp
này phải chứng minh được bảo vệ tính riêng tư, giữ được sự hữu dụng của mơ hình
học sâu xem xét và trên hết phải chứng minh được về mặt lý thuyết, đánh giá được
về mặt tốn học.
• Đánh giá được điểm mạnh, điểm yếu và khả năng ứng dụng thực tiễn của giải pháp
đề xuất thơng qua việc phân tích, đo đạc độ chính xác, rủi ro lộ tính riêng tư và so
sánh với các cơng trình liên quan.
Học sâu là một lĩnh vực rộng lớn bao gồm: học có giám sát (supervised learning), học
khơng giám sát (unsupervised learning), học nửa giám sát (semi-supervised learning), học
tăng cường (reinforcement learning); về mặt cài đặt có thể có học tập trung (centralized )
hoặc học phân tán (distributed ); về mặt lĩnh vực và bài toán áp dụng thì rộng khắp và
học sâu có thể mọi nơi: thị giác máy tính (phân loại ảnh, nhận biết và phát hiện vật thể,
phân tích video, tái tạo 3D, .v.v); xử lý ngơn ngữ tự nhiên (nhận dạng thực thể có tên,
mơ hình ngơn ngữ, khai phá dữ liệu text,.v.v); robotics.v.v Do đó, để nghiên cứu và áp
dụng rộng khắp các mơ hình học sâu bảo vệ tính riêng tư trong một đề tài là điều khơng
thể. Thay vào đó, đề tài này tập trung vào việc việc tìm các lý thuyết học sâu tổng quát,
nghiên cứu áp dụng các phương pháp bảo vệ tính riêng tư và chứng minh nó về mặt lý
thuyết. Cụ thể hơn, đề tài tập trung phát triển giải thuật học có xác suất bảo vệ tính
riêng tư và các thể áp dụng nó vào một vài bài toán cụ thể để đánh giá khả năng áp dụng
và so sánh với các cơng trình liên quan.
Với giới hạn nghiên cứu đã được trình bày trên, đối tượng nghiên cứu chính của đề tài sẽ
là các mạng nơ-ron học sâu mà cụ thể là các mạng học sâu học có giám sát, học trung
9
tâm. Ngồi ra, sau khi tìm hiểu các cơng trình liên quan thì ta thấy được rằng trong tất
cả các giải pháp hiện tại thì giải pháp dựa vào riêng tư vi phân là một giải pháp chặt
chẽ về mặt tốn học và có khả năng áp dụng cao nên đề tài sẽ hướng trọng tâm sử dụng
riêng tư vi phân và nghiên cứu áp dụng nó làm sao hiệu quả vào các mơ hình học sâu.
1.5
Cấu trúc luận văn
Những nội dung trong quá trình tìm hiểu, nghiên cứu cũng như phát triển giải pháp trong
xuyên suốt quá trình thực hiện luận văn sẽ được trình bày trong 5 chương và 3 phụ lục,
cụ thể theo thứ tự sau:
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI Trong chương đầu tiên, luận văn sẽ giới thiệu
về học sâu và vấn đề bảo vệ tính riêng tư dữ liệu. Trên cơ sở đó, đề tài sẽ đúc kết ra một
số vấn đề cần phải giải quyết trong việc xây dựng một phương pháp học sâu bảo vệ tính
riêng tư và liệt kê một số đóng góp chính. Tiếp đến, chương sẽ trình bày ý nghĩa về mặt
khoa học lẫn thực tiễn của đề tài. Cuối cùng, chương này sẽ kết thúc bằng việc trình bày
về mục tiêu, phạm vi, giới hạn và cấu trúc luận văn.
CHƯƠNG 2. KIẾN THỨC NỀN TẢNG Trong chương này, luận văn sẽ trình bày
ngắn gọn các lý thuyết, cơ sở khoa học được sử dụng trong đề tài. Cụ thể lần lược là: nền
tảng học sâu, riêng tư vi phân, PATE, kỹ thuật vector thưa, lược đồ mã hoá Paillier và
human-in-the-loop.
CHƯƠNG 3. CƠNG TRÌNH LIÊN QUAN Trong chương này, luận văn sẽ trình
bày các tìm hiểu, nghiên cứu phân tích về rủi ro vi phạm riêng tư của các mơ hình học
sâu và các phương pháp bảo vệ được đề xuất trong các cơng trình, bài báo gần đây.
CHƯƠNG 4. GIẢI PHÁP ĐỀ XUẤT Trong chương này, luận văn trình bày cụ thể
và chi tiết về giải pháp được đề xuất - phương pháp học sâu bảo vệ riêng tư.
CHƯƠNG 5. THIẾT KẾ THÍ NGHIỆM VÀ ĐÁNH GIÁ Trong chương này, luận
văn sẽ mơ tả về thí nghiệm, phân tích kết quả thu được của phương pháp được đề xuất.
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong chương cuối cùng,
luận văn tổng kết lại các vấn đề trong quá trình nghiên cứu. Đồng thời nêu ra các hạn
chế cũng như mở ra các hướng phát triển của đề tài trong tương lai.
10
2
KIẾN THỨC NỀN TẢNG
Trong chương này, luận văn sẽ trình bày ngắn gọn các lý thuyết, cơ sở khoa học được sử
dụng trong đề tài. Cụ thể lần lược là: nền tảng học sâu, riêng tư vi phân, PATE, kỹ thuật
vector thưa, lược đồ mã hoá Paillier và human-in-the-loop.
11
2.1
Nền tảng học sâu
Mặc dù lĩnh vực trí tuệ nhân tạo đã có lịch sử cũng khá lâu (có thể xem hội nghị Dartmouth
1956 làm dấu mốc bắt đầu) nhưng AI thực sự bùng nổ và hồi sinh từ mùa đơng (2nd AI
winter 1987–1993) là nhờ vào các mơ hình học dựa trên học sâu [52]. Học sâu là một tập
con của các phương pháp học máy dựa vào các mạng nơ-ron nhân tạo (artificial neural
networks), được lấy cảm hứng từ cách tổ chức thần kinh của con người. Các mơ hình, lý
thuyết học dựa trên mạng nơ-ron (cịn gọi là trường phái kết nối - connectionism) thực ra
cũng đã có trước đó. Tiêu biểu là mạng nơ-ron nhiều lớp (multi-layer perceptrons - MLP
(1967)). Tuy nhiên, trước đây thì các phương pháp này toả ra không hiệu quả hơn các
phương pháp học máy truyền thống. Sự phát minh thuật toán huấn luyện Backpropagation
bởi Geoffrey Hinton và các cộng sự (1986) đã giúp cho mạng nơ-ron học nhanh hơn gấp
nhiều lần. Bên cạnh đó, học sâu thực sự bùng nổ là nhờ Internet ngày càng định hình các
con người sống và dữ liệu từ đó được tạo ra và lưu trữ ngày càng nhiều (dữ liệu lớn - Big
Data) và sự phát triển khả năng xử lý của phần cứng (GPU, TPU) đã tạo điều cho việc
xây dựng những mơ hình học sâu với các lớp ngày càng sâu và phức tạp hơn, đi liền là
khả năng dự đoán vượt trội so với các mơ hình, phương pháp học máy trước đó.
Về mặt cấu trúc, một mơ hình học sâu gồm nhiều lớp (layers) phức tạp, biến đổi phi
tuyến, còn được gọi là hàm kích hoạt (activation functions), tiêu biểu là sigmoid và
rectified linear units (ReLUs) và học được cách biểu diễn (representations) và đưa ra dự
đoán, khác với các kỹ thuật học máy khác như: SVM, cây quyết định, naive Bayes, logistic
regression, ..v.v phải cần bước rút trích đặc trưng (feature extraction) thủ cơng trước khi
đưa vào mơ hình để học. Bên cạnh đó, để huấn luận cấu trúc này có thể học được ta cần
định nghĩa một hàm mất mát (loss function) để tối thiểu hoá đầu ra của cấu trúc với
dữ liệu thực tế. Giả sử dữ liệu cần học {x1 , x2 , ..., xn } , ta cần tìm tập tham số của mơ
hình so cho L(θ) = n1 L(θ; xi ) đạt giá trị nhỏ nhất có thể. Thuật tốn xuống đồi (gradient
descent) được dùng để tìm điểm cực tiểu có khả năng đạt giá trị nhỏ nhất này. Vì các mơ
hình học sâu thường được huấn luyện trên một tập dữ liệu rất lớn nên ta thường không
thể bỏ tất cả các dữ liệu đầu vào học trong một lần mà phải bỏ theo từng lô (batch) và
dùng mini-batch hay stochastic gradient descent để tìm các điểm cực tiểu địa phương.
AlexNet [1] là một mạng nơ-ron học sâu đánh dấu khả năng ứng dụng của các công
nghệ này trong lĩnh vực thị giác máy tính. Nó được xây dựng dựa trên một mạng nơ-ron
đặc biệt, gọi là mạng nơ-ron tích chập (Convolution Neural Network - CNN). Generative
adversarial network (GAN) [53]–[55] là một mạng nơ-ron học sâu có khả năng sinh ra dữ
liệu, ví dụ công nghệ Deepfake [56] sinh ra những mặt người giả từ mạng nơ-ron này. Qua
quá trình phát triển các mạng nơ-ron cho các tác vụ cụ thể từ AlexNet [1] đến ResNet [2],
DenseNet [57], Yolo [58], [59], faster-RCNN [60], transformer [4], BERT [5],.v.v các mơ
hình học sâu ngày càng lớn và nhiều tham số. Việc này dẫn đến cần tìm ra các kỹ thuật
để nén các mơ hình (model compression), tăng tốc độ, ví dụ để triển khai ở các thiết bị
tài nguyên hạn chế hơn như di động, trích xuất tri thức thực sự (dark knowledge), chưng
cất mạng [61] là nhóm các kỹ thuật để thực hiện việc này. Trong đó có kỹ thuật chưng
cất tri thức (knowledge distillation) [61] sử dụng kỹ thuật transfer learning để chuyển tri
thức từ mạng có kiến trúc lớn thành mạng có kiến trúc nhỏ hơn nhưng vẫn giữ lại độ
chính xác tối đa. Những mơ hình chúng tơi liệt kê trên được xếp vào loại học có khơng
có giám sát (unsupervised learning), ví dụ GAN và giám sát (supervised learning) tức là
dữ liệu khi đem vào mạng nơ-ron học sâu có nhãn và khơng có nhãn. Tuy nhiên cịn một
12
cách huấn luyện khác sử dụng cả dữ khơng có nhãn lẫn dữ liệu có nhãn là học nửa giám
sát [62], [63]. Cụ thể thường sử dụng một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữ
liệu khơng có nhãn.
2.2
Riêng tư vi phân
Riêng tư vi phân [36], [37] là một tiêu chuẩn bảo vệ tính riêng tư dữ liệu được xây dựng
dựa trên một cơ sở lý thuyết tốn học vững chắc, đảm bảo rằng sự có mặt hay vắng mặt
của một thể hiện dữ liệu hay một điểm dữ liệu sẽ không ảnh hưởng đến kết quả của một
giải thuật, một mơ hình hay một q trình khai phá dữ liệu nào. Vì sự xuất hiện của một
dữ liệu cá nhân không ảnh hưởng quá nhiều đến kết quả cuối cùng nên khi một mơ hình,
giải thuật cho ra một kết quả và kẻ tấn công suy luận một thơng tin nào đó, chủ dữ liệu
có khả năng từ chối kết quả, gọi là sự phủ nhận hợp lý (plausible deniability). Do đó dữ
liệu cá nhân của chủ liệu đó được bảo vệ về tính riêng tư. Cơ chế trả lời ngẫu nhiên [64],
[65] là một minh hoạ cho tính chất phủ nhận hợp lý này (Hình 2.1). Giả sử một cuộc
khảo sát về việc hút thuốc của thanh niên thì nếu thu thập bằng cách trả lời ngẫu nhiên
này thì P (có) = 12 ∗ p + 14 (với p là xác suất người đó có hút thuốc thực sự và giả sử đồng
2p
xu khơng có thiên kiến (bias)) hay P (hút thuốc∣có) = 2p+1
. Do đó từ kết quả là “có” thì
người cung cấp dữ liệu có thể phủ nhận về kết quả rằng đó là kết quả ngẫu nhiên của mơ
2p
hình, cơ chế với xác suất 2p+1
chứ kết quả không thực sự là vậy. Cơ chế này cịn có thể
mở rộng ra cho đồng xu thiên kiến - tỉ lệ tung được mặt sấp và ngửa khơng phải là 1 ∶ 1.
Hình 2.1: Cơ chế trả lời ngẫu nhiên M để thu thập dữ liệu mà chủ dữ liệu có thể phủ
nhận hợp lý kết quả
Để đạt được điều này giải thuật, mơ hình phải có một sự ngẫu nhiên (randomness) trong
việc xuất ra kết quả. Cụ thể:
Định nghĩa 2.2.1. Một cơ chế ngẫu nhiên M (Hình 2.2) thoả ϵ-differential privacy nếu
với hai tập dữ liệu liền kề D, D′ (khác nhau một điểm dữ liệu duy nhất) với bất kỳ tập kết
quả S ⊆ R (miền kết quả), ta có
P r[M (D) ∈ S] ≤ exp(ϵ) ∗ P r[M (D′ ) ∈ S]