..
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
NGUYỄN THÀNH TÍN
BẢO TỒN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG
TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
TP. HỒ CHÍ MINH, tháng 02 năm 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
NGUYỄN THÀNH TÍN
BẢO TỒN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG
TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. CAO TÙNG ANH
TP. HỒ CHÍ MINH, tháng 02 năm 2016
CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TP. HCM
Cán bộ hƣớng dẫn khoa học : TS. Cao Tùng Anh
Luận văn Thạc sĩ đƣợc bảo vệ tại Trƣờng Đại học Công nghệ TP. HCM
ngày … tháng … năm 2016
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
TT
1
2
3
4
5
Họ và tên
GS.TSKH. Hồng Văn Kiếm
PGS.TS. Võ Đình Bảy
TS. Nguyễn Thị Thúy Loan
TS. Lê Văn Quốc Anh
TS. Lê Tuấn Anh
Chức danh Hội đồng
Chủ tịch
Phản biện 1
Phản biện 2
Ủy viên
Ủy viên, Thƣ ký
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã đƣợc
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV
TRƢỜNG ĐH CƠNG NGHỆ TP. HCM
PHỊNG QLKH – ĐTSĐH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày..… tháng….. năm 20..…
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Thành Tín
Giới tính: Nam
Ngày, tháng, năm sinh: 02/02/1984
Nơi sinh: TP. Hồ Chí Minh
Chuyên ngành: Cơng nghệ thơng tin
MSHV: 1441860029
I- Tên đề tài:
BẢO TỒN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MƠI TRƢỜNG
CƠ SỞ DỮ LIỆU LỚN
II- Nhiệm vụ và nội dung:
- Nghiên cứu khai thác với dữ liệu lớn.
- Nghiên cứu các phƣơng thức kỹ thuật bảo vệ tính riêng tƣ hiện có.
- Nghiên cứu phƣơng thức bảo đảm tính riêng tƣ của dữ liệu dựa trên hàm
Cosine.
- So sánh phƣơng thức đƣợc giới thiệu và các phƣơng thức liên quan.
- Xây dựng chƣơng trình demo.
- Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.
- Nghiên cứu tổng quan về dữ liệu lớn và các khái niệm có liên quan.
- Tìm hiểu các kỹ thuật khai thác dữ liệu lớn bảo đảm tính riêng tƣ hiện có
để đánh giá các ƣu, nhƣợc điểm của từng thuật toán.
- Nghiên cứu, tìm hiểu phƣơng thức cải tiến bảo đảm tính riêng tƣ dựa trên
hàm cosine nhằm khắc phục các nhƣợc điểm của các kỹ thuật đã có.
- Xây dựng chƣơng trình demo và đánh giá kết quả đạt đƣợc.
III- Ngày giao nhiệm vụ: 15/07/2015
IV- Ngày hoàn thành nhiệm vụ: 15/02/2016
V- Cán bộ hƣớng dẫn: TS. Cao Tùng Anh
CÁN BỘ HƢỚNG DẪN
KHOA QUẢN LÝ CHUYÊN NGÀNH
i
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai cơng bố trong bất kỳ
cơng trình nào khác.
Tơi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc.
Học viên thực hiện luận văn
Nguyễn Thành Tín
ii
LỜI CÁM ƠN
Trƣớc tiên, em gửi lời cám ơn chân thành đến thầy cô trƣờng đại học Công
Nghệ TP.HCM đã truyền đạt kiến thức, kinh nghiệm trong suốt quá trình em học tại
trƣờng.
Em xin gửi lời cảm ơn sâu sắc đến TS. Cao Tùng Anh. Thầy đã tận tình
hƣớng hƣớng dẫn, chỉ bảo và giúp đỡ em trong suốt quá trình thực hiện luận văn.
Em cũng xin gửi lời cám ơn đến các bạn học viên trong lớp cao học khoá
2014-2015 đã tạo điều kiện, chia sẻ những kiến thức để em có thể hồn thành khố
học.
Cuối cùng, em xin gửi lời cám ơn đến gia đình, ngƣời thân, bạn bè đã ln
động viên em trong q trình học tập, cũng nhƣ thực hiện luận văn.
TP Hồ Chí Minh, ngày......tháng......năm 2016
Học viên
Nguyễn Thành Tín
iii
TĨM TẮT
Trong những năm gần đây, cơng nghệ phát triển nhanh kéo theo sự phát triển
nhanh của ngành công nghệ thông tin. Công nghệ bán dẫn phát triển đã tạo ra nhiều
đột phá, các phần cứng ngày càng rẻ hơn, các bộ xử lý và các thiết bị lƣu trữ ngày
càng lớn. Bên cạnh đó với sự phát triển lớn mạnh của các cơng ty, tập đồn đa quốc
gia và sự phát triển mạnh của mạng xã hội dẫn đến dữ liệu lƣu trữ phát triển theo
cấp số nhân. Một kỷ nguyên mới trong lĩnh vực công nghệ thông tin đã ra đời: kỷ
nguyên khai thác dữ liệu lớn. Đặc trƣng dung lƣợng lớn, phát triển nhanh và đa
dạng của dữ liệu lớn đã tạo ra nhiều thách thức trong việc khai thác. Bên cạnh đó
thách thức lớn hơn là phải bảo đảm tính riêng tƣ trong kỷ nguyên khai thác dữ liệu
lớn.
Trên thế giới đã có nhiều nghiên cứu về khai thác dữ liệu, và cũng có nhiều
các nghiên cứu về khai thác dữ liệu lớn đƣợc tiến hành. Tuy nhiên việc khai thác
hiệu quả dữ liệu lớn nhƣng vẫn bảo đảm tính riêng tƣ vẫn chƣa đƣợc chú trọng.
Tại Việt Nam, các nghiên cứu phát triển, các phƣơng pháp khai thác dữ liệu
đƣợc chú trọng, khai thác trên dữ liệu lớn cũng nhận đƣợc nhiều quan tâm. Tuy
nhiên khai thác hiệu quả dữ liệu lớn và bảo đảm tính riêng tƣ vẫn cịn hạn chế.
Trong khai thác dữ liệu lớn, việc tính tốn độ tƣơng đồng Cosine đƣợc sử dụng
nhiều. Vì vậy việc giải quyết hiệu quả tính tốn và bảo đảm tính riêng tƣ khi tính
tốn độ tƣơng đồng Cosine sẽ cải thiện đƣợc hiệu quả trong khai thác dữ liệu lớn.
Với những lý do trên, học viên đã chọn đề tài ―BẢO TỒN TÍNH RIÊNG
TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN‖ để
làm đề tài nghiên cứu của mình.
iv
ABSTRACT
In recent years, technology has developed rapidly, leading to the rapid
development of information technology major. Semiconductor technology
development has created many breakthroughs, the hardware becomes cheaper, the
processor and the storage devices were growing. Besides, the strong growth of
companies, multinational corporations and the social network makes the
exponentially developement of data storage. A new age of information technology
was born - the big data mining age. At the other sides, the more greater challenge is
the privacy assurance of the big data mining area.
There are many data mining researching projects in over the world, and also
most of them are conducted. However the privacy assurance of the effectively
exploiting large data work has been less attention. At the recently time in Vietnam,
the data mining methods researching and developing projects also the large dara
mining were being focused. However, the privacy assurance of the effectively
exploiting large data has been still less. In large data mining, the Cosine similarities
calculating is being used so much. So, the effectively calculating solutions and
privacy assurance in Cosine similarities calculating will improve efficiencies in
large data mining.
For these reasons, we choose the topic "THE USER'S PRIVACY
SECURITY IN BIG DATABASE ENVIRONMENT" to do their research.
v
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................... i
LỜI CÁM ƠN ........................................................................................................................ ii
TÓM TẮT .............................................................................................................................iii
ABSTRACT.......................................................................................................................... iv
MỤC LỤC ............................................................................................................................. v
DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................................... vii
DANH MỤC CÁC BẢNG .................................................................................................viii
DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH ........................................... ix
CHƢƠNG 1 ĐẶT VẤN ĐỀ.............................................................................................. 1
1.1 Tình hình nghiên cứu trên thế giới ......................................................................... 2
1.2 Tình hình nghiên cứu trong nƣớc ........................................................................... 3
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT ................................................................................... 5
2.1 Tổng quan dữ liệu lớn ............................................................................................ 5
2.1.1 Dung lƣợng ...................................................................................................... 6
2.1.2 Tốc độ .............................................................................................................. 6
2.1.3 Tính đa dạng .................................................................................................... 6
2.1.4 Giá trị ............................................................................................................... 6
2.2 Khai thác dữ liệu lớn .............................................................................................. 6
2.2.1 Đặc tính của dữ liệu lớn HACE ....................................................................... 7
2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều ................................................. 7
2.2.1.2
Các nguồn dữ liệu độc lập và kiểm sốt phân tán khơng tập trung .......... 7
2.2.1.3
Phức tạp và bao hàm các mối quan hệ...................................................... 8
2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn .......................................... 10
2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn ..................................................... 11
2.2.2.2 Lớp 2: ngữ nghĩa dữ liệu lớn và vùng kiến thức chuyên biệt của ứng
dụng ................................................................................................................ 12
2.2.2.3
Lớp 3: thuật toán khai thác dữ liệu lớn ................................................... 14
2.3 Mã hoá dữ liệu ...................................................................................................... 19
2.3.1 Mã hoá đối xứng căn bản ............................................................................... 19
2.3.1.1 Mã hoá Ceasar ........................................................................................ 19
2.3.1.2
Mơ hình mã hố đối xứng....................................................................... 21
2.3.1.3
Mã hốn vị .............................................................................................. 23
2.3.2 Mã hoá đối xứng hiện đại .............................................................................. 25
2.3.2.1 Mã dịng .................................................................................................. 27
2.3.2.2
Trao đổi khố bí mật bằng trung tâm phân phối khoá ............................ 35
2.3.3 Mã hoá bất đối xứng ...................................................................................... 38
2.3.3.1 RSA ........................................................................................................ 40
2.3.3.2
Độ an toàn của RSA ............................................................................... 43
2.3.3.3
Bảo mật, chứng thực và không từ chối với mã hố cơng khai ............... 45
2.3.3.4
Trao đổi khố .......................................................................................... 46
vi
2.3.3.5
Phƣơng pháp trao đổi khoá Diffie – Hellman ........................................ 49
CHƢƠNG 3 PHƢƠNG THỨC CẢI TIẾN TÍNH TỐN BẢO TỒN TÍNH RIÊNG
TƢ TRÊN DỮ LIỆU LỚN. ................................................................................................. 52
3.1 Kiến trúc của phân tích dữ liệu lớn ...................................................................... 52
3.2 Các kỹ thuật bảo vệ tính riêng tƣ phổ biến ........................................................... 53
3.3 Độ tƣơng đồng Cosine .......................................................................................... 55
3.4 Phƣơng thức đề xuất tính toán độ tƣơng đồng Cosine bảo đảm sự riêng tƣ ........ 56
3.5 Thực nghiệm ......................................................................................................... 62
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ........................................................................... 72
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................................. 74
vii
DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu, viết tắt
RSA
Ý nghĩa tiếng Anh
Ý nghĩa tiếng Việt
Ron Rivest, Adi Shamir và Tên viết tắt ba ký tự đầu
Len Adleman
của tên ba nhà khoa học.
Họ đã đƣa ra hệ mật mã
khố cơng khai.
HACE
Heterogeneous, Autonomous, Đặc tính của dữ liệu lớn:
Complex and Evolving
(Heterogeneous) khơng đồng
nhất, (Autonomous) nguồn
độc
lập,
(Complex
and
Evolving) và có nhu cầu khai
thác mối quan hệ phức tạp và
phát triển .
3V, 4V
Volume, Velocity, variety, Các đặc trƣng của dữ liệu
and Value
lớn: Dung lƣợng, Tốc độ,
Đa dạng và Giá trị
CT
Computerized Tomography Đây là phƣơng pháp chẩn
đoán hình ảnh bằng việc sử
dụng tia x để tạo nên các
bức ảnh về mặt cắt các bộ
phận trên cơ thể
GPS
Global Positioning System
Hệ thống xác định vị trí
GSM
Global System for Mobile
Hệ thống thơng tin di động
tồn cầu
viii
DANH MỤC CÁC BẢNG
Bảng 2-1 Thời gian vét cạn khoá theo kích thƣớc khố [5].................................23
Bảng 2-2 Bảng liệt kê các mốc phá mã RSA [5] ...................................................44
ix
DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH
ẢNH
Hình 2-1 Framework xử lý dữ liệu lớn[11] .............................................................9
Hình 2-2 Mơ hình mã hố đối xứng [5] .................................................................22
Hình 2-3 Mơ hình mã dịng [5] ...............................................................................27
Hình 2-4 Mã hố dịng A5/1 [5] ..............................................................................31
Hình 2-5 Trao đổi khố bí mật dùng KDC [5] .....................................................37
Hình 2-6 Mơ hình bảo mật với mã hố khố cơng khai [5] .................................45
Hình 2-7 Mơ hình kết hợp bảo mật, chứng thực và khơng từ chối [5]...............46
Hình 2-8 Trao đổi khố cơng khai tự phát [5] ......................................................46
Hình 2-9 Trao đổi khố cơng khai dùng trung tâm chứng thực [5] ...................48
Hình 2-10 Thiết lập khố phiên bí mật bằng mã hố khố cơng khai [5] .........49
Hình 2-11 Tấn cơng kẻ-đứng-giữa với phƣơng pháp Diffie—Hellman [5] .......50
Hình 2-12 Bảo vệ khố bằng khố Diffie-Hellman cơng khai [5] .......................51
Hình 3-1 Kiến trúc tổng qt của phân tích dữ liệu lớn [8] ................................52
Hình 3-2 Phƣơng pháp tính độ tƣơng đồng Cosine cải tiến ................................57
Hình 3-3 Giao diện shell của Python 3.5 ...............................................................64
Hình 3-4 Giao diện file code các thuật tốn ..........................................................65
Hình 3-5 File shell lấy kết quả thực nghiệm .........................................................66
Hình 3-6 File dữ liệu CSV kết quả thực nghiệm ..................................................67
Hình 3-7 File chƣơng trình Excel tổng kết dữ liệu...............................................68
Hình 3-8 File tổng kết kết quả các lần thực nghiệm ............................................69
Hình 3-9 Biểu đồ so sánh thời gian tính tốn độ tƣơng đồng Cosine .................70
1
CHƯƠNG 1 ĐẶT VẤN ĐỀ
Trong những năm gần đây, sự bùng nổ cơng nghệ trong các lĩnh vực nói
chung và trong lĩnh vực cơng nghệ thơng tin nói riêng có những bƣớc phát triển
vƣợt bậc. Các thiết bị công nghệ thơng tin phát triển nhanh đến chóng mặt, đặc biệt
là thiết bị xử lý và lƣu trữ. Sự phát triển theo cấp số nhân của dữ liệu đã dẫn đến
một kỷ nguyên mới của công nghệ thông tin: kỷ nguyên khai thác trên dữ liệu lớn.
Các lợi ích khai thác trên dữ liệu lớn đã rõ ràng, điển hình là việc khai thác dữ liệu
lớn để dự đốn và tìm khu vực bùng nổ dịch cúm H1N1 của các kỹ sƣ Google vào
năm 2009 [6]. Trƣớc đó hệ thống tìm kiếm Google đều lƣu lại các từ khố tìm kiếm,
thơng qua đó, các kỹ sƣ Google đã lấy dữ liệu bùng nổ dịch cúm mùa Đông theo
vùng ở Mỹ từ cục y tế từ năm 2003 đến 2008, sau đó dùng các thuật toán so sánh
với các câu truy vấn cùng thời gian đó của ngƣời dùng, họ đã tìm đƣợc mối liên hệ
giữa các từ khoá truy vấn và sự bùng phát của dịch cúm mùa Đông ở Mỹ. Từ đó các
kỹ sƣ Google có thể dự đốn đƣợc sự bùng nổ của dịch cúm H1N1 trong từng khu
vực qua việc truy vấn bằng các từ khoá.
Bên cạnh lợi ích của khai thác dữ liệu lớn, việc khai thác dữ liệu lớn cũng
phát sinh nhiều thách thức. Điển hình là thách thức 3V (volume, velocity và variety)
các dữ liệu lớn sẽ rất lớn về số lƣợng (volume), dữ liệu tạo ra với tốc độ rất nhanh
(velocity), và sự đa dạng các nguồn từ dữ liệu (variety). Nhiều nỗ lực nghiên cứu
hiện tại đang xoay quanh các thách thức này. Tuy nhiên, ngoài thách thức 3V, các
nghiên cứu cũng hƣớng đến bảo tồn tính riêng tƣ cho ngƣời dùng. Nếu nhƣ sự bảo
tồn tính riêng tƣ cho ngƣời dùng khơng đƣợc giải quyết tốt thì khai thác dữ liệu lớn
sẽ gặp khó khăn trong q trình phát triển. Ví dụ trong lĩnh vực y khoa và chăm sóc
sức khoẻ, hồ sơ của bệnh nhân rất có ích trong việc phân tích nhƣng những hồ sơ
này rất nhạy cảm, nó tiết lộ tình hình sức khoẻ của bệnh nhân, điều gì sẽ xảy ra nếu
các nhà tuyển dụng có các thơng tin về sức khoẻ của các ứng viên. Do vậy các
thơng tin cần đƣợc bảo vệ tính riêng tƣ cho ngƣời dùng.
2
Bên cạnh các nghiên cứu về khai thác dữ liệu lớn, các biện pháp bảo đảm
tính riêng tƣ của dữ liệu vẫn chƣa đƣợc chú trọng. Theo thống kê của một báo cáo
[1] hầu hết các ngƣời sử dụng web quan tâm đến tính riêng tƣ, trong đó 17% tuyệt
đối không cung cấp thông tin riêng, 56% cung cấp thông tin riêng tƣ nếu có biện
pháp bảo vệ, 82% coi trọng chính sách bảo vệ tính riêng tƣ. Nhƣ vậy đã đến lúc tính
bảo mật riêng tƣ của ngƣời dùng cần đƣợc chú trọng. Hiện tại, dữ liệu ở các cơng
ty, các tập đồn cũng đƣợc xem là tài sản của công ty. Trong thời đại của dữ liệu
lớn, các công ty sẽ tận dụng khai thác trên dữ liệu để tìm ra các qui luật, xu hƣớng
mới trong kinh doanh. Bên cạnh đó, các dữ liệu cũng liên quan đến tính riêng tƣ của
khách hàng, các cơng ty cũng phải ra sức bảo vệ tính riêng tƣ để khơng ảnh hƣởng
đến uy tín và sự phát triển. Do nhu cầu phát triển, các công ty sẽ mở nhiều chi
nhánh mỗi chi nhánh sẽ có nơi lƣu trữ dữ liệu. Các dữ liệu phát triển nhanh, việc
truyền gửi dữ liệu giữa các chi nhánh cần các biện pháp bảo vệ nhƣ mã hoá. Tuy
nhiên việc này sẽ tốn thời gian, không đáp ứng yêu cầu khai thác trong dữ liệu lớn.
Chính vì vậy khi trao đổi dữ liệu giữa các nơi khác nhau, việc nghiên cứu các
phƣơng thức bảo vệ tính riêng tƣ của dữ liệu nhƣng vẫn bảo đảm hiệu quả trong dữ
liệu lớn là vô cùng quan trọng.
1.1 Tình hình nghiên cứu trên thế giới
Khai thác dữ liệu bảo mật riêng tƣ (Privacy Preserving Data Mining): Trong
những năm gần đây, nhiều nghiên cứu về bảo mật riêng tƣ đƣợc tiến hành [8], tuy
nhiên các nghiên cứu chỉ đáp ứng đƣợc phân tích các cơ sở dữ liệu truyền thống mà
không đáp ứng đƣợc bảo mật dữ liệu riêng tƣ trong cơ sở dữ liệu lớn. Ta xét một vài
kỹ thuật hiện tại.
Kỹ thuật bảo mật riêng tƣ tổng hợp (Privacy-preserving aggregation): đƣợc
xây dựng trên một số dạng mã hoá đồng cấu (hormomorphic emcryption) [7]. Đây
là dạng kỹ thuật thu thập dữ liệu phổ biến, dựa trên cơ sở mã hố bất đối xứng với
khố cơng khai (public key) và khóa riêng (private key). Ví dụ khi muốn gửi dữ liệu,
nơi cần gửi dữ liệu phải lấy khố cơng khai của nơi dữ liệu đƣợc gửi đến, mã hoá
3
dữ liệu đó bằng khố cơng khai, sau đó gửi bảng đã mã hoá cho nơi cần gửi đến, nơi
gửi đến sẽ giải mã bằng khoá riêng. Nhƣ vậy sẽ bảo đảm đƣợc tính riêng tƣ. Tuy
nhiên trong mơi trƣờng cơ sở dữ liệu lớn, việc mã hoá và giải mã sẽ mất nhiều thời
gian và tài nguyên để xử lý nên kỹ thuật bảo mật riêng tƣ tổng hợp khơng thích hợp
cho việc khai thác dữ liệu lớn.
Kỹ thuật bảo mật dựa trên mã hoá dữ liệu (Operations over encrypted data):
kỹ thuật đƣợc sử dụng nhiều trong điện toán đám mây [8], các dữ liệu nhạy cảm,
các từ khoá tìm kiếm từ ngƣời dùng đều đƣợc mã hố và đƣợc lƣu trữ trên máy chủ
đám mây. Ngƣời dùng sẽ nhận đƣợc dữ liệu mong muốn và vẫn đƣợc bảo đảm tính
bảo mật riêng tƣ. Tuy nhiên việc mã hố và giải mã cũng sẽ mất thời gian và tài
nguyên khi xử lý trên cơ sở dữ liệu lớn nên kỹ thuật này cũng còn nhiều hạn chế
trong việc khai thác dữ liệu lớn.
Kỹ thuật xoá định danh (De-indentification): là kỹ thuật truyền thống cho
việc khai thác dữ liệu lớn bảo đảm tính riêng tƣ [8]. Kỹ thuật này đƣợc dùng trong
trƣờng hợp các tổ chức muốn chia sẽ dữ liệu nhƣng tránh tiết lộ các thơng tin có
liên quan đến tính riêng tƣ. Ví dụ trong lĩnh vực y khoa, các bệnh viện cần các
nguồn dữ liệu để khai thác các thông tin sẽ tập hợp các hồ sơ bệnh án. Do các hồ sơ
bệnh án rất nhạy cảm vì có các thơng tin cá nhân, các dữ liệu hồ sơ bệnh án sẽ đƣợc
lƣợc bỏ các thông tin cá nhân nhƣng phải bảo đảm các dữ liệu đầy đủ các tính chất
để khai thác tốt. Q trình đó gọi là kỹ thuật xoá định danh trong khai thác dữ liệu
lớn. So với hai kỹ thuật trên, kỹ thuật xố định danh có thể phân tích dữ liệu và khai
thác hiệu quả linh hoạt hơn [8]. Tuy nhiên trong mơi trƣờng dữ liệu lớn vẫn có một
kỹ thuật có thể định danh lại dữ liệu (Re-indentification). Vì thế kết quả là kỹ thuật
xoá định danh vẫn chƣa đáp ứng tốt cho việc bảo vệ riêng tƣ của dữ liệu lớn.
1.2 Tình hình nghiên cứu trong nƣớc
Luận văn Thạc sỹ của Nguyễn Thị Lập (2013) [3] đã nghiên cứu một số kỹ
thuật bảo vệ tính riêng tƣ trong hệ thống dịch vụ dựa trên vị trí. Luận văn cũng đã
nghiên cứu một số biện pháp bảo vệ tính riêng tƣ của ngƣời dùng. Nhƣng chỉ
4
nghiên cứu theo hệ thống dịch vụ dựa trên vị trí địa lý (Location Based Service) chứ
khơng phải nghiên cứu trên môi trƣờng cơ sở dữ liệu lớn.
Luận văn Thạc sỹ của Nguyễn Tuấn Khanh (2012) [4] nghiên cứu về bảo
mật trong điện toán đám mây. Luận văn cũng đã nhắc đến bảo mật riêng tƣ về dữ
liệu cho ngƣời dùng. Tuy nhiên luận văn chỉ nhắc khái quát mà không đi sâu vào
nghiên cứu bảo mật riêng tƣ.
Seminar ―An Tồn Thơng Tin‖ 2012 của Hà Quang Thuỵ (Khoa Cơng Nghệ
Thông tin, Trƣờng đại học Công Nghiệp, Đại Học Quốc Gia Hà Nội) [1] giới thiệu
về khai thác dữ liệu, bảo đảm tính riêng tƣ trong khai thác dữ liệu nhƣng cũng
khơng nghiên cứu sâu về bảo mật tính riêng tƣ trong cơ sở dữ liệu lớn.
Luận văn đƣợc trình bày gồm 3 chƣơng:
Chƣơng 1: Đặt vấn đề, nêu khái quát về dữ liệu lớn, những lợi ích to lớn của
khai thác dữ liệu lớn. Bên cạnh đó cần thiết phải bảo vệ tính riêng tƣ của dữ liệu lớn.
Các cơng trình nghiên cứu bảo vệ tính riêng tƣ khi khai thác dữ liệu lớn trong và
ngoài nƣớc.
Chƣơng 2: Cơ sở lý thuyết, tìm hiểu về dữ liệu lớn, các kỹ thuật khai thác và
lý thuyết về mã hoá.
Chƣơng 3: Phƣơng pháp cải tiến tính tốn bảo tồn tính riêng tƣ trong khai
thác dữ liệu lớn, giới thiệu các phƣơng pháp bảo tồn tính riêng tƣ trong khai thác
dữ liệu lớn hiện có. Giới thiệu một phƣơng pháp cải tiến.
5
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan dữ liệu lớn
Ngày nay, sự phát triển của Internet đã làm thay đổi mạnh mẽ cách thức hoạt
động của các tổ chức. Các ứng dụng Web 2.0, mạng xã hội, điện toán đám mây đã
một phần mang lại cho các tổ chức phƣơng thức kinh doanh mới [2]. Trong kỷ
nguyên của IoT(Internet of Things), các cảm biến đƣợc nhúng vào trong các thiết bị
di động nhƣ điện thoại di động, ô tô và máy móc cơng nghiệp góp phần vào việc tạo
và chuyển dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập đƣợc. Theo một
báo cáo của trung tâm dữ liệu internet (Internal Data Center) năm 2011, lƣợng dữ
liệu đƣợc tạo ra trên thế giới là 1.8ZB (1 zettabyte (ZB) = 240 gigabytes (GB) ~
1.000.000.000.000 GB), tăng gần 9 lần chỉ trong 5 năm. Dƣới sự bùng nổ này, thuật
ngữ dữ liệu lớn đƣợc sử dụng để chỉ những bộ dữ liệu khổng lồ, chủ yếu là những
bộ dữ liệu khơng có cấu trúc, đƣợc thu thập từ nhiều nguồn khác nhau.
Với những tác động trong việc khám phá giá trị tiềm ẩn to lớn, dữ liệu lớn
đang đƣợc xem là một yếu tố mới quan trọng mang lại lợi ích cho các tổ chức trong
nhiều lĩnh vực khác nhau. Trong một khảo sát của tổ chức Oracle Corp và
Accenture PLC, 57% chuyên gia tài chính đánh giá đầu tƣ vào dữ liệu lớn sẽ là yếu
tố then chốt để đạt đƣợc lợi thế cạnh tranh. Chính vì những lợi ích to lớn mà dữ liệu
lớn có thể mang lại, nhiều tổ chức đã đầu tƣ mạnh vào việc nghiên cứu và ứng dụng
vào dữ liệu lớn. Theo một báo cáo từ Gartner, năm 2014, 73% tổ chức đƣợc khảo
sát đã mua hoặc có ý định đầu tƣ vào các dự án dữ liệu lớn, con số này năm 2013 là
64%.
Dữ liệu lớn là thuật ngữ dùng để mơ tả các bộ dữ liệu có kích thƣớc rất lớn,
khả năng phát triển nhanh, và rất khó thu thập, lƣu trữ, quản lý và phân tích với các
cơng cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. Một số đặc trƣng của dữ
liệu lớn bao gồm dung lƣợng (volume), tốc độ (velocity), tính đa dạng (variety), và
giá trị (value)
6
2.1.1 Dung lƣợng
Dung lƣợng của dữ liệu lớn đang tăng lên mạnh mẽ từng ngày. Theo tài liệu
của Intel vào tháng 9/2013, cứ mỗi 11 giây 1 PB dữ liệu đƣợc tạo ra trên toàn thế
giới, tƣơng đƣơng với một đoạn video HD (High Definition Video: phim ảnh với độ
phân giải cao) dài 13 năm. Facebook phải xử lý khoảng 500 TB dữ liệu mỗi ngày.
Lợi ích thu đƣợc từ việc xử lý một khối lƣợng lớn dữ liệu chính là điểm thu hút chủ
yếu của dữ liệu lớn, tuy nhiên cũng đặt ra nhiều khó khăn trong việc tìm ra những
phƣơng pháp, kỹ thuật để xử lý khối lƣợng dữ liệu này.
2.1.2 Tốc độ
Với sự ra đời của các kỹ thuật, công cụ, ứng dụng lƣu trữ, nguồn dữ liệu liên
tục đƣợc bổ sung với tốc độ nhanh chóng. Tổ chức McKinsey Global ƣớc tính
lƣợng dữ liệu đang tăng trƣởng với tốc độ 40%/năm và sẽ tăng 44 lần từ năm 2009
đến 2020.
2.1.3 Tính đa dạng
Dữ liệu đƣợc thu thập từ nhiều nguồn khác nhau, từ các thiết bị cảm biến,
thiết bị di động, qua mạng xã hội .v.v… Các kiểu dữ liệu có cấu trúc, bán cấu trúc
và khơng có cấu trúc tồn tại dƣới nhiều hình thức bao gồm hình ảnh, âm thanh,
video, văn bản, v.v…
2.1.4 Giá trị
Đây là đặc trƣng quan trọng nhất của dữ liệu lớn, đề cập đến q trình trích
xuất các giá trị to lớn đang tiềm ẩn trong các bộ dữ liệu khổng lồ.
2.2 Khai thác dữ liệu lớn
Những lý thuyết dƣới đây đƣợc học viên trích dẫn từ tài liệu tham khảo [11]
bao gồm các mục:
7
2.2.1 Đặc tính của dữ liệu lớn HACE
Dữ liệu lớn thƣờng có đặc tính: dung lƣợng lớn, khơng đồng nhất
(Heterogeneous), nguồn độc lập (Autonomous) với kiểm soát phân tán và khơng tập
trung và có nhu cầu khai thác mối quan hệ phức tạp và phát triển (Complex and
Evolving) giữa các dữ liệu. Những đặc tính này khiến việc khai thác thơng tin hữu
ích từ dữ liệu lớn gặp nhiều khó khăn.
2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều
Một trong những đặc tính cơ bản của dữ liệu lớn là dung lƣợng lớn đƣợc biểu
diễn bởi số chiều đa dạng và không đồng nhất. Điều này là do các bộ thu thập thông
tin khác nhau sử dụng phƣơng pháp riêng để ghi nhận dữ liệu và do bản chất khác
nhau của các ứng dụng cũng dẫn đến sự biểu diễn dữ liệu khác nhau. Ví dụ nhƣ
trong lĩnh vực y - sinh học, mỗi cá thể có thể đƣợc biểu diễn bởi các thông tin nhân
khẩu học nhƣ giới tính, tuổi, tiền sử bệnh tật gia đình… Trong điều trị X-ray và
chụp CT, ảnh và phim đƣợc sử dụng để biểu diễn kết quả. Trong các kiểm tra DNA
hay gene, vi ảnh và chuỗi đƣợc sử dụng để biểu diễn thơng tin về gene. Các tình
huống khác, đặc tính khơng đồng nhất có thể hiểu là cách thức biểu diễn khác nhau
của cùng một dữ liệu. Tƣởng tƣợng rằng các tổ chức y tế khác nhau có các phƣơng
pháp khác nhau để thể hiện thông tin của bệnh nhân. Sự không đồng nhất và đa
dạng về số chiều đã trở thành một trong những khó khăn chủ yếu khi tích hợp dữ
liệu từ nhiều nguồn thơng tin khác nhau.
2.2.1.2 Các nguồn dữ liệu độc lập và kiểm soát phân tán khơng tập trung
Dữ liệu độc lập và kiểm sốt phân tán khơng tập trung là đặc tính chính của
các ứng dụng dữ liệu lớn. Khi mang đặc tính độc lập, mỗi nguồn dữ liệu có khả
năng tạo và thu thập thơng tin mà khơng dựa vào bất kì cơ chế kiểm sốt tập trung
nào. Mặt khác, lƣợng thơng tin khổng lồ cũng làm cho ứng dụng dễ dàng bị tấn
cơng và các tính năng khơng cịn đúng nếu tồn bộ hệ thống chỉ dựa trên một cơ chế
kiểm soát tập trung. Đối với những ứng dụng quan trọng liên quan đến dữ liệu lớn
8
nhƣ Google, Flickr, Facebook, Walmart… thì rất nhiều các server đƣợc triển khai
trên khắp thế giới để đảm bảo dịch vụ đƣợc liên tục và đáp ứng nhanh cho khu vực
nội bộ. Những nguồn thông tin dạng trên không chỉ là do giải pháp thiết kế kĩ thuật
quy định mà còn là do luật pháp và quy định của từng đất nƣớc, vùng miền. Ví dụ
nhƣ thị trƣờng Walmart của châu Á hoàn toàn khác với thị trƣờng Bắc Mĩ về
khuyến mãi theo mùa, những sản phẩm bán chạy nhất và hành vi khách hàng. Đặc
biệt hơn nữa, luật của chính phủ cũng ảnh hƣởng tới quy trình quản lý bán hàng
tồn bộ và thậm chí ảnh hƣởng tới biểu diễn dữ liệu và kho dữ liệu trong các thị
trƣờng.
2.2.1.3 Phức tạp và bao hàm các mối quan hệ
Khi dung lƣợng dữ liệu lớn ngày càng gia tăng, độ phức tạp và các mối quan
hệ tiềm tàng trong dữ liệu cũng gia tăng. Trong giai đoạn đầu, việc tìm ra đặc tính
tốt nhất để biểu diễn hay đặc trƣng cho các quan sát đƣợc là điểm mấu chốt. Điều
này tƣơng tự nhƣ việc sử dụng nhiều trƣờng dữ liệu nhƣ tuổi tác, giới tính, thu
nhập, nền tảng giáo dục… để đặc trƣng cho từng cá thể. Kiểu biểu diễn đặc trƣng
cho mẫu dữ liệu này coi mỗi cá thể là thực thể độc lập và không xét tới mối quan hệ
xã hội giữa các cá nhân. Các cá nhân hình thành mối quan hệ bạn bè thơng qua sở
thích chung hoặc hình thành quan hệ thơng qua kết nối sinh học. Những kết nối nhƣ
vậy tồn tại trong cả đời sống thực và thế giới ảo nhƣ mạng xã hội Twitter,
Facebook. Mối tƣơng quan giữa các cá thể này khiến việc biểu diễn dữ liệu và quá
trình lý giải trở nên phức tạp hơn. Trong cách biểu diễn đặc trƣng của mẫu, các cá
thể đƣợc cho là giống nhau nếu chúng có giá trị đặc tính tƣơng tự nhau. Cịn trong
cách biểu diễn mối quan hệ đặc trƣng mẫu, hai cá thể đƣợc kết nối với nhau (thông
qua kết nối xã hội) ngay cả khi chúng khơng có chung bất kì đặc tính trong cùng
một vùng đặc tính nào đó. Trong thế giới thực, các đặc trƣng đƣợc dùng để biểu
diễn các cá thể và các ràng buộc xã hội dùng để biểu diễn kết nối có thể liên hệ với
nhau về mặt thời gian, không gian và các nhân tố khác. Sự phức tạp này dần hiện
hữu trong các ứng dụng dữ liệu lớn.
9
Khai thác trên dữ liệu
động và phức tạp
Chia sẻ thông tin và tính
riêng tư của dữ liệu
Nền tảng
khai thác dữ
liệu lớn
Học nội bộ và phân
rã mơ hình
Lớp 1
Lớp 2
Lớp 3
ứng dụng và tri thức
của dữ liệu lớn
Khai thác từ dữ liệu đa
nguồn, khơng đầy đủ và
khơng chắc chắn
Hình 2-1 Framework xử lý dữ liệu lớn [11]
Lớp 1: nền tảng khai thác dữ liệu lớn (tập trung vào xử lí dữ liệu ở cấp độ
thấp và tính tốn).
Lớp 2: riêng tƣ và chia sẻ thông tin (tập trung vào ngữ nghĩa ở cấp độ cao,
vùng kiến thức của ứng dụng và các vấn đề về sự riêng tƣ của ngƣời dùng).
Lớp 3 ngoài cùng tập trung chủ yếu vào các thuật toán khai thác dữ liệu thực
tế.
10
2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn
Trong một hệ thống cơ sở dữ liệu học thông minh để giải quyết đƣợc vấn đề
dữ liệu lớn, điều cốt yếu là phân chia dung lƣợng dữ liệu lên mức lớn nhất và cung
cấp giải pháp cho các đặc tính đặc trƣng bởi quy luật HACE. Hình 2-1 thể hiện ở
góc độ lý thuyết của framework xử lí dữ liệu lớn, với ba riêng của lĩnh vực và ba
lớp.
Thách thức ở lớp 1: Dữ liệu lớn thƣờng đƣợc chứa ở nhiều nơi khác nhau
và dung lƣợng dữ liệu có thể tăng liên tục. Do vậy, cần phải có nền tảng tính tốn
hiệu quả để lấy các nguồn dữ liệu phân tán mức độ cao để đƣa vào tính tốn. Ví dụ:
các thuật tốn khai thác dữ liệu tiêu biểu yêu cầu trƣớc tiên tất cả các dữ liệu phải
đƣợc tải lên bộ nhớ chính. Đây rõ ràng là rào cản đối với dữ liệu lớn vì chi phí sẽ rất
cao cho việc di chuyển dữ liệu từ nhiều vị trí khác nhau (do bởi chi phí giao tiếp
mạng tập trung và chi phí thiết bị), mặc dù có thể bộ nhớ chính đủ lớn để chứa tất cả
dữ liệu cho tính tốn.
Thách thức ở lớp 2: thơng tin ở lớp 2 có thể đem lại nhiều lợi ích cho quá
trình khai thác, cũng nhƣ tạo ra rào cản kĩ thuật đối với lớp 1 và 3. Ví dụ: tùy thuộc
vào ứng dụng trong từng lĩnh vực, cơ chế chia sẻ thông tin và bảo mật dữ liệu giữa
nguồn cung cấp và nơi sử dụng thông tin khá khác biệt nhau. Chia sẻ dữ liệu hệ
thống mạng lƣới cảm ứng cho các ứng dụng nhƣ giám sát lƣu lƣợng nƣớc thƣờng
không bị ngăn cản nhƣng chia sẻ thông tin về vị trí ngƣời sử dụng di động rõ ràng
khơng đƣợc chấp nhận. Ngồi những vấn đề về tính riêng tƣ bảo mật trên, các lĩnh
vực của ứng dụng còn có thể cung cấp thêm thơng tin nhằm hỗ trợ và hƣớng dẫn
thiết kế cho các thuật toán khai thác dữ liệu. Việc hiểu ngữ nghĩa và kiến thức
chuyên ngành trong từng ứng dụng đều quan trọng trong cả việc truy cập dữ liệu ở
cấp độ thấp và thiết kế thuật toán khai thác ở cấp độ cao.
Thách thức ở lớp 3: lớp thứ 3 bao gồm ba giai đoạn. Đầu tiên, dữ liệu đa
nguồn, không đầy đủ, không chắc chắn, không đồng nhất và không tập trung đƣợc
tiền xử lí bởi các kĩ thuật liên hợp. Sau đó, dữ liệu động và phức tạp tiếp tục đƣợc
khai thác. Cuối cùng, kiến thức chung đạt đƣợc bởi quá trình học nội bộ và phân rã
11
mơ hình đƣợc thí nghiệm và thơng tin liên quan sẽ đƣợc phản hồi lại giai đoạn tiền
xử lý trƣớc đó. Mơ hình và các tham số sẽ đƣợc điều chỉnh tùy thuộc vào phản hồi.
Trong tồn bộ q trình, chia sẻ thông tin luôn đƣợc chú trọng.
2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn
Trong các hệ thống khai thác dữ liệu tiêu biểu, quy trình khai thác địi hỏi các
đơn vị tính tốn tập trung chun sâu để phân tích dữ liệu và so sánh. Một nền tảng
tính tốn tốt cần phải có khả năng truy cập hữu hiệu tới ít nhất là hai nguồn tài
nguyên: dữ liệu và bộ xử lí tính tốn. Đối với các tác vụ khai thác dữ liệu quy mô
nhỏ, một máy tính để bàn có thể đáp ứng đƣợc. Đối với các tác vụ khai thác dữ liệu
quy mơ trung bình, dữ liệu khá lớn, khả năng là phân tán và có thể vƣợt quá giới
hạn của bộ nhớ. Giải pháp thƣờng dựa vào kĩ thuật tính tốn song song hay khai
thác thu thập để lấy mẫu và tích hợp dữ liệu từ nhiều nguồn khác nhau, sau đó sử
dụng lập trình tính tốn song song để tiến hành q trình khai thác.
Đối với dữ liệu lớn, bởi vì quy mơ dữ liệu vƣợt xa so với khả năng mà một
máy tính để bàn có thể, nên framework xử lí dữ liệu lớn tiêu biểu sẽ dựa trên các
cụm máy tính có nền tảng tính tốn hiệu suất cao. Trong đó, tác vụ khai thác dữ liệu
đƣợc triển khai bởi công cụ lập trình song song nhƣ MapReduce trên số lƣợng lớn
các node tính tốn. Vai trị của phần mềm là đảm bảo rằng trong tác vụ khai thác dữ
liệu đơn nhƣ tìm ra kết hợp tốt nhất của truy xuất từ cơ sở dữ liệu với hàng tỉ mẫu
dữ liệu. Ví dụ nhƣ siêu máy tính Titan – triển khai tại phịng thí nghiệm quốc gia
Oak Ridge ở Tennessee, Hoa Kì – chứa 18.688 node với mỗi node là bộ xử lý 16core.
Những hệ thống dữ liệu lớn mà kết hợp giữa phần cứng và phần mềm thƣờng
đƣợc hỗ trợ nhiều từ công nghiệp. Trong thực tế, hàng chục năm nay, các công ty
thƣờng ra quyết định dựa vào dữ liệu giao dịch đƣợc lƣu trữ trong cơ sở dữ liệu
quan hệ. Khai thác dữ liệu lớn mang lại cơ hội tận dụng quan hệ của cơ sở dữ liệu
và dữ liệu ít cấu trúc hơn: weblogs, truyền thơng xã hội, thƣ điện tử, cảm ứng, hình
ảnh... có thể đƣợc khai thác để đem lại thơng tin hữu ích. Các công ty làm về lĩnh