Tải bản đầy đủ (.pdf) (35 trang)

Công cụ Bulk Extractor trong Kali Linux

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.3 MB, 35 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
KHOA CƠNG NGHỆ THƠNG TIN

HỌC PHẦN: AN TỒN MẠNG NÂNG CAO
BÀI BÁO CÁO: TÌM HIỂU CƠNG CỤ BULK-AXTRACTOR

Giảng viên hướng dẫn:
Sinh viên thực hiện:
Nhóm lớp:

TS. Đặng Minh Tuấn
Vũ Ngọc Ánh – B17DCAT017
03

Hà Nội, 06/2021

1


LỜI NĨI ĐẦU
Trong lĩnh vực an tồn thơng tin, Computer Forensics [1] hay cịn gọi là
điều tra số là cơng việc phát hiện, bảo vệ và phân tích thơng tin được lưu trữ,
truyền tải hoặc được tạo ra bởi một máy tính hoặc mạng máy tính, nhằm đưa ra
các suy luận hợp lý để tìm ngun nhân, giải thích các hiện tượng trong quá
trình điều tra. Khái niệm Forensics (Forensic Science – khoa học pháp y) như
tên gọi của nó xuất phát từ lĩnh vực y tế từ thế kỷ 18 và liên quan đến điều tra
pháp y. Ngày nay Forensics đã được mở rộng ra rất nhiều lĩnh vực khác.
Computer Forensics ra đời vào những năm 1980 do sự phát triển của máy tính
cá nhân, khi xảy ra trộm cắp thiết bị phần cứng, mất mát dữ liệu, vi phạm bản
quyền, virus máy tính phá hoại… Các doanh nghiệp và chính phủ các nước khi
đó cũng ý thức hơn về vấn đề bảo mật. Từ đây và trong các loạt bài về sau, khi


tơi dùng từ Forensics thì mọi người hiểu là đang nói về Computer Forensics.
Nếu bạn là chủ nhân của một website nào đấy, một ngày đẹp trời website
của bạn bị hacker ghé thăm và để lại những hậu quả không mong muốn. Bạn
muốn xác định nguyên nhân bị tấn cơng, tìm cách khắc phục để sự việc không
tái diễn hay xa hơn là xác định thủ phạm. Đó là lúc bạn cần đến Forensics. Đấy
chỉ là một ví dụ khá điển hình, ngồi ra cịn những trường hợp khác như để phát
hiện mã độc trên máy tính, kiểm tra sự bất thường trong mạng, phát hiện sự xâm
nhập… Nói chung Forensics giúp chúng ta xác định được nguyên nhân sự cố và
đưa ra các biện pháp giải quyết tiếp theo. Nói về Forensics thì khơng thể không
nhắc đến một nguyên tắc kinh điển của khoa học điều tra.
Mục tiêu cốt lõi của Computer Forensic là phát hiện, bảo quản, khai thác,
tài liệu hóa và đưa ra kết luận về dữ liệu thu thập được. Cần lưu ý rằng dữ liệu
phải đảm bảo tính xác thực, và được lấy mà không bị hư hại, nếu không dữ liệu
đấy sẽ khơng cịn ý nghĩa.
Trong báo cáo chúng ta sẽ cùng nghiên cứu về 1 công cụ pháp ý kỹ thuật số rất
mạnh trên kali linux là Bulk_extractor.

2


MỤC LỤC
CHƯƠNG 1: LÝ THUYẾT TỔNG QUAN VỀ DỊCH VỤ FORENSIC – ĐIỀU
TRA SỐ ................................................................................................................. 1
CHƯƠNG 2: GIỚI THIỆU CÔNG CỤ BULK_EXTRACTOR .......................... 3
2.1 Tổng quan về Bulk_extractor....................................................................... 3
2.2

Lịch sử ...................................................................................................... 5

2.3 Kiến trúc hoạt động và tính năng ................................................................. 7

2.3.1 Kiến trúc hoạt động ................................................................................ 7
2.3.2 Xử lý dữ liệu ........................................................................................ 11
a. Các định dạng dữ liệu đầu vào .............................................................. 11
b. Scanners ................................................................................................. 11
c. File Carving ........................................................................................... 13
d. Loại bỏ các trùng lặp ............................................................................. 14
e. Sử dụng danh sách cảnh báo ................................................................. 16
f. Xử lý dữ liệu nén ..................................................................................... 17
2.3.3 Các tính năng của Bulk_extractor ........................................................ 17
a. Điều tra phần mềm độc hại ................................................................... 17
b. Điều tra Mạng ........................................................................................ 18
c. Điều tra danh tính .................................................................................. 19
d. Bẻ khóa mật khẩu ................................................................................... 22
CHƯƠNG 3: KỊCH BẢN VÀ MƠ HÌNH THỰC NGHIỆM CƠNG CỤ BULK_
EXTRACTOR ..................................................................................................... 23
3.1

Phân tích dữ liệu thu thập được từ việc quét ổ đĩa bằng Bulk_extractor 23

3.2 Kết luận ...................................................................................................... 28
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 29

3


DANH MỤC HÌNH ẢNH
Hình 1. 1. Giao diện người dùng của Bulk_extrator ................................................. 4
Hình 1. 2. Một câu chuyện thành công ban đầu của Bulk_extrator đến từ cảnh
sát Thành phố San Luis Obispo. ............................................................................... 6
Hình 2. 1. Ba giai đoạn của hoạt động với Bulk_extrator. 7

Hình 2. 2. Các tính năng tệp email.txt....................................................................... 8
Hình 2. 3. Cấu trúc file histogram.txt. ...................................................................... 9
Hình 2. 4. Các tính năng địa chỉ email .................................................................... 10
Hình 2. 5.forensic path của tính năng email dẫn ngược về luồng HTTP. .............. 10
Hình 2. 6. Danh sách mẫu output của lệnh. ............................................................ 11
Hình 2. 7. Sự khác nhau giữa dùng Stoplist và khơng dùng Stoplist ..................... 16
Hình 2. 8. Tệp danh sách cảnh báo mẫu. ................................................................ 16
Hình 2. 9. Hướng dẫn về cứ pháp được sử dụng bởi Lightgrep Scanner. .............. 21
Hình 3. 1. Kết quả sau khi quét ổ đĩa. 24
Hình 3. 2. Số thẻ credit card qt được................................................................... 24
Hình 3. 3. Domain đã được trích xuất. .................................................................... 25
Hình 3. 4. Domain dữ liệu thơ................................................................................. 25
Hình 3. 5. Dữ liệu email quét được dưới dạng thô. ................................................ 26
Hình 3. 6. Dữ liệu email đã được trích xuất. ........................................................... 26
Hình 3. 7. Các số điện thoại đã quét được. ............................................................. 27

4


DANH MỤC BẢNG BIỂU
Bảng 2. 1. Các định dạng scanner. .......................................................................... 13
Bảng 2. 2. Bảng chế đọ carving file. ....................................................................... 14

5


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Mô tả


URL

Uniform Resource Locator

PDF

Portable Document Format

PE

Portable Executable

VCF

Virtual Contact File

SSD

Solid State Driver

I/O

Input /Output

GB

Gigabyte

GUI


Graphical User Interface

GPS

Global Positioning System

SSl

Secure Sockets Layer.

AES

Advanced Encryption Standard

SHA1

Secure Hash Algorithm 1

6


CHƯƠNG 1: LÝ THUYẾT TỔNG QUAN VỀ DỊCH VỤ FORENSIC –
ĐIỀU TRA SỐ
1.1. Khái niệm Forensic
- Forensic không phải là khái niệm xa lạ với những người làm an tồn
thơng tin, nhưng với số đơng người dùng thì vẫn là một khái niệm khá
mới mẻ.
- Trong lĩnh vực an toàn thơng tin, Forensics hay cịn gọi là điều tra số
là cơng việc phát hiện, bảo vệ và phân tích thơng tin được lưu trữ,

truyền tải hoặc được tạo ra bởi một máy tính hoặc mạng máy tính,
nhằm đưa ra các suy luận hợp lý để tìm ngun nhân, giải thích các
hiện tượng trong quá trình điều tra.
1.2. Mục tiêu của Forensic
- Mục tiêu cốt lõi của dịch vụ là
• Phát hiện,
• Bảo quản
• Khai thác và đưa ra kết luận về dữ liệu thu thập được.
- Cần lưu ý rằng dữ liệu phải đảm bảo tính xác thực, và được lấy mà
không bị hư hại, nếu không dữ liệu đấy sẽ khơng cịn ý nghĩa.
1.3. Vai trị Forensic
- Bạn là chủ doanh nghiệp một ngày đẹp trời gặp phải những vấn đề sau:
• Cơng ty của bạn bị gởi email/tin nhắn nặc danh khủng bố và các
bạn muốn biết ai là thủ phạm
• Cơng ty của bạn bị DOS(tấn cơng từ chối dịch vụ) và các bạn muốn
biết tin tặc ở đâu gây ra
• Website bị deface, hệ thống cơng ty bị xâm nhập và bạn muốn tìm
ra ai là thủ phạm
• Thơng tin, dữ liệu nhạy cảm trong cơng ty bị tiết lộ ra ngồi mà bạn
khơng biết ngun nhân tại sao
- Bạn muốn xác định nguyên nhân bị tấn cơng, tìm cách khắc phục để sự
việc khơng tái diễn hay xa hơn là xác định thủ phạm. Đó là lúc bạn cần
đến Forensics.
1.4. Forensic những gì?
- Forensic thường làm việc với các đối tượng:
1












Physical Media, Media Management: Liên quan đến phần cứng,
tổ chức phân vùng, phục hồi dữ liệu khi bị xóa…
File System: Phân tích các file hệ thống, hệ điều hành windows,
linux, android…
Application: Phân tích dữ liệu từ ứng dụng như các file Log, file
cấu hình, reverse ứng dụng…
Network: Phân tích gói tin mạng, sự bất thường trong mạng
Memory: Phân tích dữ liệu trên bộ nhớ, thường là dữ liệu lưu trên
RAM được dump ra

2


CHƯƠNG 2: GIỚI THIỆU CÔNG CỤ BULK_EXTRACTOR
2.1 Tổng quan về Bulk_extractor.
- Bulk_extractor là một chương trình trích xuất các thơng tin như địa chỉ email,
thẻ tín dụng số, URL và các loại thông tin khác từ phương tiện bằng chứng kỹ
thuật số ví dụ như ổ cứng của tội phạm, phần cứng của máy tính hacker [2].
- Nó là một cơng cụ điều tra pháp y hữu ích cho nhiều nhiệm vụ như phân tích
phần mềm độc hại và, điều tra danh tính và điều tra mạng, cũng như phân tích
hình ảnh và bẻ khóa mật khẩu. Chương trình cung cấp một số tính năng đặc biệt
bao gồm:
● Nó tìm địa chỉ email, URL và số thẻ tín dụng mà các cơng cụ khác bỏ sót

● vì nó có thể xử lý dữ liệu nén (như tệp ZIP, PDF và GZIP) và
toàn bộ hoặc một phần dữ liệu bị hỏng. Nó có thể khắc ảnh JPEG, tài liệu
văn phịng và các loại tệp khác từ các phân đoạn dữ liệu nén. Nó sẽ phát
hiện và khắc
các tệp RAR được mã hóa.
● Nó xây dựng danh sách từ dựa trên tất cả các từ được tìm thấy trong dữ
liệu, ngay cả những từ trong tệp nén nằm trong không gian chưa được
phân bổ. Những danh sách từ đó có thể hữu ích cho bẻ khóa mật khẩu.
● Nó là đa luồng; Bulk_extractor trên máy tính với số lượng gấp đơi
của các lõi thường làm cho nó hồn thành một lần chạy trong một nửa
thời gian.
● Nó tạo biểu đồ hiển thị các địa chỉ email, URL, miền, cụm từ tìm kiếm và
các loại thông tin khác trên ổ đĩa.
- Bulk_extractor hoạt động trên image disk, tệp hoặc thư mục của tệp và trích
xuất các thơng tin hữu ích một cách đầy đủ mà khơng cần phân tích hệ thống tệp
hoặc cấu trúc hệ thống tệp [3]. Đầu vào là chia thành các trang và được xử lý bởi
một hoặc nhiều máy quét. Kết quả được lưu trữ trong tệp tính năng chắc chắn có
thể dễ dàng kiểm tra, phân tích cú pháp hoặc xử lý bằng các công cụ tự động
khác.
3


- Bulk_extractor cũng tạo biểu đồ của các tính năng mà nó tìm thấy. Điều này
hữu ích bởi vì các tính năng như địa chỉ email và cụm từ tìm kiếm trên internet
có xu hướng phổ biến hơn trở nên quan trọng.
Ngồi các khả năng được mơ tả ở trên, Bulk_extractor cũng bao gồm:
● Giao diện người dùng đồ họa, Bulk Extractor Viewer, để duyệt các tính
năng được lưu trữ trong các tệp tính năng và để khởi chạy quét ký tự ký tự
Bulk


Hình 1.1. Giao diện người dùng của Bulk_extrator
● Một số lượng nhỏ các chương trình python để thực hiện phân tích bổ sung
về tính năng các tập tin
-Bulk_extractor 1.5 phát hiện và giải nén dữ liệu một cách cực kì hiệu quả trong
các tập tin ZIP, GZIP, RAR, và các tệp Hibernation của Microsoft. Điều này đã
được chứng minh là hữu ích, chẳng hạn như trong việc khôi phục địa chỉ email
từ các đoạn tệp nén được tìm thấy trong khơng gian chưa được phân bổ.

4


-Bulk_extractor chứa một cơ chế đơn giản nhưng hiệu quả để bảo vệ khỏi
decomPression bomb. Nó cũng có các khả năng được thiết kế đặc biệt cho
Windows và phần mềm độc hại phân tích bao gồm bộ giải mã cho Windows PE,
Linux ELF, VCARD, Base16, Base64 và các định dạng thư mục Windows.
-Bulk_extractor có được tốc độ thơng qua việc sử dụng các biểu thức tìm kiếm
đã biên dịch và đa phân luồng. Các biểu thức tìm kiếm được viết dưới dạng biểu
thức chính quy được biên dịch trước, cho phép hàng loạt bulk_extractor thực
hiện tìm kiếm song song các cụm từ khác nhau.
Việc phân luồng được thực hiện thông qua việc sử dụng một nhóm luồng
phân tích. Sau khi thuộc tính đã được trích xuất, bulk_extractor xây dựng biểu
đồ địa chỉ email, Google cụm từ tìm kiếm và các tính năng được trích xuất khác.
Danh sách dừng cũng có thể được sử dụng để xóa các tính năng khơng liên quan
đến một trường hợp.
Bulk_extractor được phân biệt với các cơng cụ pháp y khác bởi tốc độ và
tính kỹ lưỡng của nó. Bởi vì nó bỏ qua cấu trúc hệ thống tệp, Bulk_extractor có
thể xử lý các phần khác nhau của đĩa song song. Điều này có nghĩa là một máy 8
lõi sẽ xử lý một hình ảnh đĩa gần như nhanh hơn 8 lần so với máy 1 nhân.
Bulk_extractor cũng kỹ lưỡng. Nó tự động phát hiện, giải nén và xử lý lại đệ
quy dữ liệu đã được nén với một loạt các thuật toán. Thử nghiệm của chúng tơi

cho thấy có một lượng đáng kể ép dữ liệu trong các vùng chưa được phân bổ của
hệ thống tệp bị bỏ sót bởi hầu hết các cơng cụ pháp y được sử dụng phổ biến
ngày nay. Một lợi thế khác của việc bỏ qua hệ thống tệp là Bulk_extractor có thể
được sử dụng để xử lý bất kỳ loại phương tiện kỹ thuật số nào. Chương trình đã
được sử dụng để xử lý ổ cứng, SSD, phương tiện quang học, thẻ máy ảnh, điện
thoại di động, mạng kết xuất gói và các loại thơng tin kỹ thuật số khác.
2.2 Lịch sử
Từ năm 2005 đến năm 2008, nhóm Bulk_extractor đã phỏng vấn cơ quan
thực thi pháp luật về việc sử dụng các công cụ pháp y của họ. Các nhân viên
thực thi pháp luật muốn có một cơng cụ tự động hóa cao để tìm địa chỉ email và
số thẻ tín dụng (bao gồm thơng tin theo dõi 2), điện thoại, tọa độ GPS và thông
tin EXIF từ JPEG, cụm từ tìm kiếm (trích xuất từ URL) và tất cả các từ có trên
đĩa (để bẻ khóa mật khẩu). Các công cụ cần thiết để chạy trên các hệ thống
Windows, Linux và Mac OS X mà khơng có sự tương tác của người dùng.Nó
5


cũng phải hoạt động trên hình ảnh đĩa thơ, phân vùng thô và tệp E01. Công cụ
cần thiết để chạy ở tốc độ I/O tối đa của ổ đĩa vật lý và không bao giờ gặp sự cố.
Xuyên qua các cuộc phỏng vấn này, các yêu cầu ban đầu đối với Bulk_extractor
đã được phát triển

Hình 1.2. Một câu chuyện thành công ban đầu của Bulk_extrator đến từ cảnh
sát Thành phố San Luis Obispo.
Vào mùa xuân năm 2010, tại thành phố San Luis Obispo. Luật sư của
quận đã đệ đơn buộc tội hai cá nhân gian lận thẻ tín dụng và sở hữu các tài liệu
để thực hiện hành vi gian lận thẻ tín dụng.
Các bị cáo bị bắt bằng việc tra ngược địa chỉ máy tính. Các luật sư bào
chữa đã được mong đợi cho rằng các bị cáo không tinh vi và thiếu hiểu biết để
thực hiện hành vi tội ác. Giám khảo đã được cấp một ổ đĩa 250 GB một ngày

trước phiên điều trần sơ bộ thường sẽ mất vài ngày để tiến hành một cuộc điều
tra pháp y thích hợp về điều đó nhiều dữ liệu.
Bulk_extractor đã tìm thấy bằng chứng có thể hành động chỉ trong hai giờ
rưỡi bao gồm thông tin sau:
6


● Có hơn 10.000 số thẻ tín dụng trong ổ cứng (tài liệu bất hợp
pháp).Hơn 1000 số thẻ tín dụng là được tạo mới .
● Địa chỉ email phổ biến nhất thuộc về bị đơn chính (bằng chứng về
chiếm hữu).
● Các truy vấn cơng cụ tìm kiếm trên internet phổ biến nhất liên
quan đến thẻ tín dụng gian lận và số nhận dạng ngân hàng (bằng
chứng về ý định).
Khi Bulk_extractor đã được triển khai và sử dụng trong các ứng dụng
khác nhau, nó đã phát triển để đáp ứng các yêu cầu bổ sung. Sổ tay hướng dẫn
này mô tả các trường hợp sử dụng cho ký tự Bulk hệ thống và thể hiện cách
người dùng có thể tận dụng tối đa tất cả các khả năng của nó
2.3 Kiến trúc hoạt động và tính năng
2.3.1 Kiến trúc hoạt động
Bulk_extractor tìm địa chỉ email, URL và CCN mà các cơng cụ khác bỏ
sót. Đây là một phần do thực tế là bulk_extractor giải nén và phân tích lại tất cả
dữ liệu (ví dụ: phân đoạn zip, bộ nhớ cache của trình duyệt gzip chạy). Giải
nén hoạt động trên dữ liệu không đầy đủ và bị hỏng cho đến khi giải nén khơng
thành cơng

Hình 2.1. Ba giai đoạn của hoạt động với Bulk_extrator.
7



Có ba giai đoạn hoạt động trong Bulk_extractor: feature extraction,
histogram creation, post processing như trong Hình 1. Các tệp tính năng đầu ra
chứa trích xuất dữ liệu được thiết kế để dễ dàng xử lý bởi các chương trình của
bên thứ ba hoặc sử dụng trong các công cụ bảng tính. Hệ thống bulk_extractor
tự động tóm tắt các tính năng.
Các tệp tính năng được viết bằng hệ thống ghi đặc điểm. Khi các tính
năng được phát hiện, chúng được gửi đến bộ ghi đặc điểm và được ghi lại trong
tệp thích hợp. Nhiều lần qt cùng một điểm có thể ghi vào cùng một tệp tính
năng. Ví dụ: máy quét exif tìm kiếm tệp định dạng được sử dụng bởi máy ảnh
kỹ thuật số và tìm tọa độ GPS trong hình ảnh. Những phát hiện đó được ghi vào
tệp đầu ra gps.txt bởi trình ghi tính năng gps. Một máy quét riêng biệt, máy quét
gps, tìm kiếm dữ liệu Garmin Trackpoint và cũng tìm tọa độ GPS và ghi chúng
vào gps.txt. Điều đáng chú ý là một số máy quét cũng tìm thấy nhiều hơn một
loại tính năng và ghi vào một số tệp tính năng. Ví dụ: trình qt email trong cho
địa chỉ email, miền, URL và tiêu đề RFC822 và ghi chúng vào email.txt,
domain.txt, url.txt, rfc822.txt và ether.txt tương ứng.
Tệp tính năng chứa các hàng tính năng. Mỗi hàng thường bao gồm một
phần bù, một và tính năng trong ngữ cảnh bằng chứng mặc dù máy quét có thể
lưu trữ miễn phí thơng tin họ muốn. Một vài dịng của tệp tính năng email có thể
giống như sau:

Hình 2.2. Các tính năng tệp email.txt.
Các loại tính năng được hiển thị trong tệp tính năng sẽ khác nhau tùy
thuộc vào loại ính năng đang được lưu trữ. Tuy nhiên, tất cả các tệp tính năng
đều sử dụng cùng một định dạng với mỗi hàng phản hồi một phiên bản được tìm
thấy của một đối tượng địa lý và ba cột mô tả dữ liệu ((offset, feature, and
feature trong ngữ cảnh bằng chứng).
Biểu đồ là một công cụ mạnh mẽ để hiểu một số loại bằng chứng. Một
biểu đồ email cho phép chúng tơi nhanh chóng xác định người dùng chính của ổ
đĩa, các thư từ chính của tổ chức tội phạm và các địa chỉ email khác. Hệ thống

8


ghi tính năng tự động tạo biểu đồ khi dữ liệu được xử lý. Khi máy quét ghi vào
hệ thống ghi chép tính năng, các biểu đồ liên quan được cập nhật tự động.
Nhìn chung, một tệp biểu đồ sẽ trơng giống như phần trích dẫn tệp sau:

Hình 2.3. Cấu trúc file histogram.txt.
Mỗi dòng hiển thị một đối tượng địa lý và số lần đối tượng địa lý đó được
tìm thấy bởi Bulk_extractor (biểu đồ cho biết số lần mục được tìm thấy được mã
hóa là UTF-16). Features được lưu trữ trong tệp theo thứ tự xuất hiện với hầu
hết các tính năng thường xuyên xuất hiện ở đầu tệp và hiển thị ít thường xuyên
nhất ở dưới cùng. Bulk_extractor có nhiều trình qt trích xuất các tính năng.
Mỗi máy quét chạy trong một hứ tự tùy ý. Máy quét có thể được bật hoặc tắt có
thể hữu ích cho việc gỡ lỗi và tối ưu hóa tốc độ. Một số máy quét là đệ quy và
thực sự mở rộng dữ liệu nó đang khám phá, do đó tạo ra nhiều dữ liệu hơn mà
cơng cụ ký kết Bulk có thể phân tích. Các khối được gọi là sbufs. Chữ "s" là viết
tắt của từ safe. Tất cả quyền truy cập vào dữ liệu trong sbuf được kiểm tra giới
hạn, vì vậy các sự kiện tràn bộ đệm rất khó xảy ra. Cấu trúc dữ liệu sbuf là một
trong những lý do khiến cho việc sử dụng tối đa tài nguyên có khả năng chống
va chạm. Đệ quy được sử dụng cho, trong số những thứ khác, giải nén ZLIB và
Windows HIBERFILE, trích xuất văn bản từ các tệp PDF và xử lý dữ liệu bộ
nhớ cache của trình duyệt nén.
Quá trình đệ quy yêu cầu một cách mới để mô tả các hiệu số. Để làm điều
này, Bulk_extractor giới thiệu khái niệm về “con đường pháp y”. Đường dẫn
pháp y là một mô tả về nguồn gốc của một phần dữ liệu. Ví dụ, nó có thể đến từ
một tệp phẳng, một luồng dữ liệu, hoặc giải nén một số loại dữ liệu. Hãy xem
xét một luồng HTTP có chứa Email nén GZIP như trong Hình 2. Một loạt máy
quét trước tiên sẽ tìm thấy ZLIB các vùng được nén trong luồng HTTP có chứa
9



email, giải nén chúng và sau đó tìm các tính năng trong email đó có thể bao gồm
địa chỉ email, tên và số điện thoại. Sử dụng phương pháp này, Bulk_extractor có
thể tìm thấy các địa chỉ email ở dạng nén dữ liệu. Đường dẫn pháp y cho các địa
chỉ email được tìm thấy cho thấy rằng nó bắt nguồn từ một email, đó là GZIP đã
được nén và tìm thấy trong một luồng HTTP. Con đường pháp y của các tính
năng địa chỉ email được tìm thấy có thể được trình bày như sau:

Hình 2.4. Các tính năng địa chỉ email

Hình 2.5. Forensic path của tính năng email dẫn ngược về luồng HTTP.
Toàn bộ chức năng của Bulk_extractor được cung cấp thơng qua tốn tử
dịng lệnh và cơng cụ GUI, Bulk Extractor Viewer. Cả hai chế độ hoạt động đều
hoạt động cho Linux, Mac và Windows

10


2.3.2 Xử lý dữ liệu
b. Scanners

Có nhiều máy quét được triển khai với hệ thống Bulk_extractor. Để có
danh sách chi tiết của các máy quét được cài đặt với phiên bản Bulk_extractor
của bạn, hãy chạy lệnh sau:
$ bulk_extractor -H
Lệnh này sẽ hiển thị tất cả các máy quét được cài đặt với thông tin bổ
sung trong hệ thống về mỗi máy qt. Cụ thể, có một mơ tả cho mỗi máy qt,
một danh sách các tính năng mà nó tìm thấy và bất kỳ cờ nào có liên quan. Dưới
đây là một mẫu đầu ra:


Hình 2.6. Danh sách mẫu output của lệnh.
a. Các định dạng dữ liệu đầu vào

Hệ thống ký kết Bulk có thể xử lý nhiều định dạng dữ liệu bao gồm E01,
raws, split-raws và individual files cũng như các thiết bị hoặc tệp thơ. Nó cũng
11


có thể hoạt động trên memory và bắt gói, mặc dù việc bắt gói sẽ được trích xuất
hiệu quả hơn nếu bạn xử lý trước chúng bằng tcpflow.
Tất cả các máy quét đều phục vụ các chức năng khác nhau và tìm kiếm
các loại thơng tin khác nhau. Thơng thường, một tính năng sẽ được lưu trữ ở
định dạng khơng dễ truy cập và sẽ yêu cầu nhiều máy quét để trích xuất dữ liệu
tính năng.
Ví dụ: một số tệp PDF chứa dữ liệu văn bản nhưng định dạng PDF khơng
thể tìm kiếm trực tiếp bằng máy qt tìm địa chỉ email hoặc máy qt tìm kiếm
từ khóa. Bulk_extractor giải quyết vấn đề này bằng cách có hai máy quét hoạt
động cùng nhau. Máy quét pdf trước tiên sẽ trích xuất tất cả văn bản từ PDF và
sau đó các máy quét khác sẽ xem xét văn bản được trích xuất để tìm các tính
năng. Cái này quan trọng cần nhớ khi tắt và bật máy quét, vì các máy quét làm
việc cùng nhau để truy xuất các tính năng từ hình ảnh đĩa. Các định dạng máy
quét của bulk_extractor có như trong bảng như sau:
Scanner
accts

Data Type
Tài khoản số, chẳng hạn như số điện thoại và CCN

aes


Các khóa AES trong bộ nhớ từ lịch biểu chính của chúng

base16

Dữ liệu được mã hóa cơ sở 16 (hex) (bao gồm mã MD5
được nhúng trong dữ liệu)

base64

Base 64 code

elf

Định dạng có thể thực thi và có thể liên kết (ELF)

exif

Cấu trúc EXIF từ JPEGS (và khắc các tệp JPEG)

facebook

Facebook HTML

gps

XML từ thiết bị GPS Garmin (đã xử lý)

gzip


Tệp GZIP và luồng GZIP nén ZLIB

12


hashdb
hiber
httplogs

Hỗ trợ cơ sở dữ liệu NPS Hash
Các phân đoạn tệp ngủ đông của Windows (được giải
nén và xử lý, không được khắc)
Tệp nhật ký HTTP

jpeg

JPEG. Mặc định là chỉ các ảnh JPEG được mã hóa mới
được khắc. JPEG khơng có EXIF cũng được khắc

json

Các tệp và đối tượng JavaScript Object Notation được tải
xuống từ máy chủ web, cũng như các đối tượng giống
JSON được tìm thấy trong mã nguồn

kml

KML files

pdf


Văn bản từ tệp PDF (được trích xuất để xử lý không
được khắc)

rar

Các thành phần RAR trong kho lưu trữ khơng được mã
hóa được giải mã và xử lý. Tệp RAR được mã hóa được
khắc.

vcard

vCard files

windirs

Các mục nhập thư mục Windows FAT32 và NTFS

winpe

Môi trường cài đặt sẵn Windows (PE) Các tệp thực thi
(tệp .exe và .dll được ký hiệu bằng mã băm MD5 của 4k
đầu tiên)

winprefetch

Windows Tìm nạp trước các tệp, các đoạn tệp (đã xử lý)
Bảng 2.1. Các định dạng scanner.

c. File Carving


File carving một loại khắc đặc biệt, trong đó các tệp được khơi phục. File
carving là sử dụng hồn hảo cho cả việc khơi phục dữ liệu và điều tra pháp y vì
13


nó có thể khơi phục tệp khi các sector chứa siêu dữ liệu hệ thống tệp bị ghi đè
hoặc bị hỏng
Kết quả khắc được lưu trữ ở hai nơi khác nhau. Đầu tiên, một tệp liệt kê
tất cả các tệp được khắc được ghi vào tệp .txt tương ứng: tệp JPEG thành
jpeg_carved.txt, Tệp ZIP để giải nén.txt và tệp RAR để giải nén. Thứ hai, JPEG
chạm khắc, ZIP và các tệp RAR được đặt trong các thư mục trong thùng rác có
tên / jpeg, / unzip và /unrar tương ứng. Ví dụ, tất cả các ảnh JPEG được khắc sẽ
nằm trong thư mục / jpeg. Đầu ra các tệp được thêm vào thùng rác với 1000 tệp
trong mỗi thư mục. Tên thư mục là 3 chữ số thập phân. Nếu có hơn 999.000 tệp
được chạm khắc cùng một loại, thì bộ tiếp theo của các thư mục được đặt tên
bằng 4 chữ số. Tên tệp cho JPEG là forensicpath.jpg.
Tên tệp cho trình khắc phục sự cố ZIP là forensicpath_filename. Nếu tên
tệp ZIP có dấu gạch chéo trong đó (biểu thị thư mục), chúng được chuyển thành
'_' (gạch dưới). Ví dụ, tệp mydocs /output /specialfile sẽ được đặt tên là
mydocs_output_specialfile.
Có 3 chế độ carving file mà Bulk_extractor cung cấp, như bảng dưới :
Mô tả

Mode
0

Không khôi phục các tệp thuộc loại được chỉ định.

1


Chỉ khơi phục các tệp được mã hóa thuộc loại được chỉ định

2

Khôi phục tất cả các tệp
Bảng 2. 2. Bảng chế đọ carving file.

d. Loại bỏ các trùng lặp

Hệ điều hành hiện đại chứa đầy địa chỉ email. Chúng đến từ Windows nhị
phân, chứng chỉ SSL và tài liệu mẫu. Hầu hết các địa chỉ email này, đặc biệt là
những người xảy ra thường xuyên nhất, chẳng hạn như ,
không liên quan đến trường hợp. Điều quan trọng là có thể ngăn chặn những địa
chỉ email khơng liên quan đến trường hợp. Để giải quyết vấn đề này,
Bulk_extractor cung cấp hai cách tiếp cận.
14


Đầu tiên, Bulk_extractor cho phép người dùng tạo danh sách dừng hoặc
sử dụng danh sách dừng hiện có sẵn cho Tải xuống. Các danh sách dừng này
được sử dụng để nhận ra và loại bỏ các địa chỉ email có nguồn gốc từ Hệ điều
hành. Cách tiếp cận này hoạt động tốt cho các địa chỉ email rõ ràng là không
hợp lệ, chẳng hạn như Tuy nhiên, đối với hầu hết các
địa chỉ email, bạn sẽ muốn ngăn chặn chúng trong một số trường hợp nhưng
không phải những trường hợp khác. Ví dụ, ở đó hơn 20.000 nhà phát triển
Linux, bạn muốn dừng địa chỉ email của họ trong chương trình nhị phân, khơng
có trong thư email. Để giải quyết vấn đề này, Bulk_extractor sử dụng danh sách
dừng phân biệt ngữ cảnh. Thay vì một danh sách các tính năng, cách tiếp cận
này sử dụng tính năng + ngữ cảnh.

Có một danh sách dừng phân biệt ngữ cảnh dành cho Microsoft Windows
XP, 2000, 2003, Vista và một số hệ thống Linux. Tổng danh sách dừng là 70
MB và bao gồm 628.792 tính năng trong một tệp zip 9 MB. Danh sách dừng
nhạy cảm theo ngữ cảnh lược bỏ nhiều phần mềm do hệ điều hành cung cấp.
Bằng cách áp dụng nó
số lượng email được tìm thấy đã giảm từ 9.143 xuống 4.459. Điều này làm giảm
đáng kể khối lượng cơng việc điều tra viên phải thực hiện. Hình 14 cho thấy
biểu đồ của
địa chỉ email khác nhau khi Bulk_extractor được chạy có và khơng có phân biệt
ngữ cảnh danh sách dừng. Danh sách dừng nhạy cảm theo ngữ cảnh được xây
dựng cho các hệ điều hành khác nhau

15


Hình 2.7. Sự khác nhau giữa dùng Stoplist và khơng dùng Stoplist
e. Sử dụng danh sách cảnh báo

Các từ hoặc tính năng cụ thể trong một ngữ cảnh nhất định có thể quan
trọng đối với cuộc điều tra của người dùng.
Danh sách cảnh báo có thể chứa danh sách các từ và / hoặc tên tệp đặc
trưng và khi khớp là tìm thấy, nó sẽ cảnh báo cho người dùng. Cách thức hoạt
động của cảnh báo tệp tính năng tương tự như cách chúng được sử dụng cho
danh sách dừng nhạy cảm theo ngữ cảnh. Nó sẽ chỉ cảnh báo về một tính năng
được chỉ định khi nó được tìm thấy trong ngữ cảnh được chỉ định

Hình 2.8. Tệp danh sách cảnh báo mẫu.
Mặc dù danh sách này dường như khơng giúp ích cho bất kỳ cuộc điều tra
cụ thể nào, nhưng nó chứng tỏ mà bạn có thể chỉ định các từ riêng biệt quan
trọng đối với phân tích của chúng. Kết quả bao gồm thông tin danh sách cảnh

báo được tìm thấy trong tệp alert.txt trong bulk_extractor thư mục đầu ra

16


f. Xử lý dữ liệu nén

Nhiều công cụ pháp y thường bỏ sót dữ liệu quan trọng vì chúng khơng
kiểm tra chứng chỉ bao gồm các lớp dữ liệu nén. Ví dụ: một nghiên cứu gần đây
về 1400 ổ đĩa được tìm thấy hàng nghìn địa chỉ email đã được nén. Không cần
xem xét tất cả dữ liệu trên mỗi ổ đĩa và giải nén một cách hiệu quả trong đó, các
tính năng quan trọng có thể bị bỏ lỡ. Các địa chỉ email được nén, chẳng hạn như
những địa chỉ trong tệp GZIP, không giống như địa chỉ email đối với máy quét;
trước tiên chúng phải được giải nén được xác định.
2.3.3 Các tính năng của Bulk_extractor
Có rất nhiều trường hợp sử dụng kĩ thuật kỹ thuật số cho Bulk_extractor.
Trong phần này, chúng ta nêu bật một số cách sử dụng phổ biến nhất của hệ
thống. Mỗi trường hợp thảo luận về tệp đầu ra nào, bao gồm tệp đặc trưng và
tograms, có liên quan nhất đến các loại điều tra này.
a. Điều tra phần mềm độc hại

Phần mềm độc hại là sự xâm nhập có lập trình. Khi thực hiện điều tra
phần mềm độc hại, người dùng sẽ muốn xem các tệp thực thi, thông tin đã được
tải xuống từ web- based các ứng dụng dựa trên và các mục trong thư mục
windows (dành cho các cuộc điều tra dành riêng cho Windows).Bulk_extractor
cho phép điều này theo một số cách
Đầu tiên, Bulk_extractor tìm thấy bằng chứng về hầu như tất cả các tệp
thực thi trên ổ cứng bao gồm thứ tự nhập chúng, những tệp chứa trong tệp ZIP
và những tệp được nén.
Nó khơng cung cấp cho bạn giá trị băm của tồn bộ tệp, thay vào đó, nó

cung cấp cho bạn giá trị băm của 4KB đầu tiên của tệp. Nghiên cứu đã chỉ ra
rằng 4KB đầu tiên mang tính dự đốn vì hầu hết các tệp thực thi có giá trị băm
riêng biệt cho 4KB đầu tiên của tệp. Ngoài ra, nhiều tệp trong số này có thể bị
phân mảnh và nhìn vào 4KB đầu tiên vẫn sẽ cung cấp thông tin liên quan đến
một cuộc điều tra bởi vì sự phân mảnh khó có thể xảy ra trước 4KB đầu tiên.
Hàm băm đầy đủ của tệp bị phân mảnh khơng có sẵn trong bulk_extractor.
Một số tệp tính năng đầu ra do Bulk_extractor tạo ra chứa các tệp có liên
quan và quan trọng thơng tin về các tệp thực thi. Các tệp này bao gồm:
17


• elf.txt - Tệp này (do máy quét elf tạo ra) chứa thơng tin về các tệp thực
thi ELF có thể được sử dụng để nhắm mục tiêu các hệ thống Linux và Mac OS
X.
• winprefetch.txt - Tệp này (do trình quét winprefetch tạo ra liệt kê các tệp
hiện tại và đã xóa được tìm thấy trong thư mục tìm nạp trước của Windows.
XML trong các tệp tính năng này quá phức tạp để xem xét nếu không sử dụng
các ứng dụng khác những lời khen ngợi. Cách được khuyến nghị để phân tích
kết quả thực thi là sử dụng một phần ba
cơng cụ bên phân tích các tệp thực thi hoặc kéo kết quả vào bảng tính. Trong
trang tính, một cột có thể chứa các giá trị băm và những giá trị đó có thể được so
sánh chống lại cơ sở dữ liệu của các hàm băm thực thi. Ngồi ra cịn có một
cơng cụ python đi kèm vớiBulk_extractor được gọi là Recoggit_filenames.py có
thể được sử dụng để lấy tên tệp đầy đủ của tệp.
Đối với các cuộc điều tra phần mềm độc hại cụ thể của Windows, các tệp
winpe.txt và winprefetch.txt rất hữu ích. Chúng được tạo ra bởi các máy quét
winpe và winprefetch cẩn thận. Windows Prefetch hiển thị các tệp đã được tìm
nạp trước trong Windows Prefetch thư mục và hiển thị các tệp đã xóa được tìm
thấy trong khơng gian chưa được phân bổ. Những cửa sổ tính năng PE hiển thị
các mục nhập liên quan đến tệp thực thi Windows JSON, Ký hiệu đối tượng

JavaScript, là một định dạng trao đổi dữ liệu nhẹ. Web-các trang web có xu
hướng tải xuống nhiều thơng tin bằng JSON. Tệp đầu ra json.txt, được sản xuất
bởi máy qt json, có thể hữu ích cho việc điều tra và phân tích phần mềm độc
hại ứng dụng dựa trên web. Nếu một trang web đã tải xuống thông tin ở định
dạng JSON, thì trình qt JSON có thể tìm thấy thơng tin đó trong bộ nhớ cache
của trình duyệt.
b. Điều tra Mạng

Các cuộc điều tra mạng có thể quét nhiều loại thông tin khác nhau. Một số
hợp nhất đặc điểm của các cuộc điều tra này là nhu cầu tìm khóa mã hóa, giá trị
băm và hơng tin về các gói ethernet. Bulk_extractor cung cấp một số máy quét
cung cấp các tệp tính năng duce có chứa thơng tin này
Đối với thơng tin mã hóa, các tệp tính năng sau có thể hữu ích:

18


• aes.txt - AES là một hệ thống mã hóa.[5] Nhiều triển khai để lại các
phím trong bộ nhớ có thể được tìm thấy bằng cách sử dụng một thuật toán được
phát minh tại Đại học Princeton. Bulk_extractor cung cấp phiên bản cải tiến của
thuật tốn đó để tìm khóa AES trong máy quét aes. Khi nó quét bộ nhớ, chẳng
hạn như hoán đổi tệp hoặc giải nén tập tin ngủ đơng, nó sẽ xác định các khóa
AES. Các phím có thể được sử dụng cho phần mềm
điều đó sẽ giải mã tài liệu được mã hóa AES.
• hex.txt - Máy quét base16 [4]giải mã thông tin được lưu trữ trong
Base16, chia nó thành các giá trị thập phân tương ứng. Điều này rất hữu ích nếu
bạn tìm kiếm khóa AES hoặc hàm băm SHA1. Máy quét này chỉ ghi các khối
kích thước 128 và 256 vì chúng là kích thước được sử dụng cho các khóa mã
hóa. Tính năng tệp sẽ hữu ích nếu nhà điều tra đang tìm kiếm những người đã
mã hóa email khóa hoặc giá trị băm trong một cuộc điều tra khơng gian mạng

Ngồi ra, máy quét base64 rất quan trọng đối với các cuộc điều tra mạng
vì nó trơng chủ yếu là ở các tệp đính kèm email được mã hóa trong Base64.
Thơng tin được tìm thấy trong những các tệp đính kèm sẽ được phân tích bởi các
máy qt khác để tìm các tính năng cụ thể.
Máy qt Windirs tìm các mục nhập thư mục Windows FAT32 và NTFS
và cũng sẽ hữu ích cho các cuộc điều tra mạng liên quan đến máy Windows, vì
chúng có thể là chỉ báo số lần hoạt động đó diễn ra.
Cuối cùng, các tệp ether.txt, ip.txt, tcp.txt và domain.txt đều do máy qt
mạng. Nó tìm kiếm các gói ethernet và cấu trúc bộ nhớ được liên kết với các cấu
trúc dữ liệu mạng trong bộ nhớ. Điều quan trọng cần lưu ý là các kết nối tcp có
rất nhiều kết quả dương tính giả và nhiều thơng tin được máy quét này tìm thấy
sẽ là sai. Các nhà điều tra nên cẩn thận với việc giải thích các tệp tính năng này
vì lý do.
c. Điều tra danh tính

Các cuộc điều tra danh tính có thể tìm kiếm nhiều loại thông tin bao gồm
cả email địa chỉ, thông tin thẻ tín dụng, số điện thoại, thơng tin địa lý và từ khóa.
Ví dụ: nếu điều tra viên đang cố gắng tìm hiểu xem một người là ai và cộng sự
của họ là ai, họ sẽ xem số điện thoại, cụm từ tìm kiếm để xem họ đang làm gì và
gửi email để biết họ đang giao tiếp với ai.
19


×