Tải bản đầy đủ (.docx) (47 trang)

An toàn thư tín điện tử, chống spam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1023.65 KB, 47 trang )

MỤC LỤC
DANH MỤC HÌNH VẼ
2
LỜI NÓI ĐẦU
Sự phát triển của Internet đã dần tạo ra định hƣớng số hóa nền kinh tế toàn
cầu, số hóa các hoạt động xã hội. Sự hội tụ Viễn thông – Tin học trong quá trình
phát triền đã khẳng định xu hướng trên và ngày càng ảnh hưởng mạnh mẽ đến tất cả
các quốc gia, khu vực. Điều đó cũng đem lại hàng loạt chuyển biến hiện đại hóa
trong lĩnh vực kinh tế, xã hội. Trong đó, dịch vụ thư điện tử đóng vai trò quan trọng
không thể thiếu được đối với các lĩnh vực đó. Thư điện tử tham gia vào hầu hết các
hoạt động mạng: thương mại điển tử, giải trí, điều hành doanh nghiệp, chính phủ
điện tử…
Thư rác và mã độc hại phát tán qua thư rác gây tác hại quảng bá nội dung
xấu, mất thông tin cá nhân; lãng phí truyền thông; mặt khác lượng thư rác lớn khiến
cho người dùng chán ngán với dịch vụ hữu ích này. Nhu cầu sử dụng dịch vụ thư
“an toàn” và “tin cậy” (cá nhân, tổ chức, nhà cung cấp) trở thành nhu cầu cấp thiết.
Trong những năm gần đây, nghiên cứu phát triển hệ thống lọc nội dung áp
dụng cho trong vấn đề lọc chặn thư rác và quản lý nhận được sự quan tâm đặc biệt
của cá nhân, tổ chức ở hầu hết các quốc gia trên thế giới.
Tại Việt Nam, song song với cơ sở pháp lý do nhà nước ban hành nhằm ngăn
chặn thư rác; việc xây dựng giải pháp lọc thư điện tử dựa trên phân tích nội dung
hiện đang là mục tiêu nghiên cứu của nhiều cá nhân, tập thể và đây chính là mục
tiêu báo cáo này.
.Chương 1. TỔNG QUAN VỀ LỌC THƯ ĐIỆN TỬ, chương này trình
bày khái quát các vấn đề về vấn đề lọc thư điện tử và mô hình chung của hệ thống
lọc thư.
Chương 2. CÁC VẤN ĐỀ TRONG THƯ ĐIỆN TỬ, chương này trình bày
về tình hình thực tế thư rác hiện nay, các phương pháp lọc thư điện tử,
Chương 3. CÔNG CỤ LỌC NỘI DUNG THƯ, chương này nhóm trình
bày về hai công cụ lọc và phòng chống thư rác là công cụ Spamimilator và công cụ
Smart Serial Mail. Ngoài ra nhóm còn trình bày thêm về bộ lọc Gmail spam filter sử


dụng trong hệ thống email của google.
3
CHƯƠNG 1. TỔNG QUAN VỀ LỌC THƯ ĐIỆN TỬ.
1.1. Tổng quan về lọc thư điện tử
Thư điện tử được xây dựng từ 3 giao thức: SMTP, pop3, imap v4. Các giao
thức cũ sử dụng cho hệ thống thư phân tán giờ ít được sử dụng. Các loại phần mềm
thực thi trên 3 giao thức trên. MUA là ứng dụng thư điện tử người dùng. MUA gồm
các phần mềm như Eudora, Netscape mail, Mozilla Thunderbird, Pegasus, hoặc
Outlook.
Express, mục tiêu của các chương trình virus trên Windows. Đối với
webmail, MUA chạy trên webserver khi đó người dùng sử dụng ứng dụng thư điện
tử thông qua trình duyệt.
MUA gửi thông điệp tới máy chủ thư sử dụng giao thức SMTP, và nhận thư
điện tử từ máy chủ thông qua giao thức POP3 và imap4. Nhìn chung 2 giao thức
này tương đương nhau, tuy nhiên imap4 gần đây phát triển nhiều tính năng hơn
pop3.
Máy chủ thư chạy ứng dụng mta, ví dụ như Sendmail, Postfix, Qmail hoặc
Exim. Vai trò của nó là nhận thông điệp thông qua SMTP và định tuyến chúng. Nếu
địa chỉ đích là hòm thư cục bộ, MTA sử dụng MDA để phát tán thư. Trường hợp
địa chỉ nhận là máy khác, MTA sử dụng SMTP để liên kết tới các mta trên máy chủ
đích. Mta này sử dụng MDA để lưu trữ thông điệp vào hòm thư.
Khi thư tới máy chủ thư, mta cần biết địa chỉ máy chủ thư. Thông tin này
thường được chứa trong bản ghi MX (Mail eXchanger) của DNS. DNS đóng vai trò
như một thư mục, giải thích bằng cách nào để gửi thư tới các tên miền thư còn vận
hành. Máy chủ thư liệt kê các bản ghi MX được gọi là máy chủ MX.
Đối với sản phẩm thương mại, mọi thứ thường phức tạp hơn nhiều. Thường
có nhiều máy chủ MX và nhiều máy chủ thư trong cùng một mạng.
Lọc thư có thể được thực hiện ở 3 mức sau:
• Lọc mức MUA
Người dùng có thể sử dụng phần mềm diệt virus và chặn thư rác bằng nhiều

công nghệ khác nhau, gồm cả bộ lọc tự học, bộ lọc cố học hiểu các loại luật lệ nào
là thư rác.
4
Máy khách phải tải về một phần hoặc toàn bộ thông điệp về bộ lọc. điều này
có thể gặp rắc rối khi gặp phải dạng virus flood, điều này thực sự tồi tệ khi người
dùng sử dụng kết nối thông qua dial up.
Trong mạng lớn, người quản trị hệ thống phải chắc rằng bản cập nhập định
nghĩa virus phải được phân tán tới nhiều máy trạm. Đối với các tập đoàn lớn điều
này rất khó thực hiện, đối với ISP điều này gần như không thể.
• Lọc tại mức MDA
Lọc mức MDA giải quyết 2 vấn đề đó. Bởi vì khi được thực hiện trên máy
chủ, nó có thể hủy thư rác trước khi máy khách tải về. Mặt khác bảo trì các công cụ
tập trung cũng được thực hiện dễ dàng hơn.
Lọc mức MDA là cách hữu hiệu nhất hiện nay. Tại mức này mta có thể gọi
ứng dụng ngoài để phân tán thư cục bộ. Đối với hệ thống UNIX là gọi dòng lệnh
mail, mail.local, hoặc procmail. Lọc chặn dễ dàng hơn, chỉ bằng cách gọi một bộ
lọc thay vì gọi MDA, sau đó gọi MDA sau khi bộ chặn đã hoàn thành.
Tuy nhiên lọc mức MDA có trở ngại chính khi không có sự tương tác người
dùng tại mức MDA. Bộ lọc không thể hỏi người dùng nếu nó hủy một thông điệp có
thể là thư rác hoặc. Khi MDA nhận ra thông điệp khả nghi, nó sẽ cảnh báo tới người
gửi hoặc người nhận. Khi người “ngập lụt” cảnh báo của các thư không gửi được
chứ không phải bị “ngập lụt” do thư rác.
Nếu MDA cảnh báo người gửi thì chúng ta gặp rắc rối với vấn đề SMTP:
điều này không yêu cầu xác thực người gửi. Ngày nay, bất kỳ chương trình gửi thư
rác hoặc virus đều có thể giả mạo địa chỉ trả về.
Vấn đề rắc rối khác đối với lọc mức MDA là các bộ lọc theo chuỗi khác nhau
(ví dụ: chương trình quét virus và lọc chặn) không straightforward. Trước hết, phải
chỉ cho bộ lọc thứ nhất gọi mở bộ lọc thứ 2 thay vì gọi tới MDA thực. sau đó, bộ
lọc thứ 2 thực hiện gọi mở bộ lọc MDA. Điều này khá phức tạp khó khăn.
• Lọc tại mức MX

Giải pháp này tồn tại các vấn đề. Nó không thể xác thực địa chỉ thư người
gửi, vì vậy chúng ta phải tránh vấn đề trả lời đối với thư không gửi được. Nếu lọc
chặn thực hiện tại mức mta trên tên miền của MX, nó sẽ giao tiếp thẳng với mta tại
máy chủ thư.
SMTP làm việc. máy chủ thư nhận thông điệp mà nó ghi vào ổ đĩa, sau đó
máy chủ thư sẽ thông báo với máy chủ thư gửi để nó chấp nhận thông điệp. Máy
5
chủ này sẽ chuyển thư tới máy chủ nhận và máy chủ gửi sẽ xóa thư ra khỏi hàng đợi
thư. Nếu có trục trặc với người nhận (ổ đĩa đầy, hệ thống hỏng, mạng quá tải, địa
chỉ nhận không rõ), MTA nhận sẽ không thông báo với máy chủ gửi thư được chấp
nhập, thư vẫn tiếp tục lưu tại máy chủ gửi. Nếu vẫn đề này thường xuyên (chẳng
hạn địa chỉ thư nhận không tồn tại), máy chủ gửi sẽ phải gửi thông báo không
chuyển thư. Nếu lỗi chỉ tạm thời, máy chủ gửi sẽ tiếp tục gửi thư sau đó.
Khi chúng ta từ chối thư được gửi thư virus hoặc chương trình tạo thư rác.
Chúng ta phải trực tiếp gửi thông báo tới chương trình tạo thư rác rằng chúng bị từ
chối. Khi đó chương trình tạo thư rác không hẳn là một MTA, vì vậy sẽ không có
điều khiển lỗi. Điều này sẽ dẫn đến ngập lụt mạng do các thư rác. Trong trường hợp
này không sinh ra thông điệp phản hồi là điều đúng đắn.
Nếu máy chủ gửi là MTA, chúng sẽ tạo ra thông báo đã gửi đi đến người gửi
(địa chỉ thư thực sự của người gửi). Đó là điều chúng ta cần.
• Nhược điểm lọc mức MX
Lọc tại mức MX gặp phải một số vấn đề nhỏ sau:
Chỉ thực hiện tại mức MX. Nếu tên miền MX chấp nhận thư rác khi thư rác
đó giả mạo địa chỉ gửi. Máy chủ gửi sẽ là tên miền MX, và nó sẽ thông báo trạng
thái đã gửi tới địa chỉ thư rác.
Nếu thư rác hoặc virus được gửi tới danh sách thư, trong đó máy chủ gửi
nhận có chứa bộ lọc MX, khi đó máy chủ chứa danh sách thư sẽ nhận được thông
báo gửi. Điều này xảy ra bởi máy chủ chứa danh sách thư chấp nhận gửi thư rác lần
đầu. Vấn đề không tồn tại ở bộ lọc MX mà ở máy chủ chứa danh sách thư. Có giải
pháp khác tránh vấn đề này là xóa ngay thư gửi không tin cậy. Hơn nữa, bảo trì

danh sách thư bằng các sử dụng bộ lọc mức MDA hoặc MUA cho danh sách thư để
giải quyết vấn đề tự động thông báo trạng thái gửi. Các phương pháp này sử dụng
định dạng chuẩn giúp cho việc dễ điều khiển tự động.
Khi thư được tiếp nhận bằng cách chuyển tới bộ lọc MX, chúng ta cũng gặp
phải cùng vấn đề đó. Máy chủ thư chuyển thư rác sẽ gửi trạng thái tới địa chỉ giả.
Cùng vấn đề đó nhưng không phải ở bộ lọc MX mà tại máy chủ chuyển thư đã chấp
nhận thư rác. Vấn đề cần được giải quyết tại máy chủ chuyển thư.
6
1.2. Mô hình chung hệ thống lọc thư.
1.2.1. Trình duyệt thư.
Trình duyệt thư (Mail user agent – MUA) là các phần mềm thư điện tử (trình
duyệt thư) dùng gửi và nhận các bức thư điện tử trên mạng, hiện nay các phần mềm
dùng phổ biến là Microsoft Outlook, Microsoft Outlook Express. Các trình duyệt
này được tích hợp sẵn trong các hệ điều hành Windows và bộ phần mềm Microsoft
Office.
1.2.2. Máy chủ thư.
Hệ thống các máy chủ cung cấp dịch vụ thư điện tử trên mạng. Các hệ thống
này được cài đặt các hệ điều hành có hỗ trợ các chức năng làm máy chủ các dịch
vụ như Windows Server, Linux, Unix, …
a. Bộ điều khiển định hướng
Bộ điều khiển định hướng (Module Controller): được xây dựng dựa trên một
firewall có tính năng chuyển hướng các gói tin trên mạng. Bộ điều khiển định
hướng có chức năng kiểm soát lưu lƣợng trên một đường liên kết mạng, cho phép
những luồng thông tin không cần kiểm soát nội dung có thể đi qua một cách bình
thường, còn đối với những luồng thông tin cần kiểm soát nội dung chúng sẽ được
định hướng lại để đi qua bộ lọc và Mail proxy. Bộ điều khiển định hướng có nhiệm
vụ tiếp nhận các yêu cầu từ phía client để truy nhập các máy chủ thư thực hiện việc
gửi và nhận thư và chuyển hướng lại các gói tin này và gửi những yêu cầu này tới
bộ lọc để kiểm tra trước khi gửi tới máy chủ thư qua Mail proxy. Đồng thời, tiếp
nhận những thông tin trả lời cho những yêu cầu này từ bộ lọc để hệ thống lọc thực

hiện tiếp các nhiệm vụ của mình.
Bộ điều khiển định hướng này được xây dựng trên nền của gói phần mềm
iptables trên hệ điều hành Linux. Tùy thuộc vào yêu cầu lọc của hệ thống mà thực
hiện các chính sách điều khiển gói tin khác nhau để thực hiện nhiệm vụ lọc và phân
tải đối với các hệ thống lọc.
7
b. Bộ điều khiển chuyển thư
Bộ điều khiển truyển thư (Mail Transfer Agent – MTA), hay còn gọi là một
Mail Server, ví dụ sendmail, Postfix, MS Exchange, Qmai, Exim, MTA trong mô
hình lọc hệ thống là hệ thống các chương trình vận chuyển thư trung gian có nhiệm
vụ như sau:
- Nhận các message (thư) mới không vi phạm các chính sách lọc từ bộ lọc
chuyển đến và phân phối đến các hệ thống thư nhận ở xa.
- Nhận các thư từ các hệ thống thư khác ở xa gửi đến người nhận ở các
mạng phía trong bộ lọc đã được kiểm tra bởi bộ lọc, nếu không vi phạm
các chính sách loc, MTA sẽ phân phối đến nơi nhận trong mạng nội bộ.
c. Mail Proxy
Mail proxy có nhiệm vụ tiếp nhận yêu cầu kết nối máy chủ thư từ phía client
do bộ lọc gửi tới sau khi đã kiểm tra thấy không vi phạm chính sách cấm của bộ lọc.
Sau đó gửi các yêu cầu tới máy chủ thư. Khi có trả lời từ máy chủ thư, Mail proxy
gửi chúng qua bộ lọc để kiểm tra. Mail Proxy này được cấu hình cùng hệ thống để
tạo ra một hệ thống trong suốt không tác động đến người sử dụng.
Trên mạng Internet có nhiều hệ thống thư khác nhau, các hệ thống này cũng sử
dụng các giao thức không thống nhất nhau để gửi và nhận thư. Do vậy hệ thống
Mail proxy cũng được xây dựng để tương ứng với các giao thức gửi thư được sử
dụng
Đối với yêu cầu kết nối từ phía client đến máy chủ thư để gửi thư module
Mail proxy là proxy SMTP. Giao thức hiện nay được dùng phổ biến để nhận thư là
POP3, IMAP, do vậy đối với các yêu cầu kết nối từ phía client đến máy chủ thư để
nhận thư thì module Mail proxy tương ứng là POP proxy, IMAP proxy.

Các thành phần chính trong Mail proxy:
- Khởi tạo Mail proxy
- Proxy Server
- Proxy Client
Thành phần “Khởi tạo Mail proxy”: được thực hiện theo các bước được mô
tả như hình 8. Khi có một sự kiện như click chuột để bắt đầu chạy proxy, chương
trình tạo ra một đối tượng SocketServer, đối tượng này làm nhiệm vụ lắng nghe trên
cổng TCP chỉ định thông qua việc gọi hàm Listen.

8
Hình 1. 1. Lược đồ khởi tạo proxy
Proxy server: Khi có một máy client gửi yêu cầu thực hiện kết nối đến server
mail, SocketServer sẽ tạo ra một đối tượng SocketClient mới để làm việc với kết nối
này. SocketServer tạo đối tượng này bằng cách sử dụng thuộc tính ClientClass. Và
như vậy, khi nhiều máy client thực hiện kết nối thì SocketServer tạo ra và quản lý
tất cả các SocketClient tương ứng với từng kết nối.
Socket Client ở đây được xem là thành phần Mail Proxy server, nó làm
nhiệm vụ nhận dữ liệu từ máy client, xử lý, và chuyển dữ liệu này sang thành phần
Mail Proxy client.

9
Hình 1. 2. Lược đồ hoạt động của proxy server.
Proxy client: Khi nhận được dữ liệu từ Mail Proxy server, RemoteSocket
(thành phần của Proxy client) gửi yêu cầu và nhận thông tin phản hồi từ server. Khi
nhận được thông tin phản hồi từ server, RemoteSocket sẽ kiểm tra trạng thái của
Socket Client. Nếu đã ngắt kết nối thì tắt RemoteSocket, còn nếu SocketClient vẫn
đang kết nối thì RemoteSocket thực hiện gửi thông tin này đến môdun lọc nội dung
để tiến hành kiểm tra nội dung trả về có thỏa mãn hay không, nếu thỏa mãn thì nội
dung được gửi trở lại SocketClient để chuyển về cho client.
10

Hình 1. 3. Lược đồ hoạt động của proxy client.
d. Bộ lọc thư
Bộ lọc thư (Mail filter): bao gồm các module lọc text, lọc theo cấu trúc các
trường của một bức thư điện tử (Subject, To, from, CC, Text, ), lọc ảnh, lọc các
tệp đính kèm, kiểu file, kích thước file, …, module quyết định. Đây là thành phần
cốt lõi nhất của hệ thống lọc, tất cả các quyết định cho phép hay không cho phép
các kết nối gửi và nhận thư đều phải thông qua module này .
Các module lọc đều phải thực hiện nhiệm vụ lọc theo hai hai hướng chính là
lọc theo đường lên và lọc theo đường về. Lọc theo đường lên thực hiện theo hướng
từ client  Mail proxy server  Mail proxy client  Mail server).
Lược đồ hoạt động của module lọc theo đường lên.
11
Hình 1. 4. Lược đồ hoạt động của module lọc theo đường lên.
Khi yêu cầu của client được gửi đến Mail Proxy server (thông qua các giao thức
gửi, nhận thư), yêu cầu này được kiểm tra nội dung bằng module lọc theo đường
lên. Khi nhận được yêu cầu từ Mail Proxy server gửi đến, module này sẽ thực hiện
phân tích yêu cầu đó để lấy phần header bao gồm địa chỉ IP của máy truy cập, địa
chỉ người gửi, địa chỉ người nhận, các thông tin chính trong trường subject của bức
thư điện tử. Sau đó đối sánh những nội dung này với dữ liệu lấy từ bộ quản lý chính
sách lọc để kiểm tra những nội dung đó có vi phạm hay không, sau đó sẽ đưa ra
quyết định có chặn hay không đối với yêu cầu kết nối này tới máy chủ thư.
12
Hình 1. 5. Lược đồ hoạt động của module lọc theo đường xuống.
Sau khi yêu cầu được gửi và nhận thư được chuyển lên lên Máy chủ thư và được
đáp ứng, thì nội dung của yêu cầu kết nối đó được trả về sẽ được Mail Proxy client
gửi về cho module lọc theo đường xuống. Tại đây, module này sẽ tiến hành phân
tích phần liên quan đến các kết nối gửi và nhận thư đã yêu cầu mà Máy chủ thư gửi
về, phần này sẽ chứa thông tin về kiểu dữ liệu (Content- type) và kiểu truyền dữ liệu
được trả về (Content-Transfer-Encoding) trả về.
Nếu dữ liệu trả về ở dạng text/ HTML thì module lọc sẽ tiến hành nhận dữ liệu về,

đồng thời lấy dữ liệu từ khóa bị cấm trong cơ sở dữ liệu của bộ quản lý chính sách
lọc để tiến hành phân tích kiểm tra nội dung của thư đó. Chức năng này được thực
hiện thông qua việc gọi hàm IsContentBlocked()- hàm tìm kiếm được viết dựa trên
thuật toán tìm kiếm Boyer Moore. Khi tìm thấy một từ khóa xuất hiện trong nội
dung trả về, module này sẽ ngắt kết nối tới Mail server, hủy dữ liệu, ghi nhật ký và
trả về cho client một trang cảnh báo.
13
Dựa trên Lược đồ hoạt động và các tác vụ cần thiết trong quá trình thực hiện nhiệm
vụ của module lọc nội dung Mail, để thực hiện được việc lọc nội dung các bức thư
điện tử theo từ khóa tiếng Việt với các loại bản mã Unicode, UTF-8, VNI, TCVN3
và những bản mã tiếng Việt đang được sử dụng khá phổ biến hiện nay, phải cần có
một module chuyển đổi mã font chữ của các từ khóa trong CSDL từ khóa sang các
dạng font chữ Tiếng Việt khác nhau.
14
CHƯƠNG 2. CÁC VẤN ĐỀ TRONG LỌC NỘI DUNG THƯ
ĐIỆN TỬ .
2.1. Lọc nội dung
Trên thực tế, việc lọc nội dung làm việc theo nguyên lý tương tự thực hiện
quét virus trên bức tường lửa hoặc máy chủ thư. Về bản chất, đây là quá trình thực
hiện việc tìm một đặc tính nào đó có xuất hiện trong nội dung thư hay không. Khi
thực hiện viện quét virus hoặc ngăn cấm một loại tệp nào đó (căn cứ vào phần mở
rộng, tên tệp hay định dạng tệp) thì chỉ đảm bảo được một mức độ an toàn nào đó.
Thực tế đã chứng minh khả năng gây tổn hại cho hệ thống xuất phát từ các nội dung
thư và các tệp đính kèm còn lớn hơn nhiều so với virus hay các loại mã phá hoại
khác. Chính vì thế, một số biện pháp lọc nội dung cần được triển khai đối với một
hệ thống thư điện tử.
Nói chung, các quy tắc được định nghĩa nhằm cách ly, làm sạch, ngăn chặn
hoặc xóa bất kì dữ liệu nào đi qua máy chủ cần căn cứ vào kết quả của quá trình
quét.
Dưới đây là một số thành phần tiêu biểu có thể bị chặn và xử lý bởi các bộ

lọc:
• Thư điện tử chứa nội dung đáng ngờ (ví dụ: Active X, JavaScrip),
chúng sẽ được gõ bỏ phần mã gây nên sự nghi ngờ trước khi chuyển
đến người dùng.
• Thư dạng bom thư có thể bị xóa.
• Các tệp có dung lượng lớn có thể bị dừng phân phát tại các giờ không
cao điểm (tại thời điểm lượng dữ liệu giao dịch nhiều).
Một đặc điểm chính nữa của các gói lọc nội dung là cho phép việc quét dữ
liệu được gửi ra bên ngoài mạng. Việc phân tích từ vựng có thể được thực hiện, như
vậy sẽ quét được các thông điệp chứa từ và cụm từ được xem là tương ứng với chức
năng sử dụng thư điện tử của một tổ chức hay công ty nào đó. Việc phân tích từ
vựng cũng có thể được sử dụng nhằm lưu lại các thông tin trao đổi qua thư điện tử
có nội dung chống lại công ty, hoặc các thư có mục đích tấn công theo kiểu bom thư
xuất phát từ tổ chức hay công ty đó. Mặt khác, việc phân tích từ vựng còn có thể
được sử dụng để quản lý các thông tin nhạy cảm của một công ty hay tổ chức, khi
chúng có nguy cơ bị rò rỉ theo đường thư điện tử.
15
Trước khi thực hiện giải pháp lọc, cần phải xác định được tình trạng hoạt
động hiện tại của mạng và các ứng dụng trên mạng. công việc này có thể được thực
hiện nhờ công cụ phân tích mạng (Sniffer), phân tích router, bức tường lửa và các
tệp nhật kí của máy chủ. Ngoài ra thông tin về tình trạng hoạt động của mạng có thể
nhận được từ chính những người quản lý mạng đó. Bên cạnh đó cũng cần phân tích
chính sách an toàn hiện tại đã được thiết lập hệ thống (hoặc một chính sách an toàn
đã được phác thảo trước nhưng chưa được thực thi). Việc xác định một cách rõ ràng
các chính sách an toàn là một yếu tố rất quan trọng trong việc chuyển các mục tiêu
an toàn của một tổ chức hay công ty thành các quy tắc lọc. Một vấn đề cũng cần
được quan tâm và việc thiết lập các thuộc tính lọc phải được thực hiện một cách
chính xác, nếu không sẽ dẫn đến tình trạng các nội dung cần lọc lại không được lọc,
trong khi các thông tin hoàn toàn hợp lệ lại bị chặn bởi các bộ lọc.
Hiện tại có nhiều ứng dụng lọc nội dung khác nhau có thể hỗ trợ cho hầu hết

các hệ thống truyền thông điệp thư điện tử. Một bộ lọc nội dung được xem là hiệu
quả nhất là bộ lọc có thể lọc được tất cả các thư đi và đến một mạng của công ty
hay tổ chức nào đó. Nhiều sản phẩm mới đã kết hợp được các chức năng như lọc
nội dung, quét virus và hạn chế kiểu tệp được phép gửi qua thư điện tử. Việc kết
hợp các tính năng trên trong cùng một sản phẩm sẽ giúp giảm nhẹ việc quản trị cơ
chế an toàn của một mạng.
2.2. Các vấn đề liên quan đến lọc nội dung
Mặc dù việc lọc nội dung thư điện tử rất quan trọng đối với cơ chế an toàn
mạng của các tổ chức, tuy nhiên các quy tắc pháp lý cần được đưa ra trước khi thực
hiện các quy tắc lọc. Bên cạnh việc thực hiện lọc nội dung trên mạng thực thế cần
có những văn bản pháp lý đi kèm xác định rõ ràng cơ chế an toàn cho tổ chức.
Chính sách sử dụng an toàn thư điện tử nên được in thành văn bản một cách rõ ràng,
thư điện tử sẽ bị theo dõi, quản lý và sẽ có những chế tài tương ứng đối với những
thư điện tử có thể làm phương hại đến lợi ích của tổ chức. Văn bản quy định các
chính sách an toàn trên cần được người thực thi hiểu và thực hiện theo. Mặc dù
chính sách an toàn chung có thể được thực hiện nhưng vấn đề đảm bảo cho những
thông tin cá nhân của mỗi đối tượng trong tổ chức đó cũng cần được quan tâm. Ví
dụ, trong một số trường hợp mỗi cá nhân có quyền giữ bí mật về thông tin trong các
thư điện tử riêng của mình. Vậy cơ chế an toàn chung của công ty phải chịu trách
nhiệm về việc có thể rò rỉ các thông tin trên. Nếu không có chính sách cụ thể cho
vấn đề này, rất dễ dẫn đến sự tranh chấp rất khó giải quyết.
16
Tương tự như vậy, trong một số tình huống, các thông điệp thư điện tử được
xem như có giá trị pháp lý tương đương như các chứng từ văn bản viết tay khi
chúng được kí chữ kí số. Điều này có ý nghĩa là các thông điệp thư điện tử (bao
hàm cả thư điện tử cá nhân) cần được lưu trữ và bảo quản theo đúng quy tắc quản lý
các bản pháp lý khác. Như vậy, mọi đối tượng thuộc tổ chức, công ty đó cần nhận
thức rõ ràng về chính sách an toàn. Cụ thể hơn chính sách an toàn phải được chuyển
đến tận tay đối tượng người sử dụng trong công ty. Hơn nữa, nó còn được xem như
một yêu cầu trong hợp đồng lao động hoặc một điều kiện làm việc được quy định

trong hợp đồng đối với người sử dụng.
Các vấn đề có liên quan như cơ sở pháp lý, quyền các nhân, quyền của người
quản trị….cần được xem xét một cách kĩ lưỡng trước khi xây dựng chính sách an
toàn. Để chắc chắn một điều chính sách an toàn đã được các chuyên gia xem xét kĩ
nhằm đảm bảo tính chính xác về mặt pháp lý và không vi phạm quyền của người
lao động. Bên cạnh đó, cũng cần có sự phân hoạch rõ ràng các đối tượng và chức
năng của họ trong công ty để có thể đặt ra các an toàn cho phù hợp. Việc hạn chế sử
dụng nguồn tài nguyên trên internet sẽ giúp cho việc thực hiện chính sách an toàn
một cách triệt để, tuy nhiên với xu thế hiện nay yêu cầu trên là không hợp lý. Đây là
nơi các công cụ lọc nội dung có thể phát huy vai trò của mình.
2.3. CÁC PHƯƠNG PHÁP LỌC TRONG THƯ ĐIỆN TỬ.
 Các phương pháp lọc thư .
Để đánh giá hiệu quả của một công cụ lọc thư thường dựa trên hai độ đo:
• False Positive: Tỷ lệ thư thường bị lọc nhầm thành thư rác
• False Negative: Tỷ lệ thư rác bị lọc nhầm thành thư thường.
Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng
thường không chấp nhận lỗi này.
Các công cụ lọc thư rác thường được tính toán sao cho độ đo False Positives
và False Negatives là nhỏ nhất. Tuy nhiên, lỗi False Positives có phần được yêu tiên
hơn. Một bộ lọc lý tưởng là sản phẩn có False Positives bằng 0 và False Negatives
bằng 0. Điều này dường như là không thể.
Ngày nay, tất cả những công cụ lọc có giá trị thường sử dụng một trong số
những phương pháp hoặc kết hợp của các phương pháp sau:
 Phương pháp lọc theo từ khóa:
17
Phương pháp lọc thư rác theo từ khóa là phương pháp truyền thống trong
việc lọc thư rác, dựa vào những từ hay cụm từ có trong tiêu đề và nội dung của thư
để lọc.
Khi một thư mới được gửi tới hòm thư của bạn, bạn phải tạo ra một bộ lọc
mới đơn giản bằng cách chọn số từ hoặc cụm từ trong nội dung thư. Các từ hay cụm

từ này sẽ xác định đó là thư rác hay không. Vì mục đích của tất cả spam cơ bản là
giống nhau và nội dung của hầu hết spam mang các đặc điểm chung.
Một vài năm gần đây, những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác
của chúng đã bị chặn bởi bộ lọc theo từ khóa. Do vậy những kẻ gửi thư rác này đã
thay đổi cách viết nội dung của thư nhằm làm cho thư rác của chúng có thể “xuyên
qua” các bộ lọc. Điều này có thể giải thích tại sao bạn nhận nhiều thư với những từ
như “Vi@gra”, “Mort.gage”, “L|0|a|n|$” hay những tranh ảnh được nhúng vào trong
thư.
Ưu điểm: người dùng dễ dàng biến đổi bộ lọc của mình để nó có thể lọc các
kiểu thư rác mà người đó đang phải nhận và điều quan trọng là nó không cản trở các
từ và các cụm từ được sử dụng hàng ngày trong kinh doanh thương mại với mọi
người.
Nhược điểm: yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì
bộ lọc được hiệu quả.
 Phương pháp lọc Bayesian:
Lọc bằng thống kê Baysian là đánh giá xem những từ ngữ trong một email
sắp được chuyển đến có thường xuyến xuất hiện trên thư rác hay thư thường không.
Một cách hiệu quả giúp lọc chính xác là người dùng thông báo cho chương trình lọc
bất kỳ thư rác nào mà đã may mắn “thoát” đợt “truy quét” đầu tiên. Lần lọc sau,
chắc chắn nó sẽ không thể trốn thoát qua bộ lọc.
Bộ lọc Bayesian phải được học từ những email được xác định trước là thư
thường hay thư spam. Trong suốt quá trình cho bộ lọc học, nội dung của các thư
được tách các từ tố và lưu vào trong một cơ sở dữ liệu. Dựa vào công thức Bayes,
mỗi từ tố được tính cho một giá trị phụ thuộc vào một số tiêu chuẩn sau:
• Mức độ thường xuyên xuất hiện của từ tố đó trong thư rác.
• Mức độ thường xuyên xuất hiện của từ tố đó trong thư thường.
• Số lượng thư rác mà bộ lọc đã được học.
• Số lượng thư thường bộ lọc đã được học.
18
Khi phân tích một thư rác, nội dung của thư cũng được tách ra thành các từ

tố, tra giá trị ứng với từ tố này trong cơ sở dữ liệu từ đó tính được xác suất tổng hợp
xem thư đó có phải là thư rác không. Giá trị này thường được gọi là “spammicity”.
Ưu điểm:
• Yêu cầu sự duy trì ít hơn các bộ lọc khác.
• Bộ lọc có thể tự động thích nghi với các hướng thay đổi của thư
rác. Bời vì bộ lọc Bayesian luôn học từ những thư mới đến, chúng
sẽ tự thích nghi dần dần với các hướng thay đổi.
• Tự động điều chỉnh phù hợp với hòm thư của những người dùng
riêng biệt.
Nhược điểm: Bộ lọc chỉ lọc tốt đối với những kiểu thư mà chúng đã được
học. Để có thể đạt tới khả năng là một bộ lọc tốt, nó cần có thời gian học khá lâu và
một lượngdữ liệu thư đủ phong phú. Các thư rác mới phải thường xuyên được cập
nhật.
 Phương pháp lọc SpamAssassin:
Phương pháp lọc Spam Assassin bao gồm một tập các chương trình lọc và
các luật để xác định và đánh dấu thư rác.
Để xác định một thư mới đến có phải là thư rác hay không, nó dùng tiêu đề
(header) và nội dung của thư rồi dựa trên tập các luật được xác định trước và những
kí hiệu dấu câu đặc biệt (tell-tale), xem thư có vi phạm các luật này không sau đó
tính điểm đối với từng thư. Từ kết quả đó, xác định được một thư là thư rác hay thư
thường.
Ưu điểm: tỉ lệ lọc thư rác của phương pháp SpamAssassin rất cao.
Nhược điểm: tốn khá nhiều tài nguyên (khối điều khiển CPU, bộ nhớ, thời
gian xử lý) của máy chủ, đặc biệt khi phải xử lý những email có dung lượng lớn.
 Phương pháp dùng danh sách trắng/đen:
Đây là phương pháp cơ sở của các bộ lọc thư rác. Tuy nhiên, ngày nay người
ta ít khi sử dụng nó một cách đơn lập mà được dùng kết hợp với các phương pháp
lọc khác như là một phần của hệ thống bộ lọc tích hợp.
Bộ lọc danh sách trắng (Whitelist filter) sẽ không chấp nhận những email từ
bất cứ địa chỉ nào nếu không có trong danh sách được chắc chắn là những địa chỉ

email (hoặc địa chỉ IP) tốt.
Bộ lọc danh sách đen (Blacklist filter) cho phép những thư đến từ bất cứ địa
chỉ email (hoặc địa chỉ IP) nào trừ những địa chỉ được liệt kê trong danh sách được
19
biết đến như là địa chỉ email (hoặc địa chỉ IP) xấu. Danh sách đen có thể được lưu
trữ và được quản lý trên những hệ thống địa phương hoặc ánh xạ thông qua mạng
Internet.
Ưu điểm:
• Danh sách trắng bảo đảm ngăn các email từ các nguồn không
mong muốn.
• Với bộ lọc thư rác sử dụng danh sách đen được cập nhật thường
xuyên sẽ cho giá trị False Positives bằng 0.
Nhược điểm:
• Bộ lọc sử dụng danh sách trắng là cách loại trừ thư rác mạnh mà
không có tính mềm mỏng. Bất cứ thư nào tới mà không có địa chỉ
trong danh sách này thì đều bị loại thành thư rác, do đó giá trị
False Positives thường cao.
• Các danh sách này không được tạo tự động mà sẽ do người quản
trị thường xuyên cập nhật. Cả Blacklist và Whitelist đều rất khó
duy trì và phương pháp này đặc biệt trở lên không hiệu quả đối với
những tấn công của những kẻ tấn công cố đưa địa chỉ vào
Whitelist và chối bỏ địa chỉ khỏi Blacklist.
Ngày nay, một hình thức ngăn chặn spam mới được kế thừa và pháp trển từ
phương pháp Blacklist đó là Realtime Blackhole List (RBL) của Multiple Address
Processing System (MAPS). Nó có thể nhận biết các máy chủ có nhiều thư rác do
đó nhà cung cấp dịch vụ có thể chặn những máy chủ này và lọc spam trước khi
chúng đến hộp thư khách hàng của họ. Hàng ngàn nhà cung cấp dịch vụ dùng cơ sở
dữ liệu của RBL đồng thời kết hợp nhiều ứng dụng bảo mật thư điện tử trong máy
chủ.
 Phương pháp lọc thư rác dùng chuỗi hỏi đáp (Challeenge/Response

filters):
Đặc trưng của phương pháp này là khả năng tự động gửi thư hồi đáp cho
người gửi để yêu cầu một số hành động kiểm tra chắc chắn về việc gửi thư của họ.
Trong một vài năm gần đây xuất hiện của một vài dịch vụ Internet tự động
xử lý hàm Challenge/Response này cho người dùng. Chương trình yêu cầu người
gửi phải vào website của họ và trả lời một số câu hỏi đơn giản để xác minh về email
mà người này đã gửi.Việc này chỉ được yêu cầu trong lần gửi thư đầu tiên. Đáp ứng
hàm Challenge/Response này rất đơn giản và không có gì khó khăn khi một người
20
dùng muốn gửi thư cho một người khác nhưng nó không mấy dễ dàng cho những kẻ
gửi thư rác muốn phát tán một lượng lớn thư rác đi.
Ưu điểm:
• Đối với một số người dùng có lượng thư trao đổi thấp, hệ thống
đơn lẻ này có thể chấp nhận được như một phương pháp hoàn hảo
để loại trừ hoàn toàn thư rác từ hòm thư của họ.
Nhược điểm:
• Người dùng thường cảm thấy không thuận tiện.
• Những kẻ gửi thư rác có thể viết những chương trình trả lời tự
động những chuỗi hỏi đáp trên.
 Phương pháp lọc dựa vào vị trí của các bộ lọc (Filter Placement):
Có 3 mô hình chính cho bộ lọc được sắp đặt:
• Bộ lọc tích hợp với máy trạm email của người dùng: Nhiều bộ lọc
thư rác được tích hợp với các máy trạm email như Outlook hoặc
outlook Express.
− Ưu điểm:
+ Tối thiểu sự ảnh hưởng đối với những thói quen đọc thư thông thường của
người dùng. Thư rác thường bị di chuyển tới một thư mục “Junk Mail”.
Người dùng có thể xem lại hoặc xóa spam lưu trong thư mục này một cách
dễ dàng.
− Nhược điểm:

+ Người dùng chỉ sử dụng với máy trạm của email hiện tại của mình.
+ Không mềm dẻo: thường đưa cho người dùng giới hạn để chọn những cảnh
báo. Thí dụ, khi người dùng đang chạy Microsoft Outlook với một bộ lọc thư
rác tích hợp, bất cứ khi nào một thư rác tới, người dùng vẫn bị cảnh bảo có
thư mới tới. Người dùng phải vào chương trình Outlook để xác nhận xem thư
mới đến đó là thư rác và không phải là một email quan trọng. Người dùng
không thể điều chỉnh để tạo một cảnh báo khác có thể nghe thấy giữa những
email tốt và xấu hoặc chỉ cảnh báo những email tốt khi những email được
gửi tới hòm thư trước khi chúng hoạt động chống lại bởi bộ lọc và di chuyển
tới một thư mục riêng biệt.
• Các bộ lọc hoạt động như là một “proxy” giữa máy chủ email và
máy trạm email của người dùng: Bộ lọc này chạy bên trong máy
của người dùng, định kì thăm dò máy chủ email, lấy ra những
21
email của người dùng và nó được lọc trên máy chủ email trước khi
những email này được gửi tới máy trạm email bình thường của
người dùng và được lọc một lần nữa.
− Ưu điểm:
+ Dễ thay đổi: Các thư trước khi được gửi tới người dùng có thể đánh dấu, di
chuyển hoặc xóa bởi máy chủ email trước khi chúng được nhìn thấy bởi máy
trạm email của người dùng.
+ Bảo mật: chúng tương ứng như một tầng khác ở giữa Internet và máy trạm
email của người dùng. Chúng sẽ không chạy bất cứ một ứng dụng hay một
tập lệnh nào đó được tìm thấy trong thư.
− Nhược điểm:
+ Để sử dụng hiệu quả phương pháp này đòi hỏi tắt chế độ tự động kiểm tra
trên máy trạm email của người dùng vì thế proxy phải thay đổi để làm việc
trên máy chủ đầu tiên.
+ Thông tin tài khoản email cần được cài đặt trong bộ lọc cũng như trong máy
trạm email của người dùng.

• Bộ lọc dựa trên máy chủ: Những bộ lọc này thường chỉ được sử
dụng trong một nhóm hoặc môi trường làm việc kinh doanh hơn là
ở trong gia đình. Tất cả email đến đều thông qua máy chủ trung
tâm. Tại máy chủ trung tâm này, email được lọc bởi bộ lọc dựa
trên máy chủ và những người dùng riêng biệt nhận thư của họ trên
màn hình nền của máy họ lấy từ máy chủ trung tâm.
− Ưu điểm:
+ Việc quản lý trung tâm của tất cả các luật lọc thư bảo đảm tính an toàn trong
mạng.
+ Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không
phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong
công việc với trao đổi thư điện tử.
− Nhược điểm:
+ Thường yêu cầu nhiều tới sự duy trì và cần có một người quản trị mạng có
năng và kinh nghiệm để quản lý bộ lọc thư rác này.
+ Chi phí đắt hơn.
 Phương pháp lọc dựa trên xác nhận danh tính của người gửi.
22
Giả mạo thư điện tử (là việc giả mạo địa chỉ thư điện tử của một công ty hoặc
của một người khác để khiến người sử dụng tin tưởng và mở thư) đang là một trong
những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống
thư rác hiện đang phải đối mặt. Nếu không có sự thẩm định quyền, xác nhận và khả
năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không
bao giờ có thể biết chắc một bức thư là hợp pháp hay bị giả mạo. Do đó việc xác
nhận danh tính của người gửi là rất cần thiết. Một số phương pháp để xác nhận danh
tính của người gửi:
• Phương pháp DomainKeys:
− Giúp phân định rõ thư rác và thư thường bằng cách cung cấp cho các
hãng cung cấp dịch vụ thư điện tử một cơ chế xác nhận tên miền của
mỗi người gửi thư điện tử và sự liêm chính của mỗi bức thư được gửi

đi (ví dụ như các thư này không bị thay thế trong khi được truyền qua
mạng). Và sau khi đã xác nhận được tên miền, người ta có thể so sánh
tên miền này với tên miền mà người gửi sử dụng trong ô “Người gửi”
của thư để phát hiện các trường hợp giả mạo. Nếu đây là trường hợp
giả mạo, thư đó sẽ bị coi là thư rác hoặc gian lận, và có thể bị loại bỏ
mà không ảnh hưởng tới người sử dụng. Nếu đây không phải là thư
giả mạo, có nghĩa là tên miền được biết đến và tên miền gửi thư đó có
thể được đưa vào danh sách những tên miền đáng tin cậy và được đưa
vào các hệ thống quy định chống thư rác được sử dụng chung giữa các
hãng cung cấp dịch vụ và thậm chí đưa ra cho cả người sử dụng.
• Phương pháp Call-ID:
− Caller ID là một tiêu chuẩn đặt ra trong quá trình gửi thư. Tiêu chuẩn
này đòi hỏi người gửi thư điện tử phải cung cấp địa chỉ IP của máy
chủ gửi thư theo dạng XML vào bản ghi DNS trên máy chủ tên miền
của họ. Máy chủ nhận thư điện tử và máy khách nhận bức thư đó sẽ
kiểm tra địa chỉ gửi thư trong tiêu đề bức thư với địa chỉ đã được công
bố để xác nhận máy chủ gửi thư. Các bức thư không khớp với địa chỉ
nguồn sẽ bị loại bỏ. DNS là hệ thống diễn dịch các địa chỉ IP số sang
tên miền Internet có thể đọc được.
• Phương pháp SPF (Sender Policy Framework) - dựa trên cơ cấu
chính sách người gửi:
− Chuẩn SPF cũng yêu cầu người gửi thư điện tử phải sửa đổi DNS để
cho biết máy chủ nào có thể gửi thư từ một tên miền Internet nhất
23
định. Tuy nhiên, SPF chỉ kiểm tra sự giả mạo bức thư trong quá trình
chuyển thư hay còn gọi là ở mức “ngoài phong bì”, xác minh địa
chỉ“phản hồi” của một bức thư, thường được máy chủ nhận thư gửi
trở lại trước khi tiếp nhận phần nội dung thư, sau đó sẽ thông báo tới
máy chủ nhận thư để loại bỏ bức thư.
− Trong đặc tả kỹ thuật kết hợp hai tiêu chuẩn, các công ty gửi thư điện

tử sẽ công bố địa chỉ máy chủ thư điện tử của họ trong bản ghi DNS
dưới định dạng Ngôn ngữ đánh dấu mở rộng (XML). Các công ty
sẽcó thể kiểm tra sự giả mạo ở mức phong bì (cũng giống như trong
đề xuất SPF) và trong phần nội dung thư (theo đềxuất của Microsoft).
− Kỹ thuật này sẽ cho phép các công ty sử dụng cách thức của SPF để
loại bỏ thư rác trước khi chúng được gửi đi, nếu sự giả mạo bị phát
hiện ngay ở mức phong bì. Với những bức thư đòi hỏi sự kiểm tra kỹ
hơn trong nội dung thư, thì phương pháp Caller ID sẽ được sử dụng.
Đề xuất này cũng sẽ hỗ trợ các tên miền đã có sẵn những bản ghi SPF
là văn bản, không theo định dạng XML.
 Phương pháp lọc thư rác mới dựa trên mạng xã hội:
Các nghiên cứu gần đây đã bắt đầu khai thác thông tin từ mạng xã hội cho
việc xác định thư rác bằng cách xây dựng một đồ thị (các đỉnh là địa chỉ email, cung
được thêm vào giữa 2 node A và B nếu giữa A và B có sự trao đổi thư qua lại).
P.O.Boykin và V.Roychowdhury đã sử dụng một số tính chất đặc trưng của mạng
xã hội để xây dựng một công cụ lọc thư rác.
Đầu tiên, người ta phân đồ thị thành các thành phần con rồi tính độ phân cụm
cho từng thành phần này. Mỗi thành phần con là một đồ thị mạng xã hội của một
node, bao gồm tất cả các node hàng xóm (các node xung quanh có cung liên kết với
node này) và những cung liên kết giữa các node hàng xóm này với nhau. Nếu thành
phần nào có độ phân cụm thấp thì node tương ứng với thành phần đó là một địa chỉ
gửi thư rác. Trong thành phần mạng xã hội của những node gửi thư rác, những node
hàng xóm của nó thường là những node rất ngẫu nhiên, không có mối quan hệ
(không có sự trao đổi email qua lại với nhau) nên độ phân cụm của mạng xã hội của
những node này rất thấp. Ngược lại, mạng xã hội ứng với những người dùng bình
thường các node hàng xóm của nó có mối liên kết cao với nhau nên có độ phân cụm
cao hơn.
Dựa vào độ phân cụm, người ta tạo được danh sách đen (Blacklist) gồm địa
chỉ email tương ứng với những node có độ phân cụm thấp, danh sách trắng
24

(Whitelist) ứng với node có độ phân cụm cao, số node còn lại sẽ được đưa vào danh
sách cần xem xét (Greylist). Phương pháp này có thể phân loại được 53% tổng số
email một cách chính xác là HAM hay SPAM. Nhược điểm của phương pháp là
những spammer có thể xây dựng mạng xã hội của chính họ nên khó có thể phát hiện
ra.
Cho đến nay, một bộ lọc thư rác được xem là hoàn hảo vẫn chưa được tạo ra,
và việc tạo ra nó dường như là thể không thể. Bởi, cuộc chiến không ngừng giữa
những kẻ gửi thư rác và những bộ lọc làm cho siêu bộ lọc thư rác của hôm nay có
thể trở thành cái lỗi thời của ngày mai. Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử
dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệt kê ở trên.
25

×