Tải bản đầy đủ (.docx) (61 trang)

NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM KIẾM - ĐỀ XUẤT CẢI TIẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.5 MB, 61 trang )

Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRẦN QUANG PHÁT
NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM
KIẾM - ĐỀ XUẤT CẢI TIẾN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
KHÓA LUẬN TỐT NGHIỆP THẠC SĨ
Trần Quang Phát – CH1101119 1 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
TP.HCM - 2013
MỞ ĐẦU
Có thể nói, Internet ra đời là một bước ngoặt lịch sử của nhân loại. Nó mở ra một thế giới thông
tin và truyền thông vô cùng rộng lớn cho con người, mang con người đến gần nhau hơn.
Với một tốc độ phát triển nhanh chóng từ số lượng đến chất lượng đường truyền, nội dung phong
phú, Internet chính là liên mạng máy tính toàn cầu. Internet khai sáng một kỷ nguyên mới mà ở
đó con người có thể tìm kiếm, khai thác thông tin, trao đổi, học tập, … thông qua một thế giới ảo
nhưng lại vô cùng tiện ích.
Internet là một kho tài nguyên vô tận được cung cấp bởi hàng triệu trang web trên khắp thế giới.
Các thông tin này rất đa dạng và có thể đúng, cũng có thể sai hoặc chưa đầy đủ, cần thiết hoặc
không cần thiết, do đó người sử dụng cần phải tìm kiếm thông tin từ nhiều nguồn khác nhau và
sau đó so sánh, tổng hợp để có được kết quả như mong muốn. Ngoài ra việc tìm kiếm được đúng
thông tin cần thiết cũng không phải là chuyện dễ dàng.
Hiện nay có rất nhiều trang web với công cụ tìm kiếm đã giúp cho người sử dụng Internet rất
nhiều trong việc tìm kiếm thông tin như: Google, Yahoo!Search, Bing, … Mỗi hãng phần mềm
có những công cụ tìm kiếm với những ưu điểm và tính năng khác nhau. Người dùng thì luôn
mong muốn có được một công cụ tìm kiếm tốt nhất, có thể tìm kiếm được những kết quả gần
đúng với mong muốn của mình nhất, còn các hãng phần mềm cũng mong muốn phát triển công
cụ tìm kiếm của họ sao cho có thể đáp ứng được tốt nhất cho người dùng.
Chúng ta hãy cùng nhau tìm hiểu những công cụ tìm kiếm, cùng nhau tìm hiểu tính năng, ưu


điểm cũng như nhược điểm của các công cụ tìm kiếm nổi tiếng hiện nay. Bài báo cáo tập trung
nghiên cứu công nghệ của các công cụ tìm kiếm, tìm hiểu các tính năng nổi trội của các hãng tìm
kiếm nổi tiếng, để cho người dùng có một cái nhìn khách quan, đúng đắn về các hãng tìm kiếm,
từ đó có thể đưa ra nhận định công cụ tìm kiếm nào là tốt và đáp ứng được yêu cầu của mình.
Đồng thời bài báo cáo cũng đưa ra một số đóng góp cải tiến các công cụ tìm kiếm, tuy các ý kiến
còn mang tính chủ quan và nhỏ nhưng thiết nghĩ nó cũng có đóng góp ít nhiều cho các công cụ
tìm kiếm.
Trần Quang Phát – CH1101119 2 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
DANH SÁCH CÁC HÌNH VÀ BẢNG BIỂU
Trần Quang Phát – CH1101119 3 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Mục lục
Trần Quang Phát – CH1101119 4 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Chương I TỔNG QUAN VỀ MÁY TÌM KIẾM
I. Khái quát về công cụ tìm kiếm thông tin
1. Khái niệm công cụ tìm kiếm thông tin
Thuật ngữ tìm kiếm thông tin xuất hiện từ khá sớm, thông tin ở đây tồn tại dưới nhiều dạng như:
văn bản, hình ảnh, âm thanh, … mà phổ biến nhất là dạng văn bản.
Chúng ta có thể hiểu một cách đơn giản, Search Engine là một công cụ (phần mềm) tìm kiếm
nhằm tìm ra các trang web trên mạng internet dựa vào thông tin mà nó có. Search Engine có một
cơ sở dữ liệu vô cùng lớn. Công cụ này tìm các tài liệu dựa trên các từ khóa (keyword) và trả về
một danh sách các trang web có chứa từ khóa cần tìm.
Một hệ thống tìm kiếm thông tin là một chương trình phần mềm, dùng để lưu trữ và quản lý
thông tin nằm trong các tài liệu. Hệ thống này sẽ giúp người sử dụng tìm kiếm thông tin mà họ
quan tâm. Các hệ thống này không giống như các hệ thống trả lời câu hỏi, nó chỉ ra sự tồn tại và
vị trí của các tài liệu có chứa thông tin cần thiết. Một số tài liệu tìm kiếm được thỏa mãn theo cầu
của người sử dụng gọi là các tài liệu phù hợp hay tài liệu liên quan. Một hệ thống tìm kiếm tốt sẽ
chỉ tìm và đưa ra các tài liệu liên quan mà không đưa ra các tài liệu không liên quan. Tuy nhiên,

điều này khó tồn tại bởi các thể hiện tìm kiếm là không đầy đủ mà mức độ liên quan phụ thuộc
vào quan điểm chủ quan của từng người. Hai người sử dụng có thể đưa ra cùng một truy vấn với
một hệ thống tìm kiếm thông tin, và sau đó sẽ có những đánh giá khác nhau về mức độ liên quan
trên các tài liệu tìm được.
Về cơ bản, Search Engine dùng để chỉ hai hệ thống tìm kiếm: một do các chương trình máy tính
tự động tạo ra (Crawler-Based Search Engines) và dạng do con người quản lý (Human-Powered).
Hai hệ thống tìm kiếm này tìm và lập danh sách chỉ mục website theo hai cách khác nhau.
1.1. Crawler-Based Search Engine
Hệ thống tìm kiếm trên nền tự động, đó là những cổ máy tìm kiếm tự động như Google, Bing, …
tạo ra những danh sách một cách tự động. Chúng sử dụng các chương trình máy tính được gọi là
“robots”, “spider” hay “crawlers” để truy tìm các thông tin trên mạng internet. Các crawler này
sẽ đến một trang web, đọc các thông tin thực sự của trang web đó, đọc các thẻ meta của trang
web và cũng tìm đến các liên kết (link) mà trang web đó liên kết đến. Các crawler này sẽ gửi tất
cả các thông tin về trung tâm lưu trữ để phân tích các dữ liệu. Crawler sẽ quay trở lại các trang
web đó một cách định kỳ để cập nhật sự thay đổi trên trang web đó, và chu kỳ cập nhật này là do
người quản trị của công cụ tìm kiếm đó đặt ra.
1.2. Human-Powered
Các công cụ tìm kiếm Human-Powered thì lại tìm kiếm vào các thông tin được liệt kê ra bởi
người quản trị trang web, sau đó các thông tin này sẽ được phân tích, liệt kê và đưa vào hệ thống.
Chỉ những thông tin được đưa ra bởi người quản trị web mới được đưa vào bảng liệt kê.
Trần Quang Phát – CH1101119 5 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
2. Mô hình bộ công cụ tìm kiếm
Tìm kiếm trên các thông tin nói chung giải quyết các vấn đề như biểu diễn, lưu trữ, tổ chức và
truy cập đến các mục thông tin. Việc tổ chức và biểu diễn thông tin giúp người sử dụng dễ dàng
truy cập thông tin mà mình quan tâm. Nhưng để mô tả đặc điểm thông tin yêu cầu của người sử
dụng là không dễ dàng. Vì thế, hệ thống tìm kiếm thông tin bao gồm 3 quá trình cơ bản sau:
• Biểu diễn nội dung các tài liệu.
• Biểu diễn yêu cầu của người tìm kiếm.
• So sánh hai biểu diễn.

Hình : Quy trình tìm kiếm thông tin
Quá trình biểu diễn tài liệu được gọi là quá trình đánh chỉ số. Quá trình này có thể lưu trữ thực sự
các tài liệu trong hệ thống, nhưng thông thường chỉ lưu một phần tài liệu như: phần tiêu đề và
tóm tắt nội dung. Quá trình biểu diễn yêu cầu của người sử dụng gọi là quá trình truy vấn. Truy
vấn biểu thị sự tương tác giữa hệ thống với người sử dụng. Việc so sánh truy vấn với tài liệu được
gọi là quá trình đối sánh và cho kết quả là một danh sách các tài liệu được sắp xếp theo mức độ
liên quan tới truy vấn.
Như vậy, để mô tả thông tin yêu cầu một cách đầy đủ thì người sử dụng không thể trực tiếp yêu
cầu thông tin mà phải sử dụng các giao diện của hệ thống tìm kiếm. Đầu tiên, người sử dụng phải
chuyển đổi thông tin yêu cầu này thành một truy vấn mà có thể được xử lý bởi hệ thống tìm kiếm
(hoăc hệ thống thu hồi thông tin – Information Retrieval – IR). Thông thường, phép chuyển đổi
này tạo ra một tập hợp các từ khóa mô tả khái quát yêu cầu của người sử dụng.
Như vậy, việc tìm kiếm các tài liệu dựa trên nội dung thực sự của văn bản mà không phụ thuộc
vào các từ khóa gắn với văn bản đó. Các công cụ tìm kiếm văn bản nổi tiếng như: Google, Yahoo,
… là những hệ tìm kiếm đưa ra danh sách các văn bản theo độ quan trọng của câu hỏi đưa vào.
Trần Quang Phát – CH1101119 6 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Để xây dựng một hệ tìm kiếm văn bản có hiệu quả cao, trước hết các văn bản và truy vấn ở dạng
ngôn ngữ tự nhiên phải được tiền xử lý và chuẩn hóa.
Có 2 bộ tìm kiếm cơ bản:
2.1. Bộ công cụ tìm kiếm truyền thống
Vào những năm 70, khi các mô hình tìm kiếm thông tin chủ yếu được xử lý với các truy vấn
không có cấu trúc. Nguyên tắc hoạt động của hệ thống truy vấn tự động chỉ số hóa và thiết lập
các công thức truy vấn. Kết quả đưa ra là một biểu diễn có ý nghĩa gần với ý nghĩa thực của văn
bản, loại bỏ các từ không theo quy tắc trong ngôn ngữ tự nhiên đến mức có thể.
2.2. Bộ công cụ tìm kiếm trên mạng
Do các trang web phân tán ở khắp mọi nơi nên điều đầu tiên là chúng ta phải thu thập được tất cả
các dữ liệu web có liên quan đến truy vấn và lập chỉ mục, sau đó thực hiện tìm kiếm để đưa ra tập
kết quả có liên quan tới nội dung truy xuất. Mô hình này rất phức tạp bởi kho dữ liệu cực lớn với
tỷ lệ thay đổi nội dung cao.

II. Các bộ phận cấu thành hệ thống tìm kiếm
1. Thu thập thông tin
Các hệ thống tìm kiếm sử dụng phần mềm như “robot”, “spider” hay “webcrawler” để khám phá
các trang web công khai hiện có. Các chương trình này sẽ tự động dò tìm và phân tích những
trang web công khai hiện có, và dò theo liên kết trên các trang đó. Chúng đi từ liên kết này tới
liên kết khác và mang dữ liệu về các trang web đó về máy chủ Search Engine.
2. Lập chỉ mục
Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích,
trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những
dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó
một cách nhanh chóng và hiệu quả. Lập chỉ mục là giai đoạn phân tích tài liệu, để xác định các
chỉ mục biểu diễn nội dung của tài liệu. Giống như chỉ mục của một cuốn sách, chỉ mục của bộ
lập chỉ mục cũng bao gồm thông tin về các từ và vị trí của chúng. Khi chúng tìm kiếm, ở mức cơ
bản nhất, các thuật toán sẽ tra cứu những cụm từ tìm kiếm trong chỉ mục để tìm các trang phù
hợp.
3. Bộ tìm kiếm thông tin
Search Engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ
mục và bộ tìm kiếm thông tin. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng
phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động.
Search Engine tương tác với người dùng thông qua giao diện web, có nhiệm vụ tiếp nhận và trả
về những tài liệu thỏa yêu cầu của người dùng.
Trần Quang Phát – CH1101119 7 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
4. Bộ Query Engine
Bộ truy vấn này có nhiệm vụ nhận và tìm kiếm các yêu cầu của người dùng. Bộ công cụ này sẽ
dựa vào bảng chỉ mục và các kho lưu trữ để tìm kiếm. Vì cơ sở dữ liệu web rất lớn, thêm vào đó
khi tìm kiếm ta chỉ đưa vào một vài từ khóa sau đó sẽ nhận được một tập kết quả tìm kiếm. Do
đó, phải có một module sắp xếp kết quả theo thứ tự sao cho nó gần với nội dung cần tìm nhất.
5. Sắp xếp
Đây là module có chức năng sàng lọc thông tin từ hàng tỷ trang web tương tự nhau để sắp xếp vị

trí từng trang sao cho phù hợp nhất.
Trần Quang Phát – CH1101119 8 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Chương II CÁC CÔNG CỤ CƠ BẢN
I. Thu hồi trang Web
Module Robot có nhiệm vụ thu hồi các trang web để hỗ trợ cho các module sau. Module Robot
có đầu vào là một tập các giá trị khởi tạo URL, chúng được thu hồi và sắp xếp theo thứ tự ưu tiên
nào đó. Robot lấy một giá trị URL, tải trang tương ứng xuống rồi trích tất cả giá trị URL nằm
trong trang, đặt vào kho lưu trữ, quá trình này được lặp đi lặp lại cho tới khi Robot quyết định
dừng.
Hoạt động của Robot thường được sử dụng vào những mục đích sau:
• Phân tích, thống kê
Robot đầu tiên được dùng để đếm số lượng web server, số tài liệu trung bình của một
server, tỉ lệ các dạng tập tin khác nhau, kích thước trung bình của một trang web, độ kết
dính, …
• Duy trì siêu liên kết
Một trong những khó khăn của việc duy trì một siêu liên kết là nó liên kết tới những trang
bị hỏng, khi những trang này bị thay đổi hoặc thậm chí bị xóa. Thật không may vẫn chưa
có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này. Thực tế khi các tác giả nhận ra
tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo cho nhau hoặc thỉnh thoảng
độc giả thông báo cho họ bằng email.
Ví dụ như ta thực hiện tìm kiếm các tài liệu, hệ thống tìm kiếm được các liên kết có tài
liệu mà ta cần. Nhưng khi ta nhấp chuột tới liên kết đó thì tài liệu đó đã bị hỏng (bị lỗi
hoặc bị xóa).
Một số Robot như MOMspider có thể trợ giúp tác giả phát hiện các liên kết hỏng cũng
như duy trì các cấu trúc siêu liên kết cùng nội dung của một trang web. Chức năng này lặp
đi lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được
giải quyết nhanh chóng.
• Ánh xạ địa chỉ web (Mirroring)
Mirroring là một kỹ thuật phổ biến trong việc duy trì các kho dữ liệu của FTP. Một ánh xạ

(mirror) sẽ sao chép toàn bộ cấu trúc cây thư mục và thường xuyên cập nhật những tập tin
bị thay đổi. Điều này cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên
kết bị thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào website thực sự
chứa các dữ liệu này.
• Phát hiện nguồn tài nguyên
Có lẻ ứng dụng thú vị nhất của Robot là dùng nó để phát hiện tài nguyên. Con người
không thể kiểm soát nổi một khối lượng thông tin khổng lồ trong môi trường mạng. Robot
sẽ giúp thu thập tài liệu, tạo và duy trì cơ sở dữ liệu, phát hiện và xóa bỏ các liên kết hỏng
nếu có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Trần Quang Phát – CH1101119 9 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
1. Các chiến thuật thu thập dữ liệu
Trước khi các trang web được đánh chỉ mục, tất cả các trang web phải được lấy về máy của
Robot. Để lấy được tất cả các trang web, Robot phải có chiến thuật. Từ một số trang web có sẵn,
Robot lọc ra danh sách các liên kết rồi từ đó dò tìm các trang khác.
Có 3 chiến thuật tìm kiếm Heuristic như sau: tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng
và tìm kiếm ngẫu nhiên.
2. Những vấn đề cần lưu lý
• Việc sử dụng các Robot tốn khá nhiều chi phí, đặc biệt là khi chúng được điều khiển từ xa
trên Internet.
• Sự quá tải mạng và server.
• Sự cập nhật quá mức cần thiết.
II. Bộ lập chỉ mục
1. Khái quát về hệ thống lập chỉ mục
Lập chỉ mục tài liệu, hiểu theo cách đơn giản là việc sắp xếp các tài liệu nhằm đáp ứng nhanh
những yêu cầu tìm kiếm thông tin của người dùng. Hiệu quả của phương pháp lập chỉ mục được
đánh giá qua không gian lưu trữ mà nó đòi hỏi và thời gian cần thiết để thực hiện việc tìm kiếm
thông tin. Các phương pháp lập chỉ mục giữ vai trò quan trọng trong việc xây dựng một hệ thống
tìm kiếm thông tin hiệu quả.
Các trang web sau khi thu thập thông tin về sẽ được phân tích, trích chọn những thông tin cần

thiết để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cần tìm kiếm sau này.
2. Tổng quan về phương pháp lập chỉ mục
Module lập chỉ mục xây dựng hai chỉ mục cơ bản: chỉ mục cho nội dung (cho văn bản) và chỉ
mục cho liên kết.
2.1. Phương pháp lập chỉ mục cho nội dung
Phương pháp lập chỉ mục này gồm 2 phần chính yếu sau:
• Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho văn bản sẽ được
lưu trữ (bao gồm cả việc tách từ, loại bỏ stop word, …).
• Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị phản ánh tầm quan
trọng của mục từ đó trong văn bản.
Mục từ hay còn gọi là mục từ chỉ mục là đơn vị cơ sở cho quá trình lập chỉ mục. Mục từ có thể là
từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ cảnh cụ thể. Ta xác định mục từ của
một văn bản dựa vào chính nội dung của văn bản đó hoặc dựa vào tiêu đề hoặc tóm tắt nội dung
của văn bản đó.
Trần Quang Phát – CH1101119 10 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Đặc trưng xuất hiện của từ vựng có thể được định bởi hằng số “thứ hạng – tần số” (Rank-
Frequency) theo luật Zipf:
Tần số xuất hiện * thứ hạng = Hằng số
Biểu thức của luật Zipf có thể dẫn ra những hệ số ý nghĩa của từ dựa vào những đặc trưng của tần
số xuất hiện của mục từ riêng lẻ trong những văn bản tài liệu.
Trọng số các mục từ là tần suất xuất hiện của mục từ trong toàn bộ tài liệu. Phương pháp thường
được sử dụng để đánh giá trọng số của từ là dựa vào thống kê. Với ý tưởng là những từ thường
xuyên xuất hiện trong tất cả các tài liệu thì ít có ý nghĩa hơn những từ tập trung trong một số tài
liệu.
2.2. Phương pháp lập chỉ mục cho liên kết
Để xây dựng bảng chỉ mục cho liên kết thì các phần được thu hồi trên web được mô hình hóa như
một đồ thị với các cạnh và các nút. Mỗi nút trong đồ thị tương ứng với một trang web, và mỗi
cạnh có hướng từ A tới B diễn tả liên kết siêu văn bản từ trang A tới trang B.
Thông thường các thông tin cấu trúc này được sử dụng trong tìm kiếm các thông tin hàng xóm.

Ví dụ, ở trang T chúng ta hãy tìm kiếm một tập các trang được T trỏ tới (liên kết đi ra) hoặc một
tập các trang trỏ tới T (liên kết đi vào). Cấu trúc danh sách liền kề của đồ thị web đầu tiên và của
đồ thị web đã được đảo có thể cho phép truy cập tới các thông tin hàng xóm một cách có hiệu
quả. Các thuộc tính cấu trúc của đồ thị web có thể được đưa ra một cách dễ dàng từ những thông
tin cơ bản lưu trữ trong danh sách liền kề.
Các đồ thị với hàng trăm hoặc thậm chí hàng nghìn nút có thể diễn tả một cách hiệu quả dưới bất
kỳ cấu trúc dữ liệu đã biết nào. Tuy nhiên việc thực hiện với hàng triệu nút là một thách thức về
công nghệ.
III. Bộ tìm kiếm thông tin
Giả sử rằng chúng ta muốn tìm vài quyển sách trong một thư viện rộng lớn. Với sức lực cá nhân,
ta không thể xem qua hết tất cả sách để tìm những cuốn sách mà mình cần, vì vậy ta cần một
danh mục sách. Tương tự, có hàng triệu trang web trên thế giới và tăng lên trong từng phút, cho
dù chúng ta có trong tay một công cụ lướt web tuyệt vời nhất cũng không thể duyệt qua hết tất cả
các trang web được. Tuy nhiên với sự trợ giúp của search engine, chúng ta có thể xác định được
vị trí của những từ cần tìm trong các trang web trên khắp thế giới.
1. Các phương thức tìm kiếm
1.1. Tìm theo từ khóa (Keyword Searching)
Đây là phương thức được áp dụng với hầu hết các search engine. Trừ khi tác giả của trang web
xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine. Như vậy,
các search engine sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho là quan trọng có
thể giúp phân biệt các tài liệu khác nhau.
Các hệ thống đánh chỉ mục trên toàn văn bản, đếm số lần xuất hiện của mỗi từ trong tài liệu
ngoại trừ các từ stop-word. Có những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Trần Quang Phát – CH1101119 11 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối với những từ đồng âm
khác nghĩa, … Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa những từ đồng
nghĩa với các từ trong câu truy vấn.
1.2. Tìm theo ngữ nghĩa (Concept-Based-Searching)
Tìm theo ngữ nghĩa là tìm đúng theo ý nghĩa của người dùng mong muốn trong số những nghĩa

của từ muốn truy vấn. Bên cạnh đó tìm kiếm theo ngữ nghĩa còn là tìm những từ có ngữ nghĩa
liên quan chứ không đơn thuần là tìm chính xác nghĩa. Trong một số trường hợp tìm đúng nghĩa
của từ sẽ có kết quả hạn chế và không có tính ứng dụng cao.
2. Các chiến lược tìm kiếm
2.1. Tìm thông tin với các thư mục chủ đề
Giống như tìm sách trong thư viện, cần cân nhắc giữa tìm theo tác giả hay tiêu đề, chủ đề của
cuốn sách. Ta thường chọn chủ đề, để có thể bao quát một vùng thông tin rộng hơn.
Khi hoàn toàn xác định mình cần tìm những gì thì ta nên bắt đầu từ một thư mục web như thư
mục của Google hoặc Yahoo, … vì các thư mục web tập trung nhiều vào chủ đề đang được quan
tâm hơn là một công cụ tìm kiếm.
2.2. Tối ưu câu truy vấn
Rất nhiều search engine áp dụng các toán tử Boolean hoặc các bộ định vị để tối ưu câu truy vấn.
STT Từ khóa Ý nghĩa
1 AND/ phép toán + Mọi từ trong câu truy vấn phải có trong tài liệu.
2 OR Tài liệu chứa ít nhất một từ cần tìm.
3 NOT / phép toán - Tài liệu không chứa các từ sau NOT (dấu -).
4 NEAR Các từ cần tìm cách nhau bao nhiêu ký tự trong tài liệu.
5 FOLLOWED BY / ADJ Các từ cần tìm phải đứng cạnh nhau trong tài liệu.
6 Dấu () Thể hiện mức ưu tiên trong truy vấn.
7 Dấu “ ” Khi muốn tìm nguyên văn của cụm từ.
8 Dấu * Dấu này sẽ thay thế cho một dãy bất kỳ các ký tự.
Trần Quang Phát – CH1101119 12 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Chương III TỔNG QUAN CÁC CÔNG CỤ TÌM KIẾM PHỔ BIẾN
I. Giới thiệu các công cụ tìm kiếm phổ biến
1. Google
1.1. Giới thiệu
Google là một công ty có trụ sở tại Hoa Kỳ, được thành lập vào năm 1998. Sản phẩm chính của
công ty này là công cụ tìm kiếm Google được nhiều người đánh giá là công cụ tìm kiếm hữu ích
và mạnh mẽ nhất hiện nay.

Đầu tiên năm 1996, Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nhà
nghiên cứu sinh tại trường đại học Stanford. Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa
vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được thực hiện
lúc bấy giờ. Đầu tiên được gọi là BackRub, tại vì hệ thống này dùng các liên kết đến để ước tính
tầm quan trọng của trang web.
Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là
những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên cứu của họ, tạo
nền móng cho công cụ Google hiện đại ngày nay ().
Hình : Công cụ tìm kiếm Google
1.2. Ứng dụng
Google liên kết với hàng tỷ trang web, vì thế người sử dụng có thể tìm kiếm thông tin mà họ
muốn thông qua các từ khóa và các toán tử. Google cũng tận dụng công nghệ tìm kiếm của mình
vào nhiều dịch vụ tìm kiếm khác, bao gồm: tìm kiếm ảnh, video, Google News, trang web so
sánh giá cả Froogle, Google Maps, …
Trần Quang Phát – CH1101119 13 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
2. Yahoo
2.1. Giới thiệu
Yahoo được sáng lập bởi hai sinh viên cao học tại trường đại học Stanford là David Filo và Jerry
Yang. Trụ sở công ty đặt tại Sunnyvale, California.
Tại Việt Nam, thời kỳ đầu Yahoo được biết đến rộng rãi nhất đó là công cụ email và chat (Yahoo
Messenger).
Ngoài máy tìm kiếm của mình, ban đầu Yahoo sử dụng các kết quả lấy về từ Google để hiển thị
trên trang chủ yahoo.com mỗi khi người dùng yêu cầu. Đến năm 2004, Yahoo tung ra máy tìm
kiếm độc lập dựa trên sự kết hợp các công nghệ mà hãng Yahoo có. Công cụ tìm kiếm Yahoo là
một trong ba công cụ tìm kiếm phổ biến nhất.
Hình : Công cụ tìm kiếm Yahoo
2.2. Ứng dụng
Một số dịch vụ của Yahoo như: Yahoo! Search, Yahoo News, Yahoo! Image Search, …
Trần Quang Phát – CH1101119 14 / 59

Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
3. Bing
3.1. Giới thiệu
Bing (trước đây là Live Search, Windows Live Search và MSN Search) là bộ máy tìm kiếm web,
đại diện cho công nghệ tìm kiếm hiện nay của Microsoft. Bing là một sự thay thế cho Live
Search.
Hình : Công cụ tìm kiếm Bing
3.2. Ứng dụng
Ngoài dịch vụ tìm kiếm Web, Bing còn cung cấp nhiều dịch vụ phong phú khác: Bing News,
Bing Videos, Bing Images, Bing Maps,
Hiện nay, Bing đã vượt qua Yahoo để trở thành công cụ tìm kiếm phổ biến thứ 2 trên thế giới.
Công cụ tìm kiếm còn khá non trẻ này vẫn đang trên đà tăng trưởng và ngày càng tạo thêm
khoảng cách với Yahoo.
Trần Quang Phát – CH1101119 15 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
4. Xếp hạng của comScore
Hình : Xếp hạng của comScore
II. Tính năng của các công cụ tìm kiếm
1. Tính năng cơ bản
1.1. Bắt đầu đơn giản
Bất kể đang tìm kiếm điều gì, phương châm của các máy tìm kiếm là “thực hiện đơn giản”. Bắt
đầu bằng cách nhập tên hoặc chỉ những từ cơ bản là máy tìm kiếm có thể thực hiện tìm kiếm
ngay lập tức.
1.2. Bỏ qua chính tả
Đa số các trình kiểm tra chính tả của các máy tìm kiếm sẽ tự động chuyển sang những cách viết
thông dụng nhất đúng chính tả của từ bị viết sai.
1.3. Sử dụng từ thân thiện với web
Công cụ tìm kiếm hoạt động bằng cách đối sánh các từ mà chúng ta nhập vào với các trang web.
Do đó, việc sử dụng các từ có khả năng xuất hiện nhiều nhất trên các trang sẽ mang lại các kết
quả tốt nhất. Ví dụ: thay vì nhập đầu của tôi đau, hãy nhập đau đầu, vì đó là thuật ngữ mà trang

web y khoa sử dụng.
1.4. Càn ít càng nhiều
Cụm từ tìm kiếm đơn giản gồm một hoặc hai từ thường mang lại cho bạn các kết quả rộng nhất.
hãy bắt đầu với cụm từ tìm kiếm ngắn, sau đó ta sẽ tinh chỉnh kết quả bằng cách thêm từ vào.
1.5. Tìm kiếm bằng cụm từ chính xác
Hãy đặt dấu ngoặc kép “ “ vào các từ để tìm kiếm cụm từ chính xác theo trật tự chính xác. Lưu ý
rằng, việc tìm kiếm bằng dấu ngoặc kép có thể loại trừ các kết quả có liên quan.
Trần Quang Phát – CH1101119 16 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
1.6. Không phân biệt chữ hoa và chữ thường
Đa số các máy tìm kiếm đều không phân biệt chữ hoa và chữ thường.
1.7. Không quan tâm đến dấu chấm câu:
Các công cụ tìm kiếm sẽ bỏ qua các dấu chấm câu như: @#%^*()=+[]\ và các ký tự đặc biệt
khác.
1.8. Tìm kiếm bằng tiếng Việt
Khi tìm kiếm thông tin bằng tiếng Việt, cần nhập tiếng Việt đầy đủ có dấu, việc này sẽ giúp tìm
được các thông tin bằng tiếng Việt chính xác hơn là chỉ gõ tiếng Việt không dấu.
1.9. Các từ thông dung sẽ bị loại bỏ
Đa số các công cụ tìm tìm sẽ loại bỏ những từ thông dụng trong các từ khóa như: where, how, a,
the, để tăng tốc độ tìm kiếm.
2. Tính năng nâng cao
2.1. Tìm kiếm trong trang web cụ thể
Đặt từ site trước câu truy vấn nếu muốn có câu trả lời bên trong trang web hoặc loại trang web cụ
thể. Ví dụ: công nghệ thông tin site:uit.edu.vn tìm cụm từ “công nghệ thông tin” trong website
uit.edu.vn.
2.2. Tìm kiếm theo loại tập tin
Chẳng hạn như các tập tin PDF, PPT, … để tìm kiếm các tập tin này ta thêm vào filetype: và kiểu
của tập tin. Ví dụ: “tin hoc” filetype:docx.
2.3. Loại bỏ các từ và ký tự trong tìm kiếm
Chúng ta có thể sử dụng dấu trừ - để chỉ định các mục cụ thể mà ta không muốn có trong kết quả

tìm kiếm. Chẳng hạn như ta muốn tìm công thức chế biến nước sốt salsa mà không có cà chua
trong đó, ta thực hiện: công thức chế biến nước sốt salsa –cà chua
2.4. Tìm các trang có liên quan
Sử dụng toán tử related để tìm các trang có nội dung tương tự bằng cách nhập related: theo sau
là địa chỉ trang web. Ví dụ: tìm một trang web mà ta yêu thích và sử dụng related:[url] để định
vị các trang web tương tự.
2.5. Tìm kiếm các từ trong tiêu đề của tài liệu
Sử dụng từ khóa intitle. Ví dụ: intitle:”tin học”.
Trần Quang Phát – CH1101119 17 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
2.6. Tìm với từ khóa OR
Các công cụ tìm kiếm cho phép sử dụng từ khóa OR (chữ in hoa) giữa các từ khóa cần tìm để tìm
những thông tin xuất hiện ít nhất một từ khóa. Ví dụ, tìm nội dung computer OR forum thì kết
quả sẽ liệt kê các trang có ít nhất một từ khóa “computer” hoặc “forum” hoặc có cả hai.
2.7. Tìm thông tin về một trang web
Tìm các thông tin về một trang web nào đó. Cú pháp: info:URL. Ví dụ: chúng ta tìm thông tin về
website của trường đại học Công Nghệ Thông Tin với cú pháp như sau: info:uit.edu.vn.
2.8. Tìm kiếm kết hợp với dấu +
Ta có thể tìm kiếm kết hợp các từ với nhau bằng dấu + sẽ cho kết quả tìm kiếm rất gần với nội
dung cần tìm. Ví dụ, chúng ta cần tìm kiếm sản phẩm “bếp từ” tại TP.HCM thì nên gõ: Bếp từ +
TP.HCM.
2.9. Tìm cụm từ chứa từ khóa
Dùng dấu ~ hoặc * trước từ khóa tìm kiếm. Ví dụ: ~máy tính sẽ cho kết quả là các trang có chứa
cụm từ “máy tính”.
III. Các tính năng nổi bật của các hãng tìm kiếm phổ biến
1. Google
Google là hệ thống tìm kiếm nổi bật và thành công nhất, được đa số người dùng chọn.
Hình : Các công cụ tìm kiếm phổ biến
Trần Quang Phát – CH1101119 18 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm

1.1. Những cải tiến thông minh của Google
Hệ thống Google luôn được cập nhật và bổ sung các tính năng mới. Một số tính năng nổi bật như:
• Thuật toán xếp hạng kết quả hiển thị (Google Panda).
• Cho phép tìm kiếm tức thời (Google Instant).
• Cho phép tìm kiếm bằng hình ảnh.
• Hiển thị đa dạng kết quả.
• Bàn phím ảo.
• Đổi logo vào ngày kỷ niệm đặc biệt.
• Tìm kiếm bằng giọng nói.
• …
1.2. Thuật toán xếp hạng Google Panda
Thuật toán Google Panda là một thuật toán máy học, do kỹ sư Navneet Panda đề xuất, được dùng
để thay thế cho thuật toán PageRank trước đây.
Mục tiêu của Google Panda là giảm xếp hạng cho những trang chứa nội dung spam, sao chép,
những website chất lượng thấp, những trang quảng cáo. Tăng xếp hạng cho những trang có chất
lượng cao đó là những trang có nội dung và thông tin gốc ví dụ như nghiên cứu, báo cáo có chiều
sâu và các bài phân tích sâu sắc, …
Để thực hiện thuật toán, Google tiến hành:
• Nghiên cứu tiêu chí đánh giá “chất lượng” của một trang web bằng cách lập câu hỏi trực
tiếp tới từng cá nhân và tạo tập mẫu đánh giá từ khảo sát này.
• Dựa trên các tiêu chí đánh giá, Google Panda sử dụng thuật toán máy học (cây quyết định)
để học từ tập mẫu.
• Tập mẫu càng lớn thì độ chính xác của việc đánh giá càng cao, điều này giúp Google có
được định nghĩa chính xác hơn về khái niệm “trang web như thế nào thì có chất lượng
thấp”.
Các yếu tố đánh giá mà thuật toán Google Panda áp dụng:
• Tỷ lệ Bounce.
• Có nội dung trùng lắp.
• Khối lượng nội dung của trang ít.
• Số lượng các từ khóa của trang không phù hợp với từ khóa tìm kiếm.

• Nội dung và tiêu đề của trang không ăn khớp với các từ khóa tìm kiếm.
• Những trang lạm dụng quá nhiều kỹ thuật để tăng SEO.
• Tỷ lệ % người dùng quay lại.
• Tỷ lệ người dùng click vào các trang kết quả trên Google.
• Tỷ lệ % nội dung trang web không trung thực.
• Không có liên kết hoặc liên kiết ít tới các trang mạng xã hội hay các trang khác.
Trần Quang Phát – CH1101119 19 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
1.3. Google Instant
Google Instant là cải tiến thuật toán tìm kiếm để hiển thị các kết quả khi chúng ta nhập. Google
đang áp dụng các giới hạn về công nghệ và cơ sở hạ tầng của mình nhằm giúp chúng ta nhận
được kết quả tìm kiếm tốt hơn, nhanh hơn. Theo nghiên cứu của Google thì người dùng nhập
chậm nhưng đọc nhanh, thường mất 300 mili giây giữa những lần bấm phím, nhưng chỉ mất 30
mili giây (1/10 thời gian) để xem nhanh một phần khác của trang. Điều này có nghĩa là chúng ta
có thể đọc lướt trang kết quả trong khi nhập.
Thay đổi rỏ ràng nhất là chúng ta nhận được nội dung chính xác nhanh hơn nhiều so với trước
đây do ta không cần phải nhập xong cụm từ tìm kiếm đầy đủ của mình hay thậm chí không cần
phải bấm nút “tìm kiếm” nữa. Một sự thay đổi khác là việc nhìn thấy các kết quả khi ta nhập sẽ
giúp ta lập công thức cụm từ tìm kiếm tốt hơn bằng cách cung cấp phản hồi tức thì. Giờ đây,
chúng ta có thể điều chỉnh tìm kiếm của mình một cách nhanh chóng cho đến khi các kết quả
khớp chính xác với những gì mình muốn.
Lợi ích của Google Instant:
• Tìm kiếm nhanh hơn: việc dự đoán và hiển thị kết quả giúp tiết kiệm thời gian và số lần
nhập.
• Dự đoán thông minh hơn: ngay cả khi người dùng không biết chính xác chuỗi từ khóa
mình cần tìm, các dự đoán sẽ giúp hướng dẫn. Dự đoán được hiển thị bằng văn bản màu
xám ngay trong hộp tìm kiếm. Do đó, người dùng có thể dừng nhập ngay khi thấy nội
dung mình cần tìm.
• Tìm kiếm thông minh hơn: người dùng có cảm giác như đang đối thoại với search engine.
Khi bắt đầu nhập từ khóa thì các kết quả sẽ xuất hiện ngay tức thời, giúp người dùng thấy

được điều mà mình muốn tìm hay chưa, nếu chưa thì nhập các từ khóa đến khi đạt được
điều cần tìm.
Hình : Google Instant
Hình 7 cho chúng ta thấy khi nhập vào nhóm từ tìm kiếm “trường đại học công nghệ thông” thì
nhóm từ được dự đoán ở mức cao nhất là “trường đại học công nghệ thông tin”, và kết quả trả về
liên quan đến nhóm từ dự đoán này chứ không phải kết quả tìm “trường đại học công nghệ
thông”.
Trần Quang Phát – CH1101119 20 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Cách thức thực hiện của Google Instant:
Hình : Mô hình hoạt động của Google Instant
1.4. Tìm kiếm bằng hình ảnh trên Google
Sử dụng hình ảnh thay cho từ khóa để tìm kiếm. Dựa vào hình ảnh đó để đoán ra từ khóa phù hợp
nhất với nội dung bứa ảnh cũng như tìm kiếm những hình ảnh có liên quan.
Có 3 cách để tìm:
• Kéo thả hình ảnh từ máy tính vào ô tìm kiếm.
• Bấm vào biểu tượng máy ảnh sau đó chọn ảnh từ ổ cứng máy tính upload lên cho Google
tìm kiếm.
• Thông qua một bức ảnh có sẵn trên internet bằng cách dán URL của tấm ảnh.
Hình : Tìm kiếm bằng hình ảnh trên Google
Trần Quang Phát – CH1101119 21 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Khi tìm kiếm bằng hình ảnh Google không chỉ trả về các ảnh tương ứng mà con dự đoán từ khóa
của ảnh. Như hình sau:
Hình : Dự đoán từ khóa của ảnh trong tìm kiếm bằng hình ảnh của Google
1.5. Bàn phím ảo trên Google
Người dùng có thể nhập câu truy vấn thông qua bàn phím ảo được tích hợp trong ô nhập. Sử
dụng bàn phím ảo không cần cài đặt phần mềm gõ tiếng địa phương, chỉ cần dùng chuột nhấp vào
các ký tự tương ứng.
Cho phép người dùng có thể sử dụng nhiều ngôn ngữ khác nhau như : tiếng Thái, Nga, Arap, …

Độ an toàn cao hơn: khi sử dụng bàn phím ảo sẽ tránh bị các chương trình ghi nhân bàn phím như
keylogger ghi nhận.
Người dùng vẫn có thể thực hiện câu truy vấn trong trường hợp bàn phím bị hỏng, trục trặc một
số phím hoặc bàn phím đang sử dụng không có ký tự cần gõ hay thậm chí trên các thiết bị không
có bàn phím vật lý.
Trần Quang Phát – CH1101119 22 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Hình : Bàn phím ảo trên Google
1.6. Hỗ trợ sửa lỗi chính tả
Khi người dùng nhập một câu truy vấn sai chính tả, dựa trên hệ thống từ khóa của mình Google
đưa ra từ khóa đề nghị gần đúng với câu truy vấn và đúng chính tả.
Chức năng này giúp chúng ta dễ dàng tìm kiếm nội dung được chính xác hơn.
Hình : Sửa lỗi chính tả trên Google
1.6.1. Drop - Down Menu cho kết quả tìm kiếm
Chức năng Google Instant Preview trước đây đã được gỡ bỏ do ít người sử dụng. Bây giờ Google
đã bổ sung thêm một menu thả xuống để xem kết quả Cached, Similar, hoặc Share một trang web
trên Google+.
Chức năng Cached và Similar cũng tương tự như chức năng Cached và Similar trên Google
Instant Preview trước đây.
Trần Quang Phát – CH1101119 23 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
• Cached: Google thu thập các trang web và chụp hình mỗi trang. Khi chúng ta nhấp
Cached, chúng ta sẽ thấy trang web đó giống như là lúc chúng ta thấy nó trong lần lập chỉ
mục cuối cùng cho nó.
Liên kết Cached sẽ không xuất hiện cho các trang web đã không được lập chỉ mục trước
đó hoặc những website nào mà chủ sở hữu yêu cầu hạn chế cache nội dung của họ.
• Similar: nhấp vào để xem các website khác có liên quan với trang web kết quả đó.
• Share: chia sẽ trang web kết quả trên Google+.
Hình : Menu Drop-Down trên Google
1.7. Khả năng tính toán

Chúng ta có thể nhập các chữ số và phép toán theo đúng thứ tự vào ô tìm kiếm, rồi nhấn Enter để
Google cho ra kết quả cuối cùng. Ở trang kết quả, một chiếc máy tính bỏ túi nhỏ gọn cũng xuất
hiện để ta tiếp tục thực hiện phép toán khác mà không phải gõ phím, người dùng chỉ việc nhấn
chọn dễ dàng như đang làm việc với ứng dụng Calculator.
Trần Quang Phát – CH1101119 24 / 59
Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm
Hình : Khả năng tính toán của Google
1.8. Chuyển đổi đơn vị
Để chuyển đổi qua lại giữa các loại đơn vị tính toán, đo lường, chúng ta chỉ việc nhập theo cú
pháp [Đơn vị hiện tại] to [Đơn vị muốn chuyển đổi]. Theo đó, ta có thể gõ tắt ở một số đơn vị cơ
bản và phổ biến, như f (độ F), c (độ C), m (mét)… Ví dụ: “60 f to c” tương ứng với yêu cầu
chuyển đổi 60 độ F thành độ C.
Hình : Khả năng chuyển đổi đơn vị của Google
Nếu con số dữ liệu ban đầu là số thập phân thì có thể dùng dấu ngăn cách là dấu phẩy (,) hay dấu
chấm (đều được); hoặc gõ theo câu lệnh dài dòng hơn, gồm đầy đủ câu từ, như “75 yard plus 9
dm to m”.
Trần Quang Phát – CH1101119 25 / 59

×