ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Họ và tên tác giá báo cáo chuyên đề
NGUYỄN VĂN TIẾN
CHUYÊN ĐỀ: PHÂN TÍCH, SO SÁNH, ĐÁNH GIÁ
CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01
GVHD: GS. TSKH Hoàng Kiếm
Thành phố Hồ Chí Minh - Năm 2014
Mục Lục
2
Danh mục các ký hiệu và từ viết tắt
SEO: Search Engine Optimization Tối ưu hóa công cụ tìm kiếm
SERP: Search Engine Results Page Trang kết quả tìm kiếm
URL: Uniform Resource Locator Liên kết xác định tài nguyên trên Internet
MSN: MicroSoft Network Search Engine Công cụ tìm kiếm của Microsoft
CNTT: Công nghệ thông tin
IR: Information Retrieval Truy tìm thông tin
DN: Doanh Nghiệp
3
Danh mục các bảng
4
Danh mục các hình, đồ thị
5
Chương 1. Giới thiệu
1.1 Đặt vấn đề
Với sự bùng nổ thông tin trên mạng Internet thì công cụ tìm kiếm thông tin trên
mạng Internet ngày càng có tầm quan trọng cao. Các công cụ/hệ thống tìm kiếm thông
tin cung cấp cho mọi người cơ hội để tìm thông tin một cách dễ dàng và nhanh chóng
và đã trở thành một phần của cuộc sống hàng ngày của người sử dụng mạng Internet.
Trong bài báo cáo này, các câu hỏi sau đây sẽ được tiếp tục được làm sáng tỏ:
Tại sao công cụ tìm kiếm lại thành công? Sự khác biệt chính của các công cụ tìm
kiếm thành công nhất hiện nay là gì? Siêu công cụ tìm kiếm là gì và cách thức hoạt
động của nó ra sao? Siêu công cụ tìm kiếm có thể tối ưu hóa các truy vấn tìm kiếm
hay không? Và cuối cùng, là những yêu cầu cần phải có của một hệ thống tìm kiếm lý
tưởng?
1.2 Mục tiêu
Một trong những mục tiêu của bài báo cáo này là cung cấp cho một cái nhìn tổng
quan về truy tìm thông tin và chỉ ra sự khác nhau trong cách làm việc của các công cụ
tìm kiếm. Thông qua phân tích công cụ tìm kiếm web để so sánh các công cụ tìm
kiếm thông dụng trên Internet hiện nay. Ngoài ra, một mục tiêu khác là giới thiệu và
mô tả chức năng của siêu công cụ tìm kiếm. Mục tiêu chính là để kiểm tra giả thuyết
rằng sử dụng nhiều công cụ tìm kiếm có thể tốt hơn sử dụng một công cụ tìm kiếm
đơn khi đã tối ưu hóa các truy vấn hay không.
Bài báo cáo tập trung tìm hiểu về các chức năng của công cụ tìm kiếm. Tuy nhiên,
các khía cạnh kinh doanh cũng được trình bày sơ qua.
1.3 Phương pháp tiếp cận
Bài báo cáo này được chia làm hai phần khác nhau.
Phần đầu tiên, trình bày lý thuyết mô tả truy vấn thông tin nói chung cũng như mô
tả những đặc điểm và chức năng của công cụ tìm kiếm. Trong đó sẽ giải thích lý do
tại sao công cụ tìm kiếm thành công.
Trong phần thứ hai, phân tích kết quả của ba công cụ tìm kiếm phổ biến nhất hiện
nay là Google, Yahoo và Bing từ đó trình bày những điểm mạnh và điểm yếu chính
6
của từng công cụ tìm kiếm. Trong phần hai, chúng ta cũng tiến hành so sánh các công
cụ tìm kiếm hiện nay với siêu công cụ tìm kiếm để tìm ra công cụ tìm kiếm hữu ích
nhất.
7
Chương 2. Truy tìm thông tin
Có rất nhiều phương pháp cho việc tìm kiếm thông tin, nhưng một trong những
cách hàng đầu là thông qua công cụ tìm kiếm. Hiên nay, tất cả mọi người sử dụng
công cụ tìm kiếm, chủ yếu cho nghiên cứu, học tập, kinh doanh, mua sắm hoặc giải
trí. Công cụ tìm kiếm có thể xem là trình điều khiển lưu lượng truy cập trên web lớn
nhất trên Internet, nó có ảnh hưởng lớn và liên tục được phát triển.
Để biết được công cụ tìm kiếm hoạt động như thế nào,chúng ta cần có kiến thức
tổng quan về kỹ thuật truy tìm thông tin mà các công cụ tìm kiếm sử dụng.
Theo Langville & Meyer [2006] thì Truy tìm thông tin (IR) là “quá trình tìm kiếm
trong một bộ sưu tập tài liệu dựa trên một đặc điểm của thông tin cần tìm”.
Khác biệt giữa truy tìm thông tin truyền thống và tìm kiếm thông tin trên web là:
truy vấn thông tin truyền thống hoặc cổ điển là tìm kiếm trong kho dữ liệu nhỏ hơn,
kho dữ liệu được kiểm soát và không liên kết. Những bộ sưu tập tài liệu được lưu trữ
dưới hình thức vật lý.
Ví dụ của truy tìm thông tin truyền thống là tìm kiếm thông tin trong cuốn sách
của một thư viện công cộng.
Tuy nhiên, ngày nay, hầu hết các tài liệu được lưu trữ trên máy vi tính có thể được
truy tìm dễ dàng với sự hỗ trợ của các kỹ thuật trên máy tính, các kỹ thuật truy tìm
thông tin trên máy tính còn được gọi là mô hình truy tìm thông tin hoặc các phương
pháp truy tìm thông tin.
Truy tìm thông tin trên web thì khác hơn so với tìm kiếm truyền thống,Vì khi đó
chúng ta thực hiện tìm kiếm trong kho dữ liệu trên Internet gồm nhiều tài liệu có liên
quan và được liên kết với nhau và kho dữ liệu trên Internet thì rất lớn và khó kiểm
soát. Hiện nay có các dịch vụ tìm kiếm nổi tiếng trên Internet như Google hay
Yahoo.Trong các chương tiếp theo sẽ trình bày chi tiết về truy tìm thông tin web, và
các dịch vụ tìm kiếm thông tin trên web.
8
Chương 3. Các dịnh vụ tìm kiếm trên web
Tìm kiếm thông tin trên web thường được ưa thích hơn các nguồn thông tin khác.
Một cuộc khảo sát trên Internet được Pew Internet thực hiện, cho thấy rằng 92%
người sử dụng Internet truy cập các trang web đọc các thông tin hàng ngày [Manning,
Raghavan, Schütze, 2009].
Có một vài yếu tố giải thích tại sao các trang web tìm kiếm thì thành công. Một
trong những lý do là tính thuận tiện của dịch vụ web. Ngày nay, công cụ tìm kiếm
web cho phép thông tin được dễ dàng truy cập, bất cứ nơi nào và bất cứ lúc nào, và nó
luôn có sẵn để bất cứ ai có Internet là có thể truy cập. Thử tưởng tượng không có dịch
vụ tìm kiếm web, thì web có thực sự có nhiều ý nghĩa cho mọi người làm việc trực
tuyến hay không? Tất cả mọi người có thể sẽ đồng ý rằng các sản phẩm và dịch vụ từ
các công cụ tìm kiếm làm cho việc sử dụng các trang web dễ dàng hơn nhiều, tiết
kiệm thời gian,và hiệu quả hơn.
Vì hầu hết người dùng khám phá các trang web thông qua các dịch vụ tìm kiếm.
Để tiếp cận đối tượng mong muốn, quản trị web cố gắng tạo ra các trang web tốt, hiệu
quả, và nổi tiếng. Nhờ vào sự giúp đỡ của công cụ tìm kiếm, nhiều người sẽ có thể tìm
thấy trang web của họ hoặc ít nhất cũng thấy rằng website thực sự tồn tại.
Người quản trị web có thể cải tiến trang web với mục đích kinh doanh trong chiến
lược kinh doanh trực tuyến. Người quản trị web nỗ lực tối ưu hóa công cụ tìm kiếm
(SEO) hoặc tăng khả năng tìm thông tin cho các công cụ tìm kiếm trên website của
họ. Nói cách khác, một trang web được xây dựng "thân thiện" với công cụ tìm kiếm,
thì lưu lượng truy cập của trang web đó có khả năng tăng lên đáng kể.
Một nghiên cứu tiến hành bởi một tổ chức nghiên cứu và được khởi sướng bởi
Thurow [2003], chỉ ra rằng, khả năng người dùng mua một sản phẩm hoặc dịch vụ
sau khi tìm thấy trên web thông qua một công cụ tìm kiếm, cao hơn gấp năm lần là
thông qua một banner quảng cáo trên các website. Thurow cũng chỉ ra rằng có thể tối
đa hóa khả năng được tìm kiếm của một trang web với chi phí hợp lý và nếu thực hiện
đúng chiến dịch tiếp thị thông qua công cụ tìm kiếm có thể đem lại một lợi nhuận to
lớn, dài hạn cho doanh nghiệp (DN) .
9
Với lợi ích của công cụ tìm kiếm đem lại, chúng ta cần hiểu rõ cách thức công cụ
tìm kiếm làm việc cũng như nền tảng kỹ thuật cơ bản của các dịch vụ tìm kiếm.
Về cơ bản, có hai phương pháp khác nhau cho công cụ tìm kiếm đó là dựa vào
Thư mục web (Web Directory) và các công cụ tìm kiếm (Search Engines) sẽ được
trình bày dưới đây.
3.1 Search Engines
Khi một người thực hiện tìm kiếm trên web, thực sự anh ta không phải đang tìm
trên tất cả các trang web mà đang tìm kiếm trong chỉ mục của công cụ tìm kiếm. Vì lý
do tốc độ, chi phí, và khả năng nên không thể thực hiện tìm kiếm trên tất cả các trang
web mỗi khi người dùng click vào nút search trên một công cụ tìm kiếm.
Một thủ tục truy vấn tìm kiếm nói chung có thể được tóm tắt trong bốn bước:
(1) Người sử dụng web gửi một truy vấn bằng cách gõ một thuật ngữ, từ hoặc cụm
từ trong textbox tìm kiếm.
(2) Tương ứng với truy vấn đó, công cụ tìm kiếm tìm trong tất cả các trang mà nó
giữ trong cơ sở dữ liệu của nó.
(3) Công cụ tìm kiếm tìm ra các trang web có liên quan với nội dung tìm kiếm
(4) Kết quả được liệt kê trên trang kết quả tìm kiếm (Search Engine Results Page -
SERP) với một trật tự, bắt đầu với kết quả có độ chính xác/liên quan cao nhất với yêu
cầu tìm kiếm.
Toàn bộ quá trình tìm kiếm thường chỉ kéo dài một phần nhỏ của một giây, nhưng
những gì diễn ra trong bộ máy tìm kiếm thì phức tạp hơn rất nhiều.
Công cụ tìm kiếm web bao gồm ba thành phần cơ bản: Web thu thập thông tin
(web crawler), chỉ mục (indexer), và xử lý truy vấn (query processor).
Các thành phần, nhiệm vụ của công cụ tìm kiếm web, được minh họa trong Hình
1 dưới đây.
10
Hình 1.Các thành phần của hệ thống tìm kiếm trên web [Nguồn: Manning,
Raghavan, & Schütze, 2009, trang. 434]
Tiến trình tự động thu thập dữ liệu web được thực hiện với các "con nhện" web
(web spiders). Chúng được hình dung như là các con nhện nhỏ và cũng có thể được
gọi là crawler, robots, software agents, web agents, wanderers, walkers, hoặc
knowbots. Loại hình dịch vụ tìm kiếm này được gọi là công cụ tìm kiếm dựa trên
spider hoặc crawler.
Các "con nhện" web liên tục thu thập dữ liệu các trang web bằng thu thập nội
dung của trang web và xây dựng danh sách các từ và cụm từ được tìm thấy để lưu lại
như là một chỉ mục văn bản đầy đủ trong một cơ sở dữ liệu của các công cụ tìm kiếm.
Chúng tìm các trang web bằng hai cách: Thứ 1: thông qua các URL (do người quản trị
website đăng ký với công cụ tìm kiếm) Thứ 2: thông qua các liên kết siêu văn bản
nhúng trong hầu hết các trang web.
Với cách thứ hai, những con nhện web bắt đầu bằng cách thu thập dữ liệu các
trang web và lần theo các liên kết trên các trang đó để thu thập dữ liệu của tất cả các
trang web liên quan đến website đó. Tiến trình này được lặp lại cho đến khi đã lập chỉ
mục một phần nhất định của các trang web và lưu trữ trên các máy tính của hệ thống
tìm kiếm trước khi thực hiện nhiệm vụ tiếp theo.
11
Đánh chỉ mục là phần thứ hai của công cụ tìm kiếm. Nó là quá trình lấy dữ liệu
thô và phân loại, loại bỏ thông tin trùng lặp, và thường tổ chức tất cả vào một cấu trúc
có thể truy cập được.
Chỉ mục văn bản đầy đủ (full-text indexes) của các trang web đã thu thập được tổ
chức trong một cơ sở dữ liệu, thường lưu trữ sử dụng cấu trúc dữ liệu đánh chỉ mục
ngược. Cấu trúc này lý tưởng cho các truy vấn dựa trên từ khóa, nên những tài liệu sử
dụng các từ khóa có thể nhanh chóng được tìm ra.
Hình 2 cho thấy một cấu trúc dữ liệu chỉ mục ngược được sắp xếp theo thứ tự
bảng chữ cái.Trong ví dụ này, có bốn cụm từ và các từ đó được gán các cặp số. Số
đầu tiên là định danh cho mỗi cụm từ (Doc #), trong trường hợp này là các số từ 1 đến
4. Số thứ hai đại diện cho vị trí của từ trong cụm từ mà nó xuất hiện. Thông thường
các từ thông dụng như "and", "is", "the" hoặc "you" được loại bỏ bởi một số công cụ
tìm kiếm. Bời vì chứng là những từ rất bình thường và ít có ý nghĩa tìm kiếm và
chúng sẽ làm giảm hiệu suất tìm kiếm.
Hình 2.Cấu trúc dữ liệu chỉ mục ngược [Nguồn: Sherman & Price]
Yếu tố kỹ thuật và kinh tế gây trở ngại cho việc đánh chỉ mục toàn bộ các trang
web có trên Internet. Không chỉ hạn chế về kỹ thuật, mà còn hạn chế chi phí không
cho phép công cụ tìm kiếm có thể thu thập dữ liệu toàn bộ các trang web hiện tại.
Phần thứ ba là phần cuối cùng được gọi là xử lý truy vấn, nó cung cấp giao diện
cho người dùng của công cụ tìm kiếm, kiểm tra tính phù hợp của các tài liệu trong cơ
sở dữ liệu với nội dung người dùng tìm kiếm, và hiển thị kết quả ra trang kết quả tìm
kiếm.
12
Giao diện người dùng cơ bản của công cụ tìm kiếm là hộp (textbox) tìm kiếm nơi
mà các truy vấn có thể được nhập vào. Các hình thức tìm kiếm cơ bản và nâng cao
thường cũng được cung cấp bởi các công cụ tìm kiếm.
Hình 3.Giao diện cơ bản của Google Search
Để tìm các tài liệu có liên quan đã được lập chỉ mục cho một truy vấn cụ thể, công
cụ tìm kiếm sử dụng các kỹ thuật đặc biệt. Sự khác biệt chính các công cụ tìm kiếm là
ở cách xác định tính liên quan của dữ liệu cần tìm với dữ liệu đã được đánh chỉ mục.
Mỗi công cụ tìm kiếm sử dụng một thuật toán xếp hạng các kết quả với tiêu chuẩn
đánh giá khác nhau và tạo ra danh sách kết quả theo một theo thứ tự khác nhau. Thuật
toán xếp hạng chủ yếu là phương trình toán học và rất quan trọng để tối ưu hóa công
cụ tìm kiếm.
Công cụ tìm kiếm xếp hạng kết quả bằng cách sử dụng các yếu tố phụ thuộc vào
truy vấn (còn được gọi là tiêu chuẩn trên trang - on-the-page criteria), và các yếu tố
độc lập với truy vấn ( còn được gọi là tiêu chuẩn ngoài trang - off-the-page criteria).
Xếp hạng kết quả dựa trên các yếu tố phụ thuộc vào truy vấn là phương pháp xếp
hạng để đo lường một trang phù hợp với một truy vấn cụ thể như thế nào. Tương tự
như các biện pháp trong truy tìm thông tin truyền thống, chẳng hạn như dựa vào tần
số các từ cần tìm kiếm suất hiện trong các tài liệu, hoặc ngôn ngữ của các tài liệu và
của câu truy vấn hoặc khoảng cách địa lý.
13
Xếp hạng kết quả dựa trên các yếu tố độc lập với truy vấn thì ngược lại với truy
vấn phụ thuộc. Các yếu tố truy vấn độc lập cố gắng để xác định chất lượng của một
tài liệu, mà không quan tâm đến nội dung của câu truy vấn cụ thể. Chúng thường
được dựa trên phân tích liên kết. Ví dụ như PageRank là một yếu tố truy vấn độc lập
phổ biến nhất. Đây là phương pháp xếp hạng dựa trên tính phổ biến của liên kết và
được giải thích chi tiết trong chương 4 khi phân tích công cụ tìm kiếm Google.
Nhiều nhà thiết kế web cố gắng sử dụng "mánh khóe" để tăng vị trí xếp hạng cho
web của họ trong kết quả của công cụ tìm kiếm. Một mánh khóe có thể được sử dụng
gửi nội dung rác (spam) để cải thiện thứ hạng, Do đó, để ngăn chặn điều này, các
thuật toán của công cụ tìm kiếm được đánh giá cao về tính bảo mật và khả năng cập
nhật thay đổi hàng ngày.
Kết quả tìm kiếm trong trang kết quả có thể được phân thành hai loại: kết quả tìm
kiếm cơ bản (kết quả tìm kiếm "tự nhiên") bao gồm các trang web được tìm thấy qua
các "con nhện" web, và kết quả "có trả tiền" (dựa trên danh sách nhà tài trợ) như
quảng cáo dựa trên từ khóa mà các quản trị web trả tiền, do đó,trang web sẽ được đặt
ở trên hoặc bên phải của kết quả chính. Kết quả có trả tiền luôn luôn được xác định rõ
ràng với các từ khóa mã họ đã mua quảng cáo.
Với khả năng quảng cáo trên trang kết quả tìm kiếm và khả năng tối ưu hóa để các
con nhện web dễ dàng truy cập như vậy chủ sở hữu trang web có hai cách để tiếp cận
người sử dụng.
Mô hình trả tiền để được thêm vào (pay-for-inclusion model) đảm bảo rằng các
trang web được cung cấp sẽ luôn luôn được đánh chỉ mục tìm kiếm và các thông tin
mới sẽ được phản ánh rất nhanh chóng. Tuy nhiên, nó không đảm bảo rằng họ sẽ xuất
hiện ở các vị trí hàng đầu trong trang kết quả tìm kiếm.
Mô hình trả tiền cho vị trí (pay-for-placement), đảm bảo kết quả của trang web
được hiển thị tại vị trí đã trả tiền cho các từ khoá xác định. Hiện nay, Công cụ tìm
kiếm còn hỗ trợ cung cấp kiểu "trả tiền theo số lần nhấp chuột" (pay-per-click), nghĩa
là người quảng cáo phải trả tiền quảng cáo dựa trên số lượng người dùng click chuột
vào 1 liên kết đến trang web của mình thông qua kết quả các công cụ tìm kiếm.
Thực tế là người dùng thường có xu hướng truy cập vào các kết quả cơ bản (tự
nhiên) hơn vào các quảng cáo, như vậy không phải trả tiền cho một vị trí tốt trên trang
14
kết quả tìm kiếm có thể đem lại hiệu quả thực sự. Và chúng ta cũng thấy rằng không
ai có thể mua vị trí trên cùng của kết quả cơ bản (tự nhiên). Cách duy nhất để kiếm
được một vị trí trong kết quả tìm kiếm hàng đầu là nhờ kỹ thuật tối ưu hóa công cụ
tìm kiếm (SEO).
3.2 Web Directories
Web Directories (Thư mục web) cũng như danh mục sản phẩm, các trang vàng,
hoặc thư mục chủ đề, cung cấp nền tảng có cấu trúc cho phép tóm tắt nội dung. Chúng
ta có thể xem web directories giống như một bảng nội dung (table of contents) trong
một cuốn sách, bởi vì web directories sử dụng một cấu trúc thứ bậc, giống như một
bảng nội dung để giới thiệu các chủ đề chính, trong khi công cụ tìm kiếm giống như
một mục lục của một cuốn sách. Chúng ta cũng có thể so sánh công cụ tìm kiếm
giống như danh bạ điện thoại với một tên và danh sách địa chỉ, trong khi các thư mục,
các trang vàng, lần lượt được tổ chức theo thể loại và có cung cấp thêm thông tin mô
tả.
Không giống như các công cụ tìm kiếm, sử dụng đại lý phần mềm tự trị
(autonomous software agents), các thư mục tổ chức các trang web thành các loại cụ
thể với sự giúp đỡ của các biên tập viên là con người, vì vậy được gọi là công cụ tìm
kiếm dựa trên con người (human-based search engine). Cách dữ liệu được sắp xếp là
sự khác biệt lớn nhất của một chỉ mục và một thư mục web.
Các biên tập viên đánh giá và lựa chọn trang web bằng cách tìm kiếm hoặc duyệt
từ trang web ngày sang trang web khác để quyết định các trang web có đủ giá trị để
được thêm vào thư mục của họ hay không. Một danh sách các chủ đề theo từng phân
loại sẽ được tạo ra cùng với các liên kết tới các trang web đã được phân loại trong một
cấu trúc phân cấp để người dùng dễ dàng trong việc truy vấn thông tin.
Thư mục web chỉ gồm các liên kết được sắp xếp theo chủ đề và có chú thích. Vì
các liên kết được chọn bằng tay, do đó các thư mục thường nhỏ và bị hạn chế. Vì vậy,
kết quả tìm kiếm thường được kết hợp với các kết quả tìm kiếm của các đối tác tìm
kiếm khác, được gọi là kết quả "fall-through" hay "fall-over". Kết quả được hiển thị
khác nhau trong danh sách thư mục chung (kết quả cơ bản - tự nhiên). Ngược lại, một
số công cụ tìm kiếm cũng lấy thông tin từ thư mục để tăng khả năng cung cấp kết quả
tìm kiếm có độ chính xác cao cho người dùng.
15
Tương tự như công cụ tìm kiếm, thư mục hỗ trợ thanh toán cho việc quảng cáo,và
cũng như xếp hạng các trang web. Danh sách thư mục đứng đầu được dựa trên các thể
loại thư mục, tiêu đề và mô tả của trang web. Biên tập viên đánh giá các trang web
dựa nội dung trang web bao gồm chất lượng bài viết và cách thức trình bày. Khi đáp
ứng tất cả các điều kiện xác định trên thì trang web sẽ được thêm vào thư mục.
Hình 4.Yahoo! Directory Search
3.3 Meta-Search Engines
Meta-Search Engines, còn được gọi là đa công cụ tìm kiếm, hay Siêu công cụ tìm
kiếm, metasearchers, hoặc metacrawlers, là những công cụ tìm kiếm đặc biệt chúng
đưa ra kết quả bằng cách truy cập nhiều công cụ tìm kiếm và thư mục web. Bằng cách
này, chúng cho phép người dùng nhanh chóng nhận được kết quả kết hợp của nhiều
công cụ tìm kiếm khác nhau và hiển thị trên một trang duy nhất. Vì vậy, người sử
dụng web không cần phải gõ nhiều lần truy vấn và cũng không phải truy cập vào tất
cả các công cụ tìm kiếm. Siêu công cụ tìm kiếm sẽ thực hiện công việc này và nó có
thể gợi ý người dùng lựa chọn thêm các công cụ tìm kiếm mà trước đó người dùng
không quan tâm.
Bằng cách thực hiện một truy vấn tìm kiếm, Siêu công cụ tìm kiếm gửi thông tin
cần tìm đến nhiều công cụ tìm kiếm cùng một lúc. Multi-Search engine không thu
thập dữ liệu hoặc duy trì cơ sở dữ liệu riêng của nó như một công cụ tìm kiếm đơn,
16
thay vào đó nó chỉ lọc lại các kết quả mà nó nhận được từ các công cụ tìm kiếm khác.
Dựa trên một thuật toán cụ thể, dùng để loại bỏ trùng lặp và xếp hạng kết quả từ các
nguồn tìm kiếm vào một danh sách. Danh sách kết quả sẽ được hiển thị trên trang kết
quả tìm kiếm (SERP).
Ngoài ra còn có một số siêu công cụ tìm kiếm không sử dụng thuật toán, chúng
chỉ trình bày các thông tin kết quả của các nguồn tìm kiếm. Meta-Search Engine chỉ
khác nhau ở chổ chọn nguồn tìm kiếm nào, số lượng các nguồn tìm kiếm là bao nhiêu
và cách thức trình bày kết quả.
Hình 5.Siêu công cụ tìm kiếm Dogpile
17
Chương 4. Phân tích, so sánh các hệ thống tìm
kiếm thông tin
4.1 Các hệ thống tìm kiếm thông tin phổ biến
Khi mọi người tìm kiếm thông tin, họ thường có ít nhất một công cụ tìm kiếm ưa
thích mà họ thường xuyên sử dụng để đáp ứng nhu cầu tìm kiếm của họ. Theo
About.com, hầu hết các hệ thống tìm kiếm thông tin cần có ba tính năng chính, cụ thể
là kết quả phải thích hợp, gọn gàng, giao diện dễ đọc và có các tùy chọn hữu ích để
thắt chặt hoặc mở rộng kết quả tìm kiếm. Do đó, công cụ tìm kiếm phổ biến sẽ có các
tính năng nói trên. Ngoài ra các công cụ tìm kiếm phổ biến có dữ liệu được duy trì tốt
và thường xuyên được cập nhật.
Các nhà thiết kế web thường quan tâm đến các công cụ tìm kiếm, bởi vì họ muốn
trang web của họ được dễ dàng tìm thấy thông qua các công cụ tìm kiếm để tăng
lượng truy cập vào website của họ. Vì vậy, họ thường có chiến lược SEO cho ứng
dụng web của họ.
Một cuộc khảo sát công cụ tìm kiếm được ưa thích nhất trên toàn toàn cầu được
tiến hành bởi ComScore, một công ty đi đầu trong việc đo lường trong thế giới kỹ
thuật số, chứng minh rằng Google là công cụ tìm kiếm được sử dụng nhiều nhất trên
thế giới: Trong năm 2009, Google thống trị 66,8% các tìm kiếm trên toàn thế giới với
87.809 triệu lượt tìm kiếm, theo sau là Yahoo! với 9.444 triệu lượt tìm kiếm, công cụ
tìm kiếm Trung Quốc Baidu với 8534 triệu lượt tìm kiếm, và Bing xếp thứ tư với
4.094 triệu lượt tìm kiếm [comScore, 2010].
Bảng 1 dưới đây cho thấy tổng số tìm kiếm trên toàn thế giới từ năm 2008 và
2009 của những người ở độ tuổi 15 trở lên. Dựa vào bảng này ta có thể thấy, trang
web tìm kiếm của Microsoft đã tăng 70% lượt tìm kiếm trong năm 2009 so với năm
2008. Tiến bộ nhất là công cụ tìm kiếm Yandex của Nga với 91%. Tuy nhiên, hiện tại
nó không được biết đến trên toàn thế giới.
18
Bảng 1. Thống kê số lượt tìm kiếm của các hệ thống tìm kiếm phổ biến
trên thới giới năm 2008 - 2009
Theo nghiên cứu Hitslink của Net Applications cho thấy bảng xếp hạng thị phần
của các công cụ tìm kiếm trong hai năm qua tính tới tháng 8 năm 2010. Google đứng
đầu với 84,73% thị phần, và cao hơn so với Yahoo! (6,35%), Baidu (3,31%) và Bing
(3,30%), trong khi các công cụ khác chỉ chiếm tổng cộng 1,32%. Baidu mới đây đã
tăng nhanh hơn Bing, cụ thể là từ Tháng 7-Tháng 8 năm 2010 đã tăng thêm 1% [Net
Applications, 2010]. Hình dưới đây minh họa tổng thị phần của công cụ tìm kiếm
trong tháng 8 năm 2010.
Hình 6.Thị phần của công cụ tìm kiếm - tháng 8 năm 2010
19
Trang webdevelopersnotes.com thực hiện một cuộc khảo sát trực tuyến với tổng
số 13.304 người tham gia trong tháng 9 năm 2010 về công cụ tìm kiếm mà họ nghĩ là
tốt nhất trên thế giới. Đa số thành viên được khảo sát cho rằng Google là công cụ tìm
kiếm tốt nhất, trong khi chỉ có 1/4 số người tham gia cho rằng hoặc Yahoo, Bing,
AOL, hoặc Ask là công cụ tìm kiếm tốt nhất trên thế giới.
Hình 7.Kết quả khảo sát công cụ tìm kiếm tốt nhất [nguồn: Web Deverlopers,
2010]
Mặc dù công cụ tìm kiếm Baidu được xếp hạng thứ ba, nhưng đây là công cụ tìm
kiếm chỉ sử dụng tại Trung Quốc, và chưa được sử dụng trên toàn cầu.Do đó trong bài
báo cáo này, chúng ta không tìm hiểu chi tiết.
4.1.1 Google
Vào năm 1998, Larry Page và Sergey Brin (Đại học Stanford) thành lập công ty
Google. Google dựa trên từ "googol" tức là số 10100 và nó tượng trưng cho khối
lượng thông tin khổng lồ có sẵn trên web đồng thời nó hàm ý Google có nhiệm vụ tổ
chức thông tin trên thế giới để làm cho thông tin dễ dàng truy cập và hữu ích.
Google là công cụ tìm kiếm dựa trên "con nhện" web (spider-based search
engine), và được coi là công cụ tìm kiếm phổ biến nhất như trong các khảo sát đánh
giá ở trong phần trước.
Google lưu trữ và phát triển một số tính năng tìm kiếm web, cũng như các dịch vụ
bổ sung và các công cụ, được gọi là sản phẩm của Google (ví dụ như Google Maps,
Google Earth ).
20
4.1.2 Yahoo!
Yahoo, được thành lập vào năm 1994 bởi Jerry Yang và David Filo, Yahoo! là 1
từ viết tắt cho "Yet Another Hierarchical Officious Oracle”. Tầm nhìn của Yahoo là
trung tâm của cuộc sống trực tuyến của mọi người bằng cách cung cấp thông tin cá
nhân, kinh nghiệm sử dụng Internet hiệu quả.
Yahoo sử dụng thư mục web lâu đời nhất, mặc dù Yahoo bắt đầu dựa trên kết quả
của công cụ thu thập thông tin (crawler-based search) được hỗ trợ bởi Google. Từ
năm 2004, một công nghệ tìm kiếm riêng của Yahoo! được sử dụng, với kỹ thuật
đánh chỉ mục và xếp hạng do Yahoo! đưa ra. Yahoo sử dụng hai kỹ thuật, một trình
thu thập thông tin dựa trên chỉ mục riêng (crawler-based index) và một thư mục được
biên tập bởi con người (Yahoo! Directory) - các trang web được phân loại vào các
chuyên đề, và được đánh giá bởi các biên tập viên của Yahoo.
4.1.3 Bing
Bing là công cụ tìm kiếm của Microsoft, trước đây là MSN Search, Windows Live
Search, và Live Search. Từ tháng 6 năm 2009 được đổi tên là Bing.
Bing cũng sữ dụng kỹ thuật đánh chỉ mục các dữ liệu web thu thập được. Hiện
nay Microsoft đã mua lại Powerset, một công ty làm về lĩnh vực tìm kiếm và mua lại
Yahoo Search để cải tiến và tăng khả năng việc tìm kiếm của Bing nhằm cạnh tranh
với đối thủ lớn nhất hiện nay là Google. Kết quả tìm kiếm của Bing được tổ chức
thuận lợi hơn cho người sử dụng, ngoài ra Bing cũng cải tiến cách trình bày kết quả
một cách trực quan sử dụng hình ảnh phù hợp hơn.
Như có thể thấy trong Bảng 1, những cải tiến của Bing đã góp phần tăng số lượt
người sử dụng thêm 70% trong lĩnh vực tìm kiếm.
4.2 So sánh Google, Yahoo và Bing
Ở phần trên chúng ta đã biết qua ba công cụ tìm kiếm Google, Yahoo và Bing.
Tiếp theo chúng ta sẽ tìm hiểu chi tiết và so sánh các công cụ tìm kiếm trên một số
tiêu chí đã chọn. Trong Bảng 2, chúng ta sẽ tóm tắt lại việc so sánh 3 công cụ tìm
kiếm này.
Một số đặc điểm giúp cho công cụ tìm kiếm nổi bật hơn các công cụ tìm kiếm
khác. Nhưng trong bài báo cáo này chúng ta chỉ tập trung vào nghiên cứu ba đặc điểm
21
chính sau của công cụ tìm kiếm: Kích thước cơ sở dữ liệu, khả năng cập nhật cơ sở dữ
liệu, khả năng tìm kiếm, và kỹ thuật đưa ra kết quả của công cụ tìm kiếm. Những đặc
điểm trên là giá trị cốt lõi để đánh giá các công cụ tìm kiếm.
4.2.1 Kích thước cơ sở dữ liệu
Trong những năm qua số lượng các trang web tăng rất nhanh và chúng ta không tể
tính toán chính xác được có bao nhiêu website tồn tại trên mạng Internet. Chúng ta
cũng không thể tính toán chính xác được số lượng chính xác của các trang web được
công cụ tìm kiếm lập chỉ mục. Tuy nhiên, chúng ta có một số cách để ước tính kích
thước cơ sở dữ liệu của công cụ tìm kiếm giúp chúng ta có thể đưa ra các so sánh để
xếp hạng các công cụ tìm kiếm.
Theo các số liệu của Lewandowski đưa ra trong năm 2005, Lewandowski cho
rằng cách duy nhất để tìm ra kích thước của trang web là đánh giá kích thước dựa trên
kích thước của mẫu đại diện.Ông chỉ ra rằng Google đã lập chỉ mục khoảng 8 tỷ tài
liệu, trong khi dự toán số chỉ mục của Yahoo là 5-7 tỷ, và Bing (trước đây là MSN) là
4-5 tỷ tài liệu.
Cách để ước tính số lượng các trang web được lập chỉ mục là chúng ta thực hiện
tìm kiếm cùng một từ trên các công cụ tìm kiếm mà chúng ta cần nghiên cứu và xem
xét số lượng kết quả trả về. Để trách sai sót khi xác định kích thước thực tế của công
cụ tìm kiếm, chúng ta nên sử dụng từ khóa cực kỳ phổ biến và có thể xuất hiện trong
bất kỳ tài liệu nào.Ví dụ từ "the" có thể được tìm thấy trong tất cả các trang tiếng
Anh. Tính đến ngày 12 tháng 3 năm 2012, Google đã tìm thấy khoảng hơn 25 tỷ
trang, trong khi Yahoo tìm thấy khoảng hơn 9 tỷ trang, và Bing có khoảng hơn 9 tỷ
trang có chứa từ "the". Chúng ta cần lưu ý rằng những con số chỉ có một tỷ lệ phần
trăm nhất định của văn bản được lập chỉ mục, bởi vì kích thước thực tế của toàn bộ
các chỉ số lớn hơn rất nhiều. Tuy nhiên dựa vào kết quả này chúng ta có thể sắp xếp
thứ hạng về kích thước chỉ mục của các công cụ tìm kiếm.
Ta có thể thấy kích thước của cơ sở dữ liệu không đánh giá hết chất lượng của
một công cụ tìm kiếm. Do trùng lặp thông tin và thông tin rác (spam), nên các công cụ
tìm kiếm không lập chỉ mục toàn bộ trang web. Ngoài ra còn có những trang web mà
công cụ tìm kiếm chỉ thu thập được các trang web tĩnh như: Invisible Web (web
“ẩn”), Deep Web, hoặc Hidden Web. Ngoài ra còn có một số thông tin trên các trang
22
web mà công cụ tìm kiếm không đánh chỉ mục vì lý do công nghệ bị giới hạn hoặc họ
cố tình không đánh chỉ mục.
Theo báo cáo của Lewandowski năm 2005 thì Google, Yahoo, Bing đánh chỉ mục
được các Deep Web. Đặc biệt, Google còn thu thập được các tài liệu quan trọng nhất
của Hidden Web được thực hiện dưới sự hỗ trợ của con người và Google cũng phát
triển một công nghệ cho phép tự động tiếp cận các nguồn tài nguyên. Yahoo thì
ngược lại, Yahoo có Chương trình thu nhận nội dung, các tài liệu của Deep Web
thông qua quan hệ đối tác là nhà cung cấp nội dung.
Hiện tại, không có thông tin rõ ràng về Bing, nhưng Bing cũng có khả năng khám
phá ra các Invisible Web, và chúng ta cũng thấy có các nghiên cứu của Microsoft về
thử nghiệm khai thác thông tin của Deep Web đã được trình bày.
4.2.2 Khả năng cập nhật dữ liệu
Như được mô tả trong phần 3.1, các cơ sở dữ liệu bao gồm các bản sao tài liệu mà
các trình thu thập dữ liệu đã thu thập và bảng chỉ mục. Nhưng các trang web được
thay đổi nội dung theo thời gian, do đó các nhện web (spiders) có thu thập lại các dữ
liệu để có được các phiên bản cập nhật và đảm bảo chất lượng của chỉ mục luôn cập
nhật hay không là một yếu tố quan trọng để so sánh các công cụ tìm kiếm. Theo
Langville & Meyer, "Thu thập thông tin là một quá trình không bao giờ kết thúc".
Làm thế nào để các công cụ tìm kiếm quản lý việc cập nhật cơ sở dữ liệu tốt nhất?
Lewandowsky, Whalig và Meyer-Bautor đã thử nghiệm để tìm ra tần suất cập
nhật dữ liệu của Google, Yahoo và MSN được công bố năm 2005. Trong thời gian 42
ngày, họ quan sát bốn nhóm khác nhau với 9 hoặc 10 trang web, các trang web được
cập nhật mỗi ngày, để tìm hiểu xem các công cụ tìm kiếm có thể cập nhật nội dung và
đánh chỉ mục hàng ngày hay không. Googlebot là công cụ thu thập dữ liệu của
Google cập nhật nhiều trang web hàng ngày và cho thấy các chỉ mục của họ có chất
lượng và nhanh nhất. Thời gian thu thập lại dữ liệu thường phụ thuộc vào sự phổ biến
của liên kết và dựa trên tần suất thường xuyên thay đổi của trang web [Theo
GoogleGuide, 2007]. MSN sử dụng MSNbot để cập nhật thường xuyên, trong khi
Yahoo dường như sử dụng trình thu thập thông tin Yahoo Slurp để cập nhật một cách
ngẫu nhiên [Theo Lewandowski, 2005].
23
4.2.3 Khả năng tìm kiếm
Công cụ tìm kiếm cho phép tìm kiếm bằng cách nhập một số từ khóa đơn giản cho
một truy vấn, nhưng nó cũng có chức năng thu hẹp tìm kiếm để nhận được kết quả
chính xác hơn, chẳng hạn như chức năng tìm kiếm cơ bản và tìm kiếm nâng cao được
cung cấp bởi các công cụ tìm kiếm. Mặc dù chức năng thu hẹp tìm kiếm giúp cho
người tìm kiếm thông tin dễ thành công hơn, Tuy nhiên phần lới người dụng lại
không sử dụng vì họ không biết chức năng này hoặc họ không biết cách sử dụng.
Tiếp theo chúng ta tìm hiểu về các toán tử quan trọng trong ngôn ngữ truy vấn của
công cụ tìm kiếm.
Một trong số các tùy chọn cơ bản đó là toán tử luận lý như: AND, OR và NOT, nó
được sử dụng để phân loại trong truy tìm thông tin. Toán tử AND dùng để nối từ, toán
từ này thường mặc định được thêm vào giữa các từ khi bạn gõ vào box tìm kiếm (ví
dụ: “Hello world” = “Hello AND world”). Toán tử OR và NOT thì phải viết hoa và
thường sử dụng với các điều kiện tương đương hoặc có liên quan, hoặc loại trừ các từ
trong kết quả trả về.
Dấu trừ (-) và cộng (+) có thể được sử dụng để loại bỏ hoặc thêm vào các từ và
cụm từ.
Dấu ngoặc kép ("") cho phép người dùng tìm kiếm cụm từ chính xác trong một tài
liệu. Chức năng này rất hữu ích nếu một người nào đó cần tìm một văn bản khi biết
chính xác một phần trong nội dung cần phải tìm kiếm. Với các từ phổ biến như "a"
hoặc "the" được bỏ qua trừ khi chúng được đặt trong dấu ngoặc kép.
Ký hiệu khoảng trống (*) (wildcard) có thể được sử dụng để thay thế cho những
từ tại vị trí đó trong cụm từ cần tìm kiếm mà họ chưa xác định trước được.
Stemming là một kỹ thuật giúp tìm kiếm một từ trên cơ sở từ gốc của nó, có nghĩa
là các công cụ tìm kiếm có thể tìm thấy nhiều kết quả từ một từ. Ví dụ như từ "drive"
sẽ có các biến thể là "driving", "driver", "drivers" xuất hiện trong kết quả tìm kiếm.
Một số tùy chọn cho phép giới hạn kết quả tìm kiếm thông qua các từ khóa đặc
biệt gọi là Meta word. Nếu người dùng muốn tìm kiếm trong một trang web cụ thể có
thể sử dụng từ khóa (site:). Ví dụ có thể chỉ tìm kiếm thông tin trên website của Đại
học CNTT bằng cách gõ vào box tìm kiếm nội dung cần tìm và gõ thêm site:
24
uit.edu.vn. Meta word có thể được cung cấp bởi các công cụ tìm kiếm như tên máy
(hostname: ), liên kết (link: ), hoặc URL (url: ) và intitle (intitle: ). Các từ khóa là một
phần của tiêu đề được lập chỉ mục.
Google hỗ trợ các toán tử AND và OR, cũng như các chức năng loại bỏ và thêm
vào các từ và cụm từ bằng dấu "-" và "+". Ngoài ra, nó cũng có tính năng tìm kiếm
cụm từ với dấu ngoặc kép, cho phép sử dụng wildcards, tìm kiếm với các tính năng
đặc biệt (special feature: như đổi tiền tệ, thời tiết, tính toán…), tính năng stemming và
cho phép sử dụng Meta word.
Hình 8.Minh họa 1 special feature của Google
Yahoo cũng hỗ trợ các tính năng tìm kiếm tương tự Google ngoài ra có thể tiết
kiệm thời gian bằng cách sử dụng Yahoo! Shortcuts, với các ký hiệu và từ khóa đặc
biết, thì câu trả lời sẽ được hiển thị trực tiếp trên kết quả trả về. Ví dụ như nhập vào
một phép tính thì trả lời về kết quả của phép tính.
25