Tải bản đầy đủ (.doc) (73 trang)

Chuyên đề “công nghệ tri thức”

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 73 trang )

Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
MỤC LỤC
LỜI NÓI ĐẦU 5
DANH MỤC THUẬT NGỮ 6
DANH MỤC HÌNH ẢNH 7
DANH MỤC BẢNG BIỂU 8
CHƯƠNG I. TỔNG QUAN VỀ TỐI ƯU HÓA TÌM KIẾM 9
I. Bộ máy tìm kiếm 9
1. Sự ra đời của bộ máy tìm kiếm 9
2. Khái niệm về bộ máy tìm kiếm 9
3. Các thành phần của bộ máy tìm kiếm 9
3.1. Bộ thu thập thông tin – Web spider 10
3.2. Bộ lập chỉ mục – Index 10
3.3. Bộ truy vấn – Query 10
4. Các hoạt động của bộ máy tìm kiếm 10
5. Xếp hạng của bộ máy tìm kiếm 11
II. Tối ưu hóa tìm kiếm 13
1. Khái niệm về tối ưu hóa tìm kiếm 13
2. Phân loại các tối ưu hóa tìm kiếm 13
3. Từ khóa 13
3.1. Xác định và tối ưu hóa từ khóa 14
3.2. Mật độ từ khóa 14
3.3. Sắp xếp từ khóa tại nhiều vị trí khác nhau 15
CHƯƠNG II. HỆ TÌM KIẾM THÔNG TIN GOOGLE, BING
VÀ YANDEX 16
I. Google 16
1. Sơ lược về Google 16
2. Tìm kiếm, xếp hạng các website 16
3. Các giai đoạn tìm kiếm thông tin của Google 17
3.1. Tìm kiếm thông tin 17
3.2. Lập chỉ mục 18


CH1001084 – Võ Sơn Trí 1
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
3.3. Xếp hạng 18
4. Các thuật toán xếp hạng 18
4.1. Các nhân tố ảnh hưởng 18
4.1.1. Nhân tố OnPage 18
4.1.2. Nhân tố OffPage 19
4.2. Thuật toán PageRank 19
4.3. Thuật toán Google Panda 21
4.4. Thuật toán Google Penguin 22
5. Tùy biến trong tìm kiếm 23
5.1. Lệnh tìm kiếm 23
5.2. Từ khóa liên quan 23
5.3. Xem trang đầu tiên 24
5.4. Cú pháp tìm kiếm nâng cao 24
6. Các tính năng tìm kiếm của Google 25
6.1. Tìm kiếm tức thời – Google Instant 25
6.1.1. Giới thiệu về Google Instant 25
6.1.2. Nền tảng công nghệ 26
6.1.3. Lợi ích 27
6.1.4. Hoạt động của Google Instant 28
6.2. Xem trước trang kết quả 28
6.3. Kiểm tra lỗi chính tả 29
6.4. Tìm kiếm bằng giọng nói 29
6.5. Tìm kiếm bằng hình ảnh 30
6.6. Hiển thị đa dạng kết quả 31
7. Các dịch vụ tìm kiếm của Google 31
7.1. Tìm kiếm web 31
7.2. Tìm kiếm hình ảnh 31
7.3. Tìm kiếm phim ảnh 31

7.4. Các dịch vụ tìm kiếm khác 31
II. Bing 33
CH1001084 – Võ Sơn Trí 2
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
1. Sơ lược về Bing 33
2. Thuật toán xếp hạng BrowseRank 33
2.1. Dữ liệu về hành vi người dùng 33
2.2. Ước lượng q
ii
34
2.3. Ước lượng EMC 35
2.4. Đánh giá mức độ quan trọng của trang 36
2.5. Thuật toán 36
2.6. So sánh 36
3. Các tính năng của Bing 37
3.1. Giao diện tìm kiếm 37
3.2. Tìm kiếm bằng giọng nói 38
3.3. Tính năng tìm kiếm xã hội 38
3.4. Đề xuất các nội dung tìm kiếm liên quan 39
4. Các dịch vụ tìm kiếm của Bing 39
4.1. Tìm kiếm web 39
4.2. Tìm kiếm hình ảnh 40
4.3. Tìm kiếm phim ảnh 40
4.4. Thực hiện tính toán 41
4.5. Các dịch vụ tìm kiếm khác của Bing 41
5. Tùy biến tìm kiếm nâng cao 43
III. Yandex 44
1. Sơ lược về Yandex 44
2. Hoạt động của Yandex 46
3. Quá trình thu thập thông tin và lập chỉ mục web 46

4. Kiến trúc tìm kiếm 48
5. Thuật toán MatrixNet 50
6. Các tính năng của Yandex 51
6.1. Giao diện 51
6.2. Tìm kiếm di động 51
6.3. Tìm kiếm xã hội 51
CH1001084 – Võ Sơn Trí 3
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
7. Các dịch vụ tìm kiếm của Yandex 52
7.1. Tìm kiếm web 52
7.2. Tìm kiếm hình ảnh 52
7.3. Tìm kiếm phim ảnh 52
7.4. Các dịch vụ tìm kiếm khác của Yandex 52
8. Tùy biến trong tìm kiếm 53
CHƯƠNG III. ĐÁNH GIÁ KHÁI QUÁT CÁC BỘ MÁY TÌM KIẾM 54
I. Phân tích và so sánh 54
1. Giao diện 54
2. Tốc độ nạp trang 55
3. Tìm kiếm web 56
4. Tìm kiếm hình ảnh 57
5. Tìm kiếm phim ảnh 59
6. Tìm kiếm di động 60
7. Dịch vụ bản đồ 62
8. Tìm kiếm xã hội 63
9. Tìm kiếm các sự kiện 63
10. Tìm kiếm cụ thể 64
11. Tự động sửa lỗi chính tả 65
12. Tìm kiếm nguồn thông tin 66
13. Chống các nội dung rác 67
14. Các dịch vụ tìm kiếm 67

15. Tùy biến tìm kiếm nâng cao 67
II. Đánh giá 68
1. Yandex 68
2. Bing 68
3. Google 69
4. Bảng tổng hợp 70
KẾT LUẬN 72
TÀI LIỆU THAM KHẢO 73
CH1001084 – Võ Sơn Trí 4
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
LỜI NÓI ĐẦU
Ngày nay, Internet được xem như là một kho thông tin, dữ liệu khổng lồ
trên thế giới về giáo dục, xã hội, khoa học – công nghệ, cuộc sống, sự kiện,… và
kho thông tin, dữ liệu này ngày càng bùng nổ, phình tỏ thêm. Tuy nhiên, một
thực tế phổ biến là mặc dù có một lượng thông tin, dữ liệu rất lớn nhưng chúng ta
thật sự biết và khai thác chúng rất ít và hạn chế.
Hơn nữa, do các thông tin, dữ liệu quá lớn nên không có một danh bạ nào
có thể giúp chúng ta tra cứu hiệu quả các thông tin đó. Mà nhu cầu tìm kiếm, tra
cứu thông tin luôn luôn được con người thực hiện thường xuyên, mọi lúc và mọi
nơi. Và rất may là hiện nay có nhiều công cụ giúp chúng ta tìm kiếm, khai thác
các thông tin, dữ liệu mà con người mong muốn. Vì vậy, việc tìm hiểu, phân tích,
so sánh và đánh giá các công cụ tìm kiếm sẽ giúp cho người dùng có thể lựa chọn
công cụ tìm kiếm phù hợp với thông tin, dữ liệu mà người dùng cần.
Nhưng hiện nay có rất nhiều công cụ tìm kiếm thông tin, dữ liệu trên
Internet nên việc lựa chọn một công cụ phù hợp để tìm kiếm hiệu quả các thông
tin mà người dùng cần không phải là đơn giản. Với chuyên đề “Phân tích, so
sánh và đánh giá các hệ tìm kiếm thông tin của Google, Bing và Yandex” sẽ trình
bày khái quát và tầm quan trọng của các công cụ cũng như các dịch vụ tìm kiếm
phổ biến hiện nay như tìm kiếm web, hình ảnh, phim ảnh.
Trong đó, Google và Bing là hai công cụ tìm kiếm phổ biến trên thế giới,

lại đa dạng về các dịch vụ tìm kiếm. Bên cạnh đó, hầu hết các người dùng Việt
Nam đều sử dụng Google và Bing cho các mục đích tìm kiếm thông tin cần thiết.
Còn Yandex, một công cụ tìm kiếm có tầm ảnh hưởng mạnh mẽ ở Nga, Ukraine
và một số nước Đông Âu với các dịch tìm kiếm đa dạng. Trong tương lai,
Yandex sẽ là một đối thủ tiềm năng, có sức cạnh tranh với Google và Bing.
Qua đây, em xin chân thành gửi lời cảm ơn đến thầy GS.TSKH. Hoàng
Văn Kiếm, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản cho
chúng em về chuyên đề “Công Nghệ Tri Thức”. Bên cạnh đó, em cũng xin cảm
ơn sự trợ giúp không mệt mỏi của các chuyên gia cố vấn qua mạng của trường
ĐH CNTT – ĐH Quốc gia TP.HCM và toàn thể các bạn học viên trong lớp.
CH1001084 – Võ Sơn Trí 5
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
DANH MỤC THUẬT NGỮ
Thuật ngữ Ý nghĩa
SERPs
Search Engine Results Pages: Trang kết quả được các bộ máy tìm
kiếm trả về.
HTML HyperText Markup Language: Ngôn ngữ đánh dấu siêu văn bản.
CSS Cascading Style Sheet: Định dạng các siêu văn bản.
Web/Webpage Là trang web, một siêu văn bản chứa các thông tin trên Internet.
Website Tập hợp các trang web.
Web Spider Công cụ duyệt và thu thập thông tin để lập chỉ mục các website.
Meta Tag Thẻ dùng để cung cấp các thông tin về website một cách tóm gọn.
Backlinks Liên kết từ một website khác trỏ đến website của chúng ta.
URL Uniform Resource Locator: Tham chiếu tới tài nguyên trên Internet
Sitemaps Liệt kê các mục của một website.
HTTP HyperText Transfer Protocol: Giao thức truyền tải siêu văn bản.
Bounce Rate
Tỷ lệ % lượng truy cập vào website hoặc từ trang web khác tới
website của chúng ta và rời bỏ website của chúng ta mà không xem

bất cứ một trang nào khác.
EMC
embedded Markov chian: Một phương pháp tìm kiếm phân phối
xác suất tĩnh.
CH1001084 – Võ Sơn Trí 6
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
DANH MỤC HÌNH ẢNH
Hình 9.1. Các thành phần của bộ máy tìm kiếm
Hình 11.2. Hoạt động của bộ máy tìm kiếm
Hình 12.3. Các tham số xếp hạng của Google
Hình 17.4. Google Bot tìm kiếm thông tin
Hình 19.5. Đồ thị duyệt web của thuật toán PageRank
Hình 20.6. PageRank xếp hạng
Hình 28.7. Ví dụ về Google Instant
Hình 29.8. Google Instant Preview
Hình 29.9. Kiểm tra lỗi chính tả của Google
Hình 30.10. Tìm kiếm bằng hình ảnh của Google
Hình 31.11. Đa dạng kết quả tìm kiếm với Google
Hình 33.12. Đồ thị duyệt web dữ liệu người dùng
Hình 34.13. Ví dụ về URL – TIME - TYPE
Hình 39.14. Chức năng Bing Social
Hình 39.15. Tìm kiếm các từ khóa liên quan
Hình 40.16. Tìm kiếm hình ảnh của Bing
Hình 41.17. Dịch vụ tìm kiếm Bing Video
Hình 41.18. Thực hiện tính toán với Bing
Hình 47.19. Hoạt động của Yandex Spider
Hình 47.20. Tập chỉ mục của dữ liệu tìm kiếm
Hình 49. 21. Kiến trúc tìm kiếm của Yandex
Hình 51.22. Tìm kiếm di động của Yandex
Hình 54.23. Giao diện tìm kiếm của Google, Bing và Yandex

Hình 55.24. Tốc độ nạp trang của Google, Bing và Yandex với PageSpeed
Hình 55.25. Tốc độ nạp trang của Google, Bing và Yandex với Pingdom Tools
Hình 56.26. Tìm kiếm web của Google, Bing và Yandex
Hình 57.27. Tìm kiếm hình ảnh của Google, Bing và Yandex
Hình 58.28. Google Images với tính năng kéo thả
Hình 59.29. Tính năng lọc hình ảnh của Google, Bing và Yandex
CH1001084 – Võ Sơn Trí 7
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
Hình 59.30. Tìm kiếm phim ảnh với Google, Bing và Yandex
Hình 60.31. Bộ lọc phim ảnh của Bing và Yandex
Hình 61.32. Giao diện tìm kiếm di động của Google, Bing và Yandex
Hình 62.33. Dịch vụ tìm kiếm bản đồ của Yandex
Hình 62.34. Giao diện tìm kiếm bản đồ của Google và Bing
Hình 63.35. Tìm kiếm xã hội của Bing
Hình 64.36. Tìm kiếm sự kiện với Google, Bing và Yandex
Hình 65.37. Tìm kiếm chính xác với Google, Bing và Yandex
Hình 66.38. Chức năng sửa lỗi chính tả của Google, Bing và Yandex
Hình 66.39. Tìm kiếm nguồn tin với Google, Bing và Yandex
DANH MỤC BẢNG BIỂU
Bảng 18.1. Các nhân tố OnPage
Bảng 19.2. Các nhân tố OffPage
Bảng 37.3. So sánh xếp hạng website của PageRank, TrustRank Và BrowseRank
Bảng 71.4. So sánh các dịch vụ tìm kiếm của Google, Bing và Yandex
CH1001084 – Võ Sơn Trí 8
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
CHƯƠNG I. TỔNG QUAN VỀ TỐI ƯU HÓA TÌM KIẾM
I. Bộ máy tìm kiếm
1. Sự ra đời của bộ máy tìm kiếm
Hiện nay, Internet có hơn 5 tỷ website và mỗi ngày có hàng ngàn website
mới được đưa lên mạng. Người dùng sẽ rất khó khăn tìm kiếm nhanh chóng một

website có thông tin, dữ liệu phục vụ mục đích của mình. Vì vậy mà bộ máy tìm
kiếm ra đời để giúp việc tìm kiếm thông tin trên Internet nhanh chóng và dễ
dàng.
Tại Việt Nam, bộ máy tìm kiếm phổ biến nhất là google.com.vn và chiếm
thị phần lớn nhất với hơn 90%.
2. Khái niệm về bộ máy tìm kiếm
Bộ máy tìm kiếm là một cỗ máy có chức năng đáp ứng các nhu cầu tìm
kiếm thông tin trên Internet của người dùng dựa trên các từ khóa của thông tin
được nhập vào để tìm kiếm.
Bộ máy tìm kiếm gồm các công cụ tìm kiếm trên một website hoặc tìm
kiếm trên tất cả website như Google, Bing, …
Các bộ máy tìm kiếm phổ biến hiện nay là Google, Bing/Yahoo, Baidu
của Trung Quốc, Yandex của Nga, Ask của Mỹ,…
Các bộ máy tìm kiếm phải đi thu thập và xây dựng kho “thông tin” sao
cho người dùng tìm kiếm tiện lợi nhất và dễ dàng truy xuất.
3. Các thành phần của bộ máy tìm kiếm
CH1001084 – Võ Sơn Trí 9
Hình 9.1. Các thành phần của bộ máy tìm kiếm
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
3.1. Bộ thu thập thông tin – Web spider
Bộ thu thập thông tin là một chương trình tự động duyệt và thu thập dữ
liệu một cách đệ quy các website được ghé thăm để lập chỉ mục, đưa website vào
danh mục của nó. Các bộ thu thập thông tin rất quan tâm đến các đường liên kết,
vì thông qua các liên kết này, nó có thể tiếp tục đến các website khác.
Bản chất bộ thu thập thông tin chỉ là một chương trình duyệt và thu thập
thông tin từ các website theo đúng giao thức web. Những trình duyệt thông
thường không được xem là bộ thu thập thông tin do thiếu tính chủ động, chúng
chỉ duyệt website khi có sự tác động của con người.
3.2. Bộ lập chỉ mục – Index
Bộ lập chỉ mục dùng một thuật toán rất phức tạp để lập chỉ mục tất cả các

dữ liệu mà nó thu thập theo từng từ, cụm từ. Các chỉ mục sẽ giúp các bộ máy tìm
kiếm nhanh chóng tìm ra và tiếp cận các nguồn dữ liệu khổng lồ mà nó lưu giữ.
Ngoài việc lập chỉ mục, các phần mềm của bộ thu thập thông tin còn sử
dụng nhiều thuật toán khác nhau để phân tích, đánh giá các website và ấn định
thứ hạng cho chúng. Nhờ đó, bộ máy tìm kiếm đánh giá tầm quan trọng của mỗi
website đối với người dùng đang tìm kiếm.
3.3. Bộ truy vấn – Query
Là giao diện người dùng khi sử dụng bộ máy tìm kiếm. Nó gồm ô nhập
nhập từ khóa và ra lệnh tìm kiếm. Bộ máy tìm kiếm sẽ đưa ra các website phù
hợp, liên quan đến từ khóa tìm kiếm của người dùng. Thực chất, bộ truy vấn
không trực tiếp tìm kiếm các website, mà nó chỉ truy xuất ra các dữ liệu đã được
bộ lập chỉ mục lưu trữ, đánh giá và sắp xếp.
4. Các hoạt động của bộ máy tìm kiếm
Chúng ta có thể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm,…
trên bộ máy tìm kiếm. Khi nhận được câu lệnh yêu cầu tìm kiếm, bộ máy tìm
kiếm sẽ phân tích yêu cầu đó, đánh giá, xếp hạng và trả về kết quả liên quan nhất
theo quy trình sau:
CH1001084 – Võ Sơn Trí 10
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
Khảo sát – Crawl: Là một giai đoạn rất quan trọng. Các bộ máy tìm kiếm
tiến hành duyệt và thu thập thông tin các website trên internet. Các bộ máy tìm
kiếm sử dụng những con bọ được lập trình để có thể tự động theo các liên kết để
dò tìm, thu thập và đánh giá thông tin trên các website khác nhau.
Lập chỉ mục - Index: Là giai đoạn các bộ máy tìm kiếm lưu lại thông tin
sau khi đã khảo sát. Với dung lượng lưu trữ vô hạn, các bộ máy tìm kiếm có thể
chứa hàng tỷ kết quả liên quan. Một website có thể được lập chỉ mục nhanh hay
chậm tuỳ thuộc vào tốc độ khảo sát, độ tin cậy và nhiều yếu tố khác.
Phân tích – Analysis : Các bộ máy tìm kiếm sẽ tính toán độ liên quan của
dữ liệu thu thập được so với yêu cầu người dùng. Các bộ máy tìm kiếm khác
nhau có các thuật toán phân tích khác nhau, từ đây tạo ra sự khác biệt giữa các bộ

máy tìm kiếm. Giai đoạn phân tích sẽ tạo tiền đề cho giai đoạn trích xuất kết quả.
Kết quả - Results : Giai đoạn này trả về các kết quả liên quan đến thông
tin tìm kiếm của người dùng. Các kết quả có độ liên quan cao thường được sắp ở
trên. Tuy nhiên, không phải lúc nào kết quả cũng thỏa mãn yêu cầu của người
tìm kiếm. Nhưng cho đến nay, người dùng khá hài lòng với những gì mà bộ máy
tìm kiếm trả về.
5. Xếp hạng của bộ máy tìm kiếm
Các bộ máy tìm kiếm chỉ xếp hạng cho webpage chứ không phải xếp hạng
cho cả website, do mỗi webpage trong website chứa đựng một nội dung cụ thể
khác nhau, mà mỗi nội dung sẽ có thứ hạng khác nhau trên SERPs.
Bên cạnh, một webpage có rất nhiều nội dung như văn bản, hình ảnh,
nhạc,… Do đó, các bộ máy tìm kiếm sẽ xử lý một webpage như sau:
CH1001084 – Võ Sơn Trí 11
Hình 11.2. Hoạt động của bộ máy tìm kiếm
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
- Các bộ máy tìm kiếm xác định nội dung một webpage thông qua các mã
HTML. Bộ máy tìm kiếm sẽ duyệt nội dung từ trên xuống dưới qua HTML và sẽ
bỏ qua các nội dung vượt quá 100kB. Nội dung một webpage sẽ được xác định
hoàn toàn thông qua các quá trình xử lí các tiêu chí của bộ máy tìm kiếm.
- Văn bản sẽ được các bộ máy tìm kiếm xử lý tốt nhất.
- Bộ máy tìm kiếm xác định một hình ảnh thông qua thẻ ALT.
- Lưu ý về Javascript và CSS.
Từ các xử lý này, bộ máy tìm kiếm sẽ sử dụng các phương pháp, các bộ
lọc để tính toán và xếp hạng ưu tiên các kết quả dựa trên hơn 300 tham số khác
nhau, như:
- Độ tin cậy, xác thực của tên miền.
- Các liên kết được nhiều người truy cập và sưu tầm.
- Các văn bản đặt liên kết trỏ ra các nội dung liên quan bên ngoài trang.
- Các từ khóa dùng trong trang nội dung.
- Lượng người truy cập vào website.

- Tốc độ của website.
- …….
CH1001084 – Võ Sơn Trí 12
Hình 12.3. Các tham số xếp hạng của Google
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
II. Tối ưu hóa tìm kiếm
1. Khái niệm về tối ưu hóa tìm kiếm
Tối ưu hóa tìm kiếm là tất cả cách phương pháp làm cho website có độ
tương thích cao nhất với các bộ máy tìm kiếm, sao cho khi người dùng thực hiện
một truy vấn nào đó, thì kết quả trả về của website/webpage sẽ nằm ở thứ hạng
mong muốn trong kết quả tìm kiếm.
Tối ưu hóa tìm kiếm bao gồm Onsite/Onpage và Offsite/ Offpage:
- Onsite: Gồm các hoạt động trên website như chỉnh sửa tiêu đề, thêm thẻ
meta, chỉnh màu sắc, font chữ, cập nhật nội dung, …
- Offsite: Gồm các hoạt động bên ngoài website. Offsite sẽ gián tiếp tác
động vào thứ hạng website như backlinks, chia sẻ trên các mạng xã hội, …
2. Phân loại các tối ưu hóa tìm kiếm
Black hat: Là lợi dụng các khe hở, điểm yếu của các bộ máy tìm kiếm để
tăng thứ hạng website của mình một cách nhanh chóng. Tuy nhiên, thứ hạng này
thường không bền vững vì bị các nhà cung cấp bộ máy tìm kiếm phạt do vi phạm
các tiêu chí của họ đề ra nhằm mang lại lợi ích tốt nhất cho người dùng. Mức
phạt nặng nhất là xóa vĩnh viễn website đó ra khỏi các kết quả tìm kiếm.
White hat: Là hướng tới người dùng, đáp ứng tối ưu các tiêu chí của bộ
máy tìm kiếm để mang lại thứ hạng cao của website trên các SERPs. Thường thứ
hạng của các White hat không lên nhanh bằng Black Hat, nhưng một khi đã lên
thì thứ hạng này mang tính bền vững và lâu dài.
Gray hat: Áp dụng cả hai cách của Black và White, thường gió theo chiều
nào ngả theo chiều đó, miễn là đem lại thứ hạng cao cho website. Cách này cũng
có thể bị phạt vì vẫn vi phạm các tiêu chí của bộ máy tìm kiếm.
Blue hat: Là các bậc thầy chuyên nghiệp của tối ưu hóa tìm kiếm về Black

và White. Nhóm này thường nghiên cứu, thử nghiệm và đưa ra các phương pháp
tìm kiếm tối ưu, có khi đi trước cả các tiêu chí mà bộ máy tìm kiếm chưa đề ra.
3. Từ khóa
Từ khóa (Keyword) là thành phần quan trọng nhất của tối ưu hóa tìm kiếm
đối với từng bộ máy tìm kiếm. Từ khóa là những chuỗi ký tự hiển thị trùng khớp
CH1001084 – Võ Sơn Trí 13
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
với thông tin lưu trữ trong cơ sở dữ liệu. Xác định và tối ưu hóa từ khóa là bước
quan trọng cần phải ưu tiên trong toàn bộ các phương pháp tối ưu hóa tìm kiếm.
Ngược lại, nếu chúng ta không xác định tốt từ khóa thì các kết quả thu được
thường không khả quan. Để xác định và tối ưu hóa các từ khóa thì các từ khóa
này thường phải hội tụ các yếu tố cần thiết như nhu cầu tìm kiếm, ít đối thủ cạnh
tranh, phải tóm tắt được nội dung và ý chính của toàn bộ website.
3.1. Xác định và tối ưu hóa từ khóa
Hiện nay, Internet đã trở nên phổ biến thì việc cạnh tranh và phát triển
nhằm duy trì vị trí cao với chuỗi từ khóa tìm kiếm một từ không còn khả thi, mà
thay vào đó là chuỗi tìm kiếm gồm từ hai hoặc ba từ trở lên sẽ thực tế hơn.
Ví dụ, ta xây dựng một website chuyên nghiên cứu về loài rắn – snake, thì
không nên cố tìm kiếm và tối ưu hóa những từ khóa như snake hoặc snakes. Thay
vào đó, ta tập trung nhiều hơn vào các từ khóa như là “snake obedience training”
“small snake breeds”, “snake food”.
Để tối ưu hóa các từ khóa tìm kiếm, ta có thể sử dụng các công cụ hỗ trợ
có sẵn như Website Keyword Suggestions Tool, Google keyword Suggestion
tool với rất nhiều gợi ý về danh sách kết quả ban đầu của từ khóa.
Khi chọn từ khóa để tối ưu hóa, bên cạnh sự liên quan giữa từ khóa trong
website, ta cần xem xét kỹ số lần từ khóa này đã được tìm kiếm trong khoảng
thời gian nhất định như theo tuần, theo tháng, theo năm. Qua đó, chúng ta sẽ rút
ra các kinh nghiệm về sự đồng nhất giữa từ khóa và nội dung trong website.
3.2. Mật độ từ khóa
Sau khi xác định được từ khóa cho website, tiếp theo ta cần sắp xếp, bố trí mật

độ từ khóa trong từng phần nội dung trên website để tránh khỏi sự nhàm chán cũng
như lặp đi lặp lại nhiều lần trong một văn bản. Mật độ càng cao thì mức độ liên quan
khi tìm kiếm các từ khóa giữa các website sẽ càng trở nên chặt chẽ. Theo khuyến cáo
của các chuyên gia thì mật độ này nên giữ ở mức 3% – 7% đối với 2 – 3 từ khóa
chính, và 1% – 2% đối với từ khóa phụ. Chúng ta có thể dùng công cụ Keyword
Density Checker để xác định mật độ từ khóa trên website.
CH1001084 – Võ Sơn Trí 14
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
3.3. Sắp xếp từ khóa tại nhiều vị trí khác nhau
Bên cạnh số lượng, từ khóa cũng yêu cầu về chất lượng, chẳng hạn như
cách bố trí và sắp nhiều nhiều từ khóa hơn ở tiêu đề và đoạn mô tả đầu tiên trong
bài. Các con số này còn được tính nhiều hơn nếu ta đặt nhiều từ khóa hơn ở phía
cuối trang. Nguyên nhân chủ yếu là do các URL, tên tập tin, thư mục và tiêu đề
tương ứng của từng đoạn văn riêng biệt quan trọng hơn nhiều so với phần nội
dung văn bản.
Đặt từ khóa trong URL và tập tin: Dễ dàng xác định các nội dung liên
quan đến website của từ khóa đặt trong URL.
Tiếp theo, ta nên chọn tên miền sao cho dễ nhớ và có tính khả thi, ví dụ
như quantrimang.com sẽ dễ nhớ và mang lại hiệu quả hơn nhiều so với
timhieuquantrimang.com hay nghiencuuquantrimang.com.
Đặt từ khóa trong trang tiêu đề: Đây cũng là một trong những vị trí khá
đặc biệt và quan trọng. Bởi vì toàn bộ thông tin, nội dung trong thẻ <title>
thường xuyên được các bộ máy tìm kiếm để ý tới, đặc biệt là Google. Do đó, ta
nên đặt thông tin miêu tả hoặc nói về nội dung chính của website tại phần này.
CH1001084 – Võ Sơn Trí 15
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
CHƯƠNG II. HỆ TÌM KIẾM THÔNG TIN GOOGLE, BING VÀ YANDEX
I. Google
1. Sơ lược về Google
Năm 1996, Google được nghiên cứu bởi Larry Page và Sergey Brin, hai

nghiên cứu sinh tại trường Đại học Stanford. Page và Brin tin rằng những trang
có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp
nhất. Và hai người đã quyết định thử nghiệm giả thuyết này trong nghiên cứu của
họ, tạo nền móng cho công cụ Google hiện giờ.
Ngày 15/09/1997, tên miền www.google.com được đăng ký.
Ngày 07/09/1998, công ty Google, Inc được thành lập tại một ga ra của
nhà Esther Wojcicki ở Menlo Park, California.
Từ 2003 đến nay, công ty có trụ sở được đặt tại địa chỉ 1600 Amphitheater
Parkway, Mountain View, California.
Công cụ tìm kiếm Google được nhiều người dùng ủng hộ và sử dụng vì nó
được trình bày một cách tiện lợi, đơn giản và đem lại kết quả thích hợp.
Đầu năm 2004, thời kỳ đỉnh cao, Google đã xử lý trên 80% số lượng tìm
kiếm trên Internet qua website của Google.
Phương châm của Google là “Không làm ác” (Don't be evil). Biểu trưng
của Google được sửa đổi một cách dí dỏm vào những ngày đặc biệt, ngày lễ hay
sinh nhật của một nhân vật quan trọng.
Giao diện của Google có trên 100 ngôn ngữ khác nhau, kể cả tiếng Việt và
một số ngôn ngữ dí dỏm như tiếng Klingon và tiếng Leet.
2. Tìm kiếm, xếp hạng các website
Google là cỗ máy tìm kiếm phổ biến nhất thế giới hiện nay, thuật toán và
quy trình tìm kiếm dữ liệu website được Google phát triển rất tối ưu, quy trình đó
như sau:
- Khi người dùng tìm kiếm không phải tìm trực tiếp trên Internet mà đang
tìm dữ liệu trong các máy chủ của Google.
- Google sử dụng phần mềm tìm kiếm thông tin trên Internet gọi là Spider.
- Spider di chuyển giữa các trang web thông qua các liên kết (link).
CH1001084 – Võ Sơn Trí 16
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
- Google sử dụng thuật toán để sắp xếp và hiển thị các kết quả tốt nhất ở
10 vị trí đầu tiên.

3. Các giai đoạn tìm kiếm thông tin của Google
3.1. Tìm kiếm thông tin
Trong giai đoạn này, Google Bot tìm kiếm thông tin mới và website mới
theo các nguồn:
Khám phá qua liên kết (Discovery Crawl): Các Google Bot sẽ duyệt, tìm
kiếm và thu thập thông tin của các website trên Internet. Các liên kết sẽ giúp bộ
máy tìm kiếm đi từ webpage này sang webpage khác.
Khám phá qua Sitemaps (Sitemap Crawl): Nếu website của ta không có
liên kết nào tới, thì Google dùng Google webmaster tool để phát hiện URL mới
thông qua việc đưa ra các sitemap.
Lọc liên kết với Spam Filter:
- Nhóm 1: Các Spider không chạy theo các liên kết một cách ngẫu nhiên
mà đi theo một thứ tự ưu tiên. Google Bot sẽ quét dữ liệu trong các danh bạ
website lớn như Yahoo!, CNN, … là nơi có nhiều website thường được cập nhật
mới.
- Nhóm 2: Google Bot tiếp tục tìm các liên kết trong nhóm 1 để tìm liên
kết ngoài. Toàn bộ các URL này sẽ được công cụ Spam Filter thực hiện để lọc ra
các liên kết trùng lặp, hỏng. Trong quá trình này, nếu các liên kết đến bị lỗi thì nó
sẽ được đưa lại quá trình khai phá liên kết (Discovery Crawl).
CH1001084 – Võ Sơn Trí 17
Hình 17.4. Google Bot tìm kiếm thông tin
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
3.2. Lập chỉ mục
Google thu thập nội dung trong website bằng công cụ web crawler. Web
Crawler tạo ra các HTTP request truy cập vào website để thực hiện quá trình rút
trích dữ liệu trên các trang đó. Lúc này, nếu có URL mới được phát hiện thì nó
được đưa trở lại giai đoạn Discovery Crawl. Sau khi có được dữ liệu, bước tiếp
theo là phân tích cú pháp để xác định nội dung của webpage.
Phân tích cú pháp (Parsing): Cho phép Google loại bỏ các từ phổ biến (và,
thì, mà, là,…), loại bỏ các khoảng trống, con số để kết hợp các từ thành cụm từ

có ý nghĩa.
Sau khi một webpage qua bước Parsing, nó sẽ được đánh dấu và cho vào
một nơi riêng được mã hóa theo một định danh. Nó được phân loại theo nhiều
cách khác nhau (khu vực, ngôn ngữ, chủ đề,…) để nhanh chóng truy xuất kết quả
khi có truy vấn tìm kiếm đến nó (từ khóa), thông thường thời gian dưới 1s.
3.3. Xếp hạng
Sau khi website đã được lập chỉ mục và lưu trữ trong trung tâm dữ liệu
của Google. Nó sẽ được đánh giá và xếp hạng để hiển thị ở trang kết quả tìm
kiếm thông qua thuật toán của Google.
4. Các thuật toán xếp hạng
4.1. Các nhân tố ảnh hưởng
4.1.1. Nhân tố OnPage
Bảng dưới đây là các nhân tố cơ bản và có ảnh hưởng cao nhất tới thuật
toán xếp hạng của bộ máy tìm kiếm, được đánh giá theo thang điểm 5.
Nhân tố cơ bản Điểm
Title Tags 4.9/5
Mật độ & tần suất của từ khóa 3.7/5
Heading 1 3.1/5
Heading 2 2.8/5
Từ khóa trong URL 2.8/5
Từ khóa trong Meta Description 2/5
CH1001084 – Võ Sơn Trí 18
Bảng 15.1. Các nhân tố OnPage
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
Các nhân tố OnPage được ứng dụng để hỗ trợ trong quá trình phân tích cú
pháp. Các từ khóa được làm nổi bật, có tần suất, mật độ xuất hiện cao sẽ được
Google dễ dàng nhận biết để sắp xếp và phân loại website.
4.1.2. Nhân tố OffPage
Cũng được đánh giá theo thang điểm 5, gồm các nhân tố cơ bản được mô
tả trong bảng sau.

Nhân tố cơ bản Điểm
Backlink từ trang có xếp hạng cao 4/5
Mức độ phổ biến liên kết trong trang (Internal Link) 4/5
Mức độ quan trọng của trang 3.5/5
Tốc độ xây dựng liên kết (Link velocity) 3.5/5
Các nhân tố OffPage liên quan nhiều đến việc xếp hạng website. Các
Internal Link, Link velocity giúp Google tìm ra những trang đích có chất lượng
và được đánh giá cao.
4.2. Thuật toán PageRank
PageRank được phát triển tại đại học Stanford bởi Lary Page và Sergey
Brin như một phần dự án của công cụ tìm kiếm mới. Và được cấp bằng sáng chế
ngày 4 tháng 9 năm 2001. Đây là một thuật toán dựa trên đồ thị web, có tính
năng xếp hạng trang web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu tiên các
URL trong trang kết quả tìm kiếm.
CH1001084 – Võ Sơn Trí 19
Bảng 16.2. Các nhân tố OffPage
Hình 19.5. Đồ thị duyệt web của thuật toán PageRank
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
Theo Google, PageRank chỉ được đánh giá từ hệ thống liên kết URL.
Website càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng càng tăng. Tuy
nhiên, đây chỉ là những khái niệm sơ đẳng nhất mà Google hiếm khi thông báo
chính thức. Thực tế, thuật toán PageRank phức tạp hơn nhiều, và còn là bí mật.
Để đánh giá và xếp hạng một website A, thuật toán PageRank tính theo
công thức sau:
PR(A) = (1-d) + d * { PR(T1)/C(T1) + … + PR(Tn)/C(Tn) }
Trong đó:
- PR(A) là PageRank của trang A.
- d là hằng số, mặc định là 0.85 và có thể thay đổi.
- PR(Tn) là PR của trang Tn cung cấp cho trang A một backlink.
- C(Tn) : số liên kết ngoài từ trang Tn .

Ví dụ, giả sử ở đây ta có 2 trang:
+ Trang 1 ký hiệu là “T1” có PR = 7 và 2 liên kết ngoài.
+ Trang 2 ký hiệu là “T2” có PR = 4 và 5 liên kết ngoài.
Khi đó Pagerank của trang A được tính như sau:
PR(A)=(1-d) + d * {PR(T1)/C(T1) + PR(T2)/C(T2) }
==> PR(A)= 0.15 + 0.85*(7/2 + 4/5) = 3.80
Bên cạnh, Google cũng cung cấp một công cụ để đánh giá PageRank của
một website, có địa chỉ là o/.
CH1001084 – Võ Sơn Trí 20
Hình 20.6. PageRank xếp hạng
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
4.3. Thuật toán Google Panda
Thuật toán Google Panda là một thuật toán máy học, do kỹ sư Navneet
Panda đề xuất, được dùng để thay thế cho thuật toán PageRank trước đây.
Ngày 24/02/2011, Thuật toán Google Pand được chính thức áp dụng lên
trang tìm kiếm của Google.
Thuật toán Google Panda được phát hành nhằm hạ thấp thứ hạng các trang
web có chất lượng thấp trong trang kết quả tìm kiếm. Các website được Google
cho là mang chất lượng kém là sao chép nội dung, có nhiều backlink rác, lạm
dụng từ khóa, chèn nội dung quảng cáo quá mức.
Sau khi phát hành, thuật toán Google Panda đã ảnh hưởng đến bảng xếp
hạng của gần 12 % của tất cả các kết quả tìm kiếm. Chưa dừng lại ở đó, sau lần
cập nhật tiếp theo vào ngày 11/04/2011 thì con số này tiếp tục tăng thêm 2%. Để
giúp các nhà xuất bản bị ảnh hưởng, Google đưa ra 4 tiêu chí chính trong thuật
toán Google Panda để đánh giá chất lượng của một trang web.
- Thời gian khách truy cập trên website: Nếu người dùng tìm thấy những
nội dung hữu ích và đáp ứng đúng nhu cầu của họ, khả năng họ ở lại trên website
để tìm những thông tin liên quan là rất cao. Do đó các trang web mà người dùng
giành nhiều thời gian để đọc và tìm những bài viết trên website sẽ được Google
đánh giá cao.

- Tỷ lệ Bounce Rate: Thuật toán Google đưa ra là khi một website được
người dùng thường xuyên truy cập sẽ là website có giá trị và không rơi vào bộ
lọc của Google Panda
- Tỷ lệ khách hàng quay trở lại: Google tin rằng chỉ có chất lượng website
mới khiến người dùng quay trở lại website thường xuyên hơn.
- Mạng xã hội: Mục đích của Google Panda là để giúp chọn lọc ra các
website hoạt động thực sự bởi con người chứ không phải máy móc. Do đó những
mạng xã hội là tiêu chí đánh giá khá quan trọng khi tại đây những yếu tố tương
tác rất mạnh chỉ có con người mới có thể làm được như trên Facbook, Twister,…
Ngày 05/11/2012 Google Panda được cập nhật và có khoản 1,1% truy vấn
tiếng Anh tại Mỹ bị ảnh hưởng. Như thường lệ, Google luôn cập nhật Panda
CH1001084 – Võ Sơn Trí 21
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
trước khi công bố, các con số được đưa ra dựa trên tính toán và thông báo chính
thức của Google. Để xác định mức độ ảnh hưởng của Google Panda đối với
website, chúng ta có thể sử dụng công cụ Google Analytics để phân tích và khắc
phục các vấn đề.
4.4. Thuật toán Google Penguin
Ngày 24/04/2012 thuật toán Penguin được Google công bố lần đầu tiên.
Mục tiêu của Google Penguin là đẩy các trang web chất lượng cao hơn xếp ở
trên trong kết quả tìm kiếm. Thuật toán này tập trung xử lý các website rác, đồng
thời loại bỏ những nội dung rác, nội dung sao chép, các trang vi phạm Google’s
Webmaster Guidelines và sử dụng kỹ thuật Black Hat, trong đó 2 kỹ thuật phổ
biến được đề cập là keyword stuffing và Link Schemes.
- Keyword stuffing là thủ thuật bố trí nội dung sao cho lặp đi lặp lại từ
khóa nhằm có lợi hơn trong kết quả xếp hạng từ khóa đó.
- Link Schemes: Là một thuật ngữ bao gồm việc chế tác Pagerank, sao cho
website của mình có thứ hạng cao.
Tuy nhiên, theo Matt Cutt, phụ trách về mảng chất lượng tìm kiếm cho
biết “Không có thuật toán nào là hoàn hảo cả. Khi chúng tôi muốn sự hoàn hảo,

phương pháp thử nghiệm của chúng tôi là “Làm những gì để có kết quả tốt hơn
trước””.
Trọng tâm chính của Penguin là chất lượng các backlinks và cách thức các
website xây dựng các backlinks đó. Penguin nhấn mạnh về uy tín và chất lượng
của website có liên kết đến website của chúng ta hơn là số lượng liên kết mà
website chúng ta có. Phát hiện và xử lý các nguồn backlinks không tự nhiên.
Kết quả tìm kiếm phải luôn mang lại lợi ích cho khách hàng nên dù thế
nào thì nội dung vẫn là quan trọng nhất. Website không mang lại nội dung đúng
với khách hàng yêu cầu thì không thể mong đợi họ sẽ ghé thăm và đọc nội dung
nhiều. Cách tốt nhất là nên tạo nội dung mới mẻ, duy nhất và chất lượng.
Các thuật toán của Google thường xuyên cập nhật để mang lại kết quả phù
hợp nhất cho người dùng.
CH1001084 – Võ Sơn Trí 22
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
Dưới đây là danh sách những phiên bản Google Penguin đã được Google
cập nhật kèm teh những tác động của nó.
- Google Penguin 1: 24/04/2012. Mức độ ảnh hưởng 3,1%.
- Google Penguin 2: 26/05/2012. Mức độ ảnh hưởng 0,1%.
- Google Penguin 3: 05/10/2012. Mức độ ảnh hưởng 0,3%.
Các thuật toán tìm kiếm và xếp hạng website của Google được đưa ra
không bao giờ tiết lộ chính xác những thông tin chi tiết.
5. Tùy biến trong tìm kiếm
5.1. Lệnh tìm kiếm
Khi nhập một từ khóa dù dài hay ngắn và nhấn nút lệnh “tìm kiếm”,
Google sẽ trả về cho người dùng kết quả phù hợp nhất theo thứ tự từ trên xuống
dưới, dù người dùng nhập vào một từ khóa không đúng chính tả.
Bên cạnh, khả năng tùy biến nâng cao sẽ giúp cho người dùng tìm kiếm
chính xác cụm từ, tìm kiếm trong một khoảng thời gian nhất định, trong một
website nhất định hay theo định dạng tập tin, ngôn ngữ, …
Ví dụ, người dùng có thể tìm kiếm cụm từ “Quảng cáo trên Google” chỉ

trên trang quangcaogoogles.com với câu lệnh như sau:
“Quảng cáo trên Google” site:quangcaogoogles.com”
Câu lệnh này sẽ trả về cho người dùng theo thứ tự từ trên xuống dưới các trang
phù hợp nhất với cụm từ tìm kiếm trên website .
5.2. Từ khóa liên quan
Công cụ tìm kiếm Google không chỉ dựa trên từ khóa người dùng yêu cầu,
mà còn có thể tự động mở rộng phạm vi tìm kiếm đối với các từ đồng nghĩa, từ
gần nghĩa, hoặc khi người dùng gõ sai chính tả.
Ví dụ, với các từ khóa “IBM laptop” hoặc “laptop IBM” đều có thể trả về
cho người dùng 10 kết quả giống hệt nhau, do 2 từ khóa này là đồng nghĩa.
Khả năng mở rộng phạm vi tìm kiếm chính là yếu tố làm cho Google trở
nên “thông minh” và thân thiện hơn với người dùng.
CH1001084 – Võ Sơn Trí 23
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
5.3. Xem trang đầu tiên
Google cung cấp cho người dùng nút tìm kiếm “Xem Trang Đầu Tiên Tìm
Được” (I’m Feeling Lucky) nhằm giúp cho người dùng không phải xem các kết
quả liệt kê mà vào thẳng kết quả đầu tiên trong kết quả của Google.
Một nghiên cứu cho biết, tính năng này tiêu tốn của Google khoảng 110
triệu USD mỗi năm, do 1% số người dùng tính năng này không tiếp cận được các
quảng cáo của Google.
5.4. Cú pháp tìm kiếm nâng cao
Bằng việc sử dụng các cú pháp đơn giản, Google sẽ giúp người dùng có
thể tùy biến việc tìm kiếm một cách hiệu quả nhất, như sau:
Cú pháp Diễn giải Ví dụ
Or A hoặc B
Thời trang nam OR nữ: Tìm kiếm thời trang nam
hoặc thời trang nữ.
- Lệnh loại trừ
quảng cáo –online: Tìm kiếm các website liên

quan tới “quảng cáo” nhưng không chứa từ khóa
“online”
+ Lệnh bổ sung
“quảng cáo +online”: Kết quả trả về với các từ
khóa “quảng cáo” phải có chứa từ khóa “online”.
*
Phù hợp một
trong các từ khóa
“quảng * cáo”: Tìm bất kỳ kết quả nào phù hợp
với một trong các từ khóa đã gõ.
Define Định nghĩa
Define: soon: Định nghĩa từ “soon” trong tiếng
Anh.
Site
Trong một
website cụ thể
“quảng cáo trực tuyến” site:quangcaogoogles.com:
Chỉ tìm trong .
Allintitle Theo tiêu đề
allintitle: "quảng cáo": Tìm từ khóa “quảng cáo”
trong các tiêu đề.
Intitle
Ít nhất một phần
trong tiêu đề
"quảng cáo trực tuyến
intitle:quangcaogoogles.com": Trả về các kết quả
với từ “quảng cáo” trong tiêu đề và từ “trực tuyến”
trong nội dung.
Allinurl Tìm từ khóa trong
URL các trang

“allinurl/quảng cáo” Tìm từ “quảng cáo” trong các
URL các trang web.
CH1001084 – Võ Sơn Trí 24
Chuyên đề Công Nghệ Tri Thức GS.TSKH. Hoàng Văn Kiếm
web
Inurl
Tìm một phần từ
khóa trong URL.
“inurl:quảng cáo”: Tìm một phần từ khóa “quảng
cáo” có trong URL.
Cache
Hiển thị dữ liệu
lưu trữ website
trong thời gian
ghé thăm gần nhất
cache "vnexpress.net": Trả về các dữ liệu ghé
thăm gần đây của vnexpress.net
Link
Hiển thị các
đường link tới
website
link: vnexpress.net: Hiển thị các đường liên kết tới
Vnexpress.net.
Related
Hiển thị các
website liên quan
tới website đang
tìm kiếm
related: vnexpress.net: Hiển thị các website liên
quan tới website Vnexpress.net

Info
Hiển thị một số
thông tin cơ bản
về website muốn
tìm hiểu.
info: "vnexpress.net": Hiển thị một số thông cơ
bản của “vnexpress.net”.
“”
Tìm chính xác từ
khóa trong “”.
"quảng cáo": Tìm các trang chứa từ khóa “quảng
cáo”
6. Các tính năng tìm kiếm của Google
6.1. Tìm kiếm tức thời – Google Instant
6.1.1. Giới thiệu về Google Instan
Ngày 08/09/2010 Google công bố sản phẩm mới trong bộ máy tìm kiếm
của mình, có tên là Google Instant. Một tính năng mới cho phép từ khóa tìm
kiếm xuất hiện ngay lập tức trong khi người dùng đang gõ câu truy vấn.
Theo thông tin chính thức từ blog của Google thì: “Google Instant là tìm
kiếm trước khi người dùng gõ chữ. Google Instant sẽ phân tích các chữ mà người
dùng gõ và dự đoán các chữ tiếp theo là một loạt kết quả theo dự đoán ngay khi
người dùng gõ chữ, nó rất nhanh và thông minh trong việc dự đoán”
CH1001084 – Võ Sơn Trí 25

×