Google search hoạt động như thế nào?

Google search hoạt động như thế nào?

Khi tìm kiếm một từ khoá trên Google search, ta thấy kết quả hiện ra mấy nghìn trang cung cấp thông tin, tuy nhiên chắc ít đặt câu hỏi là Google liệt kê nguồn thông tin đó như thế nào. Bài viết này nhằm giải đáp câu hỏi nguyên tắc Google lục tìm thông tin và đưa vào kết quả tìm kiếm khi người dùng search một từ khóa cụ thể là như thế nào? Hiểu được nguyên tắc này là cơ sở quan trọng để tìm hiểu sâu hơn về seo.

Google có 3 phần khác nhau:

  • Googlebot: hay còn gọi là web crawler, chuyên đi tìm và quét các trang webpage
  • The Indexer: có vai trò sắp xếp lại kho thông tin mà Googlebot gửi về, lưu trữ dưới dạng alphabet để thuận lợi cho quá trình xử lý truy vấn của người dùng.
  • The query processor: có vai trò so sánh giữa từ khoá truy vấn với kho index để tìm ra trang thông tin phù hợp nhất với truy vấn.

1. Googlebot (Google’s web crawler) (Bộ quét dữ liệu của Google)

Googlebot có vai trò tìm kiếm các trang webpage trên Internet để chuyển vào kho Index của Google. Chức năng của nó giống như duyệt tìm tài liệu trên computer, khi bạn đưa ra yêu cầu tìm file thì nó sẽ truyền yêu cầu tới hệ thống server để lấy thông tin cần thiết, rồi quét toàn bộ nội dung trang và chuyển tới Indexer

Googlebot bao gồm nhiều computer yêu cầu và quét dữ liệu rất nhanh nhất khi duyệt tìm thông tin. Thực tế, Googlebot có thể truy vấn đồng thời hàng nghìn trang web.

Googlebot tìm thấy thông tin theo hai cách: từ dữ liệu đăng ký url tại www.google.com/addurl.html hoặc trực tiếp quét dữ liệu trên hệ thống data internet.

Khi Googlebot quét một trang webpage thì nó sẽ ghi nhận tất cả các link có trên trang đó, và thêm nó vào khu lưu trữ chờ cho những lần truy quét sau. Nhờ đó, Googlebot rất nhanh chóng thu thập được hết mọi mạng lưới thông tin trên internet –> do đó việc tạo các link nội bộ liên kết giữa các trang webpage là rất quan trọng.

2. Google’s indexer (Kho lưu trữ của Google)

Googlebot cung cấp cho Indexer đầy đủ nội dung văn bản (text) của các trang nó tìm thấy. Kho index của Google lưu trữ dữ liệu theo alphabet theo từng cụm từ khóa, cho phép truy vấn thông tin một cách nhanh chóng và rất khoa học.

3. Google’s Query Processor (Bộ xử lý của Google)

Bộ xử lý gồm nhiều phần, có bao gồm cả thanh tìm kiếm (nhận trực tiếp yêu cầu tìm kiếm của người dùng), nó sẽ đánh giá từ khóa tìm kiếm rồi lục tìm dữ liệu trong kho của Google để cho ra kết quả.

PageRank là một hệ thống của Google chuyên đánh giá thứ hạng trang webpage. Một trang có Pagerank cao (độ uy tín cao) thì sẽ được coi là quan trọng hơn và sẽ được hiển thị cao hơn những trang khác với pagerank thấp hơn –> đó là lý do vì sao nhiều doanh nghiệp cần mua/thuê backlink/textlink để có thể tăng pagerank cho trang webpage của họ.

Google dựa vào hàng 100 tiêu chí để đánh giá pagerank trang webpage và xem trang thông tin nào có độ liên quan nhất tới tìm kiếm, bao gồm cả sự phổ biến của trang webpage, vị trí và độ dày của từ khóa trong trang, sự phân bổ các từ khóa trên trang.

Ngoài ra, Google không chỉ đơn giản là đọc và quét nội dung văn bản trên các trang webpage, mà còn đọc cả code HTML của trang đó, vì vậy cũng cần tối ưu title, link url. body trang, links trỏ tới trang đó…

Tóm tắt quy trình xử lý của Google:

Bạn thấy bài viết này như thế nào?: 
Average: 5 (1 vote)
Ảnh của Khanh Hoang

Khanh Hoang - Kenn

Kenn is a user experience designer and front end developer who enjoys creating beautiful and usable web and mobile experiences.

Bình luận (0)

 

Add Comment

Filtered HTML

  • Các địa chỉ web và email sẽ tự động được chuyển sang dạng liên kết.
  • Các thẻ HTML được chấp nhận: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Tự động ngắt dòng và đoạn văn.

Plain text

  • No HTML tags allowed.
  • Các địa chỉ web và email sẽ tự động được chuyển sang dạng liên kết.
  • Tự động ngắt dòng và đoạn văn.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
"Virus" Rihanna lây lan "chóng mặt" trên Facebook

Virus Rihanna lây lan chóng mặt trên Facebook

Trong những ngày gần đây, nhiều người sử dụng Facebook đã bị sập bẫy "virus" ca sĩ Rihanna thông qua các đường link chia sẻ về cô ca sĩ này trên trang cá nhân.

 

Android là hệ điều hành bị virus tấn công nhiều nhất

Android là hệ điều hành bị virus tấn công nhiều nhất

Hệ điều hành di động của Google, Android, thống trị thị trường và bị tấn công mạnh nhất bởi virus “con ngựa thành Troy” và hàng loạt virus khác.

HP: tablet webOS sẽ trở lại vào năm 2013

HP: tablet webOS sẽ trở lại vào năm 2013

Giám đốc điều hành của HP Meg Whitman cuối cùng cũng chính thức cho công bố số phận của hệ điều hành webOS sau khi công ty công bố ngừng phát triển smartphone và tablet chạy nền tảng webOS trước đó.

Công ty diệt chuột T&C

 

Diet con trung