Tại hội thảo Search Marketing Expo(SMX East 2014), chuyên gia phân tích xu hướng đến từ Google Gary Illyes đã chia sẻ với khán giả tại khán phòng 2 cách mà Google dùng để xác định khi nào họ sẽ thu thập website của bạn với tần suất chậm hơn hoặc ngừng thu thập dữ liệu từ website bạn.

Một trong những yếu tố quan trọng trong quá trình thu thập dữ liệu đó là phải đảm bảo các bọ tìm kiếm (spider) có thể truy cập vào website của bạn. Nếu chúng không thể truy cập vào website của bạn, dĩ nhiên chúng sẽ không thể thu thập dữ liệu và bạn sẽ rất khó khăn để có thể có ranking trên SERP.

Từ những hiểu biết về Google và thông tin được cung cấp từ họ chúng ta biết rằng Google sử dụng nhiều tín hiệu khác nhau để xác định khi nào thì nó ngừng thu thập dữ liệu từ trang web của bạn. Có một số tín hiệu mà chúng ta có thể nhận thấy dễ dàng như công cụ disavow tool, robots.txt và thẻ nofollow.



Tuy nhiên, đó chỉ là bề nổi mà chúng ta được biết trước đây. Gary Illyes cho biết có 2 tín hiệu sau đây là 2 tín hiệu quan trọng mà Google sử dụng cho quá trình thu thập dữ liệu.

1. Connect Time

Google sẽ nhìn vào lượng thời gian dùng để kết nối với server của bạn và trang web của bạn. Nếu thời gian kết nối nhận được là lâu, thậm chí rất lâu, Google sẽ quay trở lại lần sau với tần suất chậm hơn và thậm chí là không quay lại lần nữa. Google không muốn làm chậm thêm thời gian kết nối máy chủ của bạn, do đó nó sử dụng thời gian kết nối như một đánh giá cho quá trình thu thập.

2. HTTP Status Codes

Google cũng ngăn chặn hoặc làm chậm các bọ tìm kiếm quay lại trang web của bạn nếu nó nhận được mã phản hồi của máy chủ trong khoảng 5xx. Các mã phản hồi từ 5xx thường có ý nghĩa là có vấn đề với máy chủ đáp ứng (xem thêm). Danh sách toàn bộ các mã phản hồi từ 5xx trở lên bạn có thể tìm thấy trên Wikipedia.

Cũng theo Google cho biết, khi nhìn thấy các mã số này, các bọ tìm kiếm sẽ lùi lại để không gây khó khăn hơn cho máy chủ của bạn.


Trong cả 2 trường hợp, các bọ tìm kiếm sẽ quay lại sau đó.Nhưng nó sẽ lùi lại khi nó thấy 2 tín hiệu này đang gây ra những vấn đề để không gây ra những vấn đề lớn hơn cho người dùng truy cập của bạn khi nó cố gắng truy cập vào trang web của bạn.

Giờ thì bạn hiểu hơn về cơ chế làm việc của các spider của Google rồi nhé :hehe: