Gần đây, tôi muốn biết lần cuối cùng Googlebot đã thu thập dữ liệu trên trang web của tôi là khi nào. Tôi cố gắng tìm hiểu để phân tích tần số Googlebot vào website sau khi viết bài mới và index nó chưa. Tôi cố gắng để thử nghiệm bằng cách liên tục cập nhật bài viết đều đặn. Vì vậy, điều gì sẽ xảy ra nếu tôi vượt qua mức này, là các trang được lập chỉ mục của tôi vẫn ở cùng một tần số hay ngược lại?

Phương pháp phổ biến khi Googlebot thu thập dữ liệu qua tỷ lệ (số lần Bot vào trang web của bạn mỗi ngày):
1. Google webmaster

Công cụ này sẽ giúp chúng ta biết nhiều số liệu thống kê quan trọng giúp chúng ta trong việc tối ưu hóa trang web của chúng tôi như sơ đồ trang web, tỷ lệ thu thập dữ liệu, lỗi thu thập dữ liệu, liên kết nội bộ v.v.

Các ảnh chụp màn hình dưới đây cho chúng ta biết Bot vào website mỗi ngày trong 90 ngày qua.

Công cụ quản trị trang web của Google cung cấp cho không chỉ các thông tin liên quan đến tỷ lệ thu thập dữ liệu, mà còn cho phép chúng ta điều chỉnh tốc độ thu thập dữ liệu. Tôi chưa kiểm tra chức năng này ra, sẽ giữ cho bạn đăng bài viết trong tương lai .

Tình trạng Index sẽ thông báo cho chúng ta biết bao nhiêu trang được lập chỉ mục và bao nhiêu người đang bị chặn bởi robots.txt.

2. Log file

Các bạn có thể tham khảo thêm bài viết về Log File mà anh Nhân đã post trước đây

Nếu trang web của bạn đang chạy trên Cpanel bạn sẽ tìm thấy "Raw access logs" trong phần nhật ký.

Sau khi nhấp vào, nó sẽ được tải về ở định dạng .gz. Mở nó ra và đọc nó như là tập tin văn bản. Các dữ liệu ở đầu tiên sẽ trông giống như một mớ hỗn độn. Bằng 1 số phương pháp lọc, chúng ta sẽ thấy khi nào Googlebot crawl và vào thời gian nào. Bạn cũng có thể xem các visitor khác IP truy cập vào trang web của bạn và biết được trình duyệt mà họ đang sử dụng.




3. AWStats

Các chỉ số trên không thực sự rõ ràng và hơi rối mắt.
Chúng ta sẽ dùng AWStats để phân tích để biết thêm về Googlebot.
Chọn khách Robot / Slider từ menu bên trái.
Điều này sẽ cho bạn biết về tất cả các robot / spider đã vào trang web của bạn với các khung thời gian và băng thông.


Trong cột Hits, các con số như 7894 + 567, vv có nghĩa là nếu Bot đã vào 7894 trang web của bạn và đã thu thập thông tin hoặc đọc tập tin robots.txt của bạn 567 lần.

Theo kinh nghiệm của tôi, tôi tìm thấy dữ liệu thô truy cập Logs để có ích hơn vì nó nói với tôi khi nào Bot vào và trang nào được index và vào thời gian nào.
AWStats rất hữu ích khi chúng ta muốn phân tích dữ liệu cụ thể. Trên dữ liệu mặt khác được cung cấp bởi các quản trị web Google đã không có nhiều hữu ích trong việc xác định tần số. Dĩ nhiên, tôi chưa kiểm tra tần số thiết lập trong quản trị web và các kết quả.

Việc biết khi nào các GoogleBot ( hoặc các bot engine khác) vào website, mục đích là để ta phân tích được tần số crawl của nó, từ đó chúng ta có thể lên kế hoạch viết bài, update bài viết cho hợp lí hoặc cao hơn nữa là làm cách nào dẫn dụ bot lưu lại lâu hơn tại website.

Dịch từ Vibethemes​