Dữ liệu phân tích web của bạn đang bị sai lệch bởi bot truy cập trang web của bạn? Nếu đúng là như vậy thì hôm nay tôi sẽ có giải pháp giúp bạn giải quyết được vấn đề này.
Hầu hết SEO đã nghe nói về việc sử dụng Log Files để hiểu hành vi Googlebot nhưng ít người biết được rằng chúng có thể được sử dụng để biết được bots đang thu thập site của bạn. Ngày càng có nhiều bot thực thi Javascript, thổi phồng các phân tích, lấy các nguồn tài nguyên, scrap và sao chép nội dung.Theo báo cáo của Incapsula năm 2014 cho thấy, bot đã chú ý đến 20.000 website (cả web lớn và nhỏ) trong khoảng 90 ngày và nhận thấy là bots chiếm 56% tất cả lưu lượng truy cập trên web; trong đó 29% là nguy hiểm.

Bài viết này được hiểu là một điểm khởi đầu dễ dàng (bằng cách sử dụng excel) để hiểu những điều cơ bản về việc sử dụng Log Files, ngăn chặn bots xấu ở phía máy chủ và làm sạch báo cáo phân tích.

1. Tìm tập tin log

Tất cả các máy chủ giữ lại một danh sách tất cả các yêu cầu đến trang web mà chúng lưu trữ. Cho dù khách hàng đang sử dụng trình duyệt Firefox hay Googlebot đang tìm kiếm các trang mới được tạo ra thì tất cả các hoạt động sẽ được ghi lại trong một tập tin đơn giản.

Vị trí tập tin này phụ thuộc vào loại máy chủ hoặc host mà bạn có. Dưới đây là một vài chi tiết trên các nền tảng phổ biến.

- cPanel: một giao diện chung cho các máy chủ apache (xem dưới đây ) có thể dễ dàng tìm kiếm các tập tin log, bạn có thể click vào nó dễ dàng như việc click vào một liên kết.- Apache: tập tin log thường được tìm thấy trong /var/log và thư mục con; bạn cũng có thể sử dụng lệnh access.log để ghi lại nhật ký máy chủ một cách nhanh chóng.

- IIS: máy chủ của Microsoft có thể được kích hoạt và cấu hình trong Internet Services Manager. Đi đến Control Panel -> Administrative Tools -> Internet Services Manager -> Select website -> Right-click sau đó Properties -> Website tab -> Properties -> General Properties tab.

2. Nhận dạng số lượt xem theo IP và tác nhân người dùng

Khi tập tin được tìm thấy, bạn mở excel (hoặc trình soạn thảo nào đó mà bạn thích ). Với hầu hết các trang web nhỏ và vừa, sử dụng một chiếc máy tính cũng có thể xử lý được vấn đề này.

Bên dưới là một tập tin log được đưa vào một tập tin .txt mới sử dụng một trình soạn thảo văn bản đơn giản, sau đó mở excel sử dụng text-to-columns và “space” delimiter và thực hiện một vài chỉnh sửa trên các tiêu đề cột.Tìm kiếm số lượt xem theo IP

Sau khi hợp nhất và mở các bản ghi trong excel, bạn sẽ dễ dàng tìm thấy số lượng truy cập theo IP.

Để làm điều này:

- Bạn tạo một Pivot Table và xem Client IP và có được các con số.

- Copy và paste, đổi tên tiêu đề cột thành Client IP và Hits, sắp xếp giảm dần, sau đó chèn cột User Agent ở bên phải cột Hits.Tìm User Agents theo địa chỉ IP

Bước cuối cùng, tìm user agents mà có liên quan đến các địa chỉ IP được xem nhiều nhất. Để làm điều này, quay trở lại pivot table và chỉ cần thêm phần Row Label vào Pivot Table.

Bây giờ, việc tìm kiếm User Agent được kết hợp với các địa chỉ IP top đầu đơn giản giống như việc tìm kiếm một văn bản. Trong trường hợp này, không có tác nhân người dùng nào được được khai báo và bạn cũng nhìn thấy số lượt xem trang web nhiều hơn so với các địa chỉ IP khác.3. Ngăn chặn IP từ việc truy cập site và hiển thị trong Analytics

Bây giờ bạn đã xác định được IP độc hại, sử dụng các hướng dẫn để ngăn chặn việc lạm phát số lượng trong Analytics, sau đó bạn chặn IP này để ngăn chặn hoàn toàn việc truy cập site.

Chặn IP trong Analytics

Sử dụng Filter trong Google Analytics, bạn có thể exclude những IP này. Chuyển hướng đến Admin -> Choose View -> Filters -> + New Filter -> Predefined -> Exclude traffic from the IP addresses -> Specify IP (regular expression).Mẹo: Google Analytics tự động ngăn chặn những trình thu thập được nhận biết bởi IAB. Bạn chỉ cần điều hướng đến Admin -> View Settings dưới “Bot Filtering", kiểm tra “Exclude all hits from known bots and spiders". Đây luôn là một thực hành tốt nhất để tạo ra một cái nhìn mới trước khi thay đổi cài đặt cấu hình.

Nếu bạn sử dụng Omniture, có 3 phương pháp để exclude dữ liệu theo IP.

- Exclude theo IP. Exclude hits tối đa từ 50 IP trở lên

- Vista Rule. đối với công ty mà cần nhiều hơn 50

- Processing Rule. Nó có thể tạo ra một quy luật để ngăn chặn việc hiển thị từ những IP cụ thể.

Chặn IP từ cấp server

Tương tự như việc xác định vị trí tập tin log, phương pháp ngăn chặn IP truy cập vào trang web của bạn ở cấp server thay đổi phụ thuộc vào loại máy chủ bạn sử dụng.

- cPanel: sử dụng IP Address Deny Manager, IP có thể bị ngăn chặn và được quản lý trên một quy trình liên tục.- Apache: mod_authz_host được khuyến cáo cho việc này nhưng bạn cũng có thể sử dụng .htaccess.

- IIS: Open IIS Manager -> Features View -> IPv4 Address and Domain Restrictions -> Actions Pane -> Add Deny Entry.

Kết luận

Giải pháp của bên thứ ba để xác định tất cả lưu lượng truy cập thông qua một mạng lưới là xác định bots (xấu và tốt) theo thời gian thực. Họ không chỉ chú ý đến IPs và User Agent Strings mà còn nhìn vào cả HTTP Headers, hành vi điều hướng site và các yếu tố khác. Một vài site sử dụng các phương thức giống như reCAPTCHA để chắc chắn rằng khách truy cập vào site của bạn là con người.

Những phương pháp khác mà bạn đã nghe nói để giúp bạn bảo vệ chống lại "sự nổi dậy của bots xấu" là gì? Hãy cho chúng tôi biết ý kiến của bạn.