Việc quản lý file robots.txt sao cho hiệu quả vẫn luôn là tâm điểm trong suốt thời gian qua và cho đến nửa cuối năm nay, nó vẫn chưa có dấu hiệu lắng xuống. Khoảng thời gian ngắn trước đó, Google đã cho nâng cấp mảng Blocked URLs với công cụ kiểm tra robots.txt thế hệ mới, giúp thu thập và sửa chữa các lỗi và những cảnh báo trong file robots.txt của bạn. Đối với một chuyên gia SEO dày dặn kinh nghiệm, họ coi file robots.txt là một thành tố tuy giản đơn, nhưng lại đóng vai trò nền tảng trong SEO. Với những ai ít hiểu biết về khía cạnh này thì những lỗi căn bản trong file robots.txt có thể gây ra việc ngăn chặn công cụ tìm kiếm thu thập thông tin bên trong trang web của bạn.



Robots.txt và tầm quan trọng của nó

Bạn có thể hiểu file Robots.txt này là một nguồn lực giúp cho các công cụ tìm kiếm có thể hiểu được các trang hay các thành phần trong một website, cũng như phân biệt được đâu là loại trang mà chúng không cần tốn thời gian để quét thông tin.

Nếu quản lý sai cách, nó có thể gây nguy hiểm cho thứ hạng tìm kiếm, nhưng ngược lại, một khi file robots.txt này được kiểm soát chặt chẽ thì nó có thể đem lại lợi ích, giúp bạn thông báo cho Google biết những nội dung tìm kiếm không quan trọng mà bạn có trong trang web, hay các nội dung trùng lặp và nội dung bạn không muốn công cụ tìm kiếm thu thập.

Nhưng hãy cẩn trọng…

Trong khi đây là một công cụ hữu ích cho các webmaster, thì bạn cũng cần phải hiểu làm thể nào để sử dụng và kiểm tra file robots.txt. Dưới đây là 3 dạng chỉ thị của file robots.txt:

1. Cấp độ trang (page level)
Disallow: /examplepage.html

2. Cấp độ thư mục (Folder Level)
Disallow: /example-folder/

3. Chỉ thị ký tự đại diện (Wildcard Directive)
Bất cứ trang con nào của một thư mục (Disallow: /example- folder/*)

Dạng file (Disallow: /*.pdf)

Những lỗi phổ biến

Dưới đây là những lỗi phổ biến của robots.txt mà bạn nên tránh:

Disallow: /
Disallow: / điều này có nghĩa là Google bots sẽ không truy cập vào phần này khi vào website của chúng ta.
Disallow: /images/

Disallow: /videos/
Ngăn chặn các thư mục trong một website có chứa nội dung có thể index như hình ảnh, videos. Điều này có thể giảm ấn tượng của Google đối với trang web của bạn trên Google Search Queries.

Disallow: /*.css

Disallow: /*.js

Ngăn chặn các công cụ tìm kiếm truy cập vào nơi chứa dữ liệu file CSS và Javascript của bạn.
Disallow: /*.pdf

Disallow: /*.doc

Ngăn chặn định dạng trang bởi nó không phải là trang HTML. Điều này có thể gây trở ngại cho thứ hạng của bạn vì chúng là yếu tố giúp bạn tăng vị trí trên bảng xếp hạng và là cách kiếm thêm lượng truy cập từ công cụ tìm kiếm.

Quản lý file Robots.txt

Google đã nỗ lực thành công trong việc giúp bạn quản lý tốt file robots.txt. Nhưng hãy để ý đến một công cụ tìm kiếm khác, đó là Bing.

Thông tin thu thập của Bing’s Webmaster Tools cho thấy robots.txt hiển thị cả nội dung. Thật là tuyệt vời khi bạn có thể nhìn thấy những trang bị khuất tầm nhìn công cụ tìm kiếm và cả những liên kết tin cậy chưa được công cụ tìm kiếm công nhận. Hãy nhìn ví dụ bên dưới, nó chỉ ra trang đầu tiên bị loại bỏ có 295 inbound links trỏ vào.



Bên cạnh Bing’s Webmaster Tools, bạn cũng có thể xem xét toàn bộ thông tin với SEMrush Beta Site Audit, nó chỉ ra những URL đã bị loại trừ qua robots.txt.



Thêm vào đó, nếu bạn muốn quan sát những dữ liệu tương tự, thì cũng có những công cụ khác mà bạn có thể sử dụng. Trong khi SEMrush giúp bạn nhìn vào các yếu tố SEO trong trang và độ mạnh cạnh tranh, thì Steliner lại cho phép bạn tổng hợp thông tin về robots.txt exclusion trong khi nó đào sâu vào các vấn đề trùng lặp trong nội dung trên trang web. Hơn nữa, ngoài việc chỉ ra số lượng liên kết inbound links mà mỗi trang có được, nó còn cung cấp “page power” để đo khối lượng và trang được liên kết với các trang khác.



Cuối cùng, Google Webmaster Tools cũng cung cấp các công cụ kiểm tra Robots.txt Tester. Các công cụ khác sẽ giúp bạn hiểu những gì bạn đang có, nhưng Google sẽ giúp bạn thấy cả những lỗi có trong file robots.txt. Google cũng cung cấp những chỉ thị trực tiếp đến nơi đang có lỗi để rút ngắn thời gian của bạn.



Cuối cùng

Robots.txt nếu được sử dụng đúng cách có thể hỗ trợ bạn một cách đắc lực trong việc nâng cao thứ hạng trên công cụ tìm kiếm với các trang web thu thập dữ liệu. Điều này không có nghĩa là nó sẽ ngay lập tức loại bỏ nội dung từ các công cụ tìm kiếm như các thẻ meta noindex, chính vì thế mà bạn cần phải thay đổi những file robots.txt đồng thời quản lý nó chặt chẽ, vì cứ mỗi một trang không được index thì thứ hạng của bạn cũng sẽ bị giảm đi.


Hy vọng bài viết này đã giúp bạn định hướng được những chiến lược trong việc quản lý file robots.txt. Hơn hết, tôi cũng hy vọng cho đến thời điểm này thì bạn cũng có thể thấy việc điều chỉnh những lỗi robots.txt ra khỏi nội dung được Google bots thu thập nó dễ dàng hơn như thế nào.