Kết quả 1 đến 1 của 1
-
10-17-2013, 08:33 AM #1
Junior Member
- Ngày tham gia
- Aug 2015
- Bài viết
- 0
Tối ưu hóa Onpage hay SEO với Server Log File - Phần 2
Ở phần trước, tôi đã trình bày với bạn một vài yếu tố và lý do tại sao các tệp tin log trên máy chủ lại là một yếu tố quan trọng trong quá trình SEO cũng như giúp bạn phân tích một số khía cạnh SEO từ file log này. Trong bài này, chúng ta sẽ tiếp tục đi sâu phân tích dữ liệu từ log hơn nữa để tìm kiếm cơ hội tối ưu hóa hơn nữa GoogleBot.
Trước khi chúng ta đào sâu vào tìm hiểu file log, một việc quan trọng là bạn phải hiểu được cách các spider thu thập dữ liệu trên trang web của bạn. Sẽ có 3 yếu tố được Google xem xét ở đây:
- Đầu tiên là các trang nào cần được thu thập. Điều này được xác định bởi các yếu tố như số lượng backlink trỏ đến một trang, các cấu trúc nội bộ của trang, số lượng và sức mạnh của các liên kết nội bộ trỏ đến trang đó, các dấu hiệu nội bộ khác như sitemap...
- Tiếp theo, Google sẽ xem xét có bao nhiêu trang cần thu thập dữ liệu. Yếu tố này thường được gọi là crawl budget. Các yếu tố nhiều khả năng được xem xét khi phân bổ crawl budget là domain authority, độ tin cậy, performance, thời gian tải trang và đường dẫn tương đối rõ ràng(vì Google thường mắc kẹt trong một vòng lặp vô tận khi crawl dữ liệu). Để biết thêm về crawl budget, bạn có thể tìm đọc bài của Ian Lurie.
- Cuối cùng là lần suất thu thập dữ liệu - được xác định bởi mức độ cập nhật thường xuyên của trang web, domain authority, các trích dẫn, sự đề cập trên mạng xã hội và các liên kết.
Bây giờ, chúng ta hãy xem Google Bot crawl Moz.com như thế nào(chú ý: dữ liệu tôi phân tích ở đây là dữ liệu từ SEOMoz.COM - khi chúng tôi chưa chuyển đổi sang Moz.COM. Một số vấn đề tôi chỉ ra dưới đây đang được giải quyết). Bước đầu tiên là nhận được một file log có thể đọc và hiểu được. Tôi đã giải thích về việc lấy file log như thế nào, sử dụng phần mềm phân tích log ra sao ở phần trước đây, bạn có thể đọc lại nếu cần thiết.
Khác với lần phân tích trước, lần này chúng ta đã nắm được các URL cần thiết, nên bạn có thể bỏ đi các tham số biến trên URL.
Việc đầu tiên mà chúng ta cần xem xét đó là những trang nào Google Bot dành phần lớn thời gian để phân tích và xác định tài nguyên chính. Bây giờ hãy xuất bản tập tin log của chúng ta dưới dạng file CSV. Bạn sẽ cần một chút định dạng để làm sạch dữ liệu thô.
1. Lưu dữ liệu lại dưới định dạng Excel. Ví dụ vnwebmaster_com.xlsx
2. Xóa tất cả các cột trừ cột Page/File, Response Code và User Agent. Bạn sẽ nhận được dữ liệu kiểu thế này.
3. Cô lập các spider của Google Bot bằng cách tạo một cột mới và viết một công thức để tìm các GoogleBot từ cột thứ 3.
4. Định dạng dữ liệu cột Page/File để thuận tiện khi tạo Pivot table. Bạn cần loại bỏ những thông tin không cần thiết như domain chẳng hạn để lấy về thư mục cao nhất.
5. Sau khi định dạng lại cột Page/File chúng ta cần kiểm tra các tham số trên URL để kiểm tra đường dẫn thu thập dữ liệu. Các tham số trên đường dẫn luôn bắt đầu với "?", đó cũng chính là những gì chúng ta sẽ tìm kiếm trên Excel. Tuy nhiên, kỹ tự "?" trong Excel được hiểu như một ký tự đại diện. Để Excel hiểu "?" là chữ, chúng ta thêm "~" vào phía trước "?".
6. Dữ liệu bây giờ có thể được đưa vào phân tích trong một Pivot Table. Con số liên quan đến thư mục là tổng số lần Google yêu cầu một tệp tin trong một khoản thời gian nào đó. Trong trường hợp này của chúng ta là 1 ngày.
Liệu Google phân bố tần suất thu thập dữ liệu như vậy đã chính xác hay chưa ? Chúng ta sẽ đi sâu vào phân tích để làm rõ các phần dữ liệu khác nhau:
- Hơn 70% crawl budget tập trung vào ba phần chính, trong đó 50% đi theo hướng /qa/ và /users/. Moz sẽ phải nhìn vào số liệu tìm kiếm tự nhiên trong Google Analytics để xem xét vấn đề này. Nếu số liệu tìm kiếm tự nhiên tập trung ở các phần này không tương ứng, Moz cần cải tiến và tối ưu hóa lại trang cho tương thích.
- Một điểm đáng chú ý trong các số liệu này đó là /page-strength/. Một URL dùng để gửi các số liệu cho các công cụ trong Moz đang được thu thập dữ liệu gần 1.000 lần/ngày. Nhưng spider có thể được kích hoạt từ các liên kết ngoài trỏ đến kết quả của công cụ Moz. Đề nghị loại trừ thư mục này trong robots.txt.
- Ở một hướng khác, cần hiểu rõ những thư mục ít được quan tâm thu thập dữ liệu, chúng nằm quá sâu so với khả năng thu thập của spider ? Hãy xem xét:
- Trong ví dụ này, thư mục /webinars hầu như không nhận được một sự chú ý nào của Googlebot. Trong thực tế, hầu như chỉ có những thư mục trên được thu thập, các thư mục hoặc dữ liệu bên trong của thư mục /webinars rất ít khi được thu thập dữ liệu hoặc bị bỏ qua.
Đây chủ là một vài thứ mà bạn có thể tìm thấy từ file log của server. Một vài thứ khác bạn cũng có thể tìm thấy từ nhật ký này như:
- Các spider có bị loại khỏi trang bởi robots.txt hay không ?
- Các spider cần bị loai có bị chặn bởi robots.txt hay không?
- Phần nào tiêu thụ quá nhiều băng thông ? Tỉ lệ số trang được thu thập so với số lượng băng thông cần thiết cho chúng là bao nhiêu ?
- ...
Trong bài viết tiếp theo,tôi có thể sẽ chia sẻ thêm về cách tìm kiếm và phân tích duplicated content trên trang bằng log, phân tích và xác định xu hướng theo thời gian... Nhưng trước tiên hãy cho tôi biết ý kiến và những thực nghiệm của bạn về vấn đề trong bài viết này đã.
Tác giả: Tim Resnik
Nguồn: SEOMOz
Ghi rõ nguồn và đặt liên kết về bài viết gốc tại www.vnwebmaster.com khi phát hành lại
Các Chủ đề tương tự
-
[Việt hóa] Gilisoft File Lock Pro 10.5 Việt hóa - Khóa, bảo vệ thư mục, tập tin (by ptk911)
Bởi prondass trong diễn đàn System ToolsTrả lời: 0Bài viết cuối: 06-22-2016, 07:39 AM -
Tối ưu hóa Onpage hay SEO với Server Log File
Bởi dunk90 trong diễn đàn Thủ thuật SeoTrả lời: 0Bài viết cuối: 10-17-2013, 08:33 AM -
Cool File Cutter 2.0 - Phần mềm chia các file có dung lượng lớn thành các file nhỏ
Bởi anvybui613 trong diễn đàn Made In VietnamTrả lời: 0Bài viết cuối: 12-10-2010, 06:05 AM -
Tăng tốc độ duyệt web, tải file trong Windows XP/ Vista/ Server với Half-Open Limit Fix 3.1
Bởi viendaotao trong diễn đàn Internet & Network ToolsTrả lời: 9Bài viết cuối: 05-03-2009, 06:43 PM