Hướng dẫn cài đặt Robots.txt chuẩn nhất dành cho Blogspot

Hướng dẫn cài đặt Robots.txt chuẩn nhất dành cho Blogspot

Robots.txt là gì?

Robots.txt là một dạng file text chứa các câu lệnh giúp điều hướng bots tìm kiếm của các công cụ tìm kiếm, hướng dẫn chúng được và không được phép index những nội dung nào trên website.

Vì sao bạn nên sử dụng robots.txt?

Một trang web, blog sinh ra rất nhiều trang đích, tuy nhiên, có khá nhiều trang đích không cần thiết phải xuất hiện trên các công cụ tìm kiếm. Chẳng hạn với Blogspot, mục archive (Lưu trữ) là gần như không cần thiết phải xuất hiện trên Google, vì chẳng ai tìm cả.

Ngoài ra, Blogspot sinh ra khá nhiều link khác nhau, như cùng 1 label Blogspot, chúng ta có các đường link trông như sau:

/label/Blogspot
/label/Blogspot?max-results=20

Những đường link này cùng 1 trang đích như lại được index 2 lần, tức sẽ bị lỗi trùng lặp thẻ tiêu đề và mô tả (Cùng 1 tiêu đề và mô tả những có nhiều trang đích khác nhau). Trong khi thẻ canonical thì không thể giải quyết được lỗi này. Chính vì vậy, chỉ có chặn index những đường link không cần thiết thì mới giải quyết được vấn đề.

Lúc này, robots.txt là công cụ hiệu quả để giúp bạn lọc đi những nội dung không cần thiết phải được Google index như đã nói ở trên.

Hướng dẫn cách trỏ tên miền riêng về Blogspot

Đọc thêm:

Cấu trúc robots.txt chuẩn nhất cho Blogspot

Cấu trúc chuẩn nhất cho robots.txt ở bài viết này của được thiết kế để loại bỏ hầu hết những nội dung không cần thiết phải index trên Google của Blogspot như: các trang 2,3,4…; mục lưu trữ; mục tìm kiếm. Cũng như khai báo sitemap để Google index blog nhanh hơn.

Hướng dẫn cài đặt Robots.txt chuẩn nhất dành cho Blogspot
Cấu trúc robots.txt chuẩn như sau:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /
Disallow: *max-results=*
Disallow: *archive.html
Disallow: *?m=0
Sitemap:

https://www.hocblogspot.com/

feeds/posts/default?orderby=UPDATED
Sitemap:

https://www.hocblogspot.com/

atom.xml?redirect=false&start-index=1&max-results=500

Ở đây, Học Blogspot sẽ giải thích cho các bạn từng dòng cần thiết:

  • Allow: / – Tức là cho phép bots có thể index nội dung trên trang web.
  • Disallow: *max-results=* – Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
  • Disallow: *archive.html  – Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
  • Disallow: *?m=0 – Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
  • 2 mục sitemap – Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner. Vì vậy, để sử dụng được nó, các bạn nhớ tham khảo bài viết tạo RSS/Feedburner này nhé. Nhớ thay đường dẫn lại cho đúng blog của bạn nhé.

Hướng dẫn thêm robots.txt vào Blogspot

Blogspot có sẵn vị trí để bạn chèn robots.txt, chỉ cần thêm đoạn robots.txt chuẩn ở trên theo hướng dẫn này vào là OK.

– Truy cập trang quản trị Blogspot ở địa chỉ: 

– Tiếp tục vào Cài đặt, vào Tùy chọn tìm kiếm và thêm đoạn text robots.txt trên vào mục Robots.txt:
Sau đó lưu lại.

Bạn có thể kiểm tra xem file robots.txt đã hoạt động hay chưa bằng cách kiểm tra ở đây:

Như vậy là bài viết đã cho các bạn biết robots.txt là gì, một file

Robots.txt luôn là một phần quan trọng của website kể cả đối với Blogspot, nó là một trong những điểm đến đầu tiên của bots tìm kiếm khi bước vào trang web của bạn. Đồng thời, nó đánh dấu vai trò quan trọng của mình trong việc index website lên các công cụ tìm kiếm. Vì vậy, hãy cùng Học Blogspot tìm hiểu qua robots.txt là gì và cấu hình robots.txt chuẩn nhất cho Blogspot nhé.Một trang web, blog sinh ra rất nhiều trang đích, tuy nhiên, có khá nhiều trang đích không cần thiết phải xuất hiện trên các công cụ tìm kiếm. Chẳng hạn với Blogspot, mục archive (Lưu trữ) là gần như không cần thiết phải xuất hiện trên Google, vì chẳng ai tìm cả.Ngoài ra, Blogspot sinh ra khá nhiều link khác nhau, như cùng 1 label Blogspot, chúng ta có các đường link trông như sau:Những đường link này cùng 1 trang đích như lại được index 2 lần, tức sẽ bị lỗi trùng lặp thẻ tiêu đề và mô tả (Cùng 1 tiêu đề và mô tả những có nhiều trang đích khác nhau). Trong khi thẻ canonical thì không thể giải quyết được lỗi này. Chính vì vậy, chỉ có chặn index những đường link không cần thiết thì mới giải quyết được vấn đề.Lúc này, robots.txt là công cụ hiệu quả để giúp bạn lọc đi những nội dung không cần thiết phải được Google index như đã nói ở trên.Cấu trúc chuẩn nhất cho robots.txt ở bài viết này củađược thiết kế để loại bỏ hầu hết những nội dung không cần thiết phải index trên Google của Blogspot như: các trang 2,3,4…; mục lưu trữ; mục tìm kiếm. Cũng như khai báo sitemap để Google index blog nhanh hơn.Cấu trúc robots.txt chuẩn như sau:Ở đây, Học Blogspot sẽ giải thích cho các bạn từng dòng cần thiết:Blogspot có sẵn vị trí để bạn chèn robots.txt, chỉ cần thêm đoạn robots.txt chuẩn ở trên theo hướng dẫn này vào là OK.- Truy cập trang quản trị Blogspot ở địa chỉ: https://www.blogger.com – Tiếp tục vào, vàovà thêm đoạn text robots.txt trên vào mụcSau đó lưu lại.Bạn có thể kiểm tra xem file robots.txt đã hoạt động hay chưa bằng cách kiểm tra ở đây: https://www.hocblogspot.com/robots.txt Như vậy là bài viết đã cho các bạn biết robots.txt là gì, một file robots.txt chuẩn cho Blogspot ra sao và làm thế nào để thêm robots.txt vào Blogspot. Hy vọng các bạn sẽ không gặp khó khăn khi thực hiện. Có vấn đề gì thì bình luận bên dưới nhé.