File Robots.txt – Cách tạo và sử dụng trong SEO

Robots.txt là một tập tin nằm trong thư mục gốc của website và nó có chức năng hướng dẫn các spider thu thập dữ liệu trên website. File robots.txt sẽ liệt kê tất cả các mục mà spider có thể vào thu thập dữ liệu cũng như những mục bị cấm. Đây là file đầu tiên các spider sẽ đọc khi vào website của bạn.

File Robots.txt

Việc tạo file này cũng rất đơn giản, bạn chỉ cần sử dụng notepad tạo một file với tên robots.txt. Nội dung của file này sẽ phụ thuộc vào việc bạn muốn cho phép hoặc cấm mục nào trên website của bạn cũng như loại bot nào được phép vào thu thập. Cuối cùng, bạn chỉ cần upload file này lên thư mục gốc của website là có thể bắt đầu sử dụng nó.

Lệnh cơ bản của file robots.txt

Trong một file robots..txt thông thường sẽ sử dụng các lệnh cơ bản như sau:

  • User-agent: Liệt kê tên bot bị áp dụng.
  • Allow: Cho phép thu thập dữ liệu.
  • Disallow: Cấm thu thập dữ liệu.
  • Sitemap: Đường dẫn sơ đồ của trang web của bạn.

Ngoài ra, trong file robots.txt, bạn cũng có thể sử dụng dấu sao (*) cho một chuỗi phía sau. Điều này cũng có nghĩa là áp dụng cho tất cả những đường dẫn có cấu trúc tương tự. Với mỗi một Search Engine, bot thu thập một loại dữ liệu cụ thể nào đó sẽ có một cái tên nên khi khai báo trong mục User-agent, bạn cần khai báo cụ thể tên sẽ được áp dụng lệnh cấm hay cho phép.

Cách dùng file robots.txt trong một số trường hợp

Với mỗi trường hợp sẽ có cách dùng khác nhau. Nó sẽ phụ thuộc vào nhu cầu thực tế ở trường hợp đó, chúng ta sẽ đưa ra một số ví dụ điển hình như thế ở đây.

File robots.txt khi đang xây dựng website

Đang xây dựng có nghĩa là website của bạn sẽ có rất nhiều thay đổi đến khi hoàn thiện. Việc các spider vào thu thập dữ liệu trên website của bạn có thể vô tình tạo ra “rác” cho giai đoạn sau. Chính vì vậy, hầu hết các webmaster sẽ chọn cách cấm tất cả bot và không cho chúng vào thu thập dữ liệu đến khi website được hoàn thiện.

Để làm điều này, họ sẽ sử dụng một file robots.txt với nội dung sau:

User-agent: *
Disallow: /

Trên website có nội dung nhạy cảm và không muốn được index

Trên website của bạn có một số thông tin mang tính chất riêng tư và không muốn chúng công khai nhưng cũng có những thông tin bạn muốn công khai ra ngoài. Ví dụ như đường link của các tài liệu trực tuyến mà bạn bán, link các video không muốn đối thủ biết, …

Giả định rằng tất cả nội dung nhạy cảm nằm trong một thư mục là private. Khi đó, bạn có thể sử dụng file robots.txt có cấu trúc như sau:

User-agent: *
Disallow: /private

Chặn các trang kém chất lượng trên trang

Chắc hẳn trong quá trình làm SEO của mình, ai cũng từng đã bị đối thủ chơi xấu trên website của mình. Mục tiêu thường được nhắm đến nhiều nhất là trang tìm kiếm của trang vì ai cũng được phép sử dụng nó.

Để hạn chế việc này, bạn có thể sử dụng file robots có nội dung sau:

User-agent: *
Disallow: /?s=

Với 2 dòng lệnh này, đối thủ của bạn dù có chơi xấu bạn bằng từ khóa nào trên trang tìm kiếm thì bạn cũng hoàn toàn có thể bỏ qua và cho họ chơi 1 mình ở đó.

Cấu trúc chuẩn file robots.txt

Cấu trúc chuẩn của file này sẽ tùy thuộc vào từng nền tảng cũng như cấu trúc thư mục của website. Vậy nên, ở đây chúng ta sẽ chọn WordPress để đưa ra một cấu trúc chuẩn và nhiều người sử dụng nhất.

Với WordPress, ta có file robots.txt như sau:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://duchuyblog.com/sitemap_index.xml

Đây chỉ là file thông dụng, bạn có thể sửa lại để phù hợp với nhu cầu của bạn nhé.

File robots.txt cũng không có nhiều vấn đề để chúng ta bàn luận cho lắm. Tuy nhiên, nếu có bất kỳ câu hỏi nào, bạn cũng có thể comment bên dưới để chúng ta cùng thảo luận nhé.

Bài cùng chuyên mục
Bình luận bài viết
Loading...