T

Text Machine

Công cụ văn bản mạnh mẽ, ngay trong trình duyệt của bạn

Tạo Robots.txt

URL trang web (tùy chọn)
Quy tắc

1

User-agent

Chỉ thị

Đường dẫn

URL Sitemap (mỗi dòng một URL)

Độ trễ thu thập (giây)

Cách sử dụng Tạo Robots.txt

  1. 1

    Thêm quy tắc thu thập dữ liệu

    Nhấn Add Rule và đặt User-agent, chọn Allow hoặc Disallow, rồi nhập đường dẫn mà mỗi quy tắc nên áp dụng.

  2. 2

    Thiết lập các chỉ thị tùy chọn

    Thêm các URL sitemap của bạn (mỗi URL một dòng) và một crawl-delay tùy chọn tính bằng giây để kiểm soát cách công cụ tìm kiếm thu thập dữ liệu trang của bạn.

  3. 3

    Tạo tệp

    Nhấn Generate robots.txt để dựng một tệp được định dạng đúng từ các quy tắc và chỉ thị của bạn.

  4. 4

    Sao chép hoặc tải xuống

    Dùng Copy to Clipboard hoặc Download robots.txt, sau đó tải tệp lên thư mục gốc của tên miền (yoursite.com/robots.txt).

Câu hỏi thường gặp

Tệp robots.txt dùng để làm gì?
Tệp robots.txt cho các trình thu thập dữ liệu của công cụ tìm kiếm biết những phần nào của trang web chúng có thể hoặc không thể truy cập. Nó dùng các chỉ thị User-agent, Allow và Disallow và được đặt ở thư mục gốc của tên miền để các bot đọc nó trước khi thu thập dữ liệu.
Các quy tắc Allow và Disallow hoạt động như thế nào?
Disallow chặn các trình thu thập khỏi một đường dẫn, còn Allow cho phép rõ ràng một đường dẫn, hữu ích để mở một thư mục con bên trong một thư mục đã bị chặn. Bạn có thể nhắm đến mọi bot bằng User-agent cho tất cả robot, hoặc viết các quy tắc riêng cho từng trình thu thập cụ thể như Googlebot.
Crawl-delay có tác dụng gì?
Crawl-delay gợi ý số giây mà một trình thu thập nên chờ giữa các yêu cầu, giúp giảm tải máy chủ. Lưu ý rằng không phải mọi công cụ tìm kiếm đều tuân theo nó; ví dụ, Google bỏ qua crawl-delay và ưu tiên cài đặt crawl-rate trong Search Console.
Vì sao nên thêm một dòng sitemap?
Việc đưa vào một chỉ thị Sitemap chỉ cho các trình thu thập đến sơ đồ trang XML của bạn để chúng khám phá các trang hiệu quả hơn. Công cụ cho phép bạn liệt kê nhiều URL sitemap, mỗi URL một dòng, và ghi chúng vào tệp giúp bạn.
Robots.txt có đảm bảo một trang không xuất hiện trên Google không?
Không. Disallow ngăn việc thu thập dữ liệu nhưng một URL bị chặn vẫn có thể được lập chỉ mục nếu các trang khác liên kết đến nó. Để giữ một trang ngoài kết quả tìm kiếm, hãy dùng thẻ meta noindex hoặc header trên một trang có thể được thu thập, thay vì chỉ dựa vào robots.txt.

Công cụ liên quan

Tiếp tục với những công cụ hữu ích này

Công Cụ Tạo Thẻ Meta

Kiểm Tra Chuỗi Chuyển Hướng URL

Open Graph Previewer

Bộ Mã Hóa/Giải Mã Thực Thể HTML

Trình Xem Header HTTP

Trích Xuất URL Từ Sitemap