Tạo Robots.txt

URL trang web (tùy chọn)

Quy tắc

User-agent

Chỉ thị

Đường dẫn

URL Sitemap (mỗi dòng một URL)

Độ trễ thu thập (giây)

Thêm nhắc nhở thẻ meta noindex

Cách sử dụng Tạo Robots.txt

1
Thêm quy tắc thu thập dữ liệu
Nhấn Add Rule và đặt User-agent, chọn Allow hoặc Disallow, rồi nhập đường dẫn mà mỗi quy tắc nên áp dụng.
2
Thiết lập các chỉ thị tùy chọn
Thêm các URL sitemap của bạn (mỗi URL một dòng) và một crawl-delay tùy chọn tính bằng giây để kiểm soát cách công cụ tìm kiếm thu thập dữ liệu trang của bạn.
3
Tạo tệp
Nhấn Generate robots.txt để dựng một tệp được định dạng đúng từ các quy tắc và chỉ thị của bạn.

4
Sao chép hoặc tải xuống
Dùng Copy to Clipboard hoặc Download robots.txt, sau đó tải tệp lên thư mục gốc của tên miền (yoursite.com/robots.txt).

Cách robots.txt thực sự hoạt động: Hướng dẫn thực hành

robots.txt là gì và nó phải nằm ở đâu

robots.txt là một tệp văn bản thuần triển khai Robots Exclusion Protocol, một tiêu chuẩn tự nguyện cho các trình thu thập dữ liệu web biết những phần nào của trang web mà chúng không nên yêu cầu. Tệp này phải được phục vụ từ đúng một vị trí: thư mục gốc của tên miền, tại yoursite.com/robots.txt. Một tệp robots.txt đặt trong thư mục con, chẳng hạn yoursite.com/blog/robots.txt, sẽ đơn giản là bị bỏ qua. Mỗi tên miền phụ và mỗi giao thức có phạm vi riêng, nên blog.yoursite.com cần tệp riêng tách biệt với tệp trên yoursite.com.

Việc tuân thủ dựa trên tinh thần tự giác. Googlebot, Bingbot và các trình thu thập dữ liệu phổ biến khác tuân theo robots.txt, nhưng những công cụ thu thập độc hại và nhiều bot AI thì có thể không. Đừng bao giờ coi robots.txt như một biện pháp bảo mật. Đó là một cơ chế lịch sự dành cho các trình thu thập biết điều, chứ không phải một ổ khóa cho nội dung riêng tư; bất cứ thứ gì thực sự nhạy cảm đều cần xác thực, chứ không phải một dòng Disallow.

Bốn chỉ thị bạn thực sự dùng

Một tệp robots.txt được tổ chức thành các nhóm, mỗi nhóm bắt đầu bằng một hoặc nhiều dòng User-agent nêu tên trình thu thập mà các quy tắc sẽ áp dụng, theo sau là các quy tắc Allow và Disallow. User-agent: * nhắm đến mọi trình thu thập không có một nhóm cụ thể hơn. Disallow: /admin/ chặn một đường dẫn, còn một Disallow rỗng (Disallow: không có gì theo sau) nghĩa là cho phép tất cả. Allow được dùng để tách ra một ngoại lệ khỏi một vùng chặn rộng hơn, ví dụ cho phép một tệp bên trong một thư mục vốn đã bị cấm.

Chỉ thị Sitemap thì đặc biệt: nó độc lập với mọi nhóm User-agent và có thể xuất hiện ở bất cứ đâu trong tệp, theo thông lệ là ở đầu hoặc cuối. Nó nên trỏ đến URL tuyệt đối đầy đủ của sơ đồ trang XML của bạn, chẳng hạn https://yoursite.com/sitemap.xml, và bạn có thể liệt kê nhiều dòng sitemap nếu có nhiều hơn một. Đây là cách rẻ nhất để giúp các công cụ tìm kiếm khám phá tất cả các URL của bạn.

Sự phân biệt then chốt: thu thập dữ liệu so với lập chỉ mục

Đây là điểm bị hiểu lầm nhiều nhất về robots.txt, và hiểu sai nó sẽ gây ra thiệt hại thực sự. robots.txt kiểm soát việc thu thập dữ liệu, chứ không phải việc lập chỉ mục. Việc Disallow một URL ngăn các trình thu thập lấy nội dung của nó, nhưng không loại URL đó khỏi kết quả tìm kiếm. Nếu các trang khác liên kết đến một URL bị chặn, Google vẫn có thể lập chỉ mục nó dưới dạng một liên kết trơ, thường kèm theo dòng ghi chú vô ích rằng không có mô tả nào vì trang bị chặn bởi robots.txt.

Tệ hơn nữa, việc chặn một trang trong robots.txt khiến Google không bao giờ thấy được thẻ noindex trên trang đó, vì nó không thể thu thập trang để đọc thẻ. Vì vậy, cách đúng để loại một trang khỏi tìm kiếm lại ngược với điều nhiều người tưởng: hãy để trang có thể được thu thập và thêm một thẻ meta noindex hoặc header X-Robots-Tag. Chỉ chặn trong robots.txt khi mục tiêu của bạn là tiết kiệm ngân sách thu thập dữ liệu, chứ không phải để giấu một trang khỏi chỉ mục.

Ký tự đại diện và so khớp mẫu

Các trình thu thập hiện đại hỗ trợ hai ký tự mẫu. Dấu hoa thị (*) khớp với bất kỳ chuỗi ký tự nào, còn dấu đô la ($) neo phép khớp vào cuối URL. Vì vậy Disallow: /*.pdf$ chặn mọi URL kết thúc bằng .pdf, còn Disallow: /*?sort= chặn bất kỳ URL nào chứa tham số truy vấn sort, vốn là một cách phổ biến để giữ các bản trùng lặp từ điều hướng phân lớp khỏi quá trình thu thập. Các đường dẫn được khớp theo tiền tố, nên Disallow: /private chặn /private, /private/ và cả /private-files.

Các mẫu rất mạnh nhưng dễ bị lạm dụng. Hãy kiểm thử bất kỳ quy tắc nào không tầm thường trước khi triển khai nó; một dấu hoa thị đặt sai chỗ có thể chặn nhiều hơn rất nhiều so với dự định. Google Search Console có một công cụ kiểm thử robots.txt cho biết một URL nhất định được phép hay bị chặn bởi các quy tắc của bạn, rất đáng dùng cho bất cứ tệp nào phức tạp hơn loại đơn giản nhất.

Crawl-delay và tốc độ thu thập

Chỉ thị Crawl-delay yêu cầu một trình thu thập chờ một số giây giữa các yêu cầu liên tiếp, giúp giảm tải cho một máy chủ nhỏ hoặc yếu. Vấn đề là mức độ hỗ trợ không nhất quán: Bing và Yandex tuân theo Crawl-delay, nhưng Google thì bỏ qua hoàn toàn. Thay vào đó, Google tự động xác định tốc độ thu thập và trước đây từng cung cấp một tùy chọn ghi đè thủ công trong Search Console. Nếu mối lo của bạn là riêng Googlebot dồn dập tấn công máy chủ, thì Crawl-delay sẽ chẳng có tác dụng gì; bạn cần giới hạn tốc độ ở phía máy chủ hoặc cài đặt trong Search Console.

Với hầu hết các trang web, bạn không nên đặt độ trễ thu thập gì cả. Làm chậm các trình thu thập cũng làm chậm tốc độ mà nội dung mới và nội dung cập nhật được khám phá và lập chỉ mục. Hãy để dành nó cho những vấn đề về dung lượng thực sự, và giữ giá trị ở mức vừa phải.

Những lỗi thường gặp âm thầm phá hỏng SEO

Lỗi tai hại nhất là đưa lên một tệp môi trường thử nghiệm chứa Disallow: / dưới User-agent: *. Chỉ một dòng đó thôi đã chặn toàn bộ trang web của bạn khỏi mọi trình thu thập, và điều này thường xảy ra khi một trang web đi vào hoạt động mà không ai thay tệp robots.txt dùng cho giai đoạn phát triển. Sau bất kỳ lần ra mắt hay di chuyển nào, việc đầu tiên cần kiểm tra là tệp robots.txt trên môi trường thật của bạn không chứa một lệnh Disallow chặn toàn bộ.

Lỗi kinh điển thứ hai là chặn các thư mục CSS và JavaScript. Google kết xuất các trang giống như một trình duyệt, và nếu nó không thể lấy được các tệp định kiểu và tập lệnh của bạn, nó có thể thấy một trang vỡ vạc, không định dạng và đánh giá đó là trang có trải nghiệm di động kém hoặc nội dung sơ sài. Hãy để các trình thu thập tiếp cận được các tài nguyên của bạn. Những sai sót thường gặp khác bao gồm dùng robots.txt để cố gỡ một trang khỏi chỉ mục (hãy dùng noindex thay vào đó), quên rằng tệp này phân biệt chữ hoa chữ thường trong các đường dẫn, và đặt tệp ở bất cứ đâu khác ngoài thư mục gốc của tên miền.

Một thiết lập mặc định hợp lý cho hầu hết các trang web

Nhiều trang web được phục vụ tốt nhất bằng một tệp robots.txt cố ý dễ dãi: một nhóm duy nhất gồm User-agent: * với một Disallow rỗng để mọi thứ đều có thể được thu thập, cộng thêm một dòng Sitemap trỏ đến sơ đồ trang XML của bạn. Từ nền tảng mở đó, bạn mới thêm các quy tắc Disallow hẹp chỉ cho những thứ thực sự không nên được thu thập, chẳng hạn các trang kết quả tìm kiếm nội bộ, các khu vực quản trị, các URL giỏ hàng và thanh toán, cùng các URL trùng lặp có gắn tham số.

Hãy cưỡng lại cám dỗ làm phức tạp quá mức. Một tệp robots.txt ngắn gọn, chính xác mà bạn hiểu trọn vẹn thì an toàn hơn nhiều so với một tệp dài chép từ nơi khác với những quy tắc bạn không thể giải thích. Sau khi tạo tệp của mình, hãy mở nó trong trình duyệt để xác nhận nó được phục vụ dưới dạng văn bản thuần ở thư mục gốc, rồi kiểm định các đường dẫn quan trọng trong một công cụ kiểm thử trước khi tin cậy vào nó.

Câu hỏi thường gặp

Tệp robots.txt dùng để làm gì?

Tệp robots.txt cho các trình thu thập dữ liệu của công cụ tìm kiếm biết những phần nào của trang web chúng có thể hoặc không thể truy cập. Nó dùng các chỉ thị User-agent, Allow và Disallow và được đặt ở thư mục gốc của tên miền để các bot đọc nó trước khi thu thập dữ liệu.

Các quy tắc Allow và Disallow hoạt động như thế nào?

Disallow chặn các trình thu thập khỏi một đường dẫn, còn Allow cho phép rõ ràng một đường dẫn, hữu ích để mở một thư mục con bên trong một thư mục đã bị chặn. Bạn có thể nhắm đến mọi bot bằng User-agent cho tất cả robot, hoặc viết các quy tắc riêng cho từng trình thu thập cụ thể như Googlebot.

Crawl-delay có tác dụng gì?

Crawl-delay gợi ý số giây mà một trình thu thập nên chờ giữa các yêu cầu, giúp giảm tải máy chủ. Lưu ý rằng không phải mọi công cụ tìm kiếm đều tuân theo nó; ví dụ, Google bỏ qua crawl-delay và ưu tiên cài đặt crawl-rate trong Search Console.

Vì sao nên thêm một dòng sitemap?

Việc đưa vào một chỉ thị Sitemap chỉ cho các trình thu thập đến sơ đồ trang XML của bạn để chúng khám phá các trang hiệu quả hơn. Công cụ cho phép bạn liệt kê nhiều URL sitemap, mỗi URL một dòng, và ghi chúng vào tệp giúp bạn.

Robots.txt có đảm bảo một trang không xuất hiện trên Google không?

Không. Disallow ngăn việc thu thập dữ liệu nhưng một URL bị chặn vẫn có thể được lập chỉ mục nếu các trang khác liên kết đến nó. Để giữ một trang ngoài kết quả tìm kiếm, hãy dùng thẻ meta noindex hoặc header trên một trang có thể được thu thập, thay vì chỉ dựa vào robots.txt.

Công cụ liên quan

Tiếp tục với những công cụ hữu ích này

Công Cụ Tạo Thẻ Meta

Kiểm Tra Chuỗi Chuyển Hướng URL

Open Graph Previewer

Bộ Mã Hóa/Giải Mã Thực Thể HTML

Trình Xem Header HTTP

Trích Xuất URL Từ Sitemap