Generator Robots.txt

URL Situs Web (opsional)

Aturan

User-agent

Direktif

Jalur

URL Sitemap (satu per baris)

Penundaan Perayapan (detik)

Tambahkan pengingat meta tag noindex

Cara menggunakan Generator Robots.txt

1
Tambahkan aturan crawl
Klik Add Rule dan atur User-agent, pilih Allow atau Disallow, dan masukkan path yang harus diterapkan setiap aturan.
2
Atur direktif opsional
Tambahkan URL sitemap Anda (satu per baris) dan crawl-delay opsional dalam detik untuk mengontrol bagaimana mesin pencari meng-crawl situs Anda.
3
Buat file-nya
Klik Generate robots.txt untuk membangun file yang diformat dengan benar dari aturan dan direktif Anda.

4
Salin atau unduh
Gunakan Copy to Clipboard atau Download robots.txt, lalu unggah file ke root domain Anda (yoursite.com/robots.txt).

Cara Kerja robots.txt yang Sebenarnya: Panduan Praktis

Apa Itu robots.txt dan Di Mana File Ini Harus Berada

robots.txt adalah file teks biasa yang menerapkan Robots Exclusion Protocol, sebuah standar sukarela yang memberi tahu web crawler bagian mana dari situs Anda yang sebaiknya tidak mereka minta. File ini harus disajikan dari satu lokasi yang persis: root domain Anda, di yoursite.com/robots.txt. robots.txt yang ditempatkan di subdirektori, misalnya yoursite.com/blog/robots.txt, akan diabaikan begitu saja. Setiap subdomain dan setiap protokol memiliki cakupannya sendiri, jadi blog.yoursite.com membutuhkan file-nya sendiri yang terpisah dari file di yoursite.com.

Kepatuhannya bersifat sukarela alias honor-system. Googlebot, Bingbot, dan crawler arus utama lainnya mematuhi robots.txt, tetapi scraper jahat dan banyak bot AI bisa saja tidak. Jangan pernah memperlakukan robots.txt sebagai kontrol keamanan. File ini adalah mekanisme kesopanan untuk crawler yang berperilaku baik, bukan kunci atas konten privat; apa pun yang benar-benar sensitif membutuhkan autentikasi, bukan sekadar baris Disallow.

Empat Direktif yang Benar-Benar Anda Gunakan

robots.txt disusun menjadi beberapa grup, masing-masing diawali dengan satu atau beberapa baris User-agent yang menyebutkan crawler tempat aturan tersebut berlaku, diikuti oleh aturan Allow dan Disallow. User-agent: * menargetkan setiap crawler yang tidak memiliki grup yang lebih spesifik. Disallow: /admin/ memblokir sebuah path, sedangkan Disallow yang kosong (Disallow: tanpa apa pun setelahnya) berarti mengizinkan segalanya. Allow digunakan untuk membuat pengecualian dari blokir yang lebih luas, misalnya mengizinkan satu file di dalam folder yang selebihnya diblokir.

Direktif Sitemap bersifat khusus: direktif ini independen dari grup User-agent mana pun dan dapat muncul di bagian mana saja dalam file, biasanya di bagian atas atau bawah. Direktif ini sebaiknya menunjuk ke URL absolut lengkap dari sitemap XML Anda, seperti https://yoursite.com/sitemap.xml, dan Anda dapat mencantumkan beberapa baris sitemap jika memiliki lebih dari satu. Ini adalah cara termurah untuk membantu mesin pencari menemukan semua URL Anda.

Perbedaan Krusial: Crawling versus Indexing

Inilah poin yang paling sering disalahpahami tentang robots.txt, dan kekeliruan di sini menimbulkan kerusakan nyata. robots.txt mengontrol crawling, bukan indexing. Men-Disallow sebuah URL menghentikan crawler mengambil isinya, tetapi tidak menghapus URL tersebut dari hasil pencarian. Jika halaman lain menautkan ke URL yang diblokir, Google tetap dapat mengindeksnya sebagai tautan polos, sering kali disertai catatan tak membantu bahwa deskripsi tidak tersedia karena halaman diblokir oleh robots.txt.

Lebih buruk lagi, memblokir sebuah halaman di robots.txt mencegah Google melihat tag noindex pada halaman tersebut, karena Google tidak bisa meng-crawl halaman itu untuk membaca tag-nya. Jadi cara yang benar untuk menghapus halaman dari pencarian justru kebalikan dari yang banyak diasumsikan orang: biarkan halaman tetap dapat di-crawl dan tambahkan meta tag noindex atau header X-Robots-Tag. Blokir di robots.txt hanya ketika tujuan Anda adalah menghemat crawl budget, bukan untuk menyembunyikan halaman dari indeks.

Wildcard dan Pencocokan Pola

Crawler modern mendukung dua karakter pola. Tanda bintang (*) mencocokkan rangkaian karakter apa pun, dan tanda dolar ($) menambatkan pencocokan ke akhir URL. Jadi Disallow: /*.pdf$ memblokir setiap URL yang berakhiran .pdf, dan Disallow: /*?sort= memblokir setiap URL yang mengandung query parameter sort, yang merupakan cara umum untuk menjauhkan duplikat dari faceted navigation dari proses crawl. Path dicocokkan sebagai prefiks, jadi Disallow: /private memblokir /private, /private/, dan /private-files sekaligus.

Pola memang ampuh, tetapi mudah diterapkan secara berlebihan. Uji setiap aturan yang tidak sepele sebelum men-deploy-nya; satu tanda bintang yang salah tempat bisa memblokir jauh lebih banyak dari yang dimaksudkan. Google Search Console menyertakan robots.txt tester yang menunjukkan apakah suatu URL diizinkan atau diblokir oleh aturan Anda, dan alat ini layak digunakan untuk apa pun yang lebih rumit daripada file paling sederhana.

Crawl-delay dan Crawl Rate

Direktif Crawl-delay meminta crawler menunggu sekian detik di antara permintaan yang berurutan, yang dapat meringankan beban pada server kecil atau rapuh. Masalahnya, dukungannya tidak konsisten: Bing dan Yandex mematuhi Crawl-delay, tetapi Google mengabaikannya sepenuhnya. Sebagai gantinya, Google menentukan crawl rate secara otomatis dan dahulu menyediakan opsi penggantian manual di Search Console. Jika kekhawatiran Anda adalah Googlebot yang secara khusus membebani server, Crawl-delay tidak akan berpengaruh apa-apa; Anda justru memerlukan rate limiting di sisi server atau pengaturan Search Console.

Untuk sebagian besar situs, Anda sebaiknya tidak menyetel crawl delay sama sekali. Memperlambat crawler juga memperlambat seberapa cepat konten baru dan yang diperbarui ditemukan serta diindeks. Simpan opsi ini hanya untuk masalah kapasitas yang nyata, dan jaga nilainya tetap moderat.

Kesalahan Umum yang Diam-Diam Menghancurkan SEO

Kesalahan paling fatal adalah mengirimkan file staging yang berisi Disallow: / di bawah User-agent: *. Satu baris itu memblokir seluruh situs Anda dari setiap crawler, dan ini rutin terjadi ketika sebuah situs diluncurkan dan tidak ada yang mengganti robots.txt versi pengembangan. Setelah setiap peluncuran atau migrasi, hal pertama yang harus diperiksa adalah memastikan robots.txt produksi Anda tidak berisi Disallow menyeluruh.

Kesalahan klasik kedua adalah memblokir direktori CSS dan JavaScript. Google me-render halaman layaknya browser, dan jika ia tidak bisa mengambil stylesheet serta script Anda, ia bisa melihat halaman yang rusak tanpa gaya lalu menilainya sebagai pengalaman seluler yang buruk atau konten yang dangkal. Biarkan crawler menjangkau aset Anda. Kekeliruan lain yang sering terjadi termasuk menggunakan robots.txt untuk mencoba menghapus halaman dari indeks (gunakan noindex saja), lupa bahwa file ini bersifat case-sensitive pada path-nya, dan menempatkan file di lokasi selain root domain.

Pengaturan Default yang Masuk Akal untuk Sebagian Besar Situs Web

Banyak situs paling terlayani dengan robots.txt yang sengaja dibuat permisif: satu grup User-agent: * dengan Disallow kosong sehingga segalanya dapat di-crawl, ditambah satu baris Sitemap yang menunjuk ke sitemap XML Anda. Dari baseline terbuka itu, Anda lalu menambahkan aturan Disallow yang sempit hanya untuk hal-hal yang benar-benar tidak boleh di-crawl, seperti halaman hasil pencarian internal, area admin, URL keranjang dan checkout, serta URL duplikat berparameter.

Tahan godaan untuk membuatnya terlalu rumit. robots.txt yang singkat dan benar serta Anda pahami sepenuhnya jauh lebih aman daripada yang panjang hasil salinan dari tempat lain dengan aturan yang tidak bisa Anda jelaskan. Setelah membuat milik Anda, buka file itu di browser untuk memastikannya disajikan sebagai teks biasa di root, lalu validasi path-path penting di sebuah tester sebelum benar-benar mengandalkannya.

Pertanyaan yang sering diajukan

Untuk apa file robots.txt?

File robots.txt memberi tahu crawler mesin pencari bagian mana dari situs Anda yang boleh atau tidak boleh mereka akses. File ini menggunakan direktif User-agent, Allow, dan Disallow serta ditempatkan di root domain Anda sehingga bot membacanya sebelum meng-crawl.

Bagaimana cara kerja aturan Allow dan Disallow?

Disallow memblokir crawler dari sebuah path, sedangkan Allow secara eksplisit mengizinkan satu, yang berguna untuk membuka subfolder di dalam direktori yang sebaliknya diblokir. Anda dapat menargetkan semua bot dengan User-agent untuk semua robot, atau menulis aturan terpisah untuk crawler tertentu seperti Googlebot.

Apa fungsi crawl-delay?

Crawl-delay menyarankan berapa detik crawler harus menunggu di antara permintaan, yang dapat mengurangi beban server. Perhatikan bahwa tidak semua mesin pencari mematuhinya; misalnya, Google mengabaikan crawl-delay dan lebih memilih pengaturan crawl-rate di Search Console.

Mengapa menambahkan baris sitemap?

Menyertakan direktif Sitemap mengarahkan crawler ke sitemap XML Anda sehingga mereka dapat menemukan halaman Anda secara lebih efisien. Alat ini memungkinkan Anda mencantumkan beberapa URL sitemap, satu per baris, dan menuliskannya ke dalam file untuk Anda.

Apakah robots.txt menjamin sebuah halaman tetap di luar Google?

Tidak. Disallow mencegah crawling tetapi URL yang diblokir masih bisa diindeks jika halaman lain menautkannya. Untuk menjaga halaman tetap di luar hasil pencarian, gunakan meta tag atau header noindex pada halaman yang dapat di-crawl, alih-alih hanya mengandalkan robots.txt.

Alat terkait

Lanjutkan dengan alat praktis ini

Generator Meta Tag

Pemeriksa Rantai Pengalihan URL

Open Graph Previewer

Pengenkode/Pendekode Entitas HTML

Penampil Header HTTP

Ekstraktor URL Sitemap