Generador de Robots.txt

URL del sitio web (opcional)

Reglas

User-agent

Directiva

Ruta

URLs de Sitemap (una por línea)

Retraso de rastreo (segundos)

Añadir recordatorio de meta etiqueta noindex

Cómo usar Generador de Robots.txt

1
Añade reglas de rastreo
Haz clic en Añadir regla y define el User-agent, elige Allow o Disallow e introduce la ruta a la que debe aplicarse cada regla.
2
Define directivas opcionales
Añade las URL de tu sitemap (una por línea) y un crawl-delay opcional en segundos para controlar cómo rastrean tu sitio los buscadores.
3
Genera el archivo
Haz clic en Generar robots.txt para construir un archivo con el formato correcto a partir de tus reglas y directivas.

4
Copia o descarga
Usa Copiar al portapapeles o Descargar robots.txt, y luego sube el archivo a la raíz de tu dominio (tusitio.com/robots.txt).

Cómo funciona realmente robots.txt: una guía práctica

Qué es robots.txt y dónde debe ubicarse

robots.txt es un archivo de texto plano que implementa el Protocolo de Exclusión de Robots, un estándar voluntario que indica a los rastreadores web qué partes de tu sitio no deberían solicitar. Debe servirse desde una ubicación exacta: la raíz de tu dominio, en tusitio.com/robots.txt. Un robots.txt colocado en un subdirectorio, como tusitio.com/blog/robots.txt, simplemente se ignora. Cada subdominio y cada protocolo tiene su propio ámbito, así que blog.tusitio.com necesita su propio archivo, separado del de tusitio.com.

El cumplimiento se basa en la buena fe. Googlebot, Bingbot y otros rastreadores convencionales obedecen robots.txt, pero los scrapers maliciosos y muchos bots de IA pueden no hacerlo. Nunca trates robots.txt como un control de seguridad. Es un mecanismo de cortesía para los rastreadores que se comportan bien, no un candado sobre el contenido privado; cualquier cosa verdaderamente sensible necesita autenticación, no una línea Disallow.

Las cuatro directivas que realmente usas

Un robots.txt se organiza en grupos, cada uno de los cuales empieza con una o más líneas User-agent que nombran al rastreador al que se aplican las reglas, seguidas de reglas Allow y Disallow. User-agent: * se dirige a todos los rastreadores que no tengan un grupo más específico. Disallow: /admin/ bloquea una ruta, y un Disallow vacío (Disallow: sin nada después) significa permitir todo. Allow se usa para crear una excepción dentro de un bloqueo más amplio, por ejemplo permitiendo un archivo dentro de una carpeta que por lo demás está bloqueada.

La directiva Sitemap es especial: es independiente de cualquier grupo User-agent y puede aparecer en cualquier parte del archivo, convencionalmente al principio o al final. Debe apuntar a la URL absoluta completa de tu sitemap XML, como https://tusitio.com/sitemap.xml, y puedes enumerar varias líneas de sitemap si tienes más de uno. Esta es la forma más barata de ayudar a los buscadores a descubrir todas tus URL.

La distinción crucial: rastreo frente a indexación

Este es, con diferencia, el punto más malinterpretado sobre robots.txt, y equivocarse causa daños reales. robots.txt controla el rastreo, no la indexación. No permitir (Disallow) una URL impide que los rastreadores obtengan su contenido, pero no elimina la URL de los resultados de búsqueda. Si otras páginas enlazan a una URL bloqueada, Google aún puede indexarla como un simple enlace, que a menudo se muestra con la nota poco útil de que no hay descripción disponible porque la página está bloqueada por robots.txt.

Peor aún, bloquear una página en robots.txt impide que Google llegue a ver una etiqueta noindex en esa página, porque no puede rastrear la página para leer la etiqueta. Así que la forma correcta de eliminar una página de la búsqueda es la contraria de lo que mucha gente supone: déjala rastreable y añade una metaetiqueta noindex o una cabecera X-Robots-Tag. Bloquea en robots.txt solo cuando tu objetivo sea ahorrar presupuesto de rastreo, no ocultar una página del índice.

Comodines y coincidencia de patrones

Los rastreadores modernos admiten dos caracteres de patrón. El asterisco (*) coincide con cualquier secuencia de caracteres, y el signo de dólar ($) ancla la coincidencia al final de la URL. Así, Disallow: /*.pdf$ bloquea todas las URL que terminan en .pdf, y Disallow: /*?sort= bloquea cualquier URL que contenga un parámetro de consulta sort, lo cual es una forma habitual de mantener fuera del rastreo los duplicados de la navegación por facetas. Las rutas se comparan como prefijos, así que Disallow: /private bloquea por igual /private, /private/ y /private-files.

Los patrones son potentes, pero es fácil aplicarlos en exceso. Prueba cualquier regla no trivial antes de implementarla; un solo asterisco mal colocado puede bloquear mucho más de lo previsto. Google Search Console incluye un comprobador de robots.txt que muestra si una URL determinada está permitida o bloqueada por tus reglas, algo que vale la pena usar para cualquier cosa que vaya más allá del archivo más simple.

Crawl-delay y frecuencia de rastreo

La directiva Crawl-delay pide a un rastreador que espere un número de segundos entre solicitudes sucesivas, lo que puede aliviar la carga de un servidor pequeño o frágil. El inconveniente es que la compatibilidad es desigual: Bing y Yandex respetan Crawl-delay, pero Google lo ignora por completo. En su lugar, Google determina la frecuencia de rastreo de forma automática e históricamente ofrecía un ajuste manual en Search Console. Si tu preocupación es que Googlebot, en concreto, sature tu servidor, Crawl-delay no servirá de nada; en su lugar necesitas limitar la frecuencia del lado del servidor o los ajustes de Search Console.

Para la mayoría de los sitios, no deberías establecer ningún retraso de rastreo en absoluto. Ralentizar a los rastreadores también ralentiza la rapidez con la que se descubre e indexa el contenido nuevo y actualizado. Resérvalo para problemas reales de capacidad y mantén el valor moderado.

Errores comunes que hunden el SEO sin hacer ruido

El error más catastrófico es publicar un archivo de pruebas que contenga Disallow: / bajo User-agent: *. Esa única línea bloquea todo tu sitio para todos los rastreadores, y ocurre habitualmente cuando un sitio se pone en producción y nadie reemplaza el robots.txt de desarrollo. Después de cualquier lanzamiento o migración, lo primero que hay que comprobar es que tu robots.txt de producción no contenga un Disallow general.

El segundo error clásico es bloquear los directorios de CSS y JavaScript. Google renderiza las páginas como un navegador, y si no puede obtener tus hojas de estilo y tus scripts, puede ver una página rota y sin estilos y juzgar que ofrece una mala experiencia móvil o contenido pobre. Deja que los rastreadores accedan a tus recursos. Otros tropiezos frecuentes incluyen usar robots.txt para intentar desindexar una página (usa noindex en su lugar), olvidar que el archivo distingue mayúsculas y minúsculas en sus rutas, y colocar el archivo en cualquier lugar que no sea la raíz del dominio.

Una configuración predeterminada sensata para la mayoría de los sitios web

A muchos sitios les conviene más un robots.txt deliberadamente permisivo: un único grupo de User-agent: * con un Disallow vacío para que todo sea rastreable, más una línea Sitemap que apunte a tu sitemap XML. A partir de esa base abierta, añades luego reglas Disallow específicas solo para lo que de verdad no debería rastrearse, como las páginas internas de resultados de búsqueda, las zonas de administración, las URL de carrito y pago, y las URL duplicadas con parámetros.

Resiste la tentación de complicarlo en exceso. Un robots.txt corto y correcto que entiendas por completo es mucho más seguro que uno largo copiado de otro sitio con reglas que no sabes explicar. Después de generar el tuyo, ábrelo en un navegador para confirmar que se sirve como texto plano en la raíz, y luego valida las rutas importantes en un comprobador antes de confiar en él.

Preguntas frecuentes

¿Para qué sirve un archivo robots.txt?

Un archivo robots.txt indica a los rastreadores de los buscadores a qué partes de tu sitio pueden o no pueden acceder. Usa las directivas User-agent, Allow y Disallow y se coloca en la raíz de tu dominio para que los bots lo lean antes de rastrear.

¿Cómo funcionan las reglas Allow y Disallow?

Disallow bloquea a los rastreadores el acceso a una ruta, mientras que Allow permite explícitamente una, lo que resulta útil para abrir una subcarpeta dentro de un directorio que por lo demás está bloqueado. Puedes dirigirte a todos los bots con el User-agent para todos los robots, o escribir reglas separadas para rastreadores concretos como Googlebot.

¿Qué hace crawl-delay?

Crawl-delay sugiere cuántos segundos debe esperar un rastreador entre solicitudes, lo que puede reducir la carga del servidor. Ten en cuenta que no todos los buscadores lo respetan; por ejemplo, Google ignora crawl-delay y prefiere los ajustes de frecuencia de rastreo en Search Console.

¿Por qué añadir una línea de sitemap?

Incluir una directiva Sitemap dirige a los rastreadores a tu sitemap XML para que descubran tus páginas de forma más eficiente. La herramienta te permite enumerar varias URL de sitemap, una por línea, y las escribe en el archivo por ti.

¿robots.txt garantiza que una página quede fuera de Google?

No. Disallow impide el rastreo, pero una URL bloqueada aún puede indexarse si otras páginas enlazan a ella. Para mantener una página fuera de los resultados de búsqueda, usa una metaetiqueta o cabecera noindex en una página que sea rastreable, en lugar de basarte solo en robots.txt.

Herramientas relacionadas

Sigue trabajando con estas prácticas herramientas

Generador de Meta Tags

Verificador de Cadenas de Redirección URL

Open Graph Previewer

Codificador/Decodificador de Entidades HTML

Visor de Cabeceras HTTP

Extractor de URLs de Sitemap