10 nov 2025

Cómo Configurar tu Astro robots.txt Sin Errores (Estático vs. Integración)

Q: ¿Puedo usar astro robots.txt para ocultar una página de los resultados de Google?

No, este es un error muy común. robots.txt solo evita el rastreo (que el bot entre a la página). Si esa página está enlazada desde otro lugar, Google puede indexarla (mostrarla en resultados) igualmente. Para bloquear la indexación, debes usar la meta etiqueta en el de esa página.

Piensa en el archivo robots.txt como el controlador de acceso o el portero de tu sitio web. Es la primera línea de comunicación con los crawlers de motores de búsqueda como Googlebot, dándoles instrucciones claras sobre qué puertas pueden abrir y cuáles deben ignorar. Gestionar tu astro robots txt correctamente es, por tanto, un pilar fundamental en tu estrategia SEO.

Aunque es un simple archivo de texto, una configuración incorrecta puede ser desastrosa, llegando a bloquear recursos vitales (como CSS o JS) y perjudicando tu visibilidad. Por el contrario, una buena configuración te permite optimizar robots.txt en astro para guiar a los crawlers y proteger tu crawl budget (presupuesto de rastreo), asegurando que Google invierta su tiempo en tus páginas más importantes. Es una pieza clave en la optimización SEO de tu sitio web.

En esta guía práctica, vamos a desmitificar el robots.txt en el contexto de Astro. Te explicaremos los dos métodos principales que tienes a tu disposición: el enfoque estático (creando el archivo en la carpeta /public) y el enfoque programático (usando la integración astro-robots-txt). Al final, sabrás exactamente cuál elegir y cómo configurarlo paso a paso.

Puntos Clave

Qué es: El robots.txt es un archivo de texto plano ubicado en la raíz de tu dominio. Su única misión es indicar a los crawlers (como Googlebot) qué páginas, archivos o directorios no deben rastrear.
Método Fácil (Estático): La forma más directa en Astro es crear un archivo robots.txt manualmente y colocarlo en tu carpeta /public. Astro lo copiará automáticamente a la raíz de tu sitio durante el build.
Método Avanzado (Programático): Para un control centralizado, puedes usar la integración astro-robots-txt. Esto te permite definir las reglas directamente en tu astro.config.mjs, siendo ideal si necesitas reglas dinámicas (ej. por entorno) o quieres mantener toda tu configuración SEO junta.
El Riesgo: Un error simple (como un Disallow: /assets/) puede ser fatal. Si bloqueas tus archivos CSS o JavaScript, Google no podrá renderizar tu página correctamente, lo que dañará gravemente tu SEO.
La Regla de Oro (Sitemap): Una de las líneas más importantes de tu robots.txt debe ser la directiva Sitemap:. Debes incluir la ruta absoluta y completa a tu sitemap-index.xml (ej: https://codewebnow.com/sitemap-index.xml) para ayudar a todos los crawlers a encontrar tu mapa del sitio.

¿Qué es un archivo `robots.txt` y por qué es vital en Astro?

El robots.txt es un archivo de texto plano que debe vivir en la raíz de tu dominio (ej: codewebnow.com/robots.txt). Su sintaxis, aunque simple, es la base del protocolo de exclusión de robots y se basa en directivas claras.

La directiva User-agent es la primera línea de un bloque de reglas e identifica al crawler al que te diriges (por ejemplo, Googlebot, Bingbot, o el comodín * para todos). Las directivas Disallow y Allow que le siguen especifican, respectivamente, las rutas de tu sitio que no debe rastrear o las que sí tiene permitido (incluso si están dentro de un Disallow más general).

# Dirigido a todos los crawlers
User-agent: *
Disallow: /admin/ # Prohíbe rastrear esta carpeta
Allow: /admin/login # Permite esta sub-página específica

# Dirigido solo a Google
User-agent: Googlebot
Disallow: /borradores/ # Google no debe rastrear esto

Es fundamental entender la diferencia crítica entre Rastreo (Crawling) e Indexación (Indexing). Tu robots.txt solo gestiona lo primero: le pide a Google que no entre a una URL. Sin embargo, si Google encuentra esa URL enlazada desde otro sitio, aún puede indexarla (mostrarla en los resultados de búsqueda) aunque no la haya rastreado. Para evitar la indexación de forma segura, debes usar la meta etiqueta noindex en el HTML de esa página.

En un proyecto Astro, esto es especialmente importante. Querrás usar tu robots.txt para evitar que los crawlers pierdan tiempo en rutas de assets de build con hashes (ej. /_astro/), endpoints de API internos que solo usas para data fetching en modo SSR, o páginas de borrador que accidentalmente se colaron en la compilación final.

Imagen que muestra visualmente qué es el Crawl Budget

Comprender bien la sintaxis de robots.txt astro y sus directivas te da un control preciso sobre cómo interactúan los bots con tu proyecto. Para una referencia exhaustiva de todas las directivas y casos de uso, la documentación oficial de Google sobre robots.txt es siempre la fuente de autoridad más fiable.

Método 1: El Archivo Estático en /public (El Enfoque Sencillo)

Este es el enfoque más directo y recomendado para la mayoría de los proyectos en Astro. El framework utiliza una carpeta especial, /public, para gestionar archivos estáticos que no necesitan ser procesados por el pipeline de build.

Cualquier archivo que coloques dentro de la carpeta /public (como public/favicon.ico o public/robots.txt) se copiará tal cual a la raíz de tu sitio compilado (la carpeta /dist). Esto significa que public/robots.txt estará disponible públicamente en tu-dominio.com/robots.txt después del deploy. Para más detalles sobre cómo funciona, puedes consultar la documentación oficial de Astro sobre el directorio /public.

El proceso es increíblemente sencillo. Solo tienes que crear un nuevo archivo llamado robots.txt directamente dentro de tu carpeta /public.

A continuación, añade el contenido. Aquí tienes un ejemplo de robots.txt astro sólido y seguro, pensado para un blog estándar que permite el rastreo general pero bloquea directorios que no aportan valor SEO:

# Permite a todos los crawlers
User-agent: *
Allow: /

# Bloquea directorios que no interesan
Disallow: /admin/
Disallow: /borradores/
Disallow: /paginas-privadas/

# Indica la ubicación de tu Sitemap (¡Muy importante!)
# Asegúrate de reemplazar esto con tu dominio real
Sitemap: https://codewebnow.com/sitemap-index.xml

La ventaja principal de este método de astro robots.txt public es su simplicidad. Es rápido, no requiere ninguna dependencia ni configuración adicional, y es “lo que ves es lo que obtienes” (WYSIWYG).

La única desventaja real es que es un proceso totalmente manual. Si en el futuro decides cambiar la estructura de tus URLs (por ejemplo, renombrando /borradores/ a /drafts/) o añades una nueva sección que quieres bloquear, deberás acordarte de venir y editar este archivo a mano.

Método 2: Usar la Integración `astro-robots-txt` (El Enfoque Programático)

Si prefieres un control más centralizado y programático en lugar de un archivo estático, la comunidad de Astro ofrece la integración astro-robots-txt. Esta solución te permite definir todas tus reglas de rastreo directamente dentro de tu archivo de configuración astro.config.mjs. Es ideal para proyectos más complejos o para quienes simplemente prefieren mantener toda la configuración en un solo lugar.

El primer paso es añadir la integración a tu proyecto. Como con la mayoría de las integraciones de Astro, puedes usar el comando astro add para que se instale la dependencia y se configure automáticamente en tu astro.config.mjs.

# npm
npx astro add astro-robots-txt

# pnpm
pnpm astro add astro-robots-txt

# yarn
yarn astro add astro-robots-txt

Una vez instalado, tu astro.config.mjs se habrá actualizado. Ahora puedes configurar astro-robots-txt con tus reglas específicas. La configuración se pasa como un objeto a la integración, donde la propiedad policy (un array) te permite definir reglas para diferentes UserAgent.

import { defineConfig } from 'astro/config';
import robotsTxt from 'astro-robots-txt';
import sitemap from '@astrojs/sitemap'; // Asumimos que ya lo tienes

export default defineConfig({
  site: 'https://codewebnow.com', // Necesario para el sitemap
  integrations: [
    sitemap(), // La integración de sitemap
    robotsTxt({
      policy: [
        {
          userAgent: '*',
          allow: '/',
          disallow: ['/admin', '/borradores/'],
        },
        {
          userAgent: 'Googlebot',
          disallow: '/secret-google-stuff/',
        },
      ],
      // La integración añade la directiva 'Sitemap:' automáticamente
      // si detecta la integración @astrojs/sitemap.
      // También puedes forzarlo:
      // sitemap: 'https://codewebnow.com/sitemap-index.xml'
    }),
  ],
});

Lo mejor de este método es cómo se complementa con otras integraciones SEO. Si ya estás usando @astrojs/sitemap (como en el ejemplo anterior), la integración astro-robots-txt es lo suficientemente inteligente como para detectarla automáticamente y añadir la directiva Sitemap: https://tu-dominio.com/sitemap-index.xml por ti, basándose en el site de tu configuración.

La principal ventaja es que el archivo robots.txt se genera dinámicamente durante el build. Esto te permite usar variables de entorno (ej. import.meta.env.PROD) para tener reglas diferentes en desarrollo y en producción. Por ejemplo, podrías bloquear todo el rastreo en tus builds de staging (Disallow: /) para evitar que se indexen por error.

La Directiva Clave: Enlazando tu Sitemap en robots.txt

Si las directivas Disallow le dicen a los crawlers qué puertas ignorar, la directiva Sitemap: es el cartel luminoso que les dice: “¡Eh, la entrada principal a todo mi contenido está por aquí!”. Es, posiblemente, la línea más importante de tu archivo para asegurar un descubrimiento completo de tu web.

Esta directiva es la forma más directa y universalmente reconocida de indicar a todos los crawlers (no solo Google o Bing, sino también DuckDuckGo, Yandex, etc.) dónde encontrar el mapa completo de tu sitio. Esto les ayuda a descubrir URLs que podrían pasar por alto durante el rastreo normal, especialmente páginas nuevas o huérfanas (sin enlaces internos).

La sintaxis para incluir tu astro sitemap in robots.txt es muy simple, pero no perdona errores: debes usar la URL absoluta y completa, incluyendo el protocolo https://.

User-agent: *
Disallow: /admin/
Disallow: /borradores/

# Esta es la línea clave para el descubrimiento
# Debe ser la URL completa y absoluta
Sitemap: https://codewebnow.com/sitemap-index.xml

Un error muy común es usar una ruta relativa (como /sitemap-index.xml). Esto no funcionará y será ignorado por la mayoría de los crawlers.

# ❌ ASÍ NO
Sitemap: /sitemap-index.xml

# ✅ ASÍ SÍ
Sitemap: http://codewebnow.com/sitemap-index.xml

Por supuesto, esta línea da por hecho que ya tienes un sitemap. Si aún no tienes uno, ese es el primer paso. Te recomendamos encarecidamente leer nuestra guía completa para crearlo en Astro antes de añadir esta línea.

Conclusión: ¿Qué método elijo para mi proyecto?

Hemos explorado los dos enfoques principales para implementar tu astro robots txt, y como habrás visto, la elección final depende de la complejidad de tu proyecto y de tus preferencias de flujo de trabajo.

Aquí tienes una recomendación clara para ayudarte a decidir:

Usa el método estático (/public/robots.txt) si: Tienes un blog personal, un porfolio o un sitio estático simple. Si tus reglas de rastreo son fijas (ej. “bloquear /admin/ y listo”) y no prevés que cambien, este es el camino más rápido, simple y sin dependencias.
Usa la integración (astro-robots-txt) si: Ya estás usando la integración @astrojs/sitemap (para centralizar), necesitas reglas dinámicas (ej. bloquear todo en staging usando variables de entorno), o simplemente prefieres tener toda tu configuración SEO programática en astro.config.mjs.

Independientemente del método que elijas para manejar robots.txt astro, lo crucial es el resultado final. Asegúrate de que tu archivo exista, que nunca bloquee por error recursos vitales (como /_astro/ o tus carpetas de CSS/JS, lo que perjudicaría tu renderizado) y que siempre incluya la línea Sitemap: apuntando a tu sitemap principal.

Una vez que lo tengas desplegado, no olvides validarlo. Puedes usar herramientas como el Probador de robots.txt de Google (que requiere una propiedad verificada en Google Search Console) para asegurarte de que Google lo interpreta exactamente como esperas.

Y tú, ¿qué método prefieres para tu proyecto de Astro? ¿Has encontrado algún User-agent problemático que hayas tenido que bloquear o alguna regla de Disallow que te haya dado problemas? ¡Te leemos en los comentarios!

Preguntas Frecuentes

¿Qué pasa si no tengo ningún archivo robots.txt?

No es el fin del mundo, pero no es ideal. Si no existe, los motores de búsqueda asumirán que tienen permiso para rastrear absolutamente todo tu sitio. Esto incluye borradores, páginas de API o assets de build que no aportan valor y consumen tu presupuesto de rastreo.

¿Puedo usar astro robots.txt para ocultar una página de los resultados de Google?

No, este es un error muy común. robots.txt solo evita el rastreo (que el bot entre a la página). Si esa página está enlazada desde otro lugar, Google puede indexarla (mostrarla en resultados) igualmente. Para bloquear la indexación, debes usar la meta etiqueta <meta name='robots' content='noindex' /> en el <head> de esa página.

¿Son compatibles las integraciones `astro-robots-txt` y `@astrojs/sitemap`?

¡Sí, y de hecho están diseñadas para funcionar juntas! La integración astro-robots-txt es lo suficientemente inteligente como para detectar si @astrojs/sitemap está instalada. Si es así, añadirá automáticamente la directiva Sitemap: apuntando al sitemap-index.xml que la otra integración genera, basándose en el site de tu astro.config.mjs.

Referencias

Probador de robots.txt de Google (Requiere Google Search Console)

astro

Autor: Juan Carlos León

Cómo Configurar tu Astro robots.txt Sin Errores (Estático vs. Integración)

Puntos Clave

¿Qué es un archivo `robots.txt` y por qué es vital en Astro?

Método 1: El Archivo Estático en /public (El Enfoque Sencillo)

Método 2: Usar la Integración `astro-robots-txt` (El Enfoque Programático)

La Directiva Clave: Enlazando tu Sitemap en robots.txt

Conclusión: ¿Qué método elijo para mi proyecto?

Preguntas Frecuentes

Referencias

Posts Relacionados

Cómo Integrar y Personalizar Tailwind CSS en Proyectos con Astro Framework

Cómo Crear y Configurar un Sitemap en Astro para Mejorar tu SEO

Crear Tabla de Contenidos en Astro de forma simple

Los 5 frameworks esenciales para el desarrollo web en 2024

Guía Práctica de Accesibilidad Web WCAG: Implementación y Testing para Desarrolladores en 2025

Mejores prácticas para mejorar la Optimización de tu Página Web

Cómo Configurar tu Astro robots.txt Sin Errores (Estático vs. Integración)

Puntos Clave

¿Qué es un archivo robots.txt y por qué es vital en Astro?

Método 1: El Archivo Estático en /public (El Enfoque Sencillo)

Método 2: Usar la Integración astro-robots-txt (El Enfoque Programático)

La Directiva Clave: Enlazando tu Sitemap en robots.txt

Conclusión: ¿Qué método elijo para mi proyecto?

Preguntas Frecuentes

Referencias

Posts Relacionados

Cómo Integrar y Personalizar Tailwind CSS en Proyectos con Astro Framework

Cómo Crear y Configurar un Sitemap en Astro para Mejorar tu SEO

Crear Tabla de Contenidos en Astro de forma simple

Los 5 frameworks esenciales para el desarrollo web en 2024

Guía Práctica de Accesibilidad Web WCAG: Implementación y Testing para Desarrolladores en 2025

Mejores prácticas para mejorar la Optimización de tu Página Web

¿Qué es un archivo `robots.txt` y por qué es vital en Astro?

Método 2: Usar la Integración `astro-robots-txt` (El Enfoque Programático)