¿Los AI crawlers respetan robots.txt?

La mayoría de los grandes AI crawlers respetan las directivas robots.txt. GPTBot, ClaudeBot y Google-Extended honran las reglas Disallow. Sin embargo, no todos los AI bots cumplen por igual. Monitorizar los logs de su servidor es la única forma de verificar el cumplimiento real.

¿Bloquear GPTBot eliminará mi contenido de ChatGPT?

Bloquear GPTBot impide que OpenAI rastree su sitio para futuros datos de entrenamiento y recuperación en vivo. Sin embargo, el contenido que ya está en el conjunto de datos de entrenamiento permanecerá. La directiva mira hacia adelante: detiene el nuevo rastreo, no la eliminación retroactiva de datos.

¿Puedo permitir Google AI Overviews pero bloquear ChatGPT?

Sí. Google AI Overviews utiliza Googlebot, que es distinto de Google-Extended. Puede bloquear GPTBot específicamente y mantener Googlebot permitido. Esto permite que su contenido aparezca en AI Overviews y en la búsqueda tradicional, al tiempo que impide que OpenAI rastree sus páginas.

¿Qué ocurre si no tengo reglas para AI crawlers en robots.txt?

Si su robots.txt no menciona a un AI crawler concreto, el bot se rige por sus reglas generales. Si no tiene un Disallow con comodín, el bot puede rastrearlo todo. Esto está bien para muchos sitios porque significa máxima visibilidad en IA.

¿Debo bloquear los AI crawlers para proteger mi contenido?

Depende de sus objetivos. Bloquear protege el contenido del entrenamiento de modelos pero elimina su marca de las respuestas generadas por IA. Para la mayoría de las marcas, el beneficio de visibilidad supera al riesgo. Un enfoque selectivo funciona mejor para quienes quieren tanto protección como presencia.

Cómo configurar robots.txt para AI crawlers (sin bloquear Google)

El archivo robots.txt acaba de convertirse en una decisión estratégica

Durante la mayor parte de su historia, robots.txt fue un archivo de mantenimiento. Bloqueaba el acceso de los crawlers a páginas de administración, entornos de staging y rutas de contenido duplicado. Si se equivocaba con algo, perdía unas cuantas páginas del índice de Google. Molesto, pero reparable dentro de un ciclo de rastreo.

Esa dinámica cambió cuando las empresas de IA empezaron a enviar crawlers por la web. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Cada uno consulta su robots.txt antes de decidir si leer sus páginas. Su robots.txt ya no trata solo de la indexación de motores de búsqueda. Es la puerta de entrada a la visibilidad en IA. Hágalo mal y desaparecerá silenciosamente de las respuestas generadas por IA. Hágalo mal por descuido y bloqueará también a Googlebot.

Su robots.txt es ahora una decisión de negocio, no una tarea técnica. Cada regla Disallow que escriba determinará si su marca aparece en respuestas de IA en ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok y Google AI Overviews, o desaparece de ellas.

La parte complicada: los AI crawlers y los crawlers de búsqueda tradicional utilizan el mismo mecanismo de acceso pero sirven a propósitos distintos. Googlebot indexa páginas para los resultados de búsqueda. GPTBot lee contenido para el entrenamiento de modelos y la recuperación en tiempo real. Google-Extended gestiona los datos de entrenamiento de IA por separado de la indexación de búsqueda regular. Bloquear al user-agent equivocado tiene consecuencias que usted no planeó.

Esta guía cubre cada cadena de user-agent de los principales AI crawlers, muestra configuraciones robots.txt exactas para escenarios comunes y señala los errores que cuestan la visibilidad a los sitios.

Ver también: Lista de rastreadores de IA 2026: Cada bot que escanea su sitio (y lo que hace)

Qué controla realmente robots.txt (y qué no)

Antes de escribir reglas para AI bots, comprenda los límites de lo que este archivo puede hacer.

robots.txt es un protocolo voluntario. Indica a los crawlers a qué rutas no deberían acceder. La palabra "deberían" importa aquí. Los crawlers que cumplen leen el archivo y siguen las reglas. Los que no cumplen lo ignoran. No hay un mecanismo de aplicación integrado en el protocolo.

Para la búsqueda tradicional, esto rara vez fue un problema. Googlebot y Bingbot respetan robots.txt de forma fiable. Los scrapers malintencionados siempre lo han ignorado, y eso se aceptaba como parte del coste de estar en la web abierta.

Qué controla robots.txt

Qué rutas de URL puede acceder un crawler específico
Qué rutas de URL están vetadas a todos los crawlers mediante reglas con comodín
La ubicación del sitemap (informativo, no una directiva)

Qué NO controla robots.txt

Si el contenido ya scrapeado se elimina de los conjuntos de datos de entrenamiento
Cómo utiliza un bot el contenido que recopiló antes de que existiera su regla
La tasa o frecuencia de rastreo (la directiva Crawl-delay existe pero no todos los bots la honran)
El acceso de bots que no se identifican o que suplantan su user-agent
Su contenido en sitios de terceros, redes sociales o feeds sindicados

robots.txt mira hacia adelante, no hacia atrás. Si GPTBot rastreó su sitio el mes pasado, añadir un Disallow hoy detiene las futuras visitas. No elimina lo que ya se recopiló. Para la eliminación retroactiva, necesita contactar directamente con la empresa de IA.

Esta distinción importa. Muchos propietarios de sitios bloquean AI crawlers esperando que su contenido se desvanezca de las respuestas de ChatGPT o Perplexity. No lo hará. El bloqueo solo evita nuevas visitas de rastreo en adelante.

User-agents de AI crawlers: la referencia completa

Cada empresa de IA utiliza una o más cadenas de user-agent para identificar sus crawlers. Necesita estas cadenas para escribir reglas robots.txt dirigidas. Aquí tiene cada AI crawler importante activo en 2026.

OpenAI

Bot	Cadena de user-agent	Propósito
GPTBot	`GPTBot`	Datos de entrenamiento + recuperación en vivo para ChatGPT
OAI-SearchBot	`OAI-SearchBot`	Búsqueda web en tiempo real para la función de búsqueda de ChatGPT
ChatGPT-User	`ChatGPT-User`	Modo navegación (visitas a URL iniciadas por el usuario)

GPTBot es el crawler principal. OAI-SearchBot gestiona las consultas de búsqueda en tiempo real dentro de ChatGPT. ChatGPT-User se activa cuando alguien le pide explícitamente a ChatGPT que navegue a una página específica. Bloquear solo GPTBot no bloquea todo el acceso de OpenAI. Debe atender los tres user-agents por separado.

Anthropic

Bot	Cadena de user-agent	Propósito
ClaudeBot	`ClaudeBot`	Recopilación de datos de entrenamiento para los modelos Claude
anthropic-ai	`anthropic-ai`	Identificador antiguo del crawler de Anthropic

ClaudeBot es el crawler principal actual. El identificador anthropic-ai es más antiguo y aparece con menos frecuencia en los logs, pero aún aparece en algunos sitios.

Google

Bot	Cadena de user-agent	Propósito
Google-Extended	`Google-Extended`	Datos de entrenamiento de IA para Gemini, separado de la búsqueda
Googlebot	`Googlebot`	Indexación tradicional de búsqueda + AI Overviews

Este par es el más malinterpretado. Googlebot gestiona tanto la indexación tradicional de búsqueda como Google AI Overviews. Google-Extended gestiona solo el entrenamiento de modelos de IA. Bloquear Google-Extended no afecta a sus rankings de búsqueda ni a la aparición en AI Overviews. Bloquear Googlebot arruina toda su presencia en la búsqueda de Google. Sepa a cuál se refiere.

Perplexity

Bot	Cadena de user-agent	Propósito
PerplexityBot	`PerplexityBot`	Recuperación en tiempo real para las respuestas de Perplexity

PerplexityBot rastrea para recuperación en vivo, no para entrenamiento masivo. Obtiene páginas cuando un usuario formula una pregunta que coincide con su contenido.

ByteDance

Bot	Cadena de user-agent	Propósito
Bytespider	`Bytespider`	Datos de entrenamiento para productos de IA de ByteDance

Bytespider es uno de los crawlers más agresivos de la web por volumen puro de peticiones.

Otros bots destacables

Bot	Cadena de user-agent	Propósito
CCBot	`CCBot`	Conjunto de datos Common Crawl (utilizado por muchas empresas de IA)
Applebot-Extended	`Applebot-Extended`	Funciones de Apple Intelligence
cohere-ai	`cohere-ai`	Entrenamiento de modelos de Cohere
Diffbot	`Diffbot`	Extracción de datos estructurados para productos de IA
FacebookExternalHit	`FacebookExternalHit`	Funciones de Meta AI
ImagesiftBot	`ImagesiftBot`	Análisis de imágenes para sistemas de IA
Timpibot	`Timpibot`	Motor de búsqueda descentralizado Timpi

Para el desglose completo de cada bot, incluidos rangos de IP, patrones de frecuencia de rastreo y registros de cumplimiento, consulte nuestra referencia completa de AI crawlers.

Configuración por defecto vs. configuración recomendada

La mayoría de los sitios encajan en uno de tres escenarios. Aquí tiene el enfoque adecuado de robots.txt para cada uno.

Escenario 1: Máxima visibilidad en IA (recomendado para la mayoría de las marcas)

Si su objetivo es aparecer en tantas respuestas generadas por IA como sea posible, permita a todos los grandes AI crawlers. Bloquee solo los bots agresivos exclusivos de entrenamiento que consumen ancho de banda sin proporcionar atribución.

# Motores de búsqueda
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI crawlers, permitidos por visibilidad
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Bloquear crawlers agresivos solo de entrenamiento
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Regla por defecto
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/

Sitemap: https://yoursite.com/sitemap.xml

Esto abre su contenido a todas las plataformas de IA que proporcionan visibilidad directa de marca: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Los crawlers masivos de entrenamiento quedan fuera de su servidor.

Escenario 2: Acceso selectivo de IA (solo recuperación, sin entrenamiento)

Quiere que su contenido sea citado en respuestas de IA pero no ingerido para entrenamiento de modelos. La línea entre entrenamiento y recuperación es difusa para algunos crawlers, pero puede aproximarla:

# Motores de búsqueda
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI bots enfocados en recuperación, permitidos
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Crawlers enfocados en entrenamiento, bloqueados
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://yoursite.com/sitemap.xml

La contrapartida es real: bloquear GPTBot puede reducir su visibilidad en ChatGPT con el tiempo. OpenAI utiliza GPTBot tanto para entrenamiento como para cierta recuperación. Este escenario prioriza la protección del contenido sobre el alcance máximo.

Escenario 3: Bloquear todos los AI crawlers

Válido para editoriales con preocupaciones de licencias. No recomendado si quiere visibilidad en IA:

# Permitir solo motores de búsqueda
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Bloquear todos los AI crawlers conocidos
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Bloquear todos los AI crawlers no hace que su contenido sea invisible para la IA. Su texto aún puede aflorar a través de archivos de Common Crawl recopilados antes del bloqueo, sindicación de terceros, copias en caché y compartición en redes sociales. La invisibilidad total ante la IA es prácticamente imposible solo con robots.txt.

Cinco errores comunes (y cómo corregirlos)

Error 1: Bloqueo con comodín que atrapa a Googlebot

El más dañino y el más común:

# NO HAGA ESTO
User-agent: *
Disallow: /

Esto bloquea a todos los crawlers de Internet, incluido Googlebot. Su sitio desaparece de los resultados de búsqueda. Si quiere bloquear AI crawlers, enumérelos individualmente por nombre de user-agent. Nunca use un Disallow con comodín en la ruta raíz sin reglas Allow explícitas para los crawlers que necesita.

Cómo corregirlo: Añada reglas Allow explícitas para Googlebot y Bingbot por encima de cualquier Disallow amplio. Mejor aún, evite los bloqueos con comodín en la raíz por completo y nombre cada bot individualmente.

Error 2: Confundir Google-Extended con Googlebot

Google-Extended controla solo los datos de entrenamiento de IA. Bloquearlo no afecta a sus rankings de búsqueda ni a la visibilidad en AI Overviews. Pero algunos propietarios de sitios bloquean tanto Google-Extended como Googlebot, pensando que están siendo meticulosos.

Resultado: su sitio desaparece de la búsqueda de Google. Por completo.

Cómo corregirlo: Si quiere mantenerse en la búsqueda de Google y en AI Overviews, pero mantener el contenido fuera del entrenamiento de Gemini, bloquee solo Google-Extended. Deje Googlebot en paz.

Error 3: Olvidar OAI-SearchBot

GPTBot se lleva toda la atención, pero OAI-SearchBot es un user-agent distinto para la búsqueda en tiempo real de ChatGPT. ¿Bloquea GPTBot y deja OAI-SearchBot sin atender? ChatGPT puede seguir extrayendo información de sus páginas a través de su función de búsqueda.

Cómo corregirlo: Si quiere bloquear todo el acceso de OpenAI, incluya reglas para GPTBot, OAI-SearchBot y ChatGPT-User. Los tres.

Error 4: No verificar tras el despliegue

Guardó el archivo y siguió adelante. Pero ¿surtió efecto el cambio? Modos de fallo comunes: su CDN cachea el robots.txt antiguo durante horas. El archivo tiene codificación incorrecta. Se desplegó en el directorio equivocado. Existe un bucle de redirección en /robots.txt.

Cómo corregirlo: Tras cada cambio, obtenga yoursite.com/robots.txt directamente en un navegador. Compruebe las cabeceras de respuesta en busca de directivas de caché. Use el tester de robots.txt de Google Search Console para la validación de Googlebot. Monitorice los logs del servidor durante 48 horas.

Error 5: Tratar robots.txt como una capa de seguridad

robots.txt no es un control de acceso. Es una petición educada. No autentica crawlers, no cifra contenido ni impide que ningún bot lea sus páginas si decide ignorar el archivo.

Cómo corregirlo: Para contenido sensible, use controles a nivel de servidor: autenticación, listas de IP permitidas, reglas WAF o muros de pago. robots.txt gestiona bots bien educados. Los firewalls gestionan todo lo demás.

robots.txt indica a los bots bien educados qué prefiere. No impone nada. Para la protección del contenido necesita controles de acceso a nivel de servidor, no un archivo de texto en su directorio raíz.

Probar su configuración

Después de escribir o actualizar reglas, valide antes de desplegar.

Paso 1: Validación de sintaxis

Use el tester de robots.txt en Google Search Console. Introduzca su URL y verifique que Googlebot puede acceder a sus páginas clave. Esta herramienta solo prueba reglas de Googlebot, pero detecta errores de sintaxis que afectan a todos los bots.

Paso 2: Simulación manual de user-agent

Use curl para ver cómo responde su servidor a distintos identificadores de bot:

curl -A "GPTBot" https://yoursite.com/robots.txt
curl -A "ClaudeBot" https://yoursite.com/robots.txt
curl -A "PerplexityBot" https://yoursite.com/robots.txt

El contenido del archivo es idéntico independientemente de quién lo solicite, pero repasar mentalmente las reglas para cada user-agent le ayuda a detectar errores lógicos antes de que le cuesten visibilidad.

Paso 3: Monitorización de logs

Tras el despliegue, revise los logs de acceso de su servidor en busca de actividad de AI crawlers. Busque las cadenas de user-agent listadas en este artículo. Si bloqueó PerplexityBot pero aún lo ve accediendo a sus páginas 48 horas después, o bien su CDN está sirviendo un robots.txt obsoleto o el bot no está obedeciendo sus reglas.

Campos a vigilar:

Cadena de user-agent en las cabeceras de petición
Rutas de URL solicitadas (¿está el bot accediendo a rutas bloqueadas?)
Códigos de respuesta HTTP (200, 403, 429?)
Frecuencia de peticiones (¿ha cambiado desde su actualización?)

Paso 4: Revisión trimestral

Las empresas de IA lanzan nuevos crawlers, renombran los existentes y cambian su comportamiento con regularidad. Revise su robots.txt cada trimestre. Consulte la lista actual de AI crawlers para ver las nuevas incorporaciones. Una configuración escrita en enero puede tener puntos ciegos en junio.

El marco de decisión

¿No está seguro de qué enfoque encaja? Recorra estas cuatro preguntas.

¿Quiere que su marca sea citada en respuestas generadas por IA? Si la respuesta es sí, permita GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot y Applebot-Extended. Es el camino de máxima visibilidad y el valor por defecto adecuado para la mayoría de las marcas.

¿Le preocupa el entrenamiento de modelos? Si la respuesta es sí pero aún quiere citaciones de IA, permita los bots de recuperación (OAI-SearchBot, ChatGPT-User, PerplexityBot) y bloquee los bots de entrenamiento (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider). Acepte que el límite es imperfecto.

¿Es editorial con preocupaciones de licencias? Bloquee todos los AI crawlers. Explore acuerdos directos de licencias con empresas de IA. OpenAI, Google y Apple tienen programas de colaboración con editores que compensan el uso del contenido bajo términos negociados.

¿No está seguro? Empiece con máxima visibilidad. Monitorice durante 30 días. Compruebe si las plataformas de IA citan su marca con más frecuencia. Si el valor de la citación es positivo, mantenga la configuración abierta. Puede endurecer las reglas más tarde. Relajarlas es más difícil porque pierde impulso de rastreo mientras está bloqueado.

La posición por defecto para la mayoría de las marcas en 2026: permita AI crawlers, monitorice lo que ocurre, ajuste en función de los datos. Bloquear por defecto significa renunciar a un canal de distribución que crece cada trimestre mientras el tráfico de búsqueda tradicional se estanca.

Ver también: E-E-A-T y visibilidad en IA: por qué el marco de calidad de Google importa para el GEO