¿Cuántos rastreadores de IA están escaneando activamente la web en 2026?

A principios de 2026, hay más de 30 rastreadores de IA identificados de empresas importantes y decenas de bots más pequeños y no documentados. Los principales incluyen GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, CCBot y Applebot-Extended. El panorama crece cada trimestre.

¿Cómo puedo identificar los rastreadores de IA en los logs de mi servidor?

Los rastreadores de IA se identifican a través de cadenas de user-agent en los encabezados de las solicitudes HTTP. Busque cadenas que contengan GPTBot, ClaudeBot, PerplexityBot, Bytespider, CCBot o Google-Extended en sus logs de acceso. Algunos rastreadores también tienen rangos de IP documentados que puede cotejar.

¿Todos los rastreadores de IA utilizan mi contenido para entrenamiento?

No. Los rastreadores de IA sirven a diferentes propósitos. Algunos rastrean para el entrenamiento de modelos (Google-Extended, CCBot), otros para la generación aumentada por recuperación en vivo (PerplexityBot, OAI-SearchBot) y otros para ambos. Comprender la distinción le ayuda a tomar decisiones informadas sobre qué bots permitir o bloquear.

¿Qué rastreadores de IA respetan robots.txt?

GPTBot, ClaudeBot, Google-Extended, PerplexityBot y Applebot-Extended respetan oficialmente robots.txt. Bytespider y CCBot también afirman cumplirlo, aunque la aplicación varía. Los bots más pequeños pueden no hacerlo. Monitorizar sus logs es la única forma de verificarlo.

¿Con qué frecuencia debo actualizar mi lista de bloqueo de rastreadores de IA?

Revise trimestralmente como mínimo. Las nuevas empresas de IA lanzan rastreadores con regularidad, y los bots existentes cambian sus cadenas de user-agent o su comportamiento sin previo aviso. Configure un recordatorio en el calendario para auditar su robots.txt cada tres meses.

Lista de rastreadores de IA 2026: Cada bot que escanea su sitio (y lo que hace)

El tráfico invisible que consume su ancho de banda

Los logs de su servidor cuentan una historia que la mayoría de los propietarios de sitios nunca leen. En algún lugar entre Googlebot y el scraper ocasional deshonesto, una nueva categoría de tráfico se ha convertido silenciosamente en uno de los mayores consumidores de su ancho de banda: los rastreadores de IA.

Estos bots no están indexando sus páginas para una página de resultados de motor de búsqueda. Leen su contenido para que los modelos de IA puedan aprender de él, citarlo o parafrasearlo al responder a las consultas de los usuarios. Algunos hacen esto para entrenamiento, ingiriendo su texto para mejorar un modelo de lenguaje grande. Otros lo hacen para recuperación en vivo, obteniendo sus páginas en tiempo real cuando un usuario hace una pregunta que su contenido puede responder. La diferencia entre estos dos propósitos tiene implicaciones reales para su negocio, su tráfico y su posición competitiva.

El panorama de los rastreadores de IA está fragmentado, mal documentado y cambiando rápido. GPTBot se lanzó en agosto de 2023 y ya ha pasado por múltiples cambios de comportamiento. ClaudeBot apareció poco después. Bytespider es uno de los rastreadores más agresivos de la web. Y esos son solo los más conocidos.

Este artículo es una referencia viva. Documentamos cada rastreador de IA conocido activo en 2026: su cadena de user-agent, empresa matriz, qué hace con su contenido, si respeta robots.txt y con qué agresividad rastrea.

Ver también: Cómo configurar robots.txt para AI crawlers (sin bloquear Google)

Bots de entrenamiento vs. bots de recuperación: por qué importa la distinción

Antes de enumerar cada rastreador, necesita comprender las dos categorías principales. Esta distinción moldea cada decisión que tome sobre permitir o bloquear los bots de IA.

Los rastreadores de entrenamiento recopilan contenido web para construir o mejorar modelos de IA. Su texto entra en un conjunto de datos de entrenamiento, se procesa y se convierte en parte del modelo. Una vez entrenado, el modelo no necesita visitar su sitio de nuevo para hacer referencia a esa información. No obtiene tráfico, ni atribución, ni enlace de retorno. Ejemplos: GPTBot (modo entrenamiento), Google-Extended, CCBot, Bytespider.

Los rastreadores de recuperación obtienen su contenido en tiempo real cuando un usuario hace una pregunta. La plataforma de IA envía un bot a su página, lee la sección relevante y la incluye (a menudo con una cita) en la respuesta generada. Esto se asemeja más a cómo funcionan los motores de búsqueda, excepto que el usuario ve una respuesta sintetizada en lugar de una lista de enlaces. Ejemplos: PerplexityBot, OAI-SearchBot, ChatGPT-User.

Algunos bots sirven para ambos propósitos. GPTBot rastrea para datos de entrenamiento y también admite recuperación en vivo para ChatGPT. Este rol dual hace que las decisiones de bloqueo sean complicadas. Bloquear GPTBot protege su contenido del uso de entrenamiento, pero también puede reducir su visibilidad en las respuestas en vivo de ChatGPT.

Los bots de entrenamiento toman su contenido para construir sus modelos. Los bots de recuperación obtienen su contenido para responder preguntas específicas, a veces con atribución. El primero le cuesta ancho de banda sin retorno. El segundo puede impulsar la notoriedad de marca. Su estrategia de robots.txt debería reflejar esta diferencia.

La tabla completa de referencia de rastreadores de IA

Aquí está cada rastreador de IA importante activo en 2026. Para cada bot, enumeramos la cadena de user-agent, la empresa matriz, el propósito principal, el cumplimiento de robots.txt y las notas sobre el comportamiento de rastreo.

Nombre del bot	User-Agent	Empresa	Propósito	Respeta robots.txt	Notas
GPTBot	`GPTBot`	OpenAI	Entrenamiento + recuperación	Sí	Rastreador principal de OpenAI. Propósito dual.
OAI-SearchBot	`OAI-SearchBot`	OpenAI	Recuperación de búsqueda en vivo	Sí	Impulsa la función de búsqueda de ChatGPT.
ChatGPT-User	`ChatGPT-User`	OpenAI	Navegación iniciada por el usuario	Sí	Se activa cuando los usuarios le piden a ChatGPT que visite una URL.
ClaudeBot	`ClaudeBot`	Anthropic	Entrenamiento	Sí	Rastreador principal de Anthropic.
anthropic-ai	`anthropic-ai`	Anthropic	Entrenamiento (legado)	Sí	Identificador más antiguo, todavía aparece en algunos logs.
Google-Extended	`Google-Extended`	Google	Entrenamiento de IA (Gemini)	Sí	Separado de Googlebot. No afecta la búsqueda.
PerplexityBot	`PerplexityBot`	Perplexity	Recuperación en vivo	Sí	Obtiene páginas para respuestas en tiempo real con citas.
Bytespider	`Bytespider`	ByteDance	Entrenamiento	Afirmado	Uno de los rastreadores más agresivos por volumen.
CCBot	`CCBot/2.0`	Common Crawl	Conjunto de datos de entrenamiento	Sí	Conjunto de datos abierto utilizado por muchas empresas de IA.
Applebot-Extended	`Applebot-Extended`	Apple	Apple Intelligence	Sí	Separado del Applebot regular.
cohere-ai	`cohere-ai`	Cohere	Entrenamiento	Sí	Impulsa los modelos de lenguaje de Cohere.
Diffbot	`Diffbot`	Diffbot	Extracción estructurada	Parcial	Extrae datos estructurados para productos de IA.
FacebookExternalHit	`FacebookExternalHit`	Meta	Funciones de Meta AI	Parcial	También se utiliza para la generación de vista previa de enlaces.
ImagesiftBot	`ImagesiftBot`	Hive	Análisis de imágenes	Parcial	Procesa imágenes para clasificación por IA.
Timpibot	`Timpibot`	Timpi	Búsqueda descentralizada	Sí	Jugador más pequeño, presencia creciente.
Amazonbot	`Amazonbot`	Amazon	Alexa AI / compras	Sí	Rastreo de productos y conocimiento.
YouBot	`YouBot`	You.com	Búsqueda + respuestas de IA	Sí	Impulsa la búsqueda de IA de You.com.
PetalBot	`PetalBot`	Huawei	Búsqueda + IA	Sí	Impulsa Huawei Petal Search.

Esta tabla cubre los bots que encontrará con más frecuencia en los logs del servidor. También existen docenas de rastreadores más pequeños y menos documentados de startups de IA e instituciones de investigación. Nos centramos en los que tienen suficiente volumen de tráfico y user-agents identificables para actuar sobre ellos.

GPTBot: El bot del que todos hablan

GPTBot es el rastreador web principal de OpenAI y el bot de IA más discutido desde su divulgación pública en agosto de 2023.

Cadena de user-agent: GPTBot/1.0

Qué hace: GPTBot cumple dos funciones. Primero, rastrea la web para recopilar datos de entrenamiento para los modelos de OpenAI (GPT-4, GPT-5 y sucesores). Segundo, admite la recuperación de contenido en tiempo real para ChatGPT cuando el modelo necesita información fresca. Este propósito dual lo convierte en el bot más difícil sobre el cual tomar decisiones simples de permitir/bloquear.

Comportamiento de rastreo: GPTBot envía solicitudes desde rangos de IP documentados (publicados en openai.com). Su tasa de rastreo varía significativamente según el sitio. Los dominios de alta autoridad con contenido fresco ven múltiples visitas al día. Los sitios más pequeños pueden ver rastreos semanales o menos frecuentes.

Cumplimiento de robots.txt: GPTBot respeta las directivas Disallow de robots.txt. Sin embargo, bloquear GPTBot solo evita futuros rastreos. El contenido ya recopilado antes del bloqueo permanece en los conjuntos de datos de OpenAI.

Qué vigilar: Desde 2024, OpenAI introdujo OAI-SearchBot y ChatGPT-User como rastreadores separados. Si bloquea GPTBot pero no estos dos, ChatGPT todavía puede acceder a su contenido a través de sus funciones de búsqueda y navegación. Para un bloqueo completo de OpenAI, aborde los tres user-agents.

GPTBot es tanto un rastreador de entrenamiento como un rastreador de recuperación. Bloquearlo protege su contenido del uso de entrenamiento, pero también puede reducir su aparición en las respuestas en vivo de ChatGPT. No hay forma de permitir una función mientras se bloquea la otra a través de robots.txt.

ClaudeBot: El rastreador de entrenamiento de Anthropic

ClaudeBot es el rastreador web de Anthropic, utilizado para recopilar datos de entrenamiento para los modelos Claude.

Cadena de user-agent: ClaudeBot/1.0

Qué hace: ClaudeBot rastrea páginas web para construir conjuntos de datos de entrenamiento para Claude. A diferencia de GPTBot, ClaudeBot no tiene actualmente un modo de recuperación en vivo documentado. Su función principal es la recopilación de datos para el entrenamiento de modelos.

Comportamiento de rastreo: ClaudeBot es menos agresivo que GPTBot o Bytespider. Rastrea a ritmos moderados y apunta principalmente a páginas de alta autoridad con mucho texto. Respeta las directivas crawl-delay cuando están presentes.

Cumplimiento de robots.txt: ClaudeBot respeta robots.txt. Anthropic también honra el user-agent anthropic-ai como identificador legado, por lo que las reglas existentes que utilizan esa cadena todavía funcionan.

Qué vigilar: A medida que Anthropic expanda las funciones conectadas a la web de Claude, pueden aparecer rastreadores adicionales. Monitorice sus logs en busca de nuevos user-agents que contengan las cadenas «anthropic» o «claude».

PerplexityBot: El especialista en recuperación

PerplexityBot es diferente de la mayoría de los rastreadores de IA de esta lista. Es principalmente un bot de recuperación, no un bot de entrenamiento.

Cadena de user-agent: PerplexityBot

Qué hace: Cuando un usuario le hace una pregunta a Perplexity, PerplexityBot obtiene las páginas web relevantes en tiempo real, extrae la respuesta y la presenta con citas de la fuente. Su contenido aparece en las respuestas de Perplexity con un enlace de retorno a su sitio. Este es el rastreador de IA que más se acerca al comportamiento tradicional de un motor de búsqueda.

Comportamiento de rastreo: PerplexityBot rastrea bajo demanda, activado por consultas de usuarios en lugar de barridos programados. No mantiene un índice grande. Las páginas de alta visibilidad pueden recibir solicitudes frecuentes; las páginas de nicho solo se obtienen cuando alguien hace una pregunta coincidente.

Cumplimiento de robots.txt: PerplexityBot respeta robots.txt. Bloquearlo elimina su contenido de las respuestas de Perplexity, lo que significa perder tanto la citación como el tráfico de referencia.

PerplexityBot es el único rastreador de IA donde el bloqueo tiene un costo inmediato y visible. A diferencia de los bots de entrenamiento, PerplexityBot proporciona atribución en tiempo real y enlaces de referencia. Bloquearlo es bloquear una fuente de tráfico.

Google-Extended: Separando la búsqueda del entrenamiento de IA

Google-Extended es una de las distinciones más importantes en el mundo de los rastreadores de IA y una de las más frecuentemente malinterpretadas.

Cadena de user-agent: Google-Extended

Qué hace: Google-Extended rastrea su contenido específicamente para el entrenamiento de modelos de IA (Gemini). Es completamente independiente de Googlebot, que maneja la indexación de búsqueda tradicional y Google AI Overviews.

La distinción crítica: Bloquear Google-Extended NO afecta sus posiciones en la búsqueda de Google. NO elimina su contenido de Google AI Overviews. Solo evita que su contenido se utilice en el entrenamiento del modelo Gemini. Bloquear Googlebot, por otro lado, le elimina por completo de la búsqueda de Google. Esta confusión ha causado daños reales. Propietarios de sitios que pretendían bloquear el entrenamiento de IA han bloqueado accidentalmente Googlebot, acabando con su visibilidad en búsqueda de la noche a la mañana.

Comportamiento de rastreo: Google-Extended rastrea a tasas determinadas por la infraestructura de Google. No puede controlar su frecuencia a través de robots.txt más allá de permitirlo o bloquearlo por completo.

Bytespider: El rastreador de entrenamiento de alto volumen

Bytespider es el rastreador web de ByteDance y uno de los bots más agresivos de internet por volumen de solicitudes.

Cadena de user-agent: Bytespider

Qué hace: Bytespider recopila datos de entrenamiento para los productos de IA de ByteDance. Rastrea en grandes volúmenes a través de millones de sitios.

Comportamiento de rastreo: Múltiples informes de operadores de sitios documentan a Bytespider haciendo decenas de miles de solicitudes por día a sitios individuales. Ha sido señalado por ignorar las directivas crawl-delay y consumir recursos desproporcionados del servidor. Algunos proveedores de alojamiento han añadido Bytespider a las listas de bloqueo por defecto debido a preocupaciones sobre el ancho de banda.

Cumplimiento de robots.txt: ByteDance afirma que Bytespider respeta robots.txt. En la práctica, los informes de cumplimiento son mixtos. Algunos propietarios de sitios informan de rastreo continuo después de añadir reglas Disallow, aunque esto puede reflejar retrasos en la caché en lugar de incumplimiento intencional.

Bytespider es el único rastreador donde el bloqueo se recomienda casi universalmente. No proporciona ningún beneficio directo de visibilidad para consultas en inglés, y su tasa agresiva de rastreo consume recursos del servidor. Bloquéelo a menos que tenga una razón específica para no hacerlo.

CCBot: El rastreador del conjunto de datos abierto

CCBot impulsa Common Crawl, una organización sin fines de lucro que mantiene uno de los archivos web abiertos más grandes del mundo.

Cadena de user-agent: CCBot/2.0

Qué hace: CCBot rastrea la web para construir el conjunto de datos de Common Crawl, un enorme archivo abierto que muchas empresas de IA utilizan como datos de entrenamiento. Cuando los informes dicen que los modelos de IA fueron «entrenados con internet», Common Crawl es a menudo la fuente principal de datos.

Por qué importa para la IA: Bloquear CCBot no solo afecta a Common Crawl. Reduce la posibilidad de que su contenido aparezca en cualquier modelo de IA que utilice Common Crawl como fuente de entrenamiento, lo que incluye un gran número de modelos de código abierto y comerciales.

Cumplimiento de robots.txt: CCBot respeta robots.txt.

Applebot-Extended: Apple Intelligence

Applebot-Extended es el rastreador específico de IA de Apple, separado del Applebot estándar utilizado para Siri y las sugerencias de Safari.

Cadena de user-agent: Applebot-Extended

Qué hace: Applebot-Extended recopila datos para las funciones de Apple Intelligence, incluyendo las capacidades de IA en dispositivos en las versiones recientes de iOS y macOS.

Comportamiento de rastreo: Menos agresivo que la mayoría de los otros rastreadores de IA. Apple ha sido históricamente conservador con las tasas de rastreo.

Cumplimiento de robots.txt: Respeta robots.txt. Apple tiene documentación clara sobre cómo permitir o bloquear Applebot-Extended independientemente del Applebot estándar.

Cómo monitorizar la actividad de los rastreadores de IA en su sitio

Saber qué bots existen es el paso uno. Saber cuáles visitan realmente su sitio es el paso dos. Aquí está cómo monitorizar de forma eficaz.

Análisis de logs del servidor

Los logs de acceso de su servidor web contienen un campo user-agent para cada solicitud. Filtre por los user-agents conocidos de rastreadores de IA:

grep -E "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Google-Extended|OAI-SearchBot" /var/log/access.log | awk '{print $14}' | sort | uniq -c | sort -rn

Esto le da un recuento de solicitudes por bot, ordenado por frecuencia. Ejecútelo semanalmente para detectar tendencias y captar nuevas llegadas.

Qué buscar

Picos de volumen inesperados. Si un bot de repente comienza a hacer 10 veces más solicitudes de lo habitual, investigue. Podría significar un cambio en la configuración de rastreo en su lado, o podría ser un nuevo bot que suplanta a un user-agent conocido.

Nuevas cadenas de user-agent. Las empresas de IA lanzan nuevos rastreadores sin siempre anunciarlos. Cualquier user-agent que no reconozca y que haga solicitudes repetidas a páginas de contenido (no solo a robots.txt) merece ser investigado.

Bots bloqueados que todavía rastrean. Si añadió una regla Disallow para un bot específico pero todavía lo ve en sus logs, compruebe si su CDN está almacenando en caché el robots.txt antiguo. También verifique que el bot coincida con la cadena de user-agent correcta en sus reglas.

Ratio de rastreo a visibilidad. Algunos bots rastrean mucho pero no producen resultados visibles. Su contenido nunca aparece en su plataforma. Esto es una señal de rastreo de entrenamiento puro sin beneficio de recuperación.

Monitorice sus logs mensualmente como mínimo. El panorama de los rastreadores de IA cambia lo suficientemente rápido como para que un conjunto de reglas de hace tres meses pueda tener lagunas. Aparecen nuevos bots, los existentes cambian de comportamiento y los rastreadores que antes se comportaban bien ocasionalmente se descontrolan.

Rastreadores que podría no conocer

Más allá de los jugadores principales, varios rastreadores de IA menos conocidos valen la pena ser rastreados.

YouBot (You.com): Impulsa el motor de búsqueda de IA You.com. Tasas de rastreo moderadas. Proporciona citas en los resultados de búsqueda. Bloquearlo le elimina de las respuestas de You.com.

PetalBot (Huawei): Rastrea para Huawei Petal Search, que tiene una cuota de mercado significativa en regiones donde Google no está disponible. Relevante si su audiencia incluye usuarios en China o ciertas partes de Asia.

Amazonbot (Amazon): Rastrea para las funciones de Alexa AI y el conocimiento de productos de Amazon. Relevante para las marcas de comercio electrónico que quieren aparecer en las respuestas de los asistentes de voz.

cohere-ai (Cohere): Rastrea datos de entrenamiento para los modelos de IA empresariales de Cohere. Muchas aplicaciones B2B se construyen sobre Cohere, por lo que su contenido puede aparecer en herramientas empresariales incluso si no interactúa directamente con Cohere.

Diffbot (Diffbot): Extrae datos estructurados de páginas web para su uso en grafos de conocimiento y productos de IA. No rastrea para entrenamiento de texto bruto, sino para extracción de entidades y mapeo de relaciones.

Una plantilla recomendada de robots.txt

Basándose en los bots documentados arriba, aquí hay una plantilla inicial que maximiza la visibilidad en IA mientras bloquea los rastreadores agresivos exclusivamente de entrenamiento:

# Motores de búsqueda
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Rastreadores de IA: permitidos (proporcionan visibilidad o atribución)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Rastreadores de IA: bloqueados (agresivos, sin beneficio directo de visibilidad)
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Por defecto
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/

Sitemap: https://yoursite.com/sitemap.xml

Personalice según sus prioridades. Si la protección del contenido importa más que la visibilidad, mueva GPTBot y ClaudeBot a la sección bloqueada. Si el objetivo es el alcance máximo, deje todo abierto y acepte el coste en ancho de banda.

Para una guía de configuración detallada, pasos de prueba y prevención de errores comunes, consulte nuestra guía de robots.txt para rastreadores de IA.

Lo que viene a continuación

El ecosistema de rastreadores de IA todavía es joven. Aparecerán nuevos bots cada trimestre. Los existentes cambiarán de nombres, fusionarán capacidades o se dividirán en variantes más especializadas. Las empresas detrás de ellos anunciarán algunos cambios públicamente y harán otros silenciosamente.

Su trabajo no es memorizar cada bot. Su trabajo es tener un sistema: una plantilla de robots.txt que refleje su estrategia, un proceso de monitorización que detecte nuevas llegadas y un ciclo de revisión trimestral que mantenga sus reglas actualizadas.

Las marcas que hagan esto bien controlarán cómo fluye su contenido hacia los sistemas de IA. Las que lo ignoren tendrán esa decisión tomada por ellos, por bots que nunca supieron que existían.

Ver también: E-E-A-T y visibilidad en IA: por qué el marco de calidad de Google importa para el GEO