Quantos crawlers de IA estão ativamente varrendo a web em 2026?

No início de 2026, existem mais de 30 crawlers de IA identificados de grandes empresas e dezenas de bots menores e não documentados. Os principais incluem GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, CCBot e Applebot-Extended. O cenário cresce a cada trimestre.

Como posso identificar crawlers de IA nos logs do meu servidor?

Os crawlers de IA se identificam por meio de strings de user-agent nos cabeçalhos de requisição HTTP. Procure strings contendo GPTBot, ClaudeBot, PerplexityBot, Bytespider, CCBot ou Google-Extended nos seus logs de acesso. Alguns crawlers também têm faixas de IP documentadas que você pode cruzar.

Todos os crawlers de IA usam meu conteúdo para treinamento?

Não. Os crawlers de IA servem a propósitos diferentes. Alguns rastreiam para treinamento de modelos (Google-Extended, CCBot), alguns para geração aumentada por recuperação ao vivo (PerplexityBot, OAI-SearchBot) e alguns para ambos. Entender a distinção ajuda você a tomar decisões informadas sobre quais bots permitir ou bloquear.

Quais crawlers de IA respeitam o robots.txt?

GPTBot, ClaudeBot, Google-Extended, PerplexityBot e Applebot-Extended respeitam oficialmente o robots.txt. Bytespider e CCBot também afirmam conformidade, embora a aplicação varie. Bots menores podem não respeitar. Monitorar seus logs é a única maneira de verificar.

Com que frequência devo atualizar minha lista de bloqueio de crawlers de IA?

Revise trimestralmente, no mínimo. Novas empresas de IA lançam crawlers regularmente, e bots existentes mudam suas strings de user-agent ou comportamento sem aviso. Defina um lembrete no calendário para auditar seu robots.txt a cada três meses.

Lista de Crawlers de IA 2026: Cada Bot Que Varre o Seu Site (e o Que Eles Fazem)

O Tráfego Invisível Consumindo Sua Banda

Os logs do seu servidor contam uma história que a maioria dos proprietários de sites nunca lê. Em algum lugar entre o Googlebot e o scraper ocasional, uma nova categoria de tráfego se tornou silenciosamente uma das maiores consumidoras da sua banda: os crawlers de IA.

Esses bots não estão indexando suas páginas para uma página de resultados de mecanismo de busca. Eles leem seu conteúdo para que os modelos de IA possam aprender com ele, citá-lo ou parafraseá-lo ao responder às consultas dos usuários. Alguns fazem isso para treinamento, ingerindo seu texto para melhorar um grande modelo de linguagem. Outros fazem isso para recuperação ao vivo, buscando suas páginas em tempo real quando um usuário faz uma pergunta que seu conteúdo pode responder. A diferença entre esses dois propósitos tem implicações reais para o seu negócio, seu tráfego e sua posição competitiva.

O cenário dos crawlers de IA é fragmentado, mal documentado e muda rapidamente. O GPTBot foi lançado em agosto de 2023 e já passou por múltiplas mudanças comportamentais. O ClaudeBot apareceu pouco depois. O Bytespider é um dos crawlers mais agressivos da web. E esses são apenas os bem conhecidos.

Este artigo é uma referência viva. Documentamos cada crawler de IA conhecido ativo em 2026: sua string de user-agent, empresa-mãe, o que faz com seu conteúdo, se respeita robots.txt e com que agressividade rastreia.

Veja também: Como Configurar robots.txt para Crawlers de IA (Sem Bloquear o Google)

Bots de Treinamento vs. Bots de Recuperação: Por Que a Distinção Importa

Antes de listar cada crawler, você precisa entender as duas categorias primárias. Essa distinção molda cada decisão que você toma sobre permitir ou bloquear bots de IA.

Crawlers de treinamento coletam conteúdo da web para construir ou melhorar modelos de IA. Seu texto vai para um conjunto de dados de treinamento, é processado e se torna parte do modelo. Uma vez treinado, o modelo não precisa visitar seu site novamente para referenciar essa informação. Você não recebe tráfego, nem atribuição, nem link de volta. Exemplos: GPTBot (modo de treinamento), Google-Extended, CCBot, Bytespider.

Crawlers de recuperação buscam seu conteúdo em tempo real quando um usuário faz uma pergunta. A plataforma de IA envia um bot à sua página, lê a seção relevante e a inclui (frequentemente com uma citação) na resposta gerada. Isso é mais próximo de como os motores de busca funcionam, exceto que o usuário vê uma resposta sintetizada em vez de uma lista de links. Exemplos: PerplexityBot, OAI-SearchBot, ChatGPT-User.

Alguns bots servem a ambos os propósitos. O GPTBot rastreia para dados de treinamento e também suporta recuperação ao vivo para o ChatGPT. Esse papel duplo torna as decisões de bloqueio complicadas. Bloquear o GPTBot protege seu conteúdo do uso em treinamento, mas também pode reduzir sua visibilidade em respostas ao vivo do ChatGPT.

Bots de treinamento levam seu conteúdo para construir seus modelos. Bots de recuperação buscam seu conteúdo para responder a perguntas específicas, às vezes com atribuição. O primeiro custa banda sem retorno. O segundo pode gerar reconhecimento de marca. Sua estratégia de robots.txt deve refletir essa diferença.

A Tabela Completa de Referência de Crawlers de IA

Aqui está cada crawler de IA importante ativo em 2026. Para cada bot, listamos a string de user-agent, empresa-mãe, propósito primário, conformidade com robots.txt e notas de comportamento de rastreamento.

Nome do Bot	User-Agent	Empresa	Propósito	Respeita robots.txt	Notas
GPTBot	`GPTBot`	OpenAI	Treinamento + recuperação	Sim	Crawler primário da OpenAI. Duplo propósito.
OAI-SearchBot	`OAI-SearchBot`	OpenAI	Recuperação de busca ao vivo	Sim	Alimenta o recurso de busca do ChatGPT.
ChatGPT-User	`ChatGPT-User`	OpenAI	Navegação iniciada pelo usuário	Sim	Ativa quando os usuários pedem ao ChatGPT para visitar uma URL.
ClaudeBot	`ClaudeBot`	Anthropic	Treinamento	Sim	Crawler primário da Anthropic.
anthropic-ai	`anthropic-ai`	Anthropic	Treinamento (legado)	Sim	Identificador mais antigo, ainda aparece em alguns logs.
Google-Extended	`Google-Extended`	Google	Treinamento de IA (Gemini)	Sim	Separado do Googlebot. Não afeta a busca.
PerplexityBot	`PerplexityBot`	Perplexity	Recuperação ao vivo	Sim	Busca páginas para respostas em tempo real com citações.
Bytespider	`Bytespider`	ByteDance	Treinamento	Afirmado	Um dos crawlers mais agressivos por volume.
CCBot	`CCBot/2.0`	Common Crawl	Conjunto de dados de treinamento	Sim	Conjunto de dados aberto usado por muitas empresas de IA.
Applebot-Extended	`Applebot-Extended`	Apple	Apple Intelligence	Sim	Separado do Applebot regular.
cohere-ai	`cohere-ai`	Cohere	Treinamento	Sim	Alimenta os modelos de linguagem da Cohere.
Diffbot	`Diffbot`	Diffbot	Extração estruturada	Parcial	Extrai dados estruturados para produtos de IA.
FacebookExternalHit	`FacebookExternalHit`	Meta	Recursos de Meta AI	Parcial	Também usado para geração de pré-visualização de links.
ImagesiftBot	`ImagesiftBot`	Hive	Análise de imagens	Parcial	Processa imagens para classificação por IA.
Timpibot	`Timpibot`	Timpi	Busca descentralizada	Sim	Player menor, presença crescente.
Amazonbot	`Amazonbot`	Amazon	Alexa AI / compras	Sim	Rastreamento de produtos e conhecimento.
YouBot	`YouBot`	You.com	Busca + respostas de IA	Sim	Alimenta a busca com IA do You.com.
PetalBot	`PetalBot`	Huawei	Busca + IA	Sim	Alimenta o Huawei Petal Search.

Esta tabela cobre os bots que você mais comumente encontrará nos logs do servidor. Dezenas de crawlers menores e menos documentados também existem, vindos de startups de IA e instituições de pesquisa. Focamos nos que têm volume de tráfego suficiente e user-agents identificáveis para agir.

GPTBot: O Bot do Qual Todo Mundo Fala

O GPTBot é o principal crawler web da OpenAI e o bot de IA mais discutido desde sua divulgação pública em agosto de 2023.

String de user-agent: GPTBot/1.0

O que ele faz: O GPTBot serve a duas funções. Primeiro, ele rastreia a web para coletar dados de treinamento para os modelos da OpenAI (GPT-4, GPT-5 e sucessores). Segundo, ele suporta recuperação de conteúdo em tempo real para o ChatGPT quando o modelo precisa de informações frescas. Esse propósito duplo o torna o bot mais difícil para tomar decisões simples de permitir/bloquear.

Comportamento de rastreamento: O GPTBot envia requisições de faixas de IP documentadas (publicadas em openai.com). Sua taxa de rastreamento varia significativamente por site. Domínios de alta autoridade com conteúdo fresco veem múltiplas visitas por dia. Sites menores podem ver rastreamentos semanais ou menos frequentes.

Conformidade com robots.txt: O GPTBot respeita diretivas Disallow do robots.txt. No entanto, bloquear o GPTBot só impede rastreamentos futuros. Conteúdo já coletado antes do bloqueio permanece nos conjuntos de dados da OpenAI.

O que observar: Desde 2024, a OpenAI introduziu o OAI-SearchBot e o ChatGPT-User como crawlers separados. Se você bloquear o GPTBot, mas não esses dois, o ChatGPT ainda pode acessar seu conteúdo através dos seus recursos de busca e navegação. Para bloqueio total da OpenAI, aborde os três user-agents.

O GPTBot é ao mesmo tempo um crawler de treinamento e um crawler de recuperação. Bloqueá-lo protege seu conteúdo do uso em treinamento, mas também pode reduzir sua aparição nas respostas ao vivo do ChatGPT. Não há como permitir uma função enquanto bloqueia a outra através do robots.txt.

ClaudeBot: O Crawler de Treinamento da Anthropic

O ClaudeBot é o crawler web da Anthropic, usado para coletar dados de treinamento para os modelos Claude.

String de user-agent: ClaudeBot/1.0

O que ele faz: O ClaudeBot rastreia páginas web para construir conjuntos de dados de treinamento para o Claude. Ao contrário do GPTBot, o ClaudeBot atualmente não possui um modo de recuperação ao vivo documentado. Sua função principal é coleta de dados para treinamento do modelo.

Comportamento de rastreamento: O ClaudeBot é menos agressivo do que o GPTBot ou o Bytespider. Ele rastreia em taxas moderadas e visa principalmente páginas ricas em texto e de alta autoridade. Respeita diretivas crawl-delay quando presentes.

Conformidade com robots.txt: O ClaudeBot respeita o robots.txt. A Anthropic também honra o user-agent anthropic-ai como identificador legado, então as regras existentes usando essa string ainda funcionam.

O que observar: Conforme a Anthropic expande os recursos conectados à web do Claude, crawlers adicionais podem aparecer. Monitore seus logs em busca de quaisquer novos user-agents contendo as strings "anthropic" ou "claude".

PerplexityBot: O Especialista em Recuperação

O PerplexityBot é diferente da maioria dos crawlers de IA nesta lista. Ele é principalmente um bot de recuperação, não um bot de treinamento.

String de user-agent: PerplexityBot

O que ele faz: Quando um usuário faz uma pergunta ao Perplexity, o PerplexityBot busca páginas web relevantes em tempo real, extrai a resposta e a apresenta com citações de origem. Seu conteúdo aparece nas respostas do Perplexity com um link de volta para o seu site. Esse é o comportamento mais próximo de qualquer crawler de IA em relação ao comportamento tradicional de motor de busca.

Comportamento de rastreamento: O PerplexityBot rastreia sob demanda, acionado por consultas de usuários em vez de varreduras agendadas. Ele não mantém um grande índice. Páginas de alta visibilidade podem receber requisições frequentes; páginas de nicho só são buscadas quando alguém faz uma pergunta correspondente.

Conformidade com robots.txt: O PerplexityBot respeita o robots.txt. Bloqueá-lo remove seu conteúdo das respostas do Perplexity, o que significa perder tanto a citação quanto o tráfego de referência.

O PerplexityBot é o único crawler de IA onde bloquear tem um custo imediato e visível. Ao contrário dos bots de treinamento, o PerplexityBot fornece atribuição em tempo real e links de referência. Bloqueá-lo é bloquear uma fonte de tráfego.

Google-Extended: Separando a Busca do Treinamento de IA

O Google-Extended é uma das distinções mais importantes no mundo dos crawlers de IA e uma das mais frequentemente mal compreendidas.

String de user-agent: Google-Extended

O que ele faz: O Google-Extended rastreia seu conteúdo especificamente para treinamento de modelo de IA (Gemini). Ele é completamente separado do Googlebot, que lida com a indexação de busca tradicional e com os Google AI Overviews.

A distinção crítica: Bloquear o Google-Extended NÃO afeta seus rankings de busca do Google. Ele NÃO remove seu conteúdo dos Google AI Overviews. Ele apenas impede que seu conteúdo seja usado no treinamento do modelo Gemini. Bloquear o Googlebot, por outro lado, remove você completamente da busca do Google. Essa confusão causou dano real. Proprietários de sites que pretendiam bloquear o treinamento de IA acidentalmente bloquearam o Googlebot, matando sua visibilidade de busca da noite para o dia.

Comportamento de rastreamento: O Google-Extended rastreia em taxas determinadas pela infraestrutura do Google. Você não pode controlar sua frequência através do robots.txt além de permitir ou bloquear completamente.

Bytespider: O Crawler de Treinamento de Alto Volume

O Bytespider é o crawler web da ByteDance e um dos bots mais agressivos da internet em volume de requisições.

String de user-agent: Bytespider

O que ele faz: O Bytespider coleta dados de treinamento para produtos de IA da ByteDance. Ele rastreia em altos volumes em milhões de sites.

Comportamento de rastreamento: Múltiplos relatos de operadores de sites documentam o Bytespider fazendo dezenas de milhares de requisições por dia a sites individuais. Ele foi sinalizado por ignorar diretivas crawl-delay e consumir recursos desproporcionais do servidor. Alguns provedores de hospedagem adicionaram o Bytespider às listas de bloqueio padrão devido a preocupações com banda.

Conformidade com robots.txt: A ByteDance afirma que o Bytespider respeita o robots.txt. Na prática, os relatos de conformidade são mistos. Alguns proprietários de sites relatam rastreamento contínuo após adicionar regras Disallow, embora isso possa refletir atrasos de cache em vez de não conformidade intencional.

O Bytespider é o único crawler onde o bloqueio é quase universalmente recomendado. Ele não fornece benefício direto de visibilidade para consultas em inglês, e sua taxa agressiva de rastreamento consome recursos do servidor. Bloqueie-o, a menos que tenha uma razão específica para não fazê-lo.

CCBot: O Crawler do Conjunto de Dados Aberto

O CCBot alimenta o Common Crawl, uma organização sem fins lucrativos que mantém um dos maiores arquivos web abertos do mundo.

String de user-agent: CCBot/2.0

O que ele faz: O CCBot rastreia a web para construir o conjunto de dados do Common Crawl, um enorme arquivo aberto que muitas empresas de IA usam como dados de treinamento. Quando os relatos dizem que os modelos de IA foram "treinados na internet", o Common Crawl é frequentemente a fonte de dados primária.

Por que ele importa para IA: Bloquear o CCBot não afeta apenas o Common Crawl. Reduz a chance de seu conteúdo aparecer em qualquer modelo de IA que use o Common Crawl como fonte de treinamento, o que inclui um grande número de modelos de código aberto e comerciais.

Conformidade com robots.txt: O CCBot respeita o robots.txt.

Applebot-Extended: Apple Intelligence

O Applebot-Extended é o crawler específico de IA da Apple, separado do Applebot padrão usado para sugestões da Siri e do Safari.

String de user-agent: Applebot-Extended

O que ele faz: O Applebot-Extended coleta dados para recursos da Apple Intelligence, incluindo capacidades de IA em dispositivo nas versões recentes do iOS e macOS.

Comportamento de rastreamento: Menos agressivo do que a maioria dos outros crawlers de IA. A Apple tem sido historicamente conservadora com taxas de rastreamento.

Conformidade com robots.txt: Respeita o robots.txt. A Apple tem documentação clara sobre permitir ou bloquear o Applebot-Extended independentemente do Applebot padrão.

Como Monitorar a Atividade de Crawlers de IA no Seu Site

Saber quais bots existem é o passo um. Saber quais realmente visitam seu site é o passo dois. Veja como monitorar de forma eficaz.

Análise de Logs do Servidor

Os logs de acesso do seu servidor web contêm um campo user-agent para cada requisição. Filtre por user-agents de crawlers de IA conhecidos:

grep -E "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Google-Extended|OAI-SearchBot" /var/log/access.log | awk '{print $14}' | sort | uniq -c | sort -rn

Isso fornece uma contagem de requisições por bot, ordenada por frequência. Execute semanalmente para identificar tendências e captar novas chegadas.

O Que Procurar

Picos inesperados de volume. Se um bot de repente começar a fazer 10x mais requisições do que o usual, investigue. Pode significar uma mudança na configuração de rastreamento do lado deles, ou pode ser um novo bot falsificando um user-agent conhecido.

Novas strings de user-agent. Empresas de IA lançam novos crawlers sem sempre anunciá-los. Qualquer user-agent que você não reconhece e que faz requisições repetidas a páginas de conteúdo (não apenas robots.txt) vale a pena investigar.

Bots bloqueados ainda rastreando. Se você adicionou uma regra Disallow para um bot específico, mas ainda o vê nos seus logs, verifique se sua CDN está armazenando em cache o robots.txt antigo. Também verifique se o bot está combinando a string de user-agent correta nas suas regras.

Proporção rastreamento-visibilidade. Alguns bots rastreiam bastante, mas não produzem saída visível. Seu conteúdo nunca aparece na plataforma deles. Isso é um sinal de rastreamento puro de treinamento sem benefício de recuperação.

Monitore seus logs mensalmente, no mínimo. O cenário dos crawlers de IA muda rápido o suficiente para que um conjunto de regras de três meses atrás possa ter lacunas. Novos bots aparecem, os existentes mudam de comportamento e crawlers anteriormente bem-comportados ocasionalmente saem do controle.

Crawlers Dos Quais Você Pode Não Saber

Além dos grandes players, vários crawlers de IA menos conhecidos vale a pena rastrear.

YouBot (You.com): Alimenta o motor de busca com IA do You.com. Taxas de rastreamento moderadas. Fornece citações nos resultados de busca. Bloqueá-lo remove você das respostas do You.com.

PetalBot (Huawei): Rastreia para o Huawei Petal Search, que tem participação significativa de mercado em regiões onde o Google não está disponível. Relevante se seu público inclui usuários na China ou em certas partes da Ásia.

Amazonbot (Amazon): Rastreia para recursos da Alexa AI e conhecimento de produtos da Amazon. Relevante para marcas de e-commerce que querem aparecer nas respostas de assistentes de voz.

cohere-ai (Cohere): Rastreia dados de treinamento para os modelos corporativos de IA da Cohere. Muitas aplicações B2B são construídas sobre a Cohere, então seu conteúdo pode aparecer em ferramentas corporativas mesmo que você não interaja diretamente com a Cohere.

Diffbot (Diffbot): Extrai dados estruturados de páginas web para uso em grafos de conhecimento e produtos de IA. Não rastreia para treinamento de texto bruto, mas sim para extração de entidades e mapeamento de relacionamentos.

Um Template Recomendado de robots.txt

Com base nos bots documentados acima, aqui está um template inicial que maximiza a visibilidade em IA enquanto bloqueia crawlers agressivos de apenas treinamento:

# Motores de busca
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Crawlers de IA: permitidos (fornecem visibilidade ou atribuição)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Crawlers de IA: bloqueados (agressivos, sem benefício direto de visibilidade)
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Padrão
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/

Sitemap: https://yoursite.com/sitemap.xml

Personalize com base nas suas prioridades. Se a proteção de conteúdo importa mais do que a visibilidade, mova o GPTBot e o ClaudeBot para a seção bloqueada. Se o alcance máximo é o objetivo, deixe tudo aberto e aceite o custo de banda.

Para orientações detalhadas de configuração, passos de teste e prevenção de erros comuns, consulte nosso guia de robots.txt para crawlers de IA.

O Que Vem a Seguir

O ecossistema de crawlers de IA ainda é jovem. Novos bots aparecerão a cada trimestre. Os existentes mudarão de nome, mesclarão capacidades ou se dividirão em variantes mais especializadas. As empresas por trás deles anunciarão algumas mudanças publicamente e farão outras silenciosamente.

Seu trabalho não é memorizar cada bot. Seu trabalho é ter um sistema: um template de robots.txt que reflita sua estratégia, um processo de monitoramento que capte novas chegadas e um ciclo de revisão trimestral que mantenha suas regras atuais.

As marcas que acertam isso controlarão como seu conteúdo flui para os sistemas de IA. As que o ignoram terão essa decisão tomada por elas, por bots que nunca souberam que existiam.

Veja também: E-E-A-T e Visibilidade em IA: Por que o Framework de Qualidade do Google Importa para o GEO