Os crawlers de IA respeitam o robots.txt?

A maioria dos grandes crawlers de IA respeita as diretivas do robots.txt. GPTBot, ClaudeBot e Google-Extended honram as regras Disallow. No entanto, nem todos os bots de IA são igualmente obedientes. Monitorar os logs do seu servidor é a única forma de verificar a conformidade real.

Bloquear o GPTBot vai remover meu conteúdo do ChatGPT?

Bloquear o GPTBot impede que a OpenAI rastreie seu site para futuros dados de treinamento e recuperação ao vivo. No entanto, conteúdo que já está no conjunto de treinamento permanecerá. A diretiva olha para o futuro: ela interrompe novos rastreamentos, não remove dados retroativamente.

Posso permitir o Google AI Overviews mas bloquear o ChatGPT?

Sim. O Google AI Overviews usa o Googlebot, que é separado do Google-Extended. Você pode bloquear o GPTBot especificamente enquanto mantém o Googlebot permitido. Isso deixa seu conteúdo aparecer em AI Overviews e na busca tradicional, ao mesmo tempo em que impede a OpenAI de rastrear suas páginas.

O que acontece se eu não tiver regras para crawlers de IA no robots.txt?

Se o seu robots.txt não mencionar um crawler de IA específico, o bot recai para suas regras gerais. Se você não tiver um Disallow com wildcard, o bot pode rastrear tudo. Isso é ótimo para muitos sites, já que significa visibilidade máxima em IA.

Devo bloquear crawlers de IA para proteger meu conteúdo?

Depende dos seus objetivos. Bloquear protege o conteúdo do treinamento de modelos, mas remove sua marca das respostas geradas por IA. Para a maioria das marcas, o benefício em visibilidade supera o risco. Uma abordagem seletiva funciona melhor para quem quer tanto proteção quanto presença.

Como Configurar robots.txt para Crawlers de IA (Sem Bloquear o Google)

O Arquivo robots.txt Acabou de se Tornar uma Decisão Estratégica

Durante a maior parte de sua história, o robots.txt era um arquivo de organização interna. Você bloqueava o acesso de crawlers a páginas de admin, ambientes de staging e caminhos de conteúdo duplicado. Se errasse em algo, perdia algumas páginas do índice do Google. Chato, mas resolvível dentro de um ciclo de rastreamento.

Essa dinâmica mudou quando as empresas de IA começaram a enviar crawlers pela web. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Cada um deles verifica seu robots.txt antes de decidir se vai ler suas páginas. Seu robots.txt não é mais apenas sobre indexação em mecanismos de busca. Ele é a porta de entrada para a visibilidade em IA. Erre, e você desaparece silenciosamente das respostas geradas por IA. Erre sem cuidado, e você bloqueia o Googlebot no processo.

Seu robots.txt agora é uma decisão de negócio, não uma tarefa técnica. Cada regra Disallow que você escreve determina se sua marca aparece em respostas de IA no ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok e Google AI Overviews — ou desaparece delas.

A parte complicada: crawlers de IA e crawlers tradicionais de busca usam o mesmo mecanismo de acesso, mas servem a propósitos diferentes. O Googlebot indexa páginas para resultados de busca. O GPTBot lê conteúdo para treinamento de modelo e recuperação em tempo real. O Google-Extended cuida dos dados de treinamento de IA separadamente da indexação de busca regular. Bloquear o user-agent errado tem consequências que você não planejou.

Este guia cobre cada string de user-agent dos principais crawlers de IA, mostra configurações exatas de robots.txt para cenários comuns e destaca os erros que custam visibilidade aos sites.

Veja também: Lista de Crawlers de IA 2026: Cada Bot Que Varre o Seu Site (e o Que Eles Fazem)

O Que o robots.txt Realmente Controla (e o Que Não Controla)

Antes de escrever regras para bots de IA, entenda os limites do que este arquivo pode fazer.

O robots.txt é um protocolo voluntário. Ele diz aos crawlers quais caminhos eles não devem acessar. A palavra "devem" é importante aqui. Crawlers obedientes leem o arquivo e seguem as regras. Os não obedientes ignoram. Não há mecanismo de imposição embutido no protocolo.

Para a busca tradicional, isso raramente era um problema. Googlebot e Bingbot respeitam o robots.txt de forma confiável. Scrapers mal-intencionados sempre ignoraram, e isso era aceito como o custo de estar na web aberta.

O que o robots.txt controla

Quais caminhos de URL um crawler específico pode acessar
Quais caminhos de URL estão fora dos limites para todos os crawlers via regras com wildcard
Localização do sitemap (informativo, não uma diretiva)

O que o robots.txt NÃO controla

Se o conteúdo já rastreado será removido dos conjuntos de treinamento
Como um bot usa o conteúdo que coletou antes de sua regra existir
Taxa ou frequência de rastreamento (a diretiva Crawl-delay existe, mas nem todos os bots a respeitam)
Acesso de bots que não se identificam ou falsificam seu user-agent
Seu conteúdo em sites de terceiros, redes sociais ou feeds sindicados

O robots.txt olha para o futuro, não é retroativo. Se o GPTBot rastreou seu site no mês passado, adicionar um Disallow hoje interrompe futuras visitas. Ele não apaga o que já foi coletado. Para remoção retroativa, você precisa contatar a empresa de IA diretamente.

Essa distinção importa. Muitos donos de sites bloqueiam crawlers de IA esperando que seu conteúdo desapareça das respostas do ChatGPT ou Perplexity. Não vai desaparecer. O bloqueio só impede novas visitas de rastreamento daqui para frente.

User-Agents de Crawlers de IA: A Referência Completa

Cada empresa de IA usa uma ou mais strings de user-agent para identificar seus crawlers. Você precisa dessas strings para escrever regras de robots.txt direcionadas. Aqui está todo grande crawler de IA ativo em 2026.

OpenAI

Bot	String de User-Agent	Propósito
GPTBot	`GPTBot`	Dados de treinamento + recuperação ao vivo para o ChatGPT
OAI-SearchBot	`OAI-SearchBot`	Busca web em tempo real para o recurso de busca do ChatGPT
ChatGPT-User	`ChatGPT-User`	Modo de navegação (visitas de URL iniciadas pelo usuário)

O GPTBot é o crawler principal. O OAI-SearchBot lida com consultas de busca em tempo real dentro do ChatGPT. O ChatGPT-User é ativado quando alguém pede explicitamente para o ChatGPT navegar em uma página específica. Bloquear apenas o GPTBot não bloqueia todo o acesso da OpenAI. Você precisa endereçar os três user-agents separadamente.

Anthropic

Bot	String de User-Agent	Propósito
ClaudeBot	`ClaudeBot`	Coleta de dados de treinamento para os modelos Claude
anthropic-ai	`anthropic-ai`	Identificador de crawler mais antigo da Anthropic

O ClaudeBot é o crawler principal atual. O identificador anthropic-ai é mais antigo e aparece com menos frequência nos logs, mas ainda surge em alguns sites.

Google

Bot	String de User-Agent	Propósito
Google-Extended	`Google-Extended`	Dados de treinamento de IA para o Gemini, separados da busca
Googlebot	`Googlebot`	Indexação de busca tradicional + AI Overviews

Esse par é o mais mal compreendido. O Googlebot cuida tanto da indexação tradicional de busca quanto do Google AI Overviews. O Google-Extended cuida apenas do treinamento do modelo de IA. Bloquear o Google-Extended não afeta suas posições na busca nem sua aparição no AI Overviews. Bloquear o Googlebot destrói toda a sua presença na busca do Google. Saiba qual dos dois você quer bloquear.

Perplexity

Bot	String de User-Agent	Propósito
PerplexityBot	`PerplexityBot`	Recuperação em tempo real para respostas do Perplexity

O PerplexityBot rastreia para recuperação ao vivo, não para treinamento em massa. Ele busca páginas quando um usuário faz uma pergunta que corresponde ao seu conteúdo.

ByteDance

Bot	String de User-Agent	Propósito
Bytespider	`Bytespider`	Dados de treinamento para produtos de IA da ByteDance

O Bytespider é um dos crawlers mais agressivos da web em puro volume de requisições.

Outros Bots Notáveis

Bot	String de User-Agent	Propósito
CCBot	`CCBot`	Dataset do Common Crawl (usado por muitas empresas de IA)
Applebot-Extended	`Applebot-Extended`	Recursos do Apple Intelligence
cohere-ai	`cohere-ai`	Treinamento de modelo da Cohere
Diffbot	`Diffbot`	Extração de dados estruturados para produtos de IA
FacebookExternalHit	`FacebookExternalHit`	Recursos da Meta AI
ImagesiftBot	`ImagesiftBot`	Análise de imagens para sistemas de IA
Timpibot	`Timpibot`	Mecanismo de busca descentralizado Timpi

Para o detalhamento completo de cada bot, incluindo faixas de IP, padrões de frequência de rastreamento e registros de conformidade, veja nossa referência completa de crawlers de IA.

Configuração Padrão vs. Configuração Recomendada

A maioria dos sites se encaixa em um de três cenários. Aqui está a abordagem correta de robots.txt para cada um.

Cenário 1: Máxima Visibilidade em IA (Recomendado para a Maioria das Marcas)

Se seu objetivo é aparecer em quantas respostas geradas por IA for possível, permita todos os principais crawlers de IA. Bloqueie apenas bots agressivos, focados em treinamento, que consomem banda sem fornecer atribuição.

# Mecanismos de busca
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Crawlers de IA, permitidos para visibilidade
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Bloqueia crawlers agressivos focados apenas em treinamento
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Regra padrão
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/

Sitemap: https://seusite.com/sitemap.xml

Isso abre seu conteúdo para cada plataforma de IA que oferece visibilidade direta da marca: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Crawlers de treinamento em massa ficam fora do seu servidor.

Cenário 2: Acesso Seletivo de IA (Apenas Recuperação, Sem Treinamento)

Você quer seu conteúdo citado em respostas de IA, mas não ingerido para treinamento de modelo. A linha entre treinamento e recuperação é tênue para alguns crawlers, mas você pode aproximá-la:

# Mecanismos de busca
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Bots de IA focados em recuperação, permitidos
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Crawlers focados em treinamento, bloqueados
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://seusite.com/sitemap.xml

A troca é real: bloquear o GPTBot pode reduzir sua visibilidade no ChatGPT com o tempo. A OpenAI usa o GPTBot tanto para treinamento quanto para parte da recuperação. Este cenário prioriza a proteção de conteúdo sobre o alcance máximo.

Cenário 3: Bloqueio de Todos os Crawlers de IA

Válido para editores com preocupações de licenciamento. Não recomendado se você quer visibilidade em IA:

# Permite apenas mecanismos de busca
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Bloqueia todos os crawlers de IA conhecidos
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://seusite.com/sitemap.xml

Bloquear todos os crawlers de IA não torna seu conteúdo invisível para a IA. Seu texto ainda pode surgir por meio de arquivos do Common Crawl coletados antes do bloqueio, por sindicação de terceiros, cópias em cache e compartilhamentos em redes sociais. Invisibilidade total em IA é praticamente impossível apenas com robots.txt.

Cinco Erros Comuns (e Como Corrigi-los)

Erro 1: Bloqueio com Wildcard Que Pega o Googlebot

O mais danoso e o mais comum:

# NÃO FAÇA ISSO
User-agent: *
Disallow: /

Isso bloqueia todo crawler na internet, inclusive o Googlebot. Seu site desaparece dos resultados de busca. Se você quer bloquear crawlers de IA, liste-os individualmente pelo nome do user-agent. Nunca use um Disallow com wildcard no caminho raiz sem regras Allow explícitas para os crawlers que você precisa.

Como corrigir: Adicione regras Allow explícitas para Googlebot e Bingbot acima de qualquer Disallow amplo. Melhor ainda, evite bloqueios wildcard na raiz por completo e nomeie cada bot individualmente.

Erro 2: Confundir Google-Extended com Googlebot

O Google-Extended controla apenas dados de treinamento de IA. Bloqueá-lo não toca nos seus rankings de busca nem na visibilidade no AI Overviews. Mas alguns donos de sites bloqueiam tanto o Google-Extended quanto o Googlebot, pensando que estão sendo minuciosos.

Resultado: o site deles desaparece da busca do Google. Por completo.

Como corrigir: Se você quer permanecer na busca do Google e no AI Overviews, mas manter o conteúdo fora do treinamento do Gemini, bloqueie apenas o Google-Extended. Deixe o Googlebot em paz.

Erro 3: Esquecer o OAI-SearchBot

O GPTBot recebe toda a atenção, mas o OAI-SearchBot é um user-agent separado para a busca em tempo real do ChatGPT. Bloquear o GPTBot e deixar o OAI-SearchBot sem tratamento? O ChatGPT ainda pode puxar conteúdo das suas páginas pela função de busca.

Como corrigir: Se você quer bloquear todo o acesso da OpenAI, inclua regras para GPTBot, OAI-SearchBot e ChatGPT-User. Os três.

Erro 4: Não Verificar Após o Deploy

Você salvou o arquivo e seguiu em frente. Mas a mudança teve efeito? Modos comuns de falha: seu CDN faz cache do robots.txt antigo por horas. O arquivo tem codificação errada. Foi implantado no diretório errado. Existe um loop de redirecionamento em /robots.txt.

Como corrigir: Após cada mudança, abra seusite.com/robots.txt diretamente em um navegador. Verifique os cabeçalhos de resposta por diretivas de cache. Use o testador de robots.txt do Google Search Console para validação com o Googlebot. Monitore os logs do servidor por 48 horas.

Erro 5: Tratar o robots.txt como uma Camada de Segurança

O robots.txt não é controle de acesso. É um pedido educado. Ele não autentica crawlers, não criptografa conteúdo, nem impede qualquer bot de ler suas páginas se decidir ignorar o arquivo.

Como corrigir: Para conteúdo sensível, use controles no nível do servidor: autenticação, listas de permissão por IP, regras de WAF ou paywalls. O robots.txt cuida de bots bem-comportados. Firewalls cuidam de todo o resto.

O robots.txt diz aos bots bem-comportados o que você prefere. Ele não impõe nada. Para proteção de conteúdo, você precisa de controles de acesso no nível do servidor, não de um arquivo de texto no diretório raiz.

Testando Sua Configuração

Depois de escrever ou atualizar regras, valide antes de fazer o deploy.

Passo 1: Validação de Sintaxe

Use o testador de robots.txt no Google Search Console. Insira sua URL e verifique se o Googlebot pode acessar suas páginas-chave. Essa ferramenta só testa as regras do Googlebot, mas captura erros de sintaxe que afetam todos os bots.

Passo 2: Simulação Manual de User-Agent

Use curl para ver como seu servidor responde a diferentes identificadores de bot:

curl -A "GPTBot" https://seusite.com/robots.txt
curl -A "ClaudeBot" https://seusite.com/robots.txt
curl -A "PerplexityBot" https://seusite.com/robots.txt

O conteúdo do arquivo é idêntico independentemente de quem o requisita, mas percorrer as regras mentalmente para cada user-agent ajuda você a capturar erros de lógica antes que eles custem visibilidade.

Passo 3: Monitoramento de Logs

Após o deploy, verifique os logs de acesso do seu servidor por atividade de crawlers de IA. Procure pelas strings de user-agent listadas neste artigo. Se você bloqueou o PerplexityBot mas ainda o vê acessando suas páginas 48 horas depois, ou seu CDN está servindo um robots.txt desatualizado, ou o bot não está obedecendo suas regras.

Campos para observar:

String de user-agent nos cabeçalhos da requisição
Caminhos de URL requisitados (o bot está acessando caminhos bloqueados?)
Códigos de resposta HTTP (200, 403, 429?)
Frequência de requisições (mudou desde sua atualização?)

Passo 4: Revisão Trimestral

Empresas de IA lançam novos crawlers, renomeiam os existentes e mudam o comportamento regularmente. Revise seu robots.txt a cada trimestre. Consulte a lista atual de crawlers de IA para novas adições. Uma configuração escrita em janeiro pode ter pontos cegos em junho.

O Framework de Decisão

Não tem certeza de qual abordagem se encaixa? Passe por estas quatro perguntas.

Você quer que sua marca seja citada em respostas geradas por IA? Se sim, permita GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot e Applebot-Extended. Esse é o caminho de visibilidade máxima e o padrão certo para a maioria das marcas.

Você está preocupado com o treinamento de modelo? Se sim, mas ainda quer citações em IA, permita bots de recuperação (OAI-SearchBot, ChatGPT-User, PerplexityBot) e bloqueie bots de treinamento (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider). Aceite que a fronteira é imperfeita.

Você é um editor com preocupações de licenciamento? Bloqueie todos os crawlers de IA. Explore acordos de licenciamento direto com empresas de IA. OpenAI, Google e Apple têm programas de parceria com editores que remuneram o uso de conteúdo sob termos negociados.

Você está indeciso? Comece com visibilidade máxima. Monitore por 30 dias. Verifique se as plataformas de IA citam sua marca com mais frequência. Se o valor das citações for positivo, mantenha a configuração aberta. Você pode apertar as regras depois. Afrouxá-las é mais difícil porque você perde impulso de rastreamento enquanto está bloqueado.

A posição padrão para a maioria das marcas em 2026: permita crawlers de IA, monitore o que acontece, ajuste com base nos dados. Bloquear por padrão significa abrir mão de um canal de distribuição que cresce a cada trimestre enquanto o tráfego de busca tradicional estagna.

Veja também: E-E-A-T e Visibilidade em IA: Por que o Framework de Qualidade do Google Importa para o GEO