O Arquivo robots.txt Acabou de se Tornar uma Decisão Estratégica
Durante a maior parte de sua história, o robots.txt era um arquivo de organização interna. Você bloqueava o acesso de crawlers a páginas de admin, ambientes de staging e caminhos de conteúdo duplicado. Se errasse em algo, perdia algumas páginas do índice do Google. Chato, mas resolvível dentro de um ciclo de rastreamento.
Essa dinâmica mudou quando as empresas de IA começaram a enviar crawlers pela web. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Cada um deles verifica seu robots.txt antes de decidir se vai ler suas páginas. Seu robots.txt não é mais apenas sobre indexação em mecanismos de busca. Ele é a porta de entrada para a visibilidade em IA. Erre, e você desaparece silenciosamente das respostas geradas por IA. Erre sem cuidado, e você bloqueia o Googlebot no processo.
Seu robots.txt agora é uma decisão de negócio, não uma tarefa técnica. Cada regra Disallow que você escreve determina se sua marca aparece em respostas de IA no ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok e Google AI Overviews — ou desaparece delas.
A parte complicada: crawlers de IA e crawlers tradicionais de busca usam o mesmo mecanismo de acesso, mas servem a propósitos diferentes. O Googlebot indexa páginas para resultados de busca. O GPTBot lê conteúdo para treinamento de modelo e recuperação em tempo real. O Google-Extended cuida dos dados de treinamento de IA separadamente da indexação de busca regular. Bloquear o user-agent errado tem consequências que você não planejou.
Este guia cobre cada string de user-agent dos principais crawlers de IA, mostra configurações exatas de robots.txt para cenários comuns e destaca os erros que custam visibilidade aos sites.
Veja também: Lista de Crawlers de IA 2026: Cada Bot Que Varre o Seu Site (e o Que Eles Fazem)
O Que o robots.txt Realmente Controla (e o Que Não Controla)
Antes de escrever regras para bots de IA, entenda os limites do que este arquivo pode fazer.
O robots.txt é um protocolo voluntário. Ele diz aos crawlers quais caminhos eles não devem acessar. A palavra "devem" é importante aqui. Crawlers obedientes leem o arquivo e seguem as regras. Os não obedientes ignoram. Não há mecanismo de imposição embutido no protocolo.
Para a busca tradicional, isso raramente era um problema. Googlebot e Bingbot respeitam o robots.txt de forma confiável. Scrapers mal-intencionados sempre ignoraram, e isso era aceito como o custo de estar na web aberta.
O que o robots.txt controla
- Quais caminhos de URL um crawler específico pode acessar
- Quais caminhos de URL estão fora dos limites para todos os crawlers via regras com wildcard
- Localização do sitemap (informativo, não uma diretiva)
O que o robots.txt NÃO controla
- Se o conteúdo já rastreado será removido dos conjuntos de treinamento
- Como um bot usa o conteúdo que coletou antes de sua regra existir
- Taxa ou frequência de rastreamento (a diretiva Crawl-delay existe, mas nem todos os bots a respeitam)
- Acesso de bots que não se identificam ou falsificam seu user-agent
- Seu conteúdo em sites de terceiros, redes sociais ou feeds sindicados
O robots.txt olha para o futuro, não é retroativo. Se o GPTBot rastreou seu site no mês passado, adicionar um Disallow hoje interrompe futuras visitas. Ele não apaga o que já foi coletado. Para remoção retroativa, você precisa contatar a empresa de IA diretamente.
Essa distinção importa. Muitos donos de sites bloqueiam crawlers de IA esperando que seu conteúdo desapareça das respostas do ChatGPT ou Perplexity. Não vai desaparecer. O bloqueio só impede novas visitas de rastreamento daqui para frente.
User-Agents de Crawlers de IA: A Referência Completa
Cada empresa de IA usa uma ou mais strings de user-agent para identificar seus crawlers. Você precisa dessas strings para escrever regras de robots.txt direcionadas. Aqui está todo grande crawler de IA ativo em 2026.
OpenAI
| Bot | String de User-Agent | Propósito |
|---|---|---|
| GPTBot | GPTBot |
Dados de treinamento + recuperação ao vivo para o ChatGPT |
| OAI-SearchBot | OAI-SearchBot |
Busca web em tempo real para o recurso de busca do ChatGPT |
| ChatGPT-User | ChatGPT-User |
Modo de navegação (visitas de URL iniciadas pelo usuário) |
O GPTBot é o crawler principal. O OAI-SearchBot lida com consultas de busca em tempo real dentro do ChatGPT. O ChatGPT-User é ativado quando alguém pede explicitamente para o ChatGPT navegar em uma página específica. Bloquear apenas o GPTBot não bloqueia todo o acesso da OpenAI. Você precisa endereçar os três user-agents separadamente.
Anthropic
| Bot | String de User-Agent | Propósito |
|---|---|---|
| ClaudeBot | ClaudeBot |
Coleta de dados de treinamento para os modelos Claude |
| anthropic-ai | anthropic-ai |
Identificador de crawler mais antigo da Anthropic |
O ClaudeBot é o crawler principal atual. O identificador anthropic-ai é mais antigo e aparece com menos frequência nos logs, mas ainda surge em alguns sites.
| Bot | String de User-Agent | Propósito |
|---|---|---|
| Google-Extended | Google-Extended |
Dados de treinamento de IA para o Gemini, separados da busca |
| Googlebot | Googlebot |
Indexação de busca tradicional + AI Overviews |
Esse par é o mais mal compreendido. O Googlebot cuida tanto da indexação tradicional de busca quanto do Google AI Overviews. O Google-Extended cuida apenas do treinamento do modelo de IA. Bloquear o Google-Extended não afeta suas posições na busca nem sua aparição no AI Overviews. Bloquear o Googlebot destrói toda a sua presença na busca do Google. Saiba qual dos dois você quer bloquear.
Perplexity
| Bot | String de User-Agent | Propósito |
|---|---|---|
| PerplexityBot | PerplexityBot |
Recuperação em tempo real para respostas do Perplexity |
O PerplexityBot rastreia para recuperação ao vivo, não para treinamento em massa. Ele busca páginas quando um usuário faz uma pergunta que corresponde ao seu conteúdo.
ByteDance
| Bot | String de User-Agent | Propósito |
|---|---|---|
| Bytespider | Bytespider |
Dados de treinamento para produtos de IA da ByteDance |
O Bytespider é um dos crawlers mais agressivos da web em puro volume de requisições.
Outros Bots Notáveis
| Bot | String de User-Agent | Propósito |
|---|---|---|
| CCBot | CCBot |
Dataset do Common Crawl (usado por muitas empresas de IA) |
| Applebot-Extended | Applebot-Extended |
Recursos do Apple Intelligence |
| cohere-ai | cohere-ai |
Treinamento de modelo da Cohere |
| Diffbot | Diffbot |
Extração de dados estruturados para produtos de IA |
| FacebookExternalHit | FacebookExternalHit |
Recursos da Meta AI |
| ImagesiftBot | ImagesiftBot |
Análise de imagens para sistemas de IA |
| Timpibot | Timpibot |
Mecanismo de busca descentralizado Timpi |
Para o detalhamento completo de cada bot, incluindo faixas de IP, padrões de frequência de rastreamento e registros de conformidade, veja nossa referência completa de crawlers de IA.
Configuração Padrão vs. Configuração Recomendada
A maioria dos sites se encaixa em um de três cenários. Aqui está a abordagem correta de robots.txt para cada um.
Cenário 1: Máxima Visibilidade em IA (Recomendado para a Maioria das Marcas)
Se seu objetivo é aparecer em quantas respostas geradas por IA for possível, permita todos os principais crawlers de IA. Bloqueie apenas bots agressivos, focados em treinamento, que consomem banda sem fornecer atribuição.
# Mecanismos de busca
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Crawlers de IA, permitidos para visibilidade
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# Bloqueia crawlers agressivos focados apenas em treinamento
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Regra padrão
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/
Sitemap: https://seusite.com/sitemap.xml
Isso abre seu conteúdo para cada plataforma de IA que oferece visibilidade direta da marca: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Crawlers de treinamento em massa ficam fora do seu servidor.
Cenário 2: Acesso Seletivo de IA (Apenas Recuperação, Sem Treinamento)
Você quer seu conteúdo citado em respostas de IA, mas não ingerido para treinamento de modelo. A linha entre treinamento e recuperação é tênue para alguns crawlers, mas você pode aproximá-la:
# Mecanismos de busca
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Bots de IA focados em recuperação, permitidos
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Crawlers focados em treinamento, bloqueados
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://seusite.com/sitemap.xml
A troca é real: bloquear o GPTBot pode reduzir sua visibilidade no ChatGPT com o tempo. A OpenAI usa o GPTBot tanto para treinamento quanto para parte da recuperação. Este cenário prioriza a proteção de conteúdo sobre o alcance máximo.
Cenário 3: Bloqueio de Todos os Crawlers de IA
Válido para editores com preocupações de licenciamento. Não recomendado se você quer visibilidade em IA:
# Permite apenas mecanismos de busca
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Bloqueia todos os crawlers de IA conhecidos
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://seusite.com/sitemap.xml
Bloquear todos os crawlers de IA não torna seu conteúdo invisível para a IA. Seu texto ainda pode surgir por meio de arquivos do Common Crawl coletados antes do bloqueio, por sindicação de terceiros, cópias em cache e compartilhamentos em redes sociais. Invisibilidade total em IA é praticamente impossível apenas com robots.txt.
Cinco Erros Comuns (e Como Corrigi-los)
Erro 1: Bloqueio com Wildcard Que Pega o Googlebot
O mais danoso e o mais comum:
# NÃO FAÇA ISSO
User-agent: *
Disallow: /
Isso bloqueia todo crawler na internet, inclusive o Googlebot. Seu site desaparece dos resultados de busca. Se você quer bloquear crawlers de IA, liste-os individualmente pelo nome do user-agent. Nunca use um Disallow com wildcard no caminho raiz sem regras Allow explícitas para os crawlers que você precisa.
Como corrigir: Adicione regras Allow explícitas para Googlebot e Bingbot acima de qualquer Disallow amplo. Melhor ainda, evite bloqueios wildcard na raiz por completo e nomeie cada bot individualmente.
Erro 2: Confundir Google-Extended com Googlebot
O Google-Extended controla apenas dados de treinamento de IA. Bloqueá-lo não toca nos seus rankings de busca nem na visibilidade no AI Overviews. Mas alguns donos de sites bloqueiam tanto o Google-Extended quanto o Googlebot, pensando que estão sendo minuciosos.
Resultado: o site deles desaparece da busca do Google. Por completo.
Como corrigir: Se você quer permanecer na busca do Google e no AI Overviews, mas manter o conteúdo fora do treinamento do Gemini, bloqueie apenas o Google-Extended. Deixe o Googlebot em paz.
Erro 3: Esquecer o OAI-SearchBot
O GPTBot recebe toda a atenção, mas o OAI-SearchBot é um user-agent separado para a busca em tempo real do ChatGPT. Bloquear o GPTBot e deixar o OAI-SearchBot sem tratamento? O ChatGPT ainda pode puxar conteúdo das suas páginas pela função de busca.
Como corrigir: Se você quer bloquear todo o acesso da OpenAI, inclua regras para GPTBot, OAI-SearchBot e ChatGPT-User. Os três.
Erro 4: Não Verificar Após o Deploy
Você salvou o arquivo e seguiu em frente. Mas a mudança teve efeito? Modos comuns de falha: seu CDN faz cache do robots.txt antigo por horas. O arquivo tem codificação errada. Foi implantado no diretório errado. Existe um loop de redirecionamento em /robots.txt.
Como corrigir: Após cada mudança, abra seusite.com/robots.txt diretamente em um navegador. Verifique os cabeçalhos de resposta por diretivas de cache. Use o testador de robots.txt do Google Search Console para validação com o Googlebot. Monitore os logs do servidor por 48 horas.
Erro 5: Tratar o robots.txt como uma Camada de Segurança
O robots.txt não é controle de acesso. É um pedido educado. Ele não autentica crawlers, não criptografa conteúdo, nem impede qualquer bot de ler suas páginas se decidir ignorar o arquivo.
Como corrigir: Para conteúdo sensível, use controles no nível do servidor: autenticação, listas de permissão por IP, regras de WAF ou paywalls. O robots.txt cuida de bots bem-comportados. Firewalls cuidam de todo o resto.
O robots.txt diz aos bots bem-comportados o que você prefere. Ele não impõe nada. Para proteção de conteúdo, você precisa de controles de acesso no nível do servidor, não de um arquivo de texto no diretório raiz.
Testando Sua Configuração
Depois de escrever ou atualizar regras, valide antes de fazer o deploy.
Passo 1: Validação de Sintaxe
Use o testador de robots.txt no Google Search Console. Insira sua URL e verifique se o Googlebot pode acessar suas páginas-chave. Essa ferramenta só testa as regras do Googlebot, mas captura erros de sintaxe que afetam todos os bots.
Passo 2: Simulação Manual de User-Agent
Use curl para ver como seu servidor responde a diferentes identificadores de bot:
curl -A "GPTBot" https://seusite.com/robots.txt
curl -A "ClaudeBot" https://seusite.com/robots.txt
curl -A "PerplexityBot" https://seusite.com/robots.txt
O conteúdo do arquivo é idêntico independentemente de quem o requisita, mas percorrer as regras mentalmente para cada user-agent ajuda você a capturar erros de lógica antes que eles custem visibilidade.
Passo 3: Monitoramento de Logs
Após o deploy, verifique os logs de acesso do seu servidor por atividade de crawlers de IA. Procure pelas strings de user-agent listadas neste artigo. Se você bloqueou o PerplexityBot mas ainda o vê acessando suas páginas 48 horas depois, ou seu CDN está servindo um robots.txt desatualizado, ou o bot não está obedecendo suas regras.
Campos para observar:
- String de user-agent nos cabeçalhos da requisição
- Caminhos de URL requisitados (o bot está acessando caminhos bloqueados?)
- Códigos de resposta HTTP (200, 403, 429?)
- Frequência de requisições (mudou desde sua atualização?)
Passo 4: Revisão Trimestral
Empresas de IA lançam novos crawlers, renomeiam os existentes e mudam o comportamento regularmente. Revise seu robots.txt a cada trimestre. Consulte a lista atual de crawlers de IA para novas adições. Uma configuração escrita em janeiro pode ter pontos cegos em junho.
O Framework de Decisão
Não tem certeza de qual abordagem se encaixa? Passe por estas quatro perguntas.
Você quer que sua marca seja citada em respostas geradas por IA? Se sim, permita GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot e Applebot-Extended. Esse é o caminho de visibilidade máxima e o padrão certo para a maioria das marcas.
Você está preocupado com o treinamento de modelo? Se sim, mas ainda quer citações em IA, permita bots de recuperação (OAI-SearchBot, ChatGPT-User, PerplexityBot) e bloqueie bots de treinamento (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider). Aceite que a fronteira é imperfeita.
Você é um editor com preocupações de licenciamento? Bloqueie todos os crawlers de IA. Explore acordos de licenciamento direto com empresas de IA. OpenAI, Google e Apple têm programas de parceria com editores que remuneram o uso de conteúdo sob termos negociados.
Você está indeciso? Comece com visibilidade máxima. Monitore por 30 dias. Verifique se as plataformas de IA citam sua marca com mais frequência. Se o valor das citações for positivo, mantenha a configuração aberta. Você pode apertar as regras depois. Afrouxá-las é mais difícil porque você perde impulso de rastreamento enquanto está bloqueado.
A posição padrão para a maioria das marcas em 2026: permita crawlers de IA, monitore o que acontece, ajuste com base nos dados. Bloquear por padrão significa abrir mão de um canal de distribuição que cresce a cada trimestre enquanto o tráfego de busca tradicional estagna.