Combien de crawlers AI explorent activement le web en 2026 ?

Début 2026, on dénombre plus de 30 crawlers AI identifiés provenant de grandes entreprises et des dizaines de bots plus petits et moins documentés. Les principaux incluent GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, CCBot et Applebot-Extended. Le paysage évolue chaque trimestre.

Comment identifier les crawlers AI dans mes logs serveur ?

Les crawlers AI s'identifient via les chaînes user-agent dans les en-têtes de requêtes HTTP. Recherchez dans vos logs d'accès les chaînes contenant GPTBot, ClaudeBot, PerplexityBot, Bytespider, CCBot ou Google-Extended. Certains crawlers ont également des plages d'adresses IP documentées que vous pouvez recouper.

Tous les crawlers AI utilisent-ils mon contenu pour l'entraînement ?

Non. Les crawlers AI servent des objectifs différents. Certains explorent pour l'entraînement des modèles (Google-Extended, CCBot), d'autres pour la génération augmentée par récupération en direct (PerplexityBot, OAI-SearchBot) et certains pour les deux. Comprendre cette distinction vous aide à prendre des décisions éclairées sur les bots à autoriser ou bloquer.

Quels crawlers AI respectent le robots.txt ?

GPTBot, ClaudeBot, Google-Extended, PerplexityBot et Applebot-Extended respectent tous officiellement le robots.txt. Bytespider et CCBot déclarent également le respecter, bien que les retours terrain varient. Les bots plus petits ne le font pas forcément. Surveiller vos logs est le seul moyen de vérifier.

À quelle fréquence faut-il mettre à jour sa liste de blocage de crawlers AI ?

Révisez au minimum chaque trimestre. De nouvelles entreprises AI lancent régulièrement des crawlers, et les bots existants changent leurs chaînes user-agent ou leur comportement sans préavis. Programmez un rappel pour auditer votre robots.txt tous les trois mois.

Liste des crawlers AI 2026 : chaque bot qui explore votre site (et ce qu'il en fait)

Le trafic invisible qui consomme votre bande passante

Vos logs serveur racontent une histoire que la plupart des propriétaires de sites ne lisent jamais. Quelque part entre Googlebot et l'occasionnel scraper inconnu, une nouvelle catégorie de trafic est silencieusement devenue l'un des plus grands consommateurs de votre bande passante : les crawlers AI.

Ces bots n'indexent pas vos pages pour une page de résultats de moteur de recherche. Ils lisent votre contenu pour que les modèles AI puissent apprendre, le citer ou le paraphraser lorsqu'ils répondent aux requêtes des utilisateurs. Certains le font pour l'entraînement, ingérant votre texte pour améliorer un grand modèle de langage. D'autres le font pour la récupération en direct, récupérant vos pages en temps réel lorsqu'un utilisateur pose une question à laquelle votre contenu peut répondre. La différence entre ces deux objectifs a des implications concrètes pour votre activité, votre trafic et votre position concurrentielle.

Le paysage des crawlers AI est fragmenté, mal documenté et en constante évolution. GPTBot a été lancé en août 2023 et a déjà subi de multiples changements de comportement. ClaudeBot est apparu peu après. Bytespider est l'un des crawlers les plus agressifs du web. Et ce ne sont que les plus connus.

Cet article est une référence vivante. Nous documentons chaque crawler AI connu actif en 2026 : sa chaîne user-agent, sa société mère, ce qu'il fait de votre contenu, s'il respecte le robots.txt et l'intensité de son crawl.

Voir aussi: Comment configurer robots.txt pour les crawlers IA (sans bloquer Google)

Bots d'entraînement vs bots de récupération : pourquoi la distinction compte

Avant de lister chaque crawler, il faut comprendre les deux catégories principales. Cette distinction conditionne chaque décision que vous prendrez concernant l'autorisation ou le blocage des bots AI.

Les crawlers d'entraînement collectent du contenu web pour construire ou améliorer des modèles AI. Votre texte intègre un jeu de données d'entraînement, est traité, et devient partie intégrante du modèle. Une fois entraîné, le modèle n'a plus besoin de revisiter votre site pour faire référence à cette information. Vous n'obtenez ni trafic, ni attribution, ni lien retour. Exemples : GPTBot (mode entraînement), Google-Extended, CCBot, Bytespider.

Les crawlers de récupération récupèrent votre contenu en temps réel lorsqu'un utilisateur pose une question. La plateforme AI envoie un bot sur votre page, lit la section pertinente et l'inclut (souvent avec une citation) dans la réponse générée. C'est plus proche du fonctionnement des moteurs de recherche, sauf que l'utilisateur voit une réponse synthétisée au lieu d'une liste de liens. Exemples : PerplexityBot, OAI-SearchBot, ChatGPT-User.

Certains bots remplissent les deux fonctions. GPTBot explore pour les données d'entraînement et prend aussi en charge la récupération en direct pour ChatGPT. Ce double rôle rend les décisions de blocage complexes. Bloquer GPTBot protège votre contenu de l'utilisation pour l'entraînement, mais peut aussi réduire votre visibilité dans les réponses en direct de ChatGPT.

Les bots d'entraînement prennent votre contenu pour construire leurs modèles. Les bots de récupération récupèrent votre contenu pour répondre à des questions spécifiques, parfois avec attribution. Le premier vous coûte de la bande passante sans retour. Le second peut générer de la notoriété de marque. Votre stratégie robots.txt devrait refléter cette différence.

Tableau de référence complet des crawlers AI

Voici chaque crawler AI majeur actif en 2026. Pour chaque bot, nous indiquons la chaîne user-agent, la société mère, l'objectif principal, la conformité robots.txt et des notes sur le comportement de crawl.

Nom du bot	User-Agent	Société	Objectif	Respecte robots.txt	Notes
GPTBot	`GPTBot`	OpenAI	Entraînement + récupération	Oui	Crawler principal d'OpenAI. Double usage.
OAI-SearchBot	`OAI-SearchBot`	OpenAI	Récupération en direct	Oui	Alimente la fonctionnalité de recherche de ChatGPT.
ChatGPT-User	`ChatGPT-User`	OpenAI	Navigation initiée par l'utilisateur	Oui	S'active quand les utilisateurs demandent à ChatGPT de visiter une URL.
ClaudeBot	`ClaudeBot`	Anthropic	Entraînement	Oui	Crawler principal d'Anthropic.
anthropic-ai	`anthropic-ai`	Anthropic	Entraînement (legacy)	Oui	Ancien identifiant, apparaît encore dans certains logs.
Google-Extended	`Google-Extended`	Google	Entraînement AI (Gemini)	Oui	Distinct de Googlebot. N'affecte pas la recherche.
PerplexityBot	`PerplexityBot`	Perplexity	Récupération en direct	Oui	Récupère des pages pour des réponses en temps réel avec citations.
Bytespider	`Bytespider`	ByteDance	Entraînement	Déclaré	L'un des crawlers les plus agressifs en volume.
CCBot	`CCBot/2.0`	Common Crawl	Jeu de données d'entraînement	Oui	Jeu de données ouvert utilisé par de nombreuses entreprises AI.
Applebot-Extended	`Applebot-Extended`	Apple	Apple Intelligence	Oui	Distinct de l'Applebot standard.
cohere-ai	`cohere-ai`	Cohere	Entraînement	Oui	Alimente les modèles de langage de Cohere.
Diffbot	`Diffbot`	Diffbot	Extraction structurée	Partiel	Extrait des données structurées pour des produits AI.
FacebookExternalHit	`FacebookExternalHit`	Meta	Fonctionnalités Meta AI	Partiel	Aussi utilisé pour la génération d'aperçus de liens.
ImagesiftBot	`ImagesiftBot`	Hive	Analyse d'images	Partiel	Traite des images pour la classification AI.
Timpibot	`Timpibot`	Timpi	Recherche décentralisée	Oui	Acteur plus petit, présence croissante.
Amazonbot	`Amazonbot`	Amazon	Alexa AI / shopping	Oui	Crawl de produits et de connaissances.
YouBot	`YouBot`	You.com	Recherche + réponses AI	Oui	Alimente la recherche AI de You.com.
PetalBot	`PetalBot`	Huawei	Recherche + AI	Oui	Alimente Huawei Petal Search.

Ce tableau couvre les bots que vous trouverez le plus fréquemment dans vos logs serveur. Des dizaines de crawlers plus petits et moins documentés existent également, provenant de startups AI et d'institutions de recherche. Nous nous concentrons sur ceux dont le volume de trafic et les user-agents identifiables permettent d'agir.

GPTBot : le bot dont tout le monde parle

GPTBot est le crawler web principal d'OpenAI et le bot AI le plus discuté depuis sa divulgation publique en août 2023.

Chaîne user-agent : GPTBot/1.0

Ce qu'il fait : GPTBot remplit deux fonctions. Premièrement, il explore le web pour collecter des données d'entraînement pour les modèles OpenAI (GPT-4, GPT-5 et leurs successeurs). Deuxièmement, il prend en charge la récupération de contenu en temps réel pour ChatGPT quand le modèle a besoin d'informations fraîches. Ce double usage en fait le bot pour lequel les décisions d'autorisation/blocage sont les plus complexes.

Comportement de crawl : GPTBot envoie des requêtes depuis des plages d'adresses IP documentées (publiées sur openai.com). Sa fréquence de crawl varie significativement selon le site. Les domaines à forte autorité avec du contenu frais reçoivent plusieurs visites par jour. Les sites plus petits peuvent voir des crawls hebdomadaires ou moins fréquents.

Conformité robots.txt : GPTBot respecte les directives Disallow du robots.txt. Cependant, bloquer GPTBot ne prévient que les crawls futurs. Le contenu déjà collecté avant le blocage reste dans les jeux de données d'OpenAI.

Points d'attention : Depuis 2024, OpenAI a introduit OAI-SearchBot et ChatGPT-User comme crawlers distincts. Si vous bloquez GPTBot mais pas ces deux-là, ChatGPT peut toujours accéder à votre contenu via ses fonctionnalités de recherche et de navigation. Pour un blocage complet d'OpenAI, traitez les trois user-agents.

GPTBot est à la fois un crawler d'entraînement et un crawler de récupération. Le bloquer protège votre contenu de l'utilisation pour l'entraînement, mais peut aussi réduire votre présence dans les réponses en direct de ChatGPT. Il n'est pas possible d'autoriser l'une des fonctions tout en bloquant l'autre via le robots.txt.

ClaudeBot : le crawler d'entraînement d'Anthropic

ClaudeBot est le crawler web d'Anthropic, utilisé pour collecter des données d'entraînement pour les modèles Claude.

Chaîne user-agent : ClaudeBot/1.0

Ce qu'il fait : ClaudeBot explore des pages web pour constituer des jeux de données d'entraînement pour Claude. Contrairement à GPTBot, ClaudeBot ne dispose pas actuellement d'un mode de récupération en direct documenté. Sa fonction principale est la collecte de données pour l'entraînement du modèle.

Comportement de crawl : ClaudeBot est moins agressif que GPTBot ou Bytespider. Il explore à des rythmes modérés et cible principalement les pages riches en texte et à forte autorité. Il respecte les directives crawl-delay lorsqu'elles sont présentes.

Conformité robots.txt : ClaudeBot respecte le robots.txt. Anthropic honore également l'user-agent anthropic-ai comme identifiant legacy, donc les règles existantes utilisant cette chaîne fonctionnent toujours.

Points d'attention : À mesure qu'Anthropic étend les fonctionnalités web de Claude, de nouveaux crawlers pourraient apparaître. Surveillez vos logs pour détecter tout nouvel user-agent contenant les chaînes « anthropic » ou « claude ».

PerplexityBot : le spécialiste de la récupération

PerplexityBot est différent de la plupart des crawlers AI de cette liste. C'est principalement un bot de récupération, pas un bot d'entraînement.

Chaîne user-agent : PerplexityBot

Ce qu'il fait : Quand un utilisateur pose une question à Perplexity, PerplexityBot récupère les pages web pertinentes en temps réel, en extrait la réponse et la présente avec des citations de sources. Votre contenu apparaît dans les réponses de Perplexity avec un lien vers votre site. C'est ce qui se rapproche le plus du comportement d'un moteur de recherche traditionnel parmi les crawlers AI.

Comportement de crawl : PerplexityBot explore à la demande, déclenché par les requêtes des utilisateurs plutôt que par des balayages programmés. Il ne maintient pas un grand index. Les pages à forte visibilité peuvent recevoir des requêtes fréquentes ; les pages de niche ne sont récupérées que lorsque quelqu'un pose une question correspondante.

Conformité robots.txt : PerplexityBot respecte le robots.txt. Le bloquer supprime votre contenu des réponses de Perplexity, ce qui signifie perdre à la fois la citation et le trafic de referral.

PerplexityBot est le seul crawler AI dont le blocage a un coût immédiat et visible. Contrairement aux bots d'entraînement, PerplexityBot fournit une attribution en temps réel et des liens de referral. Le bloquer, c'est bloquer une source de trafic.

Google-Extended : séparer la recherche de l'entraînement AI

Google-Extended est l'une des distinctions les plus importantes dans le monde des crawlers AI et l'une des plus fréquemment mal comprises.

Chaîne user-agent : Google-Extended

Ce qu'il fait : Google-Extended explore votre contenu spécifiquement pour l'entraînement de modèles AI (Gemini). Il est complètement distinct de Googlebot, qui gère l'indexation de recherche traditionnelle et les Google AI Overviews.

La distinction cruciale : Bloquer Google-Extended N'AFFECTE PAS votre positionnement sur Google Search. Cela NE SUPPRIME PAS votre contenu des Google AI Overviews. Cela empêche uniquement l'utilisation de votre contenu pour l'entraînement du modèle Gemini. Bloquer Googlebot, en revanche, vous retire complètement de Google Search. Cette confusion a causé de vrais dégâts. Des propriétaires de sites qui voulaient bloquer l'entraînement AI ont accidentellement bloqué Googlebot, anéantissant leur visibilité de recherche du jour au lendemain.

Comportement de crawl : Google-Extended explore à des rythmes déterminés par l'infrastructure Google. Vous ne pouvez pas contrôler sa fréquence via le robots.txt au-delà de l'autoriser ou le bloquer entièrement.

Bytespider : le crawler d'entraînement à haut volume

Bytespider est le crawler web de ByteDance et l'un des bots les plus agressifs d'internet en termes de volume de requêtes.

Chaîne user-agent : Bytespider

Ce qu'il fait : Bytespider collecte des données d'entraînement pour les produits AI de ByteDance. Il explore à des volumes élevés sur des millions de sites.

Comportement de crawl : De multiples retours d'opérateurs de sites documentent que Bytespider effectue des dizaines de milliers de requêtes par jour sur des sites individuels. Il a été signalé pour ignorer les directives crawl-delay et consommer des ressources serveur disproportionnées. Certains hébergeurs ont ajouté Bytespider à leurs listes de blocage par défaut en raison de préoccupations de bande passante.

Conformité robots.txt : ByteDance déclare que Bytespider respecte le robots.txt. En pratique, les retours sur la conformité sont mitigés. Certains propriétaires de sites signalent des crawls persistants après l'ajout de règles Disallow, bien que cela puisse refléter des délais de cache plutôt qu'une non-conformité intentionnelle.

Bytespider est le crawler pour lequel le blocage est quasi universellement recommandé. Il n'offre aucun bénéfice de visibilité directe pour les requêtes en langue française ou anglaise, et son rythme de crawl agressif consomme des ressources serveur. Bloquez-le sauf si vous avez une raison spécifique de ne pas le faire.

CCBot : le crawler du jeu de données ouvert

CCBot alimente Common Crawl, une organisation à but non lucratif qui maintient l'une des plus grandes archives web ouvertes au monde.

Chaîne user-agent : CCBot/2.0

Ce qu'il fait : CCBot explore le web pour constituer le jeu de données Common Crawl, une archive ouverte massive que de nombreuses entreprises AI utilisent comme données d'entraînement. Quand les rapports indiquent que les modèles AI ont été « entraînés sur internet », Common Crawl est souvent la source de données principale.

Pourquoi c'est important pour l'AI : Bloquer CCBot n'affecte pas uniquement Common Crawl. Cela réduit les chances que votre contenu apparaisse dans tout modèle AI qui utilise Common Crawl comme source d'entraînement, ce qui inclut un grand nombre de modèles open source et commerciaux.

Conformité robots.txt : CCBot respecte le robots.txt.

Applebot-Extended : Apple Intelligence

Applebot-Extended est le crawler spécifique à l'AI d'Apple, distinct de l'Applebot standard utilisé pour Siri et les suggestions Safari.

Chaîne user-agent : Applebot-Extended

Ce qu'il fait : Applebot-Extended collecte des données pour les fonctionnalités Apple Intelligence, notamment les capacités AI embarquées dans les versions récentes d'iOS et de macOS.

Comportement de crawl : Moins agressif que la plupart des autres crawlers AI. Apple a historiquement été conservateur en matière de fréquence de crawl.

Conformité robots.txt : Respecte le robots.txt. Apple dispose d'une documentation claire sur l'autorisation ou le blocage d'Applebot-Extended indépendamment de l'Applebot standard.

Comment surveiller l'activité des crawlers AI sur votre site

Savoir quels bots existent est la première étape. Savoir lesquels visitent réellement votre site est la seconde. Voici comment surveiller efficacement.

Analyse des logs serveur

Les logs d'accès de votre serveur web contiennent un champ user-agent pour chaque requête. Filtrez les user-agents connus des crawlers AI :

grep -E "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Google-Extended|OAI-SearchBot" /var/log/access.log | awk '{print $14}' | sort | uniq -c | sort -rn

Cela vous donne un décompte de requêtes par bot, trié par fréquence. Exécutez-le chaque semaine pour repérer les tendances et détecter les nouveaux arrivants.

Ce qu'il faut surveiller

Pics de volume inattendus. Si un bot commence soudainement à effectuer 10 fois plus de requêtes que d'habitude, investiguez. Cela peut indiquer un changement de configuration de crawl de leur côté, ou un nouveau bot usurpant un user-agent connu.

Nouvelles chaînes user-agent. Les entreprises AI lancent de nouveaux crawlers sans toujours l'annoncer. Tout user-agent que vous ne reconnaissez pas et qui effectue des requêtes répétées sur des pages de contenu (pas seulement le robots.txt) mérite investigation.

Bots bloqués qui continuent de crawler. Si vous avez ajouté une règle Disallow pour un bot spécifique mais le voyez toujours dans vos logs, vérifiez si votre CDN cache l'ancien robots.txt. Vérifiez aussi que le bot correspond bien à la chaîne user-agent exacte de vos règles.

Ratio crawl/visibilité. Certains bots explorent intensivement mais ne produisent aucun résultat visible. Votre contenu n'apparaît jamais sur leur plateforme. C'est le signe d'un crawl d'entraînement pur sans bénéfice de récupération.

Surveillez vos logs au minimum mensuellement. Le paysage des crawlers AI évolue suffisamment vite pour qu'un jeu de règles datant de trois mois présente des lacunes. De nouveaux bots apparaissent, les existants changent de comportement, et des crawlers jusque-là bien élevés deviennent parfois incontrôlables.

Les crawlers que vous ne connaissez peut-être pas

Au-delà des acteurs majeurs, plusieurs crawlers AI moins connus méritent d'être suivis.

YouBot (You.com) : Alimente le moteur de recherche AI You.com. Rythme de crawl modéré. Fournit des citations dans les résultats de recherche. Le bloquer vous retire des réponses You.com.

PetalBot (Huawei) : Explore pour Huawei Petal Search, qui détient une part de marché significative dans les régions où Google est indisponible. Pertinent si votre audience inclut des utilisateurs en Chine ou dans certaines régions d'Asie.

Amazonbot (Amazon) : Explore pour les fonctionnalités AI d'Alexa et les connaissances produit d'Amazon. Pertinent pour les marques e-commerce qui souhaitent apparaître dans les réponses des assistants vocaux.

cohere-ai (Cohere) : Collecte des données d'entraînement pour les modèles AI d'entreprise de Cohere. De nombreuses applications B2B sont construites sur Cohere, donc votre contenu peut apparaître dans des outils d'entreprise même si vous n'interagissez pas directement avec Cohere.

Diffbot (Diffbot) : Extrait des données structurées des pages web pour les utiliser dans des graphes de connaissances et des produits AI. N'explore pas pour l'entraînement de texte brut mais plutôt pour l'extraction d'entités et la cartographie de relations.

Un modèle robots.txt recommandé

En se basant sur les bots documentés ci-dessus, voici un modèle de départ qui maximise la visibilité AI tout en bloquant les crawlers d'entraînement agressifs :

# Moteurs de recherche
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Crawlers AI : autorisés (apportent visibilité ou attribution)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Crawlers AI : bloqués (agressifs, aucun bénéfice de visibilité directe)
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Par défaut
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/

Sitemap: https://yoursite.com/sitemap.xml

Personnalisez selon vos priorités. Si la protection du contenu compte plus que la visibilité, déplacez GPTBot et ClaudeBot dans la section bloquée. Si la portée maximale est l'objectif, laissez tout ouvert et acceptez le coût en bande passante.

Pour des conseils de configuration détaillés, des étapes de test et la prévention des erreurs courantes, consultez notre guide robots.txt pour les crawlers AI.

La suite

L'écosystème des crawlers AI est encore jeune. De nouveaux bots apparaîtront chaque trimestre. Les existants changeront de nom, fusionneront leurs capacités ou se scindent en variantes plus spécialisées. Les entreprises qui les développent annonceront certains changements publiquement et en feront d'autres en silence.

Votre mission n'est pas de mémoriser chaque bot. Votre mission est d'avoir un système : un modèle robots.txt qui reflète votre stratégie, un processus de monitoring qui détecte les nouveaux arrivants et un cycle de révision trimestriel qui maintient vos règles à jour.

Les marques qui maîtrisent ce sujet contrôleront la façon dont leur contenu alimente les systèmes AI. Celles qui l'ignorent verront cette décision prise pour elles, par des bots dont elles n'ont jamais entendu parler.

Voir aussi: E-E-A-T et visibilité AI : pourquoi le cadre qualité de Google compte pour le GEO