Der unsichtbare Traffic, der Ihre Bandbreite frisst
Ihre Server-Logs erzählen eine Geschichte, die die meisten Seitenbetreiber nie lesen. Irgendwo zwischen Googlebot und dem gelegentlichen Rogue-Scraper hat eine neue Traffic-Kategorie sich leise zu einem der größten Bandbreitenverbraucher entwickelt: AI-Crawler.
Diese Bots indexieren Ihre Seiten nicht für eine Suchergebnisseite. Sie lesen Ihre Inhalte, damit AI-Modelle davon lernen, sie zitieren oder paraphrasieren können, wenn Nutzer Fragen stellen. Einige tun dies für das Training und nehmen Ihren Text auf, um ein großes Sprachmodell zu verbessern. Andere tun es für den Live-Abruf und rufen Ihre Seiten in Echtzeit ab, wenn ein Nutzer eine Frage stellt, die Ihr Content beantworten kann. Der Unterschied zwischen diesen beiden Zwecken hat reale Auswirkungen auf Ihr Geschäft, Ihren Traffic und Ihre Wettbewerbsposition.
Die AI-Crawler-Landschaft ist fragmentiert, schlecht dokumentiert und ändert sich schnell. GPTBot startete im August 2023 und hat bereits mehrere Verhaltensänderungen durchlaufen. ClaudeBot erschien kurz danach. Bytespider ist einer der aggressivsten Crawler im Web. Und das sind nur die bekannten.
Dieser Artikel ist eine fortlaufende Referenz. Wir dokumentieren jeden bekannten AI-Crawler, der 2026 aktiv ist: seinen User-Agent-String, das Mutterunternehmen, was er mit Ihren Inhalten macht, ob er robots.txt respektiert und wie aggressiv er crawlt.
Siehe auch: So konfigurieren Sie robots.txt für KI-Crawler (ohne Google zu blockieren)
Training-Bots vs. Retrieval-Bots: Warum die Unterscheidung wichtig ist
Bevor wir jeden Crawler auflisten, müssen Sie die zwei primären Kategorien verstehen. Diese Unterscheidung bestimmt jede Entscheidung, die Sie bezüglich der Zulassung oder Blockierung von AI-Bots treffen.
Training-Crawler sammeln Web-Content, um AI-Modelle aufzubauen oder zu verbessern. Ihr Text geht in einen Trainingsdatensatz, wird verarbeitet und wird Teil des Modells. Einmal trainiert, muss das Modell Ihre Seite nicht erneut besuchen, um auf diese Information zu verweisen. Sie erhalten keinen Traffic, keine Nennung und keinen Rückverweis. Beispiele: GPTBot (Trainingsmodus), Google-Extended, CCBot, Bytespider.
Retrieval-Crawler rufen Ihre Inhalte in Echtzeit ab, wenn ein Nutzer eine Frage stellt. Die AI-Plattform schickt einen Bot auf Ihre Seite, liest den relevanten Abschnitt und bindet ihn (häufig mit Quellenangabe) in die generierte Antwort ein. Dies ähnelt eher der Funktionsweise von Suchmaschinen, nur dass der Nutzer eine synthetisierte Antwort statt einer Linkliste sieht. Beispiele: PerplexityBot, OAI-SearchBot, ChatGPT-User.
Einige Bots dienen beiden Zwecken. GPTBot crawlt für Trainingsdaten und unterstützt gleichzeitig den Live-Abruf für ChatGPT. Diese Doppelrolle macht Blockierungsentscheidungen kompliziert. GPTBot zu blockieren schützt Ihre Inhalte vor der Trainingsnutzung, kann aber auch Ihre Sichtbarkeit in ChatGPTs Live-Antworten reduzieren.
Training-Bots nehmen Ihre Inhalte, um ihre Modelle aufzubauen. Retrieval-Bots rufen Ihre Inhalte ab, um spezifische Fragen zu beantworten, manchmal mit Quellenangabe. Ersteres kostet Sie Bandbreite ohne Gegenleistung. Letzteres kann Markenbekanntheit fördern. Ihre robots.txt-Strategie sollte diesen Unterschied widerspiegeln.
Die vollständige AI-Crawler-Referenztabelle
Hier ist jeder große AI-Crawler, der 2026 aktiv ist. Für jeden Bot listen wir den User-Agent-String, das Mutterunternehmen, den Hauptzweck, die robots.txt-Compliance und Anmerkungen zum Crawl-Verhalten.
| Bot-Name | User-Agent | Unternehmen | Zweck | Respektiert robots.txt | Anmerkungen |
|---|---|---|---|---|---|
| GPTBot | GPTBot |
OpenAI | Training + Retrieval | Ja | Primärer OpenAI-Crawler. Doppelzweck. |
| OAI-SearchBot | OAI-SearchBot |
OpenAI | Live-Such-Retrieval | Ja | Treibt die ChatGPT-Suchfunktion an. |
| ChatGPT-User | ChatGPT-User |
OpenAI | Nutzerinitiiertes Browsing | Ja | Aktiviert sich, wenn Nutzer ChatGPT bitten, eine URL zu besuchen. |
| ClaudeBot | ClaudeBot |
Anthropic | Training | Ja | Primärer Anthropic-Crawler. |
| anthropic-ai | anthropic-ai |
Anthropic | Training (Legacy) | Ja | Älterer Identifier, taucht noch in manchen Logs auf. |
| Google-Extended | Google-Extended |
AI-Training (Gemini) | Ja | Getrennt von Googlebot. Beeinflusst nicht die Suche. | |
| PerplexityBot | PerplexityBot |
Perplexity | Live-Retrieval | Ja | Ruft Seiten für Echtzeit-Antworten mit Quellenangaben ab. |
| Bytespider | Bytespider |
ByteDance | Training | Angegeben | Einer der aggressivsten Crawler nach Volumen. |
| CCBot | CCBot/2.0 |
Common Crawl | Trainingsdatensatz | Ja | Offener Datensatz, der von vielen AI-Unternehmen genutzt wird. |
| Applebot-Extended | Applebot-Extended |
Apple | Apple Intelligence | Ja | Getrennt vom regulären Applebot. |
| cohere-ai | cohere-ai |
Cohere | Training | Ja | Treibt Coheres Sprachmodelle an. |
| Diffbot | Diffbot |
Diffbot | Strukturierte Extraktion | Teilweise | Extrahiert strukturierte Daten für AI-Produkte. |
| FacebookExternalHit | FacebookExternalHit |
Meta | Meta-AI-Funktionen | Teilweise | Wird auch für Link-Preview-Generierung verwendet. |
| ImagesiftBot | ImagesiftBot |
Hive | Bildanalyse | Teilweise | Verarbeitet Bilder für AI-Klassifizierung. |
| Timpibot | Timpibot |
Timpi | Dezentrale Suche | Ja | Kleinerer Akteur, wachsende Präsenz. |
| Amazonbot | Amazonbot |
Amazon | Alexa AI / Shopping | Ja | Produkt- und Wissens-Crawling. |
| YouBot | YouBot |
You.com | Suche + AI-Antworten | Ja | Treibt You.coms AI-Suche an. |
| PetalBot | PetalBot |
Huawei | Suche + AI | Ja | Treibt Huaweis Petal Search an. |
Diese Tabelle deckt die Bots ab, die Sie am häufigsten in Server-Logs finden werden. Dutzende kleinerer, weniger dokumentierter Crawler existieren zusätzlich von AI-Startups und Forschungseinrichtungen. Wir konzentrieren uns auf die mit ausreichendem Traffic-Volumen und identifizierbaren User-Agents, auf die Sie reagieren können.
GPTBot: Der Bot, über den alle sprechen
GPTBot ist OpenAIs primärer Web-Crawler und der meistdiskutierte AI-Bot seit seiner öffentlichen Bekanntgabe im August 2023.
User-Agent-String: GPTBot/1.0
Was er macht: GPTBot erfüllt zwei Funktionen. Erstens crawlt er das Web, um Trainingsdaten für OpenAI-Modelle (GPT-4, GPT-5 und Nachfolger) zu sammeln. Zweitens unterstützt er den Echtzeit-Inhaltsabruf für ChatGPT, wenn das Modell aktuelle Informationen benötigt. Diese Doppelrolle macht ihn zum schwierigsten Bot, für den einfache Zulassen/Blockieren-Entscheidungen zu treffen sind.
Crawl-Verhalten: GPTBot sendet Anfragen von dokumentierten IP-Bereichen (veröffentlicht auf openai.com). Seine Crawl-Rate variiert erheblich je nach Seite. Hochautoritative Domains mit frischem Content erleben mehrere Besuche pro Tag. Kleinere Seiten sehen wöchentliche oder seltenere Crawls.
robots.txt-Compliance: GPTBot respektiert robots.txt-Disallow-Direktiven. Allerdings verhindert das Blockieren von GPTBot nur zukünftiges Crawling. Bereits vor der Blockierung gesammelte Inhalte verbleiben in OpenAI-Datensätzen.
Worauf Sie achten sollten: Seit 2024 hat OpenAI OAI-SearchBot und ChatGPT-User als separate Crawler eingeführt. Wenn Sie GPTBot blockieren, aber nicht diese beiden, kann ChatGPT weiterhin über seine Such- und Browsing-Funktionen auf Ihre Inhalte zugreifen. Für eine vollständige OpenAI-Blockierung adressieren Sie alle drei User-Agents.
GPTBot ist sowohl Training-Crawler als auch Retrieval-Crawler. Ihn zu blockieren schützt Ihre Inhalte vor der Trainingsnutzung, kann aber auch Ihr Erscheinen in ChatGPTs Live-Antworten reduzieren. Es gibt keine Möglichkeit, über robots.txt eine Funktion zuzulassen und die andere zu blockieren.
ClaudeBot: Anthropics Training-Crawler
ClaudeBot ist Anthropics Web-Crawler, der zum Sammeln von Trainingsdaten für Claude-Modelle eingesetzt wird.
User-Agent-String: ClaudeBot/1.0
Was er macht: ClaudeBot crawlt Webseiten, um Trainingsdatensätze für Claude aufzubauen. Anders als GPTBot hat ClaudeBot derzeit keinen dokumentierten Live-Retrieval-Modus. Seine primäre Funktion ist die Datensammlung für das Modelltraining.
Crawl-Verhalten: ClaudeBot ist weniger aggressiv als GPTBot oder Bytespider. Er crawlt mit moderaten Raten und zielt primär auf textreiche, hochautoritative Seiten. Er respektiert Crawl-Delay-Direktiven, wenn vorhanden.
robots.txt-Compliance: ClaudeBot respektiert robots.txt. Anthropic erkennt auch den anthropic-ai User-Agent als Legacy-Identifier an, sodass bestehende Regeln mit diesem String weiterhin funktionieren.
Worauf Sie achten sollten: Da Anthropic Claudes webverbundene Funktionen ausbaut, könnten zusätzliche Crawler erscheinen. Überwachen Sie Ihre Logs auf neue User-Agents, die „anthropic" oder „claude" enthalten.
PerplexityBot: Der Retrieval-Spezialist
PerplexityBot unterscheidet sich von den meisten AI-Crawlern auf dieser Liste. Er ist primär ein Retrieval-Bot, kein Training-Bot.
User-Agent-String: PerplexityBot
Was er macht: Wenn ein Nutzer Perplexity eine Frage stellt, ruft PerplexityBot relevante Webseiten in Echtzeit ab, extrahiert die Antwort und präsentiert sie mit Quellenangaben. Ihre Inhalte erscheinen in Perplexity-Antworten mit einem Link zurück zu Ihrer Seite. Das kommt dem Verhalten einer klassischen Suchmaschine am nächsten.
Crawl-Verhalten: PerplexityBot crawlt on-demand, ausgelöst durch Nutzeranfragen statt durch geplante Durchläufe. Er pflegt keinen großen Index. Vielbesuchte Seiten können häufige Anfragen erleben; Nischenseiten werden nur abgerufen, wenn jemand eine passende Frage stellt.
robots.txt-Compliance: PerplexityBot respektiert robots.txt. Ihn zu blockieren entfernt Ihre Inhalte aus Perplexity-Antworten, was bedeutet, dass sowohl die Zitation als auch der Referral-Traffic verloren gehen.
PerplexityBot ist der eine AI-Crawler, bei dem das Blockieren sofort sichtbare Kosten verursacht. Anders als Training-Bots bietet PerplexityBot Echtzeit-Quellenangaben und Referral-Links. Ihn zu blockieren bedeutet, eine Traffic-Quelle zu blockieren.
Google-Extended: Suche und AI-Training trennen
Google-Extended ist eine der wichtigsten Unterscheidungen in der AI-Crawler-Welt und eine der am häufigsten missverstandenen.
User-Agent-String: Google-Extended
Was er macht: Google-Extended crawlt Ihre Inhalte speziell für das AI-Modelltraining (Gemini). Er ist vollständig getrennt von Googlebot, der die klassische Suchindexierung und Google AI Overviews übernimmt.
Die entscheidende Unterscheidung: Google-Extended zu blockieren beeinflusst NICHT Ihre Google-Suchrankings. Es entfernt NICHT Ihre Inhalte aus Google AI Overviews. Es verhindert lediglich, dass Ihre Inhalte für das Gemini-Modelltraining verwendet werden. Googlebot hingegen zu blockieren entfernt Sie vollständig aus der Google-Suche. Diese Verwechslung hat bereits realen Schaden verursacht. Seitenbetreiber, die das AI-Training blockieren wollten, haben versehentlich Googlebot blockiert und damit über Nacht ihre Suchsichtbarkeit ausgelöscht.
Crawl-Verhalten: Google-Extended crawlt mit Raten, die von Googles Infrastruktur bestimmt werden. Sie können seine Frequenz über robots.txt nur zulassen oder vollständig blockieren.
Bytespider: Der Hochvolumen-Training-Crawler
Bytespider ist ByteDances Web-Crawler und einer der aggressivsten Bots im Internet gemessen am Anfragevolumen.
User-Agent-String: Bytespider
Was er macht: Bytespider sammelt Trainingsdaten für ByteDance-AI-Produkte. Er crawlt mit hohem Volumen über Millionen von Seiten.
Crawl-Verhalten: Mehrere Berichte von Seitenbetreibern dokumentieren, dass Bytespider Zehntausende Anfragen pro Tag an einzelne Seiten richtet. Er wurde dafür gemeldet, Crawl-Delay-Direktiven zu ignorieren und unverhältnismäßig viele Serverressourcen zu verbrauchen. Einige Hosting-Anbieter haben Bytespider wegen Bandbreitenbedenken auf Standard-Blocklisten gesetzt.
robots.txt-Compliance: ByteDance gibt an, dass Bytespider robots.txt respektiert. In der Praxis sind die Compliance-Berichte gemischt. Einige Seitenbetreiber berichten von fortgesetztem Crawling nach Hinzufügen von Disallow-Regeln, wobei dies Caching-Verzögerungen widerspiegeln könnte statt absichtlicher Nicht-Compliance.
Bytespider ist der eine Crawler, bei dem Blockierung fast einhellig empfohlen wird. Er bietet keinen direkten Sichtbarkeitsvorteil für englischsprachige Anfragen, und seine aggressive Crawl-Rate verbraucht Serverressourcen. Blockieren Sie ihn, es sei denn, Sie haben einen konkreten Grund dagegen.
CCBot: Der Open-Dataset-Crawler
CCBot betreibt Common Crawl, eine gemeinnützige Organisation, die eines der größten offenen Web-Archive der Welt pflegt.
User-Agent-String: CCBot/2.0
Was er macht: CCBot crawlt das Web, um den Common-Crawl-Datensatz aufzubauen, ein riesiges offenes Archiv, das viele AI-Unternehmen als Trainingsdaten nutzen. Wenn Berichte sagen, AI-Modelle seien „mit dem Internet trainiert worden", ist Common Crawl häufig die primäre Datenquelle.
Warum das für AI relevant ist: CCBot zu blockieren betrifft nicht nur Common Crawl. Es verringert die Chance, dass Ihre Inhalte in AI-Modellen erscheinen, die Common Crawl als Trainingsquelle nutzen — und das schließt eine große Zahl von Open-Source- und kommerziellen Modellen ein.
robots.txt-Compliance: CCBot respektiert robots.txt.
Applebot-Extended: Apple Intelligence
Applebot-Extended ist Apples AI-spezifischer Crawler, getrennt vom Standard-Applebot, der für Siri und Safari-Vorschläge verwendet wird.
User-Agent-String: Applebot-Extended
Was er macht: Applebot-Extended sammelt Daten für Apple-Intelligence-Funktionen, einschließlich On-Device-AI-Fähigkeiten in aktuellen iOS- und macOS-Versionen.
Crawl-Verhalten: Weniger aggressiv als die meisten anderen AI-Crawler. Apple war historisch konservativ mit Crawl-Raten.
robots.txt-Compliance: Respektiert robots.txt. Apple hat eine klare Dokumentation zum unabhängigen Zulassen oder Blockieren von Applebot-Extended gegenüber dem Standard-Applebot.
Wie Sie AI-Crawler-Aktivität auf Ihrer Seite überwachen
Zu wissen, welche Bots existieren, ist Schritt eins. Zu wissen, welche tatsächlich Ihre Seite besuchen, ist Schritt zwei. So überwachen Sie effektiv.
Server-Log-Analyse
Ihre Webserver-Zugriffslogs enthalten ein User-Agent-Feld für jede Anfrage. Filtern Sie nach bekannten AI-Crawler-User-Agents:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Google-Extended|OAI-SearchBot" /var/log/access.log | awk '{print $14}' | sort | uniq -c | sort -rn
Das liefert Ihnen eine Zählung der Anfragen pro Bot, sortiert nach Häufigkeit. Führen Sie es wöchentlich aus, um Trends zu erkennen und neue Ankömmlinge zu entdecken.
Worauf Sie achten sollten
Unerwartete Volumenspitzen. Wenn ein Bot plötzlich 10x mehr Anfragen als üblich stellt, untersuchen Sie es. Es könnte eine Crawl-Konfigurationsänderung auf deren Seite bedeuten, oder es könnte ein neuer Bot sein, der einen bekannten User-Agent vortäuscht.
Neue User-Agent-Strings. AI-Unternehmen starten neue Crawler, ohne dies immer anzukündigen. Jeder User-Agent, den Sie nicht kennen und der wiederholt Anfragen an Inhaltsseiten (nicht nur robots.txt) stellt, ist eine Untersuchung wert.
Blockierte Bots crawlen weiter. Wenn Sie eine Disallow-Regel für einen bestimmten Bot hinzugefügt haben, ihn aber weiterhin in Ihren Logs sehen, prüfen Sie, ob Ihr CDN die alte robots.txt zwischenspeichert. Verifizieren Sie auch, dass der Bot den korrekten User-Agent-String in Ihren Regeln matcht.
Crawl-zu-Sichtbarkeits-Verhältnis. Manche Bots crawlen intensiv, produzieren aber keinen sichtbaren Output. Ihre Inhalte erscheinen nie auf deren Plattform. Das ist ein Zeichen für reines Training-Crawling ohne Retrieval-Nutzen.
Überwachen Sie Ihre Logs mindestens monatlich. Die AI-Crawler-Landschaft ändert sich schnell genug, dass ein Regelset von vor drei Monaten Lücken haben kann. Neue Bots erscheinen, bestehende ändern ihr Verhalten, und zuvor gutartige Crawler gehen gelegentlich unberechenbar vor.
Crawler, die Sie möglicherweise nicht kennen
Neben den großen Akteuren gibt es mehrere weniger bekannte AI-Crawler, die es wert sind, beobachtet zu werden.
YouBot (You.com): Treibt die You.com-AI-Suchmaschine an. Moderate Crawl-Raten. Liefert Quellenangaben in Suchergebnissen. Blockieren entfernt Sie aus You.com-Antworten.
PetalBot (Huawei): Crawlt für Huaweis Petal Search, das in Regionen, in denen Google nicht verfügbar ist, einen bedeutenden Marktanteil hat. Relevant, wenn Ihre Zielgruppe Nutzer in China oder bestimmten Teilen Asiens umfasst.
Amazonbot (Amazon): Crawlt für Alexa-AI-Funktionen und Amazon-Produktwissen. Relevant für E-Commerce-Marken, die in Sprachassistent-Antworten erscheinen möchten.
cohere-ai (Cohere): Crawlt Trainingsdaten für Coheres Enterprise-AI-Modelle. Viele B2B-Anwendungen basieren auf Cohere, sodass Ihre Inhalte in Enterprise-Tools auftauchen können, auch wenn Sie nicht direkt mit Cohere interagieren.
Diffbot (Diffbot): Extrahiert strukturierte Daten aus Webseiten zur Nutzung in Wissensgraphen und AI-Produkten. Crawlt nicht für Rohtext-Training, sondern für Entity-Extraktion und Beziehungsmapping.
Eine empfohlene robots.txt-Vorlage
Basierend auf den oben dokumentierten Bots ist hier eine Startvorlage, die AI-Sichtbarkeit maximiert und gleichzeitig aggressive reine Training-Crawler blockiert:
# Search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI crawlers: allowed (provide visibility or attribution)
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# AI crawlers: blocked (aggressive, no direct visibility benefit)
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Default
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/
Sitemap: https://yoursite.com/sitemap.xml
Passen Sie die Vorlage an Ihre Prioritäten an. Wenn Content-Schutz wichtiger ist als Sichtbarkeit, verschieben Sie GPTBot und ClaudeBot in den blockierten Bereich. Wenn maximale Reichweite das Ziel ist, lassen Sie alles offen und akzeptieren Sie die Bandbreitenkosten.
Für detaillierte Konfigurationsanleitungen, Testschritte und Vermeidung häufiger Fehler lesen Sie unseren robots.txt für AI-Crawler Guide.
Was als Nächstes kommt
Das AI-Crawler-Ökosystem ist noch jung. Neue Bots werden jedes Quartal erscheinen. Bestehende werden ihre Namen ändern, Fähigkeiten zusammenlegen oder sich in spezialisiertere Varianten aufteilen. Die Unternehmen dahinter werden einige Änderungen öffentlich ankündigen und andere still umsetzen.
Ihre Aufgabe ist nicht, jeden Bot auswendig zu kennen. Ihre Aufgabe ist, ein System zu haben: eine robots.txt-Vorlage, die Ihre Strategie widerspiegelt, einen Monitoring-Prozess, der neue Ankömmlinge auffängt, und einen vierteljährlichen Überprüfungszyklus, der Ihre Regeln aktuell hält.
Die Marken, die das richtig machen, werden kontrollieren, wie ihre Inhalte in AI-Systeme fließen. Die, die es ignorieren, werden diese Entscheidung für sich treffen lassen — von Bots, von deren Existenz sie nie wussten.
Siehe auch: E-E-A-T und AI-Sichtbarkeit: Warum Googles Qualitätsframework für GEO wichtig ist