Die robots.txt-Datei ist jetzt eine strategische Entscheidung
Während des größten Teils ihrer Geschichte war die robots.txt eine Hausmeisterdatei. Sie blockierten den Crawler-Zugriff auf Admin-Seiten, Staging-Umgebungen und Duplicate-Content-Pfade. Wenn Sie etwas falsch gemacht haben, verloren Sie ein paar Seiten aus dem Google-Index. Ärgerlich, aber innerhalb eines Crawl-Zyklus behebbar.
Diese Dynamik hat sich verschoben, als KI-Unternehmen begannen, Crawler durch das Web zu schicken. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Jeder von ihnen überprüft Ihre robots.txt, bevor er entscheidet, ob er Ihre Seiten liest. Ihre robots.txt dreht sich nicht mehr nur um die Indexierung durch Suchmaschinen. Sie ist die Eingangstür zur KI-Sichtbarkeit. Machen Sie etwas falsch, und Sie verschwinden still aus KI-generierten Antworten. Machen Sie es nachlässig falsch, und Sie blockieren dabei auch Googlebot.
Ihre robots.txt ist heute eine geschäftliche Entscheidung, keine technische Fleißarbeit. Jede Disallow-Regel, die Sie schreiben, bestimmt, ob Ihre Marke in KI-Antworten auf ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok und Google AI Overviews erscheint oder aus ihnen verschwindet.
Der knifflige Teil: KI-Crawler und klassische Such-Crawler verwenden denselben Zugriffsmechanismus, verfolgen aber unterschiedliche Zwecke. Googlebot indexiert Seiten für Suchergebnisse. GPTBot liest Inhalte für Modell-Training und Echtzeit-Abruf. Google-Extended verarbeitet KI-Trainingsdaten getrennt von der regulären Suchindexierung. Den falschen User-Agent zu blockieren hat Folgen, die Sie nicht geplant haben.
Dieser Leitfaden behandelt jeden wichtigen User-Agent-String eines KI-Crawlers, zeigt exakte robots.txt-Konfigurationen für gängige Szenarien und weist auf die Fehler hin, die Seiten ihre Sichtbarkeit kosten.
Siehe auch: AI-Crawler-Liste 2026: Jeder Bot, der Ihre Website durchsucht (und was er damit macht)
Was robots.txt tatsächlich steuert (und was nicht)
Bevor Sie Regeln für KI-Bots schreiben, sollten Sie die Grenzen verstehen, was diese Datei leisten kann.
robots.txt ist ein freiwilliges Protokoll. Sie teilt Crawlern mit, auf welche Pfade sie nicht zugreifen sollen. Das Wort "sollen" ist hier wichtig. Konforme Crawler lesen die Datei und befolgen die Regeln. Nicht konforme ignorieren sie. Es gibt keinen eingebauten Durchsetzungsmechanismus im Protokoll.
Für die klassische Suche war das selten ein Problem. Googlebot und Bingbot respektieren die robots.txt zuverlässig. Rogue-Scraper haben sie schon immer ignoriert, und das wurde als Preis für die Präsenz im offenen Web akzeptiert.
Was robots.txt steuert
- Welche URL-Pfade ein bestimmter Crawler aufrufen darf
- Welche URL-Pfade über Wildcard-Regeln für alle Crawler tabu sind
- Sitemap-Standort (Information, keine Direktive)
Was robots.txt NICHT steuert
- Ob bereits gescrapte Inhalte aus Trainingsdatensätzen entfernt werden
- Wie ein Bot Inhalte verwendet, die er vor dem Bestehen Ihrer Regel gesammelt hat
- Crawl-Rate oder -Frequenz (die Crawl-delay-Direktive existiert, wird aber nicht von allen Bots respektiert)
- Zugriff von Bots, die sich nicht identifizieren oder ihren User-Agent fälschen
- Ihre Inhalte auf Drittseiten, in sozialen Medien oder in syndizierten Feeds
robots.txt wirkt vorwärtsgerichtet, nicht rückwirkend. Wenn GPTBot Ihre Seite letzten Monat gecrawlt hat, stoppt ein heute hinzugefügtes Disallow zukünftige Besuche. Es löscht nicht, was bereits gesammelt wurde. Für rückwirkende Entfernung müssen Sie das KI-Unternehmen direkt kontaktieren.
Diese Unterscheidung ist wichtig. Viele Seitenbetreiber blockieren KI-Crawler in der Erwartung, dass ihre Inhalte aus ChatGPT- oder Perplexity-Antworten verschwinden. Das wird nicht passieren. Der Block verhindert nur neue Crawl-Besuche in der Zukunft.
KI-Crawler-User-Agents: Die vollständige Referenz
Jedes KI-Unternehmen verwendet einen oder mehrere User-Agent-Strings, um seine Crawler zu identifizieren. Sie benötigen diese Strings, um gezielte robots.txt-Regeln zu schreiben. Hier ist jeder wichtige KI-Crawler, der 2026 aktiv ist.
OpenAI
| Bot | User-Agent-String | Zweck |
|---|---|---|
| GPTBot | GPTBot |
Trainingsdaten + Live-Abruf für ChatGPT |
| OAI-SearchBot | OAI-SearchBot |
Echtzeit-Websuche für die ChatGPT-Suchfunktion |
| ChatGPT-User | ChatGPT-User |
Browsing-Modus (nutzerinitiierte URL-Besuche) |
GPTBot ist der primäre Crawler. OAI-SearchBot bearbeitet Echtzeit-Suchanfragen innerhalb von ChatGPT. ChatGPT-User wird aktiv, wenn jemand ChatGPT explizit bittet, eine bestimmte Seite zu durchsuchen. Nur GPTBot zu blockieren blockiert nicht den gesamten OpenAI-Zugriff. Sie müssen alle drei User-Agents separat behandeln.
Anthropic
| Bot | User-Agent-String | Zweck |
|---|---|---|
| ClaudeBot | ClaudeBot |
Sammlung von Trainingsdaten für Claude-Modelle |
| anthropic-ai | anthropic-ai |
Älterer Anthropic-Crawler-Identifikator |
ClaudeBot ist der aktuelle Haupt-Crawler. Der Identifikator anthropic-ai ist älter und erscheint seltener in Logs, taucht aber auf einigen Seiten noch auf.
| Bot | User-Agent-String | Zweck |
|---|---|---|
| Google-Extended | Google-Extended |
KI-Trainingsdaten für Gemini, getrennt von der Suche |
| Googlebot | Googlebot |
Klassische Suchindexierung + AI Overviews |
Dieses Paar wird am häufigsten missverstanden. Googlebot verarbeitet sowohl die klassische Suchindexierung als auch Google AI Overviews. Google-Extended verarbeitet ausschließlich KI-Modelltraining. Das Blockieren von Google-Extended beeinflusst Ihre Suchrankings oder das Erscheinen in AI Overviews nicht. Das Blockieren von Googlebot tötet Ihre gesamte Google-Suchpräsenz. Wissen Sie, welchen Sie meinen.
Perplexity
| Bot | User-Agent-String | Zweck |
|---|---|---|
| PerplexityBot | PerplexityBot |
Echtzeit-Abruf für Perplexity-Antworten |
PerplexityBot crawlt für Live-Abruf, nicht für Massentraining. Es ruft Seiten ab, wenn ein Nutzer eine Frage stellt, die zu Ihrem Inhalt passt.
ByteDance
| Bot | User-Agent-String | Zweck |
|---|---|---|
| Bytespider | Bytespider |
Trainingsdaten für ByteDance-KI-Produkte |
Bytespider ist, gemessen an reinem Anfragevolumen, einer der aggressivsten Crawler im Web.
Weitere nennenswerte Bots
| Bot | User-Agent-String | Zweck |
|---|---|---|
| CCBot | CCBot |
Common-Crawl-Datensatz (von vielen KI-Unternehmen genutzt) |
| Applebot-Extended | Applebot-Extended |
Apple-Intelligence-Funktionen |
| cohere-ai | cohere-ai |
Cohere-Modelltraining |
| Diffbot | Diffbot |
Strukturierte Datenextraktion für KI-Produkte |
| FacebookExternalHit | FacebookExternalHit |
Meta-KI-Funktionen |
| ImagesiftBot | ImagesiftBot |
Bildanalyse für KI-Systeme |
| Timpibot | Timpibot |
Timpi dezentralisierte Suchmaschine |
Für die vollständige Aufschlüsselung jedes Bots einschließlich IP-Bereichen, Crawl-Frequenzmustern und Compliance-Aufzeichnungen siehe unsere vollständige KI-Crawler-Referenz.
Standardkonfiguration vs. empfohlene Konfiguration
Die meisten Seiten fallen in eines von drei Szenarien. Hier ist der richtige robots.txt-Ansatz für jedes.
Szenario 1: Maximale KI-Sichtbarkeit (empfohlen für die meisten Marken)
Wenn Ihr Ziel ist, in möglichst vielen KI-generierten Antworten zu erscheinen, erlauben Sie alle wichtigen KI-Crawler. Blockieren Sie nur aggressive, reine Trainings-Bots, die Bandbreite verbrauchen, ohne Attribution zu liefern.
# Search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI crawlers, allowed for visibility
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# Block aggressive training-only crawlers
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Default rule
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/
Sitemap: https://yoursite.com/sitemap.xml
Dies öffnet Ihre Inhalte für jede KI-Plattform, die direkte Markensichtbarkeit bietet: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Massentrainings-Crawler bleiben fern von Ihrem Server.
Szenario 2: Selektiver KI-Zugriff (nur Abruf, kein Training)
Sie möchten, dass Ihre Inhalte in KI-Antworten zitiert, aber nicht für das Modelltraining aufgenommen werden. Die Grenze zwischen Training und Abruf ist bei einigen Crawlern unscharf, aber Sie können sie annähern:
# Search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Retrieval-focused AI bots, allowed
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Training-focused crawlers, blocked
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://yoursite.com/sitemap.xml
Der Kompromiss ist real: Das Blockieren von GPTBot kann Ihre Sichtbarkeit in ChatGPT mit der Zeit verringern. OpenAI verwendet GPTBot sowohl für Training als auch für einen Teil des Abrufs. Dieses Szenario priorisiert den Inhaltsschutz über maximale Reichweite.
Szenario 3: Alle KI-Crawler blockieren
Gültig für Publisher mit Lizenzbedenken. Nicht empfohlen, wenn Sie KI-Sichtbarkeit wünschen:
# Allow search engines only
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Block all known AI crawlers
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
Alle KI-Crawler zu blockieren macht Ihre Inhalte nicht unsichtbar für KI. Ihre Texte können dennoch über Common-Crawl-Archive auftauchen, die vor der Blockierung gesammelt wurden, über Drittanbieter-Syndizierung, zwischengespeicherte Kopien und Social-Media-Shares. Vollständige KI-Unsichtbarkeit allein über die robots.txt ist praktisch unmöglich.
Fünf häufige Fehler (und wie Sie sie beheben)
Fehler 1: Wildcard-Block, der Googlebot erfasst
Der schädlichste und häufigste:
# DO NOT DO THIS
User-agent: *
Disallow: /
Dies blockiert jeden Crawler im Internet, einschließlich Googlebot. Ihre Seite verschwindet aus den Suchergebnissen. Wenn Sie KI-Crawler blockieren wollen, listen Sie sie einzeln nach User-Agent-Namen auf. Verwenden Sie niemals ein Wildcard-Disallow auf dem Root-Pfad ohne explizite Allow-Regeln für die benötigten Crawler.
So beheben Sie es: Fügen Sie explizite Allow-Regeln für Googlebot und Bingbot oberhalb eines breiten Disallow hinzu. Besser noch: Vermeiden Sie Wildcard-Root-Blocks vollständig und benennen Sie jeden Bot einzeln.
Fehler 2: Verwechslung von Google-Extended mit Googlebot
Google-Extended steuert nur KI-Trainingsdaten. Es zu blockieren berührt Ihre Suchrankings oder AI-Overviews-Sichtbarkeit nicht. Aber einige Seitenbetreiber blockieren sowohl Google-Extended als auch Googlebot, weil sie denken, sie seien gründlich.
Ergebnis: Ihre Seite verschwindet komplett aus der Google-Suche.
So beheben Sie es: Wenn Sie in der Google-Suche und in AI Overviews bleiben möchten, Inhalte aber aus dem Gemini-Training heraushalten wollen, blockieren Sie nur Google-Extended. Lassen Sie Googlebot in Ruhe.
Fehler 3: OAI-SearchBot vergessen
GPTBot bekommt die ganze Aufmerksamkeit, aber OAI-SearchBot ist ein separater User-Agent für die ChatGPT-Echtzeit-Suche. GPTBot blockiert und OAI-SearchBot unbehandelt lassen? ChatGPT kann Ihre Seiten trotzdem über seine Suchfunktion abrufen.
So beheben Sie es: Wenn Sie jeglichen OpenAI-Zugriff blockieren möchten, nehmen Sie Regeln für GPTBot, OAI-SearchBot und ChatGPT-User auf. Alle drei.
Fehler 4: Nach dem Deployment nicht prüfen
Sie haben die Datei gespeichert und sind weitergezogen. Aber hat die Änderung gegriffen? Häufige Fehlerfälle: Ihr CDN cached die alte robots.txt stundenlang. Die Datei hat die falsche Kodierung. Sie wurde in das falsche Verzeichnis deployed. Es existiert eine Redirect-Schleife auf /robots.txt.
So beheben Sie es: Rufen Sie nach jeder Änderung yoursite.com/robots.txt direkt im Browser ab. Prüfen Sie die Response-Header auf Cache-Direktiven. Verwenden Sie den robots.txt-Tester der Google Search Console zur Googlebot-Validierung. Überwachen Sie die Server-Logs 48 Stunden lang.
Fehler 5: robots.txt als Sicherheitsebene behandeln
robots.txt ist keine Zugriffssteuerung. Es ist eine höfliche Bitte. Sie authentifiziert keine Crawler, verschlüsselt keine Inhalte und verhindert nicht, dass irgendein Bot Ihre Seiten liest, wenn er beschließt, die Datei zu ignorieren.
So beheben Sie es: Für sensible Inhalte verwenden Sie serverseitige Kontrollen: Authentifizierung, IP-Allowlists, WAF-Regeln oder Paywalls. robots.txt behandelt wohlerzogene Bots. Firewalls behandeln alles andere.
robots.txt sagt wohlerzogenen Bots, was Sie bevorzugen. Es erzwingt nichts. Für den Inhaltsschutz benötigen Sie serverseitige Zugriffskontrollen, nicht eine Textdatei in Ihrem Root-Verzeichnis.
Ihre Konfiguration testen
Validieren Sie Ihre Regeln nach dem Schreiben oder Aktualisieren, bevor Sie sie deployen.
Schritt 1: Syntaxvalidierung
Verwenden Sie den robots.txt-Tester in der Google Search Console. Geben Sie Ihre URL ein und überprüfen Sie, ob Googlebot auf Ihre Schlüsselseiten zugreifen kann. Dieses Tool testet nur Googlebot-Regeln, fängt aber Syntaxfehler ab, die alle Bots betreffen.
Schritt 2: Manuelle User-Agent-Simulation
Verwenden Sie curl, um zu sehen, wie Ihr Server auf verschiedene Bot-Identifikatoren reagiert:
curl -A "GPTBot" https://yoursite.com/robots.txt
curl -A "ClaudeBot" https://yoursite.com/robots.txt
curl -A "PerplexityBot" https://yoursite.com/robots.txt
Der Dateiinhalt ist identisch, unabhängig davon, wer ihn anfordert, aber mental die Regeln für jeden User-Agent durchzugehen hilft Ihnen, Logikfehler zu erkennen, bevor sie Sichtbarkeit kosten.
Schritt 3: Log-Monitoring
Überprüfen Sie nach dem Deployment Ihre Server-Access-Logs auf KI-Crawler-Aktivität. Halten Sie nach den in diesem Artikel aufgeführten User-Agent-Strings Ausschau. Wenn Sie PerplexityBot blockiert haben, aber 48 Stunden später weiterhin sehen, wie er Ihre Seiten trifft, liefert entweder Ihr CDN eine veraltete robots.txt oder der Bot gehorcht Ihren Regeln nicht.
Zu beobachtende Felder:
- User-Agent-String in Request-Headern
- Angeforderte URL-Pfade (greift der Bot auf blockierte Pfade zu?)
- HTTP-Statuscodes (200, 403, 429?)
- Anfragehäufigkeit (hat sie sich seit Ihrem Update geändert?)
Schritt 4: Vierteljährliche Überprüfung
KI-Unternehmen starten neue Crawler, benennen bestehende um und ändern regelmäßig ihr Verhalten. Überprüfen Sie Ihre robots.txt jedes Quartal. Sehen Sie die aktuelle KI-Crawler-Liste für neue Ergänzungen ein. Eine im Januar geschriebene Konfiguration kann bis Juni blinde Flecken haben.
Der Entscheidungsrahmen
Unsicher, welcher Ansatz passt? Gehen Sie diese vier Fragen durch.
Möchten Sie, dass Ihre Marke in KI-generierten Antworten zitiert wird? Wenn ja, erlauben Sie GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot und Applebot-Extended. Dies ist der Weg maximaler Sichtbarkeit und der richtige Standard für die meisten Marken.
Machen Sie sich Sorgen um das Modelltraining? Wenn ja, aber Sie trotzdem KI-Zitate wollen, erlauben Sie Abruf-Bots (OAI-SearchBot, ChatGPT-User, PerplexityBot) und blockieren Sie Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider). Akzeptieren Sie, dass die Grenze nicht perfekt ist.
Sind Sie ein Publisher mit Lizenzbedenken? Blockieren Sie alle KI-Crawler. Erkunden Sie direkte Lizenzvereinbarungen mit KI-Unternehmen. OpenAI, Google und Apple haben alle Publisher-Partnerschaftsprogramme, die die Inhaltsnutzung unter ausgehandelten Bedingungen vergüten.
Sind Sie unsicher? Beginnen Sie mit maximaler Sichtbarkeit. Beobachten Sie 30 Tage lang. Prüfen Sie, ob KI-Plattformen Ihre Marke häufiger zitieren. Wenn der Zitatwert positiv ist, lassen Sie die Konfiguration offen. Sie können Regeln später verschärfen. Sie zu lockern ist schwieriger, weil Sie Crawl-Momentum verlieren, während Sie blockiert sind.
Die Standardposition für die meisten Marken 2026: KI-Crawler erlauben, beobachten, was passiert, basierend auf Daten anpassen. Standardmäßig zu blockieren bedeutet, sich gegen einen Vertriebskanal zu entscheiden, der jedes Quartal wächst, während der klassische Suchtraffic stagniert.
Siehe auch: E-E-A-T und AI-Sichtbarkeit: Warum Googles Qualitätsframework für GEO wichtig ist