Respektieren KI-Crawler die robots.txt?

Die meisten großen KI-Crawler respektieren robots.txt-Direktiven. GPTBot, ClaudeBot und Google-Extended befolgen alle Disallow-Regeln. Allerdings sind nicht alle KI-Bots gleichermaßen konform. Das Monitoring Ihrer Server-Logs ist der einzige Weg, die tatsächliche Einhaltung zu überprüfen.

Wird durch das Blockieren von GPTBot mein Inhalt aus ChatGPT entfernt?

Das Blockieren von GPTBot verhindert, dass OpenAI Ihre Seite für künftige Trainingsdaten und Live-Abrufe crawlt. Inhalte, die bereits im Trainingsdatensatz enthalten sind, bleiben jedoch erhalten. Die Direktive wirkt vorwärtsgerichtet: Sie stoppt neues Crawling, keine rückwirkende Datenentfernung.

Kann ich Google AI Overviews erlauben, aber ChatGPT blockieren?

Ja. Google AI Overviews verwendet Googlebot, der von Google-Extended getrennt ist. Sie können gezielt GPTBot blockieren und Googlebot weiterhin zulassen. So erscheinen Ihre Inhalte in AI Overviews und in der klassischen Suche, während OpenAI daran gehindert wird, Ihre Seiten zu crawlen.

Was passiert, wenn ich keine Regeln für KI-Crawler in der robots.txt habe?

Wenn Ihre robots.txt einen bestimmten KI-Crawler nicht erwähnt, greift der Bot auf Ihre allgemeinen Regeln zurück. Haben Sie kein Wildcard-Disallow, kann der Bot alles crawlen. Für viele Seiten ist das in Ordnung, da es maximale KI-Sichtbarkeit bedeutet.

Sollte ich KI-Crawler blockieren, um meine Inhalte zu schützen?

Das hängt von Ihren Zielen ab. Ein Block schützt Inhalte vor dem Modell-Training, entfernt Ihre Marke aber aus KI-generierten Antworten. Für die meisten Marken überwiegt der Sichtbarkeitsvorteil das Risiko. Ein selektiver Ansatz funktioniert am besten für diejenigen, die sowohl Schutz als auch Präsenz wollen.

So konfigurieren Sie robots.txt für KI-Crawler (ohne Google zu blockieren)

Die robots.txt-Datei ist jetzt eine strategische Entscheidung

Während des größten Teils ihrer Geschichte war die robots.txt eine Hausmeisterdatei. Sie blockierten den Crawler-Zugriff auf Admin-Seiten, Staging-Umgebungen und Duplicate-Content-Pfade. Wenn Sie etwas falsch gemacht haben, verloren Sie ein paar Seiten aus dem Google-Index. Ärgerlich, aber innerhalb eines Crawl-Zyklus behebbar.

Diese Dynamik hat sich verschoben, als KI-Unternehmen begannen, Crawler durch das Web zu schicken. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Jeder von ihnen überprüft Ihre robots.txt, bevor er entscheidet, ob er Ihre Seiten liest. Ihre robots.txt dreht sich nicht mehr nur um die Indexierung durch Suchmaschinen. Sie ist die Eingangstür zur KI-Sichtbarkeit. Machen Sie etwas falsch, und Sie verschwinden still aus KI-generierten Antworten. Machen Sie es nachlässig falsch, und Sie blockieren dabei auch Googlebot.

Ihre robots.txt ist heute eine geschäftliche Entscheidung, keine technische Fleißarbeit. Jede Disallow-Regel, die Sie schreiben, bestimmt, ob Ihre Marke in KI-Antworten auf ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok und Google AI Overviews erscheint oder aus ihnen verschwindet.

Der knifflige Teil: KI-Crawler und klassische Such-Crawler verwenden denselben Zugriffsmechanismus, verfolgen aber unterschiedliche Zwecke. Googlebot indexiert Seiten für Suchergebnisse. GPTBot liest Inhalte für Modell-Training und Echtzeit-Abruf. Google-Extended verarbeitet KI-Trainingsdaten getrennt von der regulären Suchindexierung. Den falschen User-Agent zu blockieren hat Folgen, die Sie nicht geplant haben.

Dieser Leitfaden behandelt jeden wichtigen User-Agent-String eines KI-Crawlers, zeigt exakte robots.txt-Konfigurationen für gängige Szenarien und weist auf die Fehler hin, die Seiten ihre Sichtbarkeit kosten.

Siehe auch: AI-Crawler-Liste 2026: Jeder Bot, der Ihre Website durchsucht (und was er damit macht)

Was robots.txt tatsächlich steuert (und was nicht)

Bevor Sie Regeln für KI-Bots schreiben, sollten Sie die Grenzen verstehen, was diese Datei leisten kann.

robots.txt ist ein freiwilliges Protokoll. Sie teilt Crawlern mit, auf welche Pfade sie nicht zugreifen sollen. Das Wort "sollen" ist hier wichtig. Konforme Crawler lesen die Datei und befolgen die Regeln. Nicht konforme ignorieren sie. Es gibt keinen eingebauten Durchsetzungsmechanismus im Protokoll.

Für die klassische Suche war das selten ein Problem. Googlebot und Bingbot respektieren die robots.txt zuverlässig. Rogue-Scraper haben sie schon immer ignoriert, und das wurde als Preis für die Präsenz im offenen Web akzeptiert.

Was robots.txt steuert

Welche URL-Pfade ein bestimmter Crawler aufrufen darf
Welche URL-Pfade über Wildcard-Regeln für alle Crawler tabu sind
Sitemap-Standort (Information, keine Direktive)

Was robots.txt NICHT steuert

Ob bereits gescrapte Inhalte aus Trainingsdatensätzen entfernt werden
Wie ein Bot Inhalte verwendet, die er vor dem Bestehen Ihrer Regel gesammelt hat
Crawl-Rate oder -Frequenz (die Crawl-delay-Direktive existiert, wird aber nicht von allen Bots respektiert)
Zugriff von Bots, die sich nicht identifizieren oder ihren User-Agent fälschen
Ihre Inhalte auf Drittseiten, in sozialen Medien oder in syndizierten Feeds

robots.txt wirkt vorwärtsgerichtet, nicht rückwirkend. Wenn GPTBot Ihre Seite letzten Monat gecrawlt hat, stoppt ein heute hinzugefügtes Disallow zukünftige Besuche. Es löscht nicht, was bereits gesammelt wurde. Für rückwirkende Entfernung müssen Sie das KI-Unternehmen direkt kontaktieren.

Diese Unterscheidung ist wichtig. Viele Seitenbetreiber blockieren KI-Crawler in der Erwartung, dass ihre Inhalte aus ChatGPT- oder Perplexity-Antworten verschwinden. Das wird nicht passieren. Der Block verhindert nur neue Crawl-Besuche in der Zukunft.

KI-Crawler-User-Agents: Die vollständige Referenz

Jedes KI-Unternehmen verwendet einen oder mehrere User-Agent-Strings, um seine Crawler zu identifizieren. Sie benötigen diese Strings, um gezielte robots.txt-Regeln zu schreiben. Hier ist jeder wichtige KI-Crawler, der 2026 aktiv ist.

OpenAI

Bot	User-Agent-String	Zweck
GPTBot	`GPTBot`	Trainingsdaten + Live-Abruf für ChatGPT
OAI-SearchBot	`OAI-SearchBot`	Echtzeit-Websuche für die ChatGPT-Suchfunktion
ChatGPT-User	`ChatGPT-User`	Browsing-Modus (nutzerinitiierte URL-Besuche)

GPTBot ist der primäre Crawler. OAI-SearchBot bearbeitet Echtzeit-Suchanfragen innerhalb von ChatGPT. ChatGPT-User wird aktiv, wenn jemand ChatGPT explizit bittet, eine bestimmte Seite zu durchsuchen. Nur GPTBot zu blockieren blockiert nicht den gesamten OpenAI-Zugriff. Sie müssen alle drei User-Agents separat behandeln.

Anthropic

Bot	User-Agent-String	Zweck
ClaudeBot	`ClaudeBot`	Sammlung von Trainingsdaten für Claude-Modelle
anthropic-ai	`anthropic-ai`	Älterer Anthropic-Crawler-Identifikator

ClaudeBot ist der aktuelle Haupt-Crawler. Der Identifikator anthropic-ai ist älter und erscheint seltener in Logs, taucht aber auf einigen Seiten noch auf.

Google

Bot	User-Agent-String	Zweck
Google-Extended	`Google-Extended`	KI-Trainingsdaten für Gemini, getrennt von der Suche
Googlebot	`Googlebot`	Klassische Suchindexierung + AI Overviews

Dieses Paar wird am häufigsten missverstanden. Googlebot verarbeitet sowohl die klassische Suchindexierung als auch Google AI Overviews. Google-Extended verarbeitet ausschließlich KI-Modelltraining. Das Blockieren von Google-Extended beeinflusst Ihre Suchrankings oder das Erscheinen in AI Overviews nicht. Das Blockieren von Googlebot tötet Ihre gesamte Google-Suchpräsenz. Wissen Sie, welchen Sie meinen.

Perplexity

Bot	User-Agent-String	Zweck
PerplexityBot	`PerplexityBot`	Echtzeit-Abruf für Perplexity-Antworten

PerplexityBot crawlt für Live-Abruf, nicht für Massentraining. Es ruft Seiten ab, wenn ein Nutzer eine Frage stellt, die zu Ihrem Inhalt passt.

ByteDance

Bot	User-Agent-String	Zweck
Bytespider	`Bytespider`	Trainingsdaten für ByteDance-KI-Produkte

Bytespider ist, gemessen an reinem Anfragevolumen, einer der aggressivsten Crawler im Web.

Weitere nennenswerte Bots

Bot	User-Agent-String	Zweck
CCBot	`CCBot`	Common-Crawl-Datensatz (von vielen KI-Unternehmen genutzt)
Applebot-Extended	`Applebot-Extended`	Apple-Intelligence-Funktionen
cohere-ai	`cohere-ai`	Cohere-Modelltraining
Diffbot	`Diffbot`	Strukturierte Datenextraktion für KI-Produkte
FacebookExternalHit	`FacebookExternalHit`	Meta-KI-Funktionen
ImagesiftBot	`ImagesiftBot`	Bildanalyse für KI-Systeme
Timpibot	`Timpibot`	Timpi dezentralisierte Suchmaschine

Für die vollständige Aufschlüsselung jedes Bots einschließlich IP-Bereichen, Crawl-Frequenzmustern und Compliance-Aufzeichnungen siehe unsere vollständige KI-Crawler-Referenz.

Standardkonfiguration vs. empfohlene Konfiguration

Die meisten Seiten fallen in eines von drei Szenarien. Hier ist der richtige robots.txt-Ansatz für jedes.

Szenario 1: Maximale KI-Sichtbarkeit (empfohlen für die meisten Marken)

Wenn Ihr Ziel ist, in möglichst vielen KI-generierten Antworten zu erscheinen, erlauben Sie alle wichtigen KI-Crawler. Blockieren Sie nur aggressive, reine Trainings-Bots, die Bandbreite verbrauchen, ohne Attribution zu liefern.

# Search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI crawlers, allowed for visibility
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

# Block aggressive training-only crawlers
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Default rule
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/

Sitemap: https://yoursite.com/sitemap.xml

Dies öffnet Ihre Inhalte für jede KI-Plattform, die direkte Markensichtbarkeit bietet: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Massentrainings-Crawler bleiben fern von Ihrem Server.

Szenario 2: Selektiver KI-Zugriff (nur Abruf, kein Training)

Sie möchten, dass Ihre Inhalte in KI-Antworten zitiert, aber nicht für das Modelltraining aufgenommen werden. Die Grenze zwischen Training und Abruf ist bei einigen Crawlern unscharf, aber Sie können sie annähern:

# Search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Retrieval-focused AI bots, allowed
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Training-focused crawlers, blocked
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: *
Allow: /
Disallow: /admin/

Sitemap: https://yoursite.com/sitemap.xml

Der Kompromiss ist real: Das Blockieren von GPTBot kann Ihre Sichtbarkeit in ChatGPT mit der Zeit verringern. OpenAI verwendet GPTBot sowohl für Training als auch für einen Teil des Abrufs. Dieses Szenario priorisiert den Inhaltsschutz über maximale Reichweite.

Szenario 3: Alle KI-Crawler blockieren

Gültig für Publisher mit Lizenzbedenken. Nicht empfohlen, wenn Sie KI-Sichtbarkeit wünschen:

# Allow search engines only
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Block all known AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Alle KI-Crawler zu blockieren macht Ihre Inhalte nicht unsichtbar für KI. Ihre Texte können dennoch über Common-Crawl-Archive auftauchen, die vor der Blockierung gesammelt wurden, über Drittanbieter-Syndizierung, zwischengespeicherte Kopien und Social-Media-Shares. Vollständige KI-Unsichtbarkeit allein über die robots.txt ist praktisch unmöglich.

Fünf häufige Fehler (und wie Sie sie beheben)

Fehler 1: Wildcard-Block, der Googlebot erfasst

Der schädlichste und häufigste:

# DO NOT DO THIS
User-agent: *
Disallow: /

Dies blockiert jeden Crawler im Internet, einschließlich Googlebot. Ihre Seite verschwindet aus den Suchergebnissen. Wenn Sie KI-Crawler blockieren wollen, listen Sie sie einzeln nach User-Agent-Namen auf. Verwenden Sie niemals ein Wildcard-Disallow auf dem Root-Pfad ohne explizite Allow-Regeln für die benötigten Crawler.

So beheben Sie es: Fügen Sie explizite Allow-Regeln für Googlebot und Bingbot oberhalb eines breiten Disallow hinzu. Besser noch: Vermeiden Sie Wildcard-Root-Blocks vollständig und benennen Sie jeden Bot einzeln.

Fehler 2: Verwechslung von Google-Extended mit Googlebot

Google-Extended steuert nur KI-Trainingsdaten. Es zu blockieren berührt Ihre Suchrankings oder AI-Overviews-Sichtbarkeit nicht. Aber einige Seitenbetreiber blockieren sowohl Google-Extended als auch Googlebot, weil sie denken, sie seien gründlich.

Ergebnis: Ihre Seite verschwindet komplett aus der Google-Suche.

So beheben Sie es: Wenn Sie in der Google-Suche und in AI Overviews bleiben möchten, Inhalte aber aus dem Gemini-Training heraushalten wollen, blockieren Sie nur Google-Extended. Lassen Sie Googlebot in Ruhe.

Fehler 3: OAI-SearchBot vergessen

GPTBot bekommt die ganze Aufmerksamkeit, aber OAI-SearchBot ist ein separater User-Agent für die ChatGPT-Echtzeit-Suche. GPTBot blockiert und OAI-SearchBot unbehandelt lassen? ChatGPT kann Ihre Seiten trotzdem über seine Suchfunktion abrufen.

So beheben Sie es: Wenn Sie jeglichen OpenAI-Zugriff blockieren möchten, nehmen Sie Regeln für GPTBot, OAI-SearchBot und ChatGPT-User auf. Alle drei.

Fehler 4: Nach dem Deployment nicht prüfen

Sie haben die Datei gespeichert und sind weitergezogen. Aber hat die Änderung gegriffen? Häufige Fehlerfälle: Ihr CDN cached die alte robots.txt stundenlang. Die Datei hat die falsche Kodierung. Sie wurde in das falsche Verzeichnis deployed. Es existiert eine Redirect-Schleife auf /robots.txt.

So beheben Sie es: Rufen Sie nach jeder Änderung yoursite.com/robots.txt direkt im Browser ab. Prüfen Sie die Response-Header auf Cache-Direktiven. Verwenden Sie den robots.txt-Tester der Google Search Console zur Googlebot-Validierung. Überwachen Sie die Server-Logs 48 Stunden lang.

Fehler 5: robots.txt als Sicherheitsebene behandeln

robots.txt ist keine Zugriffssteuerung. Es ist eine höfliche Bitte. Sie authentifiziert keine Crawler, verschlüsselt keine Inhalte und verhindert nicht, dass irgendein Bot Ihre Seiten liest, wenn er beschließt, die Datei zu ignorieren.

So beheben Sie es: Für sensible Inhalte verwenden Sie serverseitige Kontrollen: Authentifizierung, IP-Allowlists, WAF-Regeln oder Paywalls. robots.txt behandelt wohlerzogene Bots. Firewalls behandeln alles andere.

robots.txt sagt wohlerzogenen Bots, was Sie bevorzugen. Es erzwingt nichts. Für den Inhaltsschutz benötigen Sie serverseitige Zugriffskontrollen, nicht eine Textdatei in Ihrem Root-Verzeichnis.

Ihre Konfiguration testen

Validieren Sie Ihre Regeln nach dem Schreiben oder Aktualisieren, bevor Sie sie deployen.

Schritt 1: Syntaxvalidierung

Verwenden Sie den robots.txt-Tester in der Google Search Console. Geben Sie Ihre URL ein und überprüfen Sie, ob Googlebot auf Ihre Schlüsselseiten zugreifen kann. Dieses Tool testet nur Googlebot-Regeln, fängt aber Syntaxfehler ab, die alle Bots betreffen.

Schritt 2: Manuelle User-Agent-Simulation

Verwenden Sie curl, um zu sehen, wie Ihr Server auf verschiedene Bot-Identifikatoren reagiert:

curl -A "GPTBot" https://yoursite.com/robots.txt
curl -A "ClaudeBot" https://yoursite.com/robots.txt
curl -A "PerplexityBot" https://yoursite.com/robots.txt

Der Dateiinhalt ist identisch, unabhängig davon, wer ihn anfordert, aber mental die Regeln für jeden User-Agent durchzugehen hilft Ihnen, Logikfehler zu erkennen, bevor sie Sichtbarkeit kosten.

Schritt 3: Log-Monitoring

Überprüfen Sie nach dem Deployment Ihre Server-Access-Logs auf KI-Crawler-Aktivität. Halten Sie nach den in diesem Artikel aufgeführten User-Agent-Strings Ausschau. Wenn Sie PerplexityBot blockiert haben, aber 48 Stunden später weiterhin sehen, wie er Ihre Seiten trifft, liefert entweder Ihr CDN eine veraltete robots.txt oder der Bot gehorcht Ihren Regeln nicht.

Zu beobachtende Felder:

User-Agent-String in Request-Headern
Angeforderte URL-Pfade (greift der Bot auf blockierte Pfade zu?)
HTTP-Statuscodes (200, 403, 429?)
Anfragehäufigkeit (hat sie sich seit Ihrem Update geändert?)

Schritt 4: Vierteljährliche Überprüfung

KI-Unternehmen starten neue Crawler, benennen bestehende um und ändern regelmäßig ihr Verhalten. Überprüfen Sie Ihre robots.txt jedes Quartal. Sehen Sie die aktuelle KI-Crawler-Liste für neue Ergänzungen ein. Eine im Januar geschriebene Konfiguration kann bis Juni blinde Flecken haben.

Der Entscheidungsrahmen

Unsicher, welcher Ansatz passt? Gehen Sie diese vier Fragen durch.

Möchten Sie, dass Ihre Marke in KI-generierten Antworten zitiert wird? Wenn ja, erlauben Sie GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot und Applebot-Extended. Dies ist der Weg maximaler Sichtbarkeit und der richtige Standard für die meisten Marken.

Machen Sie sich Sorgen um das Modelltraining? Wenn ja, aber Sie trotzdem KI-Zitate wollen, erlauben Sie Abruf-Bots (OAI-SearchBot, ChatGPT-User, PerplexityBot) und blockieren Sie Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider). Akzeptieren Sie, dass die Grenze nicht perfekt ist.

Sind Sie ein Publisher mit Lizenzbedenken? Blockieren Sie alle KI-Crawler. Erkunden Sie direkte Lizenzvereinbarungen mit KI-Unternehmen. OpenAI, Google und Apple haben alle Publisher-Partnerschaftsprogramme, die die Inhaltsnutzung unter ausgehandelten Bedingungen vergüten.

Sind Sie unsicher? Beginnen Sie mit maximaler Sichtbarkeit. Beobachten Sie 30 Tage lang. Prüfen Sie, ob KI-Plattformen Ihre Marke häufiger zitieren. Wenn der Zitatwert positiv ist, lassen Sie die Konfiguration offen. Sie können Regeln später verschärfen. Sie zu lockern ist schwieriger, weil Sie Crawl-Momentum verlieren, während Sie blockiert sind.

Die Standardposition für die meisten Marken 2026: KI-Crawler erlauben, beobachten, was passiert, basierend auf Daten anpassen. Standardmäßig zu blockieren bedeutet, sich gegen einen Vertriebskanal zu entscheiden, der jedes Quartal wächst, während der klassische Suchtraffic stagniert.

Siehe auch: E-E-A-T und AI-Sichtbarkeit: Warum Googles Qualitätsframework für GEO wichtig ist