robots.txt Dosyası Artık Stratejik Bir Karar Haline Geldi
Tarihinin büyük bölümünde robots.txt basit bir bakım dosyasıydı. Yönetici sayfalarına, hazırlık ortamlarına ve mükerrer içerik yollarına tarayıcı erişimini engellerdiniz. Bir şeyi yanlış yaparsanız Google dizininden birkaç sayfa kaybederdiniz. Sınır bozucu ama bir tarama döngüsünde düzeltilebilir bir durumdu.
AI şirketlerinin web'e tarayıcı göndermeye başlamasıyla bu dinamik değişti. GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google-Extended. Her biri sayfalarınızı okuyup okumayacağına karar vermeden önce robots.txt dosyanızı kontrol eder. robots.txt dosyanız artık yalnızca arama motoru dizinlemesiyle ilgili değildir. AI görünürlüğünün giriş kapısıdır. Yanlış yaparsanız AI tarafından üretilen yanıtlardan sessizce kaybolursunuz. Dikkatsizce yaparsanız bu süreçte Googlebot'u da engellersiniz.
robots.txt dosyanız artık teknik bir iş değil, iş kararıdır. Yazdığınız her Disallow kuralı, markanızın ChatGPT, Perplexity, Gemini, Claude, DeepSeek, Grok ve Google AI Overviews genelinde AI yanıtlarında görünüp görünmeyeceğini belirler.
Zorluk şu ki AI tarayıcıları ve geleneksel arama tarayıcıları aynı erişim mekanizmasını kullanır ama farklı amaçlara hizmet eder. Googlebot sayfaları arama sonuçları için dizine ekler. GPTBot model eğitimi ve gerçek zamanlı erişim için içerik okur. Google-Extended, normal arama dizinlemesinden ayrı olarak AI eğitim verilerini işler. Yanlış user-agent'ı engellemek planlamadığınız sonuçlar doğurur.
Bu rehber her büyük AI tarayıcı user-agent string'ini kapsar, yaygın senaryolar için tam robots.txt yapılandırmalarını gösterir ve sitelerin görünürlüğüne mal olan hataları işaret eder.
Ayrıca bakın: 2026 AI Tarayıcı Listesi: Sitenizi Tarayan Her Bot (ve Ne Yaptıkları)
robots.txt Gerçekte Neyi Kontrol Eder (ve Neyi Etmez)
AI botları için kurallar yazmadan önce bu dosyanın yapabileceklerinin sınırlarını anlayın.
robots.txt gönüllü bir protokoldür. Tarayıcılara hangi yollara erişmemeleri gerektiğini söyler. "Gerektiğini" kelimesi burada önemlidir. Uyumlu tarayıcılar dosyayı okur ve kurallara uyar. Uyumsuz olanlar görmezden gelir. Protokolde yerleşik bir uygulama mekanizması yoktur.
Geleneksel arama için bu nadiren sorundu. Googlebot ve Bingbot robots.txt'ye güvenilir şekilde uyar. Sahte tarayıcılar her zaman görmezden gelmiştir ve bu açık web'in bir bedeli olarak kabul edilmiştir.
robots.txt dosyasının kontrol ettiği şeyler
- Belirli bir tarayıcının hangi URL yollarına erişebileceği
- Wildcard kuralları aracılığıyla tüm tarayıcılar için hangi URL yollarının yasaklı olduğu
- Sitemap konumu (bilgilendirme amaçlı, bir direktif değil)
robots.txt dosyasının kontrol ETMEDİĞİ şeyler
- Zaten toplanmış içeriğin eğitim veri setlerinden kaldırılıp kaldırılmayacağı
- Bir botun kuralınız var olmadan önce topladığı içeriği nasıl kullanacağı
- Tarama hızı veya sıklığı (Crawl-delay direktifi vardır ama tüm botlar buna uymaz)
- Kendini tanımlamayan veya user-agent'ını taklit eden botlardan gelen erişim
- Üçüncü taraf sitelerdeki, sosyal medyadaki veya sendikasyon akışlarındaki içeriğiniz
robots.txt ileriye dönüktür, geriye dönük değildir. GPTBot geçen ay sitenizi taradıysa, bugün bir Disallow eklemek gelecekteki ziyaretleri durdurur. Zaten toplanmış olanı silmez. Geriye dönük kaldırma için AI şirketiyle doğrudan iletişime geçmeniz gerekir.
Bu ayrım önemlidir. Birçok site sahibi AI tarayıcılarını engelleyerek içeriklerinin ChatGPT veya Perplexity yanıtlarından kaybolmasını bekler. Kaybolmaz. Engelleme yalnızca ileriye dönük yeni tarama ziyaretlerini engeller.
AI Tarayıcı User-Agent'ları: Kapsamlı Referans
Her AI şirketi tarayıcılarını tanımlamak için bir veya daha fazla user-agent string'i kullanır. Hedefli robots.txt kuralları yazmak için bu string'lere ihtiyacınız vardır. 2026'da aktif olan her büyük AI tarayıcısı aşağıdadır.
OpenAI
| Bot | User-Agent String | Amaç |
|---|---|---|
| GPTBot | GPTBot |
ChatGPT için eğitim verisi + canlı erişim |
| OAI-SearchBot | OAI-SearchBot |
ChatGPT arama özelliği için gerçek zamanlı web araması |
| ChatGPT-User | ChatGPT-User |
Göz atma modu (kullanıcı tarafından başlatılan URL ziyaretleri) |
GPTBot birincil tarayıcıdır. OAI-SearchBot, ChatGPT içindeki gerçek zamanlı arama sorgularını işler. ChatGPT-User, birisi ChatGPT'den belirli bir sayfaya göz atmasını istediğinde devreye girer. GPTBot'u tek başına engellemek tüm OpenAI erişimini engellemez. Her üç user-agent'ı ayrı ayrı ele almanız gerekir.
Anthropic
| Bot | User-Agent String | Amaç |
|---|---|---|
| ClaudeBot | ClaudeBot |
Claude modelleri için eğitim verisi toplama |
| anthropic-ai | anthropic-ai |
Eski Anthropic tarayıcı tanımlayıcısı |
ClaudeBot mevcut birincil tarayıcıdır. anthropic-ai tanımlayıcısı daha eski olup loglarda daha az görünür, ancak bazı sitelerde hâlâ ortaya çıkar.
| Bot | User-Agent String | Amaç |
|---|---|---|
| Google-Extended | Google-Extended |
Gemini için AI eğitim verisi, aramadan ayrı |
| Googlebot | Googlebot |
Geleneksel arama dizinleme + AI Overviews |
Bu ikili en çok yanlış anlaşılan çifttir. Googlebot hem geleneksel arama dizinlemesini hem de Google AI Overviews'u yönetir. Google-Extended yalnızca AI model eğitimini yönetir. Google-Extended'ı engellemek arama sıralamalarınızı veya AI Overviews görünürlüğünüzü etkilemez. Googlebot'u engellemek tüm Google arama varlığınızı yok eder. Hangisini kastettiğinizi bilin.
Perplexity
| Bot | User-Agent String | Amaç |
|---|---|---|
| PerplexityBot | PerplexityBot |
Perplexity yanıtları için gerçek zamanlı erişim |
PerplexityBot toplu eğitim için değil canlı erişim için tarar. Bir kullanıcı içeriğinizle eşleşen bir soru sorduğunda sayfaları getirir.
ByteDance
| Bot | User-Agent String | Amaç |
|---|---|---|
| Bytespider | Bytespider |
ByteDance AI ürünleri için eğitim verisi |
Bytespider, istek hacmi bakımından web'deki en agresif tarayıcılardan biridir.
Diğer Önemli Botlar
| Bot | User-Agent String | Amaç |
|---|---|---|
| CCBot | CCBot |
Common Crawl veri seti (birçok AI şirketi kullanır) |
| Applebot-Extended | Applebot-Extended |
Apple Intelligence özellikleri |
| cohere-ai | cohere-ai |
Cohere model eğitimi |
| Diffbot | Diffbot |
AI ürünleri için yapısal veri çıkarımı |
| FacebookExternalHit | FacebookExternalHit |
Meta AI özellikleri |
| ImagesiftBot | ImagesiftBot |
AI sistemleri için görsel analizi |
| Timpibot | Timpibot |
Timpi merkeziyetsiz arama motoru |
IP aralıkları, tarama sıklığı kalıpları ve uyumluluk kayıtları dahil her botun tam dökümü için AI tarayıcı referans yazımıza bakın.
Varsayılan Yapılandırma ve Önerilen Yapılandırma
Çoğu site üç senaryodan birine girer. Her biri için doğru robots.txt yaklaşımı aşağıdadır.
Senaryo 1: Maksimum AI Görünürlüğü (Çoğu Marka İçin Önerilir)
Hedefiniz mümkün olduğunca fazla AI tarafından üretilen yanıtta görünmekse tüm büyük AI tarayıcılarına izin verin. Yalnızca atıf sağlamadan bant genişliği tüketen agresif eğitim botlarını engelleyin.
# Arama motorları
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI tarayıcıları, görünürlük için izinli
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# Agresif yalnızca eğitim tarayıcıları engellendi
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Varsayılan kural
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /staging/
Sitemap: https://yoursite.com/sitemap.xml
Bu, doğrudan marka görünürlüğü sağlayan her AI platformuna içeriğinizi açar: ChatGPT, Claude, Perplexity, Gemini, Google AI Overviews, Apple Intelligence. Toplu eğitim tarayıcıları sunucunuzdan uzak kalır.
Senaryo 2: Seçici AI Erişimi (Yalnızca Erişim, Eğitim Yok)
İçeriğinizin AI yanıtlarında alıntılanmasını istiyor ama model eğitimi için kullanılmasını istemiyorsunuz. Eğitim ile erişim arasındaki çizgi bazı tarayıcılar için bulanıktır, ancak yaklaşık bir ayrım yapabilirsiniz:
# Arama motorları
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Erişim odaklı AI botları, izinli
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Eğitim odaklı tarayıcılar, engelli
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://yoursite.com/sitemap.xml
Burada gerçek bir ödünleşim vardır: GPTBot'u engellemek zamanla ChatGPT'deki görünürlüğünüzü azaltabilir. OpenAI, GPTBot'u hem eğitim hem de bazı erişim işlemleri için kullanır. Bu senaryo maksimum erişim yerine içerik korumasını önceliklendirir.
Senaryo 3: Tüm AI Tarayıcılarını Engelle
Lisanslama endişeleri olan yayıncılar için geçerlidir. AI görünürlüğü istiyorsanız önerilmez:
# Yalnızca arama motorlarına izin ver
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Bilinen tüm AI tarayıcılarını engelle
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
Tüm AI tarayıcılarını engellemek içeriğinizi AI'a görünmez kılmaz. Metniniz engelleme öncesinde toplanan Common Crawl arşivleri, üçüncü taraf sendikasyonu, onbellek kopyaları ve sosyal medya paylaşımları aracılığıyla hâlâ ortaya çıkabilir. Tam AI görünmezliği yalnızca robots.txt ile pratik olarak imkansızdır.
Beş Yaygın Hata (ve Nasıl Düzeltilir)
Hata 1: Googlebot'u da Yakalayan Wildcard Engeli
En zararlı ve en yaygın olanı:
# BUNU YAPMAYIN
User-agent: *
Disallow: /
Bu, Googlebot dahil internetteki her tarayıcıyı engeller. Siteniz arama sonuçlarından kaybolur. AI tarayıcılarını engellemek istiyorsanız her birini user-agent adıyla ayrı ayrı listeleyin. İhtiyacınız olan tarayıcılar için açık Allow kuralları olmadan kök yolda wildcard Disallow asla kullanmayın.
Nasıl düzeltilir: Geniş Disallow kurallarının üstüne Googlebot ve Bingbot için açık Allow kuralları ekleyin. Daha iyisi, wildcard kök engellerinden tamamen kaçının ve her botu ayrı ayrı adlandırın.
Hata 2: Google-Extended ile Googlebot'u Karıştırmak
Google-Extended yalnızca AI eğitim verilerini kontrol eder. Engellemek arama sıralamalarınızı veya AI Overviews görünürlüğünüzü etkilemez. Ancak bazı site sahipleri titiz olmaya çalışarak hem Google-Extended'ı hem de Googlebot'u engeller.
Sonuç: siteleri Google aramasından tamamen kaybolur.
Nasıl düzeltilir: Google arama ve AI Overviews'ta kalmak istiyorsanız ama içeriğinizi Gemini eğitiminden uzak tutmak istiyorsanız yalnızca Google-Extended'ı engelleyin. Googlebot'a dokunmayın.
Hata 3: OAI-SearchBot'u Unutmak
GPTBot tüm ilgiyi çeker, ama OAI-SearchBot ChatGPT gerçek zamanlı araması için ayrı bir user-agent'tır. GPTBot'u engelleyip OAI-SearchBot'u ele almadan bırakırsanız ChatGPT arama işlevi aracılığıyla sayfalarınızdan hâlâ veri çekebilir.
Nasıl düzeltilir: Tüm OpenAI erişimini engellemek istiyorsanız GPTBot, OAI-SearchBot ve ChatGPT-User için kurallar ekleyin. Üçü birden.
Hata 4: Dağıtım Sonrası Doğrulamamak
Dosyayı kaydettiniz ve devam ettiniz. Ama değişiklik gerçekten uygulandı mı? Yaygın başarısızlık modları: CDN'niz eski robots.txt'yi saatlerce onbellekte tutar. Dosyanın kodlaması yanlıştır. Yanlış dizine dağıtılmıştır. /robots.txt üzerinde bir yönlendirme döngüsü vardır.
Nasıl düzeltilir: Her değişiklikten sonra siteniz.com/robots.txt adresini doğrudan tarayıcıda açın. Onbellek direktifleri için yanıt başlıklarını kontrol edin. Googlebot doğrulaması için Google Search Console robots.txt test aracını kullanın. 48 saat boyunca sunucu loglarını izleyin.
Hata 5: robots.txt'yi Güvenlik Katmanı Olarak Görmek
robots.txt bir erişim kontrolü değildir. Kibar bir istektir. Tarayıcıların kimliğini doğrulamaz, içeriği şifrelemez veya herhangi bir botun dosyayı görmezden gelmeye karar vermesi durumunda sayfalarınızı okumasını engellemez.
Nasıl düzeltilir: Hassas içerik için sunucu düzeyinde kontroller kullanın: kimlik doğrulama, IP izin listeleri, WAF kuralları veya ödeme duvarları. robots.txt iyi niyetli botları yönetir. Güvenlik duvarları diğer her şeyi yönetir.
robots.txt iyi niyetli botlara tercihlerinizi söyler. Hiçbir şeyi zorlamaz. İçerik koruması için kök dizininizdeki bir metin dosyasına değil, sunucu düzeyinde erişim kontrollerine ihtiyacınız vardır.
Yapılandırmanızı Test Etme
Kuralları yazdıktan veya güncelledikten sonra dağıtmadan önce doğrulayın.
Adım 1: Söz Dizimi Doğrulama
Google Search Console'daki robots.txt test aracını kullanın. URL'nizi girin ve Googlebot'un ana sayfalarınıza erişebildiğini doğrulayın. Bu araç yalnızca Googlebot kurallarını test eder, ancak tüm botları etkileyen söz dizimi hatalarını yakalar.
Adım 2: Manuel User-Agent Simülasyonu
Sunucunuzun farklı bot tanımlayıcılarına nasıl yanıt verdiğini görmek için curl kullanın:
curl -A "GPTBot" https://yoursite.com/robots.txt
curl -A "ClaudeBot" https://yoursite.com/robots.txt
curl -A "PerplexityBot" https://yoursite.com/robots.txt
Dosya içeriği kim isterse istesin aynıdır, ancak kuralları her user-agent için zihinsel olarak gözden geçirmek, görünürlüğünüze mal olmadan önce mantık hatalarını yakalamanıza yardımcı olur.
Adım 3: Log İzleme
Dağıtımdan sonra sunucu erişim loglarınızı AI tarayıcı etkinliği açısından kontrol edin. Bu makalede listelenen user-agent string'lerini arayın. PerplexityBot'u engellediyseniz ama 48 saat sonra hâlâ sayfalarınıza ulaştığını görüyorsanız ya CDN'niz eski bir robots.txt sunuyordur ya da bot kurallarınıza uymuyordur.
Takip edilecek alanlar:
- İstek başlıklarındaki user-agent string'i
- İstenen URL yolları (bot engellenen yollara erişiyor mu?)
- HTTP yanıt kodları (200, 403, 429?)
- İstek sıklığı (güncellemenizden sonra değişti mi?)
Adım 4: Üç Aylık İnceleme
AI şirketleri yeni tarayıcılar çıkarır, mevcut olanları yeniden adlandırır ve düzenli olarak davranış değiştirir. robots.txt dosyanızı her üç ayda bir gözden geçirin. Yeni eklemeler için güncel AI tarayıcı listesini kontrol edin. Ocak ayında yazılan bir yapılandırmanın Haziran'da kör noktaları olabilir.
Karar Çerçevesi
Hangi yaklaşımın uygun olduğundan emin değil misiniz? Şu dört soruyu yanıtlayın.
Markanızın AI tarafından üretilen yanıtlarda alıntılanmasını istiyor musunuz? Evet ise GPTBot, ClaudeBot, PerplexityBot, Google-Extended, OAI-SearchBot ve Applebot-Extended'a izin verin. Bu maksimum görünürlük yoludur ve çoğu marka için doğru varsayılandır.
Model eğitimi konusunda endişeli misiniz? Evet ama yine de AI alıntıları istiyorsanız erişim botlarına (OAI-SearchBot, ChatGPT-User, PerplexityBot) izin verin ve eğitim botlarını (GPTBot, ClaudeBot, Google-Extended, CCBot, Bytespider) engelleyin. Sınırın kusursuz olmadığını kabul edin.
Lisanslama endişeleri olan bir yayıncı mısınız? Tüm AI tarayıcılarını engelleyin. AI şirketleriyle doğrudan lisanslama anlaşmalarını araştırın. OpenAI, Google ve Apple'ın hepsinde, müzakere edilen koşullar altında içerik kullanımını telafi eden yayıncı ortaklık programları vardır.
Emin değil misiniz? Maksimum görünürlükle başlayın. 30 gün boyunca izleyin. AI platformlarının markanızı daha sık alıntılayıp alıntılamadığını kontrol edin. Alıntı değeri pozitifse yapılandırmayı açık tutun. Kuralları daha sonra sıkılaştırabilirsiniz. Gevşetmek daha zordur, çünkü engellenmiş durumdayken tarama ivmesini kaybedersiniz.
Çoğu marka için 2026'daki varsayılan konum: AI tarayıcılarına izin verin, ne olduğunu izleyin, verilere göre ayarlayın. Varsayılan olarak engellemek, geleneksel arama trafiği düzleşirken her çeyrekte büyüyen bir dağıtım kanalından çıkmak anlamına gelir.
Ayrıca bakın: E-E-A-T ve AI Görünürlüğü: Google'ın Kalite Çerçevesi GEO İçin Neden Önemli?