Was ist robots.txt?
Robots.txt ist eine Textdatei im Root-Verzeichnis Ihrer Website, die Suchmaschinen-Bots (Crawler) anweist, welche Teile der Website gecrawlt werden dürfen und welche nicht. Sie ist eine wichtige Komponente von Technical SEO, die das Crawl-Budget managt, Duplicate Content vermeidet und sensible Bereiche schützt.
Für B2B-Websites ist Robots.txt kritisch, um sicherzustellen, dass Google die richtigen Seiten in der richtigen Priorität crawlt und nicht Zeit mit admin-Seiten oder Duplikaten verschwendet.
Robots.txt im B2B SaaS Kontext
B2B-Websites haben oft Bereiche, die Google nicht crawlen sollte: Admin-Panels, Kundenkonten, interne Dokumentation, Filtervarianten von Produktseiten. Ohne robots.txt blockiert diese Seiten, könnte Google:
- Doppelte Inhalte indexieren, die Rankings schädigen
- Crawl-Budget auf nicht-wichtige Seiten verschwenden
- Datenschutzsensitive Seiten indexieren
Eine strategische robots.txt optimiert Crawl-Effizienz und verhindert Indexing-Probleme.
Struktur und Syntax von robots.txt
Eine robots.txt-Datei folgt dieser Struktur:
User-agent: Googlebot
Disallow: /admin/
Disallow: /private/
Disallow: /*?sort=
Allow: /important-admin-page/
User-agent: *
Disallow: /temp/
Sitemap: https://example.com/sitemap.xml
Erklärung der Komponenten:
- User-agent: Welcher Bot diese Regeln befolgt (* = alle Bots)
- Disallow: Pfade, die nicht gecrawlt werden sollen
- Allow: Exceptions, die gekrawlt werden dürfen (überschreibt Disallow)
- Sitemap: Optionaler Verweis auf XML Sitemap
Disallow vs. Noindex
Ein häufiger Fehler: Menschen verwechseln Disallow in robots.txt mit Noindex. Das ist gefährlich:
| Methode | Auswirkung | Verwendungsfall |
|---|---|---|
| Disallow in robots.txt | Seite wird nicht gecrawlt (aber kann indexiert sein, wenn extern verlinkt) | Seiten die nicht gecrawlt sein sollen |
| Noindex Meta-Tag | Seite wird gecrawlt aber nicht indexiert | Seiten ohne Ranking-Absicht |
Wenn Sie eine Seite WIRKLICH aus dem Index entfernen möchten, brauchen Sie Noindex, nicht Disallow. Disallow bedeutet nur "crawle das nicht", sagt aber nicht "indexiere das nicht".
Best Practices für robots.txt
- Root-Verzeichnis: Datei MUSS im Root-Verzeichnis sein: /robots.txt (nicht /robots.txt.txt oder /assets/robots.txt)
- Nur Text: robots.txt ist reine Textdatei, keine HTML oder andere Formate
- Einfach halten: Nicht zu kompliziert machen. Priorität auf wichtige Disallows
- Regelmäßig reviewen: Wenn Website-Struktur ändert, robots.txt aktualisieren
- Case-sensitive: Pfade sind case-sensitive: /admin/ ist nicht gleich /Admin/
- Keine Wildcards in Allow: Allow unterstützt keine Wildcards, nur in Disallow
Häufige robots.txt Einträge für B2B-Websites
Typische Disallows für B2B-Seiten:
- /admin/: Admin-Panel
- /login/: Login-Seiten
- /user-account/: Persönliche Konten
- /temp/: Temporäre Seiten
- /drafts/: Entwürfe
- /*?sort=: Gefilterte/sortierte Versionen von Produktseiten
- /*?utm_: URLs mit Tracking-Parametern
- /print/: Print-Versionen
Crawl-Budget Optimierung
Crawl-Budget ist die Menge an Server-Ressourcen, die Google aufbringt, um Ihre Website zu crawlen. Bei größeren Websites ist Crawl-Budget begrenzt. Mit robots.txt können Sie Google anweisen, nur wichtige Seiten zu crawlen:
User-agent: *
Disallow: /search-results/
Disallow: /tag-archive/
Disallow: /?page=2
Disallow: /?page=3
Sitemap: https://example.com/sitemap.xml
Dies konzentriert Googles Crawl-Kapazität auf wichtige Inhalte, nicht auf Filter-Seiten.
Parameter-Handling
B2B-Websites haben oft URL-Parameter für Filter, Sortierung oder Tracking:
- /?sort=price: Sortierter View (Disallow)
- /?filter=category: Gefilterter View (Disallow)
- /?utm_source=email: Tracking-Parameter (Disallow)
Diese sollten in robots.txt blockiert werden, da sie Duplicate Content erstellen.
XML Sitemap in robots.txt
Am Ende von robots.txt können Sie die XML Sitemap angeben:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-blog.xml
Dies ist optional aber empfohlen - es hilft Google, Ihre Sitemap(s) schneller zu finden.
robots.txt testen und validieren
Überprüfen Sie Ihre robots.txt regelmäßig:
- Google Search Console: "Robots.txt Tester" unter Crawling - Tools zeigt wie Google die Datei interpretiert
- Browser direkt ansehen: https://example.com/robots.txt - Sie können die Datei direkt im Browser öffnen
- Syntax-Validierung: Tools wie robotstxt.org zeigen Fehler
- Crawl-Impact prüfen: Search Console Coverage-Report zeigt ob Seiten blockt sind
Häufige robots.txt Fehler
- Wichtige Seiten blocken: Versehentlich wichtige Seiten mit Disallow blocken
- Falsche Pfad-Syntax: Pfade müssen mit "/" beginnen
- Zu restriktiv: Alles disallown außer einzelne Seiten ist oft keine gute Idee
- Nicht aktualisiert: alte Pfade noch blocken die längst nicht mehr existieren
- Robots.txt zu groß: robots.txt sollte unter 500 KB sein
- Falsche User-Agent Syntax: User-agent: Googlebot vs. User-agent: googlebot - beide funktionieren aber seien konsistent
robots.txt und Datenschutz
robots.txt ist KEIN Sicherheitsmechanismus. Jeder kann /robots.txt öffnen und sehen, welche Pfade Sie blockieren wollen. Also:
- Keine geheimen Pfade schützen: Verwenden Sie robots.txt nicht um sensible URLs zu verstecken
- Zusätzliche Authentifizierung nutzen: Admin-Panels sollten Passwort-geschützt sein, nicht nur von robots.txt blockiert
- HTTPS für sensible Seiten: Persönliche Daten sollten verschlüsselt sein
robots.txt und Noindex Kombination
Die beste Praxis kombiniert robots.txt mit anderen Techniken:
- Seite 2+ von Pagination: Disallow in robots.txt blockiert, aber Noindex im Head ist sicherer
- Temporäre Seiten: robots.txt Disallow + Noindex für doppelte Sicherheit
- Parameter-URLs: Disallow kombiniert mit Canonical Tags
robots.txt als Teil Ihrer SEO-Strategie
robots.txt ist ein kleines, aber wichtiges Stück Technical SEO. Eine gut-konfigurierte robots.txt:
- Verhindert Duplicate-Content-Probleme
- Optimiert Crawl-Budget
- Hilft Google, Ihre Website richtig zu verstehen
- Schützt nicht-wichtige Seiten vor Indexierung
Bei Leadanic's SEO-Strategie ist robots.txt Audit und Optimierung Teil unseres Technical-SEO-Prozesses.