Robots.txt

Was ist robots.txt?

Robots.txt ist eine Textdatei im Root-Verzeichnis Ihrer Website, die Suchmaschinen-Bots (Crawler) anweist, welche Teile der Website gecrawlt werden dürfen und welche nicht. Sie ist eine wichtige Komponente von Technical SEO, die das Crawl-Budget managt, Duplicate Content vermeidet und sensible Bereiche schützt.

Für B2B-Websites ist Robots.txt kritisch, um sicherzustellen, dass Google die richtigen Seiten in der richtigen Priorität crawlt und nicht Zeit mit admin-Seiten oder Duplikaten verschwendet.

Robots.txt im B2B SaaS Kontext

B2B-Websites haben oft Bereiche, die Google nicht crawlen sollte: Admin-Panels, Kundenkonten, interne Dokumentation, Filtervarianten von Produktseiten. Ohne robots.txt blockiert diese Seiten, könnte Google:

Doppelte Inhalte indexieren, die Rankings schädigen
Crawl-Budget auf nicht-wichtige Seiten verschwenden
Datenschutzsensitive Seiten indexieren

Eine strategische robots.txt optimiert Crawl-Effizienz und verhindert Indexing-Probleme.

Struktur und Syntax von robots.txt

Eine robots.txt-Datei folgt dieser Struktur:

User-agent: Googlebot Disallow: /admin/ Disallow: /private/ Disallow: /*?sort= Allow: /important-admin-page/ User-agent: * Disallow: /temp/ Sitemap: https://example.com/sitemap.xml

Erklärung der Komponenten:

User-agent: Welcher Bot diese Regeln befolgt (* = alle Bots)
Disallow: Pfade, die nicht gecrawlt werden sollen
Allow: Exceptions, die gekrawlt werden dürfen (überschreibt Disallow)
Sitemap: Optionaler Verweis auf XML Sitemap

Disallow vs. Noindex

Ein häufiger Fehler: Menschen verwechseln Disallow in robots.txt mit Noindex. Das ist gefährlich:

Methode	Auswirkung	Verwendungsfall
Disallow in robots.txt	Seite wird nicht gecrawlt (aber kann indexiert sein, wenn extern verlinkt)	Seiten die nicht gecrawlt sein sollen
Noindex Meta-Tag	Seite wird gecrawlt aber nicht indexiert	Seiten ohne Ranking-Absicht

Wenn Sie eine Seite WIRKLICH aus dem Index entfernen möchten, brauchen Sie Noindex, nicht Disallow. Disallow bedeutet nur "crawle das nicht", sagt aber nicht "indexiere das nicht".

Best Practices für robots.txt

Root-Verzeichnis: Datei MUSS im Root-Verzeichnis sein: /robots.txt (nicht /robots.txt.txt oder /assets/robots.txt)
Nur Text: robots.txt ist reine Textdatei, keine HTML oder andere Formate
Einfach halten: Nicht zu kompliziert machen. Priorität auf wichtige Disallows
Regelmäßig reviewen: Wenn Website-Struktur ändert, robots.txt aktualisieren
Case-sensitive: Pfade sind case-sensitive: /admin/ ist nicht gleich /Admin/
Keine Wildcards in Allow: Allow unterstützt keine Wildcards, nur in Disallow

Häufige robots.txt Einträge für B2B-Websites

Typische Disallows für B2B-Seiten:

/admin/: Admin-Panel
/login/: Login-Seiten
/user-account/: Persönliche Konten
/temp/: Temporäre Seiten
/drafts/: Entwürfe
/*?sort=: Gefilterte/sortierte Versionen von Produktseiten
/*?utm_: URLs mit Tracking-Parametern
/print/: Print-Versionen

Crawl-Budget Optimierung

Crawl-Budget ist die Menge an Server-Ressourcen, die Google aufbringt, um Ihre Website zu crawlen. Bei größeren Websites ist Crawl-Budget begrenzt. Mit robots.txt können Sie Google anweisen, nur wichtige Seiten zu crawlen:

User-agent: * Disallow: /search-results/ Disallow: /tag-archive/ Disallow: /?page=2 Disallow: /?page=3 Sitemap: https://example.com/sitemap.xml

Dies konzentriert Googles Crawl-Kapazität auf wichtige Inhalte, nicht auf Filter-Seiten.

Parameter-Handling

B2B-Websites haben oft URL-Parameter für Filter, Sortierung oder Tracking:

/?sort=price: Sortierter View (Disallow)
/?filter=category: Gefilterter View (Disallow)
/?utm_source=email: Tracking-Parameter (Disallow)

Diese sollten in robots.txt blockiert werden, da sie Duplicate Content erstellen.

XML Sitemap in robots.txt

Am Ende von robots.txt können Sie die XML Sitemap angeben:

Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-blog.xml

Dies ist optional aber empfohlen - es hilft Google, Ihre Sitemap(s) schneller zu finden.

robots.txt testen und validieren

Überprüfen Sie Ihre robots.txt regelmäßig:

Google Search Console: "Robots.txt Tester" unter Crawling - Tools zeigt wie Google die Datei interpretiert
Browser direkt ansehen: https://example.com/robots.txt - Sie können die Datei direkt im Browser öffnen
Syntax-Validierung: Tools wie robotstxt.org zeigen Fehler
Crawl-Impact prüfen: Search Console Coverage-Report zeigt ob Seiten blockt sind

Häufige robots.txt Fehler

Wichtige Seiten blocken: Versehentlich wichtige Seiten mit Disallow blocken
Falsche Pfad-Syntax: Pfade müssen mit "/" beginnen
Zu restriktiv: Alles disallown außer einzelne Seiten ist oft keine gute Idee
Nicht aktualisiert: alte Pfade noch blocken die längst nicht mehr existieren
Robots.txt zu groß: robots.txt sollte unter 500 KB sein
Falsche User-Agent Syntax: User-agent: Googlebot vs. User-agent: googlebot - beide funktionieren aber seien konsistent

robots.txt und Datenschutz

robots.txt ist KEIN Sicherheitsmechanismus. Jeder kann /robots.txt öffnen und sehen, welche Pfade Sie blockieren wollen. Also:

Keine geheimen Pfade schützen: Verwenden Sie robots.txt nicht um sensible URLs zu verstecken
Zusätzliche Authentifizierung nutzen: Admin-Panels sollten Passwort-geschützt sein, nicht nur von robots.txt blockiert
HTTPS für sensible Seiten: Persönliche Daten sollten verschlüsselt sein

robots.txt und Noindex Kombination

Die beste Praxis kombiniert robots.txt mit anderen Techniken:

Seite 2+ von Pagination: Disallow in robots.txt blockiert, aber Noindex im Head ist sicherer
Temporäre Seiten: robots.txt Disallow + Noindex für doppelte Sicherheit
Parameter-URLs: Disallow kombiniert mit Canonical Tags

robots.txt als Teil Ihrer SEO-Strategie

robots.txt ist ein kleines, aber wichtiges Stück Technical SEO. Eine gut-konfigurierte robots.txt:

Verhindert Duplicate-Content-Probleme
Optimiert Crawl-Budget
Hilft Google, Ihre Website richtig zu verstehen
Schützt nicht-wichtige Seiten vor Indexierung

Bei Leadanic's SEO-Strategie ist robots.txt Audit und Optimierung Teil unseres Technical-SEO-Prozesses.