SEO

Robots.txt

Was ist robots.txt? Datei für Crawl-Anweisungen. Essentiell um Duplicate Content zu verhindern und Crawl-Budget zu managen.

Was ist robots.txt?

Robots.txt ist eine Textdatei im Root-Verzeichnis Ihrer Website, die Suchmaschinen-Bots (Crawler) anweist, welche Teile der Website gecrawlt werden dürfen und welche nicht. Sie ist eine wichtige Komponente von Technical SEO, die das Crawl-Budget managt, Duplicate Content vermeidet und sensible Bereiche schützt.

Für B2B-Websites ist Robots.txt kritisch, um sicherzustellen, dass Google die richtigen Seiten in der richtigen Priorität crawlt und nicht Zeit mit admin-Seiten oder Duplikaten verschwendet.

Robots.txt im B2B SaaS Kontext

B2B-Websites haben oft Bereiche, die Google nicht crawlen sollte: Admin-Panels, Kundenkonten, interne Dokumentation, Filtervarianten von Produktseiten. Ohne robots.txt blockiert diese Seiten, könnte Google:

  • Doppelte Inhalte indexieren, die Rankings schädigen
  • Crawl-Budget auf nicht-wichtige Seiten verschwenden
  • Datenschutzsensitive Seiten indexieren

Eine strategische robots.txt optimiert Crawl-Effizienz und verhindert Indexing-Probleme.

Struktur und Syntax von robots.txt

Eine robots.txt-Datei folgt dieser Struktur:

User-agent: Googlebot Disallow: /admin/ Disallow: /private/ Disallow: /*?sort= Allow: /important-admin-page/ User-agent: * Disallow: /temp/ Sitemap: https://example.com/sitemap.xml

Erklärung der Komponenten:

  • User-agent: Welcher Bot diese Regeln befolgt (* = alle Bots)
  • Disallow: Pfade, die nicht gecrawlt werden sollen
  • Allow: Exceptions, die gekrawlt werden dürfen (überschreibt Disallow)
  • Sitemap: Optionaler Verweis auf XML Sitemap

Disallow vs. Noindex

Ein häufiger Fehler: Menschen verwechseln Disallow in robots.txt mit Noindex. Das ist gefährlich:

Methode Auswirkung Verwendungsfall
Disallow in robots.txt Seite wird nicht gecrawlt (aber kann indexiert sein, wenn extern verlinkt) Seiten die nicht gecrawlt sein sollen
Noindex Meta-Tag Seite wird gecrawlt aber nicht indexiert Seiten ohne Ranking-Absicht

Wenn Sie eine Seite WIRKLICH aus dem Index entfernen möchten, brauchen Sie Noindex, nicht Disallow. Disallow bedeutet nur "crawle das nicht", sagt aber nicht "indexiere das nicht".

Best Practices für robots.txt

  • Root-Verzeichnis: Datei MUSS im Root-Verzeichnis sein: /robots.txt (nicht /robots.txt.txt oder /assets/robots.txt)
  • Nur Text: robots.txt ist reine Textdatei, keine HTML oder andere Formate
  • Einfach halten: Nicht zu kompliziert machen. Priorität auf wichtige Disallows
  • Regelmäßig reviewen: Wenn Website-Struktur ändert, robots.txt aktualisieren
  • Case-sensitive: Pfade sind case-sensitive: /admin/ ist nicht gleich /Admin/
  • Keine Wildcards in Allow: Allow unterstützt keine Wildcards, nur in Disallow

Häufige robots.txt Einträge für B2B-Websites

Typische Disallows für B2B-Seiten:

  • /admin/: Admin-Panel
  • /login/: Login-Seiten
  • /user-account/: Persönliche Konten
  • /temp/: Temporäre Seiten
  • /drafts/: Entwürfe
  • /*?sort=: Gefilterte/sortierte Versionen von Produktseiten
  • /*?utm_: URLs mit Tracking-Parametern
  • /print/: Print-Versionen

Crawl-Budget Optimierung

Crawl-Budget ist die Menge an Server-Ressourcen, die Google aufbringt, um Ihre Website zu crawlen. Bei größeren Websites ist Crawl-Budget begrenzt. Mit robots.txt können Sie Google anweisen, nur wichtige Seiten zu crawlen:

User-agent: * Disallow: /search-results/ Disallow: /tag-archive/ Disallow: /?page=2 Disallow: /?page=3 Sitemap: https://example.com/sitemap.xml

Dies konzentriert Googles Crawl-Kapazität auf wichtige Inhalte, nicht auf Filter-Seiten.

Parameter-Handling

B2B-Websites haben oft URL-Parameter für Filter, Sortierung oder Tracking:

  • /?sort=price: Sortierter View (Disallow)
  • /?filter=category: Gefilterter View (Disallow)
  • /?utm_source=email: Tracking-Parameter (Disallow)

Diese sollten in robots.txt blockiert werden, da sie Duplicate Content erstellen.

XML Sitemap in robots.txt

Am Ende von robots.txt können Sie die XML Sitemap angeben:

Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-blog.xml

Dies ist optional aber empfohlen - es hilft Google, Ihre Sitemap(s) schneller zu finden.

robots.txt testen und validieren

Überprüfen Sie Ihre robots.txt regelmäßig:

  • Google Search Console: "Robots.txt Tester" unter Crawling - Tools zeigt wie Google die Datei interpretiert
  • Browser direkt ansehen: https://example.com/robots.txt - Sie können die Datei direkt im Browser öffnen
  • Syntax-Validierung: Tools wie robotstxt.org zeigen Fehler
  • Crawl-Impact prüfen: Search Console Coverage-Report zeigt ob Seiten blockt sind

Häufige robots.txt Fehler

  • Wichtige Seiten blocken: Versehentlich wichtige Seiten mit Disallow blocken
  • Falsche Pfad-Syntax: Pfade müssen mit "/" beginnen
  • Zu restriktiv: Alles disallown außer einzelne Seiten ist oft keine gute Idee
  • Nicht aktualisiert: alte Pfade noch blocken die längst nicht mehr existieren
  • Robots.txt zu groß: robots.txt sollte unter 500 KB sein
  • Falsche User-Agent Syntax: User-agent: Googlebot vs. User-agent: googlebot - beide funktionieren aber seien konsistent

robots.txt und Datenschutz

robots.txt ist KEIN Sicherheitsmechanismus. Jeder kann /robots.txt öffnen und sehen, welche Pfade Sie blockieren wollen. Also:

  • Keine geheimen Pfade schützen: Verwenden Sie robots.txt nicht um sensible URLs zu verstecken
  • Zusätzliche Authentifizierung nutzen: Admin-Panels sollten Passwort-geschützt sein, nicht nur von robots.txt blockiert
  • HTTPS für sensible Seiten: Persönliche Daten sollten verschlüsselt sein

robots.txt und Noindex Kombination

Die beste Praxis kombiniert robots.txt mit anderen Techniken:

  • Seite 2+ von Pagination: Disallow in robots.txt blockiert, aber Noindex im Head ist sicherer
  • Temporäre Seiten: robots.txt Disallow + Noindex für doppelte Sicherheit
  • Parameter-URLs: Disallow kombiniert mit Canonical Tags

robots.txt als Teil Ihrer SEO-Strategie

robots.txt ist ein kleines, aber wichtiges Stück Technical SEO. Eine gut-konfigurierte robots.txt:

  • Verhindert Duplicate-Content-Probleme
  • Optimiert Crawl-Budget
  • Hilft Google, Ihre Website richtig zu verstehen
  • Schützt nicht-wichtige Seiten vor Indexierung

Bei Leadanic's SEO-Strategie ist robots.txt Audit und Optimierung Teil unseres Technical-SEO-Prozesses.

Klingt nach einem Thema für Sie?

Wir analysieren Ihre Situation und zeigen konkrete Verbesserungspotenziale. Das Erstgespräch ist kostenlos und unverbindlich.

Kostenloses Erstgespräch buchen