Robots.txt

TL;DR

Die robots.txt steuert, welche Bereiche Crawler besuchen dürfen. Sie spart Crawl-Budget und schützt sensible Bereiche vor Indexierung.

Was ist robots.txt?

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt. Sie kann Bereiche erlauben oder sperren – aber nicht vor Indexierung schützen, wenn Links existieren.

Syntax

  • User-agent: Für welchen Bot gilt die Regel?
  • Disallow: Welche Pfade sind gesperrt?
  • Allow: Welche Pfade sind erlaubt?
  • Sitemap: Wo liegt die XML-Sitemap?

Beispiel

  • User-agent: * (alle Bots)
  • Disallow: /admin/ (Admin-Bereich sperren)
  • Disallow: /search (Suchseiten sperren)
  • Sitemap: /sitemap.xml

Wichtige Hinweise

  • robots.txt ist öffentlich einsehbar
  • "Disallow" ist kein Passwortschutz
  • Nicht alles Indexierte wird gecrawlt via robots.txt
  • noindex-Tag ist sicherer für Ausschluss

robots.txt und Nachhaltigkeit

Effizientes Crawling spart Ressourcen:

  • Unwichtige Seiten nicht crawlen lassen
  • Server-Last durch Bots reduzieren
  • Crawl-Budget auf wichtige Seiten fokussieren

Fazit

Die robots.txt ist ein einfaches aber mächtiges Tool. Sie hilft, Crawling zu steuern und Server-Ressourcen zu schonen.

Mehr aus dem Glossar

Geändert am:
15.12.2025

Canonical Tag

rel="canonical" markiert die bevorzugte URL bei Duplicate Content. Bündelt Ranking-Signale und verhindert Indexierungs-Duplikate.
Canonical Tag
Mein Beitrag
für die Umwelt

Mein Beitrag für nachhaltiges Webdesign – Erfahre mehr darüber, wie meine digitalen Angeboteumweltfreundlich gestaltet sind und welche nachhaltigen Praktiken ich umsetzte.

Meine nachhaltigen Praktiken