Robots.txt
TL;DR
Die robots.txt steuert, welche Bereiche Crawler besuchen dürfen. Sie spart Crawl-Budget und schützt sensible Bereiche vor Indexierung.
Was ist robots.txt?
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt. Sie kann Bereiche erlauben oder sperren – aber nicht vor Indexierung schützen, wenn Links existieren.
Syntax
- User-agent: Für welchen Bot gilt die Regel?
- Disallow: Welche Pfade sind gesperrt?
- Allow: Welche Pfade sind erlaubt?
- Sitemap: Wo liegt die XML-Sitemap?
Beispiel
- User-agent: * (alle Bots)
- Disallow: /admin/ (Admin-Bereich sperren)
- Disallow: /search (Suchseiten sperren)
- Sitemap: /sitemap.xml
Wichtige Hinweise
- robots.txt ist öffentlich einsehbar
- "Disallow" ist kein Passwortschutz
- Nicht alles Indexierte wird gecrawlt via robots.txt
- noindex-Tag ist sicherer für Ausschluss
robots.txt und Nachhaltigkeit
Effizientes Crawling spart Ressourcen:
- Unwichtige Seiten nicht crawlen lassen
- Server-Last durch Bots reduzieren
- Crawl-Budget auf wichtige Seiten fokussieren
Fazit
Die robots.txt ist ein einfaches aber mächtiges Tool. Sie hilft, Crawling zu steuern und Server-Ressourcen zu schonen.
Mehr aus dem Glossar
Geändert am:
15.12.2025
Canonical Tag
rel="canonical" markiert die bevorzugte URL bei Duplicate Content. Bündelt Ranking-Signale und verhindert Indexierungs-Duplikate.
Canonical Tag
Mein Beitrag
für die Umwelt
für die Umwelt
Mein Beitrag für nachhaltiges Webdesign – Erfahre mehr darüber, wie meine digitalen Angeboteumweltfreundlich gestaltet sind und welche nachhaltigen Praktiken ich umsetzte.
Meine nachhaltigen Praktiken