Die robots.txt-Datei ist ein zentrales Steuerungselement für den Zugriff von Suchmaschinen-Crawlern auf eine Website. Dennoch wird sie von vielen Website-Betreibern und Entwicklern häufig unterschätzt oder falsch angewendet. Dabei kann ein grundlegendes Verständnis für die Funktionsweise und Konfiguration der robots.txt nicht nur die Sichtbarkeit in Suchmaschinen verbessern, sondern auch Fehler, wie die unbeabsichtigte Sperrung wichtiger Seiten, verhindern. In diesem Beitrag erfahren Sie, wie die robots.txt funktioniert, welche Best Practices sich etabliert haben und wie sich typische Fehler vermeiden lassen.
Was ist eine robots.txt-Datei?
Die robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis einer Website befindet. Sie dient dazu, Suchmaschinen-Robots (Crawler oder Bots) mitzuteilen, welche Bereiche einer Website sie durchsuchen dürfen und welche nicht. Obwohl Suchmaschinen die Einhaltung der robots.txt-Regeln nicht erzwingen, halten sich seriöse Crawler wie die von Google, Bing oder Yandex in der Regel daran. Die Datei ist somit ein wichtiger Teil des sogenannten „Robots Exclusion Protocol“.
Typische Einsatzgebiete der robots.txt
- Ausschluss sensibler Verzeichnisse oder Dateien von der Indexierung (z.B. Admin-Bereiche, interne Scripte, Entwicklertools)
- Verhindern der Indexierung duplizierter Inhalte
- Steuerung der Crawl-Frequenz durch das „Crawl-delay“-Kommando
- Bereitstellung von Sitemap-Informationen für Suchmaschinen
Grundaufbau und Syntax der robots.txt
Die robots.txt ist sehr einfach aufgebaut. Sie besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven, mit denen festgelegt wird, welcher Crawler (User-agent) welche Bereiche der Seite (über Disallow oder Allow) besuchen darf.
| Direktive | Bedeutung | Beispiel |
|---|---|---|
| User-agent | Bestimmt, für welchen Crawler die nachfolgenden Regeln gelten | User-agent: Googlebot |
| Disallow | Verbietet den Zugriff auf bestimmte Bereiche der Website | Disallow: /private/ |
| Allow | Erlaubt explizit den Zugriff auf bestimmte Unterverzeichnisse trotz Disallow-Regel | Allow: /public/ |
| Crawl-delay | Legt die Wartezeit zwischen zwei Crawl-Anfragen fest (nicht von allen Crawlern unterstützt) | Crawl-delay: 10 |
| Sitemap | Teilt dem Crawler den Speicherort der XML-Sitemap mit | Sitemap: https://www.example.com/sitemap.xml |
Ein einfaches Beispiel
User-agent: * Disallow: /admin/ Disallow: /cgi-bin/ Allow: / Sitemap: https://www.example.com/sitemap.xml
Dieses Beispiel verbietet allen Crawlern den Zugriff auf das Verzeichnis „/admin/“ und „/cgi-bin/“. Der Rest der Website ist zugänglich. Zusätzlich wird auf die XML-Sitemap verwiesen.
Best Practices für die robots.txt-Konfiguration
1. Sensible Bereiche schützen, aber nicht vertrauliche Daten verstecken
Obwohl die robots.txt Crawler am Zugriff hindert, schützt sie keine vertraulichen Daten. Sie sollte nie zum Verbergen von Passwörtern oder geheimen Dateien verwendet werden, da die Datei öffentlich zugänglich und für jedermann einsehbar ist. Ein besserer Ansatz für wirklich sensible Informationen ist die Nutzung von Authentifizierung oder anderen Zugriffsbeschränkungen auf Serverebene.
2. Duplizierte Inhalte korrekt steuern
Viele Websites beinhalten Bereiche, die mehrfach unter verschiedenen URLs erreichbar sind, etwa durch Filterfunktionen oder Sortierungen in Online-Shops. Eine gezielte