Robots.txt verstehen und korrekt konfigurieren - SEObest Website Optimization

SEObest Website Optimization | Robots.txt verstehen und korrekt konfigurieren

Die robots.txt-Datei ist ein zentrales Steuerungselement für den Zugriff von Suchmaschinen-Crawlern auf eine Website. Dennoch wird sie von vielen Website-Betreibern und Entwicklern häufig unterschätzt oder falsch angewendet. Dabei kann ein grundlegendes Verständnis für die Funktionsweise und Konfiguration der robots.txt nicht nur die Sichtbarkeit in Suchmaschinen verbessern, sondern auch Fehler, wie die unbeabsichtigte Sperrung wichtiger Seiten, verhindern. In diesem Beitrag erfahren Sie, wie die robots.txt funktioniert, welche Best Practices sich etabliert haben und wie sich typische Fehler vermeiden lassen.

Was ist eine robots.txt-Datei?

Die robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis einer Website befindet. Sie dient dazu, Suchmaschinen-Robots (Crawler oder Bots) mitzuteilen, welche Bereiche einer Website sie durchsuchen dürfen und welche nicht. Obwohl Suchmaschinen die Einhaltung der robots.txt-Regeln nicht erzwingen, halten sich seriöse Crawler wie die von Google, Bing oder Yandex in der Regel daran. Die Datei ist somit ein wichtiger Teil des sogenannten „Robots Exclusion Protocol“.

Typische Einsatzgebiete der robots.txt

Ausschluss sensibler Verzeichnisse oder Dateien von der Indexierung (z.B. Admin-Bereiche, interne Scripte, Entwicklertools)
Verhindern der Indexierung duplizierter Inhalte
Steuerung der Crawl-Frequenz durch das „Crawl-delay“-Kommando
Bereitstellung von Sitemap-Informationen für Suchmaschinen

Grundaufbau und Syntax der robots.txt

Die robots.txt ist sehr einfach aufgebaut. Sie besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven, mit denen festgelegt wird, welcher Crawler (User-agent) welche Bereiche der Seite (über Disallow oder Allow) besuchen darf.

Direktive	Bedeutung	Beispiel
User-agent	Bestimmt, für welchen Crawler die nachfolgenden Regeln gelten	User-agent: Googlebot
Disallow	Verbietet den Zugriff auf bestimmte Bereiche der Website	Disallow: /private/
Allow	Erlaubt explizit den Zugriff auf bestimmte Unterverzeichnisse trotz Disallow-Regel	Allow: /public/
Crawl-delay	Legt die Wartezeit zwischen zwei Crawl-Anfragen fest (nicht von allen Crawlern unterstützt)	Crawl-delay: 10
Sitemap	Teilt dem Crawler den Speicherort der XML-Sitemap mit	Sitemap: https://www.example.com/sitemap.xml

Ein einfaches Beispiel

 User-agent: * Disallow: /admin/ Disallow: /cgi-bin/ Allow: / Sitemap: https://www.example.com/sitemap.xml

Dieses Beispiel verbietet allen Crawlern den Zugriff auf das Verzeichnis „/admin/“ und „/cgi-bin/“. Der Rest der Website ist zugänglich. Zusätzlich wird auf die XML-Sitemap verwiesen.

Best Practices für die robots.txt-Konfiguration

1. Sensible Bereiche schützen, aber nicht vertrauliche Daten verstecken

Obwohl die robots.txt Crawler am Zugriff hindert, schützt sie keine vertraulichen Daten. Sie sollte nie zum Verbergen von Passwörtern oder geheimen Dateien verwendet werden, da die Datei öffentlich zugänglich und für jedermann einsehbar ist. Ein besserer Ansatz für wirklich sensible Informationen ist die Nutzung von Authentifizierung oder anderen Zugriffsbeschränkungen auf Serverebene.

2. Duplizierte Inhalte korrekt steuern

Viele Websites beinhalten Bereiche, die mehrfach unter verschiedenen URLs erreichbar sind, etwa durch Filterfunktionen oder Sortierungen in Online-Shops. Eine gezielte