Robots.txt verstehen und korrekt konfigurieren

SEObest Website Optimization | Robots.txt verstehen und korrekt konfigurieren

Die robots.txt-Datei ist ein zentrales Steuerungselement für den Zugriff von Suchmaschinen-Crawlern auf eine Website. Dennoch wird sie von vielen Website-Betreibern und Entwicklern häufig unterschätzt oder falsch angewendet. Dabei kann ein grundlegendes Verständnis für die Funktionsweise und Konfiguration der robots.txt nicht nur die Sichtbarkeit in Suchmaschinen verbessern, sondern auch Fehler, wie die unbeabsichtigte Sperrung wichtiger Seiten, verhindern. In diesem Beitrag erfahren Sie, wie die robots.txt funktioniert, welche Best Practices sich etabliert haben und wie sich typische Fehler vermeiden lassen.

Was ist eine robots.txt-Datei?

Die robots.txt ist eine einfache Textdatei, die sich im Stammverzeichnis einer Website befindet. Sie dient dazu, Suchmaschinen-Robots (Crawler oder Bots) mitzuteilen, welche Bereiche einer Website sie durchsuchen dürfen und welche nicht. Obwohl Suchmaschinen die Einhaltung der robots.txt-Regeln nicht erzwingen, halten sich seriöse Crawler wie die von Google, Bing oder Yandex in der Regel daran. Die Datei ist somit ein wichtiger Teil des sogenannten „Robots Exclusion Protocol“.

Typische Einsatzgebiete der robots.txt

  • Ausschluss sensibler Verzeichnisse oder Dateien von der Indexierung (z.B. Admin-Bereiche, interne Scripte, Entwicklertools)
  • Verhindern der Indexierung duplizierter Inhalte
  • Steuerung der Crawl-Frequenz durch das „Crawl-delay“-Kommando
  • Bereitstellung von Sitemap-Informationen für Suchmaschinen

Grundaufbau und Syntax der robots.txt

Die robots.txt ist sehr einfach aufgebaut. Sie besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven, mit denen festgelegt wird, welcher Crawler (User-agent) welche Bereiche der Seite (über Disallow oder Allow) besuchen darf.

DirektiveBedeutungBeispiel
User-agentBestimmt, für welchen Crawler die nachfolgenden Regeln geltenUser-agent: Googlebot
DisallowVerbietet den Zugriff auf bestimmte Bereiche der WebsiteDisallow: /private/
AllowErlaubt explizit den Zugriff auf bestimmte Unterverzeichnisse trotz Disallow-RegelAllow: /public/
Crawl-delayLegt die Wartezeit zwischen zwei Crawl-Anfragen fest (nicht von allen Crawlern unterstützt)Crawl-delay: 10
SitemapTeilt dem Crawler den Speicherort der XML-Sitemap mitSitemap: https://www.example.com/sitemap.xml

Ein einfaches Beispiel

 User-agent: * Disallow: /admin/ Disallow: /cgi-bin/ Allow: / Sitemap: https://www.example.com/sitemap.xml 

Dieses Beispiel verbietet allen Crawlern den Zugriff auf das Verzeichnis „/admin/“ und „/cgi-bin/“. Der Rest der Website ist zugänglich. Zusätzlich wird auf die XML-Sitemap verwiesen.

Best Practices für die robots.txt-Konfiguration

1. Sensible Bereiche schützen, aber nicht vertrauliche Daten verstecken

Obwohl die robots.txt Crawler am Zugriff hindert, schützt sie keine vertraulichen Daten. Sie sollte nie zum Verbergen von Passwörtern oder geheimen Dateien verwendet werden, da die Datei öffentlich zugänglich und für jedermann einsehbar ist. Ein besserer Ansatz für wirklich sensible Informationen ist die Nutzung von Authentifizierung oder anderen Zugriffsbeschränkungen auf Serverebene.

2. Duplizierte Inhalte korrekt steuern

Viele Websites beinhalten Bereiche, die mehrfach unter verschiedenen URLs erreichbar sind, etwa durch Filterfunktionen oder Sortierungen in Online-Shops. Eine gezielte

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert