In den endlosen Weiten des Netzes verstrickt, der Robot, der nach Freiheit blickt. (Microsoft Copilot, 2025)

robots.txt - Verkehrsregeln für (Ro)Bots

Die robots.txt-Datei regelt den Verkehr der (Ro)Bots auf deiner Webseite. Ähnlich wie im Straßenverkehr, hält sich nicht jeder Bot an die Vorgaben. Strafen bleiben dabei leider aus.

Welche Bots haten sich an die Anweisungen in der robots.txt?

Anfang 1994 schlug der Niederländer Martijn Koster [1] das Konzept des Robots Exclusion Standard [2] vor. Er selbst entwickelte die erst Suchmaschine ALIWEB [3], die per Bot Inhalte crawlte. Er erkannte früh, das Bots immer mehr das Web erobern würden und wollte dafür Regeln schaffen. Die Standford-Universität setzte die von ihm erdachte robots.txt erstmals ein - ab 1996 folgten immer mehr Webseiten diesem Vorbild. Ursprünglich waren für "Bots" nur das Erlauben "Allow" bzw. Verbieten "Disallow" von Inhalten vorgesehen. 25 Jahre nach der Veröffentlichung schlug Googel 2019 die Erweiterung der Vorgaben um die Anweisungen "Sitemap" und "Crawl-delay" vor. Heute, über 30 Jahren später benutzen wir immer noch die robots.txt! Weniger bekannt sollte die Datei humans.txt [4] sein, die für Menschen erdacht wurde. Sie regelt jedoch weniger das Verhalten, sondern gibt zusätzliche Informationen zu Webseiten an - meist Kontaktdaten. Bis heute bleibt die robots.txt jedoch ein inoffizieller Standard, dessen Interpretation den Bot-Betreibern überlassen bleibt.

Inhalt der robots.txt

Anweisungen in der robots.txt
# Einzeiliger Kommentar. Mehrzeilige Kommentar müssen zeilenweise mit # auskommentiert werden.

User-agent: * # Inline-Kommentar

Inline-Kommentare sind erlaubt [5], werden aber nicht empfohlen.

# Beispiel:
# Kommentar
# über drei Zeilen.
* Das Wildcard * steht für beliebige Textinhalte (Strings). Es kann in den Anweisungen User-agent, Allow und Disallow verwendet werden.
$ Das $-Symbol bezeichnet das Zeilenende. Damit können Zeichenketten bestimmt werden, die mit eine definierte Endung enden, z.B. Disallow: /*.pdf$ ignoriert alle PDF-Dateien.
? URLs mit ? werden behandelt. Aktuell wird das ? nur vom Googlebot interpretiert.
Crawl-delay: s Gibt die Verzögerung (engl. delay) in Sekunden s an, bis der der Bot die nächste Seite crawlen darf. Crawl-delay: 10 bedeutet, dass der Bot alle 10 Sekunden eine Seite crawlen darf. Obwohl die Anweisung von Google vorgeschlagen wurde, interpretiert Google diese Anweisung nicht. Aktuell unterstützen nur wenige Bots diese Anweisung.
Sitemap: URL Verweis auf XML-Sitemaps. Dabei wird die URL als absoluter Pfad angegeben, z. B. Sitemap: https://www.robotz.info/sitemap.xml. Es sind mehrere Angaben pro robots.txt erlaubt! Nicht alle Bots interpretieren diese Anweisung.
User-agent: UA-Token Die Anweisung gibt an, für welche(n) Bot(s) die nachfolgenden Regeln gelten. Der Parameter UA-Token (User-Agent-Token) benennt den/die Bot(s), wobei * für alle Bots steht. Es kann auch ein spezifischer Name, wie Googlebot angebgeben werden. Das Token sollte im übermittelten User-Agent-String des Bots vorhanden sein, die Groß- und Kleinschreibung sollte dabei beachtet werden. Eine Leer Angabe "User-agent:" wird als fehlerhaft interpretiert.
Allow: Ressource Mithilfe von Allow berechtigen Sie den Zugriff auf gewisse Ressourcen. Die Allow-Anweisung gilt immer für die vorangestellten User-Agents.

User-agent: *
Allow: / # uneingeschränkter Zugriff

Das Weglassen einer Ressource bei "Allow:" ist gleichbedeutend mit "Disallow: /", dem gerenrellen Zugriffsverbot.
Disallow: Ressource Über Disallow können Sie Ressourcen für den Zugriff einschränken.

User-agent: bingbot
Disallow: / # generelles Zugriffsverbot

User-agent: Googlebot
Disallow: /inhalt/ # Zugriffsverbot für "inhalt" unter untergeordneten Ressoursen.
Disallow: /inhalt/*.pdf$ # Zugriffsverbot für alle PDF-Dateien im Verzeichnis "inhalt"

Benötige ich zwingend eine robots.txt?

Nein, eine robots.txt Datei wird nicht benötigt! Legen Sie im Zweifel einfach eine leere Datei unter diesem Namen ab - damit verhindern Sie Fehler in Ihren Log-Dateien, da Bots diese Datei automatisch abrufen. Wir empfehlen jedoch den Einsatz! Das Crawl-delay kann helfen die Auslastung Ihres Webservers zu vermindern. Sitemap kann schnell auf neue Sitemaps aufmerksam machen. Zumindest die Bots der etablierten Suchmaschinen können Sie damit im gewissen Umfang steuern. Viele Bots beachten die Anweisungen nicht und crawlen Ihre Inhalte nach belieben. Vor allem KI-Bots missachten die robots.txt nach unserer Einschätzung, was sich auch in unseren Tests wiederspiegelt. Schlimmer noch, bösartige Bots bekommen anhand Ihrer Regeln potenzielle Angriffspunkte auf dem Silbertablett serviert. Trotz der genannten Einschränkungen wird uns die robots.txt sicher von viele Jahre erhalten bleiben.

Was passiert, wenn nicht auf die robots.txt zugegriffen werden kann?

Grundsätzlich sollte eine robots.txt im Stammverzeichnis der Webseite vorhanden sein. Sie muss jedoch spätestens nach 5 Weiterleitungen (z. B. 301- oder 302-Redirect), auch über die Domain hinaus, zur Verfügung stehen. Steht dem Bot die Datei nicht zur Verfügung (HTTP-Statuscode 400-499), dann darf der Bot auf sämtliche Ressourcen zugreifen. Antwortet der Server mit "nicht erreichbar" (HTTP-Statuscode 500-599), so ist vorerst sämtlicher Zugriff zu unterlassen. Sollte der Fehler über eine längere Zeit bestehen, dann darf der Bot den Fehler auch als "nicht vorhanden" interpretieren und auf sämtliche Ressourcen zugreifen. Fehlerhafte Anweisungen innerhalb der Datei sind zu ignorieren. Achten Sie also auf die Fehlerfreiheit und Erreichbarkeit ihrer robots.txt! Zur überprüfung finden Sie viele Tools im Internet, wie beispielsweise die Google Search Console (GSC).

Gibt es weitere Möglichkeiten Bots zu leiten?

Zusätzlich zu den Anweisungen in der robots.txt können Sie auf mehrere Arten auf Bots Einfluss nehmen. Sie können in den Meta-Angaben im HTML-Quellcode dem Attribut name="robots" mehrere Inhalts-Attribute mitgeben, wie z. B.:

<meta name="robots" content="index, follow">

Das Namens-Attribut name="robots" ist gleichbedeutent mit der in der robots.txt befindlichen Anweisung "User-Agent: *". Hier werden alle Bots "*" angewiesen die Seite zu indezieren und allen Links zu folgen - das Gegenteil würde "noindex, nofollow" bewirken. Der Robots-Meta-Tag kennt noch weitere Content-Attribute, wie "noarchiv", die hier aber nicht weiter betrachtet werden. Im Namens-Attribut kann die Anweisung auch individuell z. B. mit name="Googlebot" erfolgen. Es sind mehrere Anweisungszeilen pro Webseite erlaubt. Wollen Sie noch spezifischere Anweisungen für Ihre Webseite definieren, dann schauen Sie sich den X-Robots-Tag an, der nicht direkt im Quellcode Ihrer Seite definiert wird, sondern in den zu übertragenen Header-Daten ihres Webservers. Der X-Robots-Tag ist jedoch nur für sehr fortgeschrittene Benutzer zu empfehlen.

Innerhalb des HTML-Quelltextes können Sie Links Anweisungen über das rel-Attribut mitgeben. Wichtig ist hier u. a. der Attributwerte "nofollow". Die Anweisung sollte nur für externe Links benutzt werden. Die Steuerung interne Links über "nofollow" bedeutet das entwerten von Linkjuice, d. h. der anteilige Linkjuice des Links geht verlohren und verteilt sich nicht auf die restlichen Links. Auch das rel-Attribut hat verschiedene weitere Anweisugen, die hier unbetrachtet bleiben.

Die technischste Möglichkeit der Bot-Steuerung erfolgt serverseitig, z. B. über die .htaccess-Datei, direkt über den Quellcode der Webseite oder Bot-Management-Tools. Auch Firewalls können helfen lästigen Bot-Traffic zu elemenieren. Die einfachste Lösung ist die Inanspruchnahme eines Dienstleisters, wie z. B. Cloudflare.

Wie geht es weiter?

Hat die robots.txt bereits ausgedient und sollte in den wohlverdienten Ruhestand gehen? Heise online veröffentlich breits am 15.10.2025 den Artikel "Nachruf: Abschied von robots.txt (1994-2025)" [6]. Ganz so dramatisch sehen wir das Thema noch nicht - Fakt ist aber, das es heute viele neue Anforderungen an den Umgang mit Webinhalten gibt, denen die robots.txt nicht gerecht wird. AI-Crawler besuchen unkontrolliert Inhalte und benutzen diese zum Training ihrer Modelle - der Webseitenbereiber geht dabei leer aus. Eine Regulierung des Marktes ist zwingend erforderlich. Potenzielle Lösungen oder Erweiterungen, wie RLS [7], oder auch die llms.txt stehen schon in den Startlöchern!

Fußnoten

1) Wikipedia, Martijn Koster, abgerufen am 23.12.2025
2) Robots Exclusion Standard, abgerufen am 23.12.2025
3) Wikipedia, ALIWEB, abgerufen am 23.12.2025
4) About humans.txt, abgerufen am 23.12.2025
5) Robots Exclusion Protocol, 2.2.3. Special Characters, abgerufen am 24.12.2025
6) Heise online, Nachruf: Abschied von robots.txt (1994-2025), abgerufen am 23.12.2025
7) RSL - Really Simple Licensing, The open content licensing standard for the AI-first Internet, abgerufen am 26.12.2025

Copyright © https://www.robotz.info 2024-2026. Ein mit Leidenschaft erstelltes Projekt von Sven. Alle Rechte vorbehalten. Alle Angaben ohne Gewähr!

Impressum & Datenschutzerklärung