Wenn es schnell gehen soll, die Robots.txt schließt alle Bots aus, die Daten für KIs sammeln.
User-Agent: GPTBot
Disallow: /
User-Agent: ChatGPT-User
Disallow: /
User-Agent: Google-Extended
Disallow: /
User-Agent: Applebot-Extended
Disallow: /
# lt. Hersteller Angaben werden sie nicht für das Training von KIs verwendet.
User-Agent: OAI-SearchBot
Disallow: /
User-Agent: PerplexityBot
Disallow: /
# ggf. nicht sinvoll, mehr dazu unten.
User-Agent: CCBot
Disallow: /
ChatGPT ist ein Hype – aber nicht alle sind ein Fan davon, manche mögen es, manche hassen es. Die Meinungen gehen weit auseinander. Als Webseitenbetreiber kann ChatGPT für einen ganz persönlich definitiv Vorteile haben in der Ideen Findung für neue Artikel, wie man einen Guide strukturieren sollte oder auch einfach um mit DALL-E Stimmungsbilder zu generieren. Für das Generieren von Bildern verwende ich DALL-E zum Beispiel sehr gerne.
OpenAI hat eine entsprechende Dokumentation veröffentlicht, unter der du Informationen dazu findest, wie du den Bot von deiner Seite ausschließen kannst. Neben OpenAI hat auch Google inzwischen Informationen dazu veröffentlicht, wie du Bard & Vertex AI von deiner Webseite ausschließen kannst. Zusätzlich werde ich dich in diesem Artikel immer auf dem Laufenden halten, sobald weiter Unternehmen Informationen dazu veröffentlichen, wie ihre KI auf Daten von deiner Webseite zugreift und wie du dieses verhindern kannst. Zuletzt ist nun im Juni 2024 auf der WWDC 2024 auch Apple Intelligence vorgestellt worden. Auch hier gibt es nun Optionen, diesen auszuschließen, dass deine Daten nicht erfasst werden.
Bei ChatGPT und Google Gemini (Bard) gibt es für mich persönlich ein Problem mit den Daten aus der Sicht eines Webseitenbetreibers gegenüber einer Suchmaschine wie Bing & Google. Ich kann verstehen, dass man es sehr gerne zur Recherche auch heranzieht, auch wenn die Informationen mit Vorsicht zu beachten sind.
Allerdings haben sie einen entscheidenden Nachteil für den Webseiten Betreiber, es werden nicht immer sauber die Quellen der Daten genannt, oder auch gar nicht je nach Anfrage, dass diese ein Problem mit dem Urheberrecht darstellt, liegt ziemlich auf der Hand. Auch die New York Times sieht es ähnlich, da es auch sich ggf. um größere Einbußen aus dem Werbegeschäft bei ihnen handelt. Die Klage wird unterschiedliche gesehen, aber eine Angabe der Quellen wäre wahrscheinlich angebracht, auch wenn diese schwierige ist, wenn es wirklich aus etlichen Quellen zusammengesetzt wird. OpenAI beschreibt es selbst so, dass es sich um seltene Fälle handelt, wo die Original-Informationen des Trainings 1:1 wiedergegeben werden, die New York Times hätte explizit die Anfragen so gestellt, um diese Resultate zu erhalten.
Wichtig ist zum jetzigen Zeitpunkt, es gibt keine Möglichkeiten für Content Creator einzusehen, ob die Informationen ihrer Webseite in ChatGPT oder Google Bard für das Traning der KI verwendet wurden. Geschweige den eine Möglichkeit nachträglich Inhalte zu entfernen, die Informationen, die jetzt folgen, eignen sich nur dazu das KI Traning auf den Daten der Webseite für Google Bard und ChatGPT zu verhindern.
Die robots.txt wurde entwickelt, um Webseitenbetreibern eine Möglichkeit zu geben Webcrawler abzuwehren, auch bekannt als Robots Exclusion Standard. Dieser de facto Standard wurde von Martijn Koster während seiner Arbeit für das Unternehmen Nexor entwickelt, wo er an einer der ersten Suchmaschinen im Internet arbeitetet im Jahr 1994.
Die meisten Suchmaschinen & Crawler halten sich inzwischen an diesen Standard, um Aussagen zu treffen, welche Bereiche von Webseite Bereiche abgerufen werden dürfen und welche eben nicht. Erst 2019 hatte Google begonnen an einem entsprechenden RFC zu diesem Thema zu arbeiten, im September 2022 wurde dann RFC 9309 veröffentlicht, die alle notwendigen Informationen zusammenfasst.
Die wichtigsten Keywords sind „Allow“ & „Disallow“ – um Aussagen darüber zu treffen, welche Pfade gecrawlt oder nicht gecrawlt werden dürfen. Zusätzlich gibt es dann noch das „User-Agent“ Keyword, wo drunter spezifische Regeln für bestimmte User Agents gesetzt werden können.
Dieser Standard ist kein Verpflichtender, wenn jemand Interesse hat deine Webseite zu crawlen und sich nicht an den Robots Exclusion Standard in seiner Programmierung halten will, ist das kein Problem diese Entsprechende zu missachten.
Wie wir im Vorherigen abschnitt gelernt haben, ist es nicht notwendig die Robots.txt zu beachten, diese war eben am Anfang bei OpenAI und Google Bard wahrscheinlich nicht der Fall. Da sie keine Informationen zu ihren User Agents veröffentlicht haben, so war es schlichtweg nicht möglich die Crawler zu identifizieren – außer jeden User Agent im Server Log zu prüfen und zu hoffen ihn zu finden. Allerdings ist das nicht sonderlich zuverlässig – da der User Agent von jedem selbst gewählt werden kann.
Um allen User Agents das Crawling zu verbieten (Achtung, das schließt alle ein, also auch alle Suchmaschinen – zu expliziten Lösungen je KI-Produkt kommen wir in den Einzelenden abschnitten)
User-Agent: *
Disallow: /
Durch den Stern beim User Agent sagen wir, dass die Regel für alle gilt, egal, wer du bist und egal auf welche Seite du zugreifen willst. Tipp, wenn du zum Beispiel nur den Blog ausschließen willst und der Rest der Webseite gecrawlt werden darf, kannst du zum Beispiel /blog/ angeben.
Es gibt zwei User-Agents, die für ChatGPT relevant sind, einmal für den eigentlichen Webcrawler „GPTBot“ und „ChatGPT-User“ für alle Plugins, die Nutzer für live Anfragen zum Beispiel verwenden. Lt. OpenAI wird der ChatGPT-User nicht verwendend, um ChatGPT zu trainieren.
User-Agent: GPTBot
Disallow: /
User-Agent: ChatGPT-User
Disallow: /
Über diesen Abschnitt in deiner robots.txt kannst du sowohl den Crawler als auch den User Bot von deiner Webseite ab sofort komplett ausschließen, wichtig daten die vorab bereits fürs Traning genutzt wurden können so nicht gelöscht werden.
Webseiten wie die New York Times, Stack Overflow oder auch Spiegel haben den GPTBot ausgeschlossen, aber nicht ChatGPT-User Bot.
Hinweis: Unter https://platform.openai.com/docs/bots findest du immer die aktuellsten Informationen von OpenAI zu ihren Crawlern und User Agents, die verwendet werden.
Vor kurzem (November 2024), hat OpenAI eine neue Funktion vorgestellt, dabei geht es darum, auch eine echte Suche innerhalb von ChatGPT anzubieten. Dafür würde ein neuer User Agent verwendet, "OAI-SearchBot". Diese Daten, die der Crawler sammelt, werden laut den Angaben von OpenAI nicht für das Training von ihren Large Language Models verwendet. Ob du diesen auch sperren willst, solltest du dir überlegen, theoretisch gibt es eine neue Möglichkeit, Traffic zu erhalten, denn hier werden sauber die Quellen der Daten angegeben.
User-Agent: OAI-SearchBot
Disallow: /
Wenn wir von OpenAI hören, habt ihr in der Vergangen vielleicht auch davon gehört, das OpenAI die Daten von CommonCrawl verwendet habe. CommonCrawl umfasst laut eigenen Angaben 250 Billionen Seiten, die in den vergangenen 17 Jahren gesammelt wurden & werden und frei verfügbar sind. Common Crawl ist eine Non-Profit-Organisation, die 2007 gegründet wurde.
CommonCrawl hat nichts im Rechtlichen sinnen mit OpenAI zu tun, trotzdem findet man immer wieder Hinweis, das man diesen Bot namens CCBot auch blockieren sollte. Davon würde ich euch persönlich abraten, da Common Crawl selbst dafür gedacht ist, die Forschung zu fördern, und für die Forschung braucht es große mengen an Daten, die öffentlich zur Verfügung stehen. Für Hochschulen und Universitäten ist es von den Kapazitäten zum Beispiel schlichtweg nicht möglich, das komplette Internet entsprechende zu crawlen bzgl. der Kosten für Energie zum Beispiel.
Falls du dich doch dafür Entscheiden möchtest den CCBot von Common Crawl zu deaktivieren, kannst du das folgendermaßen tun, beachte, er wird wirklich für viele verschiedene Zwecke verwendet, nicht nur von OpenAI. Wobei nicht ganz klar ist, ob OpenAI immer noch auf Daten von Common Crawl zurückgreift. Falls du dazu eine genauere Quelle hast, kommentiere diese Gerne!
User-agent: CCBot
Disallow: /
Die KI Bard von Google ist bisher nicht so weit fortgeschritten wie die von OpenAI, wenn es, um die Fähigkeiten geht, wie zum Beispiel auch direkt mit Plugins oder DALL-E zur Bildgenerierung zusammenzuarbeiten. Allerdings kannst du mit dem User Agent „Google-Extended“ nicht nur Bard, sondern auch die Vertex AI Produkte werden ausgeschlossen, darunter fällt etwa das KI-Modell Gemini, was deutlich mehr können soll als Bard.
User-Agent: Google-Extended
Disallow: /
Webseiten, die bereits Google-Extended ausschließen, sind etwa die Frankfurter Allgemeine Zeitung oder auch wieder die New York Times.
Auf der WWDC 2024 hat auch Apple nun seine generatives KI Projekt Namens "Apple Intelligence" vorgestellt. Um jetzt zu bestimmen, dass die Daten deiner Webseite nicht verwendet werden sollen für das Training von Apple KIs, kannst du mit einem Eintrag in der Robots.txt auch gegensteuern. Wichtig ist zu beachten, dass es bei Apple nicht direkt das Crawling verhindert, sondern nur die Verwendung der Daten für das KI-Training. Der User-Agent ist hier Applebot-Extended der für die Art von Datenerfassung genutzt wird.
User-Agent: Applebot-Extended
Disallow: /
Offizielle Quelle der Informationen: https://support.apple.com/de-de/119829#datausage
Perplexity ist eine Suche wie auch OpenAI ChatGPT Search, die eine Kombination aus LLM und Suche ist, dabei wird lt. Angaben von Perplexity die Daten des Crawlings nur zum Indexieren und Darstellen verwendet wie bei einer klassischen Google-Suche. Der User Agent enthält immer "PerplexityBot", um die Robots.txt Regeln entsprechend zu setzen.
Eine immer aktuelle Übersicht kannst du hier finden: https://docs.perplexity.ai/guides/perplexitybot
User-Agent: PerplexityBot
Disallow: /
OpenAI ist so fair und veröffentlicht auch ihre IPv4 Adressen, mit diesen sie die Webseite Crawlen, der Vorteil davon diese Bereiche zu blockieren anstatt der Robots.txt liegt auf der Hand. Die Zuverlässigkeit von IP-Adressen ist deutlich höher als den User Agent Header zu verändern.
Die IP-Adresse Bereiche für den Webcrawler kannst du unter: https://openai.com/gptbot.json finden. Dieses JSON könntest du auf deinem Server in einem Intervall abfragen, um zu prüfen, ob es Veränderungen gab und die Entsprechenden Subnetze ausschließen. Aber Achtung auch das birgt gefahren, wenn zum Beispiel OpenAI in dieses JSON falsche IP-Adressen Bereiche schreibt, könntest du dich selbst oder deine Nutzer aussperren. Für den Plugin Bot gibt Open AI auf ihrer Webseite zurzeit den Bereich 23.98.142.176/28
an. Falls du diesen Weg wählen willst, prüfe am besten vorab einmal, ob diese Adresse Bereiche noch aktuell sind oder sich verändert haben.
Google gibt leider nicht so explizite Informationen über die IPs, um darüber eine Sperre realisieren zu können, man kann zwar die IP-Adressen Bereiche erhalten zu finden hier, allerdings ist diese nicht nach Bot Typ separiert.
Es gibt verschiedene Möglichkeiten, um OpenAI Bots auszuschließen wie Robots.txt oder IP Sperre, aber bestehende Inhalte zu entfernen, ist bedauerlicherweise nicht möglich zum jetzigen Zeitpunkt. Bei Google gibt es zwar die Möglichkeit über die IP-Adressen Bereiche zu prüfen, ob es sich wirklich um einen Google Bot handelt, aber keine Möglichkeit eine IP Sperre einzurichten. Dort bleibt nur der Weg, die Vertex AI und Bard mittels robots.txt auszusperren vom Crawling.
Hinterlasse mir gerne einen Kommentar zum Artikel und wie er dir weitergeholfen hat beziehungsweise, was dir helfen würde das Thema besser zu verstehen. Oder hast du einen Fehler entdeckt, den ich korrigieren sollte? Schreibe mir auch dazu gerne ein Feedback!
Hallo Schorsch, das ist ein interessanter gedanke von dir, danke dafür, gerne erläutere ich dir das einmal.
Man sollte definitiv jeden Bot einzeln ausschließen, wenn es nur um die KI-Bots geht. Google gibt in der offiziellen Dokumentation an, dass Google-Extended sich nur auf die KIs von Google bezieht. Natürlich kann man niemals ausschließen, dass sie auch Daten aus ihren bestehenden Quellen nutzen. Diese lässt sich immer schwer nachweisen.
Die regulären Bots von Google, also alles, was nicht Google-Extended ist, sollte also nicht für die KI-Daten genutzt werden.
Eine detaillierte Information darüber, welche Crawler/Bots verwendet werden, findest du hier: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=de
Hi Felix, besten Dank für den Artikel. Ich bin nicht vom Fach und daher die Frage: Wir müssen eigentlich jeden AI Bot gesondert ausschließen, oder? Denn alle Bots zu blockieren, würde ja auch das Ranking bei google stören! Wie ist das dann bei google Bots. Crawlen die nur, um zu indexieren oder nutzt google die Daten auch gleich für ihre AI? Schöne Grüße Schorsch