Lerne Coding
ChatGPT, Gemini & Co. von deiner Webseite ausschließen!
14.01.2024

Künstliche Intelligenz von deiner Webseite ausschließen

Inhaltsverzeichnis
[[TABLE OF CONTENTS]]
access_timeGeschätzte Lesezeit ca. Minuten

ChatGPT ist ein Hype – aber nicht alle sind ein Fan davon, manche mögen es, manche hassen es. Die Meinungen gehen weit auseinander. Als Webseitenbetreiber kann ChatGPT für einen ganz persönlich definitiv Vorteile haben in der Ideen Findung für neue Artikel, wie man einen Guide strukturieren sollte oder auch einfach um mit DALL-E Stimmungsbilder zu generieren. Für das Generieren von Bildern verwende ich DALL-E zum Beispiel sehr gerne.

OpenAI hat eine entsprechende Dokumentation veröffentlicht, unter der du Informationen dazu findest, wie du den Bot von deiner Seite ausschließen kannst. Neben OpenAI hat auch Google inzwischen Informationen dazu veröffentlicht, wie du Bard & Vertex AI von deiner Webseite ausschließen kannst. Zusätzlich werde ich dich in diesem Artikel immer auf dem Laufenden halten, sobald weiter Unternehmen Informationen dazu veröffentlichen, wie ihre KI auf Daten von deiner Webseite zugreift und wie du dieses verhindern kannst.

Bei ChatGPT und Google Gemini (Bard) gibt es für mich persönlich ein Problem mit den Daten aus der Sicht eines Webseitenbetreibers gegenüber einer Suchmaschine wie Bing & Google. Ich kann verstehen, dass man es sehr gerne zur Recherche auch heranzieht, auch wenn die Informationen mit Vorsicht zu beachten sind.

Allerdings haben sie einen entscheidenden Nachteil für den Webseiten Betreiber, es werden nicht immer sauber die Quellen der Daten genannt, oder auch gar nicht je nach Anfrage, dass diese ein Problem mit dem Urheberrecht darstellt, liegt ziemlich auf der Hand. Auch die New York Times sieht es ähnlich, da es auch sich ggf. um größere Einbußen aus dem Werbegeschäft bei ihnen handelt. Die Klage wird unterschiedliche gesehen, aber eine Angabe der Quellen wäre wahrscheinlich angebracht, auch wenn diese schwierige ist, wenn es wirklich aus etlichen Quellen zusammengesetzt wird. OpenAI beschreibt es selbst so, dass es sich um seltene Fälle handelt, wo die Original-Informationen des Trainings 1:1 wiedergegeben werden, die New York Times hätte explizit die Anfragen so gestellt, um diese Resultate zu erhalten.

Wichtig ist zum jetzigen Zeitpunkt, es gibt keine Möglichkeiten für Content Creator einzusehen, ob die Informationen ihrer Webseite in ChatGPT oder Google Bard für das Traning der KI verwendet wurden. Geschweige den eine Möglichkeit nachträglich Inhalte zu entfernen, die Informationen, die jetzt folgen, eignen sich nur dazu das KI Traning auf den Daten der Webseite für Google Bard und ChatGPT zu verhindern.

Wofür ist die robots.txt?

Die robots.txt wurde entwickelt, um Webseitenbetreibern eine Möglichkeit zu geben Webcrawler abzuwehren, auch bekannt als Robots Exclusion Standard. Dieser de facto Standard wurde von Martijn Koster während seiner Arbeit für das Unternehmen Nexor entwickelt, wo er an einer der ersten Suchmaschinen im Internet arbeitetet im Jahr 1994.

Die meisten Suchmaschinen & Crawler halten sich inzwischen an diesen Standard, um Aussagen zu treffen, welche Bereiche von Webseite Bereiche abgerufen werden dürfen und welche eben nicht. Erst 2019 hatte Google begonnen an einem entsprechenden RFC zu diesem Thema zu arbeiten, im September 2022 wurde dann RFC 9309 veröffentlicht, die alle notwendigen Informationen zusammenfasst.

Die wichtigsten Keywords sind „Allow“ & „Disallow“ – um Aussagen darüber zu treffen, welche Pfade gecrawlt oder nicht gecrawlt werden dürfen. Zusätzlich gibt es dann noch das „User-Agent“ Keyword, wo drunter spezifische Regeln für bestimmte User Agents gesetzt werden können.

Dieser Standard ist kein Verpflichtender, wenn jemand Interesse hat deine Webseite zu crawlen und sich nicht an den Robots Exclusion Standard in seiner Programmierung halten will, ist das kein Problem diese Entsprechende zu missachten.

Den Zugang für KI sperren via Robots.txt

Wie wir im Vorherigen abschnitt gelernt haben, ist es nicht notwendig die Robots.txt zu beachten, diese war eben am Anfang bei OpenAI und Google Bard wahrscheinlich nicht der Fall. Da sie keine Informationen zu ihren User Agents veröffentlicht haben, so war es schlichtweg nicht möglich die Crawler zu identifizieren – außer jeden User Agent im Server Log zu prüfen und zu hoffen ihn zu finden. Allerdings ist das nicht sonderlich zuverlässig – da der User Agent von jedem selbst gewählt werden kann.

Um allen User Agents das Crawling zu verbieten (Achtung, das schließt alle ein, also auch alle Suchmaschinen – zu expliziten Lösungen je KI-Produkt kommen wir in den Einzelenden abschnitten)

User-Agent: *
Disallow: /

Durch den Stern beim User Agent sagen wir, dass die Regel für alle gilt, egal, wer du bist und egal auf welche Seite du zugreifen willst. Tipp, wenn du zum Beispiel nur den Blog ausschließen willst und der Rest der Webseite gecrawlt werden darf, kannst du zum Beispiel /blog/ angeben.

OpenAI – ChatGPT vom Crawling ausschließen

Es gibt zwei User-Agents, die für ChatGPT relevant sind, einmal für den eigentlichen Webcrawler „GBTBot“ und „ChatGPT-User“ für alle Plugins, die Nutzer für live Anfragen zum Beispiel verwenden. Lt. OpenAI wird der ChatGPT-User nicht verwendend, um ChatGPT zu trainieren.

User-Agent: GPTBot
Disallow: /

User-Agent: ChatGPT-User
Disallow: /

Über diesen Abschnitt in deiner robots.txt kannst du sowohl den Crawler als auch den User Bot von deiner Webseite ab sofort komplett ausschließen, wichtig daten die vorab bereits fürs Traning genutzt wurden können so nicht gelöscht werden.

Webseiten wie die New York Times, Stack Overflow oder auch Spiegel haben den GPTBot ausgeschlossen, aber nicht ChatGPT-User Bot.

CC Bot – Common Crawl – gehört das zu Open AI?

Wenn wir von OpenAI hören, habt ihr in der Vergangen vielleicht auch davon gehört, das OpenAI die Daten von CommonCrawl verwendet habe. CommonCrawl umfasst laut eigenen Angaben 250 Billionen Seiten, die in den vergangenen 17 Jahren gesammelt wurden & werden und frei verfügbar sind. Common Crawl ist eine Non-Profit-Organisation, die 2007 gegründet wurde.

CommonCrawl hat nichts im Rechtlichen sinnen mit OpenAI zu tun, trotzdem findet man immer wieder Hinweis, das man diesen Bot namens CCBot auch blockieren sollte. Davon würde ich euch persönlich abraten, da Common Crawl selbst dafür gedacht ist, die Forschung zu fördern, und für die Forschung braucht es große mengen an Daten, die öffentlich zur Verfügung stehen. Für Hochschulen und Universitäten ist es von den Kapazitäten zum Beispiel schlichtweg nicht möglich, das komplette Internet entsprechende zu crawlen bzgl. der Kosten für Energie zum Beispiel.

Falls du dich doch dafür Entscheiden möchtest den CCBot von Common Crawl zu deaktivieren, kannst du das folgendermaßen tun, beachte, er wird wirklich für viele verschiedene Zwecke verwendet, nicht nur von OpenAI. Wobei nicht ganz klar ist, ob OpenAI immer noch auf Daten von Common Crawl zurückgreift. Falls du dazu eine genauere Quelle hast, kommentiere diese Gerne!

User-agent: CCBot
Disallow: /

Google – Bard, Gemini & Vertex AI vom Crawling ausschließen

Die KI Bard von Google ist bisher nicht so weit fortgeschritten wie die von OpenAI, wenn es, um die Fähigkeiten geht, wie zum Beispiel auch direkt mit Plugins oder DALL-E zur Bildgenerierung zusammenzuarbeiten. Allerdings kannst du mit dem User Agent „Google-Extended“ nicht nur Bard, sondern auch die Vertex AI Produkte werden ausgeschlossen, darunter fällt etwa das KI-Modell Gemini, was deutlich mehr können soll als Bard.

User-Agent: Google-Extended
Disallow: /

Webseiten, die bereits Google-Extended ausschließen, sind etwa die Frankfurter Allgemeine Zeitung oder auch wieder die New York Times.

Mittels IP Sperren die Bots ausschließen

OpenAI ist so fair und veröffentlicht auch ihre IPv4 Adressen, mit diesen sie die Webseite Crawlen, der Vorteil davon diese Bereiche zu blockieren anstatt der Robots.txt liegt auf der Hand. Die Zuverlässigkeit von IP-Adressen ist deutlich höher als den User Agent Header zu verändern.

Die IP-Adresse Bereiche für den Webcrawler kannst du unter: https://openai.com/gptbot.json finden. Dieses JSON könntest du auf deinem Server in einem Intervall abfragen, um zu prüfen, ob es Veränderungen gab und die Entsprechenden Subnetze ausschließen. Aber Achtung auch das birgt gefahren, wenn zum Beispiel OpenAI in dieses JSON falsche IP-Adressen Bereiche schreibt, könntest du dich selbst oder deine Nutzer aussperren. Für den Plugin Bot gibt Open AI auf ihrer Webseite zurzeit den Bereich 23.98.142.176/28 an. Falls du diesen Weg wählen willst, prüfe am besten vorab einmal, ob diese Adresse Bereiche noch aktuell sind oder sich verändert haben.

Google gibt leider nicht so explizite Informationen über die IPs, um darüber eine Sperre realisieren zu können, man kann zwar die IP-Adressen Bereiche erhalten zu finden hier, allerdings ist diese nicht nach Bot Typ separiert.

Fazit

Es gibt verschiedene Möglichkeiten, um OpenAI Bots auszuschließen wie Robots.txt oder IP Sperre, aber bestehende Inhalte zu entfernen, ist bedauerlicherweise nicht möglich zum jetzigen Zeitpunkt. Bei Google gibt es zwar die Möglichkeit über die IP-Adressen Bereiche zu prüfen, ob es sich wirklich um einen Google Bot handelt, aber keine Möglichkeit eine IP Sperre einzurichten. Dort bleibt nur der Weg, die Vertex AI und Bard mittels robots.txt auszusperren vom Crawling.

Kommentare zum Artikel

Es sind noch keine Kommentare vorhanden? Sei der/die Erste und verfasse einen Kommentar zum Artikel "ChatGPT, Gemini & Co. von deiner Webseite ausschließen! "!

Kommentar schreiben

Verwante Beiträge
close