robots.txt für AI-Crawler

KI-Systeme müssen gefüttert werden und für viele Anwendungen geschieht das über Crawler im Web. Auch die müssen gebändigt werden können.

Dazu verwendet man eine altbekannte Technik, die man von Suchmaschinen und anderen Bots kennt: Die robots.txt-Datei im Root-Verzeichnis eines Webs. Mit den üblichen Nachteilen, klarerweise. Denn weder sind Spider der KI-Systeme technisch dadurch gezwungen, sie zu befolgen, noch scheren sich eine große Zahl an AI-Crawlern überhaupt um irgendwelche Vorgaben. Selbst die künstliche Intelligenz-Abteilung bei Google hat bisher nicht genau geschaut, wie man die eigenen Standards aus dem Suchmaschinen-Umfeld einsetzen kann und den Crawler einfach über das Web laufen lassen.

Links & Fotos zum Text...



robots.txt hilft Suchmaschinen

Von OpenAI kommt nun aber zumindest ein Vorschlag für den eigenen Crawler, der ChatGPT und andere bedient. Und der hängt sich an die Suchmaschinen-Robots.txt an, weitere Anbieter haben auch bereits angekündigt, einen allgemeinen Standard dazu zu schaffen und befolgen zu wollen. Auch Google arbeite für Bard daran - es könnte sich also zumindest ein de facto Standard aus der Initiative entwickeln, bei dem man relevante Player mit Befehlen in der Robots-Datei zügeln kann.

Kennzeichnung des AI-Bots

Erster Schritt ist die Erkennung eines Bots, der im Web crawled. Bei OpenAI ist das im User Agent-String die folgende Kennung:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Der als GPTBot erkennbare Crawler von ChatGPT bzw. OpenAI ist also beim Abruf bereits zuordenbar, im Fall von OpenAI auch über fix zugeordnete Abruf-IP-Adressen.

Befehle in der Robots.txt

Die robots.txt-Datei wiederum kann man mit üblichen Ausschluss-Befehlen füttern. Der Bot von OpenAI nennt sich hier 'GPTBot'. Ihn aus einem Verzeichnis auszuschließen wäre so möglich:


robots.txt$ User-agent: GPTBot
Disallow: /verboten/
Allow: /erlaubt/


Dieser Block würde das Unterverzeichnis 'verboten' für den Bot unerreichbar machen, den zweiten Ordner würde man (ohne es machen zu müssen) explizit erlaubt. Will man das ganze Web für den Bot verbieten, reicht als Ordnername '/'.

Dazu kommen noch Bot-Abrufe, die durch PlugIns und User-Aktivitäten 'live' stattfinden. Deren Kennzeichnung erfolgt mit 'ChatGPT-User' (auch im User Agent) und muss getrennt behandelt werden.

Andere Bots

Nachdem das Beachten der Web-Standards in KI-Anwendungen nicht weit verbreitet ist, und selbst bei den bekannten AI-Crawlern nicht einmal die Crawlfrequenz und ähnliche Befehle beachtet werden, braucht es mitunter andere Mechanismen, um diese auszusperren oder zu bändigen. Google dürfte vorerst etwa nur als 'OtherGoogle'-Bot-Kennung zu erreichen sein, bis Bard eine eigene Bot-Kennzeichnung bekommt. Weitere bekommt man mit dem UserAgent '*', der für 'Alle' steht, in die robots.txt. Ansonsten hilft nur die Analyse der Logdateien und die Bearbeitung nach IP-Adressbereichen und Agents, sofern erkennbar.


Weiter in der Web-Version mit Fotos, Videos, Links und mehr...

#OpenAI #Crawler #ChatGPT #robots #KI #AI

Auch interessant!
Vorurteile beim Chatbot
Menschen interagieren mit Agenten der Künstlichen Intelligenz (KI), wie etwa einem Chatbot, unterschiedli...

ChatGPT macht mehr Interaktion
Menschen reagieren stärker auf Aussagen und Fragen, die von Robotern gestellt werden, die mit künstlicher...

Bard: Google AI ist da!
Nun ist auch hierzulande der ChatGPT-Mitbewerber von Google gestartet. 'Bard' kann nun 40 Sprachen sprech...

Adobe Firefly gezeigt - wo sind noch die Grenzen der KI?
Mit ChatGPT 3 und jetzt GPT4 gelangen Schlagzeilen und so mancher Benutzer ist auf den Zug aufgestiegen. ...

Chat-KI-Suchmaschine jetzt schon testen
Interaktiv mit der Suchmaschine 'reden' und das Ergebnis in natürlicher Sprache erhalten, soll die Zukunf...

Website mit und ohne Captcha gegen Bots schützen
Betreiben Sie ein Forum? Ein eMail-Gateway auf der Website? Oder wollen Sie ein Formular gegen Bots, Craw...

robots.txt hilft Suchmaschinen
Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu s...