WebWizard   27.4.2024 10:17    |    Benutzerkonto
contator.net » WebNews » WebWizard.at » Informationen  
 

Wir brauchen Cookies, siehe unsere Datenschutzerklärung.















Ebene darüber

Mikroformate: Guides und Anleitungen

Auf gleicher Ebene

Accelerated Mobile Pages
ads.txt Standard
Instant Articles
QR-Code Zahlschein: Überweisungs-Format mit EPC-SEPA-QR-Code
robots.txt für AI-Crawler
RSS/Atom-Format
Sitemaps für Websites
Telefonnummer richtig schreiben










UGC-Video-Werbung im Trend


Aktuelle Highlights

KI Sprache: Stimmen


 
Übersicht | Verzeichnis
      Mikroformate: Guides und Anleitungen
           robots.txt für AI-Crawler


robots.txt für AI-Crawler

KI-Systeme müssen gefüttert werden und für viele Anwendungen geschieht das über Crawler im Web. Auch die müssen gebändigt werden können.

Dazu verwendet man eine altbekannte Technik, die man von Suchmaschinen und anderen Bots kennt: Die robots.txt-Datei im Root-Verzeichnis eines Webs. Mit den üblichen Nachteilen, klarerweise. Denn weder sind Spider der KI-Systeme technisch dadurch gezwungen, sie zu befolgen, noch scheren sich eine große Zahl an AI-Crawlern überhaupt um irgendwelche Vorgaben. Selbst die künstliche Intelligenz-Abteilung bei Google hat bisher nicht genau geschaut, wie man die eigenen Standards aus dem Suchmaschinen-Umfeld einsetzen kann und den Crawler einfach über das Web laufen lassen.

robots.txt hilft Suchmaschinen

Von OpenAI kommt nun aber zumindest ein Vorschlag für den eigenen Crawler, der ChatGPT und andere bedient. Und der hängt sich an die Suchmaschinen-Robots.txt an, weitere Anbieter haben auch bereits angekündigt, einen allgemeinen Standard dazu zu schaffen und befolgen zu wollen. Auch Google arbeite für Bard daran - es könnte sich also zumindest ein de facto Standard aus der Initiative entwickeln, bei dem man relevante Player mit Befehlen in der Robots-Datei zügeln kann.

Kennzeichnung des AI-Bots

Erster Schritt ist die Erkennung eines Bots, der im Web crawled. Bei OpenAI ist das im User Agent-String die folgende Kennung:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Der als GPTBot erkennbare Crawler von ChatGPT bzw. OpenAI ist also beim Abruf bereits zuordenbar, im Fall von OpenAI auch über fix zugeordnete Abruf-IP-Adressen.

Befehle in der Robots.txt

Die robots.txt-Datei wiederum kann man mit üblichen Ausschluss-Befehlen füttern. Der Bot von OpenAI nennt sich hier 'GPTBot'. Ihn aus einem Verzeichnis auszuschließen wäre so möglich:

robots.txt$
User-agent: GPTBot
Disallow: /verboten/
Allow: /erlaubt/


Dieser Block würde das Unterverzeichnis 'verboten' für den Bot unerreichbar machen, den zweiten Ordner würde man (ohne es machen zu müssen) explizit erlaubt. Will man das ganze Web für den Bot verbieten, reicht als Ordnername '/'.

Dazu kommen noch Bot-Abrufe, die durch PlugIns und User-Aktivitäten 'live' stattfinden. Deren Kennzeichnung erfolgt mit 'ChatGPT-User' (auch im User Agent) und muss getrennt behandelt werden.

Andere Bots

Nachdem das Beachten der Web-Standards in KI-Anwendungen nicht weit verbreitet ist, und selbst bei den bekannten AI-Crawlern nicht einmal die Crawlfrequenz und ähnliche Befehle beachtet werden, braucht es mitunter andere Mechanismen, um diese auszusperren oder zu bändigen. Google dürfte vorerst etwa nur als 'OtherGoogle'-Bot-Kennung zu erreichen sein, bis Bard eine eigene Bot-Kennzeichnung bekommt. Weitere bekommt man mit dem UserAgent '*', der für 'Alle' steht, in die robots.txt. Ansonsten hilft nur die Analyse der Logdateien und die Bearbeitung nach IP-Adressbereichen und Agents, sofern erkennbar.

Ihre Meinung dazu? Schreiben Sie hier!

#OpenAI #Crawler #ChatGPT #robots #KI #AI



Newsticker per eMail oder RSS/Feed!

Auch interessant!
Vorurteile beim Chatbot
Menschen interagieren mit Agenten der Künstlichen Intelligenz (KI), wie etwa einem Chatbot, unterschiedli...

ChatGPT macht mehr Interaktion
Menschen reagieren stärker auf Aussagen und Fragen, die von Robotern gestellt werden, die mit künstlicher...

Bard: Google AI ist da!
Nun ist auch hierzulande der ChatGPT-Mitbewerber von Google gestartet. 'Bard' kann nun 40 Sprachen sprech...

Adobe Firefly gezeigt - wo sind noch die Grenzen der KI?
Mit ChatGPT 3 und jetzt GPT4 gelangen Schlagzeilen und so mancher Benutzer ist auf den Zug aufgestiegen. ...

Chat-KI-Suchmaschine jetzt schon testen
Interaktiv mit der Suchmaschine 'reden' und das Ergebnis in natürlicher Sprache erhalten, soll die Zukunf...

Website mit und ohne Captcha gegen Bots schützen
Betreiben Sie ein Forum? Ein eMail-Gateway auf der Website? Oder wollen Sie ein Formular gegen Bots, Craw...

robots.txt hilft Suchmaschinen
Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu s...

Forum: Ihre Meinung dazu!

[AufZack Talk] [Forum]     
Ins Forum dazu posten...
Betreff/Beitrag:

   






Top Klicks | Neuestes

 
 

 


Customized 2024


GTI Fanfest 2024


AMG GT 43 Coupe


Altblechliebe 4.0


Taycan mit 1100 PS


Porsche Taycan 2024


Aston Martin Vantage


Ist die Domain frei?

Aktuell aus den Magazinen:
 7 Mio-Jackpot Sechsfachjackpot im Lotto 6 aus 45
 EV5 Kia zeigt das SUV in Europa
 2,8 Mio. warten Dreifackjackpot in Österreich
 Menschenrechte Missbrauch im Namen des Klimas?
 Vierfachjackpot 4,5 Mio. im Topf im Lotto in Österreich

contator.net im Überblick:
 Webnews  WebWizard | Bundesland.at | Wien-Tipp.at | NewsTicker
 Business  Journal.at | Anfrage.net | plex | Seminar.At | BizTipp
 Auto  Auto.At | TunerAuto.At | OldtimerAuto.At | AutoTalk.At | AutoGuide.At | AutoBiz.At
 Freizeit  Style.at | Famili.at | Kinofilm.at | Musical.at | heavy.at | grlz | WitzBold | Advent.At
 Shopping  anna | Shoppingcity.at | SchatzWelt Gewinnspiele | Prozente.net Gutscheine
 Community  AufZack! | Flirtparty | Player | Schmuddelecke

Rechtliches
Copyright © 2024    Impressum    Datenschutz    Kontakt    Sitemap    Wir gendern richtig!
Tripple