Googles Parser für robots.txt nun als Open Source verfügbar

Bild nicht mehr verfügbar.

Google will robots.txt zum Internetstandard machen.

Google will, dass die Internet Engineering Task Force (IETF) das Robots Exclusion Protocol (REP) zum offiziellen Internet-Standard macht. Dafür wurde nun ein Antrag bei der Organisation eingebracht, die für die technische Weiterentwicklung des World Wide Webs zuständig ist. Das REP gibt die Regeln vor, wie sich Webcrawler verhalten sollen. Das ist ein Computerprogramm, welches das Web automatisch durchsucht und die Inhalte analysiert. Kurzum: Ein unverzichtbarer Dienst für Suchmaschinenanbieter.

Und Google als Marktführer nahm hier eine Vorreiterrolle ein. Sein REP galt mehr oder weniger als inoffizieller Standard, auf dessen Regeln sich die Giganten Google, Microsoft und Yahoo geeinigt haben. Damit REP nun auch offiziell Standard wird, hat Google den Parser für robots.txt offengelegt. Der Parser übersetzt die Erkenntnisse des REP, um sie weiterverarbeiten zu können. Er ist unter GitHub künftig als Open-Source-Software verfügbar. Dabei gibt’s auch eine Funktion, mit der andere Webmaster ihre Regeln prüfen können.

25 Jahre alt

Google kreierte das REP vor 25 Jahren. Der niederländische Entwickler Martijn Koster hatte erstmals die Vision, Regeln für Webcrawler in einer separaten Datei zu verpacken.

Koster, Webmaster und andere Suchmaschinen-Anbieter haben nun auch den Antrag an den IETF vorbereitet. Darin wird in einheitlichen Regeln preisgegeben, wie REP verwendet werden soll. Zwar stammen einige davon noch aus den 90ern, sie wurden aber laufend angepasst. Demnach soll robots.txt unter anderem nicht mehr auf das Übertragungsprotokoll HTTP (Hypertext Transfer Protocol) beschränkt sein und der Zugriff auch über FTP (File Transfer Protocol) und CoAP (Constrained Application Protocol) möglich sein. (red, 5.7.2019)

Google

Googles Parser für robots.txt nun als Open Source verfügbar

25 Jahre alt

Forum:

Ihre Meinung zählt.