Sehen wir uns also die Lösung für das alltägliche Problem, Suchmaschinen den Weg zu den zu crawlenden Seiten zu zeigen, an. Es geht ganz einfach, hier eine Liste an Seiten an alle in der Praxis relevanten Suchmaschinen zu übermitteln.
Die Basis dazu ist übrigens eine Technologie, die als Filter erfunden wurde, um Suchmaschinen auszusperren. Eine robots.txt-Datei enthält dazu Anweisungen an Google und Co., die bestimmte Bereiche als nicht zu durchsuchen markieren.
robots.txt hilft Suchmaschinen
Da die Suchmaschinen dort aber ohnehin schon nachsehen sollten, hat man passenderweise auch den Verweis auf Crawl-Listen hinterlegt. Ein Befehl wie 'Sitemap: http://www.beispiel.at/sitemapindex.xml' (siehe Link oberhalb für Details!) verweist dann schon auf eine XML-Datei, die maschinenlesbar Links zu Sitemap-Dateien beinhaltet.
Der Sitemap-Index
Von der robots.txt aus finden Suchmaschinen also den Sitemap-Index, die Liste der auffindbaren Sitemaps. Der Link (innerhalb der gleichen Website-Domain) verweist auf eine XML-Datei.
Diese Index-Datei wiederum zeigt auf die eigentlichen URL-Listen. Sie beinhaltet jene Verweise darauf, allerdings auch noch Informationen zu deren Aktualität, wenn man das wünscht.
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns='http://www.google.com/schemas/sitemap/0.84'> <sitemap> <loc>http://www.beispiel.at/sitemap1.xml</loc> <lastmod>2014-01-26T16:00:00Z</lastmod> </sitemap> </sitemapindex>
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns='http://www.google.com/schemas/sitemap/0.84'> <url> <loc>http://www.beispiel.at/meineseite.html</loc> <priority>0.9</priority> </url> <url> <loc>http://www.beispiel.at/impressum.html</loc> <priority>0.1</priority> </url> </urlset>
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns='http://www.sitemaps.org/schemas/sitemap/0.9' xmlns:news='http://www.google.com/schemas/sitemap-news/0.9'> <url> <loc>http://www.beispiel.at/artikel1.html</loc> <lastmod>2014-01-25T00:00:00Z</lastmod> <news:news> <news:publication> <news:name>Beispielmagazin</news:name> <news:language>de</news:language> </news:publication> <news:title>Titel des Artikels</news:title> <news:publication_date>2014-01-25T00:00:00Z</news:publication_date> </news:news> </url> </urlset>
Weiter in der Web-Version mit Fotos, Videos, Links und mehr...
#Sitemaps #XML #SEO #Suchmaschinen #Google
Auch interessant!
Google bindet sich weniger an robots.txt
Einschränkungen und Vorgaben sind den Crawlern und Suchmaschinen immer ein Dorn im Auge, doch die Robots....
Content, Semantik und Suche
Drei Themen, die uns als Webmaster schon bisher im WebWizard immer wieder beschäftigt haben. Nun gehen wi...
robots.txt hilft Suchmaschinen
Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu s...
Google Webmaster Tools runderneuert
Das bereits seit einiger Zeit angekündigte neue Layout der Webmaster-Tools von Google wurde heute aktivie...
Yahoo bei der Suche helfen!
Mit einem neuen Werkzeug, welches gerade im Beta-Stadium ist, erlaubt Yahoo im Site Explorer den Webmaste...
Sitemaps für Yahoo, Google und Live Search
Alle drei großen internationalen Suchmaschinen unterstützen mittlerweile das Sitemaps-Protokoll, um Eintr...
Google Sitemaps auch bei Yahoo und msn
Wer hätte das gedacht! Die normalerweise in beinharter Konkurrenz befindlichen Suchmaschinenbetreiber hab...