Sitemaps für Websites

Schon beim Auffinden von Inhalten im Internet sind Suchmaschinen mitunter auf die Unterstützung lesbarer XML-Dateien mit Anleitungen angewiesen. So macht man Sitemaps für Suchmaschinen!

Sehen wir uns also die Lösung für das alltägliche Problem, Suchmaschinen den Weg zu den zu crawlenden Seiten zu zeigen, an. Es geht ganz einfach, hier eine Liste an Seiten an alle in der Praxis relevanten Suchmaschinen zu übermitteln.

Links & Fotos zum Text...

Die Basis dazu ist übrigens eine Technologie, die als Filter erfunden wurde, um Suchmaschinen auszusperren. Eine robots.txt-Datei enthält dazu Anweisungen an Google und Co., die bestimmte Bereiche als nicht zu durchsuchen markieren.

robots.txt hilft Suchmaschinen

Da die Suchmaschinen dort aber ohnehin schon nachsehen sollten, hat man passenderweise auch den Verweis auf Crawl-Listen hinterlegt. Ein Befehl wie 'Sitemap: http://www.beispiel.at/sitemapindex.xml' (siehe Link oberhalb für Details!) verweist dann schon auf eine XML-Datei, die maschinenlesbar Links zu Sitemap-Dateien beinhaltet.

Der Sitemap-Index

Von der robots.txt aus finden Suchmaschinen also den Sitemap-Index, die Liste der auffindbaren Sitemaps. Der Link (innerhalb der gleichen Website-Domain) verweist auf eine XML-Datei.

Links & Fotos zum Text...

Diese Index-Datei wiederum zeigt auf die eigentlichen URL-Listen. Sie beinhaltet jene Verweise darauf, allerdings auch noch Informationen zu deren Aktualität, wenn man das wünscht.

<?xml version='1.0' encoding='UTF-8'?>
<sitemapindex xmlns='http://www.google.com/schemas/sitemap/0.84'>
   <sitemap>
      <loc>http://www.beispiel.at/sitemap1.xml</loc>
      <lastmod>2014-01-26T16:00:00Z</lastmod>
   </sitemap>
</sitemapindex>

So könnte eine 'sitemapindex.xml'-Datei aussehen, die von der robots.txt aus angesteuert werden kann. Suchmaschinen finden sie so alleine, wer nachhelfen will, kann das in den Webmaster-Tools natürlich auch tun.

In dem Beispiel gibt es nur eine Sitemap-Datei ('sitemap1.xml') mit allen Links, man kann aber auch mehrere anlegen und mit getrennten 'sitemap'-Bereichen (die man einfach mehrmals untereinander angeben kann) ansprechen - wichtig, wenn die Liste zu lange wird. Mit in der Regel 50.000 Einträgen pro Sitemap ist das aber so schnell nicht erforderlich.

Die 'lastmod'-Angabe im Standard-Datumsformat hilft der Suchmaschine dabei, heraus zu finden, ob eine neue Sitemap zur Verarbeitung da ist. Sie können diese angeben, wenn möglich. Andernfalls lassen Sie die Zeile weg und die Suchmaschinen lernen alleine, wann eine neue Sitemap zu laden ist.

Sitemap anlegen

Da die Suchmaschinen nun wissen, wo die eigentlichen Sitemaps liegen, kann es nun wirklich mit echten Inhalten losgehen. Auch die 'sitemap1.xml' (wieder am gleichen Server, d.h. unter der Domain, die auch die Inhalte zeigt) wird am Webserver hinterlegt. Sie kann natürlich, wenn das CMS es zuläßt, auch automatisiert und dynamisch generiert werden.

<?xml version='1.0' encoding='UTF-8'?>
  <urlset xmlns='http://www.google.com/schemas/sitemap/0.84'>
  
   <url>
    <loc>http://www.beispiel.at/meineseite.html</loc>
    <priority>0.9</priority>
   </url>  

   <url>
    <loc>http://www.beispiel.at/impressum.html</loc>
    <priority>0.1</priority>
   </url>  

</urlset>

In diesem Beispiel hätten wir zwei Seiten übermittelt. Erstere haben wir mit hoher Priorität versehen, zweitere mit niedriger (zwischen 0 und 1 ist möglich). Das hat zwar mit dem Ranking nichts zu tun, aber Google erkennt zumindest, wie wichtig es ist, diese Seite zu laden.

News-Sitemap

In der Praxis hat sich noch ein spezieller Typ an Sitemaps als wichtig herausgestellt. Es geht um Sitemaps zu aktuellen Artikeln, die von Suchmaschinen besonders behandelt werden - 'Google News' etwa hilft es, wenn zusätzlich zum Link auch noch Meta-Informationen zu einem Artikel mitgeschickt werden.


<?xml version='1.0' 
     encoding='UTF-8'?>
  <urlset 
     xmlns='http://www.sitemaps.org/schemas/sitemap/0.9' 
     xmlns:news='http://www.google.com/schemas/sitemap-news/0.9'>
   <url>
    <loc>http://www.beispiel.at/artikel1.html</loc>
    <lastmod>2014-01-25T00:00:00Z</lastmod>
	<news:news>
		<news:publication>
			<news:name>Beispielmagazin</news:name>
			<news:language>de</news:language>
		</news:publication>
	<news:title>Titel des Artikels</news:title>
	<news:publication_date>2014-01-25T00:00:00Z</news:publication_date>
	</news:news>
   </url>  
</urlset>

Das Beispiel zeigt den Link zu einem Artikel in einer speziellen News-Sitemap, die man getrennt anlegen (und in der Indexdatei verlinken) muss. Wie man sieht, kann eine Suchmaschine so wesentlich mehr Informationen zum übertragenen Inhalt in der verlinkten Website bekommen und auswerten.

Weiter in der Web-Version mit Fotos, Videos, Links und mehr...

#Sitemaps #XML #SEO #Suchmaschinen #Google

Auch interessant!
Google bindet sich weniger an robots.txt
Einschränkungen und Vorgaben sind den Crawlern und Suchmaschinen immer ein Dorn im Auge, doch die Robots....

Content, Semantik und Suche
Drei Themen, die uns als Webmaster schon bisher im WebWizard immer wieder beschäftigt haben. Nun gehen wi...

robots.txt hilft Suchmaschinen
Grundsätzlich sollten die Spider und Crawler der diversen Suchmaschinen selbst finden, was es im Web zu s...

Google Webmaster Tools runderneuert
Das bereits seit einiger Zeit angekündigte neue Layout der Webmaster-Tools von Google wurde heute aktivie...

Yahoo bei der Suche helfen!
Mit einem neuen Werkzeug, welches gerade im Beta-Stadium ist, erlaubt Yahoo im Site Explorer den Webmaste...

Sitemaps für Yahoo, Google und Live Search
Alle drei großen internationalen Suchmaschinen unterstützen mittlerweile das Sitemaps-Protokoll, um Eintr...

Google Sitemaps auch bei Yahoo und msn
Wer hätte das gedacht! Die normalerweise in beinharter Konkurrenz befindlichen Suchmaschinenbetreiber hab...