Technisches SEO - Crawling- & Indexierungssteuerung

Bei der Suche aus der Masse herausstechen, bessere Umsatzpotentiale generieren und so Wettbewerbsvorteile schaffen – schon kleine Anpassungen der Website-Konfiguration können große Verbesserungen im Suchmaschinen-Ranking bewirken. Das Zauberwort dafür: Technisches SEO.

Dies ist ein Auszug aus dem Buch Technisches SEO – Mit nachhaltiger Suchmaschinenoptimierung zum Erfolg

Crawling- & Indexierungssteuerung

Als Crawling wird die automatische Analyse von URLs durch sogenannte Crawler, Spider oder Robots von Suchmaschinen bezeichnet. Das Crawling ist ein notwendiger Vorgang, damit ein Dokument überhaupt über Suchmaschinen gefunden werden kann. Es steht Ihnen als Webmaster frei, einzelne URLs, Verzeichnisse oder den gesamten Hostnamen von der Analyse durch Suchmaschinen auszuschließen. Als Instrument steht Ihnen dazu die Datei robots.txt zur Verfügung. Die Gründe, einen (Teil-)Ausschluss von Dokumenten zu vollziehen, können vielfältig sein und sind abhängig von der jeweiligen Website. Zum Beispiel kann es sein, dass auf einer Webseite vorhandene persönliche Informationen nicht über Suchmaschinen gefunden oder (interne oder externe) Duplikate unsichtbar gemacht werden sollen.

Sie können aber nicht nur das Crawling beeinflussen, sondern auch Dokumente von der Indexierung ausschließen. Mit einer solchen, beispielsweise über die Meta-Robots-Angaben definierbaren Konfiguration können Sie Suchmaschinen anweisen, ein Dokument nicht in den sogenannten Index aufzunehmen. Unter »Suchmaschinen-Index« ist dabei die Gesamtheit aller bekannten und zur Indexierung durch Suchmaschinen freigegebenen Dokumente zu verstehen.

Anders als beim Einsatz der robots.txt ist es Suchmaschinen nach Indexierungsausschlüssen weiterhin möglich, die Inhalte zu »lesen«. Dadurch können zum Beispiel vom Dokument ausgehende Verweise weiterhin analysiert werden – zumindest dann, wenn dies nicht über eine der in diesem Kapitel vorgestellten Einstellungen eingeschränkt ist. Von der Grundidee her sind Crawling- und Indexierungsausschlüsse ähnlich. Wenn es nur darum geht, ein Dokument nicht über Suchmaschinen auffindbar zu machen, ist ein Indexierungsausschluss häufig die bessere Wahl. Zum Einsatz kommt diese Technik beispielsweise dann, wenn die Adresse über kein passendes Keyword und somit nur über einen minimalen Nutzen für Suchmaschinennutzer verfügt.

Aber der Reihe nach: Beschäftigen wir uns zuerst mit der Crawling-Steuerung.

Was Suchmaschinen crawlen

Suchmaschinen-Crawler sind kontinuierlich im Web unterwegs, um neue Inhalte zu finden und bereits bekannte URLs erneut zu analysieren. Suchmaschinen folgen dabei Links, also Verweisen, die sie auf verschiedenen Wegen finden. Neben den im Quelltext von Seiten enthalten Verweisen sind auch Informationen aus Sitemaps (siehe Kapitel 9) und explizite URL-Anmeldungen als Datenquellen möglich.

Suchmaschinen crawlen also Inhalte, die

aufgrund von Verweisen oder Anmeldung bekannt sind,
verfügbar und nicht verfügbar sind,
weitergeleitet werden und
nicht vom Crawling ausgeschlossen wurden.

Speziell Google neigt dazu, zusätzlich auch URL-Fragmente und Angaben, die wie URLs aussehen, aufzurufen. Wenn im Quelltext einer Seite eine Angabe wie /info/ vorkommt, kann das bereits dazu führen, dass Google diese Struktur zu crawlen versucht.

Die Autoren von ‚Technisches SEO‘: Dominik Wojcik, Stephan Czysch und Benedikt Illner

Crawling mit robots.txt beeinflussen

Durch in der Datei robots.txt getroffenen Angaben können Sie direkten Einfluss auf das Crawling von URLs Ihres Webauftritts nehmen. Über die im Hauptverzeichnis (»Root«) abzulegende Textdatei mit dem Namen robots.txt können Sie

den Zugriff auf einzelne Adressen, Verzeichnisse, URL-Muster oder die gesamte Domain verbieten,
Ausnahmen für Crawling-Ausschlüsse definieren,
Verweise auf Sitemap-Dateien setzen und
die Crawling-Einstellungen für einzelne User-Agents definieren.

Ob Sie eine robots.txt verwenden, bleibt Ihnen überlassen. Wenn Sie auf ihren Einsatz verzichten, gehen Suchmaschinen davon aus, dass sie alle Inhalte analysieren dürfen. Eine leere robots.txt hat übrigens denselben Effekt wie eine nicht vorhandene. Es ist zudem nicht notwendig, den Zugriff explizit zu erlauben. Suchmaschinen gehen standardmäßig davon aus, dass ihnen der Zugriff erlaubt ist – eben immer so lange, bis ein Verbot vorliegt.

Tipp

Es ist wichtig, dass Sie die robots.txt unter ihrhostname.tld/robots.txt ablegen. Andernfalls werden die dort getroffenen Eingaben nicht befolgt. Für jeden Hostnamen müssen eigene Crawling-Einstellungen getroffen werden. Es nicht so, dass ein Crawling-Ausschluss von www.ihredomain.tld auch das Crawling von blog.ihredomain.tld in selbiger Form beeinflussen würde.

Weiterlesen könnt Ihr in dem Buch
Technisches SEO – Mit nachhaltiger Suchmaschinenoptimierung zum Erfolg

oreillyblog

IT, Social Media & Geek Life von und mit O'Reilly-Büchern

Technisches SEO – Crawling- & Indexierungssteuerung

2 Kommentare

Schreibe einen Kommentar