Sie sind sich nicht sicher, wo Sie anfangen sollen, um sicherzustellen, dass Ihre Seiten gecrawlt werden? Von der internen Verlinkung bis zur Anweisung des Googlebots – hier ist, was zu priorisieren ist.
Crawling ist für jede große und kleine Website unerlässlich.
Wenn Ihre Inhalte nicht gecrawlt werden, haben Sie keine Chance, auf Google-Oberflächen sichtbar zu werden.
Lassen Sie uns darüber sprechen, wie Sie das Crawlen optimieren, um Ihren Inhalten die Aufmerksamkeit zu verleihen, die sie verdienen.
Contents
Was ist Crawling in SEO
Im Kontext von SEO ist Crawling der Prozess, bei dem Suchmaschinen-Bots (auch als Webcrawler oder Spider bezeichnet) systematisch Inhalte auf einer Website entdecken.
Dies können Texte, Bilder, Videos oder andere Dateitypen sein, auf die Bots zugreifen können. Unabhängig vom Format werden Inhalte ausschließlich über Links gefunden.
Funktionsweise des Webcrawlings
Ein Webcrawler erkennt URLs und lädt den Seiteninhalt herunter.
Während dieses Vorgangs können sie den Inhalt an den Suchmaschinenindex übergeben und Links zu anderen Webseiten extrahieren.
Diese gefundenen Links fallen in verschiedene Kategorisierungen:
- Neue URLs, die der Suchmaschine unbekannt sind.
- Bekannte URLs, die keine Anleitung zum Crawlen geben werden regelmäßig überprüft, um festzustellen, ob Änderungen am Inhalt der Seite vorgenommen wurden und daher der Suchmaschinenindex aktualisiert werden muss.
- Bekannte URLs, die aktualisiert wurden und klare Anleitungen geben. Sie sollten neu gecrawlt und neu indiziert werden, z. B. über einen XML-Sitemap-Zeitstempel für das letzte Mod-Datum.
- Bekannte URLs, die nicht aktualisiert wurden und klare Anleitungen geben. Sie sollten nicht neu gecrawlt oder neu indiziert werden, z. B. ein HTTP 304 Not Modified-Antwortheader.
- Unzugängliche URLs, denen nicht gefolgt werden kann oder sollte, z. B. solche hinter einem Anmeldeformular oder Links, die durch ein „nofollow“ -Robots-Tag blockiert werden.
- Unzulässige URLs, die Suchmaschinen-Bots nicht crawlen, z. B. die von den Robotern blockierten.txt-Datei.
Alle erlaubten URLs werden zu einer Liste von Seiten hinzugefügt, die in Zukunft besucht werden sollen, bekannt als die Crawl-Warteschlange.
Sie erhalten jedoch unterschiedliche Prioritätsstufen.
Dies hängt nicht nur von der Linkkategorisierung ab, sondern auch von einer Vielzahl anderer Faktoren, die die relative Bedeutung jeder Seite in den Augen jeder Suchmaschine bestimmen.
Die meisten populären Suchmaschinen haben ihre eigenen Bots, die bestimmte Algorithmen verwenden, um zu bestimmen, was sie wann crawlen. Dies bedeutet, dass nicht alle gleich kriechen.
Googlebot verhält sich anders als Bingbot, DuckDuckBot, Yandex Bot oder Yahoo Slurp.
Warum es wichtig ist, dass Ihre Website gecrawlt werden kann
Wenn eine Seite auf einer Website nicht gecrawlt wird, wird sie in den Suchergebnissen nicht eingestuft, da es sehr unwahrscheinlich ist, dass sie indiziert wird.
Aber die Gründe, warum Crawlen kritisch ist, gehen viel tiefer.
Schnelles Crawlen ist für zeitlich begrenzte Inhalte unerlässlich.
Wenn es nicht schnell gecrawlt und sichtbar gemacht wird, wird es für Benutzer oft irrelevant.
Zum Beispiel wird das Publikum nicht von den aktuellen Nachrichten der letzten Woche, einer Veranstaltung, die vergangen ist, oder einem Produkt, das jetzt ausverkauft ist, angesprochen.
Aber selbst wenn Sie nicht in einer Branche arbeiten, in der die Markteinführungszeit entscheidend ist, ist schnelles Crawlen immer von Vorteil.
Wenn Sie einen Artikel aktualisieren oder eine signifikante SEO-Änderung auf der Seite veröffentlichen, profitieren Sie umso schneller von der Optimierung, je schneller der Googlebot sie crawlt – oder sehen Ihren Fehler und können ihn rückgängig machen.
Sie können nicht schnell scheitern, wenn der Googlebot langsam kriecht.Stellen Sie sich Crawling als Eckpfeiler von SEO vor; Ihre organische Sichtbarkeit hängt vollständig davon ab, ob es auf Ihrer Website gut gemacht wird.
Crawling messen: Crawling-Budget vs. Crawl-Wirksamkeit
Entgegen der landläufigen Meinung zielt Google nicht darauf ab, alle Inhalte aller Websites im Internet zu crawlen und zu indizieren.
Das Crawlen einer Seite ist nicht garantiert. Tatsächlich enthalten die meisten Websites einen erheblichen Teil der Seiten, die noch nie vom Googlebot gecrawlt wurden.
Wenn Sie den Ausschluss „Entdeckt – derzeit nicht indiziert“ im Seitenindizierungsbericht der Google Search Console sehen, wirkt sich dieses Problem auf Sie aus.
Aber wenn Sie diesen Ausschluss nicht sehen, bedeutet das nicht unbedingt, dass Sie keine Crawling-Probleme haben.
Es gibt ein weit verbreitetes Missverständnis darüber, welche Metriken bei der Messung von Crawling sinnvoll sind.
Irrtum des Crawling-Budgets
SEO-Profis achten häufig auf das Crawl-Budget, das sich auf die Anzahl der URLs bezieht, die der Googlebot innerhalb eines bestimmten Zeitraums für eine bestimmte Website crawlen kann und möchte.
Dieses Konzept drängt auf die Maximierung des Crawlens. Dies wird durch den Crawling-Statusbericht der Google Search Console weiter verstärkt, der die Gesamtzahl der Crawling-Anfragen anzeigt.
Aber die Vorstellung, dass mehr Crawlen von Natur aus besser ist, ist völlig falsch. Die Gesamtzahl der Crawls ist nichts anderes als eine Vanity-Metrik.
Die verlockende 10-fache Anzahl von Crawls pro Tag korreliert nicht unbedingt mit einer schnelleren (Neu-)Indizierung von Inhalten, die Ihnen wichtig sind. Alles, womit es korreliert, ist, Ihre Server stärker zu belasten und Sie mehr Geld zu kosten.
Der Fokus sollte niemals darauf liegen, die Gesamtmenge des Crawlens zu erhöhen, sondern vielmehr auf qualitativ hochwertigem Crawling, das zu SEO-Werten führt.
Crawling-Wirksamkeitswert
Qualitäts-Crawling bedeutet, die Zeit zwischen der Veröffentlichung oder wesentlichen Aktualisierungen einer SEO-relevanten Seite und dem nächsten Besuch durch den Googlebot zu verkürzen. Diese Verzögerung ist die Crawling-Wirksamkeit.
Um die Crawling-Wirksamkeit zu ermitteln, wird empfohlen, den erstellten oder aktualisierten Datums-/Uhrzeitwert aus der Datenbank zu extrahieren und mit dem Zeitstempel des nächsten Googlebot-Crawls der URL in den Server-Protokolldateien zu vergleichen.
Wenn dies nicht möglich ist, können Sie in Betracht ziehen, es anhand des Lastmod-Datums in den XML-Sitemaps zu berechnen und die relevanten URLs regelmäßig mit der URL-Inspektions-API der Search Console abzufragen, bis ein letzter Crawling-Status zurückgegeben wird.
Indem Sie die Zeitverzögerung zwischen Veröffentlichung und Crawling quantifizieren, können Sie die tatsächlichen Auswirkungen von Crawling-Optimierungen mit einer Metrik messen, die wichtig ist.
Je geringer die Crawling-Wirksamkeit ist, desto schneller werden neue oder aktualisierte SEO-relevante Inhalte Ihrem Publikum auf Google-Oberflächen angezeigt.
Wenn der Crawl-Wirksamkeitswert Ihrer Website zeigt, dass der Googlebotes dauert zu lange, um wichtige Inhalte zu besuchen. Was können Sie tun, um das Crawlen zu optimieren?
Suchmaschinenunterstützung für Crawling
In den letzten Jahren wurde viel darüber gesprochen, wie Suchmaschinen und ihre Partner sich auf die Verbesserung des Crawlings konzentrieren.
Schließlich ist es in ihrem besten Interesse. Effizienteres Crawlen verschafft ihnen nicht nur Zugang zu besseren Inhalten, um ihre Ergebnisse zu verbessern, sondern hilft auch dem Ökosystem der Welt, indem es Treibhausgase reduziert.
Der größte Teil des Gesprächs drehte sich um zwei APIs, die darauf abzielen, das Crawlen zu optimieren.
Die Idee ist, dass nicht Suchmaschinenspinnen entscheiden, was gecrawlt werden soll, sondern Websites relevante URLs über die API direkt an die Suchmaschinen senden können, um einen Crawl auszulösen.
Theoretisch können Sie damit nicht nur Ihre neuesten Inhalte schneller indizieren, sondern auch alte URLs effektiv entfernen, was derzeit von Suchmaschinen nicht gut unterstützt wird.
Nicht-Google-Unterstützung von IndexNow
Die erste API ist IndexNow. Dies wird von Bing, Yandex und Seznam unterstützt, aber vor allem nicht von Google. Es ist auch in viele SEO-Tools, CRMs und CDNs integriert, wodurch möglicherweise der Entwicklungsaufwand für die Nutzung von IndexNow reduziert wird.
Dies mag wie ein schneller Gewinn für SEO erscheinen, aber seien Sie vorsichtig.
Nutzt ein erheblicher Teil Ihrer Zielgruppe die von IndexNow unterstützten Suchmaschinen? Wenn nicht, kann das Auslösen von Crawls durch ihre Bots von begrenztem Wert sein.
Aber noch wichtiger ist, bewerten Sie, was die Integration in IndexNow für die Verbesserung der Servergewichtung im Vergleich zur Verbesserung der Crawling-Wirksamkeit für diese Suchmaschinen bedeutet. Es kann sein, dass die Kosten den Nutzen nicht wert sind.
Google-Unterstützung von der Indexing API
Die zweite ist die Google Indexing API. Google hat wiederholt erklärt, dass die API nur zum Crawlen von Seiten mit Jobposting- oder Broadcast-Event-Markup verwendet werden kann. Und viele haben das getestet und bewiesen, dass diese Aussage falsch ist.
Wenn Sie nicht konforme URLs an die Google Indexing API senden, werden Sie einen deutlichen Anstieg des Crawlings feststellen. Dies ist jedoch der perfekte Fall dafür, warum "Crawling-Budgetoptimierung" und Entscheidungen auf der Grundlage des Crawling-Umfangs falsch verstanden werden.
Denn bei nicht konformen URLs hat die Übermittlung keinen Einfluss auf die Indexierung. Und wenn Sie aufhören, darüber nachzudenken, macht das vollkommen Sinn.
Sie senden nur eine URL. Google crawlt die Seite schnell, um festzustellen, ob sie die angegebenen strukturierten Daten enthält.
Wenn ja, wird die Indizierung beschleunigt. Wenn nicht, wird es nicht. Google wird es ignorieren.
Der Aufruf der API für nicht konforme Seiten bewirkt also nichts anderes als unnötige Belastung Ihres Servers und verschwendet Entwicklungsressourcen ohne Gewinn.
Google-Unterstützung in der Google Search Console
Die andere Art, wie Google das Crawlen unterstützt, ist die manuelle Übermittlung in der Google Search Console.
Die meisten URLs, die auf diese Weise übermittelt werden, werden gecrawlt und ihr Indexstatus wird innerhalb einer Stunde geändert. Es gibt jedoch ein Kontingentlimit von 10 URLs innerhalb von 24 Stunden, daher ist das offensichtliche Problem bei dieser Taktik die Skalierung.
Dies bedeutet jedoch nicht, es zu ignorieren.
Sie können die Übermittlung von URLs, die Sie als vorrangig ansehen, über Skripte automatisieren, die Benutzeraktionen nachahmen, um das Crawlen und Indizieren für einige wenige Auserwählte zu beschleunigen.
Zu guter Letzt, für alle, die hoffen, dass das Klicken auf die Schaltfläche ‘Fix validieren’ bei ‘entdeckten, derzeit nicht indizierten’ Ausschlüssen das Crawlen auslöst, hat dies in meinen bisherigen Tests nichts dazu beigetragen, das Crawlen zu beschleunigen.
Wenn Suchmaschinen uns also nicht wesentlich helfen, wie können wir uns dann selbst helfen?
So erreichen Sie effizientes Site-Crawling
Es gibt fünf Taktiken, die die Crawling-Wirksamkeit beeinflussen können.
1. Stellen Sie eine schnelle, fehlerfreie Serverantwort sicher
Screenshot aus der Google Search Console, Mai 2023
Ein leistungsfähiger Server ist entscheidend. Es muss in der Lage sein, die Menge an Crawling zu bewältigen, die der Googlebot ausführen möchte, ohne negative Auswirkungen auf die Antwortzeit des Servers oder Fehler zu haben.
Überprüfen Sie, ob der Hoststatus Ihrer Website in der Google Search Console grün ist, dass 5xx-Fehler unter 1% liegen und die Serverantwortzeiten unter 300 Millisekunden liegen.
2. Wertlose Inhalte entfernen
Wenn ein erheblicher Teil des Inhalts einer Website von geringer Qualität, veraltet oder dupliziert ist, lenkt dies Crawler vom Besuch neuer oder kürzlich aktualisierter Inhalte ab und trägt zum Aufblähen des Index bei.
Der schnellste Weg, mit der Bereinigung zu beginnen, besteht darin, den Seitenbericht der Google Search Console auf den Ausschluss ‘Gecrawlt – zu überprüfen, der derzeit nicht indiziert ist.’
Suchen Sie im bereitgestellten Beispiel nach Ordnermustern oder anderen Problemsignalen. Für diejenigen, die Sie finden, beheben Sie das Problem, indem Sie ähnliche Inhalte mit einer 301-Weiterleitung zusammenführen oder Inhalte gegebenenfalls mit einer 404 löschen.
3. Weisen Sie den Googlebot an, was er nicht crawlen soll
Während rel=Canonical-Links und Noindex-Tags den Google-Index Ihrer Website effektiv sauber halten, kosten sie das Crawlen.
Obwohl dies manchmal notwendig ist, überlegen Sie, ob solche Seiten überhaupt gecrawlt werden müssen. Wenn nicht, stoppen Sie Google in der Crawling-Phase mit einem Roboter.txt nicht zulassen.
Finden Sie Fälle, in denen das Blockieren des Crawlers möglicherweise besser ist, als Anweisungen zur Indizierung zu geben, indem Sie im Bericht zur Abdeckung der Google Search Console nach Ausschlüssen von kanonischen oder Noindex-Tags suchen.
Überprüfen Sie auch die Stichprobe von ‘indizierten, nicht in der Sitemap eingereichten’ und ‘entdeckten – derzeit nicht indizierten’ URLs in der Google Search Console. Suchen und blockieren Sie nicht SEO-relevante Routen wie:
- Parameterseiten wie ?sortieren = älteste.
- Funktionale Seiten, wie z. B. „Warenkorb.“
- Unendliche Leerzeichen, z. B. solche, die von Kalenderseiten erstellt werden.
- Unwichtige Bilder, Skripte oder Stildateien.
- API-URLs.
Sie sollten auch überlegen, wie sich Ihre Paginierungsstrategie auf das Crawlen auswirkt.
4. Weisen Sie den Googlebot an, was wann gecrawlt werden soll
Eine optimierte XML-Sitemap ist ein effektives Werkzeug, um den Googlebot zu SEO-relevanten URLs zu führen.
Optimiert bedeutet, dass es dynamisch mit minimaler Verzögerung aktualisiert wird und das Datum und die Uhrzeit der letzten Änderung enthält, um Suchmaschinen darüber zu informieren, wann die Seite zuletzt erheblich geändert wurde und ob sie erneut gecrawlt werden sollte.
5. Unterstützung des Crawlings durch interne Links
Wir wissen, dass Crawling nur über Links erfolgen kann. XML-Sitemaps sind ein großartiger Ausgangspunkt. Externe Links sind leistungsstark, aber es ist schwierig, sie in großen Mengen bei hoher Qualität zu erstellen.
Interne Links hingegen sind relativ einfach zu skalieren und haben erhebliche positive Auswirkungen auf die Crawl-Wirksamkeit.
Konzentrieren Sie sich besonders auf die mobile siteweite Navigation, Breadcrumbs, Schnellfilter und zugehörige Inhaltslinks – Stellen Sie sicher, dass keine von Javascript abhängig sind.
Webcrawling optimieren
Ich hoffe, Sie stimmen zu: Website-Crawling ist grundlegend für SEO.
Und jetzt haben Sie einen echten KPI in der Crawl-Wirksamkeit, um Optimierungen zu messen – damit Sie Ihre organische Leistung auf die nächste Stufe heben können.