Optimieren Sie Ihre Website, damit Google Ihre Inhalte schneller findet und Ihre Inhalte indiziert, wodurch Ihre Website eine bessere Sichtbarkeit und Zugriffe erzielen kann.
Das Internet ist ein sich ständig weiterentwickelndes virtuelles Universum mit über 1,1 Milliarden Websites.
Glauben Sie, dass Google jede Website der Welt crawlen kann?
Selbst mit all den Ressourcen, dem Geld und den Rechenzentren, die Google hat, kann es nicht einmal das gesamte Web crawlen – noch will es.
Contents
- 1 Was ist das Crawl-Budget und ist es wichtig?
- 2 1. Bestimmen Sie, welche Seiten wichtig sind und welche nicht gecrawlt werden sollen
- 3 2. Doppelte Inhalte verwalten
- 4 3. Blockieren Sie das Crawlen unwichtiger URLs mithilfe von Robotern.txt und Google mitteilen, welche Seiten gecrawlt werden dürfen
- 5 4. Lange Weiterleitungsketten
- 6 5. HTML verwenden
- 7 6. Stellen Sie sicher, dass Ihre Webseiten schnell geladen werden und eine gute Benutzererfahrung bieten
- 8 7. Nützliche Inhalte haben
- 9 8. Achten Sie auf Crawling-Fehler
- 10 9. Sitemaps auf dem neuesten Stand halten
- 11 10. Bauen Sie eine gute Seitenstruktur auf
- 12 11. Interne Verlinkung
- 13 12. Überwachen Sie immer die Crawling-Statistiken
- 14 Abschluss
Was ist das Crawl-Budget und ist es wichtig?
Das Crawling-Budget bezieht sich auf die Zeit und die Ressourcen, die der Googlebot für das Crawlen von Webseiten in einer Domain aufwendet.
Es ist wichtig, Ihre Website zu optimieren, damit Google Ihre Inhalte schneller findet und Ihre Inhalte indiziert, wodurch Ihre Website eine bessere Sichtbarkeit und Zugriffe erzielen kann.
Wenn Sie eine große Website mit Millionen von Webseiten haben, ist es besonders wichtig, Ihr Crawling-Budget zu verwalten, damit Google Ihre wichtigsten Seiten crawlen und Ihre Inhalte besser verstehen kann.
Google gibt Folgendes an:
Wenn Ihre Website keine große Anzahl von Seiten enthält, die sich schnell ändern, oder wenn Ihre Seiten anscheinend am selben Tag gecrawlt werden, an dem sie veröffentlicht werden, reicht es aus, Ihre Sitemap auf dem neuesten Stand zu halten und Ihre Indexabdeckung regelmäßig zu überprüfen. Google gibt außerdem an, dass jede Seite überprüft, konsolidiert und bewertet werden muss, um festzustellen, wo sie nach dem Crawlen indiziert wird.
Das Crawl-Budget wird durch zwei Hauptelemente bestimmt: Crawl-Kapazitätsgrenze und Crawl-Nachfrage.
Die Crawl-Nachfrage gibt an, wie viel Google auf Ihrer Website crawlen möchte. Populärere Seiten, d. H. Eine beliebte Geschichte von CNN und Seiten, die erhebliche Änderungen erfahren, werden häufiger gecrawlt.
Der Googlebot möchte Ihre Website crawlen, ohne Ihre Server zu überlasten. Um dies zu verhindern, berechnet der Googlebot ein Crawling-Kapazitätslimit, das die maximale Anzahl gleichzeitiger paralleler Verbindungen angibt, die der Googlebot zum Crawlen einer Site verwenden kann, sowie die Zeitverzögerung zwischen den Abrufen.
Nimmt man Crawling-Kapazität und Crawl-Nachfrage zusammen, definiert Google das Crawl-Budget einer Website als die Menge von URLs, die der Googlebot crawlen kann und möchte. Selbst wenn das Crawling-Kapazitätslimit nicht erreicht wird, wird der Googlebot Ihre Website bei geringer Crawling-Nachfrage weniger crawlen.
Hier sind die 12 wichtigsten Tipps zum Verwalten des Crawling-Budgets für große bis mittlere Websites mit 10k bis Millionen von URLs.
1. Bestimmen Sie, welche Seiten wichtig sind und welche nicht gecrawlt werden sollen
Bestimmen Sie, welche Seiten wichtig sind und welche Seiten nicht so wichtig zu crawlen sind (und somit weniger häufig von Google besucht werden).
Sobald Sie dies durch Analyse festgestellt haben, können Sie sehen, welche Seiten Ihrer Website es wert sind, gecrawlt zu werden, und welche Seiten Ihrer Website es nicht wert sind, gecrawlt zu werden, und sie vom Crawlen ausschließen.
Zum Beispiel, Macys.com hat über 2 Millionen Seiten, die indiziert sind.
Der Googlebot könnte entscheiden, dass es sich nicht lohnt, sich den Rest Ihrer Website anzusehen oder Ihr Crawling-Budget zu erhöhen. Stellen Sie sicher, dass facettierte Navigations- und Sitzungskennungen: über Roboter blockiert werden.text
2. Doppelte Inhalte verwalten
Obwohl Google keine Strafe für doppelte Inhalte verhängt, möchten Sie dem Googlebot originelle und eindeutige Informationen zur Verfügung stellen, die den Informationsbedürfnissen des Endnutzers entsprechen und relevant und nützlich sind. Stellen Sie sicher, dass Sie die Roboter verwenden.txt-Datei.
Google hat angegeben, keinen Index zu verwenden, da es immer noch Anfragen, aber dann löschen wird.
3. Blockieren Sie das Crawlen unwichtiger URLs mithilfe von Robotern.txt und Google mitteilen, welche Seiten gecrawlt werden dürfen
Für eine Website auf Unternehmensebene mit Millionen von Seiten empfiehlt Google, das Crawlen unwichtiger URLs mit Robotern zu blockieren.txt.
Außerdem möchten Sie sicherstellen, dass Ihre wichtigen Seiten, Verzeichnisse, die Ihren goldenen Inhalt enthalten, und Geldseiten vom Googlebot und anderen Suchmaschinen gecrawlt werden dürfen.
4. Lange Weiterleitungsketten
Halten Sie die Anzahl der Weiterleitungen auf eine kleine Anzahl, wenn Sie können. Zu viele Weiterleitungen oder Weiterleitungsschleifen können Google verwirren und Ihr Crawling-Limit verringern.
Google gibt an, dass lange Weiterleitungsketten sich negativ auf das Crawling auswirken können.
5. HTML verwenden
Die Verwendung von HTML erhöht die Wahrscheinlichkeit, dass ein Crawler von einer Suchmaschine Ihre Website besucht.
Während Googlebots sich beim Crawlen und Indizieren von JavaScript verbessert haben, sind andere Suchmaschinen-Crawler nicht so ausgefeilt wie Google und haben möglicherweise Probleme mit anderen Sprachen als HTML.
6. Stellen Sie sicher, dass Ihre Webseiten schnell geladen werden und eine gute Benutzererfahrung bieten
Stellen Sie sicher, dass Ihre Website für die wichtigsten Webfunktionen optimiert ist.
Je schneller Ihre Inhalte geladen werden – d. H. Unter drei Sekunden – Desto schneller kann Google den Endnutzern Informationen zur Verfügung stellen. Wenn es ihnen gefällt, indiziert Google Ihre Inhalte weiterhin, da Ihre Website den Google Crawl-Zustand aufweist, wodurch sich Ihr Crawl-Limit erhöhen kann.
7. Nützliche Inhalte haben
Laut Google werden Inhalte unabhängig vom Alter nach Qualität bewertet. Erstellen und aktualisieren Sie Ihre Inhalte nach Bedarf, aber es hat keinen zusätzlichen Wert, Seiten künstlich frisch erscheinen zu lassen, indem Sie triviale Änderungen vornehmen und das Seitendatum aktualisieren.
Wenn Ihr Inhalt den Bedürfnissen der Endnutzer entspricht und dh hilfreich und relevant ist, spielt es keine Rolle, ob er alt oder neu ist.
Wenn Benutzer Ihre Inhalte nicht hilfreich und relevant finden, empfehle ich Ihnen, Ihre Inhalte zu aktualisieren und zu aktualisieren, um sie frisch, relevant und nützlich zu machen, und sie über soziale Medien zu bewerben.
Verlinken Sie Ihre Seiten auch direkt mit der Startseite, die möglicherweise als wichtiger angesehen und häufiger gecrawlt wird.
8. Achten Sie auf Crawling-Fehler
Wenn Sie einige Seiten auf Ihrer Website gelöscht haben, stellen Sie sicher, dass die URL einen 404- oder 410-Status für dauerhaft entfernte Seiten zurückgibt. Ein 404-Statuscode ist ein starkes Signal, diese URL nicht erneut zu crawlen.
Blockierte URLs bleiben jedoch viel länger Teil Ihrer Crawling-Warteschlange und werden neu gecrawlt, wenn die Blockierung entfernt wird.
- Außerdem gibt Google an, alle weichen 404-Seiten zu entfernen, die weiterhin gecrawlt werden und Ihr Crawl-Budget verschwenden. Um dies zu testen, gehen Sie zu GSC und überprüfen Sie Ihren Indexabdeckungsbericht auf weiche 404-Fehler.
Wenn Ihre Site viele 5xx HTTP-Antwortstatuscodes (Serverfehler) aufweist oder Verbindungs-Timeouts das Gegenteil signalisieren, verlangsamt sich das Crawlen. Google empfiehlt, den Crawling-Statistik-Bericht in der Search Console zu beachten und die Anzahl der Serverfehler auf ein Minimum zu beschränken.
Übrigens respektiert oder hält sich Google nicht an die nicht standardmäßigen „Crawl-Delay“ -Roboter.txt-Regel.
Selbst wenn Sie das Nofollow-Attribut verwenden, kann die Seite immer noch gecrawlt werden und das Crawling-Budget verschwenden, wenn eine andere Seite auf Ihrer Website oder eine andere Seite im Web den Link nicht als nofollow kennzeichnet.
9. Sitemaps auf dem neuesten Stand halten
XML-Sitemaps sind wichtig, damit Google Ihre Inhalte findet und die Dinge beschleunigen kann.
Es ist äußerst wichtig, dass Sie Ihre Sitemap-URLs auf dem neuesten Stand halten, das
- Fügen Sie nur URLs ein, die von Suchmaschinen indiziert werden sollen.
- Schließen Sie nur URLs ein, die einen 200-Statuscode zurückgeben.
- Stellen Sie sicher, dass eine einzelne Sitemap-Datei kleiner als 50 MB oder 50.000 URLs ist, und wenn Sie sich entscheiden, mehrere Sitemaps zu verwenden, erstellen Sie eine Index-Sitemap, die alle auflistet.
- Stellen Sie sicher, dass Ihre Sitemap UTF-8-codiert ist.
- Fügen Sie Links zu lokalisierten Versionen jeder URL hinzu. (Siehe Dokumentation von Google.)
- Halten Sie Ihre Sitemap auf dem neuesten Stand, d. H. Aktualisieren Sie Ihre Sitemap jedes Mal, wenn eine neue URL vorhanden ist oder eine alte URL aktualisiert oder gelöscht wurde.
10. Bauen Sie eine gute Seitenstruktur auf
Eine gute Seitenstruktur ist wichtig für Ihre SEO-Leistung für die Indizierung und die Benutzererfahrung.
Die Websitestruktur kann die Ergebnisse von Suchmaschinen-Ergebnisseiten (SERP) auf verschiedene Arten beeinflussen, einschließlich Crawlbarkeit, Klickrate und Benutzererfahrung.
Eine klare und lineare Struktur Ihrer Website kann Ihr Crawling-Budget effizient nutzen, was dem Googlebot hilft, neue oder aktualisierte Inhalte zu finden.
Denken Sie immer an die Drei-Klick-Regel, dh jeder Benutzer sollte in der Lage sein, mit maximal drei Klicks von einer beliebigen Seite Ihrer Website zu einer anderen zu gelangen.
11. Interne Verlinkung
Je einfacher Sie Suchmaschinen das Crawlen und Navigieren durch Ihre Website erleichtern können, desto einfacher können Crawler Ihre Struktur, Ihren Kontext und wichtige Inhalte identifizieren.
Interne Links, die auf eine Webseite verweisen, können Google darüber informieren, dass diese Seite wichtig ist, eine Informationshierarchie für die jeweilige Website einrichten und dazu beitragen, die Link-Gerechtigkeit auf Ihrer Website zu verbreiten.
12. Überwachen Sie immer die Crawling-Statistiken
Überprüfen und überwachen Sie GSC immer, um festzustellen, ob Ihre Website beim Crawlen Probleme aufweist, und suchen Sie nach Möglichkeiten, das Crawlen effizienter zu gestalten.
Sie können den Crawling-Statistik-Bericht verwenden, um zu sehen, ob der Googlebot Probleme beim Crawlen Ihrer Website hat.
Wenn in GSC Verfügbarkeitsfehler oder -warnungen für Ihre Website gemeldet werden, suchen Sie in den Hostverfügbarkeitsdiagrammen nach Fällen, in denen Googlebot-Anfragen die rote Grenzlinie überschritten haben, klicken Sie in das Diagramm, um zu sehen, welche URLs fehlgeschlagen sind, und versuchen Sie, diese mit Problemen auf Ihrer Website zu korrelieren.
Sie können auch das URL-Inspektionstool verwenden, um einige URLs auf Ihrer Website zu testen.
Wenn das URL-Überprüfungstool Hostlastwarnungen zurückgibt, bedeutet dies, dass der Googlebot nicht so viele URLs von Ihrer Website crawlen kann, wie er entdeckt hat.
Abschluss
Die Optimierung des Crawling-Budgets ist aufgrund ihrer umfangreichen Größe und Komplexität für große Websites von entscheidender Bedeutung.
Mit zahlreichen Seiten und dynamischen Inhalten stehen Suchmaschinen-Crawler vor der Herausforderung, die Inhalte der Website effizient und effektiv zu crawlen und zu indizieren.
Durch die Optimierung Ihres Crawling-Budgets können Websitebesitzer das Crawlen und Indizieren wichtiger und aktualisierter Seiten priorisieren und so sicherstellen, dass Suchmaschinen ihre Ressourcen sinnvoll und effektiv einsetzen.
Dieser Optimierungsprozess umfasst Techniken wie die Verbesserung der Website-Architektur, die Verwaltung von URL-Parametern, die Festlegung von Crawling-Prioritäten und die Beseitigung doppelter Inhalte, was zu einer besseren Sichtbarkeit in Suchmaschinen, einer verbesserten Benutzererfahrung und einem erhöhten organischen Traffic für große Websites führt.