Das Crawlen von Unternehmenswebsites hat die gesamte Komplexität eines normalen Crawlings plus mehrere zusätzliche Faktoren, die vor Beginn des Crawlings berücksichtigt werden müssen.
Die folgenden Ansätze zeigen, wie Sie ein groß angelegtes Crawling durchführen und die vorgegebenen Ziele erreichen können, unabhängig davon, ob es Teil einer laufenden Überprüfung oder eines Website-Audits ist .
Contents
- 1 1. Bereiten Sie die Website für das Crawling vor
- 2 2. Stellen Sie vollen Zugriff auf den Server sicher: Whitelist Crawler-IP
- 3 3. Crawlen außerhalb der Spitzenzeiten
- 4 4. Liegen Serverfehler vor?
- 5 5. Serverspeicher
- 6 6. Überprüfen Sie regelmäßig die Crawling-Daten
- 7 7. Konfigurieren Sie Ihren Crawler für Scale
- 8 8. Stellen Sie eine Verbindung zu einem schnellen Internet her
- 9 9. Cloud-Crawling
- 10 10. Teilweises Crawling
- 11 11. Gesamt-Snapshot: Begrenzte Crawls
- 12 12. Überblick über das Crawlen der Seitenstruktur
- 13 13. Umgang mit doppelten Seiten und kanonischen URLs
- 14 14. Sehen, was Google sieht
- 15 Bewältigen der Lernkurve
1. Bereiten Sie die Website für das Crawling vor
Eine wichtige Sache, die Sie vor dem Crawling berücksichtigen sollten, ist die Website selbst.
Es ist hilfreich, Probleme zu beheben, die ein Crawling verlangsamen können, bevor Sie mit dem Crawling beginnen.
Das mag kontraintuitiv klingen, etwas zu beheben, bevor es behoben wird, aber wenn es um wirklich große Websites geht, wird ein kleines Problem multipliziert mit fünf Millionen zu einem erheblichen Problem.
Adam Humphreys, der Gründer der Agentur für digitales Marketing Making 8 Inc., teilte eine clevere Lösung, die er verwendet, um zu identifizieren, was eine langsame TTFB (Zeit bis zum ersten Byte) verursacht, eine Metrik, die misst, wie reaktionsschnell ein Webserver ist.
Ein Byte ist eine Dateneinheit. Die TTFB ist also das Maß dafür, wie lange es dauert, bis ein einzelnes Datenbyte an den Browser übermittelt wird.
TTFB misst die Zeitspanne zwischen dem Empfang einer Dateianforderung durch einen Server und dem Zeitpunkt, zu dem dies der Fall ist das erste Byte wird an den Browser geliefert und liefert somit ein Maß dafür, wie schnell der Server ist.
Eine Möglichkeit, TTFB zu messen, besteht darin, eine URL in das Tool PageSpeed Insights von Google einzugeben, das auf der Lighthouse-Messtechnologie von Google basiert.
Screenshot vom PageSpeed Insights Tool, Juli 2022
Adam teilte mit: „Core Web Vitals zeigt daher höufig eine langsame TTFB für zu prückende Seiten an. Um einen wirklich genauen TTFB-Wert zu erhalten, kann man die rohe Textdatei, nur eine einfache Textdatei ohne HTML, die auf den Server geladen wird, mit der eigentlichen Website vergleichen.
Werfen Sie etwas Lorem ipsum oder so etwas auf einen Text Datei hochladen und dann die TTFB messen. Die Idee ist, Server-Antwortzeiten in TTFB zu sehen und dann zu isolieren, welche Ressourcen auf der Seite die Latenz verursachen.
Meistens sind es übermäßige Plugins, die die Leute lieben. Ich aktualisiere Lighthouse in Inkognito und web.dev/measure, um die Messungen zu mitteln. Wenn ich 30 bis 50 Plug-ins oder tonnenweise JavaScript im Quellcode sehe, ist das fast ein unmittelbares Problem, bevor überhaupt mit dem Crawlen begonnen wird.“
Wenn Adam sagt, dass er die Lighthouse-Scores aktualisiert, meint er damit, dass er die URL mehrmals testet, weil jeder Test ein etwas anderes Ergebnis ergibt (was darauf zurückzuführen ist, dass die Geschwindigkeit, mit der Daten durch das Internet geleitet werden sich ständig ändert, genau wie sich die Geschwindigkeit des Verkehrs ständig ändert).
Also sammelt Adam mehrere TTFB-Werte und mittelt sie, um einen endgültigen Wert zu erhalten, der ihm dann sagt, wie reaktionsschnell ein Web ist Server ist.
Wenn der Server nicht reagiert, kann das Tool PageSpeed Insights eine Vorstellung davon liefern, warum der Server nicht reagiert und was behoben werden muss.
2. Stellen Sie vollen Zugriff auf den Server sicher: Whitelist Crawler-IP
Firewalls und CDNs (Content Delivery Networks) können das Crawlen einer Website durch eine IP blockieren oder verlangsamen.
Daher ist es wichtig, alle Sicherheits-Plug-ins, Intrusion-Prevention-Software auf Serverebene und CDNs zu identifizieren, die ein Site-Crawling behindern könnten.
Typische WordPress-Plug-ins zum Hinzufügen einer IP zur Whitelist sind Sucuri Web Application Firewall ( WAF) und Wordfence.
3. Crawlen außerhalb der Spitzenzeiten
Das Crawlen einer Website sollte idealerweise unaufdringlich sein.
Im besten Fall sollte ein Server in der Lage sein, aggressiv gecrawlt zu werden und gleichzeitig Webseiten bereitzustellen für tatsächliche Website-Besucher.
Andererseits könnte es aber auch nützlich sein zu testen, wie gut der Server unter Last reagiert.
Hier sind Echtzeitanalysen oder Serverlog-Zugriffe hilfreich, da man sofort sehen kann, wie der Server crawlt kann die Website-Besucher beeinträchtigen, obwohl die Crawling-Geschwindigkeit und 503 Serverantworten sind ebenfalls ein Hinweis darauf, dass der Server unter Druck steht.
Wenn es tatsächlich der Fall ist, dass der Server sich anstrengt, um Schritt zu halten, notieren Sie sich diese Antwort und crawlen Sie die Site außerhalb der Spitzenzeiten.
Ein CDN sollte auf jeden Fall die Auswirkungen eines Angriffs abschwächen kriechen.
4. Liegen Serverfehler vor?
Der Crawling-Statistikbericht der Google Search Console sollte der erste Ort sein, an dem Sie recherchieren können, ob der Server Probleme hat, Seiten an den Googlebot zu liefern.
Irgendwelche Probleme in den Crawling-Statistiken Der Bericht sollte die Ursache identifiziert und behoben haben, bevor eine Website auf Unternehmensebene gecrawlt wird.
Serverfehlerprotokolle sind eine Goldgrube an Daten, die eine Vielzahl von Fehlern aufdecken können, die sich darauf auswirken können, wie gut eine Website gecrawlt wird. Von besonderer Bedeutung ist die Möglichkeit, ansonsten unsichtbare PHP-Fehler zu debuggen.
5. Serverspeicher
Vielleicht wird die Menge an RAM (Random Access Memory) eines Servers nicht routinemäßig für SEO berücksichtigt.
RAM ist wie ein Kurzzeitgedächtnis, a Ort, an dem ein Server Informationen speichert, die er verwendet, um Website-Besuchern Webseiten bereitzustellen.
Ein Server mit unzureichendem RAM wird langsam.
Wenn also ein Server während eines Crawlings langsam wird oder ein Crawling nicht bewältigen kann, könnte dies ein SEO-Problem sein, das sich darauf auswirkt, wie gut Google Webseiten crawlen und indexieren kann.
Sehen Sie sich an, wie viel RAM der Server hat.
Ein VPS (Virtual Private Server) benötigt möglicherweise mindestens 1 GB RAM.
Es können jedoch 2 GB bis 4 GB RAM sein empfohlen, wenn es sich bei der Website um einen Online-Shop mit hohem Traffic handelt.
Mehr RAM ist im Allgemeinen besser.
Wenn der Server über ausreichend RAM verfügt, der Server jedoch langsamer wird, liegt das Problem möglicherweise an einem anderen Problem, beispielsweise an der Software (oder einem Plug-in), die ineffizient ist und übermäßige Speicheranforderungen verursacht.
6. Überprüfen Sie regelmäßig die Crawling-Daten
Halten Sie Ausschau nach Crawling-Anomalien, während die Website gecrawlt wird.
Manchmal kann der Crawler melden, dass der Server nicht in der Lage war, auf eine Anfrage für ein Web zu antworten Seite, wodurch so etwas wie eine 503-Server-Antwortnachricht „Dienst nicht verfügbar“ generiert wird.
Daher ist es sinnvoll, das Crawling anzuhalten und zu prüfen, was möglicherweise behoben werden muss, um mit einem Crawling fortzufahren, das nützlichere Informationen liefert.
Manchmal geht es nicht bis zum Ende des Crawls, das ist das Ziel.
Der Crawl selbst ist ein wichtiger Datenpunkt, also seien Sie nicht frustriert, dass der Crawl angehalten werden muss, um etwas zu beheben, denn die Entdeckung ist eine gute Sache .
7. Konfigurieren Sie Ihren Crawler für Scale
Ein Crawler wie Screaming Frog kann standardmäßig auf Geschwindigkeit eingestellt werden, was wahrscheinlich für die Mehrheit der Benutzer großartig ist. Aber es muss angepasst werden, damit es eine große Website mit Millionen von Seiten crawlen kann.
Screaming Frog verwendet RAM für das Crawlen, was für eine normale Website großartig ist, aber für ein Unternehmen weniger gut ist -große Website.
Dieses Manko lässt sich leicht beheben, indem Sie die Speichereinstellungen in Screaming Frog anpassen.
Dies ist der Menüpfad zum Anpassen der Speichereinstellungen:
Konfiguration > System > Speicher > Datenbankspeicherung
Wenn möglich, wird dringend empfohlen (aber nicht unbedingt erforderlich), eine interne SSD-Festplatte (Solid-State-Laufwerk) zu verwenden.
Die meisten Computer verwenden eine Standardfestplatte mit beweglichen Teilen innen.
Eine SSD ist die fortschrittlichste Form von Festplatte, die Daten mit 10- bis 100-mal schnellerer Geschwindigkeit als eine normale Festplatte übertragen kann.
Die Verwendung eines Computers mit SSD-Ergebnissen trägt dazu bei, ein erstaunlich schnelles Crawling zu erreichen, das für das effiziente Herunterladen von Millionen von Webseiten erforderlich ist.
Um ein optimales Crawling zu gewährleisten, müssen 4 GB RAM zugewiesen werden und nicht mehr mehr als 4 GB für ein Crawling von bis zu 2 Millionen URLs.
Für Crawlings von bis zu 5 Millionen URLs wird empfohlen, 8 GB RAM zuzuweisen.
Adam Humphreys teilte: „Das Crawlen von Websites ist unglaublich ressourcenintensiv und erfordert viel Arbeitsspeicher. Ein dedizierter Desktop oder das Mieten eines Servers ist eine viel schnellere Methode als ein Laptop.
Ich habe einmal fast zwei Wochen damit verbracht, auf den Abschluss eines Crawls zu warten. Daraus habe ich gelernt und Partner dazu gebracht, Remote-Software zu entwickeln, sodass ich jederzeit und überall Audits durchführen kann.“
8. Stellen Sie eine Verbindung zu einem schnellen Internet her
Wenn Sie Ihr Büro verlassen, ist es von größter Bedeutung, die schnellstmögliche Internetverbindung zu verwenden.
Die Verwendung des schnellsten verfügbaren Internets kann den Unterschied ausmachen zwischen a Crawling, das Stunden dauert, zu einem Crawling, das Tage dauert.
Im Allgemeinen ist das schnellste verfügbare Internet über eine Ethernet-Verbindung und nicht über eine Wi-Fi-Verbindung.
Wenn Ihr Internetzugang über Wi-Fi erfolgt, ist es immer noch möglich, eine Ethernet-Verbindung herzustellen, indem Sie umziehen ein Laptop oder Desktop näher am Wi-Fi-Router, der Ethernet-Anschlüsse auf der Rückseite enthält.
Dies scheint einer dieser „es versteht sich von selbst“ Ratschläge, die aber leicht zu übersehen sind, da die meisten Leute standardmäßig Wi-Fi verwenden, ohne wirklich darüber nachzudenken, wie viel schneller es wäre, den Computer mit einem Ethernet-Kabel direkt mit dem Router zu verbinden.
9. Cloud-Crawling
Eine weitere Option, insbesondere für außergewöhnlich große und komplexe Site-Crawls von über 5 Millionen Webseiten, kann das Crawlen von einem Server die beste Option sein.
Alle normalen Einschränkungen von einem Desktop aus Crawl sind bei Verwendung eines Cloud-Servers deaktiviert.
Ash Nallawalla, Experte für Unternehmens-SEO und Autor, hat über 20 Jahre Erfahrung in der Zusammenarbeit mit einigen der weltweit größten Unternehmen für Unternehmenstechnologie.
Also habe ich ihn gefragt, wie er Millionen von Seiten crawlen kann.
Er antwortete, dass er das Crawlen aus der Cloud für Websites mit über 5 Millionen URLs empfiehlt.
Ash teilte mit: „Das Crawlen riesiger Websites erfolgt am besten in der Cloud. Ich mache bis zu 5 Millionen URIs mit Screaming Frog auf meinem Laptop im Datenbankspeichermodus, aber unsere Websites haben viel mehr Seiten, also führen wir virtuelle Maschinen in der Cloud aus, um sie zu crawlen.
Unsere Inhalte sind bei Scrapern aus wettbewerbsorientierten Datenintelligenzgründen beliebt, mehr noch als das Kopieren der Artikel für ihren Textinhalt.
Wir verwenden Firewall-Technologie, um zu verhindern, dass jemand zu viele Seiten mit hoher Geschwindigkeit sammelt. Es ist gut genug, um Scraper zu erkennen, die im sogenannten „menschlichen Emulationsmodus“ arbeiten. Daher können wir nur IP-Adressen auf der Whitelist und eine weitere Authentifizierungsebene crawlen.“
Adam Humphreys stimmte dem Rat zu, aus der Cloud zu crawlen.
Er sagte: „Das Crawlen von Websites ist unglaublich ressourcenintensiv und erfordert viel Arbeitsspeicher. Ein dedizierter Desktop oder das Mieten eines Servers ist eine viel schnellere Methode als ein Laptop. Ich habe einmal fast zwei Wochen damit verbracht, auf den Abschluss eines Crawls zu warten.
Ich habe daraus gelernt und Partner dazu gebracht, Remote-Software zu entwickeln Über die Cloud kann ich jederzeit und überall Audits durchführen.“
10. Teilweises Crawling
Eine Technik zum Crawlen großer Websites besteht darin, die Site in Teile zu unterteilen und jeden Teil der Reihenfolge nach zu crawlen, sodass das Ergebnis eine Schnittansicht der Website ist.
Eine andere Möglichkeit, einen Teilcrawl durchzuführen, besteht darin, die Website in Teile zerlegen und kontinuierlich crawlen, sodass die Momentaufnahme jedes Abschnitts nicht nur auf dem neuesten Stand gehalten wird, sondern auch alle an der Website vorgenommenen Änderungen sofort angezeigt werden können.
Also statt eines fortlaufenden Update-Crawls der gesamten Website, führen Sie einen teilweisen Crawl der gesamten Website basierend auf der Zeit durch.
Dies ist ein Ansatz, den Ash dringend empfiehlt.
Ash erklärt: „Ich habe die ganze Zeit ein Crawling. Ich betreibe gerade eine für eine Produktmarke. Es ist so konfiguriert, dass das Crawlen beim Standardlimit von 5 Millionen URLs beendet wird.“
Als ich ihn nach dem Grund für ein kontinuierliches Crawlen fragte, sagte er, dies liege an Problemen, die außerhalb seiner Kontrolle liegen und bei Unternehmen auftreten können dieser Größe, an der viele Interessengruppen beteiligt sind.
Ash sagte: „In meiner Situation suche ich laufend nach bekannten Problemen in einem bestimmten Bereich.“
11. Gesamt-Snapshot: Begrenzte Crawls
Eine Möglichkeit, einen allgemeinen Überblick über das Aussehen einer Website zu erhalten, besteht darin, das Crawlen auf nur eine Stichprobe der Website zu beschränken.
Das ist auch so nützlich für Competitive Intelligence Crawls.
Zum Beispiel habe ich bei einem Your Money Or Your Life-Projekt, an dem ich gearbeitet habe, etwa 50.000 Seiten von der Website eines Konkurrenten gecrawlt, um zu sehen, auf welche Art von Websites sie verlinken.
Ich habe diese Daten verwendet, um den Kunden davon zu überzeugen, dass seine ausgehenden Verlinkungsmuster schlecht waren, und ihm die qualitativ hochwertigen Websites gezeigt, auf die seine hochrangigen Konkurrenten verlinken.
Manchmal kann ein begrenztes Crawling also genug von a bringen bestimmte Art von Daten, um sich einen Überblick über den Zustand der gesamten Website zu verschaffen.
12. Überblick über das Crawlen der Seitenstruktur
Manchmal muss man nur die Seitenstruktur verstehen.
Um dies schneller zu tun, kann man den Crawler so einstellen, dass externe Links und interne Bilder nicht gecrawlt werden.
Es gibt andere Crawler-Einstellungen, die deaktiviert werden können, um ein schnelleres Crawlen zu erzeugen, sodass sich der Crawler nur darauf konzentriert, die URL und die Linkstruktur herunterzuladen.
13. Umgang mit doppelten Seiten und kanonischen URLs
Sofern es keinen Grund für die Indexierung doppelter Seiten gibt, kann es hilfreich sein, den Crawler so einzustellen, dass URL-Parameter und andere URLs, die Duplikate einer kanonischen URL sind, ignoriert werden.
Es ist möglich, einen Crawler so einzustellen, dass nur kanonische Seiten gecrawlt werden. Aber wenn jemand paginierte Seiten so einstellt, dass sie auf die erste Seite in der Sequenz kanonisiert werden, werden Sie diesen Fehler nie entdecken.
Aus einem ähnlichen Grund, zumindest beim anfänglichen Crawling, sollten Sie noindex-Tags missachten um Instanzen der noindex-Direktive auf Seiten zu identifizieren, die indexiert werden sollen.
14. Sehen, was Google sieht
Wie Sie sicherlich bemerkt haben, gibt es viele verschiedene Möglichkeiten, eine Website zu crawlen, die aus Millionen von Webseiten besteht.
Ein Crawl-Budget gibt an, wie viele Ressourcen Google für das Crawlen einer Website für die Indexierung aufwendet.
Je mehr Webseiten erfolgreich indexiert werden, desto mehr Seiten haben die Möglichkeit, einen Rang einzunehmen.
Kleine Websites haben dies nicht Ich muss mich wirklich um das Crawl-Budget von Google kümmern.
Aber die Maximierung des Crawl-Budgets von Google ist eine Priorität für Unternehmenswebsites.
In dem oben dargestellten vorherigen Szenario habe ich davon abgeraten noindex-Tags.
Nun, für diese Art von Crawling sollten Sie eigentlich noindex-Anweisungen befolgen, da das Ziel für diese Art von Crawling darin besteht, einen Schnappschuss der Website zu erhalten, der Ihnen sagt, wie Google die gesamte Website selbst sieht.
Google-Suche Die Konsole bietet viele Informationen, aber wenn Sie selbst eine Website mit einem als Google getarnten User-Agent crawlen, können Sie nützliche Informationen erhalten, die dazu beitragen können, dass mehr der richtigen Seiten indexiert werden, während Sie herausfinden, für welche Seiten Google möglicherweise das Crawl-Budget verschwendet.
Für diese Art von Crawling ist es wichtig, den Crawler-User-Agent auf Googlebot einzustellen, den Crawler so einzustellen, dass er der robots.txt-Datei gehorcht, und den Crawler so einzustellen, dass er der noindex-Anweisung gehorcht.
Auf diese Weise, wenn die Website so eingestellt ist, dass bestimmte Seitenelemente dem Googlebot nicht angezeigt werden, können Sie eine Karte der Website so sehen, wie Google sie sieht.
Dies ist eine großartige Möglichkeit, potenzielle Probleme zu diagnostizieren, z gecrawlt, aber übersehen werden.
Bei anderen Websites findet Google möglicherweise den Weg zu Seiten, die für die Nutzer nützlich sind, von Google jedoch als minderwertig wahrgenommen werden, z. B. Seiten mit Anmeldeformularen.
Das Crawlen mit dem Google-Benutzeragenten ist hilfreich, um zu verstehen, wie Google die Website sieht, und hilft, das Crawl-Budget zu maximieren.
Bewältigen der Lernkurve
Man kann crawlen Unternehmens-Websites und lernen Sie, wie man sie auf die harte Tour crawlt. Diese vierzehn Tipps sollten Ihnen hoffentlich etwas Zeit beim Lernen ersparen und Sie besser darauf vorbereiten, es mit diesen Unternehmenskunden mit gigantischen Websites aufzunehmen.