Können Sie es kaum erwarten, dass Ihre neuen Inhalte indexiert werden?
Erfahren Sie, warum es so schwierig ist, abzuschätzen, wie lange die Indexierung dauern kann, und was Sie tun können, um den Vorgang zu beschleunigen.
Indizierung ist der Vorgang, bei dem Informationen von Ihrer Website heruntergeladen und kategorisiert werden , und in einer Datenbank speichern. Diese Datenbank – der Google-Index – ist die Quelle aller Informationen, die Sie über die Google-Suche finden können.
Seiten, die nicht im Index enthalten sind, können nicht in den Suchergebnissen erscheinen, egal wie gut sie einer bestimmten Suchanfrage entsprechen.
Nehmen wir an, Sie haben kürzlich eine neue Seite zu Ihrem Blog hinzugefügt. In Ihrem neuen Beitrag diskutieren Sie ein Trendthema in der Hoffnung, dass es Ihnen viel neuen Traffic bescheren wird.
Aber bevor Sie sehen können, wie die Seite in der Google-Suche abschneidet, müssen Sie darauf warten indexiert werden.
Und wie lange dauert dieser Vorgang genau? Und wann sollten Sie sich Sorgen machen, dass die fehlende Indexierung auf technische Probleme auf Ihrer Website hinweisen könnte?
Lassen Sie uns nachforschen!
Contents
Wie lange dauert die Indexierung? Experten’ Beste Schätzungen
Der Google-Index enthält Hunderte von Milliarden Webseiten und nimmt über 100 Millionen Gigabyte Speicherplatz ein.
Außerdem begrenzt Google nicht, wie viele Seiten auf einer Website angezeigt werden können indiziert werden. Während einige Seiten in der Indizierungswarteschlange möglicherweise Priorität haben, müssen Seiten im Allgemeinen nicht um die Indizierung konkurrieren.
In dieser kolossalen Datenbank sollte noch Platz für eine weitere kleine Seite sein, oder? Sie brauchen sich um Ihren Blogeintrag keine Sorgen zu machen? Leider müssen Sie das möglicherweise tun.
Google gibt zu, dass nicht jede Seite, die von seinen Crawlern verarbeitet wird, indexiert wird.
Im Januar 2021 ging Google Search Advocate, John Mueller, näher auf das Thema ein , und gab bekannt, dass es ziemlich normal ist, dass Google nicht alle Seiten einer großen Website indexiert.
Er erklärte, dass die Herausforderung für Google darin bestehe, so viele Inhalte wie möglich zu indexieren und abzuschätzen, ob es wird für Suchmaschinennutzer nützlich sein.
Daher ist es in vielen Fällen die strategische Entscheidung von Google, einen bestimmten Inhalt nicht zu indizieren.
Google möchte nicht, dass sein Index Seiten mit geringer Qualität, doppelten Inhalten oder Seiten enthält, die wahrscheinlich nicht aufgerufen werden für von Benutzern. Der beste Weg, um Spam aus den Suchergebnissen fernzuhalten, besteht darin, ihn nicht zu indexieren.
Aber solange Sie Ihre Blogposts wertvoll und nützlich halten, werden sie trotzdem indexiert, richtig?
Die Antwort ist kompliziert.
Tomek Rudzki, Indizierungsexperte bei Onely – ein Unternehmen, für das ich arbeite – berechnet, dass durchschnittlich 16 % der wertvollen und indexierbaren Seiten auf beliebten Websites niemals indexiert werden.
Gibt es eine Garantie, dass Ihre Seite indexiert wird?
Wie Sie es vielleicht schon getan haben Wie aus dem Titel dieses Artikels erraten wird, gibt es keine endgültige Antwort auf diese Indexierungsfrage.
Sie können sich selbst keine Kalendererinnerung an den Tag festlegen, an dem Ihr Blogeintrag indexiert werden soll.
Aber viele Leute haben die gleiche Frage schon einmal gestellt und Googler und erfahrene SEO-Profis aufgefordert, einige Hinweise zu geben.
John Mueller sagt, dass es zwischen mehreren Stunden und mehreren Wochen dauern kann, bis eine Seite indexiert ist. Er vermutet, dass die meisten guten Inhalte innerhalb von etwa einer Woche aufgegriffen und indexiert werden.
Untersuchungen von Rudzki haben gezeigt, dass durchschnittlich 83 % der Seiten innerhalb der ersten Woche nach der Veröffentlichung indexiert werden.
Einige Seiten müssen bis zu acht Wochen warten, bis sie indexiert werden. Dies gilt natürlich nur für Seiten, die letztendlich indexiert werden.
Crawling-Nachfrage und Crawling-Budget
Damit eine neue Seite in Ihrem Blog entdeckt und indexiert werden kann, muss der Googlebot erneut crawlen das Blog.
Wie oft der Googlebot Ihre Website neu crawlt, wirkt sich sicherlich darauf aus, wie schnell Ihre neue Seite indexiert wird, und das hängt von der Art des Inhalts und der Häufigkeit ab, mit der sie aktualisiert wird.
Nachrichtenseiten, die sehr oft neue Inhalte veröffentlichen, müssen häufig neu gecrawlt werden. Wir können sagen, dass es sich um Websites mit hoher Crawl-Nachfrage handelt.
Ein Beispiel für eine Website mit geringer Crawl-Nachfrage wäre eine Website über die Geschichte der Schmiedekunst, da ihr Inhalt wahrscheinlich nicht sehr häufig aktualisiert wird.
Google bestimmt automatisch, ob die Website einen niedrigen oder hohen Crawl-Bedarf hat. Beim anfänglichen Crawling überprüft es, worum es auf der Website geht und wann sie zuletzt aktualisiert wurde.
Die Entscheidung, die Seite mehr oder weniger oft zu crawlen, hat nichts mit der Qualität des Inhalts zu tun – entscheidend ist die geschätzte Häufigkeit der Updates.
Der zweite wichtige Faktor ist die Crawling-Rate. Es ist die Anzahl der Anfragen, die der Googlebot stellen kann, ohne Ihren Server zu überlasten.
Wenn Sie Ihr Blog auf einem Server mit geringer Bandbreite hosten und der Googlebot feststellt, dass der Server langsamer wird, passt er die Anzahl an und reduziert die Crawl-Rate.
Andererseits, wenn die Website schnell antwortet, steigt das Limit und der Googlebot kann mehr URLs crawlen.
Was muss passieren, bevor Ihre Seite indexiert wird?
Da die Indizierung Zeit braucht, kann man sich auch fragen – Wie genau wird diese Zeit aufgewendet?
Wie werden die Informationen Ihrer Website kategorisiert und in den Google-Index aufgenommen?
Lassen Sie uns die Ereignisse besprechen, die vor der Indexierung stattfinden müssen.
Content Discovery
Kehren wir zu dem Beispiel zurück, in dem Sie einen neuen Blogeintrag gepostet haben. Der Googlebot muss die URL dieser Seite im ersten Schritt der Indizierungspipeline ermitteln.
Dies kann geschehen durch:
- Internen Links folgen, die Sie auf anderen Seiten Ihres Blogs bereitgestellt haben.
- Externen Links folgen, die von Personen erstellt wurden, die Ihre neuen Inhalte nützlich fanden.
- Durchsuchen einer XML-Sitemap, die Sie in die Google Search Console hochgeladen haben.
Die Tatsache, dass die Seite entdeckt wurde, bedeutet, dass Google über ihre Existenz und URL Bescheid weiß.
Crawling
Crawling ist der Prozess des Aufrufens der URL und des Abrufens der Seiteninhalte.
Während des Crawlens sammelt der Googlebot Informationen über das Hauptthema einer bestimmten Seite, welche Dateien diese Seite enthält, welche Schlüsselwörter darauf erscheinen usw.
Nachdem Links auf einer Seite gefunden wurden, folgt der Crawler ihnen zur nächsten Seite, und der Kreislauf geht weiter.
Es ist wichtig, sich daran zu erinnern, dass der Googlebot die von robots.txt festgelegten Regeln befolgt, damit er keine Seiten crawlt, die durch die Anweisungen blockiert werden, die Sie in dieser Datei angeben.
Rendering
Screenshot von der Google Search Console, September 2022
Das Rendern muss erfolgen, damit der Googlebot sowohl den JavaScript-Inhalt als auch Bilder, Audio- und Videodateien versteht.
Diese Dateitypen waren für Google schon immer ein größerer Kampf als HTML .
Googles Entwickleranwalt Martin Splitt verglich das Rendern mit dem Kochen eines Gerichts.
In dieser Metapher ist die anfängliche HTML-Datei einer Website mit Links zu anderen Inhalten ein Rezept. Sie können F12 auf Ihrer Tastatur drücken, um es in Ihrem Browser anzuzeigen.
Alle Ressourcen der Website, wie CSS, JavaScript-Dateien, Bilder und Videos, sind die Zutaten, die erforderlich sind, um der Website ihr endgültiges Aussehen zu verleihen aussehen.
Wenn die Website diesen Zustand erreicht, haben Sie es mit dem gerenderten HTML-Code zu tun, der häufiger als Document Object Model bezeichnet wird.
Martin sagte auch, dass die Ausführung von JavaScript die allererste Rendering-Phase ist, da JavaScript wie ein Rezept innerhalb eines Rezepts funktioniert.
In der nicht allzu fernen Vergangenheit hat der Googlebot verwendet, um die anfängliche HTML-Version einer Seite zu indizieren und Lassen Sie das Rendering von JavaScript aufgrund der Kosten und des Zeitaufwands des Prozesses zu spät.
Die SEO-Branche bezeichnete dieses Phänomen als „die zwei Wellen der Indexierung“
Allerdings scheinen die beiden Wellen jetzt nicht mehr nötig zu sein.
Mueller und Splitt gaben zu, dass heutzutage fast jede neue Website standardmäßig die Rendering-Phase durchläuft.
Eines der Ziele von Google ist es, Crawling, Rendering und Indexierung enger zusammenzubringen.
Können Sie Ihre Seite schneller indexieren lassen?
Sie können Google nicht zwingen, Ihre neue Seite zu indexieren.
Wie schnell dies geschieht, liegt ebenfalls außerhalb Ihrer Kontrolle. Sie können Ihre Seiten jedoch so optimieren, dass das Entdecken und Crawlen so reibungslos wie möglich ablaufen.
Hier ist, was Sie tun müssen:
Stellen Sie sicher, dass Ihre Seite indexierbar ist
Es gibt zwei wichtige Regeln, die Sie befolgen müssen, damit Ihre Seiten indexierbar bleiben:
- Sie sollten es vermeiden, sie durch robots.txt oder die noindex-Direktive zu blockieren.
- Sie sollten die kanonische Version markieren eines bestimmten Inhaltsstücks mit einem kanonischen Tag.
Robots.txt ist eine Datei, die Anweisungen für Roboter enthält, die Ihre Website besuchen.
Sie können sie verwenden, um anzugeben, welche Crawler dürfen bestimmte Seiten oder Ordner nicht besuchen. Alles, was Sie tun müssen, ist die Disallow-Direktive zu verwenden.
Wenn Sie beispielsweise nicht möchten, dass Robots Seiten und Dateien im Ordner mit dem Titel „Beispiel” Ihre robots.txt-Datei sollte die folgenden Anweisungen enthalten:
User-Agent: * Disallow: /example/
Manchmal ist es möglich, den Googlebot versehentlich daran zu hindern, wertvolle Seiten zu indizieren.
Wenn Sie befürchten, dass Ihre Seite aufgrund technischer Probleme nicht indexiert wird, sollten Sie unbedingt einen Blick in Ihre robots.txt werfen.
Der Googlebot ist höflich und übergibt keine Seite, die ihm verboten wurde, an die Indizierungspipeline. Eine Möglichkeit, einen solchen Befehl auszudrücken, besteht darin, eine noindex-Anweisung einzufügen in:
- X-Robots-tag in der HTTP-Header-Antwort der URL Ihrer Seite.
- Meta robots-Tag im <head> Abschnitt Ihrer Seite.
Stellen Sie sicher, dass diese Anweisung nicht auf Seiten erscheint, die indexiert werden sollten.
Wie bereits erwähnt, möchte Google die Indizierung von doppelten Inhalten vermeiden . Wenn es zwei Seiten findet, die wie Kopien voneinander aussehen, wird wahrscheinlich nur eine davon indiziert.
Das kanonische Tag wurde erstellt, um Missverständnisse zu vermeiden und den Googlebot sofort auf die URL zu leiten, die der Websitebesitzer für die Originalversion der Seite hält.
Denken Sie daran, dass der Quellcode einer Seite, die Sie haben möchten, vorhanden sein muss im Google-Index sollte nicht auf eine andere Seite als kanonisch verweisen.
Eine Sitemap einreichen
Eine Sitemap listet alle URLs Ihrer Website auf, die Sie indexieren möchten (bis zu 50.000).
Sie können sie an die Google Search Console senden, damit Google die Sitemap schneller findet.
Mit einer Sitemap erleichtern Sie es dem Googlebot, Ihre Seiten zu finden, und erhöhen die Wahrscheinlichkeit, dass er die Seiten crawlt, die er gefunden hat. nicht finden, wenn Sie internen Links folgen.
Es empfiehlt sich, in Ihrer robots.txt-Datei auf die Sitemap zu verweisen.
Bitten Sie Google, Ihre Seiten erneut zu crawlen
Screenshot aus der Google Search Console, September 2022
Mit dem in der Google Search Console verfügbaren URL-Inspektionstool können Sie ein Crawling einzelner URLs anfordern.
Es garantiert immer noch keine Indexierung, und Sie brauchen etwas Geduld, aber es ist eine weitere Möglichkeit, um sicherzustellen, dass Google weiß, dass Ihre Seite existiert.
Wenn relevant, verwenden Sie die Indexierungs-API von Google
Die Indexierungs-API ist ein Tool damit Sie Google über neu hinzugefügte Seiten benachrichtigen können.
Dank dieses Tools kann Google die Indizierung von zeitkritischen Inhalten effizienter planen.
Leider können Sie es nicht für Ihre Blog-Posts verwenden, da dieses Tool derzeit nur für Seiten mit Job gedacht ist Angebote und Live-Videos.
Während einige SEO-Profis die Indizierungs-API für andere Arten von Seiten verwenden – und es könnte kurzfristig funktionieren – es ist zweifelhaft, ob es langfristig eine praktikable Lösung bleibt.
Verhindern Sie die Serverüberlastung auf Ihrer Website
Denken Sie schließlich daran, für eine ausreichende Bandbreite Ihres Servers zu sorgen, damit der Googlebot die Crawling-Rate für Ihre Website nicht verringert.
Vermeiden Sie die Verwendung von Shared-Hosting-Anbietern und denken Sie daran, Ihren Server regelmäßig einem Stresstest zu unterziehen, um dies sicherzustellen kann die Aufgabe bewältigen.
Zusammenfassung
Es ist unmöglich, genau vorherzusagen, wie lange es dauern wird, bis Ihre Seite indexiert ist (oder ob dies jemals geschehen wird), da Google dies nicht tut’ t alle verarbeiteten Inhalte indizieren.
In der Regel erfolgt die Indizierung Stunden bis Wochen nach der Veröffentlichung.
Der größte Engpass für die Indexierung ist das sofortige Crawling.
Wenn Ihre Inhalte die Qualitätsschwellenwerte erfüllen und es keine technischen Hindernisse für die Indexierung gibt, sollten Sie sich in erster Linie ansehen, wie der Googlebot Ihre Website crawlt, um sie aktuell zu halten Inhalte werden schnell indexiert.
Bevor eine Seite an die Indexierungspipeline weitergeleitet wird, crawlt der Googlebot sie und rendert in vielen Fällen eingebettete Bilder, Videos und JavaScript-Elemente.
Websites, die sich ändern häufiger und haben daher eine höhere Crawling-Nachfrage, werden häufiger erneut gecrawlt.
Wenn der Googlebot Ihre Website besucht, gleicht er die Crawling-Rate basierend auf der Anzahl der Abfragen ab, die er an Ihren Server senden kann, ohne ihn zu überlasten .
Daher lohnt es sich, auf eine ausreichende Serverbandbreite zu achten.
Blockieren Sie den Googlebot nicht in robots.txt, da er sonst Ihre Seiten nicht crawlt.
Denken Sie daran, dass Google auch das Robots-Meta-Tag noindex respektiert und im Allgemeinen nur die kanonische Version der URL indiziert.