Wenn wir über Informationsabruf sprechen, neigen wir als SEO-Profis dazu sich stark auf die Phase der Informationssammlung zu konzentrieren – das Crawling.
Während dieser Phase entdeckt und crawlt eine Suchmaschine URLs, auf die sie Zugriff hat (das Volumen und die Breite hängen von anderen Faktoren ab, die wir umgangssprachlich als Crawl-Budget bezeichnen).
Auf die Crawl-Phase werden wir uns in diesem Artikel weder konzentrieren, noch werde ich im Detail darauf eingehen, wie die Indexierung funktioniert.
Wenn Sie mehr über das Crawlen lesen möchten und indexieren, können Sie dies hier tun.
In diesem Artikel werde ich einige der Grundlagen des Informationsabrufs behandeln, die Ihnen, wenn Sie sie verstanden haben, helfen könnten, Webseiten besser für die Ranking-Leistung zu optimieren.
Es kann Ihnen auch helfen, Algorithmusänderungen und Suchmaschinen besser zu analysieren Aktualisierungen der Ergebnisseite (SERP).
Um zu verstehen und zu verstehen, wie moderne Suchmaschinen den praktischen Informationsabruf verarbeiten, müssen wir die Geschichte des Informationsabrufs im Internet verstehen – insbesondere in Bezug auf Suchmaschinenprozesse.
In Bezug auf den digitalen Informationsabruf und die von Suchmaschinen übernommenen Basistechnologien können wir bis in die 1960er Jahre und zur Cornell University zurückgehen, wo Gerard Salton ein Team leitete, das das SMART Information Retrieval System entwickelte.
Salton wird die Entwicklung zugeschrieben und die Verwendung von Vektorraummodellen zum Abrufen von Informationen.
Contents
Vektorraummodelle
Vektorraummodelle werden in der Data-Science-Community als Schlüsselmechanismus dafür akzeptiert, wie Suchmaschinen „suchen” und Plattformen wie Amazon geben Empfehlungen.
Diese Methode ermöglicht es einem Prozessor wie Google, verschiedene Dokumente mit Abfragen zu vergleichen, wenn Abfragen als Vektoren dargestellt werden.
Google hat dies in seinen Dokumenten als Vektorähnlichkeitssuche oder „Nächste-Nachbarn-Suche“ bezeichnet. “ 1973 von Donald Knuth definiert.
Bei einer traditionellen Schlüsselwortsuche würde der Prozessor Schlüsselwörter, Tags, Labels usw. innerhalb der Datenbank verwenden, um relevante Inhalte zu finden.
Dies ist ziemlich begrenzt, da es das Suchfeld innerhalb der Datenbank einschränkt, da die Antwort ein binäres Ja oder Nein ist. Diese Methode kann auch bei der Verarbeitung von Synonymen und verwandten Entitäten eingeschränkt sein.
Je näher die beiden Entitäten in Bezug auf die Nähe sind, desto weniger Abstand zwischen den Vektoren und desto größer die Ähnlichkeit/Genauigkeit, die sie gelten .
Um dem entgegenzuwirken und Ergebnisse für Suchanfragen mit mehreren gemeinsamen Interpretationen bereitzustellen, verwendet Google Vektorähnlichkeit, um verschiedene Bedeutungen, Synonyme und Entitäten miteinander zu verknüpfen.
Ein gutes Beispiel dafür ist when Google meinen Namen.
Für Google kann [dan taylor] Folgendes sein:
- Ich, die SEO-Person.
- Ein britischer Sportjournalist.
- Ein lokaler Nachrichtenreporter.
- Lt. Dan Taylor von Forrest Gump.
- Ein Fotograf.
- Ein Modellbauer.
Unter Verwendung traditioneller Schlüsselwörter Suche mit binären Ja/Nein-Kriterien, würden Sie diese Streuung der Ergebnisse nicht auf Seite eins erhalten.
Mit der Vektorsuche kann der Prozessor eine Suchergebnisseite basierend auf Ähnlichkeiten und Beziehungen zwischen verschiedenen Entitäten und Vektoren innerhalb der Datenbank erstellen.
Sie können den Blog des Unternehmens hier lesen, um mehr darüber zu erfahren, wie Google dies verwendet über mehrere Produkte hinweg.
Ähnlichkeitsabgleich
Beim Vergleichen von Dokumenten auf diese Weise verwenden Suchmaschinen wahrscheinlich eine Kombination aus Query Term Weighting (QTW) und dem Ähnlichkeitskoeffizienten.
QTW wendet eine Gewichtung auf bestimmte Begriffe in der Abfrage an, die dann verwendet wird, um einen Ähnlichkeitskoeffizienten mit dem Vektorraummodell zu berechnen und mit dem Kosinuskoeffizienten zu berechnen.
Die Kosinusähnlichkeit misst die Ähnlichkeit zwischen zwei Vektoren und, wird in der Textanalyse verwendet, um die Ähnlichkeit von Dokumenten zu messen.
Dies ist ein wahrscheinlicher Mechanismus, mit dem Suchmaschinen doppelte Inhalte und Wertversprechen auf einer Website ermitteln.
Der Kosinus wird zwischen -1 gemessen und 1.
Traditionell wird sie in einem Cosinus-Ähnlichkeitsdiagramm zwischen 0 und 1 gemessen, wobei 0 die maximale Unähnlichkeit oder Orthogonalität und 1 die maximale Ähnlichkeit ist.
Die Rolle eines Indexes
Bei SEO sprechen wir viel über den Index, die Indexierung und Indexierungsprobleme – aber wir sprechen nicht aktiv über die Rolle des Indexes in Suchmaschinen.
Der Zweck eines Indexes besteht darin, Informationen zu speichern, was Google durch abgestufte Indexierungssysteme und Shards tut, um als Datenreservoir zu fungieren .
Das liegt daran, dass es unrealistisch, unrentabel und eine schlechte Erfahrung für den Endnutzer ist, aus der Ferne auf Webseiten zuzugreifen (zu crawlen), deren Inhalt zu parsen, zu bewerten und dann eine SERP in Echtzeit zu präsentieren.
Normalerweise , würde ein moderner Suchmaschinenindex keine vollständige Kopie jedes Dokuments enthalten, sondern ist eher eine Datenbank mit Schlüsselpunkten und Daten, die in Tokens umgewandelt wurden. Das Dokument selbst befindet sich dann in einem anderen Cache.
Obwohl wir die Prozesse, die Suchmaschinen wie Google als Teil ihres Informationsabrufsystems durchlaufen, nicht genau kennen, werden sie wahrscheinlich Phasen aufweisen :
- Strukturanalyse– Textformat und -struktur, Listen, Tabellen, Bilder usw.
- Wortstammbildung – Variationen eines Wortes auf seine Wurzel reduzieren. Beispiel: „gesucht” und „Suchen” auf „Suche”
- Lexikalische Analyse – Konvertierung des Dokuments in eine Liste von Wörtern und anschließende Analyse, um wichtige Faktoren wie Daten, Autoren und Begriffshäufigkeit zu identifizieren. Beachten Sie, dass dies nicht dasselbe ist wie TF*IDF.
Wir erwarten außerdem, dass während dieser Phase andere Überlegungen und Datenpunkte berücksichtigt werden, wie z. B. Backlinks, Quelltyp, ob das Dokument die Qualitätsschwelle erfüllt oder nicht, interne Verlinkung, Hauptinhalte/unterstützende Inhalte usw.
Genauigkeit & Post-Retrieval
Im Jahr 2016 gab Paul Haahr einen großartigen Einblick, wie Google den „Erfolg” seines Prozesses und wie er Post-Retrieval-Anpassungen anwendet.
Sie können sich seine Präsentation hier ansehen.
In den meisten Informationsabrufsystemen gibt es zwei Hauptmaße dafür, wie erfolgreich das System einen guten Ergebnissatz zurückgibt.
Dies sind Genauigkeit und Abruf.
Präzision
Die Anzahl der zurückgegebenen Dokumente, die relevant sind, im Vergleich zur Gesamtzahl der zurückgegebenen Dokumente.
Viele Websites haben in den letzten Monaten einen Rückgang der Gesamtzahl der Keywords verzeichnet, für die sie ranken (z. B. seltsame, kantige Keywords, für die sie wahrscheinlich kein Recht auf ein Ranking hatten). Wir können spekulieren, dass Suchmaschinen das Informationsabrufsystem für mehr Präzision verfeinern.
Rückruf
Die Anzahl der relevanten Dokumente im Vergleich zur Gesamtzahl der zurückgegebenen relevanten Dokumente.
Suchmaschinen zielen mehr auf Präzision als auf Erinnerung ab, da Präzision zu besseren Suchergebnisseiten und größerer Benutzerzufriedenheit führt. Es ist auch weniger systemintensiv, da mehr Dokumente zurückgegeben und mehr Daten als erforderlich verarbeitet werden.
Schlussfolgerung
Die Praxis des Informationsabrufs kann aufgrund der unterschiedlichen verwendeten Formeln und Mechanismen komplex sein.
Zum Beispiel:
- Term Frequency/Inverse Document Frequency (TF*IDF).
- Latent Semantic Indexing (LSI) & PLSI.
- Stemming.
Da wir nicht vollständig wissen oder verstehen, wie dieser Prozess in Suchmaschinen funktioniert, sollten wir uns mehr auf die bereitgestellten Grundlagen und Richtlinien konzentrieren als auf Versuchen, Metriken wie TF*IDF zu spielen, die verwendet werden können oder nicht (und die unterschiedlich in das Gesamtergebnis einfließen).