Google – Wie Ordnung in das Chaos gebracht wird
Google ist die mit Abstand größte und wichtigste Suchmaschine für das Internet zurzeit. Doch warum ist Google so groß, wie funktioniert Google überhaut und welche Tricks gibt es um Google zu manipulieren?
Die Google Inc. Ist ein US-Unternehmen, welches 1998 gegründet wurde. Gründungsmitglied damals war u.a. Larry Page der den sogenannte PageRank Algorithmus entwickelt hat, auf den ich später in diesem Blogeintrag noch zu sprechen komme. Google startete mit zwei Studenten in der Garage und entwickelte sich innerhalb weniger Jahre zu einem der Wertvollsten Konzerne der Welt.
Maßgeblich an diesem Erfolg ist der Kerndienst von Google Inc. beteiligt, nämlich die Suchmaschine Google.com. Über dieses Portal sind alle anderen Google Dienste zugänglich.
Doch wie funktioniert die Suche bei Google überhaupt? Google hatte bereits 2008 die 1.000.000.000.000 Marke an indizierten URLs geknackt. Hinzu kamen bereits 2005 1.187.630.000 Bilder. Auch die Unmengen an eingescannten Volltextbüchern, Artikeln, Zeitungen, die Usenetbereiche und nicht zuletzt die Videos von YouTube darf man nicht vergessen, wenn man versucht sich eine Übersicht über den Google Index zu machen.
Ordnung in diese schiere Masse zu bringen ist die große Stärke von Google. Eine Suchanfrage soll relevante Ergebnisse liefern und einen nicht auf die falsche Fährte locken. Um diese Aufgabe zu bewältigen, entwickelt Larry Page den nach ihm benannten PageRank Algorithmus. Dieser Algorithmus bewertet die gelisteten Seiten nach Relevanz und stellt somit eine Priorität her, nach der für einen bestimmten Suchbegriff die Seiten angezeigt werden. Der Algorithmus prüft dabei wie Seiten sich untereinander verlinken. Dabei ist der PageRank jeder einzelnen Seite und die Anzahl der verlinkten Seiten von Bedeutung. Eine Seite mit einem hohen PageRank, die eine andere Seite verlinkt, sorgt dafür, dass auch diese Seite einen relativ hohen PageRank erhält. Den Algorithmus kann man auf diesem Bild nachvollziehen:
PageRank Example
Die Seite B hat den höchsten PageRank, da sie von den meisten Seiten verlinkt wird. Die Seite C wird zwar nur von einer anderen Seite verlinkt, nämlich B, hat aber auch einen hohen PageRank, da B sehr hoch im Ranking steht. Auf diese Art und Weise Ordnet der Algorithmus jeder Seite einen Wert zu. Seiten mit hohem Wert stehen bei einer Google suche über Seiten mit niedrigem Wert.
Google betreibt ganze Serverfarmen um das Internet nach neuen URLs zu durchsuchen und die Verbindungen der alten zu erneuern.
Diese Funktionsweise des Algorithmus macht ihn natürlich auch angreifbar. Es sind mehrere Fälle bekannt, in denen Unternehmen oder Privatpersonen versucht haben den PageRank bestimmter Seiten gezielt zu beeinflussen. Dies kann man erreichen, in dem man einen undurchsichtigen Dschungel an Selbstverlinkungen auf seiner Seite einrichtet oder vor jeder Unterseite eine Seite einbaut, die nur weiterleitet und damit auch verlinkt.
