Suchmaschinen SEO | Geheimtipps-Tricks | Black-Hat-SEO? | Suchmaschinen – SEO Rocket Service

Category Archives: Suchmaschinen

  • 0

Ranking-Hub: Google und CiteSeer

Tags : 

Ranking-Hub vergleich zweier Suchmaschinen, Google und CiteSeer

Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumenten Menge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt, dass die Suche in einer zwar in homogenen aber zusammenhängenden Dokumenten Menge wie dem Internet unter Berücksichtigung der Dokumenten-Verbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (Page Rank), das in diesem Artikel kurz erklärt wird.

 

Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert. Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumenten Menge und ermöglicht den Einsatz von Ranking Verfahren, die auf den von Google genutzten Verfahren basieren.

 

1 Einführung

Das Internet ist zu einem viel genutzten Informationsmedium geworden. Dabei haben die Informationssuchenden unterschiedliche Motivationen, Bedürfnisse und Ansprüche. Man kann die Nutzer des Internets in mehrere Klassen unterteilen. Für diesen Artikel ist eine einfache Unterteilung, die aus zwei Internetnutzer Gruppen besteht, von Bedeutung: Benutzer, die nach allgemeinen Informationen im Internet suchen, und Benutzer, die nach wissenschaftlicher Information wie zum Beispiel Veröffentlichungen zu einem eng abgegrenzten Themenbereich suchen. Die Suchergebnisse der ersten Benutzergruppe sind hauptsächlich Webseiten, die meistens eine wohldefinierte Hypertext Struktur (xml-, html- usw.) haben, und die sich mit der Zeit ändern. Dagegen sind die Suchergebnisse der zweiten Gruppe meistens wissenschaftliche Dokumente in einem Container Format wie PDF, die keine solche Struktur aufweisen und sich mit der Zeit auch nicht mehr ändern.

 

Sowohl die erste als auch die zweite Gruppe der Internetbenutzer wird heutzutage im Internet, trotz seiner enormen Größe, mit Hilfe von verschiedenen Suchmaschinen fündig. Das heißt die gesuchten Dokumente gehören zu den ersten zehn Treffern. Die erfahrenen Internetbenutzer wissen, dass sie abhängig von der gesuchten Information mit verschiedenen Suchmaschinen suchen müssen. So sucht ein Benutzer der ersten Gruppe im Internet meistens mit der Suchmaschine Google. Der Benutzer der zweiten Gruppe sucht abhängig vom Fachgebiet mit einer wissenschaftlichen Suchmaschine. Die Notwendigkeit dieser Differenzierung ist in den verschiedenen Bewertungsverfahren der Suchmaschinen begründet, welche am Beispiel zweier Suchmaschinen, Google und CiteSeer in diesem Artikel erläutert werden sollen.

 

Die Internet Suchmaschine Google, die es seit 1999 gibt, bearbeitet heute über 75% aller Suchanfragen in Deutschland und ist dank seiner hervorragenden Gewichtung der Suchergebnisse die wohl bekannteste Suchmaschine der Welt. CiteSeer ist eine wissenschaftliche Suchmaschine, die frei zugängliche wissenschaftliche Literatur hauptsächlich aus dem Informatik Gebiet in Form von Artikeln, Konferenzbeiträgen, Reviews usw. im Internet findet und indexiert, also suchbar macht. Die Gegenüberstellung beider Suchmaschinen ist deswegen interessant, weil die Entwicklung ihrer Ranking Methoden trotz verschiedener Voraussetzungen eng zusammenhängt.

 

Die Suchmaschinen vor Google bewerteten die Webseiten selbst und benutzten dabei die Inhaltsspezifischen Bewertungskriterien des Information Retrieval. Die Suchmaschine Google hat eine Wende geschaffen, indem sie zusätzlich zu den erwähnten Bewertungskriterien die Popularität einer Webseite berücksichtigt. Für die Bestimmung der Popularität einer Webseite benutzt Google andere Webseiten, die gut extrahierbare Verweise (Links) auf die zu bewertende Webseite haben.

Die Idee dieses menschlichen Ranking ist allerdings nicht neu, sie ist angelehnt an die Bewertung wissenschaftlicher Publikationen mittels Analyse der bibliographischen Angaben (Zitate-Analyse), mit welcher in den 50 er Jahren begonnen wurde. Die rasante Entwicklung der Computertechnologie und die wachsende Anzahl wissenschaftlicher Veröffentlichungen, von denen viele elektronisch durch das Internet frei zugänglich waren und sind, motivierten das Entstehen wissenschaftlicher Suchmaschinen wie CiteSeer. Das Ranking stellte für CiteSeer kein schwer lösbares Problem mehr dar, da die technische Umsetzung des Ranking von den Google Entwicklern übernommen werden konnte. Das größte Problem, dem die CiteSeer Entwickler gegenüberstehen, war und ist die Extraktion von Literaturangaben sowie Meta Information, die unentbehrlich für das Ranking sind. Dem gegenüber ist es für die Google Entwickler momentan am problematischsten, die Grenze zwischen manipulierten und nicht manipulierten Webseiten zu ziehen.

2 Ranking

Wenn eine Suchmaschine eine Rangfolge sortierte Liste von Dokumenten zurück gibt, bedeutet das, dass eine Relevanz Beurteilung (Ranking) der Dokumente seitens der Suchmaschine stattgefunden hat. Das Ranking des Benutzers weicht im allgemeinen hiervon ab. Eine Suchmaschine benutzt immer das gleiche Beurteilungsverfahren, wohingegen die Beurteilung verschiedener Benutzer verschieden ausfällt. Da Suchmaschinen die menschliche Intelligenz nicht besitzen, werden ihre Relevanz Beurteilungen auf mathematische Modelle und Heuristiken reduziert. Die bekanntesten der mathematischen Modelle stammen aus dem Information Retrieval, das Boolesche, das Vektorraum und das probabilistische Modell. Die bekanntesten Heuristiken, die von Internet Suchmaschinen für das Ranking verwendet werden, basieren auf der Information, die implizit durch die Hypertext Eigenschaft der Web Dokumente gegeben ist.

Die Relevanz Beurteilung und somit der Ranking Algorithmus ist oftmals entscheidend für die Akzeptanz und den Erfolg einer Suchmaschine. Zu Eigenschaften guter Ranking Algorithmen zählen unbedingt Geschwindigkeit.

Skalierbarkeit. Die Datenmenge des Internets verdoppelt sich etwa alle 3 Monate, deswegen müssen alle Algorithmen einer Suchmaschine insbesondere auch Ranking Algorithmen gut skalieren.

Spam Resistenz. Viele Online Anbieter verdienen ihr Geld dank hoher Google Platzierungen. Deswegen versuchen sie unbedingt die Ranking Algorithmen der großen Suchmaschinen sehr gut kennen zu lernen und ihre Webseiten darauf zu optimieren. Sie bauen hunderte von Brücken Seiten, die auf ihre Webseite verweisen, bauen zyklisch verlinkte Webseiten und bringen in ihre Webseiten versteckten Text ein. Die Folge dieser Methoden ist ein Index Spamming, welches die inhaltliche Qualität der Suchergebnisse der betroffenen Internet Suchmaschinen rapide verschlechtert. Ein guter Ranking Algorithmus muss daher Spam resistent sein, das heißt nicht aufgrund einfacher Testverfahren leicht zu verstehen und daher leicht zu manipulieren sind.

3 Google

In der letzten Zeit hat sich Google weltweit zur am meisten benutzten Suchmaschine entwickelt. Die besondere Merkmale von Google sind:

Benutzerfreundlichkeit: einfache Bedienung, übersichtliche Präsentation der Suchergebnisse.

Eine gute Qualität der Suchergebnisse, die auf dem entwickelten Ranking Verfahren beruht. Index plus Cache, zusätzlich zu den indexierten Seiten verwaltet Google die eigenen Kopien von besuchten und indexierten Webseiten.

Ähnliche Seiten finden.

Die überlegende Qualität der Suchergebnisse spielt angesichts der Größe und Inhomogenität des Internets eine große Rolle. Wie in vielen anderen Suchmaschinen für das Internet wurde in Google versucht, dass Problem der Relevanz Beurteilung der Suchergebnisse mit Heuristiken, die zum Teil aus dem Information Retrieval kommen, zu lösen. Einige dieser Heuristiken sind:

Je mehr Begriffe aus der Suchanfrage im Titel einer Seite auftauchen, desto relevanter scheint die Seite für die jeweilige Anfrage zu sein. Diese Annahme kann analog für bestimmte Meta-Tags wie description und keywords gemacht werden.

Je häufiger ein Suchbegriff innerhalb einer Seite auftritt, desto relevanter scheint diese Seite für die gestellte Anfrage zu sein. Dabei werden in der Regel die Stellen (Titel, Überschrift, Meta-Tag), an denen das gesuchte Wort vorkommt, unterschiedlich gewichtet.

Je mehr Webseiten auf eine Webseite verweisen, desto bedeutsamer ist diese Webseite.

Die zwei ersten Heuristiken sind für Webseiten anfällig, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden. Die Verwendung der letzten Heuristik als einziges Bewertungskriterium hat für jede Anfrage die gleiche Ergebnisliste zu Folge. Kombiniert man die letzte Heuristik mit den zwei erwähnten, vermeidet man das Auftreten von automatisch generierten Suchmaschinenoptimierten Webseiten ohne jegliche Einbindung in das Internet oben in Suchergebnislisten. Die einzige Schwierigkeit hierbei ist die Gewichtung der einzelnen Faktoren. Die letzte Heuristik stellt die Grundidee des von Google benutzten Ranking Verfahrens namens Page Rank dar.

3.1 PageRank-Verfahren

Die Idee für das PageRank Verfahren stammt ursprünglich aus der Analyse der bibliographischen Angaben wissenschaftlicher Literatur. Die Analyse und Indexierung der Literaturangaben nutzen die Tatsache, dass Verfasser von Dokumenten andere Dokumente zitieren. Mit jedem neu analysierten und gespeicherten Dokument werden auch die bibliographischen Angaben aller von ihm zitierten Dokumente gespeichert. Dadurch sind neue und ältere Publikationen miteinander verlinkt. Die Link Struktur, die dabei entsteht, kann man als gerichteten Graphen auffassen. Dabei enthält dieser Graph wertvolle und objektive Informationen über die Bedeutung einer einzelnen Publikation.

Analog der Zitat Analyse geht man bei der Analyse von Webseiten Links vor, obwohl die Übertragung der Konzepte aus der wissenschaftlichen Zitat Analyse auf das Internet nicht trivial ist. Zum Beispiel sollte man nicht vergessen, dass sich das Internet als Sammlung von Webseiten grundsätzlich von der wissenschaftlichen Literatur unterscheidet. Insbesondere gibt es für viele Webseiten keinen übergreifenden thematischen Kontext. Darüber hinaus sind Veröffentlichungen im Internet meistens kostenlos und unkontrollierbar.

Das Page Rank Verfahren betrachtet und bewertet Webseiten nicht einzeln, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der Page Rank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Vereinfacht lässt sich der Algorithmus wie folgt beschreiben:

  1. Jeder Knoten (Webseite) wird mit einem Startwert initialisiert. Aus verschiedenen Gründen initialisiert man die Knoten mit Anzahl der Knoten1 .
  2. Aus den Gewichten der Knoten werden die Gewichte der ausgehenden Kanten (Forward Links) bestimmt.
  3. Aus den Gewichten der eingehenden Kanten (Backlinks) werden die Knotengewichte neu berechnet als Kantengewichte.
  4. Die Schritte 2 bis 4 werden so oft wiederholt, bis die Knotengewichte konvergiert sind bzw. bis eine hinreichende Stabilität der Rank Werte der Seiten erreicht ist.

 

Abbildung 1: Beispiel-Graph vor der Berechnung und nach der Berechnung des Page Rank

PR(X) der PageRank der Seite X, von der ein Link auf die Seite A zeigt,

BA die Menge der Seiten, die Links auf A enthalten

N(X) die Gesamtanzahl der ForwardLinks auf der Seite X und c ein Faktor, der in zweierlei Hinsicht wichtig ist. Der erste Grund sind Seiten, die Backlinks aber keine Forwardlinks haben, der zweite Grund wird im Abschnitt 3.2 erläutert. Der Faktor c wird zwischen 0 und 1 gewählt.

PageRank vollständig:

 

3.2 Random Surfer Modell

Seiten ziehen zur Erläuterung und Begründung ihres Ansatzes des Page Rank Verfahrens das Random Surfer Modell heran. Sie betrachten das Page Rank Verfahren als Modell des Verhaltens eines Benutzers, der unabhängig von seiner Anfrage und mit einer bestimmten Wahrscheinlichkeit Webseiten besucht. Dabei wird die Wahrscheinlichkeit vom Rank der Seite bestimmt. Entsprechend dem Modell verfolgt der Benutzer zufällig die Verweise der verlinkten Webseiten (also er klickt sich von Seite zu Seite). Entsprechend dem Modell beendet der Benutzer mit einer durch Faktor c gegebenen Wahrscheinlichkeit sein durch die Verweise gelenktes Surfen und fängt das gelenkte Surfen mit einer zufällig gewählten Webseite an, die er mit der durch den Faktor cE(A) gegebenen Wahrscheinlichkeit besucht.

3.3 Manipulation der Suchmaschinen und Google

Für viele Betreiber der Internetseiten ist es wünschenswert und sogar lebenswichtig möglichst zu Beginn der Trefferliste aufgelistet zu werden. Viele Anbieter versuchen deswegen die Suchmaschinen zu manipulieren. Voraussetzung für eine erfolgreiche Google Manipulation sind viele Backlinks, Doorway Seiten, sowie ein hoher Page Rank der verlinkten Seiten. Es ist kein Problem beliebig viele verlinkte Seiten zu erstellen, in der Vergangenheit legten clevere Webmaster Tausende von Seiten unter verschiedenen Adressen an, die auf das eigene Angebot verwiesen. Ein Problem ist unter den verlinkten Seiten ein Paar Seiten mit hohem Page Rank zu haben. Eine mögliche Lösung hierfür wäre zum Beispiel die Verlinkung mit einem Nachrichtenportal, dessen Seiten hoch bewertet sind. Nachrichtenportale bieten aktuelle Nachrichten zu Geschehen im In und Ausland, neben den Nachrichten finden sich jedoch auf den Nachrichten Portal Seiten viele Verweise auf kommerzielle Angebote. Die Anbieter dieser Online Angebote profitieren dabei in zweierlei Hinsicht: erstens durch die Werbung auf einer bekannten Seite und zweitens durch den hohen Page Rank dieser Seite, der an ihre Seiten weitergegeben wird. Eine weitere Methode für die Google Manipulation wäre die Erstellung von Seiten Zyklen, die zu einer PageRank Konzentration führen.

Google reagiert auf die Suchmaschinenmanipulierer mit zahlreichen Updates ihrer Software (Cassandra, Esmeralda, Florida-Update). Manche Suchmaschinen Experten zweifeln allerdings daran, dass Google tatsächlich seine Software so wesentlich verbessert hat, dass sie die Arbeit der Suchmaschinenmanipulierer wie zum Beispiel Linkfarmen Betreiber automatisch erkennt. Es wird auch vermutet, dass im Hintergrund viel von Hand aussortiert wird, und dass man die penetranten Suchmaschinenmanipulierer auf eine Art schwarze Liste setzt. Das manuelle Aussortieren steht allerdings im Widerspruch zu der Einstellung von Google alle Suchgeschäftsvorgänge voll automatisch zu betreiben.

4 CiteSeer

CiteSeer ist eine digitale Bibliothek freizugängliche wissenschaftliche Literatur im Internet sie wurde an dem NEC Research Institut in Princeton entwickelt. Die Motivation für das Projekt CiteSeer war die Verbesserung der Verbreitung, des Auffindens (retrieval) und der Zugänglichkeit wissenschaftlicher Literatur. Der Aufgabenbereich der digitalen Bibliothek umfasst folgende Punkte:

Lokalisierung wissenschaftlicher Artikel: hierbei spielt die Effizienz eine entscheidende Rolle.

Volltextindexierung der Artikel (Artikel im PDF und Postscript-Format werden auch bearbeitet und indexiert).

Automatische Indexierung von Literaturangaben (analog zum Science Citation Index).

Extraktion von Meta Information wie Artikeltitel und Autorennamen aus den Artikeln bzw. Literaturangaben (dabei werden auch Mittel des Maschinellen Lernens angewandt).

Entwicklung von Algorithmen, die auf der Analyse der bibliographischen Angaben beruhen, und mit denen man die Lokalisierung verwandter Artikel durchführt.

Eliminierung von Duplikaten: das Internet enthält verschiedene Versionen eines Artikels, die auch in bibliographischen Angaben vorkommen. Hier ist wichtig verschiedene Angaben zu einem Artikel zu erkennen.

Analyse des Graphen bzw. der Vernetzung wissenschaftlicher Artikel: analog zum Vorgehen von Seiten versuchen die CiteSeer Entwickler die Hubs und die Authorities der wissenschaftlichen Literatur zu bestimmen.

Verteilte Fehler Korrektur: jeder Benutzer ist berechtigt, die gefundenen Fehler zu korrigieren.

Externe Verweise auf andere Datenbanken, die den gesuchten Artikel enthalten.

Neben der Volltextindexierung von wissenschaftlichen Arbeiten bietet CiteSeer die automatische Erkennung und Indexierung von Literaturangaben. Die indexierten bibliographischen Angaben werden für die Bewertung der indexierten Dokumente und für das Finden der zitierten Dokumente verwendet. So basiert das Ranking in CiteSeer (wie auch in Google) auf der Beziehung einzelner Dokumente zueinander.

Eine Webseite, die viele gute Links für ein bestimmtes Thema bietet. Gute Hubs zeichnen sich durch eine große Anzahl ausgehender Kanten (Links) zu guten Authorities aus.

Eine Webseite, die kompetente, aktuelle und verlässliche Information zu einem bestimmten Thema enthält.

4.1 Automatische Indexierung bibliographischer Angaben

Die automatische Indexierung bibliographischer Angaben hat gegenüber der klassischen Indexierung von Literaturangaben mehrere Vorteile. Die klassische Indexierung von Literaturangaben wird manuell gemacht. Sie hat deswegen hohe Kosten. Die automatische Indexierung bei CiteSeer hat geringere Kosten und ermöglicht darüber hinaus einen umfassenderen und aktuelleren Index, weil CiteSeer außer Zeitschriftenartikeln auch Konferenzbeiträge, technische Berichte, Vordrucke usw. indexiert. Die wissenschaftlichen Arbeiten, die von CiteSeer indexiert werden, zeichnen sich durch folgende Merkmale aus, sie sind frei zugänglich und haben einen für die computergestützte Bearbeitung geeignetes Format. Die automatische Bearbeitung der Dokumente schließt unter anderem ein:

Lokalisierung bibliographischer Angaben (Zitate) im Dokument Zitat Bezeichner wie benutzt werden, um den Abschnitt mit Literaturangaben in einem Dokument zu lokalisieren. Diese Bezeichner sind ein gutes Beispiel für die Felder einer Literaturangabe, die relativ einheitliche Schreibweise und Position haben: Zitat bezeichner stehen immer am Anfang einer Literaturangabe, und sie behalten das gleiche Format über alle Verweise im Dokument.

Extrahierung des Kontextes der Zitate Für jede Literaturangabe extrahiert CiteSeer mittels regularer Ausdrücke die Textstellen mit dem Literaturhinweis.

Parsen und Bearbeiten der Zitate: Es existiert eine große Vielfalt von Formaten der Literaturangaben. Ein ACI-System wie CiteSeer muss in der Lage sein, einen Artikel, der in unterschiedlichen Arbeiten in mehreren Formaten angegeben wird, als eine Literaturquelle zu erkennen. Ein Beispiel zeigt wie komplex die Aufgabe ist:

Wie man dem Beispiel entnehmen kann, beinhalten fast alle Felder (Titel, Autorenname, Jahr) Felder. Das Beispiel zeigt auch deutlich, dass es kein einheitliches Trennsymbol gibt: das Komma zum Beispiel wird oft benutzt um Felder zu trennen, das Komma kann aber auch im Artikeltitel vorkommen. Um Felder einer Literaturangabe trotzdem erfolgreich bestimmen zu können, benutzt CiteSeer neben den zahlreichen Heuristiken, die in den Veröffentlichungen nur kurz beschrieben werden, angelegte Datenbanken mit Autorennamen und Zeitschriften Titeln. Obwohl das Parsen der bibliographischen Angaben sehr kompliziert ist, erreichten die CiteSeer Entwickler mit den benutzten Heuristiken gute Ergebnisse.

Die Algorithmen, die von CiteSeer bei der Identifizierung und Gruppierung der bibliographischen Angaben der gleichen Artikel benutzt werden, können in drei große Klassen unterteilt werden:

Algorithmen, die auf der Berechnung der Editing (Bearbeitung) Distanz beruhen.

Algorithmen, die die aus dem Information Retrieval stammenden Statistiken über Wortfrequenzen benutzen.

Algorithmen, die auf probabilistischen Modellen basieren.

4.2 Analyse des Zitate-Graphen

Der Zitate Graph ist ein Netz mit wissenschaftlichen Dokumenten, die durch Literaturangaben zusammenhängen. Jeder Verweis auf ein Dokument kann als Indikator seines Einflusses gesehen werden. Wenn Dokument X auf Dokument Y verweist, sagt der Autor des Dokumentes X, dass Dokument Y wichtig ist und dass Dokument Y in einem inhaltlichen Zusammenhang zu dem Dokument X steht. Die Analyse des Zitate-Graphen in CiteSeer beruht auf den Verfahren, das Ranking von Webseiten entwickelt wurden. Auf der Basis dieser Algorithmen wurden mögliche Erweiterungen untersucht und in die Suchmaschine implementiert.

Das Ranking in CiteSeer basiert auf der Analyse des Zitate Graphen. Bei dieser Analyse werden die Selbstzitierungen erkannt und aus der Berechnung ausgeschlossen. Die Analyse des Zitate Graphen ermöglicht das Ranking der Suchergebnisse nach folgenden frei wählbaren Kriterien.

Zitate Anzahl. Es wird die Anzahl von Literaturangaben zu jedem Artikel berücksichtigt. Je höher die Anzahl der Zitierungen eines Artikels desto höher ist seine Wichtigkeit.

Erwartete Zitate Anzahl. Es wird die Anzahl von Literaturangaben zu einem Artikel und das Veröffentlichungsjahr des zitierten Artikels berücksichtigt. Hier findet eine Normierung der Literaturangaben durch Veröffentlichungsjahre statt. Dabei geht man davon aus, dass ein neuerer Artikel, der zum Beispiel genau so oft wie ein älterer Artikel zitiert wurde, wegen der kürzeren Zitierungszeit höher zu bewerten ist.

So vermeidet man eine der denkbaren Manipulationen der Suchergebnisse und Authorities (Behörden) bestimmt. Dabei werden Hubs im Kontext wissenschaftlicher Artikel als eine Einführung (Review, Resumee/ Überblick, Tutorial) in ein Themenbereich interpretiert und höher bewertet, wenn der Benutzer das Kriterium Hubs für das Ranking gewählt hat.

Die Graph Analyse macht es darüber hinaus möglich, ausgehend von einem bekannten Dokument weitere Dokumente zum selben Thema zu finden, die entweder früher oder später verfasst wurden. Die Statistiken, die mittels der Analyse des Zitate Graphen erstellt werden können, die früher manuell erstellt werden mussten, erlauben unter anderem die Feststellung von Trends und Mustern des Veröffentlichung und Zitier Verhaltens in einzelnen wissenschaftlichen Gebieten.

5 Ranking: Google und CiteSeer

Obwohl Google wie auch CiteSeer die wissenschaftlichen frei zugänglichen Dokumente indexiert (wenn auch nicht in dem Umfang), ist es nicht empfehlenswert nach wissenschaftlicher Literatur im Netz mit Google zu suchen. Als Beispiel einer Google Suche, die Offensichtlich nicht die erwünschten Ergebnisse bringt, ist die Suche nach Arbeiten eines Autors namens Bollacker mit dem Suchwort Bollacker. In der Abbildung 2 sind die Ergebnisse der Suche dargestellt.

Die ersten Treffer sind wie erwartet Home Seiten verschiedener Menschen, mit dem Namen Bollacker, und keine wissenschaftlichen Dokumente. Die erweiterte Google Suche mit der Einschränkung des Dateityps liefert zwei bzw. zehn Treffer; je nachdem ob nur nach PDF oder nur nach Postskript Dokumenten gesucht wurde.

Die CiteSeer Suche mit dem Suchwort Bollacker liefert dagegen eine Liste von wissenschaftlichen Veröffentlichungen, die man nach verschiedenen Kriterien anordnen kann: nach Zitat Anzahl, nach Datum, nach Gebrauchshäufigkeit usw.! In der Abbildung 3 ist die nach Zitat Anzahl geordnete Ergebnisliste dargestellt.

Wie bereits beschrieben (Abschnitte 3.1 und 4.2), basiert das Ranking sowohl bei CiteSeer als auch bei Google unter anderem auf der Beziehung einzelner Dokumente zueinander. Sie wird bei Google in Form der Linking (Verknüpfung) Struktur und bei CiteSeer in Form der Literaturangaben Struktur abgebildet. Der Vergleich von Ergebnissen mehrerer Suchen nach wissenschaftlicher Literatur mit Google und CiteSeer zeigt deutlich, dass die Linking (Verknüpfung) Struktur in Google nicht die Information über Literaturangaben enthält. Es ist anzunehmen, dass auf diese Information bei Google bewusst verzichtet wird. Folgende Überlegungen würden dafür sprechen:

Die Bearbeitung von strukturlosen Dokumenten die korrekte und vollständige Extraktion von Literaturangaben und Meta Information ist zu kompliziert und sehr umfangreich.

Abbildung 2: Die ersten Ergebnisse der Google Suche nach Bollacker

 

Die Link Information des Web Graphen muss anders als die des Zitate Graphen bewertet bzw. gewichtet werden. Die Zahlen, die bei der Analyse des Web Graphen berechnet werden, haben eine andere Größenordnung als die Zahlen, die die Analyse des Zitate Graphen hervorbringt.

Das Random (Zufällig) Surfer Modell des Page Rank Verfahrens hat bei der Analyse des Zitate Graphen keine Rechtfertigung. In dem Zitate Graphen gibt es keine Rank Sinks, also sind auch keine Rank Sources (Quellen) nötig.

Hier ergibt sich die Frage: gewichten oder gänzlich trennen? Die Antwort auf die Frage hat Google bereits mit seiner wissenschaftlichen Suchmaschine (http://scholar.google.com/), die am 18.11.2004 an den Start ging, geliefert.

Das Ranking bei CiteSeer basiert zwar auf den von Page entwickelten Verfahren, liefert aber im Gegensatz zu Google mehrere Ranking Möglichkeiten. Für keine dieser Ranking Möglichkeiten, die auf der Analyse des Zitate Graphen basieren, geben die CiteSeer Entwickler an, dass die Bewertung einzelner Veröffentlichungen an die zitierende Arbeiten weitergegeben wird. Der Grund dafür liegt in der Natur des Zitate Graphen: er enthält keine Zyklen.

In diesem Artikel wurde gezeigt, wie die Entwicklung der Ranking Algorithmen für zwei Suchmaschinen zusammenhängt. Die eine Suchmaschine ist die Internet Suchmaschine Google und die zweite Suchmaschine ist die wissenschaftliche Suchmaschine CiteSeer. Dabei wurde gezeigt,

Abbildung 3: Die ersten Ergebnisse der CiteSeer-Suche nach Bollacker

 

 

 

dass das Page Rank Verfahren an die Idee der Zitate Analyse angelehnt wurde. Diese Idee wurde mit dem Ranking Algorithmus in Google umgesetzt und mit dem Ranking Verfahren in CiteSeer für die Suche nach wissenschaftlichen Dokumenten weiterentwickelt.

Mein Fazit:

Wir haben gelernt das eine Wissenschaftliche Suchmaschine wie CiteSeer unter ganz andere Kriterien arbeitet und sein Ranking erstellt wie Google. Aber jede Suchmaschine arbeitet nach verschiedene Ranking Systeme (Anwendungen)  was die meißten Suchmaschinen gemeinsam haben ist die Link Bewertung (Backlinks).

 

 


  • 0

Robots, Suchmaschinen und seine Geschichte

Tags : 

Der erste Versuch ein „Inhaltsverzeichnis“ des Internets zu erstellen, hieß Archie. Archie bestand aus einem „Datensammler“ (data gatherer), der automatisch die Inhaltsverzeichnisse von anonymen FTP-Servern durchsuchte und einem Retrieval System, mit dem die User mit Suchworten nach FTP-Dateien suchen konnten. Der Suchdienst, der 1990 an der McGill University in Kanada entwickelt worden war, gehört spätestens ab 1992 zu den geläufigsten Internet-Tools. Damals mußten die User zu Archie telnetten, inzwischen ist der Suchdienst auch im WWW und kann dort mit Forms bedient werden, (http://www-ns.rutgers.edu/htbin/archie)

Archie war als Suchwerkzeug für FTP-Dateien so erfolgreich, dass er die Mitarbeiter des Rechenzentrums der University of Nevada in Reno 1992 dazu inspirierte, einen ähnlichen Index für Gopher Menues zu entwickeln, das den Namen Veronica.

Der Name kommt von dem Wort „Archive“, bei dem das „v“ weggelassen wurde.

Veronica soll angeblich die Abkürzung von „Very easy rodent-oriented net-wide index to computerized archive“ sein, zu deutsch etwa: „Sehr einfacher, nagetierorientierter netzweiter Index für computergestützte Archive“, sehr viel naheliegender ist allerdings eine andere Erklärung des Namens, nach der Veronica die Freundin des amerikanischen Cartoon-Helden Archie war.

Veronica ähnelt in vieler Hinsicht schon den heute gängigen, kommerziellen Suchmaschinen: Das Programm durchsuchte im Monatsrhythmus alle Gopher Menues, die beim „Mother Gopher“ an der University of Minnesota angemeldet waren. Suchen konnten mit Hilfe von Booleschen Operatoren, die auch heute noch bei den meisten Suchmaschinen wie Alta Vista eingesetzt werden. Und obwohl die Zahl der zu untersuchenden Dokumente für heutige Verhältnisse einigermaßen überschaubar war (im November 1994 verzeichnete Veronica 15 Millionen Dokumente aus Gopher-, FTP- und HTML-Space), wurde schon damals beklagt, dass man als User der unüberschaubaren Zahl von Dokumenten und den Suchmethoden von Veronica hilflos ausgeliefert sei.

Der erste Such-Robot für das gerade neu entstehende World-Wide-Web war der Worldwide Web Wanderer, der von dem MIT-Studenten Mathew Gray im Frühjahr 1993 programmiert wurde. Ursprünglich zählte The Wanderer nur WWW-Server, aber einige Monate später fügte Michael L. Maudlin ein „Retrieval Program“ namens „Wandex“ hinzu, um die gesammelten Daten durchsuchen zu können. (Mauldin, ein Computerwissenschaftler an der Carnegie Mellon University, entwickelte übrigens später die Suchmaschine „Lycos“ und ist heute „Chief Scientist“ bei der Suchmaschine, die inzwischen vom Universitätsforschungsprojekt zu einem kommerziellen Unternehmen geworden ist.) The Wanderer durchsuchte und katalogisierte von Juni 1993 bis Januar 1996 zweimal pro Jahr das Netz.

Im Oktober 1993 wurde Aliweb (https://www.nexor.com/aliweb/) kurz für: Archie-Like Indexing of the Web) entwickelt. Aliweb überließ einen Teil der Arbeit bei der Katalogisierung des Internets den Betreibern von WWW-Servern. Diese mussten für ihren Server einen Index erstellen, und dieses bei Aliweb anmelden. Aliweb selbst war lediglich ein in Perl geschriebenes Retrieval System, das die auf diese Weise zusammengestellten Indexe durchsuchte und sich bei seinen Suchen auf die Angaben der Server-Betreiber und der Autoren der Seiten verließ.

Im Dezember 1993 gingen fast gleichzeitig drei neue Suchmaschinen ans Netz: Jumpstation, World-Wide-Web Worm und RBSE Spider. Jumpstationund der WorldWideWeb Worm waren Suchroboter, die Websites nach Titel und Header (Jumpstation) beziehungsweise nach Titel und URL (WorldWideWeb Worm) indexierten. Wer mit diesen beiden Tools suchte, bekam eine Liste von „Hits“ ohne weitere Bewertung in der Reihenfolge, in der sie in der Datenbank abgespeichert waren. Der RBSE Spider und der im April 1994 an der University of Washington gestartete Webcrawler (http://www.webcrawler.com/) waren die ersten Suchmaschinen, die nicht bloß eine Aufzählung von gefundenen Dokumenten lieferte, sondern diese auch nach einem „Ranking“ sortierte.

Webcrawler (http://www.webcrawler.com/) ist übrigens die einzige der bisher erwähnten Suchmaschinen, die bis heute überlebt hat, auch wenn sie inzwischen kein Uni-Projekt mehr ist, sondern von der konkurrierenden Suchmaschine Excite aufgekauft worden ist und inzwischen wie „Magellan“ nur noch als „Marke im ExciteNetwork“ geführt wird. Weil der Traffic, den das beliebte Recherche Werkzeug anzog, drohte, das Universitätsnetz lahmzulegen, verkaufte die University of Washington Webcrawler 1995 an den Onlinedienst America Online (AOL).

Im März zog Webcrawler in seine neue Heimat bei AOL um. Der Onlinedienst verkaufte die Suchmaschine im November 1996 wiederum an Exite weiter. Bis heute firmiert allerdings Brian Pinkerton, der den Such-Robot 1994 als Student in einem Informatik Seminar an der University of Washington geschrieben hatte, bei Excite als „Vice President of Engineering“.

Fast zur gleichen Zeit arbeitete an der Carnegie Mellon University Leonard Maudlin an einem Spider, der später unter dem Namen Lycos bekannt wurde. Im Mai 1994 begann er mit der Arbeit an dem Spider, dem er im Juli das Retrieval-System „Pursuit“ hinzufügte. Wie Webcrawler listete auch Lycos seine Suchergebnisse nicht einfach nur auf, sondern sortierte sie nach ihrer Relevanz; im Gegensatz zu Webcrawler bewertete Lycos nicht nur die Häufigkeit eines Wortes in einem bestimmten Dokument, sondern auch die „word proximity“ (die Nähe von mehreren Suchbegriffen zueinander). Lycos ging am 20. Juli 1994 online.

Wie viele Internet Einrichtungen sind also auch die Suchmaschinen, die wie Lycos und Webcrawler heute als kommerzielles Unternehmen betrieben werden, ein Ergebnis wissenschaftlicher Vorarbeiten an den Universitäten. Erst 1995, dem Jahr, als das Internet langsam das Bewusstsein einer nicht akademischen Öffentlichkeit erreichte, gingen die ersten Suchmaschinen ans Netz, die von Unternehmen mit Gewinnabsicht entwickelt wurden: Infoseek startete Anfang 1995; Architex, heute unter dem Namen Excite  bekannt, ging im Oktober 1995 online; Alta Vista startete im Dezember 1995 den regulären Betrieb. Während Alta Vista als Projekt des Western Research Lab, einer Forschungsabteilung der Computer Firma Digital Equipment Corporation entstand, war es von Anfang an das „Business Modell“ von Excite und Infoseek, sich durch Anzeigen zu finanzieren. Inzwischen verkauft auch Alta Vista Bannerwerbung auf seinen Seiten. Bis heute kam eine Reihe von anderen kommerziellen Suchmaschinen dazu.

Gegenwärtig gehören Suchmaschinen zu den wenigen kommerziellen Angeboten im Internet, die wirklich Profite machen. Suchmaschinenanbieter wie Infoseek oder Lycos sind im vergangenem Jahr an die Börse gegangen, und während Infoseek noch keine schwarzen Zahlen schreibt, machte Lycos im dritten Quartal 1997 nach einem Jahr an der Börse erstmals Gewinne. Auch Unternehmen wie Yahoo! oder Alta Vista verzeichnen nach eigenen Angaben inzwischen gesunde Gewinne.

Nicht umsonst hat Microsoft im Oktober 1997 angekündigt, mit einem Projekt namens „Yukon“ in diesem vielversprechenden Markt mitverdienen zu wollen. Auch von anderen Anbietern werden fast wöchentlich neue Suchmaschinen in Betrieb genommen.

Der Name Lycos kommt von dem lateinischen Namen der „Wolfsspinne“: Lycosidae Lycosa. Die Wolfspinne fängt ihre Beute nicht in einem Netz, sondern geht selbst auf die Jagd.

Die meisten der neueren Suchmaschinen versuchen nicht mehr, das ganze Netz zu verzeichnen, sondern beschränken sich auf Special Interest-Themen oder Lokalisierungen.

So gibt es mit WWWomen (http://www.wwwomen.com/) eine Suchmaschine für Frauen Sites; Scifisearch (http://www.scifisearch.com/) sucht nur nach Science Fiction und „paranormalen Phänomenen“ und „Filez“ (http://www.fdez.com/) nach Computerprogrammen. Auch für Länder und Regionen gibt es eigene Suchmaschinen.

Für deutsche und deutschsprachige Webseiten sind es zur Zeit mindestens 22. verschiedene Suchmaschinen und Directories, und es kommen immer noch neue dazu. Diese lokalisierten Maschinen suchen entweder nur innerhalb bestimmter Domains (wie zum Beispiel das holländischen Search.nl (http://www.search.nl)), einige technisch avanciertem Modelle (wie zum Beispiel Fireball erkennen mit speziellen statistischen Methoden die Sprache, in der ein Dokument verfasst ist und können so auch deutschsprachige Dateien verzeichnen, die nicht „.de“ (für Deutschland), ,,.ch“ (für die Schweiz) oder .at“ (für Österreich) im Domain Namen haben.

Das „diversifizierteste“ Beispiel für eine regionale Suchmaschine, das ich bei meiner Recherche entdeckt habe, ist „Mowhawk Valley Online“

Fast alle großen Suchmaschinen bieten inzwischen über die reine Suchfunktion hinaus value-added services an: So liefern einige der Suchmaschinen zum Beispiel Verzeichnisse von Email-Adressen und Telefonnummern an, andere verwandeln sich in der letzten Zeit sogar zunehmend in Quasi-Online-Dienste, in denen (z.T. personalisierbare) Nachrichten, Kleinanzeigen, Stadtpläne, Wettervorhersagen oder Chatrooms angeboten werden, und bei denen man sich oft sogar eine eigene Email Adresse einrichten lassen kann. Diese redaktionellen und Service Angebote tragen wiederum zu einer weiteren Stärkung ihrer zentralen Position im Netz bei.

Was ist eine Suchmaschine?

Schon der Terminus „Suchmaschine“ wird oft falsch benutzt, und sowohl für „echte“ Suchmaschinen wie auch für reine Netzverzeichnisse (die sogenannten directories oder Indices) gebraucht. Der Unterschied zwischen diesen beiden Arten von Netzangeboten besteht darin, wie ihre Adressen Listen zusammengestellt werden.

Echte Suchmaschinen wie Alta Vista oder HotBot  suchen sich ihre URLs selbständig zusammen, indem sie das Netz durchwandern, und ihre Fundstücke dann in aufbereiteter Form ihren Usern zur Verfügung stellen.

Eine Mischung aus Suchmaschine und Index sind die „Hybriden“, die beide Funktionen miteinander kombinieren. So bietet beispielsweise Excite  neben einer Suchfunktion ausgewählte Seiten auch nach „Channels“ sortiert an.

Alle Suchmaschinen funktionieren grundsätzlich nach dem selben Prinzip, unterscheiden sich aber in signifikanten Details. Das macht es schwierig, abwechselnd mit verschiedenen Maschinen zu suchen: während eine Suchmaschine zum Beispiel Boolesche Operatoren wie AND und NOT versteht, muss man die nächste mit + oder – füttern, um dieselben Funktionen auszuführen. Im nächsten Teil wird darum erklärt, welches die Bestandteile sind, aus denen sich alle Suchmaschinen zusammensetzten, bevor ich auf die Unterschiede zwischen den verschiedenen Suchmaschinen  eingehe.

Wegen dieser „Wanderungen“ trugen die Suchmaschinen der ersten Generation oft Namen wie The Wanderer, später auch die Namen von Spinnenarten (zum Beispiel Lycos oder Inktomi).

Woraus besteht eine Suchmaschine?

Alle Suchmaschinen haben drei Elemente, zu denen als erstes der Robot gehört, der manchmal auch „Crawler“ oder „Spider“ genannt wird. Er durchkriecht auf der Suche nach Daten das Netz. Die beiden anderen Elemente sind der Index und das Suchmaschinen-Interface.

Der Robot wandert durch das Internet, und sammelt dabei Webseiten, die er auf seinen Server überträgt. Dort werden sie in den Index eingefügt. Dann folgt er den Links auf der gefundenen Seite weiter zur nächsten Seite. Wegen dieser Funktionsweise braucht ein Robot keine lange Liste von URL’s, um seine Suche zu beginnen. Eine einzige Seite mit Hotlinks, von denen er zu anderen Seiten weitergeschickt wird, genügt.

Man kann das, was der Robot tut, darum mit der Aufgabe vergleichen, ein Telefonbuch zu schreiben, wenn man nur eine einzige Telefonnummer kennt: man müsste diese Telefonnummer anrufen, den Teilnehmer nach allen Telefonnummern, die er kennt, fragen, diese Telefonnummern anrufen, bei diesen Teilnehmern wiederum alle bekannten Telefonnummern erfragen, und so weiter. Theoretisch könnte man mit dieser Methode irgendwann alle Telefonnummern der Welt finden.

So, wie man mit dieser Methode freilich die Telefonnummern von jemand, der sie für sich behält, nicht herausbekommen würde, so findet der Robot von sich aus auch keine Seiten, die nicht mit anderen verlinkt ist. Anbieter, die nicht wollen, dass ihre Webseiten gespidert werden (zum Beispiel, weil sich der Inhalt regelmäßig ändert, oder weil sie nicht wollen, dass ihr Server von den Robot-Abfragen überlastet werden, kann das mit einer einfachen Test-Datei erreichen: „robots.txt“.

Der Robot Exclusion Standard

Wenn ein Robot „gut erzogen“ ist, hält er sich an den „Robots-ExclusionStandard“, dieser Standard ist kein „offizielles“, von irgendeiner Internet Institution entwickeltes Gesetz, sondern eine Übereinkunft, die die Mitglieder der „Robot“-Mailing-Liste.

Am 30. Juni 1994 informell getroffen haben. So eine Übereinkunft war nötig geworden, weil sich 1993 und 1994 Situationen häuften, in denen Server durch ununterbrochene Robot-Zugriffe lahm gelegt wurden, wie es im „Robots Exclusion Standard“ heißt:

 

Hat der Robot eine Seite und ihre URL einmal entdeckt, kehrt er in regelmäßigen Abständen zu ihr zurück, und prüft, ob sich etwas verändert hat. Dabei sollte man sich die Netzwanderungen des Robots nicht wie eine wirkliche, räumliche Reise durchs Netz vorstellen, der Robot ist vielmehr eine Art automatisierter Browser, der sich von einem zentralen Server aus selbständig durchs Netz klickt.

Meist durchstöbert mehr als nur ein Robot das Netz, bei Lycos waren es damals nach Firmenangaben zum Beispiel 20. automatisierte Software Programme, die sich gleichzeitig durchs Netz bewegen. Um den Server nicht zu überlasten, „klicken“ sie sich dabei allerdings langsamer durch eine gefundene Seite als es ihnen technisch möglich ist, das heißt nicht schneller als mit einem Seitenaufruf alle 30. Sekunden.

Ein entscheidender Unterschied zwischen den verschiedenen Robot Programmen ist ihre Vorgehensweise, wenn sie eine Seite gefunden haben: die sogenannte traversal strategy. Hierbei wird unterschieden zwischen Depth-first search, Breadth-first search und Random search. Diese verschiedenen traversal strategies ergeben sich aus der Arbeitsweise des Robots. Weil er jede Seite auf seinen Server lädt, um sie dort zu indexieren, aber nicht alle miteinander durch Links verbundenen Seiten auf einmal laden kann, muss er eine Art Angriffsplan entwickeln. Dabei geht er im Grunde genauso vor, wie es ein Mensch tun würde, der manuell Dokumente oder Webseiten durchsucht:

Die eine Methode ist es, mit einer beliebigen Webseite anzufangen, ihren Text aufzunehmen, und alle URL’s, zu denen es von dieser Seite aus Links gibt, auf eine immer länger werdende Liste zu schreiben. Dann würde man dasselbe mit der ersten URL auf der Liste machen. Nachdem man diese URL aufgenommen hat, könnte man sie von der Liste streichen. Diese Art von Algorithmus nennt man eine depth-first search, weil man sich dabei weiter und weiter von der ursprünglichen URL entfernt, bis man zu einer Seite kommt, die keine Links hat. Dann kehrt der Spider zu der Ausgangsseite zurück und folgt von da aus der nächsten Link-Kette….

Man kann an diesem Algorithmus auch eine Kleinigkeit ändern: neu entdeckte URL’s werden nun an das Ende der Liste, und nicht mehr an ihren Anfang gesetzt. Diese simple Änderung nennt man breadth-first search… Der Effekt davon ist, dass man zuerst alle Seiten abruft, die einen Link von der Ausgangs Homepage entfernt sind, dann alle Seiten, die zwei Links entfernt sind und so weiter.

 

AltaVista arbeitet zum Beispiel mit einem Breadth-first-System, während Lycos nach dem Depth-first-System Daten sammelt. Der Random Search ist eine Kombination dieser beiden Systeme, bei dem der Robot nach einem Zufallsprinzip URLs von der Liste aufruft mal von den vorderen, mal von den hinteren Rängen.

Dieser Index (oder Katalog) ist das zweite Element der Suchmaschine. An ihn liefert der Robot seine Suchergebnisse zurück. Bei manchen Suchmaschinen erhält der Index eine vollständige Kopie aller Seiten, die der Robot bei seinen Reisen durchs Netz gefunden hat (zum Beispiel Alta Vista), andere speichern nur die ersten hundert Worte jeder gefundenen Page (zum Beispiel Infoseek.

Wenn sich die Seite ändert, sollte der Robot das bei seinem nächsten Besuch merken, und die veränderten Informationen an den Index weitergeben. Allerdings kann zwischen dem Robot Besuch auf der einen Seite und deren Indexierung eine gewisse Zeit vergehen. So lange eine Seite nicht im Index ist, kann sie über die Suchmaschine auch nicht gefunden werden: Wie lange es dauert, bis ein Robot eine URL besucht hat und diese anschließend im Index auftaucht, darüber gehen die Angaben von Anbietern und eigene Erfahrungen weit auseinander.

Das Suchmaschinen Interface ist das dritte Element der Suchmaschine. Wenn ein User eine Anfrage eingibt, arbeitet sich dieses Programm durch die Millionen von Seiten im Index der Maschine, sucht nach Treffern und gibt ihnen ein „Ranking“. Dieses Programm entscheidet, wie und an welcher Stelle eine Seite bei einer Suche ausgespuckt wird. Wer verstanden hat, wie dieses Programm funktioniert, kann Suchmaschinen nicht nur selbst effektiver benutzten, sondern sich auch erklären, nach welchen Kriterien die oft willkürlich erscheinenden Bewertungen zustande kommen.

Um die Seiten entsprechend der User Anfrage zu bewerten, bedienen sich die Suchmaschinen einer Reihe von Regeln. Am wichtigsten ist es für die Suchmaschine, an welcher Stelle sich der Suchbegriff oder die Suchbegriffe auf der Seite befinden und wie häufig diese vorkommen. Der wichtigste Standort für das Suchwort ist die Titelzeile. Wenn ein Suchwort zwischen den HTML-Tags <titel> und </titel> steht, dann betrachten die meisten Suchmaschine dieses Dokument als relevanter als eins, in dem das Suchwort erst im <body>-Text vorkommt. Auch wenn ein Suchwort im eigentlichen Text weit oben steht (zum Beispiel in einer Überschrift oder im ersten Satz), bewertet die Suchmaschine dieses Dokument ebenfalls als relevanter als eine Datei, bei der das Suchwort erst später im Text erscheint.

Die Häufigkeit, mit der das Suchwort im Text vorkommt, ist ein anderer Faktor, von dem das Ranking abhängt, je häufiger ein Wort im Verhältnis zu den übrigen Worten auf einer Seite vorkommt, desto wichtiger muss es sein. Das bedeutet freilich auch, dass die Suchmaschinen quasi „automatisch“ kurze Texte für wichtiger ansehen als lange. Eine Seite, auf der der Text nur aus dem Suchwort besteht, „zählt“ mehr, als ein langer Text, auch wenn in ihm das Suchwort immer wieder vorkommt.

Nach diesem Prinzip arbeiten alle Suchmaschinen. Der Unterschied zwischen den verschiedenen Maschinen liegt in den Details. Das beginnt damit, dass einige Suchmaschinen mehr Webseiten verzeichnen als andere. Einige Suchmaschinen indexieren diese Seiten auch häufiger als andere, weil ihr Robot häufiger die gesammelten Links überprüft. Deswegen sucht jede Suchmaschine in einer anderen Sammlung von Seiten als die Konkurrenz.

Bei einigen Suchmaschinen wird außerdem die „Beliebtheit“ von Seiten in die Bewertung miteinbezogen: WebCrawler und Lycos prüfen anhand ihrer Datenbank auch, wie viele Links es auf diese Seite gibt, und beziehen die Anzahl der Links in ihre Bewertung der Seite mit ein: je mehr Links es auf eine Seite gibt, desto „beliebter“ und folglich „besser“ muss sie auch sein. Wie ich zeigen werde, trägt dieser Mechanismus zu einer Hierarchisierung des Internet bei, weil sie Seiten, zu denen viele Links führen, bevorzugt, und dadurch populäre Seiten noch populärer werden, während Seiten, zu denen weniger Links führen, auch in der Hierarchie der Suchmaschine noch weiter nach unten rutschen.

Einige der Hybrid Suchmaschinen beurteilen außerdem Seiten, die in ihrem von Redakteuren zusammengestellten Index stehen, als relevanter ein als andere Seiten wenn eine Homepage gut genug ist, um ein Review zu bekommen, dann ist sie wahrscheinlich auch relevanter als eine Seite, die nicht besprochen worden ist.

Viele Webdesigner glauben, dass die Angaben in den Meta-Tags die wichtigsten Angaben für eine Suchmaschine sind und das man diese sogar regelrecht steuern könnte, wenn man in den Meta-Tags die richtigen Suchbegriffe versteckt hat.

Das stimmt nicht, das war früher nicht so, HotBot und Infoseek bewerten die Stichworte in den Meta-Tags einer Seite geringfügig höher als die Worte im Text. Aber Excite liest sie zum Beispiel gar nicht, und die Erfahrung zeigt, dass auch HTML-Seiten, die überhaupt keine Meta-Tags haben, gut bei den Suchmaschinen platziert sein können. Was sagt uns das?

In letzter Zeit sind einige Suchmaschinen dazu übergegangen, Sieiten für „Spamming“ zu bestrafen, in dem sie diese ganz aus dem Index verbannen. Als Spamming betrachtet man es zum Beispiel bei Vista, wenn ein Wort auf einer Seite häufig wiederholt wird. Gerade die Anbieter von Sexseiten verbergen in den Meta-Tags gerne Hunderte von Suchbegriffen. Einige Suchmaschinen Anbieter haben darum ihre Index-Software so programmiert, dass sie Stichworte in den Meta-Tags ignoriert, die öfter als dreimal vorkommen.

 

Als WWW-„Spam“ gilt es aber vor allem, wenn man auf einer Seite „unsichtbare“ Worte unterbringt, indem diese mit der gleichen Farbe wie die Hintergrundfarbe geschrieben werden. Auf vielen Porno-Seiten finden sich auf den Eröffnungsseiten die üblichen Wortketten (sex,frauen, porno, etc), die zum Beispiel in rosa auf einem rosa Hintergrund stehen. Während der normale Surfer diese Worte nicht sieht, liest die Suchmaschine sie wie normal sichtbaren Text.

Infoseek schließt Seiten, bei denen die Schriftfarbe die gleiche wie die Hintergrundfarbe ist, inzwischen aus dem Index aus; man wird erst wieder aufgenommen, wenn man die Seite umgestaltet und die Wiederaufnahme per Email „beantragt“ hat, und die Seite von Mitarbeitern von Infoseek überprüft worden ist. Wer nochmal bei dem selben „Vergehen“ ertappt wird, wird für immer aus dem Verzeichnis der Suchmaschine ausgeschlossen.

Zwei features von WWW-Seiten machen den Robots der Suchmaschinen besondere Probleme: Frames und CGI-Code. Daten, die in Frames stehen, finden normale Suchroboter nicht. Wie ein Netzsurfer, der einen alten Mosaic-Browser benutzt, finden die Roboter nur Informationen, die nicht in Frames „verborgen“ sind. Den Links, die zum Beispiel von einem „Inhaltsverzeichnis-Frame“ in eine Seite führen, können sie nicht folgen. Das bedeutet für die vielen WWW-Angebote, deren Inhalt nur in Frames untergebracht ist, dass der Robot von der gesamten Seite nur folgende Worte speichert: „Sorry! You need a frames-compatible browser to view this site.“ Wer trotzdem will, dass der Text, der im Frame steht, gefunden werden soll, der muss den Text der Seite nochmal zwischen den sogenannten <no frames>-Meta-Tags unterbringen.

Ein anderes Problem für die Robots der Suchmaschinen sind Common Gateway Interface(CGI)-Scripts, die verwendet werden, damit der User bei einer Seite nach Daten suchen kann. Die gesuchten Daten werden dann auf „dynamischen Seiten“ angezeigt, das heißt sie sind eigens auf die Anfrage hin generiert worden. Für Suchmaschinen sind diese ad hoc erstellten Dokumente, die nur wegen der Robot Anfrage entstanden sind, uninteressant.

Um zu verhindern, dass der Robot tausende von Seiten sammelt, die er selbst generiert hat, hat zum Beispiel Louis Monier von Vista seinen Robot so programmiert, dass er keine URLs mit einem Fragezeichen einsammelt, weil eine mit einem CGI-Skript generierte Seite immer dieses Satzzeichen enthält: „a crude way of avoiding cgi scripts“, wie er dieses Verfahren in einer Email an den Autor nannte. Durch diese Funktion werden Suchmaschinen auch beispielsweise davon abgehalten, sich gegenseitig zu durchsuchen, weil auch die Anfragen an die meisten Suchmaschinen mit einem CGI-Skript abgewickelt wird.

Mein Fazit:

Alle diese technischen Details sind beim ersten Lesen wahrscheinlich verwirrend. Zusammenfassend kann man sagen, dass die Anbieter von Suchmaschinen diese so gut wie überhaupt nicht bewusst „steuern“, und bestimmte Seiten willkürlich bevorzugen oder benachteiligen. Es sind eher die „einprogrammierten“ Paradigmen der Robots und der Index-Software, die dazu führen, dass eine Site in der Suchhierarchie an einer bestimmten Stelle auftaucht. Problematisch erscheint an diesen Paradigmen aus der Sicht der User und Content Provider

  1. das kurze Texte gegenüber langen bevorzugt werden,
  2. das die <titel>- und die Meta-Tags, die vielen Usern, die eine HTML-Seite gestalten, wahrscheinlich überhaupt nicht bekannt sind, eine so entscheidende Rolle bei der Platzierung in einigen Suchmaschinen spielen (die gängigen HTML-Editoren generieren in der Regel die Meta-Tags, ohne dass der User darauf Einfluss hat, wenn er sich nicht mit dem Source-Code herumplagen will),
  1. das einige Suchmaschinen (wie zum Beispiel Excite) die angebliche „Popularität“ einer Site dazu benutzten, ihre Relevanz zu bestimmen.

Allerdings muss man sich immer wieder ins Gedächtnis rufen, dass keiner der oben angeführten problematischen Programm-Features bei allen Suchmaschinen anzutreffen ist, sondern sich alle Suchmaschinen  in entscheidenden Details unterscheiden.

Inzwischen haben einige Suchmaschinen damit begonnen, „Spamming“ Technik durch Modifikation ihrer Robot und Index-Programme zu bekämpfen. Dies erscheint mir aber nicht als unberechtigte Einflussnahme, sondern eher als notwendige „Verteidigungsmaßnahmen“ gegen die zum Teil tatsächlich reichlich dreisten Versuche von Content-Providern, ihre Seiten zu promoten.

Das einige Suchmaschinen inzwischen allerdings die Webseiten von Servern wie „Ourworld“ von „CompuServe“, „Tripod“ und „Geocities“, auf denen man sich umsonst eine Webseite anlegen kann, ignorieren, ist allerdings eine nicht gerechtfertigte Einflussnahme auf die Auswahl von URLs, die diese Suchmaschinen liefern und zwar eine, die die Suchmaschinen selbst um einige der ungewöhnlichsten und „Internet-typischsten“ Seiten in ihrer Datenbank bringt.

Diese Entwicklung kann dazu führen, dass bestimmte Inhalte von Suchmaschinen nicht mehr oder wenigstens nicht mehr so leicht gefunden werden können. Sehr kritisch ist in diesem Zusammenhang zu sehen, dass alle großen Suchmaschinen inzwischen „strategische Partnerschaften“ mit anderen Seiten geschlossen haben. Hier könnten wirtschaftliche Interessen zu weiteren „Selbstbeschneidungen“ in den Datenbanken der Suchmaschinen führen.

 


  • Hans Peter Klose / 23. Oktober 2018:
    Ich möchte mich noch einmal bedanken das sie unsere Homepage bei Google von Platz 478 auf Platz 69 gebracht nur... »
  • Bernd Schuster / 19. Oktober 2018:
    Vielen Dank Herr Alper für ihre Hilfe mit den Metaangaben von Platz 454 jetzt auf 224 und das innerhalb 6... »