Ranking-Hub: Google und CiteSeer SEO | Geheimtipps-Tricks | Black-Hat-SEO? | Ranking-Hub: Google und CiteSeer – SEO Rocket Service

Tag Archives: Ranking-Hub: Google und CiteSeer

  • 0

Ranking-Hub: Google und CiteSeer

Tags : 

Ranking-Hub vergleich zweier Suchmaschinen, Google und CiteSeer

Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumenten Menge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt, dass die Suche in einer zwar in homogenen aber zusammenhängenden Dokumenten Menge wie dem Internet unter Berücksichtigung der Dokumenten-Verbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (Page Rank), das in diesem Artikel kurz erklärt wird.

 

Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert. Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumenten Menge und ermöglicht den Einsatz von Ranking Verfahren, die auf den von Google genutzten Verfahren basieren.

 

1 Einführung

Das Internet ist zu einem viel genutzten Informationsmedium geworden. Dabei haben die Informationssuchenden unterschiedliche Motivationen, Bedürfnisse und Ansprüche. Man kann die Nutzer des Internets in mehrere Klassen unterteilen. Für diesen Artikel ist eine einfache Unterteilung, die aus zwei Internetnutzer Gruppen besteht, von Bedeutung: Benutzer, die nach allgemeinen Informationen im Internet suchen, und Benutzer, die nach wissenschaftlicher Information wie zum Beispiel Veröffentlichungen zu einem eng abgegrenzten Themenbereich suchen. Die Suchergebnisse der ersten Benutzergruppe sind hauptsächlich Webseiten, die meistens eine wohldefinierte Hypertext Struktur (xml-, html- usw.) haben, und die sich mit der Zeit ändern. Dagegen sind die Suchergebnisse der zweiten Gruppe meistens wissenschaftliche Dokumente in einem Container Format wie PDF, die keine solche Struktur aufweisen und sich mit der Zeit auch nicht mehr ändern.

 

Sowohl die erste als auch die zweite Gruppe der Internetbenutzer wird heutzutage im Internet, trotz seiner enormen Größe, mit Hilfe von verschiedenen Suchmaschinen fündig. Das heißt die gesuchten Dokumente gehören zu den ersten zehn Treffern. Die erfahrenen Internetbenutzer wissen, dass sie abhängig von der gesuchten Information mit verschiedenen Suchmaschinen suchen müssen. So sucht ein Benutzer der ersten Gruppe im Internet meistens mit der Suchmaschine Google. Der Benutzer der zweiten Gruppe sucht abhängig vom Fachgebiet mit einer wissenschaftlichen Suchmaschine. Die Notwendigkeit dieser Differenzierung ist in den verschiedenen Bewertungsverfahren der Suchmaschinen begründet, welche am Beispiel zweier Suchmaschinen, Google und CiteSeer in diesem Artikel erläutert werden sollen.

 

Die Internet Suchmaschine Google, die es seit 1999 gibt, bearbeitet heute über 75% aller Suchanfragen in Deutschland und ist dank seiner hervorragenden Gewichtung der Suchergebnisse die wohl bekannteste Suchmaschine der Welt. CiteSeer ist eine wissenschaftliche Suchmaschine, die frei zugängliche wissenschaftliche Literatur hauptsächlich aus dem Informatik Gebiet in Form von Artikeln, Konferenzbeiträgen, Reviews usw. im Internet findet und indexiert, also suchbar macht. Die Gegenüberstellung beider Suchmaschinen ist deswegen interessant, weil die Entwicklung ihrer Ranking Methoden trotz verschiedener Voraussetzungen eng zusammenhängt.

 

Die Suchmaschinen vor Google bewerteten die Webseiten selbst und benutzten dabei die Inhaltsspezifischen Bewertungskriterien des Information Retrieval. Die Suchmaschine Google hat eine Wende geschaffen, indem sie zusätzlich zu den erwähnten Bewertungskriterien die Popularität einer Webseite berücksichtigt. Für die Bestimmung der Popularität einer Webseite benutzt Google andere Webseiten, die gut extrahierbare Verweise (Links) auf die zu bewertende Webseite haben.

Die Idee dieses menschlichen Ranking ist allerdings nicht neu, sie ist angelehnt an die Bewertung wissenschaftlicher Publikationen mittels Analyse der bibliographischen Angaben (Zitate-Analyse), mit welcher in den 50 er Jahren begonnen wurde. Die rasante Entwicklung der Computertechnologie und die wachsende Anzahl wissenschaftlicher Veröffentlichungen, von denen viele elektronisch durch das Internet frei zugänglich waren und sind, motivierten das Entstehen wissenschaftlicher Suchmaschinen wie CiteSeer. Das Ranking stellte für CiteSeer kein schwer lösbares Problem mehr dar, da die technische Umsetzung des Ranking von den Google Entwicklern übernommen werden konnte. Das größte Problem, dem die CiteSeer Entwickler gegenüberstehen, war und ist die Extraktion von Literaturangaben sowie Meta Information, die unentbehrlich für das Ranking sind. Dem gegenüber ist es für die Google Entwickler momentan am problematischsten, die Grenze zwischen manipulierten und nicht manipulierten Webseiten zu ziehen.

2 Ranking

Wenn eine Suchmaschine eine Rangfolge sortierte Liste von Dokumenten zurück gibt, bedeutet das, dass eine Relevanz Beurteilung (Ranking) der Dokumente seitens der Suchmaschine stattgefunden hat. Das Ranking des Benutzers weicht im allgemeinen hiervon ab. Eine Suchmaschine benutzt immer das gleiche Beurteilungsverfahren, wohingegen die Beurteilung verschiedener Benutzer verschieden ausfällt. Da Suchmaschinen die menschliche Intelligenz nicht besitzen, werden ihre Relevanz Beurteilungen auf mathematische Modelle und Heuristiken reduziert. Die bekanntesten der mathematischen Modelle stammen aus dem Information Retrieval, das Boolesche, das Vektorraum und das probabilistische Modell. Die bekanntesten Heuristiken, die von Internet Suchmaschinen für das Ranking verwendet werden, basieren auf der Information, die implizit durch die Hypertext Eigenschaft der Web Dokumente gegeben ist.

Die Relevanz Beurteilung und somit der Ranking Algorithmus ist oftmals entscheidend für die Akzeptanz und den Erfolg einer Suchmaschine. Zu Eigenschaften guter Ranking Algorithmen zählen unbedingt Geschwindigkeit.

Skalierbarkeit. Die Datenmenge des Internets verdoppelt sich etwa alle 3 Monate, deswegen müssen alle Algorithmen einer Suchmaschine insbesondere auch Ranking Algorithmen gut skalieren.

Spam Resistenz. Viele Online Anbieter verdienen ihr Geld dank hoher Google Platzierungen. Deswegen versuchen sie unbedingt die Ranking Algorithmen der großen Suchmaschinen sehr gut kennen zu lernen und ihre Webseiten darauf zu optimieren. Sie bauen hunderte von Brücken Seiten, die auf ihre Webseite verweisen, bauen zyklisch verlinkte Webseiten und bringen in ihre Webseiten versteckten Text ein. Die Folge dieser Methoden ist ein Index Spamming, welches die inhaltliche Qualität der Suchergebnisse der betroffenen Internet Suchmaschinen rapide verschlechtert. Ein guter Ranking Algorithmus muss daher Spam resistent sein, das heißt nicht aufgrund einfacher Testverfahren leicht zu verstehen und daher leicht zu manipulieren sind.

3 Google

In der letzten Zeit hat sich Google weltweit zur am meisten benutzten Suchmaschine entwickelt. Die besondere Merkmale von Google sind:

Benutzerfreundlichkeit: einfache Bedienung, übersichtliche Präsentation der Suchergebnisse.

Eine gute Qualität der Suchergebnisse, die auf dem entwickelten Ranking Verfahren beruht. Index plus Cache, zusätzlich zu den indexierten Seiten verwaltet Google die eigenen Kopien von besuchten und indexierten Webseiten.

Ähnliche Seiten finden.

Die überlegende Qualität der Suchergebnisse spielt angesichts der Größe und Inhomogenität des Internets eine große Rolle. Wie in vielen anderen Suchmaschinen für das Internet wurde in Google versucht, dass Problem der Relevanz Beurteilung der Suchergebnisse mit Heuristiken, die zum Teil aus dem Information Retrieval kommen, zu lösen. Einige dieser Heuristiken sind:

Je mehr Begriffe aus der Suchanfrage im Titel einer Seite auftauchen, desto relevanter scheint die Seite für die jeweilige Anfrage zu sein. Diese Annahme kann analog für bestimmte Meta-Tags wie description und keywords gemacht werden.

Je häufiger ein Suchbegriff innerhalb einer Seite auftritt, desto relevanter scheint diese Seite für die gestellte Anfrage zu sein. Dabei werden in der Regel die Stellen (Titel, Überschrift, Meta-Tag), an denen das gesuchte Wort vorkommt, unterschiedlich gewichtet.

Je mehr Webseiten auf eine Webseite verweisen, desto bedeutsamer ist diese Webseite.

Die zwei ersten Heuristiken sind für Webseiten anfällig, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden. Die Verwendung der letzten Heuristik als einziges Bewertungskriterium hat für jede Anfrage die gleiche Ergebnisliste zu Folge. Kombiniert man die letzte Heuristik mit den zwei erwähnten, vermeidet man das Auftreten von automatisch generierten Suchmaschinenoptimierten Webseiten ohne jegliche Einbindung in das Internet oben in Suchergebnislisten. Die einzige Schwierigkeit hierbei ist die Gewichtung der einzelnen Faktoren. Die letzte Heuristik stellt die Grundidee des von Google benutzten Ranking Verfahrens namens Page Rank dar.

3.1 PageRank-Verfahren

Die Idee für das PageRank Verfahren stammt ursprünglich aus der Analyse der bibliographischen Angaben wissenschaftlicher Literatur. Die Analyse und Indexierung der Literaturangaben nutzen die Tatsache, dass Verfasser von Dokumenten andere Dokumente zitieren. Mit jedem neu analysierten und gespeicherten Dokument werden auch die bibliographischen Angaben aller von ihm zitierten Dokumente gespeichert. Dadurch sind neue und ältere Publikationen miteinander verlinkt. Die Link Struktur, die dabei entsteht, kann man als gerichteten Graphen auffassen. Dabei enthält dieser Graph wertvolle und objektive Informationen über die Bedeutung einer einzelnen Publikation.

Analog der Zitat Analyse geht man bei der Analyse von Webseiten Links vor, obwohl die Übertragung der Konzepte aus der wissenschaftlichen Zitat Analyse auf das Internet nicht trivial ist. Zum Beispiel sollte man nicht vergessen, dass sich das Internet als Sammlung von Webseiten grundsätzlich von der wissenschaftlichen Literatur unterscheidet. Insbesondere gibt es für viele Webseiten keinen übergreifenden thematischen Kontext. Darüber hinaus sind Veröffentlichungen im Internet meistens kostenlos und unkontrollierbar.

Das Page Rank Verfahren betrachtet und bewertet Webseiten nicht einzeln, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der Page Rank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Vereinfacht lässt sich der Algorithmus wie folgt beschreiben:

  1. Jeder Knoten (Webseite) wird mit einem Startwert initialisiert. Aus verschiedenen Gründen initialisiert man die Knoten mit Anzahl der Knoten1 .
  2. Aus den Gewichten der Knoten werden die Gewichte der ausgehenden Kanten (Forward Links) bestimmt.
  3. Aus den Gewichten der eingehenden Kanten (Backlinks) werden die Knotengewichte neu berechnet als Kantengewichte.
  4. Die Schritte 2 bis 4 werden so oft wiederholt, bis die Knotengewichte konvergiert sind bzw. bis eine hinreichende Stabilität der Rank Werte der Seiten erreicht ist.

 

Abbildung 1: Beispiel-Graph vor der Berechnung und nach der Berechnung des Page Rank

PR(X) der PageRank der Seite X, von der ein Link auf die Seite A zeigt,

BA die Menge der Seiten, die Links auf A enthalten

N(X) die Gesamtanzahl der ForwardLinks auf der Seite X und c ein Faktor, der in zweierlei Hinsicht wichtig ist. Der erste Grund sind Seiten, die Backlinks aber keine Forwardlinks haben, der zweite Grund wird im Abschnitt 3.2 erläutert. Der Faktor c wird zwischen 0 und 1 gewählt.

PageRank vollständig:

 

3.2 Random Surfer Modell

Seiten ziehen zur Erläuterung und Begründung ihres Ansatzes des Page Rank Verfahrens das Random Surfer Modell heran. Sie betrachten das Page Rank Verfahren als Modell des Verhaltens eines Benutzers, der unabhängig von seiner Anfrage und mit einer bestimmten Wahrscheinlichkeit Webseiten besucht. Dabei wird die Wahrscheinlichkeit vom Rank der Seite bestimmt. Entsprechend dem Modell verfolgt der Benutzer zufällig die Verweise der verlinkten Webseiten (also er klickt sich von Seite zu Seite). Entsprechend dem Modell beendet der Benutzer mit einer durch Faktor c gegebenen Wahrscheinlichkeit sein durch die Verweise gelenktes Surfen und fängt das gelenkte Surfen mit einer zufällig gewählten Webseite an, die er mit der durch den Faktor cE(A) gegebenen Wahrscheinlichkeit besucht.

3.3 Manipulation der Suchmaschinen und Google

Für viele Betreiber der Internetseiten ist es wünschenswert und sogar lebenswichtig möglichst zu Beginn der Trefferliste aufgelistet zu werden. Viele Anbieter versuchen deswegen die Suchmaschinen zu manipulieren. Voraussetzung für eine erfolgreiche Google Manipulation sind viele Backlinks, Doorway Seiten, sowie ein hoher Page Rank der verlinkten Seiten. Es ist kein Problem beliebig viele verlinkte Seiten zu erstellen, in der Vergangenheit legten clevere Webmaster Tausende von Seiten unter verschiedenen Adressen an, die auf das eigene Angebot verwiesen. Ein Problem ist unter den verlinkten Seiten ein Paar Seiten mit hohem Page Rank zu haben. Eine mögliche Lösung hierfür wäre zum Beispiel die Verlinkung mit einem Nachrichtenportal, dessen Seiten hoch bewertet sind. Nachrichtenportale bieten aktuelle Nachrichten zu Geschehen im In und Ausland, neben den Nachrichten finden sich jedoch auf den Nachrichten Portal Seiten viele Verweise auf kommerzielle Angebote. Die Anbieter dieser Online Angebote profitieren dabei in zweierlei Hinsicht: erstens durch die Werbung auf einer bekannten Seite und zweitens durch den hohen Page Rank dieser Seite, der an ihre Seiten weitergegeben wird. Eine weitere Methode für die Google Manipulation wäre die Erstellung von Seiten Zyklen, die zu einer PageRank Konzentration führen.

Google reagiert auf die Suchmaschinenmanipulierer mit zahlreichen Updates ihrer Software (Cassandra, Esmeralda, Florida-Update). Manche Suchmaschinen Experten zweifeln allerdings daran, dass Google tatsächlich seine Software so wesentlich verbessert hat, dass sie die Arbeit der Suchmaschinenmanipulierer wie zum Beispiel Linkfarmen Betreiber automatisch erkennt. Es wird auch vermutet, dass im Hintergrund viel von Hand aussortiert wird, und dass man die penetranten Suchmaschinenmanipulierer auf eine Art schwarze Liste setzt. Das manuelle Aussortieren steht allerdings im Widerspruch zu der Einstellung von Google alle Suchgeschäftsvorgänge voll automatisch zu betreiben.

4 CiteSeer

CiteSeer ist eine digitale Bibliothek freizugängliche wissenschaftliche Literatur im Internet sie wurde an dem NEC Research Institut in Princeton entwickelt. Die Motivation für das Projekt CiteSeer war die Verbesserung der Verbreitung, des Auffindens (retrieval) und der Zugänglichkeit wissenschaftlicher Literatur. Der Aufgabenbereich der digitalen Bibliothek umfasst folgende Punkte:

Lokalisierung wissenschaftlicher Artikel: hierbei spielt die Effizienz eine entscheidende Rolle.

Volltextindexierung der Artikel (Artikel im PDF und Postscript-Format werden auch bearbeitet und indexiert).

Automatische Indexierung von Literaturangaben (analog zum Science Citation Index).

Extraktion von Meta Information wie Artikeltitel und Autorennamen aus den Artikeln bzw. Literaturangaben (dabei werden auch Mittel des Maschinellen Lernens angewandt).

Entwicklung von Algorithmen, die auf der Analyse der bibliographischen Angaben beruhen, und mit denen man die Lokalisierung verwandter Artikel durchführt.

Eliminierung von Duplikaten: das Internet enthält verschiedene Versionen eines Artikels, die auch in bibliographischen Angaben vorkommen. Hier ist wichtig verschiedene Angaben zu einem Artikel zu erkennen.

Analyse des Graphen bzw. der Vernetzung wissenschaftlicher Artikel: analog zum Vorgehen von Seiten versuchen die CiteSeer Entwickler die Hubs und die Authorities der wissenschaftlichen Literatur zu bestimmen.

Verteilte Fehler Korrektur: jeder Benutzer ist berechtigt, die gefundenen Fehler zu korrigieren.

Externe Verweise auf andere Datenbanken, die den gesuchten Artikel enthalten.

Neben der Volltextindexierung von wissenschaftlichen Arbeiten bietet CiteSeer die automatische Erkennung und Indexierung von Literaturangaben. Die indexierten bibliographischen Angaben werden für die Bewertung der indexierten Dokumente und für das Finden der zitierten Dokumente verwendet. So basiert das Ranking in CiteSeer (wie auch in Google) auf der Beziehung einzelner Dokumente zueinander.

Eine Webseite, die viele gute Links für ein bestimmtes Thema bietet. Gute Hubs zeichnen sich durch eine große Anzahl ausgehender Kanten (Links) zu guten Authorities aus.

Eine Webseite, die kompetente, aktuelle und verlässliche Information zu einem bestimmten Thema enthält.

4.1 Automatische Indexierung bibliographischer Angaben

Die automatische Indexierung bibliographischer Angaben hat gegenüber der klassischen Indexierung von Literaturangaben mehrere Vorteile. Die klassische Indexierung von Literaturangaben wird manuell gemacht. Sie hat deswegen hohe Kosten. Die automatische Indexierung bei CiteSeer hat geringere Kosten und ermöglicht darüber hinaus einen umfassenderen und aktuelleren Index, weil CiteSeer außer Zeitschriftenartikeln auch Konferenzbeiträge, technische Berichte, Vordrucke usw. indexiert. Die wissenschaftlichen Arbeiten, die von CiteSeer indexiert werden, zeichnen sich durch folgende Merkmale aus, sie sind frei zugänglich und haben einen für die computergestützte Bearbeitung geeignetes Format. Die automatische Bearbeitung der Dokumente schließt unter anderem ein:

Lokalisierung bibliographischer Angaben (Zitate) im Dokument Zitat Bezeichner wie benutzt werden, um den Abschnitt mit Literaturangaben in einem Dokument zu lokalisieren. Diese Bezeichner sind ein gutes Beispiel für die Felder einer Literaturangabe, die relativ einheitliche Schreibweise und Position haben: Zitat bezeichner stehen immer am Anfang einer Literaturangabe, und sie behalten das gleiche Format über alle Verweise im Dokument.

Extrahierung des Kontextes der Zitate Für jede Literaturangabe extrahiert CiteSeer mittels regularer Ausdrücke die Textstellen mit dem Literaturhinweis.

Parsen und Bearbeiten der Zitate: Es existiert eine große Vielfalt von Formaten der Literaturangaben. Ein ACI-System wie CiteSeer muss in der Lage sein, einen Artikel, der in unterschiedlichen Arbeiten in mehreren Formaten angegeben wird, als eine Literaturquelle zu erkennen. Ein Beispiel zeigt wie komplex die Aufgabe ist:

Wie man dem Beispiel entnehmen kann, beinhalten fast alle Felder (Titel, Autorenname, Jahr) Felder. Das Beispiel zeigt auch deutlich, dass es kein einheitliches Trennsymbol gibt: das Komma zum Beispiel wird oft benutzt um Felder zu trennen, das Komma kann aber auch im Artikeltitel vorkommen. Um Felder einer Literaturangabe trotzdem erfolgreich bestimmen zu können, benutzt CiteSeer neben den zahlreichen Heuristiken, die in den Veröffentlichungen nur kurz beschrieben werden, angelegte Datenbanken mit Autorennamen und Zeitschriften Titeln. Obwohl das Parsen der bibliographischen Angaben sehr kompliziert ist, erreichten die CiteSeer Entwickler mit den benutzten Heuristiken gute Ergebnisse.

Die Algorithmen, die von CiteSeer bei der Identifizierung und Gruppierung der bibliographischen Angaben der gleichen Artikel benutzt werden, können in drei große Klassen unterteilt werden:

Algorithmen, die auf der Berechnung der Editing (Bearbeitung) Distanz beruhen.

Algorithmen, die die aus dem Information Retrieval stammenden Statistiken über Wortfrequenzen benutzen.

Algorithmen, die auf probabilistischen Modellen basieren.

4.2 Analyse des Zitate-Graphen

Der Zitate Graph ist ein Netz mit wissenschaftlichen Dokumenten, die durch Literaturangaben zusammenhängen. Jeder Verweis auf ein Dokument kann als Indikator seines Einflusses gesehen werden. Wenn Dokument X auf Dokument Y verweist, sagt der Autor des Dokumentes X, dass Dokument Y wichtig ist und dass Dokument Y in einem inhaltlichen Zusammenhang zu dem Dokument X steht. Die Analyse des Zitate-Graphen in CiteSeer beruht auf den Verfahren, das Ranking von Webseiten entwickelt wurden. Auf der Basis dieser Algorithmen wurden mögliche Erweiterungen untersucht und in die Suchmaschine implementiert.

Das Ranking in CiteSeer basiert auf der Analyse des Zitate Graphen. Bei dieser Analyse werden die Selbstzitierungen erkannt und aus der Berechnung ausgeschlossen. Die Analyse des Zitate Graphen ermöglicht das Ranking der Suchergebnisse nach folgenden frei wählbaren Kriterien.

Zitate Anzahl. Es wird die Anzahl von Literaturangaben zu jedem Artikel berücksichtigt. Je höher die Anzahl der Zitierungen eines Artikels desto höher ist seine Wichtigkeit.

Erwartete Zitate Anzahl. Es wird die Anzahl von Literaturangaben zu einem Artikel und das Veröffentlichungsjahr des zitierten Artikels berücksichtigt. Hier findet eine Normierung der Literaturangaben durch Veröffentlichungsjahre statt. Dabei geht man davon aus, dass ein neuerer Artikel, der zum Beispiel genau so oft wie ein älterer Artikel zitiert wurde, wegen der kürzeren Zitierungszeit höher zu bewerten ist.

So vermeidet man eine der denkbaren Manipulationen der Suchergebnisse und Authorities (Behörden) bestimmt. Dabei werden Hubs im Kontext wissenschaftlicher Artikel als eine Einführung (Review, Resumee/ Überblick, Tutorial) in ein Themenbereich interpretiert und höher bewertet, wenn der Benutzer das Kriterium Hubs für das Ranking gewählt hat.

Die Graph Analyse macht es darüber hinaus möglich, ausgehend von einem bekannten Dokument weitere Dokumente zum selben Thema zu finden, die entweder früher oder später verfasst wurden. Die Statistiken, die mittels der Analyse des Zitate Graphen erstellt werden können, die früher manuell erstellt werden mussten, erlauben unter anderem die Feststellung von Trends und Mustern des Veröffentlichung und Zitier Verhaltens in einzelnen wissenschaftlichen Gebieten.

5 Ranking: Google und CiteSeer

Obwohl Google wie auch CiteSeer die wissenschaftlichen frei zugänglichen Dokumente indexiert (wenn auch nicht in dem Umfang), ist es nicht empfehlenswert nach wissenschaftlicher Literatur im Netz mit Google zu suchen. Als Beispiel einer Google Suche, die Offensichtlich nicht die erwünschten Ergebnisse bringt, ist die Suche nach Arbeiten eines Autors namens Bollacker mit dem Suchwort Bollacker. In der Abbildung 2 sind die Ergebnisse der Suche dargestellt.

Die ersten Treffer sind wie erwartet Home Seiten verschiedener Menschen, mit dem Namen Bollacker, und keine wissenschaftlichen Dokumente. Die erweiterte Google Suche mit der Einschränkung des Dateityps liefert zwei bzw. zehn Treffer; je nachdem ob nur nach PDF oder nur nach Postskript Dokumenten gesucht wurde.

Die CiteSeer Suche mit dem Suchwort Bollacker liefert dagegen eine Liste von wissenschaftlichen Veröffentlichungen, die man nach verschiedenen Kriterien anordnen kann: nach Zitat Anzahl, nach Datum, nach Gebrauchshäufigkeit usw.! In der Abbildung 3 ist die nach Zitat Anzahl geordnete Ergebnisliste dargestellt.

Wie bereits beschrieben (Abschnitte 3.1 und 4.2), basiert das Ranking sowohl bei CiteSeer als auch bei Google unter anderem auf der Beziehung einzelner Dokumente zueinander. Sie wird bei Google in Form der Linking (Verknüpfung) Struktur und bei CiteSeer in Form der Literaturangaben Struktur abgebildet. Der Vergleich von Ergebnissen mehrerer Suchen nach wissenschaftlicher Literatur mit Google und CiteSeer zeigt deutlich, dass die Linking (Verknüpfung) Struktur in Google nicht die Information über Literaturangaben enthält. Es ist anzunehmen, dass auf diese Information bei Google bewusst verzichtet wird. Folgende Überlegungen würden dafür sprechen:

Die Bearbeitung von strukturlosen Dokumenten die korrekte und vollständige Extraktion von Literaturangaben und Meta Information ist zu kompliziert und sehr umfangreich.

Abbildung 2: Die ersten Ergebnisse der Google Suche nach Bollacker

 

Die Link Information des Web Graphen muss anders als die des Zitate Graphen bewertet bzw. gewichtet werden. Die Zahlen, die bei der Analyse des Web Graphen berechnet werden, haben eine andere Größenordnung als die Zahlen, die die Analyse des Zitate Graphen hervorbringt.

Das Random (Zufällig) Surfer Modell des Page Rank Verfahrens hat bei der Analyse des Zitate Graphen keine Rechtfertigung. In dem Zitate Graphen gibt es keine Rank Sinks, also sind auch keine Rank Sources (Quellen) nötig.

Hier ergibt sich die Frage: gewichten oder gänzlich trennen? Die Antwort auf die Frage hat Google bereits mit seiner wissenschaftlichen Suchmaschine (http://scholar.google.com/), die am 18.11.2004 an den Start ging, geliefert.

Das Ranking bei CiteSeer basiert zwar auf den von Page entwickelten Verfahren, liefert aber im Gegensatz zu Google mehrere Ranking Möglichkeiten. Für keine dieser Ranking Möglichkeiten, die auf der Analyse des Zitate Graphen basieren, geben die CiteSeer Entwickler an, dass die Bewertung einzelner Veröffentlichungen an die zitierende Arbeiten weitergegeben wird. Der Grund dafür liegt in der Natur des Zitate Graphen: er enthält keine Zyklen.

In diesem Artikel wurde gezeigt, wie die Entwicklung der Ranking Algorithmen für zwei Suchmaschinen zusammenhängt. Die eine Suchmaschine ist die Internet Suchmaschine Google und die zweite Suchmaschine ist die wissenschaftliche Suchmaschine CiteSeer. Dabei wurde gezeigt,

Abbildung 3: Die ersten Ergebnisse der CiteSeer-Suche nach Bollacker

 

 

 

dass das Page Rank Verfahren an die Idee der Zitate Analyse angelehnt wurde. Diese Idee wurde mit dem Ranking Algorithmus in Google umgesetzt und mit dem Ranking Verfahren in CiteSeer für die Suche nach wissenschaftlichen Dokumenten weiterentwickelt.

Mein Fazit:

Wir haben gelernt das eine Wissenschaftliche Suchmaschine wie CiteSeer unter ganz andere Kriterien arbeitet und sein Ranking erstellt wie Google. Aber jede Suchmaschine arbeitet nach verschiedene Ranking Systeme (Anwendungen)  was die meißten Suchmaschinen gemeinsam haben ist die Link Bewertung (Backlinks).

 

 


  • Hans Peter Klose / 23. Oktober 2018:
    Ich möchte mich noch einmal bedanken das sie unsere Homepage bei Google von Platz 478 auf Platz 69 gebracht nur... »
  • Bernd Schuster / 19. Oktober 2018:
    Vielen Dank Herr Alper für ihre Hilfe mit den Metaangaben von Platz 454 jetzt auf 224 und das innerhalb 6... »