Robots, Suchmaschinen und seine Geschichte SEO | Geheimtipps-Tricks | Black-Hat-SEO? | Robots, Suchmaschinen und seine Geschichte – SEO Rocket Service

Robots, Suchmaschinen und seine Geschichte

  • 0

Robots, Suchmaschinen und seine Geschichte

Tags : 

Der erste Versuch ein „Inhaltsverzeichnis“ des Internets zu erstellen, hieß Archie. Archie bestand aus einem „Datensammler“ (data gatherer), der automatisch die Inhaltsverzeichnisse von anonymen FTP-Servern durchsuchte und einem Retrieval System, mit dem die User mit Suchworten nach FTP-Dateien suchen konnten. Der Suchdienst, der 1990 an der McGill University in Kanada entwickelt worden war, gehört spätestens ab 1992 zu den geläufigsten Internet-Tools. Damals mußten die User zu Archie telnetten, inzwischen ist der Suchdienst auch im WWW und kann dort mit Forms bedient werden, (http://www-ns.rutgers.edu/htbin/archie)

Archie war als Suchwerkzeug für FTP-Dateien so erfolgreich, dass er die Mitarbeiter des Rechenzentrums der University of Nevada in Reno 1992 dazu inspirierte, einen ähnlichen Index für Gopher Menues zu entwickeln, das den Namen Veronica.

Der Name kommt von dem Wort „Archive“, bei dem das „v“ weggelassen wurde.

Veronica soll angeblich die Abkürzung von „Very easy rodent-oriented net-wide index to computerized archive“ sein, zu deutsch etwa: „Sehr einfacher, nagetierorientierter netzweiter Index für computergestützte Archive“, sehr viel naheliegender ist allerdings eine andere Erklärung des Namens, nach der Veronica die Freundin des amerikanischen Cartoon-Helden Archie war.

Veronica ähnelt in vieler Hinsicht schon den heute gängigen, kommerziellen Suchmaschinen: Das Programm durchsuchte im Monatsrhythmus alle Gopher Menues, die beim „Mother Gopher“ an der University of Minnesota angemeldet waren. Suchen konnten mit Hilfe von Booleschen Operatoren, die auch heute noch bei den meisten Suchmaschinen wie Alta Vista eingesetzt werden. Und obwohl die Zahl der zu untersuchenden Dokumente für heutige Verhältnisse einigermaßen überschaubar war (im November 1994 verzeichnete Veronica 15 Millionen Dokumente aus Gopher-, FTP- und HTML-Space), wurde schon damals beklagt, dass man als User der unüberschaubaren Zahl von Dokumenten und den Suchmethoden von Veronica hilflos ausgeliefert sei.

Der erste Such-Robot für das gerade neu entstehende World-Wide-Web war der Worldwide Web Wanderer, der von dem MIT-Studenten Mathew Gray im Frühjahr 1993 programmiert wurde. Ursprünglich zählte The Wanderer nur WWW-Server, aber einige Monate später fügte Michael L. Maudlin ein „Retrieval Program“ namens „Wandex“ hinzu, um die gesammelten Daten durchsuchen zu können. (Mauldin, ein Computerwissenschaftler an der Carnegie Mellon University, entwickelte übrigens später die Suchmaschine „Lycos“ und ist heute „Chief Scientist“ bei der Suchmaschine, die inzwischen vom Universitätsforschungsprojekt zu einem kommerziellen Unternehmen geworden ist.) The Wanderer durchsuchte und katalogisierte von Juni 1993 bis Januar 1996 zweimal pro Jahr das Netz.

Im Oktober 1993 wurde Aliweb (https://www.nexor.com/aliweb/) kurz für: Archie-Like Indexing of the Web) entwickelt. Aliweb überließ einen Teil der Arbeit bei der Katalogisierung des Internets den Betreibern von WWW-Servern. Diese mussten für ihren Server einen Index erstellen, und dieses bei Aliweb anmelden. Aliweb selbst war lediglich ein in Perl geschriebenes Retrieval System, das die auf diese Weise zusammengestellten Indexe durchsuchte und sich bei seinen Suchen auf die Angaben der Server-Betreiber und der Autoren der Seiten verließ.

Im Dezember 1993 gingen fast gleichzeitig drei neue Suchmaschinen ans Netz: Jumpstation, World-Wide-Web Worm und RBSE Spider. Jumpstationund der WorldWideWeb Worm waren Suchroboter, die Websites nach Titel und Header (Jumpstation) beziehungsweise nach Titel und URL (WorldWideWeb Worm) indexierten. Wer mit diesen beiden Tools suchte, bekam eine Liste von „Hits“ ohne weitere Bewertung in der Reihenfolge, in der sie in der Datenbank abgespeichert waren. Der RBSE Spider und der im April 1994 an der University of Washington gestartete Webcrawler (http://www.webcrawler.com/) waren die ersten Suchmaschinen, die nicht bloß eine Aufzählung von gefundenen Dokumenten lieferte, sondern diese auch nach einem „Ranking“ sortierte.

Webcrawler (http://www.webcrawler.com/) ist übrigens die einzige der bisher erwähnten Suchmaschinen, die bis heute überlebt hat, auch wenn sie inzwischen kein Uni-Projekt mehr ist, sondern von der konkurrierenden Suchmaschine Excite aufgekauft worden ist und inzwischen wie „Magellan“ nur noch als „Marke im ExciteNetwork“ geführt wird. Weil der Traffic, den das beliebte Recherche Werkzeug anzog, drohte, das Universitätsnetz lahmzulegen, verkaufte die University of Washington Webcrawler 1995 an den Onlinedienst America Online (AOL).

Im März zog Webcrawler in seine neue Heimat bei AOL um. Der Onlinedienst verkaufte die Suchmaschine im November 1996 wiederum an Exite weiter. Bis heute firmiert allerdings Brian Pinkerton, der den Such-Robot 1994 als Student in einem Informatik Seminar an der University of Washington geschrieben hatte, bei Excite als „Vice President of Engineering“.

Fast zur gleichen Zeit arbeitete an der Carnegie Mellon University Leonard Maudlin an einem Spider, der später unter dem Namen Lycos bekannt wurde. Im Mai 1994 begann er mit der Arbeit an dem Spider, dem er im Juli das Retrieval-System „Pursuit“ hinzufügte. Wie Webcrawler listete auch Lycos seine Suchergebnisse nicht einfach nur auf, sondern sortierte sie nach ihrer Relevanz; im Gegensatz zu Webcrawler bewertete Lycos nicht nur die Häufigkeit eines Wortes in einem bestimmten Dokument, sondern auch die „word proximity“ (die Nähe von mehreren Suchbegriffen zueinander). Lycos ging am 20. Juli 1994 online.

Wie viele Internet Einrichtungen sind also auch die Suchmaschinen, die wie Lycos und Webcrawler heute als kommerzielles Unternehmen betrieben werden, ein Ergebnis wissenschaftlicher Vorarbeiten an den Universitäten. Erst 1995, dem Jahr, als das Internet langsam das Bewusstsein einer nicht akademischen Öffentlichkeit erreichte, gingen die ersten Suchmaschinen ans Netz, die von Unternehmen mit Gewinnabsicht entwickelt wurden: Infoseek startete Anfang 1995; Architex, heute unter dem Namen Excite  bekannt, ging im Oktober 1995 online; Alta Vista startete im Dezember 1995 den regulären Betrieb. Während Alta Vista als Projekt des Western Research Lab, einer Forschungsabteilung der Computer Firma Digital Equipment Corporation entstand, war es von Anfang an das „Business Modell“ von Excite und Infoseek, sich durch Anzeigen zu finanzieren. Inzwischen verkauft auch Alta Vista Bannerwerbung auf seinen Seiten. Bis heute kam eine Reihe von anderen kommerziellen Suchmaschinen dazu.

Gegenwärtig gehören Suchmaschinen zu den wenigen kommerziellen Angeboten im Internet, die wirklich Profite machen. Suchmaschinenanbieter wie Infoseek oder Lycos sind im vergangenem Jahr an die Börse gegangen, und während Infoseek noch keine schwarzen Zahlen schreibt, machte Lycos im dritten Quartal 1997 nach einem Jahr an der Börse erstmals Gewinne. Auch Unternehmen wie Yahoo! oder Alta Vista verzeichnen nach eigenen Angaben inzwischen gesunde Gewinne.

Nicht umsonst hat Microsoft im Oktober 1997 angekündigt, mit einem Projekt namens „Yukon“ in diesem vielversprechenden Markt mitverdienen zu wollen. Auch von anderen Anbietern werden fast wöchentlich neue Suchmaschinen in Betrieb genommen.

Der Name Lycos kommt von dem lateinischen Namen der „Wolfsspinne“: Lycosidae Lycosa. Die Wolfspinne fängt ihre Beute nicht in einem Netz, sondern geht selbst auf die Jagd.

Die meisten der neueren Suchmaschinen versuchen nicht mehr, das ganze Netz zu verzeichnen, sondern beschränken sich auf Special Interest-Themen oder Lokalisierungen.

So gibt es mit WWWomen (http://www.wwwomen.com/) eine Suchmaschine für Frauen Sites; Scifisearch (http://www.scifisearch.com/) sucht nur nach Science Fiction und „paranormalen Phänomenen“ und „Filez“ (http://www.fdez.com/) nach Computerprogrammen. Auch für Länder und Regionen gibt es eigene Suchmaschinen.

Für deutsche und deutschsprachige Webseiten sind es zur Zeit mindestens 22. verschiedene Suchmaschinen und Directories, und es kommen immer noch neue dazu. Diese lokalisierten Maschinen suchen entweder nur innerhalb bestimmter Domains (wie zum Beispiel das holländischen Search.nl (http://www.search.nl)), einige technisch avanciertem Modelle (wie zum Beispiel Fireball erkennen mit speziellen statistischen Methoden die Sprache, in der ein Dokument verfasst ist und können so auch deutschsprachige Dateien verzeichnen, die nicht „.de“ (für Deutschland), ,,.ch“ (für die Schweiz) oder .at“ (für Österreich) im Domain Namen haben.

Das „diversifizierteste“ Beispiel für eine regionale Suchmaschine, das ich bei meiner Recherche entdeckt habe, ist „Mowhawk Valley Online“

Fast alle großen Suchmaschinen bieten inzwischen über die reine Suchfunktion hinaus value-added services an: So liefern einige der Suchmaschinen zum Beispiel Verzeichnisse von Email-Adressen und Telefonnummern an, andere verwandeln sich in der letzten Zeit sogar zunehmend in Quasi-Online-Dienste, in denen (z.T. personalisierbare) Nachrichten, Kleinanzeigen, Stadtpläne, Wettervorhersagen oder Chatrooms angeboten werden, und bei denen man sich oft sogar eine eigene Email Adresse einrichten lassen kann. Diese redaktionellen und Service Angebote tragen wiederum zu einer weiteren Stärkung ihrer zentralen Position im Netz bei.

Was ist eine Suchmaschine?

Schon der Terminus „Suchmaschine“ wird oft falsch benutzt, und sowohl für „echte“ Suchmaschinen wie auch für reine Netzverzeichnisse (die sogenannten directories oder Indices) gebraucht. Der Unterschied zwischen diesen beiden Arten von Netzangeboten besteht darin, wie ihre Adressen Listen zusammengestellt werden.

Echte Suchmaschinen wie Alta Vista oder HotBot  suchen sich ihre URLs selbständig zusammen, indem sie das Netz durchwandern, und ihre Fundstücke dann in aufbereiteter Form ihren Usern zur Verfügung stellen.

Eine Mischung aus Suchmaschine und Index sind die „Hybriden“, die beide Funktionen miteinander kombinieren. So bietet beispielsweise Excite  neben einer Suchfunktion ausgewählte Seiten auch nach „Channels“ sortiert an.

Alle Suchmaschinen funktionieren grundsätzlich nach dem selben Prinzip, unterscheiden sich aber in signifikanten Details. Das macht es schwierig, abwechselnd mit verschiedenen Maschinen zu suchen: während eine Suchmaschine zum Beispiel Boolesche Operatoren wie AND und NOT versteht, muss man die nächste mit + oder – füttern, um dieselben Funktionen auszuführen. Im nächsten Teil wird darum erklärt, welches die Bestandteile sind, aus denen sich alle Suchmaschinen zusammensetzten, bevor ich auf die Unterschiede zwischen den verschiedenen Suchmaschinen  eingehe.

Wegen dieser „Wanderungen“ trugen die Suchmaschinen der ersten Generation oft Namen wie The Wanderer, später auch die Namen von Spinnenarten (zum Beispiel Lycos oder Inktomi).

Woraus besteht eine Suchmaschine?

Alle Suchmaschinen haben drei Elemente, zu denen als erstes der Robot gehört, der manchmal auch „Crawler“ oder „Spider“ genannt wird. Er durchkriecht auf der Suche nach Daten das Netz. Die beiden anderen Elemente sind der Index und das Suchmaschinen-Interface.

Der Robot wandert durch das Internet, und sammelt dabei Webseiten, die er auf seinen Server überträgt. Dort werden sie in den Index eingefügt. Dann folgt er den Links auf der gefundenen Seite weiter zur nächsten Seite. Wegen dieser Funktionsweise braucht ein Robot keine lange Liste von URL’s, um seine Suche zu beginnen. Eine einzige Seite mit Hotlinks, von denen er zu anderen Seiten weitergeschickt wird, genügt.

Man kann das, was der Robot tut, darum mit der Aufgabe vergleichen, ein Telefonbuch zu schreiben, wenn man nur eine einzige Telefonnummer kennt: man müsste diese Telefonnummer anrufen, den Teilnehmer nach allen Telefonnummern, die er kennt, fragen, diese Telefonnummern anrufen, bei diesen Teilnehmern wiederum alle bekannten Telefonnummern erfragen, und so weiter. Theoretisch könnte man mit dieser Methode irgendwann alle Telefonnummern der Welt finden.

So, wie man mit dieser Methode freilich die Telefonnummern von jemand, der sie für sich behält, nicht herausbekommen würde, so findet der Robot von sich aus auch keine Seiten, die nicht mit anderen verlinkt ist. Anbieter, die nicht wollen, dass ihre Webseiten gespidert werden (zum Beispiel, weil sich der Inhalt regelmäßig ändert, oder weil sie nicht wollen, dass ihr Server von den Robot-Abfragen überlastet werden, kann das mit einer einfachen Test-Datei erreichen: „robots.txt“.

Der Robot Exclusion Standard

Wenn ein Robot „gut erzogen“ ist, hält er sich an den „Robots-ExclusionStandard“, dieser Standard ist kein „offizielles“, von irgendeiner Internet Institution entwickeltes Gesetz, sondern eine Übereinkunft, die die Mitglieder der „Robot“-Mailing-Liste.

Am 30. Juni 1994 informell getroffen haben. So eine Übereinkunft war nötig geworden, weil sich 1993 und 1994 Situationen häuften, in denen Server durch ununterbrochene Robot-Zugriffe lahm gelegt wurden, wie es im „Robots Exclusion Standard“ heißt:

 

Hat der Robot eine Seite und ihre URL einmal entdeckt, kehrt er in regelmäßigen Abständen zu ihr zurück, und prüft, ob sich etwas verändert hat. Dabei sollte man sich die Netzwanderungen des Robots nicht wie eine wirkliche, räumliche Reise durchs Netz vorstellen, der Robot ist vielmehr eine Art automatisierter Browser, der sich von einem zentralen Server aus selbständig durchs Netz klickt.

Meist durchstöbert mehr als nur ein Robot das Netz, bei Lycos waren es damals nach Firmenangaben zum Beispiel 20. automatisierte Software Programme, die sich gleichzeitig durchs Netz bewegen. Um den Server nicht zu überlasten, „klicken“ sie sich dabei allerdings langsamer durch eine gefundene Seite als es ihnen technisch möglich ist, das heißt nicht schneller als mit einem Seitenaufruf alle 30. Sekunden.

Ein entscheidender Unterschied zwischen den verschiedenen Robot Programmen ist ihre Vorgehensweise, wenn sie eine Seite gefunden haben: die sogenannte traversal strategy. Hierbei wird unterschieden zwischen Depth-first search, Breadth-first search und Random search. Diese verschiedenen traversal strategies ergeben sich aus der Arbeitsweise des Robots. Weil er jede Seite auf seinen Server lädt, um sie dort zu indexieren, aber nicht alle miteinander durch Links verbundenen Seiten auf einmal laden kann, muss er eine Art Angriffsplan entwickeln. Dabei geht er im Grunde genauso vor, wie es ein Mensch tun würde, der manuell Dokumente oder Webseiten durchsucht:

Die eine Methode ist es, mit einer beliebigen Webseite anzufangen, ihren Text aufzunehmen, und alle URL’s, zu denen es von dieser Seite aus Links gibt, auf eine immer länger werdende Liste zu schreiben. Dann würde man dasselbe mit der ersten URL auf der Liste machen. Nachdem man diese URL aufgenommen hat, könnte man sie von der Liste streichen. Diese Art von Algorithmus nennt man eine depth-first search, weil man sich dabei weiter und weiter von der ursprünglichen URL entfernt, bis man zu einer Seite kommt, die keine Links hat. Dann kehrt der Spider zu der Ausgangsseite zurück und folgt von da aus der nächsten Link-Kette….

Man kann an diesem Algorithmus auch eine Kleinigkeit ändern: neu entdeckte URL’s werden nun an das Ende der Liste, und nicht mehr an ihren Anfang gesetzt. Diese simple Änderung nennt man breadth-first search… Der Effekt davon ist, dass man zuerst alle Seiten abruft, die einen Link von der Ausgangs Homepage entfernt sind, dann alle Seiten, die zwei Links entfernt sind und so weiter.

 

AltaVista arbeitet zum Beispiel mit einem Breadth-first-System, während Lycos nach dem Depth-first-System Daten sammelt. Der Random Search ist eine Kombination dieser beiden Systeme, bei dem der Robot nach einem Zufallsprinzip URLs von der Liste aufruft mal von den vorderen, mal von den hinteren Rängen.

Dieser Index (oder Katalog) ist das zweite Element der Suchmaschine. An ihn liefert der Robot seine Suchergebnisse zurück. Bei manchen Suchmaschinen erhält der Index eine vollständige Kopie aller Seiten, die der Robot bei seinen Reisen durchs Netz gefunden hat (zum Beispiel Alta Vista), andere speichern nur die ersten hundert Worte jeder gefundenen Page (zum Beispiel Infoseek.

Wenn sich die Seite ändert, sollte der Robot das bei seinem nächsten Besuch merken, und die veränderten Informationen an den Index weitergeben. Allerdings kann zwischen dem Robot Besuch auf der einen Seite und deren Indexierung eine gewisse Zeit vergehen. So lange eine Seite nicht im Index ist, kann sie über die Suchmaschine auch nicht gefunden werden: Wie lange es dauert, bis ein Robot eine URL besucht hat und diese anschließend im Index auftaucht, darüber gehen die Angaben von Anbietern und eigene Erfahrungen weit auseinander.

Das Suchmaschinen Interface ist das dritte Element der Suchmaschine. Wenn ein User eine Anfrage eingibt, arbeitet sich dieses Programm durch die Millionen von Seiten im Index der Maschine, sucht nach Treffern und gibt ihnen ein „Ranking“. Dieses Programm entscheidet, wie und an welcher Stelle eine Seite bei einer Suche ausgespuckt wird. Wer verstanden hat, wie dieses Programm funktioniert, kann Suchmaschinen nicht nur selbst effektiver benutzten, sondern sich auch erklären, nach welchen Kriterien die oft willkürlich erscheinenden Bewertungen zustande kommen.

Um die Seiten entsprechend der User Anfrage zu bewerten, bedienen sich die Suchmaschinen einer Reihe von Regeln. Am wichtigsten ist es für die Suchmaschine, an welcher Stelle sich der Suchbegriff oder die Suchbegriffe auf der Seite befinden und wie häufig diese vorkommen. Der wichtigste Standort für das Suchwort ist die Titelzeile. Wenn ein Suchwort zwischen den HTML-Tags <titel> und </titel> steht, dann betrachten die meisten Suchmaschine dieses Dokument als relevanter als eins, in dem das Suchwort erst im <body>-Text vorkommt. Auch wenn ein Suchwort im eigentlichen Text weit oben steht (zum Beispiel in einer Überschrift oder im ersten Satz), bewertet die Suchmaschine dieses Dokument ebenfalls als relevanter als eine Datei, bei der das Suchwort erst später im Text erscheint.

Die Häufigkeit, mit der das Suchwort im Text vorkommt, ist ein anderer Faktor, von dem das Ranking abhängt, je häufiger ein Wort im Verhältnis zu den übrigen Worten auf einer Seite vorkommt, desto wichtiger muss es sein. Das bedeutet freilich auch, dass die Suchmaschinen quasi „automatisch“ kurze Texte für wichtiger ansehen als lange. Eine Seite, auf der der Text nur aus dem Suchwort besteht, „zählt“ mehr, als ein langer Text, auch wenn in ihm das Suchwort immer wieder vorkommt.

Nach diesem Prinzip arbeiten alle Suchmaschinen. Der Unterschied zwischen den verschiedenen Maschinen liegt in den Details. Das beginnt damit, dass einige Suchmaschinen mehr Webseiten verzeichnen als andere. Einige Suchmaschinen indexieren diese Seiten auch häufiger als andere, weil ihr Robot häufiger die gesammelten Links überprüft. Deswegen sucht jede Suchmaschine in einer anderen Sammlung von Seiten als die Konkurrenz.

Bei einigen Suchmaschinen wird außerdem die „Beliebtheit“ von Seiten in die Bewertung miteinbezogen: WebCrawler und Lycos prüfen anhand ihrer Datenbank auch, wie viele Links es auf diese Seite gibt, und beziehen die Anzahl der Links in ihre Bewertung der Seite mit ein: je mehr Links es auf eine Seite gibt, desto „beliebter“ und folglich „besser“ muss sie auch sein. Wie ich zeigen werde, trägt dieser Mechanismus zu einer Hierarchisierung des Internet bei, weil sie Seiten, zu denen viele Links führen, bevorzugt, und dadurch populäre Seiten noch populärer werden, während Seiten, zu denen weniger Links führen, auch in der Hierarchie der Suchmaschine noch weiter nach unten rutschen.

Einige der Hybrid Suchmaschinen beurteilen außerdem Seiten, die in ihrem von Redakteuren zusammengestellten Index stehen, als relevanter ein als andere Seiten wenn eine Homepage gut genug ist, um ein Review zu bekommen, dann ist sie wahrscheinlich auch relevanter als eine Seite, die nicht besprochen worden ist.

Viele Webdesigner glauben, dass die Angaben in den Meta-Tags die wichtigsten Angaben für eine Suchmaschine sind und das man diese sogar regelrecht steuern könnte, wenn man in den Meta-Tags die richtigen Suchbegriffe versteckt hat.

Das stimmt nicht, das war früher nicht so, HotBot und Infoseek bewerten die Stichworte in den Meta-Tags einer Seite geringfügig höher als die Worte im Text. Aber Excite liest sie zum Beispiel gar nicht, und die Erfahrung zeigt, dass auch HTML-Seiten, die überhaupt keine Meta-Tags haben, gut bei den Suchmaschinen platziert sein können. Was sagt uns das?

In letzter Zeit sind einige Suchmaschinen dazu übergegangen, Sieiten für „Spamming“ zu bestrafen, in dem sie diese ganz aus dem Index verbannen. Als Spamming betrachtet man es zum Beispiel bei Vista, wenn ein Wort auf einer Seite häufig wiederholt wird. Gerade die Anbieter von Sexseiten verbergen in den Meta-Tags gerne Hunderte von Suchbegriffen. Einige Suchmaschinen Anbieter haben darum ihre Index-Software so programmiert, dass sie Stichworte in den Meta-Tags ignoriert, die öfter als dreimal vorkommen.

 

Als WWW-„Spam“ gilt es aber vor allem, wenn man auf einer Seite „unsichtbare“ Worte unterbringt, indem diese mit der gleichen Farbe wie die Hintergrundfarbe geschrieben werden. Auf vielen Porno-Seiten finden sich auf den Eröffnungsseiten die üblichen Wortketten (sex,frauen, porno, etc), die zum Beispiel in rosa auf einem rosa Hintergrund stehen. Während der normale Surfer diese Worte nicht sieht, liest die Suchmaschine sie wie normal sichtbaren Text.

Infoseek schließt Seiten, bei denen die Schriftfarbe die gleiche wie die Hintergrundfarbe ist, inzwischen aus dem Index aus; man wird erst wieder aufgenommen, wenn man die Seite umgestaltet und die Wiederaufnahme per Email „beantragt“ hat, und die Seite von Mitarbeitern von Infoseek überprüft worden ist. Wer nochmal bei dem selben „Vergehen“ ertappt wird, wird für immer aus dem Verzeichnis der Suchmaschine ausgeschlossen.

Zwei features von WWW-Seiten machen den Robots der Suchmaschinen besondere Probleme: Frames und CGI-Code. Daten, die in Frames stehen, finden normale Suchroboter nicht. Wie ein Netzsurfer, der einen alten Mosaic-Browser benutzt, finden die Roboter nur Informationen, die nicht in Frames „verborgen“ sind. Den Links, die zum Beispiel von einem „Inhaltsverzeichnis-Frame“ in eine Seite führen, können sie nicht folgen. Das bedeutet für die vielen WWW-Angebote, deren Inhalt nur in Frames untergebracht ist, dass der Robot von der gesamten Seite nur folgende Worte speichert: „Sorry! You need a frames-compatible browser to view this site.“ Wer trotzdem will, dass der Text, der im Frame steht, gefunden werden soll, der muss den Text der Seite nochmal zwischen den sogenannten <no frames>-Meta-Tags unterbringen.

Ein anderes Problem für die Robots der Suchmaschinen sind Common Gateway Interface(CGI)-Scripts, die verwendet werden, damit der User bei einer Seite nach Daten suchen kann. Die gesuchten Daten werden dann auf „dynamischen Seiten“ angezeigt, das heißt sie sind eigens auf die Anfrage hin generiert worden. Für Suchmaschinen sind diese ad hoc erstellten Dokumente, die nur wegen der Robot Anfrage entstanden sind, uninteressant.

Um zu verhindern, dass der Robot tausende von Seiten sammelt, die er selbst generiert hat, hat zum Beispiel Louis Monier von Vista seinen Robot so programmiert, dass er keine URLs mit einem Fragezeichen einsammelt, weil eine mit einem CGI-Skript generierte Seite immer dieses Satzzeichen enthält: „a crude way of avoiding cgi scripts“, wie er dieses Verfahren in einer Email an den Autor nannte. Durch diese Funktion werden Suchmaschinen auch beispielsweise davon abgehalten, sich gegenseitig zu durchsuchen, weil auch die Anfragen an die meisten Suchmaschinen mit einem CGI-Skript abgewickelt wird.

Mein Fazit:

Alle diese technischen Details sind beim ersten Lesen wahrscheinlich verwirrend. Zusammenfassend kann man sagen, dass die Anbieter von Suchmaschinen diese so gut wie überhaupt nicht bewusst „steuern“, und bestimmte Seiten willkürlich bevorzugen oder benachteiligen. Es sind eher die „einprogrammierten“ Paradigmen der Robots und der Index-Software, die dazu führen, dass eine Site in der Suchhierarchie an einer bestimmten Stelle auftaucht. Problematisch erscheint an diesen Paradigmen aus der Sicht der User und Content Provider

  1. das kurze Texte gegenüber langen bevorzugt werden,
  2. das die <titel>- und die Meta-Tags, die vielen Usern, die eine HTML-Seite gestalten, wahrscheinlich überhaupt nicht bekannt sind, eine so entscheidende Rolle bei der Platzierung in einigen Suchmaschinen spielen (die gängigen HTML-Editoren generieren in der Regel die Meta-Tags, ohne dass der User darauf Einfluss hat, wenn er sich nicht mit dem Source-Code herumplagen will),
  1. das einige Suchmaschinen (wie zum Beispiel Excite) die angebliche „Popularität“ einer Site dazu benutzten, ihre Relevanz zu bestimmen.

Allerdings muss man sich immer wieder ins Gedächtnis rufen, dass keiner der oben angeführten problematischen Programm-Features bei allen Suchmaschinen anzutreffen ist, sondern sich alle Suchmaschinen  in entscheidenden Details unterscheiden.

Inzwischen haben einige Suchmaschinen damit begonnen, „Spamming“ Technik durch Modifikation ihrer Robot und Index-Programme zu bekämpfen. Dies erscheint mir aber nicht als unberechtigte Einflussnahme, sondern eher als notwendige „Verteidigungsmaßnahmen“ gegen die zum Teil tatsächlich reichlich dreisten Versuche von Content-Providern, ihre Seiten zu promoten.

Das einige Suchmaschinen inzwischen allerdings die Webseiten von Servern wie „Ourworld“ von „CompuServe“, „Tripod“ und „Geocities“, auf denen man sich umsonst eine Webseite anlegen kann, ignorieren, ist allerdings eine nicht gerechtfertigte Einflussnahme auf die Auswahl von URLs, die diese Suchmaschinen liefern und zwar eine, die die Suchmaschinen selbst um einige der ungewöhnlichsten und „Internet-typischsten“ Seiten in ihrer Datenbank bringt.

Diese Entwicklung kann dazu führen, dass bestimmte Inhalte von Suchmaschinen nicht mehr oder wenigstens nicht mehr so leicht gefunden werden können. Sehr kritisch ist in diesem Zusammenhang zu sehen, dass alle großen Suchmaschinen inzwischen „strategische Partnerschaften“ mit anderen Seiten geschlossen haben. Hier könnten wirtschaftliche Interessen zu weiteren „Selbstbeschneidungen“ in den Datenbanken der Suchmaschinen führen.

 


Hinterlasse einen Kommentar zu diesem Thema

  • Hans Peter Klose / 23. Oktober 2018:
    Ich möchte mich noch einmal bedanken das sie unsere Homepage bei Google von Platz 478 auf Platz 69 gebracht nur... »
  • Bernd Schuster / 19. Oktober 2018:
    Vielen Dank Herr Alper für ihre Hilfe mit den Metaangaben von Platz 454 jetzt auf 224 und das innerhalb 6... »