Universitätsbibliothek

Was Google nicht findet …

Suchmaschinen haben Grenzen. Selbst Google findet nur einen Teil aller verfügbaren Informationen im Internet. Hier zeigen wir Ihnen, warum dies so ist und wie Sie den Rest aufspüren.

Das sichtbare und das unsichtbare Netz

Schätzungen zufolge gibt es mehrere Hundert Milliarden oder sogar mehrere Billionen frei zugängliche Internetseiten. Dieser Teil des Internets ist das sichtbare Netz, das sogenannte Visible Web. Theoretisch könnte eine Suchmaschine alle Seiten aus diesem Visible Web indexieren, es gibt jedoch verschiedene Barrieren für die Suchmaschinen (dazu im nächsten Abschnitt mehr).

Darüber hinaus gibt es Seiten, die für Suchmaschinen von vornherein unsichtbar sind und die von Suchmaschinen nicht indexiert werden können. Diesen Teil des Internets nennt man daher auch das Invisible Web. Schätzungen über die Größe des Invisible Web differieren sehr stark. Die Datenmenge im Invisible Web soll laut einer Studie der Firma Brightplanet aus dem Jahr 2001 (http://doi.org/10.3998/3336451.0007.104) etwa 500-mal so umfangreich sein, wie die im Visible Web. Auch wenn diese Zahl in einer anderen Studie aus dem Jahre 2006 (http://hdl.handle.net/10760/9203) deutlich relativiert wurde, existiert das Invisible Web.

Zuerst möchten wir Ihnen zeigen, warum allgemeine Suchmaschinen wie Google Webseiten aus dem Visible Web und dem Invisible Web nicht indexieren können. Danach zeigen wir Ihnen, wie Sie spezielle Suchdienste für das Invisible Web finden, die Ihnen helfen, die für allgemeine Suchmaschinen unsichtbare Information dennoch aufzuspüren.

Welche Barrieren gibt es für die Suchmaschinen?

Auch mit der optimalen Suchstrategie lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt. Alles, was eine Suchmaschine jedoch nicht kennt, kann auch nicht von ihr indexiert werden. Alles, was nicht indexiert wurde, kann über diese Suchmaschine auch nicht gefunden werden. Andere Internetseiten, die zwar indexiert wurden, werden von der Suchmaschine aus unterschiedlichen Gründen nicht angezeigt. Auch diese Internetseiten bleiben dem Nutzer verborgen.

Warum wird eine Internetseite nicht indexiert?

  • Auf die Internetseite führt kein Link
    Die Indexierungsprogramme (Crawler) der Suchmaschinen können nur Internetseiten indexieren, die über einen Link erreichbar sind. Gibt es keinen Link auf die Internetseite, kann die Seite auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.
  • Die Internetseite ist zu versteckt
    Sehr umfangreiche Internetangebote besitzen oft sehr tiefe Hierarchien. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen eines Internetangebots vor und so bleiben ihnen einige Seiten verborgen, auch wenn ein Link auf die Seite führt.
  • Die Internetseite ist zu aktuell
    Manche Informationen sind schon in wenigen Stunden veraltet und nicht mehr zu gebrauchen (denken Sie an Börsenkurse, den Wetterbericht oder aktuelle Nachrichten). Suchmaschinen brauchen jedoch in der Regel ein paar Tage, bis sie eine neue Seite indexiert haben und diese über die Suchmaschine suchbar ist. Nachrichtenseiten werden zwar inzwischen teilweise mehrmals stündlich von Suchmaschinen wie Google indexiert, dennoch findet man hochaktuelle Informationen nicht vollständig in allgemeinen Suchmaschinen. Auch dieser Bereich bleibt also teilweise unsichtbar.
  • Die Internetseite darf nicht indexiert werden
    Der Ersteller eines Internetangebots kann festlegen, welche Seiten von einem Suchmaschinen-Crawler nicht besucht oder nicht indexiert werden dürfen. Hält sich der Crawler an diese Vorgaben, bleiben ihm diese Seite verborgen.
  • Die Internetseite hat keinen Text
    Suchmaschinen können nur den Text auf einer Seite indexieren. Grafiken, Musik, Filme und Animationen können z.B. nur durch die dazugehörigen Beschreibungstexte indexiert werden - häufig fehlen diese jedoch auf Internetseiten.
  • Die Internetseite hat zu viel Text
    Sehr umfangreiche Internetseiten werden teilweise nicht vollständig indexiert. Alle Wörter, die hinter dieser Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden.
  • Das Dateiformat ist unbekannt
    Die gängigen Dateiformate (HTML-, Word-, Excel-, Powerpoint- und PDF-Dateien) können von Suchmaschinen indexiert werden, einige unbekanntere Formate jedoch nicht.
  • Die Internetseite ist nicht frei zugänglich
    Viele Informationen sind nur nach Eingabe eines Passwortes oder nur innerhalb eines Netzwerks (Firma, Uni) zugänglich. Da ein Suchmaschinen-Crawler die Passwörter nicht kennt und von außerhalb des Netzwerks kommt, kann er die Seiten die hinter dieser Grenze liegen, nicht erreichen.
  • Inhalte aus Bibliothekskatalogen und Fachdatenbanken
    Um eine Datenbank (z.B. unseren Bibliothekskatalog) zu durchsuchen, geben Sie i.d.R. Stichwörter in eine Suchmaske ein. Anschließend erhalten Sie das Suchergebnis auf einer Internetseite. Diese Seiten werden dynamisch erzeugt, d.h. sie sind nirgendwo gespeichert (stellen Sie sich vor, wie viele Seiten es geben müsste, wollte man alle möglichen Antworten auf alle denkbaren Suchanfragen einzeln speichern).
    Wenn Sie eine Suche durchgeführt haben, können nur Sie die Seite mit der Trefferliste sehen - rufen Sie eine andere Seite auf oder führen Sie eine neue Suche durch existiert diese Seite nicht mehr.
    Die Indexierungsprogramme der Suchmaschinen folgen nur den Links auf Internetseiten. Sie können keine Internet-Adressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich für sie unsichtbar.

Warum wird eine Internetseite nicht angezeigt, obwohl sie indexiert wurde?

  • Die Seite wird aus formalen Gründen ausgefiltert
    Inhaltlich identische Seiten (sogenannte Dubletten) erscheinen meist nur einmal in einer Trefferliste. Manchmal versagt allerdings diese Dublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.
  • Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)
    In vielen Ländern - nicht nur in China - wird der Index der Suchmaschinen von rechtswidrigen oder einfach von "unerwünschten" Inhalten "gesäubert".
  • Der Suchmaschinenbetreiber löscht die Seite aus dem Index
    Suchmaschinen sind große Wirtschaftsunternehmen. Bis auf gesetzliche Ausnahmen kann niemand einem Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber aus dem Index gelöscht werden, wenn sich der Betreiber eines Internetangebots nicht an die "Spielregeln" hält und z.B. versucht durch falsche Angaben eine gute Platzierung in einer Trefferliste zu erreichen. Mittlerweile gibt es auch gesetzliche Regelungen, die Suchmaschinenbetreiber zwingen können, dass indexierte Seiten auf Anfrage aus einer Suchmaschine entfernt werden müssen (ob diese Anfragen tatsächlich berechtigt sind oder nicht, wird meist nicht geprüft).
  • Eingeschränkte Suchmöglichkeiten
    Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z.B. nicht möglich und die automaische Suche nach Wortformen funktioniert nicht immer wie gewünscht. Es kann sein, dass Ihnen eine Seite nur deshalb nicht als Treffer angezeigt, weil das Wort einfach anders geschrieben ist.
  • Zu viele Treffer
    Kaum jemand schaut sich mehr als die ersten zwei Seiten einer Trefferliste in einer Suchmaschine an, d.h. maximal 20 Treffer. Die meisten Suchmaschinen zeigen maximal die ersten 1.000 Treffer an, auch wenn viel mehr gefunden wurden. Es können also niemals alle Seiten, die eine Suchmaschine gefunden hat, auch angezeigt werden und viele Treffer - auch solche mit passendem und qualitaiv hochwertigem Inhalt - gehen in der Trefferflut unter.

Wie finde ich Suchdienste für das Invisible Web?

Spezialsuchmaschinen

Es gibt im Internet Tausende spezialisierten Suchmaschinen, z.B. für wissenschaftliche Internetseiten, besonders aktuelle Internetseiten (Nachrichten aus Tageszeitungen) oder für spezielle Dateiformate (Grafiken, Filme oder Musik). Zwar sind Spezialsuchmaschinen kleiner als allgemeine Suchmaschinen, über sie lassen sich jedoch auch Inhalte finden, die den großen, allgemeinen Suchmaschinen verborgen bleiben. Da es sehr viele Spezialsuchmaschinen gibt und diese in den Weiten des Internets häufig schwer zu finden sind, gibt es Suchmaschinenverzeichnisse, in denen diese Spezialsuchmaschinen gesammelt, geordnet und teilweise auch bewertet werden. In unserer Liste der nützlichsten Suchdienste sind einige Spezialsuchmaschinen und einige Suchmaschinenverzeichnisse aufgeführt.

Fachdatenbanken

Für die wissenschaftliche Recherche sind Fachdatenbanken ein unverzichtbares Suchinstrument. Allgemeine oder spezialisierten Suchmaschinen allein reichen für eine fundierte Recherche nach Informationen im Internet nicht aus. Fachdatenbanken enthalten riesige Datenmengen (allein in den Datenbanken in unserem Katalog.plus! finden Sie über 100 Millionen Nachweise auf Dokumente aller Art). Diese gehören in aller Regel zum "Invisible Web", d.h. die Inhalte bleiben allgemeinen Suchmaschinen, aber auch vielen Spezialsuchmaschinen verborgen. Auch wenn viele Fachdatenbanken inzwischen frei im Internet zur Verfügung stehen, gibt es bei sehr vielen Fachdatenbanken eine Zugriffsbeschränkung. Hochschulbibliotheken bieten jedoch ihren Nutzern Zugriff auf viele dieser Fachdatenbanken, z.B. über das Datenbankinformationssystem DBIS. Auch Suchmaschinen eignen sich für die Suche nach Fachdatenbanken (aber nicht in Fachdatenbanken).

Nächster Schritt: Die besten Suchmaschinen

Sie wissen nun, dass Suchmaschinen Grenzen haben und wie Sie diese Grenzen überwinden können. Auf der Seite Die besten Suchmaschinen zeigen wir Ihnen, welche Suchdienste sich am besten für bestimmte Fragestellungen eignen, z.B. um speziell wissenschaftliche Dokumente zu finden.

Universität Bielefeld Universitätsbibliothek Bielefeld Universität Bielefeld Universitätsbibliothek Bielefeld