Was Google nicht findet …
Suchmaschinen haben Grenzen. Selbst Google findet nur einen Teil aller verfügbaren Informationen im Internet. Hier zeigen wir Ihnen, warum dies so ist und wie Sie den Rest aufspüren.
Das sichtbare und das unsichtbare Netz
Schätzungen zufolge gibt es ca. 100-200 Milliarden frei zugängliche Internetseiten. Dieser Teil des Internets ist das sichtbare Netz, das sogenannte "Visible Web". Die größte Suchmaschine - Google - hat davon ca. 30-100 Milliarden Internetseiten indexiert (gespeichert). Theoretisch könnte eine Suchmaschine alle Seiten aus diesem "Visible Web" indexieren, es gibt jedoch verschiedene Barrieren für die Suchmaschinen (dazu im nächsten Abschnitt mehr).
Darüber hinaus gibt es Seiten, die für Suchmaschinen von vornherein unsichtbar sind und die von Suchmaschinen nicht indexiert werden können. Diesen Teil des Internets nennt man daher auch das "Invisible Web". Schätzungen über die Größe des "Invisible Web" differieren sehr stark. Die Datenmenge im "Invisible Web" soll laut einer Studie der Firma Brightplanet aus dem Jahr 2001 etwa 500-mal größer sein (http://www.brightplanet.com/resources/details/deepweb.html) als die des "Visible Web". Noch heute ist deshalb häufig zu lesen, dass das "Invisible Web" 500 mal größer sei als das "Visible Web". Allerdings darf man die Datenmenge nicht mit der Zahl der Internetseiten gleichsetzen, da z.B. eine hochaufgelöste Satellitenaufnahme die gleiche Datenmenge wie 1.000 Internetseiten haben kann. In einer Studie aus dem Jahre 2006 wurde die Zahl aus der Brightplanet-Studie als deutlich zu hoch bezeichnet (siehe http://eprints.rclis.org/archive/00009156/). Dennoch: Das "Invisible Web" existiert.
Zuerst möchten wir Ihnen zeigen, warum allgemeine Suchmaschinen wie Google Webseiten aus dem "Visible Web" und dem "Invisible Web" nicht indexieren können. Danach zeigen wir Ihnen, wie Sie spezielle Suchdienste für das Invisible Web finden, die Ihnen helfen, die für allgemeine Suchmaschinen unsichtbare Information dennoch aufzuspüren.
Welche Barrieren gibt es für die Suchmaschinen?
Auch mit der optimalen Suchstrategie lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt. Alles, was eine Suchmaschine jedoch nicht kennt, kann auch nicht von ihr indexiert werden. Alles, was nicht indexiert wurde, kann über diese Suchmaschine auch nicht gefunden werden. Andere Internetseiten, die zwar indexiert wurden, werden von der Suchmaschine aus unterschiedlichen Gründen nicht angezeigt. Auch diese Internetseiten bleiben dem Nutzer verborgen.
Warum wird eine Internetseite nicht indexiert?
- Auf die Internetseite führt kein Link
Die Crawler der Suchmaschinen können nur Internetseiten indexieren, die über einen Link erreichbar sind. Gibt es keinen Link auf die Internetseite, kann die Seite auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.
- Die Internetseite ist zu versteckt
Sehr umfangreiche Internetangebote besitzen oft sehr tiefe Hierarchien. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen eines Internetangebots vor und so bleiben ihnen einige Seiten verborgen, auch wenn ein Link auf die Seite führt.
- Die Internetseite ist zu aktuell
Manche Informationen sind schon in wenigen Stunden veraltet und nicht mehr zu gebrauchen (denken Sie an Börsenkurse, den Wetterbericht oder aktuelle Nachrichten). Suchmaschinen brauchen jedoch in der Regel ein paar Tage, bis sie eine neue Seite indexiert haben und diese über die Suchmaschine suchbar ist. Deshalb kann man hochaktuelle Informationen nicht in allgemeinen Suchmaschinen finden. Auch dieser Bereich bleibt also unsichtbar.
- Die Internetseite darf nicht indexiert werden
Der Ersteller eines Internetangebots kann festlegen, welche Seiten von einem Suchmaschinen-Crawler nicht besucht oder nicht indexiert werden dürfen. Hält sich der Crawler an diese Vorgaben, bleiben ihm diese Seite verborgen.
- Die Internetseite hat keinen Text
Suchmaschinen können nur den Text auf einer Seite indexieren. Grafiken, Musik, Filme und Animationen können z.B. nur durch die dazugehörigen Beschreibungstexte indexiert werden - häufig fehlen diese jedoch auf Internetseiten.
- Die Internetseite hat zu viel Text
Sehr umfangreiche Internetseiten werden teilweise nicht vollständig indexiert. Alle Wörter, die hinter dieser Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden.
- Das Dateiformat ist unbekannt
Die gängigen Dateiformate (HTML-, Word-, Excel-, Powerpoint- und PDF-Dateien) können von Suchmaschinen indexiert werden, einige unbekanntere Formate jedoch nicht.
- Die Internetseite ist nicht frei zugänglich
Viele Informationen sind nur nach Eingabe eines Passwortes oder nur innerhalb einer Firma zugänglich. Da ein Suchmaschinen-Crawler die Passwörter nicht kennt und von außerhalb der Firma kommt, kann er die Seiten die hinter dieser Grenze liegen, nicht erreichen.
- Inhalte aus Bibliothekskatalogen und Fachdatenbanken
Um eine Datenbank (z.B. unseren Bibliothekskatalog) zu durchsuchen, geben Sie i.d.R. Stichwörter in eine Suchmaske ein. Anschließend erhalten Sie das Suchergebnis auf einer Internetseite. Diese Seiten werden dynamisch erzeugt, d.h. sie sind nirgendwo gespeichert (stellen Sie sich vor, wie viele Seiten es geben müsste, wollte man alle möglichen Antworten auf alle denkbaren Suchanfragen einzeln speichern).
Wenn Sie eine Suche durchgeführt haben, können nur Sie die Seite mit der Trefferliste sehen - rufen Sie eine andere Seite auf oder führen Sie eine neue Suche durch existiert diese Seite nicht mehr.
Die Indexierungsprogramme der Suchmaschinen folgen nur den Links auf Internetseiten. Sie können keine Internet-Adressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich für sie unsichtbar.
Warum wird eine Internetseite nicht angezeigt, obwohl sie indexiert wurde?
- Die Seite wird aus formalen Gründen ausgefiltert
Inhaltlich identische Seiten (sogenannte Dubletten) erscheinen meist nur einmal in einer Trefferliste. Manchmal versagt allerdings diese Dublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.
- Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)
In vielen Ländern - nicht nur in China - wird der Index der Suchmaschinen von rechtswidrigen oder einfach von "unerwünschten" Inhalten "gesäubert".
- Der Suchmaschinenbetreiber löscht die Seite aus dem Index
Suchmaschinen sind große Wirtschaftsunternehmen. Niemand kann einem Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber aus dem Index gelöscht werden, wenn sich der Betreiber eines Internetangebots nicht an die "Spielregeln" hält und z.B. versucht durch falsche Angaben eine gute Platzierung in einer Trefferliste zu erreichen.
- Eingeschränkte Suchmöglichkeiten
Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z.B. nicht möglich. Es kann sein, dass Ihnen eine Seite nur deshalb nicht als Treffer angezeigt, weil das Wort einfach anders geschrieben ist.
Wie finde ich Suchdienste für das Invisible Web?
Spezialsuchmaschinen
Es gibt im Internet Tausende spezialisierten Suchmaschinen, z.B. für wissenschaftliche Internetseiten, besonders aktuelle Internetseiten (Nachrichten aus Tageszeitungen) oder für spezielle Dateiformate (Grafiken, Filme oder Musik). Zwar sind Spezialsuchmaschinen kleiner als allgemeine Suchmaschinen, über sie lassen sich jedoch auch Inhalte finden, die den großen, allgemeinen Suchmaschinen verborgen bleiben. Da es sehr viele Spezialsuchmaschinen gibt und diese in den Weiten des Internets häufig schwer zu finden sind, gibt es Suchmaschinenverzeichnisse, in denen diese Spezialsuchmaschinen gesammelt, geordnet und teilweise auch bewertet werden. In unserer Liste der nützlichsten Suchdienste sind einige Spezialsuchmaschinen und einige Suchmaschinenverzeichnisse aufgeführt.
Fachdatenbanken
Für die wissenschaftliche Recherche sind Fachdatenbanken ein unverzichtbares Suchinstrument. Allgemeine oder spezialisierten Suchmaschinen allein reichen für eine fundierte Recherche nach Informationen im Internet nicht aus. Fachdatenbanken enthalten riesige Datenmengen (allein in den Datenbanken in unserer Metasuche finden Sie über 100 Millionen Nachweise auf Dokumente aller Art). Diese gehören in aller Regel zum "Invisible Web", d.h. die Inhalte bleiben allgemeinen Suchmaschinen, aber auch vielen Spezialsuchmaschinen verborgen. Auch wenn viele Fachdatenbanken inzwischen frei im Internet zur Verfügung stehen, gibt es bei sehr vielen Fachdatenbanken eine Zugriffsbeschränkung. Hochschulbibliotheken bieten jedoch ihren Nutzern häufig den Zugriff auf viele dieser Fachdatenbanken, z.B. über das Datenbankinformationssystem DBIS. Auch Suchmaschinen, Suchmaschinenverzeichnisse und Internetverzeichnisse eignen sich für die Suche nach Fachdatenbanken.
Nächster Schritt: Die nützlichsten Suchdienste
Sie wissen nun, dass Suchmaschinen Grenzen haben und wie Sie diese Grenzen überwinden können. Auf der Seite Die nützlichsten Suchdienste zeigen wir Ihnen, welche Suchdienste sich am besten für bestimmte Fragestellungen eignen, z.B. um speziell wissenschaftliche Dokumente zu finden.