BASE - Bielefeld Academic Search Engine

Einführung

BASE ist eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente im Internet. Betreiber der Suchmaschine BASE ist die Universitätsbibliothek Bielefeld.

Bis auf wenige Ausnahmen werden die über 4.000 nachgewiesenen wissenschaftlichen Quellen via OAI-PMH-Harvesting erfasst. OAI-PMH ist eine Initiative von Betreibern von Dokumentenservern, um die auf diesen Servern abgelegten elektronischen Publikationen im Internet besser auffindbar und nutzbar zu machen. Der Index wird durch Aufnahme weiterer OAI-Quellen kontinuierlich ausgebaut.

Aktuell sind in BASE über 100 Mio. Dokumente auffindbar, deren Metadaten (Autor, Titel, Abstract, Schlagwörter - nicht die Volltexte selbst) über eine Suchmaske durchsucht werden können.

Die indexierten Dokumente müssen in drei Gruppen unterschieden werden:

  • Open-Access-Volltexte (weltweit frei zugänglich), ca. 60%
  • Lokale / Lizenzierte Volltexte (nur lokal vom Campus der Hochschule bzw. bei Vorliegen einer Lizenz zugänglich), ca. 10%
  • Reine Metadaten ohne Volltexte, ca. 30%

In der erweiterten Suche kann man die Suche gezielt auf Felder (Autor, Titel, Erscheinungsjahr bzw. -zeitraum ...), Dokumentarten (Bücher, Artikel, Bilder ...), Nachnutzung / Lizenzen (Creative Commons) und Zugang (Open Access) einschränken. Um diese Suche zu ermöglichen werden die Informationen in den Dokumenten von uns auf verschiedenen Wegen normiert, z.B. wird aus der Metadaten-Angabe "10-12-2014" das Erscheinungsjahr "2014", aus der Angabe "scientific book", "Monograph" oder "Livro" wird die Dokumentart "Buch" und aus der Angabe "Creative-Commons-Namensnennung-Lizenz" wird "CC-BY".

Außerdem steht ein Browsing nach DDC (Dewey-Dezimalklassifikation), Dokumenttyp, Nachnutzung und Zugang zur Verfügung. Im DDC-Browsing sind neben den Dokumenten, die bereits von Hause aus über eine DDC-Klassifizierung verfügen (< 1 Mio), auch über 10 Mio. Dokumente auffindbar, die automatisch mit einer DDC klassifziert wurden, insgesamt derzeit mehr als 15 Mio. Dokumente. Dieser Anteil wächst stetig. Hierbei kommt ein im Rahmen eines DFG-Projektes von uns entwickelter Klassifikator zum Einsatz, der Dokumente, die über ein deutsches oder englisches Abstract verfügen, mit einer DDC-Klasse anreichern kann.

Datenbankbetreiber können den BASE-Index über verschiedene Schnittstelle in eigene Anwendungen integrieren. Diese Möglichkeit wird von vielen kommerziellen und nicht-kommerziellen Diensten genutzt (z.B. EBSCO, Metager, Dissem.in).

Entwicklung / Meilensteine

Ein erstes Konzept für eine wissenschaftliche Suchmaschine gab es bereits 2001. Nach Test verschiedener Anbieter und Demo-Anwendungen ging BASE im Juni 2004 online.

Bis Anfang 2011 wurde die Suchmaschinen-Software von Microsoft FAST verwendet. 2011 wurde diese durch eine auf der Open-Source-Software SOLR / Lucene (Backend) und VUFind (Frontend) basierende Version abgelöst.

BASE ist registrierter OAI-Service-Provider und war am EU-Projekt DRIVER ("Digital Repository Infrastructure Vision for European Research") beteiligt.

  • 2001: Erstes Konzept "Universelle Wissenschaftssuchmaschine" (UWS) der Universitätsbibliothek Bielefeld
  • 2002: Test verschiedener Anbieter (Entscheidung für die norwegische Firma FAST)
  • 2003: Testanwendungen: "Math Demonstrator" (Fachsuche nach mathematischen Publikationen) und "Digital Collections" (Digitalisierungen) mit insgesamt 15 Quellen
  • Juni 2004: BASE geht mit 15 indexierten Quellen und 500.000 Dokumenten (davon ca. 30.000 frei zugängliche Volltext-Dokumente) online
  • 2005: Uni-Webseiten werden mit der Suchmaschinen-Software von FAST indexiert
  • 2006: Trefferbezogene Links auf Google Scholar ("Diesen Titel in Google Scholar suchen")
  • 2007: Integration des Eurovoc-Thesaurus; DDC-Browsing; BASE ist über MetaGer absuchbar
  • 2008: Erweiterung der Schlagwörter um Synonyme, Ober- und Unterbegriffe aus der SWD; Mehr als 10 Mio. Dokumente im Index
  • 2009: BASE über KVK absuchbar; Suchbox für externe Seiten; Integration von BASE in die DigiBib (Metasuche); Mehr als 1.000 Quellen und 20 Mio. Dokumente im Index
  • 2010: Auszeichnung mit dem SuMa-Award
  • 2011: Umstellung der Suchmaschinensoftware von Microsoft FAST auf Open-Source-Software (Lucene/SOLR); Start der Weblogs und des Twitterkanals; Auszeichnung zur Hochschulperle des Monats Mai; Mehr als 2.000 Quellen und 30 Mio. Dokmumente im Index; Ausbau der automatischen Klassifizierung mit DDC und Bereitstellung im Live-System; Bereitstellung des OAI-PMH-Validators OVAL für Repository-Betreiber
  • 2012: Weitere Schnittstellen (Repository Service, Subject API), Start von BASE DE (eiegene Oberfläche für deutsche Quellen). Mehr als 40 Mio. Dokumente
  • 2013: Kennzeichnung von Open-Access-Dokumenten und -Quellen durch entsprechende Symbole
  • 2014: Mehr als 3.000 Quellen / 60 Millionen Dokumente
  • 2015: Indexierung von Zugriffsrechten / Nachnutzung auf Dokumentebene. Mehr als 70 Millionen Dokumente
  • 2016: Umstellung der Server auf https (sichere Verbindung) / Mehr als 4000 Quellen / Mehr als 100 Millionen Dokumente / Erweiterung der Dokumenttypen

BASE Poster

Was zeichnet BASE aus?

  • Hohe Datenqualität
  • Transparenz der indexierten Quellen (Quellenliste)
  • Normierung ("Verbesserung") von Metadaten
  • Differnzierte Suchoptionen, Sortierung, Suchverfeinerung
  • Suchhistorie (dauerhaft speicherbar)
  • Differenzierte und detaillierte Anzeige von bibliographischen Daten
  • Verschiedene Exportmöglichkeiten von Treffern / Trefferlisten
  • Suchprofil (RSS)
  • Suche nach Wortformen (Lemmatisierung)
  • Mehrsprachige Suche (Eurovoc)
  • Oberfläche in 8 Sprachen vorhanden
  • Keine Werbung

Entwicklung der Indexgröße (jeweils Mitte des Jahres)

  • 2004: 0,5 Mio. Dokumente / 15 Quellen
  • 2005: 2 Mio. Dokumente / 100 Quellen
  • 2006: 3 Mio. Dokumente / 230 Quellen
  • 2007: 6 Mio. Dokumente / 420 Quellen
  • 2008: 11 Mio. Dokumente / 800 Quellen
  • 2009: 20 Mio. Dokumente / 1250 Quellen
  • 2010: 25 Mio. Dokumente / 1700 Quellen
  • 2011: 30 Mio. Dokumente / 1900 Quellen
  • 2012: 36 Mio. Dokumente / 2200 Quellen
  • 2013: 50 Mio. Dokumente / 2700 Quellen
  • 2014: 60 Mio. Dokumente / 3000 Quellen
  • 2015: 75 Mio. Dokumente / 3600 Quellen
  • 2016: 95 Mio. Dokumente / 4400 Quellen

Entwicklung als Grafik

BASE im Vergleich zu anderen wissenschaftlichen Suchmaschinen

SuchmaschineInhaltUmfangAnteil Volltexte
BASEMetadaten aus OAI-Quellen100 Mio. Dokumente aus > 4000 Quellen (geharvested: > 6000 Quellen / > 150 Mio. Dokumente)ca. 60%
Google Scholarkostenpflichtige und kostenlose Artikel, bibliographische Angaben ohne Volltext> 150 Mio. Dokumente Analyseca. 50%
MASkostenpflichtige und kostenlose Artikel, bibliographische Angaben ohne Volltext80 Mio.ca. 50%
OAIsterausschließlich OAI-Metadatenca. 30 Mio. Dokumente aus 1500 Quellenca. 50%

Weitere: List of academic databases and search engines

Links