Universitätsbibliothek

Intelligenter Rechercheassistent

Konzeption, Implementierung und Evaluation eines intuitiv bedienbaren Rechercheassistenten für die Literaturrecherche, basierend auf einer neuartigen Fuzzy-Suchmethodik
Folgeprojekt: Fuzzy-Suchmethodik für einen kooperativen Rechercheassistenten

Projektleitung/Geschäftsführung:
Dr. Norbert Lossau

Projektförderung:
Deutsche Forschungsgemeinschaft

Projektlaufzeit:
01.04.2000 bis 31.03.2002
Folgeprojekt: 01.04.2002 bis 31.03.2003

Projektbeschreibung:
Gegenstand des Folgeprojekts ist die Implementierung weiterführender Techniken, die das Ziel des Projektvorhabens, Steigerung der Retrieval-Qualität und des Retrieval-Komforts bei der Recherche wissenschaftlicher Texte in Bezug auf die üblichen Qualitätskriterien Precision, Recall, Antwortzeit und Benutzeraufwand, wirksam unterstützen, die Bandbreite der angebotenen Dienste erweitern und zu deren Qualitätssicherung beitragen. Besonderes Augenmerk gilt der Verbindung von Retrieval-Qualität und Benutzerfreundlichkeit, d.h. einfacher, intuitiver Bedienbarkeit. Hierzu werden Methoden entwickelt, in den (im bisherigen Projektverlauf entwickelten) Prototypen integriert und einem Praxistest unterzogen, die sich mit den folgenden Zielsetzungen befassen:

  • Intelligente Interpretation der Benutzeranfrage
  • Entwicklung, Vergleich und dynamische Auswahl alternativer Abarbeitungsstrategien
  • Erweiterte Funktionalität für den Benutzer durch Profildienst und Alert-Service

Intelligente Interpretation der Benutzeranfrage: Bisherige Erfahrungen mit Recherchesystemen zeigen, daß sich Benutzer bei der Eingabe ihrer Anfrage gerne auf die Voreinstellungen verlassen und nur vereinzelt Vorgaben wie z.B. die Relevanzen der eingegebenen Begriffe ändern. Von entscheidender Bedeutung für die Qualität des Recherchevorganges ist daher die intelligente Interpretation der Anfrage sowie das automatisierte Finden optimaler Parameter für die Suche. Es können dabei nicht feste Voreinstellungen getroffen werden, vielmehr müssen situationsbezogene Annahmen über die zweckmäßgste Interpretation der Anfrage gemacht werden, durch die die von dem Benutzer offengelassenen Optionen an plausible Werte gebunden werden. So können vom Benutzer nicht spezifizierte Gewichte für die eingegebenen Suchbegriffe im einfachsten Fall automatisch über ihre relativen Auftrittswahrscheinlichkeiten und ihre sog. inverse Dokumentfrequenz bestimmt werden. Elaboriertere Techniken basieren z.B. auf dem formalen Diskriminanzwert der Dokumente. Auch die dynamische Auswahl des optimalen Aggregationsoperators läßt sich automatisieren - in der einfachsten Form über die Anzahl der eingegebenen Suchbegriffe. - Über die relativen Auftrittswahrscheinlichkeiten von Suchbegriffen läßt sich ein Ähnlichkeitsmaß zwischen Dokumenten definieren - man spricht in diesem Zusammenhang auch von 'Clusterbildung'. Dadurch sind Verfahren wie 'relevance-feedback' bzw. 'citation perl growing' und 'query-expansion' möglich, die eine wesentlich spezifischere Suche zulassen und so eine hohe 'precision' des Suchergebnisses garantieren. Realisierungsmöglichkeiten: Vorschlag zusätzlicher Suchbegriffe durch das System, die automatisch aus den Top-Treffern extrahiert werden, sowie die Anforderung von "ähnlichen" Dokumenten.

Entwicklung, Vergleich und dynamische Auswahl alternativer Abarbeitungsstrategien: Der kalkulatorische Aufwand zur Berechnung einer strukturierten und gewichteten Ergebnismenge erfordert fortgeschrittene Verfahren. Bisherige Recherchesysteme verwenden bei der Abarbeitung einer Anfrage einen festen 'Abarbeitungsplan'. Im Unterschied hierzu ist ein 'dynamischer Abarbeitungsprozeß' realisiert worden, der je nach Struktur der Anfrage ausgewählt wird und z.B. in Abhängigkeit der Größe von bereits berechneten Teilergebnissen verzweigt. Neben einer erheblichen Performanzsteigerung kann dadurch auch eine exaktere Relevanzeinstufung jedes Dokumentes erzielt werden, was eine höhere Retrieval-Qualität zur Folge hat.

Beim gewichteten Retrieval auftretende Teilergebnisse können leicht aus mehreren 10.000 bis 100.000 Dokumenten bestehen. Zur Bearbeitung eines solchen Datenvolumens sind moderne Streaming-Techniken nötig, die die Tatsache ausnutzen, daß diese Ergebnisse nicht zu einem Zeitpunkt komplett vorliegen müssen, sondern iterativ berechnet werden können. Je nach Struktur der Anfrage müssen dann verschiedene solcher Datenströme auf unterschiedliche Art und Weise effizient miteinander kombiniert werden, um das gewünschte Gesamtresultat zu erhalten. Ein Schwerpunkt liegt auf der sog. 'Query-Optimization', mit deren Hilfe eine Anfrage in eine äquivalente Anfrage umgeformt werden kann, die zwar das gleiche Resultat liefert, aber eine einfachere Abarbeitung ermöglicht. Zur effizienten Ergebnisberechnung sind verschiedene Voraussetzungen zu beachten, nämlich die Art und Anzahl der Aggregationsoperatoren, die Anzahl und Gewichte der eingegebenen Stichworte, weitere ausgewählte Filteroperatoren und eine eventuelle zusätzliche Gewichtung der einzelnen Datenströme. Hierzu sollen unterschiedliche Strategien zur Anfrageabarbeitung untersucht und miteinander verglichen werden, wobei das besondere Interesse auf den neuartigen Auswertungsstrategien des Rechercheassistenten liegt. Darüber hinaus sollen weitere Verfahren untersucht werden, die eine feinere Granulierung der Relevanz und über die dadurch bewirkte exaktere Relevanzeinstufung der Dokumente eine höhere Retrieval-Qualität ermöglichen: Diese Strategien verzweigen in Abhängigkeit von den berechneten Teilergebnismengen, schränken z.B. bei sehr großen Ergebnismengen automatisch den Suchskopus von Abstract- auf Titelstichworte ein bzw. erweitern ihn analog dazu auf Volltextsuche, falls zu wenige Ergebnisse gefunden werden.

Erweiterte Funktionalität für den Benutzer durch Profildienst und Alert-Service:

Um dem Benutzer die regelmäßige, wiederholte Recherche zu erleichtern, die notwendig wird, wenn er über aktuelle Neuerungen auf dem Laufenden sein möchte, wird ein Profildienst realisiert, der über einen Alert-Service verfügt. Der Benutzer kann sein 'Profil' in Form einer Fuzzy-Anfrage abspeichern und wird per E-Mail benachrichtigt, sobald neue Dokumente zu seinem Interessensprofil erscheinen. Weiterhin soll eine Integration in den bestehenden Profildienst der Bibliothek erfolgen.

Als technische Grundlage für die Implementierung des Profildienstes soll ein RDBMS (Relationales Datenbank-Management-System) dienen. Bei der Erstellung des Datenbankschemas wird die übliche Entwurfsmethodik für relationale Datenbanken zum Einsatz kommen. Der Alert-Service überprüft in regelmäßigen Abständen bzw. bei Bedarf auf äußere Anfrage hin, ob zu einem Profil neue relevante Dokumente gefunden werden und benachrichtigt den Benutzer im Trefferfall per E-Mail. Dieser Service wird ebenso wie der Rechercheassistent durch Verwendung von Java-Servlets über eine WWW-Schnittstelle zugänglich sein und sich in den Rechercheassistenten und die übrigen Dienste der Bibliothek einbetten.

Internetadresse des Projekts/Ausführliche Informationen:

Zwischenbericht / Abschlussbericht

Eine wissenschaftliche Zusammenfassung des Projekts finden Sie in dem Aufsatz:

Ein Fuzzy-Rechercheassistent für bibliographische Datenbanken
Autoren: Ingo R. Homann und Wolfgang Binder
enthalten in der Zeitschrift: Informatik - Forschung und Entwicklung
Verlag: Springer-Verlag Heidelberg
ISSN: 0178-3564 (Paper); 0949-2925 (Online)
DOI: 10.1007/s00450-004-0172-6
Heft: Band 19, Nummer 2
Datum: November 2004
Seiten: 97-108
Link zur Zeitschrift: Informatik - Forschung und Entwicklung

Universität Bielefeld Universitätsbibliothek Bielefeld Universität Bielefeld Universitätsbibliothek Bielefeld