English Summary

DFG-Projekt Automatische Anreicherung von OAI-Metadaten

Projektbeschreibung


Der Zugang zu hochwertiger Fachinformation ist eine wichtige Grundvoraussetzung des Wissenschaftsbetriebs. Die zunehmende Bereitstellung elektronischer Publikationen in verteilten offenen Wissensspeichern ("Repositorien") und ihre Zusammenführung, etwa im Rahmen der Open Archives Initiative (OAI), leisten dazu bereits heute einen substantiellen Beitrag. Das DFG-geförderte Projekt "Automatische Anreicherung von OAI-Metadaten mit Hilfe computerlinguistischer Verfahren und Entwicklung von Services für die inhaltsorientierte Vernetzung von Repositorien" zielt auf die Verbesserung der inhaltlichen Erschließung dieser wissenschaftlichen Dokumente durch OAI-Metadaten. Das Projekt ist eine Kooperation zwischen der Universitätsbibliothek Bielefeld, dem Text Technology Lab an der Universität Frankfurt (Prof. Dr. Alexander Mehler) und dem Institut für Informatik an der Universität Leipzig (Abteilung Automatische Sprachverarbeitung, Prof. Dr. Gerhard Heyer).

Im Rahmen des Projekts sollen zunächst Dokumente ohne ausreichende klassifikatorische Sacherschließungsinformationen mit texttechnologischen Verfahren automatisch nach der Dewey Decimal Classification (DDC) klassifiziert und die Klassifikationsinformation in die Metadaten integriert werden. Die so angereicherten Daten können dann in verschiedenen Kontexten Verwendung finden, etwa zurück an Repositorien geliefert oder in wissenschaftliche Suchmaschinen wie die Bielefeld Academic Search Engine (BASE) aufgenommen werden. Die Daten sollen für andere Organisationen zur Nachnutzung bereitgestellt werden. Durch homogenere Klassifikationsinformation soll letztendlich die inhaltsorientierte Vernetzung von verteilten Repositorien gefördert werden. Semantisches Browsing durch die Dokumente nach Fachgebieten und semantische Suche werden möglich und verbessern die Recherchequalität.

Das Projekt verbindet die Bereiche digitale Bibliothek und Texttechnologie (Computerlinguistik): Während die Universitätsbibliothek hochwertige Dokumentmengen über eine standardisierte Schnittstelle verfügbar macht, liefert die Texttechnologie die linguistisch fundierten Klassifikationsergebnisse.

Daten und Fakten


Projektleitung

UB Bielefeld
Dr. Wolfram Horstmann, CIO Wissenschaftliche Information Universität Bielefeld
Text Technology Lab, Goethe-Universität Frankfurt am Main
Prof. Dr. Alexander Mehler
Abteilung Automatische Sprachverarbeitung, Universität Leipzig
Prof. Dr. Gerhard Heyer

Mitarbeiter

UB Bielefeld
Mathias Lösch Mathias.Loesch@uni-bielefeld.de
Text Technology Lab Frankfurt
Tim vor der Brück vorderBrueck@em.uni-frankfurt.de

Projektförderung

Deutsche Forschungsgemeinschaft

Projektlaufzeit

2 Jahre (Start im Oktober 2009)

Links


Vorträge


  • Lösch, M. (2009). Automatische Klassifikation von OAI-Metadaten mit linguistischen Methoden. Vortrag im Kolloquium Wissensinfrastruktur an der UB Bielefeld, 30. Oktober 2009. (Slides)
  • Waltinger, U., Lösch, M., Horstmann, W., and Mehler, A. (2010). Enhancement of OAI Metadata via Automatic Document Classification. Talk at the 34th Annual Conference of the German Classification Society (GfKl), Karlsruhe, 22.7.2010. (Slides)
  • Lösch, M. (2010). BASE: A multidisciplinary search engine for scientific open access documents. Talk at the Annual Conference of the European Business Schools Librarians Group (EBSLG), Köln, 19.5.2010. (Slides)
  • Lösch, M.; Waltinger, U.; Horstmann, W. & Mehler, A. (2010). Building a DDC-annotated Corpus from OAI Metadata. Poster presentation at OR2010, Madrid (Spain), 2010. (Poster)
  • Lösch, M. (2011). Automatische Sacherschließung elektronischer Dokumente 100. Deutscher Bibliothekartag, Berlin, 8. Juni 2011 (Slides).
  • Mehler, A. (2010). eHumanities Desktop: eine virtuelle Forschungsumgebung für die Geisteswissenschaften. Kolloquium Wissensinfrastruktur an der UB Bielefeld, 16. Juli 2010. Vortrag.
  • Summann, F., D. Pieper, B. Fehling, R. Mitrenga, S. Wolf, M. Imialek, M. Lösch, and W. Horstmann (2011). Approaching next-generation OAI service providers: The BASE case. Poster presented at the 7th CERN Workshop on Innovations in Scholarly Communication (OAI7), June 22-24, Geneva (CH)

Publikationen


  • Lösch, M., U. Waltinger, W. Horstmann, and A. Mehler (2011). Building a DDC-annotated Corpus from OAI Metadata. Journal of Digital Information (12)2.
  • Lösch, M. (2011). A Multidisciplinary Search Engine for Scientific Open Access Documents, in: R. Depping, & S. Christiane (Eds.), Elektronische Schriftenreihe der Universitäts- und Stadtbibliothek Köln, 2. Cologne: EBSLG Annual General Conference, 11–15. http://pub.uni-bielefeld.de/publication/2083906
  • Mehler, A. and Waltinger, U. (2009). Enhancing document modeling by means of open topic models: Crossing the frontier of classification schemes in digital libraries by example of the DDC. Library Hi Tech, 27(4):520–539. PrePrint
  • Mehler, A. (2010). A Quantitative Graph Model of Social Ontologies by Example of Wikipedia. Dehmer, M., F. Emmert-Streib and A. Mehler (eds.): Towards an Information Theory of Complex Networks: Statistical Methods and Applications. Boston/Basel: Birkhäuser.
  • Summann, F.: Open Acces and Institutional Repositories from Local Initiatives to Global Solutions In: CASLIN 2009: Institutional Online Repositories and Open Access, Pilsen 2009, S.39-42.
  • Waltinger, U., A. Mehler, M. Lösch und W. Horstmann (2011). Hierarchical classification of OAI metadata using the DDC taxonomy. In R. Bernardi, S. Chambers, B. Gottfried, F. Segond, und I. Zaihrayeu (Hrsg.), Advanced Language Technologies for Digital Libraries, Volume 6699 of Lecture Notes in Computer Science, S. 29–40. Springer Berlin / Heidelberg.

Ähnliche Projekte


MILOS I und II (1995–1996)
http://www.ub.uni-duesseldorf.de/home/ueber_uns/projekte/abgeschlossene_projekte/milos
KASCADE (1997)
http://www.ub.uni-duesseldorf.de/home/ueber_uns/projekte/abgeschlossene_projekte/kascade
GERHARD (1996–1998)
http://www.bui.haw-hamburg.de/pers/ulrike.spree/astep/gerhard_klass.pdf
OA-Netzwerk (2009-2011)
http://www.dini.de/projekte/oa-netzwerk/
Automatische Klassifikation nach MSC bei der DML-CZ
Řehůřek, R. and Sojka, P. (2008). Automated classification and categorization of mathematical knowledge. In Autexier, S., Campbell, J., Rubio, J., Sorge, V., Suzuki, M., and Wiedijk, F., editors, Intelligent Computer Mathematics, volume 5144 of Lecture Notes in Computer Science, pa- ges 543–557, Heidelberg. Springer.
Metadata Enrichment for Repositories in a London Instiutional Network
http://www.jisc.ac.uk/whatwedo/programmes/inf11/resdis/merlin.aspx
FixRep
http://www.jisc.ac.uk/whatwedo/programmes/inf11/resdis/fixrep.aspx
PETRUS
http://www.d-nb.de/wir/projekte/petrus.htm