slanted W3C logo

Rechtenormalisierung in BASE: Ergebnisse aus dem EuropeanaCloud-Projekt

Cloud Screenshot

Christoph Broschinski, <broschinski@uni-bielefeld.de>




Europeana

Europeana: Seit 2009 bestehendes, EU-gefördertes Netzwerk/Portal >>>

Mehrere Projekte und Förderphasen, seit 2013: Europeana Cloud (2/2013 - 2/2016)

BASE-Daten für Europeana

BASE liefert eine definierte Index-Teilmenge an Europeana:

Problem: Europeana benötigt für jeden angelieferten Record explizite Rechteinformationen!

Übersicht: BASE und Rechteinformationen

BASE: Bisheriger Stand

Beispiel für dc:rights-Inhalte aus BASE (deutsche Quellen):


Feld dc:rights in BASE bislang nicht berücksichtigt (wird bei Suchtreffern unverändert mit ausgegeben)

Einzige Form von Nachnutzungsinformationen in BASE bisher: Open Access (OA)

=> Bislang keine Gewinnung von Nachnutzungsinformationen direkt auf Record-Ebene

Rechtenormalisierung

Ziel: Normalisierung (Abbildung auf ein festes Vokabular) der Inhalte des DC-Elements "dc:rights" in einem neuen Feld "dc:rightsnorm". Vorteile:

Frage: Auf welche Zielkategorien soll normalisiert werden?

dc:rights dc:rightsnorm dc:oa
"open access" 1
"The Public Domain Mark (PDM)" PDM 1
"© Technische Universität Ilmenau (Thür.) 2014" 2
"info:eu-repo/semantics/embargoedAccess" 0
"Creative Commons - Namensnennung, Nicht kommerziell, Keine Bearbeitung" CC-BY-NC-ND 1

Technische Umsetzung

Rechtenormalisierung findet während des sogenannten Preprocessings statt (geschieht jedes Wochenende für geänderte Harvest-Ergebnisse)

Grundprinzip: Hierarchisch abgestufte Suche mit regulären Ausdrücken.

1. Public Domain: Konservativer Ansatz, beschränkt auf Suche nach den von creativecommons.org vorgeschlagenen Public-Domain-Varianten:

2. Creative Commons: Zweistufiger Suchprozess mit regulären Ausdrücken: Zunächst Suche nach allgemeinen 'Markern', die auf CC-Lizenzen hindeuten, beispielsweise:

Falls ein solcher Marker gefunden wird, erfolgt in der zweiten Stufe die Abbildung auf eine bestimmte CC-Lizenz. Dazu werden wiederum drei Phasen durchlaufen:

3. (Kein) Open Access: Vorrangig Suche nach URIs aus dem DRIVER-Vokabular

Evaluierung/Entwicklung der Suchmuster

Erforderlicher Arbeitsablauf:

Problem: BASE enthält über 40 Mio. Records (brutto), die über ein dc:rights-Element verfügen - ohne Werkzeugunterstützung aussichtlos!

Lösung: Analysetool in HarCon >>> >>>

Gesamtergebnisse

Normalisierungskategorien als neue Suchoptionen in BASE verfügbar >>>

Aktuelle Statistiken (22.10.2105):

Kategorie Anzahl Anteil
Gesamt 79,814,774 100%
Open Access 23,419,090 29,3%
Creative Commons* 626,397 0,8%
Public Domain* 24,946 0,03%
Kein Open Access 1,347,691 1,7%
Unknown 55,048,253 69%

* Teilmenge von Open Access

Zusammenfassung



Danke für Ihre Aufmerksamkeit!