WissKI – Wissenschaftliche Kommunikations-Infrastruktur


Projektlaufzeit:
2009 bis 2011/2012
Förderung: Deutsche Forschungsgemeinschaft (DFG)


Das vom Germanischen Nationalmuseum Nürnberg (GNM), dem Zoologischen Forschungsmuseum Alexander Koenig Bonn (ZFMK) und dem Lehrstuhl Informatik 8 für Künstliche Intelligenz der Friedrich-Alexander-Universität Nürnberg-Erlangen initiierte Vorhaben hat sich zum Ziel gesetzt, ein auf Internettechnologien basiertes System zu entwickeln, das die wissenschaftliche Kommunikation und Dokumentation im Bereich des kulturellen Erbes unterstützt und dabei für die interne Datenhaltung konsequent den ISO zertifizierten CIDOC-CRM Standard nutzt. Es soll gezeigt werden, wie eine Ontologien-gestützte Wissensverarbeitung konkret realisiert werden kann und welche Vorteile gegenüber den bisherigen Ansätzen zum Austausch und der Integration von Daten erwachsen.

Ausgangspunkt des Projektes war die am GNM wie auch am ZFMK entstandene Frage, auf welche Weise die umfangreichen Datensammlungen wie sie heute in wissenschaftlichen Projekten entstehen und in sehr spezifischen Datenbanken verwaltet werden, auch für zukünftige Projekte erhalten und aktiv nutzbar bleiben können.

Wissenschaftliche Forschungsprojekte im Bereich der Museen erzeugen ausgehend von den verwalteten Objekten umfangreiche Sammlungen primärer Informationen, die die Grundlage für weitergehende Forschung darstellen. Diese im wissenschaftlichen Arbeitsprozess entstehenden Stoffsammlungen, die sich nach außen als Kataloge oder Korpora darstellen, sind in aller Regel so umfangreich, dass aus Kostengründen häufig nur eine Auswahl der Information für den Druck beziehungsweise die Publikation berücksichtigt werden kann. Ein beträchtlicher Teil der Information geht, da bislang weitergehende digitale Nutzungskonzepte fehlen, mit Abschluss des jeweiligen Projekts verloren. Noch bis vor wenigen Jahren war die Antwort auf die Erhaltungsfrage einfach, indem der in Papierform vorliegende physisch fassbare Aktenbestand eines Projekts archiviert wurde und damit über das Archiv jeder weiteren Forschung zugänglich war. Durch die fortschreitende Entwicklung der Informations- und Kommunikationstechnologien (IuK) hat sich die Situation wie auch die Erwartung seitens der Forschung gewandelt. Zum einen lässt sich digitale Information nicht einfach archivieren, da durch den schnellen technologischen Wandel digitale Formate veralten und bereits nach wenigen Jahren nicht mehr lesbar sind. Es geht aber nicht mehr nur um die archivische Erhaltung, sondern auch um die Fortschreibung und Bereitstellung der Daten mittels IuK -Technologien und damit um deren nachhaltige Einbettung in die aktive Forschung.

Das WissKI Projekt versucht für dieses Desiderat allgemein verwendbare Lösungen zu erarbeiten. Die im WissKI-Projekt avisierte Lösung dieser Problematik wird im Aufbau internetbasierter, fachlich moderierter Informationsportale gesehen, die von der jeweiligen Forschergemeinde selbst getragen werden, deren inhaltliches Rückgrat sich über die musealen Objekte generiert und die als kooperative Informationserzeugungs- und Publikationswerkzeuge für verschiedene Projekte eingesetzt werden können.

Als ein erstes einfaches Beispiel dieser kooperativen Informationsportale können die aus dem Internet bekannten Wiki Plattformen (Wikipedia/Wikimedia/Guttenplug) angesehen werden. Auf die Frage, was deren Erfolg ausmacht, lassen sich verschieden Faktoren benennen. Einerseits liegt der Erfolg des Wiki-Konzepts im Bereich der Online-Enzyklopädien am „demokratischen“ Redaktionsprozess (Mitmachkonzept), zum anderen aber in hohem Maße am einfachen Mechanismus der Wissenserstellung und der Wissensdarstellung. Aus WissKI-Sicht entsteht mithin die Frage, wie sich derartige Konzepte in eine wissenschaftlich kooperativ getragene Arbeitsplattform übertragen lassen und welche besonderen wissenschaftlichen Bedingungen dafür gelten.

Um nicht das Rad neu zu erfinden, setzt das Projekt mit DRUPAL auf einem bereits bestehenden modular aufgebauten Content Management System auf. Im Rahmen von DRUPAL werden neue Module entwickelt, die die kooperative Erzeugung und Publikation museal getragener wissenschaftlicher Korpora im Internet derartig unterstützen, dass diese Information durch die Wissenschaft kollaborativ aktuell gehalten werden kann und diese Information zugleich den primären wissenschaftlichen Grundstock für eine Diskussions- und Publikationsplattform bildet, was in der Folge den Aufbau musealer wissenschaftlicher, dezentraler Kompetenzzentren ermöglicht.

Generell wird das aus Wikipedia bekannte Konzept der Einfachheit der Veröffentlichung von Webinhalten und des verlinkten Wissens unterstützt, aber um klassische, aktuelle, aber auch neue Content-Technologien (Tiefenerschließung und semantische Annotation) erweitert.

Die Erweiterungen betreffen:

  • Erstellung einer Rechte- und Moderationskomponente
  • Sicherstellung der Identität der Autorschaft
  •  Sicherstellung der Authentizität der Information
  • Herstellung der Zitierfähigkeit der Beiträge
  • Sicherstellung des Langzeiterhalts von Informationen (Digital Preservation, NESTOR)
  • Tiefenerschließung über CIDOC-CRM (ISO 21127)
  • Nachhaltigkeit der Information und Investition (Nachnutzung) durch vollständige Einbettung diverser Projektdaten
  • Bereitstellung digitaler Text- und Bildinformation für eine zukünftige virtuelle europäische oder nationale digitale Bibliothek
  •  Inhaltlich/technische Umsetzung internationaler Standards wie OWL, RDF, DC und OAI-PMH

Die Technologie

Als netzbasiertes System bieten sich zur Umsetzung Technologien aus dem Semantic Web Umfeld an. Um das CIDOC-CRM nutzen zu können, wurde mit dem Erlangen CRM/OWL (ECRM) zunächst eine Implementation auf Basis der Web Ontology Language (OWL), die vom World Wide Web Consortium (W3C) entwickelt wurde, realisiert. Ontologien in der Informatik basieren auf formaler Logik und werden genutzt um Wissen formal zu definieren, zu kategorisieren, zu beschreiben und zu inferieren. Das ECRM verwendet den OWL Dialekt Description Logics (DL), welcher der Beschreibungslogik SHOIN(D) entspricht. Die Syntax von OWL ist sowohl von Maschinen als auch von Menschen - mit entsprechendem Vorwissen - lesbar. Die formal definierte Semantik erlaubt die Modellierung von Konzepten mit einer klaren Bedeutung. Die Beschränkung auf SHOIN(D) erlaubt OWL-DL eine hohe Expressivität, während es gleichzeitig vollständig berechenbar und entscheidbar bleibt. Im Gegensatz zu anderen Logik-basierten Systemen wird nicht von der Vollständigkeit der vorliegenden Information ausgegangen (Open World Assumption), das heißt dass unbekannte Fakten nicht als falsch deklariert werden. Da Wissen über das Kulturelle Erbe stets lückenhaft ist, ist diese Eigenschaft von OWL von großem Vorteil.

Ontologien zeichnen sich durch ihre Erweiterbarkeit aus. Eine Methode der Erweiterung ist die weitere Spezifizierung von Konzepten und Eigenschaften durch die Bildung von Subkonzepten und Subeigenschaften. Diese erben alle Eigenschaften ihrer Eltern und können durch weitere Eigenschaften erweitert werden.

WissKI sieht ein dreischichtiges Ontologienmodell vor, das es ermöglicht, das CIDOC-CRM je nach Anwendungsfall zu erweitern. Als übergeordnete erste Schicht wird mit ECRM eine Referenzonologie geschaffen, auf die sich alle darunterliegenden Schichten in ihren Konzepten beziehen. In der zweiten Schicht wird eine Subontologie eingeführt, die erste systemrelevante Erweiterungen vornimmt. Beispielsweise führt sie primitive Datentypen ein, die im CIDOC-CRM nicht näher spezifiziert sind.

In der dritten Schicht werden so genannte Anwendungsontologien abgebildet. Innerhalb der Anwendungsontologie werden Konzepte und Eigenschaften spezifiziert, die für einen bestimmten Anwendungsfall (ein spezifisches inhaltlich getragenes Projekt) benötigt werden. Soll das System beispielsweise zur Dokumentation im Museum dienen, so wird hier das Konzept einer Inventarnummer als Unterkonzept zum Konzept "E42 Identifier" des CIDOC-CRM eingeführt und mit entsprechenden Restriktionen versehen. Das System passt die Datenerfassungsinstrumente für jede Anwendungsontologie, von denen beliebig viele angelegt werden können, automatisch an, so dass eine hohe Flexibilität und Granularität erreicht wird. Die Datenerfassung wird durch die Einbindung von Normdaten unterstützt. Die Instanzen dieser Ontologien stellen die konkreten Daten dar, die in Form so genannte Triples (Subjekt-Prädikat-Objekt Aussagesätze) in einem Triple-Store (spezifische Form einer Datenbank) gemeinsam vorgehalten werden. Durch den Bezug auf das CIDOC-CRM als Referenzontologie bilden die gemeinsam im Triple-Store vorliegenden Daten trotz der verschiedenartigen Ausrichtungen der Anwendungsontologien einen einzigen homogenen Datenbestand, der automatisch validiert und über den Schlussfolgerungen gezogen werden können, d.h. Information inhaltlich vernetzt wird. Durch diese 3 Schichten Modellierung unterstützt WissKI einen transdisziplinären Ansatz, der sich von einem interdisziplinären Ansatz darin unterscheidet, dass nicht nur Information ausgetauscht wird, sondern auch die methodischen Konzepte der unterschiedlichen Disziplinen explizit werden.

Natürlich bietet das System Schnittstellen, die die Nutzung der Daten im Semantik Web ermöglicht. Über diese Schnittstellen kann ein verlustfreier Datenaustausch auch mit Fremdsystemen realisiert werden, die das CRM als Referenzontologie nutzen.

Projektwebseite
Bereitstellung der aktuellen CIDOC-CRM Ontologie in OWL-DL 1.0
WissKI bei Facebook

Zurück zur Übersicht

Projektmitarbeiter

Dr. Siegfried Krause (Projektleitung)
Georg Hohmann M. A.
Mag. rer. nat. Gerald Hiebel, Wissenschaftlicher Mitarbeiter

Kooperationspartner

  • Dr. Karl-Heinz Lampe

    †2010 (ZFMK)
    Projektleitung

    Dipl.-Inf. Mark Fichtner

    (ZFMK)Wiss. Mitarbeiter
    E-Mail
    Website


  • Prof. Dr. Günther Görz
    Projektleitung
    E-Mail

    Dipl.-Inf. Martin Scholz (FAU)
    Wiss. Mitarbeiter
    E-Mail
    Website