Programm "Fächerübergreifende Perspektiven durch digitale Forschungsinfrastrukturen"

Das Programm des 3. Workshops der CLARIN-D Fach-AGs richtet sich entlang der drei zentralen Service-Leistungen der CLARIN-D Forschungsinfrastruktur aus: 1) Aufbewahren, 2) Auffinden, 3) Auswerten digitaler Ressourcen. Die Vorstellung aktueller Forschungsprojekte der Fach-AGs zeigt, wie eigene Ressourcen, Daten und Forschungsergebnisse langfristig aufbewahrt und einfach für weitere Forschungszwecke verfügbar gemacht werden können. Darüber hinaus wird gezeigt, wie computergestützte Werkzeuge durch gemeinsame Austauschformate, Applikationen und Webservices zur Analyse von Sprachdaten genutzt werden können.

Im Vordergrund der Diskussionen des Workshops steht die Frage, wie fächerübergreifend gemeinsame Methoden und Best Practices für die Digital Humanities durch die Forschungsinfrastruktur ermöglicht werden.

Dienstag, 30. Juni 2015

11.00 – 11.15 Uhr   Begrüßung, Prof. Dr. Gerik Scheuermann (Dekan der Fakultät für Mathematik und Informatik)
11.15 – 12.15 Uhr CLARIN-D – Ziele, aktueller Stand, Use cases der digitalen Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften,
Prof. Dr. Erhard Hinrichs, Prof. Dr. Gerhard Heyer
12.15 – 13.15 Uhr Mittagspause
13.15 – 13.45 Uhr WebAnno – Annotation for the Digital Humanities,
Dr. Richard Eckart de Castilho

Session A: Sprachwissenschaftlich orientierte Nutzung der CLARIN-D Infrastruktur (Schillersaal)

13.45 – 14.15 Uhr   Praktische Metadatengenerierung für Sprachdaten: Arbeiten mit CMDI Maker,
Felix Rau
14.15 – 14.45 Uhr Spezialwerkzeuge in der Kompilation des Old Bailey Corpus,
Magnus Nissel
14.45 – 15.15 Uhr GeWiss – Ein Vergleichskorpus gesprochener Wissenschaftssprache,
Prof. Dr. Christian Fandrych, Dr. Cordula Meißner und Daniel Jettka
15.15 – 15.45 Uhr Kaffee und Kuchenpause
15.45 – 16.30 Uhr Session wrap-up discussion: Community Best Practices und fächerübergreifende Perspektiven durch die CLARIN-Infrastruktur,
Moderation: Prof. Dr. Gary Schaal

Session B: Inhaltsanalytisch orientierte Nutzung der CLARIN-D Infrastruktur (Seminarraum 1)

13.45 – 14.15 Uhr   PoCoTo: Ein Open-Source Tool zur manuellen Nachkorrektur historischer OCR-erfasster Texte,
Florian Fink
14.15 – 14.45 Uhr PolmineR: Auswertung von Plenarprotokollen mit R,
Prof. Dr. Andreas Blätte
14.45 – 15.15 Uhr Das DDR-Pressekorpus. Computerlinguistische Analysenverfahren als Anwendungsszenario für die Historische Semantik,
Prof. Dr. Martin Sabrow, Dr. Alexander Geyken
15.15 – 15.45 Uhr Kaffeepause
15.45 – 16.30 Uhr Session wrap-up discussion: Community Best Practices und fächerübergreifende Perspektiven durch die CLARIN-Infrastruktur,
Moderation: Prof. Dr. Cathleen Kantner

16.40 – 17.00 Uhr   Reproducible Research: Publizieren auf der OpenScience Platform,
Ingmar Schuster
17.00 – 17.15 Uhr Kaffeepause
17.15 – 18.00 Uhr Depositing Services: Wie bekomme ich meine Ressourcen in die CLARIN-D Infrastruktur,
Dr. Thorsten Trippel
18.00 – 19.00 Uhr Short presentations:
  • eTRAP: electronic Text Re-use Acquisition Project, Maria Moritz
  • Werkzeuge zur Annotation historischer Sprachstufen, Dr. Barbara Aehnlich, Elisabeth Witzenhausen
  • GeoBib – Georeferenzierte Online-Bibliographie früher Holocaust- und Lagerliteratur, Sandra Schaarschmidt, Ines Schiller
  • e-Identity, Prof. Dr. Ulrich Heid
19.00 – 20.30 Uhr   Get together: Stehempfang mit Grillbuffet sowie kalten Speisen und Getränken

 

Mittwoch, 01. Juli 2015

09.30 – 10.30 Uhr   Federated Content Search und Rechtemanagement für die Integration von Ressourcen in die CLARIN-Infrastruktur,
Dr. Dirk Goldhahn / Dieter van Uytvanck
10.30 – 11.00 Uhr Kaffeepause
11.00 – 11.45 Uhr Dienste im Wandel: Erfahrungen und Einblicke in die Entwicklung von Webanwendungen in den DH am Beispiel des eHumanities Desktop,
Prof. Dr. Alexander Mehler, Rüdiger Gleim, Dr. Tim Geelhaar
11.45 – 12.30 Uhr Korpusbasierte Sprachanalyse mit CLARIN-D-Ressourcen: Anwendungsszenarien und Erfahrungen aus dem Projekt KobRA,
Prof. Dr. Angelika Storrer
12.30 – 13.30 Uhr Mittagspause
13.30 – 14.10 Uhr Keynote: Wozu brauchen wir digitale Forschungsinfrastrukturen in den Humanities?,
Prof. Christiane Fellbaum, Ph.D. (University of Princeton)
14.10 – 15.00 Uhr Panel-Diskussion: Welchen Beitrag leistet die CLARIN-Infrastruktur für Community Best Practices und die Entwicklung fächerübergreifender Perspektiven?
  • Prof. Christiane Fellbaum, Ph.D.
  • Prof. Dr. Christian Mair
  • Prof. Dr. Cathleen Kantner
  • Prof. Dr. Anette Frank
  • Prof. Dr. Erhard Hinrichs,
  • Dr. Alexander Geyken,
  • Prof. Dr. Gerhard Heyer (Moderation)

Ende des Workshops

Im Anschluss an den Workshop tagen parallel die Mitgliederversammlungen der CLARIN-D Fach-AGs. Interessierte wenden sich bitte direkt an die AnsprechpartnerInnen der jeweiligen Arbeitsgruppe.

15.00 – 15.15 Uhr   Kaffeepause
15.15 – 18.00 Uhr Mitgliederversammlungen der F-AGs

 

CLARIN-D Help Desk

Sie wollen gerne Ihre eigenen Ressourcen in die CLARIN-D Infrastruktur integrieren oder brauchen Unterstützung beim Einsatz von CLARIN-D Tools und Ressourcen?

Auf dem Fach-AG Workshop wird der CLARIN-D Help Desk mit einem Informationsstand präsent sein, um Sie bei diesen und anderen Fragen zu beraten. Gerne können Sie auch eigene Daten (z.B. auf einem USB-Stick) mitbringen. Gemeinsam mit dem Help Desk Team können Sie die ersten Schritte für ein Hosting ihrer Ressource an einem der CLARIN-D Zentren einleiten.

Haben Sie Interesse an einer ausführlichen Beratung? Dann melden Sie sich bitte vorab bei uns an: support@clarin-d.de

 

Abstracts zu den Vorträgen

WebAnno – Annotation for the Digital Humanities

Dr. Richard Eckart de Castilho: As the digitally supported analysis of texts becomes increasingly important in the Digital Humanities, interest in suitable annotations tools is growing. Most annotation tools originate from the context of computational linguistics and corpus linguistics and tend to be limited to these domains. In this session, we will examine potential use-cases for annotation within and beyond linguistics and how the WebAnno annotation tool can be customized for various annotation tasks in the Digital Humanities.

PoCoTo: Ein Open-Source Tool zur manuellen Nachkorrektur historischer OCR-erfasster Texte

Florian Fink: PoCoTo (PostCorrectionTool) ist ein am Centrum für Informations- und Sprachverarbeitung der LMU München entwickeltes Tool zur manuellen Nachkorrektur OCR-erfasster Texte, mit dessen Hilfe Anwender die Qualität digitalisierter Textdokumente verbessern können, um eine spätere, wissenschaftliche Nutzung der Dokumente zu gewährleisten. Das Tool unterstützt dabei den Anwender mit automatisierten Fehlerkorrekturmöglichkeiten basierend auf verschiedenen Sprach- und Fehlerprofilen.
Der Vortrag richtet sich an Interessierte aus allen Gebieten der digitalen Geisteswissenschaften und bietet eine Einführung in die Verwendung des Tools zur manuellen Nachkorrektur digitalisierter Daten. Neben einem Überblick zu den verwendeten Ein- und Ausgabedateien des Tools sollen besonders auch die unterschiedlichen Möglichkeiten der automatisierten Fehlerkorrektur dargestellt werden. Ein besonderer Fokus liegt dabei auf der Verwendung des Sprachprofilierungstools zur Erstellung von sprachbasierten Fehlerprofilen.

Praktische Metadatengenerierung für Sprachdaten: Arbeiten mit CMDI Maker

Felix Rau: Daten sind mittel- und langfristig nur mit Metadaten sinnvoll nutzbar. Mit dem CMDI Maker können Metadaten für audio-visuelle und andere Sprachdaten schnell und einfach erstellt werden.
In CLARIN wird für Metadaten das modulare CMDI-Format eingesetzt. Dieses Format ermöglicht es Metadaten an den Bedürfnissen der Fachcommunity auszurichten. Neben dem Datenformat stellt CLARIN auch Werkzeuge zur Generierung und Bearbeitung von CMDI-Metadaten zur Verfügung. Mit den CLARIN-Tools Arbil und COMEDI stehen den Nutzern sehr mächtige CMDI-Editoren zur Verfügung, die Metadaten für jedes CMDI-Profil generieren und bearbeiten können. Im Rahmen von CLARIN-D haben wir mit dem CMDI Maker eine offline-fähige Web-Applikation entwickelt, die eine intuitive und nutzerfreundliche Generierung von Metadaten für viele Datensätze ermöglicht.
Der CMDI Maker verfolgt bei der Generierung von Metadaten einen anderen Ansatz als Arbil und COMEDI und ermöglicht damit eine schnelle und effiziente Generierung von Metadaten für viele Datensätze. Die Webapplikation ist dabei weniger mächtig als die vollen CMDI-Editoren, aber dafür für den Benutzer einfach zu handhaben und intuitiv zu benutzen.
CMDI Maker generiert IMDI-CMDI und ELDP-CMDI Metadaten. Diese beiden CMDI-Profile sind für Daten aus der Sprachdokumentation und Sprachtypologie entwickelt und werden über 10 Spracharchiven weltweit eingesetzt.
Darüber hinaus ist der CMDI Maker erweiterbar, so dass andere Communities und Forschungsprojekte Interfaces für weitere CMDI-Profile entwickeln können.

Dienste im Wandel: Erfahrungen und Einblicke in die Entwicklung von Webanwendungen in den DH am Beispiel des eHumanities Desktop

Rüdiger Gleim, Prof. Dr Alexander Mehler: Der Vortrag thematisiert praktische Erfahrungen in der Entwicklung, Anwendung und Einbindung von Softwarekomponenten und Web-Diensten in den DH an der Uni Frankfurt. Er beschreibt einen Bogen von der Darstellung der Forschungsprojekte CEDIFOR und CompHistSem über den bisher erreichten Stand der Entwicklung hin zur kritischen Betrachtung der Ergebnisse und der Ausrichtung der aktuellen und zukünftigen Entwicklungsarbeit. Dabei wird die Bedeutung der Modularisierung und Standardisierung von Web-Diensten und deren Einbettung in die CLARIN Infrastrukturen motiviert.

GeWiss – Ein Vergleichskorpus gesprochener Wissenschaftssprache

Prof. Dr. Christian Fandrych, Dr. Cordula Meißner: Der Beitrag stellt das GeWiss-Korpus vor, ein Vergleichskorpus der gesprochenen Wissenschaftssprache, welches im Rahmen des 2. Kurationsprojekts der F-AG 1 in die CLARIN-Infrastruktur eingebunden wurde. Es werden die in GeWiss enthaltenen Sprachressourcen und Zugriffsoptionen gezeigt. Im Besonderen wird dabei auf die Nutzungsmöglichkeiten eingegangen, die das Korpus für inter- und fachdisziplinäre Untersuchungen verschiedener Philologien und Fremdsprachendidaktiken bietet. Der Vortrag richtet sich an Zuhörer, die für ihre Forschungsfragen mündliche L1-Sprachdaten des Deutschen, Englischen, Polnischen oder Italienischen suchen, insbesondere aus dem Bereich der Wissenschaftskommunikation, oder die an mündlichen L2-Daten des Deutschen aus diesem Bereich interessiert sind.

Das DDR-Pressekorpus. Computerlinguistische Analysenverfahren als Anwendungsszenario für die Historische Semantik

Im Rahmen des DFG-geförderten Projekts DDR-Presseportal werden drei DDR-Tageszeitungen digitalisiert und im Volltext erschlossen (Neues Deutschland, Berliner Zeitung, Neue Zeit). Damit ist ein bedeutender Teil der Tagespresse der Sowjetischen Besatzungszone (1945-1949) und der DDR für die wissenschaftliche Forschung und Recherche frei zugänglich. Im Vortrag soll die Datenressource vorgestellt und historische Anwendungsszenarien für große Textmengen anhand des im Rahmen des Kurationsprojektes der F-AG 10 entwickelten Tools “DiaCollo” besprochen werden. DiaCollo ist ein Werkzeug, das zur Erfassung von Kollokationen in frei definierbaren Zeiträumen dient.

Korpusbasierte Sprachanalyse mit CLARIN-D-Ressourcen: Anwendungsszenarien und Erfahrungen aus dem Projekt KobRA

Im Projekt KobRA (Korpusbasierte linguistische Recherche und Analyse mit Hilfe von Data-Mining) arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie gemeinsam daran, die linguistische Analyse von CLARIN-D-Sprachressourcen durch den Einsatz von Data-Mining-Verfahren zu beschleunigen und zu vereinfachen. Der Beitrag stellt die Anwendungsszenarien des Projekts vor und zeigt am Beispiel von Fallstudien, wie sich CLARIN-D-Ressourcen in der linguistischen Forschung und Lehre einsetzen lassen. Auf der Basis der im Projekt gemachten Erfahrungen werden Perspektiven und Desiderate für die Nutzung digitaler Sprachressourcen durch Studierende und Nachwuchswissenschaftler/innen zur Diskussion gestellt.