Leipzig, 30.06.-01.07.2015
Das Programm des 3. Workshops der CLARIN-D Fach-AGs richtet sich entlang der drei zentralen Service-Leistungen der CLARIN-D Forschungsinfrastruktur aus: 1) Aufbewahren, 2) Auffinden, 3) Auswerten digitaler Ressourcen. Die Vorstellung aktueller Forschungsprojekte der Fach-AGs zeigt, wie eigene Ressourcen, Daten und Forschungsergebnisse langfristig aufbewahrt und einfach für weitere Forschungszwecke verfügbar gemacht werden können. Darüber hinaus wird gezeigt, wie computergestützte Werkzeuge durch gemeinsame Austauschformate, Applikationen und Webservices zur Analyse von Sprachdaten genutzt werden können.
Im Vordergrund der Diskussionen des Workshops steht die Frage, wie fächerübergreifend gemeinsame Methoden und Best Practices für die Digital Humanities durch die Forschungsinfrastruktur ermöglicht werden.
11.00 – 11.15 Uhr | Begrüßung, Prof. Dr. Gerik Scheuermann (Dekan der Fakultät für Mathematik und Informatik) | |
11.15 – 12.15 Uhr | CLARIN-D – Ziele, aktueller Stand, Use cases der digitalen Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften, Prof. Dr. Erhard Hinrichs, Prof. Dr. Gerhard Heyer |
|
12.15 – 13.15 Uhr | Mittagspause | |
13.15 – 13.45 Uhr | WebAnno – Annotation for the Digital Humanities, Dr. Richard Eckart de Castilho |
13.45 – 14.15 Uhr | Praktische Metadatengenerierung für Sprachdaten: Arbeiten mit CMDI Maker, Felix Rau |
14.15 – 14.45 Uhr | Spezialwerkzeuge in der Kompilation des Old Bailey Corpus, Magnus Nissel |
14.45 – 15.15 Uhr | GeWiss – Ein Vergleichskorpus gesprochener Wissenschaftssprache, Prof. Dr. Christian Fandrych, Dr. Cordula Meißner und Daniel Jettka |
15.15 – 15.45 Uhr | Kaffee und Kuchenpause |
15.45 – 16.30 Uhr | Session wrap-up discussion: Community Best Practices und fächerübergreifende Perspektiven durch die CLARIN-Infrastruktur, Moderation: Prof. Dr. Gary Schaal |
13.45 – 14.15 Uhr | PoCoTo: Ein Open-Source Tool zur manuellen Nachkorrektur historischer OCR-erfasster Texte, Florian Fink |
14.15 – 14.45 Uhr | PolmineR: Auswertung von Plenarprotokollen mit R, Prof. Dr. Andreas Blätte |
14.45 – 15.15 Uhr | Das DDR-Pressekorpus. Computerlinguistische Analysenverfahren als Anwendungsszenario für die Historische Semantik, Prof. Dr. Martin Sabrow, Dr. Alexander Geyken |
15.15 – 15.45 Uhr | Kaffeepause |
15.45 – 16.30 Uhr | Session wrap-up discussion: Community Best Practices und fächerübergreifende Perspektiven durch die CLARIN-Infrastruktur, Moderation: Prof. Dr. Cathleen Kantner |
16.40 – 17.00 Uhr | Reproducible Research: Publizieren auf der OpenScience Platform, Ingmar Schuster |
17.00 – 17.15 Uhr | Kaffeepause |
17.15 – 18.00 Uhr | Depositing Services: Wie bekomme ich meine Ressourcen in die CLARIN-D Infrastruktur, Dr. Thorsten Trippel |
18.00 – 19.00 Uhr | Short presentations:
|
19.00 – 20.30 Uhr | Get together: Stehempfang mit Grillbuffet sowie kalten Speisen und Getränken |
09.30 – 10.30 Uhr | Federated Content Search und Rechtemanagement für die Integration von Ressourcen in die CLARIN-Infrastruktur, Dr. Dirk Goldhahn / Dieter van Uytvanck |
10.30 – 11.00 Uhr | Kaffeepause |
11.00 – 11.45 Uhr | Dienste im Wandel: Erfahrungen und Einblicke in die Entwicklung von Webanwendungen in den DH am Beispiel des eHumanities Desktop, Prof. Dr. Alexander Mehler, Rüdiger Gleim, Dr. Tim Geelhaar |
11.45 – 12.30 Uhr | Korpusbasierte Sprachanalyse mit CLARIN-D-Ressourcen: Anwendungsszenarien und Erfahrungen aus dem Projekt KobRA, Prof. Dr. Angelika Storrer |
12.30 – 13.30 Uhr | Mittagspause |
13.30 – 14.10 Uhr | Keynote: Wozu brauchen wir digitale Forschungsinfrastrukturen in den Humanities?, Prof. Christiane Fellbaum, Ph.D. (University of Princeton) |
14.10 – 15.00 Uhr | Panel-Diskussion: Welchen Beitrag leistet die CLARIN-Infrastruktur für Community Best Practices und die Entwicklung fächerübergreifender Perspektiven?
|
Im Anschluss an den Workshop tagen parallel die Mitgliederversammlungen der CLARIN-D Fach-AGs. Interessierte wenden sich bitte direkt an die AnsprechpartnerInnen der jeweiligen Arbeitsgruppe.
15.00 – 15.15 Uhr | Kaffeepause |
15.15 – 18.00 Uhr | Mitgliederversammlungen der F-AGs |
Sie wollen gerne Ihre eigenen Ressourcen in die CLARIN-D Infrastruktur integrieren oder brauchen Unterstützung beim Einsatz von CLARIN-D Tools und Ressourcen?
Auf dem Fach-AG Workshop wird der CLARIN-D Help Desk mit einem Informationsstand präsent sein, um Sie bei diesen und anderen Fragen zu beraten. Gerne können Sie auch eigene Daten (z.B. auf einem USB-Stick) mitbringen. Gemeinsam mit dem Help Desk Team können Sie die ersten Schritte für ein Hosting ihrer Ressource an einem der CLARIN-D Zentren einleiten.
Haben Sie Interesse an einer ausführlichen Beratung? Dann melden Sie sich bitte vorab bei uns an: support@clarin-d.de
Dr. Richard Eckart de Castilho: As the digitally supported analysis of texts becomes increasingly important in the Digital Humanities, interest in suitable annotations tools is growing. Most annotation tools originate from the context of computational linguistics and corpus linguistics and tend to be limited to these domains. In this session, we will examine potential use-cases for annotation within and beyond linguistics and how the WebAnno annotation tool can be customized for various annotation tasks in the Digital Humanities.
Florian Fink: PoCoTo (PostCorrectionTool) ist ein am Centrum für Informations- und Sprachverarbeitung der LMU München entwickeltes Tool zur manuellen Nachkorrektur OCR-erfasster Texte, mit dessen Hilfe Anwender die Qualität digitalisierter Textdokumente verbessern können, um eine spätere, wissenschaftliche Nutzung der Dokumente zu gewährleisten. Das Tool unterstützt dabei den Anwender mit automatisierten Fehlerkorrekturmöglichkeiten basierend auf verschiedenen Sprach- und Fehlerprofilen.
Der Vortrag richtet sich an Interessierte aus allen Gebieten der digitalen Geisteswissenschaften und bietet eine Einführung in die Verwendung des Tools zur manuellen Nachkorrektur digitalisierter Daten. Neben einem Überblick zu den verwendeten Ein- und Ausgabedateien des Tools sollen besonders auch die unterschiedlichen Möglichkeiten der automatisierten Fehlerkorrektur dargestellt werden. Ein besonderer Fokus liegt dabei auf der Verwendung des Sprachprofilierungstools zur Erstellung von sprachbasierten Fehlerprofilen.
Felix Rau: Daten sind mittel- und langfristig nur mit Metadaten sinnvoll nutzbar. Mit dem CMDI Maker können Metadaten für audio-visuelle und andere Sprachdaten schnell und einfach erstellt werden.
In CLARIN wird für Metadaten das modulare CMDI-Format eingesetzt. Dieses Format ermöglicht es Metadaten an den Bedürfnissen der Fachcommunity auszurichten. Neben dem Datenformat stellt CLARIN auch Werkzeuge zur Generierung und Bearbeitung von CMDI-Metadaten zur Verfügung. Mit den CLARIN-Tools Arbil und COMEDI stehen den Nutzern sehr mächtige CMDI-Editoren zur Verfügung, die Metadaten für jedes CMDI-Profil generieren und bearbeiten können. Im Rahmen von CLARIN-D haben wir mit dem CMDI Maker eine offline-fähige Web-Applikation entwickelt, die eine intuitive und nutzerfreundliche Generierung von Metadaten für viele Datensätze ermöglicht.
Der CMDI Maker verfolgt bei der Generierung von Metadaten einen anderen Ansatz als Arbil und COMEDI und ermöglicht damit eine schnelle und effiziente Generierung von Metadaten für viele Datensätze. Die Webapplikation ist dabei weniger mächtig als die vollen CMDI-Editoren, aber dafür für den Benutzer einfach zu handhaben und intuitiv zu benutzen.
CMDI Maker generiert IMDI-CMDI und ELDP-CMDI Metadaten. Diese beiden CMDI-Profile sind für Daten aus der Sprachdokumentation und Sprachtypologie entwickelt und werden über 10 Spracharchiven weltweit eingesetzt.
Darüber hinaus ist der CMDI Maker erweiterbar, so dass andere Communities und Forschungsprojekte Interfaces für weitere CMDI-Profile entwickeln können.
Rüdiger Gleim, Prof. Dr Alexander Mehler: Der Vortrag thematisiert praktische Erfahrungen in der Entwicklung, Anwendung und Einbindung von Softwarekomponenten und Web-Diensten in den DH an der Uni Frankfurt. Er beschreibt einen Bogen von der Darstellung der Forschungsprojekte CEDIFOR und CompHistSem über den bisher erreichten Stand der Entwicklung hin zur kritischen Betrachtung der Ergebnisse und der Ausrichtung der aktuellen und zukünftigen Entwicklungsarbeit. Dabei wird die Bedeutung der Modularisierung und Standardisierung von Web-Diensten und deren Einbettung in die CLARIN Infrastrukturen motiviert.
Prof. Dr. Christian Fandrych, Dr. Cordula Meißner: Der Beitrag stellt das GeWiss-Korpus vor, ein Vergleichskorpus der gesprochenen Wissenschaftssprache, welches im Rahmen des 2. Kurationsprojekts der F-AG 1 in die CLARIN-Infrastruktur eingebunden wurde. Es werden die in GeWiss enthaltenen Sprachressourcen und Zugriffsoptionen gezeigt. Im Besonderen wird dabei auf die Nutzungsmöglichkeiten eingegangen, die das Korpus für inter- und fachdisziplinäre Untersuchungen verschiedener Philologien und Fremdsprachendidaktiken bietet. Der Vortrag richtet sich an Zuhörer, die für ihre Forschungsfragen mündliche L1-Sprachdaten des Deutschen, Englischen, Polnischen oder Italienischen suchen, insbesondere aus dem Bereich der Wissenschaftskommunikation, oder die an mündlichen L2-Daten des Deutschen aus diesem Bereich interessiert sind.
Im Rahmen des DFG-geförderten Projekts DDR-Presseportal werden drei DDR-Tageszeitungen digitalisiert und im Volltext erschlossen (Neues Deutschland, Berliner Zeitung, Neue Zeit). Damit ist ein bedeutender Teil der Tagespresse der Sowjetischen Besatzungszone (1945-1949) und der DDR für die wissenschaftliche Forschung und Recherche frei zugänglich. Im Vortrag soll die Datenressource vorgestellt und historische Anwendungsszenarien für große Textmengen anhand des im Rahmen des Kurationsprojektes der F-AG 10 entwickelten Tools “DiaCollo” besprochen werden. DiaCollo ist ein Werkzeug, das zur Erfassung von Kollokationen in frei definierbaren Zeiträumen dient.
Im Projekt KobRA (Korpusbasierte linguistische Recherche und Analyse mit Hilfe von Data-Mining) arbeiten Partner aus Informatik, Linguistik und Sprachtechnologie gemeinsam daran, die linguistische Analyse von CLARIN-D-Sprachressourcen durch den Einsatz von Data-Mining-Verfahren zu beschleunigen und zu vereinfachen. Der Beitrag stellt die Anwendungsszenarien des Projekts vor und zeigt am Beispiel von Fallstudien, wie sich CLARIN-D-Ressourcen in der linguistischen Forschung und Lehre einsetzen lassen. Auf der Basis der im Projekt gemachten Erfahrungen werden Perspektiven und Desiderate für die Nutzung digitaler Sprachressourcen durch Studierende und Nachwuchswissenschaftler/innen zur Diskussion gestellt.