Digital resources in the Social Sciences and Humanities OpenEdition Our platforms OpenEdition Books OpenEdition Journals Hypotheses Calenda Libraries OpenEdition Freemium Follow us

Veranstaltungsbericht: Open-Source Texterkennung (vor-)moderner Drucke und HandschriftenVeranstaltungsbericht:

Am 13. November 2023 trafen sich Teilnehmer:innen aus den verschiedensten Disziplinen und mit den unterschiedlichsten Hintergründen wieder einmal im 17. Stock des Bücherturms, um an der SUB bei bestem Wetter mehr zum Thema OCR und den Umgang mit dem an der Universität Würzburg entwickelten Tool OCR4all zu lernen. Dieses wurde mit der Intention entwickelt, dass der allgemein relativ komplizierte und oft auf Konsolen-Ebene stattfindenden OCR-Workflow für jede:n einfach in der Transkription kleiner Corpora im Heimgebrauch durchführbar werden soll. Anders als Transcribus, das als (teilweise kostenpflichtige) Alternative für benutzer:innenfreundliche OCR-Tools häufig das Mittel der Wahl ist, setzt OCR4all aber komplett auf eine modulare OpenSource-Lösung, die über Docker einfach* selbst eingerichtet werden kann. Und um den Asterisk vorwegzunehmen: Einfach, wenn es funktioniert. Leider ist die Einrichtung immer noch nicht ganz so einfach, wie man es sich für eine *4all Software wünschen würde. Dies soll sich aber, so das Versprechen, in der im Frühjahr 2024 folgenden neuen Version von OCR4all ändern, die mit einem normalen Installer daherkommt (immer noch über Docker, aber einfacher). Das Deployment wurde im Workshop dann auch rege diskutiert, da sich einige Teilnehmer:innen aus der Forschung fragten, ob OCR4all nicht ein institutioneller Service sein könne und sicherlich wäre es keine schlechte Idee, die Nutzung von OpenSource-Software zu fördern und zentral über die Rechenzentren zu instanzieren. Gerade, wenn man nicht mehr an das Dateisystem heranmuss und die Daten einfach herunterladen kann, auch das ein versprochenes Feature für die neue Version.

Blick über Hamburg, weiter Hinten sieht man die Außenalster, die Sonne steht noch tief im Osten und erleuchtet die Szene goldgelb.

Nach einem kurzen Einblick in die Funktion, die Workflows und Pipelines von OCR und OCR4all ging es recht zügig an die Praxis: Die Teilnehmer:innen konnten anhand einer vorbereiteten Anzahl Corpora auf einer Workshop-Instanz an der Uni Würzburg bei unterschiedlichen Texten mit verschiedenen Schriften zunächst selbstständig binarisieren, also die Bilddateien auf Graustufen oder Schwarzweiß reduzieren und anschließend segmentieren, also die Bilddateien in Regionen und Linien einteilen, auf denen dann der eigentliche Erkennungsprozess stattfindet. Dabei ist schon hier darauf zu achten, sich im Vorfeld auf eine einheitliche Nomenklatur zu einigen: Alle Bezeichnungen und Regionen, die hier gewählt und beschrieben werden, tauchen im PageXML nachher als solche auf. Das ist gerade in Projekten, bei denen verschiedene Personen zusammenarbeiten wichtig, schließlich sollte man hier konsistent bleiben.

Blick in den Workshop-Raum, in dem Teilnehmer:innen an ihren Notebooks sitzen oder dem Referenten vorn zuhören. Auf dem Bildschirm ganz vorn sieht man einen Ausschnitt eines transkribierten Texts

Neben der Einteilung in Regionen und Zeilen musste auch die Lesereihenfolge festgelegt werden, die ebenfalls in das PageXML in der festgelegten Reihenfolge übertragen wird. Teilnehmer:innen des Asien-Afrika-Instituts wollten hier wissen, inwieweit diese Arbeit auch für Schriftsysteme funktioniert, die etwa von rechts nach links oder oben nach unten geschrieben werden: Theoretisch kann man diese ebenso segmentieren, ggf. wird dann nur der Auswertungsaufwand am Ende größer, da etwa für jede Glyphe eine Zeile markiert werden muss – die dann auch im XML steht

Anschließend konnten die Teilnehmer:innen die Texterkennung durchführen und verschiedene Modelle an den verschiedenen Corpora ausprobieren. Dabei wurde darauf hingewiesen, dass ein werkspezifisches Modell, das auf den Werkdaten trainiert wurde, natürlich immer die besseren Resultate bringt, als ein allgemeines Modell. Ein allgemeines Modell wiederum wird immer die bessere Ausgangslage für ein spezifisches Training bieten, als ein völlig neues Modell zu beginnen. Generell war die Erkennungsgenauigkeit aber recht hoch mit den zur Verfügung gestellten Modellen.

Am Schluss konnte noch die Alphaversion der neuen Version von OCR4all ausprobiert werden. Dabei fiel nicht nur das deutlich modernere und einfacher zu bedienende Interface auf, die neue Version bietet auch eine leichtere Möglichkeit, bestehende Modelle hinzuzufügen und in einem Pipeline-Editor mehrere Schritte parallel zu schalten: Ein Text könnte also gleichzeitig mit verschiedenen Modellen transkribiert werden, um anschließend die Ergebnisse vergleichen zu können. Wie bereits geschrieben soll es auch einen direkten Datenexport geben, der keinen Zugriff auf das Dateisystem der Instanz mehr verlangt. Sowohl Datenimport, Modellimport, als auch Datenexport geschehen aktuell nur lokal im Dateisystem der Instanz, auf die man also Zugriff braucht.

Allgemein bot der Workshop einen guten ersten Einblick in die praktische Arbeit mit OCR und OCR4all. Die Teilnehmer:innen lernten erste Fachbegriffe, z.B. was die Ground Truth ist (nämlich die Datengrundlage für das weitere Modelltraining), und konnten durch den pragmatischen Hands-On Charakter auch selbst tätig werden. Gerade für die Teilnehmer:innen des AAI (und mich) fehlte hier natürlich ein praktisches Beispiel aus dem Bereich nicht-lateinischer Schriften, die aber zumindest teilweise und je nach Modell mit den gewohnten Umständlichkeiten im Hinblick auf Schreibrichtung und Handling grundsätzlich unterstützt werden.

Vielen Dank an Florian Langhanki für die interessanten Einblicke!

Veranstaltungshinweis: Coffee Lecture und Workshop zum Thema Datenvisualisierung

Die ersten Veranstaltungen für 2024 stehen fest. Die Reihe “Digital Humanities – Wie geht das?” beginnt das neue Jahr mit dem spannenden Thema Datenvisualisierung:

Produktive Reibungsflächen: Geisteswissenschaften und Datenvisualisierung

Am 12. Januar 2024 im neuen DHLab (Raum C2003 in der Bibliothek im zweiten Stock) der Universität Hamburg, der Bibliothek für Geisteswissenschaften und der Staats- und Universitätsbibliothek Hamburg im neu renovierten Philosophenturm. ACHTUNG: Wegen des Bahnstreiks fällt die Präsenzveranstaltung aus. Die Veranstaltung findet NUR online via Zoom statt.

Visualisierungen sind in aller Munde oder besser: in aller Auge. Mit der zunehmenden datenbasierten digitalen Forschung in allen Disziplinen gibt es kaum noch einen Bereich, der Analyseergebnisse oder auch Analyseworkflows selbst nicht visuell gestaltet. Besonders in den geisteswissenschaftlichen Disziplinen, die sich auf textbasierte Forschung konzentrieren, wird die Fähigkeit zur kritischen Bewertung von Visualisierungen jedoch oft vernachlässigt und findet nur selten Eingang in die Ausbildung. Angesichts der zunehmenden Generierung digitaler Forschungsdaten und Analyseergebnisse in den digitalen Geisteswissenschaften ist jedoch die visuelle Darstellung und Interpretation dieser Daten unausweichlich geworden, um zukunftsfähig zu bleiben. Dies erfordert eine ausgeprägte visuelle Kompetenz als Teil der Data Literacy. Mit dem Bereich der Datenvisualisierung scheint jedoch (wiederum) ein neues Paradigma wissenschaftlichen Arbeitens in die Geisteswissenschaften Einzug zu halten und für mehr oder weniger produktive Reibungen zu sorgen. Vagheiten, Ambivalenzen, Eindeutigkeiten oder überhaupt Sichtbarkeiten interpretativer Schritte der Datengenerierung und -auswahl sind jedoch von genuin geisteswissenschaftlichem Interesse. Hermeneutische und computationelle Zugänge lassen sich im Feld der Datenvisualisierung miteinander in Verbindung bringen. In diesem Vortrag werden das Problemfeld beleuchtet und potenzielle Kriterien für die Kategorisierung und kritische Bewertung von geisteswissenschaftlichen Datenvisualisierungen vorgestellt.

Eine Veranstaltung im Rahmen der Veranstaltungsreihe „Digital Humanities – Wie geht das?“ des Referats für Digitale Forschungsdienste.

Der Vortrag findet als Coffee Lecture hybrid statt. Für eine Teilnahme vor Ort bitten wir um Anmeldung an [email protected].

Explorative Visualisierungen von Kulturgut. Einführung und Hands-on

Am 15. Januar 2024 an der Staats- und Universitätsbibliothek Hamburg.

Visualisierung von Daten fungiert als epistemisches Mittel; eine Visualisierung soll Aussagen über die Einzel- als auch die Gesamtdaten treffen sowie Erkenntnisse fördern. Vorgestellt werden zwei im UCLAB der Fachhochschule Potsdam entstandene dynamische und interaktive Viewer, die unterschiedliche Einstiege in kulturelle Datensammlungen anbieten und Objekte und ihre Relationen sichtbar machen. In ihrer Funktion als Analysewerkzeug und Erkenntnismittel erlaubt die Visualisierung dabei auch einen strukturierten und dynamischen Zugriff auf große Datenmengen.

Basis einer jeden Visualisierung ist die Strukturierung und semantische Anreicherung der Forschungsdaten. In dem Hands-On-Workshop wird eine Infrastruktur zur Erfassung und Kontextualisierung kleiderhistorischer Quellen, die mittels CidocCRM und weiterer Vokabulare strukturiert wurde, vorgestellt. Die Teilnehmenden werden angeleitet, mittels einer Collage-Technik eigene explorative Zugänge zu den Sammlungsobjekten zu erarbeiten. Im Anschluss folgt eine Diskussion über die entstandenen Visualisierungen und eine gemeinsame Reflektion über Datenpraktiken.

Eine Veranstaltung im Rahmen der Veranstaltungsreihe „Digital Humanities – Wie geht das?“ des Referats für Digitale Forschungsdienste.

Die Teilnehmer:innenzahl ist beschränkt auf 15, daher wird um Anmeldung an [email protected] gebeten.

Event information: “Digital Humanities – How does it work?” in the third quarter of 2023

It’s that time again, the events of the series “Digital Humanities – Wie geht das?” for the third quarter of 2023 are coming up.

Workshop: OCR4all – Open-source Text Recognition of (pre-)Modern Prints and Manuscripts

November 13, 2023 at SUB Hamburg.

What data and file types are required for OCR? How does the use of the OCR or HTR workflow integrated in OCR4all change depending on the source material and what (manual) effort should be expected?, How much can the workflow be automated depending on the material at hand?, What are OCR models and how can you train your own text recognition models?, What recognition accuracy can be expected?, How much effort actually makes sense with regard to the later use of the texts produced?

These and other questions will be addressed and explained during the workshop as a part of the event “OCR4all – Open-source Text Recognition of (pre-)Modern Prints and Manuscripts”. So that at the end of the day all participants will be able to work on complex OCR projects independently.

OCR (Optical Character Recognition) and HTR (Handwritten Text Recognition) continue to represent a challenge in the humanities and cultural sciences. OCR4all offers all users a freely available and easy-to-use option to carry out their own OCR workflows. Florian Langhanki (JMU) will introduce the general basics and concepts of OCR and introduce the OCR4all software.

You can either work directly with your own texts or use prepared materials. No prior technical knowledge is required to participate. All you need to bring with you is an internet-enabled laptop, texts relevant to your research (optional) and a great deal of curiosity about the OCR.

The number of participants is limited to 15, so please register at [email protected]

OCR4all – Open-source Text Recognition from Mass Processing of Prints to High-quality Transcription of Handwriting

November 08, 2023 online via ZOOM. Registration is not required.

A central aspect of the work of humanities, cultural and human sciences researchers is the examination of historical sources in the form of printed and handwritten textual evidence. These are often only available as scans, which severely limits their usability, as automatic indexing approaches such as full-text searches or quantitative analysis methods cannot be used. To do this, so-called machine-processable full text must first be extracted from the digital copies, with methods of automatic text recognition of prints (Optical Character Recognition, OCR) or handwriting (Handwritten Text Recognition, HTR) playing an increasingly important role. Very old prints and manuscripts in particular often represent a major challenge for a variety of reasons.

The freely available open source tool OCR4all, developed at the Center for Philology and Digitality (ZPD) at the University of Würzburg, aims to give even less technically experienced users the opportunity to access sophisticated prints and manuscripts independently and in the highest quality. OCR4all encapsulates the entire text recognition workflow and all the tools required for it in a single application that can be easily installed and operated via a comfortable graphical user interface.

During the lecture, Christian Reul explains the basics of automatic text recognition and presents OCR4all and how it works in a live demo. In addition, the applicability and performance on different materials is demonstrated and an overview of current work as well as an outlook on future developments is given.

Workshop-Bericht: “Named Entity Recognition für Geisteswissenschaftler:innen mit Stanford CoreNLP”

Am 7. August 2023 fand auf dem Dach der SUB Hamburg ein weiterer Workshop aus der Reihe “Digital Humanities – Wie geht das?” statt. Diesmal war Thema die für Außenstehende durchaus kompliziert wirkende Named Entity Recognition (NER), also die automatisierte Erkennung von sogenannten “Entitäten” (also Personen, Orte, Werke, …) in Texten. Als Teilbereich des eh schon nicht wenig komplexen Methodenfundus des Natural Language Processing kamen nicht wenige Teilnehmer:innen mit der Motivation, endlich mal zu verstehen, wie das eigentlich funktioniert und befürchteten schon, sich mit mathematischen Funktionen und der Programmierung von Algorithmen auseinandersetzen zu müssen. Die Workshop-Leiterin Marie Flüh konnte in dieser Hinsicht beruhigen: Zwar ist NER durchaus arbeitsaufwändig, gerade wenn eigene Classifier trainiert werden, programmiert oder eigens berechnet werden muss hier aber dank Stanford CoreNLP Named Entity Recognizer nichts.

Bei bestem Hamburger “Schietwedder” trafen sich die Teilnehmer:innen also im trockenen Loft des Bücherturms, um anhand von Beispieldaten aus der Dehmel-Edition die Anwendung von NER, sowie das Training eigener Classifier zu lernen. Nach einer kurzen Vorstellungsrunde gab es zunächst einen inhaltliche Inputvortrag dazu, was NER eigentlich ist und was für Anwendungsfälle es für NER gibt. Dabei ist NER eine Methode aus der Computerlinguistik und wie schon geschrieben Teilbereich des Natural Language Processings. Die Grundlage bildet ein Modell, mit dem die Software so trainiert werden kann, dass sie automatisch Entitäten in Texten erkennen und markieren kann. Das ist etwa sinnvoll, wenn große Textmengen auf Entitäten hin untersucht werden sollen.

Als Beispiel könnte hier die Dehmel-Edition genannt werden, aus der auch die Beispieldaten für den Workshop stammten: Jeden Brief händisch auf Entitäten zu untersuchen würde einfach sehr viel Zeit brauchen. Über einen eigens auf Basis der Dehmel-Briefe trainierten Classifier kann hier Abhilfe geschaffen werden, da nur ein bestimmter Teil der Briefe manuell annotiert werden muss, um die Trainings- und Validierungskorpora zu erstellen. Der Rest kann dann automatisiert analysiert werden. Die Qualität der Annotation mag dann am Ende vielleicht nicht den gleichen Wert wie eine manuelle Annotation haben, immerhin ist dann aber ein großes Datenkorpus grundlegend strukturiert, annotiert und steht der Forschung für die weitere Arbeit und Verfeinerung zur Verfügung. Ein anderes Beispiel ist der Gender-Classifier von Mareike Schumacher und Marie Flüh. Hier dient NER zur Erkennung von Gender-Kategorien und gegenderten Wortformen, was etwa für die computergestützten Analyse von Genderrollen in Texten hilfreich ist.

Nach dem kurzen Vortrag konnten die Teilnehmer:innen dann selbst ausprobieren, wie NER funktioniert. Hierfür wurde das GUI der NER-Software aus der Stanford CoreNLP Suite mit allgemeinen Classifiern für die deutsche Sprache eingesetzt. Mit einfachem Copy’n’Paste konnte ein Beispielkorpus aus den Dehmel-Briefen in ein Textfeld kopiert werden und dann mit einem einfachen Klick analysiert werden. Anschließend konnte das Ergebnis etwa als XML exportiert werden. So einfach kann NER sein!

Etwas komplizierter wurde es dann im zweiten Teil des Workshops, in dem es darum ging, wie man ein eigenes Modell baut, um einen Classifier zu trainieren. Hierfür sind mehrere Schritte notwendig: Im Preprocessing müssen die Daten zunächst in das richtige Format gebracht werden. Als Beispieldatensatz dienten auch hier Texte aus der Dehmel-Edition. Diese müssen Tokenisiert (also in Tokens aufgeteilt) werden und anschließend in das .tsv-Format transformiert werden, in dem die Annotation und schließlich das Training dann stattfinden kann.

# Schritt 1: Txt -> Tok
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer Beispieldaten.txt > Beispieldaten.tok

# Schritt 2: Tok -> Tsv
perl -ne 'chomp; print "$_\tO\n"' Beispieldaten.tok > Beispieldaten.tsv

Hier mussten Teilnehmer:innen erstmals mit der Konsole arbeiten, für manche ein absolutes Novum. Entsprechend machte sich hier und da eine gewisse Unsicherheit aus. Zudem war – wie immer, wenn verschiedene Setups und Betriebssysteme aufeinandertreffen – einiges an Problembewältigung, Raten, Ausprobieren und auf StackOverflow nach Lösungen schauen nötig. Aber auch das gehört dazu, es redet nur niemand drüber (will sagen: Es sollte mehr darüber geredet werden).

Heraus kam eine Tabelle, die in jeder Zeile ein Token und in der zweiten Spalte ein “O” stehen hatte, was bedeutet, dass hier keine besondere Entität vorliegt. Hier musste nun händisch Token für Token überlegt werden, ob etwa eine Person, ein Ort, ein Werk oder andere Entitäten vorliegen und der Wert in der zweiten Spalte entsprechend angepasst werden. Dieser Schritt ist die Annotation. Was genau wie bezeichnet wird, ist Gegenstand von Vorüberlegungen und sollte immer gut dokumentiert werden – schließlich bildet dieser Schritt die Grundlage dafür, was die automatisierte Erkennung am Ende zuordnet. So muss etwa überlegt werden, ob Titel für Personen als Teil des Namens verstanden werden, oder nicht.

Alles, was bis hierher getan wurde, muss zweimal gemacht werden, mit unterschiedlichen Basisdaten. Ein annotierter Datensatz wird dann fürs Training verwendet, einer wird dafür verwendet, die Performanz des Classifiers zu prüfen, also wie gut der trainierte Classifier am Ende überhaupt funktioniert.

Nun muss eine .prop-Datei angelegt werden, in der die Informationen hinterlegt werden müssen, auf der Basis welcher Daten der Classifier trainiert werden soll. Hier ein Auszug aus der Datei, die im Workshop angelegt wurde:

#mein_classifier.prop

# Welches .tsv soll als Trainingsdatensatz dienen?
trainFile = PATH/Beispieldaten.tsv

# Wie soll der Classifier benannt werden?
serializeTo = mein_classifier.ser.gz

# Hier wird festgelegt, dass das Wort in Spalte 0 (also der ersten Spalte),
# die Bedeutung des Wortes in Spalte 1 (also der zweiten Spalte) steht
map = word=0,answer=1

...

Schließlich wird mit java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop mein_classifier.prop das eigentliche Modelltraining durchgeführt.

Dieses kann jetzt im GUI des Named Entity Recognizer wie oben beschrieben einfach anstelle des allgemeinen Classifiers ausgewählt und damit auf die zu analysierenden Texte angewendet werden. Doch bevor das geschieht, sollte die Performanz des Classifiers getestet werden, um zu sehen, wie gut dieser eigentlich funktioniert. Vorab wurden ja bereits zwei verschiedene Datensets vorbereitet, von denen das eine in ein Modell überführt wurde. Das zweite dient jetzt dem Test:

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier mein_classifier.ser.gz -testFile Testtexte.tsv

Als Ergebnis kommt dann eine Tabelle als Ausgabe, die so etwa aussehen könnte. Hierbei zeigt das P den Precision-Wert (also den prozentualen Anteil korrekt erkannter Entitäten) an, das R den Recall-Wert (die Wahrscheinlichkeit, mit der eine Entität korrekt erkannt wird) und F1 die Balance zwischen den beiden Werten. Der F1-Wert ist am Ende also in der Regel derjenige, der unterm Strich und vereinfacht am besten Aussage über die Performanz des Classifiers geben kann. TP, FP und FN stehen für True Positive, also richtige Erkennungen, False Positive, also falsch als Entität erkannte Tokens und False Negative, also falsch nicht als Entität erkannte Tokens. Aber was bedeutet das? Grundsätzlich ist ein F1-Score von 0.8-0.9 gut und wünschenswert, alles darüber ist sehr gut, alles darunter zeigt an, dass Nachbesserungen nötig wären. Nachbesserungen bedeuten in der Regel vor allem größere Mengen an Trainingsdaten und eine bessere Konsistenz in der Annotation (deshalb sollten auch immer Annotationskonventionen festgelegt werden). Im Beispiel hier müsste also definitiv am Modell gearbeitet werden.

In einer Abschlussrunde wurde schließlich über das gelernte reflektiert und alle Teilnehmer:innen waren sich einig, dass der Workshop nicht nur lehrreich war im Hinblick auf eine neu erlernte Methode und den ersten Einblick in die Technologien der computergestützten Textanalyse, es wurde auch mehrfach darauf hingewiesen, dass man sich ob der sehr komplex scheinenden Materie eine hohe Einstiegsschwelle vorgestellt hatte, nun aber ob des vergleichsweise einfachen Zugangs erleichtert sei. Zwar ist das Training von Classifiern viel Arbeit, aber für Endanwender:innen rein technisch doch beherrschbar – vorausgesetzt es gibt keine kryptischen Java-Fehler, von denen man auch auf StackOverflow noch nie etwas gehört hat. 🙂

Danke an Marie Flüh für den interessanten Workshop, die Teilnehmer:innen für die Teilnahme und die angenehme Arbeitsatmosphäre und natürlich auch Dank an das Hamburger Wetter für das Rütteln und Pladdern und Pfeifen über den Dächern von Hamburg!

Die Materialien und Folien des Workshops können hier noch eingesehen werden: https://github.com/MarieFlueh/Workshop-NER-fuer-GeisteswissenschaftlerInnen

Digital Humanities einfach erklärt – Ein Versuch.

Vor einigen Tagen wurde an mich die Frage herangetragen, was ich eigentlich täte, und ob ich das nicht mal im Sinne des Reddits r/explainlikeimfive beschreiben könne. Das ist gar nicht so leicht, dachte ich mir, und dass das vielleicht für andere interessant sein könnte und ich deshalb daraus einfach ein bis zwei Texte mache. Also fangen wir heute mal damit an. Zuerst mit der Frage, was das mit den digitalen Geisteswissenschaften so auf sich hat, was gleichzeitig auch irgendwie zu einem Text über Digitale Editionen geworden ist. Naja, kann passieren. Man möge mir inhaltliche Ungenauigkeiten aufgrund der Natur des Textes verzeihen. Also, hier bitteschön:

Digital Humanities ist der englische Fachbegriff für Digitale Geisteswissenschaften. Das sind zum Beispiel Germanistik, Geschichte oder Regionalwissenschaften, also die Wissenschaften, die sich mit der Sprache, Kultur und Politik bestimmter Regionen auseinandersetzen. Dazu gehört etwa die Skandinavistik, die Arabistik, die Semitistik, die Japanologie und viele andere. Oft ist die Philologie und die Linguistik hier ein wichtiger Bestandteil der Arbeit, also die Wissenschaft über die Schrift und Sprache. In den Digital Humanities (auch “DH”) findet die gleiche Art der Wissenschaft statt, wie in den “normalen” Geisteswissenschaften, nur, dass Computer in den DH nicht nur genutzt werden, um Texte zu schreiben und verwalten und im Internet zu surfen, sondern auch für die eigentliche wissenschaftliche Arbeit.

Ein einfaches Beispiel dafür ist zum Beispiel die “Digitale Edition”. Eine wissenschaftliche Edition ist ein Buch, in dem ein anderes, meist älteres Buch (nennen wir es Buch 1) untersucht wird. Viele alte Bücher wurden von verschiedenen Leuten über die Jahrhunderte abgeschrieben oder kopiert. Dabei entstehen natürlich Unterschiede zwischen den einzelnen Buchausgaben, obwohl alle sich eigentlich auf das gleiche Buch (eben Buch 1) beziehen, das nennt man “Variante”. In einer wissenschaftlichen Edition werden diese Unterschiede beschrieben. Wenn man eine wissenschaftliche Edition zu Buch 1 hat, kann man also nicht nur den Text von Buch 1 lesen, man sieht auch, wo die Texte von den Varianten zu Buch 1 von diesem abweichen. Meistens steht das im “Apparat”, also unter dem eigentlichen Text, in den Fußnoten oder manchmal auch am Rand, in den “Marginalien”. Wenn im Text von Buch 1 beispielsweise steht: “Der Himmel war blau und die Sonne hat schön geschienen”, in Variante 2 aber steht “Der Himmel war blau und Wolken zogen herauf”, dann würde da ein Hinweis auf den Apparat und unter dem Text von Buch 1 stehen: “Var 2: Wolken zogen herauf”.

Doch nicht immer beschreiben Editionen Varianten, Editionen können auch handschriftliche Manuskripte von z.B. Schriftsteller:innen darstellen, oder Schreibmaschinen- und Druck-Texte mit handschriftlichen Bemerkungen. Eine wissenschaftliche Edition ist also immer eine Art wissenschaftliche Beschreibung eines historischen Dokuments.

Viele Editionen haben außerdem ein Register. Das ist eine Liste, in der alle “Entitäten”, also Orte, Personen und andere Dinge aufgelistet werden, die für Forscher:innen interessant sein könnten. Wenn man also wissen möchte, was so in Buch 1 alles erwähnt wird, dann muss man ganz nach hinten blättern und im Register nachschauen. Das funktioniert ein bisschen wie ein Stichwortverzeichnis.

Eine Digitale Edition ist meistens eine Website. Auch hier kann man den Text von Buch 1 lesen, meistens kann man aber auch zusätzlich darin suchen, so wie man bei Word nach Textstellen suchen kann. Auch hier wird an Stellen mit Abweichungen auf eine Variante hingewiesen, allerdings muss man nicht im Apparat unter dem Text schauen, man kann einfach mit der Maus auf die Textstelle gehen, damit die Variante entweder in einem kleinen Fenster oder neben dem Text auftaucht. Das macht diesen natürlich viel übersichtlicher, weil nicht alle Informationen immer angezeigt werden müssen. Auch ist hier oft ein Scan vom Originalwerk zu sehen, das sogenannte “Faksimile”. Damit kann man sich also das alte Buch 1 auch direkt anschauen, wenn man durch den Text blättert.

Ein Screenshot der Seite https://www.dehmel-digital.de, einer digitalen Briefedition über die Briefe des deutschen Dichter-Ehepaars Ida und Richard Dehmel. Das Faksimile steht neben dem Text, in dem die Personen “Dehmel”, “Gemahlin” und “Peter Behrens” Links zum Registereintrag sind. Oben sieht man als Teil des Menüs “Register”. Neben dem Lesetext kann man hier weitere Informationen zum Dokument (“Metadaten”, also die Umstände beschreibende Daten) und die XML-Datei anschauen.

Anders als in der “normalen”, also analogen Edition, muss man auf einer digitalen Edition auch nirgendwo hinblättern, um das Register zu sehen. Wenn im Text ein Name vorkommt, z.B. “Frau Müller”, dann kann man oft einfach darauf klicken und bekommt direkt alle wichtigen Informationen angezeigt, die es zu Frau Müller gibt. Zum Beispiel auch ein Verweis auf eine “Normdatei”, das ist eine Tabelle auf der Website der Deutschen Nationalbibliothek, in der ganz viele Daten zu Frau Müller stehen. Damit können Leser:innen direkt sehen, wer Frau Müller ist. Das ist natürlich viel einfacher, als wenn man in einer normalen Edition erst zum Register blättern muss. Werden im Text Orte erwähnt, kann man so zum Beispiel direkt die Koordinaten anzeigen und damit etwa eine kleine Karte einblenden, um zu zeigen, wo sich der Ort befindet. Meistens gibt es dann ein Register auf einer separaten Seite innerhalb der Website, deren Einträge direkt zu den Seiten verlinken, auf denen die entsprechende Seite steht, auf denen der Name vorkommt. Auch das geht natürlich besser, als wenn man erst die Seite in einem Buch finden muss.

Das Register auf der Seite von Dehmel Digital. Hier sind Personnamen (und in weiteren Listen auch Orte und andere Entitäten) aufgelistet, die mit den Dehmels geschrieben haben oder in den Briefen erwähnt werden. Im Eintrag steht, in welchen Briefen die Person vorkommt und es gibt einen Link auf die Normdatei in der Deutschen Nationalbibliothek.

Der Vorteil einer digitalen Edition ist also, dass sie oft einfacher zu benutzen ist und viel mehr Informationen anzeigen kann, ohne dass das gleich ein riesiger Aufwand wird. Daneben gibt es noch viele weitere Vorteile. Aber nicht jede Website eines Textes ist auch eine digitale Edition. Man nennt eine Edition dann digital, wenn sie Informationen bieten und Zusammenhänge anzeigen kann, die in einem analogen Buch nicht möglich gewesen wären. Wenn also nur ein Text von Buch 1 und ein Scan daneben zu sehen wäre, dann würde es sich dabei nicht automatisch um eine digitale Edition handeln, nur weil das ein Text und ein Faksimile auf einer Website ist.

Ein anderes Beispiel einer digitalen Edition. Hier von den Tagebüchern von Alexander von Humboldt, einem deutschen Wissenschaftler. Man sieht, dass der Text viel mehr verschiedene Farben hat. Wenn man darübergeht, erscheint rechts vom Text, wie hier, ein kleines Fensterchen, das zusätzliche Informationen anzeigt. Hier sind also noch viele weitere Informationen untergebracht. Die Edition findet sich unter https://edition-humboldt.de/reisetagebuecher.

Damit eine digitale Edition so funktioniert, muss der Text von Buch 1 “annotiert” werden. Das heißt, dass der Text zunächst in einem Textprogramm abgeschrieben wird. Das kann man selbst machen, es gibt mittlerweile aber auch andere Möglichkeiten, zum Beispiel die automatische Texterkennung, oder “Optical Character Recognition” (OCR) auf Englisch. Das bedeutet, dass der Computer den Scan eines Buches untersucht und aus diesem Scan den Text auslesen kann. Dieser wird dann zum Beispiel einer normalen Textdatei gespeichert. Die Wissenschaftler:innen nehmen dann diesen Text und annotieren ihn. Das geht zum Beispiel in einer Sprache namens “XML” (Extensive Markup Language), das ist so ähnlich wie eine Programmiersprache und sieht fast genau so aus, wie “HTML” (Hypertext Markup Language), mit dem Websiten beschrieben werden. Der Text wird dadurch gegliedert und mit Informationen versehen, die am Ende nicht nur Menschen lesen und verstehen können, sondern auch der Computer. Das ist etwa so ähnlich, wie wenn man einen Text in Word schreibt und dann festlegt, welcher Teil des Textes kursiv oder fett aussehen soll, nur, dass in der Wissenschaft der Text dann nicht optisch verändert wird, sondern bloß die Information angegeben wird, dass ein bestimmter Textteil zum Beispiel der Name von Frau Müller ist.

Das Haus in der dritten Straße von links gehörte <person xml:id="person_103" surname="Mueller">Frau Müller</person>, sie fuhr jeden Tag in den <place xml:id="place_32" name="Detmold">Nachbarort</place>.

Das “xml:id” bedeutet übrigens, dass an einer anderen Stelle der Edition noch weitere Informationen über diese Entitäten stehen. Die haben dann dieselbe “ID” (Identifier) und können dadurch genau zugeordnet werden. Das macht man oft, da es unschön aussieht, wenn mitten im Text viele Informationen stehen, die mit dem Text selbst nichts zu tun haben.

So sieht ein Brief von Dehmel Digital, der auf der anderen Abbildung weiter oben zu sehen ist, aus, wenn er in XML annotiert und strukturiert ist.

Am Ende ist eine digitale Edition mit viel Arbeit versehen und viele Forscher:innen arbeiten oft über Jahre und Jahrzehnte an solchen Editionen. Da eine digitale Edition aber natürlich digital ist, braucht es viel Wissen über Computer und Methoden. Wissenschaftliche Methoden sind die Art und Weise, wie Forschung konkret betrieben wird. Das beschriebene Annotieren ist zum Beispiel eine Methode. Wenn diese Methoden digital angewendet werden, oder mit der Unterstützung von Computern, dann kann man meistens von digitalen Geisteswissenschaften reden, also von “Digital Humanities”.

Natürlich gehört da aber noch viel mehr zu. Man kann zum Beispiel auch mithilfe des Computers Texte automatisch analysieren lassen und weiß dann, ob ein Text zum Beispiel eher nett oder eher abwertend ist (die sogenannte “Sentiment Analysis”, also Untersuchung von Emotionen). Auch kann man mit einer ausreichenden Menge an Texten herausfinden, ob bestimmte Texte in einer großen Sammlung von Texten von anderen Autor:innen geschrieben wurden, als man eigentlich dachte, das heißt dann Stilometrie (weil die Unterschiede im Schreibstil untersucht werden). Oder man kann automatisch herausfinden lassen, welche Themen in Texten vorkommen, also wovon sie handeln (“Topic Modeling”). All das ist natürlich vor allem dann interessant für die Wissenschaft, wenn man sehr große Textmengen hat, weil ja niemand Zeit und Lust hat, zum Beispiel hunderttausende von Briefen durchzulesen.

Digitale Methoden vereinfachen also oft die wissenschaftliche Arbeit. Sie führen aber auch zu Erkenntnissen, die man ohne diese digitalen Methoden gar nicht erst hätte finden können, einfach weil einem Menschen bestimmte Dinge gar nicht aufgefallen wären. Dabei muss man natürlich wissen, dass auch Computer Fehler machen. Deshalb redet man bei digitalen Geisteswissenschaften oft auch von “computergestützter” Wissenschaft. Das heißt, dass Forscher:innen zwar einen Computer nutzen, um die eigene Arbeit zu erleichtern und zu neuen Erkenntnissen zu gelangen, sich aber nicht vollständig auf den Computer verlassen. Am Ende ist immer noch wichtig, dass ein:e Wissenschaftler:in kritisch mit der eigenen Arbeit und den eigenen Methoden umgeht. Denn ein Computer arbeitet nur so gut, wie der Mensch, der ihn bedient.

PS: Viele Wissenschaftler:innen, die in den Digital Humanities arbeiten, mögen die Frage nicht, was das eigentlich sei. Deshalb gibt es https://www.whatisdigitalhumanities.com, wo eine zufällige Aussage von Forscher:innen angezeigt wird, die diese auf die Frage geantwortet haben. Sollte man vielleicht auch mal für die Frage: “Und was willst du später damit machen?” entwerfen. 🙂

Veranstaltungshinweis: “Digital Humanities – Wie geht das?” im dritten Quartal 2023

Es ist wieder soweit, die Veranstaltungen der Reihe “Digital Humanities – Wie geht das?” für das dritte Quartal 2023 stehen an.

Named Entity Recognition für Geisteswissenschaftler:innen mit Stanford CoreNLP

Am 7. August 2023 an der SUB Hamburg in Raum BT17a auf dem Dach des Bücherturms.

Wie können wiederkehrende Einheiten, wie Personennamen oder Titel literarischer Werke in großen Textkorpora automatisch ausfindig und annotiert werden? Wie kann eine erste inhaltliche Erschließung literarischer Texte digital umgesetzt werden und auf welche Art und Weise lassen sich Verfahren des maschinellen Lernens für geisteswissenschaftliche Forschungsszenarien fruchtbar machen?

Diesen und anderen Fragen, die mit dem Einsatz digitaler Verfahren der Textanalyse einhergehen, werden wir im Rahmen des Workshops “Named Entity Recognition für Geisteswissenschaftler:innen mit Stanford CoreNLP” nachgehen. Dabei lernen Sie ein ausgewähltes Tool kennen, das in den Digital Humanities zur sog. Named Entity Recognition, also: die automatische Klassifikation/Annotation wiederkehrender Entitäten wie Personen, Werke, Orte und Organisationen, eingesetzt wird im Hands-On-Modus kennen. Neben einer kurzen inhaltlichen Einführung in die Named Entity Recognition steht vor allem die praktische Anwendung der Methode im Vordergrund.

Dabei können Sie entweder direkt mit eigenen Texten arbeiten oder auf vorbereitete Materialien zurückgreifen. Technische Vorkenntnisse sind für die Teilnahme nicht vonnöten. Bringen Sie lediglich einen internetfähigen Laptop, für Ihre Forschung relevante Texte (optional) und eine große Portion Neugier auf digitale Verfahren der Textanalyse mit. 

Die Teilnehmer:innenzahl ist beschränkt auf 15, daher wird um Anmeldung an [email protected] gebeten.

Natural Language Processing für Digital Humanities – Grundlagen und neuste Entwicklungen

Am 16. August 2023 online über Zoom. Eine Anmeldung ist nicht erforderlich.

Verfahren des maschinellen Lernens im Kontext der Sprachverarbeitung sind momentan in aller Munde. Noch ist unklar, wie und wo genau Systeme wie etwa ChatGPT in der Forschung zum Einsatz kommen werden. Schon lange werden jedoch, auch in den Digital Humanities, mit regel-basierten und statistischen Verfahren Texte automatisiert analysiert. Für Forschende bleibt es wichtig ein Verständnis der Methoden zu entwickeln, um so jeweils die passende Technik zur Anwendung zu bringen und dabei insbesondere die Schwächen der Methoden zu berücksichtigen.

In seinem Vortrag beleuchtet Hans Ole Hatzel zunächst die Grundlagen der computergestützten Textverarbeitung und erklärt dabei von Tokens und Types bis hin zu Word Embeddings und Sentiment Analyse unterschiedliche etablierte Techniken. Einige Verfahren werden mit Beispielen aus den Digital Humanities hinterlegt, um neben den Methoden selbst auch zu verdeutlichen, wie sie konkret Anwendung finden. Am Schluss folgt ein Ausblick auf die Verwendung von Large Language Models, der Technologie hinter ChatGPT, in den Digital Humanities.

Digital Literacy in Multilingual and Multiscript Teaching

“How can methodological competence for the Digital Humanities (DH) be anchored in the curriculum, especially in non-DH study programs and without DH-trained staff? The workshop “Digital literacy in multilingual and multiscript teaching” (Digital Literacy in der multilingualen und -skriptualen Lehre) that was held on 08th May 2023 at Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky brought together different stakeholders from academic status groups to discuss these and related issues. The event was a part of the event series “Digital Humanities – How does it work?” of the Department for Digital Scholarship Services at the Hamburg State and University Library and was co-organized with the DHd AG Multilingual DH and stakeholders from Freie Universität Berlin and the Philipps-University Marburg.

MA and PhD students, teaching scholars and other interested parties brought together interesting insights and stimulating ideas on the recent developments and challenges, be it the necessity of adjusting the curricula towards a better implementation of DH into teaching or the issue of lacking support for multilinguality in DH software and infrastructure, that makes teaching DH even more complicated. The participants discussed innovative approaches and strategies in learning and teaching in higher education, networked with other attendees and made for an interactive atmosphere and lively workshop.  

After a warm welcome of the participants by the host Jonas Müller-Laackman (SUB Hamburg), an introduction of each participant’s background laid a solid foundation for the commencement of the workshop. Xenia Kudela (FU Berlin) then presented the aim of the event by talking about strategies for increasing digital literacy and digital skills meanwhile the problems of the status quo and reasons for the workshop were discussed by Cosima Wagner (FU Berlin) and Christian Junge (PU Marburg). A follow-up brainstorming gave further insights on current challenges in the context of multilingualism and DH and encouraged participants to bring initial ideas to the table.

Source: Narmada Hansani, Polgampalage

Three working groups were created, one to discuss the question of administration and infrastructure, one for network and self-organization, one to talk about teaching methods and experiences in higher education. Aiding a digital whiteboard, all of the ideas were compiled in one digital interface. 

After having a coffee break, each working group gave a brief presentation of their preliminary outcomes. What to teach and learn when it comes to the implementation of DH into higher education? How to teach DH efficiently, especially without expertise in the field? How to implement DH into existing curricula? As optional courses? Mandatory? In form of stadium general? How to help students and staff to navigate DH? How to provide the necessary infrastructure? How to get students interested? How can academic libraries offer support? How to establish a network for self-organization and mutual support? These were only few challenges that were discussed after the lunch break.

The final discussion made it clear that, in addition to fundamental questions about working with digital methods in teaching, “training on digital tools that enable working with multilingual data” is an urgent need in the area studies subjects in particular. Furthermore, lecturers without in-depth technical DH expertise need support and guidance in how multilingual data & tool literacy can become part of teaching practice. There is also a great interest on the student’s side to learn methods and approaches of the multilingual digital humanities as part of their studies, even in non-DH study programs, e.g. in philological seminars. However, there are still many problems for pragmatic solutions, as very few study and examination regulations are geared towards new types of seminar papers and examination papers – such as curating data sets or developing code.

It was also discussed that libraries can create offerings, both in the sense of education and training for students, scholars and academic staff, but also in offering actual spaces, e.g. for networking, workshops, or hackathons. Since libraries are also naturally involved in working with data, they could provide their capacities to improve the awareness on the importance of data literacy. Activities like the workshop and digital scholarship services in general were being seen as a first step in this direction.

The results of the workshop that were compiled on the digital whiteboard will serve as the substrate for an upcoming publication on the issues and ideas that were discussed at the workshop. Anyone, who is interested to join, can do so by reaching out to the Department for Digital Scholarship Services ([email protected]), or contact the DHd AG Multilingual DH (https://m-l-d-h.github.io/DHd-AG/), as both will serve as the roof of future activities.

The Department for Digital Research Services at the Hamburg State and University Library would like to thank the organizers and all participants for their joint commitment in making this event a success. We look forward to welcome you all again for another valuable exchange in the near future.

Source: Narmada Hansani, Polgampalage

Academic Interfaces – und wie man sie messen könnte

In meinem Beitrag zu Interface-Design und UX im Kontext von Forschungsprojekten in den Geisteswissenschaften hatte ich bereits kurz das Problem aufgemacht, dass leider eher öfter als seltener Plattformen ausschließlich für professionelle Nutzer:innen gestaltet werden – wenn sie denn überhaupt in dem Sinne “gestaltet” werden. Dabei ist die Zielgruppenbestimmung gleichbedeutend mit der durch die Professionalität der Nutzer:innen begründeten Abwesenheit von Gestaltung, frei nach dem Motto: Es darf ja hässlich sein, es nutzen ja nur die Professionellen und die werden es sich schon aneignen. Sicherlich, das spart Kapazitäten im Bereich Interface-Design, schließt aber nicht nur die Allgemeinheit aus, sondern auch all die professionellen Forscher:innen, die eben keine Lust oder Zeit haben, sich mit überkomplexen Interfaces mit dem Vibe eines CMS aus den 90ern auseinanderzusetzen. Von der damit einhergehenden Abwesenheit jedweder Beschäftigung mit dem Thema Barrierefreiheit ganz zu schweigen.

In den vergangenen Wochen kam das Thema dann häufiger erneut auf meinen Tisch, so dass ich mir Gedanken dazu gemacht habe, wie man Interfaces von geisteswissenschaftlichen Projekten besser einordnen könnte. Wie man diese messbar an bestimmte Zielgruppen ausrichten, für diese Planen und durch diese evaluieren könnte. Dazu möchte ich hier ein Messsystem vorschlagen, das auf der Auszeichnung von Punkten im Raum basiert:

Quelle: Jonas Müller-Laackman

Ein Interface kann sich entweder auf eine Menge an Werken richten (=archive), oder auf ein konkretes Werk, etwa eine digitale Edition. Es kann sich an professionelle Nutzer:innen richten, oder an die Allgemeinheit. Es kann ein grafisches Interface anbieten, oder eine Kommandozeile. Da Forschungsprojekte und Infrastrukturen selten absolut addressieren, ist die Idee, dass im Verlauf der Projektentwicklung und -umsetzung eine regelmäßige Evaluation der Punkte im Raum vorgenommen wird. Wenn ich beispielsweise eine IIIF-Schnittstelle für REST-Anfragen anbiete, die sich hauptsächlich an DH-aktive Kunstwissenschaftler:innen richtet, wäre eine denkbarer Score im Planungsrahmen: (1.0, 0.95, 0.7). Der x-Wert bezeichnet die Zielgruppe, die hier eindeutig und exklusiv die Wissenschaft ist. Der y-Wert schlägt stark in Richtung Archiv aus, wird aber dadurch reduziert, dass vielleicht eine bestimmte Werkgruppe Ziel der IIIF-Schnittstelle sein soll. Noch stärker eingeschränkt ist der z-Wert, der – bedingt durch die Schnittstelle – zwar primär maschinelle Anfragen und damit eine reine CLI-Anwendung beschreibt, diese aber dokumentiert werden muss – und damit ein visuelles Interface für die Dokumentation voraussetzt.

Im Verlaufe der Entwicklung des Projekts könnte dann immer wieder abgeglichen werden, wie der status quo mit dem Planungs-Score übereinstimmt. Am Ende könnte dann nicht nur ein Vergleich stattfinden, wie sehr das Endergebnis dem Planungszustand entspricht, es könnte auch gleichzeitig visualisiert werden, wie sich während der Entwicklungsphase das Interface vom ursprünglichen Planungsstand entfernt hat – und warum (=Dokumentation)

Wie genau diese Werte zustandekommen müsste diskutiert werden. Das hier soll ja nun auch kein ausgefeiltes und lückenloses System sein, sondern vielmehr einen Denkanstoß zur messbaren Be- und Auswertung von Interfaces darstellen, quasi eine Diskussionsgrundlage für die weitere Auseinandersetzung bieten. Und wer weiß, vielleicht gibt es dazu ja perspektivisch noch einen Workshop bei uns an der SUB. 🙂

Veranstaltungsbericht: DHd 2023 – Teil 2

Konferenztage 2 und 3

Den ersten Teil des Konferenzberichts zur DHd 2023 gibt es hier zu lesen.

Der zweite Konferenztag startete für mich mit einem Panel zur Kultur des Scheiterns in den Digital Humanities. Zusammen mit Ulrike Wuttke (FH Potsdam) und Dario Kampkaspar (ULB TU Darmstadt) durfte ich zum Thema “Herausforderung, Lesson Learned oder Chance? Der Zusammenhang zwischen Kulturen des Scheiterns und Open-Bewegungen in den Digital Humanities” Chair einer spannenden und wichtigen Podiumsdiskussion sein, in der die Panelist:innen darüber diskutierten, wie ein besserer Umgang mit Scheitern auf den verschiedenen Ebenen gefunden werden kann. Dabei stellte sich heraus, dass alle Beteiligten – deren Beiträge unter dem strengen Auge einer ablaufenden Sanduhr formuliert werden mussten – den dringenden Bedarf sehen, offener über gescheiterte Projekte zu reden, dabei das Scheitern aber nicht zu individualisieren, sondern vielmehr die systemischen, technologischen und strukturellen Gründe dahinter in den Vordergrund zu stellen. In verschiedenen Kontexten gibt es hier auch bereits Vorarbeiten (siehe etwa Gengnagel 2022 oder Dombrowski 2014), für eine breite Akzeptanz, über Scheitern in der Wissenschaft und den Digital Humanities offen zu reden, braucht es aber sicherlich noch weit mehr.

Weiter ging es danach in der Digitalen Briefforschung, deren Block mit einer Vorstellung des HTR-Workflows in der Bullinger Briefedition. Interessant ist hierbei, dass die Autor:innen im Korrespondenznetzwerk in Viel- und Wenigschreiber:innen eingeteilt werden. Dass es einfacher ist, gerade im Bereich der noch stark ausbaufähigen HTR-Engines die Briefe von Vielschreiber:innen automatisiert zu erkennen, liegt auf der Hand, entsprechend wird im Projekt des Bullinger Briefwechsel insbesondere die große Anzahl Wenigschreiber:innen problematisiert. Es folgte eine Präsentation aus Hamburg, in der die automatisierte Erkennung und Analyse visueller Aspekte von Briefen aus dem Dehmel-Archiv hier an der SUB in Hamburg und beim Projekt Dehmel Digital im Vordergrund stand. Anhand der Analyse von Ähnlichkeiten und Unterschieden im Hinblick auf das Format und die Größe des Briefes, sowie bei der Schrift und dem Material, können hier Rückschlüsse auf Besonderheiten, etwa die Nutzung farbigen Papiers, gezogen werden. Außerdem fallen Briefbeilagen – etwa Siegel oder Zeitungsausschnitte – besonders auf, die stark von den üblichen Formaten und Konventionen bei Briefen abweichen. Den Abschluss dieses Blocks machte dann ein Beitrag zu den Marginalien und Randnotizen in den Briefen der Ferdinand Tönnies Briefedition und welche Herausforderungen diese für die digitale Edierung bieten.

Quelle: Jonas Müller-Laackman

Nach der Mittagspause stand dann eines der Community-Highlights der Konferenz bevor: Der Poster-Slam. Jedes Jahr bietet sich hier die Möglichkeit für diejenigen, die ein Poster eingereicht haben, dieses möglichst kreativ der versammelten Konferenz vorzustellen. Je nach Lautstärke des Applaus wird am Ende ein:e Gewinner:in gekührt. Auch diesmal waren wieder großartige Beiträge dabei, wenngleich hier und da über die Fairness von Videoeinreichungen diskutiert wurde. Gewonnen hat am Ende dann aber gar kein Video, sondern doch kreative Dichtung mit einem gehörigen Maß Selbstironie. Eine Kritik sei hier angebracht: Et sollte zwar keener zu diese Kirche in Südbrandenburch jehn weil die ihre Ruhe haben wollt, aber dit war doch ma definitiv eener der top 5 vom Applaus her. In jedem Fall Glückwunsch an alle Gewinner:innen, hat wieder Spaß gemacht!

Weiter ging es dann mit der Poster-Session und den AG-Slots, die unglücklicherweise parallel lagen. Bei der Mitarbeit in einer AG war es zwar möglich, die jeweils andere Hälfte der Zeit noch Poster zu schauen, wer in zwei AGs aktiv war, musste sich dann aber entscheiden zwischen Poster-Session und AG-Arbeit. Die Poster waren auf recht kleinem Raum aufgestellt, aber auch hier waren wieder großartige Entwürfe dabei. Als jemand, der allgemein gerade auf Postern mehr Bild und weniger Text haben möchte, war ich entsprechend überzeugt vom Fontane VR Poster, das dann im Poster-Wettbewerb am Ende auch unter die ersten Drei Plätze kam. Gewonnen hat hier das ebenfalls sehr gelungene Poster meiner ehemaligen Kolleg:innen von TELOTA, trotz dem Ärgernis mit den QR-Codes. Meine persönlichen Favoriten waren darüber hinaus noch das Poster zum preußischen Kriegsspiel und natürlich allein schon aus fachlicher Solidarität das Poster des toRoll Projekts.

Quelle: https://zenodo.org/record/7711490
Quelle: https://zenodo.org/record/7711454
Quelle: https://zenodo.org/record/7711446
Quelle: https://zenodo.org/record/7711515

Es folgte unser AG-Slot zu Multilingual DH, in dem wir einige Punkte für unseren Post-Conference Workshop zu besprechen hatten und Interessierte sich über die Arbeit der AG informieren konnten. Im Anschluss brachen wir dann zum Audimax bzw. zur Mensa auf, an der es bei milden Abendtemperaturen Food-Trucks und Getränke für das abschließende Social Event gab. Während drinnen eine Band bis spät in die Nacht spielte und man am nächsten Morgen noch viel von der gefüllten Tanzfläche hörte, waren wir ganz froh, einen der ersten milderen Abende in diesem Jahr draußen zu verbringen. Hatte es am Anfang der Woche noch geschneit, konnte man jetzt in der Abenddämmerung zwischen blühenden Bäumen zusammenstehen und sich in lockerer Atmosphäre mit den Kolleg:innen bei Getränk und Loaded Pommes austauschen. Auch das ist schließlich DHd.

Der letzte Tag war für mich dann leider nur noch digital machbar: Trier ist nicht eben um die Ecke und die Bahn App kündigte für viele der Verbindungen über den Tag Einschränkungen und Ausfälle an. Um auf Nummer sicher zu gehen, habe ich also die letzten Beiträge nur noch online mitverfolgt, teilweise aus dem Zug, hin und her wechselnd zwischen LTE bei schlechtem ICE Wifi oder passablem ICE Wifi bei Edge. Gerade die Beiträge zu Wissensgraphen waren aber sehr spannend und ich hätte sehr gern vor Ort konzentrierter lauschen können, ohne Unterbrechungen und Ruckler. Den Abschluss machte dann die spannende Closing Keynote von Jennifer Edmond über Open Science in den Humanities.

Leider setzte sowohl das Bahn Wifi, als auch das mobile Netz in genau dem Punkt aus, wo der Ort der nächsten Konferenz verkündet wurde. Über die letzten Tage sorgte der übliche Teaser auf der Mitgliederversammlungen für Mutmaßungen, ob es sich um Würzburg oder Innsbruck handeln könne. Dank Social Media war schnell klar: Die DHd bleibt in jedem Fall weit weg, 2024 wird es Passau. Nagut. Dann heißt es wohl weiter warten für die nächste norddeutsche DHd in Präsenz. 🙂

Allgemein war ich sehr froh, mit Kolleg:innen auch mal wieder in Präsenz vor Ort zu diskutieren, zu reden, zu streiten oder einfach nur Kaffee zu trinken und die Zeit abzusitzen, bis der nächste Block anfängt. Ich bin ja ein starker Verfechter eines grundsätzlichen Online-Angebots und fand auch die virtuellen DHds alle super. Aber selbst eine noch so gute GatherTown bietet keine vergleichbare Basis zum sozialen Austausch. Dafür muss man allerdings lange Anfahrten, Hotel-Frühstück und offenbar auch rote Kacheln in der Corona Warn-App in Kauf nehmen. Und das ist sicherlich einer der Punkte, die mir nicht gefallen hat: Covid ist nicht vorbei, scheint für Viele aber kein Thema mehr zu sein. Etwas mehr Rücksicht wie z.B. in Form von Masken bei Erkältung hätte ich mir dann schon gewünscht.

Auf dem Rückweg noch am Amphitheater vorbei.
Quelle: Jonas Müller-Laackman

Leider konnte ich natürlich auch nicht in allen Blöcken und Veranstaltungen gleichzeitig sitzen, weshalb ich viele Beiträge aus den Bereichen Computerlinguistik, Dekolonisierung, Theorie und OpenData verpasst habe, die ich gerne ebenfalls besucht hätte, aber so ist das halt. Fachlich war die DHd allgemein mal wieder ein interessanter und doch auch wieder sehr selektiver Überblick über die deutschsprachige DH-Landschaft. Eine etwas größere Diversifizierung würde hier meiner Ansicht nach nur gut tun. Dass das ein durchaus kontrovers diskutiertes Thema ist, wurde auch auf dieser DHd wieder deutlich. Man darf also gespannt sein, was sich bis zur nächsten DHd so auf dem Feld bewegt und ob die DHd in Passau die Diskurse, die auf der diesjährigen DHd bewegt haben, erfolgreich aufgreifen und weiterführen kann. Vielleicht ist ja bis dahin das Wifi während der stundenlangen Zugfahrten besser. Und ja, das ist ein sehr frommer Wunsch.

Quelle: https://mastodon.online/@Jomla/110038073848569716

Zum Weiterlesen gibt es das Book of Abstract der DHd2023 hier, die Poster hier.

Veranstaltungsbericht: DHd 2023 – Teil 1

Workshops und Konferenztag 1

In der Woche vom 13. – 17. März 2023 fand die jährliche Konferenz des DHd-Verbands in Trier und Luxembourg statt, erstmals seit 2020 wieder in Präsenz und vor Ort. Entsprechend groß war die Freude bei vielen Teilnehmer:innen über das Wiedersehen unter Freund:innen und Kolleg:innen, die sich über die letzten Jahre oft nur in VK-Meetings getroffen hatten.

Wie üblich begann die Konferenz am Montag und Dienstag mit den Workshops am Campus Belval bei Esch sur Alzette / Luxembourg. Dieser befindet sich etwa 90min Busfahrt von Trier entfernt an der französischen Grenze, was die Anreise etwas umständlich, dank Direktverbindung mit Bus aber machbar gestaltete. Dafür ist der Campus durch die in das Ensemble alter Hochöfen eingebetteten Neubauten recht modern anzusehen und bot im Maison du Savoir mit seinen langen, in gedeckten dunklen Tönen gehalteten Gängen und großen Seminarräumen einen interessanten Veranstaltungsort für die ersten Tage der DHd. Wer – wie ich – vergessen hatte, sich für das Mittagessen anzumelden, musste dann nur mit den Luxembourger Mensa-Preisen Vorlieb nehmen: Veganes Chili für 14 Euro Gäste-Preis.

Quelle: Jonas Müller-Laackman

Das Angebot an Workshops war wie üblich recht vielfältig, neben politischen Themen wie Data Feminism oder der Awareness für Research Software Engineering gab es auch konkrete, Technologie-fokussierte Workshops, etwa zu CATMA und Gitma, SpaCy-Pipelines oder auch zur Rezensierung von Forschungssoftware. Alle Workshops boten eine Teilnahme von Remote, was zwar durch die entsprechenden Geräte in der Theorie gut funktioniert hatte, eine Diskussion über die multimodale Grenze hinweg war aber mitunter etwas schwerlich und stark von der Moderation der Workshops abhängig.

Der zweite Tag endete schließlich im fast voll besetzten Auditorium mit einer Keynote von Quinn Dombrowski und Sebastian Majstorovic zum SUCHO Projekt, in dem zu Beginn der russischen Invasion in die Ukraine versucht wurde, eine Community und Infrastruktur aufzubauen, die das kulturelle Erbe der Ukraine sichern und so vor etwaigen Kriegsverlusten schützen sollte. Hierbei stellten die Redner:innen vor allem die Möglichkeiten heraus, wie jede:r einzelne sich in eine derartige Datenrettung einbringen kann und welche Verantwortung bei den Digital Humanities liegt: “Digital Humanists have a duty to digitally empower others“.

Quelle: Jonas Müller-Laackman

Im Anschluss an die Keynote gab es einen kleinen Empfang, bei dem angeregt über das gerade Gehörte diskutiert wurde, bevor es mit Shuttlebussen dann zurück in Richtung Trier ging.

Am dritten Tag, dem ersten Tag der eigentlichen Konferenz, war das Hotel schon spürbar voller, waren mittlerweile doch auch diejenigen angereist, die nur an der Konferenz teilnehmen wollten. Mit dem Bus ging es den Hügel hinauf an die Universität Trier, die mit dem architektonischen Stil der 70er und 80er einen krassen Kontrast zu den modernen Bauten in Belval darstellt und darüber hinaus auch um einiges verwirrender strukturiert ist. Nach einigem Hin und Her fand unsere kleine Reisegruppe aber schließlich die wichtigen A und B Gebäude, in denen die meisten Veranstaltungen und Community-Events stattfanden.

Der Tag begann für mich mit dem Themenblock “Digitale Sammlungen”, in dem zunächst die offenen Elemente der Edition Humboldt Digital vorgestellt wurden. In der Frage nach der Umsetzung der FAIR Prinzipien und im Hinblick auf Open Science kann diese sicherlich als gutes Beispiel vorangehen: Neben einem ordentlich strukturierten Interface bietet die Edition zahlreiche Schnittstellen und gut dokumentierte Transparenz zu Workflows, Formaten und Datenhaltung. Es folgte eine Vorstellung der im Text+ Konsortium vernetzten Korpora, den Abschluss des Blocks bildete schließlich ein Beitrag zur Nutzbarkeit von Wikidata zur Anreicherung von Forschungsdaten und der Vernetzung von Entitäten. Im Bereich Multilingual DH ist gerade verglichen mit streng kuratierten Normdatenbanken wie der GND Wikidata oft auch die einzig kurzfristige und pragmatische Möglichkeit, Normdaten selbstständig anzulegen und zu pflegen.

Im zweiten Block ging es anschließend um die Frage nach “Open DH” und inwiefern in der DH-Praxis “blinde Flecken” existieren. Das Panel diskutierte etwa über die Unsichtbarkeit von Dienstleister:innen, insbesondere solche im Globalen Süden, aber auch von FLINTA*, die im Arbeitsprozess gerade in einer männlich geprägten Wissenschaftskultur hinter den Projektleitungen zurückfallen. Weitere Punkte waren die nach wie vor marginalisierte Berücksichtigung von nicht-lateinischen Schriften und Schriftsprachen, sowie die infrastrukturelle Benachteiligung des Globalen Südens. Hierzu wurde etwa ein Zitat von einer Demonstration am Tahrir-Platz in Kairo 2015 aufgegriffen, das das Privileg konstanter Internet- und Energieversorgung im Globalen Norden in Friedenszeiten deutlich macht: “حبيبتي، انت جميلة، كساعة اضافية من الكهرباء” (Liebling, du bist so schön wie eine weitere Stunde Strom)

Quelle: Aya Mansour (Twitter)

Im folgenden und letzten Block des Tages ging es schließlich um Normdaten, vor allem im Bereich der Werks-Normdaten. Dabei zeigte der Beitrag zum Projekt ELTeC, einem Korpus für europäische literarische Texte, dass die im deutschsprachigen Bereich maßgebliche GND gerade bei Werk-Normdaten auch nur dort über eine gute Abdeckung verfügt. Mehrsprachige, bzw. nicht-deutsche Werke waren hier im Verhältnis zu anderen Normdatenbanken wie Wikidata oder VIAF nur dürftig abgedeckt. Im sich anschließenden Beitrag ging es konsequenterweise um das Einpflegen neuer Werk-Normdaten aus Enzyklopädien in einem DFG-geförderten Projekt und die Relevanz, die solche Daten für das Semantic Web haben. Dabei wurde auch die Vernetzung von Werk-Normdaten in Wikidata gedacht, das hier als eine Art Knotenpunkt agieren soll.

Im letzten Beitrag des Blocks wurde dann ein Projekt zu Einreisekarteien von Schriftsteller:innen in der DDR, “Writing Berlin”, vorgestellt, das die Datenbasis mit Normdaten zur Disambiguierung von Personen- und Ortsnamen anreichert und so untersuchen kann, welche Aufenthaltsgründe zu welchen Zeiten bei welchen Personen geltend gemacht wurden. Ein besonders interessanter Punkt in diesme Projekt war die Nutzung des Extended Date Time Format (EDTF) für die Daten. Das eigentliche ISO-Format sieht die Annotierung von Daten in der Form YYYY-MM-DD vor. Das schlägt fehl, wenn etwa nur der Monat und Tag, nicht aber das Jahr bekannt ist. Als Lösung ersetzt das EDTF alle unbekannten Zahlen mit einem X. Ein Einwand war hier die Notwendigkeit eines komplexeren Parsings, für eine saubere Datenhaltung erschien mir selbst das EDTF zumindest als durchaus sinnvoll.

Quelle: Jonas Müller-Laackman

Damit war für die meisten Teilnehmer:innen der erste Konferenztag vorbei und es gab Gelegenheit zur Besichtigung der Sehenswürdigkeiten von Trier wie den zahlreichen römischen Ruinen oder dem ältesten Weinkeller Deutschlands. Für Mitglieder des DHd-Verbandes gab es noch die Mitgliederversammlung, bevor auch die letzten Konferenz-Teilnehmer:innen zum verdienten Abendessen nach Trier zurückfahren konnten.

Den zweiten Teil des Konferenzberichts gibt es in Kürze hier.