Lernwerkstatt: Briefe digital erforschen – Ein Seminarbericht

Im Wintersemester 2023/24 habe ich an der Freien Universität Berlin im Rahmen der Eins@FU Lernwerkstätten ein Seminar zum Thema “Briefkorrespondenzen zwischen der arabischen Welt und Europa digital erforschen” gegeben. Hierbei hatte ich zunächst nur eine grobe Planung vorgenommen, da ich den genauen Inhalt und Verlauf zusammen mit den Studierenden erarbeiten wollte. Am Ende haben wir dann über das Semester fast den gesamten Workflow vom physischen Brief zur Web-Präsentation eines TEI-XML-edierten Dokuments behandelt. In diesem Beitrag möchte ich das Vorgehen kurz zusammenfassen und einen Überblick über die Themen geben, die wir besprochen haben.

In der ersten Sitzung wurden neben den organisatorischen Formalitäten erstmal Wünsche, Erwartungen, Befürchtungen und Ängste abgefragt. Dabei stellte sich heraus, dass die Studierenden vor allem Interesse an inhaltlichen Fragen zum kulturellen Austausch hatten, aber auch Forschungsprozesse an Universitäten und verschiedene Forschungsmethoden kennenlernen wollten. In den Befürchtungen wurde geäußert, dass es schwierig sein könnte, den digitalen Themen zu folgen zu können und dass das Seminar zu technisch ausgerichtet sein könnte. Ganz vermeiden konnte ich letzteres aufgrund des Ziels, sich mit der digitalen Erforschung von themenspezifischen Briefen zu beschäftigen, nicht. Ich habe jedoch immer mal wieder probiert, die inhaltlichen Dimensionen dessen zu verdeutlichen, was wir im Seminar gemacht haben. Ein solcher Kontext half den Studierenden dann oft auch, Sinn und Zweck der teils für Einsteiger:innen sehr komplexen digitalen Themen zu verstehen und entsprechend motiviert zu bleiben.

Als erstes wurde aber über das Thema Brief im Allgemeinen gesprochen. Die Studierenden haben Eigenschaften von Briefen gesammelt und wurden so auch vor die Herausforderung gestellt, Phänomene jenseits der alltäglichen Perspektive zu erkennen und zu beschreiben. Oft waren es Dinge, die den Studierenden ganz banal erschienen, die am Ende dann aber eben doch wichtig für die Erkenntnis sind, ob es sich bei einem Dokument um einen Brief handelt. Das zog sich im Übrigen durch das ganze Seminar, immer wieder habe ich die Studierenden aufgefordert, jede vermeintlich selbstverständliche Sache zu hinterfragen und auf ihre Relevanz für die Analyse hin zu betrachten.

Zunächst wurde aber diskutiert, was eigentlich nötig ist, damit ein Brief vom Ereignis seiner Niederschrift auf die Notebooks der Studierenden kommt. Hier wurde der Prozess vom Nachlass über die bibliothekarische Erschließung bis zur Digitalisierung besprochen und ebenso eine erste Einführung in das Thema Metadaten gegeben. Die Studierenden lernten, welche zahlreichen Bedingungen erfüllt sein müssen, damit ein Brief tatsächlich erhalten bleibt, über Nachlässe in Bibliotheken oder Archive kommt und dort dann auch entsprechend erschlossen und digitalisiert werden kann. Dabei spielte weniger das technische Know-How eine Rolle. Mein Ziel war hier vielmehr, die Studierenden dafür zu sensibilisieren, wie viele Faktoren erfüllt sein müssen, damit sie an einem einfachen Digitalisat arbeiten können.

Nachdem die Studierenden entsprechend auf Faktoren und Details in der Transmissions- und Digitalisierungskette sensibilisiert wurden, habe ich mich der automatischen Texterkennung gewidmet. Neben einer sehr groben Einführung und kritischen Einordnung von maschinellem Lernen als Grundlage für automatisierte Texterkennung (“Computer sind sehr dumm.”), habe ich mit den Studierenden einen bereits gedruckten Briefcorpus gewählt, der inhaltlich ihren Wünschen entsprach und sich leicht mit Transcribus transkribieren lassen würde: Die sogenannten Liebesbriefe von Ǧibrān Ḫalīl Ǧibrān an Mayy Ziyāda. Transcribus (Lite) habe ich gewählt, da aktuell leider kein ATR-Tool existiert, das eine ähnlich einfache Nutzung ohne tiefere Fachkenntnis erlaubt. Die ins Englische übersetzten Drucktexte ließen sich auf jeden Fall gut beispielhaft für den Erkennungsprozess nutzen.

Auch hierbei ging es mir weniger darum, den Studierenden technische Details zu vermitteln, sondern eher ein allgemeines Wissen über die Prozesse zu schaffen und das Auge für Problemstellen zu sensibilisieren: Das Ziel war, den Blick dafür zu schärfen, wie scheinbar banale Dinge, wie z.B. die Regionenidentifikation auf einer Druckseite, unmittelbaren Einfluss auf das Transkriptionsergebnis und damit auf den weiteren Verlauf der Arbeit haben kann.

Neben diesen allgemeineren ATR-bezogenen Themen wurde in diesem Block auch kurz das Thema Ligaturen und arabische Schrift (die von den Studierenden nicht beherrscht, also nur sehr oberflächlich behandelt wurde) als Problembereich in der automatisierten Erkennung angesprochen, sowie die grundlegende Funktion von verschiedenen Modellen und dem Modelltraining vermittelt.

Im Anschluss an die Transkription lernten die Studierenden die Grundlagen von XML, da der nächste Schritt die Einbettung des transkribierten Texts in ein TEI-XML Dokument sein sollte. Nach einer kurzen allgemeinen Einführung mit einigen Übungen, wurde der Unterschied zwischen teiHeader und text erläutert und ein Rückbezug zum Metadatenthema hergestellt. Die Studierenden sollten dann einen eigenen teiHeader mit den grundlegenden Informationen zu einem der Briefe aus dem “Liebesbriefe”-Band erstellen. Nacheinander wurden die verschiedenen Elemente besprochen und selbstständig angewandt. Dabei wurde auch ein erster Ausflug in das Thema Normdaten gemacht. Die konnten an dieser Stelle über den die Funktion zur Disambiguierung viel verständlicher vermittelt werden, als vorher beim Block zur bibliothekarischen Arbeit.

Der nächste Schritt war dann das Beschreiben der Korrespondenzmetadaten. Vom Anwendungsfall (correspSearch) und allgemeinen, beispielhaften Forschungsfragen (“Wer hat wann mit wem geschrieben?”), sollten die Studierenden die relevanten Daten identifizieren und händisch in ihren gewählten Brief einfügen. Anschließend fand ein kurzer “CMIFathon” statt, an dem die Studierenden mit dem CMIF Creator ein Briefverzeichnis aller Korrespondenzmetadaten aus dem bearbeiteten Band erstellten. Dieses wurde auf Zenodo bereitgestellt und bei correspSearch eingepflegt. Hier war mir ein großes Anliegen, dass die Studierenden so unmittelbar den Eindruck bekommen haben, dass ihre Arbeit im Seminar tatsächlich einen Mehrwert hat. Sie erstellen die Daten nicht nur für sich selbst, um das Thema zu verstehen, sie tragen dazu auch etwas bei zum “größeren Ganzen”. Das hat ungemein die Motivation bestärkt und deutlich das ein oder andere zufrieden-stolze Grinsen auf die Gesichter gezaubert.

Anschließend ging es an die Annotation des Textes. Die Studierenden sollten Entitäten im Text erkennen und annotieren, entsprechend Normdaten recherchieren und ergänzen. Einmal mehr war es mir wichtiger, den Blick zu schärfen für die vermeintlich offensichtlichen Dinge, die für die Analyse aber vielleicht relevant sein könnten. Außerdem, remember, der Computer ist sehr, sehr dumm. Wenn der das auch verstehen soll, dann müssen wir sorgfältig annotieren.

Um den Sinn und Zweck einer solchen Annotation zu verdeutlichen, wurden die annotierten Briefe dann in einem online XPath-Editor eingefügt, um verschiedene grundlegende Fragen (z.B. “Welche Personen werden im Brief erwähnt?”) durch XPath-Ausdrücke beantworten zu können. XPath stellte eine deutliche Steigerung des Abstraktionsgrads dar, die Studierenden hatten mit der Syntax deutlich mehr Probleme, als mit dem vergleichbar eindeutigeren XML. Doch gerade, als dann noch die visuelle Transformation mithilfe eines XSL-Templates dazukam, wurde auch die Funktion von XPath klarer. Beispielhaft wurde ein Brief mithilfe eines XSL-Templates und CSS in eine kunterbunte HTML-Website übersetzt. Hier bot sich an, einen kurzen Ausflug zu unternehmen und sowohl in die Grundlagen von HTML und CSS, als auch in das Thema Namensräume Abstecher zu machen.

Schließlich gab es noch einen weiteren Ausflug in Richtung Natural Language Processing. Die Stanford CoreNLP Demo und Voyant Tools wurden ausprobiert, in denen mangels Datenmenge nicht (nur) Ǧibrān Ḫalīl Ǧibrān untersucht wurde, sondern auch Woyzeck als Werk, das alle Studierenden kannten. Dabei wurde einführend über Aussagegehalt und Gefahren von Visualisierungen gesprochen und durch Herumprobieren verschiedene Analysen angestellt (“Der schreibt ziemlich lange Sätze”), die gleichzeitig auch wieder hinterfragt wurden (“Die Topics sind ja total wirr!”). Auch wurde die Ausgabe einer Sentiment-Analyse aus der Kommandozeile untersucht und über Themen wie Preprocessing und die verschiedenen Prozessoren (z.B. POS) in NLP-Anwendungen gesprochen.

Alle Themen wurden am Ende dann zusammen betrachtet und im Kontext des Research Life Cycle eingeordnet. Hierbei wurden auch nochmal Querbezüge zur praktischen Verwertbarkeit hergestellt und so manche Sinnfrage (“Warum machen wir das eigentlich alles?”) zumindest etwas beantwortet. Die Befürchtung, dass ich die Studierenden mit meiner aus dem beruflichen Alltag stammenden Perspektive völlig überfordern würde, stellte sich als unbegründet heraus. Offenbar war der stetige Bezug zur Praxis, das verwendete Material, und die aktive eigene Arbeit mit den vorgestellten Themen und Methoden hilfreich, um nicht den Anschluss zu verlieren. Herausfordernd war das Thema sicherlich trotzdem. Natürlich werden jetzt auch nicht alle Studierenden begeisterte Digital Humanists. Ich glaube aber, bei der ein oder anderen Person zumindest ein bisschen Interesse für digitale Methoden geweckt zu haben. Ein:e Teilnehmer:in kündigte sogar begeistert an, sich im Studium dann auf jeden Fall mit DH beschäftigen zu wollen.

Mein Ziel war, die Forschungspraxis mit all ihren Facetten vom physischen Objekt bis hin zu den verschiedenen Formen der digitalen Analyse und ihrer Publikation im Seminar zumindest vorzustellen, wenn nicht sogar praktisch auszuprobieren. Und das an Briefen, die exemplarisch für den Austausch zwischen der arabischen Welt und Europa stehen (Fair enough, Ǧibrān Ḫalīl Ǧibrān hat dann in den USA gelebt…). Hierbei habe ich immer wieder darauf hingewiesen, dass die beste Forschung durch Zusammenarbeit und Austausch entsteht. Diese Zusammenarbeit und diesen Austausch habe ich versucht auch in der Seminarpraxis zu fördern. Gemessen daran, dass ein großer Teil der Studierenden bis zum Ende durchgehalten hat und im Feedback durchaus konstruktiv kritisch, aber doch unterm Strich zufrieden, Fazit gezogen hat, scheint das grundsätzlich gelungen zu sein.

Mit dem CMIF haben die Studierenden sich aber schon zu Beginn ihres Studiums mit einem kleinen aber feinen Beitrag für die Briefforschung verewigt und das ist, unabhängig davon, wohin es sie letztlich verschlägt, etwas sehr schönes.

OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren:
Jonas Müller-Laackman (16. Februar 2024). Lernwerkstatt: Briefe digital erforschen – Ein Seminarbericht. DH³. Abgerufen am 16. April 2026 von https://doi.org/10.58079/vutm

Schreibe einen Kommentar Antworten abbrechen