Text+Plus, #08: Multimodale Musiktexte online. Von der Idee zur Umsetzung

#08: DigiMusTh
Jedes Jahr fördert Text+ Kooperationsprojekte mit einer Laufzeit von maximal 12 Monaten. Bewerben können sich Einzelpersonen, Arbeitsgruppen, Forschungsverbünde und Forschungseinrichtungen. In der Blog-Reihe Text+Plus geben sie Einblick in ihre Arbeit.
Handelt es sich beim Dur- und Moll-Dreiklang um gleichrangige Kategorien? Diese Frage beschäftigte im 19. Jahrhundert die deutschsprachige Musiktheorie und ist als Dualismusdebatte in die Musikgeschichte eingegangen. Das Text+-Kooperationsprojekt DigiMusTh hat eine digitale Textsammlung von musiktheoretischen Schriften dieser Debatte aufgebaut. Die Texte dieser Sammlung sind nicht nur inhaltlich, sondern auch formal interessant, da sie neben verbalem Text1 auch Musiknotationen, mathematische Ausdrücke und Diagramme enthalten, also multimodal sind. Die im Rahmen des Projekts erstellte (erweiterbare) Textsammlung liefert einerseits wichtige Einblicke in die Dualismusdebatte in der Musiktheorie im deutschsprachigen Raum des 19. Jahrhunderts und stellt andererseits beispielhaft dar, wie die Integration verschiedener Arten von Text bei der Digitalisierung und Veröffentlichung erfolgen kann.
Im Rahmen des Kooperationsprojekts wurden schon digitalisierte Texte aus dem Vorgängerprojekt Digitizing the Dualism Debate (ddd) weiterverarbeitet und tiefer erschlossen. Außerdem entstand eine Webseite, auf der die Texte inklusive Suchfunktion und Registern in all ihrer Vielfältigkeit – verbalem Text, Musiknotationen, mathematische Ausdrücke, Diagramme – präsentiert werden.

Digitalisierung von multimodalen Texten
Die Digitalisierung der multimodalen Texte fand in mehreren Schritten statt. Zuerst wurde der Text im klassischen Sinne mittels der OCR-Software Transkribus digitalisiert. Als nächstes wurden die Musiknotationen manuell transkribiert und nach MEI (Music Encoding Initiative, ein Codierungsformat für Musiknotation) transformiert.2 Der transkribierte verbale Text wurde in ein TEI-konformes Datenmodell übertragen und mit den MEI-Dateien verknüpft. Daraufhin konnten auch bei der Transkription ignorierte Teile des Texts, wie mathematische Ausdrücke und Inline-Diagramme, manuell transkribiert bzw. inkludiert werden. Die mathematischen Ausdrücke wurden in LaTeX transkribiert.3 Die Diagramme wurden aus den vorhandenen gescannten Faksimiles ausgeschnitten und als PNG-Dateien mit den TEI-Daten verknüpft. Im Rahmen des Projekts haben wir jedoch auch mit der manuellen Transkription der Diagramme als SVG (Scalable Vector Graphics) experimentiert. Die Ergebnisse waren vielversprechend und stehen bei GitHub als Minimalbeispiele zur Verfügung.
Die große Herausforderung dabei war, den verschiedenen verwendeten Standards gerecht zu werden und die erfolgreiche Verlinkung zwischen den verschiedenen Formaten zu gewährleisten. Außerdem musste die Modellierung der Daten in einer Art erfolgen, die die spätere Präsentation auf möglichst einfachem Wege ermöglicht. Im Laufe des Projekts wurden durch die Komplexität der Texte immer wieder neue Bedarfe entdeckt, auf die dann flexibel eingegangen werden musste – oft auch mit der ganz pragmatischen Frage im Hintergrund, welche Erschließungstiefe oder -dichte man im Projekt erreichen möchte und ob das mit den verfügbaren Ressourcen leistbar ist. Die erarbeiteten TEI/XML-Daten sind über das GitHub-Repository des Projekts einsehbar.

Statische Webseite mit Minimal-Publishing-Ansatz
Bei der Gestaltung der Webseite war uns wichtig, dass der technische Aufwand für die Repräsentation der multimodalen Texte in all ihren Facetten möglichst gering sein sollte. Die Zielstellung war also eine statische Webseite auf GitHub-Pages, die nur mit lokal abgelegten JavaScript-Libraries, ohne externe Abhängigkeiten, angereichert werden sollte.
Die Webseite wurde mit Jekyll und Ed gebaut. Die in TEI codierten Texte werden mittels CETEIcean in HTML umgewandelt und so im Web Browser angezeigt. In MEI codierte Musiknotationen werden über Verovio, das die Überführung von MEI-Code in SVG ermöglicht, dargestellt. Die Darstellung der in LaTeX codierten mathematischen Ausdrücke läuft über MathJax. Wie genau die verschiedenen Elemente des Tech-Stacks miteinander interagieren, lässt sich durch die auf Zenodo veröffentlichte Projektdokumentation und/oder einen Besuch auf dem page-branch vom GitHub-Repo des Projekts nachvollziehen.

Auf der Webseite lassen sich die erschlossenen musiktheoretischen Texte anzeigen. Im verbalen Text als Named Entities oder musiktheoretische Konzepte ausgezeichneten Begriffe lassen sich durch ein Auswahlmenü im Footer der Seite in verschiedenen Farben hinterlegen (siehe Abb. 1). Neben den Texten stehen auf der Webseite außerdem Indices für Personen, Orte und Werke zur Verfügung. Hier werden die Named Entities samt Link zu Normdatensätzen in der GND und Wikidata sowie einer Liste relevanter Textstellen aufgeführt (siehe Abb. 2). Darüber hinaus kann der verbale Text über eine Suche gezielt untersucht werden. Gefundene Treffer werden nach Texten sortiert angezeigt, Treffer einzelner Texte können nach Belieben aus- und eingeklappt werden (siehe Abb. 3). Mit Klick auf eines der Suchergebnisse gelangt man zur relevanten Stelle im Text. Die gefundenen Instanzen des Suchbegriffs werden gelb hinterlegt (siehe Abb. 4).

Fazit
Unsere Webseite zeigt, dass die Anzeige multimodaler Texte grundsätzlich mit Minimal Publishing zu bewerkstelligen ist. Im Detail haben sich jedoch immer wieder Probleme ergeben, die ein tiefes technisches Verständnis und einiges an Zeit und Experimentierfreudigkeit erforderten. Dazu gehörte die Darstellung der Fußnoten und insbesondere von Fußnoten in Fußnoten oder auch die Anpassung der Größen von eingebetteten Grafiken oder Musiknotationen in Abhängigkeit von ihrer Position im Text (als Block, inline oder in einer Fußnote). Wie genau diese und weitere Probleme im Projekt gelöst wurden, erläutern wir in der umfassenden Projektdokumentation, die bei Zenodo veröffentlicht wurde. Neben dem Aufbau ähnlicher Textsammlungen soll die Projektdokumentation auch dazu dienen, die Erweiterung unserer Textsammlung zu ermöglichen. Das umfassende Erschließen multimodaler Texte hat sich als sehr mächtiger Ansatz erwiesen, da somit endlich die semantische Vernetzung unterschiedlicher Arten von Text möglich gemacht wird.
Das Projekt (Laufzeit 01/2025 – 12/2025) wurde am Zentrum für Philologie und Digitalität (ZPD) der Julius-Maximilians-Universität Würzburg realisiert. In Text+ ist es der Datendomäne Collections zugeordnet. Die Projektleitung lag bei Prof. Dr. Fabian C. Moss. Das Projekt wurde außerdem von Dr. Torsten Roeder, Corinna Keupp, Janina Marie Roth und Jana Klinger bearbeitet.
Beitragsbild: ETH-Bibliothek Zürich, Bildarchiv / Fotograf: Metzger, Jack / Com_L16-0320-0002-0002 / CC BY-SA 4.0, http://doi.org/10.3932/ethz-a-000969258.
- Vgl. Wildfeuer, Janina, John A. Bateman, Tuomo Hiippala: Multimodalität. Grundlagen, Forschung und Analyse – Eine problemorientierte Einführung, Berlin/Boston 2020, DOI: https://doi.org/10.1515/9783110495935, S. 7. [↩]
- Diese Schritte wurden schon im Rahmen des Vorgängerprojekts ddd erledigt. [↩]
- Wir haben uns für die Transkription mit LaTeX entschieden, da diese weniger fehleranfällig als eine manuelle Transkription in MathML ist. Bei Bedarf können die LaTeX-Ausdrücke zu einem späteren Zeitpunkt in MathML transformiert werden. [↩]
OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren:
Jana Klinger (16. Februar 2026). Text+Plus, #08: Multimodale Musiktexte online. Von der Idee zur Umsetzung. Text+ Blog. Abgerufen am 2. April 2026 von https://doi.org/10.58079/15p90
