Digital resources in the Social Sciences and Humanities OpenEdition Our platforms OpenEdition Books OpenEdition Journals Hypotheses Calenda Libraries OpenEdition Freemium Follow us

Werkstattreihe Standardisierung #05 DeReKo. Vom Rohtext zum linguistisch analysierbaren Korpus – ein praktischer Workflow mit etablierten Tools

Die Werkstattreihe zum Nachlesen:
#04 edition humboldt digital – Vielfältige Vernetzung
#03 correspSearch – Briefeditionen durchsuchen und vernetzen
#02 Das Basisformat des Deutschen Textarchivs – Ein TEI-Standard zur Auszeichnung von Drucken und mehr
#01 Einführung und Terminplanung

Das Leibniz-Institut für Deutsche Sprache (IDS) beherbergt zahlreiche für die Forschung genutzte Korpora. Eine besonders wichtige Ressource ist das Deutsche Referenzkorpus (DeReKo), ein Korpus aus deutschsprachigen Texten der Gegenwart und neueren Vergangenheit. Damit ist DeReKo die größte linguistisch motivierte Sammlung elektronischer Korpora, die – beginnend in 1964 – kontinuierlich ausgebaut wird: Stand Januar 2025 umfasste sie 63,8 Milliarden Wörter. DeReKo beinhaltet unterschiedliche Textarten aus den 1950ern bis heute, darunter Zeitungs- und Zeitschriftentexte (siehe Abbildung 1), Plenarprotokolle, Belletristik sowie Wikipediaartikel und -diskussionen. Eine genaue Auflistung der Inhalte von DeReKo findet sich in dieser Auflistung. Dabei sind die gesammelten Daten zusätzlich linguistisch annotiert, z.B. mit Part-of-Speech (POS) Tags oder syntaktischer Dependency-Annotation.

Die Karte zeigt Deutschland, Österreich, Luxemburg und Teile der Schweiz.
Abb. 1: Geographische Herkunft der Zeitungsquellen in DeReKo

Das TEI-basierte IDS Textmodell I5

Das IDS archiviert seine geschriebensprachlichen Daten im TEI-Format, genauer gesagt im IDS-eigenen Textmodell IDS-TEI P5, auch I5 genannt, einer Anpassung von TEI P5 (Lüngen & Sperberg-McQueen, 2012). Eine Korpusdatei, die in diesem TEI-Format kodiert ist, wird mit der Dateiendung .i5.xml kenntlich gemacht.

Die größte Besonderheit von I5 ist das dreistufig hierarchische Modell: Das Element idsCorpus enthält ein oder mehrere Elemente des Typs idsDoc, das wiederum ein oder mehrere Elemente des Typs idsText enthält. Was ein idsText-Element inhaltlich einschließt, wird mit dieser Definition beschrieben: „Eine relativ selbstständige, inhaltlich kohärente Folge natürlichsprachlicher Äußerungen, die natürlichen Kommunikationssituationen entstammen.“ (Perkuhn et al. 2005, S. 61). Erklärt am Korpus der Tageszeitung Mannheimer Morgen 2020, der in DeReKo enthalten ist, sieht diese hierarchische Dreiteilung dann folgendermaßen aus (siehe auch Abbildung 2): 

  • idsCorpus beinhaltet den kompletten Jahrgang 2020 des Mannheimer Morgen (M20)
  • jedes Element idsDoc beinhaltet jeweils einen kompletten Monat (M20.JAN, M20.FEB, …)
  • jedes Element idsText beinhaltet einen einzelnen Zeitungsartikel (M20.JAN.00001, M20.JAN.00002, …)


Screenshot
Abb. 2: Aufbau einer mit dem IDS-Textmodell TEI P5 kodierten Datei, hier am Beispiel von m20.i5.xml

Die Korpusanalyseplattform KorAP

Aus urheberrechtlichen Gründen ist DeReKo nicht frei zugänglich. Es ist allerdings möglich, mithilfe von COSMAS-II oder der Nachfolgeplattform KorAP („Korpusanalyseplattform“) in DeReKo zu recherchieren. 

Screenshot der Such "Haus" in KorAP
Abb. 3: Suche in KorAP

In KorAP gibt es oben ein Suchfenster, in das man einen Suchausdruck eingeben kann, im einfachsten Fall ein einzelnes Wort, z.B. „Haus“. Standardmäßig bekommt man unten nur eine Auswahl von Treffern angezeigt. Um wirklich alle Treffer zu sehen, muss man das Häkchen bei „Glimpse“ entfernen. Dann sieht man auch, wie viele Treffer insgesamt gefunden wurden. Links sieht man die Textsiglen, in denen ein Treffer vorgekommen ist. Klickt man auf einen Treffer, kann man sich Metadaten dazu anzeigen lassen, z.B. Veröffentlichungsort und -datum. Klickt man auf „Token“, kann man sich Annotationen der einzelnen Tokens anzeigen lassen. Es stehen mehrere durch unterschiedliche Tools erstellte Annotationsebenen zur Verfügung, z.B. POS-Annotationen von CoreNLP, Marmot und TreeTagger.

Annotationen können auch in den Suchausdrücken eine Rolle spielen. Zum Beispiel könnte man nach einem Artikel gefolgt von zwei attributiven Adjektiven gefolgt von einer Wortform des Lemmas „Haus“ suchen ([tt/p=ART][tt/p=ADJA]{2}[tt/l=”Haus”]) (siehe Abbildung 3). Es stehen sechs verschiedene Anfragesprachen zur Verfügung.

Man muss nicht immer in ganz DeReKo suchen, sondern kann sich ein eigenes virtuelles Korpus definieren. Zum Beispiel könnte man nur in Texten suchen, die 2018 erschienen sind.

KorAP ist der Hauptzugriffspunkt zu DeReKo, dem Korpus, das im Vordergrund dieses Blogbeitrags steht. Gleichzeitig gibt es auch andere Instanzen von KorAP, mit denen man in anderen Korpora suchen kann. Zum Beispiel gibt es über korap.dnb.de die Möglichkeit, im literarischen Korpus DeLiKo@DNB zu recherchieren. Für einen visuellen Überblick über KorAP empfehlen wir das Tutorial „Einstieg in die Korpusrechercheplattform KorAP“.

Hinzufügen von Annotationen

DeReKo ist mehrfach annotiert. Die Annotationen werden jedoch nicht im Ausgangsformat I5, sondern im Stand-off-Format KorAP-XML gespeichert.

Mithilfe des Skripts tei2korapxml können Dateien vom I5-Format ins KorAP-XML-Format umgewandelt werden. Dabei geschieht erst mal keine Annotation; alle Informationen stammen – mit Ausnahme einer optionalen Tokenisierung – direkt aus I5. Sollen Annotationen hinzugefügt werden, werden die Dateien aus dem KorAP-XML-Format mit dem Skript korapxml2conllu in das gängigere CoNLL-U-Format umgewandelt, das als Input für verschiedene Annotationstools dienen kann. Zum Beispiel akzeptiert UDPipe, ein Tool für Lemmatisierung, POS-Tagging und Dependenzparsing, CoNLL-U als Input und gibt auch wieder CoNLL-U aus. Mithilfe des Skripts conllu2korapxml kann man die Ausgabedatei mit den Annotationen wieder ins KorAP-XML-Format überführen. Es gibt aktuell keine Möglichkeit, die in KorAP-XML übernommen Annotationen zurück ins I5-Format zu bringen.

Schematische Darstellung des Annotationsvorgangs
Abb. 4: Von I5 zu KorAP-XML zu CoNLL-U und zurück

Tools zur Standardisierung und die Entwicklung von TEIWorLD

Als Text+ Datenzentrum möchten wir unterschiedliche Arten von Daten übernehmen können. Um diese in unserem Repositorium abzulegen, benötigen wir sie im I5-Format. Eine Standardisierung ist notwendig, da Forschende mit den unterschiedlichsten Formaten arbeiten – von einfachen TXT‑Dateien über Word‑/PDF‑Dokumente bis hin zu spezialisierten Formaten aus Transkriptionstools wie ELAN (EAF), Praat (TextGrid), Transcriber (TRS), CHILDES (CHAT) oder MAXQDA (QDPX).  Bestehende Werkzeuge für unterschiedliche Arten von Forschungsdaten sind in Tabelle 1 gelistet.

ToolFokusEingabeformateAusgabeformateBesonderheiten
TEICORPOGesprochen SprachdatenEAF, TextGrid, TRS, CHAT, …ISO/TEI Transcriptions of Spoken Language (ISO 24624:2016)Jar‑File, Kommandozeile; Rückkonvertierung meist möglich, aber formatabhängig
TEIGarageGeschriebene SprachdatenDOC/DOCX, TXT, …TEI P5 XML, …Basiert auf OxGarage, Web‑Service verfügbar

Tab. 1: Überblick über Werkzeuge zur Standardisierung, die eine Vielzahl an Eingabe- und Ausgabeformaten unterstützen.

Für unsere Anforderungen sind die beiden genannten Tools nicht ganz ausreichend. Wir haben daher die Konvertierungspipeline TEIWorLD zur Standardisierung von unterschiedlichen Forschungsdaten entwickelt. Diese basiert auf einer modularen Architektur (siehe Abbildung 5), die vorhandene Tools zur Umwandlung von geschriebenen und gesprochenen Sprachdaten in standardisierte Formate wiederverwendet. Dieser Ansatz ermöglicht eine effiziente Wiederverwendung und Integration bewährter Lösungen, da er redundante Entwicklungen reduziert.

Schematische Darstellung der Grundlage der Konvertierungspipeline
Abb. 5: Von I5 zu KorAP-XML zu CoNLL-U und zurück

Die Konvertierungspipeline TEIWorLD verarbeitet einige Eingabeformate und erzeugt zwei Ausgabeformate. Bis heute wandelt die Pipeline die folgenden gesprochenen Eingabeformate in ISO/TEI Transcriptions of Spoken Language um: EAF, TextGrid, CHAT, TRS und QDPX. Für geschriebene Daten wandelt die Pipeline TXT- und DOC/DOCX-Dateien in I5 um. Wir erweitern derzeit unsere Formatunterstützung und integrieren weitere Formate.

Zunächst entscheidet ein Orchestrator anhand der Dateiendung, ob es sich bei den Eingabeformaten um geschriebene oder gesprochene Sprache handelt. Handelt es sich bei der Eingabe um ein gesprochenes Sprachformat, werden die Dateien mit der TEICORPO-Komponente transformiert. Die Komponente gibt das endgültige Format aus, nämlich ISO/TEI Transcriptions of Spoken Language. Handelt es sich hingegen um ein geschriebenes Sprachformat, werden die Dateien in einem ersten Schritt mit der TEIGarage-Komponente transformiert, die TEI P5 XML-Dokumente erzeugt. In einem zweiten Schritt werden diese Dokumente mit der neuen Komponente P5ToI5 weiterverarbeitet, sodass die Daten danach im I5-Format stehen. Darüber hinaus kann der Nutzer eine JSON-Datei mit projektspezifischen Metadaten füllen, die in das resultierende I5-Format aufgenommen werden, z.B. den Titel der Ressource oder eine Beschreibung der Ressource.

Darstellung von I5 in lokaler KorAP-Instanz

Basierend auf dem Ergebnis der Umwandlung mit TEIWorLD kann man in einem weiteren Schritt die geschriebenen Daten in der Korpusanalyseplattform KorAP auf dem eigenen Rechner darstellen. Beispielsweise hat man ein Korpus an Texten von Projekt Gutenberg zusammengestellt. Diese können von der Webseite gecrawlt werden und liegen dann beispielsweise im TXT-Format vor. Unsere Pipeline kann diese TXT-Dateien in das I5-Format überführen. Danach müssen die Daten vom I5-Format in das KorAP-XML Format überführt, Annotationen hinzugefügt und alles in KorAP indexiert werden. Abbildung 6 zeigt, wie das Ergebnis bei der Anfrage nach dem Wort „Kind“ aussieht.

Screenshot
Abb. 6: Darstellung in KorAP

Zusammenfassung

Das Deutsche Referenzkorpus (DeReKo) stellt mit über 63 Milliarden Wörtern die größte, linguistisch annotierte Ressource für die deutschsprachige Gegenwart dar und wird über die Korpusanalyseplattform KorAP zugänglich gemacht. Das IDS-Textmodell I5 strukturiert die Daten hierarchisch in Corpus → Doc → Text und ermöglicht damit eine feinkörnige Metadaten‑ und Textverwaltung. Mit der modularen Konvertierungspipeline TEIWorLD können verschiedene geschriebene Formate (TXT, DOC/DOCX usw.) in das I5‑Format konvertiert werden. Anschließend können die Daten mit den IDS-Tools (tei2korapxml, korapxml2conllu, conllu2korapxml) in das KorAP‑XML‑Format überführt werden und mit zusätzlichen Annotationen durch Tools wie UDPipe angereichert werden. Zusätzlich wandelt TEIWorLD gesprochene Daten in das ISO/TEI Transcriptions of Spoken Language Format um, sodass der gesamte Workflow eine skalierbare, reproduzierbare Lösung für die Vorbereitung und linguistische Analyse großer Textbestände bietet. 

Literatur

Lüngen, H., & Sperberg-McQueen, C. M. (2012). A TEI P5 Document Grammar for the IDS Text Model. Journal of the Text Encoding Initiative (3).

Perkuhn et al. (2005). Korpustechnologie am Institut für Deutsche Sprache. In: Schwitalla, Johannes/Wegstein, Werner (edd.): Korpuslinguistik deutsch: synchron – diachron – kontrastiv. Tübingen, 2005, 57–70.

Beitragsbild: Michael Schwarzenberger via Pixabay


OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren:
Rebecca Wilm, Pia Schwarz, Jennifer Ecker (26. März 2026). Werkstattreihe Standardisierung #05 DeReKo. Vom Rohtext zum linguistisch analysierbaren Korpus – ein praktischer Workflow mit etablierten Tools. Text+ Blog. Abgerufen am 1. April 2026 von https://doi.org/10.58079/15ycb


Das könnte dich auch interessieren …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

This site uses Akismet to reduce spam. Learn how your comment data is processed.