Ein Update für das historische Schulbuchkorpus „GEI-Digital“
Ein Interview mit Maret Nieländer

In Schulbüchern bildet sich ab, was eine Gesellschaft ihrer Jugend an Wissen und Überzeugungen mitgeben will. Unter anderem darin liegt die Bedeutung des neuen historischen deutschsprachigen Schulbuchkorpus des Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut (GEI). Das 5.377 Bände umfassende Korpus „GEI-Digital“ wird im Rahmen der Task Area Collections auch durch Text+ bereitgestellt. Im Interview habe ich mit Maret Nieländer, Historikerin am GEI, über weitere Forschungsfragen und das Thema Datenqualität gesprochen.
Auch im Zentrum Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) werden laufend Korpora für die Forschung erstellt, aufbereitet und verbessert. Über das „Digitale Wörterbuch der deutschen Sprache“ (DWDS) stehen sie der Öffentlichkeit zur Verfügung – kostenfrei und ohne Werbung. Derzeit sind das 55 Meta-, Referenz-, und Spezialkorpora. Gemeinsamer Nenner ist dabei die deutsche Sprache, ansonsten handelt es sich um Texte aus ganz unterschiedlichen Zeiten, Regionen und Textgattungen. Meist sollen die Korpora bestimmte Phänomene möglichst vollständig oder repräsentativ abdecken. Als Mitarbeiter des Zentrums Sprache habe ich jüngst wieder mit Schulbüchern zu tun gehabt. Deswegen wollte ich von Maret Nieländer mehr über das GEI-Digital-Schulbuchkorpus erfahren.
Frank Wiegand
Hallo Maret! Vor fünf Jahren habt Ihr vom GEI erstmals historische Schulbücher am Zentrum Sprache der BBAW als Korpus aufbereiten lassen – was gibt’s Neues?
Maret Nieländer
Das war schon ein tolles Projekt für uns damals, mit dem wir dann erstmals komplexe Korpusanalysen auf unseren Daten durchführen konnten, und das seitdem auch unseren Nutzer:innen als Service anbieten. Die Daten stammen aus der digitalen Schulbuchbibliothek GEI-Digital unseres Instituts. Es gibt hier am GEI seit 2009 ein Digitalisierungsteam, das unsere eigenen Bestände und teils auch die von Partner:innen digitalisiert und mit quellenspezifischen Metadaten anreichert. Dabei handelt es sich um historische Sprachformen, die zunächst mittels OCR zu maschinenlesbaren Daten wurden – und da waren wir sehr froh, im Anschluss daran Eure etablierten Workflows und Infrastrukturen nutzen zu dürfen.
Weil die digitalen Bestände seitdem stetig weiter angewachsen sind und weil ich bestimmte Werke für mein aktuelles Forschungsprojekt untersuchen will, war es jetzt möglich, eine Neuauflage zu machen. Es sind nun 5.377 Werke im Korpus enthalten – etwa 400 davon sind neu dabei. Aber wir haben schweren Herzens auch einige Werke aus dem ersten Korpus wieder entfernt: Atlanten, in denen nur wenig Text der Karten richtig erkannt wurde, und fremdsprachliche Bücher.
Frank
Was erforschst Du? Und für welche Disziplinen ist das Korpus noch von Interesse?
Maret
Neben der Bildungsmedienforschung selbst sind diese Quellen auch für andere historisch und kulturwissenschaftlich arbeitende Fächer interessant: Wissenschafts-, Literatur- und Verlagsgeschichte etwa. Themen der Bildungsmedienforschung sind zum Beispiel die Anordnung und Darstellung von Wissensbeständen und gesellschaftlich erwünschten oder verpönten Einstellungen und Werten. Man kann dabei Rollenverständnisse, Feindbilder, Demokratiebildung, literarische Kanonbildung, aber auch Fragen der Didaktik, der Medientheorie usw. untersuchen. Das passiert oft auch vergleichend. Man kontrastiert also Länder, Regionen oder Epochen und analysiert Kontinuitäten und Brüche. Auch Vergleiche von Alter, Schulform oder Gender der jeweils im Buch adressierten Schüler*innenschaft sind oft sehr erhellend.

Ich selbst interessiere mich für historische Semantik und Diskursanalyse, vor allem aber für die Entwicklung von Wissensbeständen und Wissensorganisation über die Zeit – also die Veränderung und Ausdifferenzierung des grundsätzlich ja eher konservativen Genres Schulbuch. Mein derzeitiges Projekt heißt dementsprechend „Die Evolution des Schulbuchs“. Im Projekt nutzen wir die gerade von Dir aufbereiteten Daten jetzt weiter für Text Reuse Detection.
Wenn man diese Lehrwerke vergleicht – was jetzt schon sehr gut mit Euren Tools geht – merkt man schnell, dass viele Texte einfach sehr populär waren, dass sie quasi Pflichtlektüre waren oder als prototypisch für bestimmte Themen angesehen wurden. Die finden sich dann wortgetreu in späteren Auflagen oder Ausgaben für unterschiedliche Regionen oder Schulformen wieder. Manchmal werden die Texte aber auch geändert, gekürzt, anders kontextualisiert oder auch mal von Prosa- in Gedichtform gebracht. Ich bin sehr gespannt darauf, mittels Text-Reuse-Detection-Verfahren dann alle diese Wiederverwertungen überblicken zu können.
Frank
Und war es das jetzt? Oder sind noch Wünsche offen?
Maret
Es sind immer Wünsche offen! (lacht) Die Digitalisierung bei uns berücksichtigt Kriterien wie Bestandsschutz, Urheberrecht und Projektbedarfe. Trotz dieser Prioritäten ist GEI-Digital inzwischen in vielerlei Hinsicht repräsentativ für die dort vertretenen Epochen. Aber Schulbücher sind eben Verschleißware, die anderswo nicht systematisch gesammelt und erschlossen wurde. Insofern wünsche ich mir eine vollständige Bibliographie aller jemals gedruckten Schulbücher – und die digitale Zusammenführung aller erhaltenen Exemplare aus allen Bibliotheken. Auch eine perfekte Volltexterkennung wünsche ich mir. Noch habt Ihr ja mit gutem Grund für die Nutzer*innen Eurer Dienste die Option „Keine OCR“ in der Suche eingebaut. Aber ich bin zuversichtlich – mit trainierten Modellen bekommen wir inzwischen sehr gute Ergebnisse auch mit diesem komplexen Layout und historischen Schriftarten.
Frank
Schulbücher sind ja schon ein sehr spezielles Genre. Was gibt’s noch für Hilfestellungen?
Maret
Die sicher wichtigste Hilfestellung sind die quellenspezifischen Metadaten, die bei uns das Digitalisierungsteam der Forschungsbibliothek erstellt und auch mit Normdaten verknüpft. Damit lässt sich auf der GEI-Digital-Oberfläche (und auch im Katalog GLOTREC|Cat, der die Bestände verschiedener internationaler Sammlungen nachweist) schon sehr gut recherchieren. Man filtert einfach nach Metadaten wie Geltungsland, Unterrichtsfach, Schulform, Bildungslevel usw., auch wenn man die Namen der Autor*innen oder den genauen Titel nicht kennt.
Mit Euren Korpusannotationen, -indexierungen und -analysewerkzeugen können wir jetzt zusätzlich auch noch Metadaten nachnutzen, die in einem früheren Projekt als Forschungsdaten entstanden sind. Für 3.803 der 5.377 Werke haben wir zum Beispiel die händisch recherchierten Angaben, ob ein Buch für Mädchen, Jungen oder Koedukation gedacht oder für bestimmte Konfessionen konzipiert wurde.
Die Rechercheoberfläche über das DWDS ist ja ziemlich intuitiv und zudem sehr gut dokumentiert. Ich selber arbeite auch gerne mit Eurer Korpusmanagementumgebung D*, die noch mehr Analysemöglichkeiten bietet und entsprechend auch komplexer zu bedienen ist. Dabei nutze ich manchmal noch das „D* für Anfänger:innen“-Tutorial, das wir 2020 mit der Vorgängerversion des Korpus als Anwendungsbeispiel verfasst haben.
Und wer unter die Motorhaube schauen und selber daran werkeln will, kann das Korpus ja jetzt auch selber herunterladen und bearbeiten:
- Leibniz Institute for Educational Media | Georg Eckert Institute. (2025). Historische deutschsprachige Schulbücher – Projektkorpus „Schulbuch-Evolution“ aus „GEI-Digital” [Data set]. Zenodo. DOI: 10.5281/zenodo.15729290
- Zentrum für digitale Lexikographie der deutschen Sprache. (2025). Projektkorpus „Schulbuch-Evolution“ aus „GEI-Digital“ – Annotierte Daten [Data set]. Zenodo. DOI: 10.5281/zenodo.15865675
Frank
Wusstest Du, dass wir das Korpus GEI-Digital auch für unsere Arbeit am DWDS nutzen? Das DWDS-Wörterbuch ist ja ein Belegwörterbuch. Kurz gesagt bedeutet das: Wir beschreiben Wörter mit ihren Bedeutungen anhand ihres tatsächlichen Gebrauchs. Und dafür nutzen wir Korpora. Hier ein paar Beispiele:
Mittlerweile finden sich in mehr als 300 Wörterbuchartikeln Belege aus GEI-Digital.
Maret
Das freut mich sehr zu hören! Wir stellen fest: Die Zusammenarbeit ist eine Win-win-Situation, oder? Schulbücher sind eben eine tolle Quellengattung!
Übrigens: Am GEI startet demnächst die Digitalisierung von rund 1.000 Schulbüchern aus der DDR …
Materialien auf einen Blick
Die Sammlung digitaler historischer Schulbücher GEI-Digital des Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut (GEI)
Das Korpus „GEI-Digital“ im Digitalen Wörterbuch der deutschen Sprache (DWDS)
Leibniz Institute for Educational Media | Georg Eckert Institute (2025): Historische deutschsprachige Schulbücher – Projektkorpus „Schulbuch-Evolution“ aus „GEI-Digital“ [Data set]. Zenodo. DOI: 10.5281/zenodo.15729290.
Zentrum für digitale Lexikographie der deutschen Sprache (2025): Projektkorpus „Schulbuch-Evolution“ aus „GEI-Digital“ – Annotierte Daten [Data set]. Zenodo. DOI: 10.5281/zenodo.15865675.
Nieländer, Maret; Jurish, Bryan (2021): D* für Anfänger:innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung.
❗️ Hinweis: Die Links im Tutorial sind seit Ende 2024 nur noch im Netz des GEI nutzbar. Die Beispiele lassen sich in der 2025 erweiterten Korpus-Instanz am Zentrum Sprache an der BBAW nutzen, indem der erste Teil der URL (http://diacollo.gei.de/gei-digital-2020/) jeweils mit folgender Adresse ersetzt wird: https://ddc.dwds.de/dstar/gei_digital/. Dabei ist zu beachten, dass die Treffermengen im 2025 erweiterten Korpus von denen im Tutorial abweichen können.
Beitragsbild: Historische Bücher, Christian Bierwagen (GEI)
OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren:
Frank Wiegand (25. September 2025). Ein Update für das historische Schulbuchkorpus „GEI-Digital“. Text+ Blog. Abgerufen am 2. April 2026 von https://doi.org/10.58079/14r7i


