Zur alten DWDS-Webseite

Referenzkorpora

Überblick

Das DWDS-Projekt hat ein eigenes Referenzkorpus der deutschen Sprache des 20. und frühen 21. Jahrhunderts erstellt und stellt Ihnen dieses Korpus für Ihre Recherchen zur Verfügung. Darüber hinaus haben wurden externe Referenzkorpora eingebunden.

Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS-Kernkorpus)

Das Referenzkorpus umfasst 100 Millionen Textwörter (Tokens), die aus gleichmäßig über Textsorten und Dekaden verteilten deutschsprachigen Texten stammen. Weitere Details über dieses Korpus finden Sie hier.

Korpus der deutschen Sprache des 21. Jahrhunderts

In der neuen Version der DWDS-Website sind - in einem eigenen Panel - Texte des 21. Jahrhunderts verfügbar. Für eine signifkante Zahl von Büchern konnten die Rechte für die Integration in das Kernkorpus erworben werden. Dadurch konnten mittlerweile 15 Titel so weit aufbereitet werden, dass sie nun recherchierbar sind. In Zukunft werden diese Daten der ersten Dekade soweit ergänzt, dass sie in Umfang und Verteilung den Dekaden des 20. Jahrhunderts entsprechen. Wenn dies geschehen ist, wird diese Dekade in das Kernkorpus (s. oben) integriert.

Juilland-Korpus

Das "Juilland-D"-Korpus entspricht in Umfang, der Gewichtung der Textsorten sowie der zeitlichen Verteilung den Frequenzwörterbüchern von Juilland et al. für das Französische (1970) und das Italienische (1973):

  1. Zeitraum: 1920-1939
  2. Tokenanzahl: 500.000
  3. Textsorten: Dramen (20%, 6 Werke), Novellen und Kurzgeschichten (20%, 39 Werke), Essays (20%, 23 Werke), journalistische Prosa (20%, 286 Artikel), Wissenschaftsprosa (20%, 38 Werke)

DDR-Korpus

Dieses Korpus umfasst 9 Millionen Textwörter in 1150 Texten aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden. Das DDR-Korpus wird in Zusammenarbeit mit der Humboldt-Universität zu Berlin weiter ausgebaut.

C4-Korpus

Das Korpus C4 ist eine gemeinsame Initiative des Digitalen Wörterbuchs der deutschen Sprache (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des Schweizer Textkorpus (CHTK).

Das Korpus besteht aus Teilkorpora der einzelnen Partnerprojekte, die verteilt abgefragt werden; das heisst, dass der Korpuszusammenschluss virtuell ist. Weitere Details über dieses Korpus finden Sie hier.