Zur alten DWDS-Webseite

Spezialkorpora

Überblick

Das DWDS-Projekt stellt Ihnen einige Spezialkorpora unterschiedlichen Umfangs für Ihre Recherchen zur Verfügung.

Korpus jüdischer Periodika

Dieses Korpus entstand durch eine Kooperation mit dem Projekt Compactmemory. Es umfasst gut 26 Millionen Textwörter (Tokens) auf ca. 50.000 Seiten. Die Textgrundlage bilden 8 komplette Zeitschriften aus der Zeit von 1887 bis 1938.

Wendekorpus

Im Projekt "Berliner Wendekorpus" wurden 39 Ostberliner und 38 Westberliner im Rahmen eines narrativen Interviews zum Ereignis am 9. November und zu anderen persönlichen Wendeereignissen befragt. Das Projekt wurde, unterstützt von der DFG, an der Freien Universität Berlin unter der Leitung von Norbert Dittmar durchgeführt.

Der soziale Umbruch beim Mauerfall 1989 sollte im Rahmen des Projekts als Kollektion individueller Erfahrungen im Sinne eines kollektiven Gedächtnisses dokumentiert werden. Im Fokus der Untersuchung waren dabei Umbruchdiskurse, mit denen jene Muster der gesprochenen Sprache heraus gearbeitet werden sollten, die typisch für Ost bzw. West sind. Den Hintergrund der Untersuchung bildete die Annahme, dass Umbruchsituationen mit Erscheinungen der sprachlichen Stabilität bzw. Instabilität von Individuen und Gruppen als Folge von subjektiv motivierten Eigeninitiativen oder einschneidender irreversibler gesellschaftlicher Veränderungen verstanden werden kann.

Die Datenerhebung umfasste den Zeitraum Herbst 1993 bis März 1996. Alle Gespräche wurden auf Tonband aufgezeichnet und 1998 am Institut für Deutsche Sprache in Mannheim digitalisiert.

In einem Kooperationsprojekt zwischen der FU-Berlin und dem DWDS wurden im Sommer 2006 alle transkribierten Dialoge hochsprachlich normalisiert. Aus den Textdokumenten wurden xml/tei-Dokumente erstellt, in welchen normalisierte und transkribierte Fassung aligniert sind. Die normalisierte Fassung ist darüber hinaus lemmatisiert und mit Part-of-Speech-Tags versehen.

Die Suche im Wendekorpus erfolgt direkt über folgenden link.

Die Transkripte des Wendekorpus lassen sich 'literal' oder 'hochsprachlich' durchsuchen. Dies geschieht in zwei Panels:

  • Panel Transkription: hier sucht man 'literal' in den Transkriptionen (beispielsweise nach 'ick', 'maua' oder 'mauer'), und findet dort Treffer zu genau diesen Suchausdrücken, (also zu 'ick', 'maua' oder 'mauer').
  • Panel Normalisierte Fassung: hier sucht man hochsprachlich, also nach 'ich' oder 'Mauer'), um Treffer für 'ick', 'maua' oder 'mauer' zu finden.
Korpus Gesprochene Sprache

Kurzbeschreibung
Das Korpus Gesprochene Sprache umfasst Transkripte aus dem gesamten 20. Jh. Jahrhundert im Umfang von ca. 2,5 Millionen tokens.

Teilkorpora

  1. Reden (diverse): Redensammlungen u.a. von Kaiser Wilhelm, Hitler, Ulbricht, Honecker sowie Auszüge aus O-Ton Berlin (1947-1961) (ca. 200.000 tokens),
  2. Rundfunkansprachen von 1929-1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert, Umfang ca. 400.000 tokens),
  3. Auszüge aus österreichischen Parlamentsprotokollen (1948-1956 - dank einer Kooperation mit Thomas Kuhn; das Korpus enthält 5 Parlamentsdebatten zum Bundesfinanzgesetz, insgesamt 200.000 tokens),
  4. Auszüge aus ca. 250 Spiegel-Interviews zwischen 1980 und 2000 (ca. 400.000 tokens; nur im Zitatkontext verfügbar, d.h. drei Wörter links und rechts vom gesuchten Stichwort),
  5. Auszüge aus dem Literarischen Quartett von 1988-2001 (dank einer Kooperation mit DirectMedia, ca. 450.000 tokens),
  6. Auszüge aus dem Projekt Emigrantendeutsch in Israel von Anne Betten, Germanistik Univ. Salzburg. Dieses TeilKorpus umfasst 12 Transkripte (Transkripte in der einfachen Lesefassung nach den Regeln für die Phonai-Bände 42 und 45) im Umfang von 300.000 tokens aus den Jahren 1989-1994,
  7. Auszüge aus Bundestagsprotokollen von 1998-1999 (enthält 5 Sitzungsprotokolle aus dem 14. Bundestag, ca. 300.000 tokens).

Recherche im Korpus Gesprochene Sprache
Das Korpus Gesprochene Sprache enthält Äußerungen von 756 Sprechern. Davon konnten 635 Sprecher normalisiert werden, d.h. Nach- und Vornamen konnten ermittelt werden. Über den Aktenreiter Filter innerhalb der Korpussuche kann nach einzelnen Sprechern gefiltert werden.
Bei der Trefferanzeige in Form von KWIC-Zeilen werden die in der Sprecherkürzel mit ausgegeben; der vollständige Sprechername erscheint, wenn man mit der Maus über das Sprecherkürzel fährt (als mouse over).

Annotation der Korpora
Alle Texte bzw. -auszüge sind xml/tei annotiert, die Sprecher sind mit dem speaker-Element ausgezeichnet, die Normalisierung erfolgt über die Kombination der Attribute id (innerhalb des Elements castitem) und who (innerhalb des Elements sp)