Zur alten DWDS-Webseite

Statistik

Überblick

Das DWDS bietet einige wortbezogene statistische Auswertungen an. Diese Auswertungen basieren auf den Korpora des Projekts, insbesondere auf dem Kernkorpus und den Zeitungskorpora.

DWDS-Wortprofil

Das DWDS-Wortprofil ist das Ergebnis einer automatischen syntaktischen und statistischen Analyse sehr großer Korpora. Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Beispiele dieser sogenannten syntaktischen Relationen sind Attribut-Nomen Verbindungen wie schöne Bescherung oder Verb-Objekt Beziehungen wie Flasche entkorken. Die Darstellung der Relationen erfolgt in Form einer Schlagwortwolke oder in Tabellenform. Die Berechnung des DWDS-Wortprofils erfolgt in drei Etappen: Festlegung der zu extrahierenden syntaktischen Relationstypen, Extraktion der Relationen mittels einer automatischen syntaktischen Analyse und Bewertung der statistischen Signifikanz der extrahierten Relationen. Der derzeitige Prototyp des DWDS-Wortprofils beruht auf einer Mischung eines Referenz- und eines Zeitungskorpus, nämlich dem DWDS-Kernkorpus und dem ZEIT-Archiv (1946-2009), und hat eine Gesamtgröße von 500 Millionen laufenden Textwörtern. Aus dem Korpus wurden etwa 90.000 Lemmata mit 2.000.000 Relationen extrahiert. Erste Auswertungen zeigen, dass bereits der gegenwärtige Prototyp eine große Reichhaltigkeit von Wortverbindungen enthält, die ihn auch im Vergleich mit großen einsprachigen Wörterbüchern interessant machen. Für den an der Textproduktion interessierten Nutzer bietet das Wortprofil aber einen weit über das gedruckte Wörterbuch hinausgehenden Mehrwert: Jede Relation des Wortprofils ist direkt mit den dazugehörigen Satzkontexten im Korpus verknüpft. Der Nutzer erhält somit unmittelbar einen Überblick über die weiteren semantischen und pragmatischen Kontexte in authentischen Texten. Dies kann gerade bei sprachlichen Unsicherheiten von erheblicher Hilfe sein. Das DWDS-Wortprofil ist als Panel über die Web-Plattform www.dwds.de abfragbar.
An dieser Stelle werden die hinter den Wortprofilen steckenden Konzepte und Verfahren beschrieben. Hier stellen wir die besonderen Merkmale des Anzeigepanels zu den Wortprofilen dar.

DWDS-Wortverlaufskurve

In einem Wortverlaufsdiagramm wird für ein Stichwort dargestellt, wie sich dessen Vorkommenshäufigkeit über die Dekaden des 20. Jahrhunderts in den verschiedenen Textsorten entwickelt hat. Grundlage dieser Diagramme ist das Kernkorpus des 20. Jahrhunderts, in dem in ausgewogener Weise pro Dekade die Textsorten Wissenschaft, Zeitung, Belletristik und Gebrauchstext vertreten sind. Aus der Wortverlaufskurve lässt sich z.B. entnehmen, wann ein Wort aufkam (Beispiel: Stress) oder wann es außer Gebrauch kam (Beispiele: Backfisch, Perron). Es lässt sich außerdem erkennen, in welcher Textsorte der Gebrauch des Stichworts in einer bestimmten Periode dominant ist.

Korpusfrequenzen
Im Panel "Korpusfrequenzen" finden Sie Häufgkeit des Vorkommens eines Stichwortes in den verschiedenen Korpora des DWDS. Es werden die absolute Häufigkeit und die relative Häufigkeit (Vorkommenshäufigkeit auf eine Millionen Textwörter) angegeben. Daneben wird die Größe des jeweiligen Korpus angezeigt. Es handelt sich also um eine einfache beschreibende Wortverteilungs-Statistik.