Zur alten DWDS-Webseite

DWDS Wortprofil

Projektüberblick

Elektronische Korpora werden für das Sprachlernen seit mehr als zwei Jahrzehnten genutzt (Braun et al. 2006). Bislang basieren die hierfür genutzten Korpus-Plattformen vorwiegend auf Konkordanzen. Diese Darstellung ist sehr effektiv, um das Wort mit seinen verschiedenen Kontexten übersichtlich darzustellen. Bei großen Korpora und den damit verbundenen umfangreichen Belegmengen stoßen Konkordanzen jedoch an ihre Grenzen. Wie lässt sich beispielsweise herausfinden, welche Adjektive vor das Substantiv Buch gesetzt werden können? Wie kann man dem Korpus entnehmen, ob bahnbrechend eher für Buch oder für Werk typisch ist? Wie lässt sich herausfinden, bei welchen Verben Unsinn typischerweise in der Objektposition steht?

Im Projekt Wortprofil wird eine Sprachlernplattform implementiert, in der Fragen dieser Art, die gerade für die Textproduktion von Bedeutung sind, beantwortet werden können.

Korpusbasis

Basis der Plattform sind zwei Korpora:

  • das DWDS-Kernkorpus, ein 100 Millionen Textwörter umfassendes, nach Textsorten ausgewogenes Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (Infos)
  • das ZEIT-Korpus (Stand Mai 2007) (Infos)

Umsetzung

Aus den beiden Korpora werden für das Wortschatzlernen relevante kollokative Relationen (im Sinne von Hausmann 1984) extrahiert. Dies sind Verbindungen wie beispielsweise Adjektiv-Nomen (zündende Idee, ausgefallener Geschmack), Verb-Objekt (Idee umsetzen oder Geschmack treffen), Präposition-Nomen-Verb (auf (den) Geschmack bringen), Nomen-Nomen-Koordinationen (Sinn und Bedeutung) oder Nomen-Präposition-Nomen (Sinn für Humor)). Diese werden maschinell mit computerlinguistischen Methoden extrahiert und in einer relationalen Datenbank vorgehalten. Die extrahierten Wortverbindungen werden mittels eines einfachen Verfahrens bezüglich ihrer statistischen Salienz gewichtet. Als Ergebnis erhält man für alle Lemmata der beiden Korpora, die ausreichend häufig vorkommen, die mit ihnen statistisch signifikant zusammen vorkommenden Wörter nach kollokativer Relation geordnet.

Der Ansatz ähnelt dem "Word-Sketch"-Ansatz (Kilgarriff 2004), der mit Hilfe regulärer Ausdrücke kollokative Relationen u.a. im Englischen, Italienischen oder auch Chinesischen extrahiert. Im Deutschen lässt sich diese Technik jedoch nicht anwenden, da die freiere Wortstellung und die produktive Wortbildung andere syntaktische und morphologische Werkzeuge notwendig machen. Für die morpho-syntaktische Voranalyse der Texte wird daher auf die TAGH-Morphologie zurückgegriffen (Geyken & Hanneforth 2005), einem System zur automatischen Erkennung deutscher Wortformen, welches beliebige Wortformen des Deutschen in ihre morphologischen Bestandteile zerlegt und lemmatisiert. Für die Annotierung der syntaktischen Funktionen, insbesondere der Subjekt- und Objekt-Relationen, aber auch zur Extraktion von Köpfen in Phrasen wird der robuste Parser SynCop verwendet (Didakowski 2005).

SynCoP implementiert zwei grundsätzliche Techniken zur robusten Korpusanalyse als Constraint Grammatik: einerseits das Chunking nach Abney 1991 und andererseits das syntaktische Tagging nach Karlsson 1990. Constraint Grammatiken wurden bereits mit Erfolg in der Korpusanalyse in verschiedensten Sprachen eingesetzt (Karlsson et al. 1995). Mit dem Analysesystem werden Chunks (nichtrekursive Phrasen) erkannt und in einen Dependenzbaum mit Hilfe von syntaktischen Tags eingebunden.

Bei der jetzt über die DWDS-Website verfügbaren Version werden nur einige Relationen extrahiert. Diese Version wird sukzessive erweitert und verbessert werden. Insbesondere sind folgende Schritte geplant:

  • Erkennung von separablen Präfixverben. Diese werden mit Hilfe der TAGH-Morphologie und eines Part-of-Speech-Taggers (Jurish 2003) erkannt und in der Datenbank gespeichert. Somit können die Formen von vorkommen sowohl in "Das kommt in den besten Familien vor" wie auch in "Das ist mir noch nie vorgekommen" erkannt werden.
  • Erweiterung der Relationen: Bislang sind vorwiegend 2-stellige Relationen im Wortprofil vertreten. Mit Hilfe größerer Korpora wird es besser möglich sein, auch 3-stellige Relationen mit ausreichender statistischer Salienz zu integrieren.
  • Verbesserung der Extraktion syntaktischer Relationen: Für den Shallow-Parser SynCop gibt es bislang nur eine Grammatik mit geringer Abdeckung. Diese wird in den kommenden Monaten verbessert werden. Eine unmittelbare Änderung betrifft die Erkennung der Passivrelation, die zur Folge hat, dass Oberflächensubjekte der Objektrelation zugeordnet werden und nicht, wie im jetzigen Prototypen, fälschlicherweise als Subjektrelation.

Projektmitglieder

  • Dr. Alexander Geyken
  • Jörg Didakowski
  • Alexander Siebert

Literatur

  • Abney, S. (1991): Parsing by chunks. In: Abney, S./Berwick, R./Tenny, C. (eds): Principle-Based Parsing. Dordrecht: Kluwer Academic Publishers, 257-278.
  • Braun, S./Kohn, K./Mukherjee, J. (2006): Corpus Technology and Language Pedagogy. Frankfurt: Peter Lang.
  • Didakowski, J. (2005): Robustes Parsing und Disambiguierung mit gewichteten Transduktoren. Linguistik in Potsdam, Bd. 23.
  • Geyken, A. (2006): A reference corpus for the German language of the 20th century. In: Fellbaum, C. (ed.): Collocations and Idioms: Linguistic, lexicographic, and computational aspects. London: Continuum Press, 23-40.
  • Geyken, A./Didakowski, D./Siebert, A. (2009): Generation of word profiles for large German corpora. In: Kawaguchi, Y./Minegishi, M./Durand, J. (eds.): Corpus Analysis and Variation in Linguistics (= Studies in Linguistics 1). Tokyo: Benjamins, 141-157.
  • Geyken, A/Hanneforth, Th. (2005): TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer, 55-66.
  • Hausmann, F.-J. (1984): Wortschatzlernen ist Kollokationslernen. In: Praxis des neusprachlichen Unterrichts, 31. Jg., 395-406.
  • Jurish, B. (2003): A Hybrid Approach to Part-of-Speech Tagging. Final report, Projekt Kollokationen im Wörterbuch, BBAW, Berlin.
  • Karlsson, F. (1990): Constraint Grammar as a framework for parsing running text. In: Proceedings of the 13th International Conference on Computational Linguistics (COLING-90), Bd.3. Helsinki, 168-173.
  • Karlsson, F/Voutilainen, A./Heikkil⪠J./Antilla, A. (1995): Language independent system for parsing unrestricted text. Berlin/New York: Mouton de Gruyter.
  • Kilgarriff, A./Rychly, P./Smrz, P. /Tugwell, D. (2004): The Sketch Engine. In: Proceedings Euralex 2004. Lorient, France, July, 105-116.