Zur alten DWDS-Webseite

Wortartenannotation mit dem PoS-Tagger moot

1. Einführung

Der im Projekt DWDS verwendete PoS-Tagger moot wurde von Bryan Jurish im Rahmen des durch den Wolfgang-Paul Preis geförderten Projekts Kollokationen im Wörterbuch entwickelt.

Es handelt sich dabei um ein statistisches Verfahren zur Disambiguierung lexikalischer Klassen. Zusätzlich zu den klassischen Bigramm-/Trigramm-basierten Tagging-Routinen berücksichtigt dieses Verfahren benutzerdefinierte a-priori Mengen von möglichen Analysen (sog. lexikalische Klassen) für jedes Eingabewort. Hierdurch ist es möglich, die vom Tagger getroffenen Analysen auf die von der Morphologie vorgeschlagenen lexikalischen Kategorien zu beschränken. Im Vergleich zu einem traditionellen Hidden-Markov-Model führt dieses Verfahren zu einer Fehlerreduktion von bis zu 21%.

2. Literatur

  • Jurish, B. (2003): A Hybrid Approach to Part-of-Speech Tagging. Final report, Projekt Kollokationen im Wörterbuch, BBAW, Berlin.
  • Jurish, B. (2003): Part-of-Speech Tagging with Finite State Morphology. Poster presented at the conference Collocations and Idioms: Linguistic, Computational, and Psycholinguistic Perspectives, Berlin, 18.-20. September, 2003.