Zur alten DWDS-Webseite

DDC

DDC ist unter der GNU Public License frei verfügbar.
Weitere Informationen:

Projektseite
Download (Sourceforge)
1. Kurzbeschreibung

Die Suchmaschine DDC (=Dialing/DWDS-Concordancer) ist eine linguistische Suchmaschine. Über die klassischen Suchmöglichkeiten wie Abstandssuche, Trunkierung, UND, ODER, NICHT hinaus ermöglicht DDC die Suche nach Wortstämmen.

Beispielsweise liefert die Suche nach Arzt alle Dokumente, die die Wortformen Arzt, Arzte, Arztes, Ärzte oder Ärzten enthalten. Die Suche nach gutes Restaurant liefert auch die Steigerungsformen besseres Restaurant, bestes Restaurant, aber auch beste Restaurants etc.

Darüber hinaus sind alle Wortformen in den Texten nach ihrer Wortart analysiert (s. PoS-Tagger). Grundlage hierfür ist das Stuttgart-Tübinger Tagset, eine Liste von Wortklassen, mit denen alle Textwörter markiert werden. So ist es unter anderem möglich, sein als Possessivpronomen von sein als Hilfsverb zu unterscheiden oder das Wort Fischer, das an einigen Stellen im Text ein Substantiv, an anderen Stellen ein Eigenname ist. DDC wird derzeit als Suchmaschine für alle DWDS-Korpora eingesetzt. Darüber hinaus wird damit die tagesaktuelle Suche des ZEIT-online Archivs indiziert. Die zusätzlichen linguistischen Suchen stehen somit jedem Nutzer des ZEIT-online Archivs zur Verfügung.

2. Eigenschaften

DDC ist speziell auf linguistische und lexikographische Bedürfnisse zugeschnitten. DDC verfügt insbesondere über folgende Eigenschaften:

  • Boolesche Suche: UND, ODER, NOT
  • Abstandssuche (sowohl gerichtet als auch symmetrisch)
  • genaue Trefferanzahl pro Satz bzw. Dokument (keine Approximation)
  • Links- und Rechtstrunkierung
  • wahlweise satzbasierte oder dokumentbasierte Suche
  • Sortierungsmöglichkeit nach Datum möglich
  • Sortierungsmöglichkeit nach Dokumentenrelevanz möglich (diese besteht aus interner und externer Relevanz)
Indizierung von xml-Dokumenten
  • Beliebige Metadaten können indiziert werden; diese müssen bei der Indizierung durch x-path-Ausdrücke angegeben werden.
  • Seitenangaben in Dokumenten können ausgegeben werden.
Linguistische Eigenschaften
  • Wortpositionen können mit beliebig vielen Annotationen versehen sein, nach denen auch gesucht werden kann; für die DWDS-Suche werden derzeit die Suche nach Wortform, Wortstamm und Wortart verwendet.
  • Möglich ist die Einbindung von Thesauri. Durch einen in DDC eingebauten Mechanismus kann dann nach Unter- oder Oberbegriffen gesucht werden.
  • Suche ist auch in Phrasen möglich: Wenn die Texte syntaktisch annotiert sind, können Phrasengrenzen angegeben werden, die bei der Suche aktiviert werden können. Diese Eigenschaften werden in der jetzigen DWDS-Suche allerdings nicht eingesetzt.

Sowohl die Indizierungs- als auch Abfragezeiten sind auch für größere Anwendungen hinreichend schnell. Beispielsweise dauerte die Indizierung des 100 Millionen Tokens umfassenden DWDS-Kernkorpus etwa 1,5 Stunden. Die Abfragezeit für die ersten zehn Treffer bei einfachen Suchabfragen liegt bei ca. 0,05 Sekunden.

3. Literatur

Sokirko, A. (2003): DDC – A search engine for linguistically annotated corpora. In: Proceedings of Dialogue 2003, Protvino, Russia, June 2003.