CIS
Centrum für Informations-
und Sprachverarbeitung



Software Programmierpraktikas in C und C++ am CIS
2008 - 2011 ff:

Satzendeerkennung (eos)

Projektleiter:

Dr. Max Hadersbeck

beteiligte Studenten:

Vorgängerversion (SS2008 u. WS2008/2009):
Susanne Peters, Jonathan Cummins, Daniel Bruder, Michael Mandl,

Version (SS 2009, WS 2009/2010):
Perez Estelle, Peters Susanne; Azzano Dino, Bruder Daniel, Fink Florian, Kaumanns David , Thum Simon

Version eos**2 (SS 2010)
Perez Estelle; Azzano Dino, Bruder Daniel, Fink Florian, Kaumanns David

Aktuell wird an der Version eos**3 gearbeitet (WS 2013/2014)
Benno Weck, Jasmin Chebib, Martin Röhrs, Matthias Lindinger, Eamonn Lawlor, Angela Krey, Stefan Schweter

Das C++-Programm verwendet folgende Technologien:

  • Internationalisierung (eigene UTF8 Klasse, Facets zur Unterstützung von UTF16)
  • eigene UTF-8 Library (ubuffer) zur internen Speicherung der Daten
  • weiterentwickelte performante Datenstruktur zur Speicherung von Frequenzlisten (Array Hash Map
  • boost - Library für reguläre Ausdrücke
  • linguistische Frequenzlisten aus unseren Korpora
  • Objektorientierte Technologien

Strategie des Satzerkenners:

Der Satzendeerkenner untersucht alle potientielle Satzgrenzen eines Textes mit Hilfe von sogenannten Agenten. Jeder Agent steuert statitisches bzw. linguistisches KnowHow bei und bewertet die potentiellen Satzgrenzen. Diese Bewertung für dazu, dass jede potentielle Satzgrenze entweder akzeptiert bzw. abgelehnt werden kann. Zusätzlich erlaubt der Satzendeerkenner dem Benutzer eigene Reguläre Ausdrücke zu spezifizieren, die besondere Zeichenmuster zusätzlich als Satzende definieren lassen.

Für folgende Sprachen befindet sich das Programm in Entwicklung: Französisch, Italienisch, Norwegisch und Kroatisch.

		  Optionen:
-h Help page -v Printout version and exit -l <lang> Select language ('de' or 'en') ('de' by default) -a Print out all tags (OFF by default) -B Deactivate Abbrevation agent (ON by default) -r <file> Activate Regular Expression agent with file name -R Deactivate Regular Expression agent (ON by default) -M Deactivate multiline/paragraph detection (ON by default) -n Activate Normalize (Squeeze Spaces) (OFF by default) -e Activate extended tagging (OFF by default) -s Activate print one EOS per line (OFF by default) -p <file> Activate Primus agent with file name -P Deactivate Primus agent (ON by default) -C Deactivate Cross agent (ON by default) -t <tag> Use <tag> as EOS marker -f <in> Use input file <in> -o <out> Set output file <out>