Málvinnsluverkefni í Háskólanum í Reykjavík

Aðal verkefnið um þessar mundir er þróun á málvinnslutólinu IceNLP sem er ætlað til að greina íslenskan texta. IceNLP samanstendur af tilreiðara (e. tokeniser), beyginga- og orðmyndunargreininum (e. morphological analyser) IceMorphy, markaranum (e. part-of-speech tagger) IceTagger og hlutaþáttaranum (e. shallow parser) IceParser. IceNLP er skrifað í Java.

IceTagger notar markamengið sem búið var til í tengslum við gerð Íslenskrar orðtíðnibókar.

IceParser setningagreinir texta m.t.t. tiltekins þáttunarskema.

Hægt er að prófa IceNLP hér.

Vinsamlegast hafið samband við hrafn@ru.is vegna notkunar á IceNLP í rannsóknarskyni.

IceNLP er skref í átt að því markmiði að þróa Basic Language Resource Kit (BLARK) fyrir íslensku. BLARK fyrir tiltekið tungumál er mengi af þeim auðlindum (hugbúnaðareiningum, málheildum, orðabókum, o.s.frv.) sem taldar eru nauðsynlegar til að frekari rannsóknir og þróun geti átt sér stað á sviði máltækni.


Dæmi um yfirstandandi rannsóknarverkefni.