IceNLP



IceNLP er opinn og frjáls hugbúnaður til að greina íslenskan texta. Hugbúnaðurinn er skrifaður í Java og samanstendur af eftirfarandi einingum: tilreiðara (e. tokeniser), giskara fyrir óþekkt orð (e. unknown word guesser), markara (e. part-of-speech tagger), lemmaldi (e. lemmatiser), þáttara (e. parser) og nafnaþekkjara (e. named-entity recogniser).

Hugbúnaðurinn var upphaflega þróaður í doktorsverkefni Hrafns Loftssonar á árunum 2004-2007 en síðan þá hafa m.a. nemendur í HR og HÍ komið að þróun einstakra eininga.


NOTA IceNLP

• Hægt er að prófa hluta af virkni IceNLP hér.
• IceNLP er opinn og frjáls hugbúnaður sem hægt er að sækja hér. Dreift með LGPL leyfi.

Um IceNLP
IceNLP er hægt að nota í margvíslegum tilgangi, t.d. til þess að brjóta texta upp í einstaka tóka (merkingarlegar einingar), merkja sérhvern tóka með orðflokki og upplýsingum um beygingu, finna uppflettimynd (nefnimynd, lemmu) tiltekins orðs, og greina formgerð setninga og tengsl einstakra hluta þeirra.

Hægt er að keyra einstakar hugbúnaðareiningar IceNLP sem sjálfstæð forrit eða tengja viðkomandi Java klasa beint við forrit sem verið er að þróa.



Hafið samband
Hrafn Loftsson
Dósent
Háskólinn í Reykjavík, tölvunarfræðideild
Menntavegi 1, 105 Reykjavík
Vinnusími: +354-5996227
Netfang: hrafn@ru.is
Veffang: http://www.ru.is/~hrafn


Ritaskrá
Hrafn Loftsson. 2008. Tagging Icelandic text: A linguistic rule-based approach. Appeared in a revised form, subsequent to editorial input by Cambridge University Press, in Nordic Journal of Linguistics, 31(1), 47-72. © 2008 Cambridge University Press.

Hrafn Loftsson, Sigrún Helgadóttir and Eiríkur Rögnvaldsson. 2011. Using a morphological database to increase the accuracy in PoS tagging. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria.

Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir and Eiríkur Rögnvaldsson. 2009. Improving the PoS tagging accuracy of Icelandic text. In Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA-2009). Odense, Denmark.

Anton K. Ingason, Sigrún Helgadóttir, Hrafn Loftsson and Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI). In B. Nordström and A. Ranta (eds.), Advances in Natural Language Processing, 6th International Conference on NLP, GoTAL 2008, Proceedings. Gothenburg, Sweden.

Hrafn Loftsson and Eiríkur Rögnvaldsson. 2008. Linguistic richness and technical aspects of an incremental finite-state parser. In Proceedings of "Partial Parsing 2008", workshop at the 6th International Conference on Language Resources and Evaluation, LREC 2008. Marrakech, Morocco.

Hrafn Loftsson and Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. In Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerp, Belgium.

Hrafn Loftsson and Eiríkur Rögnvaldsson. 2007. IceParser: An Incremental Finite-State Parser for Icelandic. In J. Nivre, H-J. Kaalep, K. Muischnek and M. Koit (eds.), Proceedings of the 16th Nordic Conference of Computational Linguistics (NODALIDA-2007). Tartu, Estonia.

Hrafn Loftsson. 2007. Tagging Icelandic Text using a Linguistic and a Statistical Tagger. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY, USA.

Hrafn Loftsson. 2006. Tagging a morphologically complex language using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala (eds.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku, Finland.