Fornritin



Hér er veittur aðgangur að rafrænum textum Íslendingasagna, Sturlungu, Heimskringlu og Landnámabókar. Að undanskilinni Landnámabók eru textarnir úr útgáfum Svarts á hvítu og Máls og menningar sem komu út á árunum 1985 til 1991.

Stafsetning allra texta hefur verið umrituð til nútímastafsetningar. Einnig hefur nokkrum beygingarendingum verið breytt til nútíma íslensku. Leita má í textunum og einnig er unnt að sækja textana og nota þá við málrannsóknir og í máltækniverkefnum.




NOTA FORNRITIN

• Sækja skrár Fornritanna hér. Með CC BY 3.0 leyfi.

Um Fornritin
Textarnir

Í textasafni því sem hér er gert aðgengilegt eru textar úr 41 Íslendingasögu, Sturlungu, Heimskringlu og Landnámabók. Í töflunni hér fyrir neðan má sjá hvernig textarnir skiptast á milli sagnanna. Tölurnar miðast við orð, greinarmerki eru ekki talin með.

Texti Orð
Íslendingasögur 982.066
Sturlunga 260.586
Heimskringla 231.502
Landnámabók 37.120
Samtals 1.511.275


Texti Íslendingasagna er úr útgáfu Svarts og hvítu (Bragi Halldórsson, Jón Torfason, Sverrir Tómasson og Örnólfur Thorsson (ritstj.) 1985-1986) og texti Sturlungu einnig (Örnólfur Thorsson, Bergljót Kristjánsdóttir, Bragi Halldórsson, Gísli Sigurðsson, Guðrún Ása Grímsdóttir, Guðrún Ingólfsdóttir, Jón Torfason og Sverrir Tómasson (ritstj.) 1988). Texti Heimskringlu er úr útgáfu frá Máli og menningu árið 1991 (Bergljót Kristjánsdóttir, Bragi Halldórsson, Jón Torfason og Örnólfur Thorsson (ritstj.) 1991). Stafsetning var umrituð til nútímastafsetningar og nokkrar beygingarendingar eru færðar til nútímamáls. Texti Landnámabókar úr útgáfu Jakobs Benediktssonar frá 1968 (Jakob Benediktsson 1968) var ljóslesinn og síðan færður til nútímastafsetningar á sama hátt. Listi yfir textana er hér. Einn af textunum geymir Íslendingaþætti.

Hverju var breytt?

Umritun til nútímastafsetningar felst m.a. í því að sérhljóðatáknum er fækkað ('æ' er notað bæði fyrir 'æ' og 'œ', 'ö' er notað bæði fyrir 'ø' og 'ǫ', bókstafnum u er skotið inn milli samhljóða og r í enda orðs (maðr > maður), ss og rr í enda orðs er stytt (íss > ís, herr > her) og t og k í enda orðs í áherslulausum atkvæðum er breytt í ð og g (þat > það, ok > og). Enn fremur var nokkrum beygingarendingum breytt til nútímamáls.

Mörkunartilraunir

Gerðar voru nokkrar tilraunir með mörkun texta fornritanna. Fyrstu tilraunirnar voru gerðar árið 2005. Í fyrstu var notuð aðferð fyrir mörkun sem var þróuð fyrir nútímaíslensku. Aðferðir við mörkun íslensks texta hafa verið þróaðar með því að nota markaða texta Íslenskrar orðtíðnibókar. Gagnamarkarinn TnT (Brants, 2000) var þjálfaður á mörkuðum textum Orðtíðnibókarinnar (Sigrún Helgadóttir, 2004 og 2007). Búið var til líkan sem má nota til þess að marka nýjan texta. Allir textar í fornritunum voru markaðir með þessu líkani. Til þess að mæla mörkunarnákvæmni voru valin af handahófi fjögur 1000 orða sýni, eitt úr Íslendingasögunum, eitt úr Heimskringlu og tvö úr Sturlungu. Mörk orða í þessum sýnum voru leiðrétt handvirkt. Þegar rétt mörk í þessum sýnum voru talin reyndist mörkunarnákvæmni vera 88,0% en er um 90,4% fyrir texta Orðtíðnibókarinnar. Uppbygging setninga í forníslensku er nokkuð önnur en í nútímaíslensku. Ólík orðaröð ætti sérstaklega að hafa áhrif á nákvæmni tölfræðilegs markara eins og TnT sem byggist á þrí-stæðum. Setningar í forníslenskum textum eru þó yfirleitt mjög stuttar og auðveldara er að greina stuttar setningar en langar.

Síðan voru valdar sjö heilar sögur úr Sturlungu og tvö brot að auki, alls um 95.000 orð. Mörk í þessum textum voru leiðrétt handvirkt. TnT-markarinn var þjálfaður á þessum textum og nýja líkanið notað til þess að marka alla textana aftur. Nákvæmni var aftur mæld á sýnunum fjórum og fékkst þá 91,7% nákvæmni. Að lokum var TnT markarinn þjálfaður á samanlögðum leiðréttum fornritatextunum og textum Orðtíðnibókarinnar og fornritatextarnir markaðir með því líkani sem þá varð til. Nákvæmni var mæld á sama hátt og áður og reyndist 92,7% (Eiríkur Rögnvaldsson og Sigrún Helgadóttir, 2011).

Árið 2013 gerðu Hrafn Loftsson og Robert Östling tilraun með að marka fornritatextana (Hrafn Loftsson og Robert Östling, 2013). Þeir leiðréttu þjálfunartextann úr Sturlungu með hálfsjálfvirkum aðferðum og leiðréttu þannig 2.144 mörk. Þeir prófuðu þrjá markara og sá markari sem gaf besta niðurstöðu var Stagger (Östling, 2012). Höfundarnir gerðu mörkunartilraun sem byggist á því að skipta textanum í tíu nokkurn veginn jafna hluta. Hver þessara tíu hluta myndar eitt prófunarsafn og samstætt þjálfunarsafn hefur að geyma hina hlutana níu í hvert sinn. Stærri skráin er notuð sem þjálfunarsafn og sú minni sem prófunarsafn. Markarinn var prófaður á öllum 10 pörunum og fundin meðalnákvæmni (þessi aðferð er kölluð á ensku ten-fold cross-validation). Besta niðurstaðan með Stagger fékkst með því að bæta textum Orðtíðnibókarinnar (leiðrétt mörk) við hvert þjálfunarsafn eða 91,76% meðalnákvæmni. Höfundarnir sameinuðu niðurstöður þriggja markara (TriTagger, HMM+Ice+HMM (Hrafn Loftsson og fl. 2009) og Stagger) og fengu þá 92,32% nákvæmni.

Í janúar 2018 markaði Starkaður Barkarson alla texta fornritanna að nýju. Notaður var markarinn Stagger. Búið var til nýtt þjálfunarsafn með því að leggja saman textasafn Orðtíðnibókarinnar (um 500 þúsund orð), textana úr Sturlungu (um 95 þúsund orð) sem voru notaðir í upphaflegum tilraunum en með leiðréttingum Hrafns Loftssonar og nýr staðall, MIM-GULL (um ein milljón orða). Mörkunarnákvæmni var metin á sama hátt og gert var í fyrstu mörkunartilrauninni, þ.e. með því að marka 1000 orða sýnin og bera mörkin saman við þau mörk sem höfðu verið leiðrétt. Niðurstaðan var 93,5% nákvæmni. Vert er að benda á að þessi tala er ekki sambærileg tölum Hrafns Loftssonar og Roberts Östling þar sem þeir notuðu ekki þessi 1000 orða sýni.

Mörkun og lemmun textanna

Textunum var skipt í setningar og lesmálsorð með því að nota IceNLP pakkann. Textarnir voru markaðir með mörkunarforritinu Stagger eins og lýst var að ofan og síðan lemmaðir með lemmunarforritinu Nefni. Nefni hefur ekki verið lýst enn þá en gengið er út frá því að forritið gefi betri niðurstöðu en það forrit sem var notað áður (Lemmald, (Anton Ingason o.fl., 2008)).

Þegar mörkun var lokið voru mörk í þeim hluta texta Sturlungu sem eru í þjálfunarsafninu færð í rétt horf miðað við þær skrár sem höfðu verið leiðréttar áður.

Textarnir sem voru aðgengilegir fyrir mars 2018

Vert er að benda á að textarnir sem voru aðgengilegir í gegnum þetta vefsetur fram til mars 2018 voru markaðir eins og textar Markaðrar íslenskrar málheildar. Einnig hafði komið í ljós að gallar voru í nokkrum textanna. Nú eru textarnir markaðir með bestu aðferð sem tiltæk er með því að nýta þjálfunarsafn gert úr fornritinum eins og lýst er hér að ofan og gallar í textunum hafa verið lagfærðir.



Að nota Fornritin
Fornmálstextarnir eru aðgengilegir til notkunar á tvenns konar hátt:

1. Leita í textunum. Leitin er aðgengileg á málheildarsíðu Stofnunar Árna Magnússonar. Nýta má málfræðilegar upplýsingar til þess að skilgreina leitina og jafnframt fást bókfræðilegar upplýsingar um textana sem leitarniðurstöður eru úr. Hér er listi yfir verk sem unnt er að leita í. Á leitarsíðunni má velja hvert þessara verka til leitar. Eitt af verkunum er Íslendingþættir og má einnig velja hvern þeirra sem er til leitar.

2. Sækja textana. Textarnir eru aðgengilegir í sérstöku xml-sniði sem er skilgreint af TEI (Text Encoding Initiative). Bókfræðilegar upplýsingar fylgja öllum textum. Væntanlegir notendur þurfa að skrá sig og samþykkja notkunarskilmála. Sækja. Textarnir eru aðgengilegir með CC BY 3.0 leyfi.


Hafið samband
Eiríkur Rögnvaldsson
prófessor í íslenskri málfræði
Íslensku- og menningardeild
Háskóla Íslands, Hugvísindasviði
Skrifstofa: Árnagarði, 415
Vinnusími: +354-525-4403
Fax: +354-525-4242
Netföng: eirikur@hi.is;
eirikur.rognvaldsson@gmail.com.


Heimildir
Anton K. Ingason, Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI). Í B. Nordström og A. Ranta (ritstj.), Advances in Natural Language Processing, 6th International Conference on NLP, GoTAL 2008, Proceedings. Gothenburg, Sweden.

Brants, Thorsten. 2000. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, bls. 224-231. Seattle, Washington, USA.

Bragi Halldórsson, Jón Torfson og Örnólfur Thorsson (ritstj.). 1985-1986. Íslendinga sögur. Svart á hvítu. Reykjavík.

Bergljót Kristjánsdóttir, Bragi Halldórsson, Jón Torfason, Örnólfur Thorsson (ritstj.). 1991. Heimskringla. Mál og menning. Reykjavík.

Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.

Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS tagging accuracy of Icelandic text. In Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA-2009). Odense, Denmark.

Hrafn Loftsson og Robert Östling. 2013. Tagging a Morphologically Complex Language Using an Averaged Perceptron Tagger: The Case of Icelandic. Í Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA-2013), NEALT Proceedings Series 16. Oslo, Norway.

Jakob Benediktsson (ritstj). 1968. Íslenzk fornrit I. Íslendingabók - Landnámabók. Hið íslenzka fornritafélag.

Sigrún Helgadóttir. 2004. Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic. In H. Holmboe (ed.): Nordisk Sprogteknologi. Museum Tusculanums Forlag.

Sigrún Helgadóttir. 2007. Mörkun íslensks texta (.pdf) Orð og tunga 9:75-107. Reykjavík.

Örnólfur Thorsson, Bergljót Kristjánsdóttir, Bragi Halldórsson, Gísli Sigurðsson, Guðrún Ása Grímsdóttir, Guðrún Ingólfsdóttir, Jón Torfason og Sverrir Tómasson, (ritstj.). 1988. Sturlunga saga. Svart á hvítu. Reykjavík.

Östling, Robert. 2012. Stagger: A modern POS tagger for Swedish. In Proceedings of the 4 th Swedish Language Technology Conference, SLTC, Lund, Sweden.