Fornritin



Hér er veittur aðgangur að rafrænum textum Íslendingasagna, Sturlungu, Heimskringlu og Landnámabókar. Að undanskilinni Landnámabók eru textarnir úr útgáfum Svarts á hvítu og Máls og menningar sem komu út á árunum 1985 til 1991.

Stafsetning allra texta hefur verið umrituð til nútímastafsetningar. Einnig hefur nokkrum beygingarendingum verið breytt til nútíma íslensku. Leita má í textunum og einnig er unnt að sækja textana og nota þá við málrannsóknir og í máltækniverkefnum.




NOTA FORNRITIN

• Leita í Fornritunum á vef Markaðrar íslenskrar málheildar.
• Sækja skrár Fornritanna hér. Með CC BY 3.0 leyfi.

Um Fornritin
Textarnir

Í textasafni því sem hér er gert aðgengilegt eru textar úr 41 Íslendingasögu, Sturlungu, Heimskringlu og Landnámabók. Í töflunni hér fyrir neðan má sjá hvernig textarnir skiptast á milli sagnanna.

Textar Íslendingasagnanna og Sturlungu eru úr útgáfu Svarts og hvítu frá árunum 1985 til 1988 (Bragi Halldórsson og fl. 1985-1986; Bergljót Kristjánsdóttir og fl. 1988). Texti Heimskringlu er úr útgáfu frá Máli og menningu árið 1991 (Bergljót Kristjánsdóttir og fl. 1991). Stafsetning var umrituð til nútímastafsetningar og nokkrar beygingarendingar eru færðar til nútímamáls. Texti Landnámabókar úr útgáfu Jakobs Benediktssonar frá 1968 (Jakob Benediktsson 1968) var ljóslesinn og síðan færður til nútímastafsetningar á sama hátt. Listi yfir textana.

Hverju var breytt?

Umritun til nútímastafsetningar felst m.a. í því að sérhljóðatáknum er fækkað ('æ' er notað bæði fyrir 'æ' og 'œ', 'ö' er notað bæði fyrir 'ø' og 'ǫ', bókstafnum u er skotið inn milli samhljóða og r í enda orðs (maðr > maður), ss og rr í enda orðs er stytt (íss > ís, herr > her) og t og k í enda orðs í áherslulausum atkvæðum er breytt í ð og g (þat > það, ok > og). Enn fremur var nokkrum beygingarendingum breytt til nútímamáls.

Mörkun

Í fyrstu var notuð aðferð fyrir mörkun sem var þróuð fyrir nútímaíslensku. Aðferðir við mörkun íslensks texta hafa verið þróaðar með því að nota markaða texta Íslenskrar orðtíðnibókar. Gagnamarkarinn TnT (Brants, 2000) var þjálfaður á mörkuðum textum Orðtíðnibókarinnar (Sigrún Helgadóttir, 2004 og 2007). Búið var til líkan sem má nota til þess að marka nýjan texta. Allir textar í fornritunum voru markaðir með þessu líkani. Til þess að mæla mörkunarnákvæmni voru valin af handahófi fjögur 1000 orða sýni, eitt úr Íslendingasögunum, eitt úr Heimskringlu og tvö úr Sturlungu. Mörk orða í þessum sýnum voru leiðrétt handvirkt. Þegar rétt mörk í þessum sýnum voru talin reyndist mörkunarnákvæmni vera 88,0% en er um 90,4% fyrir texta Orðtíðnibókarinnar. Uppbygging setninga í forníslensku er nokkuð önnur en í nútímaíslensku. Ólík orðaröð ætti sérstaklega að hafa áhrif á nákvæmni tölfræðilegs markara eins og TnT sem byggist á þrí-stæðum. Setningar í forníslenskum textum eru þó yfirleitt mjög stuttar og auðveldara er að greina stuttar setningar en langar.

Síðan voru valdar sjö heilar sögur úr Sturlungu og tvö brot að auki, alls um 95.000 orð. Mörk í þessum textum voru leiðrétt handvirkt. TnT-markarinn var þjálfaður á þessum textum og nýja líkanið notað til þess að marka alla textana aftur. Nákvæmni var aftur mæld á sýnunum fjórum og fékkst þá 91,7% nákvæmni. Að lokum var TnT markarinn þjálfaður á samanlögðum leiðréttum fornritatextunum og textum Orðtíðnibókarinnar og fornritatextarnir markaðir með því líkani sem þá varð til. Nákvæmni var mæld á sama hátt og áður og reyndist 92,7% (Eiríkur Rögnvaldsson og Sigrún Helgadóttir, 2011).

Textarnir sem eru aðgengilegir á þessu vefsetri voru markaðir á sama hátt og textar Markaðrar íslenskrar málheildar.


Að nota Fornritin
Fornmálstextarnir eru aðgengilegir til notkunar á tvenns konar hátt:

1. Leita í textunum. Leitin er aðgengileg á vefsvæði Markaðrar íslenskrar málheildar (MIM) og er sambærileg við leitina í málheildinni. Nýta má málfræðilegar upplýsingar til þess að skilgreina leitina og jafnframt fást bókfræðilegar upplýsingar um textana sem leitarniðurstöður eru úr. Listi yfir verk sem unnt er að leita í.

2. Sækja textana. Textarnir eru aðgengilegir í sérstöku xml-sniði sem er skilgreint af TEI (Text Encoding Initiative). Bókfræðilegar upplýsingar fylgja öllum textum. Væntanlegir notendur þurfa að skrá sig og samþykkja notkunarskilmála. Sækja. Textarnir eru aðgengilegir með CC BY 3.0 leyfi.


Hafið samband
Eiríkur Rögnvaldsson
prófessor í íslenskri málfræði
Íslensku- og menningardeild
Háskóla Íslands, Hugvísindasviði
Skrifstofa: Árnagarði, 415
Vinnusími: +354-525-4403
Fax: +354-525-4242
Netföng: eirikur@hi.is;
eirikur.rognvaldsson@gmail.com.


Heimildir
Brants, Thorsten. 2000. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, bls. 224-231. Seattle, Washington, USA.

Jakob Benediktsson (ritstj). 1968. Íslenzk fornrit I. Íslendingabók - Landnámabók. Hið íslenzka fornritafélag.

Bragi Halldórsson, Jón Tómasson, Örnólfur Thorsson (ritstj.). 1985-1986. Íslendinga sögur. Svart á hvítu. Reykjavík.

Bergljót Kristjánsdóttir, Bragi Halldórsson, G. Sigurðsson, Guðrún Ása Grímsdóttir, Guðrún Ingólfsdóttir, Jón Torfason, Sverrir Tómasson, Örnólfur Thorsson (ritstj.). 1988. Sturlunga saga. Svart á hvítu. Reykjavík.

Bergljót Kristjánsdóttir, Bragi Halldórsson, Jón Torfason, Örnólfur Thorsson (ritstj.). 1991. Heimskringla. Mál og menning. Reykjavík.

Sigrún Helgadóttir. 2004. Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic. In H. Holmboe (ed.): Nordisk Sprogteknologi. Museum Tusculanums Forlag.

Sigrún Helgadóttir. 2007. Mörkun íslensks texta (.pdf) Orð og tunga 9:75-107. Reykjavík.

Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.