Risamálheild 2017Í Risamálheildinni (RMH) má finna um 1300 milljónir lesmálsorða af textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum.

NOTA RMH1

• Leita í RMH.
• Sækja RMH1 hér. Með sérstöku notkunarleyfi
• Sækja RMH2 hér. Með CC BY leyfi


Um RMH
Hvað er mörkuð málheild?
Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar.

Gerð Risamálheildarinnar
Íslenska Risamálheildin er safn um 1300 milljóna lesmálsorða af texta. Hluti textanna eru opinberir textar (t.d. Alþingisræður sem ná aftur til ársins 1911, lagatexti, dómar). Einnig fengust stór textasöfn frá ýmsum fjölmiðlum og ýmsir textar úr textasafni Árnastofnunar. Risamálheildin er mörkuð málheild eins og lýst er hér að framan. Verkið var unnið á Stofnun Árna Magnússonar í íslenskum fræðum á árunum 2015 til 2017. Aðeins var safnað textum sem voru aðgengilegir í tölvutæku formi.

Til þess að unnt yrði að nota málheildina í máltækniverkefnum var lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Upphaflega var miðað við að afla leyfa frá rétthöfum til þess að veita aðgang að textunum með leyfi sem samtökin Creative Commons hafa skilgreint. Ekki gátu allir rétthafar samþykkt þá skilmála. Textum málheildarinnar er því skipt í tvo hluta, RMH1 og RMH2. Í RMH1 eru textar sem veittur er aðgangur að með sérstöku leyfi sem byggist á leyfi sem var útbúið fyrir texta Markaðrar íslenskrar málheildar (MÍM). Í RMH2 eru opinberir textar og textar sem leyfður er aðgangur að með CC BY leyfi . Allir rétthafar hafa samþykkt að veita afnotarétt af textum sínum án þess að greiðsla komi fyrir. Þegar Mörkuð íslensk málheild var gerð var útbúin sérstök samþykkisyfirlýsing með aðstoð lögfræðings sem var notuð með nauðsynlegum breytingum við gerð RMH og rétthafar sem samþykktu ekki CC BY leyfið undirrituðu.

Til þess að fá yfirlit yfir hvaðan textar í málheildinni eru hefur þeim verið skipt í 6 flokka. Stærsti flokkur texta í RMH er textar af vefmiðlum, riflega 38%. Úr prentuðum blöðum fengust tæplega 30% texta, úr ljósvakamiðlum ríflega 4% og opinberir textar eru um 26% af málheildinni. Úr textasafni Árnastofnunar fengust minna en 1% textanna og annað efni (um 0,7%) er af Vísindavef Háskóla Íslands og úr íslenskum hluta Wikipediu. Uppgefin hlutföll miðast við fjölda lesmálsorða í textunum. Textar sem veittur er aðgangur að með sérstöku leyfi sem byggist á leyfi Markaðar íslenskrar málheildar (RMH1) eru tæplega 57% af málheildinni og afgangurinn er textar sem veittur er aðgangur að með CC BY leyfi (RMH2). Ríflega 86% textanna er frá því eftir árið 2000 og ríflega 94% textanna frá því eftir 1980. Elstu textarnir eru lagatextar frá 13. öld. Einnig eru í málheildinni alþingisræður allt frá 1911 og einstaka textar úr gömlum blöðum frá því fyrir aldamótin 1900.

Í RMH eru 4.154.058 skrár með 1.260.235.818 lesmálsorðum.

Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika og einnig fyrir kennslu.

Mörkun málheildarinnar
Málheildin var mörkuð með vélrænum aðferðum. Textum RMH var skipt í setningar og lesmálsorð og þeir síðan markaðir og lemmaðir. IceNLP-kerfið var notað til þess að skipta textum í setningar og lesmálsorð. Mörkun var gerð með IceStagger (Hrafn Loftsson og Robert Östling, 2013). Lemmun var gerð með lemmunarforritinu Nefni. Nefnir er nýtt lemmunarforrit eftir Jón Friðrik Daðason og hefur ekki verið lýst enn þá en gengið er út frá því að forritið gefi betri niðurstöðu en það forrit sem var notað áður (Lemmald, (Anton Ingason o.fl., 2008)). Mörkun og lemmun er ekki handleiðrétt.

Markamengið sem er notað er það sem var þróað fyrir gerð Íslenskrar orðtíðnibókar með nokkrum breytingum. Sérnöfn eru ekki greind í mannanöfn, staðarnöfn og önnur nöfn. Markinu v var bætt við fyrir vefföng og tölvupóstföng. Skammstöfunum er ekki skipt í einstök orð heldur greindar með markinu as. Allir tölufastar eru greindir með markinu ta. Samskeytt mörkuð málheild Íslenskrar orðtíðnibókar og Gullstaðals var notuð til þess að þjálfa IceStagger. Orðasöfn sem notuð eru við mörkunina voru aukin með orðasafni Beygingarlýsingar íslensks nútímamáls (BÍN).

Markaskrá Risamálheildar.

Hvernig verður málheildin notuð?

1. Leita í textunum. Málheildin er aðgengileg á tvenns konar hátt. Í fyrsta lagi hefur verið komið upp leitarkerfi þar sem leita má í textum málheildarinnar og nýta mörkin í leitinni. Leitin skilar orðstöðulykli og upplýsingum um hvaðan hvert textadæmi er fengið. Velja má einn af 6 textaflokkum til leitar. Leitarviðmótið byggist á sænska leitarkerfinu Korp.

2. Sækja textana. Í öðru lagi má sækja texta málheildarinnar og nota þá í máltækniverkefnum. Málheildinni er skipt í tvo hluta, RMH1 og RMH2. Væntanlegir notendur þurfa að samþykkja sérstakt notkunarleyfi fyrir RMH1 og CC BY leyfi fyrir RMH2. Textarnir eru aðgengilegir í sérstöku xml-sniði, TEI P5, sem er skilgreint af TEI (Text Encoding Initiative). Lýsigögn fylgja öllum textum.
Sækja RMH1 .
Sækja RMH2.

Samastarfsaðilar og styrkveitendur
Verkið var unnið á Stofnun Árna Magnússonar í íslenskum fræðum á árunum 2015 til 2017 að mestu fyrir styrki frá Innviðasjóði (styrknúmer 151110-0031, verkefnisstjóri Eiríkur Rögnvaldsson), Mótframlagasjóði Háskóla Íslands og mennta- og menningarmálaráðuneytinu. Fyrirtækið Creditinfo veitti aðstoð við að útvega texta úr ljósvakamiðlum og nokkrum vef- og prentmiðlum.

Fólkið á bak við málheildina

Verkefnisstjórn
Eiríkur Rögnvaldsson
Sigrún Helgadóttir
Steinþór Steingrímsson

Hugbúnaðargerð
Gunnar Thor Örnólfsson
Kristján Rúnarsson
Starkaður Barkarson

Sérstakar þakkir
Creditinfo1Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð RMH skal það gert þannig: Steinþór Steingrímsson, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson og Jón Guðnason. 2018. Risamálheild: A Very Large Icelandic Text Corpus. Proceedings of LREC 2018, p. 4361-4366. Myazaki, Japan. 2017 útgáfa af málheildinni er aðgengileg til leitar á malheildir.arnarstofnun.is


Hafið samband


Heimildir
Hrafn Loftsson og Robert Östling. 2013. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic. Í Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA-2013), NEALT Proceedings Series 16. Oslo, Norway.


Ítarefni
Steinþór Steingrímsson, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson og Jón Guðnason. 2018. Risamálheild: A Very Large Icelandic Text Corpus. Proceedings of LREC 2018, p. 4361-4366. Myazaki, Japan.

Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2018. An Icelandic Gigaword Corpus. Ásta Svavarsdóttir, Halldóra Jónsdóttir, Helga Hilmisdóttir og Þórdís Úlfarsdóttir (ritstj.): Rapport fra 14. Konference om Leksikografi i Norden Reykjavík 30. maj–2. juni 2017. Í Nordiske Sudier i Leksikografi 14, s. 246–254. Nordisk Forening for Leksikografi, Skrift nr. 15.