Gullstaðall



Gullstaðallinn er málheild með um einni milljón orða af textum. Orð í textunum voru mörkuð með sjálfvirkum aðferðum og síðan leiðrétt handvirkt. Textar í málheildinni voru valdir úr textum Markaðrar íslenskrar málheildar (MIM). Fyrir notkun Gullstaðalsins gildir því sama leyfi og fyrir málheildina. Gert er ráð fyrir að málheildin verði notuð sem gullstaðall fyrir þjálfun námfúsra markara.


NOTA GULLSTAÐALINN1

Hér má sækja Gullstaðalinn. Samþykkja þarf leyfi Markaðrar íslenskrar málheilar.

Um Gullstaðalinn
Í málheildinni eru 13 skrár. Í hverri skrá eru textar sem var safnað úr einum textaflokki af 23 textaflokkum í Markaðri íslenskri málheild. Textarnir voru hreinsaðir og síðan markaðir með fimm mismunandi mörkurum og að lokum var kosið á milli markanna með tiltekinni aðferð (Hrafn Loftsson og fl., 2010). Mörkin voru síðan leiðrétt handvirkt. Gefinn er aðgangur að skránum eftir fyrstu umferð leiðréttinga. Ekki hefur verið farið yfir leiðréttingarnar og mörkunarnákvæmni eftir handvirka leiðréttingu hefur ekki verið metin. Málheildin er ætluð fyrir þjálfun námfúsra markara fyrir íslensku.

Notuð er sama markaskrá og fyrir Markaða íslenska málheild. Textaskrárnar eru í Linux-sniði og notuð er UTF-8 stafatafla. Snið skránna er þannig að í hverri línu er eitt orð ásamt marki. Orðið er fremst í línu síðan kemur dálkmerki (tab) og þá mark. Setningar eru aðgreindar með auðri línu.

Hér er listi yfir skrár í Gullstaðlinum. Veittur er aðgangur að Gullstaðlinum með Með leyfi fyrir Markaða íslenska málheild þar sem textar Gullstaðalsins voru dregnir úr textum MÍM.

Nú (desember 2013) er unnið við að fara yfir leiðrétt mörk og að meta mörkunarnákvæmni.



1Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Gullstaðalins vinsamlegast vitnið í:

Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, pp. 53-60. Valetta, Möltu.


Hafið samband
Sigrún Helgadóttir
Verkefnisstjóri
Stofnun Árna Magnússonar í íslenskum fræðum
Skrifstofa: Neshaga 16
Vinnusími: +354-525-4434
Fax: +354-562-7242
Netfang: sigruhel@hi.is
Veffang: https://notendur.hi.is/sigruhel/


Heimildir
Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, pp. 53-60. Valetta, Möltu.