Málrómur





Málrómur er opið safn íslenskra raddsýna.



NOTA MÁLRÓM1

Málrómur (WAV - 9,8 GB). [256 Kbps, 16 KHz] CC BY 4.0 leyfi
Um Málróm
Háskólinn í Reykjavík og Máltæknisetur stóðu fyrir söfnun íslenskra raddsýna í samstarfi við fyritækið Google. Gögnin eru aðgengileg fyrir almenning hér á síðunni og er þetta kjörið tækifæri til að þróa ýmsan máltæknibúnað fyrir íslensku, eins og til dæmis talgreini. Tekin voru upp raddsýni á Android G1 síma frá 563 þátttakendum, alls 152 klukkustundir af tali. Alls voru tekin upp 127.286 raddsýni. Af þessum raddsýnum voru 108.568 talin nothæf en 18.718 ónothæf. Hér á síðunni er hægt að nálgast þær 108.568 skrár sem voru taldar nothæfar.

Um verkefnið
Almannarómsverkefnið var unnið á árunum 2011 til 2012. Á vegum fyrirtækisins Google var þá unnið við að safna talmáli fyrir ýmis tungumál til þess að þróa talgreina og gera gögnin opin og aðgengileg fyrir rannsóknir og gerð máltæknitóla. Markmið Almannarómsverkefnisins var að búa til gagnasafn með töluðum setningum til þess að nota við þróun talgreiningar fyrir íslensku. En gagnasafnið má nota fyrir gerð margvíslegra máltæknitóla þar sem tal kemur við sögu.

Google tók upp samstarf við Háskólann í Reykjavík og Máltæknisetur um söfnun raddsýnanna fyrir íslensku. Fyrsti áfangi í verkefninu fólst í því að setja saman málheild með setningum sem þátttakendur í verkefninu ættu að lesa. Um 50% af textum í málheildinni eru fréttir af mbl.is, 10% er sjaldgæfar þrístæður hljóðbúta (tri-phones), 10% er götunöfn, 10% er mannanöfn, 10% er ýmislegt, 10% er nöfn á ríkjum og höfuðborgum og 10% er vefföng. Alls eru 55.000 setningar í málheildinni. Að lokum var bætt við lista með tölum, dagsetningum, tímasetningum, nöfnum daga og mánaða, einföldum spurningum og algengum kveðjum.

Textinn sem fékkst af mbl.is var undirbúinn með því að taka út fyrirsagnir. Síðan var IceNLP málgreiningarkerfið notað til þess að skipta textanum í setningar. Setningum sem voru lengri en 6 orð var sleppt. Þetta var gert bæði til þess að auðveldara væri að lesa textann og til þess að setningin kæmist fyrir í glugga á Android G1 tæki sem var notað við upptökur. Stafsetning orða í öllum setningum var prófuð með því að bera saman við orð í Beygingarlýsingu íslensks nútímamáls (BÍN). Setningar sem höfðu orð sem ekki fundust í BÍN var sleppt. Setningum var síðan raðað í hendingaröð til þess að tryggja að úrtak setninga í hverjum síma væri dæmigert fyrir textann í málheildinni.

Upplesturinn var tekinn upp á Android G1 snjallsíma. Hver þátttakandi var beðinn um að lesa í 30 mínútur eða allt að 250 setningar. Þátttakendur voru sjálfboðaliðar og undirrituðu sérstaka samþykkisyfirlýsingu um notkun raddsýnanna í máltæknibúnaði sem Google rekur og í öðrum máltæknibúnaði. Google lét í té 10 síma sem voru notaðir við að taka upp raddsýnin.

Raddsýnum var safnað í þremur áföngum. Fyrsti áfanginn hófst 15. júlí 2011. Tíu sjálfboðaliðar fengu hver einn síma. Þeir áttu að safna þátttakendum og fá þá til þess að gefa raddsýni, þ.e. lesa setningar í 30 mínútur og láta símann taka þær upp. Þessum áfanga lauk í ágúst og gekk frekar illa. Það gekk illa að finna sjálfboðaliða og sjálfboðaliðar áttu erfitt með að fá fólk til þess að gerast þátttakendur og gefa raddsýni. Í þessum áfanga fengust raddsýni frá 59 einstaklingum. Annar áfanginn var unninn í september og október. Settir voru upp viðburðir í kringum gagnasöfnunina í Háskólanum í Reykjavík og Háskóla Íslands þar sem tveir eða þrír sjálfboðaliðar söfnuðu tali frá þátttakendum með því að nota alla 10 símana. Í þessum áfanga gáfu 104 þátttakendur raddsýni. Í síðasta afanga sem var unninn frá nóvember 2011 til janúar 2012 var farið í stofnanir og fyrirtæki. Haft var samband við lykilstarfsmenn í stofnunum og fyrirtækjum og þeir beðnir um að skipuleggja gagnasöfnunina. Fengnir voru einn til fimm sjálfboðaliðar á hverjum stað til þess að sjá um gagnasöfnunina. Hver vinnustaður fékk tiltekinn fjölda síma í tiltekinn fjölda daga. Símarnir voru síðan sendir á næsta stað. Alls var safnað raddsýnum frá 430 einstaklingum á 19 vinnustöðum í þessum áfanga. Alls fengust því raddsýni frá 593 einstaklingum eða 123.227 lesnar setningar.

Sérstakur hugbúnaður var settur upp í símunum þannig að flytja mætti í þá íslenskar setningar og síðan senda raddsýnin í miðlara hjá Google. Tæknimenn hjá Google notuðu síðan raddsýnin og fleiri gögn um íslensku (stór textasöfn til þess að búa til mállíkön) til þess að búa til talgreini fyrir Android-snjallsímana og Google-leitarvélina. Þessi tól voru kynnt haustið 2012.

Gögnin opnuð
Ákveðið var að opna gagnasafnið með raddsýnunum til notkunar við gerð talgreina og annarra máltæknitóla þar sem tal kemur við sögu. Til þess að raddsýnin kæmu að sem bestum notum var talið nauðsynlegt að yfirfara þau. Sumarið 2014 hlustaði nemandi í HÍ á um 69 þúsund raddsýni til þess að ákveða hvort samræmi væri milli tals og texta. Í lok sumars höfðu skilað sér 57 þúsund raddsýni sem voru talin í lagi og voru þá gerð aðgengileg á þessari síðu. Sumarið 2015 hlustaði annar nemandi á fleiri raddsýni og á árinu 2016 luku starfsmenn Stofnunar Árna Magnússonar við að yfirfara raddsýnin.

Alls voru tekin upp 127.286 raddsýni. Gölluð raddsýni voru 5.401 þannig að 121.885 raddsýni voru skoðuð. Í fyrstu umferð voru raddsýnin forunnin á þann hátt að langar þagnir voru fjarlægðar í byrjun og lok upptökunnar. Á þann hátt var tímalengd raddsýnanna stytt í um 90 klukkustundir úr 152 klukkustundum. Við þessa aðgerð voru fundin 2.795 raddsýni sem höfðu ekkert tal. Í þessari umferð voru því skoðuð 119.090 raddsýni. Af þeim reyndust 100.020 vera í lagi en 19.070 var hafnað. Í öðrum áfanga veturinn 2016–2017 hlustuðu tveir rannsóknarmenn á óstytta útgáfu af þeim raddsýnum sem var hafnað og flokkuðu þau nánar. Af þeim reyndust 8.548 vera í lagi. Samtals er því talið að 108.568 raddsýni séu í lagi og eru þau aðgengileg á þessari síðu.

Fjórir rannsóknarmenn hlustuðu á 3000 raddsýni sem valin voru af handahófi af þeim raddsýnum sem voru athuguð í fyrstu umferð. Allir hlustuðu á öll raddsýnin. Niðurstöður komu heim og saman við niðurstöður þeirra sem fóru yfir raddsýni sem var hafnað í fyrstu umferð.

Sjálfseignarstofnunin Almannrómur sem mun standa að smíði máltæknilausna fyrir íslensku var stofnuð 5. júní 2014. Þess vegna var ákveðið að kalla gagnasafnið sem hér er veittur aðgangur að Málróm. 

Frekari upplýsingar má finna í greininni Almannarómur: An Open Icelandic Speech Corpus og Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech (sjá Heimildir).



1Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Málróms vinsamlegast vitnið í:

Jón Guðnason, Oddur Kjartansson, Jökull Jóhannsson, Elín Carstensdóttir, Hannes Högni Vilhjálmsson, Hrafn Loftsson, Sigrún Helgadóttir, Kristín M. Jóhannsdóttir og Eiríkur Rögnvaldsson. 2012. Almannarómur: An Open Icelandic Speech Corpus. Proceedings of SLTU ’12, 3rd Workshop on Spoken Languages Technologies for Under-Resourced Languages, Cape Town, Suður-Afríku.

Steinþór Steingrímsson, Jón Guðnason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2017. Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech. Proceedings of the 21st Nordic Conference of Computational Linguistics (NODALIDA 2017). Gautaborg, Svíþjóð, maí 2017. Linköping University Press. Svíþjóð.


Hafið samband
Steinþór Steingrímsson
Verkefnisstjóri
Stofnun Árna Magnússonar í íslenskum fræðum
Skrifstofa: Laugavegi 13
Vinnusími: +354-525-4438
Netfang: steinthor.steingrimsson@arnastofnun.is


Heimildir
Jón Guðnason, Oddur Kjartansson, Jökull Jóhannsson, Elín Carstensdóttir, Hannes Högni Vilhjálmsson, Hrafn Loftsson, Sigrún Helgadóttir, Kristín M. Jóhannsdóttir og Eiríkur Rögnvaldsson. 2012. Almannarómur: An Open Icelandic Speech Corpus. Proceedings of SLTU ’12, 3rd Workshop on Spoken Languages Technologies for Under-Resourced Languages, Cape Town, Suður-Afríku.

Steinþór Steingrímsson, Jón Guðnason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2017. Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech. Proceedings of the 21st Nordic Conference of Computational Linguistics (NODALIDA 2017). Gautaborg, Svíþjóð, maí 2017. Linköping University Press. Svíþjóð.