Jensson-málheildin



Jensson-málheildin er íslensk talmálsheild sem byggir á upplesnum texta sem er veginn með tilliti til hljóðatvennda.


NOTA Jensson

• Ef þú vilt sækja gagnagrunninn, hafðu samband við Arnar Jensson sem mun senda þér tengil.

Um Jensson-málheildina
Jensson-málheildin er 3,8 klukkutímar að lengd með 5.612 segðum (44.1khz 16 bit) frá 20 málhöfum (13kk/7kvk).

Lesni textinn hefur að geyma orð sem voru valin með það í huga að textinn yrði sem stystur þó að hann hafi sem flestar hljóðtvenndir sem koma fyrir í íslensku. Textinn er í spurningaformi. Allir málhafir lásu sama textann, um 11 mínútur af lesnum texta.

1. Upplýsingar um málhafa

SpeakerID Kyn Aldur
1-02-m03 KK 30
2-03-m01 KK 24
2-03-m02 KK 25
2-03-m03 KK 22
2-03-m04 KK 22
2-04-f01 KVK 25
2-04-m05 KK 29
2-04-m06 KK 23
2-04-m07 KK 27
2-05-f02 KVK 32
2-05-m08 KK 27
2-05-m09 KK 33
2-06-f04 KVK 50
2-06-f05 KVK 49
2-06-m10 KK 24
2-07-f06 KVK 30
2-07-f07 KVK 26
2-07-f08 KVK 25
2-07-m11 KK 33
2-08-m12 KK 29

Enginn málhafanna í Jensson-málheildinni tók þátt í Þór-málheildinni eða RÚV-málheildinni.

2. Skipulag gagna

The_Jensson_Corpus/SpeakerID/*.wav - Bútaðar hljóðskrár
intro*.wav - málhafi kynnir sjálfa(n) sig (ekki lesið)
text*.wav - hin eiginlega hljóðtvennda segð (lesinn texti)
woz*.wav - málhafi talar eðlilega (ekki lesið)

Umritun - The_Jensson_Corpus/SpeakerID/transcription.xml - Allar talaðar segðir unmritaðar á íslensku.

Að auki eru þessi skjöl aðgengileg: The_Jensson_Corpus/fileToPhonemeMapText.mlf - Fónemísk umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.

The_Jensson_Corpus/fileToTriPhonemeMapText.mlf - þriggja fónema umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.

The_Jensson_Corpus/fileToPhonemeMapWoz.mlf - fónemísk umritun með tilliti til allra woz matsskránna, þ.e. allar SpeakerID/woz*.wav skrárnar.

The_Jensson_Corpus/jensson.phoneme.dictionary - öll skilgreind fónem í íslensku sem notuð eru í málheildinni.


Hafið samband
Arnar Þór Jensson
Netfang: arnarjensson@gmail.com


Ritaskrá
Arnar Thor Jensson, Koji Iwano, and Sadaoki Furui. Language model adaptation using machine-translated text for resource-deficient languages. Eurasip Journal on Audio, Speech, and Music Processing, vol. 2008, 2008