Þór-málheildin



Þór-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er tveir klukkutímar að lengd með 4000 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).


NOTA ÞÓR

• Ef þú vilt sækja gagnagrunninn, hafðu samband við Arnar Jensson sem mun senda þér tengil.

Um Þór-málheildina
Almennar upplýsingar

Þór-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er tveir klukkutímar að lengd með 4000 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).

Í málheildinni eru 20 málhafar, 10 kvenmenn og 10 karlmenn. Hljóðskrárnar fyrir hvern málhafa eru í undirmöppum. Í möppu 'm7' eru skrár fyrir karlmann númer 7. Hver málhafi les um það bil 200 setningar úr upplýsingum um veðurfar.

Textinn var þýddur úr JUPITER-málheildeinni frá MIT. 1000 einstakar setningar voru valdar af handahófi úr JUPITER-málheildinni og þýddar. Erlendu staðarnöfnin voru merkt og þeim skipt út fyrir íslensk staðarnöfn sem valin voru af handahófi. Örfá erlend staðarnöfn fengu að halda sér.

Textasafnið inniheldur spurningar um veðrið (meðalstór orðaforði). Heildarorðaforði fyrir þetta ákveðna svið er um 2000 orðmyndir. Hver málhafi les 20 segðir og er mismunandi eftir málhöfum hverjar þær eru.

Upptökur fóru fram í apríl 2005 til október 2005 og var eftirtalinn búnaður notaður:
  • Upptökutæki: SONY stafrænt hljóðupptökutæki "TDC-D100" á tíðni 48kHz
  • Spóla: SONY DAT stafræn hljóðspóla, "10DT-120RA J"
  • Hljóðnemi: Sennheizer HMD 25-1
DAT-spólum var breytt í stafrænt form með:
  • Sony stafrænu upptökutæki "DTC-2000ES"
  • "DAT-Link+" frá Townshend Computer Tools
Skráin transcriptions.rtf hefur að geyma umritun allra töluðu segðanna á íslensku.

Þar að auki fylgir textaskráin "text.xml" öllum undirmöppum. Hver lína lýsir tiltekinni hljóðskrá í möppunni. Lína 16 er þannig umritun á hljóðskránni "16.wav", o.s.frv. Hins vegar er betra að nota skrána transcription.rtf.

Hljóðskrár sem hafa nafnaukann ".wav.notused" voru ekki taldar nógu góðar til að verða hluti af málheildinni.

Upplýsingar um málhafa

Eftirfarandi upplýsingar eru um málhafana, aldur þeirra, stað í upphaflegu DAT-upptökunum og línurnar sem þeir lásu.

Málhafa# Kyn Aldur DAT spóla staður Línur lesnar Bútað
(sec)
f1 F NA E2 NA 1 - 210 374
f2 F NA E2 NA 1 - 210 454
f3 F 21 E3 0:00:00 - 0:11:41 111 - 330 324
f4 F 22 E3 0:13:00 - 0:23:04 111 - 330 304
f5 F 22 E3 0:24:00 - 0:35:55 221 - 440 396


Enginn málhafanna í Þór-málheildinni tók þátt í Jensson-málheildinni eða RÚV-málheildinni.


Hafið samband
Arnar Þór Jensson
Netfang: arnarjensson@gmail.com