CLARIN-IS varðveislusafn

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.

Málheildir

Trjábankar

  • Samtímalegi íslenski trjábankinn (IceConTree) 1.1 | 1.0
  • Sögulegi íslenski trjábankinn (IcePaHC) 0.9 
  • Sögulegi færeyski trjábankinn 0.1
  • NeuralMIcePaHC 20.05 | 20.04
  • GreynirCorpus 21.06 | 20.05 | 20.05
  • UD GreynirCorpus 22.06

Markaðar einmálamálheildir

Villumálheildir

  • Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
  • Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0
  • Villumálheild íslensku sem annars máls (IceL2EC) 1.3 | 1.2 | 1.1 | 1.0
  • Íslenska lesblinduvillumálheildin (IceDEC) 1.2 | 1.1 | 1.0
  • Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0
  • Óorð íslensku villumálheildarinnar 20.09
  • Listi af handleiðréttum atriðum í lokaritgerðum 22.10

Samhliða málheildir

  • ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10 
  • ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05
  • Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
  • Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
  • Icelandic-English Parallel Sentence Extraction Dataset 21.10
  • En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
  • Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
  • Samhliða gervimálheild (EN-IS) 21.07 | 20.09
  • En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
  • En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
  • cities_is2en 20.09 | 20.05
  • countries_is2iso 20.09 | 20.05
  • isprep4cc 20.09 | 20.05
  • isprep4isloc 20.09 | 20.05
  • Long Context Synthetic Translation Pairs for English and Icelandic 22.09
  • Optimized Long Context Translation Models for English-Icelandic translations 22.09

Raddsýni og upptökur

  • Talrómur 21.02
  • Talrómur 2 22.10 21.12
  • Samrómur 21.05
  • Samrómur - fyrirspurnir  21.12
  • Samrómur - börn 21.09
  • Samrómur - L2 22.09
  • Samrómur - hermun 22.09
  • Samromur - óstaðfest 22.07
  • Spjallrómur - Icelandic Conversational Speech 22.01
  • Kennslurómur - Icelandic Lectures 22.01
  • Raddrómur - íslensk talgögn 22.09
  • RÚV TV data 20.12
  • RUV TV unknown speakers 22.02
  • Islex upptökur 1.0 
  • Test Set for TTS Intelligibility Tests 22.01
  • Hjal málheildin sækja 
  • Málrómur sækja 
  • Alþingisumræður sækja   
  • Alþingisgögnin (til talgreiningar) sækja 
  • Jensson málheildin sækja
  • Þór málheildin sækja
  • Rúv málheildin sækja
  • Ravnursson - upptökur og hljóritanir á færeysku sækja

Aðrar málheildir

  • Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
  • Málheild fyrir textanormun (Text Normalization Corpus) 21.10
  • NQiI - Natural Questions In Icelandic 1.1 | 1.0
  • Íslenska WinoGrande málheildin 1.0
  • RUQuAD - Málheild með spurningum og svörum (Háskólinn í Reykjavík ) 22.02

Orðasöfn og orðabækur

Orðabækur og orðanet

Önnur orðasöfn

  • BÍN - skammstafanir 21.10
  • Stopporðalisti fyrir Risamálheildina 21.08
  • Gold Alignments for English-Icelandic Word Alignments 21.04
  • IceBATS - The Icelandic Bigger Analogy Test Set 21.06
  • Icelandic Multi-SimLex 21.06
  • Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1
  • Þýðingar á stofnunum, fyrirtækjum og titlum 22.01
  • Orðtíðnilisti Málheildar fyrir íslenskan námsorðaforða (MÍNO) 1.0
  • Listi yfir íslenskan námsorðaforða (LÍNO) 1.0
  • Orðasambönd á íslensku og ensku 22.09

Mállýsingar

Beygingarlýsing íslensks nútímamáls

Annað

  • Icegrams 1.1.1 | 20.09
  • Icelandic Pronunciation 20.10
  • Íslensk mállíkön með framburðarorðabók 22.01
  • Framburðarorðabókin sækja 
  • Almenn framburðarorðabók fyrir talgreiningu sækja 
  • Mynstur og setningar sækja 

Hugbúnaður og líkön

Tókarar, pos-markarar, lemmöld og þáttarar

Nafnaþekkjarar

  • Icelandic NER API - Ensamble model 21.09
  • Icelandic NER API - ELECTRA-base model 21.05

Þýðingarvélar og líkön

  • GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirT2T - En--Is NMT með Tensor2Tensor 1.0
  • GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0
  • MT: Moses-SMT 1.0
  • GreynirSeq Domain Translation Pipeline 22.06
  • Íslenskt-pólskt þýðingarlíkan (tvíátta)  22.09
  • Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
  • Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09

Talgreining

  • RÚV-DI Speaker Diarization 21.10 | 20.09
  • RÚV-DI Speaker Diarization v5 models 21.05
  • Tiro: Vefgátt fyrir talgreiningu 1.0
  • Samrómur-börn - sýnisforskriftir fyrir Kalda  22.01
  • Samrómur-unglingar - sýnisforskriftir fyrir Kalda  22.06
  • Samrómur-L2 - sýnisforskriftir fyrir Kalda 22.10
  • Samrómur-NeMo sýnisforskriftir fyrir Kalda 22.06
  • Samrómur-DeepSpeech sýnisforskriftir fyrir Kalda 22.06
  • Greinarmerkingarlíkan 20.09
  • Íslenskt 6-stæðu mállíkan fyrir NeMo (Binary útgáfa) 22.06
  • DeepSpeech matsgjafi fyrir íslensku 22.06
  • Heyra 1.0
  • Raddskipanir og fyrirspurnir 22.10

Talgerving

  • Tiro: TTS vefþjónusta 22.10 | 22.06 | 1.0
  • FED-tól  fyrir einkenni hljóðvistar með mælendaupplýsingum 20.09
  • MOSI: hugbúnaður til að meta gæði hljóðgervingar 22.01
  • Webrice-viðbótin 22.09 | 22.01
  • WebRICE - Veflesari 21.06
  • TTS Textavinnsla 22.10
  • TTS Skjalalesari 22.10
  • Íslenskur talgervill fyrir Android 22.10
  • Multi-speaker GlowTTS líkan fyrir Talrómur 2 (forútgáfa) 22.10
  • GlowTTS líkan fyrir Talrómur 1 22.10
  • Talrómur: TTS-líkan 22.10

Ýmis verkfæri fyrir talgreiningu og talgervingu

  • MAFIA (Match-Finder Aligner): Tal/texta-samhliðunartól 22.06
  • Tækjasafn fyrir talmálsheildir 22.06
  • Upload2S3 22.06
  • Hljóðritunarforrit (g2p) fyrir íslensku 22.10

Hljóðritun

  • Hljóðritunarlíkön fyrir íslensku 20.10
  • Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
  • Vefviðmót til þess að vinna með framburðarorðabækur. 20.10
  • g2p-þjónusta 20.11

Málrýni

  • Multilabel Error Classifier (Icelandic Error Corpus categories) for Sentences 22.01
  • GreynirCorrect 3.4.5 | 3.4.43.2.1 | 3.2.0 | 1.0.2
  • Yfirlestur 1.0.1 | 1.0.0
  • Yfirlestur Docs 22.10
  • Yfirlestur Word 22.10
  • Leiðréttingarlíkan fyrir íslensku (fínþjálfað byT5-base Transformer-líkan) - Yfirlestur 22.09
  • Villuflokkari (flokkar íslensku villumálheildarinnar) fyrir tóka 22.05
  • Hunspell-IS. Villuleit, málfræðigreining og samheitaorðabók fyrir íslensku. sækja
  • ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga  22.09
  • Spell and grammar checking – Thesis testing 22.10
  • Villurýnir fyrir Android 22.10

Orðgreypingar

  • Orðgreypingar – Word2Vec fínstillt fyrir IceBATS 22.04
  • Orðgreypingar – GloVe fínstillt IceBATS 22.04
  • Orðgreypingar - FastText fínstillt fyrir IceBATS 22.04

Annað

  • Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0
  • Skiptir 20.10
  • Annotald 1.0.0
  • GreynirSeq - málvinnsluhugbúnaður fyrir íslensku  0.2.0
  • Leiðréttingarforrit fyrir ljóslesin (OCR) texta á íslensku 22.10
  • AnySoftKeyboard (lyklaborð fyrir Android) með nýrri, íslenskri ritspá 22.10
  • IceEval - Viðmið fyrir mat og samanburð á íslenskum mállíkönum 22.09

Önnur gögn

Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.

Orðasöfn og orðabækur

Málheildir - textaskrár