ParIce

ParIce er ensk-íslensk samhliða málheild sem er ætluð fyrir þjálfun á vélþýðingabúnaði. Hún samanstendur af ýmsum undirmálheildum, sumar sem voru settar saman frá grunni og aðrar sem var safnað af vefnum og síðan samraðað og síaðar, sjá nánar í Barkarson and Steingrímsson, 2019. Compiling and Filtering ParIce: An English-Icelandic Parallel Corpus. Í heildina inniheldur samhliða málheildin rúmlega 3.5 milljón samhliða setningapör.

Undirmálheild Setningapör
Biblían 32,964
Bækur 12,416
EEA skjöl 1,701,172
Lyfjastofnun Evrópu 404,333
ESO 12,633
KDE4 49,912
OpenSubtitles 1,305,827
Íslendingasögur 17,597
Hagstofa Íslands 2,288
Tatoeba 8,263
Ubuntu 10,572

Nánari upplýsingar má nálgast í greininni.

Málheildin er gefin út með CC BY 4.0 leyfi og henni má hlaða niður hér.

Útgáfu af málheildinni sem er síuð í samræmi við lýsingar í greininni Jónsson et al., 2020 má hlaða niður hér. Æskilegt er að vísa í greinina ef þessi útgáfa er notuð.

Prófun/þjálfun

Prófunar- og þjálfunarhluti af málheildinni var útbúinn og notaður í greininni Jónsson et al., 2020. Prófunargögnin, samtals 12260 þýddar setningar, voru leiðréttar handvirkt upp að vissu marki. Þessum hlutum má hlaða niður hér.

Leitarviðmót (KWIC)

Málheildin er aðgengileg til leitar sem skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC), sjá hér.

Fólkið á bak við málheildina

Eftirfarandi aðilar hafa unnið að málheildinni

Starkaður Barkarson, textasöfnun, samröðun og síun
Steinþór Steingrímsson, textasöfnun, samröðun og síun
Þórður Arnar Árnason, yfirferð á prónunargögnum
Þórdís Dröfn Andrésdóttir, yfirferð á prónunargögnum

Niðurhal

Fyrsta útgáfa málheildarinnar: Sækja

Síuð útgáfa sem er lýst í Jónsson et al., 2020: Sækja

Prófunar/þjálfunargögn

Önnur ensk-íslensk samhliða gögn

OPUS inniheldur ógrynni samhliða gagna, þar á meðal 8.1 milljón setninga á ensku-íslensku. Vert er að taka fram að samröðun og síun á ensku-íslensku er ekki alltaf fullkomin í OPUS.

EN-IS Samhliða gervimálheild inniheldur um 76 milljón bakþýddar setningar. 45 milljónir þýddar af ensku á yfir á íslensku og 31 milljón þýddar af íslensku yfir á ensku.

EN-IS Samhliða hálfgervimálheild (vantar: Name Robustness) inniheldur um 38 þúsund setningar þar sem mannanöfn hafa verið merkt sérstaklega beggja vegna í hverju setningapari og þeim svo skipt út fyrir önnur nöfn af sama kyni og í sama falli. Þetta getur hjálpað þýðingarlíkani að sjá mun fleiri mannanöfn en það myndi annars gera.

UD Icelandic PUD inniheldur 1000 setningar á íslensku og ensku, þýddar af ensku, sem hægt er að nota sem prófunargögn.

Tilvísanir

Þegar birtar eru niðurstöður rannsókna þar sem ParIce gögnin eru notuð skal vísa í eftirfarandi grein:

    @inproceedings{barkarson-steingrimsson-2019-compiling,
    title = "Compiling and Filtering {P}ar{I}ce: An {E}nglish-{I}celandic Parallel Corpus",
    author = "Barkarson, Starka{\dh}ur and Steingr{\'\i}msson, Stein{\th}{\'o}r",
    booktitle = "Proceedings of the 22nd Nordic Conference on Computational Linguistics",
    year = "2019",
    address = "Turku, Finland",
    publisher = {Link{\"o}ping University Electronic Press},
    url = "https://www.aclweb.org/anthology/W19-6115",
    pages = "140--145",
    }

Þegar síuð útgáfa samhliða málheildarinnar sem lýst er í Jónsson et al., 2020, er notuð skal einnig vísa í eftirfarandi grein:

    @inproceedings{DBLP:conf/tsd/JonssonSSSL20,
    author = {Haukur P{\'{a}}ll J{\'{o}}nsson and Haukur Barri S{\'{\i}}monarson and V{\'{e}}steinn Sn{\ae}bjarnarson and Stein{\th}{\'{o}}r Steingr{\'{\i}}msson and Hrafn Loftsson},
    editor = {Petr Sojka and Ivan Kopecek and Karel Pala and Ales Hor{\'{a}}k},
    title = {Experimenting with Different Machine Translation Models in Medium-Resource Settings},
    booktitle = {Text, Speech, and Dialogue - 23rd International Conference, {TSD} 2020, Brno, Czech Republic, September 8-11, 2020, Proceedings},
    series = {Lecture Notes in Computer Science},
    volume = {12284},
    pages = {95--103},
    publisher = {Springer},
    year = {2020},
    doi = {10.1007/978-3-030-58323-1\_10},
    }