ParIce er ensk-íslensk samhliða málheild sem er ætluð fyrir þjálfun á vélþýðingabúnaði. Hún samanstendur af ýmsum undirmálheildum, sumar sem voru settar saman frá grunni og aðrar sem var safnað af vefnum og síðan samraðað og síaðar, sjá nánar í Barkarson and Steingrímsson, 2019. Compiling and Filtering ParIce: An English-Icelandic Parallel Corpus. Í heildina inniheldur samhliða málheildin rúmlega 3.5 milljón samhliða setningapör.
Undirmálheild | Setningapör |
---|---|
Biblían | 32,964 |
Bækur | 12,416 |
EEA skjöl | 1,701,172 |
Lyfjastofnun Evrópu | 404,333 |
ESO | 12,633 |
KDE4 | 49,912 |
OpenSubtitles | 1,305,827 |
Íslendingasögur | 17,597 |
Hagstofa Íslands | 2,288 |
Tatoeba | 8,263 |
Ubuntu | 10,572 |
Nánari upplýsingar má nálgast í greininni.
Málheildin er gefin út með CC BY 4.0 leyfi og henni má hlaða niður hér.
Útgáfu af málheildinni sem er síuð í samræmi við lýsingar í greininni Jónsson et al., 2020 má hlaða niður hér. Æskilegt er að vísa í greinina ef þessi útgáfa er notuð.
Prófunar- og þjálfunarhluti af málheildinni var útbúinn og notaður í greininni Jónsson et al., 2020. Prófunargögnin, samtals 12260 þýddar setningar, voru leiðréttar handvirkt upp að vissu marki. Þessum hlutum má hlaða niður hér.
Málheildin er aðgengileg til leitar sem skilar niðurstöðum í formi orða eða orðasambanda í samhengi (e. KWIC), sjá hér.
Eftirfarandi aðilar hafa unnið að málheildinni
Starkaður Barkarson, textasöfnun, samröðun og síun
Steinþór Steingrímsson, textasöfnun, samröðun og síun
Þórður Arnar Árnason, yfirferð á prónunargögnum
Þórdís Dröfn Andrésdóttir, yfirferð á prónunargögnum
Fyrsta útgáfa málheildarinnar: Sækja
Síuð útgáfa sem er lýst í Jónsson et al., 2020: Sækja
OPUS inniheldur ógrynni samhliða gagna, þar á meðal 8.1 milljón setninga á ensku-íslensku. Vert er að taka fram að samröðun og síun á ensku-íslensku er ekki alltaf fullkomin í OPUS.
EN-IS Samhliða gervimálheild inniheldur um 76 milljón bakþýddar setningar. 45 milljónir þýddar af ensku á yfir á íslensku og 31 milljón þýddar af íslensku yfir á ensku.
EN-IS Samhliða hálfgervimálheild (vantar: Name Robustness) inniheldur um 38 þúsund setningar þar sem mannanöfn hafa verið merkt sérstaklega beggja vegna í hverju setningapari og þeim svo skipt út fyrir önnur nöfn af sama kyni og í sama falli. Þetta getur hjálpað þýðingarlíkani að sjá mun fleiri mannanöfn en það myndi annars gera.
UD Icelandic PUD inniheldur 1000 setningar á íslensku og ensku, þýddar af ensku, sem hægt er að nota sem prófunargögn.
Þegar birtar eru niðurstöður rannsókna þar sem ParIce gögnin eru notuð skal vísa í eftirfarandi grein:
@inproceedings{barkarson-steingrimsson-2019-compiling,
title = "Compiling and Filtering {P}ar{I}ce: An {E}nglish-{I}celandic Parallel Corpus",
author = "Barkarson, Starka{\dh}ur and Steingr{\'\i}msson, Stein{\th}{\'o}r",
booktitle = "Proceedings of the 22nd Nordic Conference on Computational Linguistics",
year = "2019",
address = "Turku, Finland",
publisher = {Link{\"o}ping University Electronic Press},
url = "https://www.aclweb.org/anthology/W19-6115",
pages = "140--145",
}
Þegar síuð útgáfa samhliða málheildarinnar sem lýst er í Jónsson et al., 2020, er notuð skal einnig vísa í eftirfarandi grein:
@inproceedings{DBLP:conf/tsd/JonssonSSSL20,
author = {Haukur P{\'{a}}ll J{\'{o}}nsson and Haukur Barri S{\'{\i}}monarson and V{\'{e}}steinn Sn{\ae}bjarnarson and Stein{\th}{\'{o}}r Steingr{\'{\i}}msson and Hrafn Loftsson},
editor = {Petr Sojka and Ivan Kopecek and Karel Pala and Ales Hor{\'{a}}k},
title = {Experimenting with Different Machine Translation Models in Medium-Resource Settings},
booktitle = {Text, Speech, and Dialogue - 23rd International Conference, {TSD} 2020, Brno, Czech Republic, September 8-11, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12284},
pages = {95--103},
publisher = {Springer},
year = {2020},
doi = {10.1007/978-3-030-58323-1\_10},
}