Hér er veittur aðgangur að samhliða málheild sem inniheldur margvíslega texta á íslensku og ensku, alls 3.589.052 setningapör úr 11 mismunandi textasöfnum. Setningar voru samhliðaðar en einnig voru orð innan setninga samhliðuð. Auk þess voru textar markaðir og lemmaðir.






NOTA SAMHLIÐA MÁLHEILD1

• Leita í málheildinni á málheildarsíðu Stofnunar Árna Magnússonar.
• Sækja skrár samhliða málheildar hér. Með CC BY leyfi.

Um Samhliða málheild
Textarnir
Í textasafni því sem hér er gert aðgengilegt eru textar á íslensku og ensku, þar sem málsgreinar eða hlutar málsgreina tungumálanna tveggja hafa verið pöruð saman. Alls inniheldur málheildin 3.589.052 paraðar línur. Lesmálsorð og greinarmerki íslensku textanna eru samtals 46.727.741.

Textasöfnin eru alls ellefu. Voru textar yfirleitt fengnir úr tiltækum samhliða málheildum (Opus, Tilde, ELRC) eða sóttir af vefsíðum. Nánari upplýsingar um uppruna texta má nálgast hér.

Texti Línur
Biblían 65.241
Skjöl EES 1.701.172
Fylgiseðlar lyfja (Lyfjastofnun Evrópu) 404.333
Fréttatilkynningar Stjörnustöðvar Evrópulanda á suðurhveli (ESO) 12.633
Hagstofa Íslands - af vefsíðu 2.288
Íslensk fornrit 17.597
KDE 4 49.909
Klassískar bókmenntir 12.416
OpenSubtitles 1.304.628
Tatoeba 8.263
Ubuntu 10.572
Samtals 3.589.052


Samhliðun textanna
Textar voru yfirleitt samhliðaðir á þann hátt að hugbúnaðurinn LFaligner (Varga et al., 2005) var látinn lesa inn textaskjöl á íslensku og ensku og para saman textahluta. Lítillegar breytingar voru gerðar á hugbúnaðinum, einkum til að eiga við íslenskar gæsalappir og til að brjóta upp textahluta á semíkommum og tvípunktum.

Við vinnslu KDE4 og Ubuntu var farin önnur leið og notast við xml-skjöl frá Opus og id-númer setninga notuð til að para saman texta. Textarnir voru hreinsaðir af ýmsum óhreinindum. Því næst voru þeir hlutar sem innihéldu fleiri en eina setningu samhliðaðir á ný og þar með brotnir upp með því að nota LFaligner.

Skjöl EMA, eins og þau fengust af vefsvæði Tilde, voru það vel samhliðuð að ekki þótti ástæða til frekari tilrauna.

Næsta skref var að meta gæði samhliðunar og hreinsa skjöl af mögulegum villum með því að senda tmx-skjöl í sérhannaða pípu. Ferlinu er lýst ítarlega í grein Starkaðar og Steinþórs (2019).

Tilreiðsla, mörkun og lemmun
Enskir textar voru tilreiddir, markaðir og lemmaðir með nltk-pakkanum. Íslenskir textar voru tilreiddir með Tokenizer Vilhjálms Þorsteinssonar og því næst markaðir með ABL-tagger (Steingrímsson et al., 2019) og lemmaðir með Nefni (Ingólfsdóttir et al., 2019).

Við mörkun enskra texta var notast við Penn Treebank markamengið. Við mörkun íslenskra texta var markamengið MIM-GULL 1.0 notað. Samskeytt mörkuð málheild Íslenskrar orðtíðnibókar og Gullstaðals var notuð til þess að þjálfa ABL-tagger. Orðasöfn sem notuð voru við mörkunina voru aukin með orðasafni Beygingarlýsingar íslensks nútímamáls (BÍN).

Samhliðun orða
Íslensk og ensk orð eða orðasambönd hvers setningapars voru samhliðuð með því að nota GIZA++ (Och and Ney, 2003).

Fólkið á bak við málheildina

Verkefnisstjórn
Steinþór Steingrímsson

Hugbúnaðargerð
Rose Costa
Starkaður Barkarson



Að nota Samhliða málheild
Allir textarnir (nema þeir sem eiga uppruna sinn á http://opensubtitles.org - sjá neðar) eru aðgengilegir til notkunar á tvenns konar hátt:

1. Leita í textunum. Leitin er aðgengileg á málheildarsíðu Stofnunar Árna Magnússonar. Þar er hægt að leita eftir einu eða fleiri orðum í röð á öðru hvoru tungumálinu og kalla fram allar setningar sem innihalda þau orð, auk þýðingar á setningunni. Hægt er að leita eftir orðmynum eða lemmum og nota málfræðieigindir til að skilgreina leitina nánar. Leitarvélin byggir á Korp.

2. Sækja textana. Allir textarnir, utan texta af opensubtitles.org, eru aðgengilegir á tmx-sniði þar sem setningar hafa verið paraðar saman, og sérstöku xml-sniði, TEI P5, sem er skilgreint af TEI (Text Encoding Initiative), en þar hefur setningum verið skipt upp í tóka sem hafa verið markaðir og lemmaðir. Xml-skjölin innihalda upplýsingar sem nota má til að para saman setningar og orð milli tungumálanna tveggja. Væntanlegir notendur þurfa að skrá sig og samþykkja notkunarskilmála.
Sækja
.

Texta af opensubtitles.org þarf að nálgast á síðunni http://opus.nlpl.eu. Sérhönnuð skrifta er svo notuð til að para saman íslenska og enska texta. Skriftan, og nánari upplýsingar um notkun hennar, fylgja með öðrum gögnum.


1Þegar birtar eru niðurstöður rannsókna sem gerðar eru með aðstoð samhliða málheildarinnar skal það gert þannig: Starkaður Barkarson, Steinþór Steingrímsson. 2019. Compiling and Filtering ParIce: An English-Icelandic Parallel Corpus. Í Proceedings of the 22nd Nordic Conference on Computational Linguistics, Turku, Finnland.


Hafið samband


Heimildir
Dániel Varga, László Németh, Péter Halácsy, András Kornai og Viktor Nagy Viktor Trón. 2005. Parallel corpora for medium density languages. Í Proceedings of the RANLP 2005: 590–596.

Franz Josef Och og Hermann Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19–51.

Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart og Alexander Rush. 2017. OpenNMT: Open-source toolkit for neural machine translation. Í Proceedings of ACL 2017, System Demonstrations:67–72, Vancouver, Canada. Association for Computational Linguistics.

Lilja Ingólfsdóttir. 2019. Towards High Accuracy Named Entity Recognition for Icelandic. Í Proceedings of the 22nd Nordic Conference on Computational Linguistics, Turku, Finnland.

Miquel Esplà-Gomis. 2009. Bitextor: a Free/Opensource Software to Harvest Translation Memories from Multilingual Websites. Í Proceedings of MT Summit XII, Ottawa, Kanada. Association for Machine Translation in the Americas

Starkaður Barkarson, Steinþór Steingrímsson. 2019. Compiling and Filtering ParIce: An English-Icelandic Parallel Corpus. Í Proceedings of the 22nd Nordic Conference on Computational Linguistics, Turku, Finnland.

Steinþór Steingrímsson, Örvar Kárason og Hrafn Loftsson. 2019. Augmenting a BiLSTM tagger with a morphological lexicon and a lexical category identification step. Í Proceedings of RANLP 2019, Varna, Bulgaria.