GullstaðallGullstaðallinn er málheild með um einni milljón orða af textum. Orð í textunum voru mörkuð með sjálfvirkum aðferðum og síðan leiðrétt handvirkt. Textar í málheildinni voru valdir úr textum Markaðrar íslenskrar málheildar (MÍM). Fyrir notkun Gullstaðalsins gildir því leyfi sem byggist á leyfi fyrir MÍM. Gert er ráð fyrir að málheildin verði notuð sem gullstaðall fyrir þjálfun námfúsra markara.


NOTA GULLSTAÐALINN1

Hér má sækja Gullstaðalinn, útg. 0,9. Samþykkja þarf sérstakt notkunarleyfi.
Hér má sækja Gullstaðalinn, útg. 1,0. Samþykkja þarf sérstakt notkunarleyfi.
Hér má sækja þjálfunarpör úr Gullstaðlinum, útg. 1,0. Samþykkja þarf sérstakt notkunarleyfi.

Um Gullstaðalinn
Mörkuð íslensk málheild (MÍM) var gefin út árið 2013. Málheildin hefur að geyma um 25 milljónir orða af textum sem voru ritaðir á fyrsta áratug 21. aldar.

Á vinnslustigi MÍM var tekið úrtak með um einni milljón lesmálsorða úr 13 mismunandi textaflokkum af 23 textaflokkum í MÍM. Nýja málheildin átti að koma í staðinn fyrir textasafn Íslenskrar orðtíðnibókar sem gullstaðall fyrir þjálfun námfúsra markara fyrir íslensku.

Árið 2013 var veittur aðgangur að útgáfu 0,9 af Gullstaðlinum. Nú (2018) er veittur aðgangur að útgáfu 1,0. Hér fyrir neðan er gerð grein fyrir því hvernig Gullstaðallinn var þróaður. Ferlinu er skipt í 5 lotur, tölusettar frá 0 til 4.

Lota 0

Sumarið 2009 fékkst styrkur frá Nýsköpunarsjóði námsmanna2 til þess að ráða stúdent til þess að hefja verkið. Stúdentinn vann á vegum Hrafns Loftssonar í Háskólanum í Reykjavík. Á Stofnun Árna Magnússonar í íslenskum fræðum var tekið úrtak úr MÍM sem stúdentinn síðan vann úr. Textunum var fyrst skipt upp í setningar og lesmálsorð með tilreiðara sem er hluti af IceNLP-hugbúnaðinum. Síðan voru textarnir markaðir með fimm mörkurum: fnTBL, MXPOST, IceTagger, Bidir og TnT (Hrafn Loftsson o.fl., 2010). Tólið CombiTagger var svo nýtt til að kjósa á milli markaranna. Notuð var aðferð þar sem valið var það mark sem flestir markarar velja fyrir hvert orð. Markararnir voru þjálfaðir á textasafni Íslenskrar orðtíðnibókar. Markamengi Orðtíðnibókarinnar liggur því til grundvallar mörkuninni.

Veturinn 2009-2010 hófst leit að kerfisbundnum villum í Gullstaðlinum. Notuð voru villuleitarforrit sem byggðust á því að skoða samræmi í nafnliðum (NP), forsetningarliðum (PP) og sagnliðum (VP) eins og Hrafn Loftsson hefur lýst (2009). Farið var handvirkt yfir stóran hluta þeirra villna sem forritið benti á og þær leiðréttar ef markið reyndist rangt. Nákvæmni mörkunar var síðan metin með því að skoða um 1% úrtak (hudraðasta hvert orð). Mark var talið rétt ef allir stafir í markinu (allt að 6) voru réttir. Niðurstaða varð 92,3% nákvæmni að meðaltali en reyndist á bilinu 87,6‒95,5% eftir textaflokkum (Hrafn Loftsson o.fl., 2010). Verkefnið fékk einnig framlag af styrk 0906621123 frá Rannís.

Lota 1

Sumarið 2010 fékkst annar styrkur frá Nýsköpunarsjóði námsmanna4 til þess að ráða stúdent til þess að skoða mörkun á öllum orðum í Gullstaðlinum. Byrjað var á að fara yfir villur sem fundust í Lotu 0 en höfðu ekki verið leiðréttar (textar úr Morgunblaðinu). Einnig hófst vinna við að fara yfir texta úr prentuðum bókum. Stúdentinn var síðan ráðinn í hlutastarf á skólatíma og á árunum 2010–2011 var farið handvirkt yfir öll lesmálsorð í Gullstaðlinum og mörk leiðrétt. Útgáfa 0,9 af Gullstaðlinum, sem veittur var aðgangur að 2013, hefur að geyma skrárnar eftir þessa umferð af leiðréttingum. Meðalnákvæmni var metin 96,4% og var á bilinu 89,9-98,5% eftir textaflokkum (Sigrún Helgadóttir o.fl., 2014). Verkefnið fékk einnig framlög frá META-NORD5 verkefninu og styrk frá mennta- og menningarmálaráðuneytinu6.

Lota 2

Í lok árs 2012 hófst síðan næsta leiðréttingarlota. Textarnir voru þá markaðir á sjálfvirkan hátt með markaranum IceTagger sem er hluti af IceNLP-hugbúnaðinum. Skrifað var forrit sem bar saman mörk sem IceTagger skilaði og rétt (að því talið var) mörk í málheildinn. Ef ekki var samsvörun voru orðin merkt. Farið var handvirkt yfir þau orð sem þannig voru merkt. Ráðinn var nemandi í fullu starfi sumarið 2013 og í hlutastarfi á skólatíma til þess að skoða villumerkingarnar. Nemandinn sem fór yfir mörkin fékk fyrirmæli um að (i) velja markið sem var fyrir í málheildinni; (ii) velja markið sem IceTagger lagði til; eða (iii) finna rétt mark þegar bæði markið í málheildinni og markið sem IceTagger lagði til reyndust röng. Þegar farið hafði verið yfir um 80% af textunum var meðalnákvæmni metin 99,6% og var á bilinu 99,5-100,0% (Sigrún Helgadóttir o.fl., 2014). Enn einn nemandi var ráðinn seint á árinu 2013 til þess að ljúka yfirferðinni sem síðan lauk árið 2014. Nákvæmni mörkunar var ekki metin með því að skoða úrtak eftir að þessari yfirferð lauk. Leiðréttingavinnan var styrkt að hluta af META-NORD5 verkefninu og einnig af styrk frá mennta- og menningarmálaráðuneytinu6.

Lota 3

Árið 2015 gerðu Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson tilraun með að þjálfa markarann Stagger (Robert Östling, 2012) á Orðtíðnibókinni og Gullstaðlinum (Steinþór Steingrímsson o.fl., 2015). Hrafn Loftsson og Robert Östling gerðu árið 2013 tilraun til þess að þróa íslenskan markara með því að þjálfa og prófa Stagger á Íslenskri orðtíðnibók og náðu 93,84% nákvæmni með því að beita tífaldri krossprófun (Hrafn Loftsson og Robert Östling, 2013). Þar sem þetta var besti árangur sem náðst hafði við mörkun íslensks texta fram að því var ákveðið að prófa forritið á Gullstaðlinum. Samanburður á nákvæmni Staggers þegar hann var þjálfaður annars vegar á Orðtíðnibókinni og hins vegar á Gullstaðlinum leiddi þó í ljós að töluvert var enn af villum og ósamræmi í Gullstaðlinum (Steinþór Steingrímsson o.fl., 2015). Notuð var útgáfa af Gullstaðlinum eftir að handvirkri leiðréttingu var lokið, þ.e. eftir að lotu 2 var lokið. Tilraun Hrafns Loftssonar og Róberts Östling (2013) við að þjálfa og prófa Stagger á Orðtíðnibókinni var endurtekin á Gullstaðlinum. Notaðir voru málþættir fyrir íslensku og forritið IceMorphy (hluti af IceNLP-hugbúnaðinum) sem giskar á mörk óþekktra orða. Einnig var bætt við orðasafni sem byggðist á Beygingu íslensks nútímamáls (BÍN). Með tífaldri krossprófun fékkst 92,76% meðalnákvæmni fyrir Gullstaðalinn. Í framhaldi af þessari niðurstöðu var ákveðið að vinna frekar að því að leiðrétta og samræma mörk í Gullstaðlinum. Búnir voru til villulistar yfir ósamræmi og fengnir stúdentar til þess að fara yfir þá handvirkt. Einnig var markamenginu breytt lítillega. Þessari vinnu lauk seint á árinu 2017. Þessi hluti verkefnisins hlaut styrki frá Málvísindastofnun við Háskóla Íslands7 og mennta- og menningarmálaráðuneytinu8.

Lota 4

Starkaður Barkarson fékk gögn Gullstaðalsins þegar lotu 3 lauk og þjálfaði Stagger á textunum (Starkaður Barkarson, 2017). Nákvæmni mörkunar hafði ekki verið metin með því að skoða úrtak orða eins og gert var eftir fyrri leiðréttingalotur. Starkaður endurtók tilraun sem Steinþór Steigrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson höfðu gert árið 2015. Hann framkvæmdi sambærilega tífalda krossprófun og fékk 92,74% nákvæmni fyrir Gullstaðalinn.

Þrátt fyrir lagfæringar á Gullstaðlinum virtist nákvæmnin ekki hækka. Til þess að ganga úr skugga um að tilraunirnar hafi að öllu leyti verið sambærilegar var tilraun Steinþórs og félaga endurtekin, eftir því sem aðstæður leyfðu. Sami Gullstaðall (fyrir síðustu leiðréttingalotu) var notaður og sama skipting í þjálfunar- og prófunartexta. Gögn BÍN voru ekki að öllu leyti sambærileg þar sem nú var notuð nýrri útgáfa. Með því að nota BÍN og IceMorphy náðist aðeins 92,41% nákvæmni í tilraun Starkaðar, í stað 92,76% í tilraunum Steinþórs og félaga. Starkaður telur því að staðhæfa megi að lagfæringar á Gullstaðlinum hafi leitt til 0,30 prósentustiga aukningar á nákvæmni. Hann telur að orsaka á muninum megi e.t.v. leita í því orða- og endingasafni sem IceMorphy hafði aðgang að því mikill munur er á nákvæmni við greiningu á óþekktum orðum (tæp 15%) en lítill á greiningu þekktra orða (0,09%) (Starkaður Barkarson, 2017).

Breytt markamengi

Til þess að auðvelda málfræðigreininguna og ná meira samræmi var markamengi Orðtíðnibókarinnar breytt lítillega í leiðréttingalotum Gullstaðalsins. Þessar breytingar voru gerðar:
  • Erlend nöfn voru upphaflega mörkuð sem sérnöfn en í lotu 3 voru þau mörkuð sem erlend orð (e). (Steinþór Steingrímsson o.fl., 2015)
  • Í Orðtíðnibókinni voru smáorð sem stóðu á undan greind sem atviksorð (aa). Í lotu 2 voru þau hins vegar greind í Gullstaðlinum sem forsetningar ef á eftir fer fallsetning. Þannig er smáorðið til í setningunni „Hann hljóp til að komast fyrr heim“ greint sem forsetning sem stýrir eignarfalli (ae). (Sigrún Helgadóttir o.fl., 2014; Steinþór Steingrímsson o.fl., 2015; Starkaður Barkarson, 2017).
  • Nánari flokkun á sérnöfnum var lögð af í lotu 3 þannig að mörk allra sérnafna fá nú viðskeytið -s í stað -m (mannanöfn), (örnefni) og -s (önnur sérnöfn) eins og áður. Mögulegum mörkum fækkar þannig um 68. (Steinþór Steingrímsson o.fl., 2015)
  • Í lotu 3 var v tekið upp fyrir vefföng og tölvupóstföng. (Steinþór Steingrímsson o.fl., 2015)
  • Í lotu 3 var as tekið upp fyrir skammstafanir, en áður voru skammstafanir brotnar upp og hver stafur greindur eins og um orð væri að ræða. (Steinþór Steingrímsson o.fl., 2015)
  • Í lotu 3 var ákveðið að öll tölugildi sem rituð eru með tölustöfum og voru áður greind sem frumtölur (tf...) fái markið ta og verði ekki greind frekar í kyn, tölu og fall eins og gert er þegar tölugildi eru rituð með bókstöfum. (Steinþór Steingrímsson o.fl., 2015)
Starkaður Barkarson (2017) fjallar í meistarprófsritgerð sinni um áhrif þess að greina erlend sérnöfn sem e og einnig að nauðsynlegt sé að einfalda greiningu á greinarmerkjum.Útgáfa 0,9

Útgáfa 0,9 af Gullstaðlinum sem veittur var aðgangur að 2013 hefur að geyma skrárnar 13 eftir leiðréttingar í lotu 1. Meðalnákvæmni var metin 96,4% og var á bilinu 89,9-98,5% eftir textaflokkum. Textaskrárnar eru í Linux-sniði og notuð er UTF-8 stafatafla. Snið skránna er þannig að í hverri línu er eitt orð ásamt marki. Orðið er fremst í línu síðan kemur dálkmerki (tab) og þá mark. Setningar eru aðgreindar með auðri línu.

Hér er listi yfir skrár í útgáfu 0,9 af Gullstaðlinum.

Útgáfa 1,0

Í útgáfu 1,0 af Gullstaðlinum sem veittur er aðgangur að á þessu vefsetri eru 13 skrár með öllum leiðréttingum á mörkum sem gerðar hafa verið til 2017 og með breyttu markamengi eins og lýst er að ofan. Textar í skránum eru sambærilegir textum í útgáfu 0,9 nema tilreiðsla hefur verið leiðrétt ásamt því að mörk voru leiðrétt. Textaskrárnar eru í Linux-sniði og notuð er UTF-8 stafatafla. Snið skránna er þannig að í hverri línu er eitt orð ásamt marki. Orðið er fremst í línu síðan kemur dálkmerki (tab) og þá mark. Setningar eru aðgreindar með auðri línu.

Hér er listi yfir skrár í útgáfu 1,0 af Gullstaðlinum.

Veittur er aðgangur að Gullstaðlinum með sérstöku leyfi sem byggist á leyfi fyrir Markaða íslenska málheild (MÍM) þar sem textar Gullstaðalsins voru dregnir úr textum MÍM.1Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Gullstaðalins vinsamlegast vitnið í:

Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools.. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, pp. 53-60. Valetta, Möltu.

Frekari upplýsingar um verkefnið má einnig finna í (Sigrún Helgadóttir o.fl., 2014) og (Steinþór Steingrímsson o.fl., 2015)Samstarfsaðilar og styrkveitendur

Verkið var unnið í samstarfi Stofnunar Árna Magnússonar í íslenskum fræðum, Háskólans í Reykjavík og Háskóla Íslands. Hér er listi yfir helstu aðra styrkveitendur:

2 Nýsköpunarsjóður námsmanna, Mörkun og leiðrétting nýrrar málheildar, apríl 2009. Aðalumsækjandi Hrafn Loftsson.
3 Rannsóknasjóður (RANNÍS), styrkur nr. 090662011, Viable Language Technology beyond English – Icelandic as a test case. 2009. Aðalumsækjandi Eiríkur Rögnvaldsson.
4 Nýsköpunarsjóður námsmanna, Íslensk staðalmálheild, 2010. Aðalumsækjandi Eiríkur Rögnvaldsson.
5 META-NORD. Íslenski hluti verkefnisins META-NORD sem var samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET, styrkur nr. 270899. Markmið þess var að efla málleg gagnasöfn sem nýst geti í margvíslegum máltækniverkefnum og skapa þannig tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu upplýsinga. 1. febrúar 2011 - 31. janúar 2013. Verkefnisstjóri Eiríkur Rögnvaldsson.
6 Mennta- og menningarmálaráðuneytið. Stefna Ríkisstjórnar Íslands um upplýsingasamfélagið.
7 Málvísindastofnun við Háskóla Íslands.
8 Mennta- og menningarmálaráðuneytið. Gerð máltækniáætlunar. Máltækni fyrir íslensku 2018-2022. Júní 2017.Fólkið á bak við verkefnið

Hrafn Loftsson
Eiríkur Rögnvaldsson
Sigrún Helgadóttir
Jökull H. Yngvason
Kristján Friðbjörn Sigurðsson
Steinunn Valbjörnsdóttir
Brynhildur Stefánsdóttir
Jón Friðrik Daðason
Starkaður Barkarson


Að nota Gullstaðalinn
Gullstaðallinn er aðgengilegur á þrenns konar vegu:

1. Hér má sækja Gullstaðalinn, útg. 0,9. Samþykkja þarf sérstakt notkunarleyfi.

2. Hér má sækja Gullstaðalinn, útg. 1,0. Samþykkja þarf sérstakt notkunarleyfi.

3. Hér má sækja þjálfunarpör úr Gullstaðalinum, útg. 1,0. Samþykkja þarf sérstakt notkunarleyfi. Til þess að þjálfa og prófa tiltekna mörkunaraðferð er oft notuð aðferð sem byggist á því að hafa til umráða 10 pör af þjálfunar- og prófunarsöfnum. Í hverju þjálfunarsafni eru um 90% af hverri af 13 skrám Gullstaðalsins, þau 10% sem eftir eru fara í samsvarandi prófunarsafn. Prófunarsöfnin skarast því ekki en þjálfunarsöfnin hafa um 80% sameiginlega texta. Markarinn sem á að prófa er þjálfaður og prófaður á öllum 10 pörum og fundin meðalnákvæmni (þessi aðferð er á ensku kölluð ten-fold cross-validation).


Hafið samband
Netfang: malfong[hja]malfong.is


Heimildir
Hrafn Loftsson. 2009. Correcting a POS-Tagged Corpus Using Three Complementary Methods. In Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009). s. 523-531. Athens, Greece.

Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 53-60. Valetta, Möltu.

Hrafn Loftsson og Robert Östling. 2013. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic. Í Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA-2013), NEALT Proceedings Series 16, Oslo, Norway.

Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2014. Correcting Errors in a New Gold Standard for Tagging Icelandic Text. Proceedings of LREC 2014. s. 2944-2948. Reykjavík.

Starkaður Barkarson. 2017. Þjálfun málfræðimarkarans Stagger með nýjum gullstaðli. MA-ritgerð, Háskóli Íslands, Hugvísindasvið.

Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2015. Analysing Inconsistencies and Errors in PoS Tagging in two Icelandic Gold Standards. Í Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015). s. 287-291. Vilníus, Litháen, maí 2015. Linköping University Press. Svíþjóð.

Östling, R. (2012). Stagger: A modern POS tagger for Swedish. Í Proceedings of the Swedish Language Technology Conference, SLTC, Lund, Sweden.