Koltansaamen oikolukusovellusta testaamalla edistät kieliteknologisten resurssien kehitystä

Vuoden 2014 joulukuussa Koneen Säätiö myönsi kahden vuoden stipendirahoitusta Koltansaamen elvytys kieliteknologia-avusteisen kielenoppimisohjelmien avulla sekä mallin ja ohjeiden laatiminen menetelmän siirtämiseksi toisiin uhanalaisiin kieliin -nimiselle projektille.

Kieliteknologian kehitys perustuu suurelta osin tietokoneiden avulla tehtävään perinteisen kielentutkimuksen tulosten soveltamiseen. Tässä projektissa kehitys perustuu myös avoimuuteen, mikä ilmenee toteutuksessa käytettävistä ohjelmista ja sovelluksista. Samalla kun on kehitetty kielitieteilijöille transduktoriteknologiaan perustuvia morfologisia analysaattoreita, on todettu, että tunnistetut muodot voisivat olla myös oikein kirjoitettuja sanamuotoja. Tämä oivallus on merkinnyt sitä, että pienin kohennuksin, kielitieteellisestä morfologisesta analysaattorista voisikin saada oikeinkirjoitussovelluksen.

Transduktorit, joita käytetään näissä oikolukusovelluksissa, ovat melko pieniä, vain 6 kk kehityksen aikaansaannoksia. Näin ripeää kehitystä ovat mahdollistaneet koltansaamen tutkimus-, opetus- sekä sanakirjatyö. Tätä työtä ovat tehneet koltansaamelaiset sekä muut kiinnostuneet ihmiset ja laitokset.
Kiitokset kuuluvat: HFST ja Voikko-kehittäjille,
Giellatekno ja Divvun -infran työntekijöille sekä
tämän projektin rahoittajalle Kone Säätiölle.


Kehitysasteesta

Koltansaamen oikolukusovelluksen kehitystä voidaan esitellä kahtena osana: tekninen puoli ja leksikkomorfologinen puoli.

Tekninen puoli on lähes julkaisukelpoinen, siinä pitää kohentaa vielä oikeinkirjoitusehdotusten nopeutta. Tätä puolta kehitetään Divvunin, Voikon ja HFST:n yhteistyössä, ja se arvioidaan olevan valmiina loppukesästä 2015.

Leksikkomorfologinen puoli perustuu sanastollisesti Pekka Sammallahden, Satu ja Jouni Moshnikoffien, Eino Koposen ja Michael Rießlerin johtaman Østsamisk -projektin leksikografiseen työhön. Muoto-opillisessa toteutuksessa on hyödynnetty Pekka Sammallahden, Eino Koposen, Satu ja Jouni Moshnikoffien sekä Timothy Feistin kieliopillisia kuvauksia. Erittäin hyödyllisiä ovat myös olleet Tiina Sanila-Aikion koltansaamen opetusta varten tekemät substantiiviparadigmat sekä koltansaamen normitetut lainasanat -pöytäkirjan liite 1-23-5-2014. Johto-opin kysymyksissä olen saanut myös rakentavaa palautetta Miika Lehtiseltä.

Koneen Säätiön rahoituksen aikana (1.1.2015 lähtien) on päästy seuraavanlaisiin tuloksiin:

Raakakorpus Puhdistettu raakakorpus Tarkistettu korpus Puhdistettu tarkistettu korpus
sanamäärä ainutkertaiset sanamuodot sanamäärä ainutkertaiset sanamuodot sanamäärä ainutkertaiset sanamuodot sanamäärä ainutkertaiset sanamuodot
27.5.2015 yhteensä 108.375 (a) 19.479 (b) 83.004 (c) 18.204 (d) 5.101 (a) 2.238 (b) 3.929 (c) 2.043 (d)
tunnistamatta 31.833 (e) 11.386 (f) 24.321 (g) 10.137 (h) 1.505 (e) 1.067 (f) 1.209 (g) 887 (h)
kattavuus 70% 41% 70% 44% 70% 52% 69% 56%
25.6.2015 yhteensä 110.362 (a) 19.773 (b) 84.549 (c) 18.454 (d) 5.101 (a) 2.238 (b) 3.929 (c) 2.043 (d)
tunnistamatta 31.748 (e) 11.479 (f) 24.139 (g) 10.186 (h) 1.518 (e) 1.076 (f) 1.222 (g) 896 (h)
kattavuus 71% 42% 71% 45% 70% 52% 69% 56%

(a) = corpus |preprocess| wc
(b) = corpus |preprocess|sort|uniq| wc
(c) = corpus |preprocess|egrep '([a-zA-ZäÄåÅâÂčČšŠžŽǯǮǧǦǩǨǥǤđĐ])'| wc
(d) = corpus |preprocess|egrep '([a-zA-ZäÄåÅâÂčČšŠžŽǯǮǧǦǩǨǥǤđĐ])'|sort|uniq| wc
(e) = corpus |preprocess|husms|grep '+?'| wc
(f) = corpus |preprocess|husms|grep '+?'|sort|uniq| wc
(g) = corpus |preprocess|egrep '([a-zA-ZäÄåÅâÂčČšŠžŽǯǮǧǦǩǨǥǤđĐ])'|husms|grep '+?'| wc
(h) = corpus |preprocess|egrep '([a-zA-ZäÄåÅâÂčČšŠžŽǯǮǧǦǩǨǥǤđĐ])'|husms|grep '+?'|sort|uniq | wc

Tarkistettuun korpukseen olen toistaiseksi saanut yksittäisiä tiedostoja muun muassa Merja Fofonoffilta ja Satu Moshnikoffilta.
Samana päivänä kun tulee uusi tilasto, tulee myös uusi .oxt-sovellus.

Vanhempia tilastoja voi katsoa tästä.

Tämä nopea kehitys ei olisi mahdollista ilman käyttäjien palautetta.


Ota Voikko-oxt käyttöön LibreOffice:ssa.

Tai lataa Microsoft Office -versio vain Windowsille: tuorein toimiva sovellus joka yö.

Tutustu täydennystyöhön.

Testauksesta otetaan mielellään kommenteja vastaan
etunimi.sukunimi@helsinki.fi
Jack Rueter


Yhteystiedot Jack Rueter: etunimi.sukunimi(åt)helsinki.fi .


Last modified: Thu Jun 8 9:26:17 EEST 2006