Koltansaamen oikolukusovellusta testaamalla edistät kieliteknologisten resurssien kehitystä
Vuoden 2014 joulukuussa Koneen Säätiö myönsi kahden vuoden stipendirahoitusta Koltansaamen elvytys kieliteknologia-avusteisen kielenoppimisohjelmien avulla sekä mallin ja ohjeiden laatiminen menetelmän siirtämiseksi toisiin uhanalaisiin kieliin -nimiselle projektille.
Kieliteknologian kehitys perustuu suurelta osin tietokoneiden avulla tehtävään perinteisen kielentutkimuksen tulosten soveltamiseen. Tässä projektissa kehitys perustuu myös avoimuuteen, mikä ilmenee toteutuksessa käytettävistä ohjelmista ja sovelluksista. Samalla kun on kehitetty kielitieteilijöille transduktoriteknologiaan perustuvia morfologisia analysaattoreita, on todettu, että tunnistetut muodot voisivat olla myös oikein kirjoitettuja sanamuotoja. Tämä oivallus on merkinnyt sitä, että pienin kohennuksin, kielitieteellisestä morfologisesta analysaattorista voisikin saada oikeinkirjoitussovelluksen.
Transduktorit, joita käytetään näissä oikolukusovelluksissa, ovat melko pieniä, vain 6 kk kehityksen aikaansaannoksia. Näin ripeää kehitystä ovat mahdollistaneet koltansaamen tutkimus-, opetus- sekä sanakirjatyö. Tätä työtä ovat tehneet koltansaamelaiset sekä muut kiinnostuneet ihmiset ja laitokset.
Kiitokset kuuluvat: HFST ja Voikko-kehittäjille,
Giellatekno ja Divvun -infran työntekijöille sekä
tämän projektin rahoittajalle Kone Säätiölle.
Kehitysasteesta
Koltansaamen oikolukusovelluksen kehitystä voidaan esitellä kahtena osana: tekninen puoli ja leksikkomorfologinen puoli.
Tekninen puoli on lähes julkaisukelpoinen, siinä pitää kohentaa vielä oikeinkirjoitusehdotusten nopeutta. Tätä puolta kehitetään Divvunin, Voikon ja HFST:n yhteistyössä, ja se arvioidaan olevan valmiina loppukesästä 2015.
Leksikkomorfologinen puoli perustuu sanastollisesti Pekka Sammallahden, Satu ja Jouni Moshnikoffien, Eino Koposen ja Michael Rießlerin johtaman Østsamisk -projektin leksikografiseen työhön. Muoto-opillisessa toteutuksessa on hyödynnetty Pekka Sammallahden, Eino Koposen, Satu ja Jouni Moshnikoffien sekä Timothy Feistin kieliopillisia kuvauksia. Erittäin hyödyllisiä ovat myös olleet Tiina Sanila-Aikion koltansaamen opetusta varten tekemät substantiiviparadigmat sekä koltansaamen normitetut lainasanat -pöytäkirjan liite 1-23-5-2014. Johto-opin kysymyksissä olen saanut myös rakentavaa palautetta Miika Lehtiseltä.
Koneen Säätiön rahoituksen aikana (1.1.2015 lähtien) on päästy seuraavanlaisiin tuloksiin:
Raakakorpus | Puhdistettu raakakorpus | Tarkistettu korpus | Puhdistettu tarkistettu korpus | ||||||
---|---|---|---|---|---|---|---|---|---|
sanamäärä | ainutkertaiset sanamuodot | sanamäärä | ainutkertaiset sanamuodot | sanamäärä | ainutkertaiset sanamuodot | sanamäärä | ainutkertaiset sanamuodot | ||
27.5.2015 | yhteensä | 108.375 (a) | 19.479 (b) | 83.004 (c) | 18.204 (d) | 5.101 (a) | 2.238 (b) | 3.929 (c) | 2.043 (d) |
tunnistamatta | 31.833 (e) | 11.386 (f) | 24.321 (g) | 10.137 (h) | 1.505 (e) | 1.067 (f) | 1.209 (g) | 887 (h) | |
kattavuus | 70% | 41% | 70% | 44% | 70% | 52% | 69% | 56% | |
25.6.2015 | yhteensä | 110.362 (a) | 19.773 (b) | 84.549 (c) | 18.454 (d) | 5.101 (a) | 2.238 (b) | 3.929 (c) | 2.043 (d) |
tunnistamatta | 31.748 (e) | 11.479 (f) | 24.139 (g) | 10.186 (h) | 1.518 (e) | 1.076 (f) | 1.222 (g) | 896 (h) | |
kattavuus | 71% | 42% | 71% | 45% | 70% | 52% | 69% | 56% |
Vanhempia tilastoja voi katsoa tästä.
Tämä nopea kehitys ei olisi mahdollista ilman käyttäjien palautetta.
Ota Voikko-oxt käyttöön LibreOffice:ssa.
Tai lataa Microsoft Office -versio vain Windowsille: tuorein toimiva sovellus joka yö.
Tutustu täydennystyöhön.
Testauksesta otetaan mielellään kommenteja vastaan
etunimi.sukunimi@helsinki.fi
Jack Rueter
Yhteystiedot Jack Rueter: etunimi.sukunimi(åt)helsinki.fi .