a picture used to navigate on the page redball magentaball blueball cyanball greenball yellowball clearball

Miscellaneous Projects


| Myspell-fi |



~

Myspell-fi

English 'abstract': Here (or rather, downwards when you scroll down a bit) you'll stumble upon a new, still unfinished but largish version of the new Myspell-fi dictionary file I've been writing, released now under the GPL. Myspell is a proofreader program that e.g. OpenOffice.org and many other utilities as well use natively. The problem with finnish is that in Myspell there's no way of automatically generating compounded words from simple words, and this is a big problem for finnish and other agglutinative languages that rely extensively on compounded words; I've had to write them all down to the dictionary file itself. One thing is clear: it is impossible to achieve anything perfect in finnish this way, but the final program can be sufficiently good for proofreading simple documents or emails. The dictionary file is a complete remake, and the affix file which is still under heavy development is nonetheless based on earlier work.

I would like to express my heartfelt gratitude to friends and colleagues home and abroad whose cheerups, hard work and dedication to their own projects has been a great motivational factor for me during my own - sometimes rather boring work.

-

Täältä sivulta löydät vielä keskeneräisen Myspell-fi -projektini tähänastisia tuloksia, tarkemmin sanottuna Myspell-fi:n kokonaan uudistetun, vielä keskeneräisen sanastotiedoston. Tiedosto on yleisön pyynnöstä julkaistu jo nyt GPL lisenssin alaisuudessa, siinä toivossa että se olisi hyödyksi myös muille samansuuntaisille projekteille, kuten hunspell-fi:lle. Melko kursorista perustietoa Myspellistä löydät esimerkiksi OpenOfficen sivuilta ja nykyisen Myspell_fi:n esimerkiksi Debianin pakettina.

Projektini on ollut jatkuvassa liikkeessä vuoden 2005 huhtikuusta lähtien, kun Soikko ei vielä ollut saatavilla OpenOffice.org 2:lle, eikä avoimen lähdekoodin oikolukua ollut vielä suunnitteilla. Nykyäänhän tilanne on muuttunut molemmilta osin parempaan suuntaan. Myspell -työkalun valitsin lähinnä siksi, että se toimii automaattisesti OOo:n ja monien muiden ohjelmien kanssa, eikä minulla ole riittävästi ohjelmointitaitoa, jotta olisin voinut suunnitella omaa tarkastajaani. Myspellin toimintaperiaate on myös aika idioottivarma, mikä ei ollutkaan aivan huomaamaton ennakkoehto tämän projektin toteutumisen kannalta ;). Myspellin haittapuolina mainittakoon muiden muassa se, ettei työkalulla voi lainkaan automatisoida yhdyssanojen muodostamista, mikä on tietysti aika paha puute agglutinoituvien kielten kanssa työskenteltäessä; kaikki yhdyssanat on kirjoitettava sanastotiedostoon sellaisenaan. Tällä tavalla tarkastuksesta ei ikinä saa täydellistä, mutta ehkä riittävän hyvän yksinkertaisille dokumeneille tai vaikka sähköpostin oikolukuun.

Ehkä yhtenä, aika jännittävänä ja ainakin joltain kannalta positiivisena puolena voi pitää sitä, että Myspell-fi hyväksyy täten ainoastaan semanttisesti järkeviä yhdyssanoja, toisin kuin kaikki muut oikolukijat, jotka noudattavat vain kielioppisääntöjä ja ohittavat oikeina myös 'mielettömiä' tai merkityksettömiä yhdyssanoja.

Olemassaolevan affiksitiedoston paranteleminen osoittautui erityisen vaikeaksi tehtäväksi, enkä ole saanut tällä saralla vielä paljoakaan aikaan. Teen työtä lähinnä äidinkielen ylioppilaskirjoituksissa saadun Laudaturin arvoisen osaamisen pohjalta, joten selvää on että suomen kieliopista paljastuu todella ihmeellisiä asioita joka kerta kun luulen saaneeni jotain valmiiksi. Lisäksi affiksikoodaus vaatii nykyään sietämättömän monta vartaloa eri taivutusmuodoista koodattavan suoraan sanastotiedostoon, joka taas kasvattaa tämän tiedoston kokoa paljon ja suotta. Affiksigeneraatiota voidaan kehittää hieman 'redundanttiin' suuntaan ja siten tämä ongelma voidaan siis suurilta osin kiertää. Valitsemani tehostustyön periaate on yksinkertainen, mutta osoittautui käytännössä paljon hankalammaksi kuin olin alunperin kuvitellut. Nykyisen, ja vielä ainoan, affiksitiedoston pohjatyö on tehty hyvin, muttei ole täydellinen.

Sanastotiedostoa olen kirjoitellut ja parsinut kasaan tuosta huhtikuun alkupuolesta lähtien, hullun raivolla. Aloitin puhtaalta pöydältä, sillä alkuperäisessä sanastotiedostossa osa sanoista on koodattu (ja taivutettu), suuri osa ei ja valtaosa lojuu jossain tällä välillä. Lisäksi tavoitteena oli alunperinkin tehdä suurempi sanasto, joten olen käyttänyt alkuperäistä tiedostoa vain harvakseltaan hyväksi. Perussanaston olen kopioinut käsin ja suoraan isoisoäitini jäämistöstä löytyneestä, WSOY:n Porvoossa vuonna 1900 julkaistusta E. W. Palanderin suomalais-venäläisestä sanakirjasta. Käsittääkseni tämän teoksen kohdalla, vähintään sen luettelo-, ilmeisesti myös tekijänoikeussuoja, on vanhentunut jo aikoja sitten. Olen sittemmin lisännyt sanastoon joitain hauskoja vanhahkoja ilmaisuja jotka alunperin karsin pois. Tämän jälkeen olen lisäillyt sanoja puolisokkona lukemattomista dokumenteista ja tiedostoista niin kovalevyltäni, internetistä kuin omasta päästäni (jossa ei ole dokumentteja saati tiedostoja;)). Tämä ehkä selittää esim. filosofiaan, filologiaan, logiikkaan ja lingvistiikkaan liittyvän jargonin esiintymistä. Olen vilkuillut myös joitain hieman uudempia sanakirjoja motivaatiomielessä. Olen etsinyt paradigmaattisia yhdyssanavartaloita yhdyssanojen 'automaattista' generaatiota varten mm. CD-perussanakirjasta ja olen käyttänyt pääasiassa edellämainittua opusta auktoriteettina sellaisten lainasanojen nykyaikaisen oikeinkirjoituksen varmistamiseksi, joista en ole itse ollut aivan varma. Olen myös oikolukenut tiedostoa tasaisin väliajoin, mutten - kuten lisenssikin sanoo - ota vastuuta esim. mahdollisista kirjoitusvihreistä, vasitenkin kun valtaosa tiedoston yhdys- ja muistakin sanoista on kuukausien aikana päästäni pähkäilemää sporadista tajunnanvirtaa.

Tulevaisuudessa, kunhan saan affiksitiedoston jollekin tolalle, olisi tarkoituksenani koodata nykyinen sanastotiedosto ja tämän jälkeen yksinkertaisesti oikolukea sillä kaikenlaisia tiedostoja - ja lisätä sanastoon kaikki ne relevantit sanat joita ohjelma ei vielä tunnista. Valmista kannattaa tällä vauhdilla ja alun valtaisan innostuksen hieman hiivuttua tuskin lähiaikoina odotella ;).

Anteeksi muuten vielä erikseen siitä, etten osaa sanoa mitään lyhyesti ja ytimekkäästi.

Lopuksi erityiskiitokset kuuluvat Harri Pitkäselle, jonka kanssa kävin projektin alkuvaiheessa innoittavaa kirjeenvaihtoa. Kiitokset myös kaikille ystäville ja kollegoille kotona ja ulkomailla, joiden kannustus, innostuneisuus ja omistautuneisuus omille projekteilleen on toiminut allekirjoittaneelle masennuksen alhossa suurena motivaation lähteenä. Mahdollista palautetta, epätodennäköisiä kysymyksiä, kritiikkiä ja kommentteja voi lähettää osoitteeseen .

Tässä siis (liian) paljon porun jälkeen Myspell_fi_devel.dic,
Myöhemmin ilmestynee myös korjailtu Myspell_fi_devel.aff.


~

| Main Page | Philosophy | Art | Linux | Misc. Projects | Links | Who Am I? |

Valid XHTML 1.0 StrictValid CSS!
Download the Firefox web browser