Koltansaamen oikolukusovellusta testaamalla edistät kieliteknologisten resurssien kehitystä

Vuoden 2014 joulukuussa Koneen Säätiö myönsi kahden vuoden stipendirahoitusta Koltansaamen elvytys kieliteknologia-avusteisen kielenoppimisohjelmien avulla sekä mallin ja ohjeiden laatiminen menetelmän siirtämiseksi toisiin uhanalaisiin kieliin -nimiselle projektille.

Kieliteknologian kehitys perustuu suurelta osin tietokoneiden avulla tehtävään perinteisen kielentutkimuksen tulosten soveltamiseen. Tässä projektissa kehitys perustuu myös avoimuuteen, mikä ilmenee toteutuksessa käytettävistä ohjelmista ja sovelluksista. Samalla kun on kehitetty kielitieteilijöille transduktoriteknologiaan perustuvia morfologisia analysaattoreita, on todettu, että tunnistetut muodot voisivat olla myös oikein kirjoitettuja sanamuotoja. Tämä oivallus on merkinnyt sitä, että pienin kohennuksin, kielitieteellisestä morfologisesta analysaattorista voisikin saada oikeinkirjoitussovelluksen.

Transduktorit, joita käytetään näissä oikolukusovelluksissa, ovat melko pieniä, vain 6 kk kehityksen aikaansaannoksia. Näin ripeää kehitystä ovat mahdollistaneet koltansaamen tutkimus-, opetus- sekä sanakirjatyö. Tätä työtä ovat tehneet koltansaamelaiset sekä muut kiinnostuneet ihmiset ja laitokset.
Kiitokset kuuluvat: HFST ja Voikko-kehittäjille,
Giellatekno ja Divvun -infran työntekijöille sekä
tämän projektin rahoittajalle Kone Säätiölle.


Kehitysasteesta

Koltansaamen oikolukusovelluksen kehitystä voidaan esitellä kahtena osana: tekninen puoli ja leksikkomorfologinen puoli.

Tekninen puoli on lähes julkaisukelpoinen, siinä pitää kohentaa vielä oikeinkirjoitusehdotusten nopeutta. Tätä puolta kehitetään Divvunin, Voikon ja HFST:n yhteistyössä, ja se arvioidaan olevan valmiina loppukesästä 2015.

Leksikkomorfologinen puoli perustuu sanastollisesti Pekka Sammallahden, Satu ja Jouni Moshnikoffien, Eino Koposen ja Michael Rießlerin johtaman Østsamisk -projektin leksikografiseen työhön. Muoto-opillisessa toteutuksessa on hyödynnetty Pekka Sammallahden, Eino Koposen, Satu ja Jouni Moshnikoffien sekä Timothy Feistin kieliopillisia kuvauksia. Erittäin hyödyllisiä ovat myös olleet Tiina Sanila-Aikion koltansaamen opetusta varten tekemät substantiiviparadigmat sekä koltansaamen normitetut lainasanat -pöytäkirjan liite 1-23-5-2014. Johto-opin kysymyksissä olen saanut myös rakentavaa palautetta Miika Lehtiseltä.

Koneen Säätiön rahoituksen aikana (1.1.2015 lähtien) on päästy seuraavanlaisiin tuloksiin:

Raakakorpus Tarkistettu korpus
sanamäärä ainutkertaiset sanamuodot sanamäärä ainutkertaiset sanamuodot
26.5.2015 yhteensä 103.233 18.631 5.101 2.238
tunnistamatta 31.661 11.057 2.238 1.088
kattavuus 69% 41% 69% 51%
19.5.2015 yhteensä 101.324 18.341 3.056 1.399
tunnistamatta 31.595 10.935 1.013 709
kattavuus 69% 40% 67% 49%
18.5.2015 yhteensä 99.859 18.164 1.692 807
tunnistamatta 31.717 10.888 541 387
kattavuus 68% 40% 68% 52%

Tarkistettuun korpukseen olen toistaiseksi saanut yksittäisiä tiedostoja muun muassa Merja Fofonoffilta ja Satu Moshnikoffilta.
Samana päivänä kun tulee uusi tilasto, tulee myös uusi .oxt-sovellus.

Tämä nopea kehitys ei olisi mahdollista ilman käyttäjien palautetta.


Takaisin oikolukusovellusten sivulle tästä.

Testauksesta otetaan mielellään kommenteja vastaan
etunimi.sukunimi@helsinki.fi
Jack Rueter


Yhteystiedot Jack Rueter: etunimi.sukunimi(åt)helsinki.fi .


Last modified: Thu Jun 8 9:26:17 EEST 2006