Rakenteilla

Vuosina 2013-14 Koneen Säätiön rahoittama työryhmä Avointa kieliteknologia uralilaisille vähemmistökielille (AKU) rakentaa morfologisia jäsentimiä kuuden täyspäivän stipendiaatin voimin. Kahden vuoden aikana (2013-2014) on tarkoitus luoda toimivat morfologiset jäsentimet viidelle suomensukuiselle vähemmistökielelle. Morfologisia jäsentimia varten rakennettuja äärellistilaisia transduktoreita voidaan käyttää moneen muuhunkin tehtävään. Niitä on sovellettu vapaisiin Voikko-oikeinkirjoitusohjelmiin, morfologiatajuisiin verkkosanakirjoihin, Oahpa-kielenoppimisohjelmiin ja konekäännössovelluksiin. Tärkeinä komponentteina olevat sanastot suomennoksineen takaavat laajemmalle yleisölle pääsyä sukukielisiin aineistoihin, esimerkiksi Koneen Säätiön rahoittaman Pelastusdigitointihankkeen 1920- ja 1930-lukujen sukukielisiin aineistoihin (vepsää, inkeroisia, mareja ja mordvia) ja alempana Sukukielten digitointiprojektiin.

Kielivalikoima tässä projektissa muodostuu sekä lähisuku- että etäsukukielistä. Ensisijaiset kielet vuonna 2013 ovat liivi, livvinkarjala, mokša, nenetsi ja vuorimari, toisin sanoen käsitellään uralilaisia kieliä, mistä ISO 639-5 koodi urj

Projektissa noudatetaan avoin lähdekoodi -periaatetta ja toimivien morfologisten jäsentimien lisäksi tuotetaan vapaita oikeinkirjoitusohjelmia sekä suomenkielisiä käännöksiä kunkin pääkohdekielen osalta (20.000 sanavartalon laajuudessa).

Fyysinen sijainti on Helsingin yliopisto, projektia hallinnoi Nykykielten laitos.
Työtä tehdään Tromssan yliopiston Giellateknon saamen kieliteknologian infrastruktuurassa, jossa sovelletaan Helsingin yliopistossa kehitettävää äärellistilaisten transduktorien teknologiaa (HFST). Luotavien jäsenninten pohjalta luodaan kohdekielille vapaita oikeinkirjoitusohjelmia, joita voidaan käyttää vapaassa suomen kielen oikoluku- ja tavutusohjelmassa (Voikko).

Ensisijaiset kielet ISO-koodeineen ovat:
liivi (liv) ja Voikko-oikolukusovellusta varten on zhfst
speller-liv.zhfst/download,
livvinkarjala (olo) ja Voikko-oikolukusovellusta varten on zhfst
speller-olo.zhfst/download,
mokša (mdf) ja Voikko-oikolukusovellusta varten on zhfst
speller-mdf.zhfst/download,
nenets (yrk) ja Voikko-oikolukusovellusta varten on zhfst
speller-yrk.zhfst/download,
vuorimari (mrj) ja Voikko-oikolukusovellusta varten on zhfst
speller-mrj.zhfst/download.

Tromssan Giellateknossa, saamen kieliteknologisessa infrastruktuurassa on kehitetty verkkosanakirjoja, jotka ymmärtävät taivutettuja sanoja. Siellä on mahdollista seurata ja hyödyntää meidänkin sanakirjojen kehitystä:
saamelaisia,
itämerensuomalaisia,
mordvalaisia,
marilaisia,
permiläisiä,
samojedeja,

Muut kielet, joiden morfologisten jäsentimien luomista ja laajentamista edistetään, ovat muun muassa:
ersä (myv) ja Voikko-oikolukusovellusta varten on zhfst
speller-myv.zhfst/download,
hanti (kca),
inkeroinen (izh),
niittymari (mhr),
vepsä (vep),
sekä
komi-syrjääni (kpv) ja Voikko-oikolukusovellusta varten on zhfst
speller-kpv.zhfst/download,
kveeni (fkv),
nganasaani (nio),
udmurtti (udm) ja
võro (vro).

Joulun alla 2013 Voikko-HFST sma ja fin voidaan jo kokeilla kolmella alustalla: Linuxilla, Macilla ja Windowsilla.
Ennen vuoden loppua 2013 Voikko-projektille on saatu aikaan versio, joka toimii Windows-alustalla. Tämä merkitsee, että vihdoinkin pääsee kokeilemaan eteläsaamen ja suomen hfst-oikolukusovelluksia rakentamatta niitä itse omalla koneellaan.
Toivottavasti pian vuoden 2014 alussa tätä samaa sovellusta käyttäen voidaan kokeilla muitakin uralilaisia kieliä.

Suurkiitokset Divvunin, Giellateknon, Voikon kehittäjille ja muillekin tekijöille!

  • Ensin pitää asentaa LibreOffice 4.1 tai uudempi versio
  • Sitten imuroida http://www.puimula.org/htp/testing/voikko-sma-fi.oxt ja asentaa
  • Dokumentointia

    Testaamista
    Варчамонь нолдавкс
    Вилдавны комиӧн кӧ

    Ajankohtaista
    Toimintaa

    Tärkeihin rinnakkaisprojekteihin kuuluvat muun muassa Sukukielten digitointiprojekti, jossa digitoidaan 1930-luvun vepsän, inkeroisen, vuorimarin, niittymari, ersän ja mokšan oppikirjoja, se 1920- ja 1930-luvun marin- ja mordvankielisiä sanomalehtiä tutkijoiden ja kansalaisten käyttöön.
    Lehtiä ja oppikirjoja voi selailla, imuroida, etsiä nyt vapaasti, tästä.


    Contact Jack Rueter: First name dot last name at helsinki dot fi.


    Last modified: Thu Jun 8 9:26:17 EEST 2006