Suomen kielen tekstitietokannan laajentaminen

Helsingin yliopiston yleisen kielitieteen laitos, Kotimaisten kielten tutkimuskeskus ja CSC - Tieteellinen laskenta Oy kokoavat yhteistyössä yli 100 miljoonaan sanan laajuisen suomen kielen tekstitietokannan vuosina 1999--2000.

100 miljoonan sanan laajuinen tekstitietokanta toimii kielen ja kieliteknologian tutkijoiden lähde- ja testimateriaalina, jota eri tavoin tietokoneella käsitellen on mahdollista tuottaa objektiivisia, tarkkoja ja kattavia kielen kuvauksia. Tällaisista kielen kuvauksista on hyötyä paitsi tehtäessä perinteisiä kielioppeja ja sanakirjoja, myös kehitettäessä luonnollista kieltä käsittelevää tietotekniikkaa eli kieliteknologiaa: automaattista tavutusta, oikolukua, dokuementtien indeksointia, tiedonhakua, puheentunnistusta jne.

Hankkeen kustannukset ovat 450 000 markkaa ja se on osa opetusministeriön rahoittamaa Tieteen tietokantojen toimenpideohjelmaa. Hankkeen vastuullinen johtaja on tietokonelingvistiikan prof. Kimmo Koskenniemi Helsingin yliopistosta. Hankkeen yksityiskohtainen motivointi, budjetti ja aikataulu selviävät hankesuunnitelmasta (HTML|PostScript).


Manne Miettinen
Last modified: Wed Sep 8 15:00:11 EEST 1999