Rakenteilla

Näillä sivuilla dokumentoidaan inkeroisen osuutta. (Inkeri, isuri)

Lähdetiedostot

vartalot
päätteet
twolc
yaml
paradigm
teksti

Kieliopillisia aiheita

Käytössä olevat tunnisteet eli tagit
englanninkielinen listaus joistakin tunnisteista, joita käytetään Giellateknon infrastruktuurassa

Sanamuotoja tekstintunnistamiseen on olemassa kahdenlaisia sanelistoja -- aitoja ja generoituja. Vain aidot ovat näkyvissä suoraan seuraavasta linkistä. Zip-tiedostoina on generoituja sanelistauksia, jotka on tuotettu inkeroiskieltä kuvailevalla HFST transduktorilla Giellateknon infrastruktuurassa. Umpimähkäisiä muotoja on tehty 10 x 50.000, minkä jälkeen jokaisesta pienellä kirjaimella alkavasta sanamuodosta on tuotettu isolla kirjaimella alkava sanamuoto ja lopulta | sort | uniq. Sanelistoja on neljä. Ensimmäiseen mahtuu kaikki saneet, joissa on latinalaiset kirjaimet paitsi ƶ ja Ƶ. Toiseen listaukseen on otettu saneet, joissa esiintyy kyrillisiä kirjaimia (lähinnä ь ja venäjänkielisiä selityssanoja sekä lyhenteitä). Kolmanteen listaukseen on otettu pisteelliset lyhenteet, ja neljänteen ƶ taikka Ƶ sisältävät sanat (Tekstintunnistusohjelmat, jotka käyttävät MS:n sanalistoja tekstintunnistamiseen eivät tunnu hyväksyvän tällaisia kirjaimia. Vastaaviin ongelmiin törmää esimerkiksi liivinkielisten tekstien tunnistamisessa).

Aitoja saneita V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. (Zip)
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää sanamuotoja, joissa on kyrillisiä kirjaimia (Zip)
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää lyhenteitä, joissa on piste (Zip)
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää sanamuotoja, joissa on Ƶ tai ƶ. (Zip)

Ota yhteyttä Timo Rantakaulioon tai Jack Rueteriin: etunimi piste sukunimi kirjanpitomerkki helsinki piste fi.


Last modified: Thu Jun 8 9:26:17 EEST 2006