Rakenteilla
Näillä sivuilla dokumentoidaan inkeroisen osuutta. (Inkeri, isuri)
Lähdetiedostot
vartalot |
päätteet |
twolc |
yaml |
paradigm |
teksti |
Kieliopillisia aiheita
Käytössä olevat tunnisteet eli tagit |
englanninkielinen listaus joistakin tunnisteista, joita käytetään Giellateknon infrastruktuurassa |
Sanamuotoja tekstintunnistamiseen on olemassa kahdenlaisia sanelistoja -- aitoja ja generoituja. Vain aidot ovat näkyvissä suoraan seuraavasta linkistä. Zip-tiedostoina on generoituja sanelistauksia, jotka on tuotettu inkeroiskieltä kuvailevalla HFST transduktorilla Giellateknon infrastruktuurassa. Umpimähkäisiä muotoja on tehty 10 x 50.000, minkä jälkeen jokaisesta pienellä kirjaimella alkavasta sanamuodosta on tuotettu isolla kirjaimella alkava sanamuoto ja lopulta | sort | uniq. Sanelistoja on neljä. Ensimmäiseen mahtuu kaikki saneet, joissa on latinalaiset kirjaimet paitsi ƶ ja Ƶ. Toiseen listaukseen on otettu saneet, joissa esiintyy kyrillisiä kirjaimia (lähinnä ь ja venäjänkielisiä selityssanoja sekä lyhenteitä). Kolmanteen listaukseen on otettu pisteelliset lyhenteet, ja neljänteen ƶ taikka Ƶ sisältävät sanat (Tekstintunnistusohjelmat, jotka käyttävät MS:n sanalistoja tekstintunnistamiseen eivät tunnu hyväksyvän tällaisia kirjaimia. Vastaaviin ongelmiin törmää esimerkiksi liivinkielisten tekstien tunnistamisessa).
Aitoja saneita V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta |
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. (Zip) |
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää sanamuotoja, joissa on kyrillisiä kirjaimia (Zip) |
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää lyhenteitä, joissa on piste (Zip) |
Generoituja saneita, jotka on saatu V. I. Junuksen vuonna 1936 ilmestyneestä Iƶoran keelen grammatikasta kerätyn sanaston pohjalta. Sisältää sanamuotoja, joissa on Ƶ tai ƶ. (Zip) |