URALILAISTEN KIELTEN KORPUKSET

pohjoissaame, uumajansaame, kildininsaame, suomi, vienankarjala (pohjoiskarjala), inkeroinen, lyydi, livvi (aunuksenkarjala), vepsä, viro, liivi, ersä, moksha, itämari, länsimari, komisyrjääni, komipermjakki, udmurtti, hanti, mansi, tundranenetsi, enetsi, kamassi ja selkuppi.

Uralilaisten kielten meta-kuvaukset



Saamen kielen korpukset

Hakemisto /corp/uralic-lgs/saami/ sisältää seuraavat alihakemistot: /kildin-saami/, /northern-saami/ ja /ume-saami/.

Pohjoissaamen korpus

Hakemisto /northern-saami/ sisältää alihakemiston /report/. Hakemistossa on tiedosto "report-smiehttamush", jossa on katkelma seuraavasta tekstistä: Komiteanmietintö 1985: 66. Sámikultuvradoaibmagotti smiehttamush, pp. 1-140. (Opetusministeriö. Valtion painatuskeskus, Helsinki 1990). Teksti on käännetty suomeksi ja ruotsiksi: Saamelaiskulttuuri: Komiteanmietintö 185:66. Opetusministeriö. Valtion painatuskeskus, Helsinki 1990 ja Betänkande avgivet av samekultur-kommissionen, Kommittébetänkande 1985:66. Opetusministeriö. Valtion painatuskeskus, Helsinki 1990. Pohjoissaamen tekstin on lahjoittanut Irja Seurujärvi-Kari. Korpus on mainittava kaikissa niissä toimitteissa, joissa sitä on käytetty lähdemateriaalina. Lisätietoja voi pyytää pohjoissaamen korpuksen toimittajalta.



Uumajansaamen korpus

Alihakemstossa /ume-saami/ on alihakemisto /morphologically-tagged-corpora/, joka sisältää uumajansaamen korpuksen, jonka on laatinut ja toimittanut Olavi Korhonen. Korpuksessa sanat on analysoitu morfologisesti ja käännetty ruotsiksi. Korpuksen tekstiaineiston informanttina on toiminut Lars Sjulsson, Måla, Ruotsi. Korpus on laadittu hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana. Korpukseen on viitattava kaikissa niissä toimitteissa, joissa sitä on käytetty lähdemateriaalina. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta.



Kildininsaamen korpus

Hakemistossa /corp/uralic-lgs/saami/ oleva hakemisto /kildin-saami/ sisältää alihakemiston /Books-of-Children/, jossa on seuraava tekstiaineisto:

Raamatunkäännösinstituutti on lahjoittanut kildininsaamen tekstin tutkimus- ja opetuskäyttöön. Korpukseen on viitattava kaikissa niissä toimitteissa, joissa sitä on käytetty lähdemateriaalina. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta



Suomen kielen korpukset

  1. HKV-corpus

    HKV-korpus koostuu eri kirjallisuuden lajeja edustavista teksteistä. Korpus on dokumentoitu seuraavassa julkaisussa:

    Auli Hakulinen & Fred Karlsson & Maria Vilkuna. 1980. Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki.

    Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985.

    Korpus on ASCII-muodossa. Syntaktisesti koodatun korpuksen koko on 68 425 sanaa ja 837 373 merkkiä. Lauseita korpuksessa on 10,149. (HKV-korpus: lisätietoja)

  2. Raamatut:

    Suomen kielen korpuksiin kuuluu kaksi versiota Raamatusta. Toinen on vuodelta 1932 ja toinen vuodelta 1992. Korpukset ovat hakemistoissa /bible/KRaamattu38/ ja /bible/KRaamattu92/. Molemmissa hakemistoissa olevat tekstit on järjestetty lukujen mukaan. Vuoden 1938 Raamattu on ASCII-muodossa, ja vuoden 1992 Raamattu on Latin-1 muodossa. Aineistoja voi käyttää tutkimusmateriaalina. Lisätietoja korpuksesta voi tiedustella korpuksen yhdyshenkilöltä.
  3. LE PAROLE:

    Kansainvälisen hankkeen "LE PAROLE" yhteydessä laadittiin sähköisessä muodossa olevia kieliaineistoja useista Euroopassa puhuttavista kielistä. Suomesta laadittu LE PAROLE -korpus on käytettävissä CSC:llä, Kotimaisten kielten tutkimuskeskuksessa (http://www.kotus.fi/) ja UHLCS:ssa. Korpus sisältää SGML-muodossa olevan rakenneanalyysin ja TEI-informaation. Korpukseen kuuluu eri tavoin analysoituja alikorpuksia. Korpus on Latin-1-muodossa (ISO 8859-1).
  4. (HKV-korpus: lisätietoja)

  5. Helsingin alueen puhekielen korpus (1972-1974):
    Korpus koostuu aineistoista, jotka on koottu hankkeen "Nykysuomen murros" aikana. Hankkeen johtaja oli Heikki Paunonen ja hankkeen Valtion humanistisen toimikunta (the Committee of humanistic research in Finland) ja pääosa hankkeesta oli käynnissä vuosien 1977-1980 aikana. Korpuksen kuvauksen, joka on tutkijoiden käytettävissä, on laatinut Pirkko Kukkonen. Korpus on transkriboitu puhekielen aineistoista, jotka on nauhoitettu. Korpuksen koko on 127 x 30 min. Korpus on ASCII-muodossa.
  6. Suomen Kuvalehti, vuosina 1975 ja 1976 julkaistuja numeroita (sk75):

    Korpus sisältää Suomen Kuvalehden numeroita vuosilta 1975 ja 1976. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 840 672 sanaa ja 9 693 042 merkkiä. Korpus on ASCII-muodossa.
  7. Suomen Kuvalehti, kaikki vuonna 1987 julkaistut numerot (sk87):

    Korpus sisältää kaikki vuonna 1987 julkaistut Suomen Kuvalehden numerot. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 1 730 597 sanaa ja 12 520 546 merkkiä. Korpus on ASCII-muodossa.

  8. Tiede 2000 (t2000.snt):

    Korpus sisältää aikakauslehden Tiede 2000 vuonna 1990 julkaistua materiaalia: Tiede 2000,1990: 1, 39-43. Korpuksen koko on 68 067 sanaa ja 464 792 merkkiä. Korpus on ASCII-muodossa.
  9. WSOY (wsoy):

    Korpus sisältää osia Werner Söderström Osakeyhtiön (Helsinki ja Porvoo) julkaisemista kirjoista. Korpuksen koko on 979 516 sanaa ja 7 086 335 merkkiä. Korpus on ASCII-muodossa.
  10. Suomen kielen korpusten lähdetiedot on mainittava kaikissa niissä dokumenteissa, joissa niitä on käytetty lähdeaineistona. (Korpuksen yhteyshenkilö yhteystiedot)

Suomen korpusten metadata-tiedostot



Inkeroisten korpus

Uralilaisten kielten hakemistossa /corp/uralic-lgs/ingrian/ on seuraavat alihakemistot: /Laanest-texts/, /Nirvi-texts/, /Virtaranta-texts/, /morphologically-tagged-corpora/.

Alihakemistossa /Laanest-texts/ on seuraavat tekstiaineistot:

Alihakemistossa /Virtaranta-texts/ on seuraavat tekstit:

Alihakemistossa /Nirvi-texts/ on seuraavat tekstit:

Alihakemistossa /morphologically-tagged-corpora/ on alihakemistoissa /Laanest-texts/, /Nirvi-texts/ ja /Virtaranta-texts/ olevat tekstit morfologisesti analysoituina. Tiedosto "list-of-abbreviations" sisältää morfologisessa koodauksessa käytetyt lyhenteet ja niiden selitykset. Alkujaan aineistot ovat inkeroisen tutkijoiden eri kielenoppailta kokoamia nauhoitteita. Korpukset on laatinut Manja Lehto hankkeen Uhanalaisten uralilaisten kielten tietopankki aikana. Korpusten lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpuksia on käytetty lähdemateriaalina. Lisätietoja inkeroisen tietokonekorpuksista saa korpuksen toimittajalta.



Karjalan kielen korpukset

Hakemisto /corp/uralic-lgs/karelian/ sisältää seuraavat alihakemistot:

/dvina-karelian/, /ludian/ and /olonets-karelian/.


Vienankarjalan korpus

Alihakemistossa /dvina-karelian/ on hakemistot: /Books-of-Children/ ja /New-Testament/.

Alihakemistossa /dvina-karelian/ olevat tekstit:

Alihakemistossa /New-Testament/ olevat tekstiaineistot:

Vienankarjalan tekstikorpukset on Raamatunkäännösinstituutti (Helsinki ja Tukholma) lahjoittanut Helsingin yliopistolle käytettäväksi tutkimusaineistona. Korpukset on toimitettu Helsingin yliopiston tietokonekorpuspalvelimeen Helsingin yliopiston yleisen kielitieteen laitoksen rahoituksen turvin. Korpusten lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa niitä on käytetty lähdemateriaalina. Lisätietoja vienankarjalan tietokonekorpuksista saa korpuksen toimittajalta.



Lyydin korpus

Karjalan kielten hakemistoista hakemistossa /ludian on alihakemisto /texts/, joka sisältää lyydin murteista koottuja näytteitä. Lyydin korpuksen on toimittanut Miikul Pahomov hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana. Hankkeen rahoittaja oli Suomen Akatemia. Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpusta on käytetty lähdemateriaalina. Lisätietoja korpuksesta saa korpuksen toimittajalta



Livvin (aunuksenkarjalan) korpus

Hakemisto /olonets-karelian/ sisältää seuraavat alihakemistot:

Alihakemistossa /Bible-of-Children/ on seuraava julkaisu:

Alihakemistossa /New-Testament/ on seuraavat julkaisut:

Alihakemisto /Books-of-Children/ sisältää seuraavan julkaisun:

Aineistot on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma). Aineistot on sovitettu UNIX-käyttöjärjestelmään Helsingin yliopiston yleisen kielitieteen laitoksen tuella. Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa sitä on käytetty lähdemateriaalina. Lisätietoja korpuksesta saa korpuksen yhteyshenkilöltä.



Vepsän korpus

Vepsän korpuksen hakemisto /corp/uralic-lgs/veps/ sisältää seuraavat alihakemistot: /Bible-of-Children/, /Books-of-Children/ ja /New-Testament/.

Alihakemistossa/Bible-of-Children/ on seuraava julkaisu:

The sub-directory /Books-of-Children/ includes the following texts:

Alihakemistossa /New-Testament/ on seuraavat julkaisut:

Vepsän kielen korpuksen on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusmateriaalina. Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpusta on käytetty lähdemateriaalina. Lisätietoja korpuksesta saa korpuksen toimittajalta



Viron korpus

Hakemisto /corp/viro/ sisältää alihakemistot /viro1/ ja /viro2/. Korpukset sisältävät näytteitä vironkielisestä kirjallisuudesta. Lisätietoja korpuksista saa korpusten toimittajilta: viro1 ja viro2



Liivin korpus

Liivin korpus sisältää näytteen liivinkielisestä etnografisesta tekstistä ja lasten uskonnollisesta julkaisun. Julkaisun lähdetiedot:

Lisätietoja voi tiedustella korpusten toimittajilta (etnografinen tekstinäyte) ja Jeesuksen elämä. Lasten kirjan on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusmateriaalina. Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa sitä on käytetty tutkimusmateriaalina.



Ersän (ersämordvan) korpus

Uralilaisten kielten hakemistossa /corp/uralic-lgs/mordvin/erzya/ on seuraavat alihakemistot:

Alihakemisto /Bible-of-Children/ sisältää seuraavat tekstiaineistot:

Teksteissä kukin lause on omalla rivillään ja kappaleet on erotettu tyhjällä rivillä.

Alihakemistossa /New-Testament/ on seuraavat tekstiaineistot:

Alihakemistossa /short-stories/ on seuraavat tiedostot:

Alihakemistossa /novels/ on seuraavat tiedostot:

Alihakemistossa /tagged-texts/ on morfologisesti koodattu tekstinäyte. Koodauksen on laatinut Jack Rueter (Helsingin yliopisto, suomalais-ugrilainen laitos).

Alihakemistossa /historical-word-list/ olevan korpuksen on toimittanut Dennis Estill, jonka kuvaus korpuksesta on alla (ks. myös tiedotetta mokshan aineistosta):

Alihakemistoissa /Bible-of-Children/ ja /New-Testament/ olevat tekstit on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusaineistona. Kaikkien korpusten lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpuksia on käytetty lähdemateriaalina. Lisätietoja ersän tietokonekorpuksista saa korpusten yhdyshenkilöiltä:
historiallinen sanaluettelo, mordvankielinen kaunokirjallisuus, ja uskonnollinen kirjallisuus



Mokshan (mokshamordvan) korpus

Hakemisto /corp/uralic-lgs/mordvin/moksha/ sisältää seuraavat alihakemistot:

Alihakemistossa /Books-of-Children/ on seuraavat tekstit:

Alihakemistossa /New-Testament/ on seuraavat tekstit:

Alihakemistossa /historical-word-list/ olevan korpuksen on toimittanut Dennis Estill, jonka kuvaus korpuksesta on alla (ks. myös tiedotetta ersän aineistosta):

(Dennis Estill, 15.3.1999)
"Mordvan korpus on keisarinna Katariina Suuren käskystä kerätty sanaluettelo, johon sisältyy noin 24 000 sanaa. Mokshankielisten sanojen lukumäärä on n. 300. Aineisto luovutettiin hänelle v. 1785. Aineiston keruusta vastasi piispa Damaskin. Alkuperäisiä käsikirjoituksia säilytetään Pietarissa ja Njizhnyj Novgorodissa. Sanaluetteloihin sisältyy myös tataarilaisia, tshuvassilaisia ja marilaisia sanoja. Näistä vain mordvan materiaali on julkaistu:

Aineisto on erityisen kiinnostava mm. siitä syystä, että siihen on merkitty tärkeää tietoa mordvan kielen prosodiikasta. Muutamaa poikkeusta lukuunottamatta korpus on translitteroitu samalla tavalla kuin alihakemistossa /Bible-of-Children/ olevat aineistot."

Alihakemistoissa /Books-of-Children/ ja /New-Testament/ olevat aineistot on Helsingin yliopiston yleisen kielitieteen laitokselle luovuttanut Raamatunkäännösinstituutti tutkimus- ja opetuskäyttöön. Kaikkiin toimitteisiin, joissa korpuksia on käytetty lähteenä, on sisällytettävä viittaus korpusten alkuperään. Lisätietoja korpuksista saa korpusten yhdyshenkilöiltä: kaunokirjallisuus, historiallinen sanaluettelo ja uskonnollinen kirjallisuus.



Itämarin korpus

Itämarin korpus sisältää seuraavat dokumentit:

Raamatunkäännösinstituutti (Helsinki ja Tukholma) on lahjoittanut korpukset tutkimus- ja opetuskäyttöön. Korpusten lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa ne on käytetty lähdemateriaalina. Lisätietoja korpuksesta saa korpuksen toimittajalta.



Länsimarin korpus

Länsimarin korpus sisältää seuraavat länsimarin ja vuorimarin dokumentit:

Raamatunkäännösinstituutti (Helsinki ja Tukholma) on antanut korpukset Helsingin yliopiston yleisen kielitieteen laitokselle tutkimus- ja opetuskäyttöön. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta

Tekstit on analysoitu morfologisesti ja käännetty englanniksi ja saksaksi. Korpuksen on analysoinut ja toimittanut André Hesselbäck (Uppsalan yliopisto) hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana. Lisätietoja korpuksesta saa toimittajalta. Korpusten lähdetiedot on mainittava kaikissa niissä dokumenteissa, joissa niitä on käytetty lähdemateriaalina.



Komin kielten korpukset

Hakemisto /corp/uralic-lgs/komi/ sisältää alihakemistot /zyrian/ ja /permyak/.


Komisyrjäänin korpus

Hakemistossa /zyrian/ on seuraavat alihakemistot: /Books-of-Children/, /New-Testament/, /komi-texts/, /komi-texts-snt/, /komi-words-tags/ ja /novels/.

1. Hakemiston /Books-of-Children/ aineistot:

2. Hakemiston /New-Testament/ aineistot:

Aineistot on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusaineistona.

3. Hakemisto /komi-texts/ sisältää komi-syrjäänin tekstikorpuksen. Hakemistossa /komi-texts-snt/ juokseva teksti on lause-per-rivi-muodossa, ja hakemisto /komi-words-tags/ sisältää edellisen hakemiston tekstit morfologisesti analysoituina. Korpukseen sisältyy seuraavat tekstit:

(1) N'ina Kuratova (1983). Bobön'an' kör, Povest'jas, vis'tjas.
Komi kn'izhnöj izdatel'stvo, Syktyvkar.
FICT_ST__Ni_Ku_1983_BK_186-197
FICT_ST_Ni_Ku_1983_BK-198-212

(2) Rots'ev, Jegor (1987). Mitruk petö tundrays', 3 - 65.
Komi knizhnoj izdatelstvo, Syktyvkar.
FAT/FICT_NV_Je_Ro_1987_MPT_3-65

(3) P. Stolpovskij, SSSR-ys' pisat'el'jas sojuzsa ts'l'en. Komi mu 1991: 4.
NEWS_P_St_1991_KM_04

(4) Tsypanov, Jevgenij (1989). VK: 6, 49 - 55.
SCF_Je_Ts_1989_VK:6_49-55
SCF_Je_Ts_1989_VK:7_54-59

Aineistot on toimittanut sähköiseen muotoon Paula Kokkonen.

4. Hakemisto /novels/ sisältää seuraavan julkaisun:

Romaanin on toimittanut sähköiseen muotoon Jack Rueter.

Lisätietoja korpuksista voi tiedustella korpusten toimittajilta: uskonnollinen kirjallisuus, morfologisesti analysoitu aineisto ja vastaavat tekstit ja romaani.



Komipermjakin korpus

Komi-permjakin korpus koostuu seuraavista dokumenteista:

  1. Gospel of Mark in Komi Permyak language.
    ISBN 952-9790-29-5, ISBN 91-88794-24-5. 78 pp.
    Institute for Bible Translation.
    Stockholm 1996.
  2. "Jesus Friend of Children" in the Komi-Permyak Language.
    ISBN 952-9790-38-4, 91-88794-81-4. 65 pp.
    Institute for Bible Translation.
    Stockholm & Helsinki 1997.

Korpuksen on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma). Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpusta on käytetty lähdeaineistona. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta.



Udmurtin korpus

Hakemisto /corp/uralic-lgs/udmurt/ sisältää seuraavat alihakemistot: /Books-of-Children/, /New-Testament/, /udmurt-texts-unmodified/, /udmurt-snt/ ja /udmurt-statistical-data/.

Hakemistossa /Books-of-Children/ olevat aineistot:

Hakemistossa /New-Testament/ olevat aineistot:

Hakemistoissa /Books-of-Children/ ja /New-Testament/ on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusmateriaalina. Hakemisto /udmurt-texts-unmodified/ sisältää näytteitä udmurtinkielisestä kaunokirjallisuudesta. Hakemistot /udmurt-snt/ sisältää samat aineistot lause-per-rivi-muodossa. Sähköiseen muotoon tekstit ovat toimittaneet Pirkko Suihkonen ja Bibinur Zauljajeva. Hakemisto /udmurt-statistical-data/ sisältää udmurtin kielen kirjallisuudesta (satuja, novelli) koodatun aineiston. Korpuksen on laatinut Pirkko Suihkonen Suomen Akatemian rahoituksen turvin. Aineisto on dokumentoitu seuraavassa julkaisussa: Suihkonen, Pirkko (1990). Korpustutkimus kielitypologiassa sovellettuna udmurttiin. Suomalais-Ugrilaisen Seuran Toimituksia 207. Helsinki: Suomalais-Ugrilainen Seura. Lisätietoja korpuksista voi tiedustella korpusten toimittajalta.



Hantin korpukset

Hakemisto /corp/uralic-lgs/khanti sisältää seuraavat alihakemistot: sub-directories: /khanti-texts-snt/, /khanti-words-tags/, /khanti-clauses-references/ ja /Books-of-Children/.

Hakemistossa /Books-of-Children/ olevat aineistot:

Nimellä /khanti- alkavat hakemistot sisältävät seuraavat tekstit:

(1) Rédei, Károly (1968). Nord-ostjakische Texte (Kazym-Dialekt) mit Skizze der Grammatik. Gesammelt und herausgegeben von Károly Rédei. Abhandlung der Akademie der Wissenschaften in Göttingen, philologisch-historische Klasse, dritte Folge 71. Göttingen.

(2) Steinitz, Wolfgang (1989). Ostjakologische Arbeiten III. Texte aus dem Nachlass. Eds.: Hartung, Liselotte, Hauel, Petra, Sauer, Gert & Schulze, Birgitte. Janua Linguarum, Series Practica 256. Mouton de Gruyter, Berlin.

(3)Steinitz, Wolfgang (1950). Ostjakische Grammatik und Chrestomathie mit Wörterverzeichniss. Otto Harrassowitz, Leipzig.

(4) Vértes, Edith (1980). H. Paasonens südostjakische Textsammlungen. Suomalais-Ugrilaisen Seuran Toimituksia 175. Suomalais-Ugrilainen Seura, Helsinki.

(5) Rugin, R.P. (1990). Shum jôxan sjun'öng xâtLöt. (Shchastlivye den'ki na Shum-jugane.) [Onnellisia päiviä Shum-joella.] Kniga dlja dopol'nitel'nogo chtenija v 3-4 klassax xantyjskix shkol (shuryshkarskij dialekt). Prosveshchenie, Leningrad.

Lyhenteellä khanti- alkavissa hakemistoissa olevat tekstit on toimittanut ja analysoinut Merja Salo Suomen Akatemian rahoittamien hankkeiden Uhanalaisten suomalais-ugrilaisten kielten tietopankki ja uralilaisten kielten typologiaa käsitelleen hankkeen aikana. Osa aineistoista on käännetty saksaksi, venäjäksi ja englanniksi. Korpukset on toimitettu käytettäviksi UNIX-käyttöjärjestelmässä Helsingin yliopiston yleisen kielitieteen laitoksen toimesta. Hakemistossa /Books-of-Children/ olevat tekstit on Helsingin yliopiston yleisen kielitieteen laitokselle lahjoittanut Raamatunkäännösinstituutti (Helsinki ja Tukholma) käytettäväksi tutkimusmateriaalina. Korpusten lähdetiedot on mainittava kaikissa toimitteissa, joissa niitä on käytetty lähdeaineistona. Lisätietoja korpuksista voi tiedustella korpusten toimittajilta: uskonnolliset tekstit ja morfologisesti analysoidut tekstikorpukset.



Mansin korpus

Hakemisto /corp/uralic-lgs/mansi/ sisältää alihakemiston /Books-of-Children/, joka sisältää seuraavan dokumentin:

Raamatunkäännösinstituutti (Helsinki ja Tukholma) on lahjoittanut mansin korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi tutkimusmateriaalina. Korpus on toimitettu UNIX-käyttöjärjestelmään Helsingin yliopiston yleisen kielitieteen laitoksen tuella. Korpuksen lähdetiedot on mainittava niissä toimitteissa, joissa sitä käytetään tutkimusmateriaalina. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta.



Nenetsin korpukset

Hakemistossa /corp/uralic-lgs/nenets/ on seuraavat alihakemistot: /New-Testament/ ja /sample-sentences/.

Hakemistossa /New-Testament/ oleva aineisto:

Raamatunkäännösinstituutti (Helsinki ja Tukholma) on lahjoittanut nenetsin korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi tutkimusmateriaalina. Korpuksen lähdetiedot on mainittava niissä toimitteissa, joissa sitä käytetään tutkimusmateriaalina. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta.

Alihakemisto /sample-sentences/ sisältää seuraavan dokumentin.

Tundra Nenets sample sentence corpus compiled by Tapani Salminen. Korpus on valmistettu Suomen Akatemian tukeman hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana.

(Tapani Salminen, Sept. 23, 1998):
The corpus includes 9,992 sentences, some of them complex, with 39,415 words. Each sentence is preceded by two numbers which refer to its page and place in N. M. Tereshchenko, Nenecko-russkij slovar´ (Moskva: Sovetskaja Ènciklopedija, 1965) [temporarily separated with \]. Each sentence is followed by a transliterated Russian translation [temporarily separated with /].

Lisätietoja nenetsin korpuksesta voi tiedustella korpuksen toimittajalta.



Enetsin korpus

Hakemisto /corp/uralic-lgs/enets/ sisältää alihakemiston /New-Testament/, jossa on seuraava aineisto:

Raamatunkäännösinstituutti on lahjoittanut enetsin tekstikorpukset Helsingin yliopistolle käytettäväksi tutkimusaineistona. Korpusten lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa korpuksia on käytetty lähdemateriaalina. Lisätietoja enetsin tietokonekorpuksesta voi tiedustella korpuksen toimittajalta



Kamassin korpus

Hakemisto /corp/uralic-lgs/kamassian/ sisältää alihakemiston /texts-donner/, joka sisältää seuraavat tekstit:

Donner, Kai. Manuscripts. In A.J. Joki (ed.): Kai Donners Kamassisches Wörterbuch nebst Sprachproben und Hauptzügen der Grammatik. Lexica Societatis Fenno-ugricae VIII. (Suomalais-Ugrilainen Seura. Helsinki 1944).

A. Das Froschweib.
1. Die Maus.
2. Der arme Mann und die Kaisertochter.
3. Der Menschenfresser.
4. Birkhahn und Auerhahn.
5. Der Hase.
6. Die verlassene Kinder.
7. Urashe.
8. Ketschün-güdürs Heirat.
9. Der Kopf.
10. Das Mädchen, die Knecht wurde.
11. Der Freund.
12. Lied.
13. Gebete 1, 2.
Rätsel.
Vereinzelte Sätze.

Tekstit on toimittanut sähköiseen muotoon Jarmo Alatalo hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana. Tekstit on koodattu morfologisesti ja syntaktisesti ja käännetty saksaksi. Korpuksen lähdetiedot on mainittava kaikissa toimitteissa, joissa sitä käytetään tutkimusaineistona. Lisätietoja korpuksesta voi tiedustella korpuksen toimittajalta.



Selkupin korpus

Hakemisto /corp/uralic-lgs/selkup/ sisältää seuraavat alihakemistot: /H-dialects/, /ivankino-dialect/, /ket-dialect/, /tundra-dialect/, /tym-dialect/ ja /upper-ob-dialect/. Selkupin korpukset toimitettu sähköiseen muotoon aineistoista, jotka on koottu useilla kenttätyömatkoilla. Suurin osa korpuksista on koottu 1900-luvun ensimmäisellä puoliskolla. Aineistot ovat säilytteillä Suomalais-Ugrilaisen Seuran arkistossa. Jarmo Alatalo on analysoinut ja toimittanut pääosan selkupin aineistoista hankkeen Uhanalaisten suomalais-ugrilaisten kielten tietopankki aikana. Osa työstä on laadittu Suomalais-Ugrilaisen Seuran rahoituksen turvin. Korpuksen lähdetiedot on mainittava kaikissa niissä toimitteissa, joissa niitä on käytetty tutkimusaineistona. Lisätietoja korpuksesta voi tiedustella korpuksen yhteyshenkilöltä.



Tietokonekorpukset
Computer corpora

P.S., 1993; 1996; 1998; 2002; 2007.