Korpusten merkkilajit



UHLCS:ssa olevissa korpuksissa käytetyt merkistöt heijastavat korpusten laatimisen historiaa. Alkuperäiset tekstit, jotka useimmiten olivat kirjoja tai sanoma- ja aikakauslehtiä, on laadittu erilaisilla tekstinkäsittely- ja ladontaohjelmilla ja myös erilaisilla merkkijärjestelmillä. Alkujaan osa teksteistä oli sähköisessä muodossa, osa taas siirrettiin sähköiseen muotoon korpuksen laatimisen yhteydessä. Kun aineistot siirrettiin UNIX-käyttöjärjestelmään, ne muokattiin edelleen siten, että teksteissä oleva informaatio säilyi. Jos alkuperäisten tekstien valmistamisessa ja viimeistelyssä on käytetty useita vaiheita, on kaikki vaiheet purettu erikseen. Sen jälkeen tekstit on toimitettu UNIX-käyttöjärjestelmässä toimivaan muotoon. Sähköisessä muodossa olevien kieliaineistojen laatimisen alkuvaiheessa tekstit saatettiin ASCII-merkistölle, joka on seitsen-bittinen. Jos alkuperäisessä tekstissä oli merkkejä, joita ASCII-koodistossa ei ollut, nämä merkit korvattiin yhdistämällä kaksi tai useampia merkkejä. Seuraavassa vaiheessa tekstit muokattiin kahdeksanbittiselle merkistölle (ISO Latin-1 eli ISO-8859-1), ja suurin osa korpuksista onkin laadittu kahdeksanbittisellä merkistöllä. Sitä mukaa kun UNICODE-merkkijärjestelmät kehittyivät, ryhdyttiin myös korpusaineistoja muokkaamaan UNICODE-merkistölle. Tämä koskee erityisesti aineistoja, jotka alkujaan on laadittu kyrillisellä merkkijärjestelmällä. Tavoitteena merkistön muuttamisessa on ollut, että merkkikoodit voidaan siirtää UNICODE-merkistölle automaattisesti. Tätä varten on laadittu muunnosohjelmia, jotka ovat perl-skriptejä. Nämä skriptit, jotka ovat perusohjelmia kielen merkkijärjestelmän kuvaamiseksi, ovat UHLCS:ssa aineistojen yhteydessä olevissa alihakemistoissa, joiden nimi on XXX-in–preparation (XXX = kielen nimeä merkitsevä lyhenne; jokaisella kielellä on oma lyhenteensä) (Unicode-merkkien nimet, Mikä Unicode on?).


Korpusten merkkilajit eri hakemistoissa olevissa tiedostoissa

/general-linguistics

  1. /afro-asiatic-lgs
    1. /cushitic-lgs
      1. /somali
      2. merkkilaji: skandinaavinen aakkosto, jossa merkit 'ä', 'ö', 'å' ja vastaavat suuraakkoset esiintyvät numerokoodeina: \202, \224, \216, jne.
    2. /semitic-lgs
      1. /hebrew
      2. valmisteilla
  2. /indo-european-lgs
    1. /germanic-lgs
      1. /english
        1. /gutenberg
        2. /susanne
        3. /WSJ
        4. merkistö: korpukset on laadittu englannin kielen aakkostolla, eikä lisämerkkejä ole tarvittu.
      2. /yiddish
        1. /royte-pomerantsen
          1. /yiddish-texts:
            merkistö: Latin-1.
      3. /greek
        1. valmisteilla
      4. /latin
        1. /apa:
          merkistö: seisenbittinen ASCII-merkistö. Aineisto on laadittu suuraakkosin.
      5. /slavonic-lgs
        1. /russian
          1. /fowler-corpus
          2. merkistö: seitsenbittinen ASCII-merkistö. Venäjän aakkoston merkit, joille ei ole vastaavuutta ASCII-merkistössä, on korvattu yhdistämällä eri merkkejä. Merkistö on kuvattu README-tiedostossa.
          3. /spoken:
            merkistö: ASCII. Jotkin merkit on korvattu yhdistämällä eri merkkejä.
          4. /tampere-corpus:
            merkistö: ASCII-merkistö. Merkistö on kuvattu README-tiedostossa.
          5. /uppsala-corpus:
            merkistö: ASCII.
  3. /multilingual-data
    1. /words: merkistö: ASCII.
  4. /uralic-lgs
    1. /baltic-finnic-lgs
      1. /estonian
        1. /viro1:
          merkistö: Latin-1.
        2. viro2:
          merkistö: ASCII. Lisämerkit: ä, ö, å (Ä, Ö, Å), {, |, } [, \ and ]; õ, ü = *o, *u, <*i>
      2. finnish
        1. bible
          1. KRaamattu38:
            merkistö: Latin-1. Aineistosta on myös versio, jossa diakriittien kanssa muodostetut merkit on merkitty numerokoodein: 'ä' = \204.
          2. /KRaamattu92:
            merkistö: Latin-1.
        1. /hkv:
          merkistö: ASCII.

/general-linguistics-kotus

  1. /uralic-lgs
    1. /baltic-finnic-lgs
      1. /finnish
        1. /parole:
          Merkistö: Latin-1
      2. hkv
      3. Merkistö: ASCII; lisämerkit: ä, ö, å (Ä, Ö, Å), {, |, } [, \ and ].

/language-departments

  1. /germanic-lgs
    1. /swedish: merkistö:
      ASCII:
  2. /niger-congo-lgs
    1. /bantu-lgs
      1. /swahili:
        merkistö: ASCII code. Aineisto on kuvattu README-tiedostossa.

/multilingual-language-archive

Hakemisto sisältää useissa eri hankkeissa laadittuja ja useilta omistajilta saatuja korpuksia. Aineistot, jotka on saatu Raamatunkäännösinstituutilta (Helsinki, Tukholma ja Moskova) ennen vuotta 2007, on valmistettu useilla erilaisilla tekstinkäsittely- ja ladontaohjelmilla (MSWord, WordPerfect, Word, PageMaker jne.). Korpukset on toimitettu UNIX-käyttöjärjestelmälle. Useimpia aineistoista, jotka alkujaan on laadittu kyrillisellä aakkostolla, on ryhdytty toimittamaan myös utf-8-merkistölle. Toimitustyö jatkuu vielä, ja skriptit, joita tarvitaan aineistojen muokkaamisessa, ovat eri kielten hakemistojen yhteydessä olevissa hakemistoissa (hakemistojen nimi: XXX-in-preparation (XXX = kielen nimen lyhenne (jokaisella kielellä on oma lyhenteensä))). Osa aineistosta on toimitettu manuaalisesti Latin-1-merkistölle. Kyrillisellä aakkostolla laadittujen uralilaisten kielten korpusten konvertointi manuaalisesti Latin-1 merkistölle on kuvattu seuraavassa dokumentissa: Pirkko Suihkonen. 1997. Documentation of the Computer Corpora of Uralic Languages at the University of Helsinki. Technical Reports, No. TR-2. Helsinki: Department of General Linguistics, University of Helsinki. Pp. 10–15.


  1. /chukotko-kamchatkan-lgs
    1. /chukchi
      1. /New-Testament:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /koryak
      1. /New-Testament:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /indo-european-lgs
    1. /iranian-lgs
      1. /west-iranian-lgs
        1. /kurdish
          1. /New-Testament:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /tajik
          1. /Bible-of-Children:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          2. /Books-of-Children:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        3. /east-iranian-lgs
          1. /ossete
            1. /Bible-of-Children:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            2. /Books-of-Children:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            3. /New-Testament:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. slavonic-lgs
        1. /east-slavonic-lgs
          1. /ukrainian
            1. /Books-of-Children:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  3. /north-east-caucasian-lgs
    1. /avar-andi-tsez-lgs
      1. /avar
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /lak-dargva-lgs
      1. /lak
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    3. /lezgi-lgs
      1. /tabassaran
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  4. /mongolic-lgs
    1. /west-mongolic-lgs
      1. /kalmyk
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  5. /tungusic-lgs
    1. /north-tungusic-lgs
      1. /even
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /evenki
        1. /Books-of-Children:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /south-tungusic-lgs
      1. /nanay
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  6. /turkic-lgs
    1. /bolgar-turkic-lgs
      1. /chuvash
        1. /paasonen-texts:
          merkistö: alkuperäinen teksti on kirjoitettu suomalais-ugrilaisella tarkekirjoituksella. Korpus on käännetty Latin-1-merkistölle. Kaikki merkit, joita on käytetty, eivät ole käytettävissä UNIX-käyttöjärjestelmässä.
    2. /north-turkic-lgs
      1. /khakas
        1. /Books-of-Children:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. tuvin
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      3. /yakut
        1. /Bible-of-Children:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    3. /north-west-turkic-lgs
      1. /balkar
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /Psalms:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /bashkir
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      3. /crimean-turkish
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /wordlist:
          merkistö: Latin-1.
      4. /kirghiz
        1. /Books-of-Children:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      5. /tatar
        1. /Books-of-Children:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    4. /south-east-turkic-lgs
    5. /uighur
      1. /New-Testament:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    6. /uzbek
      1. /Bible-of-Children:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /dictionary: ASCII.
  7. /south-west-turkic-lgs
    1. /azerbaijani
      1. /New-Testament:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /gagauz
      1. /New-Testament:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    3. /turkmen
      1. /New-Testament, /Old-Testament:
        merkistö: aineisto on käännetty käsin Latin-1-merkistölle. Aineisto on myös utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  • /uralic-lgs
    1. /finno-ugric-lgs
      1. /baltic-finnic-lgs
        1. /ingrian
          1. /texts, /morphologically-tagged-corpora:
            merkistö: Latin-1; alkuperäinen teksti on kirjoitettu suomalais-ugrilaisella tarkekirjoituksella.
            /english-translations:
            merkistö: Latin-1.
        2. /karelian
          1. /dvina-karelian
            1. /Books-of-Children:
              merkistö: Latin-1, aineisto on toimitettu manuaalisesti UNIX-käyttöjärjestelmään.
            2. /New-Testament:
              merkistö: Latin-1, aineisto on toimitettu manuaalisesti UNIX-käyttöjärjestelmään.
            /livvi
              /Bible-of-Children:
              merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
            1. /Books-of-Children:
              merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
            2. /New-Testament:
            3. Gospel-of-John, Gospel-of-Mark:
              merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
            4. Gospel-of-Matthew, Gospel-of-Luke:
              merkistö: Latin-1. Aineisto on siirretty suoraan UNIX-käyttöjärjestelmään.
            5. New-Testament-all
              1. tiedostomuoto: xml, htm- ja txt.
          2. /lude
            1. /texts:
              merkistö: Latin-1. Aineisto, joka on transkriboitu ääninauhoilta, on siirretty UNIX-käytöjärjestelmään sellaisenaan.
        3. /vepsian
          1. /Bible-of-Children:
            merkistö: aineisto on siirretty UNIX-käyttöjärjestelmään sellaisenaan.
          2. /Books-of-Children:
            merkistö: Latin-1. Aineisto on siirretty UNIX-käyttöjärjestelmään manuaalisesti.
          3. /New-Testament:
          4. Gospel-of-John, Gospel-of-Mark:
            merkistö: Latin-1 ja utf-8. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
          5. Gospel-of-Matthew:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          6. New-Testament-all
          7. tiedostomuoto: xml, htm- ja txt.
        4. /livonian
          1. /Books-of-Children:
            merkistö: aineisto voidaan konvertoida utf-8-merkistölle.
          2. /suhonen:
            merkistö: ainesto on siirretty suoraan Latin-1-merkistölle.
      2. mari-lgs
        1. /eastern-mari
          1. /Bible-of-Children:
            Charcter set: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. New-Testament-all
          1. tiedostomuoto: xml, htm- ja txt.
          2. /western-mari
            1. /Books-of-Children:
              merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään. Käytössä on myös utf-8-merkistö.
            2. /hill-mari-texts:
              merkistö: alkuperäinen aineisto on kirjoitettu suomalais-ugrilaisella transkriptiojärjestelmällä. Aineisto on siirretty suoraan UNIX-käyttöjärjestelmään.
            3. /New-Testament:
              merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      3. /mordvin-lgs
        1. erzya
          1. /Bible-of-Children:
            merkistö: aineisto on siirretty Latin-1-merkistölle manuaalisesti.
          2. /dictionary:
            merkistö: aineisto on muokattu siirrettäväksi utf-8-merkistölle.
          3. /epos:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          4. /historical-word-list:
            merkistö: Latin-1. Aineisto on siirretty merkistölle manuaalisesti. Aineistoon on merkitty sanan pääpaino.
          5. journals:
            merkistö: aineisto on muokattu siirrettäväksi utf-8-merkistölle.
          6. /morphologically-tagged-corpora:
            merkistö: aineisto on siirretty manuaalisesti Latin-1-merkistölle.
          7. /New-Testament:
            merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          8. /novels:
            merkistö: aineisto on valmisteltu siirrettäväksi utf-8-merkistölle (tiedostot, jotka alkavat merkkijonolla abra-). Muut tiedostot: aineistot on valmistettu siirrettäväksi utf-8-merkistölle.
          9. New-Testament-all
            1. tiedostomuoto: xml, htm- ja txt.
            2. /poetry:
              merkistö: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
            3. /short-stories:
              merkistö: aineistot on valmistettu siirrettäviksi utf-8-merkistölle.
          10. /moksha
            1. /Books-of-Children:
              merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään. /historical-word-list:
              merkistö: aineisto on toimitettu manuaalisesti Latin-1-merkistölle. Sanan pääpaino on merkitty sanoihin.
            2. /New-Testament:
            3. merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            4. /novels: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
      4. /permic-lgs
        1. /komi
          1. /permyak
            1. /Books-of-Children:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            2. /New-Testament:
              merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          2. zyrian
            1. /Books-of-Children:
              merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            2. /komi-texts, komi-texts-snt, morphologically-tagged-corpora:
              merkistö: Latin-1. Aineisto on siirretty merkkijärjestelmään manuaalisesti.
            3. /New-Testament:
              merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
            4. /novels:
              merkistö: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
        2. /udmurt
          1. /Books-of-Children:
            merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          2. /New-Testament:
            merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          3. /novels:
            merkistö: aineisto on siirretty manuaalisesti Latin-1-merkistölle.
          4. /udmurt-snt, /udmurt-texts-unmodified:
            merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
          5. /udmurt-statistical-data:
            merkistö: aineisto on numeerisessa muodossa. Numeerinen koodaus on kuvattu README-tiedostoissa.
      5. /saami-lgs
        1. /kildin-saami
          1. /Books-of-Children:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
        2. /northern-saami
          1. /report:
            Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkkijärjestelmälle.
          2. /vuolab:
            merkistö: Latin-1: aineisto on raakaversio, joka on siirretty suoraan UNIX-käyttöjärjestelmään.
          3. /ume-saami
            1. /data:
              merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
          4. ugric-lgs
            1. /khanty
              1. /atlym-dialect, /kazym-dialect, /konda-dialect, /nizjam-dialect, /obdorsk-dialect, /synja-dialect:
                merkistö: Latin-1. Aineisto on siiretty manuaalisesti Latin-1-merkistölle.
              2. /Books-of-Children:
                merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
              3. /rugin:
                merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
            2. /mansi
              1. /Books-of-Children:
                merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /samoyedic-lgs
      1. /enets
        1. /New-Testament:
          merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /kamas:
        1. /texts-donner:
          merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
      3. /nenets
        1. /tundra-nenets
          1. /New-Testament:
            merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
          2. /sample-sentences:
            merkistö: Latin-1. Aineisto on siirretty manuaalisesti utf-8-merkistölle.
      4. /selkup
        1. /h-dialects, /ivankino-dialect, /ket-dialect, /tundra-dialect, /tym-dialect, /upper-ob-dialect:
          merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.


    © P.S. 2007