Korpusten merkkilajitUHLCS:ssa olevissa korpuksissa käytetyt merkistöt heijastavat korpusten laatimisen historiaa. Alkuperäiset tekstit, jotka useimmiten olivat kirjoja tai sanoma- ja aikakauslehtiä, on laadittu erilaisilla tekstinkäsittely- ja ladontaohjelmilla ja myös erilaisilla merkkijärjestelmillä. Alkujaan osa teksteistä oli sähköisessä muodossa, osa taas siirrettiin sähköiseen muotoon korpuksen laatimisen yhteydessä. Kun aineistot siirrettiin UNIX-käyttöjärjestelmään, ne muokattiin edelleen siten, että teksteissä oleva informaatio säilyi. Jos alkuperäisten tekstien valmistamisessa ja viimeistelyssä on käytetty useita vaiheita, on kaikki vaiheet purettu erikseen. Sen jälkeen tekstit on toimitettu UNIX-käyttöjärjestelmässä toimivaan muotoon. Sähköisessä muodossa olevien kieliaineistojen laatimisen alkuvaiheessa tekstit saatettiin ASCII-merkistölle, joka on seitsen-bittinen. Jos alkuperäisessä tekstissä oli merkkejä, joita ASCII-koodistossa ei ollut, nämä merkit korvattiin yhdistämällä kaksi tai useampia merkkejä. Seuraavassa vaiheessa tekstit muokattiin kahdeksanbittiselle merkistölle (ISO Latin-1 eli ISO-8859-1), ja suurin osa korpuksista onkin laadittu kahdeksanbittisellä merkistöllä. Sitä mukaa kun UNICODE-merkkijärjestelmät kehittyivät, ryhdyttiin myös korpusaineistoja muokkaamaan UNICODE-merkistölle. Tämä koskee erityisesti aineistoja, jotka alkujaan on laadittu kyrillisellä merkkijärjestelmällä. Tavoitteena merkistön muuttamisessa on ollut, että merkkikoodit voidaan siirtää UNICODE-merkistölle automaattisesti. Tätä varten on laadittu muunnosohjelmia, jotka ovat perl-skriptejä. Nämä skriptit, jotka ovat perusohjelmia kielen merkkijärjestelmän kuvaamiseksi, ovat UHLCS:ssa aineistojen yhteydessä olevissa alihakemistoissa, joiden nimi on XXX-in–preparation (XXX = kielen nimeä merkitsevä lyhenne; jokaisella kielellä on oma lyhenteensä) (Unicode-merkkien nimet, Mikä Unicode on?).


Korpusten merkkilajit eri hakemistoissa olevissa tiedostoissa

/general-linguistics

 1. /afro-asiatic-lgs
  1. /cushitic-lgs
   1. /somali
   2. merkkilaji: skandinaavinen aakkosto, jossa merkit 'ä', 'ö', 'å' ja vastaavat suuraakkoset esiintyvät numerokoodeina: \202, \224, \216, jne.
  2. /semitic-lgs
   1. /hebrew
   2. valmisteilla
 2. /indo-european-lgs
  1. /germanic-lgs
   1. /english
    1. /gutenberg
    2. /susanne
    3. /WSJ
    4. merkistö: korpukset on laadittu englannin kielen aakkostolla, eikä lisämerkkejä ole tarvittu.
   2. /yiddish
    1. /royte-pomerantsen
     1. /yiddish-texts:
      merkistö: Latin-1.
   3. /greek
    1. valmisteilla
   4. /latin
    1. /apa:
     merkistö: seisenbittinen ASCII-merkistö. Aineisto on laadittu suuraakkosin.
   5. /slavonic-lgs
    1. /russian
     1. /fowler-corpus
     2. merkistö: seitsenbittinen ASCII-merkistö. Venäjän aakkoston merkit, joille ei ole vastaavuutta ASCII-merkistössä, on korvattu yhdistämällä eri merkkejä. Merkistö on kuvattu README-tiedostossa.
     3. /spoken:
      merkistö: ASCII. Jotkin merkit on korvattu yhdistämällä eri merkkejä.
     4. /tampere-corpus:
      merkistö: ASCII-merkistö. Merkistö on kuvattu README-tiedostossa.
     5. /uppsala-corpus:
      merkistö: ASCII.
 3. /multilingual-data
  1. /words: merkistö: ASCII.
 4. /uralic-lgs
  1. /baltic-finnic-lgs
   1. /estonian
    1. /viro1:
     merkistö: Latin-1.
    2. viro2:
     merkistö: ASCII. Lisämerkit: ä, ö, å (Ä, Ö, Å), {, |, } [, \ and ]; õ, ü = *o, *u, <*i>
   2. finnish
    1. bible
     1. KRaamattu38:
      merkistö: Latin-1. Aineistosta on myös versio, jossa diakriittien kanssa muodostetut merkit on merkitty numerokoodein: 'ä' = \204.
     2. /KRaamattu92:
      merkistö: Latin-1.
    1. /hkv:
     merkistö: ASCII.

/general-linguistics-kotus

 1. /uralic-lgs
  1. /baltic-finnic-lgs
   1. /finnish
    1. /parole:
     Merkistö: Latin-1
   2. hkv
   3. Merkistö: ASCII; lisämerkit: ä, ö, å (Ä, Ö, Å), {, |, } [, \ and ].

/language-departments

 1. /germanic-lgs
  1. /swedish: merkistö:
   ASCII:
 2. /niger-congo-lgs
  1. /bantu-lgs
   1. /swahili:
    merkistö: ASCII code. Aineisto on kuvattu README-tiedostossa.

/multilingual-language-archive

Hakemisto sisältää useissa eri hankkeissa laadittuja ja useilta omistajilta saatuja korpuksia. Aineistot, jotka on saatu Raamatunkäännösinstituutilta (Helsinki, Tukholma ja Moskova) ennen vuotta 2007, on valmistettu useilla erilaisilla tekstinkäsittely- ja ladontaohjelmilla (MSWord, WordPerfect, Word, PageMaker jne.). Korpukset on toimitettu UNIX-käyttöjärjestelmälle. Useimpia aineistoista, jotka alkujaan on laadittu kyrillisellä aakkostolla, on ryhdytty toimittamaan myös utf-8-merkistölle. Toimitustyö jatkuu vielä, ja skriptit, joita tarvitaan aineistojen muokkaamisessa, ovat eri kielten hakemistojen yhteydessä olevissa hakemistoissa (hakemistojen nimi: XXX-in-preparation (XXX = kielen nimen lyhenne (jokaisella kielellä on oma lyhenteensä))). Osa aineistosta on toimitettu manuaalisesti Latin-1-merkistölle. Kyrillisellä aakkostolla laadittujen uralilaisten kielten korpusten konvertointi manuaalisesti Latin-1 merkistölle on kuvattu seuraavassa dokumentissa: Pirkko Suihkonen. 1997. Documentation of the Computer Corpora of Uralic Languages at the University of Helsinki. Technical Reports, No. TR-2. Helsinki: Department of General Linguistics, University of Helsinki. Pp. 10–15.


 1. /chukotko-kamchatkan-lgs
  1. /chukchi
   1. /New-Testament:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /koryak
   1. /New-Testament:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 2. /indo-european-lgs
  1. /iranian-lgs
   1. /west-iranian-lgs
    1. /kurdish
     1. /New-Testament:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /tajik
     1. /Bible-of-Children:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     2. /Books-of-Children:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    3. /east-iranian-lgs
     1. /ossete
      1. /Bible-of-Children:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /Books-of-Children:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      3. /New-Testament:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. slavonic-lgs
    1. /east-slavonic-lgs
     1. /ukrainian
      1. /Books-of-Children:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 3. /north-east-caucasian-lgs
  1. /avar-andi-tsez-lgs
   1. /avar
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /lak-dargva-lgs
   1. /lak
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  3. /lezgi-lgs
   1. /tabassaran
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 4. /mongolic-lgs
  1. /west-mongolic-lgs
   1. /kalmyk
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 5. /tungusic-lgs
  1. /north-tungusic-lgs
   1. /even
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. /evenki
    1. /Books-of-Children:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /south-tungusic-lgs
   1. /nanay
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 6. /turkic-lgs
  1. /bolgar-turkic-lgs
   1. /chuvash
    1. /paasonen-texts:
     merkistö: alkuperäinen teksti on kirjoitettu suomalais-ugrilaisella tarkekirjoituksella. Korpus on käännetty Latin-1-merkistölle. Kaikki merkit, joita on käytetty, eivät ole käytettävissä UNIX-käyttöjärjestelmässä.
  2. /north-turkic-lgs
   1. /khakas
    1. /Books-of-Children:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. tuvin
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   3. /yakut
    1. /Bible-of-Children:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  3. /north-west-turkic-lgs
   1. /balkar
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /Psalms:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. /bashkir
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   3. /crimean-turkish
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /wordlist:
     merkistö: Latin-1.
   4. /kirghiz
    1. /Books-of-Children:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   5. /tatar
    1. /Books-of-Children:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  4. /south-east-turkic-lgs
  5. /uighur
   1. /New-Testament:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  6. /uzbek
   1. /Bible-of-Children:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. /dictionary: ASCII.
 7. /south-west-turkic-lgs
  1. /azerbaijani
   1. /New-Testament:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /gagauz
   1. /New-Testament:
    merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  3. /turkmen
   1. /New-Testament, /Old-Testament:
    merkistö: aineisto on käännetty käsin Latin-1-merkistölle. Aineisto on myös utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
 • /uralic-lgs
  1. /finno-ugric-lgs
   1. /baltic-finnic-lgs
    1. /ingrian
     1. /texts, /morphologically-tagged-corpora:
      merkistö: Latin-1; alkuperäinen teksti on kirjoitettu suomalais-ugrilaisella tarkekirjoituksella.
      /english-translations:
      merkistö: Latin-1.
    2. /karelian
     1. /dvina-karelian
      1. /Books-of-Children:
       merkistö: Latin-1, aineisto on toimitettu manuaalisesti UNIX-käyttöjärjestelmään.
      2. /New-Testament:
       merkistö: Latin-1, aineisto on toimitettu manuaalisesti UNIX-käyttöjärjestelmään.
      /livvi
       /Bible-of-Children:
       merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
      1. /Books-of-Children:
       merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
      2. /New-Testament:
      3. Gospel-of-John, Gospel-of-Mark:
       merkistö: Latin-1. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
      4. Gospel-of-Matthew, Gospel-of-Luke:
       merkistö: Latin-1. Aineisto on siirretty suoraan UNIX-käyttöjärjestelmään.
      5. New-Testament-all
       1. tiedostomuoto: xml, htm- ja txt.
     2. /lude
      1. /texts:
       merkistö: Latin-1. Aineisto, joka on transkriboitu ääninauhoilta, on siirretty UNIX-käytöjärjestelmään sellaisenaan.
    3. /vepsian
     1. /Bible-of-Children:
      merkistö: aineisto on siirretty UNIX-käyttöjärjestelmään sellaisenaan.
     2. /Books-of-Children:
      merkistö: Latin-1. Aineisto on siirretty UNIX-käyttöjärjestelmään manuaalisesti.
     3. /New-Testament:
     4. Gospel-of-John, Gospel-of-Mark:
      merkistö: Latin-1 ja utf-8. Aineisto on siirretty manuaalisesti UNIX-käyttöjärjestelmään.
     5. Gospel-of-Matthew:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     6. New-Testament-all
     7. tiedostomuoto: xml, htm- ja txt.
    4. /livonian
     1. /Books-of-Children:
      merkistö: aineisto voidaan konvertoida utf-8-merkistölle.
     2. /suhonen:
      merkistö: ainesto on siirretty suoraan Latin-1-merkistölle.
   2. mari-lgs
    1. /eastern-mari
     1. /Bible-of-Children:
      Charcter set: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. New-Testament-all
     1. tiedostomuoto: xml, htm- ja txt.
     2. /western-mari
      1. /Books-of-Children:
       merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään. Käytössä on myös utf-8-merkistö.
      2. /hill-mari-texts:
       merkistö: alkuperäinen aineisto on kirjoitettu suomalais-ugrilaisella transkriptiojärjestelmällä. Aineisto on siirretty suoraan UNIX-käyttöjärjestelmään.
      3. /New-Testament:
       merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on siirretty suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   3. /mordvin-lgs
    1. erzya
     1. /Bible-of-Children:
      merkistö: aineisto on siirretty Latin-1-merkistölle manuaalisesti.
     2. /dictionary:
      merkistö: aineisto on muokattu siirrettäväksi utf-8-merkistölle.
     3. /epos:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     4. /historical-word-list:
      merkistö: Latin-1. Aineisto on siirretty merkistölle manuaalisesti. Aineistoon on merkitty sanan pääpaino.
     5. journals:
      merkistö: aineisto on muokattu siirrettäväksi utf-8-merkistölle.
     6. /morphologically-tagged-corpora:
      merkistö: aineisto on siirretty manuaalisesti Latin-1-merkistölle.
     7. /New-Testament:
      merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     8. /novels:
      merkistö: aineisto on valmisteltu siirrettäväksi utf-8-merkistölle (tiedostot, jotka alkavat merkkijonolla abra-). Muut tiedostot: aineistot on valmistettu siirrettäväksi utf-8-merkistölle.
     9. New-Testament-all
      1. tiedostomuoto: xml, htm- ja txt.
      2. /poetry:
       merkistö: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
      3. /short-stories:
       merkistö: aineistot on valmistettu siirrettäviksi utf-8-merkistölle.
     10. /moksha
      1. /Books-of-Children:
       merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään. /historical-word-list:
       merkistö: aineisto on toimitettu manuaalisesti Latin-1-merkistölle. Sanan pääpaino on merkitty sanoihin.
      2. /New-Testament:
      3. merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      4. /novels: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
   4. /permic-lgs
    1. /komi
     1. /permyak
      1. /Books-of-Children:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /New-Testament:
       merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     2. zyrian
      1. /Books-of-Children:
       merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      2. /komi-texts, komi-texts-snt, morphologically-tagged-corpora:
       merkistö: Latin-1. Aineisto on siirretty merkkijärjestelmään manuaalisesti.
      3. /New-Testament:
       merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
      4. /novels:
       merkistö: aineisto on toimitettu siirrettäväksi utf-8-merkistölle.
    2. /udmurt
     1. /Books-of-Children:
      merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     2. /New-Testament:
      merkistö: Latin-1 ja utf-8. Latin-1-muodossa oleva aineisto on toimitettu suoraan kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     3. /novels:
      merkistö: aineisto on siirretty manuaalisesti Latin-1-merkistölle.
     4. /udmurt-snt, /udmurt-texts-unmodified:
      merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
     5. /udmurt-statistical-data:
      merkistö: aineisto on numeerisessa muodossa. Numeerinen koodaus on kuvattu README-tiedostoissa.
   5. /saami-lgs
    1. /kildin-saami
     1. /Books-of-Children:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
    2. /northern-saami
     1. /report:
      Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkkijärjestelmälle.
     2. /vuolab:
      merkistö: Latin-1: aineisto on raakaversio, joka on siirretty suoraan UNIX-käyttöjärjestelmään.
     3. /ume-saami
      1. /data:
       merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
     4. ugric-lgs
      1. /khanty
       1. /atlym-dialect, /kazym-dialect, /konda-dialect, /nizjam-dialect, /obdorsk-dialect, /synja-dialect:
        merkistö: Latin-1. Aineisto on siiretty manuaalisesti Latin-1-merkistölle.
       2. /Books-of-Children:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
       3. /rugin:
        merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
      2. /mansi
       1. /Books-of-Children:
        merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
  2. /samoyedic-lgs
   1. /enets
    1. /New-Testament:
     merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
   2. /kamas:
    1. /texts-donner:
     merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.
   3. /nenets
    1. /tundra-nenets
     1. /New-Testament:
      merkistö: utf-8 ja Latin-1; Latin-1-muodossa oleva korpus on suoraan siirretty kyrilliseltä aakkostolta UNIX-käyttöjärjestelmään.
     2. /sample-sentences:
      merkistö: Latin-1. Aineisto on siirretty manuaalisesti utf-8-merkistölle.
   4. /selkup
    1. /h-dialects, /ivankino-dialect, /ket-dialect, /tundra-dialect, /tym-dialect, /upper-ob-dialect:
     merkistö: Latin-1. Aineisto on siirretty manuaalisesti Latin-1-merkistölle.


  © P.S. 2007