Korpusten hakemistorakenne ja tiedostojen sijainti


UHLCS:n kieliaineistojen ylimmällä tasolla oleva hakemistorakenne perustuu siihen, mikä instituutio tai ryhmä vastaa hakemistossa olevien korpusten käyttölupien myöntämisestä. Tämä rakenne on myös UNIX-ryhmien yhtenä osatekijänä (ks. README-tiedostot hakemistossa /l/mcr-uhlcs). Ylin hakemisto käsittää neljä kieliaineistojen hakemistoa: /general-linguistics, /general-linguistics-kotus, /language-departments ja /multilingual-language-archive.

  1. /general-linguistics: käyttöluvan myöntää Helsingin yliopiston yleisen kielitieteen laitos.
  2. /general-linguistics-kotus: käyttöluvan myöntää Helsingin yliopiston yleisen kielitieteen laitos tai Kotimaisten kielten tutkimuskeskus.
  3. /language-departments: käyttöluvan myöntää se Helsingin yliopiston kieliaineiden laitos, jonka alaisuuteen kuuluvia aineistoja hakemistossa on. Käytännössä luvan myöntää laitoksen auktorisoitu edustaja tai korpusten omistaja.
  4. /multilingual-language-archive: käyttöluvan myöntää Helsingin yliopiston yleisen kielitieteen laitos, mutta korpusten omistajaa tai omistajan edustajaa on informoitava korpuksen käyttöluvasta (luettelo henkilöistä, joihin pitää ottaa yhteyttä silloin, kun korpusten käyttölupa myönnetään).

Hakemistorakenteen ylimmällä tasolla on lisäksi alihakemisto /ADM, joka sisältää aineistojen hallintaan ja muokkaamiseen liittyviä tiedostoja sekä korpukset, jotka odottavat siirtoa korpushakemistoihin. Päähakemistossa ovat myös README-tiedostot, jotka sisältävät tietoa korpusten hallinnasta, korpusten käyttäjäryhmistä ja UNIX-ryhmistä.

Hakemistoissa itse korpukset on ryhmitelty kieliperheittäin. Kielten hakemistojen hakemistopuun ylimmällä tasolla on hakemisto, joka vastaa kieliperhettä: /indo-european-lgs, /uralic-lgs, jne. Hakemisto haarautuu alihakemistoihin sen mukaan, miten moneen seuraavaksi alemmalla tasolla olevaan kieliryhmään kuuluvia aineistoja arkistossa on. Kolmas taso kielipuussa on optionaalinen ja yhden alemman tason lisäksi voi olla useammallakin tasolla olevia noodeja. Kielipuussa varsinaisia aineistoja edeltävän hakemiston nimi on kielen nimi. Aineistojen hakemistot perustuvat korpuksen tai korpuksien koostumukseen ja omistussuhteisiin.

  1. /kieliperheen nimi
    1. /alemmalla tasolla olevan kieliperheen nimi
      1. /seuraavaksi alemmalla tasolla olevan kieliperheen nimi
        1. /kielen nimi
          1. /aineistojen hakemistot
            1. aineistot
          2. /metadata-tiedostot

Kieliaineistojen lisäksi on aineistojen kanssa samalla tasolla myös README-tiedostoja ja joitakin muita tiedostoja, jotka sisältävät tietoa korpuksista, kuten esim. korpusten merkistön muuntamista varten valmistettuja tiedostoja tai tietoa korpusten koodauksesta sekä metadata-tiedostoja. Aineistojen hakemistojen alihakemistoissa ovat myös ne alkuperäiset tiedostot, jotka ovat olleet korpusten hankkimisen yhteydessä saatavilla.


© P.S., Dec. 2007