Korpusten dokumentointi ja koodaukset


 1. Korpusten dokumentointi ja kuvaukset (metadata)

 2. Korpusten rakenteiden kuvaukset

 3. Korpusten morfologinen ja syntaktinen koodaus

 4. Korpusten eri versioiden säilytys ja uusien versioiden valmistaminen jo olemassa olevista korpuksista

 1. Korpusten dokumentointi ja kuvaukset (metadata)

 2. Termiä "metadata" käytetään eri merkityksissä. Tavallisimmin sillä tarkoitetaan aineiston dokumentoinnissa ja arkistoinnissa tarvittavaa aineiston identifioinnissa ja kuvauksessa käytettyä käsitteistöä. Usein myös erityisesti aineiston rakenteen kuvauksessa käytetyt käsitteet luetaan kuuluviksi metadataan, ja joskus myös kaikkien aineistossa esiintyvien elementtien kategorioiden annotointi. Tässä metadataksi luetaan kaikki sellaiset käsitteet ja termit, jotka eivät kuulu varsinaiseen aineistoon, sen substanssiin. Korpusten dokumentointia koskevaa kuvausta on nimitetty metadataksi, ja korpusten rakennetta ja analysointia koskevat kuvaukset on määritelty kuuluviksi aineiston analysointiin.

  UHLCS:ssa olevien korpuksien dokumentoinnissa on noudatettu erilaisia käytäntöjä. Osittain tämä johtuu siitä, että korpuksia on laadittu n. 30 vuoden aikana, ja varsinaiset korpusten dokumentointia koskevia standardeja kehitettiin vasta erityisesti 1990-luvulla, jolloin osa korpuksista jo oli olemassa. Jokseenkin kaikissa korpuksissa on maininta siitä, kuka on tekstin kirjoittaja, kuka tai mikä on julkaistun aineiston kustantaja, ja milloin dokumentti on julkaistu ja missä. Sitä mukaa kun korpusten dokumentointia ja sähköisessä muodossa olevien arkistojen laatimista koskevat hankkeet etenivät, myös korpusten dokumentointi ja kuvaukset tulivat tarkemmiksi ja monipuolisemmiksi. Seuraavissa verkko-osoitteissa on hankkeita, jotka käsittelevät kieliaineistojen dokumentointia ja sähköisessä muodossa olevien arkistojen laatimisen perusteita:  1. TEI: Text Encoding Initiative,
  2. EAGLES: Expert Advisory Group on Language Engineering Standards
  3. DC: Dublin Core Metadata Initiative
  4. ISLE: International Standards for Language Engineering
  5. OLAC: Open Language Archives Community
  6. The Open Language Archives Community Archiving and linguistic resources or How to keep your data from becoming endangered
  7. Requirements on the Infrastructure for Open Language Archiving
  8. ISLE tools for documentation and metadata descriptions

  Kaikista UHLCS:ssa olevista korpuksista on laadittu metadata-kuvaukset Psykolingvistiikan Max Planck Instituutissa (the Max Planck Institute for Psycholinguistics, Nijmegen) valmistetulla IMDI-editorilla (ks. ISLE tools for documentation and metadata descriptions ja ISLE: International Standards for Language Engineering). Kuvaukset on sovitettu vastaamaan valmiita tekstiaineistoja. Metadata-kuvaukset ovat korpushakemistoissa kielten hakemistoissa olevissa omissa hakemistoissaan. Metadata-kuvaukset ovat nähtävissä paitsi korpusten yhteydessä olevissa erillisissä hakemistoissa myös UHLCS:n verkkosivuilla.


 3. Korpusten rakenteiden kuvaukset

 4. UHLCS:ssa olevien korpusten rakenteen kuvauksissa on eroja. Vanhimpia korpuksia ei ole merkitty tekstin rakennetta kuvaavilla koodeilla lainkaan, eikä TEI-kuvauksiakaan ole. Seuraavassa luettelossa on esitelty eri hakemistoissa olevien aineistojen rakenteiden koodausten eri tyypit.

  1. /general-linguistics:
   1. /afro-asiatic-lgs/.../somali: korpus koostuu suomesta somaliin käännetyistä teksteistä. Käännökset on tehty lauseittain. Lauseet on merkitty omilla indekseillään, samoin artikkelit.
   2. /indo-european-lgs/latin: korpukseen on rivitasolla merkitty aineiston aineistokohtaiset tiedot.
    .../english: /gutenberg: kukin lause on omalla rivillään; /susanne: korpus on sana-per-rivi-muodossa. Aineisto sisältää kieliopillisen koodauksen; WSJ: aineisto sisältää rakenteen koodauksen.
    .../yiddish: juokseva teksti.
    .../russian: .../fowler-corpus, .../spoken ja .../uppsala-corpus: rakenteen sgml-koodaus ja TEI-koodaus (TEI-header); .../tampere-corpus: morfologisesti analysoitu korpus (TWOL).
   3. /uralic-lgs/baltic-finnic-lgs/viro-1: riisuttu rakenteen koodaus; .../viro-2: tekstit on preprosessoitu.
    .../finnish: .../bible: a) juokseva teksti, b) kompleksinen kategorioiden ja rakenteiden koodaus; hkv: syntaktinen analyysi, lause-per-rivi-formaatti.
   4. /multi-lingual-data/words: kukin sana on omalla rivillään.

  2. /general-linguistics-kotus:
   1. /uralic-lgs/.../finnish: .../a-contracts: morfologisesti analysoitu aineisto (TWOL), rakenteen koodaus (kaksi eri järjestelmää), juokseva teksti; .../ftc: morfologisesti koodattu aineisto (TWOL), juokseva teksti; parole: TEI-koodaus ja rakenteen koodaus.

  3. /language-departments:
   1. /indo-european-lgs/.../swedish: fisc: morfologisesti analysoitu aineisto (TWOL), rakenteen koodaus, aineisto on preprosessoitu siten, että kukin lause on omalla rivillään.
   2. /niger-congo-lgs/.../swahili: juokseva teksti ja preprosessoitu juokseva teksti.

  4. /multilingual-language-archive:
   Kaikki hakemistot: juokseva teksti; Raamatunkäännösinstituuteilta saadut aineistot: perusmuotoinen rakenteen ja julkaisutietojen koodaus voidaan lisätä automaattisesti tiedostoon (http://www.ling.helsinki.fi/uhlcs/metadata);
   /uralic-lgs/.../khanty ja .../komi: hakemistossa on korpuksia, a) jotka ovat juoksevaa tekstiä, b) jotka on analysoitu morfologisesti, ja b) joihin on merkitty lauseen positio dokumentissa;
   /uralic-lgs/.../erzya: hakemistossa on a) morfologisesti analysoitu korpus ja b) kaunokirjallisuutta, joka on juoksevaa tekstiä;
   /uralic-lgs/.../ume-saame: morfologisesti analysoitu korpus sana-per-rivi muodossa käännettynä ruotsiksi;
   /uralic-lgs/.../nenets: morfologisesti analysoitu korpus käännettynä venäjäksi; rakenteen koodauksessa tunnistetaan lauseen asema alkuperäisessä dokumentissa;
   /uralic-lgs/.../ingrian: morfologisesti analysoitu korpus sana-per-rivi muodossa käännettynä englanniksi;
   /uralic-lgs/.../hill-mari: morfologisesti analysoitu korpus sana-per-rivi-muodossa käännettynä englanniksi, sekä tekstinä käännettynä saksaksi ja englanniksi;
   /turkic-lgs/.../chuvash: morfologisesti analysoitu korpus sana-per-rivi muodossa käännettynä englanniksi; .../uzbek: sanakirja, jossa hakusanat ja käännökset ovat omalla rivillään; .../crimean-turkish: sanaluettelo: kukin sana on omalla rivillään.


  Hakemistossa /multilingual-language-archive olevien tekstien ja rakenteiden kuvausta käsitellään seuraavassa dokumentissa: Suihkonen, Pirkko. 2003. Metadata descriptions for combining information on multimodal data located at the University of Helsinki Language Corpus Server. In Sándor Darányi (ed.). HOMO 2003 - Information society, cultural heritage and folklore text analysis, 24-26 November 2003, Budapest, Hungary. Conference papers: http://itm.bme.hu/DesktopDefault.aspx?tabid=127.


 5. Korpusten morfologinen ja syntaktinen koodaus

 6. Suurin osa UHLCS:ssa olevista aineistoista on juoksevaa tekstiä, johon ei ole liitetty tietoa kieliopillisista kategorioista. Osa aineistosta on varustettu morfologisin indeksein, jotka on liitetty sanoihin manuaalisesti. Manuaalisesti on analysoitu mm. tshuvassin, hantin, ersän, komin, inkeroisen, selkupin ja tundranenetsin korpuksia. Joidenkin kielten analysointia varten on käytettävissä myös automaattisia morfologisia ja syntaktisia analysoijia. Osa korpuksista onkin analysoitu automaattisesti ja analysoidut aineistot, jotka on tarkastettu manuaalisesti, ovat tutkijoiden käytössä. Tällaisia aineistoja on mm. venäjästä, englannista, ruotsista ja suomesta. Käytettävissä on myös suomen, englannin, ruotsin, saksan ja suahelin automaattiset morfologiset analysoijat. Myös joidenkin muiden kielten, mm. komin ja mordvan automaattiset analysoijat ovat valmisteilla. Syntaktisia analysoijia, jäsentäjiä, on suomen ja englannin aineistoja varten. Seuraavissa julkaisuissa on kuvattu UHLCS:ssa olevien korpusten morfologisia ja syntaktisia analysointijärjestelmiä:

  Hakulinen, Auli, Fred Karlsson, and Maria Vilkuna. 1980. Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications No. 6. Helsinki: Department of General Linguistics, University of Helsinki.

  Koskenniemi, Kimmo. 1983. Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. Publications No. 11. Helsinki: Department of General Linguistics, University of Helsinki.

  Pirkko Suihkonen. 1997. Documentation of the Computer Corpora of Uralic Languages at the University of Helsinki. Technical Reports, No. TR-2. Helsinki: Department of General Linguistics, University of Helsinki. Pp. 16–51.


 7. Korpusten eri versioiden säilytys ja uusien versioiden valmistaminen nyt olemassa olevista korpuksista

  1. Korpuksista voidaan laatia uusia versioita tutkimustarkoituksiin siten, ettei toiminta loukkaa tekijänoikeuslakia. "Sähköisistä teksteistä/kieliaineistoista koostettavaa eri kielten tietopankkia varten aineistoja käsitellään sekä käsin että koneellisesti, mutta niiden sisältöä ei muuteta. Teksteihin/kieliaineistoihin voidaan liittää tietoja esimerkiksi virkkeistä, kappaleista, sanaluokista tm. kielellisistä ominaisuuksista, jotka ovat tarpeen aineistoja tieteellisesti tutkittaessa, sekä sellaisia tietoja, jotka ovat tarpeen käsiteltäessä aineistoja atk-menetelmin" (Sopimus sähköisten ja sähköiseen muotoon saatettavien, erilaisten kieliaineistojen liittämisestä Helsingin yliopiston tietokonekorpuspalvelimeen).

  2. Korpuksista säilytetään alkuperäinen versio sekä kaikki versiot, jotka niistä on laadittu eri tarkoituksia varten. Perusversio on korpus, joka on laadittu alkuperäisestä korpuksesta siten, että sen UNIX-käyttöjärjestelmään sovelletut merkit vastaavat alkuperäisessä dokumentissa olevia merkkejä. Kaikki alkuperäinen dokumenttia koskeva informaatio on säilytettävä korpuksen eri versioissa korpuksen käyttöoikeutta koskevan sopimuksen mukaisesti.

  3. Myös korpusten uusista versioista on laadittava metadata-tiedostot, joissa kerrotaan korpusten alkuperä sekä se, mitä korpuksille on tehnyt, kuka on editoinut korpuksia, milloin se on tehty, ja kaikki muu dokumentointiin kuuluva informaatio.
  4. Kaikista uusista korpuksista on laadittava metadata-kuvaukset.


© P.S. 18 Dec 2007