HELSINGIN YLIOPISTON MONIKIELINEN SÄHKÖISESSÄ MUODOSSA OLEVIEN KIELIAINEISTOJEN ARKISTO
(Multilingual Language Resources of the University of Helsinki Language Corpus Server (UHLCS))

Helsingin yliopisto, Yleisen kielitieteen laitos

Helsingin yliopiston tietokonekorpuspalvelimen uusi sijainti

Helsingin yliopiston monikielinen sähköisessä muodossa olevien kieliaineistojen arkisto sisältää useista kielistä toimitettuja korpuksia ja peruspalveluja niiden tutkimista varten. Helsingin yliopisto on ylläpitänyt tietokonekorpuspalvelinta, joka perustettiin jo 1980-luvun lopulla. Syksyyn 2007 saakka Helsingin yliopiston tietokonekorpuspalvelin on sijainnut Helsingin yliopiston yleisen kielitieteen laitoksella. Syksyllä 2007 aineistot siirrettiin CSC:n laitteistoille. Korpuskokoelmat säilyvät Helsingin yliopiston yleisen kielitieteen laitoksen hallinnassa.

Aineistokokoelman kehittämisen alkuvaiheessa korpuspalvelimella oli suomen, ruotsin ja englannin korpuksia, joita oli koottu erityisesti näiden kielten automaattista analysointia koskevan tutkimuksen tarpeisiin. Yksi ensimmäisistä korpuksista oli syntaktisesti analysoitu suomen kielen korpus, joka tunnetaan nimellä "HKV-korpus" (Hakulinen, Karlsson & Vilkuna 1980). Korpus on yksi parhaiten tunnetuista sähköisessä muodossa olevista suomen kielen aineistoista. Monet korpuksista on laadittu Helsingin yliopiston kieliaineiden laitoksilla. Nykyisellään Helsingin yliopiston tietokonekorpuspalvelimella on korpuksia yli 50 kielestä. Merkittävä osa korpuksista on laadittu eri hankkeiden yhteydessä, ja esim. useimmat Suomen Akatemian ja Helsingin yliopiston hankkeiden SA 1011 928, 1991-1993 ja SA 1013 4233, 1996-1998 sekä NOS-H:n hankkeen Datamaskinell dokumentasjon av utsette uralske språk (1996-1997) aikana laaditut, morfologisesti analysoidut korpukset sijaitsevat Helsingin yliopiston tietokonekorpuspalvelimella. Uralilaisten kielten tietopankki on osa monikielistä arkistoa. Myös yksityiset henkilöt ovat antaneet omia aineistojaan tutkimus- ja opetuskäyttöön. Korpusten koko ja tekstilaji vaihtelee: joissakin suurissa korpuksissa ovat useat tekstilajit edustettuina, jotkin korpukset taas ovat pieniä näytteitä uhanalaisista kielistä. Suomen, englannin, latinan, venäjän ja suahilin korpukset ovat kaikkein suurimmat. Esim. jo 1990-luvun lopulla suomen, englannin ja suahilin korpukset olivat kooltaan useita miljoonia sanoja (Helsinki Corpora I). Palvelimella on korpuksia monista Euroopassa ja Pohjois- ja Keski-Aasiassa puhuttavista kielistä (LENCA-ryhmä: Languages Spoken in Europe and North and Central Asia) (vrt. Helsinki-Corpora II). Leipzigissa oleva Kehitysantropologian Max Planck Instituutin kielitieteen laitos on tukenut uralilaisten, turkkilaisten, tshuktsilais-kamtshatkalaisten ja iranilaisten kielten, mongolikielten, tunguusikielten ja koilliskaukasialaisten kielten korpuksien toimittamista julkaisukuntoon.

Kieliaineistot on järjestetty kieliperheittäin ja kaikkiin korpuksiin on liitetty korpusten kuvaus, joka on myös linkitetty korpuksista tiedottaville verkkosivuille. Perustyö korpusten metatiedon kuvauksille on laadittu kansainvälisen ECHO-hankkeen (European Cultural Heritage Online) turvin. Lisätietoa yksittäisistä korpuksista voi tiedustella korpusten yhteyshenkilöltä, joiden yhteystiedot on liitetty korpuksen kuvauksiin.

Helsingin yliopiston korpuspalvelimella on myös työvälineitä korpusten analysointia varten. Korpuspalvelin toimii UNIX-käyttöjärjestelmässä, joka itsessään sisältää työvälineitä, joita voidaan käyttää korpusten tutkimuksessa. Jotta korpuksia voidaan käyttää, tarvitaan erityinen käyttölupa, jonka voi tulostaa korpuspalvelimen verkkosivuilta. Kun korpuspalvelimelle otetaan uusia aineistoja, solmitaan korpusten omistajien ja Helsingin yliopiston yleisen kielitieteen laitoksen välillä sopimus, jossa määritellään omistajien ja käyttäjien oikeudet ja velvollisuudet. Palvelimen verkkosivuilla on alkujaan suomeksi laaditun sopimuksen lisäksi myös ruotsin-, englannin- ja venäjänkieliset käännökset.

Yksi Helsingin yliopiston tietokonekorpuspalvelimen monista tehtävistä on ollut toimia uhanalaisten kielten sähköisessä muodossa olevien aineistojen arkistona. Sähköisessä muodossa olevien aineistojen merkitystä uhanalaisten kielten tulevaisuudelle kuvaa hyvin seuraava katkelma, joka on poimittu alan kongressissa pidetystä esitelmästä:

    "Only languages for which adequate language resources, products and systems have been developed will be available over the Information Society network. On the worst hypothesis, citizens who are not able to communicate in the languages implemented in the global network would be denied full participation in the Information Society. Authoritative sources have already warned that languages for which language technology will not be adequately developed run the risk of losing their status as media of communication in the Information Society: because languages and cultures are inextricably linked, that will seriously threaten one of our most valuable human assets, linguistic and cultural diversity. To avoid this danger it is necessary to support multilinguality." (Antonio Zampolli in Rubio A. & al. 1998. First International Conference on Language Resources and Evaluation. Elra. Granada. Cit. Frantishek Chermak, Nov. 1998, Lecture, Mathesius Courses, Prague).



Lähteet

* Hakulinen, Auli, Karlsson, Fred & Vilkuna, Maria (1980). Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications 6. Department of General Linguistics, University of Helsinki. Helsinki.)

* Koskenniemi, Kimmo (1983). Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. Publications 11. Department of General Linguistics, University of Helsinki. Helsinki.

* Suihkonen, Pirkko (1998). Documentation of the Computer Corpora of the Uralic Languages at the University of Helsinki. Technical Reports TR-2. University of Helsinki. Department of General Linguistics.




© P.S. 2002; 2007; Last modified: Tue Nov 25 15:14:57 EET 2008