|
HELSINGIN YLIOPISTON MONIKIELINEN SÄHKÖISESSÄ MUODOSSA
OLEVIEN KIELIAINEISTOJEN ARKISTO |
|
Helsingin yliopiston monikielinen sähköisessä muodossa olevien kieliaineistojen arkisto sisältää useista kielistä toimitettuja korpuksia ja peruspalveluja niiden tutkimista varten. Helsingin yliopisto on ylläpitänyt tietokonekorpuspalvelinta, joka perustettiin jo 1980-luvun lopulla. Syksyyn 2007 saakka Helsingin yliopiston tietokonekorpuspalvelin on sijainnut Helsingin yliopiston yleisen kielitieteen laitoksella. Syksyllä 2007 aineistot siirrettiin CSC:n laitteistoille. Korpuskokoelmat säilyvät Helsingin yliopiston yleisen kielitieteen laitoksen hallinnassa. Aineistokokoelman kehittämisen alkuvaiheessa korpuspalvelimella oli suomen, ruotsin ja englannin korpuksia, joita oli koottu erityisesti näiden kielten automaattista analysointia koskevan tutkimuksen tarpeisiin. Yksi ensimmäisistä korpuksista oli syntaktisesti analysoitu suomen kielen korpus, joka tunnetaan nimellä "HKV-korpus" (Hakulinen, Karlsson & Vilkuna 1980). Korpus on yksi parhaiten tunnetuista sähköisessä muodossa olevista suomen kielen aineistoista. Monet korpuksista on laadittu Helsingin yliopiston kieliaineiden laitoksilla. Nykyisellään Helsingin yliopiston tietokonekorpuspalvelimella on korpuksia yli 50 kielestä. Merkittävä osa korpuksista on laadittu eri hankkeiden yhteydessä, ja esim. useimmat Suomen Akatemian ja Helsingin yliopiston hankkeiden SA 1011 928, 1991-1993 ja SA 1013 4233, 1996-1998 sekä NOS-H:n hankkeen Datamaskinell dokumentasjon av utsette uralske språk (1996-1997) aikana laaditut, morfologisesti analysoidut korpukset sijaitsevat Helsingin yliopiston tietokonekorpuspalvelimella. Uralilaisten kielten tietopankki on osa monikielistä arkistoa. Myös yksityiset henkilöt ovat antaneet omia aineistojaan tutkimus- ja opetuskäyttöön. Korpusten koko ja tekstilaji vaihtelee: joissakin suurissa korpuksissa ovat useat tekstilajit edustettuina, jotkin korpukset taas ovat pieniä näytteitä uhanalaisista kielistä. Suomen, englannin, latinan, venäjän ja suahilin korpukset ovat kaikkein suurimmat. Esim. jo 1990-luvun lopulla suomen, englannin ja suahilin korpukset olivat kooltaan useita miljoonia sanoja (Helsinki Corpora I). Palvelimella on korpuksia monista Euroopassa ja Pohjois- ja Keski-Aasiassa puhuttavista kielistä (LENCA-ryhmä: Languages Spoken in Europe and North and Central Asia) (vrt. Helsinki-Corpora II). Leipzigissa oleva Kehitysantropologian Max Planck Instituutin kielitieteen laitos on tukenut uralilaisten, turkkilaisten, tshuktsilais-kamtshatkalaisten ja iranilaisten kielten, mongolikielten, tunguusikielten ja koilliskaukasialaisten kielten korpuksien toimittamista julkaisukuntoon. Kieliaineistot on järjestetty kieliperheittäin ja kaikkiin korpuksiin on liitetty korpusten kuvaus, joka on myös linkitetty korpuksista tiedottaville verkkosivuille. Perustyö korpusten metatiedon kuvauksille on laadittu kansainvälisen ECHO-hankkeen (European Cultural Heritage Online) turvin. Lisätietoa yksittäisistä korpuksista voi tiedustella korpusten yhteyshenkilöltä, joiden yhteystiedot on liitetty korpuksen kuvauksiin.
Helsingin yliopiston korpuspalvelimella on myös työvälineitä korpusten analysointia varten. Korpuspalvelin toimii UNIX-käyttöjärjestelmässä, joka itsessään sisältää työvälineitä, joita voidaan käyttää korpusten tutkimuksessa.
Jotta korpuksia voidaan käyttää, tarvitaan erityinen käyttölupa,
jonka voi tulostaa korpuspalvelimen verkkosivuilta. Kun
korpuspalvelimelle otetaan uusia aineistoja,
solmitaan korpusten omistajien ja Helsingin yliopiston yleisen kielitieteen laitoksen välillä
sopimus, jossa määritellään omistajien ja
käyttäjien oikeudet ja velvollisuudet. Palvelimen
verkkosivuilla on alkujaan suomeksi laaditun sopimuksen
lisäksi myös ruotsin-, englannin- ja
venäjänkieliset käännökset.
Yksi Helsingin yliopiston tietokonekorpuspalvelimen monista
tehtävistä on ollut toimia uhanalaisten kielten
sähköisessä muodossa olevien aineistojen
arkistona. Sähköisessä muodossa olevien aineistojen
merkitystä uhanalaisten kielten tulevaisuudelle kuvaa hyvin
seuraava katkelma, joka on poimittu alan kongressissa pidetystä
esitelmästä:
"Only languages for which adequate language resources, products and
systems have been developed will be available over the Information
Society network. On the worst hypothesis, citizens who are not able to
communicate in the languages implemented in the global network would
be denied full participation in the Information Society. Authoritative
sources have already warned that languages for which language
technology will not be adequately developed run the risk of losing
their status as media of communication in the Information Society:
because languages and cultures are inextricably linked, that will
seriously threaten one of our most valuable human assets, linguistic
and cultural diversity. To avoid this danger it is necessary to
support multilinguality." (Antonio Zampolli in Rubio A. &
al. 1998. First International Conference on Language Resources and
Evaluation. Elra. Granada. Cit. Frantishek Chermak, Nov. 1998,
Lecture, Mathesius Courses, Prague).
Lähteet
Suihkonen, Pirkko (1998). Documentation of the Computer
Corpora of the Uralic Languages at the University of
Helsinki. Technical Reports TR-2. University of
Helsinki. Department of General Linguistics.
|