1. Kimmo Koskenniemi
Kaikki nämä tekijät pitäisi ottaa huomioon jo korpusten laatimista koskevissa työsuunnitelmissa.
2. Pirkko Suihkonen
Esitelmässä esiteltiin lyhyesti myös niitä ongelmia, jotka liittyvät vähemmistökielten tietokonekorpusten laatimiseen. Näitä ovat mm.
Kun korpuksen koodauksessa edistytään vähitellen, on etuna se, että semanttinen koodaus voidaan yhdistää morfologiseen ja syntaktiseen koodaukseen. Käytännössä työ edistyy parhaiten, jos leksikaalis-semanttinen tieto koodataan morfologisen koodauksen ja syntaktis-semanttinen tieto syntaktisen koodauksen yhteydessä. Myös aineiston kääntäminen ja glossaus on mahdollista tehdä samanaikaisesti koodauksen kanssa.
Riippumatta käytännön työssä esiintyvistä ongelmista olisi koodaus voitava tehdä mahdollisimman automaattisesti.
3. Arvi Hurskainen
Menetelmä vaatii kielikohtaisten ohjelmien käyttöä. Hurskainen on työstänyt swahilin kielen kaksitasomallin SWATWOL, ja rajoituskielioppi-malliin perustuvan syntaktisen jäsentäjän SWACG, joita hän käyttää informaation haussa. Hurskaisen tavoitteena on atk-muotoisen leksikaalisen arkiston/tietokannan luominen swahilin kielelle.
4. Seppo Suhonen
Haastattelijan tekemiä kysymyksiä ei usein merkitty lainkaan. Kielenopas saattoi jälkikäteen korjata tekstiä, ja korjaukset täydennettiin alkuperäiseen korpukseen. Lisäksi dokumentoitiin tekstikorpuksen lähdetiedot. Esityksessä käsiteltiin korpusten dokumentoinnin kannalta katsottuna yleisiä arkistointiperiaatteita. (Näihin periaatteisiin verrattavan informaation pitäisi olla mukana myös tietokonekorpusten dokumentaatiossa.) Muilta osin esitelmä käsitteli puhekielen korpuksen laatimiseen liittyviä tekijöitä. Eri aikoina dokumentoitujen uralilaisten kielten tekstikorpusten julkaisemisesta on huolehtinut Suomalais-Ugrilainen Seura.
5. Tiit Hennoste
Korpus, jonka koostumusta on suunniteltu huolellisesti etukäteen, sisältää otoksia eri tekstilajeista ja eri ajanjaksoilta. Käytännössä korpuksia on valittu LOB-korpuksen tekstivalintoihin käytettyjen periaatteiden mukaan. Jaotteluperusteina käytettiin mm.
Julkaisut on painettu vuosien 1983 - 1987 välisenä aikana. Korpuksen tekstilajit poikkeavat jonkin verran LOB-korpuksen (brittienglannin korpus; LOB = Lancaster - Oslo - Bergen) vastaavista. Korpusten laadinnan periaatteisiin ovat vaikuttaneet Viron historiallisista vaiheista johtuvat seikat. Mm. kaupallista viihdekirjallisuutta ja uskonnollisia tekstejä ei tänä aikana julkaistu ja propagandakirjallisuutta julkaistiin suuri määrä. Korpustyötä jatketaan edelleen.
6. Arto Moisio ja Jorma Luutonen
Jorma Luutosen esittelemä marin korpus on tekstikorpus, josta osa on kirjoitettu Turun yliopiston suomalais-ugrilaisella laitoksella. Marin korpus, joka on vielä kesken, tulee lopullisessa vaiheessaan käsittämään n. 1 milj. sanetta. Korpus sisältää aineistoa sekä itä- että länsimarin kirjakielestä. Osa tekstikorpuksesta on jo käytössä. Myös marin korpusta varten on laadittu valmis hakuohjelma. Korpusta ei ole koodattu, mutta tulevaisuudessa morfologinen analyysi voitaneen mahdollisesti suorittaa käyttämällä kaksitasomallia, jota Luutonen on työstänyt.
7. Liisa Nuutinen
Korpuksen käyttöä varten on olemassa valmiita hakuohjelmia. Hakuohjelmissa haku kohdistuu aina virkkeeseen.
8. Tarmo Rahikainen
Korpusta koskevat yleiset tiedot voidaan liittää korpuksen nimiöosaan.
Lauri Carlson esitti eri standardeissa esiintyvien termien käännösten epäyhtenäisyydestä, ja keskustelussa todettiinkin, että monille termeille tarvittaisiin yhteisesti hyväksytyt käännökset.
9. Ulla Takala
Korpuksen hauissa käytetään käyttöjärjestelmään kuuluvia hakukomentoja. Käytössä on lisäksi erilaisia hakuohjelmia. Korpusta on nopea käyttää. Murresanakirjan kuten muitakin Kotimaisten kielten tutkimuskeskuksen korpuksia voi käyttää hankittuaan ensin erityisen käyttöluvan.
10. Heli Keijonen
Aineisto, joka on jaettu alakohtaisiin tiedostoihin, koostuu eri alojen termitietueista. Kukin termitietue koskee yhtä tiettyä käsitettä, ja tietueessa termi ja sen määritelmä annetaan eri kielillä. Eri kielisten termien määrä vaihtelee aloittain. Termipankin laatimisessa hyödynnetään eri alojen asiantuntijoita. Terminologiaan perustuva vastinehaku aloitetaan käsitteestä.
Heli Keijosen esitelmä edusti korpusten erikoistyyppiä, aineistoa, joka on suunniteltu palvelemaan tiettyä käyttötarkoitusta ja jonka rakenne ja myös laatu on sidoksissa moneen muuhun vastaavaan aineistoon.
11. Jan Lindström
12. Matti Rissanen
The Helsinki Corpus of English Texts sisältää tekstejä ja tekstiotteita 1000 vuoden ajalta, 700-luvulta 1700-luvulle. Korpus sisältää eri tyyppisiä tekstejä. Erityisesti tätä korpusta varten kehitetty parametrikoodijärjestelmä antaa tietoja tekstistä ja kirjoittajasta. Osa korpuksesta on myös syntaktisesti koodattu, ja myös varhaisuusenglantilaisen osan lingvistinen koodaus on valmisteilla. Korpus on dokumentoitu hyvin. Se on käytettävissä useissa yliopistoissa ja tutkimuskeskuksissa eri puolilla maailmaa.
12. Anneli Meurman-Solin
Meurman-Solin on korpuksensa avulla osoittanut useita merkittäviä skotin kielen kehitykseen liittyviä vaiheita ja niiden erityisominaisuuksia.
13. Terttu Nevalainen & Helena Raumolin-Brunberg
Kirjeet on valittu tutkimuskohteeksi siksi, että ne muistuttavat puhuttua kieltä ja kirjeiden lähettäjän ja vastaanottajan henkilöllisyys on usein helppo selvittää. Kirjeiden autenttisuus jää kuitenkin joskus puutteelliseksi. Koska luku- ja kirjoitustaito ei ollut tuona aikana kovin yleistä, on kirjoittajien sosiaalinen tausta suhteellisen yksipuolinen. Tutkijoiden tarkoituksena on käyttää kirjeiden kieltä testatakseen sosiolingvististen menetelmien soveltuvuutta historiallisessa sosiolingvistisessä tutkimuksessa.
14. Irma Taavitsainen & Päivi Pahta
15. Ahti Nikunlassi & Jouko Lindstedt
Kummassakin korpuksessa esiintyvien erityismerkkien muokkaamiseksi latinalaiseen aakkostoon sopiviksi on laadittu omat konventionsa. Uppsalan korpukseen on koodattu TEI-tunnisteet yleisen kielitieteen laitoksella. Venäjän korpuksen sanaston morfologista analyysia varten on käytössä Liisa Vilkin laatima morfologinen kaksitasomalli. Myös muita laajoja venäjän kielen korpushankkeita on suunnitteilla.
Viron kielen korpus on suunniteltu tietoisesti arkistoksi, johon on koottu ja edelleen kootaan viron kirjallista kulttuuria edustava tekstiaineisto. Vastaavanlaisia korpusarkistoja ovat myös Kotimaisten kielten tutkimuskeskuksen, Turun yliopiston ja Helsingin yliopiston pohjoismaisten kielten laitoksen, slaavilaisten kielen laitoksen ja suunnitteilla ja tekeillä olevat suomalaisugrilaisen laitoksen korpukset. Hurskaisen swahilin aineistot ja hänen niiden käsittelyyn laatimansa ohjelmat palvelevat swahilin kielen tutkimusta, mutta aineistot toimivat samalla myös arkistoina. Myös Suihkosen UHLCS:iin toimittamat korpukset kuuluvat kumpaankin kategoriaan. Ensisijaisena tavoitteena on saada tutkimusaineistoa typologisesti erilaisista kielistä ja kielten typologisten ominaisuuksien tulisi heijastua myös korpusten koodauksessa. Toisena tavoitteena on dokumentoida uhanalaisten kielten aineistoa.
Tekstin tunnistetiedot on liitettävä kaikkiin korpuksiin. Tällä tavoin tekstit ovat tunnistettavissa vuosisatojenkin kuluttua. (Tekstin tunnistetiedot on merkitty kaikkiin niihin korpuksiin, jotka olen toimittanut waltariin. Tekstejä koskevat julkaisut toimitan yleisen kielitieteen laitoksen kirjastoon sitä mukaa kuin ne minulle toimitetaan.) Myös tekstin sisäistä rakennetta koskevat tiedot on merkitty kaikkiin työstettyihin korpuksiin eri tasoisilla rajoittimilla. Tuntuu selvältä, että kohtien (a) - (c) koodaus on luonnollista ja järkevää suorittaa käyttämällä TEI-koodausta. Mutta ennen kuin TEI-koodausta ryhdytään käyttämään myös morfologisessa koodauksessa, olisi keskusteltava mm. seuraavista seikoista:
Keskustelussa esitettiin kysymys, joka koski kaikkien vanhojen korpusten koodaamista TEI-muotoon. Hanketta puolusteltiin sillä, että tällä tavoin kaikki korpukset olisivat yhteismitallisia. Eikö tällaiseen urakkaan kannattaisi ryhtyä vasta sitten, kun on olemassa selvä tutkimusongelma, jonka selvittämiseksi on tarpeen aineisto, jossa kaikki mahdolliset korpukset on koodattu TEI-muotoon? Sen sijaan olisi hyödyllistä arkistoida kaikki tietokoneella luettavassa muodossa oleva aineistot siten, että olisi mahdollista nopeasti selvittää, mitä aineistoja eri kielillä yleensä on tietokonekorpuksina tallenteilla.
II. Yhteenveto
1. Yleistä
Englannin kielen laitoksen korpukset on laadittu lähes kymmenen vuoden aikana. Korpusten laatiminen on organisoitu hyvin ja oleellista on, että korpukset on laadittu tutkimusta varten. Korpuksista vastaavilla tutkijoilla on ollut selvä tutkimusongelma ja he ovat laatineet korpuksen juuri kyseistä tutkimusongelmaa silmällä pitäen. Myös korpusten arkistointiin ja dokumentointiin liittyvät kysymykset on hoidettu huolellisesti.
2. Korpusten käyttötarkoitus
Syy, miksi korpuksia laaditaan, jotakin tiettyä tutkimusta varten vai arkistointia varten, muodostaakin yhden keskeisimmistä korpusten laatimiseen vaikuttavista perusteista. Kun korpus laaditaan jonkin tutkimusongelman selvittämiseksi, on aineiston käsittely tavoitehakuisempaa ja usein myös tehokkaampaa kuin silloin, kun tavoitteena on pelkästään materiaalin arkistointi. Tämä näkyi selvästi myös Kotimaisten kielten tutkimuskeskuksen esitelmissä. Esitelmien pitäjät käyttivät merkittävän pitkän jakson esitelmän kestosta nimenomaan sen esittämiseen, mitä kiinnostavia asioita korpuksista voidaan saada irti eri hakumenetelmin. Sekä englannin kielen korpusten että Kotimaisten kielten tutkimuskeskuksen murresanakirjan ja vanhan kirjasuomen aineistojen koodaajina tai koodausta suunnittelemassa ovat olleet tutkijat, jotka ovat olleet kiinnostuneita työstään. Kuitenkaan varsinaista ristiriitaa näiden kahden näkökulman, kielenaineistojen kokoamisen arkistointia varten ja aineiston kokoamisen tutkimusta varten, ei pitäisi olla, koska kaikkien arkistoissa olevien aineistojen tulisi olla myös tutkimuskäytössä.
3. Korpusten koko
Kysymys tekstikorpuksen koosta ja tekstilajista liittyy oleellisesti siihen, mikä on korpuksen käyttötarkoitus. Jos ensisijaisena tarkoituksena on aineiston dokumentointi kuten kansalliskorpusten yhteydessä, olisi varmasti mielekästä, että kysymys olisi jatkuvasta aineiston arkistoinnista: yksi vuosikymmen ei ole sen parempi kuin toinenkaan ja kaikilta aikakausilta olisi tarpeen olla aineistoja. Mitä ne sitten olisivat, on oma kysymyksensä. Kysymys aineiston edustavuudesta lienee käytännössä selvä useimmille korpuslingvisteille tai ainakin niille, jotka itse ovat käyttäneet korpuksia tutkimuksessaan. Tilastollisten menetelmien hyödyntäminen pitäisi olla mukana kaikessa korpustutkimuksessa.
4. Työvälineet
Työvälineet ovat oleellinen osa korpuslingvistiikkaa. Työvälineiden laatu vaikuttaa siihen, millaisia menetelmiä valitaan ja mitä korpuksista halutaan saada esiin. Työvälineiden merkitys korpustyössä tuli esiin erityisesti niissä esitelmissä, joissa viitattiin eri kielten tietokonekorpusten laatimisen alkuvaiheisiin. Toinen yhtä tärkeä seikka on tottuminen nopeiden ja tehokkaiden työvälineiden käyttöön ja niiden tehokas hyödyntäminen. Korpusten koodaus käyttämällä pelkästään "etsi- ja korvaa"-komentoja ei vastaa aineistojen automaattiselle käsittelylle asetettuja vaatimuksia.
5. Dokumentoinnissa käytettävät standardit
Korpusten koodausta ja dokumentointia koskevassa loppukeskustelussa ei mielestäni riittävän selvästi erotettu aineiston eri tasoja koskevaa dokumentointia toisistaan eikä esim. pohdittu riittävästi sitä, mihin kaikkeen TEI-koodausta halutaan tai on tarpeellista soveltaa. Tästä seikasta ovat keskeisiä seuraavat alakohdat. TEI-koodauksen tasot ovat
6.
Erityisongelmia
Korpusten laatimisen ongelmiin liittyy oleellisesti se, että kielentutkijoilla on harvoin riittävää ammattitaitoa työstää korpuksia tehokkaasti ja systemaattisesti. Asiasta on kirjoittanut mm. John M. Sinclair v. 1992 (Nobel-symposiumin julkaisussa Directions in Corpus Linguistics). Tästä syystä jo projektin suunnitteluvaiheessa pitäisi olla mukana tietokonelingvistin taidot omaava henkilö. Varsinaisen kielenkäsittelyn tekisivät kielentutkijat. Tällaista työnjakoa edellyttää jo se, että tehokkaan ja korkealaatuisen tutkimuksen tekeminen edellyttää erikoistumista. Projektin lopussa tai aina tarvittaessa tietokonelingvisti tekisi korpusten automaattisessa käsittelyssä tarvittavat toiminnot. Olemme tulleet vastaavaan tilanteeseen, jollaisessa olimme n. 20 vuotta sitten, kun korpuksia alettiin laatia. Tällöin teknisinä asiantuntijoina toimivat tietokoneoperaattorit, joilla ei ollut kokemusta kielenaineksen käsittelystä. Nyt sen sijaan on mahdollista hyödyntää ammattitaitoisten tietokonelingvistien apua.