Korpussektio Kielitieteen päivillä 24.5.1996: esitelmien yhteenveto
Pirkko Suihkonen, 31.5.1996
Helsingin yliopisto
Yleisen kielitieteen laitos

I. Ohjelma

Metadata

II. Esitelmät

*1. Kimmo Koskenniemi

Tekstikorpuksen laatimisen ja käytön metodeista ja mahdollisuuksista

Kimmo Koskenniemi esitteli korpussektion johdantoesitelmässään korpusten laatimiseen ja hyödyntämiseen liittyviä perustekijöitä. Korpuksen laatimiseen ja käyttöön vaikuttavat

(a) tekstikorpusten koko, joka vaikuttaa mm. työskentelymenetelmiin ja työskentelyn tarkkuusasteeseen;
(b) millaisia tekstejä korpukseen valitaan;
(c) korpuksen käyttötarkoitus;
(d) korpuksen edustavuus,
(e) mitä tekstin ominaisuuksia, esim. tekstin tyylilajia tai tekstiä koskevia oheistietoja, korpukseen tallennetaan;
(f) miten aineisto työstetään, käytetäänkö standardeja ja normalisoituja muotoja;
(g) automaattiset ja manuaaliset menetelmät tekstiaineiston koodituksessa; aihe liittyy oleellisesti edelliseen;
(h) työvälineet,
(i) aineiston hyödyntäminen, esim. kieliopin tai sanakirjan laatiminen ja
(k) julkaiseminen.

Kaikki nämä tekijät pitäisi ottaa huomioon jo korpusten laatimista koskevissa työsuunnitelmissa.

*2. Pirkko Suihkonen

Entisen Neuvostoliiton alueen vähemmistökielten tietokonekorpusten luokittelun periaatteita ja ongelmia

Esitelmän ensimmäisessä osassa tehtiin lyhyt yhteenveto niistä periaatteista, joita oli hyödynnetty entisen Pohjois-Euraasian alueen luonnonmaantieteellisessä aluejaossa. Luonnonmaantieteellinen aluejakoa käytetään kielten levinneisyyttä ja jakaumaa esittävien karttojen pohjana. Posterisektiossa oli esillä työn ensimmäinen vaihe, jossa kielten puhuma-alueet oli esitetty virallisissa väestötilastoissa käytetyn hallinnollisen aluejaon mukaan. Työhypoteesina on, että luonnonmaantieteelliset rajat vaikuttavat myös vähemmistökielten alueelliseen levinneisyyteen. Helsingin yliopiston tietokonekorpuspalvelimessa waltarissa (University of Helsinki Language Corpus Server, UHLCS) on käytettävissä useiden entisen Neuvostoliiton alueella puhuttavien vähemmistökielten tietokonekorpuksia.

Esitelmässä esiteltiin lyhyesti myös niitä ongelmia, jotka liittyvät vähemmistökielten tietokonekorpusten laatimiseen. Näitä ovat mm.

(a) erilaisten ortografioiden konversioista johtuvat ongelmat, joita esiintyy erityisesti silloin, kun aineisto halutaan muokata kielen foneemijärjestelmän sisältävään muotoon,
(b) korpusten koko on yleensä pieni ja aineiston luotettavuus on selvitettävä aina tutkimuskohtaisesti,
(c) koodaus tehdään tavallisesti manuaalisesti, jolloin tulos sisältää epäyhtenäisyyksiä ja kirjoitusvirheitä ja
(d) kieliopin kirjoituksen pohjana ovat kontekstissa esiintyvät lauseet.

Kun korpuksen koodauksessa edistytään vähitellen, on etuna se, että semanttinen koodaus voidaan yhdistää morfologiseen ja syntaktiseen koodaukseen. Käytännössä työ edistyy parhaiten, jos leksikaalis-semanttinen tieto koodataan morfologisen koodauksen ja syntaktis-semanttinen tieto syntaktisen koodauksen yhteydessä. Myös aineiston kääntäminen ja glossaus on mahdollista tehdä samanaikaisesti koodauksen kanssa.

Riippumatta käytännön työssä esiintyvistä ongelmista olisi koodaus voitava tehdä mahdollisimman automaattisesti.

*3. Arvi Hurskainen

Lingvistisen atk-analyysin soveltaminen tiedonhakuun juoksevasta tekstistä

Hurskaisen esitelmä sisälsi ohjelman, jossa esitettiin tiedonhakua koskeva menetelmä agglutinoivien kielten analyysissa. Menetelmän tulee sisältää seuraavat seikat:

(a) tekstin esiprosessointi,
(b) tekstin vertikaalisointi,
(c) tekstin morfologinen analyysi
(d) syntaktinen koodaus ja
(e) syntaktisesti ja morfologisesti analysoidun aineiston käyttö tiedonhakuun, jossa haluttu syntaktinen koodiryhmä liitetään tekstissä esiintyvään sanamuotoon ja sanamuoto haetaan tekstistä.

Menetelmä vaatii kielikohtaisten ohjelmien käyttöä. Hurskainen on työstänyt swahilin kielen kaksitasomallin SWATWOL, ja rajoituskielioppi-malliin perustuvan syntaktisen jäsentäjän SWACG, joita hän käyttää informaation haussa. Hurskaisen tavoitteena on atk-muotoisen leksikaalisen arkiston/tietokannan luominen swahilin kielelle.

* 4. Seppo Suhonen

Korpukset ennen tietokoneita

Suhonen käsitteli esitelmässään ennen tietokoneiden olemassaoloa laadittuja korpuksia. Korpuksien esitystekniikkaan liittyi oleellisesti puheen ominaisuuksien merkitseminen. Tavallisesti merkittiin ainakin

(a) puhetahdit,
(b) painosuhteet,
(d) foneettinen tarkkuusaste ja
(e) fonometriset tiedot.

Haastattelijan tekemiä kysymyksiä ei usein merkitty lainkaan. Kielenopas saattoi jälkikäteen korjata tekstiä, ja korjaukset täydennettiin alkuperäiseen korpukseen. Lisäksi dokumentoitiin tekstikorpuksen lähdetiedot. Esityksessä käsiteltiin korpusten dokumentoinnin kannalta katsottuna yleisiä arkistointiperiaatteita. (Näihin periaatteisiin verrattavan informaation pitäisi olla mukana myös tietokonekorpusten dokumentaatiossa.) Muilta osin esitelmä käsitteli puhekielen korpuksen laatimiseen liittyviä tekijöitä. Eri aikoina dokumentoitujen uralilaisten kielten tekstikorpusten julkaisemisesta on huolehtinut Suomalais-Ugrilainen Seura.

*5. Tiit Hennoste

Tarton yliopiston Viron Kirjakielen Korpuksen tekstien valinta: periaatteet ja ongelmat

Tiit Hennoste esitteli yksityiskohtaisesti viron kielen kansalliskorpuksena mainitut korpusaineistot, jotka fyysisesti sijaitsevat Tartossa ja Tallinnassa.

Korpus, jonka koostumusta on suunniteltu huolellisesti etukäteen, sisältää otoksia eri tekstilajeista ja eri ajanjaksoilta. Käytännössä korpuksia on valittu LOB-korpuksen tekstivalintoihin käytettyjen periaatteiden mukaan. Jaotteluperusteina käytettiin mm.

(a) tilannetta ja tekstiä,
(b) kommunikaation osapuolten ominaisuuksia ja
(c) julkaisupaikkaa ja -aikaa.

Julkaisut on painettu vuosien 1983 - 1987 välisenä aikana. Korpuksen tekstilajit poikkeavat jonkin verran LOB-korpuksen (brittienglannin korpus; LOB = Lancaster - Oslo - Bergen) vastaavista. Korpusten laadinnan periaatteisiin ovat vaikuttaneet Viron historiallisista vaiheista johtuvat seikat. Mm. kaupallista viihdekirjallisuutta ja uskonnollisia tekstejä ei tänä aikana julkaistu ja propagandakirjallisuutta julkaistiin suuri määrä. Korpustyötä jatketaan edelleen.

*6. Arto Moisio ja Jorma Luutonen

Turun yliopiston volgalaiskielten korpukset

Arto Moisio esitteli mordvan kielen korpusta. Korpus laadittiin 1970-luvulla, samoihin aikoihin kuin Turun yliopiston lauseopin korpus. Korpuksen yhteyteen on laadittu raskas hakujärjestelmä, jonka avulla voidaan hakea tageilla, lingvististä kategoriaa merkitsevillä indekseillä, merkittyjä ominaisuuksia. Hakujärjestelmä on tehty lauseopin arkiston aineistoa varten laaditun hakujärjestelmän pohjalta. Muihin uralilaisten kielten korpuksiin verrattuna korpus on suuri, n. 250000 sanetta. Korpuksen teksteistä on olemassa suomen-, saksan- tai venäjänkieliset käännökset.

Jorma Luutosen esittelemä marin korpus on tekstikorpus, josta osa on kirjoitettu Turun yliopiston suomalais-ugrilaisella laitoksella. Marin korpus, joka on vielä kesken, tulee lopullisessa vaiheessaan käsittämään n. 1 milj. sanetta. Korpus sisältää aineistoa sekä itä- että länsimarin kirjakielestä. Osa tekstikorpuksesta on jo käytössä. Myös marin korpusta varten on laadittu valmis hakuohjelma. Korpusta ei ole koodattu, mutta tulevaisuudessa morfologinen analyysi voitaneen mahdollisesti suorittaa käyttämällä kaksitasomallia, jota Luutonen on työstänyt.

*7. Liisa Nuutinen

Tietokonekorpusten käyttäminen sanakirjatyössä

Liisa Nuutinen esitteli vanhan kirjasuomen sanakirjatyötä, jota on työstetty tietokoneilla 1992-luvulta alkaen. Korpus on n. puolen miljoonan sanalipun kokoelma, joka sisältää n. kaksi miljoonaa sanetta. Korpuksen aineisto, joka on juoksevaa tekstiä, on kattava kokoelma vanhan kirjasuomen teksteistä. Korpuksen viittausjärjestelmä sisältää samat alkuperäisiin teksteihin osoittavat viitteet, joita on käytetty vanhan kirjasuomen sanakirjassa.

Korpuksen käyttöä varten on olemassa valmiita hakuohjelmia. Hakuohjelmissa haku kohdistuu aina virkkeeseen.

*8. Tarmo Rahikainen

Korpusten standardin mukainen koodaus

Tarmo Rahikainen esitteli korpusten standardinmukaista koodausta varten kehitettyä Text Endcoding Initiative -hanketta (TEI) ja sitä esitteleviä ohjeistoja. SGML-kieli, jota TEI:n mukaiseen koodaukseen käytetään, sisältää merkkijonon alkua ja loppua koskevan tunnisteen, esim.: Hollywood. Tunnisteena käytetään esim. koodattavassa merkkijonossa esiintyvien kategorioiden nimiä. Yksittäisen tekstin koodauksessa erotetaan TEI:ssä neljä tasoa, jotka ovat

(a) tekstin nimiötietojen (tunnistetietojen, oheistietojen) koodaus,
(b) kappaletason ja kappaletta laajempien rakenneosien koodaus,
(c) kappaleen sisäisten rakenneosien koodaus ja
(d) morfosyntaktinen koodaus.

Korpusta koskevat yleiset tiedot voidaan liittää korpuksen nimiöosaan.

Lauri Carlson esitti eri standardeissa esiintyvien termien käännösten epäyhtenäisyydestä, ja keskustelussa todettiinkin, että monille termeille tarvittaisiin yhteisesti hyväksytyt käännökset.

*9. Ulla Takala

Murresanakirja tietokonekorpuksena

Ulla Takala esitteli suomen murteiden sanakirjan korpusta. Korpuksen koko on yli 200000 murre-esimerkkiä. Sana-artikkeleita korpuksessa on n. 60000, ja koko aineisto on varustettu SGML-kielellä kirjoitetuilla koodeilla, tunnisteilla. Tunnisteina esiintyvät sana-artikkelit, hakusanat, sanaluokkatarkenteet, merkitysryhmän tunnukset, merkityksenselitteet, murre-esimerkit, pitäjälyhenteet, levikit, viittaukset, taivutus jne. Murresanakirjasta on ilmestynyt neljä osaa, ja jokainen sanakirjan osa on käytettävissä WP-tiedostona ja SGML-kielellä koodattuna aineistona.

Korpuksen hauissa käytetään käyttöjärjestelmään kuuluvia hakukomentoja. Käytössä on lisäksi erilaisia hakuohjelmia. Korpusta on nopea käyttää. Murresanakirjan kuten muitakin Kotimaisten kielten tutkimuskeskuksen korpuksia voi käyttää hankittuaan ensin erityisen käyttöluvan.

*10. Heli Keijonen

Soveltavaa terminologista tutkimusta

Heli Keijosen esitelmä käsitteli Euroopan unionin yhteydessä toimivan terminologiayksikön monikielistä Eurodicautom-termipankkia. Termipankissa on yli 600000 termitietuetta ja lähes 200000 lyhennettä eri aloilta. Tekniikan Sanastokeskuksen tehtävänä on vuoden 1995 alusta ollut hankkia vuoden 1996 loppuun mennessä n. 70000 termiä.

Aineisto, joka on jaettu alakohtaisiin tiedostoihin, koostuu eri alojen termitietueista. Kukin termitietue koskee yhtä tiettyä käsitettä, ja tietueessa termi ja sen määritelmä annetaan eri kielillä. Eri kielisten termien määrä vaihtelee aloittain. Termipankin laatimisessa hyödynnetään eri alojen asiantuntijoita. Terminologiaan perustuva vastinehaku aloitetaan käsitteestä.

Heli Keijosen esitelmä edusti korpusten erikoistyyppiä, aineistoa, joka on suunniteltu palvelemaan tiettyä käyttötarkoitusta ja jonka rakenne ja myös laatu on sidoksissa moneen muuhun vastaavaan aineistoon.

*11. Jan Lindström

FISC - Suomenruotsalaisen kansalliskorpuksen ydin?

Keväällä 1995 valmistunut ruotsin kielen tekstikorpus FISC on laadittu Helsingin yliopiston pohjoismaiden kielten laitoksella. Korpus sisältää n. 2,5 milj. juoksevaa sanaa, sanmuotoa. Aineistona korpuksessa on neljäntyyppisiä tekstejä, sanomalehtitekstejä, kaunokirjallisuutta, hallinnollisia tekstejä ja yleisiä asiatekstejä. Tekstit, jotka ovat 1990 - 1994 väliseltä ajalta, on julkaistu Suomessa. Ydinkorpusta laajennetaan puhutun kielen korpuksella, joka sisältää radiokeskusteluja ja -haastatteluja. Korpus on suunniteltu liitettäväksi Kotimaisten kielten tutkimuskeskuksen kansalliskorpuksiin. Lisäksi Helsingin yliopiston pohjoismaisten kielten laitoksessa on suunnitteilla laatia atk-pohjainen tekstikokoelma, joka sisältää 1700- ja 1800-luvuilla julkaistuja tekstejä. Korpus on käytettävissä UHLCS:ssa.

*12. Matti Rissanen

Diakroniset tietokonekorpukset ja englannin kielen tutkimus

Englannin kielen laitoksella on ollut meneillään jo 1990-luvun alkupuolelta lähtien kielen variaatiota koskeva tutkimushanke. Tämän variaation tutkimista varten on koottu merkittävän laajoja aineistoja, jotka käsittävät useita suuria pitkän aikavälin korpuksia. Ensimmäinen on laaja The Helsinki Corpus of English Texts, joka valmistui 1991. Muita ovat varhaisen skotin korpus, varhaisten kirjeiden korpus ja tieteellisten tekstien korpus (ks. alla). Tekeillä on lisäksi nykybrittienglannin murrekorpus, Uppsalan yliopiston varhaisen amerikanenglannin korpus ja australianenglannin diakroninen korpus.

The Helsinki Corpus of English Texts sisältää tekstejä ja tekstiotteita 1000 vuoden ajalta, 700-luvulta 1700-luvulle. Korpus sisältää eri tyyppisiä tekstejä. Erityisesti tätä korpusta varten kehitetty parametrikoodijärjestelmä antaa tietoja tekstistä ja kirjoittajasta. Osa korpuksesta on myös syntaktisesti koodattu, ja myös varhaisuusenglantilaisen osan lingvistinen koodaus on valmisteilla. Korpus on dokumentoitu hyvin. Se on käytettävissä useissa yliopistoissa ja tutkimuskeskuksissa eri puolilla maailmaa.

*12. Anneli Meurman-Solin

Diakroniset tietokonekorpukset ja englannin kielen kuvaus

Anneli Meurman-Solin esitteli laatimaansa varhaisen skotin korpusta. Korpus on kooltaan n. 850000 sanaa. Korpukseen on koottu tietoa myös sosiohistoriallisesti relevanteista kielenulkoisista muuttujista kuten tekstilajista ja -kategoriasta, formaalisuuden asteesta, sukupuolesta ja kuulija- ja lukijakunnasta. Tutkimuksessa on sovellettu Helsingin yliopiston atk-aseman kanssa yhteistyössä tehtyjä ohjelmia. Korpus on annettu kansainväliseen levitykseen.

Meurman-Solin on korpuksensa avulla osoittanut useita merkittäviä skotin kielen kehitykseen liittyviä vaiheita ja niiden erityisominaisuuksia.

*13. Terttu Nevalainen & Helena Raumolin-Brunberg

Aineiston haasteet historiallisessa sosiolingvistiikassa

Terttu Nevalaisen ja Helena Raumolin-Brunbergin esitelmä käsitteli heidän sosiolingvististä tutkimusprojektiansa varten laatimaansa englannin kirjekorpusta. Aineisto, joka on kooltaan 2,4 miljoonaa sanaa, on koottu vuosilta 1420 - 1680. Kirjoittajia on lähes 700 ja kirjeitä n. 5300 kpl.

Kirjeet on valittu tutkimuskohteeksi siksi, että ne muistuttavat puhuttua kieltä ja kirjeiden lähettäjän ja vastaanottajan henkilöllisyys on usein helppo selvittää. Kirjeiden autenttisuus jää kuitenkin joskus puutteelliseksi. Koska luku- ja kirjoitustaito ei ollut tuona aikana kovin yleistä, on kirjoittajien sosiaalinen tausta suhteellisen yksipuolinen. Tutkijoiden tarkoituksena on käyttää kirjeiden kieltä testatakseen sosiolingvististen menetelmien soveltuvuutta historiallisessa sosiolingvistisessä tutkimuksessa.

*14. Irma Taavitsainen & Päivi Pahta

Varhaisten englanninkielisten lääketekstien korpus

Taavitsaisen ja Pahdan esitelmä käsitteli heidän laatimaansa lääketieteellisiä erikoistekstejä koskevaa korpustansa. Korpus on koottu 1300-luvulta lähtien kirjoitetuista teksteistä. Aikaisemmat tekstit ovat latinankielisten korpusten käännöksiä. Korpuksen keskienglannin osa valmistuu tänä keväänä ja se sisältää kaikki tänä aikana painetut englanninkieliset lääketieteelliset tekstit. Tutkimuksen päämääränä on selvittää, miten ideologia heijastuu kielen ilmaisuun, miten yleisö otetaan huomioon ja miten muutokset etenevät eri tekstikerrostumissa.

*15. Ahti Nikunlassi & Jouko Lindstedt

Slaavilaisten kielten korpuksista

Nikunlassin ja Lindstedtin esitys sisälsi kahden slaavilaisten kielten korpuksen, venäjän ja muinaiskirkkoslaavin korpusten esittelyn. Venäjän kielen peruskorpus on Uppsalan yliopistosta hankittu korpus, joka on käytettävissä UHLCS:ssä. Muinaiskirkkoslaavin korpus sijaitsee Helsingin yliopiston slaavilaisten kielten laitoksella. Jouko Lindstedtin laatima muinaiskirkkoslaavin korpus on ainoa laatuaan.

Kummassakin korpuksessa esiintyvien erityismerkkien muokkaamiseksi latinalaiseen aakkostoon sopiviksi on laadittu omat konventionsa. Uppsalan korpukseen on koodattu TEI-tunnisteet yleisen kielitieteen laitoksella. Venäjän korpuksen sanaston morfologista analyysia varten on käytössä Liisa Vilkin laatima morfologinen kaksitasomalli. Myös muita laajoja venäjän kielen korpushankkeita on suunnitteilla.

16. Loppukeskustelu, puheenjohtajana Kimmo Koskenniemi

Loppukeskustelun johdannossa Kimmo Koskenniemi syvensi alotuspuheenvuorossa esittämiään sekä esitelmien aikana kokoamiaan, korpustyöhön liittyviä keskeisiä teemoja. Ydinkysymykseksi nousi korpusten työstämisessä käytettävien standardien merkitys sekä se, missä määrin standardeja otetaan käyttöön. Yleisesti hyväksyttiin se, että standardeja tarvitaan ja että niitä on käytettävä mahdollisuuksien mukaan. Rissanen esitti puheenvuorossaan toivomuksen, että yhteistyö kielten tietokonekorpusten laatimiseen liittyvien ongelmien ratkaisemiseksi jatkuisi. Kimmo Koskenniemi esitti mahdollisuuden yhteisen sähköpostilistan käytöstä.


II. Yhteenveto

*1. Yleistä Englannin kielen laitoksen korpukset on laadittu lähes kymmenen vuoden aikana. Korpusten laatiminen on organisoitu hyvin ja oleellista on, että korpukset on laadittu tutkimusta varten. Korpuksista vastaavilla tutkijoilla on ollut selvä tutkimusongelma ja he ovat laatineet korpuksen juuri kyseistä tutkimusongelmaa silmällä pitäen. Myös korpusten arkistointiin ja dokumentointiin liittyvät kysymykset on hoidettu huolellisesti.

Viron kielen korpus on suunniteltu tietoisesti arkistoksi, johon on koottu ja edelleen kootaan viron kirjallista kulttuuria edustava tekstiaineisto. Vastaavanlaisia korpusarkistoja ovat myös Kotimaisten kielten tutkimuskeskuksen, Turun yliopiston ja Helsingin yliopiston pohjoismaisten kielten laitoksen, slaavilaisten kielen laitoksen ja suunnitteilla ja tekeillä olevat suomalaisugrilaisen laitoksen korpukset. Hurskaisen swahilin aineistot ja hänen niiden käsittelyyn laatimansa ohjelmat palvelevat swahilin kielen tutkimusta, mutta aineistot toimivat samalla myös arkistoina. Myös Suihkosen UHLCS:iin toimittamat korpukset kuuluvat kumpaankin kategoriaan. Ensisijaisena tavoitteena on saada tutkimusaineistoa typologisesti erilaisista kielistä ja kielten typologisten ominaisuuksien tulisi heijastua myös korpusten koodauksessa. Toisena tavoitteena on dokumentoida uhanalaisten kielten aineistoa.

*2. Korpusten käyttötarkoitus Syy, miksi korpuksia laaditaan, jotakin tiettyä tutkimusta varten vai arkistointia varten, muodostaakin yhden keskeisimmistä korpusten laatimiseen vaikuttavista perusteista. Kun korpus laaditaan jonkin tutkimusongelman selvittämiseksi, on aineiston käsittely tavoitehakuisempaa ja usein myös tehokkaampaa kuin silloin, kun tavoitteena on pelkästään materiaalin arkistointi. Tämä näkyi selvästi myös Kotimaisten kielten tutkimuskeskuksen esitelmissä. Esitelmien pitäjät käyttivät merkittävän pitkän jakson esitelmän kestosta nimenomaan sen esittämiseen, mitä kiinnostavia asioita korpuksista voidaan saada irti eri hakumenetelmin. Sekä englannin kielen korpusten että Kotimaisten kielten tutkimuskeskuksen murresanakirjan ja vanhan kirjasuomen aineistojen koodaajina tai koodausta suunnittelemassa ovat olleet tutkijat, jotka ovat olleet kiinnostuneita työstään. Kuitenkaan varsinaista ristiriitaa näiden kahden näkökulman, kielenaineistojen kokoamisen arkistointia varten ja aineiston kokoamisen tutkimusta varten, ei pitäisi olla, koska kaikkien arkistoissa olevien aineistojen tulisi olla myös tutkimuskäytössä.

*3. Korpusten koko Kysymys tekstikorpuksen koosta ja tekstilajista liittyy oleellisesti siihen, mikä on korpuksen käyttötarkoitus. Jos ensisijaisena tarkoituksena on aineiston dokumentointi kuten kansalliskorpusten yhteydessä, olisi varmasti mielekästä, että kysymys olisi jatkuvasta aineiston arkistoinnista: yksi vuosikymmen ei ole sen parempi kuin toinenkaan ja kaikilta aikakausilta olisi tarpeen olla aineistoja. Mitä ne sitten olisivat, on oma kysymyksensä. Kysymys aineiston edustavuudesta lienee käytännössä selvä useimmille korpuslingvisteille tai ainakin niille, jotka itse ovat käyttäneet korpuksia tutkimuksessaan. Tilastollisten menetelmien hyödyntäminen pitäisi olla mukana kaikessa korpustutkimuksessa.

*4. Työvälineet Työvälineet ovat oleellinen osa korpuslingvistiikkaa. Työvälineiden laatu vaikuttaa siihen, millaisia menetelmiä valitaan ja mitä korpuksista halutaan saada esiin. Työvälineiden merkitys korpustyössä tuli esiin erityisesti niissä esitelmissä, joissa viitattiin eri kielten tietokonekorpusten laatimisen alkuvaiheisiin. Toinen yhtä tärkeä seikka on tottuminen nopeiden ja tehokkaiden työvälineiden käyttöön ja niiden tehokas hyödyntäminen. Korpusten koodaus käyttämällä pelkästään "etsi- ja korvaa"-komentoja ei vastaa aineistojen automaattiselle käsittelylle asetettuja vaatimuksia.

*5. Dokumentoinnissa käytettävät standardit Korpusten koodausta ja dokumentointia koskevassa loppukeskustelussa ei mielestäni riittävän selvästi erotettu aineiston eri tasoja koskevaa dokumentointia toisistaan eikä esim. pohdittu riittävästi sitä, mihin kaikkeen TEI-koodausta halutaan tai on tarpeellista soveltaa. Tästä seikasta ovat keskeisiä seuraavat alakohdat. TEI-koodauksen tasot ovat

(a) tekstin tunnistetietojen dokumentointi, joihin kuuluvat bibliografiset tiedot, tekstilajiluokittelu ja muut mahdolliset tekstiä koskevat yleiset osat,
(b) tekstin rakennetta koskeva koodaus, johon tulevat kappaleita, lukuja ja muita erilaisia tekstijaksoja, otsikointia, alaviitteitä ja taulukointia koskevat tiedot,
(c) kappaleen sisäisten rakenteiden koodaus, johon tulee tiedot päiväyksistä, lyhenteistä, lainauksista ja nimistä, ja
(d) morfosyntaktinen koodaus.

Tekstin tunnistetiedot on liitettävä kaikkiin korpuksiin. Tällä tavoin tekstit ovat tunnistettavissa vuosisatojenkin kuluttua. (Tekstin tunnistetiedot on merkitty kaikkiin niihin korpuksiin, jotka olen toimittanut waltariin. Tekstejä koskevat julkaisut toimitan yleisen kielitieteen laitoksen kirjastoon sitä mukaa kuin ne minulle toimitetaan.) Myös tekstin sisäistä rakennetta koskevat tiedot on merkitty kaikkiin työstettyihin korpuksiin eri tasoisilla rajoittimilla. Tuntuu selvältä, että kohtien (a) - (c) koodaus on luonnollista ja järkevää suorittaa käyttämällä TEI-koodausta. Mutta ennen kuin TEI-koodausta ryhdytään käyttämään myös morfologisessa koodauksessa, olisi keskusteltava mm. seuraavista seikoista:

(a) TWOL:ssa käytetyt lyhenteet, kategorioiden indeksit, ovat kaikissa eri kielten analyysia varten laadituissa TWOL-ohjelmissa ainakin periaatteessa yhdenmukaiset. TWOL-ohjelma on olemassa jokseenkin täydellisenä jo useista kielistä ja vielä useammista sellainen on valmisteilla.
(b) Käytetyt lyhenteet eivät suinkaan ole mielivaltaisia, vaan niitä on käytetty yleisessä kielitieteellisessä kirjallisuudessa kautta aikojen; kuitenkin näitäkin lyhenteitä pitäisi yhtenäistää (ks. uralilaisten kielten korpusten dokumentointia koskevan kirjoitukseni liite II). Kun morfologisen ja syntaktisen koodauksen lisäksi tulee semanttinen koodaus, lienee selvää, että kestää vähän aikaa, ennen kuin niitä koskeviin tageihin, indekseihin, totutaan..
(c) TEI-koodaus on raskasta lukea; formaali koodausjälki on usein tavalliselle filologille vaikeaa seurata ja vielä vaikeampi tuottaa. (d) Pienten kielten korpusten morfologista ja syntaktista koodausta tekevät ihmiset, jotka eivät ole tietokonespesialisteja; koodausta on voitava lukea ja tuottaa lingvistisellä peruskoulutuksella varustetun työntekijän.
(e) Jos on saavutettavissa jotakin merkittävää etua siitä, että myös morfologinen koodaus esitetään SGML-muotoon koodattuna, voidaan morfologisesti ja syntaktisesti koodattu teksti aina siirtää tähän muotoon. Tästä syystä olen painottanut sitä, että kaikki rajoittimet on säilytettävä, ja kaikki, mitä on tehty, on voitava jäljittää.
(f) SGML:n käyttö myös merkkien konvertointiin on yksi tapa säilyttää alkuperäisiä merkkejä koskeva informaatio. Mutta jos halutaan saada kielen äännejärjestelmää koskeva tieto esiin sellaisesta ortografiasta, joka kuvaa epäonnistuneesti kielen fonemaattista järjestelmää, ei tämän tyyppinen koodaus juuri ole avuksi. Tästä syystä pitäisi aina tuottaa myös versio, joka on konvertoitu siten, että sitä voidaan käyttää pohjana laadittaessa foneemitason kuvausta.

Keskustelussa esitettiin kysymys, joka koski kaikkien vanhojen korpusten koodaamista TEI-muotoon. Hanketta puolusteltiin sillä, että tällä tavoin kaikki korpukset olisivat yhteismitallisia. Eikö tällaiseen urakkaan kannattaisi ryhtyä vasta sitten, kun on olemassa selvä tutkimusongelma, jonka selvittämiseksi on tarpeen aineisto, jossa kaikki mahdolliset korpukset on koodattu TEI-muotoon? Sen sijaan olisi hyödyllistä arkistoida kaikki tietokoneella luettavassa muodossa oleva aineistot siten, että olisi mahdollista nopeasti selvittää, mitä aineistoja eri kielillä yleensä on tietokonekorpuksina tallenteilla.

*6. Erityisongelmia Korpusten laatimisen ongelmiin liittyy oleellisesti se, että kielentutkijoilla on harvoin riittävää ammattitaitoa työstää korpuksia tehokkaasti ja systemaattisesti. Asiasta on kirjoittanut mm. John M. Sinclair v. 1992 (Nobel-symposiumin julkaisussa Directions in Corpus Linguistics). Tästä syystä jo projektin suunnitteluvaiheessa pitäisi olla mukana tietokonelingvistin taidot omaava henkilö. Varsinaisen kielenkäsittelyn tekisivät kielentutkijat. Tällaista työnjakoa edellyttää jo se, että tehokkaan ja korkealaatuisen tutkimuksen tekeminen edellyttää erikoistumista. Projektin lopussa tai aina tarvittaessa tietokonelingvisti tekisi korpusten automaattisessa käsittelyssä tarvittavat toiminnot. Olemme tulleet vastaavaan tilanteeseen, jollaisessa olimme n. 20 vuotta sitten, kun korpuksia alettiin laatia. Tällöin teknisinä asiantuntijoina toimivat tietokoneoperaattorit, joilla ei ollut kokemusta kielenaineksen käsittelystä. Nyt sen sijaan on mahdollista hyödyntää ammattitaitoisten tietokonelingvistien apua.


Ehdotuksia erikoistermien käännöksiksi: TEI-header = tekstin tunnistetiedot, tag = indeksi, entity = olio, entiteetti.