Lingvististen korpusten esittelyä

Taustaa ja historiaa

Ensimmäisiä elektronisessa muodossa olevia korpuksia ruvettiin keräämään 1960-luvulla. Tunnetuin ja ensimmäinen lienee Yhdysvalloissa kerätty amerikan-englanninkielinen Brown-korpus (Standard Corpus of Present-Day Edited American English, Francis & Kucera), joka oli kooltaan n. miljoona sanaa, jolla on ollut suuri vaikutus siihen minkämuotoisiksi myöhempiä korpuksia on koottu. Tämän brittienglannin vastine on Lancaster/Oslo-Bergen -korpus (LOB), joka kerättiin 1970-luvulla. Kun em. kaksi korpusta sisälsivät vain tekstiä, 1960-ja 70-lukujen vaihteessa kerätty London-Lund -korpuksessa (LLC) oli puolestaan puolen miljoonan sanan verran eri-ikäisten ihmisten ja eri keskustelutilanteita edustavia transkriboituja puhunnoksia.

Suomessa varhaisimpia korpuksia on 60-luvun lopulla kerätty ns. Oulun korpus, joka pitää sisällään sekä kirjoitettua että puhekielistä aineistoa. Tämän korpuksen pohjalta on tehty Suomen kielen taajuussanasto.

Korpusten laajuus on kasvanut dekadin verran kunakin vuosikymmenenä. Tällä hetkellä kukin itseäänkunniottava kieliyhteisö on kerännyt julkiseen tutkimuskäyttöön vähintään muutaman sadan miljoonan sanan verran aineistoa. Tiennäyttäjänä on odotetusti ollut englanti, jossa British National Corpus (BNC) johon kerättiin 100 miljoonaa sanaa teksti- ja puhekieltä 90-luvun alussa. Tekstimuotoista aineistoa alkaa tavallaan olemaan jo yllin kyllin; tämänhetkisenä painopisteenä näyttää olevan vastaavansuuruisten puheaineistojen kerääminen ja annotoiminen. (Annotoinnilla tarkoitetaan lingvistisen analyysitiedon lisääminen alkuperäiseen aineistoon.)

Edelläolevasta voisi syntyä vaikutelma, että korpuksia on kerätty ja käytetty pääsääntöisesti aikuisten normatiivisen kirja- (tai puhekielen) tutkimukseen. Periaatteessa mikä tahansa kokoelma ihmisen missä tahansa vaiheessa luonnollisessa tilanteessa mihin tahansa tarkoitukseen tuottamaa kieltä voi olla korpus. Esimerkiksi teksteissä esiintyvien kielivirheiden kokoelmaa voisi hyvin kutsua korpukseksi, ja tällaisia ovatkin kieliteknologiayritykset keränneet tuotekehitysprojektejaan varten. Kansainvälisestikin tunnetuimpia erikoiskorpuksia mm. ovat lasten kielenkehittymistä kattava (Child Language Exchange System) CHILDES, englannin historiallista kehitystä kattava Helsinki Corpus of Historical English sekä kaksikielinen, Kanadan parlamentin puheita kuuden vuoden ajalta sekä alkuperäisellä kielellä että käännettynä sisältävä (ranska <-> englanti) Hansard (ns. rinnakkais- tai paralleelikorpus).

Korpusten rakenteesta

Korpukset voidaan jakaa tekstikokoelmiin/tekstipankkeihin ja "varsinaisiin" tai tasapainotettuihin korpuksiin. Tekstikokoelmien sisältöä ei ole mitenkään erityisesti rajoitettu tai valikoitu niin määrän kuin tekstityypin suhteen, vaan kokoelmaan on (tyypillisesti) pyritty keräämään mahdollisimman paljon aineistoa. On myös pyritty luomaan ns. tasapainotettuja ("balanced") korpuksia, joissa tavoitteena on ollut koota mahdollisimman edustava otos eri tekstityyppejä siten, että kunkin tekstityypin osuus on suunnilleen sama.

Korpukset voivat sisältää alkuperäisiä aineistoja tai sen loogisia osia joko sellaisenaan (esim. kokonainen sanomalehti, artikkeli tai kaunokirjallinen teos), tai sitten korpukseen on otettu kustakin aineistosta systemaattisesti vain joku fragmentti, esim. kunkin teoksen tai artikkelin 1000 ensimmäistä sanaa. Esimerkiksi Brown-korpus sisältää 500 amerikan-englannin tekstistä 2000 sanaa kustakin, jakauten fakta- ja fiktiotekstiin.

Korpukset voivat olla staattisia (eli ne pidetään tulosten vertailun helpottamiseksi samansisältöisinä) tai muuttuvia. Tietokoneiden muistikapasiteetin kasvusta ansiosta erityisesti tekstikokoelmia on kasvatettu vuosien saatossa, ja useimmille eurooppalaisille kielille onkin luotu 100 miljoonien sanojen julkisesti saatavilla olevia tekstikokoelmia, esim. Suomen kielen tekstipankki, joka on käytettävissä CSC Tieteellisen Laskennan kautta. Muuttuvien korpusten erityinen alalaji on ns. monitorikorpus, jolla pyritään tarkastelemaan tietyn ajanhetken kielenkäyttöä. Monitorikorpuksesta näin ollen poistetaan säännöllisesti vanhempaa aineistoa ja lisätään uudempaa aineistoa.

Korpukset voivat pitää sisällään tekstiä sellaisenaan ilman mitään lingvististä analyysiä, tai sitten korpuksen sisältö on voitu lingvistisesti annotoida joko automaattisesti, semiautomaattisesti tai manuaalisti. Lingvistisessä analyysissä nykyisin tyypillisesti käytetään automaattisia morfosyntaktisia analyysiohjelmistoja, kuten Helsingin yliopistolla syntyneet kaksitasomalli (TWOL), rajoitekielioppi (CG) ja funktionaalinen dependenssikielioppi (FDG), joiden tuloksia sitten manuaalisti tarkistetaan tutkimuksen kohteen edellyttämästä näkökulmasta. Transkriboidut eli tekstimuotoon muokatut puhekorpukset sisältävät jo implisiittisesti puheen jonkintasoista analyysiä. Korpukset myös tyypillisesti sisältävät metalingvististä tietoa esim. kirjoittajasta/puhujasta, julkaisuajankohdasta, tekstityypistä tai vaikkapa siitä sanomalehden osasta missä missä kyseinen teksti on julkaistu.

On hyvä huomioida että annotoitujen korpusten sisältämä informaatio saattaa olla seikkaperäisyydeltään (ja luotettavuudeltaan) hyvinkin vaihtelevaa, ja kuvaukset riippuvat niin taustalla olevista lingvistisistä teorioista kuin kunkin kielen tai lingvistiikan tutkimustraditioista. Esim. englanninkielisissä korpuksissa kunkin sanan morfosyntaktinen analyysi tiivistetään usein yhteen tagiin, mikä on mahdollista englannin suhteellisen rajallisen morfologian johdosta. Näin ollen sanan 'says' analyysitagi on Brown-korpuksessa 'VBZ', missä yhdistyy verbin finiittisyys, preesens-aikamuoto ja käyttö kolmannen persoonan yksikön muotona. Brown-korpuksessa on itse asiassa oma analyysitaginsa joillekin yksittäisille, usein käytetyille verbimuodoille, kuten 'is' -> BEZ tai 'been' -> BEN. Vertailu- ja rinnastusesimerkkejä tunnetuissa englanninkielisissä korpuksisssa käytetyistä annotointikoodeista eli tageista on koottu AMALGAM-projektissa).

Suomen lukuisten taivutusmuotojen eli eri taivutuskategorioiden ja näiden kombinaatioiden yhteisvaikutuksen johdosta muotokohtaiset tagit olisivat käytännöllinen mahdottomuus, joten suomenkielisten tekstien morfosyntaktisissa analyyseissa kukin analyysi on hajoitettu osiin. Näin ollen sanan 'puhuu' analyysitagit ovat sekä FINTWOL:llä (Lingsoft) että FILITE:llä (Connexor) yksinkertaistaen V ACT IND PRES 3SG, missä sanaluokalla (V), pääluokalla (ACT), moduksella (IND), aikamuodolla (PRES) ja persoonalla ja luvulla (3SG) on kullakin oma taginsa. Tämä näkyy myös siinä, että Suomessa kehitetyt muiden kielten analyysityökalut toimivat saman periaatteen mukaan. Esimerkiksi ym. 'says' saisi analyysitagit V PRES 3SG käytettäessä ENGTWOL:ia tai ENLITE:a.

Suomalaisia korpuksia

Korpuksia on kertynyt lukuisia kullekin kielelle, joten niiden kattava ajantasainen esittäminen globaalilla olisi mahdoton tehtävä. Verkosta löytyy lisäksi useita jatkuvasti ylläpidettyjä listauksia eri kielten erityyppisistä korpuksista, joihin päässee kätevimmin kiinni googlella ja hakusanoilla 'korpus' ja 'X' (missä X = kieli). Niinpä tässä mainitaan tällä hetkellä joitakin tunnetuimpia Suomessa kerättyjä ja eniten käytettyjä korpuksia. Valitettavasti osa missä tahansa päin maailmaa kerätyistä korpuksista ei ole käytännössä julkisesti käytettävissä, vaan yksittäisten tutkijoiden takana. Alla mainittuihinkin korpuksiin on erikseen haettava käyttölupa korpusta ylläpitävältä organisaatiolta, vaikkakin sen saa helposti tutkimuskäyttöä varten.

  • Suomen kielen kielipankki
  • : vajaat 200 miljoonaa sanaa suomenkielistäa ja suomenruotsalaista tekstiä, CSC Tieteellinen laskenta Oy
  • Vanhan ja 1800-luvun kirjasuomen korpukset, ennen 1800-lukua julkaistut suomenkielisiä tekstejä, KOTUS
  • Helsinki Corpus of Historical English, englanninkielistä aineistoa varhaiskeskiajalta nykypäivään asti, Englannin kielen laitos, Helsingin yliopisto
  • University of Helsinki Language Corpus Server (UHLCS), Erikokoisia aineistoja 50 yli kielestä, Yleisen kielitieteen laitos, Helsingin yliopisto
  • Oulun korpus (CSC:n Tekstipankki), 0,5 miljoonan sanan tasapainotettu kirja- ja puhekielinen korpus

  • antti.arppe@helsinki.fi
    Last modified: Mon Nov 25 21:24:24 EET 2002