Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Jani Puumala
Työn nimi - Arbetets titel
Hakukyselyn laajennus
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
Pro gradu
Aika - Datum
9.3.2006/toukokuu 2006
Sivumäärä - Sidoantal
Ohjaaja(t)
Krister Lindén
Tarkastajat
Krister Lindén, Kimmo Koskenniemi
Tiivistelmä - Referat

Tutkielma käsittelee englanninkielisten tiedonhakupyyntöjen automaattisen laventamisen vaikutuksia tiedonhakutuloksiin. Tutkielmaa varten suoritetuissa kokeissa käytetty lavennusalgoritmi päättelee lavennettavien hakuavainten merkityksen mittaamalla niiden vaihtoehtoisten merkitysten ja niiden ympäristön semanttista samankaltaisuutta. Semanttista samankaltaisuutta algoritmi mittaa sanakirjamääritelmiä vertailemalla.

Kokeissa vertailtiin useita kysely- ja lavennusstrategioiden yhdistelmiä täsmäyttämällä niitä hakemistoihin, joissa indeksointiyksikköinä käytettiin sanan taivutusmuotoa, sanan perusmuotoa ja sanavartaloa. Testiaineistona käytettiin kahta dokumenttikokoelmaa, joista toiseen sisältyy 425 MB (113,005 dokumenttia) Los Angeles Timesissa 1994 julkaistuja artikkeleita ja 20 hakuaihetta, ja toiseen 154 MB (56,472 dokumenttia) vuonna 1995 Glasgow Heraldissa julkaistuja artikkeleita ja 50 hakuaihetta.

Testitiedonhakujärjestelmänä käytettiin tiedonhakusovelluksien toteuttamiseen tarkoitettua Lucene-ohjelmistokehystä, sekä sen pohjalta kehitettyä sovellusta, joka jäljittelee probabilistisen InQuery-tiedonhakujärjestelmän täsmäytys- ja relevanssilajittelumenetelmiä.

Kokeissa synonyymeillä lavennetuilla kyselyillä saatiin pääsääntöisesti parempia hakutuloksia kuin laventamattomilla kyselyillä. Yksinkertaiset ja lyhyet hakupyynnöt hyötyivät lavennuksesta yksityiskohtaisemmin ja kattavammin muotoiltuja kyselyjä enemmän. Boolen operaattoreilla rakenteistetut kyselyt hyötyivät lavennuksesta eniten, mutta kokonaisuudessaan malli menestyi kokeissa selvästi huonommin kuin probabilistisilla operaattoreilla rakenteistetut ja heikkorakenteiset kyselyt. Tulokset ovat tilastolliselta merkitsevyydeltään heikkoja, ja erot lavennetuilla ja laventamattomilla kyselyillä saaduissa hakutuloksissa marginaalisia. Heikot testitulokset johtuvat osittain testiaineistojen pienestä koosta, ja ne herättävätkin lähinnä uusia kysymyksiä lavennusmenetelmien kehitysmahdollisuuksista.

Avainsanat - Nyckelord
Säilytyspaikka - Förvaringställe
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Jouko Kuisma
Työn nimi - Arbetets titel
NLP-tekniikoiden soveltuvuudesta sähköpostiviestien luokittelemiseksi
Oppiaine - Läroämne
Tietokonelingvistiikka
Työn laji - Arbetets art
Pro gradu -tutkielma
Aika - Datum
20.8.2005/toukokuu 2006
Sivumäärä - Sidoantal
70 sivua
Ohjaaja(t)
Krister Lindén
Tarkastajat
Krister Lindén, Kimmo Koskenniemi
Tiivistelmä - Referat

Pro gradu -tutkielma käsittelee tekstiaineiston luokittelutehtävään (Text Categorization, Text Classification, Topic Spotting) soveltuvia algoritmeja sekä niiden toimintaa tukevia aineiston esikäsittelymenetelmiä. Tutkielma esittelee yleisimmät käytössä olevat luokittelualgoritmit sekä niiden suorituskyvyn ja käyttökelpoisuuden vertailuun keskittyneitä tutkimuksia. Työn näkökulmana on sähköpostien luokittelutehtävä, joka on tekstiaineistojen luokittelun erityistapaus. Työssä esitellään sähköpostiviestien erityispiirteitä sekä pyritään julkaistuja tutkimuksia lähdeaineistona hyödyntäen selvittämään sitä, mitä nämä erityispiirteet edellyttävät käytettäviltä luokittelumenetelmiltä.

Työ käsittelee luokittelutekniikoita sekä erityisesti luokittelun tukena käytettäviä esikäsittelymenetelmiä luonnollisen kielen käsittelyn (NLP) näkökulmasta. Tavoitteena on selvittää sitä, kuinka NLP-menetelmiä on esiteltävissä järjestelmissä hyödynnetty sekä sitä, kuinka NLP-menetelmien laajemmalla käytöllä voitaisiin edelleen tehostaa luokittelijoiden toimintaa.

Työn johtopäätöksissä esitetään arvio, jonka perusteella käytettävissä olevien luokittelutekniikoiden avulla voidaan toteuttaa tuotantokelpoisia luokittelujärjestelmiä myös sähköpostien käsittelemiseksi. Näiden järjestelmien jatkokehityksen osalta avainroolissa on esikäsittelymenetelmien tehostaminen. Tämän mahdollistamiseksi tulee pyrkiä luonnollisen kielen käsittelyn (NLP) menetelmien tehokkaampaan hyödyntämiseen.

Avainsanat - Nyckelord
luonnollisen kielen käsittely, dokumenttien luokittelu, luokittelualgoritmit, sähköpostin käsittely
Säilytyspaikka - Förvaringställe
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion - Faculty
Humanistinen tiedekunta
Laitos - Institution - Department
Yleisen kielitieteen laitos
Tekijä - Författare - Author
Minna Grönroos
Työn nimi - Arbetets titel - Title
WebTranSmart-konekäännösjärjestelmän evaluointi BLEU-menetelmällä
Oppiaine - Läroämne - Subject
Kieliteknologia
Työn laji - Arbetets art - Level
Pro gradu -tutkielma
Aika - Datum - Month and year
toukokuu 2006
Sivumäärä - Sidoantal - Number of pages
72 + 39 liitesivua
Ohjaaja(t)
Krister Lindén
Tarkastajat
Tiivistelmä - Referat - Abstract

Tutkielman lähtökohtana oli yleisen kielitieteen laitoksen kasvanut englanninkielisen informaation tarve. Laitoksen verkkosivuilla on paljon sellaista tietoa, joka olisi vaihto-opiskelijoillekin tärkeää. Mahdollisuus verrata kurssien sisältöjä englanniksi olisi tarpeen, kun ulkomainen opiskelija harkitsee opiskelijavaihtoa Helsingin yliopistossa. Tutkielmassa haluttiin selvittää, päästäänkö sanastoa päivittämällä konekäännöksessä julkaisukelpoiseen tulokseen, jotta yleisen kielitieteen laitoksen kotisivut voitaisiin kääntää automaattisesti suomesta englanniksi.

Tutkielmassa evaluoitiin TranSmart-konekäännösjärjestelmän verkkoversion, WebTranSmartin, tuottamia konekäännöksiä BLEU-menetelmällä ensimmäistä kertaa. Vastaavaa koetta ei ole tehty aiemmin. Kokeessa tärkein keino parantaa konekäännöksen laatua oli konekäännöksessä käytettävän sanaston päivittäminen, toissijaisesti testattiin myös palakääntämisen merkitystä. Rajoitetun kielen merkitystä käännöslaadun parantamisessa sivuttiin.

BLEU-evaluointi tapahtui käytännössä ajamalla perl-skripti. BLEU-mitan perusajatuksena on laskea konekäännöksen ja referensseinä toimivien korkealaatuisten ihmiskäännösten välistä samankaltaisuutta muokatun n-grammitarkkuuden avulla. Mikäli konekäännöksessä esiintyy paljon referenssikäännösten kanssa täsmääviä unigrammeja, toisin sanoen yksittäisiä sanoja, se kertoo konekäännöksen oikeista sanavalinnoista.Pidemmät täsmäävät n-grammit kertovat sujuvuudesta ja oikeanlaisesta sanajärjestyksestä.

Tutkielman testiaineisto koostui Helsingin yliopiston yleisen kielitieteen laitoksen verkkosivuilta löytyvästä materiaalista. Käännettävät tekstit olivat yleisen kielitieteen laitoksen etusivu, kaksi kurssikuvausta sekä laitostiedote koskien opintosuoritusten rekisteröintiä. BLEU-evaluoinnin perusteella WebTranSmart suoriutui kurssikuvausten kääntämisestä parhaiten. Laitoksen etusivun kääntäminenkin onnistui melko hyvin, mutta laitostiedote osoittautui hankalaksi käännettäväksi. Laitostiedotteen alkuperäinen teksti oli ihmiskääntäjillekin haasteellinen. Ihmiskääntäjät olivat muokanneet kääntämäänsä tekstiä luovasti, samaan kone ei tietenkään kykene. Sen vuoksi BLEU-evaluoinnin huonot vertailutulokset eivät olleet yllätys.

BLEU-evaluoinnin perusteella WebTranSmart suoriutui käännöskokeista kohtuullisesti. Sanaston päivittäminen paransi konekäännöksiä merkittävästi. Koe vahvisti sen, että TranSmartin palakääntämismahdollisuudesta on myös hyötyä, mikäli sanastoa ei ole päivitetty ja tekstistä löytyy tuntemattomia yhdyssanoja. Sujuvasti ja virheettömästi kirjoitettu lähdeteksti voitaisiin kääntää automaattisesti verkkosivuille, kunhan käännöksen vieressä olisi maininta konekäännöksestä, jotta lukija osaisi suhtautua tekstiin kriittisesti.

Avainsanat - Nyckelord - Keywords
konekäännös, evaluointi, BLEU-menetelmä, WebTranSmart
Säilytyspaikka - Förvaringställe - Where deposited
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja - Övriga uppgifter - Additional information

Tiedekunta/Osasto - Fakultet/Sektion - Faculty
Humanistinen tiedekunta
Laitos - Institution - Department
Yleisen kielitieteen laitos
Tekijä - Författare - Author
Anni Laine
Työn nimi - Arbetets titel - Title
Natural Language Generation from OpenMath in the WebALT project
Oppiaine - Läroämne - Subject
Kieliteknologia
Työn laji - Arbetets art - Level
pro gradu -tutkielma
Aika - Datum - Month and year
toukokuu 2006
Sivumäärä - Sidoantal - Number of pages
33 + 28 liitesivua
Ohjaaja(t)
Lauri Carlson, Krister Lindén
Tarkastajat
Krister Lindén, Kimmo Koskenniemi
Tiivistelmä - Referat - Abstract

Tutkielmassa käsitellään sitä, miten luonnollisen kielen hgenerointi on toteutettu WebALT-projektissa. WebALT-projektin tavoitteena on kehittää monikielinen matematiikan harjoitusympäristö, jossa opiskelija voi ratkoa harjoituksia omalla kielellään. Monikielisyys mahdollistetaan luonnollisen kielen generoijalla, joka saa syötteekseen formaalin matemaattisen objektin, josta harjoitus generoidaan luonnolliselle kielelle.

Generoijan syötteenä käytetään OpenMathia, formaalia matemaattista kieltä, joka keskittyy matemaattisen objektin semantiikkaan sen visuaalisen esitysmuodon sijaan. OpenMath on vapaasti laajennettavissa, ja projektia varten siihen on lisätty attribuutteja, jotka ohjaavat generointia. Näihin attribuutteihin kuuluvat halutun lauseen modus, aikamuoto ja pääverbi, kuten myös mahdollisuus merkitä osa OpenMath-objektista kaavaksi, jota ei käsitellä generoijassa, vaan kopioidaan sellaisenaan lopulliseen luonnollisen kielen lauseeseen.

WebALT-generoija on toteutettu GF:llä (Grammatical Framework), joka on Aarne Rannan kehittämä kielioppiformalismi. GF pohjautuu näkemykseen, että kielille voidaan luoda yhteinen abstrakti kielioppi, jonka kaikki kielet toteuttavat omalla tavallaan. GF on hyvä työkalu WebALT-projektin tarpeisiin, sillä se sisältää useille kielille ns.resurssikieliopit, jotka määrittelevät valmiiksi suuren osan kielen morfologiasta ja syntaksista. Näitä resurssikielioppeja käyttämällä toimivan generoijan kehittäminen useille kielille on suhteellisen helppoa ja nopeaa.

GF:n resurssikielioppien päälle kehitetyt WebALT-sovelluskieliopit perustuvat generoinnin jäsennyspuiden toisinkirjoitussääntöihin. Sovellus saa syötteekseen OpenMath-objektin, jonka se jäsentää, ja soveltaa sitten toisinkirjoitussänntöjä. Toisinkirjoitussäännöt muuntavat OpenMath-puun resurssikielioppipuuksi, jonka pohjalta lopullinen lause linearisoidaan.

GF:llä toteutettu generoija osoittautui projektin kuluessa erittäin toimivaksi ratkaisuksi, ja ohjelman betaversiolla saadaan hyviä tuloksia kuudelle kielelle ja yli viidellesadalle OpenMath-symbolille. Generoijan kehitystä jatketaan projektissa edelleen, laajentaen sitä kattamaan sekä muita kieliä että monimutkaisempia kielellisiä rakenteita. Tähän mennessä kehitetyt ratkaisut toimivat kehitystyön pohjana myös tulevaisuudessa.

Avainsanat - Nyckelord - Keywords
nlg, luonnollisen kielen generointi, OpenMath, Grammatical Framework, WebALT
Säilytyspaikka - Förvaringställe - Where deposited
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja - Övriga uppgifter - Additional information

Tiedekunta/Osasto - Fakultet/Sektion - Faculty
Humanistinen tiedekunta
Laitos - Institution - Department
Yleisen kielitieteen laitos
Tekijä - Författare - Author
Teemu Luojola
Työn nimi - Arbetets titel - Title
Kielellinen merkitys emergenttinä prosessina: esimerkkinä suomen adessiivi
Oppiaine - Läroämne - Subject
Yleinen kielitiede
Työn laji - Arbetets art - Level
Pro gradu
Aika - Datum - Month and year
toukokuu 2006
Sivumäärä - Sidoantal - Number of pages
176
Tarkastajat
Fred Karlsson, Ritva Laury
Tiivistelmä - Referat- Abstract

Tutkielmassa tarkastelen sitä, miten monimerkityksinen kielellinen ilmaus voidaan ymmärtää, eli miten vastaanottaja tavoittaa kielellisen viestin merkityksen. Tutkielmassa keskeisessä asemassa on kielellisen merkin tulkinnan riippuvuus siitä kontekstista, jossa merkki esiintyy, ja polysemian käsittäminen kielellisen merkin abstrahoinniksi irti konteksteista. Tarkastelen myös sitä, kuinka paljon kontekstia kielellisen merkin tulkintaan tarvitaan.

Esittelen prototyyppien ympärille rakentuvia sumearajaisia kategorioita ennen kaikkea Eleanor Roschin tutkimusten kautta. Tältä pohjalta tarkastelen käsitystä, jonka mukaan ihminen kielellistä ilmausta muodostaessaan valitsee hallitsemiensa kielellisten merkkien joukosta ne, jotka parhaiten täyttävät tarkoituksensa kokonaisilmauksessa eli toimivat tietyssä kokonaisprosessin osafunktiossa. Tutkielmassa tarkastellaan tähän liittyen emergenssiä, yleistä tieteenfilosofista käsitettä, jolla viitataan tavallisesti sellaisten ilmiöiden syntyyn, jotka ovat laadullisesti uudenlaisia ja joita ei voi ennustaa alkuehtojen pohjalta.

Tutkimusongelmaa lähestyn käyttämällä esimerkkinä suomen adessiivia. Adessiivin merkitystehtävien esittelyssä käytän käsitteellisenä apuvälineenä Ronald W.Langackerin kognitiivista kielioppia. Tutkimusaineistona on sanomalehti Karjalaisen vuosikerran 1999 ne adessiivimuotoiset substantiivit, jotka esiintyvät vähintään kymmenen kertaa, lausekonteksteineen. Aineiston laajuus on noin 18 000 lausetta.

Johtopäätöksenä tutkimusaineistosta todetaan, että suurimmalle osalle adessiivitapauksista on löydettävissä merkitystehtävä kantasanan semanttisen luonteen avulla; tämä tarkoittaa, että lausekontekstistaan irrotettu adessiivimuotoinen sana saa suurimmaksi osaksi saman tulkinnan kuin lausekontekstissaan. Toisena johtopäätöksenä todetaan, että merkityksen määräytyminen lausekontekstin kautta ei ole systemaattista tai lineaarista, ts. sama lausekonteksti johtaa eri sanamuodoilla eri merkitystulkintaan. Tämän katson olevan osoitus merkityksen emergenssistä.

Avainsanat - Nyckelord - Keywords
polysemia, kielelliset kategoriat, emergenssi, kognitiivinen kielioppi, adessiivi
Säilytyspaikka - Förvaringställe - Where deposited
Muita tietoja - Övriga uppgifter - Additional information