Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Eija Koskenlinna
Työn nimi - Arbetets titel
Ko-operatiivisuuden evaluointi dialogijärjestelmissä
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
gradu
Aika - Datum
heinäkuu 2005
Sivumäärä - Sidoantal
73 + 1 liite
Tiivistelmä - Referat

Dialogijärjestelmien evaluointi on haastava tehtävä. Helposti mitattavien, objektiivisten ja resursseja säästävien evaluointimenetelmien kehittäminen dialogijärjestelmille on aihealue, jossa on vielä paljon selvitettävää. Tutkimus käsittelee dialogijärjestelmien ko-operatiivisuuden evaluointimetodeja. Ko-operatiivisuudella tarkoitetaan järjestelmän kykyä ottaa huomioon käyttäjän tavoitteita niin, että keskustelu etenee sujuvasti ja luonnollisesti, järjestelmän vastaukset ovat riittävän informatiivisia ja järjestelmä pysyttelee yhteisesti ymmärretyssä puheenaiheessa.

Dialogijärjestelmien ko-operatiivisuuden evaluointimenetelmiä on tutkittu suhteellisen vähän. Joitain evaluointimenetelmiä on kuitenkin kehitetty. Tässä tutkimuksessa tarkastellaan mm. Möllerin kehittämää dialogijärjestelmien laadullisiin ominaisuuksiin perustuvaa taksonomiaa sekä siihen liittyvää evaluointimetodologiaa sekä Dykbjaer, Dykbjaer & Bernsenin kehittämää ko-operatiivisuustypologiaa.

Tutkimuksen kokeellisessa osuudessa sovelletaan Möllerin kehittämää evaluointimetodologiaa sähköpostien lukemiseen tarkoitetun adaptiivisen AthosMail-dialogijärjestelmän ko-operatiivisuuden evaluointiin. Hypoteesina on, että järjestelmän adaptoituessa käyttäjään ja hänen tapoihinsa toimia myös ko-operatiivisuus kasvaa. Tutkimuksen tuloksista ilmenee, että hypoteesi pitää paikkansa, sillä AthosMail-järjestelmän saamat tulokset ko-operatiivisuuden eri aspekteihin liittyen paranevat sitä mukaa mitä useammasta käyttökerrasta on kyse. Menetelmän havaittiin kuitenkin olevan jossain määrin rajoittunut AthosMailin kaltaisen järjestelmän evaluoimiseen.

Tutkimuksessa todetaan, että ko-operatiivisuuden evaluointimetodeja tulisi kehittää edelleen siten, että ne kattavat toimintatavoiltaan ja -alueiltaan erilaisten dialogijärjestelmien tarpeet. Tutkimuksen avulla voidaan saada näkökulmia siihen, millaiset metodit ovat sopivia adaptiivisten dialogijärjestelmien ko-operatiivisuuden evaluointiin ja toisaalta missä metodeissa on vielä kehittämisen varaa.

Avainsanat - Nyckelord
Dialogijärjestelmät, evaluointi, ko-operatiivisuus
Säilytyspaikka - Förvaringställe
Yleisen kielitieteen laitos
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion - Faculty
Faculty of Arts
Laitos - Institution - Department
General Linguistics
Tekijä - Författare - Author
Tero Aalto
Työn nimi - Arbetets titel - Title
Connexor Machinese in Academic Applications
Oppiaine - Läroämne - Subject
Language Technology
Työn laji - Arbetets art - Level
Master's Thesis
Aika - Datum - Month and year
20.5.2005
Sivumäärä - Sidoantal - Number of pages
53
Tiivistelmä - Referat - Abstract

For a company providing novel and highly specialised technologies, it is especially important to study the structure and behaviour of the market. It may be the case that majority of the potential users are completely unaware of the products' possibilities, and for small companies, the most extensive marketing methods are out of reach.

Language technology is an especially problematic area, largely due to the whole field being generally unknown among the public, even though in recent years at least some end-user manifestations have become widely known. In addition, many language technology applications are not even aimed at private users in the first place.

This question was approcahed from the point of view of a piece of technology that represents the whole field. Connexor Machinese was chosen, as it is widely distributed and utilised and plenty of publications feature it. It serves as an example of a complex and refined language technology product that has been incorporated into many actual systems.

Connexor Oy is a Finnish software and service company that provides natural language processing libraries and professional services to software houses, system integrators and R&D labs. It was founded in 1997 to commercialise basic research methods and algorithms for accurate and informative syntactic natural language analysis. Connexor has clients in some 30 countries worldwide.

Academic projects were selected as the research environment, largely due to the understandable fact that commercial developers are not generally willing to extensively disclose the nature and structure of their products. In contrast, scientific documentation offers the information required to conduct the study. Academic applications and prototypes are viewed to reflect the commercial products of the present as well as those of the future.

Material for the research was gathered and studied with an array of questions in mind; the answers found were processed and presented. The information was extended and verified with a survey targeting the parties behind the material, based upon theory and hypotheses. In conclusion, the results were analysed and discussed.

The study confirmed many pre-research assumptions and encouraged the theory that there indeed is a relation between the worlds of academic research and commercial business. Surprisingly few commercial products had emerged from the academic projects but several potential explanations for this tendency were found. Even though the work did not provide unquestionable affirmation for the theory and passive marketing will most probably maintain its position as the primary channel for small high technology companies like Connexor, other, more active methods should also be constantly looked for and experimented with, as extensively as the resources permit.

Avainsanat - Nyckelord - Keywords
Language technology, market research, lead user analysis, Connexor, Machinese
Säilytyspaikka - Förvaringställe - Where deposited
Muita tietoja - Övriga uppgifter - Additional information

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleinen kielitiede
Tekijä - Författare
Juha Yliniemi
Työn nimi - Arbetets titel
Preliminary Phonological Analysis of Denjongka Sikkim
Oppiaine - Läroämne
Yleinen kielitiede
Työn laji - Arbetets art
Fonologinen tutkimus
Aika - Datum
11.8.2005
Sivumäärä - Sidoantal
62 sivua + 3 liitettä
Tiivistelmä - Referat -

Tämä tutkielma on alustava fonologinen kuvaus Sikkimissä (Intia) puhuttavasta tiibetinsukuisesta Denjongka-kielestä. Kieltä ei ole aiemmin paljon tutkittu ja tutkimukset ovat keskittyneet muihin kielen osa-alueisiin kuin fonologiaan. Siksi tämä tutkielma on ensimmäinen laatuaan.

Tutkimusaineisto on kerätty Gangtokissa, Sikkimin pääkaupungissa, noin kahden kuukauden aikana maalis-toukokuussa 2004. Aineisto kerättiin neljältä kieliavustajalta, jotka olivat kotoisin neljältä eri paikkakunnalta Sikkimissä ja puhuivat eri murteita. Eräs kieliavustajista toimi tutkimusaineiston päälähteenä. Häneltä nauhoitettiin noin 1000 sanaa ja 530 lausetta.

Kirjoitelman alkuosa sisältää etnografista taustatietoa Denjongkan puhujista. Tämän jälkeen siirryn käsittelemään ensin segmentaalista ja sitten suprasegmentaalista fonologiaa lähinnä amerikkalaisen strukturalismin viitoittamalla tavalla. Tutkimuksessa on käytetty hyväksi myös Praat-ohjelman mahdollistamaa akustista analyysiä.

Analyysissä löytyi 8 vokaalifoneemia, joista /3/:n foneeminen status on vielä kyseenalainen. Esitän alustavaa todistusaineistoa sille, että Denjongkan vokaalit assimiloituvat jonkin verran läheisten vokaalien pyöreyteen, etisyyteen ja korkeuteen. Tämän analyysin omaksuman tulkinnan mukaan diftongeja ei esiinny.

Denjongkasta löytyi 40 konsonanttifoneemia: 17 klusiilia, 7 affrikkaattaa, 5 frikatiivia, 5 nasaalia, 4 likvidaa ja 2 puolivokaalia. Klusiileilla ja affrikaatoilla on nelitahoinen oppositio aspiraation/soinnillisuuden suhteen: soinniton aspiroitu, soinniton aspiroimaton, soinniton hieman aspiroitu ja soinnillinen aspiroimaton. Konsonanttifoneemien joukossa on kaksi soinnitonta nasaalia ja kaksi soinnitonta likvidaa.

Denjongkassa on kaksi kontrastiivista äänenlaatua, höllä ja tiukka. Vokaalin nasalisaatio ja pituus ovat foneemisia. Kieltä voidaan kutsua alkuasteella olevaksi toonikieleksi. Tooniin liittyviin monimutkaisiin ilmiöihin kuuluu sävelkorkeuden lisäksi myös ainakin äänenlaatu. Sävelkorkeuden voi useimmiten ennustaa sanan ensimmäisen konsonantin ja äänenlaadun perusteella. Joissain tapauksissa sävelkorkeus on kuitenkin ainoa merkitystä erottava piirre. Tämän tutkielman toonikuvaus eroaa perinteisestä neljän toonin mallista, jota on käytetty useiden tiibetinsukuisten kielten kuvauksessa. Kun neljän toonin mallissa sävelkorkeus on kontrastiivinen sekä ylä- että alarekisterissä, tässä tutkimuksessa taas sävelkorkeuden on voitu osoittaa olevan kontrastiivinen vain ylärekisterissä. Tutkielman liitteenä on neljää tutkittua murretta vertaileva sanalista.

Avainsanat - Nyckelord
phoneme, variant, pitch, tone, tonal, phonation type, voice quality, devoiced consonants, register, Tibetan, Dzongkha
Säilytyspaikka - Förvaringställe
Yleisen kielitieteen laitos / Humanistisen tiedekunnan kirjasto
Muita tietoja - Övriga uppgifter

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Mikko Kupula
Työn nimi - Arbetets titel
On the Role of Zero Morphology in Case Licensing - Evidence from the Double Accusative Construction in Modern Greek
Oppiaine - Läroämne
Yleinen kielitiede
Työn laji - Arbetets art
Pro gradu
Aika - Datum
syksy 2004
Sivumäärä - Sidoantal
60
Tiivistelmä - Referat

The purpose of the present paper is to investigate the presence of zero morphology in the Modern Greek double accusative construction. While I shall adopt Anagnostopoulou's (2001) proposal that double accusative constructions do not involve the APPL-head of double object constructions and that the lower object is licensed by covert incorporation, my proposal differs from Anagnostopoulou's in that I will argue that there is, in fact, zero morphology present also in the double accusative construction. The zero morpheme in double accusative constructions is not an APPL-head, though, but - in the spirit of Pesetsky (1995) - an empty preposition. This preposition together with its complement will then covertly incorporate to the root verb. In other words, I will assume that the lower object of the double accusative constructions is structurally a PP rather than an NP. The facts presented here are supported by c-command asymmetries, unsuccessful nominalizations, the effects of Kayne's Generalization on clitic doubling, and an overt counterpart of the speculated preposition in Bulgarian. The goal of the study will necessarily become twofold. My primary concern will be to give a description of some of the problems associated with Case checking in the active voice. The secondary goal relates to accusative Case in passives; there is clear evidence on the presence of structural accusative in the passivized double accusative constructions. How should this be dealt with in a framework where accusative is expected to be absorbed? I shall propose, along with Goodall (1999) that the answer lies in EPP-driven rather than Case-motivated NP-movement.

Avainsanat - Nyckelord - Ke
Accusative, zero morphology, case, Modern Greek, minimalism
Säilytyspaikka - Förvaringställe - Where deposited
Faculty of Arts (Library) / Department of General Linguistics
Muita tietoja - Övriga uppgifter - Additional information

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Turo Vartiainen
Työn nimi - Arbetets titel
Tempuksen ja finiittisyyden vaikutus lauseen transitiivisuuteen suomenkielisissä sanomalehtiteksteissä
Oppiaine - Läroämne
Yleinen kielitiede
Työn laji - Arbetets art
pro gradu -tutkielma
Aika - Datum
lokakuu 2005
Sivumäärä - Sidoantal
91
Tiivistelmä - Referat

Tutkin työssäni transitiivisuuden ilmenemistä suomen kielessä Paul Hopperin ja Sandra Thompsonin 1980 esittämän teorian mukaisesti. Tämän teorian mukaan transitiivisuutta ei tule käsittää yksittäisen verbin ominaisuutena, vaan pikemminkin useista eri parametreistä koostuvana kompositionaalisena luokkana. Tällöin transitiivisuus muodostaa jatkumon, ja lauseet voivat olla jyrkän dikotomian sijaan enemmän tai vähemmän transitiivisia.

Olen koonnut 1990-luvulla julkaistuista sanomalehtiteksteistä koostuvasta suomen kielen tekstipankista aineiston kymmenestä eri verbistä ja tutkin finiittiverbien ja partisiippiverbien transitiivisuuden eroa sekä menneen ja menemättömän ajan vaikutusta transitiivisuuteen. Osoitan, että menneen ajan lauseet ovat menemätöntä aikaa transitiivisempia ja lisäksi, että finiittilauseet ovat infiniittisiä lausekkeita transitiivisempia.

Olen käyttänyt objektin sijavaihtelua sekä luvunvaihtelua parametreinä tutkimuksessani. Esitän, että objektin sijavaihtelulla on vaikutusta lauseen transitiivisuuteen siten, että totaaliobjekti indikoi korkeatransitiivista tilannetta, kun taas partitiiviobjekti indikoi matalatransitiivista tilannetta. Yksiköllinen objekti puolestaan tarkentaa objektin eroteltavuutta ja tekee lauseesta transitiivisemman kuin monikollinen objekti.

Menneen ajan finiittimuodot osoittautuivat tutkimuksessani näillä kriteereillä transitiivisimmaksi luokaksi, kun taas partisiipin preesensmuodot olivat vähiten transitiivisia. Esitän, että havaitsemani vaihtelu käyttämieni vertailuluokkien välillä johtuu tempuksen ja finiittisyyden vaikutuksesta lauseen transitiivisuuteen. Tämä tulos eroaa aiemmasta, verbin teonlaatuun painottuvasta tutkimuksesta, jonka mukaan esim. aikamuodolla ei ole vaikutusta objektin sijaan tai lukuun.

Avainsanat - Nyckelord
transitiivisuus, tempus, finiittisyys, partisiippi, objekti, teelisyys, aspekti, Aktionsart
Säilytyspaikka - Förvaringställe
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Eero Vitie
Työn nimi - Arbetets titel
Saneen oikean luennan ratkaiseminen tukivektorikonemenetelmällä
Oppiaine - Läroämne
Yleinen kielitiede
Työn laji - Arbetets art
pro gradu -tutkielma
Aika - Datum
4.11.2005
Sivumäärä - Sidoantal
39 + 11
Tiivistelmä - Referat

Saneen oikean luennan ratkaiseminen on osa lukuisia kieliteknologian sovelluksia puheentunnistuksesta konekäännökseen. Tässä työssä on selvitetty saneen oikean luennan ratkaisemista tukivektorikoneilla toteutettujen sanamuotokohtaisten mallien avulla.

Työssä tutkittiin kuuden eri sanamuodon, 'aika', 'jää', 'kuusta', 'osaa', 'päästä' ja 'sataa', oikean luennan selvittämistä. Kokeissa luennalla tarkoitettiin toisistaan kieliopillisesti eroavia sanamuotoja, mutta menetelmän soveltuvuutta myös alamerkitysten tunnistamiseen arvioitiin muiden tutkimusten perusteella.

Tutkittavat sanamuodot valittiin niin, että ne edustivat melko yleisiä sanamuotoja (20 esiintymää 400 000 saneessa) ja että niillä oli useita merkityksiä, joita morfosyntaktisen analysaattorin oli vaikea erottaa toisistaan.

Aikaisemmat tutkimukset tukivektorikoneiden käytöstä sanan alamerkityksen ratkaisemisessa osoittavat niiden soveltuvan tämäntapaisiin tehtäviin hyvin. Niiden kyky yhdistää aineistossa esiintyviä piirteitä toisiinsa polynomisten ydinfunktioiden avulla on osoittautunut hyödylliseksi paitsi sanan alamerkityksen tunnistamisessa, myös muissa kieliteknologiaan liittyvissä tehtävissä.

Tässä työssä pyrittiin tarkastelemaan piirteiden vuorovaikutusta suomenkielisessä aineistossa vertaamalla lineaarisen ja kvadraattisen ydinfunktion kykyä tunnistaa tutkittavien sanamuotojen merkitys. Lisäksi pyrittiin selvittämään opetusaineiston esikäsittelyn vaikutusta luokittimen tulokseen vertaamalla

  • koneellisesti yksiselitteistetyllä,
  • käsin yksiselitteistetyllä ja
  • sekä koneellisesti että käsin yksiselitteistetyllä aineistolla
opetettuja luokittimia

Avainsanat - Nyckelord
Säilytyspaikka - Förvaringställe
Humanistisen tiedekunnan kirjasto / Yleisen kielitieteen laitos
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Sirke Viitanen
Työn nimi - Arbetets titel
Named entities in the BRIEFS information extraction system
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
pro gradu
Aika - Datum
13.12.2005
Sivumäärä - Sidoantal
60
Ohjaaja(t)
Lauri Carlson, Krister Lindén
Tarkastajat
Krister Lindén, Lauri Carlson
Tiivistelmä - Referat

Tiedoneristämisjärjestelmiä käytetään suurten tietomassojen hallitsemiseen. Järjestelmät pyrkivät poimimaan luonnollista kieltä sisältävistä teksteistä käyttäjää kiinnostavat tiedot, ja muuttamaan ne muotoon, joka helpottaa tietojen automaattista käsittelyä ja esittämistä. Nimekkeiden (named entity) tunnistaminen ja samaviitteisyyksien selvittäminen ovat oleellinen osa järjestelmää, sillä niiden avulla yksittäisistä tiedoista voidaan muodostaa suurempia tietämyskokonaisuuksia. Tässä työssä esitetään runsain esimerkein millaisia tapauksia järjestelmän täytyy selvittää ja pohditaan rajaa nimien ja muiden nominilausekkeiden välillä.

BRIEFS tiedonedistämisjärjestelmä on kehitetty TEKES-projektina Helsingin teknisen korkeakoulun TAI-tutkimuskeskuksen, Helsingin yliopiston Yleisen kielitieteen laitoksen ja Valtion teknisen tutkimuskeskuksen yhteistyönä. Järjestelmä käsittelee sekä suomen- että englanninkielisiä tekstejä, mutta tämä työ tutkii vain englanninkielisiä tekstejä. Esittelyssä keskitytään järjestelmän nimiä tunnistaviin ja luokitteleviin sekä samaviitteisyyksiä ratkoviin moduuleihin. Jäsennintä ja sumeaa täsmäystä lukuun ottamatta nämä lingvistiset moduulit ovat tekijän ohjelmoimia.

Järjestelmä käyttää lingvistisen käsittelyn pohjana Connexor Oy:n FDG-jäsentimiä. Nimien käsittelyn tukena on nimitietokanta, joka sisältää tietoa nimien luokista ja mahdollisista viittaussuhteista. BRIEFS tunnistaa ja luokittelee nimiä ortografisten, leksikaalisten ja kontekstuaalisten (syntaktis-semanttisten) vihjeiden perusteella. Nimitietokantaa hyödynnetään tässä tehtävässä muodostamalla siitä erityinen alakohtainen leksikko. Samaviitteisyyksien tunnistamiseen yhden dokumentin sisällä BRIEFS käyttää heuristisia sääntöjä ja sumeaa täsmäystä. Dokumenttien keskistä samaviitteisyyttä BRIEFS selvittää nimitietokannan avulla, käyttäen sitä ulkoisena referenssikohteena.

Järjestelmän testausta varten tekijä valmisti 75 dokumentin tekstikorpuksen, johon on annotoitu nimet, niiden luokat ja samaviitteisyydet. Järjestelmän nimien tunnistusta tarkastellaan saannin, tarkkuuden ja F-luvun keinoin. Nimien luokittelua testataan kahdella eri tarkkuuksisella luokituksella. Samaviitteisyyksien löytymisen onnistumista testattiin B3-kaavalla lasketuilla saannilla, tarkkuudella ja F-luvulla.

BRIEFS selvisi näistä testeistä hyvin ja on osoittanut hyödyllisyytensä myös käytännössä sekä tutkimuksen että bisneksen saralla.

Avainsanat - Nyckelord
kieliteknologia, tiedon eristäminen, nimien tunnistaminen, nimien luokittelu, samaviitteisyyksien ratkonta
Säilytyspaikka - Förvaringställe
yleisen kielitieteen laitos / humanistisen tiedekunnan kirjasto
Muita tietoja
työ on englanninkielinen

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Paula Sirjola
Työn nimi - Arbetets titel
Suomen kielen aksentuaation CART-mallinnus puhesynteesiä varten
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
pro gradu -tutkielma
Aika - Datum
27.1.2006
Sivumäärä - Sidoantal
75 + 5
Ohjaaja(t)
Martti Vainio, Krister Lindén
Tarkastajat
Krister Lindén, Martti Vainio
Tiivistelmä - Referat

Puhe on ihmisen pääasiallinen kommunikaatiokeino. Puheen käyttäminen teknisten välineiden käyttöliittymissä on alkanut yleistyä vasta vähitellen. Puheen keinotekoinen tuottaminen eli puhesynteesi on merkittävä osa puheteknologiaa. Yksi suurimmista haasteista puhesynteesin kehityksessä on tuotetun puheen luonnollisuuden parantaminen. Aksenttien oikealla sijoittelulla ja voimakkuuden vaihteluilla voidaan syntetisoidun puheen miellyttävyyttä ja ymmärrettävyyttä parantaa suuresti. Väärin sijoitetut aksentit puolestaan aiheuttavat sekaannusta ja saattavat johtaa koko viestin ymmärtämisen epäonnistumiseen.

Useissa sovelluksissa, joissa tarvitaan syntetisoitua puhetta on myös puheen sisällöntuotto oleellinen osa tehtävää. Konseptista puheeksi -synteesin (CTS) perusideana on tuottaa puhetta konseptuaalisesta tiedosta. Tärkeänä osana CTS-järjestelmää on luonnollisen kielen generaattori, joka tuottaa syntetisoitavan viestin sisällön ja sanamuodot. Kun syöte syntetisaattorille tuotetaan järjestelmässä itsessään saadaan syötteeksi lingvististä metatekstiä. Kaikki syntaktinen tieto ja paljon myös semanttista ja pragmaattista tietoa on saatavilla syötteeseen. Tällainen prosodisesti rikas syöte helpottaa huomattavasti prosodian kontrolloimista synteesivaiheessa.

Tämä tutkielma keskittyy tarkastelemaan CART-päätöspuita aksentuaation mallintamisen välineenä puhesynteesin tarkoituksiin CTS:n näkökulmasta. CART-puut opetetaan mallintamaan aksentuaatiota tehtävään sopivasta aineistosta eristettyjen lingvististen piirteiden avulla. Kokeilujen kautta päädyin asettamaan symboliselle aksentille kolme tasoa, joita opettamani CART-mallit edustavat. Tutkielmassa vertaillaan myös kahden eri aineiston soveltumista aksentuaation mallintamiseen CART-puilla. Tutkielma on tehty TEKESin rahoittamaan valtakunnalliseen PUMS2-hankkeeseen kuuluvan "suomenkielinen käsitteestä puheeksi synteesi" -projektiin Helsingin yliopiston Yleisen kielitieteen laitoksella.

Useiden mallien opetus osoitti, että käytettävissä olevista piirteistä ei mikään osajoukko noussut muita selkeästi paremmaksi aksentuaation oppimisen kannalta, vaan parhaan tuloksen tuottavat piirteet saattoivat vaihdella suurestikin eri malleissa. Tulokset osoittavat, että tällä menetelmällä ja käytössä olevilla aineistoilla ei aksentuaatiota pystytä mallintamaan järkevällä tarkkuudella vapaata syötettä varten. Sen sijaan tarkasti rajatun puhetyylin aksentuaatiota on mahdollista mallintaa kohtuullisesti kun aineistona on kattava otanta kyseisestä tyylistä.

Avainsanat - Nyckelord
puhesynteesi, CTS, concept-to-speech, aksentuaation ennustaminen, aksentti, CART
Säilytyspaikka - Förvaringställe
yleisen kielitieteen laitos / humanistisen tiedekunnan kirjasto
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Mikaela Klami (os.Kumlander)
Työn nimi - Arbetets titel
Unsupervised discovery of morphs in children's stories and their use in Self-Organizing Map -based analysis
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
pro gradu -tutkielma
Aika - Datum
24.11.05
Sivumäärä - Sidoantal
80 + 7
Tiivistelmä - Referat

Ohjaamattomalla oppimisella tarkoitetaan luonnollisen kielen käsittelyn yhteydessä menetelmiä, jotka oppivat ominaisuuksia automaattisesti tekstiaineistosta. Tässä työssä tutkitaan kahta eri ohjaamattoman oppimisen menetelmää ja pyritään niiden yhdistelmän avulla luokittelemaan lasten kertomissa saduissa esiintyviä sanoja niiden käytön perusteella.

Peruslähtökohtana on itseorganisoituvan kartan käyttö sanojen luokittelussa. Itseorganisoituvalla sanakartalla saadaan ryhmiteltyä sanoja sen suhteen, millaisissa konteksteissa ne yleensä esiintyvät aineistona käytetyssä tekstissä. Aiemmissa töissä ryhmittelyn perusteena on käytetty lähikontekstissa esiintyviä kokonaisia sanoja tai jäsentimen avulla hankittua morfosyntaktista tietoa. Tässä työssä jälkimmäistä lähestymistapaa laajennetaan siten, että morfologinen informaatio opitaan ohjaamattomasti, jolloin menetelmää voidaan hyödyntää myös tilanteissa joihin perinteiset jäsentimet eivät sovellu (esim. uudet kielet tai erityistyyppiset tekstiaineistot, kuten lasten puhekielinen korpus tässä työssä).

Ohjaamattomalla Morfessor-menetelmällä saatuja morfeja käytetään itseorganisoituvan kartan piirteinä, ja kartan opetuksessa niitä verrataan morfologisesti segmentoitujen kontekstisanojen morfeihin. Erityyppisten morfien soveltuvuutta piirrejoukkoon testataan työtä varten kehitetyllä itseorganisoituvien karttojen evaluointimenetelmällä, jossa vertaillaan kartalle sijoittuneiden sanojen sanaluokkatietoja. Kokeiden tulosten perusteella pelkkien juurimorfien käyttö piirteenä näyttää tuottavan laadultaan parhaita sanakarttoja.

Lopuksi morfipiirteisiä sanakarttoja käytetään analysoimaan tekstikorpusta, joka koostuu sadutusmenetelmällä kerätyistä 1-4 vuotiaiden lasten kertomista saduista. Sadutusmenetelmässä lapsi kertoo sadun haluamastaan aiheesta, ja saduttajana toimiva henkilö kirjaa sen ylös täsmälleen sellaisena kuin hän sen kuulee. Itseorganisoituvan kartan visualisointimenetelmien avulla aineiston analyysissä havaitaan esimerkiksi se, että tietynlaiset deiktiset ilmaukset vähenevät lasten saduissa iän myötä.

Yhteenvetona, työssä osoitetaan että suomen kielen sanoja voidaan menestyksellisesti ryhmitellä täysin ohjaamattomalla menetelmällä, ja esitetään eräs tapa ryhmittelyn tekemiseen. Lisäksi demonstroidaan menetelmän käyttöä todellisessa sovelluksessa lasten kielen analysoinnissa.

Avainsanat - Nyckelord
Itseorganisoituva kartta, ohjaamaton oppiminen, morfologian oppiminen, lasten kieli, sadutusmenetelmä
Säilytyspaikka - Förvaringställe
yleisen kielitieteen laitos / humanistisen tiedekunnan kirjasto
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen tiedekunta
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Leena Kaisa Savolainen
Työn nimi - Arbetets titel
Viittomakielten kirjoitusjärjestelmien periaatteet ja käytäntö
Oppiaine - Läroämne
Yleinen kielitiede
Työn laji - Arbetets art
pro gradu -tutkielma
Aika - Datum
4.1.2006
Sivumäärä - Sidoantal
129
Tarkastajat
Orvokki Heinämäki, Fred Karlsson
Tiivistelmä - Referat

Tutkielmani käsittelee viittomakielten kirjoittamista jokapäiväiseen arkikäyttöön soveltuvilla kirjoitusjärjestelmillä. Tarkastelen aihetta useammista näkökulmista.

Ensinnäkin pohdin sosiaalisten, poliittisten ja yhteiskunnallisten tekijöiden osallisuutta siihen, että viittomakieltä on tähän mennessä kirjoitettu vain pienimuotoisesti eikä yhdellekään maailman viittomakielistä ole vielä syntynyt varsinaista ortografiaa. Viittomakielet ovat kaikkialla maailmassa vähemmistökielen asemassa, minkä ohella niiden käyttäjät, kuurot, nähdään monissa maissa ihmisinä, joiden tulisi mahdollisimman hyvin integroitua kuulevaan valtaväestöön, eikä viittomakielen arvoa kielenä ja merkitystä kuurojen elämässä tunnusteta. Viittomakielten kirjoituksen synty estyy, kun itse kieltä ei yleensä opeteta koulussa lainkaan.

Viittomakielten kirjoitusjärjestelmien lingvistisen tarkastelun perustan työssäni muodostaa ensinnäkin kuvaus puhuttujen kielten kirjoitusjärjestelmien piirteistä ja typologiasta.Erityisesti ortografian pohjaksi soveltuvan viittomakielten kirjoituksen voi nimittäin hyvällä syyllä olettaa olevan toimiva, jos se noudattaa (ottaen huomioon viittomakielen visuaalis-gestuaalisen tuotto- ja vastaanottotavan) valmiiksi koeteltujen ortografioiden hyviksi osoittautuneita konventioita.

Toinen olennainen perusta viittomakielten kirjoittamisen kielitieteelliselle tarkastelulle tutkielmassani on viittoman rakenteen kuvaus. Käyn tiiviisti, mutta varsin syvällisesti läpi suomalaisen viittomakielen fonologista rakennetta. Esitän foneemin käsitteeseen nojaavassa paradigmaattisessa kuvauksessa mahdollisimman tarkkaan kaikki leksikaalistuneiden viittomien fonologiset rakenneosat (foneemit). Tämän lisäksi annan arvion polysynteettisissä viittomissa käytettävien foneemien lukumäärästä ja kuvaan kyseisten viittomien olemusta ja rakennepiirteiden toteutumista niissä. Otan esille myös viittomakielten fonologisen rakenteen uudemmat, tavun käsitteeseen kytkeytyvät kuvaustavat ja esittelen tarkemmin niistä kolmea: Liddellin & Johnsonin HM-mallia, Sandlerin Hand Tier -mallia ja Brentarin prosodista mallia.

Viittomakielten kirjoitusjärjestelmistä olen valinnut yksityiskohtaisempaan tarkasteluun kolme ortografiaksi soveltuvaa järjestelmää: Stokoen järjestelmään pohjautuvan BSL-notaation sekä SignFont- ja SignWriting-järjestelmät. Kuvaan kunkin järjestelmän syntyhistoriaa, käyttöä ja varsin tarkasti niiden grafeemistot sekä pääpiirteittäin myös grafeemien välisen syntaksin. Lisäksi pohdin niiden soveltuvuutta viittomakielten arkikäyttöön sopivaksi kirjoitusjärjestelmäksi.

Avainsanat - Nyckelord
viittomakieli, kirjoitusjärjestelmä, ortografia, grafeemi, fonologia, foneemi, tavu
Säilytyspaikka - Förvaringställe
yleisen kielitieteen laitos / humanistisen tiedekunnan kirjasto
Muita tietoja

Tiedekunta/Osasto - Fakultet/Sektion
Humanistinen
Laitos - Institution
Yleisen kielitieteen laitos
Tekijä - Författare
Markus Nicholas Volk
Työn nimi - Arbetets titel
Suomenkielisen tekstin laventaminen puhesynteesin laadun parantamiseksi
Oppiaine - Läroämne
Kieliteknologia
Työn laji - Arbetets art
pro gradu
Aika - Datum
12.11.2004
Sivumäärä - Sidoantal
92 s.
Tiivistelmä - Referat

Tutkielmassa käsitellään suomenkielisten numeroilmausten ja lyhenteiden lukua puhesynteesissä. Teksteissä esiintyy saneita, joiden ääntämysasua ei voida johtaa kirjoitusasusta kielen tavallisten grafeemi-foneemi-konversiosääntöjen avulla. Tällaisia ilmauksia ovat mm. numerot ja lyhenteet. Jotta puhesyntetisaattori osaisi lukea nämä saneet, täytyy ne laventaa eli kirjoittaa auki tavallisiksi saneiksi. Osa lavennukseen liittyvistä ilmiöistä, esimerkiksi numeroilmausten kongruenssi pääsanansa kanssa, vaatii lingvististä tietoa ennen kuin lavennus voidaan suorittaa onnistuneesti.

Tutkielmassa esitellään yleisesti mitä syntetisoitavan puheen kannalta mielenkiintoista informaatiota tekstistä voidaan mm.kielitieteellisten työkalujen avulla eristää. Tämän jälkeen kuvataan suomenkielisen tekstin laventamista varten kehitetty menetelmä ja evaluoidaan menetelmän implementaatio.

Evaluaation tulosten perusteella voidaan arvioida, että kongruoivista ilmauksista 3/4 voidaan laventaa oikein listaamalla yleisimmät pääsanana toimivat rahayksiköt, suureet, tms. Käyttämällä lingvististä analyysiä voidaan kongruenssin mallintamisessa onnistua lähes täydellisesti.

Avainsanat - Nyckelord
puhesynteesi, tekstistä puheeksi, tekstin normalisointi, lavennus
Säilytyspaikka - Förvaringställe
Yleisen kielitieteen laitos / Humanistisen tiedekunnan kirjasto
Muita tietoja