Kieliteknologian oppiaine.

Automaattinen fonologinen ja morfologinen analyysi: Ctl132, kevät 2004

HY LOGO
- KIT-verkosto | Yleisen kielitieteen laitos| Kieliteknologian opetus| Helsingin yliopisto -
Kurssin sivut
Kurssin kalenteri
Kurssin materiaali
Alkutentin kysymykset
Mallivastaukset alkutenttiin
Referaateille valitut aiheet
Yleisiš ohjeita referaateista ja esseistš ym.
Luennoitsija
Kurssin kuvaus
.

Kurssin materiaalit

Ns. alkutentin materiaali

Alkutentissä tentitään seuraavat kirjat ja artikkelit, jotka ovat saatavilla laitoksen luentosalin eteisessä olevassa hyllykössä. Kansiossa olevista irtolehtisistä versiosta voi kukin tehdä kopiokoneella itselleen ikioman kopion. Tenttiä varten tulisi lukea seuraava kirja ja kaksi artikkelia:

Richard Sproat, Morphology and Computation, The MIT Press, 1992. (Kirjaa pitäsi olla kurssikirjalainaamossa, mutta irtolehtinen kopio, josta saa oman kopion helopsti, on kansiossa.) Teos on kuitenkin aika vaativa, joten muutama lukemista koskeva ohje:

  • Luku 1 kertoo morfologisen analyysin sovelluksista ja on yleistietona hyödyllistä. Pääsovellukset on syytä muistaa.
  • Luku 2 kuvailee morfologian olemusta eri kielissä ja on siltä osin tärkeä, että siinä rajataan morfologian aluetta ja morfologisen analyysin tehtäviä. Yksittäisiä erikielisiä esimerkkejä ei tietenkään opetella ulkoa, eikä muitakaan yksityiskohtia (eli mm. kohdat 2.5 - 2.7 voi jättää pintapuolisemmalle selailulle). Sen sijaan tärkeimmät ulottuvuudet olisi yritettävä ymmärtää ja muistaa (eli otsikot ja niiden tulkinta muistettava).
  • Luvussa 3 käsitellään automaattisen morfologisen analyysin menetelmiä. Kaksi seuraavassa lueteltua artikkelia täydentävät tätä lukua ja tekevät ymmärtämisen helpommaksi. Tässä luvussa on koko joukko yksityiskohtia, joita ei kaikkia ole tarkoitus omaksua alkutenttiin mennessä (eli kohdat 3.4 -3.8 luettakoon vain kursorisesti, mutta 3.1 - 3.3 vähän paremmalla yrityksellä). Osaa voidaan käsitellä kurssilla havainnollistaen.
  • Neljännestä luvusta ei tule kysymyksiä ja sen voi lähinnä selailla.

K. Koskenniemi, "A Discovery Procedure for Two-Level Phonology", teoksesta L. Cignoni and C. Peters (editors), Computational Lexicology and Lexicography: A Special Issue Dedicated to Bernard Quemada, 1991, ss. 451-46.

L. Karttunen, "Finite-State Constraints", julkaisussa Proceedings of International Conference on Current Issues in Computational Linguistics, Malaysia, 1991, ss. 23-40.

Referaatin tai esseen materiaali

Kurssin päätteeksi kirjoitettavan referaatin pohjaksi kerätään kansiollinen aihepiiriä käsitteleviä artikkeleita, joista referaatin voi kirjoittaa. Kukin valitsee niistä tai CiteSeeristä tai ePrint-arkistosta pari artikkelia, ehdottaa niille teeman ja lähettää tästä viesti luennoitsijalle. Referaatti on noin 5-10 sivua pitkä ja se kirjoitetaan opiskelijan omalla äidinkielellä (kunhan luennoitsija sitä ymmärtää - suomi, ruotsi, englanti, saksa ja ranska ainakin käyvät).

Itse kunkin tulisi lähettää luennoitsijalle sähköpostiviesti, jonka otsikossa on ainakin kursin tunnus "Ctl132" ja viestissä referaatin alustava aihe ja viite valittuihin artikkeleihin (tekijät, otsikko, vuosi ja mielellään URL, jonka avulla artikkelin voi paikallistaa).

Yleiset lähdevinkit

Paljon hyvää materiaalia löytyy sähköisestä arkistosta (arXiv), jonne on linkki mm. Association for Computational Linguistics (ACL) -yhdistyksen sivuilta. EPrint-arkistosta pitää hakea CL-kategorian artikkeleita (Computation and Language).

Toinen hyödyllinen paikka on CiteSeer, jossa on valtava määrä artikkeleiden viitteitä ja linkkejä artikkeleihin itseensä (CiteSeerin kopioon sekä alkuperäiseen artikkeliin). CiteSeer-sivuilta artikkeleita on saatavissa eri tiedostomuodoissa.

Artikkelit

Linkit johtavat yleensä PDF- tai PS-muotoiseen artikkeliin. Lisäksi artikkelin tiedoissa voi olla toinen linkki [2], josta saa artikkelin eri tiedostomuodossa sekä mahdollisesti lisätietoa artikkelista ja sen kirjoittajasta.

Alla olevista artikkeleista on myös paperikappaleet katselua/kopiointia varten kurssimateriaalihyllyssä unix-luokkaa vastapäätä.

Friday, 06-Feb-2004 12:04:04 EET
/kit/2004k/ctl132/materiaali.shtml