KIT Ctl190, 2001s:
Kieliteknologian johdantokurssi

Kurssin kulku

2.11.2001:
Yleisesittely. Ihminen osaa käyttää kieltä, vaikkei tiedä millainen kohde kieli on ja millasten sääntöjen mukaan se toimii. Kieli ei ole pieni kohde. Kieli on moniselitteistä. Kielioppi ei koodaa kaikkea tarkoin, vaan osa tulkinnasta tulee kielen järjestelmän ulkopuolelta, esim. siitä, mitä tiedämme reaalimailmasta.
9.11.2001:
Kieliteknologian tehtäviä. Kieliteknologialla paljon mahdollisia sovelluskohteita ja se voi monella tavalla vaikuttaa ihmisten elämään. Kännykät ja Internet luoneet erityisiä, kenties tärkeitä uusia haasteita kieliteknologialle.
16.11.2001:
Perinteisiä konkordansseja ja kieliteknologisten taitojen käyttäminen tavanomaisen kielentutkimuksen apuna. Esimerkkeinä Agricolan tekstien sananmuotohakemisto, assyrialaisten nuolenpäätekstien editiot ja hakemistot sekä Indus-kirjoituksen konkordanssi ja tekstieditiot. Unixin tavanomaisista ohjelmista, joita kielitieteellisessä tietojenkäsittelyssä voidaan käyttää työkaluina. Esimerkkinä sananmuotojen frekvenssien laskeminen tekstistä. Konkordanssi, erityisesti säännöllisten lausekkeiden käyttäminen konkordanssien laskennassa. Esimerkkinä henkilönimien titteleiden etsiminen. Morfologinen analyysiohjelma, joka tuottaa sananmuodolle sen mahdolliset tulkinnat, ts. perusmuodon, sanaluokan ja taivutusta ilmaisevat koodit.
23.11.2001:
Äärellisistä automaateista. Mitä ne ovat? Tiloista muodostuva verkko, tilojen välillä siirtymiä, alkutila, lopputilat jne. Äärellinen automaatti hyväksyy tai hylkää merkkijonoja. Merkkijonojen joukkoja kutstaan (formaaleiksi) kieliksi. Säännöllinen lauseke, säännöllinen kieli ja äärellinen automaatti kuuluvat yhteen. Todennäköisyyslaskennasta ja tilastollisesta testaamisesta hyvin yleisellä tasolla. Markovin piilomalli (HMM, Hidden Markov Model) pääpiirteittäin.
30.11.2001:
7.12.2001:
Turingin testistä, maailmantiedon esittämisestä, ym. Keskusteltiin siitä, millaisilla kieli/puheteknologisilla sovelluksilla olisi kysyntää. Demottiin puheentunnistusta.
14.12.2001:

Materiaali

Pääosa materiaalista tulee olemaan verkossa siten, että siihin viitataan linkeillä tältä sivulta.

Ohessa on kurssin opetusmonisteen luonnos, joka on tarkoitettu lähinnä selattavaksi, ei paperille tulostettavaksi. Jos välttämättä haluaa tulostaa monisteen itse paperille, tehtäköön se opetusmonisteen PostScript-versiosta, (sillä selaimen versiosta tulostuu asultaan rumempi ja puutteellisempi kopio). Tarkoitus on kuitenkin uudistaa monistetta, joten ei kannata kiirehtiä oman kopion tekemisessä.

Paperikopioina olevaa materiaalia (kuten yllä mainittu moniste), joista kurssille osallistuvat voivat tehdä itselleen henkilökohtaisia kopioita, kootaan laitoksen käytävällä Unix-luokan tienoolla olevassa hyllykössä olevaan kansioon.

Luettavaksi tarkoitettuja osia on erityisesti seuraavasta kirjasta: D. Jurafsky and J. Martin, "Speech and Language Processing", Prentice Hall, 2000.

  1. Sivut 1-18 (1. Introduction) kieliteknologian olemuksesta, tehtävästä ja historiasta. (Pääpiirteittäin osattavaksi.)
  2. Sivut 21-56 (2. Regular expressions and automata) säännöllisistä lausekkeista ja äärellisistä automaateista. Säännölliset lausekkeet tulisi tässä vaiheessa jo pääpiirtein osata (ja ne tulevat vastaan monilla myöhemmillä kursseilla). Tästä ne voi opiskella. Äärellisen automaatin käsite ja toiminta tulee myös monilla seuraavilla kursseilla vastaan ja niihin on syytä totuttautua alustavasti jo tässä. Formaalit määritelmät ja algoritmit eivät tässä vaiheessa ole olennaisia. Automaattien operaatioista riittää tässä vaiheessa olla selvillä siitä, että niitä on. (Sivujen 50-51 kohdalla on kirjassa painovirhe.)
  3. Sivut 57-90 (3. Morphology and finite-state transducers) luettavaksi ja tärkeimmät käsitteet tulisi tunnistaa (ss. 57-65 ja tiivistelmä ss. 87-88) ja muistaakin: leksikko, miten morfeemien yhdistelyä sallituilla tavoilla voidaan kuvata äärellisellä automaatilla, miten transduktoreilla voidaan kuvata äänteiden (tai kirjoitusasun) vaihtelua, miten leksikko ja säännöt liittyvät toisiinsa. (Teemasta on kaksikin myöhempää kurssia, joilla asioita käsitellään perusteellisemmin -- tässä siis opitaan vain yleisluontoinen tuntuma asiaan.)
  4. Sivuilta 235-284 (7. HMMs and speech recognition) puheentunnistuksen tehtävä ja asetelma (ss. 235-243), puheäänen aaltomuoto ja sen käsittely (ss. 260-265) pääpiirteittäin, tiivistelmä ja historiikki (ss. 279-283). Nämä kaikki siis tutustumisena siihen, mitä puheentunnistus on. Erillisiä syvemmälle meneviä kursseja menetelmistä ja puheenutunnistuksesta.
  5. Sivut 501-544 (14. Representing meaning) lähinnä siltä kannalta, että minkälainen virkkeiden semanttinen esitysmuoto voi predikaattilogiikan mukaisena voisi olla ja minkälaisia ulottuvuuksia tällaisella semantiikalla voidaan esittää tai pitäsi voida esittää.
  6. Sivut 631-666 (17. Word sense disambiguation and information retrieval) tehtävänasettelu ss. 631-635 vähän tarkemmin, ja huomiota voi keskittää vielä tiivistelmään historiikkiin ss. 660-664, mutta välissä olevan osan voi jättää selailun varaan.
  7. Sivut 669-718 (18. Pragmatics) kannattaa lukea kursorisesti siten, että ymmärtää mitä tehtäviä diskurssin hallinnassa täytyy ratkaista ja suunnilleen millaisilla periaatteilla niitä voi ratkaista. Käsitteitä: viittaus (referenssi), samanviitteisyys (coreference), anafora. Kriteereitä: näkyvyys eli salienssi, äskettäisyys (recency), syntaktiset ja semattiset rajoitukset samanviitteisyydelle, kieliopillinen asema, toisto, centering.
  8. Sivut 799-830 (21. Machine translation) myös kursorisesti, vaikkakin sivulle 807 saakka oleva konekäännöksen tehtävän vaikeutta ja olemusta kuvaava osuus kannattaa lukea huolellisemmin sekä tiivistelmä s. 825 ynnä historiikki ss. 826-827.

Verkossa olevia demo-ohjelmia

Seuraavilla voi leikkiä ja niitä tarvitaan myös harjoitustehtävien tekemisessä.

Tentti

Tentti on suunniteltu pidettäväksi viimeisellä luentokerralla. Yleisen kielitieteen laitoksen rästitenttitilaisuuden yhteydessä to 10.1.2002 klo 14-17 (PII) on mahdollisuus uusia (tai tenttiä, jos ei pääse tähän varsinaiseen tenttiin).

Tenttitulokset

14.12.2001 pidetyssä tentissä olleet 38 opiskelijaa menestyivät kaikki hyvin (eli yhtään ei hylätty). Tulokset ohessa jonkin verrran kryptisenä, josta kuitenkin itse kukin löytää oman tuloksensa. Maksimipistemäärä oli 24. Ilmoittakaa mahdollisimman pian listassa olvista ilmeisistä epäjohdonmukaisuuksista, puutteista tai virheistä.

   Anna     3/3,   6+6+6+6=24
   Arol     2.5/3, 5+5+6+5=21
   Chri     2-/3,  2+3+5+5=15
   Estl     3-/3,  6+6+6+4=22
   Harj     2-/3,  3+5+4+4=16
   Havu     3/3,   6+6+6+5=23
   Heim     2+/3,  5+6+3+5=19
   Hein     2/3,   4+6+5+3=18
   Huht     2-/3,  4+4+5+4=17
   Juvo     2+/3,  4+5+5+5=19
   Kalv     2.5/3, 4+6+6+5=21
   Karv     2.5/3, 6+4+6+5=21
   Kosu     3-/3,  6+6+4+6=22
   Kuul     2.5/3, 6+4+6+5=21
   Lahd     2.5/3, 4+6+6+4=20
   Laim     3/3,   6+6+6+6=24
   Lain     2/3,   4+5+4+5=18
   Maun     3-/3,  6+6+5+5=22
   Mäke     3-/3,  5+6+6+5=22
   Nurr     2.5/3, 5+5+6+5=21
   Osma     2.5/3, 5+5+5+6=21
   Paat     3-/3,  6+5+6+5=22
   Pasa     2.5/3, 5+5+5+5=20
   Pitk     2+/3,  5+5+6+3=19
   Pula     3/3,   6+6+6+6=24
   Pärn     2/3,   5+4+4+5=18
   Saik     2+/3,  4+5+5+5=19
   Salm     3-/3,  6+6+5+5=22
   Sand     2-/3,  6+6+0+5=17
   Sara     2+/3,  5+5+6+3=19
   Sipi     2-/3,  2+6+5+4=17
   Susi     2/3,   3+5+5+5=18
   Talv     2-/3,  3+5+4+4=16
   Toiv     3/3,   6+6+6+6=24
   Vaas     3-/3,  5+6+5+6=22
   Viti     2+/3,  4+6+4+5=19
   Ylis     2+/3,  4+6+4+5=19


KIT-logo
Viimeksi päivitetty: Wednesday, 09-Jan-2002 17:54:02 EET