Kieliteknologian oppiaine

Ctl191: Kieliteknologian johdantokurssin harjoitukset, 2003s

- KIT-verkosto | Yleisen kielitieteen laitos | Kieliteknologian opetus| Helsingin yliopisto -
Harjoitusten sivut
Harjoitusten kalenteri
Harjoitustehtävät ja ohjeet
Opettaja
Kurssiassistentti
Johdantokurssi Ctl190
Harjoitusten ns. kurssikuvaus

Copyright: Kimmo Koskenniemi, 2003

Harjoitustehtävät ja ohjeet

Tämä "kurssi" Ctl191 koostuu erillisenä 2 ov opintosuorituksena tehtävistä harjoituksista, jotka liittyvät kurssiin Ctl190 "Kieliteknologian johdantokurssi". Nämä harjoitukset kannattaa tehdä samaan aikaan kuin suorittaa johdantokurssia, jolloin kumpikin hyödyttää toistaan.

Tehtävien tekeminen edellyttää verkkoselaimen (Mozilla, Explorer, Konqueror tms.) käyttöä. Tehtävät tulee tehdä paperille, jotka palautetaan Ctl191-harjoitusosion kurssiassistentille postiosoitteella

Jussi Syrjänen,
Yleisen kielitieteen laitos,
PL 9 (Siltavuorenpenger 20 A),
00014 Helsingin yliopisto

tai vaihtoehtoisesti sähköpostiviestinä (ctl191-teacher ät ling.helsinki.fi), jossa vastaukset ovat tekstiosassa, eivät liitteinä.

Jos tehtävien muotoilussa on jotakin epäselvää tai jos tehtävien suorittamisessa on vaikkapa teknisiä ongelmia, lähettäkää mieluusti viestiä kurssiassistentille (ks. vasen sivupalkki).

Tehtävä 1

Tutkiskele seuraavan linkin takana olevaa Raamatun erikielisten versioiden konkordanssipalvelua. Käytä mm. ruotsinkielisen raamatun kohdalla hakusanaa "drunkna" ja "njuta". (Huomaa, että jälkimmäinen verbi on vahva eli taipuu "njuta", "njuter", "njöt", "njutit".) Päättele, millaista kieliteknologiaa esimerkkien haussa on mukana (erityisesti morfologisen jäsentimen mahdollista mukanaoloa) ja perustele arviotasi. Päättele myös, millaista kieliteknologiaa tämän palvelun rakentamisessa olisi ehkä käytetty. Kerro millaisella haulla (ja millaisilla asetuksilla) kyseisen sanan esiintymien löytäminen mielestäsi onnistuisi parhaiten. (Parhaimmillaan juuri oikeat sitaatit eikä muita.)

Tehtävä 2

Verkossa on kaikenlaisia kieleen liittyviä palveluita. Erikoisemmasta päästä lienee korsoraattori, joka muuntaa suomea "korsoksi" (mutta vain virka-aikaan). Kokeile ja koeta arvioida, millaista kieliteknologiaa, jos mitään, korsoraattori soveltaa. Vaihtoehtoisena tapana tehdä tämä tehtävä on arvioida englanninkielestä murteistavaa ohjelmaa RinkWorks -nimisen firman sivuilla olevaa palvelua.

Tehtävä 3

Kokeile sähköistä sanakirjaa, esimerkiksi Ruotsin Skoldatanätetin Lexikon on-line, jossa erinäisiä vapaasti käytettäviä sanakirjoja tai, jos olet Helsingin yliopiston verkossa, niin käytettävissäsi on myös Kielikoneen NetMOT -sanakirja.

Valitse jokin kohtuullinen suomenkielinen sana. Etsi sille englanninkieliset vastineet ja kullekin näistä edelleen (erilaiset) suomenkieliset vastineet kullekin. Kirjaa vastineet ja vastineiden vastineet. Montako tuli? (Jos vastineen vastineita tuli alle kolme, yritä jollakin toisella sanalla.) Englannin kielen sijasta voit valita muunkin kielen, esim. ruotsin, saksan tai ranskan.

Tehtävä 4

Tutki verkossa olevaa Ruotsin Skolverketin ruotsi-englanti sanakirjaa. Minkälaisia kieliteknologisia välineitä arvelisit tässä sanakirjapalvelussa olevan mukana ja millä perusteella? Kokeile erityisesti säännöllisesti ja epäsäännöllisesti taipuvia sanoja. Vastaukseksi siis arvio ja sen tueksi yksi useampi esimerkkisana ja miten järjestelmä näistä esimerkkisanoista selvisi.

Tehtävä 5

Kokeile Lingsoftin FINHYP Pro -ohjelman demon avulla viiden hankalasti jaettavan sanan tavutusta (eli jakamista rivin lopussa, kun koko sana ei mahdu riville). Hankalina voidaan pitää esimerkiksi yhdyssanoja, joiden alkuosa loppuu konsonanttiin ja seuraava osa alkaa vokaalilla tai joissa on epätavallisia kirjainyhdistelmiä. Raportoi tulos ja kommentoi tarpeen mukaan. Mikä voisi olla syy tiettyjen tavujakokohtien poisjäämiseen? (Lue myös demoon liittyvät ohjeet.) Pystytkö löytämään sanoja, joihin algoritmi ehdottaa tavujakoa kohtiin, joissa jako ei ole sallittu? Millä periaatteella sallittuja jakokohtia näyttäisi jäävän pois?

Tehtävä 6

Tarkastele Lingsoftin oikeinkirjoituksen tarkistuksen korjaavaa demoa. Tee kymmenestä suomen kielen oikein kirjoitetusta sananmuodosta virheellinen versio joko (a) lisäämällä yksi sattumanvarainen kirjain, (b) poistamalla jokin sananmuodon kirjaimista, (c) muuttamalla sananmuodon yhtä kirjainta tai (d) vaihtamalla sananmuodosta kaksi peräkkäistä kirjainta keskenään. Arvioi ohjelman tekemien korjausehdotusten (eli oikeaksi sanaksi tarjottujen vaihtoehtojen) hyvyyttä. Ansioksi luetaan hauskojen korjausehdotusten raportointi.

Vaihtoehtoinen suoritustapa: Teragram-nimisen amerikkalaisyrityksen tavuttimia muutamille kielille on kokeiltavana Spellonline-nimisellä sivustolla. Sovella yllä oleva tehtävä tarvittavin muutoksi toiseen kieleen

Tehtävä 7

Xeroxin tutkimuskeskuksen sivuilla on käytettävissä kielenarvausohjelma (Language Guesser). (a) Etsi verkosta kolmea eri vierasta kieltä olevaa tekstiä ja kokeile niistä otetuilla 5 sanan näytteillä tätä kielenarvausohjelmaa. Raportoi virkkeet, näytteen todellinen kieli ja algoritmin arvaama kieli. (b) Koeta vielä huijata sitä syötämällä sille suomen kieltä, joka ei ole tyypillistä, vaan sisältää sivistyssanoja, nimiä, murteellisia ilmauksia tms., mutta on muuten kelvollista suomea. Raportoi se näyte, joka mielestäsi oli eniten suomea, mutta tuli väärin luokitelluksi sekä kieli, joksi ohjelma sen arvasi. (c) Kokeile ja raportoi vielä sellainen näyte, joka tuli oikein arvatuksi, vaikka mielestäsi oli erityisen vaikea.

Jos Xeroxin demosivuille on vaikea päästä, voi käyttää vaihtoehtoisesti van Noordin kielenarvaajaa, joka ei kuitenkaan ole yhtä tarkka kuin Xeroxin (ja tällä sivulla on linkit varsin moniin muihin kielenarvausohjelmiin). Vaihtoehtona myös Hollantilaisen Eidetica-nimisen firman arvaaja. (Eri arvaajia saa myös vertailla keskenään, jos intoa riittää.)

Tehtävä 8

Eliza tai Doctor on J. Weizenbaumin jo 1960-luvulla laatima eräs mielenkiintoinen tekoälyohjelma. Siitä on lukuisia toteutuksia verkossakin saatavissa, esim. eräs Charles Haydenin toteutus ja toinen yleisesti käytetyssä Emacs-ohjelmassa (M-x doctor -komennolla käynnistyvä). Kokeile jompaa kumpaa ja koeta saada keskustelu sujumaan mielekkäästi kymmenkunta omaa vuoroasi. Jos keskustelu ei suju oikeaan suuntaan, yritä paremmin eläytyä terapeutin potilaaksi ja kerro keksittyjä huoliasi. Koeta päätellä, minkälaista kieliteknologiaa tai logiikkaa ohjelman takana on ja perustele arviotasi esimerkein. (Sitten voit lukea Eliza-ohjelman toiminnasta tarkemmankin selityksen tai vaikka tutkia koodia ym.)

Tehtävä 9

Kokeile automaattista kielenkääntämistä esim. Free Translator -sivuilta tai Babelfishin sivuilta saatavilla olevaaSystranin ohjelmaa kahden sellaisen kielen välillä, joita jonkin verran osaat itsekin. Koettele noin kymmentä kohtuullisia todellisia virkkeitä, joita löydät jostakin lähdetekstistä (kirjasta tai verkkosivulta tms.). Tehtävän tulokseksi anna näistä parhaiten ja huonoiten kääntynyt lähtökielen virke ja koeta lyhyesti arvioida, esim. millaisiin sanoihin tai rakenteisiin käännösohjelman hyvä tai huono suoriutuminen liittyisi.