Kieliteknologian oppiaine

Tekstikorpusten tietojenkäsittely

- KIT-verkosto | Yleisen kielitieteen laitos| Kieliteknologian opetus| Helsingin yliopisto -
Kurssin sivut
Kurssin kalenteri
Luennoitsija
Kurssin kuvaus
Kurssin materiaali
1. luento
2. luento
3. luento
4. luento
5. luento
6. luento
7. luento

KIT Ctl160, kevät 2004:
Tekstikorpusten tietojenkäsittely

Kurssikuvaus

Esitiedot:

  Kurssin Ctl130 (Lyhyt Unix-järjestelmän kurssi) suoritus, tai vastaavat tiedot. Laitoksen Unix-järjestelmän käyttötaito. Laitoksen järjestelmän käyttölupa.

Tavoitteet:

  Kieliaineistojen koodauksen perusteiden oppiminen. Perl-ohjelmointikielen perusteiden oppiminen ja niiden soveltaminen korpuslingvistisesti kiinnostavien tehtävien ratkaisuihin.

Kurssin sisältö:

 • Perlin alkeet
 • tekstiaineistojen koodaus
 • XML:n alkeet
 • morfologinen analyysi
 • tunnusluvut ja listat
 • kollokaatiot
 • lausekkeet
 • hakeminen
 • kielentunnistus, n-grammit
 • disambiguointi

Kirjallisuus:

  Luennoilla käytettävän materiaalin lisäksi ei pakollista kirjallisuutta. Kurssin tueksi käyvät mm. seuraavat teokset:
 • Tom Christiansen, Jon Orwant, Randal Schwartz, Larry Wall: Perl - Tehokäyttäjän Opas. Talentum 2001, ISBN 9521403896
 • Tom Christiansen, Jon Orwant, Larry Wall: Programming Perl. O'Reilly 2000, ISBN 0596000278
Kurssin laajuus opintoviikkoina:
2 ov
HY:n opintosuoritusrekisterin koodi:

Opetus

Linkit:
Opettaja:
Luennoitsijana Mikko Lounela, kurssiassistenttina Jussi Syrjänen
Suoritustapa:
Kurssi suoritetaan jättämällä 4-6 harjoitustehtävää (max. yksi luentokertaa kohti) sähköpostilla osoitteeseen ctl160-teacher@ling.helsinki.fi. Arvosana annetaan harjoitusten määrän ja laadun perusteella.
Paikka ja aika:
kl ti 9-12 S20A ls334D / laitoksen Unix-luokka 13.1.-24.2.
Ilmoittautuminen:

Kurssille ilmoittaudutaan täyttämällä ja lähettämällä tämä web-lomake. Voit ilmoittautua myös ensimmäisen luentokerran jälkeen.

Kurssimateriaali: