Kieliteknologian oppiaine

Tekstikorpusten tietojenkäsittely

- KIT-verkosto | Yleisen kielitieteen laitos| Kieliteknologian opetus| Helsingin yliopisto -
Kurssin sivut
Kurssin kalenteri
Luennoitsija
Kurssin kuvaus
Kurssin materiaali
1. luento
2. luento
3. luento
4. luento
5. luento
6. luento
7. luento

KIT Ctl160, kevät 2004:
Tekstikorpusten tietojenkäsittely

Kurssikuvaus

Esitiedot:

    Kurssin Ctl130 (Lyhyt Unix-järjestelmän kurssi) suoritus, tai vastaavat tiedot. Laitoksen Unix-järjestelmän käyttötaito. Laitoksen järjestelmän käyttölupa.

Tavoitteet:

    Kieliaineistojen koodauksen perusteiden oppiminen. Perl-ohjelmointikielen perusteiden oppiminen ja niiden soveltaminen korpuslingvistisesti kiinnostavien tehtävien ratkaisuihin.

Kurssin sisältö:

  • Perlin alkeet
  • tekstiaineistojen koodaus
  • XML:n alkeet
  • morfologinen analyysi
  • tunnusluvut ja listat
  • kollokaatiot
  • lausekkeet
  • hakeminen
  • kielentunnistus, n-grammit
  • disambiguointi

Kirjallisuus:

    Luennoilla käytettävän materiaalin lisäksi ei pakollista kirjallisuutta. Kurssin tueksi käyvät mm. seuraavat teokset:
  • Tom Christiansen, Jon Orwant, Randal Schwartz, Larry Wall: Perl - Tehokäyttäjän Opas. Talentum 2001, ISBN 9521403896
  • Tom Christiansen, Jon Orwant, Larry Wall: Programming Perl. O'Reilly 2000, ISBN 0596000278
Kurssin laajuus opintoviikkoina:
2 ov
HY:n opintosuoritusrekisterin koodi:

Opetus

Linkit:
Opettaja:
Luennoitsijana Mikko Lounela, kurssiassistenttina Jussi Syrjänen
Suoritustapa:
Kurssi suoritetaan jättämällä 4-6 harjoitustehtävää (max. yksi luentokertaa kohti) sähköpostilla osoitteeseen ctl160-teacher@ling.helsinki.fi. Arvosana annetaan harjoitusten määrän ja laadun perusteella.
Paikka ja aika:
kl ti 9-12 S20A ls334D / laitoksen Unix-luokka 13.1.-24.2.
Ilmoittautuminen:

Kurssille ilmoittaudutaan täyttämällä ja lähettämällä tämä web-lomake. Voit ilmoittautua myös ensimmäisen luentokerran jälkeen.

Kurssimateriaali: