HY yleisen kielitieteen laitos   kit-logo

CTL160 Tekstikorpusten tietojenkäsittely
Ensimmäinen luento (27.1.2003)


Kurssin johdantoluennolla määritellään pakollisen kurssibyrokratian läpikäymisen jälkeen korpus tutkimuskohteena. Luennolla mietitään hyvin pintapuoleisesti mikä korpus on, millaista tietoa se sisältää ja miten sitä voi tutkia. Esimerkkeinä tekstikorpuksen tutkimisesta käydään läpi Unix-kurssiltakin mahdollisesti tuttu frekvenssilistan teko unixin tekstityökaluilla ja pohditaan vähän myös konkordanssin tekoa.

Kurssin kannalta korpus on kuitenkin vain viitekehys, jossa toimitaan. Kurssin keskeisin teema on säännölliset lausekkeet, joihin aletaan käymään käsiksi seuraavalla luennolla. Tällä luennolla pyritään osoittamaan merkkijonojen (esim. virkkeiden) poiminnan rajoituksia, joita voidaan ylittää säännöllisten lausekkeiden avulla.

Luentokalvot

PDF-versiossa eivät kaikki merkit välttämättä tulostu oikein...

Laskuharjoitukset

Oheismateriaalia


Nicholas Volk
Tuesday, 11-Mar-2003 13:54:01 EET