HY yleisen kielitieteen laitos   kit-logo

CTL160 Tekstikorpusten tietojenkäsittely
Toinen luento (3.2..2003)


Luennon teemana ovat säännöliset lausekkeet (regular expressions, rexexp, regex). Kuten viime kerran yhdyssanatehtävästä nähtiin, yhden tietyn osajonon poimimisella ei voidan poimia kovinkaan kummoisia asioita. Entä jos halutaan poimia rivit, joissa on vähintään kaksi a-kirjainta? Ei onnistu fgrep-käskyllä. Säännöllisestä lausekkeet antavat käyttäjälle mahdollisuuden kuvata haluttujen esiintymien määrää, valinnaisuutta, vaihtoehtoja jne. Säännöllisten lausekkeiden kirjoittamiseen on oma notaationsa, jossa joukko tuttuja merkkejä saa erikoismerkityksiä ja merkkeihin itseensä pitää viitata laittamalla kenoviiva \ merkin eteen.

Tällä luennolla käsitellään säännöllisten lausekkeiden peruskäsitteet: merkkijoukko, kvantifikaattorit (quantifiers, määrällistäjät) ja ryhmittely. Näitä käytetään egrep-käskyssä ja perl-ohjelmointikielen komentorivikäytössä. Lisäksi kerrataan bash-skriptien tekoa emacs-editorilla. Ensi kerralla tutustutaan niihin ohjelmoinnin perusrakenteisiin (ehtolauseet ja silmukat, muuttujat), joita ilman ei alkeellista skriptiä hyödyllisempää ohjelmaa voi kirjoittaa.

Luentokalvot

Jotkut merkit näkyvät PDF:ssä väärin... Toivottavasti ei mitään kriittistä...

Laskuharjoitukset

Oheismateriaalia


Nicholas Volk
Tuesday, 11-Mar-2003 14:18:21 EET