Yliopiston etusivulle Suomeksi
Helsingin yliopisto
clt131: Korpusten käsittely - syksy 2006

Yhteystiedot

Yleisen kielitieteen laitos
PL 9 (Siltavuorenpenger 20 A)
00014 Helsingin yliopisto

Puhelinvaihde +358 (09) 1911
Faksi +358 (09) 191 29307

Kurssin materiaalit

tehtävien palautustilanne

Luento 1 (3.11.2006)

Käsiteltävät asiat: merkkien, rivien ja sanojen laskeminen, putkitus, sanojen laittaminen omille riveilleen.

Komennot: cat, tr, wc

Kalvot: PDF (päivitetty 10.11.)

Harjoitukset

Linkkejä

Luento 2 (10.11.2006)

Käsiteltävät asiat: järjestäminen aakkos- ja numerojärjestykseen, duplikaattien poisto, frekvenssilista

Kalvot: PDF (päivitetty 16.11.)

Harjoitukset

Komennot: (rev,) sort, uniq

Linkkejä

  • ASCII (vrt. sort-komennon tulosteen järjestys)

Luento 3 (17.11.2006)

Käsiteltävät asiat: merkkijonojen poiminta, säännöllisten lausekkeiden perusteita, konkordanssi

Komennot: egrep, fgrep

Kalvot: PDF

Harjoitukset

Luento 4 (24.11.2006)

Lisää säännöllisiä lausekkeita. Emacs-editori

Komennot: egrep, emacs, less

Kalvot: PDF

Harjoitukset

Linkkejä

Luento 5 (1.12.2006)

Merkkijonojen muokkaamista Perlin s///-komennolla. Kurssin tärkein taito.

Kalvot: PDF

Harjoitukset

Linkkejä

Luento 6 (8.12.2006)

Lisää tekstin muokkaamista. Rakenteisen dokumentin konvertoiminen raakatekstiksi.

Kalvot: PDF

Harjoitukset

Viimeinen luento (15.12.2006)

clt160-laajennus

Vanhojen tutkintovaatimusten mukaista CLT160 Tekstikorpusten tietojenkäsittely -kurssia suorittavien tulee lisäksi tehdä noin sivun referaatti. Referaatti kirjoitetaan kirjan Foundations of Statistical Natural Language Prosessing luvusta 4 (Corpus-Based Work) tai luvusta 5 (Collocations). Luku 4 on lyhyempi, mutta luku 5 PDF:nä kirjan kotisivulta.

Deadline: 18.12.2006. (palautetaan minulle)

Säännöllisissä lausekkeissa käytettyjä merkintätapoja
  awk, gawk egrep less perl sed
'.' (Mikä tahansa merkki) Kyllä Kyllä Kyllä Kyllä Kyllä
[SET] (merkkijoukko) Kyllä Kyllä Kyllä Kyllä Kyllä
(LAUSEKE), ryhmittely sulkujen avulla Kyllä Kyllä Kyllä Kyllä Kyllä, vaatii kenoviivan sulkujen eteen
? 0 tai 1 kpl Kyllä Kyllä Kyllä Kyllä Kyllä, mutta muodossa \?
* Kleenen tähti, 0..ääretön kpl Kyllä Kyllä Kyllä Kyllä Kyllä
+ Kleenen plus, 1..ääretön kpl   Kyllä Kyllä Kyllä Kyllä, mutta muodossa \+
{n} n kpl   Kyllä1 Kyllä Kyllä Ei
{m,n} m..n kpl   Kyllä1 Kyllä Kyllä Ei
{n,} n..ääretön kpl   Kyllä1 Kyllä Kyllä Ei
Rivinalkumerkki ^ ja rivinloppumerkki $ Kyllä Kyllä Kyllä Kyllä  
Rivinvaihtomerkki \n   Ei Ei Kyllä Ei
Tabulaattori \t   Ei, mutta haku onnistuu näppäinyhdistelmällä CTRL-v TAB Ei Kyllä Ei
Whitespace \s   Ei Ei Kyllä  

1Olen tavannut TaY:ssä Sunin version egrep-komennosta, jossa tämä ei ole toiminut joskus kolme vuotta sitten...

Lista on vanha ja epätäydellinen. Saa täydentää. Ainakin Sedin suhteen on tainnut tulla parannuksia.