
![]() |
Yhteystiedot
Yleisen kielitieteen laitos |
Kurssin materiaalitLuento 1 (3.11.2006)Käsiteltävät asiat: merkkien, rivien ja sanojen laskeminen, putkitus, sanojen laittaminen omille riveilleen. Komennot: cat, tr, wc Kalvot: PDF (päivitetty 10.11.) Linkkejä
Luento 2 (10.11.2006)Käsiteltävät asiat: järjestäminen aakkos- ja numerojärjestykseen, duplikaattien poisto, frekvenssilista Kalvot: PDF (päivitetty 16.11.) Komennot: (rev,) sort, uniq Linkkejä
Luento 3 (17.11.2006)Käsiteltävät asiat: merkkijonojen poiminta, säännöllisten lausekkeiden perusteita, konkordanssi Komennot: egrep, fgrep Kalvot: PDF Luento 4 (24.11.2006)Lisää säännöllisiä lausekkeita. Emacs-editori Komennot: egrep, emacs, less Kalvot: PDF Linkkejä
Luento 5 (1.12.2006)Merkkijonojen muokkaamista Perlin s///-komennolla. Kurssin tärkein taito. Kalvot: PDF Linkkejä
Luento 6 (8.12.2006)Lisää tekstin muokkaamista. Rakenteisen dokumentin konvertoiminen raakatekstiksi. Kalvot: PDF Viimeinen luento (15.12.2006)clt160-laajennus
Vanhojen tutkintovaatimusten mukaista CLT160 Tekstikorpusten
tietojenkäsittely -kurssia suorittavien tulee lisäksi tehdä
noin sivun referaatti. Referaatti kirjoitetaan
kirjan Foundations of
Statistical Natural Language Prosessing luvusta 4
(Corpus-Based Work) tai luvusta 5 (Collocations).
Luku 4 on lyhyempi, mutta luku 5 PDF:nä kirjan kotisivulta.
1Olen tavannut TaY:ssä Sunin version egrep-komennosta, jossa tämä ei ole toiminut joskus kolme vuotta sitten... Lista on vanha ja epätäydellinen. Saa täydentää. Ainakin Sedin suhteen on tainnut tulla parannuksia. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||