CLT131 - Korpusten käsittely, syksy 2006, Volk
Harjoitukset 1

Yksityiset materiaalit:
Käyttäjätunnus: clt131
Salasana: korppu

Kalvoissa oli pari virhettä, jotka korjaan myöhemmin...
Kalvo 13: optio -c on esimerkin hyödyllisyyden kannalta tyhmä...
Kalvo 23: Välimerkkien poistotapa po. -d optio!

Palauta vastauksesi sähköpostitse kurssiassistentti Roope Havulle osoitteeseen <etunimi.sukunimi@helsinki.fi> 9.11. klo 23.59 mennessä. Laita kaikki vastauksesi samaan postiin, otsikoksi "clt131 tehtävät 1". Älä käytä liitetiedostoja.

Laitoksen koneet: tehtävissä tarvitut tiedostot löytyvät hakemistosta /web/ling/kit/2006s/clt131/priv/ . Etäkäyttäjät voivat noutaa tiedostot esim. seuraavankaltaisten komentojen avulla voit hakea haluamasi dokumentin (vaikkapa tehtävissä tarvittavan syötetiedoston) www:stä:

lynx -dump -source http://www.ling.helsinki.fi

Sama salasanan kanssa:

lynx -auth=clt131:korppu -dump-source http://www.ling.helsinki.fi/kit/2006s/clt131/priv/yhdestoista.txt

Huomaa kuitenkin, että HTML-tiedostot sisältävät vähemmän lukukelpoista tietoa dokumentin rakenteesta. Tulostuksen voi sitten ohjata '>':n avulla haluamaansa tiedostoon.

Vaihtoehtoinen tapa on käyttää wget-komentoa:

wget http://www.ling.helsinki.fi

wget --http-user=clt131 --http-passwd=korppu http://www.ling.helsinki.fi/kit/2006s/clt131/priv/yhdestoista.txt

  1. Ilmoittaudu kurssille lähettämällä kurssiassistentti Roope Havulle (etunimi.sukunimi@helsinki.fi) sähköpostitse nimesi, käyttämäsi sähköpostiosoite (jos eri kuin postin from-kenttä), opiskelijanumerosi (tai syntymäaikasi). (Jos satut vielä opiskelemaan vanhojen tutkintovaatimusten mukaan (CLT160), niin ilmoita myös se.) Haastetta kaipaavat voivat tehdä tämän terminaalista pine-ohjelmalla, mutta kyllä yliopiston mappi-posti tms. käy.

  2. Tiedosto pitaa.txt sisältää 100 esiintymää "pitää"-saneesta. Etsi aineistosta vähintään kolme eri merkitystä sananmuodolle.
    Pohdi millaisissa konteksteissa kukin merkitys esiintyy.
    Esiintyvätkö eri merkitykset mielestäsi samanlaisissa vai erilaisissa konteksteissa?
    Keksitkö perusteita, joilla merkitykset voisi erottaa toisistaan kontekstin perusteella. (Esim. englannin sana plane tarkoittanee lentokonetta, kun puhutaan terroristeista.)

    Lingvistisen terminologian oikeellisuudesta ja analyysin syvällisyydestä ei tarvitse murehtia. (Kurssimme on perusopintojen kurssi, joten en voi oikeastaan edellyttää mitään syntaktisen rakenteen tuntemusta. Tehtävä toimii esimerkkinä yhdestä tavasta käyttää korpuksia tutkimuksessa. Jos rakenneosa tuottaa ongelmia, niin etsi sen sijaan aineistosta sanalle pari kolme muuta merkitystä.)

  3. Kalevala on niin vanha opus, ettei tekijänoikeudet enää ulotu siihen. Niinpä se sopii hyvin kurssimateriaaliksi. Ohessa Kalevalan yhdestoista runo. Oletetaan (virheellisesti), että virke loppuu aina joko pisteeseen, huutomerkkiin tai kysymysmerkkiin. Montako virkettä oletuksen mukaan tiedostossa on?
    VIHJE:!ellejläj iäj äikkrem okatnom eksal aj tikrem tuum ikkiak atsioP

  4. Laadi komentopari, joka hakee syötteen yhdestoista.txt-tiedoston 10:nneksi ja 9:nneksi viimeiset rivit.

  5. Tehtävänä on poistaa copyright.txt-tiedostosta joukko merkkejä. Jäljelle saisi jäädä vain välilyönnit, rivinvaihdot ja aakkosiin kuuluvat merkit.

    a) Yritä ratkaista ongelma käyttämällä vain tr-komentoa ja vain sen optiota -d (Heittomerkki ja lainausmerkki voivat aiheuttaa päänvaivaa, ks. kalvot)

    b) Sama ongelma, mutta nyt käytetään tr-komentoa ja sen optioita -dc

    Millaisia komentoja käytit?
    Kumpi lähestymistapa oli mielestäsi parempi? Miksi?

  6. Kuinka pitkä on yhdestoista.txt-tiedoston pisin sana

    a) jos pilkut ja tms. välimerkit lasketaan osaksi sanaa?

    b) jos pilkut ja tms. välimerkit on poistettu?

    Eli katsokaa mitä wc-komennon man-sivu kertoo komennon optiosta...