CLT131 - Korpusten käsittely, syksy 2006, Volk
Harjoitukset 3

Palauta vastauksesi sähköpostitse kurssiassistentti Roope Havulle osoitteeseen <etunimi.sukunimi@helsinki.fi> 23.11. klo 23.59 mennessä. Laita kaikki vastauksesi samaan postiin, otsikoksi "clt131 tehtävät 3". Älä käytä liitetiedostoja.

  1. Käytetään fgrep-komentoa. Alkeellista yhdyssanojen poimintaa: kirjaimet 'ä' ja 'a' eivät koskaan esiinny samassa yksiosaisessa sanassa. Käytetään aineistona tiedostoa pitaa.txt. Monessako tiedoston saneessa esiintyy sekä 'ä'- että 'a'-kirjain?
    VIHJE: ...imyynonys nassev aj pergf * 2 aj neellievir ellimo teenaS

  2. Anna komennot jotka kertovat sellaisten sananmuotojen määrän, jotka esiintyvät syötteessä vain kerran. (Älä normalisoi kirjainkokoa äläkä poista välimerkkejä.) Tarvitset mm. fgrep-komennon, joka poimii merkkijonot, joissa on kaksi välilyöntiä ja jotain niiden välissä. (yhdestoista.txt antaa tulokseksi 149.)

  3. Tiedosto sample_from_susanne.txt sisältää näytteen Susanne-korpuksesta. Jokainen rivi sisältää tietoa yhdestä saneesta. Rivit on jaettu sarkain-merkillä erotettuihin kenttiin. Kolmannesta kentästä löytyy itse sane ja neljännestä sitä vastaava hakusana/lekseemi. Laadi komentojono, joka tekee frekvenssilistan hakusanoista. Käytä neljännen kentän poimimiseen cut-käskyä (ks. man-sivut.) ja sen perään klassista frekvenssilistalitaniaa... Mikä on yleisin oikea hakusana? (ignoroi pisteet tms)

  4. Laadi egrep-käsky(t)

    a) jo(t)ka poimii isolla tai pienellä a:lla alkavat ja isoon tai pieneen ö:hön päättyvät rivit

    b) rivit, joilla on ainakin kolme a-kirjainta

  5. Laadi egrep-käsky, joka poimii rivit, joissa on vain luku väliltä 1-999

  6. Laadi egrep-käsky, joka poimii rivit, jolla ei ole numeroita

    a) -v option avulla (unohtui luennolta, joten ks. man-sivut)

    b) ilman edellistä optiota

    (Kumpi oli helpompi?)