Harjoitukset 27.1.2003

Palauta vastaukset sähköpostitse luennoitsijalle ennen seuraavaa luentoa (klo 9.00, eli vastauksiaan voi vielä hioa 8-9 kertaustunnilla). Vastaus sisältää sekä lopputuloksen että sen saamiseksi tarvitut käskyt (siis yleensä yksi komentoriviputki), ellei muuta sanota. Palautukset mielellään tavallisena tekstinä.

Tehtävässä yksi harrastetaan vähän lingvististä pohdiskelua. Kakkosessa harjoitellaan paria unix-käskyä. Kolmosessa kerrataan tiedostojen oikeuksien toimimista. Nelonen, vitonen ja kuutonen peuhaavat taas unixin valmiiden tekstityökalujen kanssa.

Tehtävien ratkaisu piilee usein kyvyssä jakaa tehtävä pienempiin osaongelmiin, jotka sitten suoritetaan järjestyksessä. Osassa tehtäviä saa näkyville vihjeen viemällä kursori Vihje-tekstin päälle (ainakin Mozilla) tai "maalaa" tekstiä vihjesanan ympäriltä. Jottei elämä olisi liian helppoa, vihje pn kirjoitettu vasemmalta oikealle.

Ilmoita laskuharjoitusten mukana opiskelijanumerosi!

 1. Tiedosto pitaa.txt on 100 tapauksen konkordanssi sanasta "pitää". Poimi aineistosta kolme eri merkitystä sanalle ja tutki esiintyvätkö ne erilaisissa kieliopillisissa rakenteissa. Terminologian oikeellisuudesta ei tarvitse huolehtia. (Kurssimme on perusopintojen kurssi, joten en ei voi oikein vaatia tietoja mitään tietoja kieliopillisesta rakenteesta. Jos rakenneosa tuottaa ongelmia, niin etsi sen sijaan aineistosta sanalle pari kolme muuta (lisä-)merkitystä.)

 2. Ohessa on Project runebergin käsitys tekijänoikeudesta (englanninkielinen tekstitiedosto). Oletetaan, että lause loppuu aina joko pisteeseen, huutomerkkiin tai kysymysmerkkiin. Montako lausetta tiedostossa on?
  VIHJE:!ellejläj iäj äikkrem okatnom eksal aj tikrem tuum ikkiak atsioP

 3. Yleisen kielitieteen laitoksen käyttäjien www-kotisivut sijaitsevät hakemistossa /web/ling/users/käyttäjätunnus ja näkyvät vastaavasti osoitteessa http://www.ling.helsinki.fi/~käyttäjätunnus. Tee kotisivullesi alihakemisto ctl160 ja sinne tiedosto terve.txt, joka sisältää tekstin "Terve maailma.". Tiedosto pitää pystyä lukemaan www-selaimella. Voit tehdä tiedoston emacsilla tai ohjaamalla echo käskyn tuloste tiedostoon tai kopioimalla vastaavan tiedoston minun vastaavasta hakemistosta. Kokeile samalla saatko hakemiston lukuoikeuden päälle ja/tai pois päältä, (Vrt. minun hakemistooni, josta siis saa verkossa hakemistolistauksen) Käsittääkseni muissakin yliopistoissa on mahdollisuus opiskelijoiden tehdä omat kotisivunsa, mutta niiden kotisivujen sijainnista en osaa sanoa mitään. Vastaukseksi riittää pelkkä sen sivun www-osoite, jossa teksti näkyy internet-selaimella. Mukaan vastaukseen ei tarvitse liittää käskyjä.

 4. Alkeellista yhdyssanojen poimintaa: kirjaimet 'ä' ja 'a' eivät koskaan esiinny samassa yksivartaloisessa sanassa. Käytetään aineistona tiedostoa pitaa.txt. Monessako tiedoston sanassa esiintyy sekä 'ä'- että 'a'-kirjain?
  VIHJE: ...naassev aj pergf * 2 aj neellievir ellimo tanaS

 5. Laske montako erilaista sanaa (tässä: välilyönnein ja rivinvaihtomerkein erotettua merkkijonoa) tiedosto pitaa.txt sisältää. Välimerkkejä ei tarvitse poistaa eikä kirjainkokoja normalisoida!
  VIHJE: ässeskytsejräj ire nisot ,cw aj qinu , rt ,tros äjyksäk testivraT

 6. Muuta optioiden avulla luentokalvolla 21 ("Alkeellinen frekvenssilista") esitettyä käskyjonoa siten, että se käsittelee isoja ja pieniä kirjaimia saman arvoisina. Älä lisää uutta tr-käskyä. Muuttuuko tulos mitenkään? (yhdestoista.txt) (Myönnetään, että kyseessä on kovin keinotekoinen tehtävä.) [Oikeiden käskyjen antama tulostus] Alkuperäinen käskyjono on siis:

  tr -s ' ' '\n' < yhdestoista.txt | #sanat omille riveilleen
  tr -dc 'a-zåäöA-ZÅÄÖ\n' | # aakkosiin kuulumattomat pois
  sort | # laitetaan aakkosjärjestykseen
  uniq -c | # lasketaan peräkkäiset duplikaatit
  sort -nr | # järjestetään esiintymien perusteella käänteisesti
  head # opetaan TOP TEN

nvolk@ling.helsinki.fi
Viimeksi päivitetty: