CLT131 - Korpusten käsittely, syksy 2006, Volk
Harjoitukset 5

Palauta vastauksesi sähköpostitse kurssiassistentti Roope Havulle osoitteeseen <etunimi.sukunimi@helsinki.fi> 7.12. klo 23.59 mennessä. Laita kaikki vastauksesi samaan postiin, otsikoksi "clt131 tehtävät 5". Älä käytä liitetiedostoja ellei tehtäväsää toisin pyydetä.

  1. Suomen kielen tavutusta. Laadi Perl-käsky, joka lisää tavuviivan syötteen CV-parien eteen (C=konsonantti ja V=vokaali).

  2. Edellisen tehtävän käsky lisää tavuviivan myös saneen alkuun, esim. joulu -> -jou-lu ja klappi -> k-lap-pi. Laadi toinen Perl-käsky, joka poistaa tämäntyyppiset virheet sekä rivin alusta että välilyönninen jälkeen. Lausekkeesta (^| ) voi olla apua

  3. Parannetaan tavutintamme edelleen. Laadi käsky, joka laittaa tavuviivan peräkkäisten etu- (ä, ö ja y) ja takavokaalin (a, o, u) väliin (esim. saneisiin pääasia ja ruokaöljy). Etuvokaalimerkkejä <i> ja <e> ei siis oteta tässä huomioon.

  4. Edelliset saneet eivät vielä tavuta kaikkia saneita oikein. Väärin menevät mm. yhtiöön, hyeena, pisuaari, beduiini, liaani, paviaani, känniääliö jne.

    a) Lisää tavuviiva sellaisten kolmen vokaalinen jonojen eteen, joissa kaksi viimeistä vokaalia ovat samat (esim. yy saneessa hyeena). (Kolmesta peräkkäisestä samasta vokaalista ei tarvitse murehtia, sillä suomen kielen mukaan tällaisissa yhdyssanoissa on väliviiva, esim. vapaa-ajattelija.)

    b) Lisää loppuihin kolmen tai useamman vokaalin jonoihin tavuviiva aina kahden vokaalin välein (vrt. hää-yö-ai-e)

  5. Yhdistä tehtävät 1-4 shell-skriptiksi, missä kukin tehtävä muodostaa oman käskynsä. Muista laittaa syötetiedostoista huolehtiva cat-käsky skriptin alkuun. (Jos osaa, tehtävän voi tehdä myös suoraan Perl-skriptinä.) Palauta tiedosto sähköpostin liitetiedostona nimellä tavutin.sh (tai tavutin.perl).

  6. Laadi Perl-käsky(t), jo(t)ka ympyröi syötteen in-prepositiot *-merkeillä. Huomioi kirjainkoko, rivin alut ja loput. Voit käyttäää testiaineistona tiedostoa copyright.txt. -tiedoston Pohdi myös mitä tapahtuu, jos kaksi in-sanetta sijaitsisi tekstissä peräkkäin. (Tästä ei tarvitse kuitenkaan huolehtia.)