Yliopiston etusivulle Suomeksi
Helsingin yliopisto

Yhteystiedot:

Osoite:
Yleisen kielitieteen laitos
PL 9
Siltavuorenpenger 20A
00014 Helsingin yliopisto

Puhelin: +358 (09) 1911 (vaihde)
Faksi: +358 (09) 191 29307

  • DL: 14.4.2005
  • Pulaute: 19.4.2005

Tee tehtävä 1 ja joko tehtävä 2 tai tehtävä 3.

  1. Tee käsitejaottelu (samanlainen kuin tunnilla) ohjelmasta, joka tekee (suomenkielisen) syötetekstin sanoista frekvenssijakauman niiden tavumäärän mukaan. Eli ohjelma kertoo, kuinka paljon tekstissä on yksitavuisia sanoja, kuinka paljon kaksitavuisia, kuinka paljon kolmitavuisia ja niin edelleen. (Huom. Tässä kuvauksessa ei välttämättä ole kaikkia tarvittuja käsitteitä. Jotta saisit tarkemmat käsitteet selville, kirjoita auki, mitä mikin käsite tarkoittaa, ja katso, löytyykö sieltä lisää käsitteitä.)
  2. Kirjoita perustelut tekemillesi käsitejaotteluille ja sille, miksi tiettyjä käsitteitä ei ole enää jaoteltu pienempiin käsitteisiin. Toteuta ohjelmanmuodostusohje (katso edellisistä tehtävistä, teht. 2) jollekin niistä käsitteistä, jotka eivät ole enää jaoteltavissa pienemmiksi; onnistuiko? Näiden käsitteidenhän tulisi olla toteutettavissa ohjelmointikielen tarjoamilla primitiiveillä (peruspalveluilla, jotka ovat ohjelmointikielessä sisäänrakennettuina).
  3. Toteuta tehtävän 1 ohjelma. Ohjelman ei tarvitse olla täydellisen korrekti eikä edes kovin korrekti. Kokeile sitä muutamaan korpukseen, esim. /ling/corp/fin/hkv/txt/hkv-1.txt ja /ling/corp/fin/sk75/txt/sk-01.txt; näissä tosin skandit ovat 7-bittisiä, käytä tr-ohjelmaa apuna. Vaikuttaako tekstityyppi tavumääräjakaumaan? Puhekielisempää tekstiä löytyy hakemistosta /ling/corp/fin/sfnet2003/.

Hae laitoksen sivuilta:

Yleisen kielitieteen laitos | Humanistinen tiedekunta | Helsingin yliopisto
Copyright © 2003-2004 Helsingin yliopisto. Kaikki oikeudet pidätetään.