Konkordanssi

Konkordanssilla tarkoitamme hakutuloksen esittämistä sellaisessa muodossa, että sitä on helppo katsella. Yleensä hakutuloksista tehdän lista, johon kuuluu jonkin verran kontekstia haetun merkkijonon molemiilta puolilta. Tuloksen vasen reuna tasataan samanmittaiseksi joka rivillä. Usein konkordanssiohjelmat laskevat myös joitakin lukuja, kuten haetun sanan esiintymien lukumäärän aineistossa. Teemme nyt yksinkertaisen konkordanssiohjelman käyttäen sed- ja fgrep-ohjelmia.

Haemme ensin fgrep-ohjelmalla kaikki ne rivit, joilla on and-sana (huomaa välilyönnit sanan molemmin puolin). Tämän jälkeen asetamme #-merkin 16 merkin päähän sanan alusta vasemmalle. (Ensin olemme fgrep-ohjelmalla tarkistaneet, ettei tätä merkkiä muuten esiinny aineistossa). Kun merkki on astettu, voimme antaa sed-ohjelmalle toisen komennon, jolla poistamme rivin alusta kaikki muut kuin #-merkit ensimmäiseen #-merkkiin asti. Yksinkertaisen konkordanssin haetusta sanasta saamme siis aikaan seuraavalla komentojonolla.

fgrep ' and ' copyright.txt | sed 's/............... and /#&/g; s/[^#]*#//' | less

Perlillä sama olisi muotoa

fgrep ' and ' copyright.txt | perl -pe 's/^.*(............... and )/$1/g;' | less

[ LuentoKomentolistaAineistotTehtävätLisätietoja ]
Mikko Lounela
Last modified: Wed Nov 6 21:09:37 EET 2002