Kieliteknologian termistö

Copyright: Kimmo Koskenniemi 2002

Materiaali on tarkoitettu vapaasti käytettäväksi opetustarkoituksiin Kieliteknologian opetuksen verkostossa mm. siten, että tässä oleviin termeihin kohdistetetaan linkkejä.

Kurssit

ctl190
Kieliteknologian johdantokurssi
ctl132
Automaattinen morfologinen analyysi
ctl142
Automaattinen syntaktinen analyysi
ctl253
Äärellisiin tiloihin perustuva jäsentäminen

Kirjallisuus

Chomsky 1965
Noam Chomsky, Aspects of the Theory of Syntax, The M.I.T. Press, 1965.
Jurafsky-Martin 2000
D. Jurafsky and J. Martin, Speech and Language Processing. Prentice Hall. 2000.
F. Karlsson 1998
Fred Karlsson, Yleinen kielitiede (uudistettu laitos), Yliopistopaino, Helsinki, 1998.
R. Sproat 1992
Richard Sproat, Morphology and Computation, The M.I.T. Press, 1992.

Käsitteet


EN:affix
FI:affiksi
Sidottu morfeemi (muu kuin juurimorfeemi), joka liitetään vartaloon (tavalla tai toisella). Erilaisia affikseja ovat prefiksit, suffiksit, infiksit ja circumfiksit. (R. Sproat 1992: Glossary, p. 243.)

EN:allomorph
FI:allomorfi
Saman morfeemin keskenään erilaisia ilmenemismuotoja kutsutaan allomorfeiksi. Esim. hakusanan "käsi" juurta vastaavalla morfeemilla, voi olla useita allomorfeja kuten "käsi", "käde", "käte" ja "kät". Termiä allomorfi käytetään silloin, kun puhutan morfien suhteesta toisiinsa. Termiä morfi käytetään yksittäisestä morfeemin ilmentymästä. (F. Karlsson 1998: Luku 4.2.5. ss. 94 ff.) (R. Sproat 1992: Glossary, p. 243.)

EN:alphabet
FI:aakkosto
Äärellinen joukko aakkosmerkkejä, esim. kirjaimia. Aakkoston merkeistä muodostetaan merkkijonoja.

EN:ambiguity
FI:moniselitteisyys
Moniselitteisyydellä tarkoitetaan sitä, että yhdellä sananmuodolla, lauseella tai virkkeellä on useampia kuin yksi tulkinta. Esim. suomen kielen sananmuoto "katosta" on moniselitteinen, koska sillä on kaksi eri luentaa: (1) "katto"-sanan elatiivi ja (2) "katos"-sanan partitiivi.

EN:annotation
FI:annotointi, varustaminen (kieliopillisilla) koodeilla
Sanan, virkkeen tms. varustaminen kieliopillista rakennetta tai kategoriaa osoittavilla leimoilla (engl. tag) tai muilla merkinnöillä. Annotointia voidaan suorittaa joko käsin tai automaattisesti, esim. jäsentämällä. Termiä käytetään erityisesti tekstikorpusten ja puhekorpusten yhteydessä.

EN:chunk
FI:pätkä
Pätkäjäsennyksessä esiintyvä yhden tai useamman peräkkäisen saneen muodostama jakso virkkeestä.

EN:chunk parsing
FI:pätkäjäsennys
Pätkäjäsennyksessä virke jaetaan ensin pätkiksi, jotka koostuvat peräkkäisistä saneista. Pätkien hierarkiaa ei pyritä määrittämään vielä pätkimisvaiheessa vaan vasta sen jälkeen.

EN:clause
FI:lause
Toisiinsa liittyvistä sananmuodoista koostuva yksikkö, jossa tyypillisesti on yksi finiittiverbi (eli predikaatti) ja siihen mahdollisesti liittyviä nominaalisia jäseniä.

EN:collocation
FI:myötäesiintymä, kollokaatio
Vähitään kahdesta saneesta koostuva yhdistelmä, joissa sanoilla on lähinnä merkityksensä peruseella taipumus esiintyä yhdessä. Myötäesiintymät ovat usein esim. sanaliittoja tai verbin ja sen argumentin yhdistelmiä, mutta niiden ei tarvitse olla kieliopillisesti selvärajaisia kokonaisuuksia.

EN:competence
FI:kompetenssi
Kompetenssilla tarkoitetaan puhujan ja kuulijan sisäistämää tietoa kielestään. Puhuja tai kuulija ei ole selvillä tämän tiedon muodosta, mutta osaa käyttää sitä tuottaakseen oikeanmuotoisia virkkeitä ja kuulemiensa tai lukemiensa virkkeiden tulkitsemiseksi. (Chomsky 1965: §1, s. 4 ym.)

EN:complement
FI:komplementti
Joukon A komplementti ~A muodostuu kaikista niistä (perusjoukon) alkioista, jotka eivät kuulu A:han. Joukon A komplementista puhuttaessa on siis huolehdittava siitä, että tiedetään, minkä perusjoukon alkioista joukko A muodostuu.

EN:concatenation
FI:peräkkäinasettelu, (konkatenaatio)
Peräkkäinasettelulla muodostetaan merkkijonoista A ja B merkkijono AB, jossa on ensin kaikki A:n merkit a1, ..., ak järjestyksessä ja sitten kaikki B:n merkit b1, ..., bj myös järjestyksessä. AB:n pituus |AB| = |A| + |B| .

EN:dialect
FI:murre
Tyypillisesti jonkin alueen poikkeava kielimuoto. Poikkeavuus on tyypillisesti ääntämykseen perustuva ja jossain määrin sanaston ja taivutusmuotojen erilaisuuten perustuvaa. Saman kielen eri murteiden puhujat ymmärtävät usein toisiaan. (F. Karlsson 1998: Luku 9, ss. 250-.)

EN:deterministic finite-state automaton (FSA), deterministic finite-state machine (FSM)
FI:deterministinen äärellinen automaatti
SE:ändlig automat
Äärellisen automaatin tehtävänä on hyväksyä tai hylätä merkkijonoja, jotka koostuvat annetun aakkkoston merkeistä. Äärellisesä automaatissa on joukko tiloja Q ja se toimii siirtymällä tunnistettavan merkkijonon kunkin kohdalla tilasta toiseen (tai samaan tilaan). Tiloja kuvataan usein ympyröillä. Siirtyminen tapahtuu ns. tilasiirtymien mukaisesti. Siirtymiä kuvataan usein nuolella, joka lähtee tämänhetkisestä tilasta ja päättyy uuteen tilaan. Ollakseen deterministinen, kustakin tilasta saa lähteä enintään yksi siirtymä millekään aakkoston merkille. Eräs tiloista on alkutila q0 ja automaatti on ennen ensimmäisen merkin tunnistamista siinä tilassa. Automaatti hylkää merkkijonon mm. jos jossakin kohdassa sille ei ole vuorossa olevaa merkkiä varten siirtymää. Osa automaatin kaikista tiloista merkitään ns. lopputiloiksi Qf, joka tarkoittaa sitä, että jos automaatti on saanut siirrytyksi merkkijonon kaikilla merkeillä ja päätyy yhteen näistä lopputiloista, automaatin katsotaan hyväksyneen merkkijonon. Jos automaatti päätyy lopuksi muuhun kuin lopputilaan, automaatin katsotaan hylänneen merkkijonon. (Jurafsky-Martin 2000: Section 2.2, ss. 33-49.)

EN:disambiguate
FI:yksiselitteistää
Poistaa moniselitteisyyttä.

EN:element
FI:alkio
Alkio on jokin, mikä tahansa, joka voi kuulua joukkoon eli alkioista muodostuu joukkoja. Alkiot voivat olla samoja, vaikka niiden kuvailut näyttävät erilaisilta, esim. "Jaakob" ja "Jaakobin poikien isä", tai "luku 2" ja "lukujen 22 ja 14 suurin yhteinen tekijä".

EN:empty set, void set
FI:tyhjä joukko
Se joukko, jossa ei ole yhtään alkiota. Merkitään usein tanskalaisen Ö:n kaltaisella merkillä tai {}.

EN:null string, epsilon
FI:tyhjä merkkijono, epsilon
Tyhjä merkkijono on nollan pituinen merkkijono. Tyhjä merkkijono sisältyy osajonona mihin tahansa merkkijonoon ja merkkijojon mihin kohtaan tahansa. Merkitään usein kreikan kielen epsilon-kirjaimella, mutta tietojenkäsittelytieteessä usein myös lambda-kirjaimella.

EN:epsilon-transition
FI:epsilon-siirtymä, tyhjä siirtymä
Siirtymä automaatin tilasta toiseen ilman, että syötteenä olevasta merkkijonosta kulutetaan yhtään merkkiä.

EN:final state
FI:lopputila
Automaatti, mm. deterministinen äärellinen automaatti, hyväksyy syötteenä olevan merkkijonon, jos se päätyy viimeisen merkin jälkeen lopputilaksi merkittyyn tilaan.

EN:formal language
FI:formaali kieli
Formaaliksi kieleksi kutsutaan annetun aakkoston symboleista muodostettuja merkkijonojen joukkoja. Matematiikan ja tietojejkäsittelytieteen piirissä käytetään usein termiä "kieli" (language) merkityksessä "formaali kieli".

EN:information retrieval
FI:tiedonhaku
Tiedonhaulla tarkoitetaan yleensä automaattisia menetelmiä, joilla haluttuja dokumentteja voidaan löytää niissä olevien sanojen ja ilmausten perusteella suuresta dokumenttitietokannasta. Tiedonhakua voi vaikeuttaa useissa kielissä esiintyvä sanojen taipuminen ym. kielikohtaiset seikat. (Jurafsky-Martin 2000: Sect. 17.3, ss. 646-.)

EN:intersection
FI:leikkaus
Kahden joukon A ja B leikkauksella tarkoitetaan joukkoa, johon kuuluvat täsmälleen ne alkiot, jotka kuuluvat sekä A:han että B:hen.
Yleisemmin: joukkojen A1, A2, ..., Ak leikkauksella B tarkoitetaan joukkoa, joka muodostuu niistä alkioista, jotka kuuluvat jokaiseen näistä joukoista A1, ..., Ak. Jos leikkaus muodostetaan nollasta joukosta, on johdonmukaista sopia, että leikkaus on silloin yhtä kuin perusjoukko (sillä kukin joukoista on rajoite ja tällöin rajoituksia ei olisi).

EN:lemma
FI:lemma
Lemma on yhteen kuuluvien sananmuotojen otsikkona käytetty sana. Lemma on usein sen hakusanan perusmuoto, jonka taivutusmuodosta on kyse. Yhteenkuuluvuus voi olla väljempääkin kuin se, että sananmuodot ovat saman lekseemin taivutusmuotoja. (F. Karlsson 1998: s. 188)

EN:lexeme
FI:hakusana
Hakusanalla on (yleensä) perusmuoto, sanaluokka jne. Yhdellä hakusanalla on taivutuksen kautta erilaisia sananmuotoja, joilla puolestaan on esiintymiä, joita kutsutaan saneiksi. Yhdellä hakusanalla voi olla useampia toisiinsa liittyviä alamerkityksiä. (F. Karlsson 1998: Luku 6.1, s. 186-.)

EN:mark-up
FI:merkkaus
Tekstin varustaminen sen rakennetta kuvaavilla merkinnöillä. Tyypillisiä merkkauskieliä ovat HTML, joka on yleisen merkkausformalismin SGML:n mukainen verkkosivujen rakenteen osoittamisessa käytetty merkkauskieli. XML on SGML:stä johdettu uudempi merkkausformalismi.

EN:morph
FI:morfi
Morfeemin konkreettinen ilmenemismuoto. Esim. sananmuodossa "kalastajalle" voidaan erottaa morfit "kala", "-sta", "-ja", "-lle". Morfeja, jotka ovat saman morfeemin ilmenemismuotoja, kutsutaan allomorfeiksi. (R. Sproat 1992: Glossary, p. 247.)

EN:morpheme
FI:morfeemi
Morfologisen analyysin komponentti. Morfeemin sanotaan usien olevan kielen pienin merkitystä kantava yksikkö. Morfeemi on abstraktio, joka yhdistää sen eri allomorfit. Esim. inessiivin pääte katsotaan morfeemiksi ja sillä on kaksi allomorfia: "ssa" ja "ssä". (R. Sproat 1992: Glossary, p. 247.)

EN:nondeterministic automaton
FI:epädeterministinen automaatti
Automaatti, (tyypillisesti äärellinen automaatti), on epädeterministinen, ellei ole yksiselitteisesti selvää, missä tilassa automaatin täytyy olla aluksi ja kunkin merkin jälkeen. Epädeterministisyys voi johtua siitä, että (a) automaatilla on useampia kuin yksi alkutila (b) automaatilla on ainakin joissakin tiloissa samalle syöttömerkille useampi kuin yksi siirtymä tai (c) automaatissa on epsilon-siirtymiä. Äärellinen automaatti, joka ei millään näistä tavoista ole epädeterministinen, on deterministinen äärellinen automaatti.

EN:parsing
FI:jäsentäminen
Virkkeiden tai sanojen tunnistaminen niiden rakenteen perusteella. Jäsentämisen tuloksena saadaan jäsennettävän yksikön rakennetta kuvaavaa tietoa.
Kielioppiin ja sanakirjaan perustuva tapa tunnistaa kielellisen ilmauksen rakennetta.

EN:precision
FI:tarkkuus
Tiedonhaussa tms. relevanttien dokumenttien prosentuaalinen osuus kaikista haun tuottamista dokumenteista. Lääketieteessä tämä vastaa testin spesifisyyttä (engl. specificity) eli sitä, kuinka suuri osuus testin positiivisista tapauksista osoittautuu seulottavaa tautia sairastaviksi..

EN:recall
FI:saanti
Tiedonhaussa tms. haun tuottamien relevanttien dokumenttien osuus tietokannassa olevista kaikista relevanteista dokumenteista. Lääketieteessä tämä vastaa testin sensitiivisyyttä (engl. sensitivity) eli sitä, kuinka suuri osa seulottavaa tautia sairastavista saadaan kyseisellä testillä esille.

EN:recognition
FI:tunnistaminen
Virkkeen, sanan tms. tunnistaminen tarkoittaa sen hyväksymistä tai hylkäämistä annettujen sääntöjen ja sanakirjojen perusteella. Eroaa jäsentämisestä sikäli, että tunnistettaessa ei välttämättä muodosteta tai tulosteta rakennetta kuvaavaa tietoa.

EN:regular set
FI:säännöllinen joukko
Tietyn aakkoston S merkeistä koostuvien merkkijonojen joukko. Säännöllinen joukko voidaan määritellä siten, että (1) tyhjä joukkko on säännöllinen joukko, (2) tyhjä merkkijono on säännöllinen joukko, (3) aakkoston S mistä tahansa merkistä muodostettu yhden merkin mittainen merkkijonon muodostama joukko on säännöllinen joukko, (4) jos P ja Q ovat säännöllisiä joukkoja, niin (a) P:n ja Q:n unioni, (b) konkatenaatio PQ ja (c) toisto P* ovat säännöllisiä joukkoja, (5) eikä mikään muu ole aakkoston S merkeistä muodostettu säännöllinen joukko. Esim. joukko {"", "aa", "aaaa", ...} joka koostuu merkkijonoista, joissa on parillinen määrä "a"-kirjaimia on säännöllinen joukko. Sen voi katsoa muodostuneen askelilla (3) jolla saadaan joukko {"a"}, askelella (4b) jolla saadaan joukko {"aa"} ja lopuksi askelella (4c) jolla saadaan haluttu joukko.

EN:regular expression
FI:säännöllinen lauseke
Yksittäisistä aakkoston merkeistä, peräkkäinasetteluista, vaihtoehdoista ja toistoista koostuva lauseke, joka kuvaa säännöllistä (merkkijonojen) joukkoa. Esim. säännöllinen lauseke "(aa)*" kuvaa niitä merkkijonoja, jotka koostuvat parillisesta määrästä a-kirjaimia.

EN:relation
FI:relaatio
Joukkojen A ja B välillä olevat relaatiot tarkoittavat teknisesti niiden karteesisen tulon A x B osajoukkoja. Intuitiivisesti relaatio on joukon A ja joukon B välisten alkioiden suhde, esimerkiksi "suuremp kuin" on lukujen kesken relaatio (joka voidaan konkretisoida em. määritelmän puitteissa niiden lukuparien joukoksi, joissa parin edellinen luku on suurempi kuin jälkimmäinen).

EN:root morpheme, root
FI:juurimorfeemi, juuri
Mofeemi (jota ei enää voida jakaa pienemmiksi osiksi ja) josta affikseja liittämällä voidaan tuottaa sananmuotoja tai (uusia) hakusanoja. (R. Sproat 1992: Glossary, p. 249.)

EN:set
FI:joukko
SE:mängd
Joukko koostuu alkioista, joita voi olla nolla, yksi tai useampia. Jos tiedämme, mitkä alkiot joukkoon kuuluvat, tiedämme täsmälleen, mikä joukko on. (Jos alkiot ovat samat, joukot ovat samat.) Joukon alkiot eivät ole keskenään missään järjestyksessä. Muodostettaessa joukkoja pitää olla selvillä se, mistä perusjoukosta joukkojen alkioita voidaan ottaa.Tyhjässä joukossa ei ole yhtään alkiota.

EN:speech recognition
FI:puheentunnistus
Automaattisen puheentunnistuksen avulla päätellään puhesignaalista, mitä on sanottu. Puheentunnistus voi olla joko hyvinkin rajallisen komentosanaston tunnistamista tai jopa rajoittamattoman sanaston sallivaa ns. sanelusovellusta.

EN:speech synthesis, text-to-speech
FI:puhesynteesi
Puhesynteesin tehtävänä on muuntaa kirjoitettu teksti puheääneksi. Korkealaatuisen puhesynteesin tavoitteena on tuottaa helposti ymmärrettävää puhetta, joka kuulostaa luontevalta.

EN:start state
FI:alkutila
Automaatin, esim. deterministisen äärellisen automaatin tila, jossa automaatti on käynnistyessään. Deterministisillä automaateilla täytyy olla tasan yksi alkutila.

EN:state
FI:tila
SE:tillstånd
Automaatti (esim. deterministinen äärellinen automaatti) on alussa ja jokaisen merkin käsittelemisen jälkeen jossakin tilassa. Automaatti siirtyy tilasta toiseen siirtymien mukaisesti.

EN:stem, truncated word
FI:tyvi
Morfologista analyysia karkeammalla tavalla aikaansaatu taivutuspäätteistä vapaa sananmuodon alkuosa.

EN:string
FI:merkkijono
Annetun aakkoston merkeistä koostuva jono. Merkkijonossa voi olla nolla, yksi tai useampia merkkejä, kuitenkin äärellinen määrä. Esimerkiksi sananmuodot ovat merkkijonoja.

EN:stem (of a word)
FI:vartalo, (sanan vartalo)
Vartalosta saadaan affiksoimalla joko uusia vartaloita tai sananmuotoja (jossakin taivutusmuodossaan). Vartalo voi koostua yhdestä tai useammasta morfeemista. (R. Sproat 1992: Glossary, p. 249.)

EN:suffix
FI:suffiksi, pääte
Vartalon perään liitettävä affiksi. Esim. sananmuodossa "talosssanne" on vartalo ja juuri "talo", jonka perään on liitetty kaksi suffiksia "ssa" ja "nne".

EN:summary
FI:tiivistelmä

EN:transition
FI:siirtymä
Deterministinen äärellinen automaatti siirtyy kullakin syöttömerkillä tilasta uuteen tilaan siirtymän avulla. Siirtymään liittyy siten lähtötila, merkki ja uusi tila. Usein siirtymät määritellään yleisemmiksi siten, että siirtymä liitetään yhden merkin sijasta merkkijonoon, jossa voi olla nolla, yksi tai useampia merkkejä.

EN:tag
FI:leima
Kieliopillista kategoriaa tai piirrettä kuvaava merkintä. Tyypillisiä leimoja ovat esim. sanaluokan tai sijamuodon merkinnät.

EN:tokenise
FI:saneistaa
Juokseva teksti saneistetaan jakamalla se sanakirjahakua tai morfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu tai erotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneiden kaltaisina yksiköinään jatkokäsittelylle.

EN:unambiguous
FI:yksiselitteinen

EN:union
FI:yhdiste, unioni
Kahden joukon A ja B yhdisteellä tarkoitetaan joukkoa, joka muodostuu kaikista niistä alkioista, jotka kuuluvat ainakin jompaankumpaan joukoista A ja B (ja alkio saa kuulua molempiinkin).
Yleisemmin: nollan, yhden tai useamman joukon A1, A2, ..., Ak yhdiste on joukko, johon kuuluvat kaikki sellaiset alkiot, jotka kuuluvat edes yhteen joukoista A1, ..., Ak. Huomaa, että jos yhdiste muodostetaan nollasta joukosta, niin yhdiste on tyhjä joukko.

EN:word-form
FI:sanamuoto
Sananmuoto koostuu kirjaimista ja muista sanan sisälle mahdollisesti kuuluvista merkeistä kuten yhdysviivasta tai heittomerkistä. Sananmuodolla voi olla esiintymiä eli saneita. Sananmuodolla on ainakin yksi luenta eli tulkinta, joka koostuu perusmuodosta, sanaluokasta ja taivutusmuotoa kuvaavista koodeista eli leimoista. Sananmuotojen esiintymisten tilastollisessa käsittelyssä käytetään joskus termiä "type" kuvaamaan sananmuotoa ja termiä "token" vastaavasti sanetta. (F. Karlsson 1998: Luku 4.1, ss. 83-)

EN:word token
FI:sane, sananmuodon esiintymä
Sane on sananmuodon esiinymä. Saneeseen ei suoranaisesti kuulu muuta kuin se merkkijono, josta tekstissä oleva sananmuoto koostuu. Juoksevan tekstin pituutta kuvaa sen saneiden määrä.