Käsitehakemisto

Kieliteknologian termistö

Copyright: Kimmo Koskenniemi, ... 2002

Materiaali on tarkoitettu vapaasti käytettäväksi opetustarkoituksiin Kieliteknologian opetuksen verkostossa (KIT) mm. siten, että tässä oleviin termeihin kohdistetetaan linkkejä.

Kurssit

ctl102
Yleisen kielitieteen perusteet kieliteknologeille
ctl103
Fonetiikan perusteet kieliteknologeille
ctl104
Morfofonologian harjoituksia
ctl105
Morfosyntaksin harjoituksia
ctl120
Matematiikan perusteita kieliteknologeille
ctl122
Matematiikan perusteita puheteknologiaa varten
ctl190
Kieliteknologian johdantokurssi
ctl132
Automaattinen morfologinen analyysi
ctl142
Automaattinen syntaktinen analyysi
ctl253
Äärellisiin tiloihin perustuva jäsentäminen

Kirjallisuus

Chomsky 1965
Noam Chomsky, Aspects of the Theory of Syntax, The M.I.T. Press, 1965.
Jurafsky-Martin 2000
D. Jurafsky and J. Martin, Speech and Language Processing. Prentice Hall. 2000.
F. Karlsson 1998
Fred Karlsson, Yleinen kielitiede (uudistettu laitos), Yliopistopaino, Helsinki, 1998.
R. Sproat 1992
Richard Sproat, Morphology and Computation, The M.I.T. Press, 1992.

Käsitteet


EN:adjective
FI:adjektiivi
Ominaisuutta edustava sanaluokka. Adjektiivit taipuvat monissa kielissä vertailuasteissa. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190 ctl132]

EN:affix
FI:affiksi
Sidottu morfeemi (muu kuin juurimorfeemi), joka liitetään vartaloon (tavalla tai toisella). Erilaisia affikseja ovat prefiksit, suffiksit, infiksit ja sirkumfiksit. (R. Sproat 1992: Glossary, p. 243.) [Käsitellään: ctl132 ; Edellytetään: ctl132]

EN:agglutinating language
FI:agglutinoiva kieli
Kieli, jossa sananmuotojen morfeemit ovat selvästi tunnistettavissa ja niitä voidaan tyypillisesti liittää useampia samaan sanan juurimorfeemiin. Turkin ja suomen kielet ovat tyypillisiä agglutinoivia kieliä. Esim. sananmuoto 'epä-järje-st-elmä-llis-ty-ttä-mä-ttö-myyde-llä-nsä' sisältää monta morfeemia, joista yksi on vapaa ('järje' eli 'järki') ja muut ovat sidonnaisia. Kaikki jaon mukaiset morfeemit ovat tässä jokseenkin samantapaisia kuin esiintyessään muissa sananmuodoissa. [Käsitellään: ctl132]

EN:allomorph
FI:allomorfi
Saman morfeemin keskenään erilaisia ilmenemismuotoja kutsutaan allomorfeiksi. Esim. hakusanan "käsi" juurta vastaavalla morfeemilla, voi olla useita allomorfeja kuten "käsi", "käde", "käte" ja "kät". Termiä allomorfi käytetään silloin, kun puhutan morfien suhteesta toisiinsa. Termiä morfi käytetään yksittäisestä morfeemin ilmentymästä. (F. Karlsson 1998: Luku 4.2.5. ss. 94 ff.) (R. Sproat 1992: Glossary, p. 243.) [Käsitellään: ctl104 ; Edellytetään: ctl132]

EN:alphabet
FI:aakkosto
Äärellinen joukko aakkosmerkkejä, esim. kirjaimia. Aakkoston merkeistä muodostetaan merkkijonoja. [Käsitellään: ctl120 ; Edellytetään: ctl132 ctl142 ctl253]

EN:ambiguity
FI:moniselitteisyys
Moniselitteisyydellä tarkoitetaan sitä, että yhdellä sananmuodolla, lauseella tai virkkeellä on useampia kuin yksi tulkinta. Esim. suomen kielen sananmuoto "katosta" on moniselitteinen, koska sillä on kaksi eri luentaa: (1) "katto"-sanan elatiivi ja (2) "katos"-sanan partitiivi. [Käsitellään: ctl190]

EN:annotation
FI:annotointi, varustaminen (kieliopillisilla) koodeilla
Sanan, virkkeen tms. varustaminen kieliopillista rakennetta tai kategoriaa osoittavilla leimoilla (engl. tag) tai muilla merkinnöillä. Annotointia voidaan suorittaa joko käsin tai automaattisesti, esim. jäsentämällä. Termiä käytetään erityisesti tekstikorpusten ja puhekorpusten yhteydessä. [Käsitellään: ctl190]

EN:application
FI:sovellus

EN:assisted
FI:avusteinen
Yhdyssanan jälkiosana, esim. tietokoneavusteinen, teknologia-avusteinen jne. [Käsitellään: ]

EN:bound morpheme
FI:sidonnainen morfeemi
Morfeemi, joka ei voi esiintyä sellaisenaa, vaan edellyttää lähelleen tietynlaisen toisen morfeemin. Esim. useissa kielissä sananjohtimet ja taivutuselementit ovat sidonnaisia morfeemeja. [Käsitellään: ctl132]

EN:cartesian product
FI:karteesinen tulo
Kahden joukon A ja B karteesisella tulolla tarkoitetaan kaikkien niiden parien (x,y) joukkoa, missä x kuuluu A:han ja y kuuluu B:hen. [Käsitellään: ctl122]

EN:case
FI:sija
SV:kasus
Lähinnä substantiivien taivutuksen kategoria. Tyypillisiä sijamuotoja ovat nominatiivi, genetiivi, datiivi, jne. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190]

EN:chunk
FI:pätkä
Pätkäjäsennyksessä esiintyvä yhden tai useamman peräkkäisen saneen muodostama jakso virkkeestä. [Käsitellään: ctl142]

EN:chunk parsing
FI:pätkäjäsennys
Pätkäjäsennyksessä virke jaetaan ensin pätkiksi, jotka koostuvat peräkkäisistä saneista. Pätkien hierarkiaa ei pyritä määrittämään vielä pätkimisvaiheessa vaan vasta sen jälkeen. [Käsitellään: ctl142]

EN:circumfix
FI:sirkumfiksi
Sananvartalon ympärille liitettävä sidonnainen morfeemi, jossa sirkumfiksin toinen osa liitetään vartalon eteen ja toinen osa vartalon jälkeen. Esimerkiksi saksan verbitaivutuksessa esiintyy sirkumfiksi 'ge-...-en' kuten muodossa 'ge-schloss-en'. [Käsitellään: ctl132]

EN:clause
FI:lause
Toisiinsa liittyvistä sananmuodoista koostuva yksikkö, jossa tyypillisesti on yksi finiittiverbi (eli predikaatti) ja siihen mahdollisesti liittyviä nominaalisia jäseniä. [Käsitellään: ctl102 ; Edellytetään: ctl190]

EN:clitic particle
FI:liitepartikkeli
Sanaan liitetty varsinaisen taivutuksen kannalta perifeerinen affiksi. Esim. suomen kielessä sananmuodossa 'tuletko' lopussa oleva 'ko' on liitepartikkeli, jolla on lähinnä tehtävänä osoittaa kysymyslausetta. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190 ctl132]

EN:collocation
FI:myötäesiintymä, kollokaatio
Vähitään kahdesta saneesta koostuva yhdistelmä, joissa sanoilla on lähinnä merkityksensä peruseella taipumus esiintyä yhdessä. Myötäesiintymät ovat usein esim. sanaliittoja tai verbin ja sen argumentin yhdistelmiä, mutta niiden ei tarvitse olla kieliopillisesti selvärajaisia kokonaisuuksia. [Käsitellään: ctl142]

EN:competence
FI:kompetenssi
Kompetenssilla tarkoitetaan puhujan ja kuulijan sisäistämää tietoa kielestään. Puhuja tai kuulija ei ole selvillä tämän tiedon muodosta, mutta osaa käyttää sitä tuottaakseen oikeanmuotoisia virkkeitä ja kuulemiensa tai lukemiensa virkkeiden tulkitsemiseksi. (Chomsky 1965: §1, s. 4 ym.) [Käsitellään: ctl102 ; Edellytetään: ctl190]

EN:complement
FI:komplementti
Joukon A komplementti ~A muodostuu kaikista niistä (perusjoukon) alkioista, jotka eivät kuulu A:han. Joukon A komplementista puhuttaessa on siis huolehdittava siitä, että tiedetään, minkä perusjoukon alkioista joukko A muodostuu. [Käsitellään: ctl120 ; Edellytetään: ctl190]

EN:computational linguistics
FI:tietokonelingvistiikka
SV:datalingvistik, datorlingvistik
Kieliteknologian ytimestä käytetty nimitys. [Käsitellään: ctl190]

EN:computer
FI:tietokone
SV:dator

EN:computer assisted language learning, CALL
FI:tietokoneavusteinen kielenoppiminen
SV:datorstödd språkinlärning
Tietotekniikan käyttäminen kielenoppimisen apuna. [Käsitellään: ctl190]

EN:concatenation
FI:peräkkäinasettelu, (konkatenaatio)
Peräkkäinasettelulla muodostetaan merkkijonoista A ja B merkkijono AB, jossa on ensin kaikki A:n merkit a1, ..., ak järjestyksessä ja sitten kaikki B:n merkit b1, ..., bj myös järjestyksessä. AB:n pituus |AB| = |A| + |B|. [Käsitellään: ctl120 ; Edellytetään: ctl190]
Paitsi merkkijonoja, voidaan myös merkkijonojen joukkoja (eli formaaleja kieliä) asetella peräkkäin. Kahden (formaalin) kielen P ja Q peräkkäinasettelu P Q on niiden merkkijonojen C = A B joukko, jossa A kuuluu P:hen ja B kuuluu Q:hun. Yleistettävissä luonnollisella tavalla yhdelle tai useammalle joukolle. [Käsitellään: ctl253]

EN:deterministic finite-state automaton (FSA), deterministic finite-state machine (FSM)
FI:deterministinen äärellinen automaatti
SV:ändlig automat
Äärellisen automaatin tehtävänä on hyväksyä tai hylätä merkkijonoja, jotka koostuvat annetun aakkkoston merkeistä. Äärellisesä automaatissa on joukko tiloja Q ja se toimii siirtymällä tunnistettavan merkkijonon kunkin kohdalla tilasta toiseen (tai samaan tilaan). Tiloja kuvataan usein ympyröillä. Siirtyminen tapahtuu ns. tilasiirtymien mukaisesti. Siirtymiä kuvataan usein nuolella, joka lähtee tämänhetkisestä tilasta ja päättyy uuteen tilaan. Ollakseen deterministinen, kustakin tilasta saa lähteä enintään yksi siirtymä millekään aakkoston merkille. Eräs tiloista on alkutila q0 ja automaatti on ennen ensimmäisen merkin tunnistamista siinä tilassa. Automaatti hylkää merkkijonon mm. jos jossakin kohdassa sille ei ole vuorossa olevaa merkkiä varten siirtymää. Osa automaatin kaikista tiloista merkitään ns. lopputiloiksi Qf, joka tarkoittaa sitä, että jos automaatti on saanut siirrytyksi merkkijonon kaikilla merkeillä ja päätyy yhteen näistä lopputiloista, automaatin katsotaan hyväksyneen merkkijonon. Jos automaatti päätyy lopuksi muuhun kuin lopputilaan, automaatin katsotaan hylänneen merkkijonon. (Jurafsky-Martin 2000: Section 2.2, ss. 33-49.) [Käsitellään: ctl132 ctl142 ctl253]

EN:dialect
FI:murre
Tyypillisesti jonkin alueen poikkeava kielimuoto. Poikkeavuus on tyypillisesti ääntämykseen perustuva ja jossain määrin sanaston ja taivutusmuotojen erilaisuuten perustuvaa. Saman kielen eri murteiden puhujat ymmärtävät usein toisiaan. (F. Karlsson 1998: Luku 9, ss. 250-.) [Käsitellään: ctl102 ; Edellytetään: ctl190]

EN:dialogue
FI:keskustelu, dialogi
Yleensä puheen (ja joskus kirjoitetun tekstin) avulla taphtuva vuorovaikutus. [Käsitellään: ctl190]

EN:digit
FI:numeromerkki
Kymmenjärjestelmässä on kymenen numeromerkkiä (0, 1, 2, ..., 9), joiden avulla muodostetaan lukuja. [Käsitellään: ]

EN:disambiguation
FI:yksiselitteistäminen
Poistaa moniselitteisyyttä. [Käsitellään: ctl190]

EN:discovery procedure
FI:keksimismenetelmä
Menetelmä, jonka avulla voidaan (jokseenkin) mekaanisesti päätellä kieliopillisia sääntöjä, joilla kuvataan määrätyn kielen syntaksia, morfologiaa, fonologiaa tms. Vrt. koneoppiminen. [Käsitellään: ctl132]

EN:document classification
FI:dokumenttien luokittelu
Dokumentien luokittelussa pyritään saapuvat viestit luokittelemaan ennalta määriteltyihin luokkiin esim. niiden toimittamiseksi oikealle käsittelijälle. [Käsitellään: ctl190]

EN:element
FI:alkio
Alkio on jokin, mikä tahansa, joka voi kuulua joukkoon eli alkioista muodostuu joukkoja. Alkiot voivat olla samoja, vaikka niiden kuvailut näyttävät erilaisilta, esim. "Jaakob" ja "Jaakobin poikien isä", tai "luku 2" ja "lukujen 22 ja 14 suurin yhteinen tekijä". [Käsitellään: ctl120 ; Edellytetään: ctl122 ctl190]

EN:empty set, void set
FI:tyhjä joukko
Se joukko, jossa ei ole yhtään alkiota. Merkitään usein tanskalaisen Ö:n kaltaisella merkillä tai {}. [Käsitellään: ctl120 ; Edellytetään: ctl190]

EN:null string, epsilon
FI:tyhjä merkkijono, epsilon
Tyhjä merkkijono on nollan pituinen merkkijono. Tyhjä merkkijono sisältyy osajonona mihin tahansa merkkijonoon ja merkkijojon mihin kohtaan tahansa. Merkitään usein kreikan kielen epsilon-kirjaimella, mutta tietojenkäsittelytieteessä usein myös lambda-kirjaimella ja joissakin ohjelmointikielissä kahdella peräkkäisellä lainausmerkillä. [Käsitellään: ctl253]

EN:epsilon-transition
FI:epsilon-siirtymä, tyhjä siirtymä
Siirtymä automaatin tilasta toiseen ilman, että syötteenä olevasta merkkijonosta kulutetaan yhtään merkkiä. [Käsitellään: ctl253]

EN:final state
FI:lopputila
Automaatti, mm. deterministinen äärellinen automaatti, hyväksyy syötteenä olevan merkkijonon, jos se päätyy viimeisen merkin jälkeen lopputilaksi merkittyyn tilaan. [Käsitellään: ctl132 ; Edellytetään: ctl142 ctl253]

EN:finite state machine, FSM
FI:äärellinen automaatti
Tiloihin ja tilasiirtymiin perustuva yksinkertainen abstrakti kone. Äärellisiä automaatteja voidaan pitää yksinkertaisimpina mekanismeina, joiden avulla voidaan määritellä ei-triviaaleja. Niiden tunnistamat merkkijonojen joukot ovat säännöllisiä kieliä. [Käsitellään: ctl190 ctl132]

EN:finite state transducer, FST
FI:äärellinen transduktori
Kaksinauhainen äärellinen automaatti, jonka siirtymät koostuvat yksittäisen merkin sijasta merkkipareista. Äärelliset transduktorit (FST) voidaan tulkita kolmella tavalla: (1) FST lukee ensimmäistä nauhaa ja tulostaa toista nauhaa, (2) FST lukee kahta nauhaa rinnan ja vertaa niitä, sekä (3) FST tunnistaa merkkipareja. Kaikissa tulkinnoissa merkkipareissa jompikumpi tai molemmat merkit voivat olla tyhjiä merkkejä, jolloin yhtään merkkiä ei lueta tai tulosteta. [Käsitellään: ctl132 ctl253]

EN:formal language
FI:formaali kieli
Formaaliksi kieleksi kutsutaan annetun aakkoston symboleista muodostettuja merkkijonojen joukkoja. Matematiikan ja tietojejkäsittelytieteen piirissä käytetään usein termiä "kieli" (language) merkityksessä "formaali kieli". [Käsitellään: ctl120 ; Edellytetään: ctl190]

EN:free morpheme
FI:vapaa morfeemi
Morfeemi, joka ei edellytä tietynlaisia toisia morfeemeja voidakseen esiintyä. Monissa kielissä juurimorfeemit ja taipumattomat sanat ovat vapaita morfeemeja. [Käsitellään: ctl132]

EN:grammatical word
FI:kieliopillinen sana
Sananmuodon morfologisen analyysin tuloksena saatava kokonaisuus, joka koostuu hakusanasta ja siihen liittyvistä sanaluokka ja taivutusmuotoa koskevista piirteistä. Esimerkiksi suomen sananmuotoa 'katolla' vastaa kieliopillinen sana "katto+N+SG+ADE". Piirteet esitetään ns. leimoina, joita esimerkissä on kolme. [Käsitellään: ctl132]

EN:hidden Markov model, HMM
FI:Markovin piilomalli
Markovin mallista johdettu tilastollispohjainen malli, jollaista käytetään mm. puheentunnistuksessa valitsemaan puhesignaaliin todennäköisimmin sopivia äänteitä. Piilomallille ominaista on se, että tiloista ei saada suoraa vaan välillistä ja probabilistista tietoa. [Käsitellään: ctl190]

EN:index term
FI:indeksitermi
Tyypillisesti kirjan takana oleva asiahakemisto koostuu indeksitermeistä. [Käsitellään: ctl190]

EN:indexing
FI:indeksointi
Indeksitermien tunnistaminen tekstistä (automaattisin menetelmin tai ihmisen toimesta). [Käsitellään: ctl190]

EN:infix
FI:infiksi
Sananvartalon keskelle liitettävä sidonnainen morfeemi. Infiksillä ilmaistaan tyypillisesti sananjohdoksia tai taivutusmuotoja. [Käsitellään: ctl132]

EN:inflection
FI:taipuminen, taivutus
Hakusanoista muodostetaan sananmuotoja mm. taivuttamalla niitä erilaisiin taivutusmuotoihin. Taivuttaminen voi tapahtua lisäämällä affikseja tai taivutus voi ääritapauksessa ilmetä vain äännemuutoksina. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190]

EN:information retrieval
FI:tiedonhaku
Tiedonhaulla tarkoitetaan yleensä automaattisia menetelmiä, joilla haluttuja dokumentteja voidaan löytää niissä olevien sanojen ja ilmausten perusteella suuresta dokumenttitietokannasta. Tiedonhakua voi vaikeuttaa useissa kielissä esiintyvä sanojen taipuminen ym. kielikohtaiset seikat. (Jurafsky-Martin 2000: Sect. 17.3, ss. 646-.) [Käsitellään: ctl190]

EN:interactive
FI:vuorovaikutteinen
Järjestelmä tai ilmiö, jossa vähintään kaksi komponenttia, esim. puhujaa vaikuttaa toiminnallaan toistensa käyttäytymiseen tai tilaan. [Käsitellään: ]

EN:intersection
FI:leikkaus
Kahden joukon A ja B leikkauksella tarkoitetaan joukkoa, johon kuuluvat täsmälleen ne alkiot, jotka kuuluvat sekä A:han että B:hen. [Käsitellään: ctl120 ; Edellytetään: ctl253]
Yleisemmin: joukkojen A1, A2, ..., Ak leikkauksella B tarkoitetaan joukkoa, joka muodostuu niistä alkioista, jotka kuuluvat jokaiseen näistä joukoista A1, ..., Ak. Jos leikkaus muodostetaan nollasta joukosta, on johdonmukaista sopia, että leikkaus on silloin yhtä kuin perusjoukko (sillä kukin joukoista on rajoite ja tällöin rajoituksia ei olisi). [Käsitellään: ctl253]

EN:isolating language
FI:isoloiva kieli
Kieli, jossa sanat eivät taivu. Taivutuspäätteiden ja -prefiksien ym. sidonnaisten morfeemien sijasta käytetään esim. prepositioita ja postpositioita. [Käsitellään: ctl132]

EN:iteration
FI:toisto
Erityisesti säännöllisten lausekkeiden parissa käytetty operaatio, mm. Kleenen tähti. [Käsitellään: ]

EN:Kleene star
FI:Kleenen tähti
Operaattori, jolla ilmaistaan merkkien tai merkkijonojoukkojen toistoa nolla kertaa, yhden kerran tai useampia kertoja. Esim. merkintä "(ab)*" tarkoittaa merkkijonoja {"", "ab", "abab", "ababab", ...}. [Käsitellään: ]

EN:language acquisition
FI:kielenoppiminen
Luonnollisen kielen oppiminen esim. lapsena luontaisesti tai aikuisena opiskelemalla. [Käsitellään: ctl190]

EN:language technology, human language technology
FI:kieliteknologia
SV:språkteknologi
Kieliteknologia on suppeassa merkityksessä luonnollisen kielen mallintamista tietokonetta varten, erityisesti kielen jäsentämistä eri tasoilla tai kielen generoimista ja näihin liittyviä menetelmiä. Kieli sisältää tässä sekä kirjoitetun että puhutun kielen. Laajassa merkityksessä kieliteknologia sisältää ytimen lisäksi sen tavanomaisimpia sovellusalueita. [Käsitellään: ctl190]

EN:lemma
FI:lemma
Lemma on yhteen kuuluvien sananmuotojen otsikkona käytetty sana. Lemma on usein sen hakusanan perusmuoto, jonka taivutusmuodosta on kyse. Yhteenkuuluvuus voi olla väljempääkin kuin se, että sananmuodot ovat saman lekseemin taivutusmuotoja. (F. Karlsson 1998: s. 188) [Käsitellään: ctl190]

EN:lexeme
FI:hakusana
Hakusanalla on (yleensä) perusmuoto, sanaluokka jne. Yhdellä hakusanalla on taivutuksen kautta erilaisia sananmuotoja, joilla puolestaan on esiintymiä, joita kutsutaan saneiksi. Yhdellä hakusanalla voi olla useampia toisiinsa liittyviä alamerkityksiä. (F. Karlsson 1998: Luku 6.1, s. 186-.) [Käsitellään: ctl190 ; Edellytetään: ctl132]

EN:mapping, function
FI:kuvaus, funkitio
Kuvaus joukosta A joukkoon B on joukko-opillisesti katsottuna mikä tahansa sellainen relaatio R so. muotoa (a,b) olevien parien joukko, missä a kuuluu A:han ja b B:hen, joka relaatio täyttää kaksi ehtoa: (1) relaatio on määritelty jokaiselle a:lle joka kuuluu A:han sekä (2) relaatio liittää jokaiseen A:n alkioon enintään yhden B:n alkion. [Käsitellään: ctl120 ; Edellytetään: ctl122]

EN:mark-up
FI:merkkaus
Tekstin varustaminen sen rakennetta kuvaavilla merkinnöillä. Tyypillisiä merkkauskieliä ovat HTML, joka on yleisen merkkausformalismin SGML:n mukainen verkkosivujen rakenteen osoittamisessa käytetty merkkauskieli. XML on SGML:stä johdettu uudempi merkkausformalismi. [Käsitellään: ctl190]

EN:Markov model
FI:Markovin malli
Deterministiseen äärelliseen automaattiin perustuva todennäköisyyksiin perustuva malli, jossa tapahtumien todennäköisyydet riippuvat vain edellisestä tapahtumasta (tai tilasta, jossa malli on). Tyypillisesti kutakin tapahtumaa tai symbolia vastaa tila, johon siirrytään oltiin missä tilassa tahansa. [Käsitellään: ctl190]

EN:morph
FI:morfi
Morfeemin konkreettinen ilmenemismuoto. Esim. sananmuodossa "kalastajalle" voidaan erottaa morfit "kala", "-sta", "-ja", "-lle". Morfeja, jotka ovat saman morfeemin ilmenemismuotoja, kutsutaan allomorfeiksi. (R. Sproat 1992: Glossary, p. 247.) [Käsitellään: ctl104 ; Edellytetään: ctl132]

EN:morpheme
FI:morfeemi
Morfologisen analyysin komponentti. Morfeemin sanotaan usien olevan kielen pienin merkitystä kantava yksikkö. Morfeemi on abstraktio, joka yhdistää sen eri allomorfit. Esim. inessiivin pääte katsotaan morfeemiksi ja sillä on kaksi allomorfia: "ssa" ja "ssä". (R. Sproat 1992: Glossary, p. 247.) [Käsitellään: ctl104 ; Edellytetään: ctl132]

EN:morphophoneme
FI:morfofoneemi
Morfofoneemisen esitysmuodon yksikkö, jonka avulla kuvataan morfeemin pintamuodoissa esiintyviä vaihteluita. Morfofoneemi voi siten toteutua erilaisissa ympäristöissä erilaisina pintamerkkeinä. Esimerkiksi suomen adjektiivien vartalon lopussa oleva 'a'-'e' vaihtelu ('paha' - 'pahempi') voidaan kuvata morfofoneemilla. Teknisesti myös arkkifoneemi voidaan tulkita morfofoneemiksi. [Käsitellään: ]

EN:morphophonemic representation
FI:morfofoneeminen esitysmuoto
Erityisesti kaksitasomorfologiassa esitysmuoto, joka koostuu foneemeista ja morfofoneemeista. Sääntökomponentti suhteuttaa morfofoneemisen esitysmuodon pintamuotoon. Leksikko puolestaan suhteuttaa morfofoneemisen esitysmuodon kieliopilliseen sanaan. [Käsitellään: ]

EN:morphotactics
FI:morfotaksi
Sananmuodostuksessa noudatettava morfeemien keskenäistä järjestystä ohjaava säännöstö tai kielioppi. [Käsitellään: ctl132]

EN:multilingual
FI:monikielinen
Useampaa kuin yhtä kieltä koskeva tai käsittelevä. [Käsitellään: ctl190]

EN:natural number
FI:luonnollinen luku
Ei-negatiivinen kokonaisluku, jokin luvuista 0, 1, 2, 3, ... [Käsitellään: ctl120 ; Edellytetään: ctl122]

EN:nondeterministic automaton
FI:epädeterministinen automaatti
Automaatti, (tyypillisesti äärellinen automaatti), on epädeterministinen, ellei ole yksiselitteisesti selvää, missä tilassa automaatin täytyy olla aluksi ja kunkin merkin jälkeen. Epädeterministisyys voi johtua siitä, että (a) automaatilla on useampia kuin yksi alkutila (b) automaatilla on ainakin joissakin tiloissa samalle syöttömerkille useampi kuin yksi siirtymä tai (c) automaatissa on epsilon-siirtymiä. Äärellinen automaatti, joka ei millään näistä tavoista ole epädeterministinen, on deterministinen äärellinen automaatti. [Käsitellään: ctl253]

EN:noun
FI:substantiivi
Sanaluokka, jonka jäsenet edustavat esineitä, asioita tms. Esim. suomen kielessä 'talo' on substantiivi. [Käsitellään: ]

EN:number
FI:luku
Hakusanojen taivutuksessa esiintyvä kategoria. Useissa kielissä luvulla on kaksi mahdollista arvoa: yksikkö ja monikko. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190]

EN:parser
FI:jäsennin
Tietokoneohjelma, joka jäsentää, ks. jäsentäminen. [Käsitellään: ]

EN:parsing
FI:jäsentäminen
Virkkeiden tai sananmuotojen tunnistaminen niiden rakenteen perusteella. Jäsentämisen tuloksena saadaan jäsennettävän yksikön rakennetta kuvaavaa tietoa. [Käsitellään: ctl190]
Kielioppiin ja sanakirjaan perustuva tapa tunnistaa kielellisen ilmauksen rakennetta. [Käsitellään: ctl142 ; Edellytetään: ctl253]

EN:polysynthetic language, incorporating language
FI:polysynteettinen kieli, inkorporoiva kieli
Kieli, jossa yksi sananmuoto voi sisältää usampia vapaita morfeemeja siten, että sananmuoto vastaa muissa kielissä kokonaista lausetta. Esim. eskimokielissä voidaan verbi, subjekti ja objekti tällä tavoin yhdistää yhdeksi sananmuodoksi. [Käsitellään: ctl132]

EN:possessive suffix
FI:omistusliite, possessiivisuffiksi
Omistajaa ilmaiseva liite. Suomen kielessä esim. 'kirjassani' on lopussa omistusliiet 'ni' osoittamassa, että kyse on minulla olevasta kirjasta. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190]

EN:precision
FI:tarkkuus
Tiedonhaussa tms. relevanttien dokumenttien prosentuaalinen osuus kaikista haun tuottamista dokumenteista. Lääketieteessä tämä vastaa testin spesifisyyttä (engl. specificity) eli sitä, kuinka suuri osuus testin positiivisista tapauksista osoittautuu seulottavaa tautia sairastaviksi.. [Käsitellään: ctl190]

EN:prefix
FI:prefiksi, etuliite
Prefiksi on sananvartalon eteen liitettävä sidonnainen morfeemi. Esim. englannin kielessä etuliitteet 'in' ja 'un' voivat esiintyä mm. adjektiivivartalon edessä. Esim. swahilissa pääosa verbin taivutuksesta ilmaistaan prefiksien avulla. [Käsitellään: ctl132]

EN:recall
FI:saanti
Tiedonhaussa tms. haun tuottamien relevanttien dokumenttien osuus tietokannassa olevista kaikista relevanteista dokumenteista. Lääketieteessä tämä vastaa testin sensitiivisyyttä (engl. sensitivity) eli sitä, kuinka suuri osa seulottavaa tautia sairastavista saadaan kyseisellä testillä esille. [Käsitellään: ctl190]

EN:recognition
FI:tunnistaminen
Virkkeen, sanan tms. tunnistaminen tarkoittaa sen hyväksymistä tai hylkäämistä annettujen sääntöjen ja sanakirjojen perusteella. Eroaa jäsentämisestä sikäli, että tunnistettaessa ei välttämättä muodosteta tai tulosteta rakennetta kuvaavaa tietoa. [Käsitellään: ctl190]
[Käsitellään: ctl142]

EN:recognize
FI:tunnistaa
Tunnistamisen suorittamista. [Käsitellään: ]

EN:regular expression
FI:säännöllinen lauseke
Yksittäisistä aakkoston merkeistä, peräkkäinasetteluista, vaihtoehdoista ja toistoista koostuva lauseke, joka kuvaa säännöllistä (merkkijonojen) joukkoa. Esim. säännöllinen lauseke "(aa)*" kuvaa niitä merkkijonoja, jotka koostuvat parillisesta määrästä a-kirjaimia. [Käsitellään: ctl132]

EN:regular set
FI:säännöllinen joukko
Tietyn aakkoston S merkeistä koostuvien merkkijonojen joukko. Säännöllinen joukko voidaan määritellä siten, että (1) tyhjä joukkko on säännöllinen joukko, (2) tyhjä merkkijono on säännöllinen joukko, (3) aakkoston S mistä tahansa merkistä muodostettu yhden merkin mittainen merkkijonon muodostama joukko on säännöllinen joukko, (4) jos P ja Q ovat säännöllisiä joukkoja, niin (a) P:n ja Q:n unioni, (b) konkatenaatio PQ ja (c) toisto P* ovat säännöllisiä joukkoja, (5) eikä mikään muu ole aakkoston S merkeistä muodostettu säännöllinen joukko. Esim. joukko {"", "aa", "aaaa", ...} joka koostuu merkkijonoista, joissa on parillinen määrä "a"-kirjaimia on säännöllinen joukko. Sen voi katsoa muodostuneen askelilla (3) jolla saadaan joukko {"a"}, askelella (4b) jolla saadaan joukko {"aa"} ja lopuksi askelella (4c) jolla saadaan haluttu joukko. [Käsitellään: ctl132]

EN:relation
FI:relaatio
Joukkojen A ja B välillä olevat relaatiot tarkoittavat teknisesti niiden karteesisen tulon A x B osajoukkoja. Intuitiivisesti relaatio on joukon A ja joukon B välisten alkioiden suhde, esimerkiksi "suuremp kuin" on lukujen kesken relaatio (joka voidaan konkretisoida em. määritelmän puitteissa niiden lukuparien joukoksi, joissa parin edellinen luku on suurempi kuin jälkimmäinen). [Käsitellään: ctl120 ; Edellytetään: ctl122 ctl132]

EN:root morpheme, root
FI:juurimorfeemi, juuri
Mofeemi (jota ei enää voida jakaa pienemmiksi osiksi ja) josta affikseja liittämällä voidaan tuottaa sananmuotoja tai (uusia) hakusanoja. (R. Sproat 1992: Glossary, p. 249.) [Käsitellään: ctl132]

EN:rouded vowel
FI:pyöreä vokaali
Vokaali, jota äännettäessä huulet ovat supussa pyöreänä. [Käsitellään: ctl103 ; Edellytetään: ctl190]

EN:sense
FI:alamerkitys
Yhdellä hakusanalla voi olla useita alamerkityksiä, kuten verbillä 'laskea' on alamerkityksiä 'alentaa', 'aleta', 'suorittaa laskutoimituksia' jne. [Käsitellään: ctl190]

EN:sentence
FI:virke
SV:mening
Lähinnä kirjoitetussa tekstissä kokonaisuus, joka voi koostua yhdestä tai useammasta lauseesta. Virke päättyy tyypillisesti pisteeseen, huutomerkkiin tai kysymysmerkkiin. [Käsitellään: ctl102 ctl105 ; Edellytetään: ctl190]

EN:set
FI:joukko
SV:mängd
Joukko koostuu alkioista, joita voi olla nolla, yksi tai useampia. Jos tiedämme, mitkä alkiot joukkoon kuuluvat, tiedämme täsmälleen, mikä joukko on. (Jos alkiot ovat samat, joukot ovat samat.) Joukon alkiot eivät ole keskenään missään järjestyksessä. Muodostettaessa joukkoja pitää olla selvillä se, mistä perusjoukosta joukkojen alkioita voidaan ottaa.Tyhjässä joukossa ei ole yhtään alkiota. [Käsitellään: ctl120 ; Edellytetään: ctl122 ctl190]

EN:speech
FI:puhe
SV:tal
Puhuttua kieltä, joka on ensisijaisesti ääntä. [Käsitellään: ctl103 ; Edellytetään: ctl190]

EN:speech interface
FI:puhekäyttöliittymä
Ihmisen ja tietokoneen välinen käyttöliittymä, jossa käytetään puhetta. [Käsitellään: ctl190]

EN:speech recognition
FI:puheentunnistus
SV:taligenkänning
Automaattisen puheentunnistuksen avulla päätellään puhesignaalista, mitä on sanottu. Puheentunnistus voi olla joko hyvinkin rajallisen komentosanaston tunnistamista tai jopa rajoittamattoman sanaston sallivaa ns. sanelusovellusta. [Käsitellään: ctl190]

EN:speech synthesis, text-to-speech
FI:puhesynteesi
SV:talsyntes
Puhesynteesin tehtävänä on muuntaa kirjoitettu teksti tai järjestelmän tuottama vastaus puheääneksi. Korkealaatuisen puhesynteesin tavoitteena on tuottaa helposti ymmärrettävää puhetta, joka kuulostaa luontevalta. [Käsitellään: ctl190]

EN:spelling checking
FI:oikeinkirjoituksen tarkistus
SV:stavningskontroll
Tahattomista kirjoitusvirheistä tai vajavaisesta oikeinkirjotustaidosta johtuvien väärin kirjoitettujen saneiden tunnistaminen. [Käsitellään: ]

EN:spelling correction
FI:oikeinkirjoituksen korjaus
Ehdotusten tuottaminen väärin kirjoitetun saneen korjaamiseksi oikeinkirjoituksen mukaiseksi. [Käsitellään: ]

EN:start state
FI:alkutila
Automaatin, esim. deterministisen äärellisen automaatin tila, jossa automaatti on käynnistyessään. Deterministisillä automaateilla täytyy olla tasan yksi alkutila. [Käsitellään: ctl132 ctl142 ; Edellytetään: ctl253]

EN:state
FI:tila
SV:tillstånd
Automaatti (esim. deterministinen äärellinen automaatti) on alussa ja jokaisen merkin käsittelemisen jälkeen jossakin tilassa. Automaatti siirtyy tilasta toiseen siirtymien mukaisesti. [Käsitellään: ctl190 ; Edellytetään: ctl132 ctl142 ctl253]

EN:stem, truncated word
FI:tyvi
Morfologista analyysia karkeammalla tavalla aikaansaatu taivutuspäätteistä vapaa sananmuodon alkuosa. [Käsitellään: ctl132]

EN:string
FI:merkkijono
Annetun aakkoston merkeistä koostuva jono. Merkkijonossa voi olla nolla, yksi tai useampia merkkejä, kuitenkin äärellinen määrä. Esimerkiksi sananmuodot ovat merkkijonoja. [Käsitellään: ctl120 ; Edellytetään: ctl132 ctl190]

EN:stem (of a word)
FI:vartalo, (sanan vartalo)
Vartalosta saadaan affiksoimalla joko uusia vartaloita tai sananmuotoja (jossakin taivutusmuodossaan). Vartalo voi koostua yhdestä tai useammasta morfeemista. (R. Sproat 1992: Glossary, p. 249.) [Käsitellään: ctl132]

EN:suffix
FI:suffiksi, pääte
Vartalon perään liitettävä affiksi. Esim. sananmuodossa "talosssanne" on vartalo ja juuri "talo", jonka perään on liitetty kaksi suffiksia "ssa" ja "nne". [Käsitellään: ctl132]

EN:summary
FI:tiivistelmä

EN:surface character
FI:pintamerkki
Sananmuodon pintamuoto koostuu pintamerkeistä, jotka ovat joko ortografian mukaisia aakkosia tai esim. foneemeja, jos morfologiaa kuvataan fonologisia tarkoitusperiä varten. Kirjoitusmerkeissä katsotaan yleensä aksentein tai muunlaisin merkein varustetut aakkoset omiksi pintamerkeikseen (tai sitten tällaiset diakriittiset lisät tulkitaan omiksi merkeikseen). [Käsitellään: ctl132]

EN:surface form
FI:pintamuoto
Sananmuoto sellaisena kuin se kirjoitetaan tai esim. äännetään. Pintamuoto on pintamerkkien muodostama merkkijono. Äännetty pintamuoto esitetään usein foneemien tarkkuudella. [Käsitellään: ctl132]

EN:tag
FI:leima
Kieliopillista kategoriaa tai piirrettä kuvaava merkintä. Tyypillisiä leimoja ovat esim. sanaluokan tai sijamuodon merkinnät. [Käsitellään: ctl253]

EN:term
FI:termi
Käsitteistä käytettävä (yleensä) vakiintunut (yksi- tai useampisanainen) ilmaus on termi. [Käsitellään: ctl190]

EN:tokenise
FI:saneistaa
Juokseva teksti saneistetaan jakamalla se sanakirjahakua tai morfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu tai erotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneiden kaltaisina yksiköinään jatkokäsittelylle. [Käsitellään: ctl132]

EN:transition
FI:siirtymä, tilasiirtymä
Deterministinen äärellinen automaatti siirtyy kullakin syöttömerkillä tilasta uuteen tilaan siirtymän avulla. Siirtymään liittyy siten lähtötila, merkki ja uusi tila. Usein siirtymät määritellään yleisemmiksi siten, että siirtymä liitetään yhden merkin sijasta merkkijonoon, jossa voi olla nolla, yksi tai useampia merkkejä. [Käsitellään: ctl132 ; Edellytetään: ctl142 ctl253]

EN:translation
FI:kääntäminen (kielen k.)
SV:översättning
Kielellisten ilmausten siirtäminen toiselle kielelle siten, että käännetty ilmaus ymmärretään samalla tavalla tai tuottaa saman vaikutuksen kuin alkuperäinen ilmaus. [Käsitellään: ctl190]

EN:translator
FI:kääntäjä
SV:översättare
Henkilö joka kääntää kieltä. [Käsitellään: ]

EN:two-lelvel morphology
FI:kaksitasomorfologia
Morfolologisen analyysin teoria ja menetelmä, jossa sananmuodon pintamuoto suhtetuetaan rinnakkaisilla kaksitasosäännöillämorfofoneemiseen esitysmuotoon ja leksikon avulla morfofoneeminen esitysmuoto kieliopilliseen sanaan. [Käsitellään: ctl132]

EN:two-level rule
FI:kaksitasosääntö
Sääntö, joka määrittelee tietyn morfofonologisen äännevaihtelun morfofoneemisen esitysmuodon ja pintamuodon välisenä suhteena. Ehtona morfofoneemin tietynlaiselle toteutumiselle pintamuodossa voidaan käyttää tarvittaessa sekä morfofoneemisen esitysmuodon että pintamuodon ympäristöä. Kaksitasosääntöjä sovelletaan rinnakkain siten, että sääntöjen järjestyksellä ei ole vaikutusta lopputulokseen. Kaksitasosäännöt voidaan toteuttaa mm. äärellisillä transduktoreilla. [Käsitellään: ctl132]

EN:unambiguous
FI:yksiselitteinen

EN:union
FI:yhdiste, unioni
Kahden joukon A ja B yhdisteellä tarkoitetaan joukkoa, joka muodostuu kaikista niistä alkioista, jotka kuuluvat ainakin jompaankumpaan joukoista A ja B (ja alkio saa kuulua molempiinkin). [Käsitellään: ctl120]
Yleisemmin: nollan, yhden tai useamman joukon A1, A2, ..., Ak yhdiste on joukko, johon kuuluvat kaikki sellaiset alkiot, jotka kuuluvat edes yhteen joukoista A1, ..., Ak. Huomaa, että jos yhdiste muodostetaan nollasta joukosta, niin yhdiste on tyhjä joukko. [Käsitellään: ctl253]

EN:user interface
FI:käyttöliittymä
Sovittu rajapinta ihmisen ja tietokoneen tms. laitteen välillä, jonka avulla ihminen voi käyttää laitetta tai järjestelmää. [Käsitellään: ctl190]

EN:verb
FI:verbi, teonsana
Sanaluokka, johon kuuluvat hakusanat kuvaavat tekemistä tai toimintaa. Esim. suomessa hakusana 'juosta' on verbi. [Käsitellään: ctl102 ctl104 ; Edellytetään: ctl190]

EN:vowel
FI:vokaali
Luokka kuuluvia ja äänteitä, joissa äänihuulet ovat mukana. Suomen äänteistä mm. 'a', 'e', 'i', 'o', 'u', 'y', 'ä' ja 'ö' ovat vokaaleja. [Käsitellään: ctl103 ctl104 ; Edellytetään: ctl190]

EN:word-form
FI:sanamuoto
Sananmuoto koostuu kirjaimista ja muista sanan sisälle mahdollisesti kuuluvista merkeistä kuten yhdysviivasta tai heittomerkistä. Sananmuodolla voi olla esiintymiä eli saneita. Sananmuodolla on ainakin yksi luenta eli tulkinta, joka koostuu perusmuodosta, sanaluokasta ja taivutusmuotoa kuvaavista koodeista eli leimoista. Sananmuotojen esiintymisten tilastollisessa käsittelyssä käytetään joskus termiä "type" kuvaamaan sananmuotoa ja termiä "token" vastaavasti sanetta. (F. Karlsson 1998: Luku 4.1, ss. 83-) [Käsitellään: ctl190 ; Edellytetään: ctl132]

EN:word token
FI:sane, sananmuodon esiintymä
Sane on sananmuodon esiinymä. Saneeseen ei suoranaisesti kuulu muuta kuin se merkkijono, josta tekstissä oleva sananmuoto koostuu. Juoksevan tekstin pituutta kuvaa sen saneiden määrä. [Käsitellään: ctl190 ; Edellytetään: ctl132]