Terms and concepts of language technology

Copyright: Kimmo Koskenniemi and other contributors 2002-2011

This term list may be freely used for research and educational purposes using links and according to good scientific practices and provided that proper reference is made and only short quotations are copied away from the server.


aakkosto
en: alphabet sv: alfabet de: Alphabet fr: alphabet
Äärellinen joukko aakkosmerkkejä, esim. kirjaimia. Aakkoston merkeistä muodostetaan merkkijonoja.

adjektiivi
en: adjective sv: adjektiv de: Adjektiv fr: adjectif
Ominaisuutta edustava sanaluokka. Adjektiivit taipuvat monissa kielissä vertailuasteissa.

affiksi
en: affix sv: affix de: Affix fr: affixe
Sidottu morfeemi (muu kuin juurimorfeemi), joka liitetään vartaloon (tavalla tai toisella). Erilaisia affikseja ovat prefiksit, suffiksit, infiksit ja sirkumfiksit. (R. Sproat 1992: Glossary, p. 243.)

agglutinoiva kieli
en: agglutinating language sv: agglutinerande språk de: agglutinierende Sprache fr: langue agglutinante
Kieli, jossa sananmuotojen morfeemit ovat selvästi tunnistettavissa ja niitä voidaan tyypillisesti liittää useampia samaan sanan juurimorfeemiin. Turkin ja suomen kielet ovat tyypillisiä agglutinoivia kieliä. Esim. sananmuoto 'epä-järje-st-elmä-llis-ty-ttä-mä-ttö-myyde-llä-nsä' sisältää monta morfeemia, joista yksi on vapaa ('järje' eli 'järki') ja muut ovat sidonnaisia. Kaikki jaon mukaiset morfeemit ovat tässä jokseenkin samantapaisia kuin esiintyessään muissa sananmuodoissa.

aktiivinen kaari
en: active edge
Aktiivisessa taulukkojäsennyksessä oleva kahden solmun välinen merkintä, joka kuvaa keskeneräistä rakennetta, joka voisi alkaa vasemmanpuolimmaisesta solmusta ja, joka toteutuu, jos oikeanpuoleisen solmun oikealta puolelta löytyy kaaren edellyttämät osaset.

aktiivinen taulukkojäsennys
en: active chart parsing
Taulukkojäsennysmenetelmä, jossa on sekä inaktiivisia että aktiivisia kaaria sekä jäljellä olevien tehtävien luettelo (eli agenda).

alamerkitys
en: sense sv: betydelse
Yhdellä hakusanalla voi olla useita alamerkityksiä, kuten verbillä 'laskea' on alamerkityksiä 'alentaa', 'aleta', 'suorittaa laskutoimituksia' jne.

alkio
en: element sv: element de: Element fr: élément
Alkio on jokin, mikä tahansa, joka voi kuulua joukkoon eli alkioista muodostuu joukkoja. Alkiot voivat olla samoja, vaikka niiden kuvailut näyttävät erilaisilta, esim. "Jaakob" ja "Jaakobin poikien isä", tai "luku 2" ja "lukujen 22 ja 14 suurin yhteinen tekijä".

alkutila
en: start state sv: starttillstånd
Automaatin, esim. deterministisen äärellisen automaatin tila, jossa automaatti on käynnistyessään. Deterministisillä automaateilla täytyy olla tasan yksi alkutila.

allomorfi
en: allomorph sv: allomorf de: Allomorph fr: allomorphe
Saman morfeemin keskenään erilaisia ilmenemismuotoja kutsutaan allomorfeiksi. Esim. hakusanan "käsi" juurta vastaavalla morfeemilla, voi olla useita allomorfeja kuten "käsi", "käde", "käte" ja "kät". Termiä allomorfi käytetään silloin, kun puhutan morfien suhteesta toisiinsa. Termiä morfi käytetään yksittäisestä morfeemin ilmentymästä. (F. Karlsson 1998: Luku 4.2.5. ss. 94 ff.) (R. Sproat 1992: Glossary, p. 243.)

annotointi, varustaminen (kieliopillisilla) koodeilla
en: annotation sv: annotering
Sanan, virkkeen tms. varustaminen kieliopillista rakennetta tai kategoriaa osoittavilla leimoilla (engl. tag) tai muilla merkinnöillä. Annotointia voidaan suorittaa joko käsin tai automaattisesti, esim. jäsentämällä. Termiä käytetään erityisesti tekstikorpusten ja puhekorpusten yhteydessä.

arkitietämys
en: world knowledge
Kielen ymmärtämisessä tai tulkitsemisessa tarpeellinen ympäröivää maailmaa ja sen ominaisuuksia koskeva tieto. Esim. "punainen tupa ja perunamaa" ilmauksen rakenteen tulkinnassa auttaa tieto, että perunamaat eivät yleensä ole punaisia.

asiantuntijajärjestelmä
en: expert system
Päättelysääntöihin perustuva tietokoneohjelma, joka jäljittlelee ihmisasiantuntija tietämystä tietystä erikoisalasta.

attribuutti - arvo pari
en: attribute value pair
Attribuutin ja sen arvon muodostama pari.

attribuutti, ominaisuus
en: attribute
Erityisesti unifikaatiopohjaisissa piirrekieliopeissa käytetty ominaisuuden käsite. Attribuuttien arvot voivat olla niissä rakenteeltaan hierarkkisia ja joidenkin attribuuttien arvot voidaan samaistaa.

avusteinen
en: assisted sv: stödd fr: assisté par
Yhdyssanan jälkiosana, esim. tietokoneavusteinen, teknologia-avusteinen jne.

Chomskyn hierarkia
en: Chomsky hierarchy
Toisinkirjoituskielioppeja koskeva hierarkia, joka luokittelee kieliopit rajoittamattomiin (nollannen lajin), kontekstista riippuviin (ensimmäisen lajin), kontekstista riippumattomiin (toisen lajin) ja säännöllisiin (kolmannen lajin) kielioppeihin. Vastaava hierarkia koskee formaaleja kieliä sen mukaan, minkälajinen kielioppi niiden määrittelemiseksi tarvitaan.

DCG-kielioppi
en: definite clause grammar (DCG)
Kontekstiton kielioppi, jonka sääntöjä on täydennetty logiikkaohjelmoinnin (definite clause) lisäehdoin.

dependenssikielioppi
en: dependency grammar
Kielioppimalleja, joissa rakenne ilmaistaan konstituenttien sijasta regentti - dependentti -suhteina (eli pääsana - määritesuhteina).

determinismi
en: determinism
Jäsennysmenetelmien ominaisuus välttää peruutusta ja välitulosten turhaan tai uudellen laskemista ja löytää ensimmäisellä yrityksellä lopullinen rakennekuvaus.

determinisointi (automaatin determinisointi)
en: determinization (of an automaton)
Automaatin (usein äärellisen automaatin) muuntaminen sellaiseksi, että siitä tulee deterministinen.

deterministinen äärellinen automaatti
en: deterministic finite-state automaton (FSA), deterministic finite-state machine (FSM) sv: ändlig automat
Äärellisen automaatin tehtävänä on hyväksyä tai hylätä merkkijonoja, jotka koostuvat annetun aakkkoston merkeistä. Äärellisesä automaatissa on joukko tiloja Q ja se toimii siirtymällä tunnistettavan merkkijonon kunkin kohdalla tilasta toiseen (tai samaan tilaan). Tiloja kuvataan usein ympyröillä. Siirtyminen tapahtuu ns. tilasiirtymien mukaisesti. Siirtymiä kuvataan usein nuolella, joka lähtee tämänhetkisestä tilasta ja päättyy uuteen tilaan. Ollakseen deterministinen, kustakin tilasta saa lähteä enintään yksi siirtymä millekään aakkoston merkille. Eräs tiloista on alkutila q0 ja automaatti on ennen ensimmäisen merkin tunnistamista siinä tilassa. Automaatti hylkää merkkijonon mm. jos jossakin kohdassa sille ei ole vuorossa olevaa merkkiä varten siirtymää. Osa automaatin kaikista tiloista merkitään ns. lopputiloiksi Qf, joka tarkoittaa sitä, että jos automaatti on saanut siirrytyksi merkkijonon kaikilla merkeillä ja päätyy yhteen näistä lopputiloista, automaatin katsotaan hyväksyneen merkkijonon. Jos automaatti päätyy lopuksi muuhun kuin lopputilaan, automaatin katsotaan hylänneen merkkijonon. (Jurafsky-Martin 2000: Section 2.2, ss. 33-49.)

dokumenttien luokittelu
en: document classification sv: dokumentklassificering
Dokumentien luokittelussa pyritään saapuvat viestit luokittelemaan ennalta määriteltyihin luokkiin esim. niiden toimittamiseksi oikealle käsittelijälle.

dynaaminen optimointi
en: dynamic programming
Eräs optimointiperiaate, joka pitää kirjaa tähänastisesta kustannuksesta kuhunkin välitavoitteeseen ja etsii siitä päätavoitetta kohti todennäköisiä optimaalisia reittejä. Esimerkiksi Viterbin algoritmi on eräs dynaamisen optimoinnin laji.

epsilon-siirtymä, tyhjä siirtymä
en: epsilon-transition
Siirtymä automaatin tilasta toiseen ilman, että syötteenä olevasta merkkijonosta kulutetaan yhtään merkkiä.

epädeterministinen automaatti
en: nondeterministic automaton sv: icke-deterministisk automat
Automaatti, (tyypillisesti äärellinen automaatti), on epädeterministinen, ellei ole yksiselitteisesti selvää, missä tilassa automaatin täytyy olla aluksi ja kunkin merkin jälkeen. Epädeterministisyys voi johtua siitä, että (a) automaatilla on useampia kuin yksi alkutila (b) automaatilla on ainakin joissakin tiloissa samalle syöttömerkille useampi kuin yksi siirtymä tai (c) automaatissa on epsilon-siirtymiä. Äärellinen automaatti, joka ei millään näistä tavoista ole epädeterministinen, on deterministinen äärellinen automaatti.

esitysmuoto
en: representation
Kielellisen yksikön vastine tietyn kieliopillisen mallin tai teorian puitteissa. Esimerkiksi sananmuodolla voi olla foneeminen esitysmuoto, joka koostuu jonosta foneemeja sekä morfofoneeminen esitysmuoto, joka koostuu jonosta abstraktimpia yksiköitä, eli jonosta morfofoneemeja.

etäisyys
en: distance
Todellinen tai abstrakti välimatka kahden pisteen tai muun yksikön, esim. sanojen välillä. Etäisyydeksi kelpuutetaan yleensä sellaisia mittoja, joissa yksikön etäisyys itseensä on 0 ja muihin jotakin positiivista. Mieluusti myös ns. kolmioepäyhtälö saisi toteutua, ts. etäisyys (A,C) olisi aina enintään yhtäsuuri kuin etäisyyksien (A,B) ja (B,C) summa.

foneemi
en: phoneme
Abstraktio, joka edustaa ääntökerrasta, puhujasta tai äänteen asemasta riippumatta samaksi koettuja äänteitä. Esim. suomen kielessä 'a' ja 'ä' koetaan eri foneemeiksi, koska sananmuoto voi muuttaa merkityksensä, jos niitä vaihdetaan toisikseen, kuten 'ala' ja'älä'.

formaali kieli
en: formal language sv: formellt språk fr: langage formel
Formaaliksi kieleksi kutsutaan annetun aakkoston symboleista muodostettuja merkkijonojen joukkoja. Matematiikan ja tietojejkäsittelytieteen piirissä käytetään usein termiä "kieli" (language) merkityksessä "formaali kieli".

funktionaalisuus
en: functionality
Äärellisen transduktorin sanotaan olevan funktionaalinen, jos sen määrittelemä relaatio on yksiselitteinen, eli mitään lähtömerkkijonoa ei vastaa kaksi eri tulosmerkkijonoa.

generalisaatio
en: generalization
Unifikaatiota vastaava toinen piirrerakenteita koskeva operaatio, jonka tuloksena on rakenne, jossa on kummallekin operandille yhteiset piirrerakenteen osat. Generalisaatio onnistuu kuitenkin aina.

generointi, tuottaminen
en: generation
Jäsentämiselle käänteinen operaatio, jossa allolevasta rakenteesta tms. tuotetaan virke tai sananmuoto.

GPSG, yleistetty lausekerakennekielioppi
en: GPSG, generalized phrase structure grammar
Kontekstista riippumattoman toisinkirjoituskieliopin yleistys, jossa vähemmällä määrällä sääntöjä voidaan kuvata yhtäpitävä tavanomainen kontekstista riippumaton kielioppi mm. ns. metasääntöjen avulla.

hakusana, lekseemi
en: lexeme sv: lexem de: Lexeme fr: lexème
Hakusanalla on (yleensä) perusmuoto, sanaluokka jne. Yhdellä hakusanalla on taivutuksen kautta erilaisia sananmuotoja, joilla puolestaan on esiintymiä, joita kutsutaan saneiksi. Yhdellä hakusanalla voi olla useampia toisiinsa liittyviä alamerkityksiä. (F. Karlsson 1998: Luku 6.1, s. 186-.)

hakuvartalo
en: search stem
Tiedonhaussa käytetty sananmuotoja kattava prefiksi. Tietyn hakusanan hakuvartalot yhdessä muodostavat prefiksijoukon, jonka avulla voidaan löytää kyseisen hakusanan kaikki taivutetut sananmuodot. (Hakuvartaloiden avulla voi löytyä muitakin samalla tavalla alkavia sananmuotoja.)

hila
en: lattice
Puolijärjestetty joukko, jossa jokaisella kahdella alkiolla on yksiselitteinen pienin yläraja. Usein järjestys ajatellaan solmuiksi ajateltujen alkioiden välillä olevien suunnattujen kaarten avulla, jolloin hila on tietyt ehdot täyttävä suunnattu graafi.

hukkasana
en: stop word
Tiedonhaussa hyödyttömäksi katsottu yleinen sana, joka jätetään indeksoinnin ja käsittelyn ulkopuolelle tilan säästämiseksi tai muusta syystä. Englanninkielisiä hukkasanoja voisivat olla esim. "a", "the", "is", "to" jne.

hyperonyymi, yläkäsite
en: hyperonyme
Laajempi käsite, joka sisältää annetun käsitteen osanaan eli alakäsitteenään.

hyperteksti
en: hypertext
Teksti, joka sisältää vapaasti linkkejä eli viittauksia tekstin muihin kohtiin tai toisiin teksteihin. Verkkosivut ovat tyypillisesti hypertekstejä.

hyponyymi, alakäsite
en: hyponyme
Suppeampi käsite, joka sisältyy annettuun laajempaan käsitteeseen.

idiolekti
en: idiolect
Yksittäisen henkilön käyttämä tapa käyttää (äidin)kieltään.

ilmaus
en: expression (in natural language)
Luonnollisen kielen sanoista koostuva yhdistelmä, jolla on jokin mielekäs tarkoite tai käyttö. Esim. "ajan ilmaukset". Vrt. formaalien järjestelmien lauseke ja lauseopillinen luonnollisen kielen lauseke

indeksitermi
en: index term sv: indexterm
Tyypillisesti kirjan takana oleva asiahakemisto koostuu indeksitermeistä.

indeksointi
en: indexing sv: indexering
Indeksitermien tunnistaminen tekstistä (automaattisin menetelmin tai ihmisen toimesta).

inferenssi, päättely
en: inference
Uusien faktojen päättely jo todennetuista tai uusien olettamusten johteminen aiemmista olettamuksista. Inferenssi perustuu päättelysääntöihin.

infiksi
en: infix sv: infix fr: infixe
Sananvartalon keskelle liitettävä sidonnainen morfeemi. Infiksillä ilmaistaan tyypillisesti sananjohdoksia tai taivutusmuotoja.

intonaatio, sävelkulku
en: intonation
Saneiden ja virkkeiden ääntämiseen liittyvä sävelkulku, joka joko myötäilee äännettävän ilmauksen rakennetta tai toisinaan sisältää osan ilmauksen merkityksen oikean ymmärtämisen kannalta tärkeätä tietoa.

isoloiva kieli
en: isolating language sv: analytiskt språk, isolerande språk de: isolierende Sprache fr: langue analytique
Kieli, jossa sanat eivät taivu. Taivutuspäätteiden ja -prefiksien ym. sidonnaisten morfeemien sijasta käytetään esim. prepositioita ja postpositioita.

joukko
en: set sv: mängd fr: ensemble
Joukko koostuu alkioista, joita voi olla nolla, yksi tai useampia. Jos tiedämme, mitkä alkiot joukkoon kuuluvat, tiedämme täsmälleen, mikä joukko on. (Jos alkiot ovat samat, joukot ovat samat.) Joukon alkiot eivät ole keskenään missään järjestyksessä. Muodostettaessa joukkoja pitää olla selvillä se, mistä perusjoukosta joukkojen alkioita voidaan ottaa.Tyhjässä joukossa ei ole yhtään alkiota.

juurimorfeemi, juuri
en: root morpheme, root sv: rotmorfem, rot
Morfeemi (jota ei enää voida jakaa pienemmiksi osiksi ja) josta affikseja liittämällä voidaan tuottaa sananmuotoja tai (uusia) hakusanoja. (R. Sproat 1992: Glossary, p. 249.)

jäljellä olevien tehtävien luettelo
en: agenda
Jäsennysmenetelmissä käytetty luettelo, johon lisätään tarvittaessa uusia jäsennysaskelia ja josta poistetaan tehtäviä suorittamalla ne.

jäsennin
en: parser sv: parser fr: parseur
Tietokoneohjelma, joka jäsentää, ks. jäsentäminen.

jäsentäminen
en: parsing sv: parsning fr: analyse, parsage
Virkkeiden tai sananmuotojen tunnistaminen niiden rakenteen perusteella. Jäsentämisen tuloksena saadaan jäsennettävän yksikön rakennetta kuvaavaa tietoa.
Kielioppiin ja sanakirjaan perustuva tapa tunnistaa kielellisen ilmauksen rakennetta.

kaari
en: edge
Aktiivisessa taulukkojäsennyksessä peräkkäisiä saneita kuvaava merkintä. Kaaret ovat joko inaktiivisia tai aktiivisia kaaria. Edelliset kuvaavat valmiita ja kokonaisia rakenneosia, jälkimmäiset hypoteeseja siitä, että jakso voisi aloittaa kyseistä kategoriaa olevan rakenteen.

kaksitasomorfologia
en: two-level morphology sv: tvånivåmorfologi
Morfolologisen analyysin teoria ja menetelmä, jossa sananmuodon pintamuoto suhteutetaan rinnakkaisilla kaksitasosäännöillä morfofoneemiseen esitysmuotoon ja leksikon avulla morfofoneeminen esitysmuoto kieliopilliseen sanaan.

kaksitasosääntö
en: two-level rule sv: tvånivåregel
Sääntö, joka määrittelee tietyn morfofonologisen äännevaihtelun morfofoneemisen esitysmuodon ja pintamuodon välisenä suhteena. Ehtona morfofoneemin tietynlaiselle toteutumiselle pintamuodossa voidaan käyttää tarvittaessa sekä morfofoneemisen esitysmuodon että pintamuodon ympäristöä. Kaksitasosääntöjä sovelletaan rinnakkain siten, että sääntöjen järjestyksellä ei ole vaikutusta lopputulokseen. Kaksitasosäännöt voidaan toteuttaa mm. äärellisillä transduktoreilla.

karteesinen tulo
en: cartesian product sv: kartesisk produkt de: Kartesisches Produkt fr: produit cartésien
Kahden joukon A ja B karteesisella tulolla tarkoitetaan kaikkien niiden parien (x,y) joukkoa, missä x kuuluu A:han ja y kuuluu B:hen.

kategoria
en: category
Jokin toisensa pois sulkevista luokista kuten sanaluokka tai syntaktinen ominaisuus kuten substantiivilauseke tai adverbiaali.

kategoriakielioppi
en: categorial grammar
Kielioppimalli, joka rakentuu yksinkertaisten ja niistä yhdistelemällä muodostettujen mutkikkaampien kategorioiden varaan, jotka itsesään määrittelevät jäsennystä varten, mitkä osaset voidaan liittää yhteen ja mitä yhdistelmästä tulee.

keksimismenetelmä
en: discovery procedure sv: upptäcktsprocedur fr: procédure de découverte
Menetelmä, jonka avulla voidaan (jokseenkin) mekaanisesti päätellä kieliopillisia sääntöjä, joilla kuvataan määrätyn kielen syntaksia, morfologiaa, fonologiaa tms. Vrt. koneoppiminen.

keskinäinen informaatio
en: mutual information
Kahden satunnaismuuttujan A ja B yhteenkuuluvuutta kuvaava suure I(A,B) = log(P(A,B)/(P(A)P(B))), jota käytetään mm. fraasien, sanaliittojen ja välilyönnillä toisistaan erotettujen yhdyssanojen tilastolliseen tunnistamiseen.

keskustelu, dialogi
en: dialogue sv: dialog de: Dialog fr: dialogue
Yleensä puheen (ja joskus kirjoitetun tekstin) avulla taphtuva vuorovaikutus.

kielenhuolto
en: language planning and maintenance sv: språkvård
Toimenpiteet kielen kehittämiseksi ja ylläpitämiseksi. Perinteisesti kielenhuolto on myös ylläpitänyt ns. oikeakielisyyttä eli luonut ja valvonut kielen normeja.

kielenoppiminen
en: language acquisition sv: språkinlärning
Luonnollisen kielen oppiminen esim. lapsena luontaisesti tai aikuisena opiskelemalla.

kieliopillinen sana
en: grammatical word sv: formord, funktionsord, grammatiskt ord
Sananmuodon morfologisen analyysin tuloksena saatava kokonaisuus, joka koostuu hakusanasta ja siihen liittyvistä sanaluokkaa ja taivutusmuotoa koskevista piirteistä. Esimerkiksi suomen sananmuotoa 'katolla' vastaa kieliopillinen sana "katto+N+SG+ADE". Piirteet esitetään ns. leimoina, joita esimerkissä on kolme.

kieliopillisuuden tarkistaminen
en: grammar checking
Kirjoittajan apuväline, joka etsii tekstistä kieliopin tai hyvän kielenkäytön vastaisia ilmauksia ja kenties ehdottaa niille korjauksia.

kieliteknologia
en: language technology, human language technology sv: språkteknologi
Kieliteknologia on suppeassa merkityksessä luonnollisen kielen mallintamista tietokonetta varten, erityisesti kielen jäsentämistä eri tasoilla tai kielen generoimista ja näihin liittyviä menetelmiä. Kieli sisältää tässä sekä kirjoitetun että puhutun kielen. Laajassa merkityksessä kieliteknologia sisältää ytimen lisäksi sen tavanomaisimpia sovellusalueita.

kielivarat
en: language resource
Kieliaineistojen, kuten puheaineistojen, tekstiaineistojen, puupankkien, koneluettavien leksikoiden ja kielenkäsittelyn työkaluista käytetty yhteisnimitys.

kirjoitettu kieli
en: written language
Kirjoitetussa muodossa esiintuvä kieli (vastakohtana puhutulle kielelle).

kirjoittajan tunnistaminen
en: authorship attribution
Menetelmät, joilla pyritään tunnistamaan tekstin kirjoittaja, josta ei etukäteen ole varmuutta.

Kleenen plus
en: Kleene-plus
Sännöllisten lausekkeiden operaattori, jolla ilmaistaan toistoa kerran, kaksi tai useammin.

Kleenen tähti
en: Kleene star sv: Kleene-stjärna de: Kleene-Stern fr: étoile de Kleene
Operaattori, jolla ilmaistaan merkkien tai merkkijonojoukkojen toistoa nolla kertaa, yhden kerran tai useampia kertoja. Esim. merkintä "(ab)*" tarkoittaa merkkijonoja {"", "ab", "abab", "ababab", ...}.

kohdekieli
en: target language
Erityisesti kielen kääntämisessä se kieli, jolle käännetään.

kohdistus
en: alignment
Kaksi- tai useampikielisten tekstien tai ilmausten kohdistaminen eriasteisesti, esim. siten että kappaleiden, virkkeiden, lauseiden, lausekkeiden tai saneiden vastaavuus on merkitty.

kokoava jäsentäminen
en: bottom-up parsing
Jäsentäminen, jossa muodostetaan ensin lyhyet kokonaisuudet, joita yhdistelemällä edetään isompiin rakenteisiin.

komentosarja
en: script
Tiedostoksi tms. talletettu sarja komentoja, jotka voidaan suorittaa tarvittaessa toistamiseen.

kompetenssi
en: competence sv: kompetens, förmåga
Kompetenssilla tarkoitetaan puhujan ja kuulijan sisäistämää tietoa kielestään. Puhuja tai kuulija ei ole selvillä tämän tiedon muodosta, mutta osaa käyttää sitä tuottaakseen oikeanmuotoisia virkkeitä ja kuulemiensa tai lukemiensa virkkeiden tulkitsemiseksi. (Chomsky 1965: §1, s. 4 ym.)

komplementti
en: complement sv: komplement, fyllnadsled
Joukon A komplementti ~A muodostuu kaikista niistä (perusjoukon) alkioista, jotka eivät kuulu A:han. Joukon A komplementista puhuttaessa on siis huolehdittava siitä, että tiedetään, minkä perusjoukon alkioista joukko A muodostuu.

kompositionaalisuus
en: compositionality
Kielen laajemman rakenteen kuvailun johdonmukainen muodostuminen sen osasten rakenteiden kuvailusta.

konekäännös
en: machine translation, MT
Kielen kääntäminen automaattisesti tietokoneohjelman avulla.

konjunktio
en: conjunction
Partikkeli, jonka avulla rinnastetaan tai alistetaan lauseen osia toisiin osiin.

konkordanssi
en: concordance
Hakemistona toimiva luettelo esim. sananmuotojen esiintymistä, jossa annetaan tieto ainakin esiintymän sijainnista korpuksessa, mutta useimmiten myös esiintymän lähiympäristöstä eli kontekstista. Tyypillisiä konkordansseja ovat ns. KWIC-konkordanssit (keyword in context), joissa esiintymät ovat alakkain ja ne on kohdistettu alkamaan tai päättymään samalta kohdalta.

konsonantti
en: consonant
Äänne, joka ei ole vokaali, esim. suomen kielessä mm. 'k', 's', 'm'.

korpus
en: corpus
Tiettyjä tarkoituksia varten koottu kieliaineisto, esim. tekstikorpus tai puhekieltä sisältävä korpus.

kuvaus, funktio
en: mapping, function sv: mappning
Kuvaus joukosta A joukkoon B on joukko-opillisesti katsottuna mikä tahansa sellainen relaatio R so. muotoa (a,b) olevien parien joukko, missä a kuuluu A:han ja b B:hen, joka relaatio täyttää kaksi ehtoa: (1) relaatio on määritelty jokaiselle a:lle joka kuuluu A:han sekä (2) relaatio liittää jokaiseen A:n alkioon enintään yhden B:n alkion.

käyttöliittymä
en: user interface sv: användargränssnitt de: Benutzeroberfläche fr: interface utilisateur, interface opérateur
Sovittu rajapinta ihmisen ja tietokoneen tms. laitteen välillä, jonka avulla ihminen voi käyttää laitetta tai järjestelmää.

käännösmuisti
en: translation memory
Kielen kääntämistä avustava ohjelma, jonka toiminta perustuu siihen, että se ehdottaa käännöksiä aiemmin käännettyjen samanlaisten tai samantapaisten virkkeiden tai virkkeen osien perusteella.

kääntäjä
en: translator sv: översättare fr: traducteur
Henkilö joka kääntää kieltä.

kääntäminen (kielen k.)
en: translation sv: översättning fr: traduction
Kielellisten ilmausten siirtäminen toiselle kielelle siten, että käännetty ilmaus ymmärretään samalla tavalla tai tuottaa saman vaikutuksen kuin alkuperäinen ilmaus.

lainasana
en: loan word sv: lånord
Toisesta kielestä lainattu sana.

laskennallinen vaativuus, laskennallinen kompleksisuus
en: computational complexity
Laskennallisten menetelmien ajan tai tilan tarvetta koskeva arvio, jossa kiinnitetään erityisesti huomiota tehtävän vaativuuden kasvuun tehtävän koon kasvaessa.

lause
en: clause sv: sats fr: proposition
Toisiinsa liittyvistä sananmuodoista koostuva yksikkö, jossa tyypillisesti on yksi finiittiverbi (eli predikaatti) ja siihen mahdollisesti liittyviä nominaalisia jäseniä.

lauseenjäsennin, syntaktinen jäsennin
en: syntactic parser
Jäsennin, joka tunnistaa tekstin syntaktista rakennetta.

lauseke
en: phrase
Sanetta suurempi, mutta lausetta suppeampi yksikkö morfosyntaksissa.

lauseke (formaalissa järjestelmässä)
en: expression (in a formal system)
Formaalin järjestelmän alkioiden tai niiden yhdistelmien muodostama tiettyjen sääntöjen mukaan muodostettu kokonaisuus. Esim. säännöllinen lauseke, aritmeettinen lauseke. Vrt luonnollisen kielen ilmaus ja fraasi eli lauseke.

leikkaus
en: intersection sv: intersektion, skärningspunkt de: Durchschnitt
Kahden joukon A ja B leikkauksella tarkoitetaan joukkoa, johon kuuluvat täsmälleen ne alkiot, jotka kuuluvat sekä A:han että B:hen.
Yleisemmin: joukkojen A1, A2, ..., Ak leikkauksella B tarkoitetaan joukkoa, joka muodostuu niistä alkioista, jotka kuuluvat jokaiseen näistä joukoista A1, ..., Ak. Jos leikkaus muodostetaan nollasta joukosta, on johdonmukaista sopia, että leikkaus on silloin yhtä kuin perusjoukko (sillä kukin joukoista on rajoite ja tällöin rajoituksia ei olisi).

leksikko
en: lexicon
Kielen kuvauksessa käytetty abstrakti varasto, jossa kielen morfeemit ja/tai sanasto ovat. Kieltä jäsentävillä ohjelmilla voi olla myös konkreettinen tiedosto, joka toimii leksikkona.

lemma
en: lemma sv: lemma de: Lemma fr: lemme
Lemma on yhteen kuuluvien sananmuotojen otsikkona käytetty sana. Lemma on usein sen hakusanan perusmuoto, jonka taivutusmuodosta on kyse. Yhteenkuuluvuus voi olla väljempääkin kuin se, että sananmuodot ovat saman lekseemin taivutusmuotoja. (F. Karlsson 1998: s. 188)

leveyssuuntainen (haku tai jäsennys)
en: breadth-first (search or parsing)
Haku tai jäsennys, jossa eri vaihtoehtoja edistetään rinnakkainyhtä pitkälle tai syvälle ennen, kuin mennään eteenpäin.

liitepartikkeli
en: clitic particle sv: enklitisk partikel fr: particule enclitique
Sanaan liitetty varsinaisen taivutuksen kannalta perifeerinen affiksi. Esim. suomen kielessä sananmuodossa 'tuletko' lopussa oleva 'ko' on liitepartikkeli, jolla on lähinnä tehtävänä osoittaa kysymyslausetta.

lopputila
en: final state
Automaatti, mm. deterministinen äärellinen automaatti, hyväksyy syötteenä olevan merkkijonon, jos se päätyy viimeisen merkin jälkeen lopputilaksi merkittyyn tilaan.

luku
en: number sv: numerus fr: nombre
Hakusanojen taivutuksessa esiintyvä kategoria. Useissa kielissä luvulla on kaksi mahdollista arvoa: yksikkö ja monikko.

luonnollinen luku
en: natural number sv: naturligt tal de: natürliche Zahl fr: nombre naturel
Ei-negatiivinen kokonaisluku, jokin luvuista 0, 1, 2, 3, ...

lähtökieli
en: source language
Erityisesti kielen kääntämisessä se kieli, josta käännetään.

malline, sapluuna
en: template sv: mall
Esim. morfologiassa malline on kaavio, joka kuvaa sanan osasten keskenäistä sijoittumista. Mallinetta käytetään erityisesti seemiläisten kielten interdigitaation ym. kuvaksessa.

Markovin malli
en: Markov model sv: Markovmodell de: Markovmodell fr: modèle de Markov
Deterministiseen äärelliseen automaattiin perustuva todennäköisyyksiin perustuva malli, jossa tapahtumien todennäköisyydet riippuvat vain edellisestä tapahtumasta (tai tilasta, jossa malli on). Tyypillisesti kutakin tapahtumaa tai symbolia vastaa tila, johon siirrytään oltiin missä tilassa tahansa.

Markovin piilomalli
en: hidden Markov model, HMM sv: dold Markovmodell fr: modèle de Markov caché
Markovin mallista johdettu tilastollispohjainen malli, jollaista käytetään mm. puheentunnistuksessa valitsemaan puhesignaaliin todennäköisimmin sopivia äänteitä. Piilomallille ominaista on se, että tiloista ei saada suoraa vaan välillistä ja probabilistista tietoa.

merkintä
en: entry
Lekseemiä, morfeemia tms. vastaava leksikkoon lisätty tieto.

merkitys
en: meaning
Morfeemeihin, sananmuotoihin, lauseisiin ja lausekkeisiin katsotaan liittyvän niiden merkitys, joka on riippumaton siitä tilanteesta, jossa ilmauksia käytetään. Sematiikka tutkii merkitystä.

merkkaus
en: mark-up sv: uppmärkning
Tekstin varustaminen sen rakennetta kuvaavilla merkinnöillä. Tyypillisiä merkkauskieliä ovat HTML, joka on yleisen merkkausformalismin SGML:n mukainen verkkosivujen rakenteen osoittamisessa käytetty merkkauskieli. XML on SGML:stä johdettu uudempi merkkausformalismi.

merkki; leima
en: tag sv: tagg
Kieliopillista kategoriaa tai piirrettä kuvaava merkintä. Tyypillisiä leimoja ovat esim. sanaluokan tai sijamuodon merkinnät. Esim. inesiivin tunnus (erotettavissa oleva morfi) voi olla 'ssa' ja inessiivin merkki voi olla lyhenne 'INE'.

merkkijono
en: string sv: sträng
Annetun aakkoston merkeistä koostuva jono. Merkkijonossa voi olla nolla, yksi tai useampia merkkejä, kuitenkin äärellinen määrä. Esimerkiksi sananmuodot ovat merkkijonoja.

mikä tahansa merkki
en: any symbol
Säännöllisissä lausekkeissa käytetty merkintä, joka vastaa yhtä, mitä tahansa annetun aakkoston merkkiä. Unixin säännöllisissä lausekkeissa tästä käytetään merkintää "?" ja matemaattisemmissa merkintätavoissa joskus isoa kreikkalaista sigmaa.

minimointi (automaatin mimimointi)
en: minimization (of an automaton)
(Yleensä äärellisen) automaatin muuntaminen sellaiseksi, että siinä on mahdollisimman vähän tiloja, mutta että se edelleen hyväksyy täsmälleen samat merkkijonot kuin alkuperäinenkin automaatti.

mitta
en: measure sv: mått
Todellista tai abstraktia etäisyyttä tms. kuvaava reaalilukuarvoinen suure. Etäisiyyksiä voidaan määritellä myös sanoille, teksteille tms.

monikielinen
en: multilingual sv: flerspråkig fr: multilingue, plurilingue
Useampaa kuin yhtä kieltä koskeva tai käsittelevä.

moniselitteisyys
en: ambiguity sv: mångtydighet, flertydighet, ambiguitet, dubbeltydighet, tvetydighet de: Mehrdeutigkeit fr: ambiguïté
Moniselitteisyydellä tarkoitetaan sitä, että yhdellä sananmuodolla, lauseella tai virkkeellä on useampia kuin yksi tulkinta. Esim. suomen kielen sananmuoto "katosta" on moniselitteinen, koska sillä on kaksi eri luentaa: (1) "katto"-sanan elatiivi ja (2) "katos"-sanan partitiivi.

morfeemi
en: morpheme sv: morfem de: Morphem fr: morphème
Morfologisen analyysin komponentti. Morfeemin sanotaan usien olevan kielen pienin merkitystä kantava yksikkö. Morfeemi on abstraktio, joka yhdistää sen eri allomorfit. Esim. inessiivin pääte katsotaan morfeemiksi ja sillä on kaksi allomorfia: "ssa" ja "ssä". (R. Sproat 1992: Glossary, p. 247.)

morfi
en: morph sv: morf de: Morph fr: morphe
Morfeemin konkreettinen ilmenemismuoto. Esim. sananmuodossa "kalastajalle" voidaan erottaa morfit "kala", "-sta", "-ja", "-lle". Morfeja, jotka ovat saman morfeemin ilmenemismuotoja, kutsutaan allomorfeiksi. (R. Sproat 1992: Glossary, p. 247.)

morfofoneemi
en: morphophoneme sv: morfofonem de: Morphophonem fr: Morphophonème
Morfofoneemisen esitysmuodon yksikkö, jonka avulla kuvataan morfeemin pintamuodoissa esiintyviä vaihteluita. Morfofoneemi voi siten toteutua erilaisissa ympäristöissä erilaisina pintamerkkeinä. Esimerkiksi suomen adjektiivien vartalon lopussa oleva 'a'-'e' vaihtelu ('paha' - 'pahempi') voidaan kuvata morfofoneemilla. Teknisesti myös arkkifoneemi voidaan tulkita morfofoneemiksi.

morfofoneeminen esitysmuoto
en: morphophonemic representation
Erityisesti kaksitasomorfologiassa esitysmuoto, joka koostuu foneemeista ja morfofoneemeista. Sääntökomponentti suhteuttaa morfofoneemisen esitysmuodon pintamuotoon. Leksikko puolestaan suhteuttaa morfofoneemisen esitysmuodon kieliopilliseen sanaan.

morfotaksi
en: morphotactics sv: morfotax
Sananmuodostuksessa noudatettava morfeemien keskenäistä järjestystä ohjaava säännöstö tai kielioppi.

muotosarja, paradigma
en: paradigm sv: paradigm fr: paradigme
Taivutusmuotojen sarja, jollaisen avulla usein määritellään sanojen taipumista. Yhden mallisanan paradigman avulla määritellään muidenkin samalla tavalla taipuvien sanojen taivutus.

murre
en: dialect sv: dialekt de: Dialekt fr: dialecte
Tyypillisesti jonkin alueen poikkeava kielimuoto. Poikkeavuus on tyypillisesti ääntämykseen perustuva ja jossain määrin sanaston ja taivutusmuotojen erilaisuuten perustuvaa. Saman kielen eri murteiden puhujat ymmärtävät usein toisiaan. (F. Karlsson 1998: Luku 9, ss. 250-.)

muu merkki
en: other symbol
Äärellistilaisissa automaateissa käytetty merkintä kaikille niille (mahdollisesti myöhemmin mukaan tuleville) aakkosille, joita ei kyseisessä automaatissa ole vielä eksplisiittisesti mainittu.

myötäesiintymä, kollokaatio
en: collocation sv: kollokation
Vähitään kahdesta saneesta koostuva yhdistelmä, joissa sanoilla on lähinnä merkityksensä peruseella taipumus esiintyä yhdessä. Myötäesiintymät ovat usein esim. sanaliittoja tai verbin ja sen argumentin yhdistelmiä, mutta niiden ei tarvitse olla kieliopillisesti selvärajaisia kokonaisuuksia.

määrittää
en: modify
Lisämerkityksen tuominen kielelliseen yksikköön, esim. adjektiivi voi olla substantiivin määritteenä eli kysenen adjektiivi määrittää substantiivia, esim. lausekkeessa "pieni lapsi" sana "pieni" määrittää sanaa "lapsi".

nimetty kohde
en: named entity
Kielellinen yhdestä tai useammasta sanasta koostuva ilmaus, joka viittaa tiettyyn kohteeseen, esimerkiksi henkilöön, paikkaan, organisaatioon, tuotteeseen tms.

numeromerkki
en: digit sv: sifferkod
Kymmenjärjestelmässä on kymmenen numeromerkkiä (0, 1, 2, ..., 9), joiden avulla muodostetaan lukuja.

oikeinkirjoituksen korjaus
en: spelling correction
Ehdotusten tuottaminen väärin kirjoitetun saneen korjaamiseksi oikeinkirjoituksen mukaiseksi.

oikeinkirjoituksen tarkistus
en: spelling checking sv: stavningskontroll
Tahattomista kirjoitusvirheistä tai vajavaisesta oikeinkirjotustaidosta johtuvien väärin kirjoitettujen saneiden tunnistaminen.

oletusarvo
en: default value
Arvo, joka esim. attribuutilla katsotaan olevan silloin, kun mitään arvoa ei ole nimenomaisesti annettu.

omistusliite, possessiivisuffiksi
en: possessive suffix sv: possessivsuffix fr: suffixe possessif
Omistajaa ilmaiseva liite. Suomen kielessä esim. 'kirjassani' on lopussa omistusliiet 'ni' osoittamassa, että kyse on minulla olevasta kirjasta.

operaattori
en: operator
Apumerkki tai symboli, jonka avulla muodostetaan lausekkeita tai sääntöjä, esim. ynnälaskua varten on '+'-merkki, tai nuoli toisinkirjoitussäännössä.

optimointi
en: optimization, programming(2)
Tietyn funktion suurimman tai pienimmän arvon tuottavien muuttujien arvojen löytäminen. Mm. dynaaminen optimointi, lineaarinen optimointi, matemaattinen optimointi.

paino
en: stress
Saneen, lauseen tai virkkeen ääntämyksessä ilmenevä tietyn tavun tai sanan korostaminen esim. intensiteettiä lisäämällä. Painotus voi kuitenkin ilmetä muillakin keinoilla.

periminen
en: inheritance
Ominaisuuksien, piirteiden tms. periytyminen yleisemmästä erityisempään. Periminen on keskeistä mm. oliokeskeisessä ohjelmoinnissa, jossa erityisemmät tietuemallit ja olioiden käsittelyfunktiot saavat oletusarvoja yleisemmän tason malleista ja funktioista. Kielen mallintamisessa periytymistä voidaan soveltaa esimerkiksi leksikaalisten yksiköiden määrittelemisessä, ontologiassa ja piirrepohjaisissa kielioppimalleissa.

peruutus
en: backtracking
Hallittu luopuminen etsinnän (tai jäsennyksen) vaihtoehdosta ja paluu aimpaan valintakohtaan, josta otetaan kokeiltavaksi seuraava vuorossa oleva vaihtoehto.

peräkkäinasettelu, (konkatenaatio)
en: concatenation
Peräkkäinasettelulla muodostetaan merkkijonoista A ja B merkkijono AB, jossa on ensin kaikki A:n merkit a1, ..., ak järjestyksessä ja sitten kaikki B:n merkit b1, ..., bj myös järjestyksessä. AB:n pituus |AB| = |A| + |B|.
Paitsi merkkijonoja, voidaan myös merkkijonojen joukkoja (eli formaaleja kieliä) asetella peräkkäin. Kahden (formaalin) kielen P ja Q peräkkäinasettelu P Q on niiden merkkijonojen C = A B joukko, jossa A kuuluu P:hen ja B kuuluu Q:hun. Yleistettävissä luonnollisella tavalla yhdelle tai useammalle joukolle.

pinoautomaatti
en: pushdown automaton
(Yleensä äärellinen) automaatti, johon on liitetty pino siten, että siirtymien yhteydessä voidaan symboleja painaa pinoon tai ottaa pinon päältä. Pinoautomaateilla voidaan kuvata kontekstista riippumattomat kielet.

pintamerkki
en: surface character
Sananmuodon pintamuoto koostuu pintamerkeistä, jotka ovat joko ortografian mukaisia aakkosia tai esim. foneemeja, jos morfologiaa kuvataan fonologisia tarkoitusperiä varten. Kirjoitusmerkeissä katsotaan yleensä aksentein tai muunlaisin merkein varustetut aakkoset omiksi pintamerkeikseen (tai sitten tällaiset diakriittiset lisät tulkitaan omiksi merkeikseen).

pintamuoto
en: surface form
Sananmuoto sellaisena kuin se kirjoitetaan tai esim. äännetään. Pintamuoto on pintamerkkien muodostama merkkijono. Äännetty pintamuoto esitetään usein foneemien tarkkuudella.

pisteellä varustettu toisinkirjoitussääntö
en: dotted rule
Taulukkojäsennyksissä käytetty sääntö, jossa oikeaan puoleen eli säännön toisinkirjoitusosaan on lisätty piste. Pisteen edellä olevat osat kuvaavat jo tunnistettua osaa ja sen oikealla puolella olevat osat vielä löytymättömiä osia, jotka tarvittaisiin, jotta kokonainen konstituentti saataisiin muodostetuksi.

poikkeava havainto
en: outlier
Yksittäinen (virheen takia tai muusta syystä) tilastoaineistoon eksynyt havainto, joka poikkeaa selvästi muista havaintoarvoista.

polysynteettinen kieli, inkorporoiva kieli
en: polysynthetic language, incorporating language sv: polysyntetiskt språk fr: langue incorporante, langue polysynthétique
Kieli, jossa yksi sananmuoto voi sisältää usampia vapaita morfeemeja siten, että sananmuoto vastaa muissa kielissä kokonaista lausetta. Esim. eskimokielissä voidaan verbi, subjekti ja objekti tällä tavoin yhdistää yhdeksi sananmuodoksi.

postpositio
en: postposition
Postpositiot ovat yleensä vasemmalla puolellaan olevia substantiivilausekkeita määritteleviä partikkeleita, kuten suomen 'asti' tai 'vuoksi'.

prefiksi, etuliite
en: prefix sv: förstavelse, prefix fr: préfixe
Prefiksi on sananvartalon eteen liitettävä sidonnainen morfeemi. Esim. englannin kielessä etuliitteet 'in' ja 'un' voivat esiintyä mm. adjektiivivartalon edessä. Esim. swahilissa pääosa verbin taivutuksesta ilmaistaan prefiksien avulla.

prepositio
en: preposition
Prepositiot ovat yleensä oikealla puolellaan olevia substantiivilausekkeita määritteleviä partikkeleita, kuten engl. 'to' tai 'in'.

produsoiva jäsentäminen
en: top-down parsing
Jäsentäminen siten, että lähdetään koko merkkijonoa vastaavasta rakenteesta, jonka välittömiä rakenneosia kokellaan jne., kunnes päästään vertaamaan jäsennettävään merkkijonoon.

puhe
en: speech sv: tal fr: parole
Puhuttua kieltä, joka on ensisijaisesti ääntä.

puheentunnistus
en: speech recognition sv: taligenkänning de: Spracherkennung fr: reconnaissance vocale
Automaattisen puheentunnistuksen avulla päätellään puhesignaalista, mitä on sanottu. Puheentunnistus voi olla joko hyvinkin rajallisen komentosanaston tunnistamista tai jopa rajoittamattoman sanaston sallivaa ns. sanelusovellusta.

puhekäyttöliittymä
en: speech interface sv: talgränssnitt
Ihmisen ja tietokoneen välinen käyttöliittymä, jossa käytetään puhetta.

puhekäyttöliittymä
en: voice interface
Käyttöliittymä, jossa vuorovaikutus tapahtuu puheen välityksellä. Puhekäyttöliittymässä sovelletaan useimmiten sekä puheentunnistusta että puhesynteesiä.

puhesynteesi
en: speech synthesis, text-to-speech sv: talsyntes de: Sprachsynthese fr: synthèse de la parole
Puhesynteesin tehtävänä on muuntaa kirjoitettu teksti tai järjestelmän tuottama vastaus puheääneksi. Korkealaatuisen puhesynteesin tavoitteena on tuottaa helposti ymmärrettävää puhetta, joka kuulostaa luontevalta.

puhuttu kieli
en: spoken language
Kieli sen puhutussa muodossaan.

pyöreä vokaali
en: rounded vowel sv: rundad vokal fr: voyelle arrondie, voyelle labialisée
Vokaali, jota äännettäessä huulet ovat supussa pyöreänä.

pätkä
en: chunk
Pätkäjäsennyksessä esiintyvä yhden tai useamman peräkkäisen saneen muodostama jakso virkkeestä, jolla ei ole hierarkkista rakennetta, mutta jakso koostuu syntaktisesti yhteen kuuluvista saneista.

pätkäjäsennys
en: chunk parsing
Pätkäjäsennyksessä virke jaetaan ensin pätkiksi, jotka koostuvat peräkkäisistä saneista. Pätkien hierarkiaa ei pyritä määrittämään vielä pätkimisvaiheessa vaan vasta sen jälkeen.

pääsana, pääkonstituentti
en: head
Lähinnä kieliopillisissa rakenteissa kahden (tai useamman) osasen muodostaman rakenteen tärkeämpi osa, joka määrää kokonaisuuden laadun (enemmän kuin määrite). Riippuu paljon kielioppimallista, mikä osa katsotaan rakenteen pääkonstituentiksi.

päätesymboli
en: terminal symbol
Symboli, jota toisinkirjoitussäännöt eivät enää voi muuttaa edelleen.

rajoittamaton toisinkirjoituskielioppi
en: unrestricted rewrite grammar
Chomskyn hierarkian alimman lajin kielioppi, jossa toisinkirjoitussäännöille ei aseteta rajoituksia, vaan ne voivat toiskinkirjoittaa ja muuttaa useita merkkejä kerrallaan.

rekursiivinen
en: recursive
Sisäkkäin toistuva, so. yleensä sillä tavalla toistuva, että rakenne on toisen samanlaisen rakenteen sisällä tai että funktio kutsuu uudelleen samaa funktiota.

rekursiivinen tilasiirtymäverkko
en: recursive transition network
Äärellisestä automaatista edelleen kehitetty automaattityyppi, jossa siirtymässä voi olla ehtona joko yksittäinen merkki tai toisen automaatin nimi. Siirtymän toteutuminen edellyttää silloin sitä, että mainittu automaatti kelpuuttaa osan jäljellä olevista merkeistä, joiden kuluttamisen jälkeen siirtymä toteutuu ja tunnistaminen jatkuu.

relaatio
en: relation sv: relation fr: relation
Joukkojen A ja B välillä olevat relaatiot tarkoittavat teknisesti niiden karteesisen tulon A x B osajoukkoja. Intuitiivisesti relaatio on joukon A ja joukon B välisten alkioiden suhde, esimerkiksi "suuremp kuin" on lukujen kesken relaatio (joka voidaan konkretisoida em. määritelmän puitteissa niiden lukuparien joukoksi, joissa parin edellinen luku on suurempi kuin jälkimmäinen).

rinnastus, koordinaatio
en: coordination
Kahden samankategoriaisen tai muuten samanarvoisen rakenteen liittyminen yhteen.

robusti, vakaa, (vankka?)
en: robust sv: robust
Menetelmän tai jäsentimen voidaan sanoa olevan vakaa tai robusti, useammalla tavalla: se antaa myös virheelliselle syötteelle mielekkäitä analyysejä, ohjelma ei keskeydy syötteen virheiden vuoksi tai ei itsessään sisällä virheitä jne.

ryväs
en: cluster
Jollakin menetelmällä tunnistettu yhteen kuuluvien tai lähekkäisten yksiköiden muodostama rymä, esim. joukko samanlaisissa ympäristöissä esiintyviä sanoja.

ryvästys, ryhmittely
en: clusterning
Yhteen kuuluvien tai lähekkäisten yksiköiden muodostamien ryhmien löytäminen esim. tarkoitukseen kehitetyn algoritmin avulla.

saanti
en: recall sv: täckning
Tiedonhaussa tms. haun tuottamien relevanttien dokumenttien osuus tietokannassa olevista kaikista relevanteista dokumenteista. Lääketieteessä tämä vastaa testin sensitiivisyyttä (engl. sensitivity) eli sitä, kuinka suuri osa seulottavaa tautia sairastavista saadaan kyseisellä testillä esille.

sanakirja
en: dictionary
Kirjan muotoon tai tietokoneohjelmaksi laadittu luettelo, joka kattaa huomattavan osan jonkin kielen hakusanoista. Sanakirjat antavat usein tietoa sanojen käytöstä ja merkityksistä. Sanakirjoja on yksikielisiä ja kaksikielisiä. Kaksikielisissä sanakirjoissa annetaan käännösvastineita.

sanaluokka
en: part of speech
Kielen hakusanojen luokka, joka koostuu syntaktisesti, semanttisesti, ja/tai morfologisesti samaan tapaan käyttäytyvistä hakusanoista. Tavallisesti sanasto jaetaan pieneen määrään sanaluokkia, kuten substantiivit, adjektiivit, verbit, partikkelit tms.

sanaluokkajäsennys
en: part of speech tagging
Yksinkertainen jäsennysmenetelmä, jonka tavoitteena on vain ratkaista, mikä sanaluokkakoodi kullekin saneelle kuuluu, erotuksena täysimittaisesta syntaktisesta jäsentämisestä, jossa myös lauserakenne pyritään tunnistamaan. Sanaluokkajäsennyksen voi joissakin tapauksissa tulkita yksiselitteistämiseksi (eli disambiguoinniksi).

sanaluokkakoodi, sanaluokkaleima
en: part of speech tag
Koodi eli leima, joka ilmaisee saneen sanaluokkaa. Usein tällaiset koodit voivat olla monijakoisempiakin kuin perinteiset sanaluokat.

sanan alamerkitys
en: word sense
Saman hakusanan toisistaan poikkeavat merkitykset, kuten esim. "laskea" voi tarkittaa ynnäämistä, päästämistä tai rinnettä pitkin liukumista jne.

sananjohto
en: word derivation
Menettely, jolla yhdestä hakusanasta voidaan johtaa toinen tai toisia hakusanoja. Esim. suomen kielessä hakusanasta 'istua' voidaan johtaa 'istuskella' ja siitä edelleen 'istuskelu'.

sananmuoto
en: word-form sv: ordform
Sananmuoto koostuu kirjaimista ja muista sanan sisälle mahdollisesti kuuluvista merkeistä kuten yhdysviivasta tai heittomerkistä. Suomenkielisiä sananmuotoja olisivat esimerkiksi 'talo', 'katosta', 'pääomastakin'. Sananmuodolla voi olla esiintymiä eli saneita. Sananmuodolla on ainakin yksi luenta eli tulkinta, joka koostuu perusmuodosta, sanaluokasta ja taivutusmuotoa kuvaavista koodeista eli leimoista. Sananmuotojen esiintymisten tilastollisessa käsittelyssä käytetään joskus termiä "type" kuvaamaan sananmuotoa ja termiä "token" vastaavasti sanetta. (F. Karlsson 1998: Luku 4.1, ss. 83-) . Huomaa, että alkuosaltaa nominatiivimuotoinen "sanamuoto" tarkoittaa muuta (esim. "sopimuksen sanamuoto").

sanasto
en: vocabulary
Hakusanojen joukko, jonka esim. henkilö hallitsee tai joita esiintyy tietyssä tekstissä tai tekstikokoelmassa.

sanaverkko, wordnet
en: WordNet
Tietokoneen muodossa oleva synonyymisanasto, jossa synonyymit on ryhmitetty samanmerkityksisiksi synonyymiryhmiksi ja merkitykset linkitetty edelleen yläkäsitteiden ym. relaatioiden mukaan.

sane, sananmuodon esiintymä
en: word token
Sane on sananmuodon esiinymä. Saneeseen ei suoranaisesti kuulu muuta kuin se merkkijono, josta tekstissä oleva sananmuoto koostuu. Juoksevan tekstin pituutta kuvaa sen saneiden määrä.

saneiden alamerkitysten yksiselitteistäminen
en: word sense disambiguation
Menetelmät, joilla tekstissä esiintyvien saneiden oikea alamerkitys pyritään päättelemään.

saneistaa
en: tokenise sv: tokenisera
Juokseva teksti saneistetaan jakamalla se sanakirjahakua tai morfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu tai erotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneiden kaltaisina yksiköinään jatkokäsittelylle.

sekventiaalisuus
en: sequentiality
Äärellisen transduktorin sanotaan olevan sekventiaalinen, jos se on automaattina deterministinen ja jos sen jokaisessa tilassa on kaikilla merkeillä enintään yksi mahdollinen siirtymä. Sekventiaalinen transduktori toimii muuntaessaanki deterministisesti eli jokaisesta merkkijonosta tulee vain yksi tulos, ja erityisesti lisäksi jokaiselle siirtymälle on vain yksi valinta. Sekventiaalisuus on siten ankarampi vaatimus kuin funktionaalisuus.

sidonnainen morfeemi
en: bound morpheme sv: bundet morfem de: gebundenes Morphem fr: morphème lié
Morfeemi, joka ei voi esiintyä sellaisenaa, vaan edellyttää lähelleen tietynlaisen toisen morfeemin. Esim. useissa kielissä sananjohtimet ja taivutuselementit ovat sidonnaisia morfeemeja.

siirtymä, tilasiirtymä
en: transition sv: övergång
Deterministinen äärellinen automaatti siirtyy kullakin syöttömerkillä tilasta uuteen tilaan siirtymän avulla. Siirtymään liittyy siten lähtötila, merkki ja uusi tila. Usein siirtymät määritellään yleisemmiksi siten, että siirtymä liitetään yhden merkin sijasta merkkijonoon, jossa voi olla nolla, yksi tai useampia merkkejä.

sija
en: case sv: kasus de: Kasus fr: cas
Lähinnä substantiivien taivutuksen kategoria. Tyypillisiä sijamuotoja ovat nominatiivi, genetiivi, datiivi, jne.

sirkumfiksi
en: circumfix sv: cirkumfix fr: circumfixe
Sananvartalon ympärille liitettävä sidonnainen morfeemi, jossa sirkumfiksin toinen osa liitetään vartalon eteen ja toinen osa vartalon jälkeen. Esimerkiksi saksan verbitaivutuksessa esiintyy sirkumfiksi 'ge-...-en' kuten muodossa 'ge-schloss-en'.

solmu
en: node, vertex
Missä tahansa graafissa olevia kiinnekohtia, joiden välillä voi olla kaaria. Automaatteja esittävien graafien solmuja kutsutaan tiloiksi.

solmu
en: vertex
Taulkkojäsennyksessä käytetty apukäsite, jollaiset sijoitetaan saneiden väleihin ja ennen ensimmäistä ja viimeistä sanetta. Solmujen väleille voidaan asettaa kaaria.

sovellus
en: application sv: tillämpning, applikation

spektri
en: spectrum
Erityisesti puheäänen hetkellinen taajuusjakautuma, jota kuvataan usein käyrällä, jossa toisella akselilla ovat taajuudet ja toisella kullakin taajuudella olevan energian määrä.

spektrogrammi
en: spectrogram
Erityisesti puheäänen taajuusjakautumaa kuvaava aikasarja, jossa yleensä vaaka-akselilla on aika, pystyakselilla erilaiset taajuudet ja taajuuksilla olevan energian määrä kuvataan tummuutena.

subjekti
en: subject
Lauseenjäsen, joka yleensä ilmaisee tekijää. Esim. lauseessa "poika söi omenan" subjektina on 'poika'.

substantiivi
en: noun sv: substantiv de: Substantiv fr: nom
Sanaluokka, jonka jäsenet edustavat esineitä, asioita tms. Esim. suomen kielessä 'talo' on substantiivi.

suffiksi, pääte
en: suffix sv: suffix, ändelse fr: suffixe
Vartalon perään liitettävä affiksi. Esim. sananmuodossa "talosssanne" on vartalo ja juuri "talo", jonka perään on liitetty kaksi suffiksia "ssa" ja "nne".

suku
en: gender
Hakusanat luokitellaan useissa kielissä sukuihin, joita on yleensä muutama. Esim. saksan kielessä on kolmea lajia substantiiveja: maskuliinisia, feminiinisiä ja neutreja.

suunnattu syklitön verkko (DAG)
en: directed acyclic graph (DAG)
Solmuista ja suunnatuista solmuja yhdistävistä kaarista koostuva syklitön verkko. Unifikaatiopohjaiset piirrekielipit rakentuvat DAGien varaan.

suunnattu verkko, (suunnattu graafi)
en: directed graph
Verkko, jossa solmuja yhdistävät kaaret ovat suunnattuja.

syklitön verkko, (syklitön graafi)
en: acyclic graph
Verkko (esim. automaatti), jossa mistään solmusta ei pääse takaisin samaan solmuun (suoraan tai käymällä välillä toisissa solmuissa).

synonyymi
en: synonym
Lähimerkityksinen sana.

synonyymiryhmä
en: synonym set; synset
Lähimerkityksisten sanojen joukko erityisesti WordNet synonyymitietokannoissa.

syvyyssuuntainen (haku tai jäsennys)
en: depth-first (search or parsing)
Haku tai jäsennys, jossa edetään yhtä haaraa niin pitkälle kuin päästään ennen, kuin peruutetaan (mahdollisimman vähän) ja kokeillaan toisia vaihtoehtoja.

syöte
en: input
Esimerkiksi tietokoneohjelman tai vastaavan järjestelmän lukema tieto, jota ohjelma käsittelee.

syöttäminen
en: feeding
Sääntöjärjestelmissä esiintyvä tilanne, jossa säännön soveltaminen riippuu edeltävän säännön tuottamasta tuloksesta. Sanotaan esim. että sääntö A syöttää sääntöä B, jos sen soveltaminen tulee mahdolliseksi sillä, että A:n soveltaminen on tuottanut merkkijonoon osia, joita B edellyttää. Vrt. vuotaminen.

säännöllinen joukko, säännöllinen kieli
en: regular set, regular language
Tietyn aakkoston S merkeistä koostuvien merkkijonojen joukko. Säännöllinen joukko voidaan määritellä siten, että (1) tyhjä joukkko on säännöllinen joukko, (2) tyhjä merkkijono on säännöllinen joukko, (3) aakkoston S mistä tahansa merkistä muodostettu yhden merkin mittainen merkkijonon muodostama joukko on säännöllinen joukko, (4) jos P ja Q ovat säännöllisiä joukkoja, niin (a) P:n ja Q:n unioni, (b) konkatenaatio PQ ja (c) toisto P* ovat säännöllisiä joukkoja, (5) eikä mikään muu ole aakkoston S merkeistä muodostettu säännöllinen joukko. Esim. joukko {"", "aa", "aaaa", ...} joka koostuu merkkijonoista, joissa on parillinen määrä "a"-kirjaimia on säännöllinen joukko. Sen voi katsoa muodostuneen askelilla (3) jolla saadaan joukko {"a"}, askelella (4b) jolla saadaan joukko {"aa"} ja lopuksi askelella (4c) jolla saadaan haluttu joukko.

säännöllinen kielioppi
en: regular grammar
Chomskyn hierarkian ylin kielioppilaji, joka on paitsi kontekstista riippumaton, se koostuu vain vasemmalle lineaarisista tai oikealle lineaarisista säännöistä (minkä takia säännölliset kieliopit määrittelevät täsmälleen säännölliset joukot).

säännöllinen lauseke
en: regular expression sv: regulärt uttryck fr: expression rationelle, expression régulière
Yksittäisistä aakkoston merkeistä, peräkkäinasetteluista, vaihtoehdoista ja toistoista koostuva lauseke, joka kuvaa säännöllistä (merkkijonojen) joukkoa. Esim. säännöllinen lauseke "(aa)*" kuvaa niitä merkkijonoja, jotka koostuvat parillisesta määrästä a-kirjaimia.

taipuminen, taivutus
en: inflection sv: böjning fr: flexion
Hakusanoista muodostetaan sananmuotoja mm. taivuttamalla niitä erilaisiin taivutusmuotoihin. Taivuttaminen voi tapahtua lisäämällä affikseja tai taivutus voi ääritapauksessa ilmetä vain äännemuutoksina.

talkoistaminen
en: crowdsourcing
Tehtävän teettäminen (avoimen kutsun avulla) etukäteen määrittelemättömän (yleensä laajan) vapaaehtoisten tekijöiden joukon toimesta.

tarkkuus
en: precision sv: precision
Tiedonhaussa tms. relevanttien dokumenttien prosentuaalinen osuus kaikista haun tuottamista dokumenteista. Lääketieteessä tämä vastaa testin spesifisyyttä (engl. specificity) eli sitä, kuinka suuri osuus testin positiivisista tapauksista osoittautuu seulottavaa tautia sairastaviksi..

tarra
en: tag sv: tagg
Rakenteisen dokumentin alkion lajin ilmaiseva tunnus. (Vrt. ATK-sanakirja, 2003)

tauko
en: pause
Puheessa esiintyvä hiljainen jakso esim. saneiden välissä.

taulukko
en: chart
Taulukkojösennyksessä käytetty tietorakenne, joka sisältää välitulokset (mutta ei välttämättä luetteloa jäljellä olevista tehtävistä).

taulukkojäsennys
en: chart parsing
Jokin jäsennysmenetelmistä joka, perustuu taulukkomaiseen tietovarastoon, joka ohjaa jäsennystä taaten sen, että kaikki vaihtoehdot tulevat kertaalleen tarkistetuiksi. Yleensä taulukkojäsennys käyttää monimutkaisempaa tietorakennetta kuin pelkkää hyvinmuodostettujen osajonojen taulukkoa. Taulukkoon sisältyy useimmiten tällaisen lisäksi välivaiheita ja ohjeita siitä, miten kustakin välituloksesta jatketaan eteenpäin.

tavutus
en: hyphenation sv: avstavning
Saneiden jakaminen rivin lopussa, kun ne eivät mahdu kokonaisena.

teksti
en: text
Yleensä rajattu ja yhteenkuuluva kokonaisuus kirjoitettua kieltä.

termi
en: term sv: term fr: terme
Käsitteistä käytettävä (yleensä) vakiintunut (yksi- tai useampisanainen) ilmaus on termi.

terminologia
en: terminology
Yleensä tiettyä alaa käsittelevien termien kokoelma.

tiedon eristäminen
en: information extraction, IE
Menetelmiä tietyntyyppisten ilmausten, esim. henkilöiden tai firmojen nimien tunnistamiseksi juoksevasta tekstistä.

tiedonhaku
en: information retrieval sv: informationssökning
Tiedonhaulla tarkoitetaan yleensä automaattisia menetelmiä, joilla haluttuja dokumentteja voidaan löytää niissä olevien sanojen ja ilmausten perusteella suuresta dokumenttitietokannasta. Tiedonhakua voi vaikeuttaa useissa kielissä esiintyvä sanojen taipuminen ym. kielikohtaiset seikat. (Jurafsky-Martin 2000: Sect. 17.3, ss. 646-.)

tietokone
en: computer sv: dator fr: ordinateur

tietokoneavusteinen kielen kääntäminen
en: machine-aided translation
Kielen kääntäminen tietokoneen avustamana, muttei täysautomaattisesti.

tietokoneavusteinen kielen oppiminen
en: computer-assisted language learning, CALL sv: datorstödd språkinlärning fr: enseignement assistée par ordinateur
Tietokonetta ja erityisesti kieliteknologiaa hyödyntävät tietokoneohjelmat tai oppimismenetelmät.

tietokonelingvistiikka
en: computational linguistics sv: datalingvistik, datorlingvistik
Kieliteknologian ytimestä käytetty nimitys.

tietorakenne
en: data structure
Tiedolle sovittu rakenne, joka useinkin on mutkikkaampi kuin pelkkä tietue, jossa on kenttiä, joilla on tavanomaisia arvoja. Tietorakenteen sisältävät usein viittauksia ja linkkejä.

tietämys
en: knowledge

tiivistelmä
en: summary sv: sammanfattning, sammandrag

tila
en: state sv: tillstånd
Automaatti (esim. deterministinen äärellinen automaatti) on alussa ja jokaisen merkin käsittelemisen jälkeen jossakin tilassa. Automaatti siirtyy tilasta toiseen siirtymien mukaisesti.

toisinkirjoituskielioppi
en: rewrite grammar
Toisinkirjoitussäännöistä, päätesymboleista, välikesymbolista ja lähtösymbolista koostuva kielioppi.

toisinkirjoitussääntö
en: rewrite rule sv: omskrivningsregel
Esim. lausekerakennekieliopeissa käytetty sääntötyyppi, jossa säännön vasempana puolena oleva merkki (tai merkkijono) korvataan säännön oikeana puolena olevalla merkkijonona. Esim. sääntö "S --> NP VP" korvaa yhden symbolin "S" kahdella symbolilla "NP" ja "VP".

toisto
en: iteration
Erityisesti säännöllisten lausekkeiden parissa käytetty operaatio, mm. Kleenen tähti.

transfer-malli
en: transfer model
Usean kielen kesken suoritettavan konekääntämisen menettely, jossa kutakin kieltä varten on moduuli, joka analysoi kieltä ja toinen, joka generoi sitä kielikohtaisen esitysmuodon mukaan sekä erikseen kutakin kieliparia varten muunnos näiden kielikohtaisten esitysmuotojen välillä.

tuloste
en: output
Erityisesti tietokoneohjelman tai vastaavan tuottama (esim. paperille kirjoitettu tai päätteen ruudulla näytetty) tulos.

tunnistaa
en: recognize
Tunnistamisen suorittamista.

tunnistaminen
en: recognition sv: igenkänning
Virkkeen, sanan tms. tunnistaminen tarkoittaa sen hyväksymistä tai hylkäämistä annettujen sääntöjen ja sanakirjojen perusteella. Eroaa jäsentämisestä sikäli, että tunnistettaessa ei välttämättä muodosteta tai tulosteta rakennetta kuvaavaa tietoa.

tyhjä joukko
en: empty set, void set sv: tom mängd de: leere Menge fr: ensemble vide
Se joukko, jossa ei ole yhtään alkiota. Merkitään usein tanskalaisen Ö:n kaltaisella merkillä tai {}.

tyhjä merkkijono, epsilon
en: null string, epsilon sv: tom sträng, epsilon
Tyhjä merkkijono on nollan pituinen merkkijono. Tyhjä merkkijono sisältyy osajonona mihin tahansa merkkijonoon ja merkkijojon mihin kohtaan tahansa. Merkitään usein kreikan kielen epsilon-kirjaimella, mutta tietojenkäsittelytieteessä usein myös lambda-kirjaimella ja joissakin ohjelmointikielissä kahdella peräkkäisellä lainausmerkillä.

typistäminen
en: stemming sv: trunkering, stemming
Tyvien muodostaminen morfologista analyysiä karkeemmalla menetelmällä.

tyvi
en: stem, truncated word
Morfologista analyysia karkeammalla tavalla aikaansaatu taivutuspäätteistä vapaa sananmuodon alkuosa.

täydennetty rekursiivinen tilasiirtymäverkko
en: augmented transition network (ATN)
Rekursiivisen tilasiirtymäverkon muunnos, jossa siirtymiin voidaan liittää muitakin ehtoja ja operaatioita. Erityisesti osatuloksia voitiin tallettaa erityisiin rekistereihin ja niiden arvoja myöhemmin käyttää kriteerinä sekä muuttaa jo syntyneitä rakenteita. Tunnetuin ATN:n sovellus lienee varhain toteutettu kuukivien kemiallista koostumusta käsittelevä kyselyjärjestelmä LUNAR.

umpiluokka
en: closed class, closed category
Luokka, esim. sanaluokka tai sellaisen osa, johon ei katsota tulevan uusia yksiköitä (sananjohdon, lainaamisen tms. kautta).

unifikaatio, samaistus
en: unification
Kahden piirrerakenteen samaistus, jonka onnistuminen edellyttää sitä, että attribuuttien arvot ovat yhteensopivia ja jonka tuloksena syntyy piirrerakenne, jossa yhdistyvät kummankin rakenteen tiedot.

uudissana
en: neologism
Hiljattain muodostettu uusi lekseemi (eli hakusana).

vapaa morfeemi
en: free morpheme sv: fritt morfem fr: morphème libre
Morfeemi, joka ei edellytä tietynlaisia toisia morfeemeja voidakseen esiintyä. Monissa kielissä juurimorfeemit ja taipumattomat sanat ovat vapaita morfeemeja.

vartalo, (sanan vartalo)
en: stem (of a word) sv: ordstam fr: radical
Vartalosta saadaan affiksoimalla joko uusia vartaloita tai sananmuotoja (jossakin taivutusmuodossaan). Vartalo voi koostua yhdestä tai useammasta morfeemista. (R. Sproat 1992: Glossary, p. 249.)

vasemmalle rekusriivinen sääntö
en: left recursive rule
Toisinkirjoitussääntö, jossa oikean puolen ensimmäisenä on säännön vasemmassa puolessa oleva välikesymboli, esim. VP -> VP PP.

verbi, teonsana
en: verb sv: verb de: Verb fr: verbe
Sanaluokka, johon kuuluvat hakusanat kuvaavat tekemistä tai toimintaa. Esim. suomessa hakusana 'juosta' on verbi.

verkko
en: graph
Solmuista ja niitä yhdistävistä kaarista koostuva kokonaisuus, esim. äärellistilainen automaatti.

verkko
en: network
Yleensä tiloista ja siirtymistä koostuva tietorakenne. Tavallisia verkkoja ovat äärelliset automaatit, rekursiiviset tilasiirtymäverkot, ym.

virke
en: sentence sv: mening fr: phrase
Lähinnä kirjoitetussa tekstissä kokonaisuus, joka voi koostua yhdestä tai useammasta lauseesta. Virke päättyy tyypillisesti pisteeseen, huutomerkkiin tai kysymysmerkkiin.

vokaali
en: vowel sv: vokal de: Vokal fr: voyelle
Luokka kuuluvia ja äänteitä, joissa äänihuulet ovat mukana. Suomen äänteistä mm. 'a', 'e', 'i', 'o', 'u', 'y', 'ä' ja 'ö' ovat vokaaleja.

vuorovaikutteinen
en: interactive sv: interaktiv fr: interactif
Järjestelmä tai ilmiö, jossa vähintään kaksi komponenttia, esim. puhujaa vaikuttaa toiminnallaan toistensa käyttäytymiseen tai tilaan.

vuotaminen
en: bleeding
Sääntöjärjestelmän sääntöjen välillä vallitseva asiantila, jossa yhden säännön suorittaminen estää myöhemmän säännön soveltamisen. Esim. vuotamista tapahtuu, jos sääntö A muuttaa merkkijonoa niin, että sääntö B ei enää sovellukaan, vaikka ilman A:n soveltamista se olisi soveltunut. Vrt. syöttäminen

välikesymboli
en: nonterminal symbol, meta symbol
Symboli, jota toisinkirjoitussääntöjen on muutettava edelleen, jotta syntyisi kieliopin mukainen merkkijono (jossa ei enää ole välikesymboleja).

välilyönti
en: space
Kirjoituksessa kahden saneen välissä esiintyvä tyhjä tila tai erityinen välilyontimerkki.

yhdiste, unioni
en: union sv: föreningsmängd, union
Kahden joukon A ja B yhdisteellä tarkoitetaan joukkoa, joka muodostuu kaikista niistä alkioista, jotka kuuluvat ainakin jompaankumpaan joukoista A ja B (ja alkio saa kuulua molempiinkin).
Yleisemmin: nollan, yhden tai useamman joukon A1, A2, ..., Ak yhdiste on joukko, johon kuuluvat kaikki sellaiset alkiot, jotka kuuluvat edes yhteen joukoista A1, ..., Ak. Huomaa, että jos yhdiste muodostetaan nollasta joukosta, niin yhdiste on tyhjä joukko.

yhdistäminen (transduktorien yhdistäminen)
en: composition (of transducers)
Kahden transduktorin yhdistäminen siten, että yhdistetty transduktori toimii samalla tavoin kuin, jos ensimmäisen transduktorin tulostus syötetään toiselle transduktorille ja tulos on toisen transduktorin tästä muuntama merkkijono.

yhdyssana
en: compound word
Hakusana, joka koostuu useammasta kuin yhdestä juurimorfeemista, esim. 'kansaneläkelaitos' tai 'hevosajoneuvo'.

yhteydetön kielioppi, (kontekstista riippumaton kielioppi), (yhteydestä riippumaton kielioppi)
en: context-free grammar
Chomskin hierarkiassa kolmanneksi alin kielioppilaji, jossa kaikki toisinkirjoitussäännöt toisinkirjoittavat tasan yhden merkin (joka on välikesymboli).

yhteysherkkä kielioppi, (kontekstista riippuva kielioppi)
en: context-sensitive grammar
Chomskyn hierarkiassa toiseksi alin kielioppilaji, jossa toisinkirjoitussäännöissä voi olla useita merkkejä säännön vasemmassa puolessa, mutta niistä vain yksi muuttuu sääntöä sovellettaessa.

yksiselitteinen
en: unambiguous sv: entydig, otvetydig

yksiselitteistäminen
en: disambiguation sv: disambiguering fr: désambiguïsation
Moniselitteisyyden poistaminen tai sen vähentäminen.

yligenerointi
en: overgeneration
Tilanne, jossa kielioppi tai säännöstö tuottaa (tai sallii) muitakin kuin vain kieli-intuitiomme mukaisia oikeita muotoja tai virkkeitä.

ympäristö
en: context
Ympäristö tai asiayhteys, jossa esim. sane esiintyy.

äänenkorkeus
en: pitch
Puheentutkimuksessa käytetty termi puheen perustaajuudesta. Akustiikassa termiä käytetään havaitusta äänenkorkeudesta.

äärellinen automaatti
en: finite state machine, FSM
Tiloihin ja tilasiirtymiin perustuva yksinkertainen abstrakti kone. Äärellisiä automaatteja voidaan pitää yksinkertaisimpina mekanismeina, joiden avulla voidaan määritellä ei-triviaaleja. Niiden tunnistamat merkkijonojen joukot ovat säännöllisiä kieliä.

äärellinen transduktori
en: finite state transducer, FST sv: finit transduktor
Kaksinauhainen äärellinen automaatti, jonka siirtymät koostuvat yksittäisen merkin sijasta merkkipareista. Äärelliset transduktorit (FST) voidaan tulkita kolmella tavalla: (1) FST lukee ensimmäistä nauhaa ja tulostaa toista nauhaa, (2) FST lukee kahta nauhaa rinnan ja vertaa niitä, sekä (3) FST tunnistaa merkkipareja. Kaikissa tulkinnoissa merkkipareissa jompikumpi tai molemmat merkit voivat olla tyhjiä merkkejä, jolloin yhtään merkkiä ei lueta tai tulosteta.