Terms and concepts of language technology
Copyright: Kimmo Koskenniemi and other contributors 2002-2011
This term list may be freely used for research and
educational purposes using links and according to good
scientific practices and provided that proper reference is
made and only short quotations are copied away from the server.
- active chart parsing
-
fi: aktiivinen taulukkojäsennys
- Taulukkojäsennysmenetelmä, jossa on sekä inaktiivisia että aktiivisia kaaria sekä jäljellä olevien tehtävien
luettelo (eli agenda).
- active edge
-
fi: aktiivinen kaari
- Aktiivisessa taulukkojäsennyksessä oleva kahden
solmun välinen merkintä, joka kuvaa keskeneräistä rakennetta,
joka voisi alkaa vasemmanpuolimmaisesta solmusta ja, joka
toteutuu, jos oikeanpuoleisen solmun oikealta puolelta löytyy kaaren
edellyttämät osaset.
- acyclic graph
-
fi: syklitön verkko, (syklitön graafi)
- Verkko (esim. automaatti), jossa mistään
solmusta ei pääse takaisin samaan solmuun (suoraan tai käymällä
välillä toisissa solmuissa).
- adjective
-
fi: adjektiivi sv: adjektiv de: Adjektiv fr: adjectif
-
Ominaisuutta edustava sanaluokka. Adjektiivit taipuvat
monissa kielissä vertailuasteissa.
- affix
-
fi: affiksi sv: affix de: Affix fr: affixe
-
Sidottu morfeemi (muu kuin juurimorfeemi), joka liitetään vartaloon
(tavalla tai toisella). Erilaisia affikseja ovat prefiksit, suffiksit, infiksit ja sirkumfiksit.
(R. Sproat 1992: Glossary, p. 243.)
- agenda
-
fi: jäljellä olevien tehtävien luettelo
- Jäsennysmenetelmissä käytetty luettelo, johon
lisätään tarvittaessa uusia jäsennysaskelia ja josta poistetaan
tehtäviä suorittamalla ne.
- agglutinating language
-
fi: agglutinoiva kieli sv: agglutinerande språk de: agglutinierende Sprache fr: langue agglutinante
-
Kieli, jossa sananmuotojen morfeemit ovat
selvästi tunnistettavissa ja niitä voidaan tyypillisesti liittää
useampia samaan sanan juurimorfeemiin.
Turkin ja suomen kielet ovat tyypillisiä agglutinoivia kieliä. Esim.
sananmuoto 'epä-järje-st-elmä-llis-ty-ttä-mä-ttö-myyde-llä-nsä'
sisältää monta morfeemia, joista yksi on vapaa ('järje' eli 'järki')
ja muut ovat sidonnaisia. Kaikki jaon mukaiset morfeemit ovat tässä
jokseenkin samantapaisia kuin esiintyessään muissa sananmuodoissa.
- alignment
-
fi: kohdistus
- Kaksi- tai useampikielisten tekstien tai
ilmausten kohdistaminen eriasteisesti, esim. siten että
kappaleiden, virkkeiden, lauseiden, lausekkeiden tai saneiden
vastaavuus on merkitty.
- allomorph
-
fi: allomorfi sv: allomorf de: Allomorph fr: allomorphe
-
Saman morfeemin keskenään erilaisia
ilmenemismuotoja kutsutaan allomorfeiksi. Esim. hakusanan "käsi"
juurta vastaavalla morfeemilla, voi olla useita allomorfeja kuten
"käsi", "käde", "käte" ja "kät". Termiä allomorfi käytetään silloin,
kun puhutan morfien suhteesta toisiinsa. Termiä morfi käytetään yksittäisestä morfeemin ilmentymästä.
(F. Karlsson 1998: Luku 4.2.5. ss. 94 ff.)
(R. Sproat 1992: Glossary, p.
243.)
- alphabet
-
fi: aakkosto sv: alfabet de: Alphabet fr: alphabet
- Äärellinen joukko aakkosmerkkejä, esim. kirjaimia. Aakkoston
merkeistä muodostetaan merkkijonoja.
- ambiguity
-
fi: moniselitteisyys sv: mångtydighet, flertydighet, ambiguitet, dubbeltydighet, tvetydighet de: Mehrdeutigkeit fr: ambiguïté
- Moniselitteisyydellä
tarkoitetaan sitä, että yhdellä sananmuodolla,
lauseella tai virkkeellä on useampia kuin yksi tulkinta. Esim. suomen
kielen sananmuoto "katosta" on moniselitteinen, koska sillä on kaksi
eri luentaa: (1) "katto"-sanan elatiivi ja (2) "katos"-sanan
partitiivi.
- annotation
-
fi: annotointi, varustaminen (kieliopillisilla) koodeilla sv: annotering
- Sanan, virkkeen tms.
varustaminen kieliopillista rakennetta tai kategoriaa osoittavilla leimoilla (engl. tag) tai muilla merkinnöillä.
Annotointia voidaan suorittaa joko käsin tai automaattisesti, esim. jäsentämällä. Termiä käytetään erityisesti
tekstikorpusten ja puhekorpusten yhteydessä.
- any symbol
-
fi: mikä tahansa merkki
- Säännöllisissä lausekkeissa käytetty merkintä,
joka vastaa yhtä, mitä tahansa annetun aakkoston merkkiä. Unixin
säännöllisissä lausekkeissa tästä käytetään merkintää "?" ja
matemaattisemmissa merkintätavoissa joskus isoa kreikkalaista
sigmaa.
- application
-
fi: sovellus sv: tillämpning, applikation
- assisted
-
fi: avusteinen sv: stödd fr: assisté par
- Yhdyssanan jälkiosana, esim. tietokoneavusteinen,
teknologia-avusteinen jne.
- attribute
-
fi: attribuutti, ominaisuus
- Erityisesti unifikaatiopohjaisissa
piirrekieliopeissa käytetty ominaisuuden käsite. Attribuuttien arvot
voivat olla niissä rakenteeltaan hierarkkisia ja joidenkin
attribuuttien arvot voidaan samaistaa.
- attribute value pair
-
fi: attribuutti - arvo pari
-
Attribuutin ja sen arvon
muodostama pari.
- augmented transition network (ATN)
-
fi: täydennetty rekursiivinen tilasiirtymäverkko
- Rekursiivisen tilasiirtymäverkon muunnos, jossa
siirtymiin voidaan liittää muitakin ehtoja ja operaatioita.
Erityisesti osatuloksia voitiin tallettaa erityisiin rekistereihin ja
niiden arvoja myöhemmin käyttää kriteerinä sekä muuttaa jo syntyneitä
rakenteita. Tunnetuin ATN:n sovellus lienee varhain toteutettu
kuukivien kemiallista koostumusta käsittelevä kyselyjärjestelmä LUNAR.
- authorship attribution
-
fi: kirjoittajan tunnistaminen
- Menetelmät, joilla pyritään tunnistamaan
tekstin kirjoittaja, josta ei etukäteen ole varmuutta.
- backtracking
-
fi: peruutus
- Hallittu luopuminen etsinnän (tai jäsennyksen)
vaihtoehdosta ja paluu aimpaan valintakohtaan, josta otetaan
kokeiltavaksi seuraava vuorossa oleva vaihtoehto.
- bleeding
-
fi: vuotaminen
- Sääntöjärjestelmän sääntöjen välillä vallitseva
asiantila, jossa yhden säännön suorittaminen estää myöhemmän säännön
soveltamisen. Esim. vuotamista tapahtuu, jos sääntö A muuttaa
merkkijonoa niin, että sääntö B ei enää sovellukaan, vaikka ilman A:n
soveltamista se olisi soveltunut. Vrt. syöttäminen
- bottom-up parsing
-
fi: kokoava jäsentäminen
- Jäsentäminen, jossa muodostetaan ensin lyhyet
kokonaisuudet, joita yhdistelemällä edetään isompiin rakenteisiin.
- bound morpheme
-
fi: sidonnainen morfeemi sv: bundet morfem de: gebundenes Morphem fr: morphème lié
-
Morfeemi, joka ei voi esiintyä sellaisenaa, vaan
edellyttää lähelleen tietynlaisen toisen morfeemin. Esim. useissa
kielissä sananjohtimet ja taivutuselementit ovat sidonnaisia
morfeemeja.
- breadth-first (search or parsing)
-
fi: leveyssuuntainen (haku tai jäsennys)
- Haku tai jäsennys, jossa eri vaihtoehtoja
edistetään rinnakkainyhtä pitkälle tai syvälle ennen, kuin mennään
eteenpäin.
- cartesian product
-
fi: karteesinen tulo sv: kartesisk produkt de: Kartesisches Produkt fr: produit cartésien
- Kahden joukon A ja B
karteesisella tulolla tarkoitetaan kaikkien niiden parien (x,y)
joukkoa, missä x kuuluu A:han ja y kuuluu B:hen.
- case
-
fi: sija sv: kasus de: Kasus fr: cas
- Lähinnä substantiivien
taivutuksen kategoria. Tyypillisiä sijamuotoja ovat nominatiivi,
genetiivi, datiivi, jne.
- categorial grammar
-
fi: kategoriakielioppi
- Kielioppimalli, joka rakentuu yksinkertaisten
ja niistä yhdistelemällä muodostettujen mutkikkaampien kategorioiden
varaan, jotka itsesään määrittelevät jäsennystä varten, mitkä osaset
voidaan liittää yhteen ja mitä yhdistelmästä tulee.
- category
-
fi: kategoria
- Jokin toisensa pois sulkevista luokista kuten
sanaluokka tai syntaktinen ominaisuus kuten substantiivilauseke tai
adverbiaali.
- chart
-
fi: taulukko
-
Taulukkojösennyksessä
käytetty tietorakenne, joka sisältää välitulokset (mutta ei
välttämättä luetteloa jäljellä olevista tehtävistä).
- chart parsing
-
fi: taulukkojäsennys
- Jokin jäsennysmenetelmistä joka, perustuu
taulukkomaiseen tietovarastoon, joka ohjaa jäsennystä taaten sen, että
kaikki vaihtoehdot tulevat kertaalleen tarkistetuiksi. Yleensä
taulukkojäsennys käyttää monimutkaisempaa tietorakennetta kuin pelkkää
hyvinmuodostettujen osajonojen taulukkoa. Taulukkoon sisältyy
useimmiten tällaisen lisäksi välivaiheita ja ohjeita siitä, miten
kustakin välituloksesta jatketaan eteenpäin.
- Chomsky hierarchy
-
fi: Chomskyn hierarkia
- Toisinkirjoituskielioppeja koskeva hierarkia,
joka luokittelee kieliopit rajoittamattomiin (nollannen lajin),
kontekstista riippuviin (ensimmäisen lajin), kontekstista
riippumattomiin (toisen lajin) ja säännöllisiin (kolmannen lajin)
kielioppeihin. Vastaava hierarkia koskee formaaleja kieliä sen
mukaan, minkälajinen kielioppi niiden määrittelemiseksi
tarvitaan.
- chunk
-
fi: pätkä
- Pätkäjäsennyksessä esiintyvä
yhden tai useamman peräkkäisen saneen muodostama jakso virkkeestä,
jolla ei ole hierarkkista rakennetta, mutta jakso koostuu
syntaktisesti yhteen kuuluvista saneista.
- chunk parsing
-
fi: pätkäjäsennys
- Pätkäjäsennyksessä virke jaetaan
ensin pätkiksi, jotka koostuvat peräkkäisistä saneista. Pätkien
hierarkiaa ei pyritä määrittämään vielä pätkimisvaiheessa vaan vasta
sen jälkeen.
- circumfix
-
fi: sirkumfiksi sv: cirkumfix fr: circumfixe
-
Sananvartalon ympärille liitettävä sidonnainen morfeemi, jossa
sirkumfiksin toinen osa liitetään vartalon eteen ja toinen osa vartalon
jälkeen. Esimerkiksi saksan verbitaivutuksessa esiintyy sirkumfiksi
'ge-...-en' kuten muodossa 'ge-schloss-en'.
- clause
-
fi: lause sv: sats fr: proposition
- Toisiinsa liittyvistä
sananmuodoista koostuva yksikkö, jossa tyypillisesti on yksi
finiittiverbi (eli predikaatti) ja siihen mahdollisesti liittyviä
nominaalisia jäseniä.
- clitic particle
-
fi: liitepartikkeli sv: enklitisk partikel fr: particule enclitique
- Sanaan liitetty
varsinaisen taivutuksen kannalta perifeerinen affiksi. Esim. suomen
kielessä sananmuodossa 'tuletko' lopussa oleva 'ko' on
liitepartikkeli, jolla on lähinnä tehtävänä osoittaa
kysymyslausetta.
- closed class, closed category
-
fi: umpiluokka
- Luokka, esim. sanaluokka tai sellaisen osa,
johon ei katsota tulevan uusia yksiköitä (sananjohdon, lainaamisen
tms. kautta).
- cluster
-
fi: ryväs
- Jollakin menetelmällä tunnistettu yhteen
kuuluvien tai lähekkäisten yksiköiden muodostama rymä,
esim. joukko samanlaisissa ympäristöissä esiintyviä sanoja.
- clusterning
-
fi: ryvästys, ryhmittely
- Yhteen kuuluvien tai lähekkäisten yksiköiden
muodostamien ryhmien löytäminen esim. tarkoitukseen kehitetyn
algoritmin avulla.
- collocation
-
fi: myötäesiintymä, kollokaatio sv: kollokation
- Vähitään kahdesta saneesta
koostuva yhdistelmä, joissa sanoilla on lähinnä merkityksensä
peruseella taipumus esiintyä yhdessä. Myötäesiintymät ovat usein esim.
sanaliittoja tai verbin ja sen argumentin yhdistelmiä, mutta niiden ei
tarvitse olla kieliopillisesti selvärajaisia kokonaisuuksia.
- competence
-
fi: kompetenssi sv: kompetens, förmåga
- Kompetenssilla tarkoitetaan
puhujan ja kuulijan sisäistämää tietoa kielestään. Puhuja tai kuulija
ei ole selvillä tämän tiedon muodosta, mutta osaa käyttää sitä
tuottaakseen oikeanmuotoisia virkkeitä ja kuulemiensa tai lukemiensa
virkkeiden tulkitsemiseksi.
(Chomsky 1965: §1, s. 4 ym.)
- complement
-
fi: komplementti sv: komplement, fyllnadsled
- Joukon A komplementti ~A
muodostuu kaikista niistä (perusjoukon) alkioista, jotka eivät kuulu
A:han. Joukon A komplementista puhuttaessa on siis huolehdittava siitä,
että tiedetään, minkä perusjoukon alkioista joukko A muodostuu.
- composition (of transducers)
-
fi: yhdistäminen (transduktorien yhdistäminen)
- Kahden transduktorin yhdistäminen siten, että
yhdistetty transduktori toimii samalla tavoin kuin, jos ensimmäisen
transduktorin tulostus syötetään toiselle transduktorille ja tulos on
toisen transduktorin tästä muuntama merkkijono.
- compositionality
-
fi: kompositionaalisuus
- Kielen laajemman rakenteen kuvailun
johdonmukainen muodostuminen sen osasten rakenteiden kuvailusta.
- compound word
-
fi: yhdyssana
- Hakusana, joka koostuu useammasta kuin yhdestä
juurimorfeemista, esim. 'kansaneläkelaitos' tai 'hevosajoneuvo'.
- computational complexity
-
fi: laskennallinen vaativuus, laskennallinen kompleksisuus
- Laskennallisten menetelmien ajan tai tilan
tarvetta koskeva arvio, jossa kiinnitetään erityisesti huomiota
tehtävän vaativuuden kasvuun tehtävän koon kasvaessa.
- computational linguistics
-
fi: tietokonelingvistiikka sv: datalingvistik, datorlingvistik
- Kieliteknologian ytimestä käytetty nimitys.
- computer
-
fi: tietokone sv: dator fr: ordinateur
- computer-assisted language learning, CALL
-
fi: tietokoneavusteinen kielen oppiminen sv: datorstödd språkinlärning fr: enseignement assistée par ordinateur
-
Tietokonetta ja erityisesti kieliteknologiaa hyödyntävät
tietokoneohjelmat tai oppimismenetelmät.
- concatenation
-
fi: peräkkäinasettelu, (konkatenaatio)
-
Peräkkäinasettelulla muodostetaan merkkijonoista A ja B merkkijono AB,
jossa on ensin kaikki A:n merkit a1, ..., ak järjestyksessä ja sitten
kaikki B:n merkit b1, ..., bj myös järjestyksessä. AB:n pituus |AB| =
|A| + |B|.
-
Paitsi merkkijonoja, voidaan myös merkkijonojen joukkoja (eli
formaaleja kieliä) asetella peräkkäin. Kahden (formaalin) kielen P ja
Q peräkkäinasettelu P Q on niiden merkkijonojen C = A B joukko, jossa
A kuuluu P:hen ja B kuuluu Q:hun. Yleistettävissä luonnollisella
tavalla yhdelle tai useammalle joukolle.
- concordance
-
fi: konkordanssi
-
Hakemistona toimiva luettelo esim. sananmuotojen esiintymistä,
jossa annetaan tieto ainakin esiintymän sijainnista korpuksessa,
mutta useimmiten myös esiintymän lähiympäristöstä eli
kontekstista. Tyypillisiä konkordansseja ovat
ns. KWIC-konkordanssit (keyword in context), joissa esiintymät
ovat alakkain ja ne on kohdistettu alkamaan tai päättymään
samalta kohdalta.
- conjunction
-
fi: konjunktio
- Partikkeli, jonka avulla rinnastetaan tai
alistetaan lauseen osia toisiin osiin.
- consonant
-
fi: konsonantti
- Äänne, joka ei ole vokaali, esim. suomen
kielessä mm. 'k', 's', 'm'.
- context
-
fi: ympäristö
- Ympäristö tai asiayhteys, jossa esim. sane
esiintyy.
- context-free grammar
-
fi: yhteydetön kielioppi, (kontekstista riippumaton kielioppi), (yhteydestä riippumaton kielioppi)
- Chomskin hierarkiassa kolmanneksi alin
kielioppilaji, jossa kaikki toisinkirjoitussäännöt toisinkirjoittavat
tasan yhden merkin (joka on välikesymboli).
- context-sensitive grammar
-
fi: yhteysherkkä kielioppi, (kontekstista riippuva kielioppi)
- Chomskyn hierarkiassa toiseksi alin
kielioppilaji, jossa toisinkirjoitussäännöissä voi olla useita
merkkejä säännön vasemmassa puolessa, mutta niistä vain yksi muuttuu
sääntöä sovellettaessa.
- coordination
-
fi: rinnastus, koordinaatio
- Kahden samankategoriaisen tai muuten
samanarvoisen rakenteen liittyminen yhteen.
- corpus
-
fi: korpus
-
Tiettyjä tarkoituksia varten koottu kieliaineisto,
esim. tekstikorpus tai puhekieltä sisältävä korpus.
- crowdsourcing
-
fi: talkoistaminen
-
Tehtävän teettäminen (avoimen kutsun avulla) etukäteen
määrittelemättömän (yleensä laajan) vapaaehtoisten tekijöiden
joukon toimesta.
- data structure
-
fi: tietorakenne
- Tiedolle sovittu rakenne, joka useinkin on
mutkikkaampi kuin pelkkä tietue, jossa on kenttiä, joilla on
tavanomaisia arvoja. Tietorakenteen sisältävät usein viittauksia ja
linkkejä.
- default value
-
fi: oletusarvo
- Arvo, joka esim. attribuutilla katsotaan olevan
silloin, kun mitään arvoa ei ole nimenomaisesti annettu.
- definite clause grammar (DCG)
-
fi: DCG-kielioppi
- Kontekstiton kielioppi, jonka sääntöjä on
täydennetty logiikkaohjelmoinnin (definite clause) lisäehdoin.
- dependency grammar
-
fi: dependenssikielioppi
- Kielioppimalleja, joissa rakenne ilmaistaan
konstituenttien sijasta regentti - dependentti -suhteina (eli pääsana
- määritesuhteina).
- depth-first (search or parsing)
-
fi: syvyyssuuntainen (haku tai jäsennys)
- Haku tai jäsennys, jossa edetään yhtä haaraa
niin pitkälle kuin päästään ennen, kuin peruutetaan (mahdollisimman
vähän) ja kokeillaan toisia vaihtoehtoja.
- determinism
-
fi: determinismi
- Jäsennysmenetelmien ominaisuus välttää
peruutusta ja välitulosten turhaan tai uudellen laskemista ja löytää
ensimmäisellä yrityksellä lopullinen rakennekuvaus.
- deterministic finite-state automaton (FSA), deterministic finite-state machine (FSM)
-
fi: deterministinen äärellinen automaatti sv: ändlig automat
-
Äärellisen automaatin tehtävänä on hyväksyä tai hylätä merkkijonoja,
jotka koostuvat annetun aakkkoston merkeistä.
Äärellisesä automaatissa on joukko tiloja Q ja se
toimii siirtymällä tunnistettavan merkkijonon kunkin kohdalla tilasta
toiseen (tai samaan tilaan). Tiloja kuvataan usein ympyröillä.
Siirtyminen tapahtuu ns. tilasiirtymien
mukaisesti. Siirtymiä kuvataan usein nuolella, joka lähtee
tämänhetkisestä tilasta ja päättyy uuteen tilaan. Ollakseen
deterministinen, kustakin tilasta saa lähteä enintään yksi siirtymä
millekään aakkoston merkille. Eräs tiloista on alkutila q0 ja automaatti on ennen ensimmäisen merkin
tunnistamista siinä tilassa. Automaatti hylkää merkkijonon mm. jos
jossakin kohdassa sille ei ole vuorossa olevaa merkkiä varten
siirtymää. Osa automaatin kaikista tiloista merkitään ns. lopputiloiksi Qf, joka tarkoittaa sitä, että jos
automaatti on saanut siirrytyksi merkkijonon kaikilla merkeillä ja
päätyy yhteen näistä lopputiloista, automaatin katsotaan hyväksyneen
merkkijonon. Jos automaatti päätyy lopuksi muuhun kuin lopputilaan,
automaatin katsotaan hylänneen merkkijonon.
(Jurafsky-Martin 2000: Section 2.2,
ss. 33-49.)
- determinization (of an automaton)
-
fi: determinisointi (automaatin determinisointi)
- Automaatin (usein äärellisen automaatin)
muuntaminen sellaiseksi, että siitä tulee deterministinen.
- dialect
-
fi: murre sv: dialekt de: Dialekt fr: dialecte
- Tyypillisesti jonkin alueen
poikkeava kielimuoto. Poikkeavuus on tyypillisesti ääntämykseen
perustuva ja jossain määrin sanaston ja taivutusmuotojen erilaisuuten
perustuvaa. Saman kielen eri murteiden puhujat ymmärtävät usein
toisiaan.
(F. Karlsson 1998: Luku 9, ss. 250-.)
- dialogue
-
fi: keskustelu, dialogi sv: dialog de: Dialog fr: dialogue
- Yleensä puheen (ja joskus kirjoitetun tekstin)
avulla taphtuva vuorovaikutus.
- dictionary
-
fi: sanakirja
- Kirjan muotoon tai tietokoneohjelmaksi laadittu
luettelo, joka kattaa huomattavan osan jonkin kielen hakusanoista.
Sanakirjat antavat usein tietoa sanojen käytöstä ja merkityksistä.
Sanakirjoja on yksikielisiä ja kaksikielisiä. Kaksikielisissä
sanakirjoissa annetaan käännösvastineita.
- digit
-
fi: numeromerkki sv: sifferkod
-
Kymmenjärjestelmässä on kymmenen numeromerkkiä (0, 1, 2, ...,
9), joiden avulla muodostetaan lukuja.
- directed acyclic graph (DAG)
-
fi: suunnattu syklitön verkko (DAG)
- Solmuista ja suunnatuista solmuja yhdistävistä
kaarista koostuva syklitön verkko. Unifikaatiopohjaiset
piirrekielipit rakentuvat DAGien varaan.
- directed graph
-
fi: suunnattu verkko, (suunnattu graafi)
- Verkko, jossa solmuja yhdistävät kaaret ovat
suunnattuja.
- disambiguation
-
fi: yksiselitteistäminen sv: disambiguering fr: désambiguïsation
- Moniselitteisyyden poistaminen tai sen
vähentäminen.
- discovery procedure
-
fi: keksimismenetelmä sv: upptäcktsprocedur fr: procédure de découverte
-
Menetelmä, jonka avulla voidaan (jokseenkin) mekaanisesti päätellä
kieliopillisia sääntöjä, joilla kuvataan määrätyn kielen syntaksia,
morfologiaa, fonologiaa tms. Vrt. koneoppiminen.
- distance
-
fi: etäisyys
-
Todellinen tai abstrakti välimatka kahden pisteen tai muun
yksikön, esim. sanojen välillä. Etäisyydeksi kelpuutetaan
yleensä sellaisia mittoja, joissa yksikön etäisyys itseensä on 0
ja muihin jotakin positiivista. Mieluusti myös ns.
kolmioepäyhtälö saisi toteutua, ts. etäisyys (A,C) olisi aina
enintään yhtäsuuri kuin etäisyyksien (A,B) ja (B,C) summa.
- document classification
-
fi: dokumenttien luokittelu sv: dokumentklassificering
- Dokumentien luokittelussa pyritään saapuvat
viestit luokittelemaan ennalta määriteltyihin luokkiin esim. niiden
toimittamiseksi oikealle käsittelijälle.
- dotted rule
-
fi: pisteellä varustettu toisinkirjoitussääntö
- Taulukkojäsennyksissä käytetty sääntö, jossa
oikeaan puoleen eli säännön toisinkirjoitusosaan on lisätty piste.
Pisteen edellä olevat osat kuvaavat jo tunnistettua osaa ja sen
oikealla puolella olevat osat vielä löytymättömiä osia, jotka
tarvittaisiin, jotta kokonainen konstituentti saataisiin
muodostetuksi.
- dynamic programming
-
fi: dynaaminen optimointi
-
Eräs optimointiperiaate, joka pitää kirjaa tähänastisesta
kustannuksesta kuhunkin välitavoitteeseen ja etsii siitä
päätavoitetta kohti todennäköisiä optimaalisia reittejä.
Esimerkiksi Viterbin algoritmi on eräs dynaamisen optimoinnin
laji.
- edge
-
fi: kaari
- Aktiivisessa taulukkojäsennyksessä peräkkäisiä
saneita kuvaava merkintä. Kaaret ovat joko inaktiivisia tai
aktiivisia kaaria. Edelliset kuvaavat valmiita ja kokonaisia
rakenneosia, jälkimmäiset hypoteeseja siitä, että jakso voisi aloittaa
kyseistä kategoriaa olevan rakenteen.
- element
-
fi: alkio sv: element de: Element fr: élément
- Alkio on jokin, mikä
tahansa, joka voi kuulua joukkoon eli alkioista muodostuu joukkoja.
Alkiot voivat olla samoja, vaikka niiden kuvailut näyttävät
erilaisilta, esim. "Jaakob" ja "Jaakobin poikien isä", tai "luku 2" ja
"lukujen 22 ja 14 suurin yhteinen tekijä".
- empty set, void set
-
fi: tyhjä joukko sv: tom mängd de: leere Menge fr: ensemble vide
- Se joukko, jossa ei ole yhtään
alkiota. Merkitään usein tanskalaisen Ö:n kaltaisella merkillä tai
{}.
- entry
-
fi: merkintä
-
Lekseemiä, morfeemia tms. vastaava leksikkoon lisätty tieto.
- epsilon-transition
-
fi: epsilon-siirtymä, tyhjä siirtymä
-
Siirtymä automaatin tilasta toiseen ilman,
että syötteenä olevasta merkkijonosta kulutetaan yhtään merkkiä.
- expert system
-
fi: asiantuntijajärjestelmä
- Päättelysääntöihin perustuva tietokoneohjelma,
joka jäljittlelee ihmisasiantuntija tietämystä tietystä
erikoisalasta.
- expression (in a formal system)
-
fi: lauseke (formaalissa järjestelmässä)
-
Formaalin järjestelmän alkioiden tai niiden yhdistelmien
muodostama tiettyjen sääntöjen mukaan muodostettu kokonaisuus.
Esim. säännöllinen lauseke,
aritmeettinen lauseke. Vrt luonnollisen kielen ilmaus ja fraasi eli lauseke.
- expression (in natural language)
-
fi: ilmaus
- Luonnollisen kielen sanoista koostuva
yhdistelmä, jolla on jokin mielekäs tarkoite tai käyttö. Esim. "ajan
ilmaukset". Vrt. formaalien järjestelmien lauseke ja lauseopillinen luonnollisen
kielen lauseke
- feeding
-
fi: syöttäminen
- Sääntöjärjestelmissä esiintyvä tilanne, jossa
säännön soveltaminen riippuu edeltävän säännön tuottamasta tuloksesta.
Sanotaan esim. että sääntö A syöttää sääntöä B, jos sen soveltaminen
tulee mahdolliseksi sillä, että A:n soveltaminen on tuottanut
merkkijonoon osia, joita B edellyttää. Vrt. vuotaminen.
- final state
-
fi: lopputila
- Automaatti, mm. deterministinen äärellinen
automaatti, hyväksyy syötteenä olevan merkkijonon, jos se päätyy
viimeisen merkin jälkeen lopputilaksi merkittyyn tilaan.
- finite state machine, FSM
-
fi: äärellinen automaatti
-
Tiloihin ja tilasiirtymiin perustuva yksinkertainen abstrakti kone.
Äärellisiä automaatteja voidaan pitää yksinkertaisimpina mekanismeina,
joiden avulla voidaan määritellä ei-triviaaleja. Niiden tunnistamat
merkkijonojen joukot ovat säännöllisiä kieliä.
- finite state transducer, FST
-
fi: äärellinen transduktori sv: finit transduktor
-
Kaksinauhainen äärellinen automaatti, jonka siirtymät koostuvat
yksittäisen merkin sijasta merkkipareista. Äärelliset transduktorit
(FST) voidaan tulkita kolmella tavalla: (1) FST lukee ensimmäistä
nauhaa ja tulostaa toista nauhaa, (2) FST lukee kahta nauhaa rinnan ja
vertaa niitä, sekä (3) FST tunnistaa merkkipareja. Kaikissa
tulkinnoissa merkkipareissa jompikumpi tai molemmat merkit voivat olla
tyhjiä merkkejä, jolloin yhtään merkkiä ei lueta tai
tulosteta.
- formal language
-
fi: formaali kieli sv: formellt språk fr: langage formel
- Formaaliksi kieleksi kutsutaan
annetun aakkoston symboleista muodostettuja merkkijonojen joukkoja. Matematiikan ja
tietojejkäsittelytieteen piirissä käytetään usein termiä "kieli"
(language) merkityksessä "formaali kieli".
- free morpheme
-
fi: vapaa morfeemi sv: fritt morfem fr: morphème libre
-
Morfeemi, joka ei edellytä tietynlaisia toisia
morfeemeja voidakseen esiintyä. Monissa kielissä juurimorfeemit ja
taipumattomat sanat ovat vapaita morfeemeja.
- functionality
-
fi: funktionaalisuus
-
Äärellisen transduktorin sanotaan olevan funktionaalinen, jos
sen määrittelemä relaatio on yksiselitteinen, eli mitään
lähtömerkkijonoa ei vastaa kaksi eri tulosmerkkijonoa.
- gender
-
fi: suku
- Hakusanat luokitellaan useissa kielissä
sukuihin, joita on yleensä muutama. Esim. saksan kielessä on kolmea
lajia substantiiveja: maskuliinisia, feminiinisiä ja neutreja.
- generalization
-
fi: generalisaatio
- Unifikaatiota vastaava toinen piirrerakenteita
koskeva operaatio, jonka tuloksena on rakenne, jossa on kummallekin
operandille yhteiset piirrerakenteen osat. Generalisaatio onnistuu
kuitenkin aina.
- generation
-
fi: generointi, tuottaminen
- Jäsentämiselle käänteinen operaatio, jossa
allolevasta rakenteesta tms. tuotetaan virke tai sananmuoto.
- GPSG, generalized phrase structure grammar
-
fi: GPSG, yleistetty lausekerakennekielioppi
- Kontekstista riippumattoman
toisinkirjoituskieliopin yleistys, jossa vähemmällä määrällä sääntöjä
voidaan kuvata yhtäpitävä tavanomainen kontekstista riippumaton
kielioppi mm. ns. metasääntöjen avulla.
- grammar checking
-
fi: kieliopillisuuden tarkistaminen
- Kirjoittajan apuväline, joka etsii tekstistä
kieliopin tai hyvän kielenkäytön vastaisia ilmauksia ja kenties
ehdottaa niille korjauksia.
- grammatical word
-
fi: kieliopillinen sana sv: formord, funktionsord, grammatiskt ord
-
Sananmuodon morfologisen analyysin tuloksena saatava kokonaisuus, joka
koostuu hakusanasta ja siihen liittyvistä
sanaluokkaa ja taivutusmuotoa koskevista piirteistä. Esimerkiksi suomen
sananmuotoa 'katolla' vastaa kieliopillinen sana "katto+N+SG+ADE".
Piirteet esitetään ns. leimoina, joita esimerkissä on kolme.
- graph
-
fi: verkko
- Solmuista ja niitä yhdistävistä kaarista
koostuva kokonaisuus, esim. äärellistilainen automaatti.
- head
-
fi: pääsana, pääkonstituentti
- Lähinnä kieliopillisissa rakenteissa kahden
(tai useamman) osasen muodostaman rakenteen tärkeämpi osa, joka määrää
kokonaisuuden laadun (enemmän kuin määrite). Riippuu paljon
kielioppimallista, mikä osa katsotaan rakenteen
pääkonstituentiksi.
- hidden Markov model, HMM
-
fi: Markovin piilomalli sv: dold Markovmodell fr: modèle de Markov caché
-
Markovin mallista johdettu
tilastollispohjainen malli, jollaista käytetään mm.
puheentunnistuksessa valitsemaan puhesignaaliin todennäköisimmin
sopivia äänteitä. Piilomallille ominaista on se, että tiloista ei
saada suoraa vaan välillistä ja probabilistista tietoa.
- hyperonyme
-
fi: hyperonyymi, yläkäsite
- Laajempi käsite, joka sisältää annetun
käsitteen osanaan eli alakäsitteenään.
- hypertext
-
fi: hyperteksti
- Teksti, joka sisältää vapaasti linkkejä eli
viittauksia tekstin muihin kohtiin tai toisiin teksteihin. Verkkosivut
ovat tyypillisesti hypertekstejä.
- hyphenation
-
fi: tavutus sv: avstavning
- Saneiden jakaminen rivin lopussa, kun ne eivät
mahdu kokonaisena.
- hyponyme
-
fi: hyponyymi, alakäsite
- Suppeampi käsite, joka sisältyy annettuun
laajempaan käsitteeseen.
- idiolect
-
fi: idiolekti
- Yksittäisen henkilön käyttämä tapa käyttää
(äidin)kieltään.
- index term
-
fi: indeksitermi sv: indexterm
- Tyypillisesti kirjan takana oleva
asiahakemisto koostuu indeksitermeistä.
- indexing
-
fi: indeksointi sv: indexering
- Indeksitermien tunnistaminen tekstistä
(automaattisin menetelmin tai ihmisen toimesta).
- inference
-
fi: inferenssi, päättely
- Uusien faktojen päättely jo todennetuista tai
uusien olettamusten johteminen aiemmista olettamuksista. Inferenssi
perustuu päättelysääntöihin.
- infix
-
fi: infiksi sv: infix fr: infixe
-
Sananvartalon keskelle liitettävä sidonnainen
morfeemi. Infiksillä ilmaistaan tyypillisesti sananjohdoksia tai
taivutusmuotoja.
- inflection
-
fi: taipuminen, taivutus sv: böjning fr: flexion
- Hakusanoista
muodostetaan sananmuotoja mm. taivuttamalla niitä erilaisiin
taivutusmuotoihin. Taivuttaminen voi tapahtua lisäämällä affikseja
tai taivutus voi ääritapauksessa ilmetä vain äännemuutoksina.
- information extraction, IE
-
fi: tiedon eristäminen
-
Menetelmiä tietyntyyppisten ilmausten, esim. henkilöiden tai
firmojen nimien tunnistamiseksi juoksevasta tekstistä.
- information retrieval
-
fi: tiedonhaku sv: informationssökning
- Tiedonhaulla tarkoitetaan
yleensä automaattisia menetelmiä, joilla haluttuja dokumentteja
voidaan löytää niissä olevien sanojen ja ilmausten perusteella
suuresta dokumenttitietokannasta. Tiedonhakua voi vaikeuttaa useissa
kielissä esiintyvä sanojen taipuminen ym. kielikohtaiset seikat.
(Jurafsky-Martin 2000: Sect. 17.3, ss. 646-.)
- inheritance
-
fi: periminen
- Ominaisuuksien, piirteiden tms. periytyminen
yleisemmästä erityisempään. Periminen on keskeistä
mm. oliokeskeisessä ohjelmoinnissa, jossa erityisemmät tietuemallit ja
olioiden käsittelyfunktiot saavat oletusarvoja yleisemmän tason
malleista ja funktioista. Kielen mallintamisessa periytymistä voidaan
soveltaa esimerkiksi leksikaalisten yksiköiden määrittelemisessä,
ontologiassa ja piirrepohjaisissa kielioppimalleissa.
- input
-
fi: syöte
- Esimerkiksi tietokoneohjelman tai vastaavan
järjestelmän lukema tieto, jota ohjelma käsittelee.
- interactive
-
fi: vuorovaikutteinen sv: interaktiv fr: interactif
-
Järjestelmä tai ilmiö, jossa vähintään kaksi komponenttia,
esim. puhujaa vaikuttaa toiminnallaan toistensa käyttäytymiseen
tai tilaan.
- intersection
-
fi: leikkaus sv: intersektion, skärningspunkt de: Durchschnitt
-
Kahden joukon A ja B leikkauksella tarkoitetaan joukkoa, johon
kuuluvat täsmälleen ne alkiot, jotka kuuluvat sekä A:han että B:hen.
-
Yleisemmin: joukkojen A1, A2, ..., Ak leikkauksella B tarkoitetaan
joukkoa, joka muodostuu niistä alkioista, jotka kuuluvat jokaiseen
näistä joukoista A1, ..., Ak. Jos leikkaus muodostetaan nollasta
joukosta, on johdonmukaista sopia, että leikkaus on silloin yhtä kuin
perusjoukko (sillä kukin joukoista on rajoite ja tällöin rajoituksia
ei olisi).
- intonation
-
fi: intonaatio, sävelkulku
- Saneiden ja virkkeiden ääntämiseen liittyvä
sävelkulku, joka joko myötäilee äännettävän ilmauksen rakennetta tai
toisinaan sisältää osan ilmauksen merkityksen oikean ymmärtämisen
kannalta tärkeätä tietoa.
- isolating language
-
fi: isoloiva kieli sv: analytiskt språk, isolerande språk de: isolierende Sprache fr: langue analytique
-
Kieli, jossa sanat eivät taivu. Taivutuspäätteiden ja -prefiksien
ym. sidonnaisten morfeemien sijasta käytetään esim. prepositioita ja
postpositioita.
- iteration
-
fi: toisto
-
Erityisesti säännöllisten
lausekkeiden parissa käytetty operaatio, mm. Kleenen tähti.
- Kleene star
-
fi: Kleenen tähti sv: Kleene-stjärna de: Kleene-Stern fr: étoile de Kleene
-
Operaattori, jolla ilmaistaan merkkien tai merkkijonojoukkojen
toistoa nolla kertaa, yhden kerran tai
useampia kertoja. Esim. merkintä "(ab)*" tarkoittaa
merkkijonoja {"", "ab", "abab", "ababab", ...}.
- Kleene-plus
-
fi: Kleenen plus
- Sännöllisten lausekkeiden operaattori, jolla
ilmaistaan toistoa kerran, kaksi tai useammin.
- knowledge
-
fi: tietämys
- language acquisition
-
fi: kielenoppiminen sv: språkinlärning
- Luonnollisen kielen oppiminen esim. lapsena
luontaisesti tai aikuisena opiskelemalla.
- language planning and maintenance
-
fi: kielenhuolto sv: språkvård
- Toimenpiteet kielen kehittämiseksi ja
ylläpitämiseksi. Perinteisesti kielenhuolto on myös ylläpitänyt
ns. oikeakielisyyttä eli luonut ja valvonut kielen normeja.
- language resource
-
fi: kielivarat
- Kieliaineistojen, kuten puheaineistojen,
tekstiaineistojen, puupankkien, koneluettavien leksikoiden ja
kielenkäsittelyn työkaluista käytetty yhteisnimitys.
- language technology, human language technology
-
fi: kieliteknologia sv: språkteknologi
- Kieliteknologia on suppeassa merkityksessä
luonnollisen kielen mallintamista tietokonetta varten, erityisesti
kielen jäsentämistä eri tasoilla tai kielen generoimista ja näihin
liittyviä menetelmiä. Kieli sisältää tässä sekä kirjoitetun että
puhutun kielen. Laajassa merkityksessä kieliteknologia sisältää
ytimen lisäksi sen tavanomaisimpia sovellusalueita.
- lattice
-
fi: hila
- Puolijärjestetty joukko, jossa jokaisella
kahdella alkiolla on yksiselitteinen pienin yläraja. Usein järjestys
ajatellaan solmuiksi ajateltujen alkioiden välillä olevien
suunnattujen kaarten avulla, jolloin hila on tietyt ehdot täyttävä
suunnattu graafi.
- left recursive rule
-
fi: vasemmalle rekusriivinen sääntö
- Toisinkirjoitussääntö, jossa oikean puolen
ensimmäisenä on säännön vasemmassa puolessa oleva välikesymboli,
esim. VP -> VP PP.
- lemma
-
fi: lemma sv: lemma de: Lemma fr: lemme
- Lemma on yhteen kuuluvien sananmuotojen otsikkona käytetty sana. Lemma on
usein sen hakusanan perusmuoto, jonka
taivutusmuodosta on kyse. Yhteenkuuluvuus voi olla väljempääkin kuin
se, että sananmuodot ovat saman lekseemin taivutusmuotoja.
(F. Karlsson 1998: s. 188)
- lexeme
-
fi: hakusana, lekseemi sv: lexem de: Lexeme fr: lexème
- Hakusanalla on (yleensä)
perusmuoto, sanaluokka jne. Yhdellä hakusanalla on taivutuksen kautta
erilaisia sananmuotoja, joilla puolestaan on
esiintymiä, joita kutsutaan saneiksi. Yhdellä hakusanalla voi
olla useampia toisiinsa liittyviä alamerkityksiä.
(F. Karlsson 1998: Luku
6.1, s. 186-.)
- lexicon
-
fi: leksikko
- Kielen kuvauksessa käytetty abstrakti varasto,
jossa kielen morfeemit ja/tai sanasto ovat. Kieltä jäsentävillä
ohjelmilla voi olla myös konkreettinen tiedosto, joka toimii
leksikkona.
- loan word
-
fi: lainasana sv: lånord
- Toisesta kielestä lainattu sana.
- machine translation, MT
-
fi: konekäännös
- Kielen kääntäminen automaattisesti
tietokoneohjelman avulla.
- machine-aided translation
-
fi: tietokoneavusteinen kielen kääntäminen
- Kielen kääntäminen tietokoneen avustamana,
muttei täysautomaattisesti.
- mapping, function
-
fi: kuvaus, funktio sv: mappning
- Kuvaus joukosta A joukkoon B
on joukko-opillisesti katsottuna mikä tahansa sellainen relaatio R so.
muotoa (a,b) olevien parien joukko, missä a kuuluu A:han ja b B:hen,
joka relaatio täyttää kaksi ehtoa: (1) relaatio on määritelty
jokaiselle a:lle joka kuuluu A:han sekä (2) relaatio liittää jokaiseen
A:n alkioon enintään yhden B:n alkion.
- mark-up
-
fi: merkkaus sv: uppmärkning
- Tekstin varustaminen sen
rakennetta kuvaavilla merkinnöillä. Tyypillisiä merkkauskieliä ovat
HTML, joka on yleisen merkkausformalismin SGML:n mukainen
verkkosivujen rakenteen osoittamisessa käytetty merkkauskieli. XML on
SGML:stä johdettu uudempi merkkausformalismi.
- Markov model
-
fi: Markovin malli sv: Markovmodell de: Markovmodell fr: modèle de Markov
-
Deterministiseen äärelliseen automaattiin perustuva todennäköisyyksiin
perustuva malli, jossa tapahtumien todennäköisyydet riippuvat vain
edellisestä tapahtumasta (tai tilasta, jossa malli on). Tyypillisesti
kutakin tapahtumaa tai symbolia vastaa tila, johon siirrytään oltiin
missä tilassa tahansa.
- meaning
-
fi: merkitys
- Morfeemeihin, sananmuotoihin, lauseisiin ja
lausekkeisiin katsotaan liittyvän niiden merkitys, joka on riippumaton
siitä tilanteesta, jossa ilmauksia käytetään. Sematiikka tutkii
merkitystä.
- measure
-
fi: mitta sv: mått
-
Todellista tai abstraktia etäisyyttä tms. kuvaava
reaalilukuarvoinen suure. Etäisiyyksiä voidaan määritellä myös
sanoille, teksteille tms.
- minimization (of an automaton)
-
fi: minimointi (automaatin mimimointi)
- (Yleensä äärellisen) automaatin muuntaminen
sellaiseksi, että siinä on mahdollisimman vähän tiloja, mutta että se
edelleen hyväksyy täsmälleen samat merkkijonot kuin alkuperäinenkin
automaatti.
- modify
-
fi: määrittää
-
Lisämerkityksen tuominen kielelliseen yksikköön,
esim. adjektiivi voi olla substantiivin määritteenä eli kysenen
adjektiivi määrittää substantiivia, esim. lausekkeessa "pieni
lapsi" sana "pieni" määrittää sanaa "lapsi".
- morph
-
fi: morfi sv: morf de: Morph fr: morphe
-
Morfeemin konkreettinen ilmenemismuoto. Esim.
sananmuodossa "kalastajalle" voidaan erottaa morfit "kala", "-sta",
"-ja", "-lle". Morfeja, jotka ovat saman morfeemin ilmenemismuotoja,
kutsutaan allomorfeiksi.
(R. Sproat 1992: Glossary, p. 247.)
- morpheme
-
fi: morfeemi sv: morfem de: Morphem fr: morphème
-
Morfologisen analyysin
komponentti. Morfeemin sanotaan usien olevan kielen pienin merkitystä
kantava yksikkö. Morfeemi on abstraktio, joka yhdistää sen eri allomorfit. Esim. inessiivin pääte katsotaan
morfeemiksi ja sillä on kaksi allomorfia: "ssa" ja "ssä".
(R. Sproat 1992: Glossary, p. 247.)
- morphophoneme
-
fi: morfofoneemi sv: morfofonem de: Morphophonem fr: Morphophonème
-
Morfofoneemisen esitysmuodon yksikkö, jonka avulla kuvataan morfeemin
pintamuodoissa esiintyviä vaihteluita. Morfofoneemi voi siten toteutua
erilaisissa ympäristöissä erilaisina pintamerkkeinä. Esimerkiksi
suomen adjektiivien vartalon lopussa oleva 'a'-'e' vaihtelu ('paha' -
'pahempi') voidaan kuvata morfofoneemilla. Teknisesti myös
arkkifoneemi voidaan tulkita morfofoneemiksi.
- morphophonemic representation
-
fi: morfofoneeminen esitysmuoto
-
Erityisesti kaksitasomorfologiassa
esitysmuoto, joka koostuu foneemeista ja morfofoneemeista. Sääntökomponentti suhteuttaa
morfofoneemisen esitysmuodon pintamuotoon.
Leksikko puolestaan suhteuttaa morfofoneemisen esitysmuodon
kieliopilliseen sanaan.
- morphotactics
-
fi: morfotaksi sv: morfotax
-
Sananmuodostuksessa noudatettava morfeemien keskenäistä järjestystä
ohjaava säännöstö tai kielioppi.
- multilingual
-
fi: monikielinen sv: flerspråkig fr: multilingue, plurilingue
- Useampaa kuin yhtä kieltä koskeva tai
käsittelevä.
- mutual information
-
fi: keskinäinen informaatio
-
Kahden satunnaismuuttujan A ja B yhteenkuuluvuutta kuvaava suure
I(A,B) = log(P(A,B)/(P(A)P(B))), jota käytetään mm. fraasien,
sanaliittojen ja välilyönnillä toisistaan erotettujen
yhdyssanojen tilastolliseen tunnistamiseen.
- named entity
-
fi: nimetty kohde
- Kielellinen yhdestä tai useammasta sanasta
koostuva ilmaus, joka viittaa tiettyyn kohteeseen, esimerkiksi
henkilöön, paikkaan, organisaatioon, tuotteeseen tms.
- natural number
-
fi: luonnollinen luku sv: naturligt tal de: natürliche Zahl fr: nombre naturel
- Ei-negatiivinen kokonaisluku,
jokin luvuista 0, 1, 2, 3, ...
- neologism
-
fi: uudissana
- Hiljattain muodostettu uusi lekseemi (eli
hakusana).
- network
-
fi: verkko
- Yleensä tiloista ja siirtymistä koostuva
tietorakenne. Tavallisia verkkoja ovat äärelliset automaatit,
rekursiiviset tilasiirtymäverkot, ym.
- node, vertex
-
fi: solmu
- Missä tahansa graafissa olevia kiinnekohtia,
joiden välillä voi olla kaaria. Automaatteja esittävien graafien
solmuja kutsutaan tiloiksi.
- nondeterministic automaton
-
fi: epädeterministinen automaatti sv: icke-deterministisk automat
- Automaatti, (tyypillisesti
äärellinen automaatti), on epädeterministinen, ellei ole
yksiselitteisesti selvää, missä tilassa automaatin täytyy olla aluksi
ja kunkin merkin jälkeen. Epädeterministisyys voi johtua siitä, että
(a) automaatilla on useampia kuin yksi alkutila (b) automaatilla on ainakin joissakin tiloissa samalle
syöttömerkille useampi kuin yksi siirtymä tai
(c) automaatissa on epsilon-siirtymiä.
Äärellinen automaatti, joka ei millään näistä tavoista ole
epädeterministinen, on deterministinen äärellinen
automaatti.
- nonterminal symbol, meta symbol
-
fi: välikesymboli
- Symboli, jota toisinkirjoitussääntöjen on
muutettava edelleen, jotta syntyisi kieliopin mukainen merkkijono
(jossa ei enää ole välikesymboleja).
- noun
-
fi: substantiivi sv: substantiv de: Substantiv fr: nom
-
Sanaluokka, jonka jäsenet edustavat esineitä, asioita tms.
Esim. suomen kielessä 'talo' on substantiivi.
- null string, epsilon
-
fi: tyhjä merkkijono, epsilon sv: tom sträng, epsilon
-
Tyhjä merkkijono on nollan pituinen merkkijono. Tyhjä merkkijono
sisältyy osajonona mihin tahansa merkkijonoon ja merkkijojon mihin
kohtaan tahansa. Merkitään usein kreikan kielen epsilon-kirjaimella,
mutta tietojenkäsittelytieteessä usein myös lambda-kirjaimella ja
joissakin ohjelmointikielissä kahdella peräkkäisellä lainausmerkillä.
- number
-
fi: luku sv: numerus fr: nombre
- Hakusanojen
taivutuksessa esiintyvä kategoria. Useissa kielissä luvulla on kaksi
mahdollista arvoa: yksikkö ja monikko.
- operator
-
fi: operaattori
- Apumerkki tai symboli, jonka avulla
muodostetaan lausekkeita tai sääntöjä, esim. ynnälaskua varten on
'+'-merkki, tai nuoli toisinkirjoitussäännössä.
- optimization, programming(2)
-
fi: optimointi
-
Tietyn funktion suurimman tai pienimmän arvon tuottavien
muuttujien arvojen löytäminen. Mm. dynaaminen optimointi,
lineaarinen optimointi, matemaattinen optimointi.
- other symbol
-
fi: muu merkki
- Äärellistilaisissa automaateissa käytetty
merkintä kaikille niille (mahdollisesti myöhemmin mukaan tuleville)
aakkosille, joita ei kyseisessä automaatissa ole vielä
eksplisiittisesti mainittu.
- outlier
-
fi: poikkeava havainto
- Yksittäinen (virheen takia tai muusta syystä)
tilastoaineistoon eksynyt havainto, joka poikkeaa selvästi muista
havaintoarvoista.
- output
-
fi: tuloste
- Erityisesti tietokoneohjelman tai vastaavan
tuottama (esim. paperille kirjoitettu tai päätteen ruudulla
näytetty) tulos.
- overgeneration
-
fi: yligenerointi
- Tilanne, jossa kielioppi tai säännöstö tuottaa
(tai sallii) muitakin kuin vain kieli-intuitiomme mukaisia oikeita
muotoja tai virkkeitä.
- paradigm
-
fi: muotosarja, paradigma sv: paradigm fr: paradigme
-
Taivutusmuotojen sarja, jollaisen avulla usein määritellään
sanojen taipumista. Yhden mallisanan paradigman avulla
määritellään muidenkin samalla tavalla taipuvien sanojen
taivutus.
- parser
-
fi: jäsennin sv: parser fr: parseur
-
Tietokoneohjelma, joka jäsentää, ks. jäsentäminen.
- parsing
-
fi: jäsentäminen sv: parsning fr: analyse, parsage
- Virkkeiden tai sananmuotojen tunnistaminen
niiden rakenteen perusteella. Jäsentämisen tuloksena saadaan
jäsennettävän yksikön rakennetta kuvaavaa tietoa.
- Kielioppiin ja sanakirjaan
perustuva tapa tunnistaa kielellisen ilmauksen rakennetta.
- part of speech
-
fi: sanaluokka
-
Kielen hakusanojen luokka, joka koostuu syntaktisesti,
semanttisesti, ja/tai morfologisesti samaan tapaan
käyttäytyvistä hakusanoista. Tavallisesti sanasto jaetaan
pieneen määrään sanaluokkia, kuten substantiivit, adjektiivit,
verbit, partikkelit tms.
- part of speech tag
-
fi: sanaluokkakoodi, sanaluokkaleima
-
Koodi eli leima, joka ilmaisee saneen sanaluokkaa. Usein
tällaiset koodit voivat olla monijakoisempiakin kuin perinteiset
sanaluokat.
- part of speech tagging
-
fi: sanaluokkajäsennys
-
Yksinkertainen jäsennysmenetelmä, jonka tavoitteena on vain
ratkaista, mikä sanaluokkakoodi kullekin saneelle kuuluu,
erotuksena täysimittaisesta syntaktisesta jäsentämisestä, jossa
myös lauserakenne pyritään tunnistamaan. Sanaluokkajäsennyksen
voi joissakin tapauksissa tulkita yksiselitteistämiseksi (eli
disambiguoinniksi).
- pause
-
fi: tauko
- Puheessa esiintyvä hiljainen jakso
esim. saneiden välissä.
- phoneme
-
fi: foneemi
- Abstraktio, joka edustaa ääntökerrasta,
puhujasta tai äänteen asemasta riippumatta samaksi koettuja äänteitä.
Esim. suomen kielessä 'a' ja 'ä' koetaan eri foneemeiksi, koska sananmuoto
voi muuttaa merkityksensä, jos niitä vaihdetaan toisikseen, kuten
'ala' ja'älä'.
- phrase
-
fi: lauseke
- Sanetta suurempi, mutta lausetta suppeampi
yksikkö morfosyntaksissa.
- pitch
-
fi: äänenkorkeus
- Puheentutkimuksessa käytetty termi puheen
perustaajuudesta. Akustiikassa termiä käytetään havaitusta
äänenkorkeudesta.
- polysynthetic language, incorporating language
-
fi: polysynteettinen kieli, inkorporoiva kieli sv: polysyntetiskt språk fr: langue incorporante, langue polysynthétique
-
Kieli, jossa yksi sananmuoto voi sisältää usampia vapaita morfeemeja siten, että sananmuoto
vastaa muissa kielissä kokonaista lausetta. Esim. eskimokielissä
voidaan verbi, subjekti ja objekti tällä tavoin yhdistää yhdeksi
sananmuodoksi.
- possessive suffix
-
fi: omistusliite, possessiivisuffiksi sv: possessivsuffix fr: suffixe possessif
- Omistajaa ilmaiseva
liite. Suomen kielessä esim. 'kirjassani' on lopussa omistusliiet
'ni' osoittamassa, että kyse on minulla olevasta kirjasta.
- postposition
-
fi: postpositio
- Postpositiot ovat yleensä vasemmalla puolellaan
olevia substantiivilausekkeita määritteleviä partikkeleita, kuten
suomen 'asti' tai 'vuoksi'.
- precision
-
fi: tarkkuus sv: precision
- Tiedonhaussa tms. relevanttien
dokumenttien prosentuaalinen osuus kaikista haun tuottamista
dokumenteista. Lääketieteessä tämä vastaa testin spesifisyyttä
(engl. specificity) eli sitä, kuinka suuri osuus testin positiivisista
tapauksista osoittautuu seulottavaa tautia sairastaviksi..
- prefix
-
fi: prefiksi, etuliite sv: förstavelse, prefix fr: préfixe
-
Prefiksi on sananvartalon eteen liitettävä sidonnainen morfeemi.
Esim. englannin kielessä etuliitteet 'in' ja 'un' voivat esiintyä
mm. adjektiivivartalon edessä. Esim. swahilissa pääosa verbin
taivutuksesta ilmaistaan prefiksien avulla.
- preposition
-
fi: prepositio
- Prepositiot ovat yleensä oikealla puolellaan
olevia substantiivilausekkeita määritteleviä partikkeleita, kuten
engl. 'to' tai 'in'.
- pushdown automaton
-
fi: pinoautomaatti
- (Yleensä äärellinen) automaatti, johon on
liitetty pino siten, että siirtymien yhteydessä voidaan symboleja
painaa pinoon tai ottaa pinon päältä. Pinoautomaateilla voidaan
kuvata kontekstista riippumattomat kielet.
- recall
-
fi: saanti sv: täckning
- Tiedonhaussa tms. haun tuottamien relevanttien
dokumenttien osuus tietokannassa olevista kaikista relevanteista
dokumenteista. Lääketieteessä tämä vastaa testin sensitiivisyyttä
(engl. sensitivity) eli sitä, kuinka suuri osa seulottavaa tautia
sairastavista saadaan kyseisellä testillä esille.
- recognition
-
fi: tunnistaminen sv: igenkänning
- Virkkeen, sanan tms.
tunnistaminen tarkoittaa sen hyväksymistä tai hylkäämistä annettujen
sääntöjen ja sanakirjojen perusteella. Eroaa jäsentämisestä sikäli, että tunnistettaessa ei välttämättä
muodosteta tai tulosteta rakennetta kuvaavaa tietoa.
- recognize
-
fi: tunnistaa
-
Tunnistamisen suorittamista.
- recursive
-
fi: rekursiivinen
- Sisäkkäin toistuva, so. yleensä sillä tavalla
toistuva, että rakenne on toisen samanlaisen rakenteen sisällä tai
että funktio kutsuu uudelleen samaa funktiota.
- recursive transition network
-
fi: rekursiivinen tilasiirtymäverkko
- Äärellisestä automaatista edelleen kehitetty
automaattityyppi, jossa siirtymässä voi olla ehtona joko yksittäinen
merkki tai toisen automaatin nimi. Siirtymän toteutuminen edellyttää
silloin sitä, että mainittu automaatti kelpuuttaa osan jäljellä
olevista merkeistä, joiden kuluttamisen jälkeen siirtymä toteutuu ja
tunnistaminen jatkuu.
- regular expression
-
fi: säännöllinen lauseke sv: regulärt uttryck fr: expression rationelle, expression régulière
- Yksittäisistä aakkoston merkeistä,
peräkkäinasetteluista, vaihtoehdoista ja toistoista koostuva lauseke,
joka kuvaa säännöllistä (merkkijonojen) joukkoa. Esim. säännöllinen
lauseke "(aa)*" kuvaa niitä merkkijonoja, jotka koostuvat parillisesta
määrästä a-kirjaimia.
- regular grammar
-
fi: säännöllinen kielioppi
- Chomskyn hierarkian ylin kielioppilaji, joka on
paitsi kontekstista riippumaton, se koostuu vain vasemmalle
lineaarisista tai oikealle lineaarisista säännöistä (minkä takia
säännölliset kieliopit määrittelevät täsmälleen säännölliset joukot).
- regular set, regular language
-
fi: säännöllinen joukko, säännöllinen kieli
- Tietyn aakkoston S merkeistä koostuvien merkkijonojen joukko. Säännöllinen joukko
voidaan määritellä siten, että (1) tyhjä
joukkko on säännöllinen joukko, (2) tyhjä
merkkijono on säännöllinen joukko, (3) aakkoston S mistä tahansa
merkistä muodostettu yhden merkin mittainen merkkijonon muodostama
joukko on säännöllinen joukko, (4) jos P ja Q ovat säännöllisiä
joukkoja, niin (a) P:n ja Q:n unioni, (b) konkatenaatio PQ ja (c) toisto P* ovat säännöllisiä joukkoja, (5) eikä mikään muu ole
aakkoston S merkeistä muodostettu säännöllinen joukko. Esim. joukko
{"", "aa", "aaaa", ...} joka koostuu merkkijonoista, joissa on
parillinen määrä "a"-kirjaimia on säännöllinen joukko. Sen voi katsoa
muodostuneen askelilla (3) jolla saadaan joukko {"a"}, askelella (4b)
jolla saadaan joukko {"aa"} ja lopuksi askelella (4c) jolla saadaan
haluttu joukko.
- relation
-
fi: relaatio sv: relation fr: relation
- Joukkojen A ja B välillä olevat
relaatiot tarkoittavat teknisesti niiden karteesisen tulon A x B
osajoukkoja. Intuitiivisesti relaatio on joukon A ja joukon B
välisten alkioiden suhde, esimerkiksi "suuremp kuin" on lukujen
kesken relaatio (joka voidaan konkretisoida em. määritelmän puitteissa
niiden lukuparien joukoksi, joissa parin edellinen luku on suurempi
kuin jälkimmäinen).
- representation
-
fi: esitysmuoto
-
Kielellisen yksikön vastine tietyn kieliopillisen mallin tai
teorian puitteissa. Esimerkiksi sananmuodolla voi olla
foneeminen esitysmuoto, joka koostuu jonosta foneemeja sekä
morfofoneeminen esitysmuoto, joka koostuu jonosta abstraktimpia
yksiköitä, eli jonosta morfofoneemeja.
- rewrite grammar
-
fi: toisinkirjoituskielioppi
- Toisinkirjoitussäännöistä, päätesymboleista,
välikesymbolista ja lähtösymbolista koostuva kielioppi.
- rewrite rule
-
fi: toisinkirjoitussääntö sv: omskrivningsregel
-
Esim. lausekerakennekieliopeissa käytetty sääntötyyppi, jossa
säännön vasempana puolena oleva merkki (tai merkkijono)
korvataan säännön oikeana puolena olevalla merkkijonona.
Esim. sääntö "S --> NP VP" korvaa yhden symbolin "S" kahdella
symbolilla "NP" ja "VP".
- robust
-
fi: robusti, vakaa, (vankka?) sv: robust
-
Menetelmän tai jäsentimen voidaan sanoa olevan vakaa tai
robusti, useammalla tavalla: se antaa myös virheelliselle
syötteelle mielekkäitä analyysejä, ohjelma ei keskeydy syötteen
virheiden vuoksi tai ei itsessään sisällä virheitä jne.
- root morpheme, root
-
fi: juurimorfeemi, juuri sv: rotmorfem, rot
- Morfeemi (jota ei enää voida
jakaa pienemmiksi osiksi ja) josta affikseja liittämällä voidaan
tuottaa sananmuotoja tai (uusia) hakusanoja.
(R. Sproat 1992: Glossary, p. 249.)
- rounded vowel
-
fi: pyöreä vokaali sv: rundad vokal fr: voyelle arrondie, voyelle labialisée
- Vokaali, jota äännettäessä
huulet ovat supussa pyöreänä.
- script
-
fi: komentosarja
-
Tiedostoksi tms. talletettu sarja komentoja, jotka voidaan
suorittaa tarvittaessa toistamiseen.
- search stem
-
fi: hakuvartalo
-
Tiedonhaussa käytetty sananmuotoja kattava prefiksi. Tietyn
hakusanan hakuvartalot yhdessä muodostavat prefiksijoukon, jonka
avulla voidaan löytää kyseisen hakusanan kaikki taivutetut
sananmuodot. (Hakuvartaloiden avulla voi löytyä muitakin
samalla tavalla alkavia sananmuotoja.)
- sense
-
fi: alamerkitys sv: betydelse
- Yhdellä hakusanalla voi olla useita
alamerkityksiä, kuten verbillä 'laskea' on alamerkityksiä 'alentaa',
'aleta', 'suorittaa laskutoimituksia' jne.
- sentence
-
fi: virke sv: mening fr: phrase
- Lähinnä kirjoitetussa
tekstissä kokonaisuus, joka voi koostua yhdestä tai useammasta
lauseesta. Virke päättyy tyypillisesti pisteeseen, huutomerkkiin tai
kysymysmerkkiin.
- sequentiality
-
fi: sekventiaalisuus
-
Äärellisen transduktorin sanotaan olevan sekventiaalinen, jos se
on automaattina deterministinen ja jos sen jokaisessa tilassa on
kaikilla merkeillä enintään yksi mahdollinen siirtymä.
Sekventiaalinen transduktori toimii muuntaessaanki
deterministisesti eli jokaisesta merkkijonosta tulee vain yksi
tulos, ja erityisesti lisäksi jokaiselle siirtymälle on vain
yksi valinta. Sekventiaalisuus on siten ankarampi vaatimus kuin
funktionaalisuus.
- set
-
fi: joukko sv: mängd fr: ensemble
- Joukko koostuu
alkioista, joita voi olla nolla, yksi tai useampia. Jos tiedämme,
mitkä alkiot joukkoon kuuluvat, tiedämme täsmälleen, mikä joukko on.
(Jos alkiot ovat samat, joukot ovat samat.) Joukon alkiot eivät ole
keskenään missään järjestyksessä. Muodostettaessa joukkoja pitää olla
selvillä se, mistä perusjoukosta joukkojen alkioita voidaan ottaa.Tyhjässä joukossa ei ole yhtään alkiota.
- source language
-
fi: lähtökieli
-
Erityisesti kielen kääntämisessä se kieli, josta käännetään.
- space
-
fi: välilyönti
-
Kirjoituksessa kahden saneen välissä esiintyvä tyhjä tila tai
erityinen välilyontimerkki.
- spectrogram
-
fi: spektrogrammi
-
Erityisesti puheäänen taajuusjakautumaa kuvaava aikasarja, jossa
yleensä vaaka-akselilla on aika, pystyakselilla erilaiset
taajuudet ja taajuuksilla olevan energian määrä kuvataan
tummuutena.
- spectrum
-
fi: spektri
-
Erityisesti puheäänen hetkellinen taajuusjakautuma, jota
kuvataan usein käyrällä, jossa toisella akselilla ovat taajuudet
ja toisella kullakin taajuudella olevan energian määrä.
- speech
-
fi: puhe sv: tal fr: parole
- Puhuttua kieltä, joka on
ensisijaisesti ääntä.
- speech interface
-
fi: puhekäyttöliittymä sv: talgränssnitt
- Ihmisen ja tietokoneen välinen käyttöliittymä,
jossa käytetään puhetta.
- speech recognition
-
fi: puheentunnistus sv: taligenkänning de: Spracherkennung fr: reconnaissance vocale
-
Automaattisen puheentunnistuksen avulla päätellään puhesignaalista,
mitä on sanottu. Puheentunnistus voi olla joko hyvinkin rajallisen
komentosanaston tunnistamista tai jopa rajoittamattoman sanaston
sallivaa ns. sanelusovellusta.
- speech synthesis, text-to-speech
-
fi: puhesynteesi sv: talsyntes de: Sprachsynthese fr: synthèse de la parole
-
Puhesynteesin tehtävänä on muuntaa kirjoitettu teksti tai järjestelmän
tuottama vastaus puheääneksi. Korkealaatuisen puhesynteesin
tavoitteena on tuottaa helposti ymmärrettävää puhetta, joka kuulostaa
luontevalta.
- spelling checking
-
fi: oikeinkirjoituksen tarkistus sv: stavningskontroll
-
Tahattomista kirjoitusvirheistä tai vajavaisesta
oikeinkirjotustaidosta johtuvien väärin kirjoitettujen saneiden
tunnistaminen.
- spelling correction
-
fi: oikeinkirjoituksen korjaus
-
Ehdotusten tuottaminen väärin kirjoitetun saneen korjaamiseksi
oikeinkirjoituksen mukaiseksi.
- spoken language
-
fi: puhuttu kieli
- Kieli sen puhutussa muodossaan.
- start state
-
fi: alkutila sv: starttillstånd
-
Automaatin, esim. deterministisen
äärellisen automaatin tila, jossa automaatti on
käynnistyessään. Deterministisillä automaateilla täytyy olla tasan
yksi alkutila.
- state
-
fi: tila sv: tillstånd
-
Automaatti (esim. deterministinen äärellinen
automaatti) on alussa ja jokaisen merkin käsittelemisen jälkeen
jossakin tilassa. Automaatti siirtyy tilasta toiseen siirtymien mukaisesti.
- stem (of a word)
-
fi: vartalo, (sanan vartalo) sv: ordstam fr: radical
- Vartalosta saadaan affiksoimalla
joko uusia vartaloita tai sananmuotoja
(jossakin taivutusmuodossaan). Vartalo voi koostua yhdestä tai
useammasta morfeemista.
(R. Sproat 1992: Glossary, p.
249.)
- stem, truncated word
-
fi: tyvi
- Morfologista analyysia
karkeammalla tavalla aikaansaatu taivutuspäätteistä vapaa sananmuodon
alkuosa.
- stemming
-
fi: typistäminen sv: trunkering, stemming
-
Tyvien muodostaminen morfologista analyysiä karkeemmalla
menetelmällä.
- stop word
-
fi: hukkasana
-
Tiedonhaussa hyödyttömäksi katsottu yleinen sana, joka jätetään
indeksoinnin ja käsittelyn ulkopuolelle tilan säästämiseksi tai
muusta syystä. Englanninkielisiä hukkasanoja voisivat olla
esim. "a", "the", "is", "to" jne.
- stress
-
fi: paino
- Saneen, lauseen tai virkkeen ääntämyksessä
ilmenevä tietyn tavun tai sanan korostaminen esim. intensiteettiä
lisäämällä. Painotus voi kuitenkin ilmetä muillakin keinoilla.
- string
-
fi: merkkijono sv: sträng
- Annetun aakkoston merkeistä koostuva jono. Merkkijonossa voi olla nolla,
yksi tai useampia merkkejä, kuitenkin äärellinen määrä. Esimerkiksi
sananmuodot ovat merkkijonoja.
- subject
-
fi: subjekti
- Lauseenjäsen, joka yleensä ilmaisee tekijää.
Esim. lauseessa "poika söi omenan" subjektina on 'poika'.
- suffix
-
fi: suffiksi, pääte sv: suffix, ändelse fr: suffixe
-
Vartalon perään liitettävä affiksi. Esim. sananmuodossa "talosssanne" on vartalo ja juuri "talo", jonka perään on liitetty kaksi
suffiksia "ssa" ja "nne".
- summary
-
fi: tiivistelmä sv: sammanfattning, sammandrag
- surface character
-
fi: pintamerkki
-
Sananmuodon pintamuoto koostuu pintamerkeistä, jotka ovat joko
ortografian mukaisia aakkosia tai esim. foneemeja, jos morfologiaa
kuvataan fonologisia tarkoitusperiä varten. Kirjoitusmerkeissä
katsotaan yleensä aksentein tai muunlaisin merkein varustetut aakkoset
omiksi pintamerkeikseen (tai sitten tällaiset diakriittiset lisät
tulkitaan omiksi merkeikseen).
- surface form
-
fi: pintamuoto
-
Sananmuoto sellaisena
kuin se kirjoitetaan tai esim. äännetään. Pintamuoto on pintamerkkien muodostama merkkijono. Äännetty pintamuoto esitetään usein
foneemien tarkkuudella.
- synonym
-
fi: synonyymi
- Lähimerkityksinen sana.
- synonym set; synset
-
fi: synonyymiryhmä
- Lähimerkityksisten sanojen joukko erityisesti
WordNet synonyymitietokannoissa.
- syntactic parser
-
fi: lauseenjäsennin, syntaktinen jäsennin
-
Jäsennin, joka tunnistaa tekstin syntaktista rakennetta.
- tag
-
fi: tarra sv: tagg
-
Rakenteisen dokumentin alkion lajin ilmaiseva tunnus.
(Vrt. ATK-sanakirja, 2003)
- tag
-
fi: merkki; leima sv: tagg
-
Kieliopillista kategoriaa tai piirrettä kuvaava merkintä. Tyypillisiä
leimoja ovat esim. sanaluokan tai sijamuodon merkinnät. Esim.
inesiivin tunnus (erotettavissa oleva morfi) voi olla 'ssa' ja
inessiivin merkki voi olla lyhenne 'INE'.
- target language
-
fi: kohdekieli
-
Erityisesti kielen kääntämisessä se kieli, jolle käännetään.
- template
-
fi: malline, sapluuna sv: mall
-
Esim. morfologiassa malline on kaavio, joka kuvaa sanan osasten
keskenäistä sijoittumista. Mallinetta käytetään erityisesti
seemiläisten kielten interdigitaation ym. kuvaksessa.
- term
-
fi: termi sv: term fr: terme
- Käsitteistä käytettävä (yleensä) vakiintunut
(yksi- tai useampisanainen) ilmaus on termi.
- terminal symbol
-
fi: päätesymboli
- Symboli, jota toisinkirjoitussäännöt eivät enää
voi muuttaa edelleen.
- terminology
-
fi: terminologia
- Yleensä tiettyä alaa käsittelevien termien
kokoelma.
- text
-
fi: teksti
- Yleensä rajattu ja yhteenkuuluva kokonaisuus
kirjoitettua kieltä.
- tokenise
-
fi: saneistaa sv: tokenisera
-
Juokseva teksti saneistetaan jakamalla se sanakirjahakua tai
morfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu tai
erotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneiden
kaltaisina yksiköinään jatkokäsittelylle.
- top-down parsing
-
fi: produsoiva jäsentäminen
- Jäsentäminen siten, että lähdetään koko
merkkijonoa vastaavasta rakenteesta, jonka välittömiä rakenneosia kokellaan
jne., kunnes päästään vertaamaan jäsennettävään merkkijonoon.
- transfer model
-
fi: transfer-malli
-
Usean kielen kesken suoritettavan konekääntämisen menettely,
jossa kutakin kieltä varten on moduuli, joka analysoi kieltä ja
toinen, joka generoi sitä kielikohtaisen esitysmuodon mukaan
sekä erikseen kutakin kieliparia varten muunnos näiden
kielikohtaisten esitysmuotojen välillä.
- transition
-
fi: siirtymä, tilasiirtymä sv: övergång
-
Deterministinen äärellinen automaatti siirtyy kullakin syöttömerkillä
tilasta uuteen tilaan siirtymän avulla. Siirtymään liittyy siten lähtötila, merkki ja uusi tila.
Usein siirtymät määritellään yleisemmiksi siten, että siirtymä
liitetään yhden merkin sijasta merkkijonoon, jossa
voi olla nolla, yksi tai useampia merkkejä.
- translation
-
fi: kääntäminen (kielen k.) sv: översättning fr: traduction
- Kielellisten ilmausten siirtäminen toiselle
kielelle siten, että käännetty ilmaus ymmärretään samalla tavalla tai
tuottaa saman vaikutuksen kuin alkuperäinen ilmaus.
- translation memory
-
fi: käännösmuisti
-
Kielen kääntämistä avustava ohjelma, jonka toiminta perustuu
siihen, että se ehdottaa käännöksiä aiemmin käännettyjen
samanlaisten tai samantapaisten virkkeiden tai virkkeen osien
perusteella.
- translator
-
fi: kääntäjä sv: översättare fr: traducteur
- Henkilö joka kääntää kieltä.
- two-level morphology
-
fi: kaksitasomorfologia sv: tvånivåmorfologi
-
Morfolologisen analyysin teoria ja menetelmä, jossa sananmuodon
pintamuoto suhteutetaan rinnakkaisilla kaksitasosäännöillä morfofoneemiseen
esitysmuotoon ja leksikon avulla morfofoneeminen esitysmuoto
kieliopilliseen sanaan.
- two-level rule
-
fi: kaksitasosääntö sv: tvånivåregel
-
Sääntö, joka määrittelee tietyn morfofonologisen äännevaihtelun
morfofoneemisen esitysmuodon ja pintamuodon välisenä suhteena. Ehtona
morfofoneemin tietynlaiselle toteutumiselle pintamuodossa voidaan
käyttää tarvittaessa sekä morfofoneemisen esitysmuodon että
pintamuodon ympäristöä. Kaksitasosääntöjä sovelletaan rinnakkain
siten, että sääntöjen järjestyksellä ei ole vaikutusta lopputulokseen.
Kaksitasosäännöt voidaan toteuttaa mm. äärellisillä transduktoreilla.
- unambiguous
-
fi: yksiselitteinen sv: entydig, otvetydig
- unification
-
fi: unifikaatio, samaistus
- Kahden piirrerakenteen samaistus, jonka
onnistuminen edellyttää sitä, että attribuuttien arvot ovat
yhteensopivia ja jonka tuloksena syntyy piirrerakenne, jossa yhdistyvät
kummankin rakenteen tiedot.
- union
-
fi: yhdiste, unioni sv: föreningsmängd, union
- Kahden joukon A ja
B yhdisteellä tarkoitetaan joukkoa, joka muodostuu kaikista niistä
alkioista, jotka kuuluvat ainakin jompaankumpaan joukoista A ja B (ja
alkio saa kuulua molempiinkin).
- Yleisemmin: nollan, yhden tai
useamman joukon A1, A2, ..., Ak yhdiste on joukko, johon kuuluvat
kaikki sellaiset alkiot, jotka kuuluvat edes yhteen joukoista A1, ...,
Ak. Huomaa, että jos yhdiste muodostetaan nollasta joukosta, niin
yhdiste on tyhjä joukko.
- unrestricted rewrite grammar
-
fi: rajoittamaton toisinkirjoituskielioppi
- Chomskyn hierarkian alimman lajin kielioppi,
jossa toisinkirjoitussäännöille ei aseteta rajoituksia, vaan ne voivat
toiskinkirjoittaa ja muuttaa useita merkkejä kerrallaan.
- user interface
-
fi: käyttöliittymä sv: användargränssnitt de: Benutzeroberfläche fr: interface utilisateur, interface opérateur
- Sovittu rajapinta ihmisen ja tietokoneen
tms. laitteen välillä, jonka avulla ihminen voi käyttää laitetta tai
järjestelmää.
- verb
-
fi: verbi, teonsana sv: verb de: Verb fr: verbe
- Sanaluokka, johon
kuuluvat hakusanat kuvaavat tekemistä tai toimintaa. Esim. suomessa
hakusana 'juosta' on verbi.
- vertex
-
fi: solmu
-
Taulkkojäsennyksessä
käytetty apukäsite, jollaiset sijoitetaan saneiden väleihin ja ennen
ensimmäistä ja viimeistä sanetta. Solmujen väleille voidaan asettaa
kaaria.
- vocabulary
-
fi: sanasto
- Hakusanojen joukko, jonka esim. henkilö
hallitsee tai joita esiintyy tietyssä tekstissä tai
tekstikokoelmassa.
- voice interface
-
fi: puhekäyttöliittymä
-
Käyttöliittymä, jossa vuorovaikutus tapahtuu puheen
välityksellä. Puhekäyttöliittymässä sovelletaan useimmiten sekä
puheentunnistusta että puhesynteesiä.
- vowel
-
fi: vokaali sv: vokal de: Vokal fr: voyelle
- Luokka kuuluvia ja
äänteitä, joissa äänihuulet ovat mukana. Suomen äänteistä mm. 'a',
'e', 'i', 'o', 'u', 'y', 'ä' ja 'ö' ovat vokaaleja.
- word derivation
-
fi: sananjohto
- Menettely, jolla yhdestä hakusanasta voidaan
johtaa toinen tai toisia hakusanoja. Esim. suomen kielessä
hakusanasta 'istua' voidaan johtaa 'istuskella' ja siitä edelleen
'istuskelu'.
- word sense
-
fi: sanan alamerkitys
- Saman hakusanan toisistaan poikkeavat
merkitykset, kuten esim. "laskea" voi tarkittaa ynnäämistä,
päästämistä tai rinnettä pitkin liukumista jne.
- word sense disambiguation
-
fi: saneiden alamerkitysten yksiselitteistäminen
- Menetelmät, joilla tekstissä esiintyvien
saneiden oikea alamerkitys pyritään päättelemään.
- word token
-
fi: sane, sananmuodon esiintymä
- Sane on
sananmuodon esiinymä. Saneeseen ei
suoranaisesti kuulu muuta kuin se merkkijono,
josta tekstissä oleva sananmuoto koostuu. Juoksevan tekstin pituutta
kuvaa sen saneiden määrä.
- word-form
-
fi: sananmuoto sv: ordform
-
Sananmuoto koostuu kirjaimista ja muista sanan sisälle
mahdollisesti kuuluvista merkeistä kuten yhdysviivasta tai
heittomerkistä. Suomenkielisiä sananmuotoja olisivat
esimerkiksi 'talo', 'katosta', 'pääomastakin'. Sananmuodolla
voi olla esiintymiä eli saneita.
Sananmuodolla on ainakin yksi luenta eli tulkinta, joka koostuu
perusmuodosta, sanaluokasta ja taivutusmuotoa kuvaavista
koodeista eli leimoista. Sananmuotojen
esiintymisten tilastollisessa käsittelyssä käytetään joskus
termiä "type" kuvaamaan sananmuotoa ja termiä "token"
vastaavasti sanetta.
(F. Karlsson 1998: Luku 4.1, ss. 83-)
.
Huomaa, että alkuosaltaa nominatiivimuotoinen "sanamuoto"
tarkoittaa muuta (esim. "sopimuksen sanamuoto").
- WordNet
-
fi: sanaverkko, wordnet
- Tietokoneen muodossa oleva synonyymisanasto,
jossa synonyymit on ryhmitetty samanmerkityksisiksi
synonyymiryhmiksi ja merkitykset linkitetty edelleen
yläkäsitteiden ym. relaatioiden mukaan.
- world knowledge
-
fi: arkitietämys
-
Kielen ymmärtämisessä tai tulkitsemisessa tarpeellinen
ympäröivää maailmaa ja sen ominaisuuksia koskeva tieto.
Esim. "punainen tupa ja perunamaa" ilmauksen rakenteen
tulkinnassa auttaa tieto, että perunamaat eivät yleensä ole
punaisia.
- written language
-
fi: kirjoitettu kieli
- Kirjoitetussa muodossa esiintuvä kieli
(vastakohtana puhutulle kielelle).