Kieliteknologian termistö
Copyright: Kimmo Koskenniemi 2002
Materiaali on tarkoitettu vapaasti käytettäväksi opetustarkoituksiin
Kieliteknologian opetuksen verkostossa mm. siten, että tässä oleviin
termeihin kohdistetetaan linkkejä.
Kurssit
- ctl190
- Kieliteknologian johdantokurssi
- ctl132
- Automaattinen morfologinen analyysi
- ctl142
- Automaattinen syntaktinen analyysi
- ctl253
- Äärellisiin tiloihin perustuva jäsentäminen
Kirjallisuus
-
Chomsky 1965
- Noam Chomsky, Aspects of the Theory of Syntax, The
M.I.T. Press, 1965.
-
Jurafsky-Martin 2000
- D. Jurafsky and J. Martin, Speech and Language Processing.
Prentice Hall. 2000.
-
F. Karlsson 1998
- Fred Karlsson, Yleinen kielitiede (uudistettu laitos),
Yliopistopaino, Helsinki, 1998.
-
R. Sproat 1992
- Richard Sproat, Morphology and Computation, The
M.I.T. Press, 1992.
Käsitteet
-
EN:affix
-
FI:affiksi
- Sidottu morfeemi (muu kuin
juurimorfeemi), joka liitetään vartaloon (tavalla tai toisella).
Erilaisia affikseja ovat prefiksit, suffiksit, infiksit ja
circumfiksit.
(R. Sproat 1992: Glossary, p. 243.)
-
EN:allomorph
-
FI:allomorfi
- Saman morfeemin keskenään erilaisia ilmenemismuotoja kutsutaan
allomorfeiksi. Esim. hakusanan "käsi" juurta vastaavalla morfeemilla,
voi olla useita allomorfeja kuten "käsi", "käde", "käte" ja "kät".
Termiä allomorfi käytetään silloin, kun puhutan morfien suhteesta
toisiinsa. Termiä morfi käytetään yksittäisestä
morfeemin ilmentymästä.
(F. Karlsson 1998: Luku 4.2.5. ss. 94 ff.)
(R. Sproat 1992: Glossary, p. 243.)
-
EN:alphabet
-
FI:aakkosto
- Äärellinen joukko aakkosmerkkejä, esim. kirjaimia. Aakkoston
merkeistä muodostetaan merkkijonoja.
-
EN:ambiguity
-
FI:moniselitteisyys
- Moniselitteisyydellä
tarkoitetaan sitä, että yhdellä sananmuodolla,
lauseella tai virkkeellä on useampia kuin yksi tulkinta. Esim. suomen
kielen sananmuoto "katosta" on moniselitteinen, koska sillä on kaksi
eri luentaa: (1) "katto"-sanan elatiivi ja (2) "katos"-sanan
partitiivi.
-
EN:annotation
-
FI:annotointi, varustaminen (kieliopillisilla) koodeilla
- Sanan, virkkeen tms.
varustaminen kieliopillista rakennetta tai kategoriaa osoittavilla leimoilla (engl. tag) tai muilla merkinnöillä.
Annotointia voidaan suorittaa joko käsin tai automaattisesti, esim. jäsentämällä. Termiä käytetään erityisesti
tekstikorpusten ja puhekorpusten yhteydessä.
-
EN:chunk
-
FI:pätkä
- Pätkäjäsennyksessä esiintyvä
yhden tai useamman peräkkäisen saneen muodostama jakso virkkeestä.
-
EN:chunk parsing
-
FI:pätkäjäsennys
- Pätkäjäsennyksessä virke jaetaan
ensin pätkiksi, jotka koostuvat peräkkäisistä saneista. Pätkien
hierarkiaa ei pyritä määrittämään vielä pätkimisvaiheessa vaan vasta
sen jälkeen.
-
EN:clause
-
FI:lause
- Toisiinsa liittyvistä
sananmuodoista koostuva yksikkö, jossa tyypillisesti on yksi
finiittiverbi (eli predikaatti) ja siihen mahdollisesti liittyviä
nominaalisia jäseniä.
-
EN:collocation
-
FI:myötäesiintymä, kollokaatio
- Vähitään kahdesta saneesta
koostuva yhdistelmä, joissa sanoilla on lähinnä merkityksensä
peruseella taipumus esiintyä yhdessä. Myötäesiintymät ovat usein esim.
sanaliittoja tai verbin ja sen argumentin yhdistelmiä, mutta niiden ei
tarvitse olla kieliopillisesti selvärajaisia kokonaisuuksia.
-
EN:competence
-
FI:kompetenssi
- Kompetenssilla tarkoitetaan
puhujan ja kuulijan sisäistämää tietoa kielestään. Puhuja tai kuulija
ei ole selvillä tämän tiedon muodosta, mutta osaa käyttää sitä
tuottaakseen oikeanmuotoisia virkkeitä ja kuulemiensa tai lukemiensa
virkkeiden tulkitsemiseksi.
(Chomsky 1965: §1, s. 4 ym.)
-
EN:complement
-
FI:komplementti
- Joukon A komplementti ~A
muodostuu kaikista niistä (perusjoukon) alkioista, jotka eivät kuulu
A:han. Joukon A komplementista puhuttaessa on siis huolehdittava siitä,
että tiedetään, minkä perusjoukon alkioista joukko A muodostuu.
-
EN:concatenation
-
FI:peräkkäinasettelu, (konkatenaatio)
- Peräkkäinasettelulla
muodostetaan merkkijonoista A ja B merkkijono AB, jossa on ensin
kaikki A:n merkit a1, ..., ak järjestyksessä ja sitten kaikki B:n
merkit b1, ..., bj myös järjestyksessä. AB:n pituus |AB| = |A| + |B|
.
-
EN:dialect
-
FI:murre
- Tyypillisesti jonkin alueen
poikkeava kielimuoto. Poikkeavuus on tyypillisesti ääntämykseen
perustuva ja jossain määrin sanaston ja taivutusmuotojen erilaisuuten
perustuvaa. Saman kielen eri murteiden puhujat ymmärtävät usein
toisiaan.
(F. Karlsson 1998: Luku 9, ss. 250-.)
-
EN:deterministic finite-state automaton (FSA), deterministic
finite-state machine (FSM)
-
FI:deterministinen äärellinen automaatti
-
SE:ändlig automat
- Äärellisen automaatin tehtävänä on hyväksyä tai hylätä merkkijonoja,
jotka koostuvat annetun aakkkoston merkeistä.
Äärellisesä automaatissa on joukko tiloja Q ja se
toimii siirtymällä tunnistettavan merkkijonon kunkin kohdalla tilasta
toiseen (tai samaan tilaan). Tiloja kuvataan usein ympyröillä.
Siirtyminen tapahtuu ns. tilasiirtymien
mukaisesti. Siirtymiä kuvataan usein nuolella, joka lähtee
tämänhetkisestä tilasta ja päättyy uuteen tilaan. Ollakseen
deterministinen, kustakin tilasta saa lähteä enintään yksi siirtymä
millekään aakkoston merkille. Eräs tiloista on alkutila q0 ja automaatti on ennen ensimmäisen merkin
tunnistamista siinä tilassa. Automaatti hylkää merkkijonon mm. jos
jossakin kohdassa sille ei ole vuorossa olevaa merkkiä varten
siirtymää. Osa automaatin kaikista tiloista merkitään ns. lopputiloiksi Qf, joka tarkoittaa sitä, että jos
automaatti on saanut siirrytyksi merkkijonon kaikilla merkeillä ja
päätyy yhteen näistä lopputiloista, automaatin katsotaan hyväksyneen
merkkijonon. Jos automaatti päätyy lopuksi muuhun kuin lopputilaan,
automaatin katsotaan hylänneen merkkijonon.
(Jurafsky-Martin 2000: Section 2.2,
ss. 33-49.)
-
EN:disambiguate
-
FI:yksiselitteistää
- Poistaa moniselitteisyyttä.
-
EN:element
-
FI:alkio
- Alkio on jokin, mikä tahansa,
joka voi kuulua joukkoon eli alkioista muodostuu joukkoja. Alkiot
voivat olla samoja, vaikka niiden kuvailut näyttävät erilaisilta,
esim. "Jaakob" ja "Jaakobin poikien isä", tai "luku 2" ja "lukujen 22
ja 14 suurin yhteinen tekijä".
-
EN:empty set, void set
-
FI:tyhjä joukko
- Se joukko, jossa ei ole yhtään
alkiota. Merkitään usein tanskalaisen Ö:n kaltaisella merkillä tai
{}.
-
EN:null string, epsilon
-
FI:tyhjä merkkijono, epsilon
- Tyhjä merkkijono on nollan
pituinen merkkijono. Tyhjä merkkijono sisältyy osajonona mihin
tahansa merkkijonoon ja merkkijojon mihin kohtaan tahansa. Merkitään
usein kreikan kielen epsilon-kirjaimella, mutta
tietojenkäsittelytieteessä usein myös lambda-kirjaimella.
-
EN:epsilon-transition
-
FI:epsilon-siirtymä, tyhjä siirtymä
-
Siirtymä
automaatin tilasta toiseen ilman, että syötteenä olevasta
merkkijonosta kulutetaan yhtään merkkiä.
-
EN:final state
-
FI:lopputila
- Automaatti, mm. deterministinen äärellinen
automaatti, hyväksyy syötteenä olevan merkkijonon, jos se päätyy
viimeisen merkin jälkeen lopputilaksi merkittyyn tilaan.
-
EN:formal language
-
FI:formaali kieli
- Formaaliksi kieleksi kutsutaan
annetun aakkoston symboleista muodostettuja merkkijonojen joukkoja. Matematiikan ja
tietojejkäsittelytieteen piirissä käytetään usein termiä "kieli"
(language) merkityksessä "formaali kieli".
-
EN:information retrieval
-
FI:tiedonhaku
- Tiedonhaulla tarkoitetaan
yleensä automaattisia menetelmiä, joilla haluttuja dokumentteja
voidaan löytää niissä olevien sanojen ja ilmausten perusteella
suuresta dokumenttitietokannasta. Tiedonhakua voi vaikeuttaa useissa
kielissä esiintyvä sanojen taipuminen ym. kielikohtaiset seikat.
(Jurafsky-Martin 2000: Sect. 17.3, ss. 646-.)
-
EN:intersection
-
FI:leikkaus
- Kahden joukon A ja B
leikkauksella tarkoitetaan joukkoa, johon kuuluvat täsmälleen ne
alkiot, jotka kuuluvat sekä A:han että B:hen.
- Yleisemmin: joukkojen A1, A2,
..., Ak leikkauksella B tarkoitetaan joukkoa, joka muodostuu niistä
alkioista, jotka kuuluvat jokaiseen näistä joukoista A1, ..., Ak. Jos
leikkaus muodostetaan nollasta joukosta, on johdonmukaista sopia, että
leikkaus on silloin yhtä kuin perusjoukko (sillä kukin joukoista on
rajoite ja tällöin rajoituksia ei olisi).
-
EN:lemma
-
FI:lemma
- Lemma on yhteen kuuluvien sananmuotojen otsikkona käytetty sana. Lemma on
usein sen hakusanan perusmuoto, jonka
taivutusmuodosta on kyse. Yhteenkuuluvuus voi olla väljempääkin kuin
se, että sananmuodot ovat saman lekseemin taivutusmuotoja.
(F. Karlsson 1998: s. 188)
-
EN:lexeme
-
FI:hakusana
- Hakusanalla on (yleensä)
perusmuoto, sanaluokka jne. Yhdellä hakusanalla on taivutuksen kautta
erilaisia sananmuotoja, joilla puolestaan on
esiintymiä, joita kutsutaan saneiksi. Yhdellä hakusanalla voi
olla useampia toisiinsa liittyviä alamerkityksiä.
(F. Karlsson 1998: Luku
6.1, s. 186-.)
-
EN:mark-up
-
FI:merkkaus
- Tekstin varustaminen sen
rakennetta kuvaavilla merkinnöillä. Tyypillisiä merkkauskieliä ovat
HTML, joka on yleisen merkkausformalismin SGML:n mukainen
verkkosivujen rakenteen osoittamisessa käytetty merkkauskieli. XML on
SGML:stä johdettu uudempi merkkausformalismi.
-
EN:morph
-
FI:morfi
-
Morfeemin
konkreettinen ilmenemismuoto. Esim. sananmuodossa "kalastajalle"
voidaan erottaa morfit "kala", "-sta", "-ja", "-lle". Morfeja, jotka
ovat saman morfeemin ilmenemismuotoja, kutsutaan allomorfeiksi.
(R. Sproat 1992: Glossary, p. 247.)
-
EN:morpheme
-
FI:morfeemi
- Morfologisen analyysin
komponentti. Morfeemin sanotaan usien olevan kielen pienin merkitystä
kantava yksikkö. Morfeemi on abstraktio, joka yhdistää sen eri allomorfit. Esim. inessiivin pääte katsotaan
morfeemiksi ja sillä on kaksi allomorfia: "ssa" ja "ssä".
(R. Sproat 1992: Glossary, p. 247.)
-
EN:nondeterministic automaton
-
FI:epädeterministinen automaatti
- Automaatti, (tyypillisesti
äärellinen automaatti), on epädeterministinen, ellei ole
yksiselitteisesti selvää, missä tilassa automaatin täytyy olla aluksi
ja kunkin merkin jälkeen. Epädeterministisyys voi johtua siitä, että
(a) automaatilla on useampia kuin yksi alkutila (b) automaatilla on ainakin joissakin tiloissa samalle
syöttömerkille useampi kuin yksi siirtymä tai
(c) automaatissa on epsilon-siirtymiä.
Äärellinen automaatti, joka ei millään näistä tavoista ole
epädeterministinen, on deterministinen äärellinen
automaatti.
-
EN:parsing
-
FI:jäsentäminen
- Virkkeiden tai
sanojen tunnistaminen niiden rakenteen perusteella. Jäsentämisen
tuloksena saadaan jäsennettävän yksikön rakennetta kuvaavaa
tietoa.
- Kielioppiin ja
sanakirjaan perustuva tapa tunnistaa kielellisen ilmauksen
rakennetta.
-
EN:precision
-
FI:tarkkuus
- Tiedonhaussa tms. relevanttien
dokumenttien prosentuaalinen osuus kaikista haun tuottamista
dokumenteista. Lääketieteessä tämä vastaa testin spesifisyyttä
(engl. specificity) eli sitä, kuinka suuri osuus testin positiivisista
tapauksista osoittautuu seulottavaa tautia sairastaviksi..
-
EN:recall
-
FI:saanti
- Tiedonhaussa tms. haun
tuottamien relevanttien dokumenttien osuus tietokannassa olevista
kaikista relevanteista dokumenteista. Lääketieteessä tämä vastaa
testin sensitiivisyyttä (engl. sensitivity) eli sitä, kuinka suuri osa
seulottavaa tautia sairastavista saadaan kyseisellä testillä
esille.
-
EN:recognition
-
FI:tunnistaminen
- Virkkeen, sanan tms.
tunnistaminen tarkoittaa sen hyväksymistä tai hylkäämistä annettujen
sääntöjen ja sanakirjojen perusteella. Eroaa jäsentämisestä sikäli, että tunnistettaessa ei välttämättä
muodosteta tai tulosteta rakennetta kuvaavaa tietoa.
-
EN:regular set
-
FI:säännöllinen joukko
- Tietyn aakkoston S merkeistä
koostuvien merkkijonojen joukko. Säännöllinen joukko voidaan
määritellä siten, että (1) tyhjä joukkko on säännöllinen joukko, (2)
tyhjä merkkijono on säännöllinen joukko, (3) aakkoston S mistä tahansa
merkistä muodostettu yhden merkin mittainen merkkijonon muodostama
joukko on säännöllinen joukko, (4) jos P ja Q ovat säännöllisiä
joukkoja, niin (a) P:n ja Q:n unioni, (b) konkatenaatio PQ ja (c)
toisto P* ovat säännöllisiä joukkoja, (5) eikä mikään muu ole
aakkoston S merkeistä muodostettu säännöllinen joukko. Esim. joukko
{"", "aa", "aaaa", ...} joka koostuu merkkijonoista, joissa on
parillinen määrä "a"-kirjaimia on säännöllinen joukko. Sen voi katsoa
muodostuneen askelilla (3) jolla saadaan joukko {"a"}, askelella (4b)
jolla saadaan joukko {"aa"} ja lopuksi askelella (4c) jolla saadaan
haluttu joukko.
-
EN:regular expression
-
FI:säännöllinen lauseke
- Yksittäisistä aakkoston
merkeistä, peräkkäinasetteluista, vaihtoehdoista ja toistoista
koostuva lauseke, joka kuvaa säännöllistä (merkkijonojen) joukkoa.
Esim. säännöllinen lauseke "(aa)*" kuvaa niitä merkkijonoja, jotka
koostuvat parillisesta määrästä a-kirjaimia.
-
EN:relation
-
FI:relaatio
- Joukkojen A ja B välillä olevat
relaatiot tarkoittavat teknisesti niiden karteesisen tulon A x B
osajoukkoja. Intuitiivisesti relaatio on joukon A ja joukon B
välisten alkioiden suhde, esimerkiksi "suuremp kuin" on lukujen
kesken relaatio (joka voidaan konkretisoida em. määritelmän puitteissa
niiden lukuparien joukoksi, joissa parin edellinen luku on suurempi
kuin jälkimmäinen).
-
EN:root morpheme, root
-
FI:juurimorfeemi, juuri
- Mofeemi (jota ei enää voida
jakaa pienemmiksi osiksi ja) josta affikseja liittämällä voidaan
tuottaa sananmuotoja tai (uusia) hakusanoja.
(R. Sproat 1992: Glossary, p. 249.)
-
EN:set
-
FI:joukko
-
SE:mängd
- Joukko koostuu alkioista, joita
voi olla nolla, yksi tai useampia. Jos tiedämme, mitkä alkiot
joukkoon kuuluvat, tiedämme täsmälleen, mikä joukko on. (Jos alkiot
ovat samat, joukot ovat samat.) Joukon alkiot eivät ole keskenään
missään järjestyksessä. Muodostettaessa joukkoja pitää olla selvillä
se, mistä perusjoukosta joukkojen alkioita voidaan ottaa.Tyhjässä joukossa ei ole yhtään alkiota.
-
EN:speech recognition
-
FI:puheentunnistus
- Automaattisen puheentunnistuksen
avulla päätellään puhesignaalista, mitä on sanottu. Puheentunnistus
voi olla joko hyvinkin rajallisen komentosanaston tunnistamista tai
jopa rajoittamattoman sanaston sallivaa ns. sanelusovellusta.
-
EN:speech synthesis, text-to-speech
-
FI:puhesynteesi
- Puhesynteesin tehtävänä on
muuntaa kirjoitettu teksti puheääneksi. Korkealaatuisen puhesynteesin
tavoitteena on tuottaa helposti ymmärrettävää puhetta, joka kuulostaa
luontevalta.
-
EN:start state
-
FI:alkutila
- Automaatin, esim. deterministisen äärellisen
automaatin tila, jossa automaatti on
käynnistyessään. Deterministisillä automaateilla täytyy olla tasan
yksi alkutila.
-
EN:state
-
FI:tila
-
SE:tillstånd
- Automaatti (esim. deterministinen äärellinen
automaatti) on alussa ja jokaisen merkin käsittelemisen jälkeen
jossakin tilassa. Automaatti siirtyy tilasta toiseen siirtymien mukaisesti.
-
EN:stem, truncated word
-
FI:tyvi
- Morfologista analyysia
karkeammalla tavalla aikaansaatu taivutuspäätteistä vapaa sananmuodon
alkuosa.
-
EN:string
-
FI:merkkijono
- Annetun aakkoston merkeistä koostuva jono. Merkkijonossa voi olla nolla,
yksi tai useampia merkkejä, kuitenkin äärellinen määrä. Esimerkiksi
sananmuodot ovat merkkijonoja.
-
EN:stem (of a word)
-
FI:vartalo, (sanan vartalo)
- Vartalosta saadaan affiksoimalla
joko uusia vartaloita tai sananmuotoja
(jossakin taivutusmuodossaan). Vartalo voi koostua yhdestä tai
useammasta morfeemista.
(R. Sproat 1992: Glossary, p.
249.)
-
EN:suffix
-
FI:suffiksi, pääte
-
Vartalon perään liitettävä affiksi. Esim.
sananmuodossa "talosssanne" on vartalo ja juuri "talo", jonka perään on liitetty kaksi
suffiksia "ssa" ja "nne".
-
EN:summary
-
FI:tiivistelmä
-
EN:transition
-
FI:siirtymä
- Deterministinen äärellinen automaatti siirtyy kullakin syöttömerkillä
tilasta uuteen tilaan siirtymän avulla. Siirtymään liittyy siten lähtötila, merkki ja uusi tila.
Usein siirtymät määritellään yleisemmiksi siten, että siirtymä
liitetään yhden merkin sijasta merkkijonoon, jossa
voi olla nolla, yksi tai useampia merkkejä.
-
EN:tag
-
FI:leima
- Kieliopillista kategoriaa tai
piirrettä kuvaava merkintä. Tyypillisiä leimoja ovat esim. sanaluokan
tai sijamuodon merkinnät.
-
EN:tokenise
-
FI:saneistaa
- Juokseva teksti saneistetaan
jakamalla se sanakirjahakua tai morfologista analyysia varten
soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu tai
erotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneiden
kaltaisina yksiköinään jatkokäsittelylle.
-
EN:unambiguous
-
FI:yksiselitteinen
-
EN:union
-
FI:yhdiste, unioni
- Kahden joukon A ja B yhdisteellä
tarkoitetaan joukkoa, joka muodostuu kaikista niistä alkioista, jotka
kuuluvat ainakin jompaankumpaan joukoista A ja B (ja alkio saa kuulua
molempiinkin).
- Yleisemmin: nollan, yhden tai
useamman joukon A1, A2, ..., Ak yhdiste on joukko, johon kuuluvat
kaikki sellaiset alkiot, jotka kuuluvat edes yhteen joukoista A1, ...,
Ak. Huomaa, että jos yhdiste muodostetaan nollasta joukosta, niin
yhdiste on tyhjä joukko.
-
EN:word-form
-
FI:sanamuoto
- Sananmuoto koostuu kirjaimista
ja muista sanan sisälle mahdollisesti kuuluvista merkeistä kuten
yhdysviivasta tai heittomerkistä. Sananmuodolla voi olla esiintymiä
eli saneita. Sananmuodolla on ainakin yksi
luenta eli tulkinta, joka koostuu perusmuodosta, sanaluokasta ja
taivutusmuotoa kuvaavista koodeista eli leimoista.
Sananmuotojen esiintymisten tilastollisessa käsittelyssä käytetään
joskus termiä "type" kuvaamaan sananmuotoa ja termiä "token"
vastaavasti sanetta.
(F. Karlsson 1998: Luku 4.1, ss. 83-)
-
EN:word token
-
FI:sane, sananmuodon esiintymä
- Sane on sananmuodon esiinymä. Saneeseen ei suoranaisesti kuulu muuta kuin
se merkkijono, josta tekstissä oleva sananmuoto
koostuu. Juoksevan tekstin pituutta kuvaa sen saneiden määrä.