[Next] [Up] [Previous] [Contents]
Up: Ctl531: Kurssimateriaalia Previous: 7 Epsilon-editori

Termejä

Kielellisen aineiston käsittelyyn ASCII- tai DOS-muoto on tavallinen. Kaikkien eri maiden merkistöjä ei kuitenkaan voida sellaisenaan käyttää, sillä tulostuvia merkkejä 7:n bitin järjestelmässä voi olla vain 94 (näitä vastaa koodiarvot 33-126) tai 8:n bitin järjestelmässä 221 (käytettävissä kooditarvot (33-126 ja 128-254). Käytännössä puuttuvat kirjaimet on korvattava yhdellä olemassa olevalla merkillä tai kahden olemassa olevan merkin yhdistelmällä.

Selityksiä:

Bitti
on tiedon pienin yksikkö. Se voi esittää kaksiarvoisen distinktion (0 ja 1). Kun useampia bittejä käytetään yhdessä, voidaan esittää useampia vaihtoehtoja sisältäviä distinktioita. Vaihtoehdot numeroidaan nollasta lähtien. Esim. 7 bittä yhdessä antaa 128 vaihtoehtoa (2x2x2x2x2x2x2=128) ja 8 bittiä 256 vaihtoehtoa. Syntyviä numeroita voidaan käyttää esim. tekstin kirjaimien tallentamiseen tietokoneen muistiin.

Kirjain
(engl. letter) on sanojen kirjoittamisessa tarvittava symboli eli aakkonen, esim. ABCDEFGHIJKLMNOPQRSTUVXYZÅÄÖabcdefghijklmn....

Erikoismerkki
(engl. special character) on sellainen symboli, joka ei ole numero eikä kirjain, esim. !"#%&/()=?+\.;*...

Ohjausmerkki
(engl. control character) on sellainen merkki, joka ei ole symboli, mutta voi näkyä näytössä esim. välilyöntinä tai rivinvaihtona.

Merkki
(engl. character) on joko kirjain, numero, erikoismerkki tai ohjausmerkki.

ASCII
on tietyn standardin mukainen kokoelma merkkejä ja niitä vastaavia koodiarvoja. ASCII-standardi määrittelee 128 merkkiä.

Laajennettu merkistö
(engl. extended characters) on DOS:n käyttämä kokoelma merkkejä, joita vastaa 255 koodiarvoja. Koodiarvoja 128-255 vastaavat merkit määritellään erikseen ns. koodisivun avulla. Koska koodisivu on kieli- ja maakohtainen, voi merkki näkyä näytössä väärin, jos kulloinkin käytössä oleva koodisivu ei ole oikea.

Koodiarvo
(usein ns. ASCII-arvo) on kirjaimen järjestysnumero tietyssä merkistössä:

[IMAGE (tabular)]

ASCII-arvo
koodiarvon synonyymi. Valitettavasti sekaannusta voi aiheuttaa se, että ASCII-standardi ei kuitenkaan itse tunne enempää kuin 128 koodiarvoa, vaikka termiä ASCII-arvo käytetään usen kaikista 256 koodiarvosta, jotka on 8:n bitin avulla mahdollista esittää.

ASCII-teksti
on sellainen tekstitiedosto, jonka jokaisen peräkkäisen merkin koodiarvo voidaan tulkita merkiksi suoraan ASCII-standardin mukaisen vastaavuuden mukaan. Joskus ASCII- tekstillä tarkoitetaan epätarkasti myös DOS-tekstejä, kuten tämän jakson otsikossa.

DOS-teksti
on sellainen tekstitiedosto, jonka jokaisen peräkkäisen merkin koodiarvo voidaan tulkita merkiksi suoraan ASCII-standardin sekä ainakin yhden koodisivun mukaisen vastaavuuden mukaan. Kaikki ASCII-tekstit ovat DOS-tekstejä.

ASCII-tekstitiedosto
Usein tiedoston nimen tarkentimesta voidaan päätellä, että teksti on ASCII-teksti. Tyypillisiä tarkentimia ovat ''.ASC'',''.TXT'',''.MAN'',''.DOC''. Näistä luotettavimman vihjeen antaa tarkennin ''.ASC''.

DOS-tekstitiedosto
Joskus tiedoston nimen tarkentimesta voidaan päätellä, että teksti on DOS-teksti. Tyypillisiä tarkentimia ovat ''.TXT'',''.TX8'',''.MAN'',''.DOC''. Näistä luotettavimman vihjeen antaa tarkennin ''.TX8''.



[Next] [Up] [Previous] [Contents]
Up: Ctl531: Kurssimateriaalia Previous: 7 Epsilon-editori



Jyrki.Niemi@Helsinki.FI