Eri koodiset materiaalit: käsittelymenetelmiä ja -ohjeita



  1. Talletuskoodit

    1. ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu siitä, kattaako ASCII-merkistö kielen oikeinkirjoituksessa käytetyn merkkijärjestelmän. Jos merkistö sisältää kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin: tarvittaessa merkit muutetaan pienaakkosiin.

    2. Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja UNIX-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.

    3. Latin-1-formaatti, joka käännetään UNICODE-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi useita lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-käyttöjärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja käännetty UNICODE-merkistölle. Merkkikonversiot sisältävät nykyisellään (v. 2007) tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen korpusten yhteydessä.

    4. Unicode (utf-8): Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:

      1. "The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode).

      2. "Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs X-termissä tekstimoodissa, jolloin X-term käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle (ja X-termin pitää itsensä tietenkin olla utf-8 -moodissa, jos koneen X-term sen osaa). Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei erottanut sitä, oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina niin, mutta jos se oli omassa ikkunassaan, se selvitti, oliko tiedosto latin-1-merkistöllä, ja toimi ns. oikein. Eli, komento 'env LC_CTYPE="fi_FI.utf8" emacs' toimii Linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka tunnistaa onko tiedosto utf-8- vai latin-1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin-1- ja utf-8-merkkejä, jos emacs löytää yhdenkin latin-1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin-1-tiedostoksi." (Jyrki Havia, 2007).

      3. Merkistön kannalta on tärkeää, minkälaisella käyttöjärjestelmällä ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. "putty" sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/X11 [x] Enable X11 forwarding) (Jack Rueter).

      4. Ks. myös, mitä UNIX-käyttöjärjestelmässä olevassa manuaalissa kerrotaan ko. merkistöstä (komento "man utf-8").

  2. Merkkien kirjoittaminen suoraan näppäimistöltä:

    Emacs-editorissa utf-8-merkkien kirjoittaminen, syöttäminen näppäimistöltä tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi (paina näppäimiä escape ja x, kirjoita sitten puskuriin ucs, paina sarkainnäppäintä ja sen jälkeen paina rivinvaihtonäppäintä ja kirjoita nelimerkkinen utf-8-koodi). Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: yleisen kielitieteen laitoksen sivustolla oleva ohje; Petri Immosen sivustolla oleva ohje; UNICODE 1, UNICODE 2.

  3. Utf-merkkien näkyminen kuvaruudulla:

    Huom: useissa tapauksissa emacs-editorissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin kaikissa koneissa tässä vaiheessa vain verkkoselaimessa. Utf-8:n toimimista käytännössä kehitetään edelleen.

  4. Preprosessoidut aineistot:

    Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmiä, esim. * a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, samoin sanat, joiden alussa tai lopussa on jokin välimerkki. Monet uudemmat analysointiohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.

  5. Morfologisesti ja syntaktisesti analysoidut aineistot:

    Morfologisesti ja syntaktisesti analysoiduissa aineistoissa käytetyt indeksit, kieliopilliset tagit, on lueteltu korpusten lähdekirjallisuudessa (ks. esim. uralilaisten kielten koodauksessa käytetyt indeksit).



© P.S. 2007