Yliopiston etusivulle In English
Helsingin yliopisto
clt130: Kieliteknologian ATK-ympäristö (Clt130) - lukuvuosi 2009-2010

Yhteystiedot

Yleisen kielitieteen laitos

PL 24 (Unioninkatu 40)
00014 HELSINGIN YLIOPISTO

Puhelin +358 (09) 1911 (vaihde)
Faksi +358 (09) 191 28313

6. luennon asiat

Huomenna ei harjoituksia ja nämä olivat vikat luennot. Viimeisten harkkojen deadline on ensi maanantaina 26.10! Alla myös vastaukset kysymyksiinne. Kiitoksia kaikille kurssista ja muistakaa antaa palautetta!

Linux

Luennolla näytettiin miten unixin kautta pääsee palvelimelle Term -ikkunan kautta käskyllä ssh käyttäjätunnus@corpus.csc.fi
Tässä linkki yhteen tutoriaaliin http://suso.org/docs/shell/ssh.sdf .

Komentotulkista. Corpuksella tcsh

Erilaiset alustukset komentotulkissa ovat nimenomaan se syy miksi asiat saattavat toimia eri palvelimille hieman eri tavalla.

Mikä komentotulkki on:

Miten komentotulkkia voidaan ohjata:

Tehtävissä esitettyjä kysymyksiä

  • Voiko tiedostoon sisällyttää jotain muutakin kuin vain yksinkertaista tekstiä, johon tiedoston nimessä esiintyvä pääte .txt ilmeisesti viittaa? Jos voi niin mitä ja vaihtuuko tällöin myös pääte?

    .txt kertoo että tiedostossa on tekstimuotoista tietoa, .jpeg kertoo että kyseessä on jpeg-kuva, .pdf kertoo että kyseessä on pdf-tiedosto (joka myös on kuva). Eli kyllä pääteen tarkoitus on kertoa minkälaisesta dokumentissa on kyse ja millä ohjelmalla kyseinen tiedosto siis kannattaa avata. Tämä pätee myös muualla kuin unix-maailmassa. On myös olemassa wordin ja openoffisen tyyppisiä onjelmia, joilla voidaan koota yhteen tekstiä, kuvia ja taulukkoa esim. latex, mutta näillä on oma tiedoston päätteensä ja ne muodostavat esim. pdf muotoisen tiedoston (joka siis on kuva). ps. kuva tiedostotkin ovat pohjimmiltaa tekstiä
  • Miksi nämä harjoitukset (ja ilmeisesti paljon muutakin kieliteknologian opinnoissa) tapahtuvat juuri Unix-ympäristössä?

    Unix:in vahvuuksia on laskentateho ja sen kautta nopeus silloin kun käsitellään suuria tietomääriä (korpuksia yms.). Windows (tai dos) on laskenta ympäristönä kovin hidas. Graafisen ympäristönkin ylläpitäminen vie energiaa. Unix palvelin on myös hyvä siitä, että sen käyttö on turvallisempaa kun on varmuuskopiointi yms. Kuinka monella on esim. valokuvat jossain muualla kuin omalla koneella? Jos sinulla on ohjelma, joka etsii 300 osaista sanakirjaa vastaavasta tietomäärästä kaikki sanan "tieto" eri taivutusmuodot, niin haluatko että niiden etsintä kestää 20 tuntia vai tunnin? Luvut ovat tietysti hatusta vetäistyjä, mutta unix on siksi haluttu, että se on tehokas.
  • Miten komentotiedostoja käytetään unixissa? Osaatko antaa konkreettista esimerkkiä tilanteesta, jossa komentotiedostojen käyttö olisi erityisen hyödyllistä?

    Komentotiedoston idea on se, että saadaan yhteen paikkaa kirjattua kasa komentoja, jotka halutaan suorittaa tietyssä järjestyksessä tai tietyllä ajanhetkellä. Yksi esimerkki komentotiedosto on tuo luennollakin katsottu .cshrc (tai jos käytössä toinen komentotulkki .bachrc), sinne voidaan laittaa etukäteen esim. polkuja mistä eri ohjelmat ja kirjastot löytyvät esim. java. Tämä on varsin hyödyllistä.
  • Jos tappaa tcsh:n eli komentoriviohjelman, miten tappamisen jälkeen voi jatkaa jos komentoriviä ei voi käyttää? Toisin sanoen miten tilanteen saa ennalleen?

    Tilannetta ei saa ennalleen. Tapettua prosessia ei voi mitenkään elvyttää. Onneksi voit kuitenkin aloittaa uuden istunnon.
  • Miksi tiedostoja paketoidaan?

    vastaus vanhoista materiaaleista
  • Tiedostojen suojausasiat eivät oikein kunnolla auenneet minulle viime tehtävien teossa. En ymmärrä, miten oikeuksia saa annettua ja otettua pois eri osapuolilta. Eli kaikki ugo ja rwx sun muut komennot ovat hieman sekaisin. Miten komentojen kuuluisi mennä? (Vastaus olisi kiva saada sähköpostilla, kun opiskelen etänä Turusta tätä)

    Tässä varsin kattava paketti asiasta http://www.cs.tut.fi/~jkorpela/unix/7.10.html .
  • Harjoitus2:ssa kohdassa 1 käsketään antaa suoritusoikeus (x) ryhmälle (g); mitä tuo suoritusoikeus tarkoittaa käytännössä?

    Suoritusoikeus tarkoittaa oikeutta suorittaa kyseinen tiedosto ohjelmana tai hakemistoille nimetyn tiedoston avausoikeus. (Mehän kokeilimme tätä kun laskin teidät mellestämään omaan hakemistooni, pelkkä luku oikeus hakemistoon ei riittänyt vaan piti myös olla suoritusoikeus, jotta pääsitte sisälle) Hakemistolla suoritusoikeus tarkoittaa listaamisoikeutta. Tiedoston suoritusoikeutta voi demonsroida esim. copioimma yhden käyttämämme unix käskyn sisällön kotihakemistoomme, jollain voimme käsitellä sitä omana tiedostonamme. Samalla voimme katsoa mitä se sisältää.

    cp /bin/pwd oma_pwd

    Voimma ajaa ohjelman kommennoilla

    \oma_pwd

    Nyt jos otamme sitä oikeudet pois

    chmod a-x oma_pwd

    Huomaamme että se ei enää toimi.
  • Saako Unicode-koodatun tekstitiedoston näkymään oikein emacsissa? Lähetin kyseisenlaisen txt-tyyppisen tiedoston corpus-palvelimelle, mutta emacsilla avattuna tiedosto ei näkynyt oikein; vastaavasti ANSI-koodauksen kanssa ei ollut mitään ongelmaa.

    Tämä johtuu siitä, että kun eri ohjemissa tallennetaan tiedostoja niin ne tallennetaan erilaisille koodauksilla. Se on helppo ymmärtää, että jos katsotaan .doc tai .pdf tiedostoa, niin ne näyttävät teksti editorissa hassuilta, mutta voi olla vaikeampi havaita, että pelkkiä tekstitiedostojakin voidaan tallentaa erilaisilla formaateilla näitä mm. edellä mainitut ANSI ja Unicode ja ASCII. Ongelmia aiheuttavat lähinnä meille rakkaan skandinaavit eli ä,ö,å jne. joiden oikein näkyminen saattaa tarvita erillisen paketin yms. Yleensä suomessa nämä asiat on hoidettu, mutta ulkomailla keypadeissä ei ole ääkkösiä vakiona. Yleensä ongelman voi kiertää valitsemalla tallennusmuodoksi sellaisen .txt tiedoston formaatin, jota myös vastaanottava ohjelma osaa lukea, mutta aina tämä ei ole mahdollista. Itse emacsiin voidaan asentaa unicode tuki. Myös Putty saattaa voida auttaa asiassa http://www.ling.helsinki.fi/atk/perusohj/yhteys/putty.shtml ja koodauksen muuttamista varten on myös olemassa unix-ohjelma jonka voi itse ladata koneelleen.
  • Miten mp3-tiedostojen toistaminen Unixissa onnistuu?

    Soittimia on useita, näistä löytyy tietoa mm. http://www.mp3daze.com/playunix.htm -sivuilta. Löytyy myös Unix-leivänpaahdin. Toisaalta mielenkiintoisempi kysymys on, missä musiikki soi, jos soitatte musaa palvelimella?
  • Mitä hyviä ja huonoja puolia on unix-pohjaisen ohjelman käytössä? Toisin sanoen, missä yhteydessä on järkevää käyttää unix-pohjaista ohjelmaa ja missä taas ei?

    Kysymys on sinänsä hieman hassusti muotoiltu, koska jos kyseessä on unix- pohjainen ohjelma, ei sitä voi käyttää muualla kuin unix-maailmassa. Eli hyvä puoli voisi olla että se toimii unix, mutta huono puoli voisi olla että se ei toimi muualla. Unix-pohjaisten ohjelmien huonoja puolia yleensä ovat käyttöliittymät (tai grafisen käyttöliittymän puute), unix-maailma eroaa windows maailmasta, joten ohjelmien käytön aloittaminen ei ole yhtä helppoa. Asentaminen unixiin on myös hankalampaa kuin windowsiin, koska windows tekee monta asiaa automaattisesti esim. pitää kirjaa siitä missä ohjelmat ovat joita unix:issa pitää tehdä itse (classpath), tosin toimien tehokkuudesta ja varmuudesta voidaan olla montaa mieltä.
  • Millainen on Unix-järjestelmän "tulevaisuus" kieli- ja käännösteknologian ollessa kyseessä? Miten paljon tulevaisuudessa käännösteknologian opiskelua suunnittelevan kannattaa Unixiin perehtyä?

    Nyt täytyy myöntää, että en tunne kovin hyvin käännösteknologian opiskelijoiden opintosuunnitelmaa, mutta aika monilla kursseilla kieliteknologiassa käytetään unix:issa sellaisia ohjelmia, joista ei ole olemassa windows tai mac versioita, eli niin kauan kuin näitä kursseja pidetään niin en usko että unix on menossa mihinkään. Esim. seuraavilla kursseilla käytetään unix:ia ja sen "palveluita":
    http://www.cstr.ed.ac.uk/projects/festival/ ja http://www.ling.helsinki.fi/kit/2008s/clt230/materiaali.shtml ja http://www.ling.helsinki.fi/kit/2008s/clt236/materiaali.shtml ja http://www.ling.helsinki.fi/kit/2008k/clt260/priv/index.shtml jne.
  • Bonus kysymys viimeviikolta. Jos halutaan korvata joukko merkkejä yhdellä merkillä niin miten tämn voisi tehdä?

    Esim. cat testi_tied.txt | sed -e 's/\[678\]/ä/g' -e 's/äää/ä/g'
  • Kurssin harjoitustyöstä, joka on mainittu Kurssin kalenterissa haluaisin lisätietoa. Miten laaja se on, montako pistettä siitä saa, ja onko se pakollinen.

    Harjoitustyöstä voi saada 7 pistettä ja se on enemmäkin kurssin viimeinen harjoitus kuin harjoitustyö, mutta kutsun sitä harjoitustyöksi, koska aika usein kursseilla viimeinen harjoitus on harjoitustyö, joten totutte tähän käytäntöön heti alusta. Tarkoitus on tehdä noin yhden A4 verran tekstiä, jossa listaatte itsellenne tämän kurssin tärkeimmät asiat.