Yliopiston etusivulle Suomeksi
Helsingin yliopisto
Yleisen kielitieteen laitos

Yhteystiedot:

Osoite:
Yleisen kielitieteen laitos
PL 9
Siltavuorenpenger 20A
00014 Helsingin yliopisto

Puhelin: +358 (09) 1911 (vaihde)
Faksi: +358 (09) 191 29307

Kurssilla käytettävät jäsentimet

Kurssin aikana on tarkoitus suorittaa pienimuotoinen harjoitustyö, jossa evaluoidaan eri parsereita. Tälle sivulle on koottu ohjeet kurssilla tarvittavien ohjelmien ajamiseksi. Osa on asennettuna ainoastaan Yleisen kielitieteen laitoksen palvelimille, joten ne henkilöt, joilla ei ole ling-lupaa, tekevät ryhmätyössä osuutensa jostakin vapaasti saatavissa olevasta sovelluksesta (esim. FDG, GF).

Osa alla olevista ohjeista on lainattu joko suoraan tai mukaillen Yleisen kielitieteen laitoksen ATK-sivuilta. Kyseisiltä sivuilta voi löytää apua kurssin aikana ilmeneviin teknisiin ongelmiin. Mikäli ongelmat eivät ratkea, kannattaa mennä kysymään esimerkiksi unix-päivystykseen (pe 10-12 unix-luokassa).

FDG

FI-FDG on suomen dependenssijäsennin, SV-FDG ja EN-FDG ovat sen vastineet ruotsille ja englannille.

Ohjelman voi ajaa ainakin venuksella ja angarakilla. Ohjelma käynnistyy komennolla

/usr/local/conexor/fi/fdg/fi-fdg

Jäsennettävän tiedoston voi antaa komennolle argumentiksi. Oletusarvoisesti FI-FDG esittää tuloksen XML-muodossa. Mikäli halutaan pelkkää tekstimuotoinen esitys, käytetään vipua --text. (Esim. /usr/local/conexor/fi/fdg/fi-fdg --text esimerkkimateriaali) Tarkempi ohje löytyy ATK-palveluista.

Vastaava ohjelma on myös vapaassa käytössä Connexorin sivuilla.

CG

fincg on suomen kielen morfosyntaktinen jäsennin, joka suorittaa syötetekstille morfologisen disambiguoinnin ja pintasyntaktisen analyysin.

Ohjelma käynnistyy komennolla fincg angarak- ja venus-palvelimilla.

Käyttöesimerkki

Komentoriviltä:

venus :~
    $ fincg
    Minulla on koira.
    "<Minulla>"
    "minä"  PERS PRON ADE SG
    "<on>"
    "olla"  COP V PRES ACT SG3
    "<koira>"
    "koira"  N NOM SG
    "<.>"
        
    

Tiedostosta:

venus :~
    $ cat esim.txt
    Minulla on koira.
    $ fincg < esim.txt > esim.out
    $ cat esim.out
    "<Minulla>"
    "minä"  PERS PRON ADE SG
    "<on>"
    "olla"  COP V PRES ACT SG3
    "<koira>"
    "koira"  N NOM SG
    "<.>"

    

Muihin kielivaihtoehtoihin ja tarkempiin ohjeisiin voi tutustua ATK-palvelujen kohdassa Kieliteknologiset ohjelmat - Jäsentimet.

TEXTMORFO

TEXTMORFO jäsentää ja yksiselitteistää suomenkielistä tekstiä.

TEXTMORFO toimii ainakin venus-palvelimella. Se käynnistyy komennolla

      venus:$ /usr/local/textmorfo/bin/textmorfo
    

Ohjelma tulostaa kustakin saneesta yhden, yleensä pitkän rivin. Yllä pitkät rivit on jaettu useammaksi, jotta niitä olisi helpompi lukea. Huomaa, että saneet eivät tulostu samassa järjestyksessä kuin, missä ne ovat alkuperäisessä tekstissä. On myös huomattava, että kansalliset ääkköset muuntuvat tulostuksessa aaltosuluiksi jne, esim. "hän" muuntuu muotoon:

      BaseForm=h{n,SurfaceForm=h{n,Category=Pronoun,Case=Nom,...
    

GF

GF on tyyppiteoriaan perustuva kielioppiformalismi. GF:n voi ladata projektin sivuilta, ja asentaa omaan koneeseensa osoitteessa http://www.cs.chalmers.se/~aarne/GF/. Kotisivuilta löytyy myös tutoriaaleja ja muuta lisäinformaatiota. Lukeminen kannattaa aloittaa kohdasta "What is GF?".

Cparse

Linkki cparsen manuaaliin löytyy tästä. Tieto siitä, missä ja miten ohjelmaa on tällä hetkellä mahdollista käyttää, ilmestyvät sivulle piakkoin.