Unix-ohjeet

Yleisessä käytössä olevia lingvistisiä ohjelmia

Tämä sivu on luultavasti totaalisen vanhentunut -nv (14.7.2003)

AT&T FSM Library

Brill's Tagger

Tiedot tulossa...

Constraint Grammar

Constraint Grammar ei ole käytössä, saatavilla olisi kai Connexorilta CG2, SourceForgesta saatavilla VISL Constraint Grammar Compiler.
Mahdollisia käyttötarpeita: opetus, tutkimus
Tuleva mahdollinen ylläpitäjä: ?
Ohjeet: ?
PROBLEM: -
ACTION: -
WISH: -

CParse

CParse, Lauri Carlsonin kehittelemä unifikaatiokielioppien kehitysympäristö. Ohjelma lienee käytössä joillain kieliteknologian kursseilla ja Interact-projektissa.
PROBLEM: onko yleisesti käytössä...
ACTION:
WISH:

Edinburgh Speech Tools

Läjä ohjelmia puheen käsittelemiseksi. Ainakin EMU (ei käytössä meillä) ja Festival käyttävät tätä.

FDG (Functional Dependency Grammar -jäsentimet)

Conexorin FDG-jäsennin suomen kielelle. Käynnistyy venus-palvelimella käskyllä fi-fdg. Conexor on nykyään Connexor ja tuoteperhe on Machinese, joten tiedot jäsentimestä saaattavat siirtyä sinne tulevaisuudessa.
Versio: 3.7, (4.0 eli Machinese 1.0 olemassa)
Vastuuhenkilö: ??? Tarvetta muiden kielten jäsentimelle???
Käyttötarve: ainakin projekteissa, opetuksessa...
Vastuuhenkilö: ?
Opastus: nvolk

Festival

Festival on Edinburgissa kehitetty puhesynteesiohjelma. Mukana on lisäksi Suomenkielisessä puheteknologian yhteishankeessa kehitetty miespuhujan ääni. Käynnistyy CSL-koneissa käskyllä festival. 3.10.2002: ei käynnistynyt: asennetaan ennen kevät 2003 synteesikurssia versio 1.4.2 pienin modifionnin lähdekoodissa (nvolk) + suomenkieliset äänet (nvolk). Tarvitsee myös Edinburgh Speech Toolsia.
Käyttötarve: suopuheprojekti, puhesynteesikurssit

Fintwol, fin-twol

Ks. TWOL-R.

FreeTTS

FreeTTS on SUNin tekemä Java-kielinen versio Flitestä. Käyttää Javan versiota 1.4, joka on uudempi kuin CS-Linuxeissa oleva versio. Haussa on projekti, jonka osana yritettäisiin korvertoida Festival-ääni Flitelle. Sopivat työkalut sangen suoraviivaiseen konvertointiin ovat kai tulossa. Joskus. Käyttöä mahdollisesti luonnollisen kielen generointikurssilla ja puhesynteesikursseilla.

FSA

INTEX

Ei asennettu. Saatavilla (vain?) Windows-ympäristöön.

INTEX is a linguistic development environment that includes large-coverage dictionaries and grammars, and parses texts of several million words in real time. INTEX includes tools to create and maintain large-coverage lexical resources, as well as morphological and syntactic grammars. Dictionaries and grammars are applied to texts in order to locate morphological, lexical and syntactic patterns, remove ambiguities, and tag simple and compound words. INTEX is used by several research centers to rapidly construct extractors to identify semantic units in large texts, such as Proper names of persons, locations, technical expressions of finance, etc. INTEX can build lemmatized concordances and indices of large texts with respect to all types of Finite State patterns.

Machinese

Connexorin (ex-Conexor) tuoteperhe. Ei vielä käytössä, vanhempi fi-fdg löytyy...

MATLAB

MATLAB on saatavissa myös Linuxiin. Ohjelmaa ei laitoksella ole.

MBROLA

Puhesyntetisaattori. Ei asennettu ohjelmaa eikä kieliä.

Praat

Tekee kaiken mitä koneella on tehtävissä fonetiikan saralla, tai jotain... Käytetään kutakuinkin kaikille puheteknologian kursseilla.

Sicstus Prolog

Prolog-tulkki. Käytetään Prolog-kurssin lisäksi ainakin joillain jäsennyskursseilla. FSA tarvitsee tätä.

TextMorfo

Kielikoneen suomenkielinen jäsennin. Oli joskus asennettuna polva-palvelimelle, mutta poistunut käytöstä palvelimen alasajon yhteydessä. Ohjelmaan on jonkinlainen lisenssi, mutta onko ohjelman henkiinherättäminen tarpeen?

PROBLEM: Tarvitaanko?
ACTION: ?
WISH: ?

TWOL-R

TWOL-R on ajonaikainen kaksitasomallia käyttävä ohjelma. Sopivan leksikon kanssa siistä tulee jonkin kielen morfologinen analysaattori, eli esim. Fintwol koostuu TWOL-R-ohjelmasta ja suomenkielisistä säännöistä. Fintwol, Kimmo Koskenniemen ja Lingsoftin kehittämä morfologinen analyysiohjelma suomen kielelle. Käynnistyy Venuksessa käskyllä fin-twol. Ongelmia: manuaalisivut puuttuvat, muut kielet, vanha leksikko...

Wavesurfer

Avoimen lähdekoodin omaava työkalu äänen visualisointiin ja manipuloimiseen. Helppokäyttöinen, mutta vastaavasti yksinkertaisempi kuin Praat. Saatavilla myös Windows-ympäristöön.

WordNet

WordNet on psykolingvististen teorioden pohjalta rakennettu järjestelmä, joka kuvaa sanojen välisiä suhteita merkitysten tasolla. Askartelen ehkä tekstiversion lähdekoodista uuden version, joka mahdollistaa monen sanan hakuja (samoilla optiolla), ettei ohjelmaa tarvitsisi käynnistää aina uudelleen.

Xerox Finite State Tools (XFST)

Xerox Finite State Tools (xfst, lexc ja twolc) löytyvät venus-koneelta...

Lyhenteiden selitykset

CSL
Computer Science Linux