Microsoft SAPI4 ja Mikropuhe 4.2 Windows

Timehousen Mikropuhe 4.2 Windows sisältää tuen Microsoftin Speech API:n 4.0-version kontrollitageille. Uudempaa ja kehittyneempää SAPI5:ttä ohjelmisto ei tue.

Mikropuheen SAPI4:n kontrollitagituki on vajavainen, SAPI-dokumentaatiossa olevista 22:sta tagista Mikropuhe tukee dokumentaationsa mukaan 12:ta. Näihinkin liittyy joitain ongelmia:

SAPI4:ssa äänen korkeus annetaan koko seuraavalle sanalle, mikä on liian vähän ja erityisen ongelmallinen monitavuisissa kielissä. Eli kontrollitagien avulla on erittäin vaikea kuvata suomen sanapainon aiheuttamaa muutosta sanan ensimmäisessä tavussa. Meidän Mikropuhe parannetulla prosodialla -implementaatio perustuukin tavujen muutamiseen omiksi "sanoikseen" (pakottamalla sanojen väliseksi tauoksi todellisuutta vastaava 0 ms) ja antamalle joka tavulle näin oma taajuus.

Lisäksi koska meillä ei ole hajuakaan Mikropuheen äänteiden kestomallista, eikä äänteiden kestoihin voi vaikuttaa, käytetään tavun pituuden laskennassa omia äännekeskiarvojamme ja lasketaan taajuus 25% tavun alusta. (Yleiseen suhteelliseen puhenopeuteen voi siis vaikuttaa, mutta käytännössä emme voi tuoda oman mallimme mukaisia kestoja äänteille.)

Olemme siis tehneet alkeellisen implementaation intonaatiomallistamme myös Mikropuheelle. Oman subjektiivisen mielipiteeni mukaan puheen laatu kyllä paranee alkuperäisesta, mutta yllämainituista syistä puheen laadun paraneminen on sangen vähäistä. Toisaalta SAPI-tuen avulla voidaan rakentaa ohjelmia, jotka käyttävät meidän lavenninta ja Mikropuheen synteesiä. Laventimen avulla voidaan luettavan tekstin laatua parantaa toki huomattavasti.