Matemaattisten mallien ja syväoppimisen käyttö 
puheentunnistuksessa 
 
 
 
 
 
Tietojenkäsittelytiede 
Tietojenkäsittelytieteiden tutkinto-ohjelma 
Tietotekniikan laitos, Teknillinen tiedekunta 
Kandidaatin tutkielma  
 
 
 
Laatija: 
Ilkka Suominen 
 
 
 
 
 
 
 
 
Lokakuu 2025 
 
Turun yliopiston laatujärjestelmän mukaisesti tämän julkaisun alkuperäisyys on tarkastettu  
Turnitin OriginalityCheck -järjestelmällä. 
Kandidaatin tutkielma 
Tietotekniikan laitos, Teknillinen tiedekunta 
Turun yliopisto 
 
Oppiaine: Tietojenkäsittelytiede 
Tutkinto-ohjelma: Tietojenkäsittelytieteiden tutkinto-ohjelma 
Tekijä: Ilkka Suominen 
Otsikko: Matemaattisten mallien ja syväoppimisen käyttö puheentunnistuksessa 
Sivumäärä: 20 sivua 
Päivämäärä: Lokakuu 2025 
 
Puheentunnistus on tekoälyn sovelluskohde, jonka tarkoituksena on muuttaa ihmisen tuottama puhe 
tietokoneen ymmärtämään muotoon ja tunnistaa siitä kielellisesti merkityksellisiä rakenteita 
mahdollisimman virheettömästi. Tämän saavuttamiseksi tarvitaan fonetiikan, signaalinkäsittelyn ja 
koneoppimisen käsitteiden yhdistämistä. Puheentunnistus voidaan toteuttaa tietoteknisesti käyttämällä 
joko perinteisiä matemaattisia malleja kuten piilotettuja Markovin malleja tai syväoppimismalleja, 
joiden suosio on kasvanut 2000-luvulta alkaen aina tähän päivään asti. Kummankin tyypin malleissa 
kielen semanttisten piirteiden esittämiseen käytetään sanavektoreita. 
Syväoppimisen merkittävin ero perinteisiin malleihin verrattuna on käytettyjen verkkokerrosten 
määrässä, joka on syväoppimisverkoissa huomattavasti suurempi kuin perinteisten matemaattisten 
mallien käyttämissä verkoissa. Puheentunnistuksessa perinteisillä matemaattisilla malleilla ja 
syväoppimisella on kummallakin omat hyvät puolensa riippuen käyttökohteen monimutkaisuudesta. 
Syväoppimismallit ovat suuremman verkkokerrosten määrän vuoksi vähemmän riippuvaisia 
ominaisuuksien luokittelusta, kun taas perinteisillä malleilla niiden suorituskyky perustuu siihen, että 
ominaisuudet pystytään luokittelemaan tarkasti. Syväoppimismallit ovat täten parempia hyödyntämään 
ohjaamatointa oppimista. Syväoppimismallien etuna on myös se, että tekoälyn viimeaikainen kehitys 
on tapahtunut sellaisilla alueilla, jotka ovat läheisesti yhteydessä syväoppimiseen. 
Vaikka syväoppimismallit ovat yleisesti ottaen perinteisiä malleja tehokkaampia, joissain 
tutkimuksissa on todettu, että perinteisten mallien ja syväoppimismallien rakenteita yhdistelevät ns. 
hybridimallit ovat suorituskyvyltään tietyissä puheentunnistuksen sovelluksissa parempia kuin 
kumpikaan edellisistä malleista yksin. Hybridimallien vahvuuksiksi mainittiin pienemmän 
virhemäärän lisäksi myös parempi suorituskyky ja laskennallisella kuormittavuudella mitattuna 
kevyempi mallinnuskyky. 
Asiasanat: puheentunnistus, koneoppiminen, syväoppiminen 
 
 
  
Sisällysluettelo 
1 Johdanto 1 
2 Taustaa puheen tuottamisesta ja havaitsemisesta 3 
3 Puheen muuttaminen ja tallentaminen digitaaliseen muotoon 6 
4 Sanavektorien käyttö luonnollisen kielen esittämiseen 8 
5 Koneoppiminen ja sen soveltaminen puheentunnistukseen 10 
6 Syväoppiminen 12 
7 Syväoppimisen edut tilastollisiin malleihin verrattuna 14 
8 Johtopäätökset 17 
9 Yhteenveto 19 
Lähteet 21 
 
 
1 
 
1 Johdanto 
Nykyään päivittäisessä arjessa useimmiten puheentunnistuksen kanssa päätyy tekemisiin 
erilaisten puheenkäsittelysovellusten kautta. Tällaisia ovat esimerkiksi puheen koodaus, 
”puheesta tekstiksi”-muunnos, puhujan tunnistus ja varmennus, puheenparannus, 
kielentunnistus, puheen transkriptio, puhujan asenteiden ja tunteiden tunnistus, 
audiovisuaalinen signaalinkäsittely ja puhutun dialogin järjestelmät (Kapargavali & Chandra, 
2016). Merkittäväksi puheentunnistuksen sovelluskohteeksi ovat aivan viime vuosina 
nousseet erilaiset virtuaaliavustajat, kuten esimerkiksi Amazonin Alexa, Applen Siri, 
Microsoftin Cortana ja Googlen Google Assistant. Niiden ominaisuudet poikkeavat hieman 
toisistaan, mutta ne pystyvät ääniohjauksella muun muassa tekemään internet-hakuja, 
asettamaan muistutuksia, tekemään ostoksia, lukemaan kirjoja, tekemään pöytävarauksia 
ravintoloihin ja hallitsemaan sähköpostiohjelmia. (Reis ym., 2017.) Näiden sovellusten 
taustalla oleva teoria on kuitenkin jo huomattavan vanhaa ja niiden toiminta tämänhetkisessä 
laajuudessaan ja luotettavuudessaan on vaatinut useiden vuosikymmenten teknologisen 
kehityksen ja edelleenkin tästä huolimatta puheentunnistuksen käyttötilanteissa sattuu usein 
väärinymmärryksiä ja virhetilanteita. Käyttäjän näkökulmasta näiden virhetilanteiden ja 
puheentunnistusjärjestelmien rajoitusten ymmärtäminen vaatii tietoa siitä, kuinka 
puheentunnistus on teknisesti toteutettu. Matemaattinen mallinnus käyttäen joko perinteisiä 
matemaattisia malleja tai syväoppimista on keskeinen osa tätä toteutusta. 
Puheentunnistuksen prosessi on seuraava: puhe tallennetaan ja muutetaan digitaaliseen 
muotoon, tämän jälkeen digitoitu puhe pilkotaan pieniin paloihin, joista jokaisesta 
muodostetaan sen aaltomuodon sisältämän taajuusinformaation muodostama piirrevektori. 
Näitä piirrevektoreita verrataan tunnettujen äänteiden piirrevektoreihin, joista muodostetaan 
kyseisen puhenäytteen äännemalli. Tässä äännemallissa olevia virheitä voidaan tunnistaa 
vertaamalla sitä kyseisen puhekielen kielimalliin, joka arvioi kuinka todennäköisiä 
tarkasteltavan äännemallin äännerakenteet ovat kohdekielen kontekstissa. (Kurimo, 2009.) 
1970-luvulta alkaen tähän päivään asti puheen tietokoneavusteinen käsittelyteknologia on 
kehittynyt suurin harppauksin. Tähän on akateemisessa kirjallisuudessa viitattu historiallisesti 
käsitteellä automaattinen puheentunnistus (engl. Automatic Speech Recognition, ASR). ASR-
järjestelmä on tehty monista komponenteista, mukaan lukien puhesignaalin esikäsittely, 
piirteiden erottaminen, akustinen mallinnus, foneettisten yksiköiden tunnistus ja kielen 
mallinnus. Perinteiset ASR-järjestelmät integroivat sekä piilotetut Markovin mallit (engl. 
2 
 
Hidden Markov Models, HMM) että Gaussin sekoitusmallit (Gaussian Mixture Models, 
GMM). HMM:a käytetään sellaisen puheen vaihtelun käsittelyyn, joka liittyy aika-
avaruuteen, kun taas GMM:t edustavat ääniyksiköiden akustisia ominaisuuksia. 
Mallinnusprosessi on aikaa vievä ja vaatii erittäin suuren harjoitustietojoukon korkean 
tarkkuuden saavuttamiseksi. (Pouyanfar ym., 2019.) 
Puheentunnistuksen suosiota sovelluskohteena heijastuu myös sen suosioon akateemisen 
tutkimuksen aiheena, johon on viimeisen noin 15 vuoden aikana liittynyt yhä enemmän 
syväoppiminen. Esimerkiksi Turun Yliopiston Volter-kirjastotietokantaan vuoden 2024 
huhtikuussa tehty haku hakusanoilla ”speech recognition” AND ”deep learning” rajattuna 
vuoteen 2017 ja sitä uudempiin materiaaleihin tuotti kaikkiaan 5770 tulosta, joista 2600 oli 
tieteellisiä artikkeleita, 2242 patentteja, 517 konferenssijulkaisuja, 138 kirjan lukua ja 125 
väitöskirjaa ja muuta opinnäytettä. 
Tämän massiivisen kirjallisuuden määrän vuoksi tämä tutkielma on rajattu antamaan lukijalle 
yleiskuvaus matemaattisista malleista käyttämällä esimerkkinä niistä yleisintä, HMM-mallia. 
Syväoppimismalleista on valittu muutama tarkempaan tarkasteluun sen perusteella, kuinka 
laajasti niitä esitellään aiemmissa syväoppimista puheentunnistuksessa käsittelevissä 
kirjallisuuskatsauksissa. Tutkielman rakenne on seuraava: luvussa 2 aihetta taustoitetaan 
kertomalla puheen tuottamisesta ja havaitsemisesta; luvussa 3 kerrotaan kuinka puhe 
muutetaan digitaaliseen muotoon; luku 4 käsittelee laajemmin sitä, miten sanavektoreita 
käytetään luonnollisen kielen esittämiseen puheentunnistuksessa; luvussa 5 tuodaan esiin 
matemaattiset mallit ja niiden hyödyntäminen puheentunnistuksessa; luvussa 6 määritellään 
syväoppiminen ja kerrotaan kuinka se on kasvattanut suosiotaan puheentunnistuksen alalla; 
luvussa 7 pohditaan syitä tälle suosion kasvulle syväoppimisen hyvien puolten ja 
heikkouksien esittelyllä ja luvussa 8 tehdään johtopäätöksiä aikaisempien lukujen perusteella.      
3 
 
2 Taustaa puheen tuottamisesta ja havaitsemisesta 
Ihmisillä puheen tuottaminen perustuu kolmeen mekanismiin: initiaatioon, fonaatioon ja 
artikulaatioon. Initiaatiolla tarkoitetaan puheäänten tuottamisen voimanlähdettä, joka 
useimmiten on keuhkoista lähtevä uloshengitysilmavirta, mutta suomen kielen puhujille on 
ominaista tiettyjen äänteiden tuottaminen myös sisäänhengitysilmavirralla. Fonaatiolla taas 
tarkoitetaan tämän ilman saattamista aaltoliikkeeseen kurkunpäässä sijaitsevan ääniraon 
avulla. Yleisemmät fonaatiotyypit ovat soinnillinen (fonaatio tapahtuu) ja soinniton (fonaatio 
ei tapahdu). Muita mahdollisia tyyppejä ovat narina, kuiskaussointi ja henkäyssointi. (Laver, 
2012.) Fonaation tuloksena syntyvä aalto ei säteile suoraan ulos, vaan se etenee nielun läpi 
kurkunpään yläpuolella ja sitten kielen yläpuolella olevan suuontelon läpi ja mahdollisesti 
nenäontelon läpi. Näitä polkuja kutsutaan äänikanavaksi ja nenäkanavaksi. Näissä kanavissa 
kulkevan ilmavirran kulun manipulointia kutsutaan artikulaatioksi. (Pulkki, 2015, s. 79–83.) 
Suosituimmaksi tavaksi edellä mainittujen puheäänten transkriptioon eli niiden muuttamiseen 
kirjalliseen muotoon ja luokitteluun on pitkän kehityksen tuloksena noussut niin kutsuttu 
kansainvälinen foneettinen aakkosto (engl. International Phonetic Alphabet), johon usein 
viitataan kirjallisuudessa sen englanninkielisen nimen lyhenteellä IPA. IPA on 
tarkekirjoitusjärjestelmä, jonka tarkoituksena on esittää puhe tekstimuodossa ääntämyksen 
mukaan tieteellisen tarkasti siten, että jokaisella erilliseksi tunnistetulla äänteellä on oma 
symbolinsa. Näitä symboleita voidaan myös muokata edelleen liittämällä niihin erilaisia 
diakriittisiä merkkejä. IPA:ssa konsonantit ja vokaalit luokitellaan kahteen eri taulukkoon. 
Konsonantit luokitellaan artikulaatiopaikan, artikulaatiotavan ja soinnillisuuden mukaan. 
Vokaalit taas luokitellaan väljyyden, etisyyden/takaisuuden ja pyöreyden mukaan, jossa 
väljyys kuvaa kielen ja kitalaen välin suuruutta, etisyys/takaisuus kyseisen välin sijaintia 
suussa ja pyöreys huulten asentoa ääntämishetkellä. (Jones & Knight, 2015.) 
Ääniaalto tai värähtely etenee fyysisessä väliaineessa, se voi vahvistua resonanssin 
vaikutuksesta ja vaimentua sellaisten häviöiden vuoksi, jotka muuttavat sen muihin 
energiamuotoihin. Resonanssi on ilmiö, jota esiintyy usein fysikaalisissa järjestelmissä. 
Signaalinkäsittelyn näkökulmasta ääniväylä ja nenäontelo toimivat suodattimena, joilla on 
säädettävät resonanssit, jotka korostavat tiettyjä taajuuksia. Ihmisäänen tapauksessa alinta 
taajuutta kutsutaan perustaajuudeksi, jota usein merkitään kirjallisuudessa termillä f0. Muita 
resonanssitaajuuksia kutsutaan formanteiksi. (Pulkki, 2015, s. 15–23.) 
4 
 
Ensiaskeleet äänen tallentamiseen ja esittämiseen visuaalisessa muodossa tehtiin 1900-luvun 
alkupuolella kokeellisen fonetiikan tutkimuksessa hyödyntämällä ns. kymografia, joka 
tallentaa paineenvaihteluita välittämällä ne suukappaleelta letkua pitkin värähtelevälle 
kalvolle, johon kiinnitetty piirrin rekisteröi liikkeen noetulla paperilla päällystetyn pyörivän 
rummun pinnalle. Eräs tärkeimmistä keksinnöistä äänen analysoinnissa tehtiin 1940-luvulla 
kehitetyn äänispektrografin myötä. Se oli alkumuodossaan menetelmä, jossa korkeintaan 2,4 
sekunnin mittainen magneettinauhalle tallennettu puhenäyte syötettiin useita kertoja 
peräkkäin suodattimeen, jonka taajuusvastetta muutettiin manuaalisesti syöttökertojen välillä. 
Tämän jälkeen suodattimesta saatu signaali vahvistettiin ja poltettiin paperille. Kun koko 
ennalta määritelty taajuusalue oli näillä toistoilla käsitelty, tuloksena saatiin kaaviokuva, jossa 
vaaka-akseli esittää aikaa, pystyakseli äänen taajuutta ja paperilla olevan värin tummuus 
äänen amplitudia. Spektrografi erillisenä koneena on nykyään jo jäänyt historiaan, mutta itse 
analyysiperiaate muodostaa toiminnallisen pohjan nykyisille tietokoneella käytettäville 
puheanalyysiohjelmistoille ja spektrografikuvien tulkinta on edelleen tärkeä osa 
puheanalyysiä. (Jones & Knight, 2015.) 
Vielä 1990-luvun puolivälissä akustinen puheanalyysi oli käytännöllisessä mielessä 
mahdollista ainoastaan isolla laitteistobudjetilla toimivilla ja teknisellä tuella varustetuissa 
laboratorioissa, mutta nykyään samat analyysit voi tehdä henkilökohtaisella tietokoneella. 
Useimpia käyttötapauksia varten ei ole enää tarpeellista käyttää kalliita, yksinomaan tiettyihin 
tarkoituksiin tehtyjä laitteistoja, vaikkakin laadukkaita ulkoisia äänikortteja suositetaan 
edelleen sisäänrakennettujen äänikorttien sijaan. Monikäyttöisiä analyysiohjelmistopaketteja, 
kuten esimerkiksi Sensimetricsin Speechstation2:ta on edelleen myynnissä, mutta Praat, 
ohjelmisto, josta on tähän päivään mennessä muodostunut puheanalyysissä alan standardi, on 
internetistä ladattavissa ilmaiseksi, toimii monilla käyttöjärjestelmillä ja on joustavampi ja 
sisältää enemmän toimintoja kuin myynnissä olevat ohjelmat. Praatia voi myös laajentaa 
tarpeiden mukaan liitännäisohjelmilla, joista esimerkkinä mainittakoon Akustyk, jota 
käytetään vokaalien analysointiin ja kaaviomuodossa esittämiseen. (Jones & Knight, 2015.) 
Myös muita ilmaiseksi ladattavia ohjelmia on saatavilla ja monia näistä luonnehditaan Praatia 
käyttäjäystävällisemmiksi ja käyttöliittymältään intuitiivisemmiksi, mutta ne eivät ole 
saavuttaneet samaa suosiota kuin Praat. Koska analyysiohjelmat käyttävät erilaisia 
algoritmeja esimerkiksi sävelkorkeuden talteenottoon ja formanttien kartoittamiseen, niiden 
antamat tulokset eivät useinkaan ole yhteneviä, vaikka analysoitava näyte olisi täysin sama. 
5 
 
Tämän vuoksi tutkijoiden täytyy tuloksia raportoidessaan ilmoittaa millä analyysiohjelmalla 
ja millä kyseisen ohjelman versiolla tulokset on saatu. (Jones & Knight, 2015.) 
Puhetta analysoitaessa voidaan olla tilanteessa, jossa analysoitava nauhoitus on tehty 
valvotuissa olosuhteissa parhaalla mahdollisella laitteistolla, parhaassa tapauksessa jopa itse 
analyysin tekijän valvonnassa, mutta useimmissa tapauksissa kyseistä materiaalia ei ole 
nauhoitettu parhaissa mahdollisissa olosuhteissa. Tapauksissa, jossa ollaan kentällä tai 
muuten laboratorion ulkopuolella nauhoituksia ei voida tehdä hiljaisessa ja kontrolloidussa 
ympäristössä. Puheen tallentamiseen käytettyjen mikrofonien ja tallennuslaitteiden laatu 
vaihtelee suuresti ja tuloksena saadun nauhoituksen tekniset ominaisuudet vaihtelevat 
sellaisten tekijöiden kuin mikrofonin tyypin (esimerkkinä tallentimen sisäänrakennettu 
mikrofoni vs. esivahvistimeen kytketty ulkoinen monisuuntainen rajamikrofoni) ja sen 
taajuusvasteominaisuuksien mukaan. Mitä matalampi taajuusvasteen spektri on, sitä enemmän 
nauhoitus vastaa alkuperäistä ääntä. Tallentimen näytteenottotaajuus ja bitin syvyysasetus, se 
nauhoitetaanko mono- vai stereoääntä ja valittu tiedostomuoto (häviötön 
pulssikoodimodulaatio (PCM) vs. häviöllinen, pakattu muoto, kuten .mp3) määrittävät myös 
nauhoitetun signaalin laadun. (Jones & Knight, 2015.) 
 
6 
 
3 Puheen muuttaminen ja tallentaminen digitaaliseen muotoon 
Analogisen ääniaallon muuttamisessa digitaaliseksi binäärikoodiksi kohdataan väistämättä se 
ongelma, että kyseessä on kaksi hyvin erityyppistä informaation muotoa. Analogisessa 
muodossa ääniaalto on luonteeltaan jatkuvaa, jolloin epäjatkuvuudet useimmiten mielletään 
vakaviksi virhetilanteiksi. Digitaalinen informaatio on jakautuessaan bitteihin ja tavuihin 
perustavanlaatuisesti epäjatkuvaa. Tällä on sekä hyviä että huonoja puolia. Kyky pilkkoa 
analoginen signaali pienemmiksi paloiksi on erittäin hyödyllinen äänisignaalin siirtämisessä 
ja tallettamisessa. Mutta ellei datan kokoamista tehdä kunnolla, analogisessa äänisignaalissa 
olevat vääristymät, jotka eivät siinä muodossa haittaa viestin ymmärtämistä, voivat 
digitaalisessa muodossa tehdä viestistä täysin tunnistamattoman. (Davis ym., 2013.) 
Äänisignaalien muuntamisessa tärkeä käsite on ns. LTI-järjestelmä. Järjestelmä on lineaarinen 
ja aikainvariantti (engl. Linear and Time-Invariant, LTI), jos järjestelmän vasteen kahden 
tulosignaalin summa on yhtä suuri kuin yksittäisten tulojen vasteiden summa erikseen. LTI-
järjestelmien analysointi ja toteutus on tyypillisesti helpompaa ja tehokkaampaa kuin 
sellaisten järjestelmien, joilla ei ole tätä ominaisuutta. Valitettavasti ihmiskuulo on hyvä 
esimerkki järjestelmästä, joka ei ole pohjimmiltaan LTI-järjestelmä. LTI-järjestelmän 
ominaisuutena on myös se, että se ei luo uusia taajuuskomponentteja, joita ei ole 
tulosignaalissa, jolloin alkuperäisen ja muunnetun äänen vastaavuudesta voidaan olla 
varmempia. (Pulkki, 2015, s. 46–47.) LTI-järjestelmien merkitys sujuvalle 
puheentunnistukselle on siinä, että erityisesti reaaliajassa suoritettava puheentunnistus 
edellyttää sitä, että äänimateriaalille suoritettavat laskutoimitukset eivät ole liian 
monimutkaisia, jolloin säästetään laskentatehoa. Tämän ja ihmiskuulon luonteen vuoksi 
puheen muuntamisessa joudutaan tyytymään kompromisseihin. 
Signaalinkäsittelyssä on usein hyödyllistä signaalien muuntaminen sellaiseen muotoon, joka 
helpottaa jollain tavalla niiden käsittelyä tai tulkintaa. Esimerkki tällaisesta hyödyllisestä 
muunnoksesta on saman signaalin muuntaminen aika-alueen esityksestä taajuusalueen 
esitykseen, joka LTI-järjestelmällä tekee analyysistä matemaattisesti yksinkertaisemman. 
Tämä voidaan tehdä käyttämällä Fourier-muunnosta, mutta käytännön sovelluksissa Fourier-
muunnos tehdään käyttämällä ns. nopeaa Fourier-muunnosta (engl. Fast Fourier Transform, 
FFT). Syy tähän on se, että määritelmän mukaisen Fourier-muunnoksen aikavaativuus on 
neliöllinen, kun yleisimmin FFT:een käytetyllä Cooleyn-Tukeyn algoritmilla 
aikavaativuusluokka on O(N log N). (Pulkki, 2015, s. 49.) 
7 
 
Äänisignaalin muuntamisessa käytetään spektrianalyysiä tekemällä ikkunointi, jossa signaali 
kerrotaan ikkunafunktiolla ja tästä tuloksesta tehdään Fourier-analyysi. Ikkunoinnissa käytetyt 
muuttujat ovat ikkunafunktio ja näytteenotossa käytettävän aikaikkunan kesto. Esimerkkejä 
ikkunafunktioista ovat Hammingin, Hannin, Blackmanin ja Kaiserin ikkunafunktiot. 
Useimmissa sovelluksissa aikaikkunan kesto on 10–30 millisekuntia, puheen analyysissä 10 
millisekuntia on tavallisin. Edellisessä luvussa mainittu 1940-luvulla kehitetty 
äänispektrografia on varhainen käytäntöön sovellettu versio tästä prosessista, jonka graafisena 
esityksenä saadaan spektrogrammikuvio. (Pulkki, 2015, s. 50–53.) 
Analogiset aaltomuodot muunnetaan digitaaliseksi analogi-digitaalimuuntimella ottamalla 
jännitenäytteitä tietyllä aikavälillä. Käytettävissä olevien jännitearvojen lukumäärä, joka 
voidaan osoittaa kullekin näytteelle, on noin 2N, missä N on kutakin näytettä edustavien 
bittien lukumäärä. Mitä enemmän bittejä, sitä enemmän on saatavilla olevia arvoja ja sitä 
suurempi on lopputuloksen dynaaminen alue. Nyquistin periaatteen mukaan 
näytteenottotaajuuden on oltava hieman yli kaksi kertaa korkeampi kuin aaltomuodossa oleva 
korkein taajuus, jotta kaikki sen sisältämä ääni-informaatio voidaan saada talteen. 
Antialiasointisuodatinta käyttämällä pystytään automaattisesti hylkäämään taajuudet, joille 
valittu näytteenottotaajuus ei ole riittävä. (Davis ym., 2013.) 
Yksi yleisimmistä tavoista tallentaa puhetta tietokoneen muistiin on käyttää jo edellisen luvun 
lopussa mainittua pulssikoodimodulaatiota (PCM). PCM-järjestelmä, joka tunnetaan myös 
edellä mainittuna analogi-digitaalimuuntimena, koostuu kolmesta komponentista: 
näytteenottimesta, kvantisaattorista ja enkooderista. Näytteenotin pilkkoo äänisignaalin 
aiemmin tässä luvussa kuvatulla tavalla, jolloin tuloksena on diskreetin ajan ja jatkuvan 
amplitudin signaali. Kvantisaattorilla jokaisen näytteen amplitudi pyöristetään sallitulle 
tasolle, jolloin tuloksena on signaali, jolla on diskreetti aika ja diskreetti amplitudi. 
Enkooderilla jokainen kvantisaattorilta tuleva näyte kuvataan sille ominaisen tason mukaan 
tietyllä binäärimuotoisella luvulla. (Bhagyaveni ym., 2016, s. 98–104.) PCM-koodattua ääntä 
käytetään esimerkiksi WAVE:ssa (Waveform Audio File Format), joka on eräs tärkeimmistä 
häviöttömistä tiedostomuodoista äänen tallentamiseen tietokoneen muistiin. WAVE-
muotoinen äänitiedosto sisältää PCM-äänen lisäksi myös infodataa, joka kertoo mm. 
näytteenottotaajuuden lohkoina sekunnissa, yksittäisen lohkon koon tavuina ja bittien määrän 
näytettä kohden. (IBM & Microsoft, 1991.)   
8 
 
4 Sanavektorien käyttö luonnollisen kielen esittämiseen 
Puheentunnistuksessa, kuten muissakin luonnollisten kielten käsittelyjärjestelmissä, törmätään 
ongelmaan, jossa yksittäisen sanan merkityksellä ja sen kirjoitusmerkkimuotoisella esityksellä 
ei ole suoraa yhteyttä toistensa kanssa, mutta toisaalta kahden kirjoitusmerkein esitettynä 
identtisen sanan merkitys voi olla täysin erilainen riippuen siitä minkä muiden sanojen 
yhteydessä kyseinen sana esiintyy (Wang ym., 2020). Ihmiset kykenevät kuitenkin 
luontaisesti mieltämään tietyt sanat samankaltaisemmiksi kuin toiset sanat, miten 
haluaisimme myös käsittelyjärjestelmän toimivan. Sanojen ja niiden merkitysten yhdistämistä 
tietokoneen ymmärtämään muotoon on jo kyseisten järjestelmien kehityksen alkuajoista asti 
pyritty tekemään vektorimuotoisina sananupotuksina (engl. word embeddings), joihin 
yleisesti viitataan sanavektoreina (Mitkov, 2014, s. 334–358). Ensimmäiset sanavektorit olivat 
suurikokoisia one-hot-koodattuja vektoreita, mikä tarkoittaa sitä, että vektorin alkioiden 
määrä on yhtä suuri järjestelmän käyttämän sanavaraston kanssa ja oikeaa merkitystä 
ilmaiseva alkio on koodattu ykköseksi muiden alkioiden ollessa nollia. Tästä seuraa se, että 
kaikkien sanavektorien yhdessä muodostama matriisi on kooltaan sanavaraston suhteen 
neliöllinen, mikä on matriisin sisältämään informaatioon verrattuna paljon tilaa vievä tapa 
merkitysten tallettamiseen. Kaikki sanavektorit ovat myös suorassa kulmassa toisiinsa 
nähden, jolloin kaikki sanat ovat myös yhtä samankaltaisia toistensa suhteen. (Wang ym., 
2020.) 
Sanojen samankaltaisuuden mallintamiseen tarvitaan enemmän ominaisuuksia, joiden 
kehyksenä käytetään Harrisin (1954) ja Firthin jakautumishypoteesia (engl. Distributional 
Hypothesis). Jakautumishypoteesin mukaan kahden sanan merkitysero korreloi niiden 
kontekstien jakautumisen eron kanssa. Käytännössä tämä voidaan toteuttaa niin, että sanoista 
ja niihin liittyvistä konteksteista muodostetaan erillinen matriisi, jota käytetään yhdessä 
edellisessä kappaleessa kuvatus sanavarastomatriisin kanssa. (Wang ym., 2020.) 
Sanavarastomatriisin ja kontekstimatriisin välisillä laskutoimituksilla voidaan mitata sanojen 
ja niiden kontekstien välistä korrelaatiota, josta jakautumishypoteesin mukaisesti hyödyntäen 
erilaisia painotuksia ja matriisien manipulointia sanojen semanttinen samankaltaisuus voidaan 
määritellä etäisyytenä vektoriavaruudessa. Tärkeä välivaihe näissä laskutoimituksissa on ns. 
samanaikaisen esiintymisen matriisi (engl. co-occurence matrix), jossa matriisin rivillä olevan 
sanan ja sarkkeessa olevan kontekstin leikkauskohdassa on kyseisen sana-konteksti-parin 
esiintymien määrä tutkittavassa aineistossa. (Mitkov, 2014, s. 334–358.) 
9 
 
On olemassa useita eri kontekstityyppejä, joita voidaan käyttää matriisien muodostamiseen. 
Eräs vanhimmista konteksteista oli selvittää, esiintyykö sana tietyssä tekstidokumentissa ja 
vaihtoehtoisesti myös, kuinka monta kertaa kyseinen sana esiintyy. Vielä tälläkin hetkellä 
yleisin käytössä oleva konteksti on selvittää, mitä sanoja tarkasteltavan sanan naapureina 
tekstissä on tietyn välimatkan päässä sekä sanan edellä että perässä olevan ikkunan sisällä. 
Muita konteksteja ovat syntaktisten riippuvuuksien tai symmetristen kuvioiden muodostamat 
yhteydet tai sanayhdistelmät. Kontekstien ei tarvitse muodostua pelkästään sanoista, vaan 
myös kuvia on mahdollista hyödyntää niiden tekemiseen. (Mitkov, 2014, s. 334–358.) 
Sanavektoreita voidaan käyttää syötteenä syville hermoverkolle. Riippuen siitä, mitä mallia 
käytetään, ne voidaan tulkita joko vakioiksi tai parametreiksi. On myös yleistä, että 
syväoppimismalleilla koulutettuja sanavektoreita käytetään syötteenä muille malleille. 
(Mitkov, 2014, s. 334–358.) 
10 
 
5 Koneoppiminen ja sen soveltaminen puheentunnistukseen 
Koneoppiminen määritellään tekoälyn osa-alueeksi, jolla kuvataan niitä tietokoneille 
kehitettyjä työkaluja, jotka mahdollistavat syöttödatasta oppimisen ilman, että sitä on erikseen 
ohjelmoitu (Gerard, 2021). Nassifin ja muiden (2019) artikkelin mukaan ”oppimisprosessi 
tapahtuu iteratiivisesti analysoidusta datasta ja uudesta syöttödatasta”. Tämän jälkeen he 
mainitsevat, että ”tämä antaa tietokoneille mahdollisuuden tunnistaa piileviä oivalluksia ja 
toistuvia kuvioita ja käyttää näitä havaintoja sopeutuakseen, kun ne altistuvat uudelle datalle”. 
Oppimisprosessin lopputuloksena saadaan malli. Koneoppimisessa mallit ovat matemaattisia 
funktioita, jossa uudet syötteet esitetään parametreinä ja jonka tuloksena saadaan ennuste 
(Gerard, 2021). Viisi koneoppimisen päätekniikkaa ovat: ohjattu oppiminen, ohjaamaton 
oppiminen, puoliohjattu oppiminen, vahvistusoppiminen ja syväoppiminen (Nassif ym., 
2019). 
Ohjatussa oppimisessa käsiteltävästä datasta muodostetaan harjoitusjoukko, joissa havainnot 
esitetään pareittain syötteenä ja sitä vastaavana tulosteena. Oppimista kutsutaan ohjatuksi, 
koska oikea tulos tiedetään ja mallin muodostavan algoritmin ennustamien tulosten ja 
oikeiden tulosten välistä eroa pyritään pienentämään ohjaamalla oppimisprosessia sen 
etenemisen aikana. Ohjaamaton oppiminen puolestaan yrittää löytää yhteisiä piirteitä 
havaintojen ominaisuuksista. Mikäli jokin ominaisuus korreloi huomattavan havaintomäärän 
kanssa tilastollisten ominaisuuksiensa perusteella, kyseinen ominaisuus näkyy kuvaajassa 
lähekkäin olevien havaintojen joukkona. Puolivalvottu oppiminen on kahden aiemmin 
kuvatun tyypin yhdistelmä, jossa algoritmia koulutetaan käyttämällä tietojoukkoa, joka 
sisältää sekä luokiteltuja että luokittelemattomia syötteitä. Vahvistusoppiminen perustuu 
agentteihin, jotka suorittavat toimintoja valitsemalla niitä niille annetuista vaihtoehdoista. 
Jokaisella vaihtoehdolla on numeerinen painoarvo, jonka summan agentti pyrkii 
maksimoimaan. Näin pyritään siihen, että algoritmi ”ymmärtäisi”, mikä on tavoitteen 
saavuttamiseksi paras toimintojen sarja. (Nassif ym., 2019.) 
HMM-malli on määritelmän mukaan kahdesti stokastinen prosessi, jossa on taustalla erillinen 
stokastinen prosessi, joka ei ole suoraan tarkasteltavissa. Tästä prosessista voidaan tehdä 
kuitenkin päätelmiä epäsuorasti toisen stokastisen prosessin, joka tuottaa sarjan tarkasteltavia 
symboleja, kautta. (Rabiner & Juang, 1986.) Stokastinen prosessi on tässä tapauksessa 
yksinkertaisesti sarja satunnaisia muuttujia (Mitkov, 2014). Jokaisella sarjassa olevalla 
muuttujalla on rajallinen määrä tiloja ja sarjan ensimmäistä muuttujaa lukuun ottamatta 
11 
 
jokaisen muuttujan tila voidaan kuvata siirtymänä edellisen muuttujan tilasta, mikä toteutuu 
tietyllä todennäköisyydellä kaikkien mahdollisten tilojen muodostaman tila-avaruuden sisällä. 
Tätä mekanismia kutsutaan Markovin prosessiksi. Kieliteknologisessa mielessä kielen 
sanavarasto muodostaa tällaisen tila-avaruuden ja lauseet voidaan tulkita sarjaksi muuttujia, 
joita yksittäiset sanat ovat. Malli pitää tulkita piilotetuksi, koska voimme tehdä päätelmiä 
sanojen yhteyksistä toisiinsa ainoastaan tuotetun kielen pohjalta. (Rabiner & Juang, 1986.) 
Song (2019) kuvaa artikkelissaan HMM-mallin matemaattisen periaatteen, kun sitä 
hyödynnetään puheentunnistuksessa. Annetulle puhesignaalin akustiselle piirrevektorisarjalle 
O1T = {o₁, o₂, …, o} tehdään dekoodaushaku yhdistämällä akustinen malli ja kielimalli. 
Todennäköisintä sanasarjaa kuvataan merkinnällä W* = {w₁, w₂, …, wₙ}. Tällöin 
puheentunnistuksen prosessi voidaan kuvata maksimointiongelmaksi, jossa yritetään 
maksimoida posteriorinen todennäköisyys P(W | O1T), joka löydetään maksimoidun 
posteriorisen todennäköisyyden kriteereillä kaavalla: 
𝑊∗ = 𝑎𝑟𝑔𝑚𝑎𝑥{
𝑃(𝑂𝑇
1|𝑊)𝑃(𝑊)
𝑃(𝑂𝑇
1)
} 
Yläpuolella olevassa yhtälössä P(W) kuvaa kielimallin todennäköisyyttä, jolla viitataan 
todennäköisyyteen, jolla sanasarjan W yksittäinen esiintymä voidaan tunnistaa. Tämä 
todennäköisyys on riippumaton sarjasta O1T. Koska kyseisen sarjan koko ei muutu yksittäisen 
havainnon tapauksessa, kaava voidaan sieventää muotoon: 
𝑊∗ = 𝑎𝑟𝑔𝑚𝑎𝑥{𝑃(𝑂𝑇
1|𝑊)𝑃(𝑊)} 
Tämä tunnetaan puheentunnistuksen yleiskaavana. Sillä pyritään löytämään optimaalinen 
sanasarja W*, joka maksimoi laskutoimituksen tuloksen. 
Poiketen luvussa 1 mainitusta HMM- ja GMM-mallien käytön eroista puheen eri 
ominaisuuksien käsittelyssä, Nassif ja muut (2019) kuvaavat näiden mallien yhteyttä 
artikkelissaan myös siten, että puhesignaalia voidaan pitää Markovin prosessin mukaisena 
lyhytaikaisena stationaarisena signaalina, mutta samalla HMM-malli pitää sisällään GMM-
mallilla toteutetun ääniaallon spektrimuotoisen esityksen. 
12 
 
6 Syväoppiminen 
Chen ja Lin (2014) määrittelevät artikkelissaan syväoppimisen ”koneoppimistekniikoiksi, 
jotka käyttävät ohjatun ja/tai ohjaamattoman oppimisen menetelmiä hierarkkisten esitysten 
automaattiseen oppimiseen syvissä verkkoarkkitehtuureissa”. He jatkavat mainitsemalla, että 
syväoppimisen toteutus on ”saanut inspiraationsa biologisista havainnoista, kuinka 
ihmisaivojen mekanismit käsittelevät luonnollisia signaaleja”. Kiinnostuksesta syväoppimista 
kohtaan he lisäävät, että ”yritykset, kuten Google, Apple ja Facebook, jotka keräävät ja 
analysoivat valtavia määriä dataa päivittäin, ovat aggressiivisesti ajaneet eteenpäin 
syväoppimiseen liittyviä projekteja”. 
Kaksi erityisesti puheentunnistuksessa käytettävää syväoppimismallia ovat toistuvat 
hermoverkot (engl. Recurring Neural Network, RNN) ja RNN-malliin pohjautuva LSTM-
malli (Long Short Term Memory). RNN-mallin käyttö puheentunnistuksessa perustuu 
syntaktisen systemaattisuuden ja rekursion periaatteisiin. Syntaktisessa systemaattisuudessa 
sanan korvaaminen toisella samaan leksikaaliseen luokkaan kuuluvalla sanalla (esim. 
substantiivin korvaaminen toisella substantiivilla) ei muuta lausetta kieliopin vastaiseksi. 
Rekursio tarkoittaa tässä tilanteessa sitä, että lauseen syntaksi mallinnetaan säännöillä, jotka 
määrittävät osittain itse itsensä. Puheentunnistuksessa RNN-malli voi yksinkertaisimmillaan 
koostua kahdesta syötekerroksesta, kontekstikerroksesta, piilokerroksesta ja 
tulostekerroksesta, jossa toistuva yhteys on piilokerroksen ja kontekstikerroksen välillä. 
(Sakurai & Shinozawa, 2008.) LSTM-malli on toistuva hermoverkko, jonka erityispiirre on 
se, että se koostuu useista pienemmistä muistisoluiksi kutsutuista yksiköistä, jotka 
muistuttavat rakenteeltaan hyvin yksinkertaisia hermoverkkoja. Muistisolut pystyvät pitämään 
sisällään niille syötettyä dataa, päästämään sen ulos tai tyhjentämään oman sisältönsä tiettyjen 
ehtojen toteutuessa. LSTM-malli on todettu käyttökelpoiseksi myös muun aikasarjamuotoisen 
datan mallinnuksessa ja sitä on hyödynnetty myös automaattisessa tekstitysten luonnissa. 
(Van Houdt ym., 2020.) 
Tärkeä edistysaskel syväoppimisen käytön houkuttelevuudelle on ollut erilaisista digitaalisista 
lähteistä tulevan datan määrän ja tuottonopeuden valtava kasvu. Perinteisillä 
analyysimenetelmillä, jotka vaativat ihmistyönä tehtävää datan valmistelua, tästä datasta 
pystyttäisiin käsittelemään tämän valmistelun aikaa vievän luonteen vuoksi vain pieni osa, 
joka luultavasti tulisi datan määrän ja nopeuden, jolla uutta dataa syntyy, edelleen kasvaessa 
pienenemään entisestään. Syväoppimisessa on tämän vuoksi hyödynnetty enemmän 
13 
 
ohjaamattoman oppimisen menetelmiä, joiden on todettu hyötyvän mallien koon ja 
datamäärän kasvattamisesta. Mallien koon kasvattamisesta syntyviä ongelmia on pyritty 
ratkaisemaan kehittämällä rinnakkaislaskentaan perustuvia järjestelmiä, jotka toimisivat 
syväoppimismallien kanssa. Rinnakkaislaskennalla pystytään myös hyödyntämään 
moniytimisiä suorittimia. (Chen & Lin, 2014.) 
14 
 
7 Syväoppimisen edut tilastollisiin malleihin verrattuna 
Syvien hermoverkkojen parempi suorituskyky perinteisiin matemaattisiin malleihin verrattuna 
perustuu Dengin ym. (2013) mukaan pääasiallisesti kolmeen tekijään: verkon kerrosten 
määrän kasvattamiseen, malleissa käytettävien parametrien painotusten 
tarkoituksenmukaisempaan käyttöön ja tulostusten määrän kasvattamiseen. Myöhemmin 
tehdyt parannukset ovat olleet seurausta painotusten suuruusluokan optimoinnista, puhujasta 
riippumattomien menetelmien yleistymisestä, konvoluutiokerrosten hyödyntämisestä ja 
moniajosta. 
Pouyanfar ym. (2019) esittävät artikkelissaan, että syväoppimismallit ovat 
suorituskykyisempiä kuin perinteiset matemaattiset mallit. He perustelevat tätä sillä, että 
perinteisten koneoppimisalgoritmien tehokkuus on riippuvainen, kuinka hyvin niille syötetty 
data on esitetty. Tämän vuoksi ominaisuuksien rakentamiseen raakadatasta on keskeistä 
siihen, että malleista saadaan käyttökelpoisia tuloksia, mutta tämä vaatii usein paljon 
ihmistyötä. Syväoppimisalgoritmit pystyvät poimimaan ominaisuuksia automaattisesti, minkä 
vuoksi mallinnuksen voi tehdä ilman erityisosaamista kyseisestä tutkimusalueesta ja 
pienemmällä vaivannäöllä. Näillä algoritmeilla korkean tason ominaisuudet voidaan poimia 
verkon viimeisistä kerroksista, kun taas matalan tason ominaisuudet voidaan erottaa jo 
aikaisemmista kerroksista. Tässä artikkelissa luetellaan seitsemän eri syväoppimisverkkoa: 
rekursiiviset hermoverkot, toistuvat hermoverkot, konvoluutiohermoverkot sekä syvistä 
generatiivisista hermoverkoista DBN-verkko, Deep Boltzmann Machine (DBM), 
generatiivinen vastavuoroinen verkosto (engl. Generative Adverserial Network, GAN) ja 
Variational Autoencoder (VAE). He kuitenkin toteavat myös sen, että syväoppiminen on 
tutkimusalana kasvanut erittäin nopeasti ja monia uusia verkkoja ja uusia arkkitehtuureja 
ilmestyy muutaman kuukauden välein ja siksi ovat joutuneet jättämään tämän uusimman 
kehityksen tutkimuksen ulkopuolelle. 
Nassif ym. (2019) tekivät artikkelissaan systemaattisen kirjallisuuskatsauksen 
tutkimusartikkeleista, joissa käsiteltiin syväoppimisen hyödyntämistä puheentunnistuksessa. 
Tähän katsaukseen valikoitiin 174 artikkelia, jotka oli julkaistu vuosina 2006–2018. Nämä 
artikkelit arvioitiin kahdeksan eri tutkimuskysymyksen avulla, jotka olivat: 
• Minkä tyyppisistä artikkeleista oli kyse? 
• Minkä tyyppistä puhetta artikkeleissa käsiteltiin? 
15 
 
• Minkä tyyppisiä tietokantoja käytettiin algoritmien testaukseen ja opetukseen? 
• Mitkä olivat artikkeleissa käytetyt tietokantojen kielet? 
• Millaisessa ympäristössä tutkimus toteutettiin? 
• Kuinka ominaisuudet otettiin talteen puheesta? 
• Mitä arviointitekniikoita artikkeleissa käytettiin? 
• Minkä tyyppisiä syväoppimismalleja käytettiin? 
Näiden kysymysten pohjalta katsauksessa päädyttiin lukuisiin johtopäätöksiin. Suurin osa (40 
%) artikkelista oli konfrenssijulkaisuja ja yli 50 % niistä julkaistiin ICASSP:n (International 
Conference on Acoustics, Speech, and Signal Processing) yhteydessä. Suurin osa artikkeleista 
perustui julkisiin, englanninkielisiin tietokantoihin ja suurimassa osassa tutkimusympäristö oli 
luonnollinen ja taustameluton. Suurin osa artikkeleista käytti sanojen virheprosenttia mallin 
suorituskyvyn määrittelyyn. Yllättävänä pidettiin sitä, että suurimmassa osassa artikkeleita 
käytettiin edelleen MFCC:tä (Mel-frequency cepstral coefficients, suom. Mel-taajuuksien 
kepstrikertoimet) puheen ominaisuuksien talteenottoon, vaikka sitä on hyödynnetty jo pitkään 
HMM:en ja GMM:en yhteydessä. Syväoppimismalleissa olisi kannattavaa hyödyntää muita 
tapoja ottaa ominaisuuksia talteen, kuten esimerkiksi LPC:tä (Linear Predictive Coding). Noin 
75 % artikkeleissa käsitellyistä malleista oli yksittäisiä syviä hermoverkkomalleja ja loput 
hybridimalleja. Kirjoittajat viittasivat tässä vaiheessa vielä tällöin julkaisemattomaan 
artikkeliin, jossa oli osittain samoja tekijöitä kuin tässä kirjallisuuskatsauksessa, kun he 
suosittelivat yleisemmin hybridimallien käyttämistä pelkkien syvien neuroverkkojen tai 
Gaussin sekoitusmallien sijasta. Tämä suositus perustui kuitenkin vain tähän yhteen Shahinin 
ym. (2020) artikkelissa suoritettuun tutkimukseen, jonka tutkimusasetelma perustui siihen, 
miten puhujien eri tunnetilat vaikuttavat puheentunnistuksen suorituskykyyn. Tämän 
tutkimuksen tuloksiksi saatiin jokaisessa tapauksessa se, että GMM-DNN-tyypin 
hybridimallin suorituskyky oli parempi kuin GMM- tai DNN-mallin suorituskyky. DNN-
mallin suorituskyky oli kuitenkin jokaisessa tapauksessa parempi kuin GMM-mallin 
suorituskyky. Johtopäätöstensä lopuksi kirjoittajat huomioivat sen, että toistuvia 
hermoverkkoja oli käytetty suhteellisen vähän tutkimusmenetelmänä ja suosittelivat sen 
lisäämistä, koska heidän mielestään RNN:in kuuluvista malleista erityisesti LSTM-malli on 
puheentunnistuksessa hyvin tehokas. 
16 
 
Song (2020) vertasi omassa tutkimuksessaan kolmen eri mallin suorituskykyä. Kaksi niistä 
olivat jo aiemmin mainitut HMM-malli ja GMM-HMM -hybridimalli. Kolmantena mallina 
käytettiin CNN-RBM-ASAT -hybridimallia, joka koostuu lueteltujen lyhenteiden mukaisesti 
konvoluutiohermoverkosta ja rajoitetusta Boltzmann-koneesta (engl. restricted Boltzmann 
machine). Kolmantena osapuolena tässä mallissa on ASAT (Automatic Speech Attribute 
Transcription), joka toimii mallin muita osia seuraavana käsittelyjärjestelmänä, joka käyttää 
edellisestä mallista tulosteena saatuja parametreja syötteenä ennalta määrättyihin 
ominaisuusluokittelijoihin (Hou ym., 2006). Tutkimuksessa käytetyn CNN-RBM-ASAT -
mallin rakennetta kuvattiin siten, että se sisältää yhden syöttökerroksen, viisi piilokerrosta ja 
yhden tuloskerroksen. Tämä tulos syötettiin sitten 21 ominaisuuskategoriaa sisältävälle 
ASAT-luokittelijalle. Suorituskyky mitattiin puheen attribuuttien oikein tehtyjen tunnistusten 
määränä. Aikaisemmin mainitun kolmen mallin puheen ominaisuuksien tunnistusvertailussa 
CNN-RBM-ASAT -malli suoriutui useimpien ominaisuuksien tapauksessa paremmin kuin 
muut mallit. Samassa tutkimuksessa vertailtiin myös CNN-RBM-ASAT -mallin sana- ja 
lausevirheiden määrää verrattuna CNN-HMM-, DNN-HMM-, ja CNN-BRM-mallien 
virhemääriin. Tulokseksi saatiin se, että CNN-RBM-ASAT -malli teki akustisessa 
mallinnuksessa vähemmän virheitä kuin muut vertailtavat mallit. Tästä voidaan edelleen tehdä 
se johtopäätös, että CNN-mallilla on vahvempi mallinnuskyky kuin DNN-mallilla 
monimutkaisella datalla ja sen mallinnuskyky on myös edullisempi. Analyysissä saatiin 
näiden tietojen lisäksi selville se, että mallin suorituskyky harjoitussarjassa on huomattavasti 
parempi kuin testisarjassa, koska malli on taipuvainen ylisovitukseen harjoitussarjassa ja 
testisarja voi estää tämän ja parantaa järjestelmää. 
 
17 
 
8 Johtopäätökset 
Puheentunnistus on matemaattisten mallien ja syväoppimisen käytön kannalta monia 
tieteenlajeja yhdistelevä sovelluskohde. Fonetiikan avulla pystytään kartoittamaan se, kuinka 
yksittäisen sanan muodostavien äänteet voi tunnistaa niiden taajuusominaisuuksien 
perusteella ja millaiset taajuusmuutokset merkitsevät tiettyjä siirtymiä eri äänteestä toiseen. 
Näin saadaan se pohjatieto, mihin matemaattisiin malleihin syötettävää dataa verrataan. 
Signaalinkäsittelyä tarvitaan puhedatan muuttamiseen analogisesta muodosta digitaaliseen 
muotoon. Tämän muunnoksen laatu on keskeinen vaatimus onnistuneessa 
puheentunnistuksessa sen vuoksi, että toimiakseen mahdollisimman virheettömästi malleille 
syötettävän datan on oltava mahdollisimman hyvälaatuista. 
Koneoppiminen ja syväoppiminen ovat molemmat yhdessä hermoverkkojen kanssa tekoälyn 
osa-alueita. Puheentunnistus on vain yksi monista tekoälyn sovelluskohteista esimerkiksi 
käsin kirjoitetun tekstin tunnistuksen, hakukoneiden ja konenäön ohella. Toisaalta 
syväoppimisen merkittävin ero koneoppimiseen verrattuna on käytetyn verkon kerrosten 
määrässä, syväoppimisverkoissa kerrosten määrä on huomattavasti suurempi kuin 
perinteisissä koneoppimisverkoissa. Tässä tutkielmassa käyttämissäni lähteissä viitataan 
kone- ja syväoppimisen eroihin niitä puheentunnistukseen sovellettaessa siten, että 
kummallakin tekniikalla on edelleenkin omat hyvät puolensa riippuen siitä, kuinka 
monimutkainen käyttökohde on. Esimerkiksi Chenin & Linin (2014) mukaan syväoppimisen 
edut pääsevät paremmin esille silloin, kun käsiteltävän datan määrä on hyvin suuri ja vähän 
kerroksia sisältävässä verkossa myös parametrien määrän pitää olla pieni ylisovitusongelmien 
välttämiseksi. 
Syväoppimismalleille ominainen verkkokerrosten huomattavasti suurempi määrä on johtanut 
siihen, että niiden toiminta on vähemmän riippuvaista ominaisuuksien luokittelusta. 
Ominaisuusluokittelua ei käytännössä voi suorittaa tilanteissa, joissa dataa syntyy jatkuvana 
virtana ja sen käsittely on tehtävä hyvin pienellä viiveellä. Perinteisten koneoppimismallien 
suorituskyky taas perustuu siihen, että ominaisuuksien luokittelu on tehty huolellisesti. 
Syväoppimisessa voidaan käsin tapahtuvan luokittelun sijaan käyttää verkko-oppimista, jossa 
opitaan yksi ilmentymä kerrallaan ja malli tarkentuu iteratiivisesti datavirrasta poimittujen 
esiintymien mukaan. Tätä kutsutaan yleisesti ohjaamattomaksi oppimiseksi ja edellisen 
perusteella voidaan päätellä, että syväoppimismallit ovat rakenteensa vuoksi parempia 
hyödyntämään tätä oppimistapaa. Chen ja Lin (2014) kuitenkin mainitsevat, että 
18 
 
syväoppimismalleja voi käyttää sekä koulutusdatan avulla tapahtuvaan ohjattuun oppimiseen 
että ohjaamattomaan oppimiseen. 
Syväoppimismallien eduksi perinteisiin koneoppimismalleihin verrattuna voidaan laskea se, 
että tekoälyn viimeaikainen tutkimustyö ja kehitys on tapahtunut sellaisilla alueilla, jotka ovat 
läheisesti yhteydessä syväoppimiseen. Esimerkkinä tästä voidaan mainita 
ominaisuussuunnittelu, jossa piirteet rakennetaan syötedatasta automaattisesti klusterointia 
hyödyntäen. Uusia syväoppimisverkkoja ja verkkoarkkitehtuureita on kehitetty myös hyvin 
säännöllisesti. Vaikka syväoppimismallit ovat yleisesti ottaen perinteisiä malleja 
tehokkaampia, joissain tutkimuksissa on todettu, että perinteisten mallien ja 
syväoppimismallien rakenteita yhdistelevät ns. hybridimallit ovat suorituskyvyltään tietyissä 
puheentunnistuksen sovelluksissa parempia kuin kumpikaan edellisistä malleista yksin. 
Hybridimallien vahvuuksiksi mainittiin pienemmän virhemäärän lisäksi myös parempi 
suorituskyky ja laskennallisella kuormittavuudella mitattuna kevyempi mallinnuskyky. 
 
  
19 
 
9 Yhteenveto 
Tavallinen ihminen on yleensä puheentunnistuksen kanssa tekemisissä nykyään erilaisten 
puheenkäsittelysovellusten kanssa, joista huomattavimmiksi ovat aivan viime aikoina 
nousseet erilaiset virtuaaliavustajat. Näiden sovellusten taustalla oleva teoria periytyy jo 
tekoälytutkimuksen alkuajoilta 1950-luvulta, mutta vasta tietojenkäsittelyn suorituskyvyn 
kasvu on tehnyt mahdolliseksi teorian soveltamisen nykyisessä laajuudessaan.  
Puheentunnistuksen prosessissa puhe ensin tallennetaan ja muutetaan digitaaliseen muotoon, 
jonka jälkeen digitoitu puhe pilkotaan pieniin paloihin, joista jokaisesta muodostetaan sen 
aaltomuodon sisältämän taajuusinformaation muodostama piirrevektori. Näitä piirrevektoreita 
verrataan tunnettujen äänteiden piirrevektoreihin, joista muodostetaan kyseisen puhenäytteen 
äännemalli. Äännemallin virheitä voidaan tunnistaa vertaamalla sitä kyseisen puhekielen 
kielimalliin, joka arvioi kuinka todennäköisiä tarkasteltavan äännemallin äännerakenteet ovat 
kohdekielessä. Fonetiikan avulla pystytään kartoittamaan se, kuinka yksittäisen sanan 
muodostavien äänteet voi tunnistaa niiden taajuusominaisuuksien perusteella ja millaiset 
taajuusmuutokset merkitsevät tiettyjä siirtymiä eri äänteestä toiseen. Signaalinkäsittelyä 
tarvitaan puhedatan muuttamiseen analogisesta muodosta digitaaliseen muotoon käyttäen 
hyväksi Fourier-muunnosta. 
Koneoppiminen ja syväoppiminen ovat molemmat yhdessä hermoverkkojen kanssa tekoälyn 
osa-alueita. Koneoppiminen tarjoaa tietokoneille mahdollisuuden oppia syöttötiedoista ilman, 
että niitä on erikseen ohjelmoitu tekemään niin. Oppimisprosessi tapahtuu iteratiivisesti 
perustuen analysoituun dataan ja uusiin syöttötietoihin. Koneoppimistekniikat voidaan 
luokitella viiteen ryhmään, jotka ovat: ohjattu oppiminen, ohjaamaton oppiminen, 
puoliohjattu oppiminen, vahvistusoppiminen ja syväoppiminen. Esimerkkinä 
koneoppimisessa käytettävästä ns. perinteisestä matemaattisesta mallista voidaan käyttää 
piilotettua Markovin mallia (HMM). Kun HMM-mallia sovelletaan puheentunnistukseen, 
yksittäinen lause tulkitaan sarjaksi muuttujia, jotka ovat liittyneet toisiinsa tietyllä 
todennäköisyydellä kielen sanavaraston muodostaman tila-avaruuden sisällä. Matemaattisesti 
HMM-malli pyrkii ratkaisemaan maksimointiongelman, jossa pyritään tunnistamaan sanasarja 
vertailukohteina olevien akustisen mallin ja kielimallin avulla. 
Syväoppimisella tarkoitetaan sellaisia koneoppimistekniikoita, joiden selkein ero perinteisiin 
koneoppimistekniikoihin on verkkokerrosten huomattavasti suurempi määrä. 
20 
 
Syväoppimisessa käytettäviä verkkoarkkitehtuureita ovat esim. syvät uskomusverkot, 
konvoluutiohermoverkot ja RNN- eli toistuvat hermoverkot. Vaikka syväoppimisessa voidaan 
käyttää sekä luokiteltua että luokittelematonta syöttödataa, sen vahvuuksia pystytään 
parhaiten hyödyntämään, kun syväoppimismallille syötetyn datan muuttujien tai parametrien 
määrä kasvaa hyvin suureksi. Tällöin luokittelemattoman datan mallintamiseen liittyvien 
virheiden määrä laskee niin pieneksi, että sen hyödyntäminen on kannattavaa. Toisin kuin 
perinteiset hermoverkot, syväoppimisverkot ovat vähemmän alttiita jäämään loukkuun 
tavoitefunktion paikallisiin optimeihin, mikä vähentää ylisovitusongelmia. 
Syväoppimisen edut perinteisiin matemaattisiin malleihin verrattuna lähtevät siitä, kuinka 
syväoppimismallien rakenne pyrkii matkimaan ihmisen aivotoimintaa. Näissä malleissa 
alemman tason ominaisuudet voidaan erotella jo käytetyn verkon alemmista kerroksista ja 
verkon koko syvyys voidaan käyttää hyväksi korkeamman tason ominaisuuksien 
poimimiseen. Koneoppimisen viimeaikainen tutkimuskehitys on tapahtunut sellaisella 
alueella, joka on suosinut syväoppimista. Osoituksena tästä voidaan pitää nimettyjen 
syväoppimisarkkitehtuurien suurta määrää ja sitä, että uusien arkkitehtuurien julkistamisia 
odotetaan tapahtuvan säännöllisesti myös tulevaisuudessa. Puheentunnistuksessa käytettäviä 
malleja tutkittaessa on saatu todisteita perinteisten matemaattisten mallien ja 
syväoppimismallien ominaisuuksia yhdistävien ns. hybridimallien paremmuudesta tietyissä 
sovelluskohteissa. Näissä kohteissa hybridimallin suorituskyky oli parempi sanavirheiden 
määrässä mitattuna kuin perinteisen mallin tai syväoppimismallin suorituskyky yksin. 
 
21 
 
Lähteet 
Dahl G., Yu D., Deng L. & Acero A. (2012). Context-dependent pre-trained deep neural 
networks for large-vocabulary speech recognition. IEEE Transactions on Audio, 
Speech and Language Processing, 30–42, 20(1). 
https://doi.org/10.1109/TASL.2011.2134090 
Chen X. & Lin X. (2014). Big data deep learning: challenges and perspectives. IEEE Access, 
2014(2), 514–525. https://doi.org/10.1109/ACCESS.2014.2325029 
Davis D., Patronis E. & Brown P. (2013). Sound System Engineering 4e. 4. painos. 
Routledge. https://doi.org/10.4324/9780240818474 
Hou J., Rabiner L. & Dusan S. (2006). Automatic speech attribute transcription (ASAT) – 
The front end processor. 2006 IEEE International Conference on Acoustics Speech 
and Signal Processing Proceedings, Toulouse. 
https://doi.org/10.1109/ICASSP.2006.1660025 
Laver J. (2012). Principles of phonetics. Cambridge University Press. 
https://doi.org/10.1017/CBO9781139166621 
Nassif A., Shahin I., Attili I., Azzeh M. & Shaalan K. (2019). Speech recognition using deep 
neural networks: A systematic review. IEEE Access 7, 19143–19165. 
https://doi.org/10.1109/ACCESS.2019.2896880 
Pouyanfar S., Sadiq S., Yan Y., Tian H., Tao Y., Reyes M., Shyu M., Chen S. & Iyengar S. 
(2019). A survey on deep learning: Algorithms, techniques, and applications. ACM 
Computing Surveys, 51(5). https://doi.org/10.1145/3234150 
Pulkki V. (2015). Communication acoustics: An introduction to speech, audio and 
psychoacoustics. John Wiley & Sons, Incorporated. 
https://ebookcentral.proquest.com/lib/kutu/detail.action?pq-
origsite=primo&docID=7104151 
Rabiner L. & Juang B. (1986). An introduction to hidden Markov models. IEEE ASSP 
Magazine, 3(1), 4–16. https://doi.org/10.1109/MASSP.1986.1165342 
Mitkov R. (2014). The Oxford handbook of computational linguistics. Oxford University 
Press. https://doi.org/10.1093/oxfordhb/9780199573691.001.0001 
Reis A., Paulino D., Paredes H. & Barroso J. (2017). Using intelligent personal assistants to 
strengthen the elderlies’ social bonds. Teoksessa M. Antona & C. Stephanidis (toim.), 
Universal Access in Human–Computer Interaction. Human and Technological 
Environments. (s. 593–602). Springer. https://doi.org/10.1007/978-3-319-58700-4_48 
22 
 
Van Houdt G., Mosquera C. & Nápoles G. (2020). A review on the long short-term memory 
model. Artificial Intelligence Review, 53(8), 5929–5955. 
https://doi.org/10.1007/s10462-020-09838-1 
Song Z. (2020). English speech recognition based on deep learning with multiple features. 
Computing, 102(3), 663–682. https://doi.org/10.1007/s00607-019-00753-0 
Kapargavalli S. & Chandra E. (2016). A review on automatic speech recognition architecture 
and approaches. International Journal of Signal Processing, Image Processing and 
Pattern Recognition, 9(4), 393–404. https://doi.org/10.14257/ijsip.2016.9.4.34 
Jones M. & Knight R-A. (toim.) (2013). The Bloomsbury Companion to Phonetics. 
Bloomsbury Publishing plc. https://doi.org/10.5040/9781472541895 
Kurimo M. (2009). Puheentunnistus. Teoksessa O. Aaltonen, R. Aulanko, A. Iivonen, A. 
Klippi & M. Vainio (toim.), Puhuva ihminen (s.336-343). Otava. 
Bhagyaveni, M. A., Vishvaksenan, K. S., & Kalidoss, R. (2016). Introduction to analog and 
digital communication (1. painos). Denmark: River Publishers. 
IBM & Microsoft (1991). Multimedia Programming Interface and Data Specifications 1.0 
Haettu 11.9.2024 osoitteesta https://docslib.org/doc/13165772/multimedia-
programming-interface-and-data-specifications-1-0 
Wang Y., Hou Y., Che W. & Liu T. (2020) From static to dynamic word representations: a 
survey. International Journal of Machine Learning and Cybernetics, 11, 1611–1630. 
https://doi.org/10.1007/s13042-020-01069-8 
Gerard C. (2021). Practical Machine Learning in JavaScript: TensorFlow.js for Web 
Developers (s.1–8). https://doi.org/10.1007/978-1-4842-6418-8 
Sakurai A. & Shinozawa Y. (2008). Linguistic productivity and recurrent neural networks. 
Teoksessa X. Hu & P. Balasubramaniam (toim.), Recurrent Neural Networks. (s. 43–
60). INTECH. https://doi.org/10.5772/68 
Deng L., Hinton G. & Kingsbury B. (2013).  New types of deep neural network learning for 
speech recognition and related applications: an overview. 2013 IEEE International 
Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, 
8599-8603. https://doi.org/10.1109/ICASSP.2013.6639344