Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa

Wingström, Akseli

Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa

dc.contributor.author	Wingström, Akseli
dc.contributor.department	fi=Fysiikan ja tähtitieteen laitos\|en=Department of Physics and Astronomy\|
dc.contributor.faculty	fi=Matemaattis-luonnontieteellinen tiedekunta\|en=Faculty of Science\|
dc.contributor.studysubject	fi=Fysikaaliset tieteet\|en=Physical Sciences\|
dc.date.accessioned	2024-06-03T10:33:08Z
dc.date.available	2024-06-03T10:33:08Z
dc.date.issued	2024-04-26
dc.description.abstract	Syvillä neuroverkoilla on viime vuosina saavutettu merkittäviä parannuksia useissa perinteisissä tekoälyyn kuuluvissa tehtävissä. Neuroverkkojen opettaminen vaatii kuitenkin edelleen valtavasti opetusdataa, jonka kerääminen ja annotoiminen on hidasta. Puheentunnistusjärjestelmien ongelmana on ollut saatavilla olevan opetusdatan määrä sekä järjestelmien luotettavuus ympäristöissä, joissa järjestelmän syötteessä on mukana paljon häiriötä, kuten taustamelua tai säröilyä. Augmentoinnilla tarkoitetaan valmiiksi annotoidun opetusdatan muokkaamista siten, että siihen lisätään erilaisia häiriöitä tai muita variaatioita, mutta sen alkuperäinen merkitys kuitenkin säilyy. Tämän avulla valmista opetusdataa voidaan hyödyntää uutena datana neuroverkon opetuksessa. Opinnäytetyössä parannettiin puheentunnistusjärjestelmän robustisuutta kehittämällä ja optimoimalla fysikaalisesti perusteltuja augmentointimenetelmiä. Työssä keskityttiin hälyjen, säröjen, kaikujen ja taajuusvasteiden augmentointeihin. Työssä suoritettiin akkumulaatio- sekä ablaatiotestejä, joissa puheentunnistusjärjestelmä opetettiin eri augmentaatiomenetelmiä ja niiden kombinaatioita käyttäen. Opetetut järjestelmät testattiin evaluointidatalla, josta laskettiin Levenshtein -editointietäisyys tulokseksi. Editointietäisyyksistä arvioitiin Harrell-Davis -evaluointimenetelmällä lopullinen tulos testille, joita vertailtiin keskenään augmentointimenetelmien toimivuuden määrittämiseksi. Augmentointimenetelmien lisäksi vertailtiin opetusaikojen eroa ilman augmentointia ja augmentoinnin kanssa tapahtuneiden opetusten välillä. Lopputuloksena jokainen augmentointimenetelmä paransi puheentunnistusjärjestelmän robustisuutta jo lyhyellä opetusajalla. Robustiuden parantamisen lisäksi augmentointimenetelmät nopeuttivat neuroverkkojen oppimista.
dc.format.extent	83
dc.identifier.olddbid	194857
dc.identifier.oldhandle	10024/177911
dc.identifier.uri	https://www.utupub.fi/handle/11111/19264
dc.identifier.urn	URN:NBN:fi-fe2024052840095
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/177911
dc.subject	augmentointi, data-augmentaatio, tekoäly, koneoppiminen, neuroverkko, puheentunnistusjärjestelmä, ASR, conformeri, spektrogrammi, impulssivaste, taajuusvastekäyrä, akkumulaatiotesti, ablaatiotesti, Levenshtein editointietäisyys
dc.title	Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: Wingstrom_Akseli_opinnayte.pdf
Size:: 43.99 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)