Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa

dc.contributor.authorWingström, Akseli
dc.contributor.departmentfi=Fysiikan ja tähtitieteen laitos|en=Department of Physics and Astronomy|
dc.contributor.facultyfi=Matemaattis-luonnontieteellinen tiedekunta|en=Faculty of Science|
dc.contributor.studysubjectfi=Fysikaaliset tieteet|en=Physical Sciences|
dc.date.accessioned2024-06-03T10:33:08Z
dc.date.available2024-06-03T10:33:08Z
dc.date.issued2024-04-26
dc.description.abstractSyvillä neuroverkoilla on viime vuosina saavutettu merkittäviä parannuksia useissa perinteisissä tekoälyyn kuuluvissa tehtävissä. Neuroverkkojen opettaminen vaatii kuitenkin edelleen valtavasti opetusdataa, jonka kerääminen ja annotoiminen on hidasta. Puheentunnistusjärjestelmien ongelmana on ollut saatavilla olevan opetusdatan määrä sekä järjestelmien luotettavuus ympäristöissä, joissa järjestelmän syötteessä on mukana paljon häiriötä, kuten taustamelua tai säröilyä. Augmentoinnilla tarkoitetaan valmiiksi annotoidun opetusdatan muokkaamista siten, että siihen lisätään erilaisia häiriöitä tai muita variaatioita, mutta sen alkuperäinen merkitys kuitenkin säilyy. Tämän avulla valmista opetusdataa voidaan hyödyntää uutena datana neuroverkon opetuksessa. Opinnäytetyössä parannettiin puheentunnistusjärjestelmän robustisuutta kehittämällä ja optimoimalla fysikaalisesti perusteltuja augmentointimenetelmiä. Työssä keskityttiin hälyjen, säröjen, kaikujen ja taajuusvasteiden augmentointeihin. Työssä suoritettiin akkumulaatio- sekä ablaatiotestejä, joissa puheentunnistusjärjestelmä opetettiin eri augmentaatiomenetelmiä ja niiden kombinaatioita käyttäen. Opetetut järjestelmät testattiin evaluointidatalla, josta laskettiin Levenshtein -editointietäisyys tulokseksi. Editointietäisyyksistä arvioitiin Harrell-Davis -evaluointimenetelmällä lopullinen tulos testille, joita vertailtiin keskenään augmentointimenetelmien toimivuuden määrittämiseksi. Augmentointimenetelmien lisäksi vertailtiin opetusaikojen eroa ilman augmentointia ja augmentoinnin kanssa tapahtuneiden opetusten välillä. Lopputuloksena jokainen augmentointimenetelmä paransi puheentunnistusjärjestelmän robustisuutta jo lyhyellä opetusajalla. Robustiuden parantamisen lisäksi augmentointimenetelmät nopeuttivat neuroverkkojen oppimista.
dc.format.extent83
dc.identifier.olddbid194857
dc.identifier.oldhandle10024/177911
dc.identifier.urihttps://www.utupub.fi/handle/11111/19264
dc.identifier.urnURN:NBN:fi-fe2024052840095
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/177911
dc.subjectaugmentointi, data-augmentaatio, tekoäly, koneoppiminen, neuroverkko, puheentunnistusjärjestelmä, ASR, conformeri, spektrogrammi, impulssivaste, taajuusvastekäyrä, akkumulaatiotesti, ablaatiotesti, Levenshtein editointietäisyys
dc.titleÄänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Wingstrom_Akseli_opinnayte.pdf
Size:
43.99 MB
Format:
Adobe Portable Document Format