Syväoppimisen käyttö musiikin tyylilajin tunnistamisessa
Väänänen, Väinö (2025-05-09)
Syväoppimisen käyttö musiikin tyylilajin tunnistamisessa
Väänänen, Väinö
(09.05.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025051341873
https://urn.fi/URN:NBN:fi-fe2025051341873
Tiivistelmä
Musiikin tyylilajin tunnistaminen on keskeinen osa musiikin analysointia ja sen merkitys on kasvanut suoratoistopalveluiden myötä. Syväoppimismallit automatisoivat musiikin luokittelun tehokkaasti ilman manuaalisia metatietoja. Tässä tutkielmassa tarkastellaan kolmea keskeistä syväoppimismallia: konvoluutioneuroverkkoja, pitkän lyhytkestomuistin verkkoja (LSTM) ja transformereita.
GTZAN-musiikkiaineisto on yksi yleisimmin käytetyistä tietokokonaisuuksista musiikin tyylilajiluokituksen tutkimuksessa, ja se sisältää 10 eri tyylilajia. Tämä aineisto toimii monien syväoppimismallien vertailupohjana, sillä sen avulla voidaan arvioida mallien kykyä tunnistaa musiikillisia piirteitä ja erottaa tyylilajeja toisistaan.
Konvoluutioneuroverkot hyödyntävät spektrogrammeja ja erottuvat kyvyllään tunnistaa paikallisia piirteitä, kuten rytmiä ja harmoniaa. LSTM-verkot keskittyvät ajallisiin riippuvuuksiin, mikä soveltuu musiikin analysointiin. Transformerit puolestaan hyödyntävät itsehuomiomekanismia, joka mahdollistaa laajempien yhteyksien tunnistamisen koko musiikkinäytteessä. Tutkimustulokset osoittivat, että konvoluutioneuroverkko saavutti parhaan tarkkuuden (83,3 %), transformer-mallit olivat toiseksi tarkimpia (76 %), ja LSTM-mallin suorituskyky jäi alhaisemmaksi (52,98 %). Eri mallien vahvuudet ja heikkoudet korostavat hybridimallien potentiaalia musiikin analyysissä.
Tutkielma nostaa esiin haasteet, kuten datan esikäsittelyn vaikutuksen mallin suorituskykyyn sekä musiikin subjektiivisen luokittelun vaikeuden. Tulevaisuudessa yhdistelmämallit ja suuremmat koulutusaineistot voivat parantaa syväoppimisen tarkkuutta musiikin analysoinnissa.
GTZAN-musiikkiaineisto on yksi yleisimmin käytetyistä tietokokonaisuuksista musiikin tyylilajiluokituksen tutkimuksessa, ja se sisältää 10 eri tyylilajia. Tämä aineisto toimii monien syväoppimismallien vertailupohjana, sillä sen avulla voidaan arvioida mallien kykyä tunnistaa musiikillisia piirteitä ja erottaa tyylilajeja toisistaan.
Konvoluutioneuroverkot hyödyntävät spektrogrammeja ja erottuvat kyvyllään tunnistaa paikallisia piirteitä, kuten rytmiä ja harmoniaa. LSTM-verkot keskittyvät ajallisiin riippuvuuksiin, mikä soveltuu musiikin analysointiin. Transformerit puolestaan hyödyntävät itsehuomiomekanismia, joka mahdollistaa laajempien yhteyksien tunnistamisen koko musiikkinäytteessä. Tutkimustulokset osoittivat, että konvoluutioneuroverkko saavutti parhaan tarkkuuden (83,3 %), transformer-mallit olivat toiseksi tarkimpia (76 %), ja LSTM-mallin suorituskyky jäi alhaisemmaksi (52,98 %). Eri mallien vahvuudet ja heikkoudet korostavat hybridimallien potentiaalia musiikin analyysissä.
Tutkielma nostaa esiin haasteet, kuten datan esikäsittelyn vaikutuksen mallin suorituskykyyn sekä musiikin subjektiivisen luokittelun vaikeuden. Tulevaisuudessa yhdistelmämallit ja suuremmat koulutusaineistot voivat parantaa syväoppimisen tarkkuutta musiikin analysoinnissa.