Syväoppimisen käyttö musiikin tyylilajin tunnistamisessa

Kandidaatintutkielma
Ladataan...
suljettu
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Verkkojulkaisu

DOI

Tiivistelmä

Musiikin tyylilajin tunnistaminen on keskeinen osa musiikin analysointia ja sen merkitys on kasvanut suoratoistopalveluiden myötä. Syväoppimismallit automatisoivat musiikin luokittelun tehokkaasti ilman manuaalisia metatietoja. Tässä tutkielmassa tarkastellaan kolmea keskeistä syväoppimismallia: konvoluutioneuroverkkoja, pitkän lyhytkestomuistin verkkoja (LSTM) ja transformereita. GTZAN-musiikkiaineisto on yksi yleisimmin käytetyistä tietokokonaisuuksista musiikin tyylilajiluokituksen tutkimuksessa, ja se sisältää 10 eri tyylilajia. Tämä aineisto toimii monien syväoppimismallien vertailupohjana, sillä sen avulla voidaan arvioida mallien kykyä tunnistaa musiikillisia piirteitä ja erottaa tyylilajeja toisistaan. Konvoluutioneuroverkot hyödyntävät spektrogrammeja ja erottuvat kyvyllään tunnistaa paikallisia piirteitä, kuten rytmiä ja harmoniaa. LSTM-verkot keskittyvät ajallisiin riippuvuuksiin, mikä soveltuu musiikin analysointiin. Transformerit puolestaan hyödyntävät itsehuomiomekanismia, joka mahdollistaa laajempien yhteyksien tunnistamisen koko musiikkinäytteessä. Tutkimustulokset osoittivat, että konvoluutioneuroverkko saavutti parhaan tarkkuuden (83,3 %), transformer-mallit olivat toiseksi tarkimpia (76 %), ja LSTM-mallin suorituskyky jäi alhaisemmaksi (52,98 %). Eri mallien vahvuudet ja heikkoudet korostavat hybridimallien potentiaalia musiikin analyysissä. Tutkielma nostaa esiin haasteet, kuten datan esikäsittelyn vaikutuksen mallin suorituskykyyn sekä musiikin subjektiivisen luokittelun vaikeuden. Tulevaisuudessa yhdistelmämallit ja suuremmat koulutusaineistot voivat parantaa syväoppimisen tarkkuutta musiikin analysoinnissa.

item.page.okmtext