Pienen datan ongelma koneoppimismallien koulutuksessa ja validoinnissa

dc.contributor.authorSippola, Henri
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2025-03-18T22:30:15Z
dc.date.available2025-03-18T22:30:15Z
dc.date.issued2025-03-17
dc.description.abstractTekoäly on osoittautunut tärkeäksi työkaluksi tieteellisessä tutkimuksessa. Sen tehokas ja luotettava käyttö on kuitenkin riippuvainen käytetyn aineiston koosta ja laadusta. Vaikka tallennettua tietoa ja käytettäviä aineistoja on saatavilla suuria määriä, tieteellisessä tutkimuksessa työskennellään usein rajallisempien aineistojen kanssa. Tämä vaikeuttaa tekoälyn koulutusta ja hyödyntämistä. Tästä huolimatta tekoälyn käyttäminen on tärkeää pienienkin aineistojen kanssa. Tämä tutkielma on kirjallisuuskatsaus pienien aineistojen ongelmista ja ratkaisuista koneoppimisessa. Tutkielmassa esitetään pienen datan ongelma, siihen johtavia syitä ja sen seurauksia. Lisäksi syvennytään tarkemmin aineistojen ja koneoppimismallien väliseen yhteyteen eli mitkä asiat aineistossa vaikuttavat mallien koulutukseen. Lopuksi tarkastellaan yleisimmin käytettyjä ratkaisumenetelmiä löydettyihin ongelmiin. Tutkielmassa selitetään myös lyhyesti koneoppimisen peruskäsitteitä ja toimintaa, joita tarvitaan tuloksien ymmärtämiseksi. Tutkielman tuloksena havaittiin pienten aineistojen ylisovittuvan helposti koneoppimismallien koulutuksessa. Tämä johtuu pääosin aineistojen pienestä koosta tai suuresta määrästä aineistoa kuvaavia piirteitä. Suuri määrä piirteitä on vaikea oppia pienestä määrästä esimerkkejä. Pienet aineistot ovat ongelma lukuisilla aloilla tieteellisessä tutkimuksessa. Aineistot, ja myös ratkaisut, vaihtelevat aloittain. Suosituimpia ratkaisuja koneoppimismallien suorituksien parantamiseen pienien aineistojen kanssa ovat aineiston täydennys, siirto-oppiminen, ulottuvuuksien vähennys ja ristiinvalidointi.
dc.format.extent33
dc.identifier.olddbid197265
dc.identifier.oldhandle10024/180306
dc.identifier.urihttps://www.utupub.fi/handle/11111/2243
dc.identifier.urnURN:NBN:fi-fe2025031819088
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/180306
dc.subjecttekoäly, koneoppiminen, pieni aineisto, pieni data, ylisovitus
dc.titlePienen datan ongelma koneoppimismallien koulutuksessa ja validoinnissa
dc.type.ontasotfi=Kandidaatintutkielma|en=Bachelor's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Sippola_Henri_opinnayte.pdf
Size:
316.65 KB
Format:
Adobe Portable Document Format