Datan imputointi eikä amputointi : Menetelmiä ja strategioita puuttuvan datan käsittelyyn

dc.contributor.authorKallio, Verneri
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2024-12-19T22:30:34Z
dc.date.available2024-12-19T22:30:34Z
dc.date.issued2024-12-14
dc.description.abstractData-analytiikka on ala, joka kasvaa jatkuvasti, sillä dataa kerätään enemmän ja monipuolisemmin erilaisten laitteiden avulla. Samalla datan puuttuvien tai virheellisten arvojen oikeanlainen käsittely muuttuu tärkeämmäksi, sillä yhä enemmän päätöksiä ja tutkimuksia tehdään sen pohjalta. Tutkielmani pyrkii luomaan yleiskäsityksen siitä, millaisia menetelmiä ja strategioita käytetään puuttuvan datan hallitsemiseen ja hyödyntämiseen. Tutkielmassa keskitytään rakentamaan pohjustus, jotta voi ymmärtää puuttuvan datananalyysin teorian käsitteellisellä tasolla, joten syvempi matemaattinen näkökulma rajataan pois monien aiheiden kohdalla. Datamekanismit kuten MCAR, MAR ja MNAR ovat oleellisia puuttuvan datan oikeanlaiseen käsittelyyn, sillä niiden avulla voimme paremmin ymmärtää millaisia tekniikoita kannattaa soveltaa erilaisten vaillinaisten datasettien kohdalla. Tämän ymmärryksen parantamiseksi on olemassa monia muita strategioita kuten puuttuvuuden kuvioiden huomioiminen sekä selkeiden tavoitteiden määrittäminen imputoinneille. On kehitetty monenlaisia imputointi- ja poistomenetelmiä vuosikymmenien aikana ja vaikka monet niistä ovat vanhentuneet tai harvoin optimaalisin valinta niin niiden opettelu on edelleen hyödyksi, sillä ne auttavat käsittämään miten ja miksi edistyneemmät menetelmät toimivat. Nämä tutkielmassa esitetyt kehittyneemmät menetelmät ovat moni-imputointi ja MICE-algoritmi. Tutkielmassa keskitytään jatkuvaan ja numeeriseen taulukkomuodossa olevaan keinotekoiseen dataan, mutta useimpia esitettyjä tekniikoita ja strategioita voidaan soveltaa monen erilaisen datatyypin kohdalla.
dc.format.extent28
dc.identifier.olddbid196536
dc.identifier.oldhandle10024/179579
dc.identifier.urihttps://www.utupub.fi/handle/11111/2169
dc.identifier.urnURN:NBN:fi-fe20241219104969
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/179579
dc.subjectImputointi, moni-imputointi, data-analytiikka, datamekanismi, MCAR, MAR, MNAR, MICE
dc.titleDatan imputointi eikä amputointi : Menetelmiä ja strategioita puuttuvan datan käsittelyyn
dc.type.ontasotfi=Kandidaatintutkielma|en=Bachelor's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Kallio_Verneri_LuK_2024.pdf
Size:
621.23 KB
Format:
Adobe Portable Document Format