Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting

dc.contributor.authorHarmanen, Rasmus
dc.contributor.departmentfi=Matematiikan ja tilastotieteen laitos|en=Department of Mathematics and Statistics|
dc.contributor.facultyfi=Matemaattis-luonnontieteellinen tiedekunta|en=Faculty of Science|
dc.contributor.studysubjectfi=Sovellettu matematiikka|en=Applied Mathematics|
dc.date.accessioned2025-12-05T22:04:57Z
dc.date.available2025-12-05T22:04:57Z
dc.date.issued2025-11-26
dc.description.abstractTutkielman tavoitteena on vertailla kolmen yleisesti käytetyn koneoppimismallin logistinen regressiomalli, Random Forest -mallin ja Extreme Gradient Boosting (XGBoost) -mallin suorituskykyä ja tarkkuutta lainahakemuksista saatavien muuttujien vaikutukseen maksetaanko laina takaisin ajallaan vai ei. Tutkimuksen pohjautuu Yhdysvaltalaisen LendingClub-pankin vuosina 2007-2018 kerättyyn aineistoon, jossa on yli kaksi miljoonaa havaintoa. Aineisto on epätasapaoinoine, joten tuloksia arvioidaa seuraavilla mittareilla PR-AUC, ROC-AUC, F1 ja Brier Loss. Tulokset osoittavat logistisen regressiomallin olevan paras tulkittavuudeltaan ja nopeudeltaan kouluttaa, mikä mahdollistaa läpinäkyvimmän pohjan lainapäätösten analyysiin. Random Forest pystyy hyvin yleistämään uusiin havaintoihin ja se pystyy oppimaan ei-lineaarisia yhteyksiä, mutta mallin tulkittavuus on heikompi. XGBoost-malli suoriutui PR-AUC ja ROC-AUC-mittareilla parhaiten, mutta mallin kalibrointitarve ja monimutkaisuus tekevät mallista vaativamman käytännön sovelluksissa. Tutkielma vahvistaa käyttötarpeen määrittävän koneoppimismallin valintaa. Logistinen regressiomalli onparhaiten auditoitavissaja XGBoost-malli tarjoaaparhaat tarkkuudet, jos halutaan parhaat ennusteet. Jatkotutkimuksena suositellaan vertailemaan syväoppimismenetelmiä aikasarja-aineistoissa.
dc.format.extent46
dc.identifier.olddbid211556
dc.identifier.oldhandle10024/194575
dc.identifier.urihttps://www.utupub.fi/handle/11111/16922
dc.identifier.urnURN:NBN:fi-fe20251205115064
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/194575
dc.subjectKoneoppiminen, Logistinen regressio, XGBoost, Random Forest, Luottoriski, LendingClub, Lainahakemus, Ennustemallit
dc.titleKoneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Harmanen_Rasmus_opinnayte.pdf
Size:
2.37 MB
Format:
Adobe Portable Document Format