Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting

Harmanen, Rasmus

Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting

Harmanen, Rasmus

2025-11-26

Pro gradu -tutkielma

Sovellettu matematiikka

Harmanen_Rasmus_opinnayte.pdf

2.37 MB

avoin

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Lataukset181

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe20251205115064

Tiivistelmä

Tutkielman tavoitteena on vertailla kolmen yleisesti käytetyn koneoppimismallin logistinen regressiomalli, Random Forest -mallin ja Extreme Gradient Boosting (XGBoost) -mallin suorituskykyä ja tarkkuutta lainahakemuksista saatavien muuttujien vaikutukseen maksetaanko laina takaisin ajallaan vai ei. Tutkimuksen pohjautuu Yhdysvaltalaisen LendingClub-pankin vuosina 2007-2018 kerättyyn aineistoon, jossa on yli kaksi miljoonaa havaintoa. Aineisto on epätasapaoinoine, joten tuloksia arvioidaa seuraavilla mittareilla PR-AUC, ROC-AUC, F1 ja Brier Loss. Tulokset osoittavat logistisen regressiomallin olevan paras tulkittavuudeltaan ja nopeudeltaan kouluttaa, mikä mahdollistaa läpinäkyvimmän pohjan lainapäätösten analyysiin. Random Forest pystyy hyvin yleistämään uusiin havaintoihin ja se pystyy oppimaan ei-lineaarisia yhteyksiä, mutta mallin tulkittavuus on heikompi. XGBoost-malli suoriutui PR-AUC ja ROC-AUC-mittareilla parhaiten, mutta mallin kalibrointitarve ja monimutkaisuus tekevät mallista vaativamman käytännön sovelluksissa. Tutkielma vahvistaa käyttötarpeen määrittävän koneoppimismallin valintaa. Logistinen regressiomalli onparhaiten auditoitavissaja XGBoost-malli tarjoaaparhaat tarkkuudet, jos halutaan parhaat ennusteet. Jatkotutkimuksena suositellaan vertailemaan syväoppimismenetelmiä aikasarja-aineistoissa.

Tietueen kaikki tiedot

Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting

Toimittaja(t)

Pysyvä osoite

Verkkojulkaisu

DOI

Tiivistelmä

item.page.okmtext