Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting
| dc.contributor.author | Harmanen, Rasmus | |
| dc.contributor.department | fi=Matematiikan ja tilastotieteen laitos|en=Department of Mathematics and Statistics| | |
| dc.contributor.faculty | fi=Matemaattis-luonnontieteellinen tiedekunta|en=Faculty of Science| | |
| dc.contributor.studysubject | fi=Sovellettu matematiikka|en=Applied Mathematics| | |
| dc.date.accessioned | 2025-12-05T22:04:57Z | |
| dc.date.available | 2025-12-05T22:04:57Z | |
| dc.date.issued | 2025-11-26 | |
| dc.description.abstract | Tutkielman tavoitteena on vertailla kolmen yleisesti käytetyn koneoppimismallin logistinen regressiomalli, Random Forest -mallin ja Extreme Gradient Boosting (XGBoost) -mallin suorituskykyä ja tarkkuutta lainahakemuksista saatavien muuttujien vaikutukseen maksetaanko laina takaisin ajallaan vai ei. Tutkimuksen pohjautuu Yhdysvaltalaisen LendingClub-pankin vuosina 2007-2018 kerättyyn aineistoon, jossa on yli kaksi miljoonaa havaintoa. Aineisto on epätasapaoinoine, joten tuloksia arvioidaa seuraavilla mittareilla PR-AUC, ROC-AUC, F1 ja Brier Loss. Tulokset osoittavat logistisen regressiomallin olevan paras tulkittavuudeltaan ja nopeudeltaan kouluttaa, mikä mahdollistaa läpinäkyvimmän pohjan lainapäätösten analyysiin. Random Forest pystyy hyvin yleistämään uusiin havaintoihin ja se pystyy oppimaan ei-lineaarisia yhteyksiä, mutta mallin tulkittavuus on heikompi. XGBoost-malli suoriutui PR-AUC ja ROC-AUC-mittareilla parhaiten, mutta mallin kalibrointitarve ja monimutkaisuus tekevät mallista vaativamman käytännön sovelluksissa. Tutkielma vahvistaa käyttötarpeen määrittävän koneoppimismallin valintaa. Logistinen regressiomalli onparhaiten auditoitavissaja XGBoost-malli tarjoaaparhaat tarkkuudet, jos halutaan parhaat ennusteet. Jatkotutkimuksena suositellaan vertailemaan syväoppimismenetelmiä aikasarja-aineistoissa. | |
| dc.format.extent | 46 | |
| dc.identifier.olddbid | 211556 | |
| dc.identifier.oldhandle | 10024/194575 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/16922 | |
| dc.identifier.urn | URN:NBN:fi-fe20251205115064 | |
| dc.language.iso | fin | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | avoin | |
| dc.source.identifier | https://www.utupub.fi/handle/10024/194575 | |
| dc.subject | Koneoppiminen, Logistinen regressio, XGBoost, Random Forest, Luottoriski, LendingClub, Lainahakemus, Ennustemallit | |
| dc.title | Koneoppimismenetelmien vertailu lainan takaisinmaksun ennakoinnissa: Logistinen regressio, Random Forest ja Extreme Gradient Boosting | |
| dc.type.ontasot | fi=Pro gradu -tutkielma|en=Master's thesis| |
Tiedostot
1 - 1 / 1
Ladataan...
- Name:
- Harmanen_Rasmus_opinnayte.pdf
- Size:
- 2.37 MB
- Format:
- Adobe Portable Document Format