Predicting Corporate Bankruptcy with Ensemble Machine Learning: Modeling the Temporal Dynamics of Financial Distress in Finnish Companies
Nordqvist, Mikael (2025-06-25)
Predicting Corporate Bankruptcy with Ensemble Machine Learning: Modeling the Temporal Dynamics of Financial Distress in Finnish Companies
Nordqvist, Mikael
(25.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025063075903
https://urn.fi/URN:NBN:fi-fe2025063075903
Tiivistelmä
The accurate prediction of corporate bankruptcy is a cornerstone of financial risk management, crucial for investors, creditors, and the broader economy. This thesis investigates the efficacy of ensemble machine learning models in forecasting the insolvency of Finnish limited liability companies, with a specific focus on modeling the temporal dynamics of financial distress. This study employs XGBoost, LightGBM, and Random Forest models on time series data composed of three and five consecutive financial statements. A key contribution is the use of realistic prediction horizons that account for the inherent lag in the public availability of financial reports, a factor often overlooked in prior research. Model performance and the importance of features are evaluated on time series sequences with prediction horizons of 1-4 years and sequence lengths of 3 and 5 financial statements. The findings reveal that while the models, particularly XGBoost, demonstrate strong predictive power, their accuracy degrades with longer horizons, with a notable decline in performance for predictions made more than three years prior to bankruptcy. The analysis of feature importance consistently highlights profitability metrics, such as gross profit and net financial expenses relative to revenue, as the most significant predictors of distress. Future research on this topic should investigate the integration of either non-financial or real-time data, such as public debt judgments, to improve forecasting accuracy and further address the challenges posed by financial reporting lags. Yrityskonkurssien tarkka ennakointi on taloudellisen riskinhallinnan perusta ja tärkeää niin sijoittajille, velkojille kuin koko kansantaloudellekin. Tässä tutkielmassa arvioidaan ensemble-koneoppimismallien soveltuvuutta suomalaisten osakeyhtiöiden maksukyvyttömyyden ennustamiseen. Erityisenä painopisteenä on taloudellisen ahdingon kehittymisen mallintaminen ajan funktiona. Tutkimuksessa sovelletaan XGBoost-, LightGBM- ja Random Forest -malleja kolmesta tai viidestä peräkkäisestä tilinpäätöksestä koostettuun aikasarja-aineistoon. Tutkimuksen keskeinen tutkimuksellinen arvo on realististen ennustehorisonttien määrittäminen. Horisontit huomioivat tilinpäätöstietojen julkistamisviiven, joka on aiheen kirjallisuudessa jäänyt laajalti huomioimatta. Mallien ennustuskykyä ja muuttujien merkittävyyttä arvioidaan 1–4 vuoden ennustehorisonteilla ja sekä kolmen, että viiden tilinpäätöksen mittaisilla aikasarjoilla. Tulokset osoittavat, että vaikka malleilla, erityisesti XGBoostilla, on vahva ennustuskyky, niiden tarkkuus heikkenee ennustehorisontin pidentyessä. Suorituskyky laskee huomattavasti, kun ennusteet ulottuvat yli kolmen vuoden päähän konkurssista. Muuttujien merkittävyysanalyysissä keskeisimmiksi ennustetekijöiksi korostuvat kannattavuusmittarit, kuten myyntikate ja liikevaihtoon suhteutetut nettorahoituskulut. Tulevaisuudessa olisi arvokasta selvittää, voiko ei-taloudellista tai muuta reaaliaikaista tietoa, kuten julkisia velkomustuomioita, hyödyntää ennustetarkkuuden parantamiseen ja raportointiviiveiden aiheuttamien ongelmien ehkäisyyn.