Machine Learning in Pairs Trading : Improving Pair Selection with Density-Based Clustering
Aaltonen, Niko (2025-06-11)
Machine Learning in Pairs Trading : Improving Pair Selection with Density-Based Clustering
Aaltonen, Niko
(11.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061670317
https://urn.fi/URN:NBN:fi-fe2025061670317
Tiivistelmä
Pairs trading is a market-neutral strategy that seeks to profit from temporary price divergences between historically related assets by simultaneously taking long and short positions. The strategy is particularly attractive in environments where absolute valuation is challenging, as it relies on relative price dynamics. However, the increasing complexity and dimensionality of financial markets, especially in smaller or less liquid exchanges, has made it increasingly difficult to identify consistently profitable pairs using traditional statistical methods. These challenges motivate exploring alternative approaches to improve pair selection and overall strategy performance.
This thesis explores the application of unsupervised machine learning to improve pair selection in the Finnish equity market. Two clustering algorithms, OPTICS and HDBSCAN, are employed to group stocks based on similarity in principal component loadings derived from return-based risk factors. Within these clusters, standard tests such as cointegration and the Hurst exponent are used to identify viable trading pairs. Dimensionality reduction and cluster-based restriction aim to improve the precision of pair selection and mitigate the risk of spurious relationships. The analysis further evaluates how strategy performance varies with market volatility and investigates the role of dual-class shares.
Empirical results demonstrate that clustering-based strategies outperform traditional approaches in terms of both absolute and risk-adjusted performance. A dedicated dual-class share portfolio achieves the highest Sharpe ratio (0.62) and strong drawdown protection, outperforming clustering-based portfolios in profitability and risk metrics. Portfolio returns are largely uncorrelated with market volatility, suggesting robustness across different market regimes. Despite transaction costs eroding excess returns, the findings highlight the value of unsupervised learning as a tool for improving pair selection in less efficient markets, and suggest that structural features like dual-class shares may serve as a more reliable basis for trading than clustering alone. Parikaupankäynti on markkinaneutraali strategia, jossa pyritään hyötymään historiallisesti yhteydessä olevien omaisuuserien väliaikaisista hintaeroista ottamalla samanaikaisesti pitkä ja lyhyt positio. Strategia on erityisen houkutteleva ympäristöissä, joissa arvonmääritys on haastavaa, koska se perustuu suhteelliseen hintadynamiikkaan. Rahoitusmarkkinoiden lisääntyvä monimutkaisuus ja moniulotteisuus, erityisesti pienemmissä tai vähemmän likvideissä pörsseissä, on kuitenkin vaikeuttanut jatkuvasti kannattavien parien tunnistamista perinteisillä menetelmillä. Nämä haasteet motivoivat tutkimaan vaihtoehtoisia lähestymistapoja parien valinnan ja strategian kokonaistuloksen parantamiseksi.
Tässä tutkielmassa tutkitaan ohjaamattoman koneoppimisen soveltamista parivalinnan kehittämiseen Suomen osakemarkkinoilla. Kahta klusterointialgoritmia, OPTICSia ja HDBSCANia, käytetään ryhmittelemään osakkeet pääkomponenttianalyysin avulla johdettujen riskitekijöiden samankaltaisuuden perusteella. Klusterien sisällä käytetään tilastollisia menetelmiä kaupankäyntikelpoisten parien tunnistamiseksi. Ulottuvuuksien vähentäminen ja klusteripohjainen hakuavaruuden rajoittaminen tähtäävät parivalinnan tarkkuuden parantamiseen. Analyysissä arvioidaan lisäksi, miten strategian suorituskyky vaihtelee markkinoiden volatiliteetin mukaan, ja tutkitaan kaksiluokkaisten osakkeiden merkitystä.
Tulokset osoittavat, että klusterointipohjaiset strategiat ylittävät perinteiset menetelmät absoluuttisen ja riskikorjatun tuoton suhteen. Parhaan tuloksen saavuttaa kaksiluokkaisista osakkeista koostuva salkku, joka tuottaa korkeimman Sharpe-suhteen (0,62) ja tarjoaa tehokasta laskusuojautumista. Salkun tuotot ovat suurelta osin korreloimattomia markkinoiden volatiliteetin kanssa, mikä viittaa strategian kestävyyteen eri markkinasuhdanteissa. Vaikka transaktiokustannukset heikentävät strategioiden ylituottoja, tulokset korostavat valvomattoman oppimisen hyödyllisyyttä parinvalinnan tehostamisessa. Lisäksi tulokset viittaavat siihen, että rakenteelliset ominaisuudet, kuten kaksiluokkaiset osakkeet, voivat tarjota klusterointia vakaamman ja luotettavamman perustan kaupankäyntistrategioille.
This thesis explores the application of unsupervised machine learning to improve pair selection in the Finnish equity market. Two clustering algorithms, OPTICS and HDBSCAN, are employed to group stocks based on similarity in principal component loadings derived from return-based risk factors. Within these clusters, standard tests such as cointegration and the Hurst exponent are used to identify viable trading pairs. Dimensionality reduction and cluster-based restriction aim to improve the precision of pair selection and mitigate the risk of spurious relationships. The analysis further evaluates how strategy performance varies with market volatility and investigates the role of dual-class shares.
Empirical results demonstrate that clustering-based strategies outperform traditional approaches in terms of both absolute and risk-adjusted performance. A dedicated dual-class share portfolio achieves the highest Sharpe ratio (0.62) and strong drawdown protection, outperforming clustering-based portfolios in profitability and risk metrics. Portfolio returns are largely uncorrelated with market volatility, suggesting robustness across different market regimes. Despite transaction costs eroding excess returns, the findings highlight the value of unsupervised learning as a tool for improving pair selection in less efficient markets, and suggest that structural features like dual-class shares may serve as a more reliable basis for trading than clustering alone.
Tässä tutkielmassa tutkitaan ohjaamattoman koneoppimisen soveltamista parivalinnan kehittämiseen Suomen osakemarkkinoilla. Kahta klusterointialgoritmia, OPTICSia ja HDBSCANia, käytetään ryhmittelemään osakkeet pääkomponenttianalyysin avulla johdettujen riskitekijöiden samankaltaisuuden perusteella. Klusterien sisällä käytetään tilastollisia menetelmiä kaupankäyntikelpoisten parien tunnistamiseksi. Ulottuvuuksien vähentäminen ja klusteripohjainen hakuavaruuden rajoittaminen tähtäävät parivalinnan tarkkuuden parantamiseen. Analyysissä arvioidaan lisäksi, miten strategian suorituskyky vaihtelee markkinoiden volatiliteetin mukaan, ja tutkitaan kaksiluokkaisten osakkeiden merkitystä.
Tulokset osoittavat, että klusterointipohjaiset strategiat ylittävät perinteiset menetelmät absoluuttisen ja riskikorjatun tuoton suhteen. Parhaan tuloksen saavuttaa kaksiluokkaisista osakkeista koostuva salkku, joka tuottaa korkeimman Sharpe-suhteen (0,62) ja tarjoaa tehokasta laskusuojautumista. Salkun tuotot ovat suurelta osin korreloimattomia markkinoiden volatiliteetin kanssa, mikä viittaa strategian kestävyyteen eri markkinasuhdanteissa. Vaikka transaktiokustannukset heikentävät strategioiden ylituottoja, tulokset korostavat valvomattoman oppimisen hyödyllisyyttä parinvalinnan tehostamisessa. Lisäksi tulokset viittaavat siihen, että rakenteelliset ominaisuudet, kuten kaksiluokkaiset osakkeet, voivat tarjota klusterointia vakaamman ja luotettavamman perustan kaupankäyntistrategioille.