AI-Driven Portfolio Management: A Comparative Research of Deep Reinforcement Learning Techniques Against The 1/N Portfolio Strategy
| dc.contributor.author | Aarnio, Joni | |
| dc.contributor.department | fi=Laskentatoimen ja rahoituksen laitos|en=Department of Accounting and Finance| | |
| dc.contributor.faculty | fi=Turun kauppakorkeakoulu|en=Turku School of Economics| | |
| dc.contributor.studysubject | fi=Laskentatoimi ja rahoitus|en=Accounting and Finance| | |
| dc.date.accessioned | 2025-09-27T21:03:41Z | |
| dc.date.available | 2025-09-27T21:03:41Z | |
| dc.date.issued | 2025-09-21 | |
| dc.description.abstract | Recent advances in deep reinforcement learning (DRL) for portfolio management offers promising methods, yet their real-world edge over simple heuristic allocations remains unclear. This thesis evaluates whether state-of-the-art DRL agents can outperform the naive but hard-to-beat 1/N strategy. Three algorithms: Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) and Deep Deterministic Policy Gradient (DDPG) are trained to allocate capital across ten highly liquid U.S. large-capitalisation equities drawn from diverse sectors. Daily total-return data from January 2010 to December 2024 are split chronologically: 2010-2019 forms the learning window, while 2020-2024 provides an untouched out-of-sample testing period, capturing the COVID-19 shock and subsequent regime shifts. The study contributes a rigorously controlled, multi-algorithm comparison that integrates real- istic costs and robust statistics. The environment frames portfolio management as a sequen- tial Markov decision process. Each state aggregates recent price dynamics, technical indicators, rolling fundamentals and macro variables where actions are continuous weight vectors constrained to full investment. A risk-adjusted reward embeds a 10 bp transaction-cost penalty to discourage excessive turnover. Hyper-parameters are tuned via grid search, and model robustness is checked across multiple random seeds. Out-of-sample results reveal that none of the DRL agents delivers a statistically significant improvement over equal weighting. The 1/N benchmark achieves a compound annual growth rate of 20.9 % and the highest annualised Sharpe ratio (1.075), marginally ahead of DDPG (0.916), A2C (0.840) and PPO (0.805). A Ledoit-Wolf circular block bootstrap with 1 000 replications finds p-values between 0.46 and 0.51 for Sharpe-ratio differentials, confirming that observed gaps are indistinguishable from noise at conventional significance levels. Overall, the evidence indicates that algorithmic ingenuity alone does not guarantee superior risk-adjusted returns in liquid equity markets. AI disclaimer: AI-based tools, particularly ChatGPT and Grammarly AI, were used during the research for language editing, project coding, and LaTeX formatting. | |
| dc.description.abstract | Viimeaikaiset edistysaskeleet syvävahvistusoppimisen saralla (DRL) salkunhoidossa tarjoaa lupaavia menetelmiä, mutta niiden todellinen etu verrattuna yksinkertaisiin heuristisiin allokointisääntöi- hin on yhä epäselvä. Tämä pro gradu -tutkielma selvittää, kykenevätkö huipputason DRL- agentit päihittämään naivin mutta vaikeasti voitettavaksi tunnetun 1/N-strategian. Kolme al- goritmia: Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) ja Deep Determ- inistic Policy Gradient (DDPG) koulutetaan kohdentamaan pääomaa kymmeneen hyvin likvidiin yhdysvaltalaiseen suuryhtiöosakkeeseen useilta toimialoilta. Päivittäinen kokonaistuottodata ajalta tammikuu 2010 – joulukuu 2024 jaetaan kronologisesti: vuodet 2010–2019 muodostavat oppimisjakson, kun taas 2020–2024 toimii koskemattomana ulkoisen testauksen ajanjaksona, kattaen muun muassa COVID-19-shokin ja sitä seuranneet rakennemuutokset. Tutkimus tarjoaa tiukasti kontrolloidun, useita algoritmeja vertailevan asetelman, joka yhdistää realistiset kustannukset ja vankan tilastollisen analyysin. Salkunhoito mallinnetaan peräkkäis- enä Markovin päätösprosessina, jossa tilavektori koostaa viimeaikaiset hintaliikkeet, tekniset in- dikaattorit, rullaavat fundamentit ja makromuuttujat ja jossa toiminnot ovat jatkuvia pain- ovektoreita, joiden on täytettävä täysinvestoinnin ehto. Riskikorjattu palkkio sisältää 10 korkop- isteen transaktiokustannuspenaltin liiallisen vaihtuvuuden hillitsemiseksi. Hyperparametrit vir- itetään ruutuhakumenetelmällä, ja mallien kestävyys testataan useiden satunnaissiementen avulla. Ulkoisen testiaineiston tulokset osoittavat, ettei mikään DRL-agenteista saavuta tilastollisesti merkittävää parannusta tasapainottuvaan 1/N-strategiaan nähden. Vertailustrategia tuottaa 20,9 %:n yhdistetyn vuotuisen kasvuvauhdin ja korkeimman annualisoidun Sharpe-suhteen (1,075), niukasti DDPG:n (0,916), A2C:n (0,840) ja PPO:n (0,805) edellä. Ledoit–Wolfin syklinen lo- hkobootstrap (1 000 replikointia) antaa Sharpe-eroille p-arvot 0,46–0,51, mikä vahvistaa, että havaitut erot ovat perinteisin raja-arvoin erottamattomia satunnaisvaihtelusta. Tulokset viit- taavat siihen, että jopa kehittyneet DRL-mallit jäävät likvideillä osakemarkkinoilla yksinker- taisen, kustannustehokkaan 1/N-strategian varjoon. Tekoälyseloste: Tutkielman laatimisessa on hyödynnetty tekoälypohjaisia työkaluja, erityisesti ChatGPT:tä ja Grammarly AI:ta, kielenhuoltoon, projektikoodin tuottamiseen ja LaTeX-muotoiluun. | |
| dc.format.extent | 70 | |
| dc.identifier.olddbid | 211221 | |
| dc.identifier.oldhandle | 10024/194244 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/10363 | |
| dc.identifier.urn | URN:NBN:fi-fe2025092698428 | |
| dc.language.iso | fin | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | avoin | |
| dc.source.identifier | https://www.utupub.fi/handle/10024/194244 | |
| dc.subject | Reinforcement learning, Stock markets, Portfolio management | |
| dc.title | AI-Driven Portfolio Management: A Comparative Research of Deep Reinforcement Learning Techniques Against The 1/N Portfolio Strategy | |
| dc.type.ontasot | fi=Pro gradu -tutkielma|en=Master's thesis| |
Tiedostot
1 - 1 / 1