AI-Driven Portfolio Management: A Comparative Research of Deep Reinforcement Learning Techniques Against The 1/N Portfolio Strategy

Aarnio, Joni

AI-Driven Portfolio Management: A Comparative Research of Deep Reinforcement Learning Techniques Against The 1/N Portfolio Strategy

dc.contributor.author	Aarnio, Joni
dc.contributor.department	fi=Laskentatoimen ja rahoituksen laitos\|en=Department of Accounting and Finance\|
dc.contributor.faculty	fi=Turun kauppakorkeakoulu\|en=Turku School of Economics\|
dc.contributor.studysubject	fi=Laskentatoimi ja rahoitus\|en=Accounting and Finance\|
dc.date.accessioned	2025-09-27T21:03:41Z
dc.date.available	2025-09-27T21:03:41Z
dc.date.issued	2025-09-21
dc.description.abstract	Recent advances in deep reinforcement learning (DRL) for portfolio management offers promising methods, yet their real-world edge over simple heuristic allocations remains unclear. This thesis evaluates whether state-of-the-art DRL agents can outperform the naive but hard-to-beat 1/N strategy. Three algorithms: Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) and Deep Deterministic Policy Gradient (DDPG) are trained to allocate capital across ten highly liquid U.S. large-capitalisation equities drawn from diverse sectors. Daily total-return data from January 2010 to December 2024 are split chronologically: 2010-2019 forms the learning window, while 2020-2024 provides an untouched out-of-sample testing period, capturing the COVID-19 shock and subsequent regime shifts. The study contributes a rigorously controlled, multi-algorithm comparison that integrates real- istic costs and robust statistics. The environment frames portfolio management as a sequen- tial Markov decision process. Each state aggregates recent price dynamics, technical indicators, rolling fundamentals and macro variables where actions are continuous weight vectors constrained to full investment. A risk-adjusted reward embeds a 10 bp transaction-cost penalty to discourage excessive turnover. Hyper-parameters are tuned via grid search, and model robustness is checked across multiple random seeds. Out-of-sample results reveal that none of the DRL agents delivers a statistically significant improvement over equal weighting. The 1/N benchmark achieves a compound annual growth rate of 20.9 % and the highest annualised Sharpe ratio (1.075), marginally ahead of DDPG (0.916), A2C (0.840) and PPO (0.805). A Ledoit-Wolf circular block bootstrap with 1 000 replications finds p-values between 0.46 and 0.51 for Sharpe-ratio differentials, confirming that observed gaps are indistinguishable from noise at conventional significance levels. Overall, the evidence indicates that algorithmic ingenuity alone does not guarantee superior risk-adjusted returns in liquid equity markets. AI disclaimer: AI-based tools, particularly ChatGPT and Grammarly AI, were used during the research for language editing, project coding, and LaTeX formatting.
dc.description.abstract	Viimeaikaiset edistysaskeleet syvävahvistusoppimisen saralla (DRL) salkunhoidossa tarjoaa lupaavia menetelmiä, mutta niiden todellinen etu verrattuna yksinkertaisiin heuristisiin allokointisääntöi- hin on yhä epäselvä. Tämä pro gradu -tutkielma selvittää, kykenevätkö huipputason DRL- agentit päihittämään naivin mutta vaikeasti voitettavaksi tunnetun 1/N-strategian. Kolme al- goritmia: Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) ja Deep Determ- inistic Policy Gradient (DDPG) koulutetaan kohdentamaan pääomaa kymmeneen hyvin likvidiin yhdysvaltalaiseen suuryhtiöosakkeeseen useilta toimialoilta. Päivittäinen kokonaistuottodata ajalta tammikuu 2010 – joulukuu 2024 jaetaan kronologisesti: vuodet 2010–2019 muodostavat oppimisjakson, kun taas 2020–2024 toimii koskemattomana ulkoisen testauksen ajanjaksona, kattaen muun muassa COVID-19-shokin ja sitä seuranneet rakennemuutokset. Tutkimus tarjoaa tiukasti kontrolloidun, useita algoritmeja vertailevan asetelman, joka yhdistää realistiset kustannukset ja vankan tilastollisen analyysin. Salkunhoito mallinnetaan peräkkäis- enä Markovin päätösprosessina, jossa tilavektori koostaa viimeaikaiset hintaliikkeet, tekniset in- dikaattorit, rullaavat fundamentit ja makromuuttujat ja jossa toiminnot ovat jatkuvia pain- ovektoreita, joiden on täytettävä täysinvestoinnin ehto. Riskikorjattu palkkio sisältää 10 korkop- isteen transaktiokustannuspenaltin liiallisen vaihtuvuuden hillitsemiseksi. Hyperparametrit vir- itetään ruutuhakumenetelmällä, ja mallien kestävyys testataan useiden satunnaissiementen avulla. Ulkoisen testiaineiston tulokset osoittavat, ettei mikään DRL-agenteista saavuta tilastollisesti merkittävää parannusta tasapainottuvaan 1/N-strategiaan nähden. Vertailustrategia tuottaa 20,9 %:n yhdistetyn vuotuisen kasvuvauhdin ja korkeimman annualisoidun Sharpe-suhteen (1,075), niukasti DDPG:n (0,916), A2C:n (0,840) ja PPO:n (0,805) edellä. Ledoit–Wolfin syklinen lo- hkobootstrap (1 000 replikointia) antaa Sharpe-eroille p-arvot 0,46–0,51, mikä vahvistaa, että havaitut erot ovat perinteisin raja-arvoin erottamattomia satunnaisvaihtelusta. Tulokset viit- taavat siihen, että jopa kehittyneet DRL-mallit jäävät likvideillä osakemarkkinoilla yksinker- taisen, kustannustehokkaan 1/N-strategian varjoon. Tekoälyseloste: Tutkielman laatimisessa on hyödynnetty tekoälypohjaisia työkaluja, erityisesti ChatGPT:tä ja Grammarly AI:ta, kielenhuoltoon, projektikoodin tuottamiseen ja LaTeX-muotoiluun.
dc.format.extent	70
dc.identifier.olddbid	211221
dc.identifier.oldhandle	10024/194244
dc.identifier.uri	https://www.utupub.fi/handle/11111/10363
dc.identifier.urn	URN:NBN:fi-fe2025092698428
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/194244
dc.subject	Reinforcement learning, Stock markets, Portfolio management
dc.title	AI-Driven Portfolio Management: A Comparative Research of Deep Reinforcement Learning Techniques Against The 1/N Portfolio Strategy
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: MasterThesisJoniAarnio.pdf
Size:: 2.61 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)