Vahvistusoppimisen käyttö kaupankäyntialgoritmeissa ja näiden testaus
Vepsäläinen, Sisu (2025-06-23)
Vahvistusoppimisen käyttö kaupankäyntialgoritmeissa ja näiden testaus
Vepsäläinen, Sisu
(23.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025062674540
https://urn.fi/URN:NBN:fi-fe2025062674540
Tiivistelmä
Tutkielmassa tutkitaan algoritmista osakekaupankäyntiä, joka on laajasti käytetty menetelmä rahoitusalalla. Algoritmisella osakekaupankäynnillä pyritään maksimoimaan tuotot ja minimoimaan riskit. Tutkielmassa selvitetään, miten algoritminen kaupankäynti eroaa ihmisen tekemästä osakekaupankäynnistä.
Tutkielmassa selvitetään eri vahvistusoppimismenetelmien hyödyntämistä osakekaupankäynnissä sekä testaamista ja mittareita. Vahvistusoppimisen perusperiaatteet käydään läpi, ja tutustutaan keskeisiin menetelmiin. Näitä ovat Soft Actor-Critic (SAC), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Advantage Actor-Critic (A2C) ja Q-oppiminen. Näiden toimintaa ja soveltuvuutta osakekaupankäyntiin tarkastellaan.
Tulosten perusteella vahvistusoppimista voidaan hyödyntää osakekaupankäynnissä kouluttamaan agentteja, jotka toimivat portfolion optimoinnissa, kaupankäynnissä, toimeksiantojen toteutuksessa sekä yhdistelmästrategiassa. Testauksessa voidaan käyttää toteumatestausta ja eri mittareita, kuten Sharpe-lukua, joilla voidaan mitata eri tavalla agentin toimivuutta. Mittareiden avulla voidaan testata agentin eri ominaisuuksia esimerkiksi volatiliteettia tai maksimilaskua. Toteumatestauksessa agentteja voidaan testata ilman pelkoa rahan menettämisestä.
Tutkielmassa selvitetään eri vahvistusoppimismenetelmien hyödyntämistä osakekaupankäynnissä sekä testaamista ja mittareita. Vahvistusoppimisen perusperiaatteet käydään läpi, ja tutustutaan keskeisiin menetelmiin. Näitä ovat Soft Actor-Critic (SAC), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Advantage Actor-Critic (A2C) ja Q-oppiminen. Näiden toimintaa ja soveltuvuutta osakekaupankäyntiin tarkastellaan.
Tulosten perusteella vahvistusoppimista voidaan hyödyntää osakekaupankäynnissä kouluttamaan agentteja, jotka toimivat portfolion optimoinnissa, kaupankäynnissä, toimeksiantojen toteutuksessa sekä yhdistelmästrategiassa. Testauksessa voidaan käyttää toteumatestausta ja eri mittareita, kuten Sharpe-lukua, joilla voidaan mitata eri tavalla agentin toimivuutta. Mittareiden avulla voidaan testata agentin eri ominaisuuksia esimerkiksi volatiliteettia tai maksimilaskua. Toteumatestauksessa agentteja voidaan testata ilman pelkoa rahan menettämisestä.