Effects of curriculum learning on maze exploring DRL agent using Unity ML-Agents
Tervo, Aki (2022-06-07)
Effects of curriculum learning on maze exploring DRL agent using Unity ML-Agents
Tervo, Aki
(07.06.2022)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022060945209
https://urn.fi/URN:NBN:fi-fe2022060945209
Tiivistelmä
As the amount of studies on the usage of machine learning in video games has increased, few of these studies use curriculum learning. This thesis aims to show the benefits that curriculum learning, even in an unoptimized state, can provide to deep reinforcement learning when used with Unity ML-Agents toolkit. This thesis contains two case studies of machine learning agents going through a maze. Both of the case studies have two Agents: one which uses curriculum learning and one which does not. First case study has the Agents use their inbuilt Vector Sensor and in the second case study they use Raycast Perception Sensor. The data that is gathered from the case studies is from the training of two Agent types and the evaluation of the Agents. The results show that adding curriculum learning can increase the stability of training and improve the results of the evaluation. On the other hand, the training and evaluation results are unstable which makes getting definitive results impossible. Videopeleissä hyödynnettävää koneoppimista käsittelevien tutkimusten määrä on jatkanut kasvamista, mutta yhtä koneoppimisen osa-aluetta käytetään näissä tutkimuksissa harvoin: opetussuunnitelman mukaista oppimista. Tämän tutkielman tavoitteena on osoittaa opetussuunnitelman käytön hyötyä syvävahvistusoppimiseen Unity ML-Agents-työkalupakissa, vaikka kyseinen opetussuunnitelma ei ole optimoitu. Tässä tutkielmassa on kaksi tapaustutkimusta, joissa on kaksi koneoppimisagenttia. Näiden agenttien tehtävä on löytää maalialue sokkelosta. Toisella agentilla on opetussuunnitelma käytössä. Ensimmäisessä tapaustutkimuksessa agentit käyttävät ML-Agents-työkalupakin agenteille sisäänrakennettua sensoria nimeltään Vector Sensor ja toisessa tapaustutkimuksessa agentit käyttävät sensoria nimeltään Raycast Perception Sensor. Tapaustutkimuksissa data kerätään agenttien koulutuksesta ja evaluaatiosta. Kerätyt tulokset osoittavat, että opetussuunnitelman mukaisen oppimisen lisääminen voi parantaa agenttien koulutuksen vakautta ja evaluaatiossa saavutettuja tuloksia. Toisaalta molemmissa tapaustutkimuksissa agenttien koulutus on epävakaata, mikä tekee opetussuunnitelman mukaisen oppimisen hyötyjen tarkan määrittelyn mahdottomaksi.