Reinforcement Learning Methods for Multi-Robot Systems

Kandidaatintutkielma
Ladataan...
suljettu
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset6

Verkkojulkaisu

DOI

Tiivistelmä

Reinforcement learning has become promising solution to many tasks that are hard to solve with conventional methods due to complex and dynamic environments. Reinforcement learning is based on agent trying actions and getting feedback from the environment. Multi-agent reinforcement learning (MARL) expands the potential of single-agent reinforcement learning methods to multi-robot system. In multi-agent settings, agents can interact with each other making learning more difficult. MARL application areas include for example mobile-robot fleets in warehouse logistics and UAV swarms for target search task. The thesis provides brief theoretical background of reinforcement learning and multi-robot systems. Literature review section shows, how different MARL methods achieve coordination and efficient navigation to complete different tasks. Key findings are that actor-critic algorithms are widely used and provide the best performance in comparison to other method categories in multi-agent settings. Main limitations of MARL methods are how they can keep the results as good when moving from simulations to real-world applications. In real-world, agent observations are not perfect but instead subject to noisy measurements. The problem formulation also is very important, and it consists of state and action spaces available to agent and the reward structure. Further studies should be conducted on how MARL methods can be implemented into real-world applications.
Vahvistusoppimisesta on tullut lupaava ratkaisu moniin tehtäviin, joita on vaikea ratkaista perinteisillä metodeilla ympäristön kompleksisuuden ja muuttuvuuden takia. Vahvistusoppiminen perustuu agentin toimien yrittämiseen ja siitä saatavaan palautteeseen ympäristöstä. Moniagenttinen vahvistusoppiminen laajentaa yksittäisagenttisten vahvistusoppimismetodien potentiaalia monirobottijärjestelmiin. Moniagenttisessa ympäristössä agentit voivat olla vuorovaikutuksessa toistensa kanssa tehden oppimisesta vaikeampaa. Moniagenttinen vahvistusoppimisen sovellusalueeseen kuuluu esimerkiksi mobiilirobotit tehdas logistiikassa ja miehittämättömien ilma-alus parvien kohdehakutehtävät. Tutkielma antaa lyhyen kuvauksen vahvistusoppimisen ja moni-robottijärjestelmien teoreettisesta taustasta. Kirjallisuuskatsaus osuus näyttää miten eri moniagentti vahvistusoppimismetodit saavuttavat koordinaatiota ja tehokasta navigointia eri tehtävien suorittamiseen. Tärkeimmät löydät ovat, että toimijakriitikko algoritmit ovat laajassa käytössä ja antavat parhaimman suorituskyvyn verrattuna muihin metodi kategorioihin moniagentti ympäristössä. Päärajoitus moniagenttisissa vahvistusoppimismetodeissa on se, että miten ne saavat pidettyä tulokset yhtä hyvinä, kun siirrytään simulaatioista todelliseen maailmaan. Todellisen maailman agentin havainnot eivät ole täydellisiä, mutta sen sijaan alttiita mittaushäiriöille. Tapa, jolla ongelma esitetään, on myös tärkeää ja se pitää sisällään tila- ja toiminta-avaruuden ja palkintorakenteen. Lisätutkimusta tarvitaan siitä, miten moniagentti vahvistusoppimismetodeja voidaan käyttää todellisen maailman sovelluksissa.

item.page.okmtext