Application of the REINFORCE Algorithm in Real-Time Inverted Pendulum Control

dc.contributor.authorPaldanius, Kimmo
dc.contributor.departmentfi=Kone- ja materiaalitekniikan laitos|en=Department of Mechanical and Materials Engineering|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Konetekniikka|en=Mechanical Engineering|
dc.date.accessioned2026-07-04T19:31:24Z
dc.date.issued2026-07-02
dc.description.abstractThis thesis investigates the application of the REINFORCE policy-gradient algorithm to upright stabilization of the Quanser Qube-Servo 2 rotary inverted pendulum. Since the balancing task is approximately linear near the upright equilibrium, classical PD control already provides an effective solution. The aim is therefore not to show that REINFORCE outperforms classical control, but to examine whether a simple model-free reinforcement learning method can learn a local balancing policy, how the resulting controller compares with a PD reference controller, and how it behaves outside the training simulator. A Gym-compatible simulation environment was developed for the Furuta pendulum and used as the training environment. A continuous-action Gaussian policy was trained using a Monte Carlo REINFORCE update without a value-function baseline or critic network. The policy receives a compact two-dimensional feature representation formed from the arm and pendulum angles and angular velocities, and outputs the mean control action and state-dependent standard deviation. A simple survival reward encourages the policy to maximize balancing time. Both the learned policy and the PD reference controller were evaluated in the custom simulation, the Quanser virtual environment, and on the physical Qube-Servo 2 hardware. The results show that REINFORCE learns a local stabilizing policy that works in the virtual environment and on the physical device without retraining. Settled-state angular precision was broadly comparable to that of the PD controller, but the learned controller used a more active voltage signal and was less consistently reliable. The work demonstrates the feasibility of REINFORCE for this real-time control task while highlighting its sensitivity to task formulation and the limitations of transferring from simulation to the physical device.
dc.description.abstractTässä diplomityössä tutkitaan, voidaanko REINFORCE-vahvistusoppimisalgoritmia hyödyntää Quanser Qube-Servo 2 -pyörivän käänteisheilurin pystyasennon tasapainottamiseen. Koska tasapainotustehtävä on likimain lineaarinen pystyasennon tasapainopisteen lähellä, klassinen PD-säätö tarjoaa siihen jo tehokkaan ratkaisun. Työn tavoitteena ei siten ole osoittaa REINFORCE-algoritmin paremmuutta klassiseen säätöön nähden, vaan selvittää, voiko yksinkertainen mallivapaa vahvistusoppimismenetelmä oppia paikalliseen tasapainotukseen soveltuvan ohjauspolitiikan. Lisäksi työssä tarkastellaan, miten opittu säädin vertautuu PD-vertailusäätimeen ja miten se toimii koulutussimulaattorin ulkopuolella. Työtä varten kehitettiin Gym-yhteensopiva simulaatioympäristö pyörivälle käänteisheilurille. Säädin toteutettiin jatkuva-arvoisena stokastisena ohjauspoliti-ikkana, jossa ohjaustoiminto kuvataan gaussisen todennäköisyysjakauman avulla. Ohjauspolitiikka koulutettiin Monte Carlo -REINFORCE-päivityksellä ilman arvofunktioon perustuvaa vertailutasoa tai kriitikkoverkkoa. Ohjauspolitiikka saa syötteenään kaksi piirrettä, jotka muodostetaan varren ja heilurin kulmista sekä kulmanopeuksista, ja tuottaa ohjaustoiminnon keskiarvon sekä tilasta riippuvan keskihajonnan. Yksinkertainen tasapainossa pysymiseen perustuva palkkio ohjaa oppimista kohti mahdollisimman pitkää tasapainotusaikaa. Opittua säädintä ja PD-vertailusäädintä arvioitiin tätä työtä varten kehitetyssä simulaatioympäristössä, Quanserin virtuaaliympäristössä sekä fyysisellä Qube-Servo 2 -laitteella. Tulokset osoittavat, että REINFORCE oppii paikalliseen stabilointiin soveltuvan ohjauspolitiikan, joka toimii virtuaaliympäristössä ja fyysisellä laitteella ilman uudelleenkoulutusta. Vakiintuneessa tilassa kulmatarkkuus oli verrattavissa PD-säätimeen, mutta opitun säätimen ohjausjännite vaihteli enemmän ja sen toimintavarmuus oli heikompi. Työ osoittaa, että REINFORCE-algoritmia voidaan soveltaa tähän reaaliaikaiseen säätötehtävään, mutta tuo samalla esiin menetelmän herkkyyden oppimistehtävän määrittelylle sekä simulaatiosta fyysiselle laitteelle siirrettävyyden rajoitteet.
dc.format.extent62
dc.identifier.urihttps://www.utupub.fi/handle/11111/62715
dc.identifier.urnURN:NBN:fi-fe20260703109406
dc.language.isoeng
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.subjectreinforcement learning
dc.subjectREINFORCE
dc.subjectpolicy gradient
dc.subjectinverted pendulum
dc.subjectFuruta pendulum
dc.subjectsim-to-real transfer
dc.subjectvahvistusoppiminen
dc.subjectpolitiikkagradientti
dc.subjectkään-teisheiluri
dc.subjectFuruta-heiluri
dc.subjectsiirtyminen simulaatiosta todellisuuteen
dc.titleApplication of the REINFORCE Algorithm in Real-Time Inverted Pendulum Control
dc.type.ontasotfi=Diplomityö|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Paldanius_Kimmo_Thesis.pdf
Size:
820.12 KB
Format:
Adobe Portable Document Format