Application of the REINFORCE Algorithm in Real-Time Inverted Pendulum Control

Paldanius, Kimmo

Application of the REINFORCE Algorithm in Real-Time Inverted Pendulum Control

dc.contributor.author	Paldanius, Kimmo
dc.contributor.department	fi=Kone- ja materiaalitekniikan laitos\|en=Department of Mechanical and Materials Engineering\|
dc.contributor.faculty	fi=Teknillinen tiedekunta\|en=Faculty of Technology\|
dc.contributor.studysubject	fi=Konetekniikka\|en=Mechanical Engineering\|
dc.date.accessioned	2026-07-04T19:31:24Z
dc.date.issued	2026-07-02
dc.description.abstract	This thesis investigates the application of the REINFORCE policy-gradient algorithm to upright stabilization of the Quanser Qube-Servo 2 rotary inverted pendulum. Since the balancing task is approximately linear near the upright equilibrium, classical PD control already provides an effective solution. The aim is therefore not to show that REINFORCE outperforms classical control, but to examine whether a simple model-free reinforcement learning method can learn a local balancing policy, how the resulting controller compares with a PD reference controller, and how it behaves outside the training simulator. A Gym-compatible simulation environment was developed for the Furuta pendulum and used as the training environment. A continuous-action Gaussian policy was trained using a Monte Carlo REINFORCE update without a value-function baseline or critic network. The policy receives a compact two-dimensional feature representation formed from the arm and pendulum angles and angular velocities, and outputs the mean control action and state-dependent standard deviation. A simple survival reward encourages the policy to maximize balancing time. Both the learned policy and the PD reference controller were evaluated in the custom simulation, the Quanser virtual environment, and on the physical Qube-Servo 2 hardware. The results show that REINFORCE learns a local stabilizing policy that works in the virtual environment and on the physical device without retraining. Settled-state angular precision was broadly comparable to that of the PD controller, but the learned controller used a more active voltage signal and was less consistently reliable. The work demonstrates the feasibility of REINFORCE for this real-time control task while highlighting its sensitivity to task formulation and the limitations of transferring from simulation to the physical device.
dc.description.abstract	Tässä diplomityössä tutkitaan, voidaanko REINFORCE-vahvistusoppimisalgoritmia hyödyntää Quanser Qube-Servo 2 -pyörivän käänteisheilurin pystyasennon tasapainottamiseen. Koska tasapainotustehtävä on likimain lineaarinen pystyasennon tasapainopisteen lähellä, klassinen PD-säätö tarjoaa siihen jo tehokkaan ratkaisun. Työn tavoitteena ei siten ole osoittaa REINFORCE-algoritmin paremmuutta klassiseen säätöön nähden, vaan selvittää, voiko yksinkertainen mallivapaa vahvistusoppimismenetelmä oppia paikalliseen tasapainotukseen soveltuvan ohjauspolitiikan. Lisäksi työssä tarkastellaan, miten opittu säädin vertautuu PD-vertailusäätimeen ja miten se toimii koulutussimulaattorin ulkopuolella. Työtä varten kehitettiin Gym-yhteensopiva simulaatioympäristö pyörivälle käänteisheilurille. Säädin toteutettiin jatkuva-arvoisena stokastisena ohjauspoliti-ikkana, jossa ohjaustoiminto kuvataan gaussisen todennäköisyysjakauman avulla. Ohjauspolitiikka koulutettiin Monte Carlo -REINFORCE-päivityksellä ilman arvofunktioon perustuvaa vertailutasoa tai kriitikkoverkkoa. Ohjauspolitiikka saa syötteenään kaksi piirrettä, jotka muodostetaan varren ja heilurin kulmista sekä kulmanopeuksista, ja tuottaa ohjaustoiminnon keskiarvon sekä tilasta riippuvan keskihajonnan. Yksinkertainen tasapainossa pysymiseen perustuva palkkio ohjaa oppimista kohti mahdollisimman pitkää tasapainotusaikaa. Opittua säädintä ja PD-vertailusäädintä arvioitiin tätä työtä varten kehitetyssä simulaatioympäristössä, Quanserin virtuaaliympäristössä sekä fyysisellä Qube-Servo 2 -laitteella. Tulokset osoittavat, että REINFORCE oppii paikalliseen stabilointiin soveltuvan ohjauspolitiikan, joka toimii virtuaaliympäristössä ja fyysisellä laitteella ilman uudelleenkoulutusta. Vakiintuneessa tilassa kulmatarkkuus oli verrattavissa PD-säätimeen, mutta opitun säätimen ohjausjännite vaihteli enemmän ja sen toimintavarmuus oli heikompi. Työ osoittaa, että REINFORCE-algoritmia voidaan soveltaa tähän reaaliaikaiseen säätötehtävään, mutta tuo samalla esiin menetelmän herkkyyden oppimistehtävän määrittelylle sekä simulaatiosta fyysiselle laitteelle siirrettävyyden rajoitteet.
dc.format.extent	62
dc.identifier.uri	https://www.utupub.fi/handle/11111/62715
dc.identifier.urn	URN:NBN:fi-fe20260703109406
dc.language.iso	eng
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.subject	reinforcement learning
dc.subject	REINFORCE
dc.subject	policy gradient
dc.subject	inverted pendulum
dc.subject	Furuta pendulum
dc.subject	sim-to-real transfer
dc.subject	vahvistusoppiminen
dc.subject	politiikkagradientti
dc.subject	kään-teisheiluri
dc.subject	Furuta-heiluri
dc.subject	siirtyminen simulaatiosta todellisuuteen
dc.title	Application of the REINFORCE Algorithm in Real-Time Inverted Pendulum Control
dc.type.ontasot	fi=Diplomityö\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: Paldanius_Kimmo_Thesis.pdf
Size:: 820.12 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)