Bird's Eye View Perception Strategy for Indoor Autonomous Ground Vehicles Using Only Lidar
Lindgren, Luuka (2025-05-23)
Bird's Eye View Perception Strategy for Indoor Autonomous Ground Vehicles Using Only Lidar
Lindgren, Luuka
(23.05.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025060257398
https://urn.fi/URN:NBN:fi-fe2025060257398
Tiivistelmä
The rising popularity of Light Detection and Ranging (lidar) sensors in autonomous driving and robotics have sparked the interest of indoor usages. Previously these sensors were bulky and expensive, but recent technological advancements have broaden their applications. This thesis delves into bird's eye view (BEV) strategy utilization in autonomous ground vehicles (AGV), with a focus on lidar-only systems used indoors. With a help of conducted profound literature review, we aim to follow design science research methodology by creating artefacts relating to the topics.
Our contributions consists of three artefacts: a novel indoor lidar dataset, a BEV perception framework, and experiments and comparisons of these and existing systems. The point clouds for the dataset were collected from kitchen and lounge areas with a 360 degree lidar sensor, and the indoor objects of the chosen 520 frames were annotated by hand. Proposed dataset was formatted to closely follow KITTI datasets structure aiming to be easily adoptable to existing algorithms. The proposed BEV perception framework was conducted from MaskBEV algorithm by adapting it from outdoor vehicle detection to indoor object detection. Original code required multiple modifications, primarily due to our custom indoor object classes. Additionally, we trained a machine learning model with this modified MaskBEV using the custom dataset and conducted experiments and tests with it. Resulting in varying images that were used to conduct qualitative analysis, and compared with the results of model trained with the open-source dataset KITTI.
Even though our research results were not satisfactory in terms of reliability and accuracy of the perception framework, the research highlights the potential of utilizing BEV strategies with AGVs with minimal sensor setup. Our indoor dataset works as a prototype and a motivator for future works. By shifting the focus from outdoor to indoor, we try to broaden the scope of robotics and autonomous driving researches. Lidar-sensorien (Light Detecting and Ranging) nouseva suosio autonomisessa ajamisessa ja robotiikassa on herättänyt kiinnostusta niiden hyödyntämiseen sisätiloissa. Aiemmin nämä anturit ovat olleet kookkaita ja kalliita, mutta viimeaikainen teknologinen kehitys on laajentanut niiden käyttökohteita. Tämä diplomityö tarkastelee lintuperspektiivisen (Bird’s Eye View, BEV) strategian hyödyntämistä sisätiloissa toimivissa autonomisissa maa-ajoneuvoissa (Autonomous Ground Vehicle, AGV), joiden havaitseminen perustuu vain lidar-sensoreihin. Syvällisen kirjallisuuskatsauksen pohjalta noudatamme Design Science -tutkimusmetodologiaa luomalla aiheeseen liittyviä artefakteja.
Työn kontribuutiot koostuvat kolmesta artefaktista: uudesta lidar-tietoaineistosta, muokatusta BEV-algoritmista, sekä näiden ja olemassa olevien ratkaisujen kokeellisesta vertailusta. Tietoaineiston pistepilvet kerättiin keittiö- ja oleskelutiloista 360-asteen lidar-sensorilla, ja valittujen 520 ruudun sisätilojen objektit määriteltiin ja luokiteltiin käsin. Aineisto muotoiltiin mahdollisimman lähelle KITTI-tietoaineiston rakennetta, jotta se olisi helposti hyödynnettävissä olemassa olevissa algoritmeissa. Tuotettu BEV-kehys pohjautuu MaskBEV-algoritmiin, joka mukautettiin tunnistamaan sisätilan objekteja alkuperäisen ulkotilan objektien tunnistamisen sijasta. Alkuperäistä koodia muokattiin useassa kohdassa, pääsääntöisesti mukautettujen sisätilaobjektien takia. Lisäksi koulutimme koneoppimismallin tällä muokatulla MaskBEV-toteutuksella käyttäen luomaamme tietoaineistoa ja suoritimme kokeita sekä testejä. Tuloksen a saatiin erilaisia kuvia, joita hyödynnettiin laadulliseen analyysiin ja joita vertailtiin avoimen KITTI-tietoaineiston avulla koulutetun, alkuperäisen MaskBEV-mallin tuloksiin.
Vaikka kehittämämme algoritmimme luotettavuus ja tarkkuus eivät yltäneet toivottuun tasoon, tutkimus osoittaa BEV-strategian potentiaalin autonomisissa maa-ajoneuvoissa, joissa sensorien määrä pidetään minimissään. Laadittu sisätila-tietoaineisto toimii prototyyppinä ja kannustimena tuleville aihealueen tutkimuksille. Suuntaamalla huomion ulkotiloista sisätiloihin pyrimme laajentamaan robotiikan ja autonomisen ajamisen tutkimuskenttää.
Our contributions consists of three artefacts: a novel indoor lidar dataset, a BEV perception framework, and experiments and comparisons of these and existing systems. The point clouds for the dataset were collected from kitchen and lounge areas with a 360 degree lidar sensor, and the indoor objects of the chosen 520 frames were annotated by hand. Proposed dataset was formatted to closely follow KITTI datasets structure aiming to be easily adoptable to existing algorithms. The proposed BEV perception framework was conducted from MaskBEV algorithm by adapting it from outdoor vehicle detection to indoor object detection. Original code required multiple modifications, primarily due to our custom indoor object classes. Additionally, we trained a machine learning model with this modified MaskBEV using the custom dataset and conducted experiments and tests with it. Resulting in varying images that were used to conduct qualitative analysis, and compared with the results of model trained with the open-source dataset KITTI.
Even though our research results were not satisfactory in terms of reliability and accuracy of the perception framework, the research highlights the potential of utilizing BEV strategies with AGVs with minimal sensor setup. Our indoor dataset works as a prototype and a motivator for future works. By shifting the focus from outdoor to indoor, we try to broaden the scope of robotics and autonomous driving researches.
Työn kontribuutiot koostuvat kolmesta artefaktista: uudesta lidar-tietoaineistosta, muokatusta BEV-algoritmista, sekä näiden ja olemassa olevien ratkaisujen kokeellisesta vertailusta. Tietoaineiston pistepilvet kerättiin keittiö- ja oleskelutiloista 360-asteen lidar-sensorilla, ja valittujen 520 ruudun sisätilojen objektit määriteltiin ja luokiteltiin käsin. Aineisto muotoiltiin mahdollisimman lähelle KITTI-tietoaineiston rakennetta, jotta se olisi helposti hyödynnettävissä olemassa olevissa algoritmeissa. Tuotettu BEV-kehys pohjautuu MaskBEV-algoritmiin, joka mukautettiin tunnistamaan sisätilan objekteja alkuperäisen ulkotilan objektien tunnistamisen sijasta. Alkuperäistä koodia muokattiin useassa kohdassa, pääsääntöisesti mukautettujen sisätilaobjektien takia. Lisäksi koulutimme koneoppimismallin tällä muokatulla MaskBEV-toteutuksella käyttäen luomaamme tietoaineistoa ja suoritimme kokeita sekä testejä. Tuloksen a saatiin erilaisia kuvia, joita hyödynnettiin laadulliseen analyysiin ja joita vertailtiin avoimen KITTI-tietoaineiston avulla koulutetun, alkuperäisen MaskBEV-mallin tuloksiin.
Vaikka kehittämämme algoritmimme luotettavuus ja tarkkuus eivät yltäneet toivottuun tasoon, tutkimus osoittaa BEV-strategian potentiaalin autonomisissa maa-ajoneuvoissa, joissa sensorien määrä pidetään minimissään. Laadittu sisätila-tietoaineisto toimii prototyyppinä ja kannustimena tuleville aihealueen tutkimuksille. Suuntaamalla huomion ulkotiloista sisätiloihin pyrimme laajentamaan robotiikan ja autonomisen ajamisen tutkimuskenttää.