Ohjaamaton anomalioiden tunnistus linja-autovuorojen ajotiedoista

Pro gradu -tutkielma
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset299

Verkkojulkaisu

DOI

Tiivistelmä

Työn tarkoituksena on tutustua ohjaamattomiin anomaliantunnistusmenetelmiin ensin kirjallisuudesta ja sitten käyttäen kerättyä soveltuvaa aineistoa. Aineisto kerätään Helsingin Seudun Liikenteen (HSL) MQTT-rajapinnasta ja aineisto koostuu linja-autolinjan numero 20 reitistä ja noin 2000 vuorosta. Koska kerätty aineisto on raakadataa suoraan HSL:n API:sta, työhön oleellisena osana kuuluu myös aineiston käsittely sopivaan muotoon. Aineisto tiivistetään, esisuodatetaan ja kootaan soveltuvaksi rakenteeksi. Menetelmät, joita sovelletaan ovat Z-score, Mahalanobiksen etäisyys, K-means, lähinaapurimenetelmä, hierarkkinen klusterointi, DBSCAN ja LOF. Kaikista käydään teoriaa soveltuvissa määrin läpi, jonka jälkeen jokaista käytetään työn aineistoon käytännössä. Näistä syntyy mallijoukko (ensemble), joka löytää aineistosta anomaliavuoroja.

item.page.okmtext