From Latent Topics to Causal Structures in Occupational Safety Data

dc.contributor.authorHietamäki, Santtu
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2026-05-20T19:31:42Z
dc.date.issued2026-05-13
dc.description.abstractLarge amounts of occupational safety data involving natural language are collected every day. These data are often underutilized and preventive accident analysis is usually limited to more traditional statistical methods. The goal of this research is to find applications for the data using natural language processing methods. The thesis approaches this by asking whether incident topics can be identified from these data and whether these topics can be used for causal discovery. This study used occupational safety data from Sofor's TAVA safety system and proposed a potential method for causal discovery. Written incident reports were grouped with topic modeling using BERTopic. Aggregated time series for each topic were formed by counting incidents for each week. The time series were then compared with each other to identify potentially causally related topics. This was done using Granger causality and the PCMCI algorithm. Using LLM evaluation, the incidents were correctly grouped into topics around 60\% of the time. From these incident topics, several potential causal links were found with PCMCI. These results suggest that it is feasible to develop a preliminary model for identifying patterns related to possible incident causes.
dc.description.abstractSuuria määriä luonnollista kieltä sisältävää työturvallisuusdataa kerätään päivittäin. Tätä dataa hyödynnetään usein puutteellisesti, ja ennaltaehkäisevä onnettomuusanalyysi rajoittuu tavallisesti perinteisempiin tilastollisiin menetelmiin. Tämän tutkimuksen tavoitteena on löytää datalle uusia käyttötapoja luonnollisen kielen käsittelyn menetelmien avulla. Tutkielmassa tätä lähestytään kysymällä, voidaanko tästä datasta tunnistaa työturvallisuusaiheita ja voidaanko näitä aiheita käyttää kausaalisuhteiden tunnistamiseen. Tutkimuksessa hyödynnettiin Soforin TAVA-turvallisuusjärjestelmän työturvallisuusdataa ja ehdotettiin menetelmää kausaalianalyysiin. Kirjalliset työturvallisuustapahtumaraportit ryhmiteltiin aiheisiin BERTopic-topiikkimallinnuksen avulla. Jokaiselle aiheelle muodostettiin aggregoitu aikasarja laskemalla tapahtumien määrä viikoittain. Näitä aikasarjoja verrattiin tämän jälkeen keskenään, jotta voitiin tunnistaa mahdollisesti kausaalisesti toisiinsa liittyviä aiheita. Tämä tehtiin Granger-kausaalisuuden ja PCMCI-algoritmin avulla. LLM-arvioinnin perusteella tapahtumat ryhmiteltiin oikeisiin aiheisiin noin 60 \% ajasta. Näistä tapahtuma-aiheista PCMCI löysi useita mahdollisia kausaalisia yhteyksiä. Tulokset viittaavat siihen, että on mahdollista kehittää alustava malli onnettomuuksien mahdollisiin syihin liittyvien rakenteiden tunnistamiseen.
dc.format.extent56
dc.identifier.urihttps://www.utupub.fi/handle/11111/60951
dc.identifier.urnURN:NBN:fi-fe2026052050244
dc.language.isoeng
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.subjectoccupational safety
dc.subjectincident reports
dc.subjecttopic modeling
dc.subjectBERTopic
dc.subjectcausal discovery
dc.subjectPCMCI
dc.titleFrom Latent Topics to Causal Structures in Occupational Safety Data
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Hietamaki_Santtu_opinnayte.pdf
Size:
1.37 MB
Format:
Adobe Portable Document Format