Bayesian and Bootstrap Methods for Estimating Population Attributable Risk: Development of an R Package for Epidemiological Inference
Saari, Peppi-Lotta (2025-06-09)
Bayesian and Bootstrap Methods for Estimating Population Attributable Risk: Development of an R Package for Epidemiological Inference
Saari, Peppi-Lotta
(09.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061669711
https://urn.fi/URN:NBN:fi-fe2025061669711
Tiivistelmä
This thesis explores the calculation of Population Attributable Risk (PAR) and Population Attributable Fraction (PAF), focusing on constructing confidence intervals using both Bayesian and Bootstrap methods. The result is an R package designed for usability, enabling users to compute PAR and PAF from 2x2 contingency tables and construct confidence intervals using either a fully Bayesian approach, as described by Pirikahu et al., or a Bootstrap method.
Comparative evaluations show that while Bootstrap generally produces shorter intervals, its performance diminishes in cases of low or high exposure rates or small sample sizes—conditions where the Bayesian method demonstrates more consistent coverage. The package also includes functionality for adjusted PAR calculations, offering a pathway toward more complex exposure scenarios.
This thesis emphasizes the importance of transparency, reproducibility, and methodological choice in statistical software development. It also highlights the challenges posed by restricted access to scientific literature and limited ongoing maintenance of statistical packages, advocating for more open and sustainable approaches in research tool development. Tässä opinnäytetyössä tarkastellaan väestön riskin (Population Attributable Risk, PAR) ja riskiosuuden (Population Attributable Fraction, PAF) laskemista. Pääpaino on luottamusvälien muodostamisessa käyttäen sekä Bayesilaista että Bootstrap-menetelmää. Työn tuloksena on käytettävyyteen keskittyvä R-paketti, jonka avulla käyttäjät voivat laskea PAR- ja PAF-arvoja 2x2-kontingenssitauluista ja muodostaa niille luottamusvälit joko täysin Bayesilaisen lähestymistavan (Pirikahu et al.) tai Bootstrap-menetelmän avulla.
Menetelmien vertailu osoittaa, että vaikka Bootstrap tuottaa yleensä lyhyempiä luottamusvälejä, sen suorituskyky heikkenee tilanteissa, joissa altistumisaste on matala tai korkea tai otoskoko pieni. Näissä olosuhteissa Bayesilainen menetelmä tarjoaa tasaisemman kattavuuden. Pakettiin sisältyy myös alustava toiminnallisuus säädetyn väestön riskin laskemiseksi, tarjoten mahdollisuuden siirtyä monimutkaisempiin altistumisskenaarioihin.
Opinnäytetyö korostaa läpinäkyvyyden, toistettavuuden ja menetelmällisen valinnan merkitystä tilastollisen ohjelmistokehityksen kontekstissa. Lisäksi työ tuo esiin haasteita, joita tieteellisen kirjallisuuden rajoitettu saatavuus ja tilastopohjaisten ohjelmistopakettien vähäinen ylläpito aiheuttavat, ja puolustaa avoimempia ja kestävämpiä ratkaisuja tutkimustyökalujen kehittämisessä.
Comparative evaluations show that while Bootstrap generally produces shorter intervals, its performance diminishes in cases of low or high exposure rates or small sample sizes—conditions where the Bayesian method demonstrates more consistent coverage. The package also includes functionality for adjusted PAR calculations, offering a pathway toward more complex exposure scenarios.
This thesis emphasizes the importance of transparency, reproducibility, and methodological choice in statistical software development. It also highlights the challenges posed by restricted access to scientific literature and limited ongoing maintenance of statistical packages, advocating for more open and sustainable approaches in research tool development.
Menetelmien vertailu osoittaa, että vaikka Bootstrap tuottaa yleensä lyhyempiä luottamusvälejä, sen suorituskyky heikkenee tilanteissa, joissa altistumisaste on matala tai korkea tai otoskoko pieni. Näissä olosuhteissa Bayesilainen menetelmä tarjoaa tasaisemman kattavuuden. Pakettiin sisältyy myös alustava toiminnallisuus säädetyn väestön riskin laskemiseksi, tarjoten mahdollisuuden siirtyä monimutkaisempiin altistumisskenaarioihin.
Opinnäytetyö korostaa läpinäkyvyyden, toistettavuuden ja menetelmällisen valinnan merkitystä tilastollisen ohjelmistokehityksen kontekstissa. Lisäksi työ tuo esiin haasteita, joita tieteellisen kirjallisuuden rajoitettu saatavuus ja tilastopohjaisten ohjelmistopakettien vähäinen ylläpito aiheuttavat, ja puolustaa avoimempia ja kestävämpiä ratkaisuja tutkimustyökalujen kehittämisessä.