Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Generating Synthetic Longitudinal Patient Data with the PrivBayes Method

Perkonoja, Katariina (2020-12-16)

Generating Synthetic Longitudinal Patient Data with the PrivBayes Method

Perkonoja, Katariina
(16.12.2020)
Katso/Avaa
Perkonoja_Katariina_opinnayte.pdf (5.669Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe20201223102827
Tiivistelmä
In this thesis, the PrivBayes method is used to generate synthetic longitudinal patient data and the quality of the generated data is evaluated. In addition, this thesis briefly discusses the current situation of processing health data in Finland and proposes a simplistic definition of synthetic tabular data as well as presents different methods to evaluate the utility of generated synthetic data.

The PrivBayes method is based on approximating the association structure of a data set using a Bayesian network and generating synthetic data from the conditional distributions corresponding to the structure of the network. The method ensures the privacy of the data by applying differential privacy through the addition of noise in the data generation process in a specific way.

The method is applied to data collected from the database of Auria Clinical Informatics under permission number T152/2017. The data set consists of 2890 individual patients diagnosed with either type 1 or type 2 diabetes and seven different characteristics collected for each patient: age, body mass index, complications related to diabetes, gender, type of diabetes and two measurements for glycated hemoglobin that represent the repeated measurements in the data.

The PrivBayes method is evaluated by generating 27 different synthetic data sets, describing the structures of the Bayesian network of each data set and visually inspecting differences between the original data and each synthetic data set. Differences between data sets are considered in terms of similarity of univariate distributions, differences in Pearson’s sample correlation coefficients and sample Cramer’s V coefficients and the results of a linear mixed-effects model.

In conclusion, the PrivBayes method failed to produce synthetic longitudinal patient data of sufficient quality to be applicable as such in practice. However, this thesis revealed some shortcomings of the method and potential targets for further research and development.
 
Tässä pro gradu -tutkielmassa käytetään PrivBayes-menetelmää synteettisen potilasseuranta- aineiston tuottamiseksi ja arvioidaan tuotetun aineiston laatua. Tämän lisäksi tutkielmassa kerrotaan lyhyesti terveystietojen käsittelyn nykytilanteesta Suomessa, minkä lisäksi ehdotetaan yksinkertaista määritelmää synteettiselle taulukkomuotoiselle aineistolle sekä esitellään menetelmiä tuotetun synteettisen aineiston käytettävyyden arvioimiseksi.

PrivBayes-menetelmä perustuu aineistossa esiintyvien assosiaatiorakenteiden mallintamiseen Bayes-verkon avulla ja synteettisen aineiston tuottamiseen ehdollisista jakaumista, jotka vastaavat verkon rakennetta. Menetelmä varmistaa aineiston tietosuojan soveltamalla differentiaalista yksityisyyttä, jossa aineiston tuotantoprosessiin lisätään tietyn tyyppistä kohinaa.

Menetelmää sovelletaan aineistoon, joka on kerätty Auria Tietopalveluiden tietokannasta tietolupanumerolla T152/2017. Aineisto koostuu 2890 yksittäisestä potilaasta, joilla on diagnosoitu joko tyypin 1 tai 2 diabetes, ja seitsemästä eri potilaita kuvaavasta muuttujasta: iästä, painoindeksistä, diabetekseen liittyvistä komplikaatiosta, sukupuolesta, diabeteksen tyypistä sekä kahdesta glykatoituneen hemoglobiinin mittauksesta, jotka edustavat seurantamittauksia aineistossa.

PrivBayes-menetelmää arvioidaan luomalla 27 erilaista synteettistä aineistoa, kuvailemalla kutakin aineistoa vastaava Bayes-verkon rakenne sekä arvioimalla visuaalisesti alkuperäisen aineiston ja synteettisen aineiston välisiä eroja yksiulotteisissa jakaumissa, Pearsonin otoskorrelaatio- ja Cramerin V-kertoimissa sekä lineaarisen sekamallin tuloksissa.

Tutkielman johtopäätöksenä voidaan todeta, että PrivBayes-menetelmä ei kyennyt tuottamaan riittävän laadukasta synteettistä potilasseuranta-aineistoa, jota voitaisiin sellaisenaan soveltaa käytännössä. Tutkielma kuitenkin paljasti joitakin menetelmän puutteita sekä mahdollisia kohteita jatkotutkimukselle ja -kehitykselle.
 
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit) [9076]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste