Anonymisointimenetelmiä henkilötietoa sisältävälle rivitason tiedolle
98.94 MB
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset136
Pysyvä osoite
Verkkojulkaisu
DOI
Tiivistelmä
Euroopan Unionin yleinen tietosuoja-asetus ja Suomen laki sosiaali- ja terveystietojen toissijaisesta käytöstä säätelevät henkilötietoa sisältävän tiedon toissijaista käyttöä Suomessa. Jos henkilötieto anonymisoidaan, ei siihen sovelleta enää tietosuoja-asetusta tai toisiolakia; anonyymiä tietoa ei lueta henkilötiedoksi, jolloin sen käyttö on vapaampaa. Anonymisoinnin tarkoituksena on muuttaa tieto muotoon, jossa havaintoyksiköihin ei kohdistu paljastumisen riskiä. Anonymisointi kuitenkin heikentää tiedon käytettävyyttä, eli kykyä tehdä sillä tilastollista päättelyä, joka olisi yhtenevää alkuperäisellä tiedolla tehtyyn päättelyyn.
Tässä tutkielmassa tarkastellaan viittä rivitason tiedon anonymisointimenetelmää: k-anonymiteettiä, l-diversiteettiä, spektraalista kohinaa, spektraalista sarakepermutaatiota ja kryptografista RSA-menetelmää. Menetelmiä tarkastellaan niiden tuottamien aineistojen yksityisyydensuojan, käytettävyyden ja samankaltaisuuden perusteella.
Spektraalinen sarakepermutaatio tuotti yksityisyydensuojaltaan ja samankaltaisuudeltaan parhaat aineistot. Oikeilla parametrivalinnoilla, k-anonymiteetti ja l-diversiteetti tuottivat käytettävyydeltään parhaat aineistot. RSA:lla salattujen aineistojen käytettävyys ja samankaltaisuus olivat huonoja, eikä niiden yksityisyydensuojaa voitu arvioida tutkielman empiirisillä menetelmillä.