Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Arkaluonteisten tietojen tunnistaminen digitaalisesta arkistoaineistosta

Laulajainen, Juho (2025-05-30)

Arkaluonteisten tietojen tunnistaminen digitaalisesta arkistoaineistosta

Laulajainen, Juho
(30.05.2025)
Katso/Avaa
laulajainen_juho_opinnayte.pdf (1.315Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061367942
Tiivistelmä
Kansallisarkisto vastaa kansallisesti merkittävien asiakirjojen säilyttämisestä ja niiden käytön edistämisestä. Sen kokoelmat kuvaavat hallinnon, kansalaisyhteiskunnan ja yksilöiden toimintaa eri aikoina ja muodostavat perustan sekä tutkimukselle että yhteiskunnalliselle päätöksenteolle. Sen aineistoista merkittävä osa sisältää henkilötietoja tai erityisen henkilötietoryhmän tietoja, joita suojellaan tietosuojalainsäädännöllä.

Tässä tutkielmassa selvitetään, voiko generatiivisilla kielimalleilla tunnistaa henkilötietoja tai erityisen henkilötietoryhmän tietoja suomenkielisestä digitaalisesta arkistoaineistosta. Tutkielman tavoitteena on tuottaa empiiristä tietoa tekoälyn käyttömahdollisuuksista arkistotoimessa sekä tukea käytännön arkistotyötä tehostavien työkalujen kehittämistä.

Tutkielmassa käytetään seitsemää generatiivista decoder-only transformer -arkkitehtuuriin perustuvaa kielimallia, joita ajetaan paikallisesti Kansallisarkiston laitteistolla. Kielimallien suorituskykyä mitataan osuvuudella, tarkkuudella, kattavuudella, F1-arvolla ja macro F1-arvolla. Tutkielmassa käytettävä luokitteluaineisto sisältää dokumentteja Jahvetin kirjelaatikko -arkistosta sekä Kansallisarkiston antamista seulontapäätöksistä. Kokonaisuudessaan aineisto sisältää 300 digitaalista arkistoasiakirjasivua, jotka on annotoitu joko julkisiksi tai arkaluonteisiksi.

Tutkielman keskeisin tutkimustulos on, että parhaimmillaan generatiiviset kielimallit voivat tunnistaa henkilötietoja ja erityisen henkilötietoryhmän tietoja digitaalisesta arkistoaineistosta erittäin hyvin. Paras tulos saavutettiin Qwen 3 32B -kielimallilla viiden esimerkkidokumentin few-shot-asetelmassa, jolloin F1-arvolla mitattuna sen suorituskyky oli 94,87 %.
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit) [9570]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste