Arkaluonteisten tietojen tunnistaminen  digitaalisesta arkistoaineistosta

Laulajainen, Juho

Arkaluonteisten tietojen tunnistaminen digitaalisesta arkistoaineistosta

dc.contributor.author	Laulajainen, Juho
dc.contributor.department	fi=Kieli- ja käännöstieteiden laitos\|en=School of Languages and Translation Studies\|
dc.contributor.faculty	fi=Humanistinen tiedekunta\|en=Faculty of Humanities\|
dc.contributor.studysubject	fi=Digitaalinen kielentutkimus\|en=Digital Language Studies\|
dc.date.accessioned	2025-06-13T21:05:00Z
dc.date.available	2025-06-13T21:05:00Z
dc.date.issued	2025-05-30
dc.description.abstract	Kansallisarkisto vastaa kansallisesti merkittävien asiakirjojen säilyttämisestä ja niiden käytön edistämisestä. Sen kokoelmat kuvaavat hallinnon, kansalaisyhteiskunnan ja yksilöiden toimintaa eri aikoina ja muodostavat perustan sekä tutkimukselle että yhteiskunnalliselle päätöksenteolle. Sen aineistoista merkittävä osa sisältää henkilötietoja tai erityisen henkilötietoryhmän tietoja, joita suojellaan tietosuojalainsäädännöllä. Tässä tutkielmassa selvitetään, voiko generatiivisilla kielimalleilla tunnistaa henkilötietoja tai erityisen henkilötietoryhmän tietoja suomenkielisestä digitaalisesta arkistoaineistosta. Tutkielman tavoitteena on tuottaa empiiristä tietoa tekoälyn käyttömahdollisuuksista arkistotoimessa sekä tukea käytännön arkistotyötä tehostavien työkalujen kehittämistä. Tutkielmassa käytetään seitsemää generatiivista decoder-only transformer -arkkitehtuuriin perustuvaa kielimallia, joita ajetaan paikallisesti Kansallisarkiston laitteistolla. Kielimallien suorituskykyä mitataan osuvuudella, tarkkuudella, kattavuudella, F1-arvolla ja macro F1-arvolla. Tutkielmassa käytettävä luokitteluaineisto sisältää dokumentteja Jahvetin kirjelaatikko -arkistosta sekä Kansallisarkiston antamista seulontapäätöksistä. Kokonaisuudessaan aineisto sisältää 300 digitaalista arkistoasiakirjasivua, jotka on annotoitu joko julkisiksi tai arkaluonteisiksi. Tutkielman keskeisin tutkimustulos on, että parhaimmillaan generatiiviset kielimallit voivat tunnistaa henkilötietoja ja erityisen henkilötietoryhmän tietoja digitaalisesta arkistoaineistosta erittäin hyvin. Paras tulos saavutettiin Qwen 3 32B -kielimallilla viiden esimerkkidokumentin few-shot-asetelmassa, jolloin F1-arvolla mitattuna sen suorituskyky oli 94,87 %.
dc.format.extent	54
dc.identifier.olddbid	199132
dc.identifier.oldhandle	10024/182170
dc.identifier.uri	https://www.utupub.fi/handle/11111/20283
dc.identifier.urn	URN:NBN:fi-fe2025061367942
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/182170
dc.subject	arkistot, tietosuoja, koneoppiminen, tekoäly, kielimallit, tekstiluokittelu
dc.title	Arkaluonteisten tietojen tunnistaminen digitaalisesta arkistoaineistosta
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: laulajainen_juho_opinnayte.pdf
Size:: 1.32 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)