ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik

ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik (2024-05-27)

ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik

(27.05.2024)

Katso/Avaa

thesis.pdf (840.2Kb)

Lataukset:

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

avoin

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024060646337

Tiivistelmä

Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi
asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol-
lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on
käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär-
jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo-
kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus-
katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki-
taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei-
simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä
tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi-
den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres-
siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes-
telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi.
Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh-
tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes-
telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia
useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi-
luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky-
järjestelmien suorituskyky sekä muistinhallintaongelmat.

Kokoelmat

Kandidaatin tutkielmat (kokotekstit) [2136]