ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

thesis.pdf
840.23 KB
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset196

Verkkojulkaisu

DOI

Tiivistelmä

Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol- lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär- jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo- kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus- katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki- taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei- simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi- den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres- siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes- telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi. Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh- tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes- telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi- luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky- järjestelmien suorituskyky sekä muistinhallintaongelmat.

item.page.okmtext