ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik

ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik

2024-05-27

Kandidaatintutkielma

Tietojenkäsittelytieteet

thesis.pdf

840.23 KB

avoin

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Lataukset295

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe2024060646337

Tiivistelmä

Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol- lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär- jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo- kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus- katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki- taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei- simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi- den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres- siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes- telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi. Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh- tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes- telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi- luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky- järjestelmien suorituskyky sekä muistinhallintaongelmat.

Tietueen kaikki tiedot

ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Toimittaja(t)

Pysyvä osoite

Verkkojulkaisu

DOI

Tiivistelmä

item.page.okmtext