ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

dc.contributor.authorHeinonen, Henrik
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2024-06-06T21:31:39Z
dc.date.available2024-06-06T21:31:39Z
dc.date.issued2024-05-27
dc.description.abstractTerveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol- lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär- jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo- kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus- katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki- taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei- simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi- den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres- siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes- telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi. Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh- tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes- telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi- luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky- järjestelmien suorituskyky sekä muistinhallintaongelmat.
dc.format.extent24
dc.identifier.olddbid195064
dc.identifier.oldhandle10024/178118
dc.identifier.urihttps://www.utupub.fi/handle/11111/1966
dc.identifier.urnURN:NBN:fi-fe2024060646337
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/178118
dc.subjectluonnollisen kielen käsittely, NLP, ICD-koodaus, koneoppiminen
dc.titleICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä
dc.type.ontasotfi=Kandidaatintutkielma|en=Bachelor's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
thesis.pdf
Size:
840.23 KB
Format:
Adobe Portable Document Format