ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

Heinonen, Henrik

ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä

dc.contributor.author	Heinonen, Henrik
dc.contributor.department	fi=Tietotekniikan laitos\|en=Department of Computing\|
dc.contributor.faculty	fi=Teknillinen tiedekunta\|en=Faculty of Technology\|
dc.contributor.studysubject	fi=Tietojenkäsittelytieteet\|en=Computer Science\|
dc.date.accessioned	2024-06-06T21:31:39Z
dc.date.available	2024-06-06T21:31:39Z
dc.date.issued	2024-05-27
dc.description.abstract	Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol- lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär- jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo- kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus- katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki- taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei- simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi- den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres- siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes- telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi. Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh- tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes- telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi- luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky- järjestelmien suorituskyky sekä muistinhallintaongelmat.
dc.format.extent	24
dc.identifier.olddbid	195064
dc.identifier.oldhandle	10024/178118
dc.identifier.uri	https://www.utupub.fi/handle/11111/1966
dc.identifier.urn	URN:NBN:fi-fe2024060646337
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/178118
dc.subject	luonnollisen kielen käsittely, NLP, ICD-koodaus, koneoppiminen
dc.title	ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä
dc.type.ontasot	fi=Kandidaatintutkielma\|en=Bachelor's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: thesis.pdf
Size:: 840.23 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Kandidaatin tutkielmat (kokotekstit)