ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä
| dc.contributor.author | Heinonen, Henrik | |
| dc.contributor.department | fi=Tietotekniikan laitos|en=Department of Computing| | |
| dc.contributor.faculty | fi=Teknillinen tiedekunta|en=Faculty of Technology| | |
| dc.contributor.studysubject | fi=Tietojenkäsittelytieteet|en=Computer Science| | |
| dc.date.accessioned | 2024-06-06T21:31:39Z | |
| dc.date.available | 2024-06-06T21:31:39Z | |
| dc.date.issued | 2024-05-27 | |
| dc.description.abstract | Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol- lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär- jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo- kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus- katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki- taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei- simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi- den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres- siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes- telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi. Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh- tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes- telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi- luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky- järjestelmien suorituskyky sekä muistinhallintaongelmat. | |
| dc.format.extent | 24 | |
| dc.identifier.olddbid | 195064 | |
| dc.identifier.oldhandle | 10024/178118 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/1966 | |
| dc.identifier.urn | URN:NBN:fi-fe2024060646337 | |
| dc.language.iso | fin | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | avoin | |
| dc.source.identifier | https://www.utupub.fi/handle/10024/178118 | |
| dc.subject | luonnollisen kielen käsittely, NLP, ICD-koodaus, koneoppiminen | |
| dc.title | ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä | |
| dc.type.ontasot | fi=Kandidaatintutkielma|en=Bachelor's thesis| |
Tiedostot
1 - 1 / 1