Bias in Deep Learning for Skin Cancer Analysis: Challenges and Measurement Methods
Laanaya, Sara (2025-04-29)
Bias in Deep Learning for Skin Cancer Analysis: Challenges and Measurement Methods
Laanaya, Sara
(29.04.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025043034418
https://urn.fi/URN:NBN:fi-fe2025043034418
Tiivistelmä
Deep learning-based AI methods are increasingly used to diagnose skin cancer lesions. However, biases in these models raise concerns about their reliability. In this context, "bias" refers to the systematic favoritism or disadvantage in the model’s predictions due to unbalanced or insufficient representation of certain groups (e.g., gender and ethnicity) or features (e.g., skin color and skin lesions) in the training data. The goal of this bachelor’s thesis is to evaluate different sources of bias and how they can be measured when the source of bias is known. This is accomplished by examining studies that attempt to mitigate skin color bias. The thesis provides an overview of the fundamentals of skin cancer, various imaging techniques for skin lesion analysis, the distinctions between artificial intelligence, machine learning, and deep learning, and the state-of-the-art tools specifically convolutional neural networks used for skin lesion analysis. It then explores potential sources of bias in these models and analyzes studies addressing bias mitigation, particularly regarding variations in skin tone. The studies reviewed measure bias using performance metrics that evaluate a model’s ability to assess skin lesions across different skin tones, while some also calculate fairness metrics to identify bias. The final conclusions drawn from the use of fairness metrics were that, in many ways, they resemble performance metrics but offer the advantage of facilitating direct comparisons if subgroups are properly evaluated. The use of fairness metrics was often limited in the reviewed papers, partly due to the challenge of evaluating subgroups within datasets and the limitations of these metrics in assessing bias in medical diagnosis. One proposed solution is to standardize not only the images in the datasets, but also the definitions of subgroups, which would potentially enhance the usefulness of fairness metrics. Many of the current biases in deep learning models stem from a lack of diversity and insufficient data, making it difficult to design models that generalize well across all subgroups. A potential solution to this would be to develop models tailored to specific subgroups, thereby mitigating bias caused by data scarcity. Syväoppimiseen perustuvia tekoälymenetelmiä käytetään yhä enenevässä määrin ihosyöpien diagnosoinnissa. Malleissa esiintyvät vääristymät herättävät kuitenkin huolta menetelmien luotettavuudesta. Tässä yhteydessä "vääristymä"tarkoittaa sitä, että malli suosii tai syrjii tiettyjä ryhmiä (esim. sukupuoli, etnisyys) tai piirteitä (esim. ihonväri, ihonmuutokset) ennusteissaan, koska koulutusaineisto ei ole tarpeeksi tasapainoinen tai kattava. Tämän kandidaatintyön tavoitteena on arvioida näiden vääristymien eri lähteitä ja niiden mittaamistapoja silloin, kun vääristymän lähde on tiedossa. Kirjallisuuskatsauksessa keskitytään tutkimuksiin, joissa ihonväriin liittyviä vääristymiä pyritään vähentämään sekä esitellään mm. ihosyövän perusteet, erilaisia ihomuutosten kuvantamistekniikoita sekä tarkastellaan tekoälyn, koneoppimisen ja syväoppimisen välisiä eroja. Lisäksi käsitellään alan uusimpia ihomuutosten analysointiin käytettyjä työkaluja kuten konvoluutioneuroverkkoja. Lisäksi tarkastellaan mallien mahdollisia vääristymänlähteitä ja analysoidaan tutkimuksia, joissa pyritään minimoimaan vääristymiä (ja erityisesti ihonsävyn vaihteluun liittyen). Tarkastellut tutkimukset mittaavat vääristymiä nk. suorituskykymittareilla, joilla arvioidaan mallin kykyä analysoida ihomuutoksia eri sävyisissä ihonäytteissä. Tämän lisäksi voidaan vääristymien kvantifioimiseksi käyttää nk. oikeudenmukaisuusmittareita. Lopullisina johtopäätöksinä oikeudenmukaisuusmittareiden käytöstä todettiin, että ne muistuttavat monin tavoin suorituskykymittareita, mutta tarjoavat etuna suoran vertailun alaryhmien kesken, mikäli alaryhmät arvioidaan asianmukaisesti. Oikeudenmukaisuusmittareiden käyttö oli tarkastelluissa tutkimuksissa usein rajallista, osittain alaryhmien arvioimisen haastavuuden vuoksi, mutta myös siksi, että mittareilla on rajoituksia lääketieteelliseen diagnostiikkaan liittyvän vääristymän arvioinnissa. Yksi ehdotettu ratkaisu on standardoida paitsi aineistojen kuvat myös alaryhmien määritelmät, mikä voisi parantaa oikeudenmukaisuusmittareiden hyödyllisyyttä ja helpottaa niiden tarkastelua. Monet syväoppimismallien nykyisistä vääristymistä johtuvat monimuotoisuuden puutteesta ja riittämättömästä datasta, mikä vaikeuttaa sellaisten mallien kehittämistä, jotka yleistyisivät hyvin kaikkiin alaryhmiin. Tähän ehdotuksena oli kehittää malleja, jotka on räätälöity tiettyjä alaryhmiä varten, jolloin datan puutteesta johtuvaa vääristymää voitaisiin vähentää.