Super-Resolution Diffusion Model as a Data Augmentation Method in Convolutional Neural Networks
Leppänen, Oona (2025-11-24)
Super-Resolution Diffusion Model as a Data Augmentation Method in Convolutional Neural Networks
Leppänen, Oona
(24.11.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe20251204114634
https://urn.fi/URN:NBN:fi-fe20251204114634
Tiivistelmä
This thesis will examine if the SeeSR diffusion model can be used as a data augmentation method by generating super-resolution image data that is given to a CNN. The results of the CNN will be compared to results of two other CNNs that have low-resolution and high-resolution image data as their inputs to evaluate the performance of the CNN trained with super-resolution image data. In addition, a component of the SeeSR model will be changed to enhance the detail generation capability of SeeSR. The effect of this change will be investigated by comparing the new version to the original SeeSR model.
The new version of SeeSR will be evaluated by calculating Peak-Signal-to-Noise Ratio, Structural Similarity Index Measure, Fréchet Inception Distance and Natural Image Quality Evaluator metrics and comparing the results to the results of the same metrics of the original SeeSR model. The CNN models will be evaluated by calculating accuracy, precision, recall and F1-score and comparing the results to one another.
The new SeeSR version performs worse with the reference Image Quality Assessment metrics and Fréchet Inception Distance but overperforms to an unrealistic level on Natural Image Quality Evaluator. The CNN model trained with super-resolution image data performs best of the CNN models which implies that a diffusion model can be beneficial as a data augmentation method. To improve the pipeline, the data could be more robust, the CNN models could be more optimized and a newer diffusion model with better detail generation capability could be utilized. Tämä tutkielma tutkii, voiko SeeSR-diffuusiomallilla toteutettu super-resoluutio toimia data-augmentointimenetelmänä generoimalla super-resoluutiokuvadataa, joka syötetään CNN:lle. Tämän CNN:n tuottamia tuloksia verrataan kahteen muuhun CNN:ään, jotka on koulutettu matalaresoluutioisella ja korkearesoluutioisella kuvadatalla. Tarkoituksena on näin arvioida super-resoluutiodataa käyttävän CNN:n suoriutumiskykyä. Lisäksi eräs SeeSR-mallin osista vaihdetaan toiseen, jotta kyseisen mallin yksityiskohtien generointikyky parantuisi. Muutosta tutkitaan vertaamalla tätä SeeSR:n uutta versiota alkuperäiseen SeeSR:ään.
SeeSR:n uusi versio arvioidaan käyttämällä seuraavaksi lueteltuja menetelmiä ja vertaamalla niiden tuloksia alkuperäisen SeeSR:n tuloksiin: huippusignaali-kohinasuhde, rakenteellinen samankaltaisuusindeksimenetelmä, Fréchetin aloitusetäisyys-menetelmä ja luonnollisen kuvalaadun arvioitsija. Super-resoluutiodatalla opetettu CNN arvioidaan käyttämällä täsmällisyys-, tarkkuus- ja herkkyysmenetelmiä sekä F1-arvoa ja tuloksia verrataan matalaresoluutioisella ja korkearesoluutioisella datalla koulutettujen CNN:ien tuloksiin.
Uusi versio SeeSR:stä suoriutuu huonommin kuvan laadun arvioinnin viitemitoilla ja Fréchetin aloitusetäisyys-menetelmällä, mutta se ylisuoriutuu epärealisten hyvin luonnollisen kuvalaadun arvioitsijalla. Super-resoluutiodatalla opetettu CNN-malli suoriutuu parhaiten verrattuna muihin CNN-malleihin. Tämä viittaa siihen, että diffuusiomallia voisi käyttää data-augmentointimenetelmänä. Jotta tätä liukuhihnaa voisi parantaa, käytetty data voisi olla vankempaa, CNN-malleja voitaisiin optimoida ja uudempaa diffuusiomallia voisi kokeilla nykyisen sijasta, jotta voitaisiin saavuttaa parempi yksityiskohtien generointikyky.
The new version of SeeSR will be evaluated by calculating Peak-Signal-to-Noise Ratio, Structural Similarity Index Measure, Fréchet Inception Distance and Natural Image Quality Evaluator metrics and comparing the results to the results of the same metrics of the original SeeSR model. The CNN models will be evaluated by calculating accuracy, precision, recall and F1-score and comparing the results to one another.
The new SeeSR version performs worse with the reference Image Quality Assessment metrics and Fréchet Inception Distance but overperforms to an unrealistic level on Natural Image Quality Evaluator. The CNN model trained with super-resolution image data performs best of the CNN models which implies that a diffusion model can be beneficial as a data augmentation method. To improve the pipeline, the data could be more robust, the CNN models could be more optimized and a newer diffusion model with better detail generation capability could be utilized.
SeeSR:n uusi versio arvioidaan käyttämällä seuraavaksi lueteltuja menetelmiä ja vertaamalla niiden tuloksia alkuperäisen SeeSR:n tuloksiin: huippusignaali-kohinasuhde, rakenteellinen samankaltaisuusindeksimenetelmä, Fréchetin aloitusetäisyys-menetelmä ja luonnollisen kuvalaadun arvioitsija. Super-resoluutiodatalla opetettu CNN arvioidaan käyttämällä täsmällisyys-, tarkkuus- ja herkkyysmenetelmiä sekä F1-arvoa ja tuloksia verrataan matalaresoluutioisella ja korkearesoluutioisella datalla koulutettujen CNN:ien tuloksiin.
Uusi versio SeeSR:stä suoriutuu huonommin kuvan laadun arvioinnin viitemitoilla ja Fréchetin aloitusetäisyys-menetelmällä, mutta se ylisuoriutuu epärealisten hyvin luonnollisen kuvalaadun arvioitsijalla. Super-resoluutiodatalla opetettu CNN-malli suoriutuu parhaiten verrattuna muihin CNN-malleihin. Tämä viittaa siihen, että diffuusiomallia voisi käyttää data-augmentointimenetelmänä. Jotta tätä liukuhihnaa voisi parantaa, käytetty data voisi olla vankempaa, CNN-malleja voitaisiin optimoida ja uudempaa diffuusiomallia voisi kokeilla nykyisen sijasta, jotta voitaisiin saavuttaa parempi yksityiskohtien generointikyky.
