Adversarial Defences Against Attacks on Machine Learning Models
Parve, Patrick (2026-03-06)
Adversarial Defences Against Attacks on Machine Learning Models
Parve, Patrick
(06.03.2026)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2026031720617
https://urn.fi/URN:NBN:fi-fe2026031720617
Tiivistelmä
Adversarial attacks against machine leaning ML models in life-critical areas pose a significant threat, by being able to make an input that can deceive a ML model to make an incorrect decision. The goal of this thesis is to examine and evaluate the current situation between adversarial attacks and defences. The thesis examines different types of adversarial defence methods and strategies. Those include more established defensive methods that have been around longer and are more commonly used such as adversarial training, feature squeezing and the trapdoor defence. Also, the thesis explores some more recently proposed defences and strategies like Targeted Manifold Manipulation, cryptographic techniques, DeepDefence and Large Language Model Adversarial Defence. Findings show that an adversarial defence that cannot be defeated by an adversarial attack does not exist, nor is close to being made. A lot of defensive techniques and methods exist, but none can guarantee 100% success rate when it comes to being able to defend a ML model from every possible adversarial attack. Vihamieliset hyökkäykset (engl. adversarial attacks) koneoppimismalleja vastaan elintärkeillä sovellusalueilla muodostavat merkittävän uhan, sillä niillä voidaan luoda syöte, joka saa koneoppimismallin tekemään virheellisen päätöksen. Tämän kandidaatintutkielman tavoitteena on tarkastella ja arvioida vihamielisten hyökkäysten ja puolustusmenetelmien nykytilannetta. Tutkielmassa käsitellään erilaisia vihamielisiä puolustusmenetelmiä ja -strategioita. Näihin kuuluvat vakiintuneemmat puolustusmenetelmät, jotka ovat olleet käytössä pidempään ja joita käytetään yleisemmin, kuten koneoppimismallin kouluttaminen vihamielisillä esimerkeillä (engl. adversarial training), ominaisuuksien puristaminen (engl. feature squeezing) ja takaporttipuolustusmenetelmä (engl. trapdoor). Lisäksi tutkielmassa tarkastellaan joitakin viime aikoina ehdotettuja puolustusmenetelmiä ja -strategioita, kuten kohdistettu sarjamanipulaatio (engl. Targeted Manifold Manipulation), kryptografiset menetelmät, DeepDefence ja suurten kielimallien puolustusmenetelmä vihamielisiä hyökkäyksiä vastaan (engl. Large Language Model Adversarial Defence). Tulokset osoittavat, ettei ole olemassa eikä lähitulevaisuudessa odotettavissa sellaista puolustusmenetelmää, jota ei voitaisi murtaa vihamielisellä hyökkäyksellä. Puolustustekniikoita ja -menetelmiä on kehitetty runsaasti, mutta mikään niistä ei voi taata 100%:n onnistumisprosenttia koneoppimismallin suojaamisessa kaikilta mahdollisilta vihamielisiltä hyökkäyksiltä.
