Luonnollisen kielen käsittely pimeän verkon kyberuhkien havainnoinnissa
Korpinsiipi, Maria (2025-06-03)
Luonnollisen kielen käsittely pimeän verkon kyberuhkien havainnoinnissa
Korpinsiipi, Maria
(03.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061064966
https://urn.fi/URN:NBN:fi-fe2025061064966
Tiivistelmä
Kyberhyökkäykset ovat yleistyneet entisestään ja niiden ilmestymistahti on kiihtynyt tekoälyn käyttöönoton myötä. Kyberrikolliset kauppaavat palveluitaan ja keskustelevat hyökkäysmenetelmistä ja -työkaluista anonymiteetin mahdollistavassa pimeässä verkossa.
Tutkielman tarkoituksena oli selvittää, kuinka kyberuhkia voidaan havaita analysoimalla pimeästä verkosta kerättyä tekstipohjaista ainestoa. Analysointimenetelminä tarkasteltiin pimeään verkkoon soveltuvia luonnollisen kielen käsittelyn menetelmiä (NLP) ja niitä hyödyntäviä kielimalleja. Lisäksi käsiteltiin tiedonkeruuta sekä saadun informaation hyödyntämistä. Tutkimusaineiston perusteella tarkastelun kohteeksi valikoituivat Tor-verkon hakkerifoorumit ja markkinapaikat.
Transformeriarkkitehtuuriin perustuvat kielimallit ovat osoittautuneet kyvykkäiksi useissa luonnollisen kielen käsittelyn tehtävissä, mutta ne eivät sellaisenaan sovi pimeän verkon analysointiin. Kyberrikolliset voivat käyttää erikoisterminologiaa ja alakohtaista sanastoa toimiensa peittämiseen, eikä käytetty kieli rajoitu englantiin. Kielimallien hienosäätäminen pimeän verkon aineistolla laajentaa mallien kielellistä ymmärrystä, joka mahdollistaa NLP-tehtävien suorittamisen myös pimeässä verkossa. DarkBERTin ja DC-BERTin kaltaisten kielimallien avulla voidaan havaita kyberturvallisuuden kannalta olennaisia sivustoja, avainsanoja ja jargonia. Myös kyberturvallisuuskäsitteiden tunnistaminen vaatii onnistuakseen ala- ja ympäristökohtaista, erikoistunutta aineistoa.
Analysointimateriaalin ja kielimallien koulutusaineiston keräämiseen käytetään hakurobotteja. Suurimittainen, täysin automatisoitu keräys on haastavaa hakurobottien toimintaa estävien mekanismien vuoksi. Pimeän verkon uhka-analyysilla tuotettu informaatio voidaan muuntaa uhkaraporteiksi. Raportit voidaan jakaa eteenpäin raportteja kokoaville alustoille, jolloin kyberturvallisuusalan asiantuntijat pääsevät hyödyntämään uhkista löydettyä tietoa. Luonnollisen kielen käsittely tarjoaa monenlaisia mahdollisuuksia kyberuhkien tunnistamiseen pimeässä verkossa. NLP-menetelmien kehittämiseen käytetyn laadukkaan aineiston sekä avointen tiedonkeruutyökalujen merkitys korostuu lopputuloksissa.
Tutkielman tarkoituksena oli selvittää, kuinka kyberuhkia voidaan havaita analysoimalla pimeästä verkosta kerättyä tekstipohjaista ainestoa. Analysointimenetelminä tarkasteltiin pimeään verkkoon soveltuvia luonnollisen kielen käsittelyn menetelmiä (NLP) ja niitä hyödyntäviä kielimalleja. Lisäksi käsiteltiin tiedonkeruuta sekä saadun informaation hyödyntämistä. Tutkimusaineiston perusteella tarkastelun kohteeksi valikoituivat Tor-verkon hakkerifoorumit ja markkinapaikat.
Transformeriarkkitehtuuriin perustuvat kielimallit ovat osoittautuneet kyvykkäiksi useissa luonnollisen kielen käsittelyn tehtävissä, mutta ne eivät sellaisenaan sovi pimeän verkon analysointiin. Kyberrikolliset voivat käyttää erikoisterminologiaa ja alakohtaista sanastoa toimiensa peittämiseen, eikä käytetty kieli rajoitu englantiin. Kielimallien hienosäätäminen pimeän verkon aineistolla laajentaa mallien kielellistä ymmärrystä, joka mahdollistaa NLP-tehtävien suorittamisen myös pimeässä verkossa. DarkBERTin ja DC-BERTin kaltaisten kielimallien avulla voidaan havaita kyberturvallisuuden kannalta olennaisia sivustoja, avainsanoja ja jargonia. Myös kyberturvallisuuskäsitteiden tunnistaminen vaatii onnistuakseen ala- ja ympäristökohtaista, erikoistunutta aineistoa.
Analysointimateriaalin ja kielimallien koulutusaineiston keräämiseen käytetään hakurobotteja. Suurimittainen, täysin automatisoitu keräys on haastavaa hakurobottien toimintaa estävien mekanismien vuoksi. Pimeän verkon uhka-analyysilla tuotettu informaatio voidaan muuntaa uhkaraporteiksi. Raportit voidaan jakaa eteenpäin raportteja kokoaville alustoille, jolloin kyberturvallisuusalan asiantuntijat pääsevät hyödyntämään uhkista löydettyä tietoa. Luonnollisen kielen käsittely tarjoaa monenlaisia mahdollisuuksia kyberuhkien tunnistamiseen pimeässä verkossa. NLP-menetelmien kehittämiseen käytetyn laadukkaan aineiston sekä avointen tiedonkeruutyökalujen merkitys korostuu lopputuloksissa.