Data-analytiikan käyttö sisäpiiritiedon väärinkäytön tun- nistamisessa Laskentatoimen ja rahoituksen kandidaatintutkielma Laatija: Konsta Uusimäki Ohjaaja: KTT Vesa Partanen 17.4.2025 Turku Turun yliopiston laatujärjestelmän mukaisesti tämän julkaisun alkuperäisyys on tarkastettu Turnitin OriginalityCheck -järjestelmällä. Kandidaatintutkielma Oppiaine: Laskentatoimi ja rahoitus Tekijä: Konsta Uusimäki Otsikko: Data-analytiikan käyttö sisäpiiritiedon väärinkäytön tunnistamisessa Ohjaaja: KTT Vesa Partanen Sivumäärä: 45 sivua Päivämäärä: 17.4.2025 Laittomat sisäpiirikaupat ovat olleet sääntelyn kohteena jo 1930-luvun lamasta lähtien, eikä säännöstahti ole viime vuosina ainakaan hidastunut. Sisäpiiririkokset ovat rikosmuotona haasteellisia havaita ja todistaa, koska ne vaativat tarkkaa näyttöä sekä aikajanan kuin myös tuottamuksellisuuden osalta. Viime vuosikymmeninä tietotekniikka ja etenkin data-analytiikka on kehittynyt edistyneeseen nykymuotoonsa, ja tässä kandidaatin tutkielmassa perehdytäänkin siihen, miten perinteisiä data-analytiikan menetelmiä ja koneoppimista hyödyn- netään tai voidaan hyödyntää laittomien sisäpiirikauppojen tunnistamisen apuna. Laittomien sisäpiirikauppojen tunnistaminen edellyttää yhä useammin suuren rahoitusdatamassan analysoin- tia, johon perinteiset tilastolliset menetelmät eivät aina riitä. Koneoppimismenetelmät ja muut edistyneet al- goritmit tuovat tähän helpotusta, ja etenkin ohjaamaton ja ohjattu oppiminen tarjoavat keinoja paljastaa pin- nanalaisia poikkeamia eli anomalioita kaupankäynnissä. Tutkielmassa tarkastellaan miten näitä keinoja yhdis- tetään esimerkiksi perinteiseen verkostoanalyysiin, ja tavoitteena on muodostaa kokonaiskuva data-analytiikan mahdollisuuksista ja haasteista modernin markkinavalvonnan osana käsittelemällä esimerkkinä sisäpiiritiedon väärinkäyttöä. Tutkielman tausta-ajatuksena on ollut pyrkiä monitieteellisyyteen käsittelemällä rahoitustieteellisten teorioi- den ohella aiheen yritysjuridista, tilastotieteellistä sekä tietojenkäsittelytieteellistä taustaa. Analyyttiset mene- telmät kattavat paljon tilastollisia analyysitekniikkoja kuten tunnuslukuanalyysin, regressioanalyysit sekä ko- neoppimisen. Tämän ohella erityistä huomiota kohdennetaan dataohjatun päätöksenteon sekä big datan suu- reen merkitykseen nykyisessä valvontaympäristössä. Yhtenä tutkielman keskeisenä tavoitteena on pohtia miten valvontaviranomaiset hyödyntävät data-analytiikkaa aikaista enemmän sisäpiirikauppariskien seulonnassa. Perinteisesti valvonta on pohjautunut ilmoituksiin ja ta- pauskohtaisiin tarkasteluihin, mutta teknologian kehityttyä on avautunut mahdollisuuksia ennaltaehkäiseväm- pää valvontaa kohti. Tutkielma perustuu kirjallisuuskatsaukseen ja siinä käsitellään tämän kaiken lisäksi sisä- piirikauppojen oikeudellista kontekstia, taloudellisia markkinatehokkuuteen liittyviä vaikutuksia sekä markki- naluottamusta. Aiheen ajankohtaisuus korostuu nykyisen teknologisen kehityksen nopeuden sekä sääntelyyn liittyvien vaatimusten myötä. Tutkielman tulosten perusteella data-analytiikka ja koneoppimismenetelmät tar- joavat paljon lupaavia keinoja sisäpiiririkosten seulontaan etenkin suurissa datakokonaisuuksissa, joskin me- netelmien onnistunut hyödyntäminen edellyttää muun muassa laadukasta dataa ja menetelmien syvällistä ym- märtämistä. Avainsanat: data-analytiikka, sisäpiirikaupat, tilastolliset menetelmät, dataohjattu päätöksenteko, tekoäly, ko- neoppiminen, anomaliatunnistus, big data SISÄLLYS 1 Johdanto 6 1.1 Johdatus tutkielman aiheeseen 6 1.2 Tutkielman tavoite ja rajaukset 7 2 Datatiede ja data-analytiikka 9 2.1 Datan, datatieteen ja data-analytiikan määritelmät 9 2.2 Data-analytiikan jaottelu 12 2.3 Tilastolliset analyysimenetelmät data-analytiikassa 14 2.3.1 Keskiluvut ja tunnuslukuanalyysi 14 2.3.2 Regressioanalyysit ja kausaalianalyysi 15 2.3.3 Aikasarja-analyysi ja ennustemallit 17 3 Big data ja tekoäly 19 3.1 Dataohjattu päätöksenteko ja big data 19 3.2 Tekoäly ja koneoppimismenetelmät data-analytiikassa 21 4 Sisäpiirikaupat 23 4.1 Sisäpiirikauppojen määritelmä ja sääntely 23 4.2 Sisäpiirikaupat ja rahoitusteoria 26 5 Data-analytiikka sisäpiirikauppojen tunnistamisessa 30 5.1 Perinteiset ja tilastolliset menetelmät 30 5.2 Koneoppimismenetelmät ja tekoäly 33 6 Yhteenveto ja johtopäätökset 37 6.1 Keskeiset havainnot 37 6.2 Tutkimuksen arviointi ja jatkokysymykset 38 7 Lähteet 40 KUVIOT Kuvio 1: Viisauden hierarkia pyramidimallina (Nurmi & Pyykkönen 2022) 10 Kuvio 2: 5V-malli (Lomotey & Deters 2014, 181) 20 Kuva 3: Koneoppimisparadigmat (Sarker 2021) 22 Kuvio 4: Sisäpiirikauppojen tunnistamis- ja todistamisprosessi (Mazzarisi ym. 2024, 2) 31 Kuvio 5: Yksinkertainen sisäpiirikauppojen päätöspuu 35 TAULUKOT Taulukko 1: Datatieteen, Data-analytiikan ja Business Intelligencen taksonomia 11 Taulukko 2: Deskriptiivinen, Diagnostinen, Prediktiivinen ja Preskriptiivinen analytiikka 13 Taulukko 3: Sisäpiiriläisen 10 kaupankäyntiohjetta (Finanssivalvonta 2018) 24 6 1 Johdanto 1.1 Johdatus tutkielman aiheeseen Viimeisten vuosikymmenten aikana tiedon merkitys päätöksenteon kannalta on kasvanut merkittä- västi, ja erityisesti data-analytiikka on noussut keskeiseksi työkaluksi monella eri toimialalla ilmiöi- den ymmärtämisessä, ennustamisessa ja ohjaamisessa. Finanssisektorilla sen rooli on erityisen vah- vasti korostunut, ja käyttö lisääntyy jatkuvasti (Köseoğlu 2022). Data-analytiikka on yleisluonteinen käsite erilaisille analyysitekniikoille ja -menetelmille, joilla tietoaineistoista saadaan esille käyttökel- poisia oivalluksia. Olipa kyseessä sitten yrityksen taloudellinen data tai uuden kehiteltävän lääkkeen vaikutusten arviointi, data-analytiikka auttaa tekemään järkeviä tietoon perustuvia päätöksiä sekä pal- jastamaan pinnanalaisia trendejä. Sisäpiirikaupoilla viitataan tässä tutkielmassa sen laittomaan versioon, eli sisäpiiritiedon väärinkäyt- töön. Kaikki sisäpiirikaupat eivät ole laittomia, mutta kaikki sisäpiiritiedon väärinkäyttö on laitonta (RL 51:1). Laittomat sisäpiirikaupat ovat liiketapahtumia, joissa pörssiyhtiön sisäiseen käyttöön tar- koitettua tietoa käytetään yksilön oman edun tavoitteluun. Tämä johtaa epätasaiseen informaation jakautumiseen eli asymmetriseen informaatioon eri markkinatoimijoiden välillä, jota pidetään sel- keänä esimerkkinä markkinoiden tehottomuudesta. Markkinatehottomuus voi puolestaan johtaa epä- oikeudenmukaisiin kilpailuasetelmiin, sijoituspäätösten vääristymiseen ja varallisuuden virheelliseen kohdistumiseen, mikä heikentää luottamusta markkinoihin laajemmin ja siten johtaa laajempiin on- gelmiin. Vaikkakin yhdysvaltalainen lainsäädäntö sisäpiirikaupoista – johon myös muun maailman sääntely perustuu – ulottuu 1900-luvun alkuun saakka, alettiin ilmiötä juridisesti säännellä vasta 1930-luvun laman myötä, ja varsinainen nykyaikainen lainsäädäntö alkoi kehittyä vasta 1960-luvulla. Suomessa sisäpiiritiedon väärinkäytöstä tuli laitonta vuonna 1989, kun arvopaperimarkkinalain ensimmäinen versio astui voimaan (Kurenmaa 2003). Vuonna 2016 voimaantullut Euroopan unionin laajuinen markkinoiden väärinkäyttöasetus eli MAR on puolestaan entisestään laajentanut voimassa olevaa ai- healueen lainsäädäntöä. Tässä kontekstissa data-analytiikalla ja etenkin sen moderneilla tekoälyyn ja koneoppimiseen poh- jautuvilla menetelmillä on erityisen tärkeä merkitys, sillä niiden avulla on mahdollista tunnistaa epäi- lyttäviä sisäpiiritiedon väärinkäyttöön tai muihin arvopaperimarkkinarikoksiin viittaavia transaktioita (Cheng ym. 2022, 3). Perinteisesti laittomia sisäpiirikauppoja on pidetty vaikeana rikostyyppinä 7 tunnistaa, ja tähän data-analytiikka tuo lisätehokkuutta. Tavoitteena ei ole enää vain rikollisen toi- minnan jälkijättöinen havaitseminen, vaan myös valvonnan tehokkaamman kohdistamisen mahdol- listaminen. Tehokkaiden markkinoiden hypoteesin (EMH) mukaan markkinoilla hinnat heijastavat kaikkea saa- tavilla olevaa informaatiota, eikä yksittäisillä toimijoilla pitäisi olla mahdollisuutta hyötyä epäsym- metrisestä informaatiosta. Tämä ajatus perustuu siihen, että markkinoiden tehokkuus edellyttää, että kaikki tiedot ovat julkisesti saatavilla ja sisältyvät hintaan (Fama 1970). Sisäpiirikauppojen sääntelyä pidetään siten yhtenä pääasiallisena keinona ehkäistä markkinoiden vääristymiä sekä ylläpitää luot- tamusta markkinoihin, joskin myös esimerkiksi kurssimanipulaatiolainsäädäntö pyrkii ennaltaehkäi- semään vääristymiä ja ylläpitämään luottamusta. Sanktiot, kuten sakot ja kaupankäyntikiellot, pyrki- vät tekemään sisäpiiritiedon väärinkäytöstä taloudellisesti kannattamatonta sekä vahvistamaan mark- kinoiden läpinäkyvyyttä. Aihe on ajankohtainen, koska teknologian kehittyminen mahdollistaa entistä paremmin laajojen ra- hoitusdatamassojen analysoinnin. Ennen teknologian kehittymistä sisäpiirikaupankäynnin valvo- mista on siis pidetty vaikeasti toteutettavana käytännössä (Kurenmaa 2003, 30). Tämän ohella mark- kinoiden toimivuus ja reiluus ovat edelleen tärkeitä kysymyksiä muuttuvassa maailmassamme myös koko kansantalouden ja yhteiskunnan toiminnan kannalta. Tässä tutkielmassa keskitytään erityisesti siihen, miten data-analytiikkaa voidaan soveltaa laittomien sisäpiirikauppojen havaitsemisessa ja millä tavoin analytiikka auttaa markkinoiden läpinäkyvyyden lisäämisessä. 1.2 Tutkielman tavoite ja rajaukset Tutkielman päämääränä on tutkia miten data-analytiikkaa hyödynnetään ja voidaan hyödyntää laitto- mien sisäpiirikauppojen tunnistamisessa. Tarkastelun kohteena on erityisen vahvasti se, millaisia me- netelmiä käytetään suurien rahoitusdatamassojen analysointiin ja poikkeamien eli anomalioiden tun- nistamiseen. Tämän lisäksi tarkentavia alatutkimuskysymyksiä ovat seuraavat: 1. Miten tehokkaita nykyiset data-analytiikan menetelmät ja koneoppimisalgoritmit ovat sisäpii- rikauppojen havaitsemisessa? 2. Mitkä data-analytiikan ja koneoppimisen menetelmät soveltuvat parhaiten sisäpiirikauppojen tunnistamiseen? 3. Millaisia haasteita data-analytiikan sisäpiirikauppojen valvontakäytössä on? 8 Tutkimusasetelma on valittu siten, että se mahdollistaa syvällisen ja laajan tarkastelun data-analytii- kan käytöstä sisäpiirikauppojen tunnistamisessa. Kysymykset tehokkuudesta, soveltuvuudesta ja haasteista luovat kokonaisvaltaisen pohjan ilmiön tarkastelulle. Tällaisessa kontekstissa kirjallisuus- katsaus toimii tutkimusmenetelmänä erinomaisesti, koska se mahdollistaa aiempien tutkimusten ja menetelmien tarkastelun. Tutkielman toissijaisena tavoitteena on pyrkiä monitieteellisyyteen, ja tut- kielma käsitteleekin laskentatoimen ja rahoituksen lisäksi aihealuetta jossain määrin myös tietojär- jestelmätieteen, tietojenkäsittelytieteen, tilastotieteen sekä yritysjuridiikan perspektiiveistä. Tutkielman aihepiiri on rajattu koskemaan lähinnä data-analytiikan käyttöä sisäpiirikaupoissa ja ano- maliatunnistamisessa, mutta myös muita esimerkkejä saatetaan havainnollistamisen vuoksi esitellä. Data-analytiikan käsittelyä syvennetään tarkastelemalla sen roolia ja vaikutusta sisäpiirikauppojen analysoinnissa, erityisesti massadatan ja koneoppimisen näkökulmasta. Sisäpiirikauppoja käsitellään oikeudellisen kontekstin ja rahoitusteoreettisen vaikutuksen kautta. Sisäpiirikauppojen sääntelyn tausta-argumenteista keskitytään markkinoiden tehokkuusargumenttiin sekä oikeudenmukaisuusar- gumenttiin. Tutkielman tarkoituksena ei ole ottaa kantaa sisäpiirikauppojen laillisuuden tai laittomuu- den hyväksyttävyyteen, vaan keskittyä kuvailemaan kuinka ne vaikuttavat markkinoiden läpinäky- vyyteen sekä toimintaan. Tekoälyä on hyödynnetty tutkielmassa aiheen keksimisen ja rakenteen suunnittelun apuna. 9 2 Datatiede ja data-analytiikka 2.1 Datan, datatieteen ja data-analytiikan määritelmät Sanan data etymologia juontaa juurensa latinan kieleen ja se on monikkomuoto sanasta datum. Datum on yksittäinen tiedon määräyksikkö, ja data puolestaan viittaa useisiin tiedon määräyksiköihin, vaik- kakin sitä käytetään nykykielessä viittaamaan myös yksittäisiin tietoihin (Cambridgen sanakirja: Da- tum 2025). Taloudellisen yhteistyön ja kehityksen järjestö OECD määrittelee sanan seuraavasti: ”Data on havainnoinnin avulla kerättyjä piirteitä, jotka esitetään yleensä numeerisessa muodossa.” (OECD: Glossary of Statistical Terms 2008). Datan suomenkielinen määritelmä on ongelmallinen, sillä kielessämme sanalla tieto voidaan viitata kontekstista riippuen englanninkielisiin sanoihin data, information tai knowledge. Sana data käänne- tään suomen kielessä vakiintuneesti aineistoksi tai tietoaineistoksi. Data tarkoittaa yksittäisiä lukuja tai symboleja, joihin ei vielä ole liitetty mitään varsinaista merkitystä. Data on siis yksinään epäin- formatiivista (Nurmi & Pyykkönen 2022). Informaatio (information) tarkoittaa merkityksellistä asiaa, joka voi antaa vastauksia yksinkertaisiin kysymyksiin. Informaatio on yleensä datasta jalostettua ja se on jo itsessään käytettävää. Informaati- olla voidaan vastata muun muassa kysymyksiin: ”Mitä?”, ”Kuka?”, ”Missä?” ja ”Milloin?” (Nurmi & Pyykkönen 2022). Tieto tai tietämys (knowledge) tarkoittaa puolestaan informaation soveltamista käytäntöön. Tiedolla ymmärretään siis, miten informaatioon reagoidaan. Tieto vastaa näin ollen abstraktimpiin kysymyk- siin kuten: ”Kuinka?” ja ”Miten?” (Nurmi & Pyykkönen 2022). Tieto on informaatiota, jota ihminen ymmärtää niin hyvin, että sen perusteella pystytään toimimaan vaadittaessa (Kelleher & Tierney 2018, 56). Viisaus (wisdom) voidaan määritellä kokonaisvaltaisena ymmärryksenä ”toiminnan perusteista ja kontekstisidonnaisuudesta” eli se vastaa kysymykseen ”Miksi?” (Nurmi & Pyykkönen 2022). Vii- sauden perusteella tiedetään, kuinka tiedon perusteella kannattaa toimia parhaiten (Kelleher & Tier- ney 2018, 56). Teemaa mallinnetaankin akateemisessa kontekstissa usein DIKW-pyramidin kautta, joka kuvaa eri tietotasojen suhdetta toisiinsa, sekä esittää miten ne jalostuvat tasolta toiselle. Nimensä pyramidi saa sanojen Data, Information, Knowledge ja Wisdom lyhenteestä. Suomeksi samasta mallista puhutaan usein viisauden hierarkiana. 10 Kuvio 1: Viisauden hierarkia pyramidimallina (Nurmi & Pyykkönen 2022) Datatiede on etenkin tilastotieteen ja tietojenkäsittelytieteen yhteenliittymänä syntynyt monitieteinen tieteenala, joka käsittelee kuinka kirjavasta ja suuresta data-aineistosta poimitaan ongelmanratkai- suun soveltuvaa tietoa (Hayashi 1998). Datatieteessä on huomioitavaa moneen muuhun tieteenalaan verrattuna se, että se yhdistää data-analyysin ja informatiikan menetelmät lähes aina jonkin toisen tieteenalan, kuten esimerkiksi rahoituksen taikka lääketieteen, ongelmien ratkaisemiseksi. Rahoituk- sen ja datatieteen yhdistelmää voidaan kutsua esimerkiksi rahoitusanalytiikaksi, ja sillä on käyttökoh- teita finanssialalla esimerkiksi algoritmisen kaupankäynnin suorittamisessa tai tämän tutkielman tee- man parissa, eli sisäpiirikauppojen anomaliatunnistamisessa (Zheng ym. 2024, 57-59). Datatiede on sukua koneoppimiselle, mutta käsite ei ole täysin sama, sillä soveltamismahdollisuudet ovat datatieteessä laajemmat (Kelleher & Tierney 2018, 1). Datatieteilijät käyttävätkin perinteisten data-analytiikan työkalujen ohella koneoppimista ja tekoälysovelluksia ongelmanratkaisuun, ja pai- notus on erityisesti tulevaisuuden ennustamisessa, eli prediktiivisessä ja preskriptiivisessä analytii- kassa (Kelleher & Tierney 2018). Prediktiivinen tarkoittaa suoraan suomennettuna sanaa ennustava ja preskriptiivinen voidaan mieltää esimerkiksi sanaksi ohjaileva. Molemmat ovat siis vahvasti yh- teydessä tulevaisuuteen. Viisaus "Miksi?" Tieto "Kuinka, Miten?" Informaatio "Kuka, mitä, missä, milloin, kuinka monta?" Data "Symboleja, lukuja ilman merkitystä" 11 Data-analytiikalla, tai pelkällä analytiikalla, ei ole myöskään olemassa yhtä ainoaa tarkkaa määritel- mää. Yleisesti voidaan sanoa, että data-analytiikka kattaa erilaisia tilastollisia menetelmiä, tekniikoita sekä lähestymistapoja datan keräämiseen, käsittelyyn, analysointiin ja hyödyntämiseen päätöksente- ossa, eli sitä voidaan mahdollisesti pitää suppeampana ja käytännönläheisempänä osana datatiedettä (Aasheim ym. 2015, 104). Joissain konteksteissa data-analyysin synonyyminä käytetään tilastotie- teellisiin menetelmiin liittyvää tilastollista analyysiä. Näillä käsitteillä on kuitenkin pieni määritel- mällinen ero: tilastotiede on perinteisesti käsitellyt pienempiä tietoaineistoja, kun taas data-analy- tiikka keskittyy suurien datamäärien eli big datan analysoimisen. Tämän taustalla on se, että aikai- semmin suurien ja sopivien datamassojen kerääminen oli haastavaa ja kallista (Aasheim ym. 2015, 104). Tämä jako ei kuitenkaan ole ideaali, sillä myös tilastotieteen hyödyntämä aineisto voi olla erit- täin laaja, ja siten myös koko jaon olemassaoloa voi perustellusti kyseenalaistaa. Toinen tärkeä taksonomia datatieteen ja data-analytiikan välillä liittyy tekniikoihin ja suuntautunei- suuteen. Datatieteessä katse on pitkälti tulevaisuuden ennustamisessa, kun taas data-analytiikassa py- ritään historiallista dataa käyttämällä ymmärtämään trendejä päätöksenteon tukena (Aasheim ym. 2015, 104). Data-analytiikassa työkaluina käytetään muun muassa Microsoft Exceliä, Python-, R- ja JavaScript-ohjelmointikieliä sekä tietokantakieliä kuten SQL:ää. Data-analytiikkaan liitetään usein termi Business Intelligence eli BI, joka on liiketoimintatietoon liittyvä data-analytiikan alalaji. BI:ta käytetään yleensä tiedon raportointiin ja visualisointiin, ja sen tarkoituksena on tehostaa päätöksen- tekoa. Taulukko 1: Datatieteen, Data-analytiikan ja Business Intelligencen taksonomia Suuntautuminen Menetelmiä Datatiede Tulevaisuus Koneoppiminen, prediktiivinen analytiikka, Python, Pythonin kir- jastot kuten Pandas ja PyTorch Data-analytiikka Nykyhetki, menneisyys (ja tule- vaisuus) Excel, ohjelmointikielet, BI- työkalut, SQL Business Intelligence Nykyhetki ja menneisyys Excel, BI-työkalut, SQL Datatieteestä ja data-analytiikasta on huomioitavaa se, että kaikissa tapauksissa analyyttisten meto- dien käyttäminen ei ole järkevää. Jos trendit huomataan esimerkiksi datan visualisoinneista helposti, ei vaikeiden ja aikaa vievien menetelmien hyödyntäminen ole tehokasta (Kelleher & Tierney 2018, 19). Näitä epäformaaleja ongelmanratkaisumenetelmiä kutsutaan heuristiikoiksi, ja joskus niiden 12 tulokset voivat riittää tarpeeksi hyvään ymmärrykseen, jolloin täsmällisemmälle ja tutkimuksellisem- malle analytiikalle ei ole tarvetta. Heuristiikat eivät kuitenkaan ole aina toimivia. Esimerkiksi Tversky & Kahneman (1973) huomasivat, että ihmiset arvioivat tapahtumien todennäköisyyttä vir- heellisesti, koska he nojaavat analyyseissään intuitiivisiin mutta systemaattisesti väärin tuloksiin joh- taviin heuristiikkoihin kuten edustavuusheuristiikkaan. Edustavuusheuristiikka on yleensä harhaan- johtava nyrkkisääntö, jonka mukaan ihmiset arvioivat tapahtuman todennäköisyyttä sen perusteella, miten se vastaa jo olemassa olevaa mielikuvaa tarkasteltavana olevasta asiasta. Ihmiset saattavat esi- merkiksi tehdä vääriä johtopäätöksiä ihmisen työpaikoista pukeutumisen perusteella: eriskummalli- sesti ja värikkäästi pukeutuva henkilö tuskin mielletään ensimmäisenä ammatiltaan rahoitusalan am- mattilaiseksi. 2.2 Data-analytiikan jaottelu Data-analytiikan jaotteluun on olemassa useita eri teoreettisia viitekehyksiä. Todennäköisesti tunne- tuin näistä on DDPP-malli, jossa analytiikka jaotellaan kuvailevaan, diagnostiseen, ennakoivaan ja ohjaavaan analytiikkaan. Malli on kehittynyt analytiikan ja sen menetelmien kehittymisen myötä, mutta erityisesti sitä käytetään BI-ympäristössä analyysin tasojen jaotteluun. Kuvaileva eli deskriptiivinen analytiikka on data-analyysin perusmuoto, jossa datamassasta tarkas- tellaan sen tilastollisia ominaisuuksia, kuten keskiarvoa, mediaania, moodia, hajontaa tai varianssia tilastollisia ohjelmistoja käyttämällä. Deskriptiivisen analytiikan juuret ovat vakaasti tilastotieteelli- set, ja tilastotieteessä lähes saman käsitteen kuvaamiseen käytetäänkin käsitettä deskriptiivinen tilas- totiede. Deskriptiivinen analytiikka sisältää menetelminään yleiset datan visualisointimenetelmät, ryhmittelyt sekä segmentoinnit, ja vastaa pitkälti kysymykseen: ”Mitä tapahtuu?”. Yksinkertaistetusti voidaan sanoa, että deskriptiivisessä analytiikassa dataa analysoidaan raporttien ja visualisointien tuottamista varten (Köseoğlu 2022, 30). Diagnostisen analytiikan tarkoituksena on kertoa miksi datasta löytyy trendejä, korrelaatiota ja erito- ten syy-seuraussuhteita eri muuttujien välillä, ja se vastaa kysymykseen: ”Miksi näin tapahtui?” (Köseoğlu 2022, 30). Pääasiallisena työkaluna myös diagnostisen analytiikan tekemisessä ovat tilas- tolliset ohjelmistot. Diagnostista analytiikkaa käytetään muun muassa korrelaatioiden ja syy-seuraus- suhteiden selittämiseen hypoteesitestauksen, korrelaatioanalyysin ja kausaalianalyysin keinoin. Le- penioti ym. (2020) pitää diagnostista analytiikkaa kuvailevan analytiikan alalajina. Prediktiivisessä eli ennustavassa analytiikassa käytetään historiallista dataa ennustamaan tulevaisuu- den skenaarioita sekä trendejä, eli se vastaa kysymykseen: ”Mitä todennäköisesti tapahtuu 13 tulevaisuudessa?” (Köseoğlu 2022, 30). Prediktiivistä analytiikkaa tehdään nykyään pitkälti auto- maattisesti algoritmipohjaisesti, mutta sitä voidaan toteuttaa myös perinteisin tilastollisin menetel- min, kuten muun muassa lineaariregressiota soveltamalla. Lepenioti ym. (2020) jakaa prediktiivisen analytiikan menetelmät kolmeen eri alalajiin: todennäköisyysmalleihin, tilastolliseen analyysiin sekä koneoppimis/tiedonlouhimis -pohjaisiin menetelmiin. Edellä mainittu lineaariregressio kuuluu tilas- tollisen analyysin alle, kun taas esimerkiksi Bayes-verkko on todennäköisyysperusteinen ja neuro- verkko on koneoppimis/tiedonlouhimis -pohjainen. Viimeinen mallin osa on preskriptiivinen analytiikka. Preskriptiivinen eli ohjaava analytiikka vastaa pitkälti kysymykseen: ”Mitä pitäisi tehdä?”, ja on siten analytiikan terävintä ja toteutuksellisesti haas- tavinta kärkeä (Köseoğlu 2022, 30). Preskriptiivinen analytiikka ei ainoastaan ennusta mitä tapahtuu, vaan suosittelee lisäksi toimenpiteitä halutun tilan saavuttamiseksi. Preskriptiivistä analytiikkaa on vaikea soveltaa perinteisin menetelmin, jolloin mukaan tulee erityisesti koneoppiminen ja tekoäly. Preskriptiivistä analytiikkaa voidaan toki toteuttaa tekoälyn ja koneoppimisen ohella myös esimer- kiksi optimointialgoritmeja ja simulaatiomalleja hyödyntämällä. Preskriptiivisen analytiikan mene- telmät Lepenioti ym. (2020) jakaa prediktiivisen analytiikan todennäköisyysperusteisten ja koneop- pimis/tiedonlouhimis -pohjaisten mallien lisäksi matemaattiseen ohjelmointiin, evolutionääriseen laskentaan, simulointimalleihin sekä logiikkaperusteisiin malleihin. Taulukko 2: Deskriptiivinen, Diagnostinen, Prediktiivinen ja Preskriptiivinen analytiikka Tavoite Tekniikat Työkalut Deskriptiivinen Ymmärtää ja kuvailla dataa Tilastolliset tunnusluvut ja visualisointi Tilastolliset työkalut (Excel, R, SPSS, Python) Diagnostinen Tunnistaa syy-seuraussuh- teet Hypoteesitestaus, kau- saalianalyysi Tilastolliset työkalut Prediktiivinen Ennustaa tulevaisuutta Koneoppiminen, lineaari- regressio, muut algoritmit Tilastolliset työkalut ja etenkin ohjel- mointikielet (Python, R) Preskriptiivinen Suositella toimenpiteitä ha- lutun tulevaisuuden saavut- tamiseksi Koneoppiminen ja teko- äly, optimointialgoritmit, Monte Carlo -simulaatiot Ohjelmointikielet, LLM-kielimallit DDPP-mallin ohella data-analytiikan jaotteluun on olemassa myös muita malleja. Esimerkiksi Bha- gattjee (2014) jaottelee data-analytiikan tutkimukselliseen (exploratory), vahvistavaan (confirmatory) sekä ennustavaan (predictive) analytiikkaan. Tutkimuksellinen analytiikka keskittyy aiemmin 14 tuntemattomien ilmiöiden löytämiseen datasta ilman ennakko-oletuksia ja käyttää apunaan erityisen paljon visualisointeja. Vahvistava analytiikka tarkoittaa puolestaan pitkälti hypoteesitestausta ja se arvioi havaintojen tilastollista merkittävyyttä. Ennustava analytiikka tarkoittaa tässä kontekstissa pit- kälti samaa ennustuksellista analytiikkaa kuin aiemmassa DDPP-mallissa. 2.3 Tilastolliset analyysimenetelmät data-analytiikassa Koska datatieteen ja data-analytiikan pohja on vahvan tilastotieteellinen, on tarpeellista tutustua sen relevantteihin osa-alueisiin hieman syvällisemmin. Vahvaa tilastotieteellistä osaamista voidaan pitää tämän perusteella edellytyksenä data-analytiikan onnistuneelle toteuttamiselle. Tilastollisia analyysi- menetelmiä on liian monia tarkkaa ja kattavaa läpikäyntiä varten, joten käsitellään tässä alaluvussa niistä olennaisimmat. 2.3.1 Keskiluvut ja tunnuslukuanalyysi Ensimmäinen analyysin osa-alue liittyy deskriptiiviseen tilastotieteeseen (Wooldridge 2016, 628). Tähän osa-alueeseen kuuluu muun muassa tilastollinen tunnuslukuanalyysi, jakauman muodon ana- lysointi sekä näiden tilastollinen hypoteesitestaus. Deskriptiivinen tilastotiede on data-analytiikan kannalta kriittinen osa data-analytiikkaa, ja jotkin lähteet pitävät jopa tilastotiedettä tieteellisen data- analyysin synonyyminä (Helping Engineers Learn Mathemathics 36, 1). Tilastollinen tunnuslukuanalyysi tarkoittaa datasta saatavien keskilukujen ja hajontalukujen määrit- tämistä sekä niiden avulla olennaisen tiedon esittämistä. Keskilukuihin kuuluu esimerkiksi keskiar- vot, mediaani sekä moodi. Keskiarvosta huomioitavaa on se, että kansankielisesti keskiarvosta puhu- essa viitataan yleensä sen suosituimpaan lajiin eli aritmeettiseen keskiarvoon. Keskiarvoja on arit- meettisen keskiarvon ohella useita, kuten esimerkiksi painotettu keskiarvo, geometrinen keskiarvo sekä harmoninen keskiarvo (De 2016, 1119). Muille keskiarvomenetelmille löytyy sovelluksia eten- kin rahoitustieteen ja taloustieteen parista. Keskilukujen ohella tunnuslukuanalyysiä tehdään myös niin sanotuista hajontaluvuista, eli esimer- kiksi keskihajonnasta ja varianssista, taikka vaihteluvälistä ja kvartaaliväleistä (Helping Engineers Learn Mathemathics 36, 17). Hajontaluvut kuvaavat kuinka paljon havaintojen arvot poikkeavat kes- kiluvun ympärillä. Varianssi on todennäköisesti merkittävin hajontaluku ja se kuvaa kuinka haja- naista data on. Keskihajonta on varianssille läheistä sukua, mutta eroaa siitä siten, että sitä käytetään 15 mittarina keskimääräiselle hajonnalle datan alkuperäisessä mittayksikössä, kun taas varianssi ilmai- see keskihajonnan neliöitynä eli eri mittayksikössä. Vaihteluväli tarkoittaa datan suurimman ja pienimmän arvon välistä erotusta ja se antaa yksinkertai- sen käsityksen datan hajonnasta (Upton & Cook 1996, 55). Kvartaaliväli puolestaan tarkoittaa väliä, joka kattaa keskimmäiset 50 % havainnoista ja antaa kuvan datasta ilman äärimmäisiä arvoja. Kvar- taaliväli onkin erityisen hyödyllinen työkaluna silloin, kun data sisältää poikkeavia arvoja ja siten vääristää keskihajontaan perustuvia tulkintoja (Upton & Cook 1996, 55). Kvartaalivälin ohella tärkeä matemaattinen konsepti on ala- ja yläkvartiilit. Alakvartiili sisältää pienimmät 25 % havainnoista ja yläkvartiili suurimmat 25 % havainnoista Jakauman muodon analysointi tarkoittaa menetelmänä pitkälti sen vinouden ja huipukkuuden laske- mista ja tutkimista. Jakauman muoto tarkoittaa sitä, miten data on jakautunut keskiluvun ympärille, eli kuinka symmetrinen se on. Vinouden ja huipukkuuden analysointi on tärkeää, koska ne voivat vaikuttaa tilastollisten testien toimintaan haitallisesti (Wooldridge 2016, 658). Monet edistyneemmät tilastolliset menetelmät olettavat, että data on normaalijakautunutta, ja jos data on vinoutunutta tai korkeahuippuista, voi olla järkevämpää käyttää muita testejä ja menetelmiä analyysien tekoon. Jos jakauma on vino, voidaan histogrammista tai muusta visualisointitavasta huomata datapisteiden suhteeton painottuminen jommallekummalle puolelle häntää (Bowers 1991, 26). Huipukkuus kuvaa jakauman terävyyttä normaalijakaumaan verrattuna. Korkea huipukkuus viittaa siihen, että suurin osa havaintoarvoista on lähellä keskiarvoa, kun taas matala huipukkuus kertoo tasaisemmasta jakaumasta (Bowers 1991, 26). Tilastollinen hypoteesitestaus on tilastotieteen perusmenetelmä, jolla voidaan testata oletuksia ja yleistää otoksesta huomatut seikat populaatiotasolle (Bowers 1991, 137). Menetelmää käytetään ylei- sesti kvantitatiivisen tutkimuksen tekemisessä, mutta yhä etenevissä määrin myös liiketoiminnallis- ten päätöksien perustelussa. Hypoteesitestauksen menetelmiä on datasta ja kontekstista riippuen useita, mutta ehkäpä tärkein niistä on Studentin t-testi. Studentin t-testin avulla verrataan kahden eri ryhmän keskiarvoja ja pyritään siten selvittämään ovatko niissä olevat aineistoerot tilastollisesti mer- kittäviä (Encyclopedia Britannica: Student's t-test 2025). Muita tunnettuja hypoteesitestausmenetel- miä on muun muassa Khiin neliö -testi sekä ANOVA eli varianssianalyysi. 2.3.2 Regressioanalyysit ja kausaalianalyysi Toinen tässä tutkielmassa läpikäytävä tilastollisen analyysin osa-alue liittyy regressioon ja kausaali- suuden tunnistamiseen, eli sitä kautta etenkin diagnostiseen ja prediktiiviseen analytiikkaan. 16 Regressioanalyysissä pyritään selvittämään ”yhden tai useamman muuttujan yhteyttä selitettävään muuttujaan” (Kaakinen & Ellonen 2025). Regressiosta on olemassa erilaisia variaatioita, mutta niistä tunnetuimmat lienevät lineaariregressio ja logistinen regressio. Lineaarisessa regressioanalyysissä eli lineaariregressiossa oletetaan olevan lineaarinen suhde riippu- van muuttujan ja riippumattoman/riippumattomien muuttujien välillä (Wooldridge 2016, 20). Line- aarista regressiota käytetään laajasti esimerkiksi rahoitusmalleissa ja makrotaloudellisten ennusteiden kehittämisessä ja se loistaakin parhaiten yksinkertaisten ennusteiden luomisessa sekä yleisten tren- dien huomaamisessa. Lineaariregressio ei kuitenkaan sovellu monimutkaisten ilmiöiden tai klassifi- kaatiopohjaisen datan analysointiin sen lineaarisen perusolettamuksensa vuoksi. Lineaariregression luontiin on olemassa useita menetelmiä, joista tunnetuin ja käytetyin on pienimmän neliösumman menetelmä (Bowers 1991, 194). Logistista regressiota käytetään etenkin silloin, kun riippuva muuttuja on binäärisesti kategorinen muuttuja, mutta mallia on mahdollista soveltaa myös muun kategorisen datan käsittelemiseksi (Spe- randei 2014). Perinteisesti logistista regressiota käytetään tilanteissa, joissa halutaan mallintaa toden- näköisyyttä sille, että tapahtuma toteutuu tai ei toteudu. Logistinen regressiomalli perustuu sigmoidi- funktioon, joka muuntaa arvot välille 0–1. Tämä muunnos tekee mahdolliseksi mallin tulkinnan to- dennäköisyysperusteisesti, eli kertoimien avulla voidaan arvioida kuinka kukin riippumaton muuttuja vaikuttaa tapahtuman todennäköisyyteen. Tämä on mahdollistanut sen, että logistinen regressio toimii perustana kehittyneemmille klassifikaatioalgoritmeille erityisesti koneoppimisen saralla (Thabtah ym. 2019). Logistiselle regressiolle on lineaariregression tavoin lukematon määrä käyttökohteita, mutta ehkäpä merkittävimmät niistä liittyvät anomalia- ja petostunnistamiseen sekä tartuntatautien leviämisen mallintamiseen (Sperandei 2014). Korrelaatioanalyysi on analyysimenetelmä, joka tutkii kahden tai useamman muuttujan välillä tilas- tollista yhteyttä tai sen puutetta (Gogtay & Thatte 2017). Yleisimmät korrelaatioanalyysin metodit liittyvät korrelaatiokertoimien laskemiseen, kuten esimerkiksi Pearsonin korrelaatiokertoimeen. Pearsonin korrelaatiokerroin mittaa lineaarista riippuvuutta kahden muuttujan välillä ja voi saada ar- von välillä -1 ja 1. Jos korrelaatiokertoimen arvo on lähellä nollaa, ei lineaarista yhteyttä ole. Jos arvo on lähellä jompaakumpaa ääripäätä, on korrelaatio puolestaan todella merkittävä. Kausaalianalyysi on kehitetty korrelaatioanalyysin jatkoksi, koska pelkkä korrelaatio ei vielä mer- kitse, että ilmiöiden välille syntyy syy-seuraussuhdetta. Kausaalianalyysi on tutkielman aiheen kan- nalta merkittävä aihealue etenkin siksi, koska eräs data-analytiikan syvimmistä tarkoituksista on 17 löytää syy-seuraussuhteita datasta. Korrelaatioanalyysin tavoin myös kausaalianalyysiin on olemassa useita eri menetelmiä, ja sopivin niistä määrittyy aina aineiston ja tutkimustavoitteen perusteella. 2.3.3 Aikasarja-analyysi ja ennustemallit Aikasarja-analyysi on analyysin muoto, jota käytetään, jos data on asetettu aikajärjestykseen ja data- pisteissä on arvoeroja. Aikasarja-analyysi eroaa siten olennaisesti aikaisemmin esitellyistä poikittais- tutkimuksellisista menetelmistä (Wooldridge 2016, 312). Aikasarja-analyysiä voidaan hyödyntää ajassa muuttuvan datan mallintamiseen ja tutkimiseen, ja sen tarkoituksena on tunnistaa esimerkiksi trendejä, syklisyyttä tai muita rakenteita datasta. Aikasarja-analyysi on luonteeltaan prediktiivistä (Köseoğlu 2022, 30-31). Aikasarja-analyysin tekemiseen on olemassa monia menetelmiä ja ne voidaan luokitella taajuustaso- analyyseihin sekä aikatasoanalyysiin. Taajuustasoanalyysiin perustuvissa metodeissa pyritään analy- soimaan tapahtumien määrää eli frekvenssiä, kun taas aikatasoanalyyseissä huomio on ajallisesti pe- räkkäisissä havainnoissa ja niiden välisissä riippuvuuksissa. Menetelmiä on luonnollisesti paljon, jo- ten käsitellään aikasarja-analyysin tunnetuimmat ennustemallit, Autoregressive Integrated Moving Average (ARIMA) sekä Generalized Autoregressive Conditional Heteroskedasticity (GARCH). ARIMA hyödyntää aikasarjadataa tunnistaakseen ilmiöitä sekä ennustaakseen tulevaisuuden tren- dejä. Esimerkiksi rahoitustieteessä sitä voidaan käyttää osakkeiden tulevien hintojen ennustamiseen (Ho ym. 2021). ARIMA koostuu kolmesta pääkomponentista: autoregressiosta, integraatiosta sekä liukuvasta keskiarvosta. Autoregressio tarkoittaa yksinkertaistetusti sitä, että menneisyys vaikuttaa nykyhetkeen. Integraatio tarkoittaa mallissa sitä, että aikasarjasta pyritään tekemään stationaarinen eli ajassa muuttumaton siten, että arvot kuvaavat eroja datapisteiden välillä. Liukuva keskiarvo eli Moving Average kuvaa tietyn ajanjakson keskiarvoa ja sitä päivitetään jatkuvasti uusien datapistei- den myötä. Se auttaa mallissa tasoittamaan vaihtelua ja poistamaan heilahduksia, jolloin trendit ja datan rakenne on helpompi havaita. GARCH on erityisesti rahoitusmarkkinoilla käytetty malli, jota käytetään ennustamaan volatiliteetin kehittymistä aikasarjadataan perustuen (Engle, 2001). GARCH koostuu kahdesta pääelementistä. Au- toregressiivinen osa tarkoittaa tässä mallissa sitä, että aikaisemmat volatiliteettiarvot vaikuttavat myös nykyiseen volatiliteettiin. Ehdollinen heteroskedastisuus tarkoittaa puolestaan sitä, että mallissa otetaan huomioon aiemmat havaintovirheet. Ominaisuus volatiliteetin tunnistamiseksi tekeekin mal- lista erityisen hyödyllisen riskienhallinnassa, optiohinnoittelussa ja sijoituspäätösten tukena (Engle, 2001). 18 Yhteenvetona voidaan todeta, että tilastolliset analyysimenetelmät muodostavat merkittävän osan data-analytiikan tieteellisestä perustasta. Tilastollinen lähestymistapa mahdollistaa rationaalisten ja systemaattisten johtopäätösten tekemisen. Kaikki tässä luvussa käsitellyt menetelmät tukevat kaikkia analytiikan muotoja deskriptiivisestä prediktiiviseen analytiikkaan, joskin preskriptiivisen analytii- kan ennustaminen vaatii myös vielä entisestään kehittyneempiä malleja. Tilastollinen ymmärrys luo siis välttämättömän pohjan data-analytiikan syvemmälle ymmärtämiselle. 19 3 Big data ja tekoäly 3.1 Dataohjattu päätöksenteko ja big data Datan ja data-analytiikan merkitys on noussut viimeisen muutaman vuosikymmenen aikana dataoh- jatun päätöksenteon suosion noustessa ja datan varastoimiseen liittyvien hintojen pudotessa (Aasheim ym. 2015, 104). Dataohjattu päätöksenteko (data-driven decision-making) painottaa datan ja sen ana- lysoimisen merkitystä liiketoimintapäätöksiä tehtäessä. Päätökset eivät siten nojaa vain intuitioon tai heuristiikkoihin (Provost & Fawcett 2013, 3). Käytännössä tämä tapahtuu esimerkiksi BI-järjestelmiä hyödyntämällä, ja visualisointisovellukset kuten Power BI ja Tableau ovatkin saavuttaneet suuren suosion yritystoiminnan ohjaamisessa. Suuret määrät tarkkaa dataa esimerkiksi myynneistä, kuluista ja mainonnasta mahdollistavat niiden hyödyntämisen laaja-alaisesti liiketoimintapäätösten tukena. Tästä suuresta datamäärästä ja sen hyödyntämisestä käytetään termejä big data tai massadata. Ihmiset tuottavat nykyisessä tietotekniikkaperusteisessa maailmassamme päivittäin noin viisi eksatavua eli noin miljardi gigatavua erimuotoista dataa, kuten videoita, kuvia ja tekstiä. Tämä on sama määrä, mitä ihmisten arvioidaan tuottaneen kirjoitustaidon keksimisestä lähtien vuoteen 2003 asti, eli datan tuotantovauhti on kiihtynyt (Kelleher & Tierney 2018, 9). Koska monet perinteiset data-analytiikka- työkalut ovat osoittautuneet liian jäykiksi, tehottomiksi tai hitaiksi näin suurien data-aineistojen kä- sittelyyn, on sitä varten kehitetty uusia ja tehokkaampia teknologioita. Esimerkiksi pilvipohjaisten analytiikkapalveluiden avulla voidaan analysoida ja visualisoida suuria datamassoja nopeammin. Tämä kehitys on tehnyt dataohjatusta päätöksenteosta nopeampaa ja tehokkaampaa. Big datalle on olemassa useampia teoreettisia malleja, mutta tunnetuimmat niistä ovat niin kutsuttuja V-malleja. Tietoteknologian tutkimus- ja konsultointiyritys Gartnerin analyytikko Doug Laney ke- hitti alkuperäisen 3V-mallinsa kuvailemaan big datan ulottuvuuksia vuonna 2001, joskin mallia on väärinymmärretty. Alkuperäisessä mallissa 3V tarkoitti vain yhtä osaa big datan määritelmästä (For- bes 2013). Myöhemmin mallia on laajennettu muun muassa 4V-, 5V-, 6V-, 7V- ja jopa 12V-malliin. Alkuperäinen 3V-malli sisältää kuitenkin vain kolme ulottuvuutta: Volume, Velocity ja Variety. Volume (määrä) viittaa mallissa datan suureen määrään, jota nykyaikaiset sensorit pystyvät kerää- mään ja tietokannat sisältämään. Velocity (nopeus) viittaa datan prosessointinopeuteen, jonka nyky- aikainen tietotekniikka on mahdollistanut (Kelleher & Tierney 2018, 9), ja Variety (monipuolisuus) puolestaan viittaa datan erilaisiin muotoihin, eli strukturoituun, strukturoimattomaan sekä semi-struk- turoituun dataan (Kelleher & Tierney 2018, 9). 20 Strukturoitu data on selkeästi järjesteltyä ja tallennettu esimerkiksi relaatiotietokantoihin taulukko- muodossa. Strukturoimaton data ei puolestaan noudata tätä rakennetta, vaan voi koostua tekstin li- säksi esimerkiksi videoista, kuvista taikka metadatasta. Semi-strukturoitu on näiden kahden väli- muoto, eli jotain rakenteellisia elementtejä on, mutta se ei ole täysin järjesteltyä tai eheää. 3V-mallia on laajennettu ajan saatossa sisältämään enemmän ulottuvuuksia. Nykyään käytetyin V- malli lienee 5V-malli. 5V-malli sisältää aikaisemmin mainittujen Volumen, Velocityn ja Varietyn lisäksi tasot Value (arvo) ja Veracity (todenperäisyys) (Lomotey & Deters 2014, 181). Value viittaa mallissa siihen, että big dataan liittyy varastointikustannuksia, mutta myös kvantifioitavaa taloudel- lista arvoa. Veracity-taso viittaa puolestaan siihen, että data saattaa sisältää ”saastetta”, joka pitää siistiä pois ennen sen hyödyntämistä (Lomotey & Deters 2014, 181). Kuvio 2: 5V-malli (Lomotey & Deters 2014, 181) Big Data Variety • Datan muoto Velocity • Datan käsittelynopeus Volume • Datan määrä Value • Kustannukset ja arvo Veracity • Datan siistiminen 21 3.2 Tekoäly ja koneoppimismenetelmät data-analytiikassa Tekoälyn ja etenkin laajojen kielimallien esiinmarssi 2020-luvun alkupuoliskolla neljännen teollisen vallankumouksen yhteydessä on mahdollistanut niiden hyödyntämisen myös data-analytiikassa (Sar- ker, 2021). Tekoäly tai AI tarkoittaa yksinkertaisimmillaan menetelmien joukkoa, joilla pyritään mat- kimaan inhimillistä älykkyyttä (Hamet & Tremblay 2017). Tekoälyn tärkeimmät osa-alueet ovat koneoppiminen, neuroverkot sekä syväoppiminen. Huomioita- vaa on kuitenkin se, että tämä ei ole kattava listaus tekoälymenetelmistä, sillä jokainen näistä pitää sisällään erilaisia alamenetelmiä ja algoritmeja. Koneoppiminen mielletään yleensä tekoälyn osa-alueeksi, joka kattaa laajan määrän erilaisia algorit- meja, joilla järjestelmät oppivat löytämään syy-seuraussuhteita ja rakenteita datasta (Kelleher & Tier- ney 2018, 97). Koneoppiminen jaetaan yleensä neljään eri paradigmaan, jotka ovat ohjattu oppimi- nen, ohjaamaton oppiminen, osittain ohjattu oppiminen ja vahvistusoppiminen. Suurin osa koneop- pimisalgoritmeista kuuluu joko ohjattuun oppimiseen tai ohjaamattomaan oppimiseen (Kelleher & Tierney 2018, 99). Ohjatussa oppimisessa järjestelmä oppii valmiiden vastauksien kautta. Syötedatalle määrätään en- nalta oikea vastaus, jonka jälkeen järjestelmä rakentaa koulutusdatan pohjalta tuloksia ennustavan mallin. Tästä datamallista käytetään termiä merkitty data. Aiemmin läpikäydyistä tilastoista muun muassa lineaariregressio ja logistinen regressio kuuluvat koneoppimiskontekstissa ohjatun oppimisen alle. Ohjaamaton oppiminen tarkoittaa sitä, että järjestelmä löytää itse rakenteita datasta. Ohjaamaton op- piminen eroaa ohjatusta oppimisesta siten, että syötedatalle ei ole ennalta määrättyä oikeaa vastausta, eli data on muodoltaan merkitsemätöntä. Tämä johtaa siihen, että järjestelmä huomaa rakenteet pa- remmin kuin ohjatussa oppimisessa, mutta tietyn ongelman ratkaiseminen vaikeutuu (Kelleher & Tierney 2018, 102). Osittain ohjattu oppiminen on näiden kahden edeltä mainitun yhdistelmä, jossa järjestelmä oppii sekä ohjattujen ja ohjaamattomien menetelmien avulla. Järjestelmä voi siis ottaa vastaan sekä oikeaksi merkittyä dataa tai vaihtoehtoisesti strukturoimatonta dataa. Vahvistusoppiminen puolestaan perustuu niin sanottuun ”yritykseen ja erehdykseen”. Vahvistusop- pimisessa järjestelmää palkitaan oikean vastauksen saavuttamisesta ja rangaistaan väärästä 22 vastauksesta. Vahvistusoppimisen ideana on siis se, että järjestelmä oppii luontaisesti parhaan ”reitin” toistojen lisääntyessä. Kuva 3: Koneoppimisparadigmat (Sarker 2021) Nykyaikaisen massadatapohjaisen tekoälyn on mahdollistanut koneoppimismenetelmien ohella neu- roverkkoteknologia. Neuroverkko on biologiasta ja ihmisen hermoston toiminnasta inspiraatiota saa- nut malli matematiikassa sekä tietojenkäsittelyssä, joka jäljittelee ihmisaivojen rakennetta ja toimin- taa. Neuroverkko koostuu useasta kerroksesta, joissa keinotekoiset hermosolut, eli neuronit, käsitte- levät dataa ja siirtävät sen eteenpäin seuraaviin kerroksiin lisäkäsittelyä varten (Kelleher & Tierney 2018). Tämä mahdollistaa syvällisten ja vaikeiden ongelmien ratkaisemisen. Neuroverkkojen ja koneoppimisen yhdistelmäalalajia kutsutaan syväoppimiseksi eli Deep Learnin- giksi. Syväoppiminen on 2010-luvun alussa tapahtunut teknologinen innovaatio, joka on mullistanut tekoälyn erityisesti suurien datamäärien käsittelyssä. Syväoppiminen on menetelmänä erityisen teho- kas, koska sen avulla voidaan tunnistaa datasta rakenteita ilman, että ihminen merkitsee dataa. Koneoppiminen Ohjattu oppiminen Merkitty data Ohjaamaton oppiminen Merkitsemätön data Osittain ohjattu oppiminen Merkitty + Merkitsemätön data Vahvistusoppiminen Palkkiojärjestelmä ( + / - ) 23 4 Sisäpiirikaupat 4.1 Sisäpiirikauppojen määritelmä ja sääntely Laittomalla sisäpiirikaupalla, eli sisäpiiritiedon väärinkäyttämisellä rahoitusvälinekaupassa, on käy- tetystä lähteestä ja maan juridisesta kontekstista riippuen erilaisia tarkkoja määritelmiä. Suomessa sisäpiiritiedon väärinkäyttämisestä säädetään arvopaperimarkkinalaissa, jossa sitä säännellään yh- dessä sisäpiiritiedon väärinilmaisun, markkinoiden manipuloinnin ja arvopaperimarkkinoiden tiedot- tamisrikoksen kanssa (AML 18:2). Maailmassa on olemassa 103 rahoitusmarkkinapaikkaa, joista 87:ssä on olemassa jonkin tasoista sisäpiirikauppasääntelyä (Bhattacharya & Daouk 2002). Sisäpiirikaupan määritelmään liittyy olennaisesti sisäpiiritieto. Suomen rahoitusmarkkinoita valvo- van viranomaisen, eli Finanssivalvonnan, mukaan sisäpiiritiedolla tarkoitetaan suurelle yleisölle saa- vuttamatonta tietoa, joka julkistettuna todennäköisesti vaikuttaa huomattavasti siihen liittyvän rahoi- tusvälineen hintaan (Finanssivalvonta 2018). Sisäpiiritiedosta käytetään joskus myös käsitettä yksi- tyinen informaatio, ja konkreettisesti tämä tieto voi liittyä esimerkiksi ”yrityksen tulontuottokykyyn, tuleviin kassavirtoihin ja investointimahdollisuuksiin” (Niskanen & Niskanen 2013, 290). Ajantasainen suomalainen lainsäädäntö sisäpiirikaupoista perustuu arvopaperimarkkinalain ohella pääasiassa EU:n vuoden 2014 markkinoiden väärinkäyttöasetukseen MAR:iin (Market Abuse Regu- lation) ja sen määritelmään sisäpiiritiedosta. Tästä huolimatta sisäpiirikaupat ovat olleet regulaation kohteena maailmanlaajuisesti jo ainakin 1930-luvun alkupuoliskolta lähtien (Perino 2018). MAR:n mukaan sisäpiiritiedolle on ominaista se, että se on riittävän tarkkaa johtopäätösten tekoon rahoitus- välineen markkina-arvosta sekä se, että se on tapahtumasidonnaista, eli se kertoo asioista, jotka ovat jo tapahtuneet tai tulevat tapahtumaan. Näistä kahdesta ominaisuudesta käytetään yhdessä termejä sisäpiiritiedon täsmällisyys ja olennaisuus (Finanssivalvonta 2018). Sisäpiiritiedolle on lisäksi tun- nusomaista se, että sisäpiiritietoa omaava, eli sisäpiiriläinen, saa ilmaista tietoaan ulkopuolisille vain silloin kun se on tarpeellista esimerkiksi ammatin suorittamisen kannalta. Sisäpiiriläisellä tarkoitetaan henkilöä, joka on merkitty julkisen osakeyhtiön sisäpiiriluetteloon. Sisä- piiriluettelo sisältää ne henkilöt, jotka pääsevät käsiksi sisäpiiritietoon ja/tai työskentelevät liikkee- seenlaskijalle (Finanssivalvonta 2018). Sisäpiiriluetteloita on kahdenlaisia: hankekohtaisia ja pysy- viä. Pysyvä sisäpiiriluettelo sisältää kaikki henkilöt ja työntekijät, joilla on jatkuva pääsy kaikkeen sisäpiiritietoon. Tähän listaan voi kuulua esimerkiksi yhtiön hallitus, toimitusjohtaja, talousjohtaja ja muut johtajat. Hankekohtainen sisäpiiriluettelo sisältää puolestaan kaikki henkilöt, joilla on sisäpiiri- tietoa jonkin hankkeen tiimoilta. Esimerkiksi ulkoiset konsultit ja tilintarkastajat merkitään usein 24 näihin listoihin (NASDAQ: Pörssin sisäpiiriohje 2020, 5). Finanssivalvonnan tehtävänä onkin valvoa näiden sisäpiiriluettelolaisten ja heidän läheistensä kaupankäyntiä, jotta lain rajojen sisällä pysytään kauppoja tehdessä. Suomessa Finanssivalvonta on laatinut 10 toimintaohjetta, joilla sisäpiiriläinen voi käydä kauppaa rahoitusvälineillä rikkomatta markkinalainsäädäntöä. Monet ohjeista on luonteeltaan intuitiivisia ja ymmärrettäviä, kuten esimerkiksi se, että optiokaupan kanssa tulee olla erityisen varovainen sekä se, että yhtiön sisäpiirilistoista vastaavalta kannattaa kysyä ohjausta, jos suunnitelmissa on yhtiön rahoi- tusvälineiden vaihdanta (Finanssivalvonta 2018). Taulukko 3: Sisäpiiriläisen 10 kaupankäyntiohjetta (Finanssivalvonta 2018) 1. Pyri tekemään pitkäaikaisia sijoituksia 2. Voit käyttää kaupankäyntiohjelmia 3. Harkitse tarvetta rajata omaisuudenhoitosopimuksen ulkopuolelle yhtiösi rahoitusvälineet, jos sinulla tai lähipiirilläsi on sellainen 4. Tee liiketoimet muulloin suljetun ajanjakson ulkopuolella 5. Ajoita kaupankäyntisi tulosjulkistuksen jälkeiseen ajankohtaan 6. Varmista yhtiön sisäpiirivastaavalta, onko kaupankäynnillesi mahdollista sisäpiiriestettä 7. Kannustinjärjestelmään liittyvien optioiden vastaanottaminen ja niiden merkitseminen on lähtökohtai- sesti mahdollista 8. Älä myy tai osta optioita, jos hallussasi on sisäpiiritietoa 9. Rahoitusvälineiden ostaminen on mahdollista, jos on objektiivisesti perusteltua olettaa, että hallussasi oleva sisäpiirikielto on sen hinnan kannalta selkeästi kielteistä 10. Rahoitusvälineiden ostaminen, myyminen ja merkitseminen on mahdollista, jos tiedät liiketoimen toi- sella osapuolella olevan hallussaan sama sisäpiiritieto kuin sinulla Sisäpiiriläisenä näistä ohjeista tärkein lienee se, että kaupankäynnin tulee tapahtua suljetun jakson ulkopuolella. Suljettu ajanjakso tarkoittaa 30 päivän aikaikkunaa ennen osavuosikatsauksen, listayh- tiön taloudellisen raportin tai tilinpäätöksen julkistamista, ja tuona aikana yhtiön hallituksen jäsen, toimitusjohtaja tai muu johtotehtävissä toimiva ei saa itse käydä kauppaa tai suositella muita teke- mään kauppaa kyseenomaisilla rahoitusvälineillä (NASDAQ: Pörssin sisäpiiriohje 2020, 5). Tämän lisäksi kyseisen ”taloudellisen raportin valmisteluun osallistuvan henkilön ei ole suositeltavaa tehdä liiketoimia” suljetun ikkunan aikana, vaikkakaan täyttä kieltoa ei ole (NASDAQ: Pörssin sisäpiiriohje 2020, 6). Huomioitavaa on kuitenkin se, että kielto ei ole täysin absoluuttinen, vaan siitä voidaan joustaa MAR-asetuksen asettamien edellytyksien täyttyessä. Eräs esimerkki tästä on se, jos ”vakavat rahoitusvaikeudet edellyttävät osakkeiden myyntiä” (MAR 19:12). 25 Toinen sisäpiiriläiselle tärkeä ohje liittyy sallituista sisäpiirikaupoista ilmoittamiseen. Sisäpiiriläisen tai hänen lähipiiriinsä kuuluvan tulee ilmoittaa Finanssivalvonnalle ja yhtiölle kolmen arkipäivän ku- luessa kaupankäyntitapahtuman toteutuksesta (NASDAQ: Pörssin sisäpiiriohje 2020, 6). Yleisenä ohjenuorana sisäpiiriläiselle voidaan lisäksi sanoa, että askarruttavissa tilanteissa tulisi ottaa yhteyttä yhtiön sisäpiirivastaavaan. Sisäpiirivastaava tarkoittaa pörssilistatuissa yhtiöissä henkilöä, joka valvoo sisäpiirihallintoon kuuluvien tehtävien suorittamista (Nasdaq Helsinki, 2021). Tämän kaiken ohella Finanssivalvonnan ohjeistuksessa kerrotaan muun muassa, että sisäpiiritietoon liittyvää rahoitusvälinettä voidaan ostaa, myydä tai merkitä, jos sama sisäpiiritieto on hallussa myös vaihdan- nan vastapuolella. Sisäpiiritiedon tahallinen tai törkeästä huolimattomuudesta johtuva väärinkäyttö on Suomessa ran- gaistavaa rikoslain 51 luvun 1 pykälän nojalla. Törkeästä tekomuodosta säädetään samaisen luvun 2 pykälässä (RL 51:1–2). Sisäpiiritiedon väärinkäyttämisestä voidaan tuomita sakkoon tai vankeuteen enintään kahdeksi vuodeksi, ja törkeän tekomuodon osalta rangaistus on vähintään neljä kuukautta ja enintään neljä vuotta vankeutta. Törkeä tekomuoto tulee kyseeseen, kun henkilö väärinkäyttää sisä- piiritietoa tahallisesti tavoitellakseen erityisen suurta hyötyä tai huomattavaa henkilökohtaista etua, taikka käyttää rikoksen tekemisessä hyväksi erityisen vastuullista asemaansa laissa määritellyissä yh- teisöissä, taikka rikos tehdään erityisen suunnitelmallisesti, ja sisäpiirintiedon väärinkäyttö on myös kokonaisuutena arvostellen törkeä. Myös väärinkäytön yritys on rangaistavaa. Sisäpiiritiedon väärinkäyttämisestä voi kiinni jäädessä seurata rikosoikeudellisten seurauksien ohella hallinnollisia seurauksia. Markkinoiden väärinkäyttöasetus velvoittaa jäsenvaltiot säätämään valtuu- desta toteuttaa hallinnollisia seurauksia. MAR:iin perustuen oikeushenkilölle, kuten vaikkapa yrityk- selle tai yhdistykselle, voidaan määrätä kokonaisliikevaihdosta mitattuna enintään 15 % suuruinen tai 15 000 000 € kokoinen hallinnollinen seurausmaksu. Luonnollisille henkilöille samainen seuraus on enintään 5 000 000 €. Tämän lisäksi voidaan määrätä erilaisia lisäseuraamuksia, kuten toimiluvan peruuttaminen tai kielto toimia johtotehtävissä, mutta mahdolliset seuraamukset eivät rajoitu vain näihin (MAR 30 artikla). MAR:n lisäksi Suomen kansallinen lainsäädäntö myöntää lisämääreitä ase- tusta täydentämään. Koska MAR on suunnattu liikkeeseenlaskijoille, jättää se sääntelyn ulkopuolelle muun muassa eläkeyhtiöt ja rahastoyhtiöt. Kotimaisen lainsäädännön tarkoituksena on siis laajentaa lainsäädäntöä koskemaan myös muita rahoitusmarkkinatoimijoita. Vaikka sisäpiirikauppa on ollut Suomessa säädeltyä vuodesta 1989 alkaen ja sakkotuomioita ja hal- linnollisia seuraamusmaksuja on tullut arvopaperimarkkinalain voimaantulohetkestä lähtien, ovat varsinaiset vankeustuomiot yleistyneet vasta vuodesta 2006 alkaen (Pietiläinen 2008). Ehkäpä 26 Suomen tunnetuin sisäpiirikauppaan liittyvä tapaus on Talvivaaran Kaivososakeyhtiö Oyj:n johdon tekemät laittomat sisäpiirikaupat ja tiedottamisrikokset vuosina 2011–2013. Tuolloin kaivoksen joh- tajana toiminut Lassi Lammassaari teki osakekauppoja satojen tuhansien eurojen arvosta, ansaiten yhteensä 220 000 € rikoshyötyä. Lammassaari myi osakkeita tietäessään, että toteutunut nikkelituo- tanto oli alhaisempi, kuin julkiset ennusteet antoivat ymmärtää, sekä lisäksi koko kaivoksen kannat- tavuuteen vaikuttava nikkelipitoisuus oli matalampi kuin julkisuudessa oli kerrottu. Lopulta Lam- massaari tuomittiin kuuden kuukauden ehdolliseen vankeusrangaistukseen, menettämään rikoshyö- tynä 50 000 € sekä maksamaan 30 päiväsakkoa, eli hänen tuloillaan noin 3 000 € (MTV Uutiset 2017). Myöhemmin samassa vyyhdissä syytettiin sisäpiirikaupoista myös yhtiön entistä toimitusjoh- taja Pekka Perää, entistä varatoimitusjohtaja Saila Miettinen-Lähdettä sekä yhtiön entistä kaupallista johtajaa Pekka Erkinheimoa. Syyttäjän mukaan kolmikko syyllistyi törkeään sisäpiiritiedon väärin- käyttöön käydessään Talvivaaran osakkeiden merkintäoikeuksilla kauppaa vuonna 2013. Lopulta Helsingin käräjäoikeus kuitenkin hylkäsi syytteet, sillä se katsoi, ettei vuosituotantotavoitteen las- kulla ja nikkelipitoisuuden laskevalla trendillä olisi ollut huomattavaa vaikutusta osakkeen arvoon, eikä siten kolmikolla ollut hallussaan sisäpiiritietoa (Helsingin Sanomat 2020). Syyttäjät valittivat myöhemmin asiasta korkeimpaan oikeuteen, mutta eivät saaneet valituslupaa. Talvivaaran tapaus osoittaa selkeästi sisäpiirikauppaan liittyvän epävarmuuden ja vaikeuden. Koska kaikki sisäpiiriläisten tekemät kaupat eivät ole lainvastaisia, voi olla todella vaikeaa tehdä rajanvetoa laillisen ja laittoman kaupan välillä. Koska todistustaakka on oikeusvaltiossa yleensä syyttäjällä, eikä pelkkä kaupan ajoitus riitä todisteeksi sisäpiirikaupasta, on tutkivalle viranomaiselle yleensä vaikeaa vedenpitävästi osoittaa sisäpiirikaupan tapahtuneen. 4.2 Sisäpiirikaupat ja rahoitusteoria Rahoituksessa ja taloustieteessä sisäpiirikauppoja tarkastellaan niin sanotun tehokkaiden markkinoi- den hypoteesin kautta (Efficient Market Hypothesis, EMH). EMH on taloustieteilijä Eugene Faman vuonna 1970 julkaisema ja popularisoima aikaisempaan markkinatehokkuuden tutkimukseen pohjau- tuva teoria, jonka keskiössä on se, että julkisilla markkinoilla kauppaa käytävän sijoitushyödykkeen hinta heijastaa kaiken julkisen ja yksityisen informaation, jolloin kenelläkään ei ole mahdollisuutta ansaita systemaattisesti ylituottoa sijoituksesta (Fama 1970). Markkinatehokkuus, eli tarkemmin al- lokatiivinen tehokkuus, tarkoittaa yksinkertaisimmillaan sitä että ”taloudelliset varat ohjautuvat sinne, mistä saa parhaan tuoton” (Kurenmaa 2003). EMH:n tausta-ajatuksena on se, että markkinat voidaan jakaa kolmeen eri kategoriaan niin sanotun tehokkuuden kautta. Markkinoita on teorian mukaan heikosti tehokkaita, puolivahvasti tehokkaita 27 sekä vahvasti tehokkaita (Fama 1970). Heikosti tehokkailla markkinoilla teorian mukaan kaikki his- toriallinen markkinatieto näkyy sijoitusinstrumentin hinnassa. Heikosti tehokkailla markkinoilla tek- ninen analyysi ei siis teorian mukaan luo ansaintamahdollisuuksia. Puolivahvasti tehokkailla mark- kinoilla puolestaan teorian mukaan ajatellaan, että kaikki julkinen tieto on heijastunut sijoitusinstru- mentin hintaan. Tässä tapauksessa tekninen- tai fundamenttianalyysi ei siis luo ansaintamahdolli- suuksia sijoitushyödykkeellä, koska kaikki julkinen tieto on jo heijastunut hintaan. Viimeinen ja ai- healueemme kannalta merkittävin osuus koskee kuitenkin vahvasti tehokkaita markkinoita. Vahvasti tehokkailla markkinoilla ajatellaan teorian mukaan, että kaikki julkinen sekä yksityinen tieto heijas- tuu osakkeen hintaan. Tällaisessa tilanteessa ei siis pitäisi olla teorian mukaan mahdollista saada sys- temaattista ylituottoa minkäänlaisin informaatioon pohjautuvin keinoin (Vallely, 2018). Näistä kol- mesta markkinatehokkuuden muodosta seuraa teorian mukaan se, että koska osakkeen hinta heijastaa aina käyvän markkina-arvonsa, on ylituottoa pitkällä ajanjaksolla mahdotonta saada ylimääräistä ris- kiä ottamatta (Fama 1970). EMH:lle on kuitenkin esitetty lukuisia vasta-argumentteja. Aihetta kuvaa ehkä parhaiten seuraava taloustieteilijöiden keskuudessa ikoniseksi muodostunut vitsi: Kaksi ekonomistia kävelee kadulla. Toinen heistä sanoo: "Katso, tuolla on kahdenkym- menen dollarin seteli maassa!" Toinen ekonomisti vastaa: "Ei ole. Jos olisi, joku olisi jo poiminut sen (Corcoran 2024). Vitsiin kyteytyy EMH-kritiikin kärki. On melko paradoksaalista, että samaan aikaan markkinoiden oletetaan olevan täysin tehokkaat ja heijastavan samalla kaiken olemassa olevan informaation, mutta käytännössä sijoittajat etsivät jatkuvasti anomalioita ja mahdollisuuksia ylituottoon. Jos markkinat todella olisivat vahvasti tehokkaat, ei poikkeamia tai osakkeiden aliarvostuksia pitäisi käytännössä esiintyä. Useat empiiriset havainnot ovat osoittaneet, että markkinoilla esiintyy anomalioita. Hyväksi esimerkiksi tästä voimme nostaa vaikkapa momentum-ilmiön. Momentum-ilmiö viittaa markkinoilla havaittavaan kaavaan, jossa aikaisempina kuukausina hyvin tuottaneet osakkeet nousevat myös tule- vaisuudessa (Jegadeesh & Titman 2001). Tämä on ilmiselvästi ristiriidassa EMH:n kanssa, sillä teo- rian mukaan investointihyödykkeen arvon ei pitäisi määräytyä historiallisen datan seurauksena. EMH saattaakin siis olla melko idealistinen kuvaus markkinoiden toimintamekanismeista, ja jättää teoriana huomiotta muun muassa behavioraalisen rahoituksen näkökulmat sijoittajien rationaalisuudesta. Sisäpiirikauppojen kannalta huomattavinta on, että jos oletetaan markkinoiden toimivan tehokkaasti, ei sisäpiiritiedolla pitäisi pystyä ansaitsemaan ylituottoa. Käytännössä kuitenkin tutkimukset ja em- piria ovat osoittaneet sisäpiirikauppojen tuottavan odotettua paremmin, joka viittaa siihen, että mark- kinat eivät ole täysin vahvasti tehokkaat. (Doffou 2007, 5) Kysymykseksi syntyykin se, että missä 28 määrin yksityinen informaatio vaikuttaa hintoihin ja kuinka tehokkaasti markkinat todella heijastavat informaatiota. Toinen sisäpiirikauppoihin merkittävästi kytkeytyvä rahoitusteoria liittyy signalointiteorioihin. Sig- nalointi voi tarkoittaa rahoituksen ja taloustieteen kontekstissa esimerkiksi yrityksen pääomaraken- teeseen liittyviä ominaisuuksia (Niskanen & Niskanen 2013, 290 - 291), mutta sisäpiirikauppojen yhteydessä signalointi tarkoittaa yrityksen johdon tai muiden sisäpiiriläisten tekemiä kauppoja, joissa on mahdollisuus välittää markkinainformaatiota esimerkiksi yrityksen tulevaisuudennäkymistä. Koska sisäpiiriläisillä on velvollisuus julkistaa yritykseen liittyvät kauppansa, voivat esimerkiksi yri- tykseen liittyvät osakeostot olla merkki siitä, että yrityksen uskotaan olevan aliarvostettu. Vastavuo- roisesti myyntien voidaan uskoa viestivän mahdollisista ongelmista yrityksessä, ja siten viestiä osak- keen olevan esimerkiksi yliarvostettu. Yrityksen sisäpiiriläisten tekemät myynti- tai ostopäätökset voivat siis toimia signaaleina markkinoille yrityksen arvosta. Toisaalta signalointiteorian sovelletta- vuuden ongelmaksi syntyy se, että sisäpiiriläiset saattavat tehdä myös ei-sanktioitua sisäpiirikauppaa esimerkiksi verotuksellisista syistä, jolloin myynti- tai ostosignaalit eivät ole aina vedenpitäviä. Kaikki ostot eivät siis välttämättä tarkoita aliarvostusta, eivätkä kaikki myynnit ennusta laskua. Kolmas ja tässä tutkielmassa viimeinen läpikäytävä sisäpiirikauppoihin liittyvä rahoitusteoria on in- formaatioasymmetriaan perustuva teoria. Asymmetrinen eli epätasaisesti jakautunut informaatio tar- koittaa rahoitusteorian ja sisäpiirikauppojen kontekstissa markkinatilannetta, jossa joillain markkina- toimijoilla on hallussaan enemmän informaatiota kuin toisilla. Sisäpiiri-ulkopiiri-jako onkin erin- omainen malliesimerkki tästä tilanteesta. Asymmetristä informaatiota pidetään epätoivottavana, sillä se voi johtaa markkinoiden tehottomuuteen tai teorian tasolla jopa luhistumiseen haitallisen valikoi- tumisen ja moraalikadon kautta (Akerlof 1970). Haitallinen valikoituminen (adverse selection), tarkoittaa sitä, että markkinatoimijat eivät erota hyvää ja huonoa informaatiota toisistaan, mikä johtaa siihen, että huonommin informoidut sijoittajat tekevät itselleen epäedullisia päätöksiä. Sisäpiirikontekstissa tämä tarkoittaa sitä, että sijoittaja ei välttämättä tiedä, mikä osa hinnasta perustuu yhtiön ominaisuuksiin eli fundamentteihin, ja mikä osa perustuu sisäpiiritietoon. Moraalikato (moral hazard) puolestaan tarkoittaa kontekstissamme sitä, että asym- metrisesta informaatiosta nauttiva ottaa suurempia riskejä, kantamatta kuitenkaan täysiä vastuita ja jonkun toisen kustannuksella. Esimerkiksi yritysjohto saattaisi tapauksessamme olla altis tekemään yritykseen liittyviä päätöksiä, jotka eivät hyödyttäisi osakkeenomistajia, vaan johtoa itseään (Padilla, 2002). Molemmat sisäpiirikauppojen informaatioasymmetriaan liittyvät ongelmat ovatkin vankasti yhteydessä päämies-agentti-ongelmaan. 29 Sisäpiirikauppojen kieltoa puoltavien henkilöiden sääntelyn teoreettinen ajattelu perustuu yleensä kolmeen eri ajattelumalliin. Merkittävimmän ajattelutavan mukaan sisäpiirikauppojen laillisuus voi johtaa rahoitusmarkkinoilla ”likviditeettipuutteeseen, johdon vääriin tavoitteisiin tai sijoittajien luot- tamuksen menetykseen pääomamarkkinoita kohtaan” (Fishman & Hagerty 1992, 106). Sijoittajat saattavat menettää siis luottamuksensa markkinoiden reiluuteen ja oikeudenmukaisuuteen, erityisesti silloin, kun he kokevat, että sisäpiiriläiset hyödyntävät etuoikeutettua tietoa. Tällöin sijoittajat vähen- tävät kaupankäyntiään peläten, että heidän sijoituksensa eivät ole turvassa. Tämä puolestaan johtaa kaupankäyntivolyymien vähenemiseen, mikä heikentää markkinoiden likviditeettiä. Vähäinen likvi- diteetti tekee osakkeiden osto- ja myyntiprosesseista vaikeampia ja altistaa ne suurille kurssivaihte- luille, vaarantaen potentiaalisesti jopa koko talouden toiminnan. Toisen ajattelumallin mukaan sisä- piirikaupan salliminen puolestaan ”vahingoittaa kyseiset arvopaperit liikkeeseen laskenutta yhtiötä” (Kurenmaa 2003). Kolmas ajattelutyyli puolestaan perustelee kieltoa siten, että kyseessä oleva infor- maatio on yhtiön omaisuutta, ja siksi sitä ei saa päästää suunniteltua ennen markkinoille. (Kurenmaa 2003). Tämän lisäksi joidenkin sääntelyä kannattavien mielestä sisäpiirikaupan hyväksyminen lan- nistaisi sijoittajia informaation keräämisestä sekä vinouttaisi informaatiojakaumaa entisestään, joh- taen tehottomampiin markkinoihin (Fishman & Hagerty 1992, 107). Vastakkaisen mielipiteen mukaan sisäpiirikaupan salliminen voisi parhaimmissa tapauksissa jopa edistää markkinoiden tehokkuutta. Manne (1966) tunnetusti argumentoi, että sisäpiirikaupat voisivat nopeuttaa informaation pääsyä markkinoille, joka puolestaan parantaisi markkinahintojen paikkansa- pitävyyttä. Jos yrityskaupat olisivat sallittuja, sijoittajille saattaisi siis tulla suurempi kannustin seu- rata ja analysoida yrityksen toimintaa, josta voisi seurata markkinatiedon tehokkuutta. Markkinoiden tehokkuuden parantuminen puolestaan vaurastuttaisi koko markkinataloutta, sillä resursseja ylijää- mäsektorilta alijäämäsektorille ohjaava markkinamekanismi toimisi paremmin (Kurenmaa 2003). Tiivistetysti voidaankin väittää kiellon vastustajien ajatusten pohjautuvan siihen, että koska sisäpiiri- kaupan kieltoa on vaikea jollei jopa mahdoton estää, tulisi siitä luopua. Jakolinjat vaikuttavat synty- neen tässä suhteessa siis ”kieltoa vastustavien ekonomistien ja kieltoa puoltavien oikeustieteilijöiden” väliin (Kurenmaa 2003). Toisaalta myös taloustieteen näkökulmasta sisäpiirisääntelylle voi olla pe- rusteita. Bhattacharyan & Daoukin (2002) mukaan sisäpiiritiedon väärinkäytön laittomuus alentaa pääoman hankintakustannuksia. 30 5 Data-analytiikka sisäpiirikauppojen tunnistamisessa 5.1 Perinteiset ja tilastolliset menetelmät Tässä kappaleessa käydään läpi, miten epäilykset laittomista sisäpiirikaupoista heräävät ja miten epäi- lyksiä tutkitaan perinteisiin ja tilastollisiin menetelmiin perustuen. Laittomista sisäpiirikaupoista il- moitetaan valvovalle viranomaiselle harvoin, koska kyseessä on rikos, jossa ei nähdä olevan asian- omistajaa perinteisessä mielessä, sillä rikoksen uhrit jäävät yleensä piiloon (Kurenmaa 2003, 275). Sisäpiirikauppa on rikoksena perinteisesti ollut aliedustettu tuomioistuimissa todelliseen rikosmää- rään nähden, koska rikoksia on ollut vaikea huomata ja vielä vaikeampaa todistaa rikoksiksi, sillä yksi epäilyttävästi ajoitettu transaktio ei vielä riitä sisäpiiritiedon väärinkäytön todisteeksi. Laittoman sisäpiirikaupan huomaaminen ja todistaminen on monimutkainen ja monivaiheinen pro- sessi (Mazzarisi ym. 2024, 2). Yleensä sisäpiiririkosten väärinkäytön tutkiminen alkaa pörssitiedot- teen julkistamisesta. Rahoitusvälineiden liikkeeseenlaskijan tulee säännöllisen ja jatkuvan tiedonan- tovelvollisuuden perusteella julkaista sisäpiiritieto välittömästi ja samanaikaisesti, ettei sisäpiiritietoa voida hyödyntää epäoikeudenmukaisesti (Kurenmaa 2003, 276-277). Tutkinnan alkuvaiheessa kerä- tään tietoa suurista ja epäilyttävästi ajoitetuista kaupankäyntitapahtumista halutulta aikaväliltä, esi- merkiksi suljetun ajanjakson ajalta. Tässä vaiheessa ei vielä epäillä ketään, vaan kyse on tavanomai- sesta tiedonkeruusta. Jos tästä tietoaineistosta huomataan merkittäviä väärinkäytöksiin viittaavia ano- malioita, kohdistetaan havaittuihin transaktioihin lisätutkintaa (Mazzarisi ym. 2024, 2). Tämän jäl- keen selvitetään, onko kauppoja ollut mahdollista tehdä järkeviin analyyseihin tai strategiaan perus- tuen. Jos tälle ei löydy tukea, aletaan selvittämään onko kaupantekijöillä kytköksiä liikkeeseenlaski- jaan, eli selvitetään ovatko hankekohtaiset sisäpiiriläiset, pysyvät sisäpiiriläiset tai sisäpiiriläisten lä- heiset hyödyntäneet saamaansa sisäpiiritietoa laittomasti. Sisäpiiriläisten lähipiiri ja lähiyhtiöt tutki- taan erikseen siksi, koska on melko harvinaista sekä tekijältään ajattelematonta käyttää sisäpiiritietoa hyväkseen, tietäen että on mahdollisten tutkintojen kohteena. Ajatuksena on siis se, että tietoa vuo- detaan lähipiirille tai -yhtiölle sijaisen kaupankäynnin toteuttamisen vuoksi (Kurenmaa 2003, 281). Viimeinen prosessin vaihe on oikeuskäsittely, jossa mahdollinen sisäpiiritiedon väärinkäyttö käsitel- lään (Mazzarisi ym. 2024, 2). 31 Kuvio 4: Sisäpiirikauppojen tunnistamis- ja todistamisprosessi (Mazzarisi ym. 2024, 2) Anomaliatunnistuksen perinteisiä havaintomenetelmiä on monia. Kurenmaan (2003, 286–287) mu- kaan ainakin 2000-luvun alussa suuri osa väärinkäyttötapauksista on tullut ilmi päivittäisen rahoitus- markkinoiden seurannan mukana. Tähän kategoriaan kuuluu pörssitiedotteiden kuten muun muassa yritysfuusioita tai julkisia ostotarjouksia edeltävien kaupankäyntipäivien seuranta. Tilastollisten me- netelmien alaisuuteen kuuluu puolestaan päivittäisten kaupankäynnin tunnuslukujen, kuten vaihdan- tavolyymin tai hintamuutosten seuranta. Tilastollisten menetelmien tarkoituksena on nostaa esiin piikkejä tai muita huomattavia kuvioita kaupankäynnissä ja siten tutkia tarvetta mahdolliselle lisätut- kinnalle. Jos edellytykset täyttyvät, voi varsinainen sisäpiiritutkinta alkaa. Koska kaikkien esiinnousseiden si- säpiirikauppojen tutkinnalle ei välttämättä löydy riittävästi resursseja, tehdään yleensä lisäkarsintaa tutkittavista kaupoista niiden arveltujen markkinavaikutusten perusteella. Lisätutkinnassa priorisoi- daan siis sellaisia kauppoja, joiden arvellaan vaikuttavan kaikista negatiivisimmin markkinoiden toi- mintaan ja markkinaluottamukseen (Kurenmaa 2003, 289). Varsinaisen rikostutkinnan toteuttaa Suo- men poliisi Finanssivalvonnan tutkintapyynnöstä. Tämän lisäksi Finanssivalvonta tutkii epäiltyjä väärinkäytöksiä ns. whistleblowing-järjestelmän kautta. Whistleblowing tarkoittaa tässä kontekstissa sitä, että yksityinen henkilö tekee joko nimettö- mästi tai omalla nimellään Finanssivalvonnalle ilmoituksen epäillyistä väärinkäytöksistä. Whist- leblowing-järjestelmää voidaan käyttää myös muiden markkina- ja talousrikoksien selvittämiseen, mutta erityisen hyödyllinen se on muuten vaikeasti havaittavien sisäpiirikauppojen huomaamisessa Oikeudenkäynti Rikostutkinta Kauppojen rationaalisuuden arviointi Anomaliatunnistus 32 (Finanssivalvonta: väärinkäytösepäily 2025). Whistleblowingin kaltaisia menetelmiä hyödyntävät myös markkinatoimijat. Markkinatoimijat ovat velvoitettuja valvomaan kaupankäyntiä ja ilmoitta- maan Finanssivalvonnalle kyseenalaisista transaktioista (Finanssivalvonta: sisäpiiritiedon käyttö- ja ilmaisukiellot koskevat muitakin kuin sisäpiiriläisiä 2022). Vaihdantavolyymin ja hintamuutosten seurannan menetelmiä on olemassa useita. Esimerkiksi poik- keava ylituotto joko päivätasolla tai kumulatiivisesti voivat viitata laittomiin sisäpiirikauppoihin. Poikkeava ylituotto (abnormal return, AR) mittaa kuinka paljon tuotot poikkeavat odotetuista tuo- toista, ja signaloi siten epänormaaliutta rahoitusvälinevaihdannassa. Poikkeavan ylituoton kaava on yksinkertainen: 𝐴𝑅 = 𝑅𝑡 − 𝐸[𝑅𝑡] (1) missä AR on poikkeava ylituotto, 𝑅𝑡 on toteutunut tuotto ja 𝐸[𝑅𝑡] on rahoitusvälineen odotettu tuotto. Vastaavasti kumulatiivinen ylituotto (cumulative abnormal return, CAR) arvioi tuottotasoa halutulla aikaikkunalla: 𝐶𝐴𝑅 = ∑ 𝐴𝑅 (2) Vaihdantavolyymia voidaan arvioida puolestaan volyymisuhteen (volume ratio) avulla. Volyymi- suhde tarkoittaa yksinkertaisesti suhdelukua, joka mittaa päivittäistä vaihdantavolyymiä suhteutet- tuna keskimääräiseen vaihdantavolyymiin jollain tutkitulla aikavälillä. Edellä mainittujen menetelmien hienous liittyy niiden toteutukselliseen helppouteen, sillä suurien poikkeamien etsiminen datasta ei ole kovin vaikeaa yksinkertaisten analyysimuotojen avulla. Ne eivät kuitenkaan ole toiminnallisesti täydellisiä, sillä merkittävä osa sisäpiirikaupoista on piilotettu jopa useamman henkilö- tai yrityskytköksen päähän. Tämä tarkoittaa kysyntää edistyneemmille menetel- mille, kuten sosiaaliselle verkostoanalyysille tai aiemmin esitellylle tilastotieteelliselle GARCH:ille. Sosiaalinen verkostoanalyysi tai pelkkä verkostoanalyysi tarkoittaa erilaisia tutkimusmenetelmiä, joilla voidaan tutkia muun muassa informaation tai muiden resurssien vaihtoa toimijoiden kesken (Haythornthwaite 1996). Verkostoanalyysi keskittyy toimijoiden välisiin yhteyksiin sekä näiden yh- teyksien rakenteiden analysoimiseen ja selvittämiseen. Rahoitustieteen ja sisäpiirikauppojen tunnis- tamisen ohella sosiaalisella verkostoanalyysillä onkin käyttökohteita muun muassa rikostutkinnassa ja epidemiologiassa. Sisäpiirikauppojen tunnistamisessa verkostoanalyysiä saatetaan toteuttaa siten, 33 että epäilyttävän kaupan huomattuaan tutkintaa kohdistetaan transaktion toteuttaneen henkilön lähi- piiriin tai lähiyrityksiin. Aikasarja-dataan pohjautuva GARCH:in suosio ja hyödyllisyys selittyy sen volatiliteettikeskeisyy- dellä. Korkean volatiliteetin osakkeissa GARCH saattaa tunnistaa ne ajankohdat, joissa volatiliteetti on korkea ilman selkeää markkinatietoperusteista syytä. Jos esimerkiksi volatiliteetti kasvaa ennen tulosjulkistusta, voi se viitata sisäpiiritiedon väärinkäyttöön. Kuten muidenkin työkalujen ja menetel- mien kanssa, myös GARCH toimii parhaiten osana monimetodista havainnointia. 5.2 Koneoppimismenetelmät ja tekoäly Perinteisten ja tilastotieteellisten analyysimenetelmien lisäksi viimeisen muutaman vuosikymmenen aikana big data -analytiikkaan, koneoppimiseen ja tekoälyyn pohjautuvat metodit ovat tulleet käyttö- kelpoisiksi ja suosituiksi erityisesti tilanteissa, joissa laajasta ja monimutkaisesta datasta tulisi tunnis- taa epäsäännöllisiä ilmiöitä kuten sisäpiiritiedon väärinkäyttöä. Koneoppimisen käyttökelpoisuus si- säpiirikauppojen tunnistamisessa piilee siinä, että se voi havaita monimutkaisia kuvioita ja yhteyksiä, joita perinteisillä tilastollisilla menetelmillä ei pystytä tunnistamaan. Syväoppimisen kaltaiset tekoälypohjaiset menetelmät voivat käsitellä valtavia tietomääriä ja siten löytää epäilyttäviä kaavoja kaupankäynnissä. Rahoitusmarkkinavalvontaa tekevien viranomaisten, kuten suomalaisen Finanssivalvonnan ja Yhdysvaltalaisen SEC:n, valvontajärjestelmät saattavat esi- merkiksi käyttää ohjattuun oppimiseen perustuvia malleja, jotka koulutetaan historiallisten sisäpiiri- kauppojen perusteella. Vaihtoehtoisesti valvontaviranomaisilla saattaa olla käytössä ohjaamattomaan oppimiseen perustuvia valvontajärjestelmiä, jotka etsivät poikkeavuuksia datasta ilman ennakkokä- sitystä. Tarkkaa tietoa valvontaviranomaisten käyttämistä järjestelmistä ei juuri ole saatavilla niiden rikos- tutkinnallisen arvonsa takia, mutta ainakin kahden SEC:n data-analytiikkatyökalujen toiminnallisuu- den yleisperiaatteista tiedetään. ARTEMIS (Advanced Relational Trading Enforcement Metrics) on näistä ensimmäinen, ja se toimii analysoimalla SEC:n optio- ja vaihdantatietokantoja etenkin sarja- rikkomusten varalta. ARTEMIS on tekoälypohjainen ja käyttää eri metriikoita asettamaan sijoittajia arvojärjestykseen markkinarikostodennäköisyyden perusteella (Hawke 2019). Luonnollisesti nämä metriikat eivät ole yleisölle julkisia. Toinen SEC:n esittelemä työkalu sisäpiirikauppojen tunnistami- seen on ATLAS (Abnormal Trading and Link Analysis System), joka keskittyy sarjarikkomusten sijaan ensikertalaisiin (Engstrom & Ho 2020, 816). Huomionarvoista työkaluissa on se, että kumpi- kaan ei ollut ainakaan vuonna 2019 täysin automatisoitu, joskin tilanne on saattanut muuttua. 34 Ohjatun oppimisen järjestelmien alle kuuluu useita eri algoritmeja. Yleistä niille kuitenkin on se, että ne ovat pitkälti luokittelualgoritmeja. Luokittelualgoritmeihin kuuluvat muun muassa päätöspuut (de- cision tree) ja satunnaismetsä (random forest). Päätöspuiden toimintamekanismi perustuu siihen, että ne jakavat datan eri haaroihin päätöksiin pe- rustuen. Algoritmi siis läpikäy erilaisia mahdollisia muuttujia ja tekee valintoja niiden perusteella, jolloin lopputuloksena syntyy lehtipuuta muistuttava rakenne. Päätöspuut ovat skaalautuvia ja niiden toimintamekanismi on helppo ymmärtää, mutta ne ovat alttiita ylisovittamiselle (Golmohammadi ym. 2014). Ylisovittaminen tarkoittaa mallien ennustavan harjoitusdatan perusteella hyvin, mutta reagoi- vat ja ennustavat huonosti, kun mallille syötetään uutta dataa. Ylisovittamisessa harjoitusdata on ra- kenteellista, mutta malli ei toimi koska rakenne ei sovellu muuta erilaista varten. Kyseessä on yleinen koneoppimiseen ja ennustealgoritmeihin liittyvä ongelma. Päätöspuualgoritmeja on mahdollista hyödyntää tilanteissa, joissa halutaan mallintaa sisäpiirikaup- paan liittyviä päätöksentekopolkuja. Muuttujat kuten kaupankäyntiajankohta ja volyymipoikkeamat voivat muodostaa mallin, joka erottaa normaalit ja asiaankuuluvat transaktiot anomalioista. Niiden etuna on etenkin tulkittavuus, sillä valvontaviranomainen voi niiden avulla jäljittää miksi jokin transaktio nähdään algoritmin silmissä riskipitoisena ja epänormaalina, Päätöspuista on jatkokehitetty lisää algoritmeja, joista etenkin GBDT (Gradient-Boosted Decision Tree) soveltuu sisäpiirikaupan tunnistamiseen. GBDT eroaa normaalista päätöspuusta siten, että se hyödyntää gradienttitehostusta (gradient boosting) ennustetarkkuuden parantamiseksi. Gradienttite- hostus lisää uusia puita iteratiivisesti siten, että jokainen pyrkii korjaamaan edellisten puiden tekemät virheet (Deng ym. 2019). Tämä johtaa siihen, että GBDT on erityisen tehokas monimutkaisten ja epälineaaristen kaavojen huomaamisessa. Dengin ym. (2019) mullistavassa tutkimuksessa huomat- tiin, että GBDT on tehokkain, kun suljettu aikaikkuna on 90 päivää. Tämä indikoi sitä, että suljetun aikaikkunan pituutta tulisi mahdollisesti tarkastella enemmän. Erityisen arvokasta tosin on se, että menetelmä menestyi kaikkia muita vertailtuja menetelmiä paremmin laittomien sisäpiirikauppojen tunnistamisessa, joskin huomioon on otettava se, että analysoitu data oli kiinalaista markkinadataa, joka herättää kysymyksiä tutkimuksen toistettavuudesta esimerkiksi länsimaisilla markkinoilla. 35 Kuvio 5: Yksinkertainen sisäpiirikauppojen päätöspuu Satunnaismetsä on eräs tunnetuimmista klassifikaatiomenetelmistä ja se puolestaan yhdistää suuren määrän päätöspuita parantaakseen luokittelutarkkuutta ja vähentääkseen algoritmin ylisovittamista dataan. Jokainen satunnaismetsän päätöspuu koulutetaan siis erikseen, ja lopullinen algoritmin lop- putulos määräytyy näiden puiden kokonaisennusteena. Satunnaismetsän tehokkuus perustuu niin sa- nottuun bootstrap-menetelmään ja satunnaistettuihin muuttujavalintoihin jokaisessa päätöspuussa. Tämä tarkoittaa, että puut koulutetaan hieman eri otoksella datasta, joka johtaa mallin yleistettävyy- den paranemiseen. Lopullinen päätös tapahtuu mallissa äänestämällä (majority voting), jossa päätös- puut määrittävät onko arvioitu tapahtuma todennäköinen vai ei. Sisäpiirikauppojen kontekstissa tämä voisi merkitä esimerkiksi transaktion epäilyttävyyden arvioimista. Varsinaisessa anomaliatunnistuksessa paras algoritmi on monesti useamman algoritmin yhdistelmä. Deng ym. (2019) esitti tutkimuksessaan myös toisen tehokkaan algoritmin sisäpiirikaupan tunnista- miseen, jossa hyödynnettiin GBDT:n lisäksi differentiaalievoluutioksi (Differential Evolution, DE) nimitettyä stokastista eli sattumanvaraisesti etenevää algoritmia. Tämä yhdistelmäalgoritmi onnistui havaitsemaan väärinkäytöksiä kiinalaisilla rahoitusmarkkinoilla tehokkaasti. Huomioitavaa tutki- muksessa tosin on se, että kiinalaiset markkinat luetellaan vielä kehittyviksi, ja siten tämänkin algo- ritmin tehokkuudessa on mahdollisesti eroja markkinoiden välillä. Edellä mainitut menetelmät ovat pitkälti ohjattuun oppimiseen ja klassifikaatioon perustuvia mene- telmiä. Tämän ohella ohjaamattomalla oppimisella on paikkansa sisäpiirikauppojen tunnistamisessa. Ohjaamattoman oppimisen menetelmät tarjoavat tehokkaita tapoja tunnistaa epäilyttäviä transaktioita Onko suljetun ikkunan sisällä? Onko yli 10 000€ transaktio? Onko kauppoja alle 5kpl? Tutkitaan Ei tutkita Onko volyymisuhde korkea? Tutkitaan Ei tutkita Ei tutkita 36 ilman ennalta luotuja luokkia, ja on siten hyödyllinen varsinkin siksi, että suuri osa saatavasta datasta ei ole merkittyä sen hinnan ja saatavuuden myötä. Ohjatun oppimisen tavoin myös ohjaamattoman oppimisen menetelmiä on olemassa lukemattomia, joten käsitellään tässä luvussa niistä vain yleisimmät. Mahdollisesti merkityksellisin näistä menetel- mistä sisäpiirikauppojen kontekstissa on k-means klusterointi (k-means clustering) (Mazzarisi ym. 2024). K-means jakaa datan k-määrään ryhmiä, ja sen jälkeen jokainen datapiste kuuluu sellaiseen klusteriin, jonka keskipiste on lähimpänä. Näiden klustereiden avulla voidaan havaita anomalioita datasta, ja tietyissä tapauksissa ne voivat viestiä sisäpiirikaupoista. Ongelmallista tässä algoritmissa on tosin se, että klustereiden määrä eli k voi olla vaikeaa valita etukäteen parhaimmalla mahdollisella tavalla. Jos k:n arvo on valittu huonosti, voi lopputulos olla epätarkka. Toinen melko yleisesti käytetty anomaliatunnistuksen menetelmä on DBSCAN (Density-Based Spa- tial Clustering of Applications with Noise). DBSCAN eroaa k-meansista siten, että se perustuu datan ryhmittelyyn tiheyden mukaan sekä siten, että se ei vaadi esimäärittelynään klustereiden määrää (Deng 2020). DBSCAN siis erottaa datapisteet tiheyden mukaan tehtyihin klustereihin sekä harvaan esiintyviin anomalioihin. Tämän perusteella lienee melko selkeää, että DBSCAN:ia pystytään hyö- dyntämään epäilyttävien transaktioiden, kuten laittomien sisäpiirikauppojen, tunnistamisessa todella hyvin, koska se tunnistaa klustereiden ulkopuolelle jäävät anomaliat onnistuneesti (Yang ym. 2014). Koneoppimis- ja tekoälypohjaisten menetelmien käyttämisessä on myös haasteita. Väärien positiivis- ten löydösten määrä voi olla mallista ja algoritmista riippuen todella suuri, ja samat lainalaisuudet todistustaakasta pätevät myös näihin malleihin. Joissain yksinkertaisemmissa malleissa myös yliso- vittamista voi olla vaikea välttää, etenkin jos koulutusaineisto on pieni. Koska laittomat sisäpiirikau- pat on marginaalinen osuus kaikesta kaupankäyntidatasta, voi olla vaikeaa löytää suuria määriä laa- dukasta koulutusdataa. Tämä kaikki johtaa siihen, että data-analyyttisten menetelmien erityinen arvo on anomaliatunnistuksessa, joka ei vielä yksinään riitä todistamaan laitonta sisäpiirikauppaa. Tämän lisäksi etenkin tekoälypohjaisissa menetelmissä ongelmaksi nousee algoritmien läpinäkyvyysongel- miin liittyvät seikat. Jossain määrin kliseinen mutta todenmukainen lausahdus tekoälymenetelmien toiminnallisuuden tuntemattomuudesta siis pätee. 37 6 Yhteenveto ja johtopäätökset 6.1 Keskeiset havainnot Tämä tutkielma käsittelee data-analytiikan käyttämistä laittomien sisäpiirikauppojen tunnistamisessa, ja sen keskeiset havainnot liittyvät siihen, että data-analytiikalla ja erityisesti moderneilla koneoppi- mismenetelmillä on suuri potentiaali laittomien sisäpiirikauppojen tunnistamisessa, eli anomaliatun- nistuksen parissa. Tutkielmassa kävi ilmi, että perinteiset tilastotieteeseen ja matematiikkaan pohjautuvat menetelmät tunnuslukuanalyysistä regressio- ja aikasarja-analyyseihin tarjoavat erinomaisia työkaluja anomali- oiden ja muiden epänormaalien tuottojen analysointiin, joskin suuret ja monimutkaiset datamäärät saattavat vaikeuttaa niiden tehokasta toteuttamista (Hilal ym. 2022). Koneoppimisen ja tekoälyn vah- vuus piilee monimutkaisempien petoksien huomaamisessa. Näistä menetelmistä etenkin ohjatun ja ohjaamattoman oppimisen menetelmät, kuten päätöspuut ja klusterointimenetelmät, soveltuvat mai- niosti epäilyttävän kaupankäynnin tunnistamiseen laajasta massadatasta. Tämän ohella on hyvä huo- mata ja tiedostaa, että varsinaisia tutkintaprosesseja varten soveltuvimpien algoritmien tulee olla ylei- sesti selitettäviä, sillä mustan laatikon algoritmit saattavat olla huonoja indikaattoreita oikeuden ja silmissä. Logistiseen regressioon ja päätöspuihin nojaavat menetelmät loistavat siis tässä aspektissa, mutta myös ohjaamattomilla menetelmillä on vahvuutensa, etenkin luotettavan koulutusdatan vähäi- syyden vuoksi. Tutkimuksessa havaittiin lisäksi, että markkinoiden läpinäkyvyyden lisäämisessä data-analytiikka on tärkeä työkalu. Analyysimenetelmien kehittyessä markkinavalvojat kuten Finanssivalvonta ja SEC pystyvät keskittämään tutkimuksellisia resurssejaan tehokkaammin epäilyttäviin transaktioihin (Hilal ym. 2022). Tämä kehitys tukee sekä tehokkaiden markkinoiden hypoteesia sekä yleistä markkina- luottamusta. Käytännön sovelluksista lienee kuitenkin edelleen huomioitavaa, että datan laatu ja oi- keellisuus vaikuttaa olennaisesti mallien tarkkuuteen ja toimivuuteen. Esimerkiksi big data saattaa sisältää ”saastetta”, joka vaikuttaa välittömästi myös lopputuotteena saatuun tietoon ja ymmärryk- seen. Sisäpiirikauppojen tunnistamisessa analyysimenetelmät ovat pitkälti korrelaatiopohjaisia. Varsinais- ten kausaalianalyysin menetelmien kuten satunnaistettujen kokeiden ja kvasikokeiden hyödyntämi- nen on vaikeaa. Tämä ei ole kuitenkaan ongelmallista, sillä sisäpiirikauppojen tunnistamisessa on kyse pitkälti korrelaatioiden huomaamisesta, ja kausaalisuus todistetaan muita analyysimenetelmiä, kuten esimerkiksi verkostoanalyysiä, myöhemmin käyttämällä (Haythornthwaite 1996). 38 Verkostoanalyysi onkin muiden analytiikkamenetelmien ohella olennainen osa toimivaa ja luotetta- vaa prosessia. Tutkielmassa huomattiin myös se, että koneoppimismenetelmien käytössä haastavinta on etenkin oh- jatun oppimisen malleissa löytää sopivaa koulutusdataa sisäpiiritransaktioiden harvinaisuuden vuoksi. Data-analytiikka ja sen menetelmät eivät siis korvaa valvontaa vaan pikemminkin täydentävät ja tehostavat sitä entisestään. Mallien toimintaan ei siis voi suhtautua täysin kritiikittä, vaan aina täy- tyy pitää mielessä kenellä vastuu lopulta on, eli käyttäjällä. 6.2 Tutkimuksen arviointi ja jatkokysymykset Kirjallisuuskatsaukseen perustuva tutkimusasetelma toimii monitieteisen ja laajan ilmiön tarkaste- lussa hyvin, sillä se mahdollistaa aiheen käsittelyn sekä teknisestä, oikeudellisestä kuin myös rahoi- tusteoreettisesta näkökulmasta. Tämän tutkimuksen suurimpana rajoitteena on kuitenkin empiirisen aineiston puute. Aikapainesyistä suunniteltuja haastatteluosuuksia ei toteutettu, eikä varsinaista sisä- piirikauppa-analyysien toimintaa voitu konkreettisesti esitellä. Näiden asioiden huomioiminen olisi tehnyt tutkimuksesta entistä laadukkaamman, ja käytännön näkökulma melko teknisten menetelmien soveltamisessa olisi lisännyt tutkimuksen validiteettia. Erilaiset algoritmit DBSCAN:ista logistiseen regressioon toimivat hyvin sisäpiirikauppojen tunnista- misessa. Lienee tosin selvää, että varsinaista markkinavalvontaa suorittavilla viranomaisilla on to- dennäköisesti olemassa edistyneemmät ja monimutkaisemmat algoritmit kuin tässä tutkimuksessa on esitetty. Valvontakäytössä on edelleen haasteita, mutta tilanne on jo kokonaisuudessaan uuden tek- nologian myötä todella kehittyneempi, kuin esimerkiksi kaksikymmentä vuotta sitten. Tulevaisuudessa data-analytiikan, ja eritoten koneoppimisen, rooli markkinavalvonnassa tulee kas- vamaan entisestään. 2020-luvun tekoälyn vallankumous ulottaa lonkeronsa joka suuntaan, ja rahoi- tusalalla markkinarikosten selvittämisessä merkitys voi olla valtava. On mielenkiintoista nähdä miten markkinalainsäädäntö kehittyy niin sanotun ”shadow trading”:in suhteen. Shadow trading tarkoittaa tilannetta, jossa yritys tai yksilö käy sisäpiiritietonsa avulla kauppaa toisen yhtiön osakkeilla, hyötyen samalla tiedosta epäreilusti. Vuonna 2021 SEC onnistui ensimmäistä kertaa soveltamaan uutta oi- keusteoreettista tulkintaa ja nostamaan syytteen shadow trading -tapauksessa, jossa se haastoi mark- kinaväärinkäytöksestä epäillyn oikeuteen SEC v. Panuwat -tapauksessa. On mahdollista, että tapaus muodostaa merkittävän ennakkotapauksen ja vaikuttaa markkinalainsäätelyyn muuallakin, nostaen oikeusteoreettisen pohdinnan tarvetta myös jatkotutkimuksien muodossa (Kershen 2022, 151). 39 Tutkielma osoittaa, että data-analytiikka ja koneoppiminen tarjoavat merkittäviä mahdollisuuksia si- säpiirikauppojen valvonnassa, mutta hyödyntäminen vaatii paljon teknistä osaamista, riittävää data- määrää sekä sääntelyyn perehtymistä. Teknologia ei poista ihmisen roolia, mutta se toimii tehokkaana apuvälineenä tapauksien seulonnassa. Mahdollisissa jatkotutkimuksissa olisi järkevää tehdä empiiristä analyysiä historiallisesta kaupan- käyntidatasta. Koneoppimismallien tehokkuuden vertailu todistettuihin sisäpiirikauppoihin pohjautu- vassa datassa voisi tuoda lisää hyödyllistä tietoa valvottujen ja valvomattomien mallien suoritusky- vystä asian tiimoilta. Jatkokysymyksiä herää tehokkuuden ohella myös datan anonymisoinnin ja yk- sityisyydensuojan vaikutuksesta mallien tarkkuuteen, sillä entistä tehokkaampia ja toimivampia mal- leja voi olla vaikeaa rakentaa ilman tietosuojalakien ja tekoälysäätelyn rikkomista. Tämän lisäksi tutkimuksen aihealuetta voidaan syventää käsittelemällä laajemmin matemaattisia metodeja esimer- kiksi Monte Carlo -menetelmistä, sillä näiden menetelmien käsittely jäi tässä tutkimuksessa todella pinnalliseksi. Yritysjuridiikan ja oikeustieteen näkökulmasta edellä mainittu shadow trading on ai- heena hyödyllisiä jatkokysymyksiä potentiaalisesti sisältävä, ja tekoälyn sääntelyn kysymykset ovat keskeisiä myös tämän aiheen kannalta. 40 7 Lähteet Aasheim, C. L., Williams, S., Rutner, P., & Gardiner, A. (2015). Data analytics vs. Data science: A study of sim- ilarities and differences in undergraduate programs based on course descriptions. Journal of Infor- mation Systems Education, 26(2), 103–116. Akerlof, G. A. (1970). The Market for ”Lemons”: Quality Uncertainty and the Market Mechanism. The Quar- terly Journal of Economics, 84(3), 488–500. JSTOR. https://doi.org/10.2307/1879431 Bhagattjee, B. (2014). Emergence and taxonomy of big data as a service. Massachusetts Institute of Tech- nology. Bhattacharya, U., & Daouk, H. (2002). The World Price of Insider Trading. The Journal of Finance, 57(1), 75– 108. JSTOR. Bowers, D. (1991). Statistics for Economics and Business. ELBS with Macmillan. https://books.google.fi/books?id=Z72cAAAACAAJ Cheng, G., Lundblad, C. T., Yang, Z., & Zhang, Q. (2022). Detecting Insider Trading in the Era of Big Data and Machine Learning (SSRN Scholarly Paper No. 4240205). Social Science Research Network. https://doi.org/10.2139/ssrn.4240205 Corcoran, K. (2024, huhtikuuta 2). Bills on the Sidewalk. Econlib. https://www.econlib.org/bills-on-the-side- walk/ Deng. (2020). DBSCAN Clustering Algorithm Based on Density. 2020 7th International Forum on Electrical Engineering and Automation (IFEEA), 949–953. https://doi.org/10.1109/IFEEA51475.2020.00199 Datum. (2025, maaliskuuta 5). https://dictionary.cambridge.org/dictionary/english/datum De, P. (2016). The arithmetic mean—Geometric mean—Harmonic mean: Inequalities and a spectrum of ap- plications. Resonance, 21(12), 1119–1133. https://doi.org/10.1007/s12045-016-0423-4 Deng, Wang, C., Wang, M., & Sun, Z. (2019). A gradient boosting decision tree approach for insider trading identification: An empirical model evaluation of China stock market. Applied Soft Computing, 83, 105652. https://doi.org/10.1016/j.asoc.2019.105652 41 Derindere Köseoğlu, S., Ead, W. M., & Abbassy, M. M. (2022). Basics of Financial Data Analytics. Teoksessa Financial Data Analytics: Theory and Application (ss. 23–57). Springer. Doffou, A. (2007). Insider Trading: A Review of Theory and Empirical Work. Engle, R. (2001). GARCH 101: The Use of ARCH/GARCH Models in Applied Econometrics. The Journal of Eco- nomic Perspectives, 15(4), 157–168. JSTOR. Engstrom, D. F., & Ho, D. E. (2020). Algorithmic Accountability in the Administrative State Special Issue: Regulating the Technological Frontier. Yale Journal on Regulation, 37(3), 800–854. FAMA, E. F. (1970). EFFICIENT CAPITAL MARKETS: A REVIEW OF THEORY AND EMPIRICAL WORK. Journal of Finance (Wiley-Blackwell), 25(2), 383–417. Business Source Ultimate. https://doi.org/10.2307/2325486 Fishman, M. J., & Hagerty, K. M. (1992). Insider Trading and the Efficiency of Stock Prices. The RAND Journal of Economics, 23(1), 106–122. JSTOR. https://doi.org/10.2307/2555435 Gogtay, N. J., & Thatte, U. M. (2017). Principles of correlation analysis. Journal of the Association of Physi- cians of India, 65(3), 78–81. Golmohammadi, K., Zaiane, O. R., & Díaz, D. (2014). Detecting stock market manipulation using supervised learning algorithms. 2014 International Conference on Data Science and Advanced Analytics (DSAA), 435–441. https://doi.org/10.1109/DSAA.2014.7058109 Hamet, P., & Tremblay, J. (2017). Artificial intelligence in medicine. Insights Into the Future of Medicine: Technologies, Concepts, and Integration, 69, S36–S40. https://doi.org/10.1016/j.metabol.2017.01.011 Hawke, D. (2019, elokuuta 21). SEC Data Analysis in Insider Trading Investigations | CLS Blue Sky Blog. https://clsbluesky.law.columbia.edu/2019/08/21/sec-data-analysis-in-insider-trading-investiga- tions/ Hayashi, C. (1998). What is Data Science? Fundamental Concepts and a Heuristic Example (C. Hayashi, K. Yajima, H.-H. Bock, N. Ohsumi, Y. Tanaka, & Y. Baba, Käänt.). 40–51. 42 Haythornthwaite, C. (1996). Social network analysis: An approach and technique for the study of infor- mation exchange. Library & Information Science Research, 18(4), 323–342. HELM 36. (ei pvm.). https://www.lboro.ac.uk/media/media/schoolanddepartments/mlsc/down- loads/HELM%20Workbook%2036%20Descriptive%20Statistics.pdf Hilal, W., Gadsden, S. A., & Yawney, J. (2022). Financial Fraud: A Review of Anomaly Detection Techniques and Recent Advances. Expert Systems with Applications, 193, 116429. https://doi.org/10.1016/j.eswa.2021.116429 Ho, M. K., Darman, H., & Musa, S. (2021). Stock Price Prediction Using ARIMA, Neural Network and LSTM Models. Journal of Physics: Conference Series, 1988(1), 012041. https://doi.org/10.1088/1742- 6596/1988/1/012041 Inc, G. (ei pvm.). Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ”V”s. Forbes. Noudettu 15. maaliskuuta 2025, osoitteesta https://www.forbes.com/sites/gartner- group/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not-to-be-confused-with- three-vs/ Jegadeesh, N., & Titman, S. (2001). Profitability of Momentum Strategies: An Evaluation of Alternative Ex- planations. The Journal of Finance, 56(2), 699–720. JSTOR. Kaakinen, M., & Ellonen, N. (ei pvm.). Regressioanalyysi—Tietoarkisto. Noudettu 11. maaliskuuta 2025, osoitteesta https://www.fsd.tuni.fi/fi/palvelut/menetelmaopetus/kvanti/regressio/analyysi/ Kelleher, J. D., & Tierney, B. (2018). Data Science. MIT Press. https://books.google.fi/books?i§d=UlpVDwAAQBAJ Kershen, K. (2022). SEC v. Panuwat: The Federal Pursuit of Shadow Trading. Brook. J. Corp. Fin. & Com. L., 17, 151. Koseoglu, S. D., & Derindere Köseoğlu, S. (2022). Financial Data Analytics: Theory and Application (1. p.). Springer International Publishing AG. https://doi.org/10.1007/978-3-030-83799-0 Kurenmaa, T. (2003a). Sisäpiirintiedon väärinkäyttö. Teoksessa Suomalainen Lakimiesyhdistys. https://edi- tion.fi/lakimiesyhdistys/catalog/book/479 43 Kurenmaa, T. (2003b). Sisäpiirintiedon väärinkäyttö. Suomalainen Lakimiesyhdistys. https://edition.fi/laki- miesyhdistys/catalog/view/479/394/991-1 Käräjäoikeuden tuomio: Talvivaaran Perälle ja Lammassaarelle ehdollista ja yhtiölle yhteisösakkoa. (2017, kesäkuuta 2). mtvuutiset.fi. https://www.mtvuutiset.fi/artikkeli/karajaoikeuden-tuomio-talvivaa- ran-peralle-ja-lammassaarelle-ehdollista-ja-yhtiolle-yhteisosakkoa/6456416 Lepenioti, K., Bousdekis, A., Apostolou, D., & Mentzas, G. (2020). Prescriptive analytics: Literature review and research challenges. International Journal of Information Management, 50, 57–70. https://doi.org/10.1016/j.ijinfomgt.2019.04.003 MAR 19:12, 173 OJ L (2014). http://data.europa.eu/eli/reg/2014/596/oj/fin Mazzarisi, P., Ravagnani, A., Deriu, P., Lillo, F., Medda, F., & Russo, A. (2024). A machine learning approach to support decision in insider trading detection. EPJ Data Science, 13(1), Article 1. https://doi.org/10.1140/epjds/s13688-024-00500-2 Niskanen, J., Niskanen, M., Edita, kustantaja., & Edita Oppiminen, kustantaja. (2013). Yritysrahoitus (7. uud. p.). Edita. Nurmi, M., & Pyykkönen, J. (2022, maaliskuuta 3). Viisauden hierarkia. Viisauden hierarkia. https://blogs.helsinki.fi/yhdenvertainen-liikunnallinen-lahio/2022/03/03/viisauden-hierarkia/ OECD. (2008). OECD Glossary of Statistical Terms. OECD. https://doi.org/10.1787/9789264055087-en Oikeudenkäynnit | Syytteet Talvivaaran sisäpiiririkoksista hylättiin Helsingin käräjäoikeudessa. (2020, hei- näkuuta 1). Helsingin Sanomat. https://www.hs.fi/suomi/art-2000006558403.html Padilla, A. (2002). Can agency theory justify the regulation of insider trading? The Quarterly Journal of Aus- trian Economics, 5(1), 3–38. https://doi.org/10.1007/s12113-002-1015-6 Perino, M. (2018). The Lost History of Insider Trading. SSRN Electronic Journal, 54. https://doi.org/10.2139/ssrn.3099682 Pietiläinen, T. (2008, tammikuuta 2). Timo Jouhki sai vankeutta sisäpiirikaupoista. Helsingin Sanomat. https://www.hs.fi/talous/art-2000004537466.html 44 Provost, F., & Fawcett, T. (2013). Data Science and its Relationship to Big Data and Data-Driven Decision Making. Big Data, 1(1), 51–59. https://doi.org/10.1089/big.2013.1508 Pörssin sisäpiiriohje. (2020, joulukuuta 2). NASDAQ Helsinki Oy. R. K. Lomotey & R. Deters. (2014). Towards Knowledge Discovery in Big Data. 2014 IEEE 8th International Symposium on Service Oriented System Engineering, 181–191. https://doi.org/10.1109/SOSE.2014.25 Rikoslaki, Pub. L. No. 39- 001/1889. Sarker, I. H. (2021). Machine Learning: Algorithms, Real-World Applications and Research Directions. SN Computer Science, 2(3), 160. https://doi.org/10.1007/s42979-021-00592-x Sperandei, S. (2014). Understanding logistic regression analysis. Biochemia medica, 24(1), 12–18. Student’s t-test | Definition, Formula, & Example | Britannica. (2025, tammikuuta 16). https://www.britan- nica.com/science/Students-t-test Thabtah, F., Abdelhamid, N., & Peebles, D. (2019). A machine learning autism classification based on logistic regression analysis. Health Information Science and Systems, 7(1), 12. https://doi.org/10.1007/s13755-019-0073-5 Time Domain Analysis vs Frequency Domain Analysis: A Guide and Comparison. (2024, heinäkuuta 17). https://resources.pcb.cadence.com/blog/2020-time-domain-analysis-vs-frequency-domain-ana- lysis-a-guide-and-comparison Tversky, A., & Kahneman, D. (1973). Availability: A heuristic for judging frequency and probability. Cognitive Psychology, 5(2), 207–232. https://doi.org/10.1016/0010-0285(73)90033-9 Upton, G., & Cook, I. (1996). Understanding Statistics. OUP Oxford. https://books.google.fi/books?id=vXzWG09_SzAC Vallely, B. (2018). The Efficient Market Hypothesis, Insider Trading and their relationship with today’s stock markets. https://www.cpaireland.ie/CPAIreland/media/Education-Training/Study%20Sup- port%20Resources/P2%20Strategic%20Corporate%20Finance/Relevant%20Articles/the-efficient- market-hypothesis-insider-trading-and-their-relationships-with-today-s-stock-markets.pdf 45 Wooldridge, J. M. (2016). Introductory econometrics: A modern approach. Teoksessa Introductory econo- metrics: A modern approach (Sixth edition.). Cengage Learning. www.finanssivalvonta.fi. (2022, toukokuuta 19). Sisäpiiritiedon käyttö- ja ilmaisukiellot koskevat muitakin kuin sisäpiiriläisiä. www.finanssivalvonta.fi. https://www.finanssivalvonta.fi/tiedotteet-ja-julkai- sut/markkinat-tiedotteet/markkinat-tiedote-12022/sisapiiritiedon-kaytto--ja-ilmaisukiellot-koske- vat-muitakin-kuin-sisapiirilaisia/ www.finanssivalvonta.fi. (2025, maaliskuuta 6). Väärinkäytösepäily. www.finanssivalvonta.fi. https://www.finanssivalvonta.fi/finanssivalvonta/ilmoita-vaarinkaytosepailysta/ Y. Yang, B. Lian, L. Li, C. Chen, & P. Li. (2014). DBSCAN Clustering Algorithm Applied to Identify Suspicious Financial Transactions. 2014 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 60–65. https://doi.org/10.1109/CyberC.2014.89 Zheng, X., Gildea, E., Chai, S., Zhang, T., & Wang, S. (2024). Data Science in Finance: Challenges and Oppor- tunities. AI, 5(1), 55–71. https://doi.org/10.3390/ai5010004