Data-analytiikan käyttö sisäpiiritiedon väärinkäytön tun-
nistamisessa 
 
 
 
 
 
 
Laskentatoimen ja rahoituksen 
kandidaatintutkielma  
 
 
Laatija: 
Konsta Uusimäki 
 
Ohjaaja: 
KTT Vesa Partanen 
17.4.2025 
Turku 
  
  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Turun yliopiston laatujärjestelmän mukaisesti tämän julkaisun alkuperäisyys on tarkastettu  
Turnitin OriginalityCheck -järjestelmällä.  
  
Kandidaatintutkielma  
 
Oppiaine: Laskentatoimi ja rahoitus 
Tekijä: Konsta Uusimäki 
Otsikko: Data-analytiikan käyttö sisäpiiritiedon väärinkäytön tunnistamisessa 
Ohjaaja: KTT Vesa Partanen 
Sivumäärä: 45 sivua 
Päivämäärä: 17.4.2025 
 
Laittomat sisäpiirikaupat ovat olleet sääntelyn kohteena jo 1930-luvun lamasta lähtien, eikä säännöstahti ole 
viime vuosina ainakaan hidastunut. Sisäpiiririkokset ovat rikosmuotona haasteellisia havaita ja todistaa, koska 
ne vaativat tarkkaa näyttöä sekä aikajanan kuin myös tuottamuksellisuuden osalta. Viime vuosikymmeninä 
tietotekniikka ja etenkin data-analytiikka on kehittynyt edistyneeseen nykymuotoonsa, ja tässä kandidaatin 
tutkielmassa perehdytäänkin siihen, miten perinteisiä data-analytiikan menetelmiä ja koneoppimista hyödyn-
netään tai voidaan hyödyntää laittomien sisäpiirikauppojen tunnistamisen apuna.  
Laittomien sisäpiirikauppojen tunnistaminen edellyttää yhä useammin suuren rahoitusdatamassan analysoin-
tia, johon perinteiset tilastolliset menetelmät eivät aina riitä. Koneoppimismenetelmät ja muut edistyneet al-
goritmit tuovat tähän helpotusta, ja etenkin ohjaamaton ja ohjattu oppiminen tarjoavat keinoja paljastaa pin-
nanalaisia poikkeamia eli anomalioita kaupankäynnissä. Tutkielmassa tarkastellaan miten näitä keinoja yhdis-
tetään esimerkiksi perinteiseen verkostoanalyysiin, ja tavoitteena on muodostaa kokonaiskuva data-analytiikan 
mahdollisuuksista ja haasteista modernin markkinavalvonnan osana käsittelemällä esimerkkinä sisäpiiritiedon 
väärinkäyttöä.  
Tutkielman tausta-ajatuksena on ollut pyrkiä monitieteellisyyteen käsittelemällä rahoitustieteellisten teorioi-
den ohella aiheen yritysjuridista, tilastotieteellistä sekä tietojenkäsittelytieteellistä taustaa. Analyyttiset mene-
telmät kattavat paljon tilastollisia analyysitekniikkoja kuten tunnuslukuanalyysin, regressioanalyysit sekä ko-
neoppimisen. Tämän ohella erityistä huomiota kohdennetaan dataohjatun päätöksenteon sekä big datan suu-
reen merkitykseen nykyisessä valvontaympäristössä. 
Yhtenä tutkielman keskeisenä tavoitteena on pohtia miten valvontaviranomaiset hyödyntävät data-analytiikkaa 
aikaista enemmän sisäpiirikauppariskien seulonnassa. Perinteisesti valvonta on pohjautunut ilmoituksiin ja ta-
pauskohtaisiin tarkasteluihin, mutta teknologian kehityttyä on avautunut mahdollisuuksia ennaltaehkäiseväm-
pää valvontaa kohti. Tutkielma perustuu kirjallisuuskatsaukseen ja siinä käsitellään tämän kaiken lisäksi sisä-
piirikauppojen oikeudellista kontekstia, taloudellisia markkinatehokkuuteen liittyviä vaikutuksia sekä markki-
naluottamusta. Aiheen ajankohtaisuus korostuu nykyisen teknologisen kehityksen nopeuden sekä sääntelyyn 
liittyvien vaatimusten myötä. Tutkielman tulosten perusteella data-analytiikka ja koneoppimismenetelmät tar-
joavat paljon lupaavia keinoja sisäpiiririkosten seulontaan etenkin suurissa datakokonaisuuksissa, joskin me-
netelmien onnistunut hyödyntäminen edellyttää muun muassa laadukasta dataa ja menetelmien syvällistä ym-
märtämistä. 
 
Avainsanat: data-analytiikka, sisäpiirikaupat, tilastolliset menetelmät, dataohjattu päätöksenteko, tekoäly, ko-
neoppiminen, anomaliatunnistus, big data 
  
 SISÄLLYS 
1 Johdanto 6 
1.1 Johdatus tutkielman aiheeseen 6 
1.2 Tutkielman tavoite ja rajaukset 7 
2 Datatiede ja data-analytiikka 9 
2.1 Datan, datatieteen ja data-analytiikan määritelmät 9 
2.2 Data-analytiikan jaottelu 12 
2.3 Tilastolliset analyysimenetelmät data-analytiikassa 14 
2.3.1 Keskiluvut ja tunnuslukuanalyysi 14 
2.3.2 Regressioanalyysit ja kausaalianalyysi 15 
2.3.3 Aikasarja-analyysi ja ennustemallit 17 
3 Big data ja tekoäly 19 
3.1 Dataohjattu päätöksenteko ja big data 19 
3.2 Tekoäly ja koneoppimismenetelmät data-analytiikassa 21 
4 Sisäpiirikaupat 23 
4.1 Sisäpiirikauppojen määritelmä ja sääntely 23 
4.2 Sisäpiirikaupat ja rahoitusteoria 26 
5 Data-analytiikka sisäpiirikauppojen tunnistamisessa 30 
5.1 Perinteiset ja tilastolliset menetelmät 30 
5.2 Koneoppimismenetelmät ja tekoäly 33 
6 Yhteenveto ja johtopäätökset 37 
6.1 Keskeiset havainnot 37 
6.2 Tutkimuksen arviointi ja jatkokysymykset 38 
7 Lähteet 40 
 
  
 KUVIOT 
Kuvio 1: Viisauden hierarkia pyramidimallina (Nurmi & Pyykkönen 2022) 10 
Kuvio 2: 5V-malli (Lomotey & Deters 2014, 181) 20 
Kuva 3: Koneoppimisparadigmat (Sarker 2021) 22 
Kuvio 4: Sisäpiirikauppojen tunnistamis- ja todistamisprosessi (Mazzarisi ym. 2024, 2) 31 
Kuvio 5: Yksinkertainen sisäpiirikauppojen päätöspuu 35 
 
TAULUKOT 
Taulukko 1: Datatieteen, Data-analytiikan ja Business Intelligencen taksonomia 11 
Taulukko 2: Deskriptiivinen, Diagnostinen, Prediktiivinen ja Preskriptiivinen analytiikka 13 
Taulukko 3: Sisäpiiriläisen 10 kaupankäyntiohjetta (Finanssivalvonta 2018) 24 
 
6 
 
1 Johdanto 
1.1 Johdatus tutkielman aiheeseen 
Viimeisten vuosikymmenten aikana tiedon merkitys päätöksenteon kannalta on kasvanut merkittä-
västi, ja erityisesti data-analytiikka on noussut keskeiseksi työkaluksi monella eri toimialalla ilmiöi-
den ymmärtämisessä, ennustamisessa ja ohjaamisessa. Finanssisektorilla sen rooli on erityisen vah-
vasti korostunut, ja käyttö lisääntyy jatkuvasti (Köseoğlu 2022). Data-analytiikka on yleisluonteinen 
käsite erilaisille analyysitekniikoille ja -menetelmille, joilla tietoaineistoista saadaan esille käyttökel-
poisia oivalluksia. Olipa kyseessä sitten yrityksen taloudellinen data tai uuden kehiteltävän lääkkeen 
vaikutusten arviointi, data-analytiikka auttaa tekemään järkeviä tietoon perustuvia päätöksiä sekä pal-
jastamaan pinnanalaisia trendejä. 
Sisäpiirikaupoilla viitataan tässä tutkielmassa sen laittomaan versioon, eli sisäpiiritiedon väärinkäyt-
töön. Kaikki sisäpiirikaupat eivät ole laittomia, mutta kaikki sisäpiiritiedon väärinkäyttö on laitonta 
(RL 51:1). Laittomat sisäpiirikaupat ovat liiketapahtumia, joissa pörssiyhtiön sisäiseen käyttöön tar-
koitettua tietoa käytetään yksilön oman edun tavoitteluun. Tämä johtaa epätasaiseen informaation 
jakautumiseen eli asymmetriseen informaatioon eri markkinatoimijoiden välillä, jota pidetään sel-
keänä esimerkkinä markkinoiden tehottomuudesta. Markkinatehottomuus voi puolestaan johtaa epä-
oikeudenmukaisiin kilpailuasetelmiin, sijoituspäätösten vääristymiseen ja varallisuuden virheelliseen 
kohdistumiseen, mikä heikentää luottamusta markkinoihin laajemmin ja siten johtaa laajempiin on-
gelmiin. 
Vaikkakin yhdysvaltalainen lainsäädäntö sisäpiirikaupoista – johon myös muun maailman sääntely 
perustuu – ulottuu 1900-luvun alkuun saakka, alettiin ilmiötä juridisesti säännellä vasta 1930-luvun 
laman myötä, ja varsinainen nykyaikainen lainsäädäntö alkoi kehittyä vasta 1960-luvulla. Suomessa 
sisäpiiritiedon väärinkäytöstä tuli laitonta vuonna 1989, kun arvopaperimarkkinalain ensimmäinen 
versio astui voimaan (Kurenmaa 2003). Vuonna 2016 voimaantullut Euroopan unionin laajuinen 
markkinoiden väärinkäyttöasetus eli MAR on puolestaan entisestään laajentanut voimassa olevaa ai-
healueen lainsäädäntöä.  
Tässä kontekstissa data-analytiikalla ja etenkin sen moderneilla tekoälyyn ja koneoppimiseen poh-
jautuvilla menetelmillä on erityisen tärkeä merkitys, sillä niiden avulla on mahdollista tunnistaa epäi-
lyttäviä sisäpiiritiedon väärinkäyttöön tai muihin arvopaperimarkkinarikoksiin viittaavia transaktioita 
(Cheng ym. 2022, 3). Perinteisesti laittomia sisäpiirikauppoja on pidetty vaikeana rikostyyppinä 
7 
 
tunnistaa, ja tähän data-analytiikka tuo lisätehokkuutta. Tavoitteena ei ole enää vain rikollisen toi-
minnan jälkijättöinen havaitseminen, vaan myös valvonnan tehokkaamman kohdistamisen mahdol-
listaminen. 
Tehokkaiden markkinoiden hypoteesin (EMH) mukaan markkinoilla hinnat heijastavat kaikkea saa-
tavilla olevaa informaatiota, eikä yksittäisillä toimijoilla pitäisi olla mahdollisuutta hyötyä epäsym-
metrisestä informaatiosta. Tämä ajatus perustuu siihen, että markkinoiden tehokkuus edellyttää, että 
kaikki tiedot ovat julkisesti saatavilla ja sisältyvät hintaan (Fama 1970). Sisäpiirikauppojen sääntelyä 
pidetään siten yhtenä pääasiallisena keinona ehkäistä markkinoiden vääristymiä sekä ylläpitää luot-
tamusta markkinoihin, joskin myös esimerkiksi kurssimanipulaatiolainsäädäntö pyrkii ennaltaehkäi-
semään vääristymiä ja ylläpitämään luottamusta. Sanktiot, kuten sakot ja kaupankäyntikiellot, pyrki-
vät tekemään sisäpiiritiedon väärinkäytöstä taloudellisesti kannattamatonta sekä vahvistamaan mark-
kinoiden läpinäkyvyyttä. 
Aihe on ajankohtainen, koska teknologian kehittyminen mahdollistaa entistä paremmin laajojen ra-
hoitusdatamassojen analysoinnin. Ennen teknologian kehittymistä sisäpiirikaupankäynnin valvo-
mista on siis pidetty vaikeasti toteutettavana käytännössä (Kurenmaa 2003, 30). Tämän ohella mark-
kinoiden toimivuus ja reiluus ovat edelleen tärkeitä kysymyksiä muuttuvassa maailmassamme myös 
koko kansantalouden ja yhteiskunnan toiminnan kannalta. Tässä tutkielmassa keskitytään erityisesti 
siihen, miten data-analytiikkaa voidaan soveltaa laittomien sisäpiirikauppojen havaitsemisessa ja 
millä tavoin analytiikka auttaa markkinoiden läpinäkyvyyden lisäämisessä. 
1.2 Tutkielman tavoite ja rajaukset 
Tutkielman päämääränä on tutkia miten data-analytiikkaa hyödynnetään ja voidaan hyödyntää laitto-
mien sisäpiirikauppojen tunnistamisessa. Tarkastelun kohteena on erityisen vahvasti se, millaisia me-
netelmiä käytetään suurien rahoitusdatamassojen analysointiin ja poikkeamien eli anomalioiden tun-
nistamiseen. Tämän lisäksi tarkentavia alatutkimuskysymyksiä ovat seuraavat:  
1. Miten tehokkaita nykyiset data-analytiikan menetelmät ja koneoppimisalgoritmit ovat sisäpii-
rikauppojen havaitsemisessa? 
2. Mitkä data-analytiikan ja koneoppimisen menetelmät soveltuvat parhaiten sisäpiirikauppojen 
tunnistamiseen? 
3. Millaisia haasteita data-analytiikan sisäpiirikauppojen valvontakäytössä on? 
8 
 
Tutkimusasetelma on valittu siten, että se mahdollistaa syvällisen ja laajan tarkastelun data-analytii-
kan käytöstä sisäpiirikauppojen tunnistamisessa. Kysymykset tehokkuudesta, soveltuvuudesta ja 
haasteista luovat kokonaisvaltaisen pohjan ilmiön tarkastelulle. Tällaisessa kontekstissa kirjallisuus-
katsaus toimii tutkimusmenetelmänä erinomaisesti, koska se mahdollistaa aiempien tutkimusten ja 
menetelmien tarkastelun. Tutkielman toissijaisena tavoitteena on pyrkiä monitieteellisyyteen, ja tut-
kielma käsitteleekin laskentatoimen ja rahoituksen lisäksi aihealuetta jossain määrin myös tietojär-
jestelmätieteen, tietojenkäsittelytieteen, tilastotieteen sekä yritysjuridiikan perspektiiveistä.   
Tutkielman aihepiiri on rajattu koskemaan lähinnä data-analytiikan käyttöä sisäpiirikaupoissa ja ano-
maliatunnistamisessa, mutta myös muita esimerkkejä saatetaan havainnollistamisen vuoksi esitellä. 
Data-analytiikan käsittelyä syvennetään tarkastelemalla sen roolia ja vaikutusta sisäpiirikauppojen 
analysoinnissa, erityisesti massadatan ja koneoppimisen näkökulmasta. Sisäpiirikauppoja käsitellään 
oikeudellisen kontekstin ja rahoitusteoreettisen vaikutuksen kautta. Sisäpiirikauppojen sääntelyn 
tausta-argumenteista keskitytään markkinoiden tehokkuusargumenttiin sekä oikeudenmukaisuusar-
gumenttiin. Tutkielman tarkoituksena ei ole ottaa kantaa sisäpiirikauppojen laillisuuden tai laittomuu-
den hyväksyttävyyteen, vaan keskittyä kuvailemaan kuinka ne vaikuttavat markkinoiden läpinäky-
vyyteen sekä toimintaan. Tekoälyä on hyödynnetty tutkielmassa aiheen keksimisen ja rakenteen 
suunnittelun apuna. 
9 
 
2 Datatiede ja data-analytiikka 
2.1 Datan, datatieteen ja data-analytiikan määritelmät 
Sanan data etymologia juontaa juurensa latinan kieleen ja se on monikkomuoto sanasta datum. Datum 
on yksittäinen tiedon määräyksikkö, ja data puolestaan viittaa useisiin tiedon määräyksiköihin, vaik-
kakin sitä käytetään nykykielessä viittaamaan myös yksittäisiin tietoihin  (Cambridgen sanakirja: Da-
tum 2025). Taloudellisen yhteistyön ja kehityksen järjestö OECD määrittelee sanan seuraavasti: 
”Data on havainnoinnin avulla kerättyjä piirteitä, jotka esitetään yleensä numeerisessa muodossa.” 
(OECD: Glossary of Statistical Terms 2008).  
Datan suomenkielinen määritelmä on ongelmallinen, sillä kielessämme sanalla tieto voidaan viitata 
kontekstista riippuen englanninkielisiin sanoihin data, information tai knowledge. Sana data käänne-
tään suomen kielessä vakiintuneesti aineistoksi tai tietoaineistoksi. Data tarkoittaa yksittäisiä lukuja 
tai symboleja, joihin ei vielä ole liitetty mitään varsinaista merkitystä. Data on siis yksinään epäin-
formatiivista (Nurmi & Pyykkönen 2022).  
Informaatio (information) tarkoittaa merkityksellistä asiaa, joka voi antaa vastauksia yksinkertaisiin 
kysymyksiin. Informaatio on yleensä datasta jalostettua ja se on jo itsessään käytettävää. Informaati-
olla voidaan vastata muun muassa kysymyksiin: ”Mitä?”, ”Kuka?”, ”Missä?” ja ”Milloin?” (Nurmi 
& Pyykkönen 2022).  
Tieto tai tietämys (knowledge) tarkoittaa puolestaan informaation soveltamista käytäntöön. Tiedolla 
ymmärretään siis, miten informaatioon reagoidaan. Tieto vastaa näin ollen abstraktimpiin kysymyk-
siin kuten: ”Kuinka?” ja ”Miten?” (Nurmi & Pyykkönen 2022).  Tieto on informaatiota, jota ihminen 
ymmärtää niin hyvin, että sen perusteella pystytään toimimaan vaadittaessa (Kelleher & Tierney 
2018, 56). 
Viisaus (wisdom) voidaan määritellä kokonaisvaltaisena ymmärryksenä ”toiminnan perusteista ja 
kontekstisidonnaisuudesta” eli se vastaa kysymykseen ”Miksi?” (Nurmi & Pyykkönen 2022). Vii-
sauden perusteella tiedetään, kuinka tiedon perusteella kannattaa toimia parhaiten (Kelleher & Tier-
ney 2018, 56).  
Teemaa mallinnetaankin akateemisessa kontekstissa usein DIKW-pyramidin kautta, joka kuvaa eri 
tietotasojen suhdetta toisiinsa, sekä esittää miten ne jalostuvat tasolta toiselle. Nimensä pyramidi saa 
sanojen Data, Information, Knowledge ja Wisdom lyhenteestä. Suomeksi samasta mallista puhutaan 
usein viisauden hierarkiana.  
10 
 
 
 
Kuvio 1: Viisauden hierarkia pyramidimallina (Nurmi & Pyykkönen 2022) 
 
Datatiede on etenkin tilastotieteen ja tietojenkäsittelytieteen yhteenliittymänä syntynyt monitieteinen 
tieteenala, joka käsittelee kuinka kirjavasta ja suuresta data-aineistosta poimitaan ongelmanratkai-
suun soveltuvaa tietoa (Hayashi 1998). Datatieteessä on huomioitavaa moneen muuhun tieteenalaan 
verrattuna se, että se yhdistää data-analyysin ja informatiikan menetelmät lähes aina jonkin toisen 
tieteenalan, kuten esimerkiksi rahoituksen taikka lääketieteen, ongelmien ratkaisemiseksi. Rahoituk-
sen ja datatieteen yhdistelmää voidaan kutsua esimerkiksi rahoitusanalytiikaksi, ja sillä on käyttökoh-
teita finanssialalla esimerkiksi algoritmisen kaupankäynnin suorittamisessa tai tämän tutkielman tee-
man parissa, eli sisäpiirikauppojen anomaliatunnistamisessa (Zheng ym. 2024, 57-59).  
Datatiede on sukua koneoppimiselle, mutta käsite ei ole täysin sama, sillä soveltamismahdollisuudet 
ovat datatieteessä laajemmat (Kelleher & Tierney 2018, 1).  Datatieteilijät käyttävätkin perinteisten 
data-analytiikan työkalujen ohella koneoppimista ja tekoälysovelluksia ongelmanratkaisuun, ja pai-
notus on erityisesti tulevaisuuden ennustamisessa, eli prediktiivisessä ja preskriptiivisessä analytii-
kassa (Kelleher & Tierney 2018). Prediktiivinen tarkoittaa suoraan suomennettuna sanaa ennustava 
ja preskriptiivinen voidaan mieltää esimerkiksi sanaksi ohjaileva. Molemmat ovat siis vahvasti yh-
teydessä tulevaisuuteen. 
Viisaus
"Miksi?"
Tieto
"Kuinka, Miten?"
Informaatio
"Kuka, mitä, missä, milloin, kuinka monta?"
Data
"Symboleja, lukuja ilman merkitystä"
11 
 
Data-analytiikalla, tai pelkällä analytiikalla, ei ole myöskään olemassa yhtä ainoaa tarkkaa määritel-
mää. Yleisesti voidaan sanoa, että data-analytiikka kattaa erilaisia tilastollisia menetelmiä, tekniikoita 
sekä lähestymistapoja datan keräämiseen, käsittelyyn, analysointiin ja hyödyntämiseen päätöksente-
ossa, eli sitä voidaan mahdollisesti pitää suppeampana ja käytännönläheisempänä osana datatiedettä 
(Aasheim ym. 2015, 104). Joissain konteksteissa data-analyysin synonyyminä käytetään tilastotie-
teellisiin menetelmiin liittyvää tilastollista analyysiä. Näillä käsitteillä on kuitenkin pieni määritel-
mällinen ero: tilastotiede on perinteisesti käsitellyt pienempiä tietoaineistoja, kun taas data-analy-
tiikka keskittyy suurien datamäärien eli big datan analysoimisen. Tämän taustalla on se, että aikai-
semmin suurien ja sopivien datamassojen kerääminen oli haastavaa ja kallista (Aasheim ym. 2015, 
104). Tämä jako ei kuitenkaan ole ideaali, sillä myös tilastotieteen hyödyntämä aineisto voi olla erit-
täin laaja, ja siten myös koko jaon olemassaoloa voi perustellusti kyseenalaistaa. 
Toinen tärkeä taksonomia datatieteen ja data-analytiikan välillä liittyy tekniikoihin ja suuntautunei-
suuteen. Datatieteessä katse on pitkälti tulevaisuuden ennustamisessa, kun taas data-analytiikassa py-
ritään historiallista dataa käyttämällä ymmärtämään trendejä päätöksenteon tukena (Aasheim ym. 
2015, 104). Data-analytiikassa työkaluina käytetään muun muassa Microsoft Exceliä, Python-, R- ja 
JavaScript-ohjelmointikieliä sekä tietokantakieliä kuten SQL:ää. Data-analytiikkaan liitetään usein 
termi Business Intelligence eli BI, joka on liiketoimintatietoon liittyvä data-analytiikan alalaji. BI:ta 
käytetään yleensä tiedon raportointiin ja visualisointiin, ja sen tarkoituksena on tehostaa päätöksen-
tekoa. 
Taulukko 1: Datatieteen, Data-analytiikan ja Business Intelligencen taksonomia 
 Suuntautuminen Menetelmiä 
Datatiede Tulevaisuus 
Koneoppiminen, prediktiivinen 
analytiikka, Python, Pythonin kir-
jastot kuten Pandas ja PyTorch 
Data-analytiikka 
Nykyhetki, menneisyys (ja tule-
vaisuus) 
Excel, ohjelmointikielet, BI-
työkalut, SQL 
Business Intelligence Nykyhetki ja menneisyys Excel, BI-työkalut, SQL 
 
Datatieteestä ja data-analytiikasta on huomioitavaa se, että kaikissa tapauksissa analyyttisten meto-
dien käyttäminen ei ole järkevää. Jos trendit huomataan esimerkiksi datan visualisoinneista helposti, 
ei vaikeiden ja aikaa vievien menetelmien hyödyntäminen ole tehokasta (Kelleher & Tierney 2018, 
19). Näitä epäformaaleja ongelmanratkaisumenetelmiä kutsutaan heuristiikoiksi, ja joskus niiden 
12 
 
tulokset voivat riittää tarpeeksi hyvään ymmärrykseen, jolloin täsmällisemmälle ja tutkimuksellisem-
malle analytiikalle ei ole tarvetta. Heuristiikat eivät kuitenkaan ole aina toimivia. Esimerkiksi 
Tversky & Kahneman (1973) huomasivat, että ihmiset arvioivat tapahtumien todennäköisyyttä vir-
heellisesti, koska he nojaavat analyyseissään intuitiivisiin mutta systemaattisesti väärin tuloksiin joh-
taviin heuristiikkoihin kuten edustavuusheuristiikkaan. Edustavuusheuristiikka on yleensä harhaan-
johtava nyrkkisääntö, jonka mukaan ihmiset arvioivat tapahtuman todennäköisyyttä sen perusteella, 
miten se vastaa jo olemassa olevaa mielikuvaa tarkasteltavana olevasta asiasta. Ihmiset saattavat esi-
merkiksi tehdä vääriä johtopäätöksiä ihmisen työpaikoista pukeutumisen perusteella: eriskummalli-
sesti ja värikkäästi pukeutuva henkilö tuskin mielletään ensimmäisenä ammatiltaan rahoitusalan am-
mattilaiseksi. 
2.2 Data-analytiikan jaottelu 
Data-analytiikan jaotteluun on olemassa useita eri teoreettisia viitekehyksiä. Todennäköisesti tunne-
tuin näistä on DDPP-malli, jossa analytiikka jaotellaan kuvailevaan, diagnostiseen, ennakoivaan ja 
ohjaavaan analytiikkaan. Malli on kehittynyt analytiikan ja sen menetelmien kehittymisen myötä, 
mutta erityisesti sitä käytetään BI-ympäristössä analyysin tasojen jaotteluun.  
Kuvaileva eli deskriptiivinen analytiikka on data-analyysin perusmuoto, jossa datamassasta tarkas-
tellaan sen tilastollisia ominaisuuksia, kuten keskiarvoa, mediaania, moodia, hajontaa tai varianssia 
tilastollisia ohjelmistoja käyttämällä. Deskriptiivisen analytiikan juuret ovat vakaasti tilastotieteelli-
set, ja tilastotieteessä lähes saman käsitteen kuvaamiseen käytetäänkin käsitettä deskriptiivinen tilas-
totiede. Deskriptiivinen analytiikka sisältää menetelminään yleiset datan visualisointimenetelmät, 
ryhmittelyt sekä segmentoinnit, ja vastaa pitkälti kysymykseen: ”Mitä tapahtuu?”. Yksinkertaistetusti 
voidaan sanoa, että deskriptiivisessä analytiikassa dataa analysoidaan raporttien ja visualisointien 
tuottamista varten (Köseoğlu 2022, 30).  
Diagnostisen analytiikan tarkoituksena on kertoa miksi datasta löytyy trendejä, korrelaatiota ja erito-
ten syy-seuraussuhteita eri muuttujien välillä, ja se vastaa kysymykseen: ”Miksi näin tapahtui?” 
(Köseoğlu 2022, 30). Pääasiallisena työkaluna myös diagnostisen analytiikan tekemisessä ovat tilas-
tolliset ohjelmistot. Diagnostista analytiikkaa käytetään muun muassa korrelaatioiden ja syy-seuraus-
suhteiden selittämiseen hypoteesitestauksen, korrelaatioanalyysin ja kausaalianalyysin keinoin. Le-
penioti ym. (2020) pitää diagnostista analytiikkaa kuvailevan analytiikan alalajina. 
Prediktiivisessä eli ennustavassa analytiikassa käytetään historiallista dataa ennustamaan tulevaisuu-
den skenaarioita sekä trendejä, eli se vastaa kysymykseen: ”Mitä todennäköisesti tapahtuu 
13 
 
tulevaisuudessa?” (Köseoğlu 2022, 30). Prediktiivistä analytiikkaa tehdään nykyään pitkälti auto-
maattisesti algoritmipohjaisesti, mutta sitä voidaan toteuttaa myös perinteisin tilastollisin menetel-
min, kuten muun muassa lineaariregressiota soveltamalla. Lepenioti ym. (2020) jakaa prediktiivisen 
analytiikan menetelmät kolmeen eri alalajiin: todennäköisyysmalleihin, tilastolliseen analyysiin sekä 
koneoppimis/tiedonlouhimis -pohjaisiin menetelmiin. Edellä mainittu lineaariregressio kuuluu tilas-
tollisen analyysin alle, kun taas esimerkiksi Bayes-verkko on todennäköisyysperusteinen ja neuro-
verkko on koneoppimis/tiedonlouhimis -pohjainen.   
Viimeinen mallin osa on preskriptiivinen analytiikka. Preskriptiivinen eli ohjaava analytiikka vastaa 
pitkälti kysymykseen: ”Mitä pitäisi tehdä?”, ja on siten analytiikan terävintä ja toteutuksellisesti haas-
tavinta kärkeä (Köseoğlu 2022, 30). Preskriptiivinen analytiikka ei ainoastaan ennusta mitä tapahtuu, 
vaan suosittelee lisäksi toimenpiteitä halutun tilan saavuttamiseksi. Preskriptiivistä analytiikkaa on 
vaikea soveltaa perinteisin menetelmin, jolloin mukaan tulee erityisesti koneoppiminen ja tekoäly. 
Preskriptiivistä analytiikkaa voidaan toki toteuttaa tekoälyn ja koneoppimisen ohella myös esimer-
kiksi optimointialgoritmeja ja simulaatiomalleja hyödyntämällä. Preskriptiivisen analytiikan mene-
telmät Lepenioti ym. (2020) jakaa prediktiivisen analytiikan todennäköisyysperusteisten ja koneop-
pimis/tiedonlouhimis -pohjaisten mallien lisäksi matemaattiseen ohjelmointiin, evolutionääriseen 
laskentaan, simulointimalleihin sekä logiikkaperusteisiin malleihin. 
 
Taulukko 2: Deskriptiivinen, Diagnostinen, Prediktiivinen ja Preskriptiivinen analytiikka 
 Tavoite Tekniikat Työkalut 
Deskriptiivinen Ymmärtää ja kuvailla dataa 
Tilastolliset tunnusluvut ja 
visualisointi 
Tilastolliset työkalut 
(Excel, R, SPSS, 
Python) 
Diagnostinen 
Tunnistaa syy-seuraussuh-
teet 
Hypoteesitestaus, kau-
saalianalyysi 
Tilastolliset työkalut 
Prediktiivinen Ennustaa tulevaisuutta 
Koneoppiminen, lineaari-
regressio, muut algoritmit 
Tilastolliset työkalut 
ja etenkin ohjel-
mointikielet (Python, 
R) 
Preskriptiivinen 
Suositella toimenpiteitä ha-
lutun tulevaisuuden saavut-
tamiseksi 
Koneoppiminen ja teko-
äly, optimointialgoritmit, 
Monte Carlo -simulaatiot 
Ohjelmointikielet, 
LLM-kielimallit 
 
DDPP-mallin ohella data-analytiikan jaotteluun on olemassa myös muita malleja. Esimerkiksi Bha-
gattjee (2014) jaottelee data-analytiikan tutkimukselliseen (exploratory), vahvistavaan (confirmatory) 
sekä ennustavaan (predictive) analytiikkaan. Tutkimuksellinen analytiikka keskittyy aiemmin 
14 
 
tuntemattomien ilmiöiden löytämiseen datasta ilman ennakko-oletuksia ja käyttää apunaan erityisen 
paljon visualisointeja. Vahvistava analytiikka tarkoittaa puolestaan pitkälti hypoteesitestausta ja se 
arvioi havaintojen tilastollista merkittävyyttä. Ennustava analytiikka tarkoittaa tässä kontekstissa pit-
kälti samaa ennustuksellista analytiikkaa kuin aiemmassa DDPP-mallissa. 
 
2.3 Tilastolliset analyysimenetelmät data-analytiikassa 
Koska datatieteen ja data-analytiikan pohja on vahvan tilastotieteellinen, on tarpeellista tutustua sen 
relevantteihin osa-alueisiin hieman syvällisemmin.  Vahvaa tilastotieteellistä osaamista voidaan pitää 
tämän perusteella edellytyksenä data-analytiikan onnistuneelle toteuttamiselle. Tilastollisia analyysi-
menetelmiä on liian monia tarkkaa ja kattavaa läpikäyntiä varten, joten käsitellään tässä alaluvussa 
niistä olennaisimmat. 
2.3.1 Keskiluvut ja tunnuslukuanalyysi 
Ensimmäinen analyysin osa-alue liittyy deskriptiiviseen tilastotieteeseen (Wooldridge 2016, 628). 
Tähän osa-alueeseen kuuluu muun muassa tilastollinen tunnuslukuanalyysi, jakauman muodon ana-
lysointi sekä näiden tilastollinen hypoteesitestaus. Deskriptiivinen tilastotiede on data-analytiikan 
kannalta kriittinen osa data-analytiikkaa, ja jotkin lähteet pitävät jopa tilastotiedettä tieteellisen data-
analyysin synonyyminä (Helping Engineers Learn Mathemathics 36, 1). 
Tilastollinen tunnuslukuanalyysi tarkoittaa datasta saatavien keskilukujen ja hajontalukujen määrit-
tämistä sekä niiden avulla olennaisen tiedon esittämistä. Keskilukuihin kuuluu esimerkiksi keskiar-
vot, mediaani sekä moodi. Keskiarvosta huomioitavaa on se, että kansankielisesti keskiarvosta puhu-
essa viitataan yleensä sen suosituimpaan lajiin eli aritmeettiseen keskiarvoon. Keskiarvoja on arit-
meettisen keskiarvon ohella useita, kuten esimerkiksi painotettu keskiarvo, geometrinen keskiarvo 
sekä harmoninen keskiarvo (De 2016, 1119). Muille keskiarvomenetelmille löytyy sovelluksia eten-
kin rahoitustieteen ja taloustieteen parista.  
Keskilukujen ohella tunnuslukuanalyysiä tehdään myös niin sanotuista hajontaluvuista, eli esimer-
kiksi keskihajonnasta ja varianssista, taikka vaihteluvälistä ja kvartaaliväleistä (Helping Engineers 
Learn Mathemathics 36, 17). Hajontaluvut kuvaavat kuinka paljon havaintojen arvot poikkeavat kes-
kiluvun ympärillä. Varianssi on todennäköisesti merkittävin hajontaluku ja se kuvaa kuinka haja-
naista data on. Keskihajonta on varianssille läheistä sukua, mutta eroaa siitä siten, että sitä käytetään 
15 
 
mittarina keskimääräiselle hajonnalle datan alkuperäisessä mittayksikössä, kun taas varianssi ilmai-
see keskihajonnan neliöitynä eli eri mittayksikössä. 
Vaihteluväli tarkoittaa datan suurimman ja pienimmän arvon välistä erotusta ja se antaa yksinkertai-
sen käsityksen datan hajonnasta (Upton & Cook 1996, 55). Kvartaaliväli puolestaan tarkoittaa väliä, 
joka kattaa keskimmäiset 50 % havainnoista ja antaa kuvan datasta ilman äärimmäisiä arvoja. Kvar-
taaliväli onkin erityisen hyödyllinen työkaluna silloin, kun data sisältää poikkeavia arvoja ja siten 
vääristää keskihajontaan perustuvia tulkintoja (Upton & Cook 1996, 55). Kvartaalivälin ohella tärkeä 
matemaattinen konsepti on ala- ja yläkvartiilit. Alakvartiili sisältää pienimmät 25 % havainnoista ja 
yläkvartiili suurimmat 25 % havainnoista 
Jakauman muodon analysointi tarkoittaa menetelmänä pitkälti sen vinouden ja huipukkuuden laske-
mista ja tutkimista. Jakauman muoto tarkoittaa sitä, miten data on jakautunut keskiluvun ympärille, 
eli kuinka symmetrinen se on. Vinouden ja huipukkuuden analysointi on tärkeää, koska ne voivat 
vaikuttaa tilastollisten testien toimintaan haitallisesti (Wooldridge 2016, 658). Monet edistyneemmät 
tilastolliset menetelmät olettavat, että data on normaalijakautunutta, ja jos data on vinoutunutta tai 
korkeahuippuista, voi olla järkevämpää käyttää muita testejä ja menetelmiä analyysien tekoon.  
Jos jakauma on vino, voidaan histogrammista tai muusta visualisointitavasta huomata datapisteiden 
suhteeton painottuminen jommallekummalle puolelle häntää (Bowers 1991, 26). Huipukkuus kuvaa 
jakauman terävyyttä normaalijakaumaan verrattuna. Korkea huipukkuus viittaa siihen, että suurin osa 
havaintoarvoista on lähellä keskiarvoa, kun taas matala huipukkuus kertoo tasaisemmasta jakaumasta 
(Bowers 1991, 26).  
Tilastollinen hypoteesitestaus on tilastotieteen perusmenetelmä, jolla voidaan testata oletuksia ja 
yleistää otoksesta huomatut seikat populaatiotasolle (Bowers 1991, 137). Menetelmää käytetään ylei-
sesti kvantitatiivisen tutkimuksen tekemisessä, mutta yhä etenevissä määrin myös liiketoiminnallis-
ten päätöksien perustelussa. Hypoteesitestauksen menetelmiä on datasta ja kontekstista riippuen 
useita, mutta ehkäpä tärkein niistä on Studentin t-testi. Studentin t-testin avulla verrataan kahden eri 
ryhmän keskiarvoja ja pyritään siten selvittämään ovatko niissä olevat aineistoerot tilastollisesti mer-
kittäviä (Encyclopedia Britannica: Student's t-test 2025). Muita tunnettuja hypoteesitestausmenetel-
miä on muun muassa Khiin neliö -testi sekä ANOVA eli varianssianalyysi. 
2.3.2 Regressioanalyysit ja kausaalianalyysi 
Toinen tässä tutkielmassa läpikäytävä tilastollisen analyysin osa-alue liittyy regressioon ja kausaali-
suuden tunnistamiseen, eli sitä kautta etenkin diagnostiseen ja prediktiiviseen analytiikkaan. 
16 
 
Regressioanalyysissä pyritään selvittämään ”yhden tai useamman muuttujan yhteyttä selitettävään 
muuttujaan” (Kaakinen & Ellonen 2025). Regressiosta on olemassa erilaisia variaatioita, mutta niistä 
tunnetuimmat lienevät lineaariregressio ja logistinen regressio. 
Lineaarisessa regressioanalyysissä eli lineaariregressiossa oletetaan olevan lineaarinen suhde riippu-
van muuttujan ja riippumattoman/riippumattomien muuttujien välillä (Wooldridge 2016, 20). Line-
aarista regressiota käytetään laajasti esimerkiksi rahoitusmalleissa ja makrotaloudellisten ennusteiden 
kehittämisessä ja se loistaakin parhaiten yksinkertaisten ennusteiden luomisessa sekä yleisten tren-
dien huomaamisessa. Lineaariregressio ei kuitenkaan sovellu monimutkaisten ilmiöiden tai klassifi-
kaatiopohjaisen datan analysointiin sen lineaarisen perusolettamuksensa vuoksi. Lineaariregression 
luontiin on olemassa useita menetelmiä, joista tunnetuin ja käytetyin on pienimmän neliösumman 
menetelmä (Bowers 1991, 194).  
Logistista regressiota käytetään etenkin silloin, kun riippuva muuttuja on binäärisesti kategorinen 
muuttuja, mutta mallia on mahdollista soveltaa myös muun kategorisen datan käsittelemiseksi (Spe-
randei 2014). Perinteisesti logistista regressiota käytetään tilanteissa, joissa halutaan mallintaa toden-
näköisyyttä sille, että tapahtuma toteutuu tai ei toteudu. Logistinen regressiomalli perustuu sigmoidi-
funktioon, joka muuntaa arvot välille 0–1. Tämä muunnos tekee mahdolliseksi mallin tulkinnan to-
dennäköisyysperusteisesti, eli kertoimien avulla voidaan arvioida kuinka kukin riippumaton muuttuja 
vaikuttaa tapahtuman todennäköisyyteen. Tämä on mahdollistanut sen, että logistinen regressio toimii 
perustana kehittyneemmille klassifikaatioalgoritmeille erityisesti koneoppimisen saralla (Thabtah 
ym. 2019). Logistiselle regressiolle on lineaariregression tavoin lukematon määrä käyttökohteita, 
mutta ehkäpä merkittävimmät niistä liittyvät anomalia- ja petostunnistamiseen sekä tartuntatautien 
leviämisen mallintamiseen (Sperandei 2014). 
Korrelaatioanalyysi on analyysimenetelmä, joka tutkii kahden tai useamman muuttujan välillä tilas-
tollista yhteyttä tai sen puutetta (Gogtay & Thatte 2017). Yleisimmät korrelaatioanalyysin metodit 
liittyvät korrelaatiokertoimien laskemiseen, kuten esimerkiksi Pearsonin korrelaatiokertoimeen. 
Pearsonin korrelaatiokerroin mittaa lineaarista riippuvuutta kahden muuttujan välillä ja voi saada ar-
von välillä -1 ja 1. Jos korrelaatiokertoimen arvo on lähellä nollaa, ei lineaarista yhteyttä ole. Jos arvo 
on lähellä jompaakumpaa ääripäätä, on korrelaatio puolestaan todella merkittävä.  
Kausaalianalyysi on kehitetty korrelaatioanalyysin jatkoksi, koska pelkkä korrelaatio ei vielä mer-
kitse, että ilmiöiden välille syntyy syy-seuraussuhdetta. Kausaalianalyysi on tutkielman aiheen kan-
nalta merkittävä aihealue etenkin siksi, koska eräs data-analytiikan syvimmistä tarkoituksista on 
17 
 
löytää syy-seuraussuhteita datasta. Korrelaatioanalyysin tavoin myös kausaalianalyysiin on olemassa 
useita eri menetelmiä, ja sopivin niistä määrittyy aina aineiston ja tutkimustavoitteen perusteella.  
2.3.3 Aikasarja-analyysi ja ennustemallit 
Aikasarja-analyysi on analyysin muoto, jota käytetään, jos data on asetettu aikajärjestykseen ja data-
pisteissä on arvoeroja. Aikasarja-analyysi eroaa siten olennaisesti aikaisemmin esitellyistä poikittais-
tutkimuksellisista menetelmistä (Wooldridge 2016, 312). Aikasarja-analyysiä voidaan hyödyntää 
ajassa muuttuvan datan mallintamiseen ja tutkimiseen, ja sen tarkoituksena on tunnistaa esimerkiksi 
trendejä, syklisyyttä tai muita rakenteita datasta. Aikasarja-analyysi on luonteeltaan prediktiivistä 
(Köseoğlu 2022, 30-31). 
Aikasarja-analyysin tekemiseen on olemassa monia menetelmiä ja ne voidaan luokitella taajuustaso-
analyyseihin sekä aikatasoanalyysiin. Taajuustasoanalyysiin perustuvissa metodeissa pyritään analy-
soimaan tapahtumien määrää eli frekvenssiä, kun taas aikatasoanalyyseissä huomio on ajallisesti pe-
räkkäisissä havainnoissa ja niiden välisissä riippuvuuksissa. Menetelmiä on luonnollisesti paljon, jo-
ten käsitellään aikasarja-analyysin tunnetuimmat ennustemallit, Autoregressive Integrated Moving 
Average (ARIMA) sekä Generalized Autoregressive Conditional Heteroskedasticity (GARCH). 
ARIMA hyödyntää aikasarjadataa tunnistaakseen ilmiöitä sekä ennustaakseen tulevaisuuden tren-
dejä. Esimerkiksi rahoitustieteessä sitä voidaan käyttää osakkeiden tulevien hintojen ennustamiseen 
(Ho ym. 2021). ARIMA koostuu kolmesta pääkomponentista: autoregressiosta, integraatiosta sekä 
liukuvasta keskiarvosta. Autoregressio tarkoittaa yksinkertaistetusti sitä, että menneisyys vaikuttaa 
nykyhetkeen. Integraatio tarkoittaa mallissa sitä, että aikasarjasta pyritään tekemään stationaarinen 
eli ajassa muuttumaton siten, että arvot kuvaavat eroja datapisteiden välillä. Liukuva keskiarvo eli 
Moving Average kuvaa tietyn ajanjakson keskiarvoa ja sitä päivitetään jatkuvasti uusien datapistei-
den myötä. Se auttaa mallissa tasoittamaan vaihtelua ja poistamaan heilahduksia, jolloin trendit ja 
datan rakenne on helpompi havaita.  
GARCH on erityisesti rahoitusmarkkinoilla käytetty malli, jota käytetään ennustamaan volatiliteetin 
kehittymistä aikasarjadataan perustuen (Engle, 2001). GARCH koostuu kahdesta pääelementistä. Au-
toregressiivinen osa tarkoittaa tässä mallissa sitä, että aikaisemmat volatiliteettiarvot vaikuttavat 
myös nykyiseen volatiliteettiin. Ehdollinen heteroskedastisuus tarkoittaa puolestaan sitä, että mallissa 
otetaan huomioon aiemmat havaintovirheet. Ominaisuus volatiliteetin tunnistamiseksi tekeekin mal-
lista erityisen hyödyllisen riskienhallinnassa, optiohinnoittelussa ja sijoituspäätösten tukena (Engle, 
2001). 
18 
 
Yhteenvetona voidaan todeta, että tilastolliset analyysimenetelmät muodostavat merkittävän osan 
data-analytiikan tieteellisestä perustasta. Tilastollinen lähestymistapa mahdollistaa rationaalisten ja 
systemaattisten johtopäätösten tekemisen. Kaikki tässä luvussa käsitellyt menetelmät tukevat kaikkia 
analytiikan muotoja deskriptiivisestä prediktiiviseen analytiikkaan, joskin preskriptiivisen analytii-
kan ennustaminen vaatii myös vielä entisestään kehittyneempiä malleja. Tilastollinen ymmärrys luo 
siis välttämättömän pohjan data-analytiikan syvemmälle ymmärtämiselle. 
19 
 
3 Big data ja tekoäly 
3.1 Dataohjattu päätöksenteko ja big data  
Datan ja data-analytiikan merkitys on noussut viimeisen muutaman vuosikymmenen aikana dataoh-
jatun päätöksenteon suosion noustessa ja datan varastoimiseen liittyvien hintojen pudotessa (Aasheim 
ym. 2015, 104). Dataohjattu päätöksenteko (data-driven decision-making) painottaa datan ja sen ana-
lysoimisen merkitystä liiketoimintapäätöksiä tehtäessä. Päätökset eivät siten nojaa vain intuitioon tai 
heuristiikkoihin (Provost & Fawcett 2013, 3). Käytännössä tämä tapahtuu esimerkiksi BI-järjestelmiä 
hyödyntämällä, ja visualisointisovellukset kuten Power BI ja Tableau ovatkin saavuttaneet suuren 
suosion yritystoiminnan ohjaamisessa. Suuret määrät tarkkaa dataa esimerkiksi myynneistä, kuluista 
ja mainonnasta mahdollistavat niiden hyödyntämisen laaja-alaisesti liiketoimintapäätösten tukena.  
Tästä suuresta datamäärästä ja sen hyödyntämisestä käytetään termejä big data tai massadata. Ihmiset 
tuottavat nykyisessä tietotekniikkaperusteisessa maailmassamme päivittäin noin viisi eksatavua eli 
noin miljardi gigatavua erimuotoista dataa, kuten videoita, kuvia ja tekstiä. Tämä on sama määrä, 
mitä ihmisten arvioidaan tuottaneen kirjoitustaidon keksimisestä lähtien vuoteen 2003 asti, eli datan 
tuotantovauhti on kiihtynyt (Kelleher & Tierney 2018, 9). Koska monet perinteiset data-analytiikka-
työkalut ovat osoittautuneet liian jäykiksi, tehottomiksi tai hitaiksi näin suurien data-aineistojen kä-
sittelyyn, on sitä varten kehitetty uusia ja tehokkaampia teknologioita. Esimerkiksi pilvipohjaisten 
analytiikkapalveluiden avulla voidaan analysoida ja visualisoida suuria datamassoja nopeammin. 
Tämä kehitys on tehnyt dataohjatusta päätöksenteosta nopeampaa ja tehokkaampaa.  
Big datalle on olemassa useampia teoreettisia malleja, mutta tunnetuimmat niistä ovat niin kutsuttuja 
V-malleja. Tietoteknologian tutkimus- ja konsultointiyritys Gartnerin analyytikko Doug Laney ke-
hitti alkuperäisen 3V-mallinsa kuvailemaan big datan ulottuvuuksia vuonna 2001, joskin mallia on 
väärinymmärretty. Alkuperäisessä mallissa 3V tarkoitti vain yhtä osaa big datan määritelmästä (For-
bes 2013). Myöhemmin mallia on laajennettu muun muassa 4V-, 5V-, 6V-, 7V- ja jopa 12V-malliin. 
Alkuperäinen 3V-malli sisältää kuitenkin vain kolme ulottuvuutta: Volume, Velocity ja Variety.  
Volume (määrä) viittaa mallissa datan suureen määrään, jota nykyaikaiset sensorit pystyvät kerää-
mään ja tietokannat sisältämään. Velocity (nopeus) viittaa datan prosessointinopeuteen, jonka nyky-
aikainen tietotekniikka on mahdollistanut (Kelleher & Tierney 2018, 9), ja Variety (monipuolisuus) 
puolestaan viittaa datan erilaisiin muotoihin, eli strukturoituun, strukturoimattomaan sekä semi-struk-
turoituun dataan (Kelleher & Tierney 2018, 9).  
20 
 
Strukturoitu data on selkeästi järjesteltyä ja tallennettu esimerkiksi relaatiotietokantoihin taulukko-
muodossa. Strukturoimaton data ei puolestaan noudata tätä rakennetta, vaan voi koostua tekstin li-
säksi esimerkiksi videoista, kuvista taikka metadatasta. Semi-strukturoitu on näiden kahden väli-
muoto, eli jotain rakenteellisia elementtejä on, mutta se ei ole täysin järjesteltyä tai eheää.  
3V-mallia on laajennettu ajan saatossa sisältämään enemmän ulottuvuuksia. Nykyään käytetyin V-
malli lienee 5V-malli. 5V-malli sisältää aikaisemmin mainittujen Volumen, Velocityn ja Varietyn 
lisäksi tasot Value (arvo) ja Veracity (todenperäisyys) (Lomotey & Deters 2014, 181). Value viittaa 
mallissa siihen, että big dataan liittyy varastointikustannuksia, mutta myös kvantifioitavaa taloudel-
lista arvoa. Veracity-taso viittaa puolestaan siihen, että data saattaa sisältää ”saastetta”, joka pitää 
siistiä pois ennen sen hyödyntämistä (Lomotey & Deters 2014, 181).  
 
 
Kuvio 2: 5V-malli (Lomotey & Deters 2014, 181) 
 
 
Big 
Data
Variety
• Datan muoto
Velocity
• Datan 
käsittelynopeus
Volume
• Datan määrä
Value
• Kustannukset 
ja arvo
Veracity
• Datan 
siistiminen
21 
 
3.2 Tekoäly ja koneoppimismenetelmät data-analytiikassa 
Tekoälyn ja etenkin laajojen kielimallien esiinmarssi 2020-luvun alkupuoliskolla neljännen teollisen 
vallankumouksen yhteydessä on mahdollistanut niiden hyödyntämisen myös data-analytiikassa (Sar-
ker, 2021). Tekoäly tai AI tarkoittaa yksinkertaisimmillaan menetelmien joukkoa, joilla pyritään mat-
kimaan inhimillistä älykkyyttä (Hamet & Tremblay 2017).  
Tekoälyn tärkeimmät osa-alueet ovat koneoppiminen, neuroverkot sekä syväoppiminen. Huomioita-
vaa on kuitenkin se, että tämä ei ole kattava listaus tekoälymenetelmistä, sillä jokainen näistä pitää 
sisällään erilaisia alamenetelmiä ja algoritmeja.  
Koneoppiminen mielletään yleensä tekoälyn osa-alueeksi, joka kattaa laajan määrän erilaisia algorit-
meja, joilla järjestelmät oppivat löytämään syy-seuraussuhteita ja rakenteita datasta (Kelleher & Tier-
ney 2018, 97). Koneoppiminen jaetaan yleensä neljään eri paradigmaan, jotka ovat ohjattu oppimi-
nen, ohjaamaton oppiminen, osittain ohjattu oppiminen ja vahvistusoppiminen. Suurin osa koneop-
pimisalgoritmeista kuuluu joko ohjattuun oppimiseen tai ohjaamattomaan oppimiseen (Kelleher & 
Tierney 2018, 99). 
Ohjatussa oppimisessa järjestelmä oppii valmiiden vastauksien kautta. Syötedatalle määrätään en-
nalta oikea vastaus, jonka jälkeen järjestelmä rakentaa koulutusdatan pohjalta tuloksia ennustavan 
mallin. Tästä datamallista käytetään termiä merkitty data. Aiemmin läpikäydyistä tilastoista muun 
muassa lineaariregressio ja logistinen regressio kuuluvat koneoppimiskontekstissa ohjatun oppimisen 
alle.  
Ohjaamaton oppiminen tarkoittaa sitä, että järjestelmä löytää itse rakenteita datasta. Ohjaamaton op-
piminen eroaa ohjatusta oppimisesta siten, että syötedatalle ei ole ennalta määrättyä oikeaa vastausta, 
eli data on muodoltaan merkitsemätöntä. Tämä johtaa siihen, että järjestelmä huomaa rakenteet pa-
remmin kuin ohjatussa oppimisessa, mutta tietyn ongelman ratkaiseminen vaikeutuu (Kelleher & 
Tierney 2018, 102).  
Osittain ohjattu oppiminen on näiden kahden edeltä mainitun yhdistelmä, jossa järjestelmä oppii sekä 
ohjattujen ja ohjaamattomien menetelmien avulla. Järjestelmä voi siis ottaa vastaan sekä oikeaksi 
merkittyä dataa tai vaihtoehtoisesti strukturoimatonta dataa.  
Vahvistusoppiminen puolestaan perustuu niin sanottuun ”yritykseen ja erehdykseen”. Vahvistusop-
pimisessa järjestelmää palkitaan oikean vastauksen saavuttamisesta ja rangaistaan väärästä 
22 
 
vastauksesta. Vahvistusoppimisen ideana on siis se, että järjestelmä oppii luontaisesti parhaan ”reitin” 
toistojen lisääntyessä.  
 
Kuva 3: Koneoppimisparadigmat (Sarker 2021) 
 
Nykyaikaisen massadatapohjaisen tekoälyn on mahdollistanut koneoppimismenetelmien ohella neu-
roverkkoteknologia. Neuroverkko on biologiasta ja ihmisen hermoston toiminnasta inspiraatiota saa-
nut malli matematiikassa sekä tietojenkäsittelyssä, joka jäljittelee ihmisaivojen rakennetta ja toimin-
taa. Neuroverkko koostuu useasta kerroksesta, joissa keinotekoiset hermosolut, eli neuronit, käsitte-
levät dataa ja siirtävät sen eteenpäin seuraaviin kerroksiin lisäkäsittelyä varten (Kelleher & Tierney 
2018). Tämä mahdollistaa syvällisten ja vaikeiden ongelmien ratkaisemisen. 
Neuroverkkojen ja koneoppimisen yhdistelmäalalajia kutsutaan syväoppimiseksi eli Deep Learnin-
giksi. Syväoppiminen on 2010-luvun alussa tapahtunut teknologinen innovaatio, joka on mullistanut 
tekoälyn erityisesti suurien datamäärien käsittelyssä. Syväoppiminen on menetelmänä erityisen teho-
kas, koska sen avulla voidaan tunnistaa datasta rakenteita ilman, että ihminen merkitsee dataa. 
Koneoppiminen
Ohjattu oppiminen
Merkitty data
Ohjaamaton 
oppiminen
Merkitsemätön data
Osittain ohjattu 
oppiminen
Merkitty + 
Merkitsemätön data
Vahvistusoppiminen
Palkkiojärjestelmä
( + / - )
23 
 
4 Sisäpiirikaupat 
4.1 Sisäpiirikauppojen määritelmä ja sääntely 
Laittomalla sisäpiirikaupalla, eli sisäpiiritiedon väärinkäyttämisellä rahoitusvälinekaupassa, on käy-
tetystä lähteestä ja maan juridisesta kontekstista riippuen erilaisia tarkkoja määritelmiä. Suomessa 
sisäpiiritiedon väärinkäyttämisestä säädetään arvopaperimarkkinalaissa, jossa sitä säännellään yh-
dessä sisäpiiritiedon väärinilmaisun, markkinoiden manipuloinnin ja arvopaperimarkkinoiden tiedot-
tamisrikoksen kanssa (AML 18:2). Maailmassa on olemassa 103 rahoitusmarkkinapaikkaa, joista 
87:ssä on olemassa jonkin tasoista sisäpiirikauppasääntelyä (Bhattacharya & Daouk 2002).    
Sisäpiirikaupan määritelmään liittyy olennaisesti sisäpiiritieto. Suomen rahoitusmarkkinoita valvo-
van viranomaisen, eli Finanssivalvonnan, mukaan sisäpiiritiedolla tarkoitetaan suurelle yleisölle saa-
vuttamatonta tietoa, joka julkistettuna todennäköisesti vaikuttaa huomattavasti siihen liittyvän rahoi-
tusvälineen hintaan (Finanssivalvonta 2018). Sisäpiiritiedosta käytetään joskus myös käsitettä yksi-
tyinen informaatio, ja konkreettisesti tämä tieto voi liittyä esimerkiksi ”yrityksen tulontuottokykyyn, 
tuleviin kassavirtoihin ja investointimahdollisuuksiin” (Niskanen & Niskanen 2013, 290).  
Ajantasainen suomalainen lainsäädäntö sisäpiirikaupoista perustuu arvopaperimarkkinalain ohella 
pääasiassa EU:n vuoden 2014 markkinoiden väärinkäyttöasetukseen MAR:iin (Market Abuse Regu-
lation) ja sen määritelmään sisäpiiritiedosta. Tästä huolimatta sisäpiirikaupat ovat olleet regulaation 
kohteena maailmanlaajuisesti jo ainakin 1930-luvun alkupuoliskolta lähtien (Perino 2018). MAR:n 
mukaan sisäpiiritiedolle on ominaista se, että se on riittävän tarkkaa johtopäätösten tekoon rahoitus-
välineen markkina-arvosta sekä se, että se on tapahtumasidonnaista, eli se kertoo asioista, jotka ovat 
jo tapahtuneet tai tulevat tapahtumaan. Näistä kahdesta ominaisuudesta käytetään yhdessä termejä 
sisäpiiritiedon täsmällisyys ja olennaisuus (Finanssivalvonta 2018). Sisäpiiritiedolle on lisäksi tun-
nusomaista se, että sisäpiiritietoa omaava, eli sisäpiiriläinen, saa ilmaista tietoaan ulkopuolisille vain 
silloin kun se on tarpeellista esimerkiksi ammatin suorittamisen kannalta. 
Sisäpiiriläisellä tarkoitetaan henkilöä, joka on merkitty julkisen osakeyhtiön sisäpiiriluetteloon. Sisä-
piiriluettelo sisältää ne henkilöt, jotka pääsevät käsiksi sisäpiiritietoon ja/tai työskentelevät liikkee-
seenlaskijalle (Finanssivalvonta 2018). Sisäpiiriluetteloita on kahdenlaisia: hankekohtaisia ja pysy-
viä. Pysyvä sisäpiiriluettelo sisältää kaikki henkilöt ja työntekijät, joilla on jatkuva pääsy kaikkeen 
sisäpiiritietoon. Tähän listaan voi kuulua esimerkiksi yhtiön hallitus, toimitusjohtaja, talousjohtaja ja 
muut johtajat. Hankekohtainen sisäpiiriluettelo sisältää puolestaan kaikki henkilöt, joilla on sisäpiiri-
tietoa jonkin hankkeen tiimoilta. Esimerkiksi ulkoiset konsultit ja tilintarkastajat merkitään usein 
24 
 
näihin listoihin (NASDAQ: Pörssin sisäpiiriohje 2020, 5). Finanssivalvonnan tehtävänä onkin valvoa 
näiden sisäpiiriluettelolaisten ja heidän läheistensä kaupankäyntiä, jotta lain rajojen sisällä pysytään 
kauppoja tehdessä. 
Suomessa Finanssivalvonta on laatinut 10 toimintaohjetta, joilla sisäpiiriläinen voi käydä kauppaa 
rahoitusvälineillä rikkomatta markkinalainsäädäntöä. Monet ohjeista on luonteeltaan intuitiivisia ja 
ymmärrettäviä, kuten esimerkiksi se, että optiokaupan kanssa tulee olla erityisen varovainen sekä se, 
että yhtiön sisäpiirilistoista vastaavalta kannattaa kysyä ohjausta, jos suunnitelmissa on yhtiön rahoi-
tusvälineiden vaihdanta (Finanssivalvonta 2018).  
Taulukko 3: Sisäpiiriläisen 10 kaupankäyntiohjetta (Finanssivalvonta 2018) 
1. Pyri tekemään pitkäaikaisia sijoituksia 
2. Voit käyttää kaupankäyntiohjelmia 
3. Harkitse tarvetta rajata omaisuudenhoitosopimuksen ulkopuolelle yhtiösi rahoitusvälineet, jos sinulla tai 
lähipiirilläsi on sellainen 
4. Tee liiketoimet muulloin suljetun ajanjakson ulkopuolella 
5. Ajoita kaupankäyntisi tulosjulkistuksen jälkeiseen ajankohtaan 
6. Varmista yhtiön sisäpiirivastaavalta, onko kaupankäynnillesi mahdollista sisäpiiriestettä 
7. Kannustinjärjestelmään liittyvien optioiden vastaanottaminen ja niiden merkitseminen on lähtökohtai-
sesti mahdollista 
8. Älä myy tai osta optioita, jos hallussasi on sisäpiiritietoa 
9. Rahoitusvälineiden ostaminen on mahdollista, jos on objektiivisesti perusteltua olettaa, että hallussasi 
oleva sisäpiirikielto on sen hinnan kannalta selkeästi kielteistä 
10. Rahoitusvälineiden ostaminen, myyminen ja merkitseminen on mahdollista, jos tiedät liiketoimen toi-
sella osapuolella olevan hallussaan sama sisäpiiritieto kuin sinulla 
 
Sisäpiiriläisenä näistä ohjeista tärkein lienee se, että kaupankäynnin tulee tapahtua suljetun jakson 
ulkopuolella. Suljettu ajanjakso tarkoittaa 30 päivän aikaikkunaa ennen osavuosikatsauksen, listayh-
tiön taloudellisen raportin tai tilinpäätöksen julkistamista, ja tuona aikana yhtiön hallituksen jäsen, 
toimitusjohtaja tai muu johtotehtävissä toimiva ei saa itse käydä kauppaa tai suositella muita teke-
mään kauppaa kyseenomaisilla rahoitusvälineillä (NASDAQ: Pörssin sisäpiiriohje 2020, 5). Tämän 
lisäksi kyseisen ”taloudellisen raportin valmisteluun osallistuvan henkilön ei ole suositeltavaa tehdä 
liiketoimia” suljetun ikkunan aikana, vaikkakaan täyttä kieltoa ei ole (NASDAQ: Pörssin sisäpiiriohje 
2020, 6). Huomioitavaa on kuitenkin se, että kielto ei ole täysin absoluuttinen, vaan siitä voidaan 
joustaa MAR-asetuksen asettamien edellytyksien täyttyessä. Eräs esimerkki tästä on se, jos ”vakavat 
rahoitusvaikeudet edellyttävät osakkeiden myyntiä” (MAR 19:12). 
25 
 
Toinen sisäpiiriläiselle tärkeä ohje liittyy sallituista sisäpiirikaupoista ilmoittamiseen. Sisäpiiriläisen 
tai hänen lähipiiriinsä kuuluvan tulee ilmoittaa Finanssivalvonnalle ja yhtiölle kolmen arkipäivän ku-
luessa kaupankäyntitapahtuman toteutuksesta (NASDAQ: Pörssin sisäpiiriohje 2020, 6).   
Yleisenä ohjenuorana sisäpiiriläiselle voidaan lisäksi sanoa, että askarruttavissa tilanteissa tulisi ottaa 
yhteyttä yhtiön sisäpiirivastaavaan. Sisäpiirivastaava tarkoittaa pörssilistatuissa yhtiöissä henkilöä, 
joka valvoo sisäpiirihallintoon kuuluvien tehtävien suorittamista (Nasdaq Helsinki, 2021). Tämän 
kaiken ohella Finanssivalvonnan ohjeistuksessa kerrotaan muun muassa, että sisäpiiritietoon liittyvää 
rahoitusvälinettä voidaan ostaa, myydä tai merkitä, jos sama sisäpiiritieto on hallussa myös vaihdan-
nan vastapuolella.  
Sisäpiiritiedon tahallinen tai törkeästä huolimattomuudesta johtuva väärinkäyttö on Suomessa ran-
gaistavaa rikoslain 51 luvun 1 pykälän nojalla. Törkeästä tekomuodosta säädetään samaisen luvun 2 
pykälässä (RL 51:1–2). Sisäpiiritiedon väärinkäyttämisestä voidaan tuomita sakkoon tai vankeuteen 
enintään kahdeksi vuodeksi, ja törkeän tekomuodon osalta rangaistus on vähintään neljä kuukautta ja 
enintään neljä vuotta vankeutta. Törkeä tekomuoto tulee kyseeseen, kun henkilö väärinkäyttää sisä-
piiritietoa tahallisesti tavoitellakseen erityisen suurta hyötyä tai huomattavaa henkilökohtaista etua, 
taikka käyttää rikoksen tekemisessä hyväksi erityisen vastuullista asemaansa laissa määritellyissä yh-
teisöissä, taikka rikos tehdään erityisen suunnitelmallisesti, ja sisäpiirintiedon väärinkäyttö on myös 
kokonaisuutena arvostellen törkeä. Myös väärinkäytön yritys on rangaistavaa.  
Sisäpiiritiedon väärinkäyttämisestä voi kiinni jäädessä seurata rikosoikeudellisten seurauksien ohella 
hallinnollisia seurauksia. Markkinoiden väärinkäyttöasetus velvoittaa jäsenvaltiot säätämään valtuu-
desta toteuttaa hallinnollisia seurauksia. MAR:iin perustuen oikeushenkilölle, kuten vaikkapa yrityk-
selle tai yhdistykselle, voidaan määrätä kokonaisliikevaihdosta mitattuna enintään 15 % suuruinen tai 
15 000 000 € kokoinen hallinnollinen seurausmaksu. Luonnollisille henkilöille samainen seuraus on 
enintään 5 000 000 €. Tämän lisäksi voidaan määrätä erilaisia lisäseuraamuksia, kuten toimiluvan 
peruuttaminen tai kielto toimia johtotehtävissä, mutta mahdolliset seuraamukset eivät rajoitu vain 
näihin (MAR 30 artikla). MAR:n lisäksi Suomen kansallinen lainsäädäntö myöntää lisämääreitä ase-
tusta täydentämään. Koska MAR on suunnattu liikkeeseenlaskijoille, jättää se sääntelyn ulkopuolelle 
muun muassa eläkeyhtiöt ja rahastoyhtiöt. Kotimaisen lainsäädännön tarkoituksena on siis laajentaa 
lainsäädäntöä koskemaan myös muita rahoitusmarkkinatoimijoita. 
Vaikka sisäpiirikauppa on ollut Suomessa säädeltyä vuodesta 1989 alkaen ja sakkotuomioita ja hal-
linnollisia seuraamusmaksuja on tullut arvopaperimarkkinalain voimaantulohetkestä lähtien, ovat 
varsinaiset vankeustuomiot yleistyneet vasta vuodesta 2006 alkaen (Pietiläinen 2008). Ehkäpä 
26 
 
Suomen tunnetuin sisäpiirikauppaan liittyvä tapaus on Talvivaaran Kaivososakeyhtiö Oyj:n johdon 
tekemät laittomat sisäpiirikaupat ja tiedottamisrikokset vuosina 2011–2013. Tuolloin kaivoksen joh-
tajana toiminut Lassi Lammassaari teki osakekauppoja satojen tuhansien eurojen arvosta, ansaiten 
yhteensä 220 000 € rikoshyötyä. Lammassaari myi osakkeita tietäessään, että toteutunut nikkelituo-
tanto oli alhaisempi, kuin julkiset ennusteet antoivat ymmärtää, sekä lisäksi koko kaivoksen kannat-
tavuuteen vaikuttava nikkelipitoisuus oli matalampi kuin julkisuudessa oli kerrottu. Lopulta Lam-
massaari tuomittiin kuuden kuukauden ehdolliseen vankeusrangaistukseen, menettämään rikoshyö-
tynä 50 000 € sekä maksamaan 30 päiväsakkoa, eli hänen tuloillaan noin 3 000 € (MTV Uutiset 
2017). Myöhemmin samassa vyyhdissä syytettiin sisäpiirikaupoista myös yhtiön entistä toimitusjoh-
taja Pekka Perää, entistä varatoimitusjohtaja Saila Miettinen-Lähdettä sekä yhtiön entistä kaupallista 
johtajaa Pekka Erkinheimoa. Syyttäjän mukaan kolmikko syyllistyi törkeään sisäpiiritiedon väärin-
käyttöön käydessään Talvivaaran osakkeiden merkintäoikeuksilla kauppaa vuonna 2013. Lopulta 
Helsingin käräjäoikeus kuitenkin hylkäsi syytteet, sillä se katsoi, ettei vuosituotantotavoitteen las-
kulla ja nikkelipitoisuuden laskevalla trendillä olisi ollut huomattavaa vaikutusta osakkeen arvoon, 
eikä siten kolmikolla ollut hallussaan sisäpiiritietoa (Helsingin Sanomat 2020). Syyttäjät valittivat 
myöhemmin asiasta korkeimpaan oikeuteen, mutta eivät saaneet valituslupaa. 
Talvivaaran tapaus osoittaa selkeästi sisäpiirikauppaan liittyvän epävarmuuden ja vaikeuden. Koska 
kaikki sisäpiiriläisten tekemät kaupat eivät ole lainvastaisia, voi olla todella vaikeaa tehdä rajanvetoa 
laillisen ja laittoman kaupan välillä. Koska todistustaakka on oikeusvaltiossa yleensä syyttäjällä, eikä 
pelkkä kaupan ajoitus riitä todisteeksi sisäpiirikaupasta, on tutkivalle viranomaiselle yleensä vaikeaa 
vedenpitävästi osoittaa sisäpiirikaupan tapahtuneen.  
4.2 Sisäpiirikaupat ja rahoitusteoria 
Rahoituksessa ja taloustieteessä sisäpiirikauppoja tarkastellaan niin sanotun tehokkaiden markkinoi-
den hypoteesin kautta (Efficient Market Hypothesis, EMH). EMH on taloustieteilijä Eugene Faman 
vuonna 1970 julkaisema ja popularisoima aikaisempaan markkinatehokkuuden tutkimukseen pohjau-
tuva teoria, jonka keskiössä on se, että julkisilla markkinoilla kauppaa käytävän sijoitushyödykkeen 
hinta heijastaa kaiken julkisen ja yksityisen informaation, jolloin kenelläkään ei ole mahdollisuutta 
ansaita systemaattisesti ylituottoa sijoituksesta (Fama 1970). Markkinatehokkuus, eli tarkemmin al-
lokatiivinen tehokkuus, tarkoittaa yksinkertaisimmillaan sitä että ”taloudelliset varat ohjautuvat 
sinne, mistä saa parhaan tuoton” (Kurenmaa 2003). 
EMH:n tausta-ajatuksena on se, että markkinat voidaan jakaa kolmeen eri kategoriaan niin sanotun 
tehokkuuden kautta. Markkinoita on teorian mukaan heikosti tehokkaita, puolivahvasti tehokkaita 
27 
 
sekä vahvasti tehokkaita (Fama 1970). Heikosti tehokkailla markkinoilla teorian mukaan kaikki his-
toriallinen markkinatieto näkyy sijoitusinstrumentin hinnassa. Heikosti tehokkailla markkinoilla tek-
ninen analyysi ei siis teorian mukaan luo ansaintamahdollisuuksia. Puolivahvasti tehokkailla mark-
kinoilla puolestaan teorian mukaan ajatellaan, että kaikki julkinen tieto on heijastunut sijoitusinstru-
mentin hintaan. Tässä tapauksessa tekninen- tai fundamenttianalyysi ei siis luo ansaintamahdolli-
suuksia sijoitushyödykkeellä, koska kaikki julkinen tieto on jo heijastunut hintaan. Viimeinen ja ai-
healueemme kannalta merkittävin osuus koskee kuitenkin vahvasti tehokkaita markkinoita. Vahvasti 
tehokkailla markkinoilla ajatellaan teorian mukaan, että kaikki julkinen sekä yksityinen tieto heijas-
tuu osakkeen hintaan. Tällaisessa tilanteessa ei siis pitäisi olla teorian mukaan mahdollista saada sys-
temaattista ylituottoa minkäänlaisin informaatioon pohjautuvin keinoin (Vallely, 2018). Näistä kol-
mesta markkinatehokkuuden muodosta seuraa teorian mukaan se, että koska osakkeen hinta heijastaa 
aina käyvän markkina-arvonsa, on ylituottoa pitkällä ajanjaksolla mahdotonta saada ylimääräistä ris-
kiä ottamatta (Fama 1970).  
EMH:lle on kuitenkin esitetty lukuisia vasta-argumentteja. Aihetta kuvaa ehkä parhaiten seuraava 
taloustieteilijöiden keskuudessa ikoniseksi muodostunut vitsi:  
Kaksi ekonomistia kävelee kadulla. Toinen heistä sanoo: "Katso, tuolla on kahdenkym-
menen dollarin seteli maassa!" Toinen ekonomisti vastaa: "Ei ole. Jos olisi, joku olisi jo 
poiminut sen (Corcoran 2024). 
Vitsiin kyteytyy EMH-kritiikin kärki. On melko paradoksaalista, että samaan aikaan markkinoiden 
oletetaan olevan täysin tehokkaat ja heijastavan samalla kaiken olemassa olevan informaation, mutta 
käytännössä sijoittajat etsivät jatkuvasti anomalioita ja mahdollisuuksia ylituottoon. Jos markkinat 
todella olisivat vahvasti tehokkaat, ei poikkeamia tai osakkeiden aliarvostuksia pitäisi käytännössä 
esiintyä. Useat empiiriset havainnot ovat osoittaneet, että markkinoilla esiintyy anomalioita. Hyväksi 
esimerkiksi tästä voimme nostaa vaikkapa momentum-ilmiön. Momentum-ilmiö viittaa markkinoilla 
havaittavaan kaavaan, jossa aikaisempina kuukausina hyvin tuottaneet osakkeet nousevat myös tule-
vaisuudessa (Jegadeesh & Titman 2001). Tämä on ilmiselvästi ristiriidassa EMH:n kanssa, sillä teo-
rian mukaan investointihyödykkeen arvon ei pitäisi määräytyä historiallisen datan seurauksena. EMH 
saattaakin siis olla melko idealistinen kuvaus markkinoiden toimintamekanismeista, ja jättää teoriana 
huomiotta muun muassa behavioraalisen rahoituksen näkökulmat sijoittajien rationaalisuudesta.  
Sisäpiirikauppojen kannalta huomattavinta on, että jos oletetaan markkinoiden toimivan tehokkaasti, 
ei sisäpiiritiedolla pitäisi pystyä ansaitsemaan ylituottoa. Käytännössä kuitenkin tutkimukset ja em-
piria ovat osoittaneet sisäpiirikauppojen tuottavan odotettua paremmin, joka viittaa siihen, että mark-
kinat eivät ole täysin vahvasti tehokkaat. (Doffou 2007, 5) Kysymykseksi syntyykin se, että missä 
28 
 
määrin yksityinen informaatio vaikuttaa hintoihin ja kuinka tehokkaasti markkinat todella heijastavat 
informaatiota.  
Toinen sisäpiirikauppoihin merkittävästi kytkeytyvä rahoitusteoria liittyy signalointiteorioihin. Sig-
nalointi voi tarkoittaa rahoituksen ja taloustieteen kontekstissa esimerkiksi yrityksen pääomaraken-
teeseen liittyviä ominaisuuksia (Niskanen & Niskanen 2013, 290 - 291), mutta sisäpiirikauppojen 
yhteydessä signalointi tarkoittaa yrityksen johdon tai muiden sisäpiiriläisten tekemiä kauppoja, joissa 
on mahdollisuus välittää markkinainformaatiota esimerkiksi yrityksen tulevaisuudennäkymistä. 
Koska sisäpiiriläisillä on velvollisuus julkistaa yritykseen liittyvät kauppansa, voivat esimerkiksi yri-
tykseen liittyvät osakeostot olla merkki siitä, että yrityksen uskotaan olevan aliarvostettu. Vastavuo-
roisesti myyntien voidaan uskoa viestivän mahdollisista ongelmista yrityksessä, ja siten viestiä osak-
keen olevan esimerkiksi yliarvostettu. Yrityksen sisäpiiriläisten tekemät myynti- tai ostopäätökset 
voivat siis toimia signaaleina markkinoille yrityksen arvosta. Toisaalta signalointiteorian sovelletta-
vuuden ongelmaksi syntyy se, että sisäpiiriläiset saattavat tehdä myös ei-sanktioitua sisäpiirikauppaa 
esimerkiksi verotuksellisista syistä, jolloin myynti- tai ostosignaalit eivät ole aina vedenpitäviä. 
Kaikki ostot eivät siis välttämättä tarkoita aliarvostusta, eivätkä kaikki myynnit ennusta laskua. 
Kolmas ja tässä tutkielmassa viimeinen läpikäytävä sisäpiirikauppoihin liittyvä rahoitusteoria on in-
formaatioasymmetriaan perustuva teoria. Asymmetrinen eli epätasaisesti jakautunut informaatio tar-
koittaa rahoitusteorian ja sisäpiirikauppojen kontekstissa markkinatilannetta, jossa joillain markkina-
toimijoilla on hallussaan enemmän informaatiota kuin toisilla. Sisäpiiri-ulkopiiri-jako onkin erin-
omainen malliesimerkki tästä tilanteesta. Asymmetristä informaatiota pidetään epätoivottavana, sillä 
se voi johtaa markkinoiden tehottomuuteen tai teorian tasolla jopa luhistumiseen haitallisen valikoi-
tumisen ja moraalikadon kautta (Akerlof 1970).  
Haitallinen valikoituminen (adverse selection), tarkoittaa sitä, että markkinatoimijat eivät erota hyvää 
ja huonoa informaatiota toisistaan, mikä johtaa siihen, että huonommin informoidut sijoittajat tekevät 
itselleen epäedullisia päätöksiä. Sisäpiirikontekstissa tämä tarkoittaa sitä, että sijoittaja ei välttämättä 
tiedä, mikä osa hinnasta perustuu yhtiön ominaisuuksiin eli fundamentteihin, ja mikä osa perustuu 
sisäpiiritietoon. Moraalikato (moral hazard) puolestaan tarkoittaa kontekstissamme sitä, että asym-
metrisesta informaatiosta nauttiva ottaa suurempia riskejä, kantamatta kuitenkaan täysiä vastuita ja 
jonkun toisen kustannuksella. Esimerkiksi yritysjohto saattaisi tapauksessamme olla altis tekemään 
yritykseen liittyviä päätöksiä, jotka eivät hyödyttäisi osakkeenomistajia, vaan johtoa itseään (Padilla, 
2002). Molemmat sisäpiirikauppojen informaatioasymmetriaan liittyvät ongelmat ovatkin vankasti 
yhteydessä päämies-agentti-ongelmaan.   
29 
 
Sisäpiirikauppojen kieltoa puoltavien henkilöiden sääntelyn teoreettinen ajattelu perustuu yleensä 
kolmeen eri ajattelumalliin. Merkittävimmän ajattelutavan mukaan sisäpiirikauppojen laillisuus voi 
johtaa rahoitusmarkkinoilla ”likviditeettipuutteeseen, johdon vääriin tavoitteisiin tai sijoittajien luot-
tamuksen menetykseen pääomamarkkinoita kohtaan” (Fishman & Hagerty 1992, 106). Sijoittajat 
saattavat menettää siis luottamuksensa markkinoiden reiluuteen ja oikeudenmukaisuuteen, erityisesti 
silloin, kun he kokevat, että sisäpiiriläiset hyödyntävät etuoikeutettua tietoa. Tällöin sijoittajat vähen-
tävät kaupankäyntiään peläten, että heidän sijoituksensa eivät ole turvassa. Tämä puolestaan johtaa 
kaupankäyntivolyymien vähenemiseen, mikä heikentää markkinoiden likviditeettiä. Vähäinen likvi-
diteetti tekee osakkeiden osto- ja myyntiprosesseista vaikeampia ja altistaa ne suurille kurssivaihte-
luille, vaarantaen potentiaalisesti jopa koko talouden toiminnan. Toisen ajattelumallin mukaan sisä-
piirikaupan salliminen puolestaan ”vahingoittaa kyseiset arvopaperit liikkeeseen laskenutta yhtiötä” 
(Kurenmaa 2003). Kolmas ajattelutyyli puolestaan perustelee kieltoa siten, että kyseessä oleva infor-
maatio on yhtiön omaisuutta, ja siksi sitä ei saa päästää suunniteltua ennen markkinoille. (Kurenmaa 
2003). Tämän lisäksi joidenkin sääntelyä kannattavien mielestä sisäpiirikaupan hyväksyminen lan-
nistaisi sijoittajia informaation keräämisestä sekä vinouttaisi informaatiojakaumaa entisestään, joh-
taen tehottomampiin markkinoihin (Fishman & Hagerty 1992, 107). 
Vastakkaisen mielipiteen mukaan sisäpiirikaupan salliminen voisi parhaimmissa tapauksissa jopa 
edistää markkinoiden tehokkuutta. Manne (1966) tunnetusti argumentoi, että sisäpiirikaupat voisivat 
nopeuttaa informaation pääsyä markkinoille, joka puolestaan parantaisi markkinahintojen paikkansa-
pitävyyttä. Jos yrityskaupat olisivat sallittuja, sijoittajille saattaisi siis tulla suurempi kannustin seu-
rata ja analysoida yrityksen toimintaa, josta voisi seurata markkinatiedon tehokkuutta. Markkinoiden 
tehokkuuden parantuminen puolestaan vaurastuttaisi koko markkinataloutta, sillä resursseja ylijää-
mäsektorilta alijäämäsektorille ohjaava markkinamekanismi toimisi paremmin (Kurenmaa 2003). 
Tiivistetysti voidaankin väittää kiellon vastustajien ajatusten pohjautuvan siihen, että koska sisäpiiri-
kaupan kieltoa on vaikea jollei jopa mahdoton estää, tulisi siitä luopua. Jakolinjat vaikuttavat synty-
neen tässä suhteessa siis ”kieltoa vastustavien ekonomistien ja kieltoa puoltavien oikeustieteilijöiden” 
väliin (Kurenmaa 2003). Toisaalta myös taloustieteen näkökulmasta sisäpiirisääntelylle voi olla pe-
rusteita. Bhattacharyan & Daoukin (2002) mukaan sisäpiiritiedon väärinkäytön laittomuus alentaa 
pääoman hankintakustannuksia. 
30 
 
5 Data-analytiikka sisäpiirikauppojen tunnistamisessa 
5.1 Perinteiset ja tilastolliset menetelmät 
Tässä kappaleessa käydään läpi, miten epäilykset laittomista sisäpiirikaupoista heräävät ja miten epäi-
lyksiä tutkitaan perinteisiin ja tilastollisiin menetelmiin perustuen. Laittomista sisäpiirikaupoista il-
moitetaan valvovalle viranomaiselle harvoin, koska kyseessä on rikos, jossa ei nähdä olevan asian-
omistajaa perinteisessä mielessä, sillä rikoksen uhrit jäävät yleensä piiloon (Kurenmaa 2003, 275). 
Sisäpiirikauppa on rikoksena perinteisesti ollut aliedustettu tuomioistuimissa todelliseen rikosmää-
rään nähden, koska rikoksia on ollut vaikea huomata ja vielä vaikeampaa todistaa rikoksiksi, sillä 
yksi epäilyttävästi ajoitettu transaktio ei vielä riitä sisäpiiritiedon väärinkäytön todisteeksi.  
Laittoman sisäpiirikaupan huomaaminen ja todistaminen on monimutkainen ja monivaiheinen pro-
sessi (Mazzarisi ym. 2024, 2). Yleensä sisäpiiririkosten väärinkäytön tutkiminen alkaa pörssitiedot-
teen julkistamisesta. Rahoitusvälineiden liikkeeseenlaskijan tulee säännöllisen ja jatkuvan tiedonan-
tovelvollisuuden perusteella julkaista sisäpiiritieto välittömästi ja samanaikaisesti, ettei sisäpiiritietoa 
voida hyödyntää epäoikeudenmukaisesti (Kurenmaa 2003, 276-277). Tutkinnan alkuvaiheessa kerä-
tään tietoa suurista ja epäilyttävästi ajoitetuista kaupankäyntitapahtumista halutulta aikaväliltä, esi-
merkiksi suljetun ajanjakson ajalta. Tässä vaiheessa ei vielä epäillä ketään, vaan kyse on tavanomai-
sesta tiedonkeruusta. Jos tästä tietoaineistosta huomataan merkittäviä väärinkäytöksiin viittaavia ano-
malioita, kohdistetaan havaittuihin transaktioihin lisätutkintaa (Mazzarisi ym. 2024, 2). Tämän jäl-
keen selvitetään, onko kauppoja ollut mahdollista tehdä järkeviin analyyseihin tai strategiaan perus-
tuen. Jos tälle ei löydy tukea, aletaan selvittämään onko kaupantekijöillä kytköksiä liikkeeseenlaski-
jaan, eli selvitetään ovatko hankekohtaiset sisäpiiriläiset, pysyvät sisäpiiriläiset tai sisäpiiriläisten lä-
heiset hyödyntäneet saamaansa sisäpiiritietoa laittomasti. Sisäpiiriläisten lähipiiri ja lähiyhtiöt tutki-
taan erikseen siksi, koska on melko harvinaista sekä tekijältään ajattelematonta käyttää sisäpiiritietoa 
hyväkseen, tietäen että on mahdollisten tutkintojen kohteena. Ajatuksena on siis se, että tietoa vuo-
detaan lähipiirille tai -yhtiölle sijaisen kaupankäynnin toteuttamisen vuoksi (Kurenmaa 2003, 281). 
Viimeinen prosessin vaihe on oikeuskäsittely, jossa mahdollinen sisäpiiritiedon väärinkäyttö käsitel-
lään (Mazzarisi ym. 2024, 2).  
31 
 
 
Kuvio 4: Sisäpiirikauppojen tunnistamis- ja todistamisprosessi (Mazzarisi ym. 2024, 2) 
  
Anomaliatunnistuksen perinteisiä havaintomenetelmiä on monia. Kurenmaan (2003, 286–287) mu-
kaan ainakin 2000-luvun alussa suuri osa väärinkäyttötapauksista on tullut ilmi päivittäisen rahoitus-
markkinoiden seurannan mukana. Tähän kategoriaan kuuluu pörssitiedotteiden kuten muun muassa 
yritysfuusioita tai julkisia ostotarjouksia edeltävien kaupankäyntipäivien seuranta. Tilastollisten me-
netelmien alaisuuteen kuuluu puolestaan päivittäisten kaupankäynnin tunnuslukujen, kuten vaihdan-
tavolyymin tai hintamuutosten seuranta. Tilastollisten menetelmien tarkoituksena on nostaa esiin 
piikkejä tai muita huomattavia kuvioita kaupankäynnissä ja siten tutkia tarvetta mahdolliselle lisätut-
kinnalle.  
Jos edellytykset täyttyvät, voi varsinainen sisäpiiritutkinta alkaa. Koska kaikkien esiinnousseiden si-
säpiirikauppojen tutkinnalle ei välttämättä löydy riittävästi resursseja, tehdään yleensä lisäkarsintaa 
tutkittavista kaupoista niiden arveltujen markkinavaikutusten perusteella. Lisätutkinnassa priorisoi-
daan siis sellaisia kauppoja, joiden arvellaan vaikuttavan kaikista negatiivisimmin markkinoiden toi-
mintaan ja markkinaluottamukseen (Kurenmaa 2003, 289). Varsinaisen rikostutkinnan toteuttaa Suo-
men poliisi Finanssivalvonnan tutkintapyynnöstä. 
Tämän lisäksi Finanssivalvonta tutkii epäiltyjä väärinkäytöksiä ns. whistleblowing-järjestelmän 
kautta. Whistleblowing tarkoittaa tässä kontekstissa sitä, että yksityinen henkilö tekee joko nimettö-
mästi tai omalla nimellään Finanssivalvonnalle ilmoituksen epäillyistä väärinkäytöksistä. Whist-
leblowing-järjestelmää voidaan käyttää myös muiden markkina- ja talousrikoksien selvittämiseen, 
mutta erityisen hyödyllinen se on muuten vaikeasti havaittavien sisäpiirikauppojen huomaamisessa 
Oikeudenkäynti
Rikostutkinta
Kauppojen rationaalisuuden arviointi
Anomaliatunnistus
32 
 
(Finanssivalvonta: väärinkäytösepäily 2025). Whistleblowingin kaltaisia menetelmiä hyödyntävät 
myös markkinatoimijat. Markkinatoimijat ovat velvoitettuja valvomaan kaupankäyntiä ja ilmoitta-
maan Finanssivalvonnalle kyseenalaisista transaktioista (Finanssivalvonta: sisäpiiritiedon käyttö- ja 
ilmaisukiellot koskevat muitakin kuin sisäpiiriläisiä 2022).  
Vaihdantavolyymin ja hintamuutosten seurannan menetelmiä on olemassa useita. Esimerkiksi poik-
keava ylituotto joko päivätasolla tai kumulatiivisesti voivat viitata laittomiin sisäpiirikauppoihin. 
Poikkeava ylituotto (abnormal return, AR) mittaa kuinka paljon tuotot poikkeavat odotetuista tuo-
toista, ja signaloi siten epänormaaliutta rahoitusvälinevaihdannassa. Poikkeavan ylituoton kaava on 
yksinkertainen: 
𝐴𝑅 = 𝑅𝑡 − 𝐸[𝑅𝑡]            (1) 
missä AR on poikkeava ylituotto, 𝑅𝑡 on toteutunut tuotto ja 𝐸[𝑅𝑡] on rahoitusvälineen odotettu tuotto. 
Vastaavasti kumulatiivinen ylituotto (cumulative abnormal return, CAR) arvioi tuottotasoa halutulla 
aikaikkunalla: 
𝐶𝐴𝑅 =  ∑ 𝐴𝑅             (2) 
Vaihdantavolyymia voidaan arvioida puolestaan volyymisuhteen (volume ratio) avulla. Volyymi-
suhde tarkoittaa yksinkertaisesti suhdelukua, joka mittaa päivittäistä vaihdantavolyymiä suhteutet-
tuna keskimääräiseen vaihdantavolyymiin jollain tutkitulla aikavälillä.  
Edellä mainittujen menetelmien hienous liittyy niiden toteutukselliseen helppouteen, sillä suurien 
poikkeamien etsiminen datasta ei ole kovin vaikeaa yksinkertaisten analyysimuotojen avulla. Ne eivät 
kuitenkaan ole toiminnallisesti täydellisiä, sillä merkittävä osa sisäpiirikaupoista on piilotettu jopa 
useamman henkilö- tai yrityskytköksen päähän. Tämä tarkoittaa kysyntää edistyneemmille menetel-
mille, kuten sosiaaliselle verkostoanalyysille tai aiemmin esitellylle tilastotieteelliselle GARCH:ille. 
Sosiaalinen verkostoanalyysi tai pelkkä verkostoanalyysi tarkoittaa erilaisia tutkimusmenetelmiä, 
joilla voidaan tutkia muun muassa informaation tai muiden resurssien vaihtoa toimijoiden kesken 
(Haythornthwaite 1996). Verkostoanalyysi keskittyy toimijoiden välisiin yhteyksiin sekä näiden yh-
teyksien rakenteiden analysoimiseen ja selvittämiseen. Rahoitustieteen ja sisäpiirikauppojen tunnis-
tamisen ohella sosiaalisella verkostoanalyysillä onkin käyttökohteita muun muassa rikostutkinnassa 
ja epidemiologiassa. Sisäpiirikauppojen tunnistamisessa verkostoanalyysiä saatetaan toteuttaa siten, 
33 
 
että epäilyttävän kaupan huomattuaan tutkintaa kohdistetaan transaktion toteuttaneen henkilön lähi-
piiriin tai lähiyrityksiin.  
Aikasarja-dataan pohjautuva GARCH:in suosio ja hyödyllisyys selittyy sen volatiliteettikeskeisyy-
dellä. Korkean volatiliteetin osakkeissa GARCH saattaa tunnistaa ne ajankohdat, joissa volatiliteetti 
on korkea ilman selkeää markkinatietoperusteista syytä. Jos esimerkiksi volatiliteetti kasvaa ennen 
tulosjulkistusta, voi se viitata sisäpiiritiedon väärinkäyttöön. Kuten muidenkin työkalujen ja menetel-
mien kanssa, myös GARCH toimii parhaiten osana monimetodista havainnointia. 
5.2 Koneoppimismenetelmät ja tekoäly 
Perinteisten ja tilastotieteellisten analyysimenetelmien lisäksi viimeisen muutaman vuosikymmenen 
aikana big data -analytiikkaan, koneoppimiseen ja tekoälyyn pohjautuvat metodit ovat tulleet käyttö-
kelpoisiksi ja suosituiksi erityisesti tilanteissa, joissa laajasta ja monimutkaisesta datasta tulisi tunnis-
taa epäsäännöllisiä ilmiöitä kuten sisäpiiritiedon väärinkäyttöä. Koneoppimisen käyttökelpoisuus si-
säpiirikauppojen tunnistamisessa piilee siinä, että se voi havaita monimutkaisia kuvioita ja yhteyksiä, 
joita perinteisillä tilastollisilla menetelmillä ei pystytä tunnistamaan. 
Syväoppimisen kaltaiset tekoälypohjaiset menetelmät voivat käsitellä valtavia tietomääriä ja siten 
löytää epäilyttäviä kaavoja kaupankäynnissä. Rahoitusmarkkinavalvontaa tekevien viranomaisten, 
kuten suomalaisen Finanssivalvonnan ja Yhdysvaltalaisen SEC:n, valvontajärjestelmät saattavat esi-
merkiksi käyttää ohjattuun oppimiseen perustuvia malleja, jotka koulutetaan historiallisten sisäpiiri-
kauppojen perusteella. Vaihtoehtoisesti valvontaviranomaisilla saattaa olla käytössä ohjaamattomaan 
oppimiseen perustuvia valvontajärjestelmiä, jotka etsivät poikkeavuuksia datasta ilman ennakkokä-
sitystä.  
Tarkkaa tietoa valvontaviranomaisten käyttämistä järjestelmistä ei juuri ole saatavilla niiden rikos-
tutkinnallisen arvonsa takia, mutta ainakin kahden SEC:n data-analytiikkatyökalujen toiminnallisuu-
den yleisperiaatteista tiedetään. ARTEMIS (Advanced Relational Trading Enforcement Metrics) on 
näistä ensimmäinen, ja se toimii analysoimalla SEC:n optio- ja vaihdantatietokantoja etenkin sarja-
rikkomusten varalta. ARTEMIS on tekoälypohjainen ja käyttää eri metriikoita asettamaan sijoittajia 
arvojärjestykseen markkinarikostodennäköisyyden perusteella (Hawke 2019). Luonnollisesti nämä 
metriikat eivät ole yleisölle julkisia. Toinen SEC:n esittelemä työkalu sisäpiirikauppojen tunnistami-
seen on ATLAS (Abnormal Trading and Link Analysis System), joka keskittyy sarjarikkomusten 
sijaan ensikertalaisiin (Engstrom & Ho 2020, 816). Huomionarvoista työkaluissa on se, että kumpi-
kaan ei ollut ainakaan vuonna 2019 täysin automatisoitu, joskin tilanne on saattanut muuttua. 
34 
 
Ohjatun oppimisen järjestelmien alle kuuluu useita eri algoritmeja. Yleistä niille kuitenkin on se, että 
ne ovat pitkälti luokittelualgoritmeja. Luokittelualgoritmeihin kuuluvat muun muassa päätöspuut (de-
cision tree) ja satunnaismetsä (random forest). 
Päätöspuiden toimintamekanismi perustuu siihen, että ne jakavat datan eri haaroihin päätöksiin pe-
rustuen. Algoritmi siis läpikäy erilaisia mahdollisia muuttujia ja tekee valintoja niiden perusteella, 
jolloin lopputuloksena syntyy lehtipuuta muistuttava rakenne. Päätöspuut ovat skaalautuvia ja niiden 
toimintamekanismi on helppo ymmärtää, mutta ne ovat alttiita ylisovittamiselle (Golmohammadi ym. 
2014). Ylisovittaminen tarkoittaa mallien ennustavan harjoitusdatan perusteella hyvin, mutta reagoi-
vat ja ennustavat huonosti, kun mallille syötetään uutta dataa. Ylisovittamisessa harjoitusdata on ra-
kenteellista, mutta malli ei toimi koska rakenne ei sovellu muuta erilaista varten. Kyseessä on yleinen 
koneoppimiseen ja ennustealgoritmeihin liittyvä ongelma. 
Päätöspuualgoritmeja on mahdollista hyödyntää tilanteissa, joissa halutaan mallintaa sisäpiirikaup-
paan liittyviä päätöksentekopolkuja. Muuttujat kuten kaupankäyntiajankohta ja volyymipoikkeamat 
voivat muodostaa mallin, joka erottaa normaalit ja asiaankuuluvat transaktiot anomalioista. Niiden 
etuna on etenkin tulkittavuus, sillä valvontaviranomainen voi niiden avulla jäljittää miksi jokin 
transaktio nähdään algoritmin silmissä riskipitoisena ja epänormaalina, 
Päätöspuista on jatkokehitetty lisää algoritmeja, joista etenkin GBDT (Gradient-Boosted Decision 
Tree) soveltuu sisäpiirikaupan tunnistamiseen. GBDT eroaa normaalista päätöspuusta siten, että se 
hyödyntää gradienttitehostusta (gradient boosting) ennustetarkkuuden parantamiseksi. Gradienttite-
hostus lisää uusia puita iteratiivisesti siten, että jokainen pyrkii korjaamaan edellisten puiden tekemät 
virheet (Deng ym. 2019). Tämä johtaa siihen, että GBDT on erityisen tehokas monimutkaisten ja 
epälineaaristen kaavojen huomaamisessa. Dengin ym. (2019) mullistavassa tutkimuksessa huomat-
tiin, että GBDT on tehokkain, kun suljettu aikaikkuna on 90 päivää. Tämä indikoi sitä, että suljetun 
aikaikkunan pituutta tulisi mahdollisesti tarkastella enemmän. Erityisen arvokasta tosin on se, että 
menetelmä menestyi kaikkia muita vertailtuja menetelmiä paremmin laittomien sisäpiirikauppojen 
tunnistamisessa, joskin huomioon on otettava se, että analysoitu data oli kiinalaista markkinadataa, 
joka herättää kysymyksiä tutkimuksen toistettavuudesta esimerkiksi länsimaisilla markkinoilla. 
35 
 
 
Kuvio 5: Yksinkertainen sisäpiirikauppojen päätöspuu 
 
Satunnaismetsä on eräs tunnetuimmista klassifikaatiomenetelmistä ja se puolestaan yhdistää suuren 
määrän päätöspuita parantaakseen luokittelutarkkuutta ja vähentääkseen algoritmin ylisovittamista 
dataan. Jokainen satunnaismetsän päätöspuu koulutetaan siis erikseen, ja lopullinen algoritmin lop-
putulos määräytyy näiden puiden kokonaisennusteena. Satunnaismetsän tehokkuus perustuu niin sa-
nottuun bootstrap-menetelmään ja satunnaistettuihin muuttujavalintoihin jokaisessa päätöspuussa. 
Tämä tarkoittaa, että puut koulutetaan hieman eri otoksella datasta, joka johtaa mallin yleistettävyy-
den paranemiseen. Lopullinen päätös tapahtuu mallissa äänestämällä (majority voting), jossa päätös-
puut määrittävät onko arvioitu tapahtuma todennäköinen vai ei. Sisäpiirikauppojen kontekstissa tämä 
voisi merkitä esimerkiksi transaktion epäilyttävyyden arvioimista.  
Varsinaisessa anomaliatunnistuksessa paras algoritmi on monesti useamman algoritmin yhdistelmä. 
Deng ym. (2019) esitti tutkimuksessaan myös toisen tehokkaan algoritmin sisäpiirikaupan tunnista-
miseen, jossa hyödynnettiin GBDT:n lisäksi differentiaalievoluutioksi (Differential Evolution, DE) 
nimitettyä stokastista eli sattumanvaraisesti etenevää algoritmia. Tämä yhdistelmäalgoritmi onnistui 
havaitsemaan väärinkäytöksiä kiinalaisilla rahoitusmarkkinoilla tehokkaasti. Huomioitavaa tutki-
muksessa tosin on se, että kiinalaiset markkinat luetellaan vielä kehittyviksi, ja siten tämänkin algo-
ritmin tehokkuudessa on mahdollisesti eroja markkinoiden välillä.  
Edellä mainitut menetelmät ovat pitkälti ohjattuun oppimiseen ja klassifikaatioon perustuvia mene-
telmiä. Tämän ohella ohjaamattomalla oppimisella on paikkansa sisäpiirikauppojen tunnistamisessa. 
Ohjaamattoman oppimisen menetelmät tarjoavat tehokkaita tapoja tunnistaa epäilyttäviä transaktioita 
Onko suljetun 
ikkunan sisällä?
Onko yli 10 000€ 
transaktio?
Onko kauppoja 
alle 5kpl?
Tutkitaan
Ei tutkita
Onko 
volyymisuhde 
korkea?
Tutkitaan
Ei tutkita
Ei tutkita
36 
 
ilman ennalta luotuja luokkia, ja on siten hyödyllinen varsinkin siksi, että suuri osa saatavasta datasta 
ei ole merkittyä sen hinnan ja saatavuuden myötä.  
Ohjatun oppimisen tavoin myös ohjaamattoman oppimisen menetelmiä on olemassa lukemattomia, 
joten käsitellään tässä luvussa niistä vain yleisimmät. Mahdollisesti merkityksellisin näistä menetel-
mistä sisäpiirikauppojen kontekstissa on k-means klusterointi (k-means clustering) (Mazzarisi ym. 
2024). K-means jakaa datan k-määrään ryhmiä, ja sen jälkeen jokainen datapiste kuuluu sellaiseen 
klusteriin, jonka keskipiste on lähimpänä. Näiden klustereiden avulla voidaan havaita anomalioita 
datasta, ja tietyissä tapauksissa ne voivat viestiä sisäpiirikaupoista. Ongelmallista tässä algoritmissa 
on tosin se, että klustereiden määrä eli k voi olla vaikeaa valita etukäteen parhaimmalla mahdollisella 
tavalla. Jos k:n arvo on valittu huonosti, voi lopputulos olla epätarkka.  
Toinen melko yleisesti käytetty anomaliatunnistuksen menetelmä on DBSCAN (Density-Based Spa-
tial Clustering of Applications with Noise). DBSCAN eroaa k-meansista siten, että se perustuu datan 
ryhmittelyyn tiheyden mukaan sekä siten, että se ei vaadi esimäärittelynään klustereiden määrää 
(Deng 2020). DBSCAN siis erottaa datapisteet tiheyden mukaan tehtyihin klustereihin sekä harvaan 
esiintyviin anomalioihin. Tämän perusteella lienee melko selkeää, että DBSCAN:ia pystytään hyö-
dyntämään epäilyttävien transaktioiden, kuten laittomien sisäpiirikauppojen, tunnistamisessa todella 
hyvin, koska se tunnistaa klustereiden ulkopuolelle jäävät anomaliat onnistuneesti (Yang ym. 2014).  
Koneoppimis- ja tekoälypohjaisten menetelmien käyttämisessä on myös haasteita. Väärien positiivis-
ten löydösten määrä voi olla mallista ja algoritmista riippuen todella suuri, ja samat lainalaisuudet 
todistustaakasta pätevät myös näihin malleihin. Joissain yksinkertaisemmissa malleissa myös yliso-
vittamista voi olla vaikea välttää, etenkin jos koulutusaineisto on pieni. Koska laittomat sisäpiirikau-
pat on marginaalinen osuus kaikesta kaupankäyntidatasta, voi olla vaikeaa löytää suuria määriä laa-
dukasta koulutusdataa. Tämä kaikki johtaa siihen, että data-analyyttisten menetelmien erityinen arvo 
on anomaliatunnistuksessa, joka ei vielä yksinään riitä todistamaan laitonta sisäpiirikauppaa. Tämän 
lisäksi etenkin tekoälypohjaisissa menetelmissä ongelmaksi nousee algoritmien läpinäkyvyysongel-
miin liittyvät seikat. Jossain määrin kliseinen mutta todenmukainen lausahdus tekoälymenetelmien 
toiminnallisuuden tuntemattomuudesta siis pätee.  
37 
 
6 Yhteenveto ja johtopäätökset 
6.1 Keskeiset havainnot 
Tämä tutkielma käsittelee data-analytiikan käyttämistä laittomien sisäpiirikauppojen tunnistamisessa, 
ja sen keskeiset havainnot liittyvät siihen, että data-analytiikalla ja erityisesti moderneilla koneoppi-
mismenetelmillä on suuri potentiaali laittomien sisäpiirikauppojen tunnistamisessa, eli anomaliatun-
nistuksen parissa.  
Tutkielmassa kävi ilmi, että perinteiset tilastotieteeseen ja matematiikkaan pohjautuvat menetelmät 
tunnuslukuanalyysistä regressio- ja aikasarja-analyyseihin tarjoavat erinomaisia työkaluja anomali-
oiden ja muiden epänormaalien tuottojen analysointiin, joskin suuret ja monimutkaiset datamäärät 
saattavat vaikeuttaa niiden tehokasta toteuttamista (Hilal ym. 2022). Koneoppimisen ja tekoälyn vah-
vuus piilee monimutkaisempien petoksien huomaamisessa. Näistä menetelmistä etenkin ohjatun ja 
ohjaamattoman oppimisen menetelmät, kuten päätöspuut ja klusterointimenetelmät, soveltuvat mai-
niosti epäilyttävän kaupankäynnin tunnistamiseen laajasta massadatasta. Tämän ohella on hyvä huo-
mata ja tiedostaa, että varsinaisia tutkintaprosesseja varten soveltuvimpien algoritmien tulee olla ylei-
sesti selitettäviä, sillä mustan laatikon algoritmit saattavat olla huonoja indikaattoreita oikeuden ja 
silmissä. Logistiseen regressioon ja päätöspuihin nojaavat menetelmät loistavat siis tässä aspektissa, 
mutta myös ohjaamattomilla menetelmillä on vahvuutensa, etenkin luotettavan koulutusdatan vähäi-
syyden vuoksi.  
Tutkimuksessa havaittiin lisäksi, että markkinoiden läpinäkyvyyden lisäämisessä data-analytiikka on 
tärkeä työkalu. Analyysimenetelmien kehittyessä markkinavalvojat kuten Finanssivalvonta ja SEC 
pystyvät keskittämään tutkimuksellisia resurssejaan tehokkaammin epäilyttäviin transaktioihin (Hilal 
ym. 2022). Tämä kehitys tukee sekä tehokkaiden markkinoiden hypoteesia sekä yleistä markkina-
luottamusta. Käytännön sovelluksista lienee kuitenkin edelleen huomioitavaa, että datan laatu ja oi-
keellisuus vaikuttaa olennaisesti mallien tarkkuuteen ja toimivuuteen. Esimerkiksi big data saattaa 
sisältää ”saastetta”, joka vaikuttaa välittömästi myös lopputuotteena saatuun tietoon ja ymmärryk-
seen. 
Sisäpiirikauppojen tunnistamisessa analyysimenetelmät ovat pitkälti korrelaatiopohjaisia. Varsinais-
ten kausaalianalyysin menetelmien kuten satunnaistettujen kokeiden ja kvasikokeiden hyödyntämi-
nen on vaikeaa. Tämä ei ole kuitenkaan ongelmallista, sillä sisäpiirikauppojen tunnistamisessa on 
kyse pitkälti korrelaatioiden huomaamisesta, ja kausaalisuus todistetaan muita analyysimenetelmiä, 
kuten esimerkiksi verkostoanalyysiä, myöhemmin käyttämällä (Haythornthwaite 1996). 
38 
 
Verkostoanalyysi onkin muiden analytiikkamenetelmien ohella olennainen osa toimivaa ja luotetta-
vaa prosessia.  
Tutkielmassa huomattiin myös se, että koneoppimismenetelmien käytössä haastavinta on etenkin oh-
jatun oppimisen malleissa löytää sopivaa koulutusdataa sisäpiiritransaktioiden harvinaisuuden 
vuoksi. Data-analytiikka ja sen menetelmät eivät siis korvaa valvontaa vaan pikemminkin täydentävät 
ja tehostavat sitä entisestään. Mallien toimintaan ei siis voi suhtautua täysin kritiikittä, vaan aina täy-
tyy pitää mielessä kenellä vastuu lopulta on, eli käyttäjällä.  
6.2 Tutkimuksen arviointi ja jatkokysymykset 
Kirjallisuuskatsaukseen perustuva tutkimusasetelma toimii monitieteisen ja laajan ilmiön tarkaste-
lussa hyvin, sillä se mahdollistaa aiheen käsittelyn sekä teknisestä, oikeudellisestä kuin myös rahoi-
tusteoreettisesta näkökulmasta. Tämän tutkimuksen suurimpana rajoitteena on kuitenkin empiirisen 
aineiston puute. Aikapainesyistä suunniteltuja haastatteluosuuksia ei toteutettu, eikä varsinaista sisä-
piirikauppa-analyysien toimintaa voitu konkreettisesti esitellä. Näiden asioiden huomioiminen olisi 
tehnyt tutkimuksesta entistä laadukkaamman, ja käytännön näkökulma melko teknisten menetelmien 
soveltamisessa olisi lisännyt tutkimuksen validiteettia.  
Erilaiset algoritmit DBSCAN:ista logistiseen regressioon toimivat hyvin sisäpiirikauppojen tunnista-
misessa. Lienee tosin selvää, että varsinaista markkinavalvontaa suorittavilla viranomaisilla on to-
dennäköisesti olemassa edistyneemmät ja monimutkaisemmat algoritmit kuin tässä tutkimuksessa on 
esitetty. Valvontakäytössä on edelleen haasteita, mutta tilanne on jo kokonaisuudessaan uuden tek-
nologian myötä todella kehittyneempi, kuin esimerkiksi kaksikymmentä vuotta sitten. 
Tulevaisuudessa data-analytiikan, ja eritoten koneoppimisen, rooli markkinavalvonnassa tulee kas-
vamaan entisestään. 2020-luvun tekoälyn vallankumous ulottaa lonkeronsa joka suuntaan, ja rahoi-
tusalalla markkinarikosten selvittämisessä merkitys voi olla valtava. On mielenkiintoista nähdä miten 
markkinalainsäädäntö kehittyy niin sanotun ”shadow trading”:in suhteen. Shadow trading tarkoittaa 
tilannetta, jossa yritys tai yksilö käy sisäpiiritietonsa avulla kauppaa toisen yhtiön osakkeilla, hyötyen 
samalla tiedosta epäreilusti. Vuonna 2021 SEC onnistui ensimmäistä kertaa soveltamaan uutta oi-
keusteoreettista tulkintaa ja nostamaan syytteen shadow trading -tapauksessa, jossa se haastoi mark-
kinaväärinkäytöksestä epäillyn oikeuteen SEC v. Panuwat -tapauksessa. On mahdollista, että tapaus 
muodostaa merkittävän ennakkotapauksen ja vaikuttaa markkinalainsäätelyyn muuallakin, nostaen 
oikeusteoreettisen pohdinnan tarvetta myös jatkotutkimuksien muodossa (Kershen 2022, 151). 
39 
 
Tutkielma osoittaa, että data-analytiikka ja koneoppiminen tarjoavat merkittäviä mahdollisuuksia si-
säpiirikauppojen valvonnassa, mutta hyödyntäminen vaatii paljon teknistä osaamista, riittävää data-
määrää sekä sääntelyyn perehtymistä. Teknologia ei poista ihmisen roolia, mutta se toimii tehokkaana 
apuvälineenä tapauksien seulonnassa. 
Mahdollisissa jatkotutkimuksissa olisi järkevää tehdä empiiristä analyysiä historiallisesta kaupan-
käyntidatasta. Koneoppimismallien tehokkuuden vertailu todistettuihin sisäpiirikauppoihin pohjautu-
vassa datassa voisi tuoda lisää hyödyllistä tietoa valvottujen ja valvomattomien mallien suoritusky-
vystä asian tiimoilta. Jatkokysymyksiä herää tehokkuuden ohella myös datan anonymisoinnin ja yk-
sityisyydensuojan vaikutuksesta mallien tarkkuuteen, sillä entistä tehokkaampia ja toimivampia mal-
leja voi olla vaikeaa rakentaa ilman tietosuojalakien ja tekoälysäätelyn rikkomista. Tämän lisäksi 
tutkimuksen aihealuetta voidaan syventää käsittelemällä laajemmin matemaattisia metodeja esimer-
kiksi Monte Carlo -menetelmistä, sillä näiden menetelmien käsittely jäi tässä tutkimuksessa todella 
pinnalliseksi. Yritysjuridiikan ja oikeustieteen näkökulmasta edellä mainittu shadow trading on ai-
heena hyödyllisiä jatkokysymyksiä potentiaalisesti sisältävä, ja tekoälyn sääntelyn kysymykset ovat 
keskeisiä myös tämän aiheen kannalta. 
40 
 
7 Lähteet 
Aasheim, C. L., Williams, S., Rutner, P., & Gardiner, A. (2015). Data analytics vs. Data science: A study of sim-
ilarities and differences in undergraduate programs based on course descriptions. Journal of Infor-
mation Systems Education, 26(2), 103–116. 
Akerlof, G. A. (1970). The Market for ”Lemons”: Quality Uncertainty and the Market Mechanism. The Quar-
terly Journal of Economics, 84(3), 488–500. JSTOR. https://doi.org/10.2307/1879431 
Bhagattjee, B. (2014). Emergence and taxonomy of big data as a service. Massachusetts Institute of Tech-
nology. 
Bhattacharya, U., & Daouk, H. (2002). The World Price of Insider Trading. The Journal of Finance, 57(1), 75–
108. JSTOR. 
Bowers, D. (1991). Statistics for Economics and Business. ELBS with Macmillan. 
https://books.google.fi/books?id=Z72cAAAACAAJ 
Cheng, G., Lundblad, C. T., Yang, Z., & Zhang, Q. (2022). Detecting Insider Trading in the Era of Big Data and 
Machine Learning (SSRN Scholarly Paper No. 4240205). Social Science Research Network. 
https://doi.org/10.2139/ssrn.4240205 
Corcoran, K. (2024, huhtikuuta 2). Bills on the Sidewalk. Econlib. https://www.econlib.org/bills-on-the-side-
walk/ 
Deng. (2020). DBSCAN Clustering Algorithm Based on Density. 2020 7th International Forum on Electrical 
Engineering and Automation (IFEEA), 949–953. https://doi.org/10.1109/IFEEA51475.2020.00199 
Datum. (2025, maaliskuuta 5). https://dictionary.cambridge.org/dictionary/english/datum 
De, P. (2016). The arithmetic mean—Geometric mean—Harmonic mean: Inequalities and a spectrum of ap-
plications. Resonance, 21(12), 1119–1133. https://doi.org/10.1007/s12045-016-0423-4 
Deng, Wang, C., Wang, M., & Sun, Z. (2019). A gradient boosting decision tree approach for insider trading 
identification: An empirical model evaluation of China stock market. Applied Soft Computing, 83, 
105652. https://doi.org/10.1016/j.asoc.2019.105652 
41 
 
Derindere Köseoğlu, S., Ead, W. M., & Abbassy, M. M. (2022). Basics of Financial Data Analytics. Teoksessa 
Financial Data Analytics: Theory and Application (ss. 23–57). Springer. 
Doffou, A. (2007). Insider Trading: A Review of Theory and Empirical Work. 
Engle, R. (2001). GARCH 101: The Use of ARCH/GARCH Models in Applied Econometrics. The Journal of Eco-
nomic Perspectives, 15(4), 157–168. JSTOR. 
Engstrom, D. F., & Ho, D. E. (2020). Algorithmic Accountability in the Administrative State Special Issue: 
Regulating the Technological Frontier. Yale Journal on Regulation, 37(3), 800–854. 
FAMA, E. F. (1970). EFFICIENT CAPITAL MARKETS: A REVIEW OF THEORY AND EMPIRICAL WORK. Journal of 
Finance (Wiley-Blackwell), 25(2), 383–417. Business Source Ultimate. 
https://doi.org/10.2307/2325486 
Fishman, M. J., & Hagerty, K. M. (1992). Insider Trading and the Efficiency of Stock Prices. The RAND Journal 
of Economics, 23(1), 106–122. JSTOR. https://doi.org/10.2307/2555435 
Gogtay, N. J., & Thatte, U. M. (2017). Principles of correlation analysis. Journal of the Association of Physi-
cians of India, 65(3), 78–81. 
Golmohammadi, K., Zaiane, O. R., & Díaz, D. (2014). Detecting stock market manipulation using supervised 
learning algorithms. 2014 International Conference on Data Science and Advanced Analytics (DSAA), 
435–441. https://doi.org/10.1109/DSAA.2014.7058109 
Hamet, P., & Tremblay, J. (2017). Artificial intelligence in medicine. Insights Into the Future of Medicine: 
Technologies, Concepts, and Integration, 69, S36–S40. 
https://doi.org/10.1016/j.metabol.2017.01.011 
Hawke, D. (2019, elokuuta 21). SEC Data Analysis in Insider Trading Investigations | CLS Blue Sky Blog. 
https://clsbluesky.law.columbia.edu/2019/08/21/sec-data-analysis-in-insider-trading-investiga-
tions/ 
Hayashi, C. (1998). What is Data Science? Fundamental Concepts and a Heuristic Example (C. Hayashi, K. 
Yajima, H.-H. Bock, N. Ohsumi, Y. Tanaka, & Y. Baba, Käänt.). 40–51. 
42 
 
Haythornthwaite, C. (1996). Social network analysis: An approach and technique for the study of infor-
mation exchange. Library & Information Science Research, 18(4), 323–342. 
HELM 36. (ei pvm.). https://www.lboro.ac.uk/media/media/schoolanddepartments/mlsc/down-
loads/HELM%20Workbook%2036%20Descriptive%20Statistics.pdf 
Hilal, W., Gadsden, S. A., & Yawney, J. (2022). Financial Fraud: A Review of Anomaly Detection Techniques 
and Recent Advances. Expert Systems with Applications, 193, 116429. 
https://doi.org/10.1016/j.eswa.2021.116429 
Ho, M. K., Darman, H., & Musa, S. (2021). Stock Price Prediction Using ARIMA, Neural Network and LSTM 
Models. Journal of Physics: Conference Series, 1988(1), 012041. https://doi.org/10.1088/1742-
6596/1988/1/012041 
Inc, G. (ei pvm.). Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ”V”s. 
Forbes. Noudettu 15. maaliskuuta 2025, osoitteesta https://www.forbes.com/sites/gartner-
group/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not-to-be-confused-with-
three-vs/ 
Jegadeesh, N., & Titman, S. (2001). Profitability of Momentum Strategies: An Evaluation of Alternative Ex-
planations. The Journal of Finance, 56(2), 699–720. JSTOR. 
Kaakinen, M., & Ellonen, N. (ei pvm.). Regressioanalyysi—Tietoarkisto. Noudettu 11. maaliskuuta 2025, 
osoitteesta https://www.fsd.tuni.fi/fi/palvelut/menetelmaopetus/kvanti/regressio/analyysi/ 
Kelleher, J. D., & Tierney, B. (2018). Data Science. MIT Press. 
https://books.google.fi/books?i§d=UlpVDwAAQBAJ 
Kershen, K. (2022). SEC v. Panuwat: The Federal Pursuit of Shadow Trading. Brook. J. Corp. Fin. & Com. L., 
17, 151. 
Koseoglu, S. D., & Derindere Köseoğlu, S. (2022). Financial Data Analytics: Theory and Application (1. p.). 
Springer International Publishing AG. https://doi.org/10.1007/978-3-030-83799-0 
Kurenmaa, T. (2003a). Sisäpiirintiedon väärinkäyttö. Teoksessa Suomalainen Lakimiesyhdistys. https://edi-
tion.fi/lakimiesyhdistys/catalog/book/479 
43 
 
Kurenmaa, T. (2003b). Sisäpiirintiedon väärinkäyttö. Suomalainen Lakimiesyhdistys. https://edition.fi/laki-
miesyhdistys/catalog/view/479/394/991-1 
Käräjäoikeuden tuomio: Talvivaaran Perälle ja Lammassaarelle ehdollista ja yhtiölle yhteisösakkoa. (2017, 
kesäkuuta 2). mtvuutiset.fi. https://www.mtvuutiset.fi/artikkeli/karajaoikeuden-tuomio-talvivaa-
ran-peralle-ja-lammassaarelle-ehdollista-ja-yhtiolle-yhteisosakkoa/6456416 
Lepenioti, K., Bousdekis, A., Apostolou, D., & Mentzas, G. (2020). Prescriptive analytics: Literature review 
and research challenges. International Journal of Information Management, 50, 57–70. 
https://doi.org/10.1016/j.ijinfomgt.2019.04.003 
MAR 19:12, 173 OJ L (2014). http://data.europa.eu/eli/reg/2014/596/oj/fin 
Mazzarisi, P., Ravagnani, A., Deriu, P., Lillo, F., Medda, F., & Russo, A. (2024). A machine learning approach 
to support decision in insider trading detection. EPJ Data Science, 13(1), Article 1. 
https://doi.org/10.1140/epjds/s13688-024-00500-2 
Niskanen, J., Niskanen, M., Edita,  kustantaja., & Edita Oppiminen,  kustantaja. (2013). Yritysrahoitus (7. 
uud. p.). Edita. 
Nurmi, M., & Pyykkönen, J. (2022, maaliskuuta 3). Viisauden hierarkia. Viisauden hierarkia. 
https://blogs.helsinki.fi/yhdenvertainen-liikunnallinen-lahio/2022/03/03/viisauden-hierarkia/ 
OECD. (2008). OECD Glossary of Statistical Terms. OECD. https://doi.org/10.1787/9789264055087-en 
Oikeudenkäynnit | Syytteet Talvivaaran sisäpiiririkoksista hylättiin Helsingin käräjäoikeudessa. (2020, hei-
näkuuta 1). Helsingin Sanomat. https://www.hs.fi/suomi/art-2000006558403.html 
Padilla, A. (2002). Can agency theory justify the regulation of insider trading? The Quarterly Journal of Aus-
trian Economics, 5(1), 3–38. https://doi.org/10.1007/s12113-002-1015-6 
Perino, M. (2018). The Lost History of Insider Trading. SSRN Electronic Journal, 54. 
https://doi.org/10.2139/ssrn.3099682 
Pietiläinen, T. (2008, tammikuuta 2). Timo Jouhki sai vankeutta sisäpiirikaupoista. Helsingin Sanomat. 
https://www.hs.fi/talous/art-2000004537466.html 
44 
 
Provost, F., & Fawcett, T. (2013). Data Science and its Relationship to Big Data and Data-Driven Decision 
Making. Big Data, 1(1), 51–59. https://doi.org/10.1089/big.2013.1508 
Pörssin sisäpiiriohje. (2020, joulukuuta 2). NASDAQ Helsinki Oy. 
R. K. Lomotey & R. Deters. (2014). Towards Knowledge Discovery in Big Data. 2014 IEEE 8th International 
Symposium on Service Oriented System Engineering, 181–191. 
https://doi.org/10.1109/SOSE.2014.25 
Rikoslaki, Pub. L. No. 39- 001/1889. 
Sarker, I. H. (2021). Machine Learning: Algorithms, Real-World Applications and Research Directions. SN 
Computer Science, 2(3), 160. https://doi.org/10.1007/s42979-021-00592-x 
Sperandei, S. (2014). Understanding logistic regression analysis. Biochemia medica, 24(1), 12–18. 
Student’s t-test | Definition, Formula, & Example | Britannica. (2025, tammikuuta 16). https://www.britan-
nica.com/science/Students-t-test 
Thabtah, F., Abdelhamid, N., & Peebles, D. (2019). A machine learning autism classification based on logistic 
regression analysis. Health Information Science and Systems, 7(1), 12. 
https://doi.org/10.1007/s13755-019-0073-5 
Time Domain Analysis vs Frequency Domain Analysis: A Guide and Comparison. (2024, heinäkuuta 17). 
https://resources.pcb.cadence.com/blog/2020-time-domain-analysis-vs-frequency-domain-ana-
lysis-a-guide-and-comparison 
Tversky, A., & Kahneman, D. (1973). Availability: A heuristic for judging frequency and probability. Cognitive 
Psychology, 5(2), 207–232. https://doi.org/10.1016/0010-0285(73)90033-9 
Upton, G., & Cook, I. (1996). Understanding Statistics. OUP Oxford. 
https://books.google.fi/books?id=vXzWG09_SzAC 
Vallely, B. (2018). The Efficient Market Hypothesis, Insider Trading and their relationship with today’s stock 
markets. https://www.cpaireland.ie/CPAIreland/media/Education-Training/Study%20Sup-
port%20Resources/P2%20Strategic%20Corporate%20Finance/Relevant%20Articles/the-efficient-
market-hypothesis-insider-trading-and-their-relationships-with-today-s-stock-markets.pdf 
45 
 
Wooldridge, J. M. (2016). Introductory econometrics: A modern approach. Teoksessa Introductory econo-
metrics: A modern approach (Sixth edition.). Cengage Learning. 
www.finanssivalvonta.fi. (2022, toukokuuta 19). Sisäpiiritiedon käyttö- ja ilmaisukiellot koskevat muitakin 
kuin sisäpiiriläisiä. www.finanssivalvonta.fi. https://www.finanssivalvonta.fi/tiedotteet-ja-julkai-
sut/markkinat-tiedotteet/markkinat-tiedote-12022/sisapiiritiedon-kaytto--ja-ilmaisukiellot-koske-
vat-muitakin-kuin-sisapiirilaisia/ 
www.finanssivalvonta.fi. (2025, maaliskuuta 6). Väärinkäytösepäily. www.finanssivalvonta.fi. 
https://www.finanssivalvonta.fi/finanssivalvonta/ilmoita-vaarinkaytosepailysta/ 
Y. Yang, B. Lian, L. Li, C. Chen, & P. Li. (2014). DBSCAN Clustering Algorithm Applied to Identify Suspicious 
Financial Transactions. 2014 International Conference on Cyber-Enabled Distributed Computing and 
Knowledge Discovery, 60–65. https://doi.org/10.1109/CyberC.2014.89 
Zheng, X., Gildea, E., Chai, S., Zhang, T., & Wang, S. (2024). Data Science in Finance: Challenges and Oppor-
tunities. AI, 5(1), 55–71. https://doi.org/10.3390/ai5010004