SAC-strategian käyttö ryhmitellyn suuren datan analyysissa

Kandidaatintutkielma
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset41

Verkkojulkaisu

DOI

Tiivistelmä

Tämän tutkielman tavoitteena on tarkastella funktionaalisen ohjelmoinnin käyttöä tilastollisessa data-analyysissa, erityisesti jaa–sovita–yhdistä (eng. split–apply–combine) -strategian näkökulmasta. Funktionaalinen ohjelmointi on ohjelmointiparadigma, jossa ohjelmat rakentuvat funktioiden yhdistämisestä ja se tuottaa toistettavaa, puhdasta ja luotettavaa koodia. R-kielessä paradigmaa tukevat sisäänrakennetut funktiot, kuten apply, lapply ja tapply sekä laajemmat työkalut dplyr- ja purrr-paketit. Tutkielman empiirisessä osassa sovelletaan split-apply-combine -strategiaa NBA:n viralliselta sivustolta ladattuun aineistoon, joka käsittelee 572 pelaajan dataa eli pisteitä, pelattuja minuutteja ja pelaajien ikää kaudelta 2023-2024. Analyysissa aineisto jaetaan joukkueittain, minkä jälkeen pelaajakohtaisia tilastoja tutkitaan funktionaalisen ohjelmoinnin menetelmillä. Täten havainnollistetaan, kuinka suuret datakokonaisuudet voidaan käsitellä tehokkaasti jakamalla ne ensin osiin (split), toteuttamalla annettu analyysitehtävä funktionaalisesti (apply), ja lopuksi kokoamalla tulokset yhteen (combine).

item.page.okmtext