Correlation, mutual information and neural networks
Rainio, Oona (2021-09-28)
Correlation, mutual information and neural networks
Rainio, Oona
(28.09.2021)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2021100750090
https://urn.fi/URN:NBN:fi-fe2021100750090
Tiivistelmä
This Master's thesis focuses on different measures of dependence. To study correlation, we introduce not only Pearson's, Spearman's and Kendall's correlation coefficients but also the maximal correlation coefficient. We consider the concept of mutual information derived from Shannon's information theory and the related information coefficient of correlation. Furthermore, we research a newer non-parametric quantity, the maximal information coefficient, about whose usability there have been conflicting views.
We first introduce the known properties of these measures from the literature and then check how well they work. For instance, we study how the exact type of dependence, the amount of statistical noise and the number of observations affect the performance of these coefficients. We are interested in finding such a quantity that effectively recognizes the dependence between two variables, regardless of if this relationship is linear, non-linear but monotonic, non-monotonic but functional, or non-functional.
To compute the values of these measures of dependence, we mostly use the programming language R and its newly developed packages with functions designed for this exact purpose. We also introduce a recent neural estimation algorithm MINE implemented within the PyTorch library of Python. We consider here both simulated data with several distinct types of dependence and real data from a few specific topics, such as the weather, youth behavior and air pollution. Tämä Pro gradu -tutkielma käsittelee erilaisia riippuvuuden mittareita. Korrelaation tutkimista varten työssä esitellään niin Pearsonin, Spearmanin ja Kendallin korrelaatiokertoimet kuin maksimaalinen korrelaatio. Tutustumme Shannonin informaatioteoriasta johdettuun keskinäisinformaation käsitteeseen ja siihen liittyvään informaatiokertoimeen. Lisäksi tutkimme uutta, ei-parametrista maksimaalista informaatiokerrointa (MIC), jonka hyödyistä on ollut ristiriitaisia näkemyksiä tilastotieteen viimeaikaisessa tutkimuksessa. 
Esittelemme ensin eri kertoimien tunnettuja ominaisuuksia kirjallisuuden pohjalta ja sen jälkeen testaamme niiden toimintaa. Tutkimme esimerkiksi, kuinka tilastollisen riippuvuuden malli, kohinan määrä ja havaintojen lukumäärä vaikuttavat näiden mittareiden käyttäytymiseen. Erityisesti tässä työssä pyritään löytämään sellainen kerroin, joka tunnistaa tehokkaasti kahden muuttujan välisen riippuvuuden siitä huolimatta, onko kyseessä lineaarinen, monotoninen tai funktionaalinen suhde vai jokin monimutkaisempi yhteys.
Riippuvuuden mittarien numeerisia arvoja lasketaan pääosin R-ohjelmointikielellä ja sen vastikään julkaistuilla paketeilla, joiden funktiot on kehitetty juuri näiden kertoimien arvioimiseen. Esittelemme myös tuoreen MINE-nimisen neuroverkkoalgoritmin, joka voidaan toteuttaa Pythonin PyTorch-kirjaston avulla. Tutkimme työssä sekä erityyppisistä riippuvuuksista simuloitua dataa että todellisia aineistoja muutamista aiheista kuten säästä, nuorison käyttäytymisestä ja ilmansaasteista. 
We first introduce the known properties of these measures from the literature and then check how well they work. For instance, we study how the exact type of dependence, the amount of statistical noise and the number of observations affect the performance of these coefficients. We are interested in finding such a quantity that effectively recognizes the dependence between two variables, regardless of if this relationship is linear, non-linear but monotonic, non-monotonic but functional, or non-functional.
To compute the values of these measures of dependence, we mostly use the programming language R and its newly developed packages with functions designed for this exact purpose. We also introduce a recent neural estimation algorithm MINE implemented within the PyTorch library of Python. We consider here both simulated data with several distinct types of dependence and real data from a few specific topics, such as the weather, youth behavior and air pollution.
Esittelemme ensin eri kertoimien tunnettuja ominaisuuksia kirjallisuuden pohjalta ja sen jälkeen testaamme niiden toimintaa. Tutkimme esimerkiksi, kuinka tilastollisen riippuvuuden malli, kohinan määrä ja havaintojen lukumäärä vaikuttavat näiden mittareiden käyttäytymiseen. Erityisesti tässä työssä pyritään löytämään sellainen kerroin, joka tunnistaa tehokkaasti kahden muuttujan välisen riippuvuuden siitä huolimatta, onko kyseessä lineaarinen, monotoninen tai funktionaalinen suhde vai jokin monimutkaisempi yhteys.
Riippuvuuden mittarien numeerisia arvoja lasketaan pääosin R-ohjelmointikielellä ja sen vastikään julkaistuilla paketeilla, joiden funktiot on kehitetty juuri näiden kertoimien arvioimiseen. Esittelemme myös tuoreen MINE-nimisen neuroverkkoalgoritmin, joka voidaan toteuttaa Pythonin PyTorch-kirjaston avulla. Tutkimme työssä sekä erityyppisistä riippuvuuksista simuloitua dataa että todellisia aineistoja muutamista aiheista kuten säästä, nuorison käyttäytymisestä ja ilmansaasteista.
