M-estimaattorit
Vähäkuopus, Kristian (2025-06-28)
M-estimaattorit
Vähäkuopus, Kristian
(28.06.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025070376954
https://urn.fi/URN:NBN:fi-fe2025070376954
Tiivistelmä
Tämä tutkielma pohjautuu Rand R. Wilcoxin teokseen Introduction to Robust Estimation and Hypothesis Testing, joka esittää eri tapoja mallintaa tilastoaineistoa ja käsitellä poikkeuksellisia havaintoja. Tämän tutkielman tarkoitus on tutustua tavallisiin havaintoaineston estimaatteihin ja laajentaa tarkastelua robusteihin estimaatteihin eli estimaatteihin, jotka eivät ole kohtuuttoman herkkiä ääriarvoille ja poikkeuksellisille havainnoille.
M-estimaattorit ovat suurimman uskottavuuden estimaattoreita, jotka lasketaan havaintoaineistosta, ja niiden tehokkuus erityisesti normaalijakaumaoletuksen vallitessa voidaan osoittaa hyväksi. Tässä tutkielmassa tutustutaan yleisiin M-estimaattoreihin ja niiden käyttöön. M-estimaattorit sopivat hyvin lineaarisen regression mallintamiseen eli ongelmiin jotka kuvaavat jonkin selittävän muuttujan kasvaesssa sen lineaarista vaikutusta vastemuuttuujaan. Yksinkertainen esimerkki tällaisesta mallista olisi työvuosien vaikutus jonkin mielenkiinnon kohteena olevan populaation vuosituloihin.
Tilastotieteissä merkittävä ongelma havaintoestimaatteja laskettaessa ovat poikkeukselliset havaintoarvot ja havaintoaineistot, joihin normaalijakaumaoletukset eivät päde. Paksuhäntäiset ja vinot jakaumat aiheuttavat ongelmia perinteisille ei-robusteille estimaateille, joissa poikkeukselliset arvot voivat siirtää estimaattia pois populaation todellisesta arvosta. Robustit estimaatit pyrkivät vastaamaan tähän ongelmaan asettamalla rajoja poikkeuksellisten arvojen vaikutukselle poistamatta kuitenkaan näitä arvoja aineistosta. Näillä estimaateilla vältytään menettämästä mahdollisesti tärkeätä tietoa arvojen poistamisen vuoksi, sekä vältytään käyttämästä aikaa aineiston poikkeuksellisten arvojen analysointiin.
M-estimaattorit ovat suurimman uskottavuuden estimaattoreita, jotka lasketaan havaintoaineistosta, ja niiden tehokkuus erityisesti normaalijakaumaoletuksen vallitessa voidaan osoittaa hyväksi. Tässä tutkielmassa tutustutaan yleisiin M-estimaattoreihin ja niiden käyttöön. M-estimaattorit sopivat hyvin lineaarisen regression mallintamiseen eli ongelmiin jotka kuvaavat jonkin selittävän muuttujan kasvaesssa sen lineaarista vaikutusta vastemuuttuujaan. Yksinkertainen esimerkki tällaisesta mallista olisi työvuosien vaikutus jonkin mielenkiinnon kohteena olevan populaation vuosituloihin.
Tilastotieteissä merkittävä ongelma havaintoestimaatteja laskettaessa ovat poikkeukselliset havaintoarvot ja havaintoaineistot, joihin normaalijakaumaoletukset eivät päde. Paksuhäntäiset ja vinot jakaumat aiheuttavat ongelmia perinteisille ei-robusteille estimaateille, joissa poikkeukselliset arvot voivat siirtää estimaattia pois populaation todellisesta arvosta. Robustit estimaatit pyrkivät vastaamaan tähän ongelmaan asettamalla rajoja poikkeuksellisten arvojen vaikutukselle poistamatta kuitenkaan näitä arvoja aineistosta. Näillä estimaateilla vältytään menettämästä mahdollisesti tärkeätä tietoa arvojen poistamisen vuoksi, sekä vältytään käyttämästä aikaa aineiston poikkeuksellisten arvojen analysointiin.