Sakotettujen logististen regressiomenetelmien vertailu
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset12
Pysyvä osoite
Verkkojulkaisu
DOI
Tiivistelmä
Tässä tutkielmassa vertaillaan sakotettujen logististen regressiomenetelmien mukaisia odotettuja ennustevirheitä poikkileikkausaineistoja, joissa vastemuuttujat noudattavat logistista regressiomallia, havaittaessa. Varsinaisille sakotetuille menetelmille vertailukohtana toimivan suurimman uskottavuuden menetelmän lisäksi tarkasteltuja menetelmiä ovat Akaiken informaatiokriteeriin perustuva paras osajoukko ja askeltavat menetelmät, logistinen harju- ja LASSO-regressio sekä sen höllennetty versio. Koska nämä menetelmät olettavat aineiston noudattavan logistista regressiomallia, on ennustevirheeksi valittu Kullback-Leibler-informaatio.
Menetelmien puhtaan empiirisen vertailun sijaan niiden mukaisten odotettujen ennustevirheiden vertailu perustetaan KL-informaation odotusarvon asymptoottiseen approksimaatioon. Sen ja informaatioepäyhtälön perusteella suurimman uskottavuuden estimaattorin osoitetaan tuottavan asymptoottisesti pienimmän mahdollisen odotetun ennustevirheen asymptoottisesti normaalien ja harhattomien estimaattorien joukossa parametriavaruuden nollamittaista osaa lukuun ottamatta. Tästä nähdään, että sakotettu estimaattori ei voi kuulua tähän joukkoon ollakseen asymptoottisesti perusteltavissa kaikkialla parametriavaruudessa.
Logistisen harjuregression käyttämän sakon todetaan puolestaan olevan luonteeltaan sellaista, että se tuottaa asymptoottisin perustein aina jollain menetelmäparametrin arvolla pienemmän odotetun ennustevirheen kuin suurimman uskottavuuden menetelmä. Koska logistisen LASSO-regression mukainen sakko ei vastaavin perustein samaan kykene, jos kaikille regressiokertoimille estimoidaan aina sama nollasta poikkeava merkki, perustellaan logistisen harjuregression tuottavan muita menetelmiä pienemmän ennustevirheen odotusarvon tällaisia aineistoja havaittaessa.
Osana vertailtujen menetelmien mukaisten odotettujen ennustevirheiden asymptoottisten approksimaatioiden muodostamista tässä työssä johdetaan myös logistisen LASSO-regression ja sen höllennetyn version asymptoottiset jakaumat niiden ehdollisia jakaumia ja valintatodennäköisyyksiä hyödyntämällä. Yhdessä niistä simulointiin esitetyn asymptoottisen LARS-algoritmin kanssa nämä tulokset tarjoavat myös mielenkiintoisen ja uuden näkökulman logistisen LASSO-regression mukaiseen odotettuun ennustevirheeseen.