Mukautuva k-medoidiklusterointi ja valinnan jälkeinen päättely

Murtomäki, Valtteri

Mukautuva k-medoidiklusterointi ja valinnan jälkeinen päättely

dc.contributor.author	Murtomäki, Valtteri
dc.contributor.department	fi=Matematiikan ja tilastotieteen laitos\|en=Department of Mathematics and Statistics\|
dc.contributor.faculty	fi=Matemaattis-luonnontieteellinen tiedekunta\|en=Faculty of Science\|
dc.contributor.studysubject	fi=Tilastotiede\|en=Statistics\|
dc.date.accessioned	2026-07-04T19:31:22Z
dc.date.issued	2026-06-30
dc.description.abstract	Tässä pro gradu -tutkielmassa tutkitaan ohjaamattoman oppimisen k-medoidimenetelmää ja erityisesti sen mukautuvaa BanditPAM-algoritmia. Alustusvaiheen odotusarvoinen kokonaisvaativuus on O(k n log n), sillä k alustusaskeleesta kukin vaatii odotusarvoisesti O(n log n) operaatiota. Myös vaihtovaiheen iteraation odotusarvoinen aikavaativuus on O(k n log n). Tulos saavutetaan soveltamalla monikätisten rosvojen viitekehystä ja yläluottamusrajoihin perustuvaa peräkkäistä eliminointia. Asymptoottisessa notaatiossa n edustaa havaintojen ja k klusterien lukumäärää. Aineistolähtöinen mallinvalinta altistaa kuitenkin tulokset valikoitumisharhalle, mikä vääristää nollajakaumia frekventistisessä päättelyssä ja kasvattaa ensimmäisen tyypin virheen todennäköisyyttä. Tutkielmassa arvioidaan, miten valikoitumisharhaa korjataan analyyttisesti valinnan jälkeisen päättelyn ja monitahokaslemman avulla. Tilastollista todistusvoimaa tarkastellaan Deborah Mayon ankaruusperiaatteen sekä Aris Spanoksen todennäköisyyspohjaisen pelkistämisen viitekehyksissä. Työn empiirisessä osiossa algoritmin ja analyyttisen korjauksen taustaoletuksia auditoidaan synteettisillä (normaalijakauma, Cauchyn jakauma, Studentin t-jakauma) sekä korkeaulotteisilla biologisilla yksisolutranskriptomiikan aineistoilla. Tutkielman tieteellinen kontribuutio on kaksiosainen. Ensimmäisenä kontribuutiona osoitetaan matemaattisesti ja empiirisesti, kuinka paksuhäntäisten aineistojen äärihavainnot vääristävät havaintoavaruuden mittasuhteita, mikä tekee mukautuvan otannan UCB-luottamusrajat liian leveiksi tehokasta karsintaa varten. Toisena metodologisena kontribuutiona tutkielma kytkee valinnan jälkeisen päättelyn polytooppikehyksen BanditPAM-algoritmin SWAP-vaiheeseen. Yliehdollistamista ehkäistään soveltamalla lokaalia seulontaa, joka yhdistää eksaktin teorian voittaja/toiseksi tullut -asetelman heuristiseen approksimaatioon ja parantaa siten testin tilastollista voimaa. Empiiriset tulokset osoittavat mukautuvissa k-medoidialgoritmeissa rakenteellisia rajoitteita. BanditPAM-algoritmin laskennallinen tehokkuus nojaa kapeisiin luottamusväleihin: paksuhäntäisillä aineistoilla yksittäiset äärihavainnot kasvattavat etäisyysmatriisin maksimiarvoa suhteettomasti. Yläluottamusrajoihin perustuva karsinta menettää tällöin käytännön tehokkuutensa, jolloin aikavaativuus palautuu neliölliselle O(k n²)-tasolle. Toinen merkittävä löydös kytkeytyy robustin tilastotieteen murtumispisteen teoriaan. Kun aineisto on paksuhäntäinen, yksittäiset äärihavainnot dominoivat etäisyysmatriisia deterministisesti. Oikein suoritettu bootstrap-analyysi paljastaa näiden rakenteiden epävakauden, sillä äärihavaintoihin nojaavat klusterit hajoavat otannan vaihdellessa. Algoritminen stabiilisuus on siten välttämätön, muttei riittävä ehto klusteroinnin validiteetille. Hajoamismekanismit osoittavat, että valinnan jälkeisen päättelyn analyyttiset menetelmät menettävät tilastollisen validiteettinsa ja robustiutensa, mikäli aineisto on spesifioitu virheellisesti. Ilmiö johtuu siitä, että menetelmät nojaavat vahvoihin parametrisiin oletuksiin. Näissä ääriolosuhteissa luotettava tilastollinen päättely edellyttää joko aineiston jakamista tai jakaumavapaita, algoritmiseen stabiilisuuteen perustuvia menetelmiä. Algoritmiseen stabiilisuuteen perustuva päättely tarjoaa ratkaisun ainoastaan niissä tapauksissa, joissa aineisto rikkoo normaalisuusoletuksen mutta täyttää edelleen stabiilisuustakuiden edellyttämät momenttiehdot.
dc.format.extent	78
dc.identifier.uri	https://www.utupub.fi/handle/11111/62713
dc.identifier.urn	URN:NBN:fi-fe20260703109297
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	suljettu
dc.subject	k-medoidit
dc.subject	BanditPAM
dc.subject	valinnan jälkeinen päättely
dc.subject	valikoitumisharha
dc.subject	ankaruusperiaate
dc.subject	aligaussisuus
dc.title	Mukautuva k-medoidiklusterointi ja valinnan jälkeinen päättely
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: valtteri_murtomaki_opinnayte.pdf
Size:: 3.03 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)