Mukautuva k-medoidiklusterointi ja valinnan jälkeinen päättely
| dc.contributor.author | Murtomäki, Valtteri | |
| dc.contributor.department | fi=Matematiikan ja tilastotieteen laitos|en=Department of Mathematics and Statistics| | |
| dc.contributor.faculty | fi=Matemaattis-luonnontieteellinen tiedekunta|en=Faculty of Science| | |
| dc.contributor.studysubject | fi=Tilastotiede|en=Statistics| | |
| dc.date.accessioned | 2026-07-04T19:31:22Z | |
| dc.date.issued | 2026-06-30 | |
| dc.description.abstract | Tässä pro gradu -tutkielmassa tutkitaan ohjaamattoman oppimisen k-medoidimenetelmää ja erityisesti sen mukautuvaa BanditPAM-algoritmia. Alustusvaiheen odotusarvoinen kokonaisvaativuus on O(k n log n), sillä k alustusaskeleesta kukin vaatii odotusarvoisesti O(n log n) operaatiota. Myös vaihtovaiheen iteraation odotusarvoinen aikavaativuus on O(k n log n). Tulos saavutetaan soveltamalla monikätisten rosvojen viitekehystä ja yläluottamusrajoihin perustuvaa peräkkäistä eliminointia. Asymptoottisessa notaatiossa n edustaa havaintojen ja k klusterien lukumäärää. Aineistolähtöinen mallinvalinta altistaa kuitenkin tulokset valikoitumisharhalle, mikä vääristää nollajakaumia frekventistisessä päättelyssä ja kasvattaa ensimmäisen tyypin virheen todennäköisyyttä. Tutkielmassa arvioidaan, miten valikoitumisharhaa korjataan analyyttisesti valinnan jälkeisen päättelyn ja monitahokaslemman avulla. Tilastollista todistusvoimaa tarkastellaan Deborah Mayon ankaruusperiaatteen sekä Aris Spanoksen todennäköisyyspohjaisen pelkistämisen viitekehyksissä. Työn empiirisessä osiossa algoritmin ja analyyttisen korjauksen taustaoletuksia auditoidaan synteettisillä (normaalijakauma, Cauchyn jakauma, Studentin t-jakauma) sekä korkeaulotteisilla biologisilla yksisolutranskriptomiikan aineistoilla. Tutkielman tieteellinen kontribuutio on kaksiosainen. Ensimmäisenä kontribuutiona osoitetaan matemaattisesti ja empiirisesti, kuinka paksuhäntäisten aineistojen äärihavainnot vääristävät havaintoavaruuden mittasuhteita, mikä tekee mukautuvan otannan UCB-luottamusrajat liian leveiksi tehokasta karsintaa varten. Toisena metodologisena kontribuutiona tutkielma kytkee valinnan jälkeisen päättelyn polytooppikehyksen BanditPAM-algoritmin SWAP-vaiheeseen. Yliehdollistamista ehkäistään soveltamalla lokaalia seulontaa, joka yhdistää eksaktin teorian voittaja/toiseksi tullut -asetelman heuristiseen approksimaatioon ja parantaa siten testin tilastollista voimaa. Empiiriset tulokset osoittavat mukautuvissa k-medoidialgoritmeissa rakenteellisia rajoitteita. BanditPAM-algoritmin laskennallinen tehokkuus nojaa kapeisiin luottamusväleihin: paksuhäntäisillä aineistoilla yksittäiset äärihavainnot kasvattavat etäisyysmatriisin maksimiarvoa suhteettomasti. Yläluottamusrajoihin perustuva karsinta menettää tällöin käytännön tehokkuutensa, jolloin aikavaativuus palautuu neliölliselle O(k n²)-tasolle. Toinen merkittävä löydös kytkeytyy robustin tilastotieteen murtumispisteen teoriaan. Kun aineisto on paksuhäntäinen, yksittäiset äärihavainnot dominoivat etäisyysmatriisia deterministisesti. Oikein suoritettu bootstrap-analyysi paljastaa näiden rakenteiden epävakauden, sillä äärihavaintoihin nojaavat klusterit hajoavat otannan vaihdellessa. Algoritminen stabiilisuus on siten välttämätön, muttei riittävä ehto klusteroinnin validiteetille. Hajoamismekanismit osoittavat, että valinnan jälkeisen päättelyn analyyttiset menetelmät menettävät tilastollisen validiteettinsa ja robustiutensa, mikäli aineisto on spesifioitu virheellisesti. Ilmiö johtuu siitä, että menetelmät nojaavat vahvoihin parametrisiin oletuksiin. Näissä ääriolosuhteissa luotettava tilastollinen päättely edellyttää joko aineiston jakamista tai jakaumavapaita, algoritmiseen stabiilisuuteen perustuvia menetelmiä. Algoritmiseen stabiilisuuteen perustuva päättely tarjoaa ratkaisun ainoastaan niissä tapauksissa, joissa aineisto rikkoo normaalisuusoletuksen mutta täyttää edelleen stabiilisuustakuiden edellyttämät momenttiehdot. | |
| dc.format.extent | 78 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/62713 | |
| dc.identifier.urn | URN:NBN:fi-fe20260703109297 | |
| dc.language.iso | fin | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | suljettu | |
| dc.subject | k-medoidit | |
| dc.subject | BanditPAM | |
| dc.subject | valinnan jälkeinen päättely | |
| dc.subject | valikoitumisharha | |
| dc.subject | ankaruusperiaate | |
| dc.subject | aligaussisuus | |
| dc.title | Mukautuva k-medoidiklusterointi ja valinnan jälkeinen päättely | |
| dc.type.ontasot | fi=Pro gradu -tutkielma|en=Master's thesis| |
Tiedostot
1 - 1 / 1
Ladataan...
- Name:
- valtteri_murtomaki_opinnayte.pdf
- Size:
- 3.03 MB
- Format:
- Adobe Portable Document Format