Päätöspuu-mallit binääriluokitteluongelmassa

Elomäki, Aleksi

Päätöspuu-mallit binääriluokitteluongelmassa

dc.contributor.author	Elomäki, Aleksi
dc.contributor.department	fi=Fysiikan ja tähtitieteen laitos\|en=Department of Physics and Astronomy\|
dc.contributor.faculty	fi=Matemaattis-luonnontieteellinen tiedekunta\|en=Faculty of Science\|
dc.contributor.studysubject	fi=Fysikaaliset tieteet\|en=Physical Sciences\|
dc.date.accessioned	2025-04-07T21:30:36Z
dc.date.available	2025-04-07T21:30:36Z
dc.date.issued	2025-03-26
dc.description.abstract	Koneoppimista voidaan käyttää muun muassa regressio- ja luokittelumallien luomiseen. Tällöin voidaan kouluttaa malli ennustamaan haluttu vastemuuttuja selitettävillä muuttujilla. Päätöspuupohjaiset menetelmät sopivat hyvin luokittelutehtäviin. Yleisesti päätöspuun toimintaperiaate on se, että ne jakavat havaintoja selittävien tekijöiden perusteella. Jakoa jatketaan niin kauan, että päädytään niin kutsuttuun luokittelulehteen, jossa varsinainen luokitus tapahtuu. Selittäviksi muuttujiksi sopivat regressio- ja kategoriset muuttujat. Näitä luokittelulehtiä on oltava vähintään yhtä monta kuin kategorioita, jotta järkevä ennustaminen on mahdollista. Työssä tarkastellaan yksittäistä päätöspuuta, satunnaismetsää (Random forest) ja extreme gradient boosting (XGBoost) -menetelmää matemaattisesti sekä empiirisesti käyttäen Pythonia. Teoreettisessa osiossa käydään läpi rajoittamattoman päätöspuun matemaattinen perusta käyttäen gini-indeksiä. Yksittäiselle päätöspuulle etsitään sopiva hyperparametrin arvo, jonka tarkoitus on tehostaa suorituskykyä ja yksinkertaistaa puuta. Lisäksi tarkastellaan XGBoostin toimintaperiaatetta ja millaisia hyperparametreja XGBoost -menetelmään voidaan asettaa. Teoreettisen osan lopussa määritetään eri metriikoita, joilla arvioidaan mallien suorituskykyjä. Empiirisessä osiossa data valittiin binääriluokitteluun sopivaksi, jossa riisinjyvän geometrian perusteella pyrittiin ennustamaan, että kuuluuko se Osmancik vai Cammeo -lajikkeeseen. Yksittäinen päätöspuumalli luotiin ilman rajoittavaa parametria, ja tämä malli tunnisti testidatasta 87,8 \% oikein (Accuracy). Päätöspuumalli luotiin myös käyttäen $ccp\_alpha$ -parametria, jolloin malli luokitteli oikein 93 \% testidatasta. Satunnaismetsä-mallissa koulutettiin sata rajoittamatonta päätöspuuta, jolloin tarkkuudeksi saatiin 92,5 \%. XGBoostissa suoritettiin yksinkertainen parametrien optimointi käyttäen sklearn -kirjaston GridSearchCV -funktiota, jolloin mallin tarkkuudeksi saatiin 93 \%. Kullekin mallille luotiin ROC-käyrä sekä laskettiin sekaannusmatriisien avulla myös muita luokitteluongelmissa yleisesti käytettyjä metriikoita. Tässä työssä parhaat mallit muodostivat XGBoost ja rajoitettu päätöspuu, jotka muodostivat identtiset sekaannusmatriisit.
dc.format.extent	19
dc.identifier.olddbid	197396
dc.identifier.oldhandle	10024/180436
dc.identifier.uri	https://www.utupub.fi/handle/11111/2342
dc.identifier.urn	URN:NBN:fi-fe2025040724330
dc.language.iso	fin
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/180436
dc.subject	Päätöspuu, XGboost, Random forest
dc.title	Päätöspuu-mallit binääriluokitteluongelmassa
dc.type.ontasot	fi=Kandidaatintutkielma\|en=Bachelor's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: Elom%C3%A4ki_Aleksi_opinnayte.pdf
Size:: 804.32 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Kandidaatin tutkielmat (kokotekstit)