Lineaarisen regression, Random Forestin ja XGBoostin vertailu PISA-aineistolla

dc.contributor.authorTammi, Eetu
dc.contributor.departmentfi=Matematiikan ja tilastotieteen laitos|en=Department of Mathematics and Statistics|
dc.contributor.facultyfi=Matemaattis-luonnontieteellinen tiedekunta|en=Faculty of Science|
dc.contributor.studysubjectfi=Tilastotiede|en=Statistics|
dc.date.accessioned2026-05-28T19:32:09Z
dc.date.issued2026-05-19
dc.description.abstractTässä pro gradu -tutkielmassa tarkastellaan oppimistuloksiin yhteydessä olevia tekijöitä PISA 2022 -aineiston avulla sekä vertaillaan kolmen mallinnusmenetelmän, Elastic Netin, Random Forestin ja XGBoostin, suorituskykyä. Tavoitteena on selvittää keskeiset taustatekijät matematiikan, lukutaidon ja luonnontieteiden osaamisessa sekä arvioida mallien tuottamien tulosten yhteneväisyyttä. Lisäksi tarkastellaan tulosten eroja Suomen, Ruotsin ja Yhdysvaltojen välillä ja sitä, missä määrin havaitut ilmiöt ovat samankaltaisia eri konteksteissa. Mallien suorituskykyä arvioitiin sisäkkäisellä ristiinvalidoinnilla käyttäen useaa satunnaissiementä sekä PISA-tuloksia kuvaavaa PV-arvoa, jotta tulokset olisivat mahdollisimman vakaita. Tulosten perusteella Elastic Net suoriutui parhaiten testiaineistossa, kun taas puupohjaisissa malleissa havaittiin ylisovittamista, erityisesti Random Forest -mallissa. XGBoost tuotti kuitenkin kilpailukykyisiä tuloksia, vaikka sen yleistettävyys jäi hieman heikommaksi kuin Elastic Netillä. Keskeisiksi oppimistuloksiin liittyviksi tekijöiksi kaikilla osa-alueilla nousivat erityisesti motivaatio ja vaivannäkö sekä sosioekonomista taustaa ja oppimisympäristöä kuvaavat muuttujat. Mallien välillä havaittiin eroja siinä, miten nämä tekijät painottuvat, mikä viittaa siihen, että eri menetelmät tunnistavat aineistosta osin erilaisia rakenteita. Tulokset korostavat mallivalinnan merkitystä ja sitä, että oppimistuloksia tulee tulkita yhteyksinä eikä kausaalisina vaikutuksina.
dc.description.abstractThis master’s thesis examines factors associated with learning outcomes using the PISA 2022 dataset and compares the performance of three modelling methods, Elastic Net, Random Forest, and XGBoost. The aim is to identify key background factors related to performance in mathematics, reading, and science, as well as to evaluate the consistency of the results produced by the models. In addition, differences in the results between Finland, Sweden, and the United States are examined, together with the extent to which the observed phenomena are similar across different contexts. Model performance was evaluated using nested cross-validation with multiple random seeds and PV values describing PISA results in order to ensure that the results were as stable as possible. Based on the results, Elastic Net performed best on the test data, while overfitting was observed in the tree-based models, particularly in the Random Forest model. However, XGBoost produced competitive results, although its generalizability remained slightly weaker than that of Elastic Net. Across all domains, the most important factors associated with learning outcomes were motivation, effort, and variables describing socioeconomic background and the learning environment. Differences were observed between the models in how these factors were weighted, suggesting that different methods identify partly different structures in the data. The results highlight the importance of model selection and the fact that learning outcomes should be interpreted as associations rather than causal effects.
dc.format.extent58
dc.identifier.urihttps://www.utupub.fi/handle/11111/61305
dc.identifier.urnURN:NBN:fi-fe2026052756426
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.subjectPISA
dc.subjectkoneoppiminen
dc.subjectElastic Net
dc.subjectRandom Forest
dc.subjectXGBoost
dc.subjectoppimistulokset
dc.titleLineaarisen regression, Random Forestin ja XGBoostin vertailu PISA-aineistolla
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Tammi_Eetu_opinnayte.pdf
Size:
7.25 MB
Format:
Adobe Portable Document Format