tulokset
Silmäile
Julkaisuarkisto
UTUPub on Turun yliopiston avoin julkaisuarkisto, joka sisältää Turun yliopiston tiedekuntien ja laitosten julkaisuja ja opinnäytteitä kuten väitöskirjoja, lisensiaatintöitä, pro gradu -tutkielmia ja niiden tiivistelmiä sekä kandidaatintöitä.
Viimeksi lisätyt
- Ladataan...Lineaarisen regression, Random Forestin ja XGBoostin vertailu PISA-aineistolla
Pro gradu -tutkielmaTammi, Eetu (2026-05-19)Tässä pro gradu -tutkielmassa tarkastellaan oppimistuloksiin yhteydessä olevia tekijöitä PISA 2022 -aineiston avulla sekä vertaillaan kolmen mallinnusmenetelmän, Elastic Netin, Random Forestin ja XGBoostin, suorituskykyä. Tavoitteena on selvittää keskeiset taustatekijät matematiikan, lukutaidon ja luonnontieteiden osaamisessa sekä arvioida mallien tuottamien tulosten yhteneväisyyttä. Lisäksi tarkastellaan tulosten eroja Suomen, Ruotsin ja Yhdysvaltojen välillä ja sitä, missä määrin havaitut ilmiöt ovat samankaltaisia eri konteksteissa. Mallien suorituskykyä arvioitiin sisäkkäisellä ristiinvalidoinnilla käyttäen useaa satunnaissiementä sekä PISA-tuloksia kuvaavaa PV-arvoa, jotta tulokset olisivat mahdollisimman vakaita. Tulosten perusteella Elastic Net suoriutui parhaiten testiaineistossa, kun taas puupohjaisissa malleissa havaittiin ylisovittamista, erityisesti Random Forest -mallissa. XGBoost tuotti kuitenkin kilpailukykyisiä tuloksia, vaikka sen yleistettävyys jäi hieman heikommaksi kuin Elastic Netillä. Keskeisiksi oppimistuloksiin liittyviksi tekijöiksi kaikilla osa-alueilla nousivat erityisesti motivaatio ja vaivannäkö sekä sosioekonomista taustaa ja oppimisympäristöä kuvaavat muuttujat. Mallien välillä havaittiin eroja siinä, miten nämä tekijät painottuvat, mikä viittaa siihen, että eri menetelmät tunnistavat aineistosta osin erilaisia rakenteita. Tulokset korostavat mallivalinnan merkitystä ja sitä, että oppimistuloksia tulee tulkita yhteyksinä eikä kausaalisina vaikutuksina.This master’s thesis examines factors associated with learning outcomes using the PISA 2022 dataset and compares the performance of three modelling methods, Elastic Net, Random Forest, and XGBoost. The aim is to identify key background factors related to performance in mathematics, reading, and science, as well as to evaluate the consistency of the results produced by the models. In addition, differences in the results between Finland, Sweden, and the United States are examined, together with the extent to which the observed phenomena are similar across different contexts. Model performance was evaluated using nested cross-validation with multiple random seeds and PV values describing PISA results in order to ensure that the results were as stable as possible. Based on the results, Elastic Net performed best on the test data, while overfitting was observed in the tree-based models, particularly in the Random Forest model. However, XGBoost produced competitive results, although its generalizability remained slightly weaker than that of Elastic Net. Across all domains, the most important factors associated with learning outcomes were motivation, effort, and variables describing socioeconomic background and the learning environment. Differences were observed between the models in how these factors were weighted, suggesting that different methods identify partly different structures in the data. The results highlight the importance of model selection and the fact that learning outcomes should be interpreted as associations rather than causal effects. - Ladataan..."Aurinkokettu, syntylaulaja". : Autoetnografinen tutkielma kirjoittamisen rihmastoista, affekteista ja liminaalisuudesta.
Pro gradu -tutkielmaPalo, Asa (2026-05-19)Tutkin pro gradu -tutkielmassani kirjoittamisen rihmastoja sekä siihen liittyviä affekteja ja liminaalisuutta. Kirjoittamisen rihmastoon kuuluvat niin kirjoittamiseen vaikuttavat ja sitä tukevat ihmiset kuin myös ei-inhimilliset toimijat ja paikat. Kirjoittamiseen liittyy myös liminaaleja tiloja, joissa ollaan kynnyksellä vanhan ja uuden tekstin tai tilanteen välissä. Tutkimukseni on autoetnografista kirjoittamisen tutkimusta. Tutkimuskohteinani ovat yhden ruonoteoskäsikirjoitukseni kustantamokierros, kustannuspäätös ja kustannusprosessin epäonnistuminen, sekä toisaalta siihen limittyvät toisen käsikirjoituksen syntyvaiheet. Aineistonani ovat työpäiväkirjamerkinnät, sähköpostit, käsikirjoitusten versiot ja sosiaalisen median julkaisut. Affektit toimivat minulle usein tekstin lähtökohtina, joten niillä on tärkeä osa kirjoittamisessa. Toisaalta itse kirjoittamiseen liittyy usein affekteja esimerkiksi turhautumisen ja innostumisen muodossa. Kolmanneksi kustannuspäätöksen odottaminen, kustannussopimuksen saaminen ja sopimuksen purkaminen tuottavat erilaisia affekteja. Affektit ovat osa kirjoittamisen rihmastoa, joka muuttuu ja muovautuu aina uudelleen elämän aikana. Rihmastooni on kuulunut esimerkiksi kanssakirjoittajia, esilukijoita, muita ystäviä ja läheisiä, runojen muusia, eläimiä, jumaluuksia ja paikkoja. Erityisesti liminaalitilassa, jossa esimerkiksi odotetaan kustannuspäätöstä, tai jossa kustannusprosessi pitkittyy tai mutkistuu, rihmaston osaset tuovat tukea ja pitävät yllä toivoa ja kirjoittamista. - Ladataan...Bridging the Gap: OCR and LLM-Assisted Tools for Integrating Commercial Game-Based Language Learning into Formal Instruction
Pro gradu -tutkielmaTornberg, Jesse (2026-05-18)Commercial off-the-shelf (COTS) games have attracted growing interest as language learning environments due to their motivational affordances, authentic linguistic input, and capacity for meaningful communicative interaction. However, a structural gap persists between autonomous gameplay and formal language instruction: existing assistive tools serve independent learners but lack any mechanism for instructor oversight or curricular alignment. This thesis addresses that gap through two complementary strands of inquiry. A systematic literature review of 24 empirical studies examines which games have been used in Digital Game-Based Language Learning (DGBLL) research, on what grounds they were selected, and what limitations they consistently present. A qualitative empirical component consisting of semi-structured interviews with four university-level Japanese language educators then investigates whether a purpose-built bridge tool — integrating Optical Character Recognition (OCR) and Large Language Model (LLM) technology — would be considered a pedagogically viable solution. The literature review finds that game selection is driven primarily by motivational and social factors rather than pedagogical design, and that the resulting scaffolding gap and instructional opacity are consistent barriers across studies. Interview findings confirm that educators are open to game-based learning but require morphological scaffolding over full-sentence translation, curriculum-filtered session reporting, and teacher-directed grammar watchlists before autonomous gameplay can be considered a legitimate academic activity. Together, these findings suggest that the barrier to integrating COTS games into formal instruction is not primarily technical but organizational: the infrastructure for transparency and curricular alignment is the missing link between autonomous play and institutional recognition.Kaupalliset pelit ovat herättäneet kasvavaa kiinnostusta kielten oppimisympäristöinä niiden tarjoamien motivaatiotekijöiden, autenttisen kielenkäytön, ja vuorovaikutuksen mahdollistamisen vuoksi. Itsenäisen pelaamisen ja kielenopetuksen välillä on kuitenkin puuttuva osa: olemassa olevat avustavat työkalut palvelevat itsenäisiä oppijoita, mutta niistä puuttuu pedagoginen seuranta, opettajan näkyvyys, ja opetussuunnitelman seuranta. Tämä tutkielma käsittelee tätä puuttuvaa osaa kahden toisiaan täydentävän tutkimuslinjan avulla. Systemaattinen kirjallisuuskatsaus 24 empiirisestä tutkimuksesta tarkastelee, mitä pelejä on käytetty digitaalisen pelipohjaisen kielenoppimisen (DGBLL) tutkimuksessa, millä perusteilla ne valittiin ja mitä rajoituksia niissä on havaittu. Tutkielman empiirinen osa, joka koostuu puolistrukturoiduista haastatteluista neljän yliopistotason japanin kielen opettajan kanssa. Haastattelut vastaavat siihen, että olisiko tarkoitukseen rakennettu työkalu - joka yhdistää optisen tekstintunnistuksen (OCR) ja suuren kielimallin (LLM) teknologian –pedagogisesti toteuttamiskelpoinen ratkaisu. Kirjallisuuskatsauksessa todetaan, että pelien valintaa ohjaavat ensisijaisesti motivoivat ja sosiaaliset tekijät pikemminkin kuin pedagoginen suunnittelu, ja että siitä johtuva tukirakenteiden puute ja opetuksen läpinäkymättömyys ovat toistuvia esteitä eri tutkimuksissa. Haastattelutulokset vahvistavat, että kouluttajat ovat avoimia pelipohjaiselle oppimiselle, mutta tarvitsevat morfologista tukea kokonaisten lauseiden kääntämisen sijaan. Opetussuunnitelman mukaan suodatettu istuntoraportointi ja opettajan ohjaamien kieliopin seurantalistojen luominen ovat myös osa ratkaisua, ennen kuin pelaamista voidaan pitää opiskeluna. Yhdessä nämä havainnot viittaavat siihen, että este kaupallisten pelien integroinnille opetukseen ei ole ensisijaisesti teknisellä, vaan organisoinnin tasolla: pelaamisen läpinäkyvyyden ja opetussuunnitelmaan mukauttamisen mahdollistava infrastruktuuri, tässä tapauksessa erillisenä työkaluna on puuttuva pala itsenäisen pelaamisen ja institutionaalisen tunnustuksen välillä. - Ladataan...Comparing Two ASR Models: A Word Error Rate Analysis on the Hypotheses by Whisper and Wav2vec 2.0
Pro gradu -tutkielma | suljettuSivenius, Jasperi (2026-05-18)Automatic speech recognition (ASR) means technology that converts human speech into a text. It has become increasingly accurate and popular starting in the 2010s, due to the increase in computing power and neural network architecture. However, there are several challenges affecting the performances of ASR models, such as the availability of labeled training data, out-of-vocabulary words and background noise. Historically, ASR models have been developed using especially hidden Markov model (HMM) based models consisting of multiple components. More recently end-to-end models based on neural network architecture using, for example, transformers have become common. ASR models typically need vast amounts of labeled training data, meaning speech and its transcriptions, but a self-supervised method that require smaller amounts of labeled training data has been introduced. This thesis compares the hypotheses, meaning the outputs, of two open-source ASR models, Whisper and Wav2vec 2.0. Whisper is developed by OpenAI and released in 2022 whereas Wav2vec 2.0, a successor to Wav2vec, is developed by Meta and released in 2020. Whisper uses large-scale training data and Wav2vec 2.0 uses self-supervision. Both English and Finnish speech data was used to analyze the performance of the models. The performance of an ASR model is typically evaluated using word error rate (WER), which is a simple numeric value obtained by dividing the sum of substitutions, deletions and insertions by the total of number of words when compared to the reference transcription. The purpose of this thesis is to analyze these errors further and find patters and reasons what might explain them. The results showed that there are phonetic aspects difficult for ASR models. For both languages, compound words, proper nouns and inflection were difficult. For Finnish, the vowel clusters and especially vowel length, /h/ fricative phoneme and nasal phonemes produced errors. For English, articles, conjunctions and prepositions as well as word repetition and adjacent words produced errors. There were differences in the performance of the models, Whisper being more creative and Wav2vec 2.0 being more conservative. It is possible but not guaranteed that these results can be generalized to other speech data, as they are aligned with the challenges known to affect the performance of ASR models. - Ladataan...Strategien und Werbekommunikation von Lidl : Eine vergleichende Analyse zwischen Deutschland, Italien, Finnland und Spanien
Pro gradu -tutkielma | suljettuTanese, Francesca (2026-05-19)Die vorliegende Masterarbeit analysiert die Werbe- und Kommunikationsstrategien von Lidl in vier europäischen Märkten: Deutschland, Finnland, Spanien und Italien. Ziel ist es, zu untersuchen, wie ein global agierendes Unternehmen eine konsistente Markenidentität aufrechterhalten kann und gleichzeitig seine Kommunikation an unterschiedliche kulturelle und soziale Kontexte anpasst. Auf theoretischer Ebene werden zentrale Modelle der Werbekommunikation sowie relevante interkulturelle Ansätze berücksichtigt. Methodisch basiert die Studie auf einer qualitativen und vergleichenden Analyse von Werbeprospekten, Webseiten und Nachhaltigkeitsberichten, mit besonderem Fokus auf die Weihnachtszeit, in der kulturelle Unterschiede besonders deutlich sichtbar werden. Die Ergebnisse zeigen, dass Lidl eine klar erkennbare globale und lokale Strategie verfolgt: Während visuelle und strukturelle Elemente weitgehend standardisiert sind, werden sprachliche und inhaltliche Aspekte gezielt an nationale Kontexte angepasst und berücksichtigen dabei spezifische kulturelle Besonderheiten sowie unterschiedliche Kommunikationsstile.