Laaja kielimalli peruskoulun historian kokeen arvioijana : Paikallisen laajan kielimallin tuottaman arvioinnin luotettavuus ja arviointipromptin luomisen ongelmat

dc.contributor.authorRaitanen, Maria
dc.contributor.departmentfi=OKL Rauma|en=Department of Teacher Education, Rauma|
dc.contributor.facultyfi=Kasvatustieteiden tiedekunta|en=Faculty of Education|
dc.contributor.studysubjectfi=Kasvatustiede (opettajankoulutuslaitos, Rauma)|en=Educational Sciences|
dc.date.accessioned2026-06-22T19:31:28Z
dc.date.issued2026-06-02
dc.description.abstractTutkimuksen tavoitteena oli selvittää, kuinka luotettavan arvioinnin laaja kielimalli tuottaa alakoulun historian kokeen vastauksista. Lisäksi tutkimuksessa selvitettiin, millaisia ongelmia kehotesuunnittelun aikana ilmenee, kun luodaan arviointiprompti, ja mitä asioita on huomioitava arviointipromptin käytössä. Tutkimuksen kohteena oli OpenAI:n paikallinen gpt-oss-120b laaja kielimalli. Arvioinnin luotettavuutta tutkittiin vertailemalla laajan kielimallin tuottamia numeerisia arviointeja kahdelta arviointikerralta. Lisäksi luotettavuuden käsite operationalisoitiin viiteen analyysiyksikköön, joiden avulla tarkasteltiin muun muassa laajan kielimallin kykyä arvioida koevastauksia arviointimatriisin pohjalta sekä kykyä tunnistaa oppilaiden osaaminen ja antaa osaamista vastaava arvosana. Analyysiyksiköille annettiin arvo välillä 0–2 sen perusteella, kuinka hyvin kyseisen analyysiyksikön mittaama asia toteutui sanallisessa arvioinnissa. Kehotesuunnittelun aikana ilmenevät ongelmat ja arviointipromptin käytössä huomioitavat asiat selvitettiin toteuttamalla kehotesuunnittelu käytännössä ja raportoimalla prosessien aikana ilmenneet ongelmat. Tutkimuksen toteutuksessa ja aineiston analyysissa yhdistyivät laadullinen ja määrällinen tutkimusote. Tutkimuksen tulokset osoittavat, että laajan kielimallin tuottama arviointi ei ole luotettavaa. Mallin tuottama arviointi sisälsi liikaa virheitä ja oli epäjohdonmukaista. Esimerkiksi 34 koevastauksen arvioinneista 13 vastausta sai eri numeerisen arvioinnin ensimmäisellä ja toisella arviointikerralla. Lisäksi 68 kerrasta laaja kielimalli arvioi 10 kertaa toisen oppilaan vastauksen. Laaja kielimalli onnistui parhaiten tehtävässään arvioida vain arviointimatriisissa mainittuja asioita. Mallin suoriutuminen onnistuneesti vain yhden analyysiyksikön mittaamasta tehtävästä osoittaa, että arviointi ei ole luotettavaa. Tutkimuksen tulokset laajan kielimallin tuottaman arvioinnin epäluotettavuudesta ovat pääosin linjassa aikaisemman tutkimustiedon kanssa. Tutkimuksen tulokset osoittavat, että kehotesuunnittelun aikana ilmenevät ongelmat liittyvät arviointimatriisin laatimiseen ja aikaisemman tutkimustiedon puutteelliseen kuvaukseen kehotesuunnittelusta. Kehotesuunnittelussa ja arviointipromptin käytössä on huomioitava laajan kielimallin kontekstin pituus sekä käytetyn tietokoneen muisti ja laskentateho. Tutkimuksen tulokset kehotesuunnittelun aikana ilmenevistä ongelmista ovat merkittäviä, sillä aikaisemmissa tutkimuksissa kuvataan kehotesuunnittelua rajallisesti. Tutkimus lisää tietoa laajan kielimallin mahdollisuuksista ja rajoituksista arviointityössä. Mikäli laajat kielimallit kykenisivät tulevaisuudessa tuottamaan luotettavaa arviointia, voisi se vähentää opettajan tuottaman arvioinnin riskejä, kuten epäjohdonmukaisuutta tai puolueellisuutta ja pitämään opettajan työmäärän kohtuullisena. Tekoälyn hyödyntäminen arviointityössä on kuitenkin vasta kehitysvaiheessa, minkä vuoksi on tärkeää lisätä ymmärrystä sen toiminnasta, luotettavuudesta ja soveltuvuudesta koulukontekstiin.
dc.format.extent113
dc.identifier.urihttps://www.utupub.fi/handle/11111/62214
dc.identifier.urnURN:NBN:fi-fe20260622101429
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.subjectarviointi
dc.subjectChatGPT
dc.subjectGemini
dc.subjectgpt-oss-120b
dc.subjectlaaja kielimalli
dc.subjectpaikallinen laaja kielimalli
dc.subjecttekoäly
dc.titleLaaja kielimalli peruskoulun historian kokeen arvioijana : Paikallisen laajan kielimallin tuottaman arvioinnin luotettavuus ja arviointipromptin luomisen ongelmat
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Raitanen_Maria_opinnayte.pdf
Size:
1.18 MB
Format:
Adobe Portable Document Format