Maantieteen ylioppilaskokeiden arviointi                 
kriteeriperustaisen arviointimatriisin avulla 
 
 
 
Anni Maula 
 
 
 
 
 
 
Maantiede (aineenopettajalinja) 
Pro gradu -tutkielma   
Laajuus: 20 op 
 
 
 
 
15.5.2025 
Turku 
 
 
 
Turun yliopiston laatujärjestelmän mukaisesti tämän julkaisun alkuperäisyys on tarkastettu  
Turnitin OriginalityCheck -järjestelmällä. 
Pro gradu -tutkielma  
 
Pääaine: Maantiede 
Tekijä: Anni Maula 
Otsikko: Maantieteen ylioppilaskokeiden arviointi kriteeriperustaisen arviointimatriisin avulla 
Ohjaajat: Sanna Mäki, Tua Nylén 
Sivumäärä: 60 sivua + liitteet 6 sivua 
Päivämäärä: 15.5.2025 
  
 
Arviointimatriisi on kriteeriperustainen arviointiväline, joka soveltuu monipuolisen osaamisen ja esi-
merkiksi ajattelun taitojen arviointiin. Useiden oppiaineiden ylioppilaskokeiden arvioinnissa käytetään 
arviointimatriisia, mutta maantieteen kokeen pisteitys perustuu pääasiassa listamuotoisiin hyvän vas-
tauksen piirteisiin. Tämän tutkimuksen tavoitteena oli tarkastella matriisiarvioinnin soveltuvuutta maan-
tieteen ylioppilaskokeiden arviointiin pisteittämällä syksyn 2023 maantieteen ylioppilaskokeen tehtävän 
7 vastauksia tutkimuksessa luodulla arviointimatriisilla sekä kokeen nykyisillä arviointiohjeilla. Tilas-
tollisilla menetelmillä selvitettiin, miten eri arviointimenetelmillä tuotetut pisteet eroavat toisistaan sekä 
miten yhdenmukaisesti vastauksia voidaan pisteittää luodun arviointimatriisin avulla. Lisäksi vastausten 
laadullisella sisällönanalyysilla tarkasteltiin, minkälaisia ominaisuuksia niissä vastauksissa on, joiden 
pisteitä matriisiarviointi muutti eniten. 
Tutkimustulosten mukaan matriisiarviointi tuotti keskimäärin matalampia pisteitä kuin nykyinen arvi-
ointimenetelmä. Erot eri arviointimenetelmillä annettujen pisteiden välillä olivat tilastollisesti merkitse-
viä. Tutkimuksen tulosten mukaan arviointimatriisilla toteutettu arviointi oli varsin yhdenmukaista, eikä 
arvioinnin yhdenmukaisuudessa havaittu tarkasteltujen arviointimenetelmien välillä suurta eroa. Vas-
tausten laadullisessa tarkastelussa havaittiin, että matriisiarviointi laski eniten erityisesti sellaisten vas-
tausten pisteitä, joissa esiintyi puutteita huomioiden perusteluissa, käsitteiden käytössä, maantieteen nä-
kökulmien hallinnassa tai havaintojen kytkemisessä maantieteellisiin ilmiöihin tai prosesseihin. Ne vas-
taukset, joiden pisteitä matriisiarviointi nosti eniten, olivat keskimäärin tasaisen laadukkaita jokaisen 
tarkastellun ominaisuuden osalta.  
Tutkimuksen tulosten mukaan tutkimuksessa luotu arviointimatriisi voisi soveltua hyvin maantieteen 
ylioppilaskokeiden arviointiin, mutta aihetta olisi tärkeää tutkia lisää esimerkiksi monipuolisemmalla ja 
laajemmalla aineistolla sekä osallistamalla tutkimukseen useampia arvioijia. Tutkimuksen tuloksia voi-
daan hyödyntää erityisesti maantieteen ylioppilaskokeiden arvioinnin kehittämistarkoituksissa. 
 
 
 
 
 
 
 
 
 
 
 
 
Avainsanat: maantiede, ylioppilaskirjoitukset, arviointimatriisi, kriteeriperustainen arviointi, reliabili-
teetti  
Master's thesis  
 
Subject: Geography 
Author: Anni Maula 
Title: Assessment of the geography matriculation exams using a criterion-based scoring rubric 
Supervisors: Sanna Mäki, Tua Nylén 
Number of pages: 60 pages + 6 appendices 
Date: 15.5.2025 
 
 
Scoring rubrics are criterion-referenced assessment tools that are often used, for example, as a tool to 
support learning and to assess a wide range of skills, such as thinking skills. Although scoring rubrics 
are used in the assessment of many subjects in the Finnish matriculation exams, the assessment of ge-
ography exams is mainly based on lists of what is required in the answers. The aim of this study was to 
examine the suitability of scoring rubrics for the assessment of the geography matriculation exams by 
scoring the answers to question 7 of the autumn 2023 geography matriculation exam using the scoring 
rubric created in the study and the current grading instructions for the exam. Statistical methods were 
used to investigate how the scores produced by the different assessment methods differ from each other 
and how consistently the answers can be scored using the scoring rubric. A qualitative content analysis 
of the answers was used to examine the characteristics of the answers whose scores were most affected 
by the rubric assessment.  
The results of the study showed that the assessment based on the scoring rubric produced lower scores 
on average than the current assessment method. The differences between the scores produced by the 
different assessment methods were statistically significant. According to the results of the study, the 
assessment conducted with the scoring rubric was fairly consistent, and the consistency of the assess-
ment did not differ considerably between the assessment methods examined. A qualitative analysis of 
the answers showed that assessment using a scoring rubric lowered the scores most particularly for 
responses with deficiencies in the reasoning of observations, the use of concepts, the proficiency in 
geographic perspectives or the connecting of observations to geographical phenomena or processes. The 
answers with the highest score increase in the assessment using the scoring rubric were, on average, of 
consistent high quality for each of the characteristics considered.  
According to the results of this study, the scoring rubric created in the study could be well suited for the 
assessment of Finnish matriculation exams in geography, although it would be important to study the 
topic further for example with more diverse and broader data and by involving more raters in the study. 
The results can be used to improve the assessment of geography in schools, and particularly the assess-
ment of geography in the Finnish matriculation exams. 
 
 
 
 
 
 
 
 
 
 
Key words: geography, matriculation examination, scoring rubric, criteria-referenced assessment, reli-
ability 
Sisällysluettelo 
1 Johdanto 1 
2 Tutkimuksen tausta ja teoreettinen viitekehys 3 
2.1 Arviointi 3 
2.1.1 Arvioinnin tehtävät ja tarkoitus 3 
2.1.2 Laadukkaan arvioinnin ominaisuuksia 4 
2.1.3 Suhteellinen ja kriteeriperustainen arviointi 6 
2.2 Arviointimatriisi arvioinnin välineenä 8 
2.3 Ylioppilaskokeiden arviointi 11 
2.3.1 Maantieteen ylioppilaskokeet ja niiden arviointi 11 
2.3.2 Syksyn 2023 maantieteen ylioppilaskokeen tehtävän 7 pisteitysohjeet 12 
3 Aineisto ja menetelmät 15 
3.1 Tutkimuksen vaiheet 15 
3.2 Aineisto 15 
3.3 Menetelmät 17 
3.3.1 Aineiston arviointi 17 
3.3.2 Arviointimatriisin luominen 18 
3.3.3 Tilastollinen tarkastelu 22 
3.3.4 Vastausten analysointi ja laadullinen sisällönanalyysi 24 
4 Tulokset 26 
4.1 Arviointimenetelmän vaikutus pistemäärään 26 
4.1.1 Koko tehtävän tarkastelu 26 
4.1.2 Osatehtäväkohtainen tarkastelu 28 
4.2 Arviointimenetelmien arvioitsijareliabiliteetit 28 
4.2.1 Arviointimatriisin arvioitsijareliabiliteetti 28 
4.2.2 Nykyisten arviointiohjeiden arvioitsijareliabiliteetti 32 
4.3 Arviointimatriisin kriteerikohtainen reliabiliteetti 34 
4.4 Ominaisuuksia vastauksissa, joissa arviointimenetelmien välillä esiintyi piste-
eroja 35 
4.4.1 Niiden vastausten ominaisuuksia, joiden pisteitä matriisiarviointi laski eniten 35 
4.4.2 Niiden vastausten ominaisuuksia, joiden pisteitä matriisiarviointi nosti eniten 39 
5 Keskustelu 43 
5.1 Matriisiarviointi tuotti nykyohjeistusta matalampia pisteitä 43 
5.2 Arviointimatriisilla toteutetun arvioinnin yhdenmukaisuus vaikuttaa lupaavalta
 45 
5.3 Matriisiarviointi laski erityisesti listamaisten ja arkikielisten vastausten 
pisteitä 47 
5.4 Tutkimuksen luotettavuus ja jatkotutkimusmahdollisuudet 49 
6 Johtopäätökset 53 
Kiitokset 54 
Lähteet 55 
Liitteet 61 
Liite 1. Tehtävän 7 nykyiset arviointiohjeet eli hyvän vastauksen piirteet 61 
Liite 2. Vastausten sisällönanalyysin analyysirunko 65 
 
  
 
 
 
1 
 
1 Johdanto 
Suomalaisen lukiokoulutuksen tehtävänä on vahvistaa opiskelijoiden laaja-alaista yleissivis-
tystä (Lukion opetussuunnitelman… 2019). Lukiokoulutus kehittää monipuolisesti opiskelijoi-
den tietoja, taitoja ja arvoja, joita opetussuunnitelmassa määritellään sekä yleisellä tasolla että 
oppiainekohtaisesti. Näiden osaamiselle asetettujen tavoitteiden saavuttaminen tehdään näky-
väksi summatiivisella arvioinnilla, jota toteutetaan opintojaksojen lopussa sekä lukiokoulutuk-
sen päätteeksi järjestettävillä ylioppilaskokeilla (Lukion opetussuunnitelman… 2019; 
Ouakrim-Soivio 2015). Ylioppilaskokeet edustavat niin kutsuttua high stakes -arviointia eli ar-
viointimallia, jossa arviointitulokset vaikuttavat merkittävästi esimerkiksi opiskelijoiden kou-
lutuksellisiin tavoitteisiin (ks. Acosta ym. 2020). Ylioppilastutkinnon arvosanat toimivat kor-
keakoulujen opiskelijavalintojen perusteena (Ouakrim-Soivio 2015), minkä vuoksi niiden mer-
kitys ylioppilaskokelaiden tulevaisuuteen on kiistaton. High stakes -arvioinnilta edellytetään 
sen seurausten merkittävyyden vuoksi useita asioita, kuten korkeaa reliabiliteettia ja validiteet-
tia (French 2023). Ylioppilaskokeiden arviointiin kohdistetaan siis perustellusti lukuisia vaati-
muksia, joten on tärkeää, että kokeiden arvioinnissa käytettävällä arviointimenetelmällä pysty-
tään vastaamaan näihin odotuksiin parhaalla mahdollisella tavalla. 
Arvioinnin vaatimuksiin voidaan vastata eri tarkoituksiin soveltuvilla arviointimenetelmillä, ja 
arviointimatriisit ovat esimerkkejä suoritusten laadulliseen arviointiin kehitetyistä ratkaisuista 
(Panadero ym. 2023). Arviointimatriisit eli rubriikit ovat kriteeriperustaisia arviointivälineitä, 
joilla on lukuisia käyttötarkoituksia: niiden hyödyt on tunnistettu summatiivisessa, formatiivi-
sessa sekä diagnostisessa arvioinnissa, ja niiden on todettu usein parantavan esimerkiksi arvi-
oinnin reliabiliteettia ja läpinäkyvyyttä sekä kehittävän opiskelijoiden itsearvioinnin taitoja 
(Hadibarata ym. 2024; Brookhart 2013; Cantera ym. 2021; Jonsson & Svingy 2007; Panadero 
& Jonsson 2013). Ylioppilaskokeiden arvioinnin kannalta on kuitenkin erityisen mielenkiin-
toista tarkastella arviointimatriisien käytettävyyttä monipuolisen osaamisen, kuten ajattelun tai-
tojen, arvioinnissa. Aiempien tutkimuksien mukaan arviointimatriisit voivat toimia ajattelun 
taitojen arvioinnissa erinomaisesti, minkä lisäksi ne voivat edistää ajattelun taitojen kehitty-
mistä jo oppimisprosessin aikana (Al-Salmani & Thacker 2021; Reynders ym. 2020). 
Lukion opetussuunnitelman perusteiden (2019) mukaan maantieteen oppiaineessa on tarkoituk-
sena arvioida tiedollisen osaamisen lisäksi myös maantieteellistä ajattelua sekä maantieteellis-
ten taitojen osaamista ja soveltamista, ja koska vastaavan osaamisen arvioiminen arviointimat-
2 
 
riisilla on todettu aiemmassa tutkimuskirjallisuudessa onnistuneeksi, on arviointimatriisin so-
veltumista maantieteen ylioppilaskokeiden arviointiin mielenkiintoista tutkia tarkemmin. Arvi-
ointimatriiseja hyödynnetään useiden oppiaineiden, kuten historian, yhteiskuntaopin ja terveys-
tiedon, ylioppilaskokeiden arvioinnissa (Hyvän… Historia 2025; Hyvän… Yhteiskuntaoppi 
2025; Hyvän… Terveystieto 2025). Maantieteen hyvän vastauksen piirteet koostuvat sen sijaan 
yleisistä arvioinnille asetetuista lähtökohdista sekä tehtäväkohtaisista pisteitysohjeista, jotka 
ovat muodoltaan pääasiassa listamaiset (Hyvän… Maantiede 2025). Tässä tutkimuksessa tar-
kastellaan, olisiko myös maantieteen ylioppilaskokeita mahdollista arvioida onnistuneesti arvi-
ointimatriisin avulla sekä selvittää, voitaisiinko arviointimatriisiin perustuvalla arvioinnilla pis-
teittää erilaista osaamista kuin nykyisillä arviointiohjeilla. 
Arviointimatriisien käyttöä on tutkittu paljon (Dawson 2017). Tutkimuskirjallisuus matriisien 
soveltamisesta maantieteen oppiaineen arviointiin on kuitenkin vähäistä, eikä arviointimatrii-
sien käytöstä maantieteen ylioppilaskokeiden arvioinnissa ole tehty aiemmin tutkimusta. Tä-
män tutkimuksen päätavoitteena onkin tarkastella matriisiarvioinnin soveltuvuutta maantieteen 
ylioppilaskokeiden arviointiin. Tutkimuksessa luotiin arviointimatriisi, jolla pyrittiin huomioi-
maan vastauksissa esitetty monipuolinen osaaminen ja ajattelun taidot nykyisin käytössä olevia 
arviointiohjeita paremmin. Matriisin soveltuvuutta testattiin arvioimalla aitoja ylioppilas-
koevastauksia ja vertaamalla matriisilla tuotettuja pisteitä nykyisillä arviointiohjeilla tuotettui-
hin pisteisiin. Tutkimuksessa pyrittiin selvittämään sekä laadullisilla että määrällisillä menetel-
millä, millaisia vaikutuksia matriisiarvioinnilla voisi olla maantieteen ylioppilaskokeiden arvi-
ointiin. Tutkimuksen tuloksia voidaan hyödyntää maantieteen arvioinnin ja erityisesti maantie-
teen ylioppilaskokeiden kehittämistarkoituksissa. 
Tämän tutkielman tutkimuskysymykset ovat seuraavat: 
1. Miten arviointimatriisiin perustuvat pisteet eroavat nykyisiin arviointiohjeisiin perustu-
vista pisteistä?  
2. Miten yhdenmukaisesti eri arvioijat voivat pisteittää maantieteen ylioppilaskoevastauk-
sia kriteeriperustaisen arviointimatriisin avulla? 
3. Minkälaisia ominaisuuksia niissä vastauksissa on, joissa erot arviointimatriisiin perus-
tuvien pisteiden ja nykyisiin arviointiohjeisiin perustuvien pisteiden välillä ovat suurim-
pia? 
3 
 
2 Tutkimuksen tausta ja teoreettinen viitekehys 
2.1 Arviointi 
2.1.1 Arvioinnin tehtävät ja tarkoitus 
Arvioinnilla tarkoitetaan toimintaa, jossa etukäteen asetettuja tavoitteita ja saavutettuja tuloksia 
vertaillaan toisiinsa (Ouakrim-Soivio 2015). Arvioinnilla on lukuisia tehtäviä, jotka määräyty-
vät esimerkiksi sen tarkoituksen, kohteen, arviointitiedon käyttötarkoituksen sekä arviointita-
van mukaan. Lukion opetussuunnitelman perusteiden (2019) mukaan arvioinnilla on lukiokou-
lutuksessa kaksi keskeistä tehtävää: oppimisen tukeminen ja ohjaaminen sekä osaamisen ja op-
pimisen tavoitteiden saavuttamisen näkyväksi tekeminen. Oppimisen tukemisen tehtävää to-
teuttaa erityisesti formatiivinen eli oppimisprosessin aikainen arviointi, jonka tarkoituksena on 
varmistaa oppimisen edistyminen jatkuvan palautteen avulla (Jakku-Sihvonen 2013; Lukion 
opetussuunnitelman… 2019). Formatiivisella arvioinnilla pyritään mahdollistamaan oppimi-
selle asetettujen tavoitteiden saavuttaminen, ja luonteeltaan se on kannustavaa (Lukion opetus-
suunnitelman… 2019; Luostarinen & Ouakrim-Soivio 2019). Osaamisen arvioinnin tehtävää 
puolestaan toteutetaan summatiivisella arvioinnilla eli arvioinnilla, joka tapahtuu yleensä oppi-
miskokonaisuuden tai opintojakson päätyttyä (Lukion opetussuunnitelman… 2019; Ouakrim-
Soivio 2015). Sillä kuvataan kaikille arviointitietoa tarvitseville arvioitavan edistyminen ja suo-
ritustaso, ja yleensä se toteutetaan numeroarvosanalla. Osaamisen arviointi on luonteeltaan to-
teavaa (Luostarinen & Ouakrim-Soivio 2019). Näiden kahden tehtävän lisäksi arvioinnille voi-
daan nimetä myös useita muita tehtäviä, joita ovat esimerkiksi tiedon ja palautteen antaminen 
opettajalle sekä opettajan tukeminen opetuksen suunnittelussa (Ouakrim-Soivio 2015). 
Arvioinnin tehtävät liittyvät keskeisesti siihen, mikä arvioinnin tarkoitus on (Ouakrim-Soivio 
2015). Aiheen tutkimuskirjallisuudesta voidaan nimetä kolme arvioinnin tarkoitusta eli funk-
tiota, ja näitä ovat validointi ja sertifiointi, kontrollointi sekä oppimisen tukeminen (Nieminen 
2019). Summatiiviseen arviointiin liittyvällä arvioinnin validointitarkoituksella tarkoitetaan ar-
vosanan muodostamista arvioitavalle tiettyjen kriteerien perusteella. Tämä funktio liittyy 
yleensä high stakes -arviointiin eli arviointiin, joka vaikuttaa arvioitavaan merkittävästi. Esi-
merkiksi valtakunnalliset kokeet, joista saadut arvosanat toimivat kriteerinä esimerkiksi arvioi-
tavien akateemiselle etenemiselle tai koulujen tuloksellisuuden mittaamiselle, edustavat high 
stakes -arviointia (Acosta ym. 2020). Validointi- ja sertifiointifunktio palvelee ensisijaisesti 
4 
 
koulutuksellisia instituutioita, sillä sen tarkoituksena on asettaa arvioitavat järjestykseen ja ser-
tifioida heistä vain osa (Nieminen 2019).   
Arvioinnin kontrollointitarkoituksella tarkoitetaan sitä, että arvioinnin avulla usein ohjataan, 
mitä ja miten arvioitavien kuuluu oppia (Nieminen 2019). Tämä funktio liittyy arviointiin lähes 
aina, sillä formatiivisella arvioinnilla ja palautteella ohjataan oppimista ja oppimisen kohteita 
jo oppimisprosessin aikana, ja toisaalta myös esimerkiksi summatiivisen arvioinnin arviointi-
kriteerit voivat ohjata opiskelijoiden opiskelua arviointikriteerien osoittamaan suuntaan (Luos-
tarinen & Ouakrim-Soivio 2019; Nieminen 2019; Norton 2004). Arviointi voi vaikuttaa opet-
tamiseen ja oppimiseen usein myös tahattomasti, jolloin puhutaan niin sanotusta takaistusvai-
kutuksesta (engl. washback tai backwash effect) (Abdallah ym. 2022). Arviointi voi vaikuttaa 
esimerkiksi opettajien käyttämiin opetusmenetelmiin sekä kohdistaa opetuksen koskemaan 
niitä aihealueita, joiden osaamista todennäköisesti mitataan ulkopuolisen tahon laatimassa sum-
matiivisessa arvioinnissa (Rahman ym. 2021; Rind & Mari 2019). Vastaavasti arviointi voi 
kontrolloida myös opiskelijoiden opiskelukohteita- ja tapoja tahattomasti takaistusvaikutuksen 
kautta (Alqahtani 2021). Kolmannella arvioinnin funktiolla eli oppimisen tukemisella puoles-
taan tarkoitetaan Lukion opetussuunnitelman perusteiden (2019) nimeämän arvioinnin tehtävän 
tavoin arviointia, jonka tarkoituksena on tukea arvioitavan oppimista ja opiskelutaitoja (Niemi-
nen 2019). Oppimisen tukemisen tarkoitus on määritelmällisesti ristiriidassa kahden muun ar-
vioinnin funktion kanssa, sillä se painottaa oppimisprosessia lopputuloksen sijaan.  
2.1.2 Laadukkaan arvioinnin ominaisuuksia 
Arvioinnin laatua voidaan tarkastella useiden laatukriteerien avulla, ja Ouakrim-Soivion (2015) 
mukaan keskeisiä arviointitoiminnalle asetettuja vaatimuksia ovat pyrkiminen arvioinnin reli-
aabeliuteen, validiuteen, objektiivisuuteen sekä oikeudenmukaisuuteen. Kriteerien täyttymistä 
voidaan arvioida sekä tilastollisesti että laadullisesti (Gerritsen-van Leeuwenkamp ym. 2017). 
Arvioinnin laatuun vaikuttavat kaikkien arviointikäytäntöjen osa-alueiden, kuten arviointipro-
sessin sekä arvioitavien tehtävien, laatu. Laadukkaan arvioinnin käsite liittyy aina muun muassa 
vallitsevaan oppimiskäsitykseen ja arvopohjaan, minkä vuoksi se ei ole käsitteenä täysin neut-
raali (Nieminen 2019). Esimerkiksi sosiokonstruktivistisessa oppimiskäsityksessä korostetaan 
arvioinnin merkitystä oppimisen tukemisessa sen sijaan, että arvioinnin laatu liittyisi ainoastaan 
summatiivisen arvioinnin onnistumiseen (Gerritsen-van Leeuwenkamp ym. 2017).  
Reliabiliteetti eli reliaabelius kuvaa arvioinnin toistettavuutta, pysyvyyttä ja satunnaisvirheet-
tömyyttä (Ouakrim-Soivio 2015). Se ilmaisee, onko arviointi yhdenmukaista sekä arvioijasta 
5 
 
ja arvioinnin olosuhteista riippumatonta (Luostarinen & Nieminen 2019). Reliabiliteetti koos-
tuu kahdesta osatekijästä: stabiliteetista eli pysyvyydestä ajassa sekä konsistenssista eli yhte-
näisyydestä (Ouakrim-Soivio 2015). Stabiliteetti viittaa siihen, että koe tuottaa saman arvioin-
tituloksen eri kerroilla esimerkiksi olosuhteista, arvioijasta tai ajankohdasta riippumatta (Biggs 
& Tang 2011; Ouakrim-Soivio 2015). Konsistenssilla tarkoitetaan puolestaan sitä, että kokeen 
kaikki osat mittaavat kokonaisuudessaan samaa asiaa yhdenmukaisesti. Reliabiliteettia voidaan 
tarkastella myös arvioitsijareliabiliteetin (engl. inter-rater reliability) sekä yhden arvioijan to-
teuttaman arvioinnin reliabiliteetin (engl. intra-rater reliability) kannalta (Biggs & Tang 2011). 
Arvioitsijareliabiliteetissa on kyse siitä, että eri arvioijat arvioivat saman suorituksen yhdenmu-
kaisesti niin, että arvioinnin tulokset eivät vaihtele arvioijan mukaan (Biggs &  Tang 2011; 
Ouakrim-Soivio 2015). Yhden arvioijan toteuttaman arvioinnin reliabiliteetti puolestaan tar-
koittaa sitä, että sama arvioija arvioi saman suorituksen yhdenmukaisesti eri kerroilla ilman, 
että arvioinnin tulos vaihtelee. Arvioinnin reliabiliteettia voidaan mitata eri tarkoituksiin sopi-
villa tilastollisilla tunnusluvuilla (Stemler 2004). Tunnusluvut voivat kuvata esimerkiksi arvioi-
jien yksimielisyyden astetta, arvioijien antamien pisteiden välistä korrelaatiota tai arvioijien 
välisiä eroja arvioinnin ankaruudessa.  
Validiteetti eli validius tarkoittaa arvioinnin osuvuutta ja pätevyyttä, eli se kuvaa, mitataanko 
arvioinnilla sitä, mitä sillä on tarkoituskin mitata (Ouakrim-Soivio 2015). Osuva eli korkean 
validiteetin omaava arviointi tuottaa tietoa juuri siitä, mistä sen on tarkoituskin (Räkköläinen 
2013). Validiteettia voidaan tarkastella ulkoisena ja sisäisenä validiteettina (Ouakrim-Soivio 
2015). Ulkoisen validiteetin käsite liittyy pääasiassa tutkimusten luotettavuuden arviointiin, 
sillä sen avulla mitataan, ovatko tulokset yleistettävissä johonkin perusjoukkoon. Esimerkiksi 
koulujen arviointityötä suorittavilla opettajilla ei ole perusjoukkoa, johon arviointitulokset kuu-
luisi yleistää, joten ulkoinen validiteetti ei varsinaisesti liity koulussa toteutettavaan arviointiin. 
Sisäinen validiteetti puolestaan kuvaa arvioinnin tai tutkimuksen omaa luotettavuutta, ja sitä 
voidaan tarkastella sisältö-, kriteeri- ja käsitevaliditeetin kautta. Sisällön validiustarkastelun 
avulla kuvataan, onko arviointimittari kohdealueena olevan sisällön kannalta edustava sekä 
ovatko käytetyt käsitteet teorian mukaisia ja operationalisoitu eli muutettu empiirisesti mitatta-
vaan muotoon oikein. Kriteerivaliditeetissa arviointimittarilla tuotettua tulosta verrataan johon-
kin validiuden kriteerinä toimivaan arvoon, ja käsitevaliditeetti kuvaa tutkimuksen kohteen kä-
sitteellistämistä sekä mittauksen kytkeytymistä teoreettiseen viitekehykseen. Koulussa toteu-
tettavan arvioinnin kannalta validiteetti tarkoittaa esimerkiksi sitä, että osaamisen arvioinnissa 
huomioidaan opetussuunnitelmassa asetetut tavoitteet ja sisällöt monipuolisesti, eivätkä asiat 
6 
 
tai ominaisuudet, joita arvioinnissa ei ole tarkoitus mitata, vaikuta arviointiin (Luostarinen & 
Nieminen 2019). 
Arvioinnin objektiivisuus tarkoittaa, että arviointipäätös perustuu täysin arviointivälineeseen 
arvioijan subjektiivisen mielipiteen sijaan (Keurulainen 2013). Objektiivisuuden periaatteen 
mukaisesti arviointi ei perustu arvioijan tulkintaan, eivätkä esimerkiksi arvioijan henkilökoh-
taiset mielipiteet ja näkemykset, havainnointitapa tai mieliala vaikuta arviointiin (Keurulainen 
2013; Ten Cate & Regehr 2019). Keurulaisen (2013) mukaan pyrkimys arvioinnin objektiivi-
suuteen liittyy erityisesti normatiiviseen arviointiin sekä määrälliseen kriteeriperustaiseen arvi-
ointiin. Eroja arvioinnin objektiivisuudessa voi esiintyä esimerkiksi eri arviointimenetelmien 
välillä (Kolaree & Ninčević 2022). Esimerkiksi monivalintakokeiden arvioinnissa arvioinnin 
lopputulos muodostuu suoraan opiskelijan antamien oikeiden vastausten määrästä, ja näin ar-
vioijan tulkinta ei voi vaikuttaa päätökseen (Keurulainen 2013). Avoimien vastausten arvioin-
nissa puolestaan objektiivisuuteen pyritään esimerkiksi käyttämällä mallivastauksia arvioinnin 
tukena.  
Laadukkaan ja eettisen arvioinnin ominaisuuksiin kuuluva oikeudenmukaisuus tarkoittaa, että 
arviointi on johdonmukaista, tasapuolista, läpinäkyvää ja perusteltavissa olevaa (Luostarinen 
& Ouakrim-Soivio 2019; Ouakrim-Soivio 2015). Oikeudenmukaiset arviointikäytänteet eivät 
syrji arvioitavia tai aseta heitä eriarvoisiin asemiin, vaan arvioinnissa huomioidaan arvioitavien 
välinen tasapuolisuus (Atjonen 2007). Kriteeriperustainen arviointi edistää arvioinnin oikeu-
denmukaisuutta, sillä se on läpinäkyvää ja perustuu opetussuunnitelmaan, minkä lisäksi se tar-
joaa kaikille arvioitaville mahdollisuuden onnistua. Ouakrim-Soivion (2015) mukaan oikeu-
denmukaisuus on yksi arvioinnin olennaisimmista periaatteista, sillä se pitää sisällään myös 
yhdenvertaisuuden ja tasa-arvon periaatteet.   
2.1.3 Suhteellinen ja kriteeriperustainen arviointi  
Arviointia voidaan toteuttaa suhteellisesti, kriteeriperustaisesti tai näitä menettelytapoja yhdis-
tellen (Ouakrim-Soivio 2015). Suhteellisessa eli normiperustaisessa arvioinnissa arvioitavaa 
suoritusta verrataan muiden arvioitavien suoritustasoon ja arvosana annetaan suhteessa muihin 
arvioitaviin (Wallace & Ng 2023). Yleinen normiperustaisen arvioinnin sovellus on sovittaa 
arvioitavat suoritukset normaalijakaumaan (Ouakrim-Soivio 2015). Näin annetut arvosanat ja-
kautuvat normaalijakauman mukaisesti ryhmän yleisestä suoritustasosta huolimatta, minkä 
vuoksi ryhmän keskimääräinen osaamistaso vaikuttaa normiperustaisella arvioinnilla annetta-
7 
 
viin arvosanoihin (Luostarinen & Nieminen 2019; Wallace & Ng 2023). Koska arvioitavat hen-
kilöt asetetaan suhteellisessa arvioinnissa järjestykseen osaamisen perusteella, se mahdollistaa 
erityisesti yksilöiden välisen vertailun (Lok ym. 2016). Näin se sopii arviointimenetelmäksi 
esimerkiksi erilaisiin valikointi-, valinta- ja kilpailutilanteisiin (Keurulainen 2013).   
Kriteeriperustaisessa arvioinnissa suoritusta ei verrata muihin arvioitaviin suorituksiin vaan en-
nalta määrättyihin arviointikriteereihin (Sawaki 2016). Ouakrim-Soivio (2015) määrittelee kri-
teerien olevan tavoitteista johdettuja arvioinnin välineitä, joiden tarkoituksena on kuvata mitat-
tavan osaamisen tasoa. Ryhmän keskimääräinen osaamistaso ei vaikuta kriteeriperustaisella ar-
vioinnilla suoritettavaan arviointiin, vaan opiskelijan arvosana perustuu täysin hänen omaan 
suoritukseensa (Neil ym. 2010). Kriteeriperustainen arviointi voidaan jakaa edelleen määrälli-
seen ja laadulliseen kriteeriperustaiseen arviointiin (Ouakrim-Soivio 2015). Määrällisessä kri-
teeriperustaisessa arvioinnissa suoritusta verrataan johonkin määrälliseen kriteeriin, jolloin ar-
viointipäätös perustuu arviointivälineeseen eikä arvioijan tulkintaan (Keurulainen 2013; 
Ouakrim-Soivio 2015). Tyypillisiä esimerkkejä tällaisesta arvioinnista ovat esimerkiksi moni-
valintatehtävät. Laadullisessa kriteeriperustaisessa arvioinnissa puolestaan arvioitavaa osaa-
mista verrataan laadullisiin kriteereihin, ja myös arvioitavat suoritukset ovat pääasiassa laadul-
lisia (Ouakrim-Soivio 2015). Laadullisia kriteerejä käytetään arvioinnin perustana esimerkiksi 
arviointimatriisin avulla suoritettavassa arvioinnissa, sillä matriisin mittaamaa osaamista arvi-
oidaan laadullisten suoritustasojen kuvausten avulla (Brookhart 2018; Ouakrim-Soivio 2015). 
Suhteellisen arvioinnin sekä määrällisen ja laadullisen kriteeriperustaisen arvioinnin periaatteet 
eroavat toisistaan, minkä lisäksi myös arviointimenetelmien tarkoitukset ja kohteet ovat erilai-
sia (Biggs & Tang 2011; Keurulainen 2013; Lok ym. 2016). Suhteelliseen arviointiin liitetään 
esimerkiksi suhteellisuuden, mittaamisen ja määrällisyyden, objektiivisuuden sekä standar-
doinnin periaatteet (Keurulainen 2013). Suhteellinen arviointi pyrkii asettamaan opiskelijat 
osaamisen perusteella järjestykseen ja täten se kohdistuu koko arvioitavaan ryhmään (Lok ym. 
2016). Määrällisen kriteeriperustaisen arvioinnin periaatteet noudattavat pitkälti suhteellisen 
arvioinnin periaatteita, mutta suhteellisuuden sijaan siinä korostetaan absoluuttisuutta (Keuru-
lainen 2013). Laadulliseen kriteeriperustaiseen arviointiin liitetään edellisistä arviointimenetel-
mistä poiketen esimerkiksi tulkinnallisuuden ja kontekstuaalisuuden periaatteet. Kriteeriperus-
taisten arviointimenetelmien tarkoituksena on kuvata yksilön osaamista ja kehittymistä (Lok 
ym. 2016). 
8 
 
Usein suhteellista ja kriteeriperustaista arviointia käytetään yhdessä, sillä arviointimenetelmät 
täydentävät toisiaan ja niiden yhdistäminen voi myös parantaa arvioinnin laatua (Lok ym. 
2016). Esimerkiksi ylioppilaskokeiden arviointi perustuu molempiin arviointitapoihin 
(Ouakrim-Soivio 2015). Kokeiden arviointi suoritetaan yhteisten arvostelukriteerien mukai-
sesti, jolloin arviointi on kriteeriperustaista, mutta lopulliset arvosanojen pisterajat määräytyvät 
varsinaisten kokelaiden saamien pisteiden mukaisesti, jolloin arvioinnissa on myös suhteellisen 
arvioinnin piirteitä (Ouakrim-Soivio 2015; Pisterajat s.a.).  
2.2 Arviointimatriisi arvioinnin välineenä 
Arviointimatriisi eli rubriikki on kriteeritaulukko, jonka päätarkoituksena on toimia opiskeli-
joiden osaamisen kriteeriperustaisen arvioinnin apuvälineenä (Brookhart 2013; Dirkx ym. 
2019). Brookhartin (2013) mukaan arviointimatriisi koostuu kahdesta pääelementistä: johdon-
mukaisista kriteereistä eli arvioitavan osaamisen osa-alueista sekä näiden kriteerien erilaisten 
suoritustasojen kuvauksista. Pophamin (1997) mukaan kriteeristön sekä suoritustasojen ku-
vausten lisäksi arviointimatriisin kuuluu sisältää myös suorituksen pisteitysstrategia. Matriisi 
on siis taulukko, jonka solut sisältävät tyypillisesti vasemmassa sarakkeessa sijaitseville kritee-
reille konkreettiset laatuluokkien kuvaukset (Aijjawi ym. 2018). 
Arviointimatriisien avulla voidaan arvioida tuotoksia, kuten opinnoissa tuotettuja lopputöitä ja 
koevastauksia, sekä toimintaa, kuten ajattelun taitoja ja esimerkiksi kriittistä ajattelua 
(Brookhart 2013; Reynders ym. 2020). Niitä käytetään erityisesti monimutkaisten ja käytän-
nönläheisten suoritusten arvioinnissa, eivätkä ne sovellu yksiselitteisesti arvioitavien tehtävien, 
kuten monivalintakysymysten, arviointiin (Jonsson & Svingby 2007; Popham 1997). Matriisit 
soveltuvat monipuolisesti erilaisiin arviointi- ja oppimistarkoituksiin, ja erityisen hyvin ne toi-
mivat formatiivisen arvioinnin välineenä niiden avulla annetun laadullisen palautteen sekä ar-
vioinnin läpinäkyvyyden ja palauteprosessin edistämisen vuoksi (Brookhart 2013; Hidayati ym. 
2024; Panadero & Jonsson 2013). Ulkopuolisen arvioijan toteuttaman arvioinnin lisäksi arvi-
ointimatriisit soveltuvat hyvin myös vertais- ja itsearviointiin, sillä ne voivat muun muassa tu-
kea opiskelijan itsesäätelyä ja minäpystyvyyttä, tarkentaa oppimistavoitteita sekä auttaa opis-
kelijan oppimisprosessin seuraamista (Brookhart 2013; Hafner & Hafner 2003; Martin-Kniep 
2000; Salamanca 2024). Arviointimatriisit voivat tukea myös opettajan työtä, sillä ne voivat 
esimerkiksi edistää opettajien antamaa ohjeistusta sekä auttaa kohdistamaan opetuksen ja arvi-
oinnin juuri oppimistavoitteisiin (Martin-Kniep 2000). 
9 
 
Arviointimatriisin ensimmäinen pääelementti eli kriteeristö koostuu tekijöistä, joita arvioija tar-
kastelee arvioitavasta suorituksesta arviointiprosessin aikana (Reddy & Andrade 2010). Kritee-
rit ovat sen osaamisen osa-alueita, jota tarkasteltavalla suorituksella on tarkoitus mitata, ja ne 
voivat olla keskenään samanarvoisia tai niitä voidaan painottaa arvioitavan suorituksen pistei-
tyksessä eri tavoin (Brookhart 2013; Popham 1997). Arviointimatriisin validiteetin kannalta 
kriteerien valinta on tärkeää, sillä laadukkaassa matriisissa kriteerit on valittu tarkoituksenmu-
kaisesti niin, että niiden avulla voidaan arvioida juuri arvioitavan suorituksen indikoimaa osaa-
mista (Moskal & Leydens 2000). Laadukkaassa arviointimatriisissa kriteerit ovat selkeästi mää-
riteltävissä ja havainnoitavissa olevia ominaisuuksia, jotka muodostavat matriisilla arvioitavaa 
osaamista kattavasti mittaavan kokonaisuuden (Brookhart 2013). Lisäksi kriteerien kuuluu olla 
sellaisia arvioitavan suorituksen ominaisuuksia, joiden laatu voidaan määrittää sekä hyvin hei-
kolla että hyvin korkealla tasolla: näin laadukkaiden suoritustasojen kuvausten laatiminen on 
mahdollista.  
Suoritusta arvioitaessa kriteerien täyttymistä arvioidaan matriisin toisen pääelementin eli kri-
teerien suoritustasojen kuvausten avulla (Panadero & Jonsson 2020). Suoritustasojen kuvauk-
silla määritellään, millainen arvioitava suoritus on tietyn kriteerin osalta jokaisessa matriisin 
laatuluokassa (Brookhart 2013). Arviointimatriisin toimintaperiaate on, että arvioija valitsee 
jokaisen kriteerin kohdalla sen suoritustason kuvauksen, joka vastaa arvioitavaa suoritusta par-
haiten. Se, että arviointimatriisissa kriteerien toteutumista arvioidaan vertaamalla suoritusta laa-
dullisiin kuvailuihin, erottaa arviointimatriisin perinteisestä arviointitaulukosta, sillä yksinker-
taisemmassa arviointitaulukossa kriteerien toteutumista arvioidaan pelkkien arvosanojen tai ad-
jektiivien avulla. Suoritustasojen kuvausten on oltava laadukkaasti määriteltyjä ja niiden kuu-
luu olla toisistaan selkeästi erotettavissa arviointimatriisin reliabiliteetin säilymiseksi (Moskal 
& Leydens 2000).  
Arviointimatriisit voidaan jakaa analyyttisiin ja holistisiin arviointimatriiseihin (Brookhart 
2013). Analyyttisessa arviointimatriisissa jokainen kriteeri arvioidaan erikseen, kun taas holis-
tisessa arviointimatriisissa on analyyttisen matriisin tavoin useita kriteereitä, mutta kriteerien 
suoritustasojen kuvaukset on yhdistetty ja näin kaikki kriteerit arvioidaan samanaikaisesti. Ho-
listisella arviointimatriisilla koko suoritus arvioidaan siis yhtenä kokonaisuutena ilman, että sen 
yksittäisiä osia tai ominaisuuksia korostettaisiin arviointiprosessin aikana (Martin-Kniep 2000). 
Erilaiset arviointimatriisit sopivat erilaisiin tarkoituksiin (Brookhart 2013). Analyyttinen arvi-
ointimatriisi tuottaa oppijalle holistista matriisia tarkempaa palautetta, minkä vuoksi se sopii 
10 
 
erityisen hyvin formatiiviseen arviointiin. Holistisen arviointimatriisin avulla puolestaan arvi-
ointi on nopeampaa ja se sopii käytettäväksi erityisesti sellaisessa summatiivisessa arvioinnissa, 
jossa oppija ei saa suorituksestaan muuta palautetta kuin arvosanan.  
Arviointimatriisit voidaan jakaa myös yleisiin ja tehtäväkohtaisiin matriiseihin (Panadero & 
Jonsson 2020). Yleisessä arviointimatriisissa kriteerit ja niiden suoritustasojen kuvaukset on 
laadittu niin, että matriisilla voidaan arvioida samaa osaamista monista erilaisista suorituksista, 
kun taas tehtäväkohtaisella arviointimatriisilla on tarkoitus arvioida tiettyä suoritusta ja sen kri-
teerit vastaavat ainoastaan tietyn suorituksen sisältöä. Tämän vuoksi yleiset arviointimatriisit 
ovat tehtäväkohtaisia matriiseja monikäyttöisempiä arviointivälineitä (Brookhart 2013). Näi-
den matriisityyppien välinen merkittävä ero on erityisesti se, että oppijat voivat hyödyntää ylei-
siä arviointimatriiseja oppimisprosessissaan monella tavalla, kun taas tehtäväkohtaiset matriisit 
sisältävät suorituksen oikeat ratkaisutavat ja siten niitä ei voida jakaa arvioitaville etukäteen 
(Brookhart 2013; Martin-Kniep 2000; Popham 1997). Toisaalta myös yleisten arviointimatrii-
sien hyödyntäminen oppimisprosessissa voi olla haastavaa, mikäli niiden kriteerit ja suoritus-
tasojen kuvaukset ovat suorituksesta liian irrallisia (Martin-Kniep 2000). Yleiset arviointimat-
riisit ovat myös arvioijan kannalta hyödyllisiä, sillä niiden käyttäminen usein kohdentaa arvi-
oinnin koskemaan nimenomaan arvioitavaa osaamista tehtäväkohtaisen suoriutumisen sijaan, 
minkä lisäksi niitä voidaan käyttää useiden erilaisten suoritusten arvioimisessa helpottaen arvi-
oinnin suunnittelua.  
Arviointimatriisien laatua voidaan arvioida tutkimalla esimerkiksi niiden reliabiliteettia ja va-
liditeettia (Brookhart & Chen 2015). Matriisien reliabiliteettia voidaan tarkastella joko arvioin-
nin suhteellisena tai absoluuttisena yhdenmukaisuutena eri tekijöiden, kuten arvioijien, tilantei-
den ja kriteerien, välillä, ja sitä voidaan tutkia erilaisilla laskentamenetelmillä. Esimerkiksi Co-
henin kappa -kerroin, sisäkorrelaatiokerroin ja Pearsonin korrelaatiokerroin ovat tyypillisiä re-
liabiliteettia kuvaavia tilastollisia tunnuslukuja. Myös arviointimatriisien validiteettia voidaan 
vastaavasti arvioida tilastollisilla menetelmillä, kuten selvittämällä matriisin korrelaatiokerroin 
muiden arviointivälineiden kanssa (Jonsson & Svingby 2007). Arviointimatriisien reliabiliteet-
tia ja validiteettia voidaan edistää useilla tavoilla (Dawson 2017). Reliabiliteettia voidaan lisätä 
esimerkiksi kouluttamalla arvioijia matriisien luotettavaan käyttöön sekä täydentämällä mat-
riiseihin esimerkkejä eritasoisista suorituksista (Brookhart 2013; Jonsson & Svingby 2007). 
Myös matriisityyppi voi vaikuttaa reliabiliteettiin, sillä tehtäväkohtaisissa matriiseissa arvioit-
sijareliabiliteetti on usein yleisten matriisien reliabiliteettia korkeampi etenkin arviointiproses-
11 
 
sin alussa, ja analyyttisten arviointimatriisien reliabiliteetti on usein holististen matriisien relia-
biliteettia korkeampi (Brookhart 2013; Jonsson & Svingby 2007). Matriisien validiteettia puo-
lestaan voidaan pyrkiä lisäämään esimerkiksi hyödyntämällä asiantuntijalausuntoja, jo ole-
massa olevia matriiseja sekä sidosryhmien palautteita matriisien laadinnassa (Dawson 2017; 
Jonsson & Svingby 2007). 
2.3 Ylioppilaskokeiden arviointi 
2.3.1 Maantieteen ylioppilaskokeet ja niiden arviointi 
Ylioppilastutkintolautakunnan laatimilla ylioppilaskokeilla pyritään selvittämään, onko yliop-
pilaskokelas saavuttanut lukion opetussuunnitelman perusteiden mukaisen osaamisen sekä riit-
tävän kypsyyden aineen hallinnassa (Reaaliaineiden… 2024; Valtioneuvoston asetus ylioppi-
lastutkinnosta 612/2019). Kokeiden tehtävät perustuvat lukiokoulutuksen oppimäärään kuulu-
viin pakollisiin ja valtakunnallisiin valinnaisiin opintoihin (Valtioneuvoston asetus lukiokoulu-
tuksesta 810/2018; Valtioneuvoston asetus ylioppilastutkinnosta 612/2019; Yleiset määräykset 
ja ohjeet 2024). Kokeet sisältävät myös oppiainerajat ylittäviä tehtäviä, jotka voivat perustua 
Lukion opetussuunnitelman perusteiden (2019) mukaiseen laaja-alaiseen osaamiseen.  
Ylioppilaskoevastausten arviointiprosessi koostuu kahdesta vaiheesta. Koesuoritusten alusta-
van arvostelun toteuttaa kyseisen aineen opettaja (Laki ylioppilastutkinnosta 502/2019; Yleiset 
määräykset ja ohjeet 2024). Alustava arvostelu suoritetaan Ylioppilastutkintolautakunnan 
koepäivänä julkaisemien alustavien hyvän vastauksen piirteiden avulla, ja alustavan arvostelun 
mukaiset tulokset ilmoitetaan kokelaille. Opettajat, opettajajärjestöt ja muut tahot voivat lähet-
tää lautakunnalle alustaviin hyvän vastauksen piirteisiin liittyviä huomioita tai ehdotuksia nii-
den julkaisemisen jälkeen. Lopullisen koesuoritusten arvostelun suorittavat Ylioppilastutkinto-
lautakunnan sensorit, jotka pisteittävät kaikki vastaukset ainejaoksissa päätettyjen lopullisten 
arvostelukriteerien mukaisesti. Lopulliset hyvän vastauksen piirteet julkaistaan tulosten julkai-
semisen yhteydessä (Hyvän vastauksen piirteet: FI – Maantiede 2023; Yleiset määräykset ja 
ohjeet 2024). 
Maantieteen ylioppilaskoe järjestetään toisena reaaliaineiden koepäivänä, joiden järjestys voi 
vaihdella eri tutkintokerroilla (Reaaliaineiden… 2024; Yleiset määräykset ja ohjeet 2024). Lu-
kiokoulutuksen maantieteen oppimäärään kuuluu yksi pakollinen moduuli ja kolme valtakun-
nallista valinnaista moduulia (Lukion… 2019). Maantieteen oppiaineen tavoitteena on kehittää 
12 
 
opiskelijan maantieteellistä ajattelua, tukea maantieteellisten ilmiöiden ja prosessien ymmärtä-
mistä sekä vahvistaa maantieteellisten taitojen hallintaa ja soveltamista. Maantieteen ylioppi-
laskoe koostuu kolmesta osiosta (Hyvän vastauksen piirteet: FI – Maantiede 2023). Ensimmäi-
sessä osiossa on yksi pakollinen tehtävä, jonka enimmäispistemäärä on 20. Toisessa osiossa on 
neljä 20 pisteen tehtävää, joista kokelas vastaa kahteen. Kolmannessa osiossa on neljä 30 pis-
teen tehtävää, joista vastaavasti vastataan kahteen tehtävään. Kokeen enimmäispistemäärä on 
siis 120 pistettä. Maantieteen ylioppilaskokeella arvioidaan, miten hyvin kokelas hallitsee itse-
näisesti maantieteellisiä tietoja ja taitoja sekä kuinka hyvin kokelas osaa soveltaa niitä erilaisten 
tehtävien kontekstissa (Hyvän vastauksen piirteet: FI – Maantiede 2023). 
Maantieteen koesuoritusten arvioinnissa noudatetaan Ylioppilastutkintolautakunnan antamia 
reaaliaineiden kokeiden määräyksiä ja ohjeita sekä maantieteen hyvän vastauksen piirteitä (Hy-
vän vastauksen piirteet: FI – Maantiede 2023; Reaaliaineiden… 2024). Reaaliaineiden  kokei-
den määräyksissä ja ohjeissa määritellään muun muassa tekijöitä, joihin suoritusten arvioin-
nissa on kiinnitettävä erityistä huomiota (Reaaliaineiden… 2024). Kypsyyttä osoittavia teki-
jöitä reaaliaineiden koesuorituksissa ovat esimerkiksi monipuoliset tiedonkäsittelytaidot, väit-
teiden perusteleminen, annettujen työkalujen asianmukainen käyttö sekä tehtäviin liittyvien ai-
neistojen tarkoituksenmukainen käyttö. Suorituksen arvoa alentavia tekijöitä puolestaan ovat 
esimerkiksi asiavirheet, vastauksen rakentuminen mielipiteiden varaan, tehtävänannon käsittä-
minen väärin tai tehtävänannossa annetun merkkimäärän ylittäminen. Maantieteen hyvän vas-
tauksen piirteet eli koesuorituksen arvosteluohjeet puolestaan koostuvat eri suorituskertojen ko-
keille yhteisestä yleisestä osasta sekä tehtäväkohtaisista pisteitysohjeista (Hyvän vastauksen 
piirteet: FI – Maantiede 2023). Yleisessä osassa kuvataan esimerkiksi vastausten arvioinnin 
lähtökohtia sekä kokeen tehtäviä yleisellä tasolla. Tehtäväkohtaisissa pisteitysohjeissa kerro-
taan ensin yleisemmällä tasolla tehtävän olennaisimmista arvioinnin kohteista, minkä jälkeen 
vastauksen sisältöjen pisteittäminen ohjeistetaan tarkemmin. 
2.3.2 Syksyn 2023 maantieteen ylioppilaskokeen tehtävän 7 pisteitysohjeet 
Syksyn 2023 ylioppilaskokeen tehtävä 7 kuuluu kokeen kolmanteen osioon (Hyvän vastauksen 
piirteet – Maantiede 2023). Tehtävän otsikko on Kuusamon alueen ratahanke, ja siinä tarkas-
tellaan liikennemuotoja ja niiden vaikutuksia yleisesti sekä Kuusamon alueen kontekstissa. 
Tehtävä on jaettu kolmeen osatehtävään, joiden yhteispistemäärä on 30, ja joista jokaiseen kuu-
luu vastata esseevastauksella (taulukko 1). Tehtävässä on käytettävänä viisi kartta-aineistoa. 
Tehtävän yleiskuvauksen mukaan siinä arvioidaan vastaajan perustietoja liikennemuodoista, 
13 
 
minkä lisäksi tehtävässä mitataan myös monipuolista yleis- ja teemakarttojen lukutaitoa, kykyä 
tarkastella tehtävässä esitellyn infrastruktuurihankkeen vaikutuksia monipuolisesti sekä maan-
tieteellistä kirjoitustaitoa. Tehtävässä hyödynnetään useita maantieteen opintojen moduuleja, ja 
siinä vaaditaan vastaajalta monitieteistä ja laaja-alaista ympäristöön liittyvää osaamista (Hyvän 
vastauksen piirteet – Maantiede 2023; Lukion opetussuunnitelman… 2019). 
Taulukko 1. Syksyn 2023 maantieteen ylioppilaskokeen tehtävän 7 ”Kuusamon alueen ratahanke” teh-
tävänanto ja kokonaispisteiden jakautuminen osatehtävittäin. 
Osa- 
tehtävä Tehtävänanto 
Piste-
määrä 
7.1 Kuvaile raideliikenteen etuja ja haittoja verrattuna tieliikenteeseen. 6 
7.2 
Rautatieyhteyttä Kuusamoon on suunniteltu jo 1800-luvun lopulta lähtien. 
Vuosikymmenien aikana hanke on saanut sekä kannatusta että vastustusta 
ja radasta on tehty erilaisia kannattavuuslaskelmia. Uuden radan rakenta-
miskustannukset ovat eräiden arvioiden mukaan noin viisi miljoonaa euroa 
kilometriä kohden. Valitse kartan 7.A reittivaihtoehdoista A–C mielestäsi 
järkevin. Arvioi valitsemasi reittivaihtoehdon etuja ja haittoja kartto-
jen 7.A–7.E perusteella vertaamalla sitä kahteen muuhun vaihtoehtoon. 12 
7.3 
Pohdi uuden ratayhteyden vaikutuksia ihmisen toimintaan ja luontoon Kuu-
samon alueella pitkällä aikavälillä.  12 
 
Osatehtävässä 7.1 vastauksesta voi saada kaksi pistettä hyvin perustellusta edusta tai haitasta 
(Hyvän vastauksen piirteet – Maantiede 2023). Mainittu etu tai haitta voi saada vain yhden 
pisteen, jos se on kuvattu pintapuolisesti tai ilman vertailua. Vastauksessa täytyy käsitellä sekä 
etuja että haittoja, jotta siitä voi saada täydet pisteet. Lisäksi osatehtävästä voi saada vain puolet 
saavutetusta pistemäärästä, jos vastauksessa ei ole vertailuasetelmaa. Hyvän vastauksen piir-
teissä on kuvattu esimerkkisisältöjä, joista vastaukselle voidaan antaa pisteitä (liite 1).  
Osatehtävässä 7.2 vastaaja voi saada kaksi pistettä vastauksen kypsyydestä ja loogisesti jäsen-
nellystä rakenteesta (Hyvän vastauksen piirteet – Maantiede 2023). Vastauksesta voi saada yh-
den pisteen valitun reittivaihtoehdon nimeämisestä, ja enintään yhdeksän pistettä vastauksesta 
voi saada reittivaihtoehdon perusteluista. Hyvin kuvatusta ja muihin reittivaihtoehtoihin ver-
taavasta perustelusta voi saada kaksi pistettä ja pintapuolisesta perustelusta yhden pisteen. Vas-
tauksessa kuuluu käyttää vähintään kolmea kartta-aineistoa ja kuvata sekä valitun reittivaihto-
ehdon etuja että haittoja, jotta osatehtävästä voi saada täydet pisteet. Jos vertailuasetelma puut-
tuu vastauksesta, voi osatehtävästä saada vain puolet vastaukselle annetusta pistemäärästä. Pis-
teitysohjeissa on kuvattu esimerkkisisältöjä, joista vastaukselle voidaan antaa pisteitä (liite 1).  
Osatehtävässä 7.3 vastaaja voi edellisen osatehtävän tavoin saada kaksi pistettä kypsästä ja loo-
gisesti jäsennellystä vastauksesta (Hyvän vastauksen piirteet – Maantiede 2023). Osatehtävästä 
14 
 
voi saada enintään kymmenen pistettä vastauksessa mainituista ratayhteyden vaikutuksista. Hy-
vin kuvatusta huomiosta voi saada kaksi pistettä ja pintapuolisesti kuvatusta huomiosta yhden 
pisteen. Vastauksessa kuuluu käsitellä vaikutuksia sekä ihmisen toimintaan että luontoon, jotta 
osatehtävästä voi saada täydet pisteet: vaikutuksista ihmisen toimintaan voi saada enintään 4–
6 pistettä ja vaikutuksista luontoon enintään 4–6 pistettä. Tehtävän pisteitysohjeissa on nimetty 
esimerkkisisältöjä, joista vastaukselle voidaan antaa pisteitä (liite 1).  
15 
 
3 Aineisto ja menetelmät 
3.1 Tutkimuksen vaiheet 
Tutkimus toteutettiin käyttämällä kvantitatiivisia ja kvalitatiivisia tutkimusmenetelmiä (kuva 
1). Tutkimuksessa tarkasteltava vastausaineisto (n=70) pisteitettiin kahdella eri arviointimene-
telmällä eli kokeen nykyisillä arviointiohjeilla sekä tutkimuksessa luodulla arviointimatriisilla. 
Tuotettuja pisteityksiä tarkasteltiin tilastollisilla menetelmillä, joiden avulla saatiin vastaukset 
ensimmäiseen ja toiseen tutkimuskysymykseen. Vastaukset, joiden pisteissä erot tarkasteltujen 
arviointimenetelmien välillä olivat suurimmat, analysoitiin laadullisella sisällönanalyysilla, 
jolla saatiin vastaus kolmanteen tutkimuskysymykseen. 
Kuva 1. Tutkimuksen vaiheet.  
 
3.2 Aineisto  
Tutkimuksessa tarkasteltavana vastausaineistona käytettiin syksyn 2023 maantieteen ylioppi-
laskokeen tehtävän 7 ”Kuusamon alueen ratahanke” vastauksia. Kokeen kaikkien tehtävien vas-
tauksista koostuva vastausaineisto saatiin Ylioppilastutkintolautakunnalta tutkimusluvalla 
OPH-6154-2023. Tehtävän 7 vastausaineisto koostui 1388 vastauksesta. Näistä vastauksista 
luotiin 70 vastauksen otos, jota käytettiin tutkimuksessa arvioitavana vastausaineistona. Lisäksi 
16 
 
tutkimuksessa käytettiin vastausten alkuperäisessä Ylioppilastutkintolautakunnan suoritta-
massa arvioinnissa saamia pisteitä, joita nimitetään tässä tutkimuksessa vastauksien alkuperäi-
siksi sensoripisteiksi. 
Otos poimittiin ositetulla otannalla eli otantamenetelmällä, jonka avulla pyritään varmistamaan 
otoksen edustavuus kaikkien niiden ryhmien osalta, jotka ovat tutkimuksen kannalta merkittä-
viä (Otos… 2003). Ositetussa otannassa otoksen tarkkuutta ja edustavuutta parannetaan jaka-
malla perusjoukko sitä koskevien tietojen avulla ositteisiin ennen otoksen luomista (Ositettu… 
s.a.). Se sopii otantamenetelmäksi silloin, kun jokin ryhmä on niin pieni, että yksinkertaisella 
satunnaisotannalla ei voida taata kaikkien ryhmien edustavuutta otoksessa (Otos… 2003). Kun 
tehtävän 7 vastaukset jaettiin luokkiin kokonaispistemäärän mukaan viiden pisteen välein, pis-
teluokat 0–5 ja 26–30 olivat huomattavasti muita pisteluokkia pienempiä (taulukko 2), ja koska 
tutkimuksessa haluttiin sen kartoittavan luonteen vuoksi tarkastella kattavasti eritasoisia vas-
tauksia, ositettu otanta varmisti kaikkien pisteluokkien edustavuuden otoksessa ja näin sopi hy-
vin tutkimuksen otantamenetelmäksi. Otanta tehtiin jakamalla vastausaineisto kuuteen piste-
luokkaan viiden pisteen välein, ja jokaisesta pisteluokasta poimittiin suhteellista otosta lähes-
tyvä määrä vastauksia tarkasteluun (taulukko 2). Tutkimuksen otos lähestyy koko aineiston pis-
teluokkien suhteellista frekvenssijakaumaa, mutta se ei noudata sitä täysin, jotta tarkasteltavaan 
otokseen saatiin tarpeeksi vastauksia myös ensimmäisestä ja viimeisestä pisteluokasta.  
Taulukko 2. Vastausten pistejakauma tutkimuksen otoksessa ja koko vastausaineistossa. 
Piste-
luokka 
Määrä 
vastausaineistossa 
Osuus                               
vastausaineistossa Määrä otoksessa 
Osuus           
otoksessa 
0–5 20 1,4 % 4 5,7 % 
6–10 214 15,4 % 11 15,7 % 
11–15 446 32,1 % 20 28,6 % 
16–20 406 29,3 % 18 25,7 % 
21–25 226 16,3 % 11 15,7 % 
26–30 76 5,5 % 6 8,6 % 
yhteensä 1388 100,0 % 70 100,0 % 
 
Koko kokeen vastausaineisto saatiin CSV-tiedostona, jota käsiteltiin Microsoft Excel -tauluk-
kolaskentaohjelmassa. Tehtävän 7 vastaukset poimittiin tästä tiedostosta erilliseen tiedostoon, 
jossa ne luokiteltiin pistemäärien mukaisesti ja josta ne siirrettiin edelleen erillisiin pisteluok-
kien mukaisiin laskentataulukoihin. Tutkimuksessa käytetyt vastaukset saatiin jokaisesta piste-
luokasta Excelissä suoritetulla satunnaisotannalla.  
17 
 
3.3 Menetelmät 
3.3.1 Aineiston arviointi  
Tutkimuksessa toteutettu vastausten arviointi suoritettiin yhteistyössä kahden kokeneen maan-
tieteen sensorin kanssa. Tutkielman tekijään viitataan tästä eteenpäin nimellä arvioija 1 ja tut-
kielmaan osallistuneisiin maantieteen sensoreihin nimillä arvioija 2 ja arvioija 3.  
Tutkimuksessa tarkasteltava vastausaineisto pisteitettiin kahdessa eri vaiheessa. Molemmat ar-
viointivaiheet toteutettiin niin, että vastausten saamat alkuperäiset pisteet eivät olleet arvioijien 
tiedossa. Ensimmäinen arviointivaihe toteutettiin ennen arviointimatriisin luomista kokeen ny-
kyisillä pisteitysohjeilla eli Ylioppilastutkintolautakunnan laatimien lopullisten hyvän vastauk-
sen piirteiden avulla (Hyvän vastauksen piirteet: FI – Maantiede 2023). Tässä arviointivai-
heessa arvioija 1 arvioi 10 vastausta ja arvioijat 2 ja 3 arvioivat kumpikin 40 vastausta (kuva 
2). Jokainen arvioija pisteitti vastauksia kaikista pisteluokista, ja otokseen kuului 10 vastausta, 
jotka kaikki arvioijat pisteittivät. 
Kuva 2. Vastausten jakautuminen arvioijien kesken ensimmäisessä arviointivaiheessa eli nykyisillä ar-
viointiohjeilla suoritetussa arvioinnissa. Vihreä ruutu kuvaa arvioijan 2 ja sininen ruutu kuvaa arvioijan 
3 pisteittämää vastausta. Vaaleanpunainen ruutu kuvaa vastausta, jonka kaikki kolme tutkimuksen ar-
vioijaa pisteittivät. 
 
Arvioijat kirjasivat pisteet strukturoituihin Excel-taulukoihin, joihin merkittiin asiat, joista vas-
taus sai hyvän vastauksen piirteiden mukaisesti pisteitä. Taulukoihin kirjattiin myös huomioita, 
joita arvioitavista vastauksista tehtiin arvioinnin aikana. Tämän arviointivaiheen jälkeen jokai-
nen arvioija laati esityksen arvioinnin aikana tekemistään havainnoista sekä tunnistamistaan 
arvioinnin haasteista, kuten siitä, millaisten vastausten ja taitojen arviointi on nykyisillä arvi-
ointiohjeilla haastavaa. 
Toinen arviointivaihe toteutettiin tutkimuksessa luodun arviointimatriisin avulla (ks. alaluku 
3.3.2). Jokainen arvioija pisteitti arviointimatriisilla eri vastaukset kuin ensimmäisessä arvioin-
tivaiheessa, jotta edellisen arvioinnin aikana tehdyt tulkinnat vaikuttaisivat pisteitykseen mah-
dollisimman vähän. Arvioija 1 arvioi tässä arviointivaiheessa 60 vastausta ja arvioijat 2 ja 3 
Pisteluokka
1-5 p 2 3 3 123
6-10 p 2 2 2 2 2 3 3 3 3 123 123
11-15 p 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 123 123
16-20 p 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 123 123
21-25 p 2 2 2 2 3 3 3 3 3 123 123
26-30 p 2 2 2 3 3 123
Vastausten arvioijat
18 
 
arvioivat kumpikin 30 vastausta (kuva 3). Arviointi toteutettiin niin, että jokaisella vastauksella 
oli kaksi arvioijaa. Arvioijat pisteittivät aineiston strukturoituihin Excel-laskentataulukoihin, 
joihin merkittiin vastausten eri kriteereistä saamat prosenttiosuudet sekä mahdolliset vastauk-
sista tehdyt huomiot. Arvioijat eivät keskustelleet antamistaan pisteistä tai matriisin käytöstä 
arvioinnin aikana, vaan arviointivaihe suoritettiin itsenäisesti.  
Kuva 3. Vastausten jakautuminen arvioijien kesken toisessa arviointivaiheessa eli arviointimatriisin 
avulla suoritetussa arvioinnissa. Sininen ruutu kuvaa arvioijien 1 ja 3 pisteittämää vastausta ja vihreä 
ruutu kuvaa arvioijien 1 ja 2 pisteittämää vastausta. Valkoiset ruudut kuvaavat otokseen kuuluvia vas-
tauksia, joita ei tässä arviointivaiheessa pisteitetty. 
 
3.3.2 Arviointimatriisin luominen 
Tutkimuksessa käytetty arviointimatriisi luotiin tämän tutkielman tekijän sekä kahden koke-
neen maantieteen sensorin yhteistyönä. Arviointimatriisi luotiin tutkimuksen ensimmäisen ar-
viointivaiheen eli nykyisillä arviointiohjeilla suoritetun pisteityksen jälkeen. Arviointimatriisia 
suunniteltiin matriisin tekijöiden yhteisissä tapaamisissa sekä itsenäisesti työskennellen. Suun-
nittelu aloitettiin arviointimatriisin tekijöiden yhteisessä tapaamisessa, jossa sovittiin yhteiset 
lähtökohdat arviointimatriisin suunnittelulle, eli mitä asioita matriisilla on tarkoitus arvioida ja 
mihin aineistoihin sen kriteerit perustuvat. Jokainen matriisin tekoon osallistunut henkilö työsti 
tapaamisen jälkeen itsenäisesti arviointimatriisin, joka jaettiin muille tekijöille. Matriisien toi-
mivuutta testattiin arvioimalla niiden avulla tutkimuksen vastausaineistoon kuulumattomia vas-
tauksia. Näiden matriisien ja niiden toimivuuteen liittyvien kommenttien avulla seuraavassa 
tekijöiden tapaamisessa keskusteltiin matriisien kehityskohdista, ja tapaamisen jälkeen matrii-
sin tekijät kehittivät matriiseja keskustelun mukaisesti. Näistä itsenäisesti muokatuista mat-
riiseista koostettiin lopullinen arviointimatriisi, jota tutkimuksessa käytettiin.  
Nitkon ja Brookhartin (2011) mukaan kaksi keskeisintä arviointimatriisin luomistapaa ovat yl-
häältäpäin ohjattu lähestymistapa (engl. top-down) sekä alhaaltapäin ohjattu lähestymistapa 
(engl. bottom-up). Ylhäältäpäin ohjatussa eli deduktiivisessa lähestymistavassa arviointimat-
riisi luodaan arvioitavaan suoritukseen liittyvän käsitteellisen viitekehyksen avulla (Brookhart 
Pisteluokka
1-5 p 13 12 12
6-10 p 13 13 13 13 13 12 12 12 12
11-15 p 13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 12
16-20 p 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12
21-25 p 13 13 13 13 12 12 12 12 12
26-30 p 13 13 13 12 12
Vastausten arvioijat
19 
 
2013). Tämä lähestymistapa sopii matriisin tekoon erityisesti sellaisissa tilanteissa, joissa ta-
voiteltu ja arvioitava osaaminen on kuvattu etukäteen selkeästi esimerkiksi opetussuunnitel-
massa. Alhaaltapäin ohjatussa eli induktiivisessa lähestymistavassa puolestaan arviointimatriisi 
luodaan niiden suoritusten avulla, joissa esitettyä osaamista luodulla matriisilla on tarkoitus 
arvioida. Brookhart (2013) kuvaa, että alhaaltapäin ohjatussa lähestymistavassa matriisin luo-
minen aloitetaan luokittelemalla arvioitavat suoritukset laatunsa perusteella eri luokkiin. Seu-
raavaksi jokaiselle suoritukselle luodaan kuvaus siitä, miksi se sijoittuu kyseiseen luokkaan. 
Suoritusten kuvauksista johdetaan suorituksen laatua määrittäviä ominaisuuksia ja näistä omi-
naisuuksista muodostetaan arviointimatriisiin kriteerit, joille sitten luodaan osaamista määrittä-
vät suoritustasojen kuvaukset. 
Tässä tutkimuksessa arviointimatriisin kriteerien luomisessa mukailtiin sekä ylhäältäpäin oh-
jattua että alhaaltapäin ohjattua lähestymistapaa (Brookhart 2013). Deduktiivista lähestymista-
paa mukaillen matriisin kriteerien luomisessa käytettiin pääasiassa kolmea eri aineistoa. Maan-
tieteen ylioppilaskokeiden hyvän vastauksen piirteiden yleisestä osasta käytettiin erityisesti 
Vastausten arvioinnin lähtökohtia -osiota, jossa määritellään pisteityksen kannalta keskeisiä 
vastauksen ominaisuuksia (Hyvän vastauksen piirteet: FI – Maantiede 2023). Lukion opetus-
suunnitelman perusteista (2019) hyödynnettiin maantieteen osiossa kerrottuja maantieteen ope-
tuksen yleisiä tavoitteita sekä osiota, joka käsittelee maantieteen arviointia lukiossa. Reaaliai-
neiden kokeiden määräyksistä ja ohjeista (2022) huomioitiin erityisesti kokeiden arvostelua kä-
sittelevä osio, jossa määritellään vastauksen kypsyyttä osoittavia tekijöitä. Mainittujen aineis-
tojen lisäksi kriteerien luomisessa hyödynnettiin myös ensimmäisessä arviointivaiheessa teh-
tyjä havaintoja vastausten arvioinnista ja siihen liittyvistä haasteista (ks. luku 3.3.1). Näin kri-
teerien luomisessa hyödynnettiin siis myös arvioitavia suorituksia, jolloin kriteerien luomisessa 
mukailtiin myös Brookhartin (2013) kuvaamaa induktiivista lähestymistapaa.  
Myös kriteerien suoritustasojen kuvauksien luomisessa sovellettiin sekä ylhäältä- että alhaalta-
päin ohjattua arviointimatriisin luomistapaa (Brookhart 2013). Teoriaperustana kuvauksien luo-
misessa hyödynnettiin SOLO-taksonomiaa eli oppimisen arviointiin käytettyä viisiportaista 
mallia (Biggs & Collis 1982). SOLO-taksonomian mukaisesti matriisiin tehtiin viisiportainen 
vastausten luokitteluasteikko, minkä lisäksi taksonomiaa hyödynnettiin osittain myös kriteerien 
suoritustasojen kuvausten laatimisessa. Suoritustasojen laatimisessa hyödynnettiin myös mui-
den reaaliaineiden, kuten filosofian ja psykologian, ylioppilaskokeiden arvioinnissa käytettäviä 
kriteeritaulukoita ja niissä esitettyjä kuvauksia eri tasoisista suorituksista (Hyvän vastauksen 
20 
 
piirteet: FI – Filosofia 2024; Hyvän vastauksen piirteet: FI – Psykologia 2024). Matriisin kri-
teerien tavoin myös suoritustasojen kuvauksien laadinnassa käytettiin ensimmäisessä arvioin-
tivaiheessa tehtyjä havaintoja, jotka liittyivät vastausten arviointiin (ks. alaluku 3.3.1).  
Tutkimuksessa luotiin yleinen arviointimatriisi tehtäväkohtaisen arviointimatriisin sijaan, eli 
luodulla arviointimatriisilla on tarkoitus pystyä arvioimaan kaikkien maantieteen ylioppilas-
koetehtävien vastauksia (ks. Panadero & Jonsson 2020). Vaikka siis tutkimuksessa arvioitu 
vastausaineisto koostui vain yhden ylioppilaskoetehtävän vastauksista, arviointimatriisin luo-
misessa ei käytetty aineistona kyseisen tehtävän tehtävänantoa tai tehtäväkohtaisia pisteitysoh-
jeita, jotta valmiilla arviointimatriisilla pystyttäisiin arvioimaan mahdollisimman erilaisten teh-
tävien ja tehtävätyyppien vastauksia.  
Tutkimuksessa luodun arviointimatriisin tekijät kehittivät myös arviointimatriisin pisteitysstra-
tegian, eli samanlaista pisteitysstrategiaa ei käytetä esimerkiksi muiden oppiaineiden ylioppi-
laskokeiden arvioinnissa. Pisteitysstrategia perustuu arviointimatriisin soluihin kiinnitettyihin 
prosenttiosuuksiin. Arviointimatriisin kaikki viisi arviointikriteeriä on jaettu viiteen suoritusta-
son kuvaukseen. Suoritustasojen kuvauksiin on kiinnitetty heikoimmasta suoritustasosta par-
haimpaan prosenttiosuudet 0, 5, 10, 15 ja 20. Vastaukselle annetaan siis jokaisesta kriteeristä 
tietty prosenttiosuus vastausta kuvaavan suoritustason mukaan, ja vastaukselle on mahdollista 
antaa tietystä kriteeristä enintään 20 %. Vastaukselle annettava pistemäärä muodostuu, kun kai-
kista kriteereistä vastaukselle annetut prosenttiosuudet lasketaan yhteen ja saadulla prosentti-
osuudella kerrotaan tehtävän enimmäispistemäärä. Ylioppilaskokeille ominaiseen tapaan arvi-
ointimatriisilla voi antaa vain kokonaispisteitä, joten pisteiden pyöristäminen tapahtuu pyöris-
tyssääntöjen mukaisesti. 
Luotu arviointimatriisi muodostuu viidestä kriteeristä, näille kriteereille muodostetuista suori-
tustasojen kuvauksista sekä arvioitavan suorituksen pisteitykseen liittyvistä prosenttiosuuksista 
(taulukko 3). Arviointimatriisi edustaa analyyttista matriisityyppiä, eli jokainen kriteeri arvioi-
daan vastauksen arvioinnin aikana erikseen (Brookhart 2013). 
 
 
 
 
21 
 
Taulukko 3. Tutkimuksessa luotu arviointimatriisi. 
 
0 % 5 % 10 % 15 % 20 %
Tehtävänannon 
noudattaminen: 
sisältöjen osuvuus, 
tehtävänannon mukainen 
tarkastelutapa, vastauksen 
esitystapa 
Vastaus ei vastaa 
tehtävänantoon; tehtävä on 
ymmärretty ratkaisevasti 
väärin. Tehtävänannon 
mukaista tarkastelutapaa 
tai esitystapaa ei 
noudateta.
Vastaus on osin 
tehtävänannon mukainen, 
mutta se on heikosti 
rajattu, epäselvä tai 
harhaileva. Vastaus- tai 
tarkastelutapa ei ole täysin 
tehtävänannon mukainen 
tai vastaus on tehtävän 
laajuuteen nähden hyvin 
suppea.
Vastauksen sisältö sekä 
tarkastelu- ja vastaustapa 
ovat pääosin 
tehtävänannon mukaisia. 
Vastauksessa voi olla 
pienissä määrin 
epäolennaisuuksia 
tehtävänannon kannalta. 
Vastauksessa ilmenee 
selkeä ymmärrys 
tehtävänannosta ja sen 
rajauksesta, ja pääosa 
vastauksen sisällöistä on 
olennaisia. 
Vastauksessa ilmenee 
erinomainen ymmärrys 
tehtävänannon rajauksesta 
ja se käsittelee kattavasti 
ja harkitusti olennaiset 
asiat. Vastauksessa ei ole 
tehtävänannon kannalta 
epäoleellisia asioita.
Sisällöt: huomioiden 
määrä, oikeellisuus ja 
perustelut
Vastaus sisältää pääasiassa 
vain virheellistä sisältöä. 
Vastauksessa on 
yksittäisiä oikein kuvattuja 
sisältöjä, joista osalle 
saatetaan esittää niukat 
perustelut. Useita 
huomioita sisältävässä 
vastauksessa voi olla 
muutamia asiavirheitä.
Vastauksessa on muutamia 
oikein kuvattuja sisältöjä 
perusteluineen tai useita 
hatarasti perusteltuja 
sisältöjä. Vastaus voi 
sisältää yhden asiavirheen 
tai jonkin verran 
epätäsmällisyyttä. 
Vastauksessa on muutamia 
syvällisesti ja 
virheettömästi käsiteltyjä 
ja perusteltuja sisältöjä tai 
useita virheettömiä 
sisältöjä, joiden perustelut 
ovat oikein mutta 
pinnallisempia. 
Vastauksessa voi olla 
lievää epätäsmällisyyttä 
mutta ei varsinaisia 
virheitä.
Vastauksessa on kattavasti 
tehtävänannon mukaisia 
sisältöjä, joista kaikki on 
virheettömästi, osuvasti ja 
tarkoituksenmukaisesti 
perusteltu. Vastauksessa ei 
ole asiavirheitä eikä 
epätäsmällisyyttä.
Maantieteellinen 
tarkastelu- ja 
jäsentelytapa: 
maantieteen näkökulmien 
hallinta, vastauksen 
looginen eteneminen ja 
rakenne
Vastauksessa ei ole 
olennaisia näkökulmia. 
Rakenne on hajanainen ja 
sekava. Vastaus voi olla 
tehtävänantoon nähden 
hyvin suppea.
Vastaus sisältää joitain 
olennaisia näkökulmia, 
mutta se on poukkoileva ja 
epätasapainoinen.  
Vastauksen rakenne on  
puutteellinen ja 
eteneminen epäloogista.
Vastaus on jäsennelty 
päänäkökulmien 
mukaisesti. Rakenne on 
pääosin selkeä, mutta 
vastaus ei välttämättä 
etene loogisesti tai siinä 
voi olla muita pieniä 
rakenteellisia puutteita.
Vastaus on jäsennelty 
tehtävänantoon kuuluvien 
monipuolisten 
näkökulmien mukaisesti. 
Näkökulmia on liitetty 
toisiinsa jonkin verran. 
Rakenne on toimiva ja 
vastaus etenee loogisesti.
Vastaus on jäsennelty 
johdonmukaisesti niin, että 
siinä käsitellään 
monipuolisia näkökulmia 
sekä niiden välisiä 
vuorovaikutussuhteita. 
Vastauksessa otetaan 
tarvittaessa huomioon 
myös vaihtoehtoiset 
lähestymistavat. 
Vastauksen rakenne on 
eheä ja tasapainoinen. 
Käsitteet: täsmällinen 
käsitteenkäyttö sekä 
havaintojen kytkeminen 
maantieteellisiin ilmiöihin 
tai prosesseihin 
käsitteellistämällä 
Vastauksessa ei käytetä 
maantieteellisiä käsitteitä; 
vastaus on arkikielinen. 
Vastausta ei kytketä 
lainkaan maantieteellisiin 
ilmiöihin tai prosesseihin. 
Käsitteiden käytössä on 
selviä puutteita tai 
virheitä. Vastauksessa 
saatetaan mainita jokin 
maantieteellinen ilmiö tai 
prosessi.
Vastauksessa käytetään  
maantieteellisiä käsitteitä, 
mutta käsitteenkäytössä 
voi olla lieviä puutteita tai 
yksittäinen virhe. 
Vastauksessa viitataan 
pintapuolisesti johonkin 
maantieteelliseen ilmiöön 
tai prosessiin.
Vastauksessa käytetään 
keskeisiä aihepiirin 
käsitteitä, eikä varsinaisia 
virheitä ole. Vastauksessa 
hyödynnetään jotain 
maantieteellistä teoriaa, 
mutta vastauksen 
kytkeminen 
maantieteellisiin ilmiöihin 
tai prosesseihin jää 
kevyeksi.
Käsitteitä käytetään 
monipuolisesti, 
täsmällisesti ja 
huolellisesti. Vastauksessa 
käsiteltävät asiat on 
kytketty hyvin 
maantieteellisiin ilmiöihin 
ja prosesseihin. 
Viestinnän keinot: 
suomenkielinen asiateksti, 
paikannimistö, 
visualisointi, huolellisuus
Vastauksen ilmaisu on 
vaikeasti ymmärrettävää. 
Paikannimet on kirjoitettu 
kokonaan tai pääosin 
väärin.  
Vastaus on osittain 
puhekielinen, teksti on 
kömpelöä tai se sisältää 
paljon kielioppivirheitä. 
Paikannimistössä on 
paikoin asia- tai 
kirjoitusvirheitä. Vastaus 
voi olla tehtävänantoon 
nähden hyvin suppea tai 
viimeistelemätön.
Vastaus on pääosin 
selkeää asiatekstiä, mutta 
siinä voi olla paikoitellen 
joitain kirjoitusvirheitä. 
Paikannimistössä voi olla 
pieniä kirjoitusvirheitä. 
Vastaus voi olla 
viimeistelemätön tai 
sisältää 
huolimattomuusvirheitä.
Vastaus on selkeää ja 
lähes virheetöntä 
asiatekstiä. Paikannimet 
on kirjoitettu pääosin 
oikein.
Vastaus on kirjoitusasun ja 
paikannimistön osalta 
täysin virheetöntä. Vastaus 
on erinomaista asiatekstiä 
ja se on esitystavaltaan 
huoliteltu.
22 
 
3.3.3 Tilastollinen tarkastelu 
Vastaukset ensimmäiseen ja toiseen tutkimuskysymykseen selvitettiin kvantitatiivisilla eli mää-
rällisillä tutkimusmenetelmillä, joilla siis tutkittiin, miten eri arviointimenetelmät eroavat toi-
sistaan tuotettujen pisteiden suhteen sekä miten yhdenmukaisesti arviointimatriisilla voidaan 
pisteittää maantieteen ylioppilaskoevastauksia. Aineiston tilastollinen tarkastelu suoritettiin 
IBM SPSS Statistics -tilastolaskentaohjelmalla (versio 29.0.0.). Tuloksia havainnollistavat ku-
vat tuotettiin Microsoft Excel -ohjelmalla sekä IBM SPSS Statistics -ohjelmalla. 
Ensimmäiseen tutkimuskysymykseen selvitettiin vastaus kuvailevan tilastoanalyysin (engl. 
descriptive statistics) avulla. Kuvailevan tilastoanalyysin tavoitteena on kuvailla ja tiivistää 
määrällisen muuttujan jakaumaa tekemättä kuitenkaan yleistyksiä perusjoukkoon (Tilastollinen 
päättely s.a.). Kuvailevalla tilastoanalyysilla tutkittiin pääasiassa niiden vastausten pisteitä, 
jotka arvioija 1 pisteitti arviointimatriisilla (n=60). Näistä vastauksista tarkasteltiin koko tehtä-
vän tasolla sekä osatehtäväkohtaisesti niiden saamia alkuperäisiä sensoripisteitä eli nykyisillä 
arviointiohjeilla annettuja pisteitä ja arvioijan 1 antamia matriisipisteitä. Analyysissa selvitet-
tiin ja vertailtiin esimerkiksi aineiston keski- ja hajontalukuja. Tilastollisten tunnuslukujen li-
säksi eri arviointimenetelmien välisiä piste-eroja kuvattiin laatikko-jana-kuvioiden avulla.  
Kuvailevan tilastoanalyysin lisäksi tutkimuksessa selvitettiin eri arviointimenetelmillä saatujen 
pisteiden välisten erojen tilastollinen merkitsevyys. Pisteiden normaalijakautuneisuudet testat-
tiin ensin Shapiro-Wilkin testillä ryhmien välisten erojen tilastollista merkitsevyyttä testaavan 
testin valintaa varten (Hypoteesien testaus… 2014). Shapiro-Wilkin testin mukaan pisteaineis-
tot noudattivat normaalijakaumaa, joten pisteiden välisten erojen tilastollinen merkitsevyys tes-
tattiin käyttämällä parametrista riippuvien ryhmien t-testiä eli parittaista t-testiä. Tämän tutki-
muksen tilastollisten testien riskitasona käytettiin tieteellisessä tutkimuksessa yleisesti hyväk-
syttyä riskitasoa 0,05 (Vilkka 2007).  
Toiseen tutkimuskysymykseen selvitettiin vastaus tilastollisten testien ja havainnollistavien ku-
vaajien avulla, eli arviointimatriisilla toteutetun arvioinnin yhdenmukaisuuden selvittämiseksi 
tarkasteltiin arvioijien antamien rinnakkaisten pisteiden välistä yhteyttä. Tutkimuksessa lasket-
tiin myös nykyisillä arviointiohjeilla toteutetun arvioinnin yhdenmukaisuutta kuvaavia tilastol-
lisia tunnuslukuja, jotta menetelmien arvioitsijareliabiliteettien keskinäinen vertailu olisi mah-
dollista. Arviointimatriisilla toteutetun arvioinnin yhdenmukaisuuden tarkastelu aloitettiin 
muodostamalla arviointimatriisilla tuotetuista pisteistä hajontakaaviot sekä arvioijien 1 ja 2 että 
arvioijien 1 ja 3 tuottamien pisteiden välille kuvaamaan pisteiden välistä riippuvuutta (Taanila 
23 
 
2022). Hajontakaavioon luotiin myös regressiosuora sekä regressiosuoran yhtälö, joiden avulla 
voitiin kuvata pisteiden välisen yhteyden suuntaa ja voimakkuutta (Kaakinen & Ellonen s.a.). 
Reliabiliteettia voidaan kuvata useilla tilastollisilla tunnusluvuilla (Brookhart & Chen 2017; 
Stemler 2004), ja tässä tutkimuksessa arviointimatriisilla toteutetun arvioinnin arvioitsijarelia-
biliteettia tarkasteltiin kolmen tilastollisen testin avulla. Ensin arvioijien antamien pisteiden vä-
lille laskettiin sisäkorrelaatiokerroin eli ICC-kerroin (engl. intraclass correlation coefficient), 
joka on tyypillinen arvioitsijareliabiliteettia kuvaava mittari (Graham ym. 2012). Se kuvaa, 
kuinka suuri osuus varianssista voidaan selittää ylemmän tason tekijöillä, eli tässä tutkimuk-
sessa se kuvaa, kuinka suuri osa pistemäärien varianssista selittyy sillä, kuka on arvioinut vas-
tauksen (Ellonen & Kaakinen s.a.). Kerroin voi saada arvoja väliltä 0–1 niin, että 1 kuvaa täy-
dellistä arvioinnin yhdenmukaisuutta (Graham ym. 2012). Sisäkorrelaatiokerroin sopii kuvaa-
maan reliabiliteettia erityisen hyvin jatkuvilla mitta-asteikoilla, mutta se soveltuu reliabiliteetin 
tarkasteluun hyvin myös silloin, kun diskreettejä arvoluokkia on riittävästi eli tyypillisesti vä-
hintään viisi. Tutkimuksessa tarkastellut pistemäärät olivat kokonaislukuja, mutta koska arvo-
luokkien lukumäärä määräytyi tehtävien enimmäispistemäärien mukaan ja oli jokaisessa osa-
tehtävässä enemmän kuin viisi, sisäkorrelaatiokerroin soveltui käytettäväksi tutkimuksessa. Si-
säkorrelaatiokerroin laskettiin myös nykyisillä arviointiohjeilla suoritetulle arvioinnille. 
Arvioinnin käyttötarkoitus vaikuttaa siihen, mikä reliabiliteettitaso voidaan hyväksyä riittävän 
luotettavaksi, eikä millekään reliabiliteettimittarille ole määritetty yksiselitteistä luotettavuuden 
raja-arvoa (Brookhart & Chen 2015; Graham 2012). Tyypillisesti sisäkorrelaatiokertoimen hy-
väksyttävä arvo eli arvioinnin riittävästä yhdenmukaisuudesta kertova arvo vaihtelee välillä 
0.8–0.9 (Graham 2012). Tässä tutkimuksessa sisäkorrelaatiokertoimen hyväksymisen alarajana 
käytettiin arvoa 0.8, ja korkeaksi reliabiliteetiksi luettiin arvo 0.9. Grahamin ym. (2012) mu-
kaan nämä arvot ovat asiantuntijoiden tyypillisesti käyttämiä kynnysarvoja riittävän yhdenmu-
kaiselle arvioinnille. Sisäkorrelaatiokertoimen lisäksi arviointimatriisilla tuotettujen pisteiden 
välistä korrelaatiota tarkasteltiin Pearsonin korrelaatiokertoimen avulla pisteaineistojen noudat-
taessa normaalijakaumaa. Pearsonin korrelaatiokerroin mittaa kahden muuttujan välisen line-
aarisen yhteyden voimakkuutta, ja se voi saada arvoja välillä -1 ja 1 niin, että 1 kuvaa täydellistä 
positiivista yhteyttä ja -1 täydellistä negatiivista yhteyttä (Kestilä-Kekkonen s.a.). 
Arvioijien tuottamille pisteille laskettiin myös arvioijien välistä yhdenmukaisuutta kuvaava 
prosenttiluku (engl. percent of exact agreement), joka on myös tyypillinen arvioitsijareliabili-
24 
 
teettia kuvaava tunnusluku (Graham 2012). Sillä kuvataan, kuinka suuri osuus pisteistä saa täy-
sin saman arvon eri arvioijilta (Brookhart & Chen 2017; Graham ym. 2012). Yhdenmukaisuutta 
kuvaavalla prosenttiluvulla kuvattiin tässä tutkimuksessa täsmälleen täysin saman pistemäärän 
saaneiden vastausten osuutta sekä sellaisten vastausten osuutta, joissa arvioijien tuottamien pis-
teiden välinen ero oli korkeintaan yhden pisteen. Prosenttiluku laskettiin SPSS-
tilastolaskentaohjelman Compute variable -toiminnon avulla. Yhdenmukaisuutta kuvaavat pro-
senttiluvut laskettiin sekä arviointimatriisin että nykyisten arviointiohjeiden avulla suoritetulle 
arvioinnille.  
3.3.4 Vastausten analysointi ja laadullinen sisällönanalyysi 
Tutkimuksen kolmannen tutkimuskysymyksen tarkoituksena oli selvittää, millaisissa vastauk-
sissa erot arviointimatriisiin ja nykyisiin arviointiohjeisiin perustuvissa pisteissä ovat suurim-
pia. Vastaus tutkimuskysymykseen saatiin vertaamalla eri arviointimenetelmillä tuotettuja pis-
teitä keskenään ja analysoimalla laadullisesti niiden vastausten ominaisuuksia, joissa piste-erot 
arviointimenetelmien välillä olivat suurimpia.  
Vastausten pisteissä esiintyvät arviointimenetelmien väliset erot selvitettiin ensin SPSS-
tilastolaskentaohjelman Compute variable -toiminnon avulla. Vastauksia tarkasteltiin osatehtä-
väkohtaisesti, eli piste-ero kuvaa, miten suuri ero osatehtävän vastauksen saamissa pisteissä oli 
arviointimatriisiin ja nykyisiin arviointiohjeisiin perustuvan pisteityksen välillä. Pisteistä tar-
kasteltiin vastauksen alkuperäisiä sensoripisteitä eli nykyisillä arviointiohjeilla tuotettuja pis-
teitä sekä arvioijan 1 arviointimatriisilla tuottamia pisteitä. Koska vastauksia tarkasteltiin osa-
tehtäväkohtaisesti ja arvioija 1 pisteitti arviointimatriisilla 60 kolmesta osatehtävästä koostuvaa 
vastausta, osatehtäväkohtaisia vastauksia oli tarkastelussa 180. Osatehtävien vastausten eri ar-
viointimenetelmillä saamien pisteiden välinen ero vaihteli välillä 0–4, ja koska tutkimuksen 
tarkoituksena oli tarkastella suurimman piste-eron saaneita vastauksia, laadulliseen analyysiin 
otettiin ne osatehtävien vastaukset, joissa piste-ero arviointimenetelmien välillä oli 3 tai 4 pis-
tettä. Vastauksia tarkasteltiin kahdessa osassa eli jakamalla osatehtävien vastaukset niihin, joi-
den pisteet arviointimatriisilla pisteitettynä laskivat sekä niihin, joissa pisteet nousivat. 
Menetelmänä vastausten analysoinnissa käytettiin teorialähtöistä laadullista sisällönanalyysia 
luokittelun keinoin. Laadullinen sisällönanalyysi on analyysimenetelmä, jonka tarkoituksena 
on tuottaa tutkittavasta ilmiöstä sanallinen ja selkeä kuvaus (Tuomi & Sarajärvi 2018). Teo-
rialähtöisessä sisällönanalyysissa analyysia ohjaa valmis analyysirunko tai käsitejärjestelmä, ja 
25 
 
analyysin ensimmäinen vaihe on analyysirungon luominen. Tässä tutkimuksessa vastausten tar-
kastelun analyysirunkona käytettiin muokattua versiota tutkimuksessa luodusta arviointimatrii-
sista (liite 2). Arviointimatriisia muokattiin sisällönanalyysia varten niin, että matriisin kritee-
rien kuvauksista muodostettiin vastausten analysointia ohjaava ja 12 osa-alueesta koostuva ana-
lyysirunko (taulukko 4). Vastausten analyysi toteutettiin luokittelun avulla, jonka voidaan kat-
soa olevan sisällön teemoihin kohdistuva kvantitatiivinen analyysi (Tuomi & Sarajärvi 2018). 
Vastaukset luokiteltiin analyysirungon osa-alueiden laatuluokkien (liite 2) mukaisesti ja luokit-
telun määrällisiä tuloksia tarkasteltiin analyysin tuloksia kuvaavien taulukoiden avulla. Luokit-
telun tuloksista tarkasteltiin erityisesti sitä, painottuivatko vastaukset jossain analyysirungon 
osa-alueessa erityisen heikkoihin tai laadukkaisiin laatuluokkiin. Näin selvitettiin, korostuiko 
jokin ominaisuus niissä tutkimuksen aineistoon kuuluvissa vastauksissa, joissa pisteet eri arvi-
ointimenetelmien välillä erosivat toisistaan paljon. 
Taulukko 4. Vastausten laadullisessa analyysissa käytetyn analyysirungon osa-alueet. Analyysirungon 
vasemmassa sarakkeessa on tutkimuksessa luodun arviointimatriisin kriteerit, ja oikeassa sarak-
keessa on kriteereistä erotetut osa-alueet. Osa-alueiden laatuluokat esitetään liitteessä 2.   
Arviointimatriisin kriteeri Kriteerin osa-alueet 
Tehtävänannon noudattaminen Sisältöjen osuvuus 
Tehtävänannon mukainen tarkastelutapa 
Vastauksen esitystapa 
Sisällöt Huomioiden määrä 
Huomioiden oikeellisuus 
Huomioiden perustelut 
Maantieteellinen tarkastelu- ja jäsentelytapa Maantieteen näkökulmien hallinta 
Vastauksen looginen eteneminen ja rakenne 
Käsitteet Täsmällinen käsitteiden käyttö 
Havaintojen kytkeminen maantieteellisiin ilmiöi-
hin tai prosesseihin 
Viestinnän keinot Suomenkielinen asiateksti 
Paikannimistö 
 
26 
 
4 Tulokset 
4.1 Arviointimenetelmän vaikutus pistemäärään 
4.1.1 Koko tehtävän tarkastelu 
Tutkimuksessa vertailtavat arviointimenetelmät tuottivat toisistaan eroavat pistejakaumat (kuva 
5; taulukko 5). Arvioija 1 tuotti arviointimatriisiin perustuvalla pisteitysmenetelmällä syste-
maattisesti alhaisempia pistemääriä kuin Ylioppilastutkintolautakunnan sensorit tuottivat sa-
moille vastauksille nykyisiin arviointiohjeisiin perustuvalla pisteitysmenetelmällä. Matriisiar-
vioinnilla tuotettujen pisteiden keskiarvo (13,12) oli nykyisillä arviointiohjeilla tuotettujen pis-
teiden keskiarvoa (15,82) huomattavasti vähemmän (taulukko 5). Vastaavasti myös pisteaineis-
tojen mediaanien ja moodien vertaaminen osoitti matriisiarvioinnilla tuotettujen pisteiden si-
joittuvan nykyisillä arviointiohjeilla tuotettuja pisteitä matalampiin pisteluokkiin. Pisteaineis-
tojen keskihajonnat eivät eronneet toisistaan huomattavasti. 
 
Kuva 5. Nykyisillä arviointiohjeilla tuotettujen sensoripisteiden pistejakauma sekä samoille vastauksille 
arvioijan 1 arviointimatriisilla tuottamien pisteiden pistejakauma (n=60). 
 
Taulukko 5. Nykyisillä arviointiohjeilla tuotettujen sensoripisteiden ja arvioijan 1 tuottamien matriisipis-
teiden tilastollisia tunnuslukuja (n=60). 
 Nykyisillä arviointiohjeilla 
tuotetut sensoripisteet 
Arvioijan 1 arviointimatriisilla 
tuottamat pisteet  
Aritmeettinen keskiarvo 15,82 13,12 
Mediaani 15,50 13,00 
Moodi 14 13 
Keskihajonta 6,163 6,143 
Minimiarvo 4 1 
Maksimiarvo 29 25 
V
as
ta
u
ks
en
 p
is
te
m
ää
rä
0
5
10
15
20
25
30
Nykyisillä arviointiohjeilla tuotetut sensoripisteet
Arvioijan 1 tuottamat matriisipisteet
27 
 
Parittaisen t-testin p-arvo oli tutkimuksen riskitasoa (0,05) pienempi (taulukko 6). Täten parit-
taisen t-testin mukaan eri arviointimenetelmillä tuotettujen pisteiden välinen ero oli tilastolli-
sesti merkitsevä. Se tarkoittaa, että tarkastelluilla arviointimenetelmillä tuotettujen pisteiden 
välinen ero ei todennäköisesti johtunut sattumasta, vaan arviointimatriisilla toteutetulla arvioin-
nilla saadaan yleisesti matalampia pisteitä kuin nykyisillä arviointiohjeilla. 
Taulukko 6. Parittaisen t-testin tulokset eri arviointimenetelmillä tuotettujen pisteiden välisten erojen 
tilastollisesta merkitsevyydestä (n=60). 
 Testimuuttujan 
arvo (t) 
Vapausasteiden  
lukumäärä (df) 
Testin p-arvo  
(2-suuntainen) 
Nykyisillä arviointiohjeilla tuotettujen 
sensoripisteiden ja arvioijan 1 tuotta-
mien matriisipisteiden parittainen t-
testi 
7,421 59 <0,001 
 
Myös arvioijien 2 ja 3 arviointimatriisilla tuottamat pisteet erosivat vastausten alkuperäisistä 
sensoripisteistä eli nykyisillä arviointiohjeilla tuotetuista pisteistä tilastollisesti merkitsevästi 
(kuva 6). Vastauksille annettiin arviointimatriisiin perustuvalla arvioinnilla keskimäärin vä-
hemmän pisteitä kuin nykyisiin arviointiohjeisiin perustuvalla arvioinnilla. Pistejakaumien me-
diaanit ja minimiarvot olivat molempien arvioijien matriisipisteissä matalammat kuin alkupe-
räisten sensoripisteiden vastaavat arvot, ja myös arvioijan 3 tuottamien matriisipisteiden mak-
simiarvo oli alkuperäisten sensoripisteiden maksimiarvoa matalampi.  
 
Kuva 6a. Arvioijan 2 arviointimatriisilla tuottamien pisteiden pistejakauma (n=30) sekä samoille vas-
tauksille nykyisillä arviointiohjeilla annettujen sensoripisteiden pistejakauma. Kuva 6b. Arvioijan 3 arvi-
ointimatriisilla tuottamien pisteiden pistejakauma (n=30) sekä samoille vastauksille nykyisillä arvioin-
tiohjeilla annettujen sensoripisteiden pistejakauma. 
  
  
  
  
  
  
  
  
 
  
  
 
 
  
  
  
  
  
 lkuperäinen sensoripisteitys
 rvioijan 2 tuottama matriisipisteitys
 
 
  
  
  
  
  
 lkuperäinen sensoripisteitys
 rvioijan 3 tuottama matriisipisteitysa) b) 
28 
 
4.1.2 Osatehtäväkohtainen tarkastelu 
Ylioppilastutkintolautakunnan sensorien antamat pisteet eli nykyisillä arviointiohjeilla tuotetut 
pisteet erosivat arvioijan 1 tuottamista matriisipisteistä myös osatehtäväkohtaisesti tarkastel-
tuna (taulukko 7). Osatehtävien 7.1 ja 7.2 vastauksille annettiin matriisiarvioinnilla keskimäärin 
vähemmän pisteitä kuin nykyisiin arviointiohjeisiin perustuvalla arvioinnilla. Ainoastaan osa-
tehtävän 7.3 pisteet nousivat arviointimatriisilla pisteitettynä hieman. Yksikään vastaus ei saa-
vuttanut missään osatehtävässä tehtävän enimmäispistemäärää arviointimatriisilla pisteitettynä, 
vaikka nykyisillä arviointiohjeilla arvioituna kaikissa osatehtävissä vähintään yksi vastaus saa-
vutti osatehtävän enimmäispistemäärän. 
Taulukko 7. Nykyisillä arviointiohjeilla tuotettujen sensoripisteiden ja arvioijan 1 tuottamien matriisipis-
teiden tilastollisia tunnuslukuja osatehtäväkohtaisesti (n=60). 
 Osatehtävä 7.1 Osatehtävä 7.2 Osatehtävä 7.3 
 Alku- 
peräinen 
sensori- 
arviointi 
Arvioijan 1 
tuottama 
matriisi- 
arviointi 
Alku- 
peräinen 
sensori- 
arviointi 
Arvioijan 1 
tuottama 
matriisi- 
arviointi 
Alku- 
peräinen 
sensori- 
arviointi 
Arvioijan 1 
tuottama 
matriisi- 
arviointi 
Keskiarvo 4,05 2,47 6,90 5,68 4,87 4,97 
Mediaani 4,00 2,50 7,00 6,00 4,00 5,00 
Moodi 3 3 10 5 3 5 
Keskihajonta 1,46 1,20 2,89 2,78 2,59 2,81 
Minimiarvo 1 0 0 0 1 0 
Maksimiarvo 6 5 12 11 12 11 
 
 
4.2 Arviointimenetelmien arvioitsijareliabiliteetit 
4.2.1 Arviointimatriisin arvioitsijareliabiliteetti 
Arvioijien 1 ja 2 arviointimatriisilla antamien tehtävän 7 kokonaispisteiden vertaaminen osoitti, 
että arvioijat pisteittivät vastauksia melko yhdenmukaisesti, mutta arvioija 1 antoi systemaatti-
sesti hieman matalampia pisteitä kuin arvioija 2 (kuva 7). Arvioijien välinen piste-ero oli riip-
pumaton vastauksen tasosta, eli arvioija 1 antoi keskimäärin arvioijaa 2 matalampia pisteitä 
sekä heikko- että korkealaatuisissa vastauksissa. 
29 
 
 
Kuva 7. Arvioijien 1 ja 2 arviointimatriisilla tuottamat pisteet hajontakaaviossa (n=30) sekä kaavioon 
sovitettu regressiosuora yhtälöineen. Punaisen vertailusuoran yhtälö on y=x eli se kuvaa tilannetta, 
jossa arvioijien antamat pisteet vastaisivat toisiaan täysin. R2 Linear tarkoittaa regressiomallin seli-
tysastetta. 
 
Sisäkorrelaatiokertoimella mitattuna arvioijien 1 ja 2 välinen yhdenmukaisuus oli arviointimat-
riisilla toteutetussa arvioinnissa pääasiassa erinomaista (taulukko 8). Arvioijien 1 ja 2 välinen 
sisäkorrelaatiokerroin (0,967) tehtävän kokonaispisteitä tarkasteltaessa kuvaa erinomaista ar-
vioitsijareliabiliteettia arvioijien välillä. Myös osatehtävissä 7.2 ja 7.3 arvioijien välinen arvioit-
sijareliabiliteetti oli korkea. Sisäkorrelaatiokertoimen matalin arvo (0,843) arvioijien 1 ja 2 vä-
lillä oli osatehtävässä 7,1, mutta myös se voitiin laskea riittävän hyväksi sen ylittäessä tutki-
mukseen valitun raja-arvon 0,8. Sisäkorrelaatiokertoimen luottamusväli oli erityisen suuri osa-
tehtävässä 7.1, mikä viittaa suurempaan pisteiden väliseen vaihteluun kyseisessä osatehtävässä. 
Arvioijien 1 ja 2 tuottamien kokonaispisteiden välinen Pearsonin korrelaatiokerroin oli 0,966 
ja testin p-arvo oli alle 0,001. Testin mukaan arvioijien antamien pisteiden välillä oli siis erittäin 
vahva ja tilastollisesti merkitsevä positiivinen riippuvuus. 
Taulukko 8. Arvioijien 1 ja 2 arviointimatriisilla tuottamien pisteiden välinen sisäkorrelaatiokerroin osa-
tehtäväkohtaisesti ja koko tehtävän tasolla (n=30). 
 Arvioijan 1 ja arvioijan 2 
tuottamien pisteiden väli-
nen sisäkorrelaatioker-
roin 
Sisäkorrelaatiokertoimen 95 %:n  
luottamusväli 
Sisäkorrelaatio- 
kertoimen tulkinta 
alaraja yläraja 
Osatehtävä 7.1 0,843 0,403 0,942 hyväksyttävä 
Osatehtävä 7.2 0,943 0,825 0,977 korkea 
Osatehtävä 7.3 0,970 0,935 0,986 korkea 
Koko tehtävä 0,967 0,787 0,989 korkea 
 
30 
 
Myös arvioijat 1 ja 3 pisteittivät vastauksia arviointimatriisilla melko yhdenmukaisesti (kuva 
8). Arvioija 3 antoi heikkolaatuisille vastauksille keskimäärin hieman enemmän pisteitä ja kor-
kealaatuisille vastauksille hieman vähemmän pisteitä kuin arvioija 1. 
 
Kuva 8. Arvioijien 1 ja 3 arviointimatriisilla tuottamat pisteet hajontakaaviossa (n=30) sekä kaavioon 
sovitettu regressiosuora yhtälöineen. Punaisen vertailusuoran yhtälö on y=x, eli se kuvaa tilannetta, 
jossa arvioijien antamat pisteet vastaisivat toisiaan täysin. R2 Linear tarkoittaa regressiomallin seli-
tysastetta. 
 
Arvioijien 1 ja 3 arviointimatriisilla tuottamien pisteiden välinen sisäkorrelaatiokerroin ylitti 
jokaisessa osatehtävässä sekä tehtävän kokonaispisteitä tarkasteltaessa tutkimuksessa käytetyn 
korkean reliabiliteetin kynnysarvon 0,9 (taulukko 9), joten arvioijien välinen yhdenmukaisuus 
oli sisäkorrelaatiokertoimella mitattuna erinomaista. Erityisen yhdenmukaista arviointi oli teh-
tävän kokonaispisteitä tarkasteltaessa, sillä arvioijien tuottamien kokonaispisteiden välinen si-
säkorrelaatiokerroin oli 0,953. Arvioijien 1 ja 3 arviointimatriisilla tuottamien pisteiden välinen 
Pearsonin korrelaatiokerroin oli 0,912 ja testin p-arvo oli alle 0,001. Täten Pearsonin korre-
laatioanalyysin mukaan arvioijien pisteiden välillä oli erittäin vahva ja tilastollisesti merkitsevä 
positiivinen riippuvuus. 
Taulukko 9. Arvioijien 1 ja 3 arviointimatriisilla tuottamien pisteiden välinen sisäkorrelaatiokerroin osa-
tehtäväkohtaisesti ja koko tehtävän tasolla (n=30). 
 Arvioijan 1 ja arvioijan 3 
tuottamien pisteiden väli-
nen sisäkorrelaatioker-
roin 
Sisäkorrelaatiokertoimen 95 %:n  
luottamusväli 
Sisäkorrelaatio- 
kertoimen tulkinta 
alaraja yläraja 
Osatehtävä 7.1 0,900 0,752 0,956 korkea 
Osatehtävä 7.2 0,906 0,803 0,955 korkea 
Osatehtävä 7.3 0,918 0,828 0,961 korkea 
Koko tehtävä 0,953 0,903 0,978 korkea 
31 
 
 
Arvioijien välinen yhdenmukaisuus oli arviointimatriisin avulla toteutetussa arvioinnissa melko 
matalaa, kun yhdenmukaisuutta tarkasteltiin täsmälleen saman pistemäärän saaneiden vastaus-
ten prosenttiosuuden mukaan (taulukko 10). Arvioijat 1 ja 2 antoivat täsmälleen saman piste-
määrän 10 %:lle vastauksista tehtävän kokonaispisteitä tarkasteltaessa, ja vastaava luku arvioi-
jien 1 ja 3 välillä oli 26,7 %. Arvioijien 1 ja 2 antamat pisteet vastasivat toisiaan eniten osateh-
tävässä 7.3, jossa 43,3 % vastauksista sai matriisilla arvioituna täysin saman pistemäärän. Ar-
vioijien 1 ja 3 antamien pisteiden yhdenmukaisuus oli suurinta osatehtävässä 7.1, jossa lähes 
puolet vastauksista (46,7 %) sai arvioijilta 1 ja 3 täysin saman pistemäärän. 
Taulukko 10. Arvioijien välistä yhdenmukaisuutta kuvaavat prosenttiluvut osatehtäväkohtaisesti ja 
koko tehtävän tasolla. Prosenttiluku kuvaa, kuinka suuri osuus vastauksista sai arvioijilta täysin saman 
pistemäärän arviointimatriisilla toteutetussa arvioinnissa. Osatehtävässä 7.1 enimmäispistemäärä oli 6 
pistettä ja muissa osatehtävissä 12 pistettä. 
 Arvioijan 1 ja arvioijan 2 tuottamien pis-
teiden välinen yhdenmukaisuus (n=30) 
Arvioijan 1 ja arvioijan 3 tuottamien pis-
teiden välinen yhdenmukaisuus (n=30) 
Osatehtävä 7.1 33,3 % 46,7 % 
Osatehtävä 7.2 23,3 % 20,0 % 
Osatehtävä 7.3 43,3 % 30,0 % 
Koko tehtävä 10,0 % 26,7 % 
 
Arvioijien yhdenmukaisuutta kuvaavat prosenttiluvut ovat huomattavasti korkeammat, kun ar-
vioijien antamien pisteiden välillä hyväksytään yhden pisteen ero (taulukko 11). Osatehtävä-
kohtaisesti tarkasteltuna kaikki yhdenmukaisuutta kuvaavat prosenttiluvut ovat vähintään 70,0 
%, eli suuressa osassa osatehtävien vastauksia arvioijien antamat pisteet erosivat toisistaan kor-
keintaan yhdellä pisteellä. Koko tehtävän pisteet erosivat toisistaan korkeintaan yhdellä pis-
teellä hieman alle puolella (46,7 %) vastauksista arvioijien 1 ja 2 välillä ja tasan puolella (50,0 
%) arvioijien 1 ja 3 välillä. 
Taulukko 11. Arvioijien välistä yhdenmukaisuutta kuvaavat prosenttiluvut osatehtäväkohtaisesti ja 
koko tehtävän tasolla, kun pisteiden välillä sallittiin yhden pisteen ero. Prosenttiluku kuvaa, kuinka 
suuressa osassa vastauksia arvioijien antamat pisteet erosivat toisistaan korkeintaan yhdellä pisteellä. 
Osatehtävässä 7.1 enimmäispistemäärä oli 6 pistettä ja muissa osatehtävissä 12 pistettä. 
 Arvioijan 1 ja arvioijan 2 tuottamien pis-
teiden välinen yhdenmukaisuus, ero pis-
teissä ≤1 (n=30) 
Arvioijan 1 ja arvioijan 3 tuottamien pis-
teiden välinen yhdenmukaisuus, ero pis-
teissä ≤1  (n=30) 
Osatehtävä 7.1 86,7 % 96,7 % 
Osatehtävä 7.2 80,0 % 70,0 % 
Osatehtävä 7.3 90,0 % 80,0 % 
Koko tehtävä 46,7 % 50,0 % 
 
32 
 
4.2.2 Nykyisten arviointiohjeiden arvioitsijareliabiliteetti 
Sisäkorrelaatiokertoimella mitattuna arvioijan 2 nykyisillä arviointiohjeilla antamat pisteet oli-
vat jokaisessa osatehtävässä hyväksyttävällä tasolla yhdenmukaiset vastausten alkuperäisten 
sensoripisteiden kanssa (taulukko 12). Tehtävän kokonaispisteitä tarkasteltaessa yhdenmukai-
suus arvioijan 2 antamien pisteiden ja alkuperäisten sensoripisteiden välillä oli erinomaista.  
Taulukko 12. Arvioijan 2 nykyisillä arviointiohjeilla tuottamien pisteiden ja alkuperäisten sensoripistei-
den välinen sisäkorrelaatiokerroin osatehtäväkohtaisesti ja koko tehtävän tasolla (n=40). 
 Arvioijan 2 tuottamien  
pisteiden ja alkuperäisten 
sensoripisteiden välinen  
sisäkorrelaatiokerroin 
Sisäkorrelaatiokertoimen 95 %:n  
luottamusväli 
Sisäkorrelaatio- 
kertoimen tulkinta 
 
alaraja 
 
yläraja 
Osatehtävä 7.1 0,840 0,698 0,916 hyväksyttävä 
Osatehtävä 7.2 0,886 0,786 0,940 hyväksyttävä 
Osatehtävä 7.3 0,887 0,785 0,940 hyväksyttävä 
Koko tehtävä 0,935 0,879 0,966 korkea 
 
Arvioijan 3 nykyisillä arviointiohjeilla antamien pisteiden ja alkuperäisten sensoripisteiden vä-
linen arvioitsijareliabiliteetti oli pääasiassa korkea (taulukko 13). Sisäkorrelaatiokerroin oli kor-
kein tehtävän kokonaispisteitä tarkasteltaessa. Matalin sisäkorrelaatiokertoimen arvo arvioijan 
3 antamien pisteiden ja alkuperäisten sensoripisteiden välillä oli osatehtävässä 7.1 (0,854), 
mutta myös se voitiin hyväksyä tarpeeksi luotettavaksi tutkimuksen kynnysarvojen mukaan. 
Taulukko 13. Arvioijan 3 nykyisillä arviointiohjeilla tuottamien pisteiden ja alkuperäisten sensoripistei-
den välinen sisäkorrelaatiokerroin osatehtäväkohtaisesti ja koko tehtävän tasolla (n=40). 
 
 
Arvioijan 3 tuottamien 
pisteiden ja alkuperäisten 
sensoripisteiden välinen  
sisäkorrelaatiokerroin 
Sisäkorrelaatiokertoimen 95 %:n  
luottamusväli 
Sisäkorrelaatio- 
kertoimen tulkinta 
 
alaraja 
 
yläraja 
Osatehtävä 7.1 0,854 0,725 0,922 hyväksyttävä 
Osatehtävä 7.2 0,937 0,881 0,967 korkea 
Osatehtävä 7.3 0,930 0,869 0,963 korkea 
Koko tehtävä 0,952 0,910 0,975 korkea 
 
Nykyisillä arviointiohjeilla suoritetun arvioinnin yhdenmukaisuus oli melko samankaltainen 
kuin matriisiarvioinnin yhdenmukaisuus, kun yhdenmukaisuutta tarkasteltiin täsmälleen saman 
pistemäärän saaneiden vastausten prosenttiosuuden mukaan (taulukko 14). Arvioijan 2 tuotta-
mat pisteet olivat yhdenmukaisimmat alkuperäisten sensoripisteiden kanssa osatehtävissä 7.1 
ja 7.2, joissa 35,0 % vastauksista sai arvioijilta täysin saman pistemäärän. Arvioijan 3 pisteet 
33 
 
vastasivat alkuperäisiä sensoripisteitä eniten osatehtävässä 7.3, jossa 42,5 % vastauksista sai 
arvioinneista täysin saman pistemäärän. Tehtävän kokonaispisteet vastasivat molemmilla ar-
vioijilla alkuperäisiä sensoripisteitä täysin viidessä vastauksessa (12,5 %). 
Taulukko 14. Arvioijien välistä yhdenmukaisuutta kuvaavat prosenttiluvut osatehtäväkohtaisesti ja 
koko tehtävän tasolla. Prosenttiluku kuvaa, kuinka suuri osuus vastauksista sai nykyisillä arviointioh-
jeilla toteutetussa arvioinnissa täysin saman pistemäärän verrattuna vastauksen alkuperäisiin sensori-
pisteisiin. Osatehtävässä 7.1 enimmäispistemäärä oli 6 pistettä ja muissa osatehtävissä 12 pistettä. 
 Arvioijan 2 tuottamien pisteiden ja alku-
peräisten sensoripisteiden välinen  
yhdenmukaisuus (n=40) 
Arvioijan 3 tuottamien pisteiden ja alku-
peräisten sensoripisteiden välinen  
yhdenmukaisuus (n=40) 
Osatehtävä 7.1 35,0 % 32,5 % 
Osatehtävä 7.2 12,5 % 25,0 % 
Osatehtävä 7.3 35,0 % 42,5 % 
Koko tehtävä 12,5 % 12,5 % 
 
Alkuperäiset sensoripisteet erosivat korkeintaan yhdellä pisteellä arvioijien 2 ja 3 antamista 
pisteistä yli puolessa vastauksista osatehtäväkohtaisesti tarkasteltuna, kun arviointi suoritettiin 
nykyisten arviointiohjeiden mukaan (taulukko 15). Eniten pisteet vastasivat toisiaan osatehtä-
vässä 7.1, jossa molempien arvioijien pisteet erosivat alkuperäisistä sensoripisteistä korkeintaan 
yhdellä pisteellä yli 80 %:ssa vastauksista. Tehtävän kokonaispisteitä tarkasteltaessa arvioijien 
2 ja 3 antamat pisteet erosivat yli yhdellä pisteellä vastauksen alkuperäisistä sensoripisteistä yli 
puolessa vastauksista. 
Taulukko 15. Arvioijien välistä yhdenmukaisuutta kuvaavat prosenttiluvut osatehtäväkohtaisesti ja 
koko tehtävän tasolla, kun pisteiden välillä sallittiin yhden pisteen ero. Prosenttiluku kuvaa, kuinka 
suuri osuus vastauksista sai nykyisillä arviointiohjeilla toteutetussa arvioinnissa korkeintaan yhdellä 
pisteellä eroavan pistemäärän verrattuna vastauksen alkuperäisiin sensoripisteisiin. Osatehtävässä 
7.1 enimmäispistemäärä oli 6 pistettä ja muissa osatehtävissä 12 pistettä. 
 Arvioijan 2 tuottamien pisteiden ja alku-
peräisten sensoripisteiden välinen  
yhdenmukaisuus, ero pisteissä ≤1 (n=40) 
Arvioijan 3 tuottamien pisteiden ja alku-
peräisten sensoripisteiden välinen  
yhdenmukaisuus, ero pisteissä ≤1 (n=40) 
Osatehtävä 7.1 87,5 % 82,5 % 
Osatehtävä 7.2 52,5 % 72,5 % 
Osatehtävä 7.3 67,5 % 75,0 % 
Koko tehtävä 40,0 % 47,5 % 
 
Tutkimuksen aineistoon kuului 10 vastausta, jotka kaikki tutkimuksen arvioijat pisteittivät ny-
kyisillä arviointiohjeilla. Lähes kaikissa näissä vastauksissa arvioijien antamat pistemäärät ero-
sivat toisistaan ja vastauksen alkuperäisistä sensoripisteistä, kun tarkasteltiin osatehtävien pis-
teistä koostuvaa tehtävän kokonaispistemäärää (enimmillään 30) (kuva 9). Ainoastaan yhdessä 
vastauksessa kaikki neljä arvioijaa antoivat vastaukselle saman kokonaispistemäärän. Kol-
messa vastauksessa kaikki arvioijat antoivat vastaukselle eri kokonaispistemäärän. Suurin ero 
34 
 
kahden arvioijan tuottamissa kokonaispisteissä oli neljännessä vastauksessa, jossa alkuperäiset 
sensoripisteet erosivat arvioijan 3 antamasta pistemäärästä seitsemällä pisteellä. 
 
Kuva 9. Kymmenen vastauksen alkuperäiset sensoripisteet ja tutkimuksen arvioijien nykyisillä arvioin-
tiohjeilla vastauksille antamat pisteet tehtävän kokonaispistemäärää tarkasteltaessa, kun tehtävän 
enimmäispistemäärä oli 30. 
 
4.3 Arviointimatriisin kriteerikohtainen reliabiliteetti 
Arvioinnin yhdenmukaisuudessa ei ilmennyt huomattavia eroja arviointimatriisin eri kriteerien 
välillä, ja yhdenmukaisuus vaihteli jokaisessa kriteerissä eri osatehtävien välillä (taulukko 16). 
Arvioinnin yhdenmukaisuus oli keskimäärin korkeinta kriteerissä ”Maantieteellinen tarkastelu 
ja jäsentely” sekä arvioijien 1 ja 2 että arvioijien 1 ja 3 välillä.  
Taulukko 16. Arvioijien kriteerikohtaista yhdenmukaisuutta kuvaavat prosenttiluvut osatehtäväkohtai-
sesti. Prosenttiluku kuvaa, kuinka suuri osa osatehtävän vastauksista sai arvioijilta täysin saman arvi-
oinnin arviointimatriisin kriteerissä. 
 Arvioijan 1 ja arvioijan 2  
yhdenmukaisuus kriteereittäin (n=30) 
Arvioijan 1 ja arvioijan 3  
yhdenmukaisuus kriteereittäin (n=30) 
Osa- 
tehtävä 7.1 
Osa- 
tehtävä 7.2 
Osa- 
tehtävä 7.3 
Osa- 
tehtävä 7.1 
Osa- 
tehtävä 7.2 
Osa- 
tehtävä 7.3 
Tehtävänannon  
noudattaminen 
46,7 % 50,0 % 60,0 % 63,3 % 53,3 % 50,0 % 
Sisällöt 
 
36,7 % 73,3 % 70,0 % 50,0 % 60,0 % 60,0 % 
Maantieteellinen  
tarkastelu ja jäsentely 
50,0 % 70,0 % 76,7 % 63,3 % 50,0 % 70,0 % 
Käsitteet 
 
43,3 % 66,7 % 63,3 % 50,0 % 36,7 % 50,0 % 
Viestinnän  
keinot 
36,7 % 73,3 % 63,3 % 56,7 % 50,0 % 50,0 % 
 
0
5
10
15
20
25
30
1 2 3 4 5 6 7 8 9 10V
as
ta
u
ks
en
 s
aa
m
a 
p
is
te
m
ää
rä
Arvioidut vastaukset
Alkuperäinen sensoripisteitys Arvioija 1 Arvioija 2 Arvioija 3
35 
 
4.4 Ominaisuuksia vastauksissa, joissa arviointimenetelmien välillä esiintyi 
piste-eroja 
4.4.1 Niiden vastausten ominaisuuksia, joiden pisteitä matriisiarviointi laski eniten 
Osatehtävien vastausten (n=180) alkuperäisten sensoripisteiden sekä arvioijan 1 arviointimat-
riisilla tuottamien pisteiden vertaaminen osoitti, että suuri osa osatehtävien vastauksista eli 114 
vastausta sai arviointimatriisilla toteutetussa arvioinnissa vähemmän pisteitä kuin nykyisillä ar-
viointiohjeilla toteutetussa arvioinnissa (taulukko 17). Suurin osatehtäväkohtainen piste-ero ar-
viointimenetelmien välillä oli neljä pistettä, ja laadullisessa analyysissa tarkasteltiin niitä vas-
tauksia, joiden pisteet erosivat eri arviointimenetelmillä pisteitettynä kolmella tai neljällä pis-
teellä. Laadullisesti tarkasteltiin siis 14 sellaista osatehtävän 7.1 vastausta ja 16 osatehtävän 7.2 
vastausta, joiden pisteet laskivat arviointimatriisilla arvioituna. Osatehtävässä 7.3 suurin piste-
määrän lasku oli kaksi pistettä (taulukko 17), minkä vuoksi osatehtävän vastaukset jäivät tar-
kastelun ulkopuolelle. 
Taulukko 17. Niiden osatehtävien vastausten lukumäärä pistemäärän laskun mukaisesti, joissa arvioi-
jan 1 antama arviointimatriisiin perustuva pistemäärä oli alhaisempi kuin nykyiseen pisteitysohjeeseen 
perustuva pistemäärä (n=114). Piste-ero kuvaa, kuinka monta pistettä vähemmän osatehtävän vas-
taus sai arviointimatriisilla arvioituna kuin nykyisillä arviointiohjeilla arvioituna. 
Laskevan pistemää-
rän piste-ero arvi-
ointimenetelmien 
välillä 
Osatehtävän 7.1 
vastaukset, joiden 
pistemäärä laski 
matriisiarvioinnissa 
(n=51) 
Osatehtävän 7.2 
vastaukset, joiden 
pistemäärä laski 
matriisiarvioinnissa 
(n=39) 
Osatehtävän 7.3 
vastaukset, joiden 
pistemäärä laski 
matriisiarvioinnissa 
(n=24) 
Vastausten 
määrä  
yhteensä 
(n=114) 
1 21 11 17 49 
2 16 12 7 35 
3 13 14 0 27 
4 1 2 0 3 
 
Puolet vastauksista käsitteli pääosin tai täysin tehtävänannon kannalta olennaisia asioita, kun 
tarkasteltiin niitä osatehtävien vastauksia, joiden matriisiarvioinnista saama pistemäärä oli vä-
hintään kolme pistettä nykyisiin arviointiohjeisiin perustuvaa pistemäärää alhaisempi (n=30) 
(taulukko 18). Sen sijaan suuressa osassa vastauksia ei noudatettu tehtävänannon mukaista tar-
kastelutapaa, mikä tarkoittaa, että vastauksista ei löytynyt esimerkiksi tehtävänannossa edelly-
tettyä vertailuasetelmaa. Vastaukset noudattivat pääasiassa hyvin tehtävissä pyydettyä essee-
mäistä esitystapaa. 
 
36 
 
Taulukko 18. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain tehtävänannon noudattami-
nen -kriteerissä, joiden pistemäärä laski eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioi-
tuna verrattuna nykyisiin arviointiohjeisiin (n=30). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä  
Tehtävänannon  
noudattaminen 
Sisältöjen osuvuus ei vastaa tehtävänantoon; tehtävä ymmärretty  
väärin 
3 
osin tehtävänannon mukainen; heikosti rajattu, 
epäselvä tai harhaileva 
4 
pääosin tehtävänannon mukainen; pienissä määrin 
epäolennaisuuksia  
8 
pääosa vastauksen sisällöistä on olennaisia 12 
käsittelee kattavasti ja harkitusti olennaiset asiat; ei 
tehtävänannon kannalta epäoleellisia asioita 
3 
Tehtävänannon  
mukainen tarkastelu-
tapa 
annettua tarkastelutapaa ei noudateta 5 
ei täysin tehtävänannon mukainen 6 
pääosin tehtävänannon mukainen 11 
selkeä ymmärrys tehtävänannosta 7 
erinomainen ymmärrys tehtävänannosta 1 
Vastauksen esitystapa annettua esitystapaa ei noudateta 1 
ei täysin tehtävänannon mukainen 5 
pääosin tehtävänannon mukainen 1 
selkeä ymmärrys esitystavasta 15 
erinomainen ymmärrys esitystavasta 8 
 
Sekä huomioiden määrä että oikeellisuus vaihtelivat tarkastelluissa vastauksissa paljon, ja suu-
rin osa vastauksista oli keskinkertaisia molemmissa osa-alueissa (taulukko 19). Sen sijaan huo-
mioiden perustelu oli vastauksissa hyvin puutteellista, ja suurimmassa osassa vastauksia esite-
tyt huomiot perusteltiin vain niukasti tai niitä ei perusteltu lainkaan.   
37 
 
Taulukko 19. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain sisällöt-kriteerissä, joiden 
pistemäärä laski eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna verrattuna nykyi-
siin arviointiohjeisiin (n=30). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä  
Sisällöt Huomioiden määrä - (pääasiassa vain virheellistä sisältöä) 2 
yksittäisiä oikein kuvattuja huomioita 8 
muutamia laajemmin käsiteltyjä huomioita/useita 
suppeammin käsiteltyjä huomioita  
16 
muutamia syvällisesti käsiteltyjä huomioita/useita 
pinnallisemmin käsiteltyjä huomioita 
2 
tehtävänannon mukaisia huomioita kattavasti 2 
Huomioiden oikeelli-
suus 
pääasiassa vain virheellistä sisältöä 2 
yksittäisiä oikein kuvattuja sisältöjä; jos useita huo-
mioita, voi olla muutamia asiavirheitä 
6 
yksi asiavirhe tai jonkin verran epätäsmällisyyttä 12 
lievää epätäsmällisyyttä; ei varsinaisia virheitä 7 
ei asiavirheitä tai epätäsmällisyyttä 3 
Huomioiden peruste-
lut 
huomioita ei perusteltu 6 
osalle huomioista voidaan esittää niukat perustelut 13 
muutamalla huomiolla tyydyttävät perustelut/use-
alla huomiolla hatarat perustelut 
9 
muutamia syvällisesti ja virheettömästi perustel-
tuja/useita pinnallisesti perusteltuja huomioita 
2 
huomiot perusteltu osuvasti, virheettömästi ja tar-
koituksenmukaisesti 
0 
 
Tarkastellut vastaukset olivat pääasiassa heikkoja maantieteellisen tarkastelu- ja jäsentelytavan 
näkökulmasta (taulukko 20). Maantieteellisten näkökulmien esittäminen oli suuressa osassa 
vastauksia niukkaa, minkä lisäksi vastaukset olivat rakenteeltaan pääosin puutteellisia tai epä-
loogisia.   
Taulukko 20. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain maantieteellinen tarkastelu- 
ja jäsentelytapa -kriteerissä, joiden pistemäärä laski eniten eli kolmella tai neljällä pisteellä arviointi-
matriisilla arvioituna verrattuna nykyisiin arviointiohjeisiin (n=30). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Maantieteellinen 
tarkastelu- ja  
jäsentelytapa 
Maantieteen näkökul-
mien hallinta 
ei olennaisia näkökulmia 4 
joitain olennaisia näkökulmia; epätasapainoinen 
vastaus 
17 
jäsennelty päänäkökulmien mukaisesti 8 
jäsennelty tehtävänantoon kuuluvien monipuolisten 
näkökulmien mukaisesti; näkökulmia liitetty toi-
siinsa 
1 
monipuoliset näkökulmat ja niiden väliset vuoro-
vaikutussuhteet kuvattu; johdonmukainen jäsentely 
0 
Vastauksen looginen 
eteneminen ja ra-
kenne 
rakenne hajanainen ja sekava/vastaus hyvin suppea 7 
puutteellinen rakenne, eteneminen epäloogista 8 
pääosin selkeä rakenne; joitain pieniä rakenteellisia 
puutteita tai ei etene täysin loogisesti 
14 
toimiva rakenne, etenee loogisesti 0 
eheä ja tasapainoinen rakenne 1 
 
38 
 
Käsitteiden käyttö oli tarkastelluissa vastauksissa pääasiassa hyvin puutteellista: valtaosassa 
vastauksia maantieteellisiä käsitteitä ei käytetty lainkaan tai niitä käytettiin joko hyvin vähän 
tai virheellisesti (taulukko 21). Vastauksissa esitetyt havainnot kytkettiin vain harvoin maan-
tieteellisiin ilmiöihin ja prosesseihin, ja pääasiassa kytkeminen jäi vain maininnan tasolle. 
Taulukko 21. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain käsitteet-kriteerissä, joiden 
pistemäärä laski eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna verrattuna nykyi-
siin arviointiohjeisiin (n=30). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Käsitteet Täsmällinen  
käsitteiden käyttö 
ei käytetä käsitteitä; arkikielinen vastaus 9 
käsitteidenkäytössä selviä puutteita tai virheitä 14 
käsitteitä käytetään; käytössä lieviä puutteita tai 
yksittäinen virhe 
5 
käytetään keskeisiä käsitteitä; ei varsinaisia vir-
heitä 
2 
käsitteitä käytetään monipuolisesti, täsmällisesti ja 
huolellisesti 
0 
Havaintojen  
kytkeminen maantie-
teellisiin ilmiöihin tai 
prosesseihin  
ei kytketä lainkaan ilmiöihin tai prosesseihin 11 
saatetaan mainita jokin ilmiö tai prosessi 13 
viitataan pintapuolisesti ilmiöön tai prosessiin 4 
hyödynnetään maantieteellistä teoriaa; kytkeminen 
ilmiöidin ja prosesseihin kevyttä 
2 
asiat kytketty hyvin ilmiöihin ja prosesseihin 0 
 
Suomenkielisen asiatekstin laatu vaihteli tarkastelluissa vastauksissa jonkin verran, mutta suuri 
osa vastauksista oli pääosin selkeää asiatekstiä (taulukko 22). Paikannimistön esittämistä arvi-
oitiin vain osatehtävän 7.2 vastauksista, sillä vain kyseisessä osatehtävässä edellytettiin paikan-
nimistön käyttöä. Tarkastelluissa vastauksissa paikannimistöä käytettiin pääasiassa oikein ja 
asianmukaisesti. 
Taulukko 22. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain viestinnän keinot -kritee-
rissä, joiden pistemäärä laski eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna ver-
rattuna nykyisiin arviointiohjeisiin. 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Viestinnän keinot Suomenkielinen asia-
teksti (n=30) 
ilmaisu vaikeasti ymmärrettävää 1 
osittain puhekielinen/kömpelö/paljon kielioppivir-
heitä 
8 
pääosin selkeää asiatekstiä; voi olla paikoitellen 
kirjoitusvirheitä 
12 
selkeää ja lähes virheetöntä asiatekstiä 9 
kirjoitusasu täysin virheetön 0 
Paikannimistö (n=16) paikannimet kirjoitettu kokonaan tai pääosin väärin 1 
paikannimissä paikoin asia- tai kirjoitusvirheitä 0 
paikannimissä pieniä kirjoitusvirheitä 2 
paikannimet kirjoitettu pääosin oikein 5 
paikannimet kirjoitettu virheettömästi 8 
 
39 
 
4.4.2 Niiden vastausten ominaisuuksia, joiden pisteitä matriisiarviointi nosti eniten 
Tutkimuksessa tarkasteltuihin osatehtävien vastauksiin (n=180) kuului yhteensä vain seitsemän 
vastausta, joiden pisteet nousivat kolmella tai neljällä pisteellä arviointimatriisilla arvioituna 
(taulukko 23). Siten laadullisesti analysoitiin yhtä osatehtävän 7.2 vastausta ja kuutta osatehtä-
vän 7.3 vastausta. 
Taulukko 23. Niiden osatehtävien vastausten lukumäärä pistemäärän nousun mukaisesti, joissa arvioi-
jan 1 antama arviointimatriisiin perustuva pistemäärä oli korkeampi kuin nykyiseen pisteitysohjeeseen 
perustuva pistemäärä (n=28). Piste-ero kuvaa, kuinka monta pistettä enemmän osatehtävän vastaus 
sai arviointimatriisilla arvioituna kuin nykyisillä arviointiohjeilla arvioituna. 
Nousevan pistemää-
rän piste-ero arvi-
ointimenetelmien 
välillä 
Osatehtävän 7.1 
vastaukset, joiden 
pistemäärä nousi 
matriisiarvioinnissa 
(n=1) 
Osatehtävän 7.2 
vastaukset, joiden 
pistemäärä nousi 
matriisiarvioinnissa 
(n=7) 
Osatehtävän 7.3 
vastaukset, joiden 
pistemäärä nousi 
matriisiarvioinnissa 
(n=20) 
Vastausten 
määrä 
 yhteensä 
(n=28) 
1 1 3 10 14 
2 0 3 4 7 
3 0 1 5 6 
4 0 0 1 1 
 
Vastaukset, joiden pisteet nousivat arviointimatriisilla pisteitettynä eniten, noudattivat tehtä-
vänantoa erinomaisesti (taulukko 24). Kaikissa tarkastelluissa vastauksissa esitettiin siis täysin 
tai pääasiassa tehtävänannon kannalta olennaisia asioita ja tehtävänannon mukaista tarkastelu-
tapaa noudatettiin hyvin. Erityisesti tehtävänannossa edellytettyä esseemäisitä vastaustapaa 
noudatettiin vastauksissa erinomaisesti. 
40 
 
Taulukko 24. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain tehtävänannon noudattami-
nen -kriteerissä, joiden pistemäärä nousi eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvi-
oituna verrattuna nykyisiin arviointiohjeisiin (n=7). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Tehtävänannon nou-
dattaminen 
Sisältöjen osuvuus ei vastaa tehtävänantoon; tehtävä ymmärretty vää-
rin 
0 
osin tehtävänannon mukainen; heikosti rajattu, epä-
selvä tai harhaileva 
0 
pääosin tehtävänannon mukainen; pienissä määrin 
epäolennaisuuksia  
0 
pääosa vastauksen sisällöistä on olennaisia 5 
käsittelee kattavasti ja harkitusti olennaiset asiat; ei 
tehtävänannon kannalta epäoleellisia asioita 
2 
Tehtävänannon mu-
kainen tarkastelutapa 
annettua tarkastelutapaa ei noudateta 0 
ei täysin tehtävänannon mukainen/vastaus hyvin 
suppea 
0 
pääosin tehtävänannon mukainen 1 
selkeä ymmärrys tehtävänannosta 4 
erinomainen ymmärrys tehtävänannosta 2 
Vastauksen esitystapa annettua esitystapaa ei noudateta 0 
ei täysin tehtävänannon mukainen 0 
pääosin tehtävänannon mukainen 0 
selkeä ymmärrys esitystavasta 2 
erinomainen ymmärrys esitystavasta 5 
 
Myös sisältöjen osalta vastaukset olivat pääasiassa laadukkaita (taulukko 25). Vastausten huo-
miot esitettiin pääasiassa ilman asiavirheitä tai epätäsmällisyyttä. Huomioiden sekä niille esi-
tettyjen perustelujen määrä ja laatu vaihtelivat vastauksissa, mutta kaikissa vastauksissa huo-
mioita esitettiin kohtuullinen määrä eikä yhdessäkään vastauksessa huomioita jätetty täysin pe-
rusteluitta. 
41 
 
Taulukko 25. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain sisällöt-kriteerissä, joiden 
pistemäärä nousi eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna verrattuna nykyi-
siin arviointiohjeisiin (n=7). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Sisällöt Huomioiden määrä - (pääasiassa vain virheellistä sisältöä) 0 
yksittäisiä oikein kuvattuja huomioita 0 
muutamia laajemmin käsiteltyjä huomioita/useita 
suppeammin käsiteltyjä huomioita  
3 
muutamia syvällisesti käsiteltyjä huomioita/useita 
pinnallisemmin käsiteltyjä huomioita 
2 
tehtävänannon mukaisia huomioita kattavasti 2 
Huomioiden oikeelli-
suus 
pääasiassa vain virheellistä sisältöä 0 
yksittäisiä oikein kuvattuja sisältöjä; jos useita huo-
mioita, voi olla muutamia asiavirheitä 
0 
yksi asiavirhe tai jonkin verran epätäsmällisyyttä 1 
lievää epätäsmällisyyttä; ei varsinaisia virheitä 3 
ei asiavirheitä tai epätäsmällisyyttä 3 
Huomioiden peruste-
lut 
huomioita ei perusteltu 0 
osalle huomioista voidaan esittää niukat perustelut 0 
muutamia huomioita perusteluineen/useita huomi-
oita hatarilla perusteluilla 
3 
muutamia syvällisesti ja virheettömästi perustel-
tuja/useita pinnallisesti perusteltuja huomioita 
3 
huomiot perusteltu osuvasti, virheettömästi ja tar-
koituksenmukaisesti 
1 
 
Maantieteellisten näkökulmien hallinta oli vastauksissa pääasiassa onnistunutta, ja kaikki vas-
taukset olivat vähintäänkin päänäkökulmien mukaisesti jäsennelty (taulukko 26). Vastaukset 
olivat rakenteeltaan enimmäkseen toimivia ja loogisesti eteneviä.  
Taulukko 26. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain maantieteellinen tarkastelu- 
ja jäsentelytapa -kriteerissä, joiden pistemäärä nousi eniten eli kolmella tai neljällä pisteellä arviointi-
matriisilla arvioituna verrattuna nykyisiin arviointiohjeisiin (n=7). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Maantieteellinen 
tarkastelu- ja jäsen-
telytapa 
Maantieteen näkökul-
mien hallinta 
ei olennaisia näkökulmia 0 
joitain olennaisia näkökulmia; poukkoileva ja epä-
tasapainoinen vastaus 
0 
jäsennelty päänäkökulmien mukaisesti 3 
jäsennelty tehtävänantoon kuuluvien monipuolisten 
näkökulmien mukaisesti; näkökulmia liitetty toi-
siinsa 
2 
monipuoliset näkökulmat ja niiden väliset vuoro-
vaikutussuhteet kuvattu; johdonmukainen jäsentely 
2 
Vastauksen looginen 
eteneminen ja ra-
kenne 
rakenne hajanainen ja sekava/vastaus hyvin suppea 0 
puutteellinen rakenne, eteneminen epäloogista 0 
pääosin selkeä rakenne; joitain pieniä rakenteellisia 
puutteita tai ei etene täysin loogisesti 
2 
toimiva rakenne, etenee loogisesti 5 
eheä ja tasapainoinen rakenne 0 
 
42 
 
Vastaukset sijoittuivat kolmeen parhaaseen laatuluokkaan myös käsitteet-kriteerin osa-alueissa 
(taulukko 27). Siten vastauksissa siis käytettiin maantieteellisiä käsitteitä pääasiassa asianmu-
kaisesti ja oikein, eikä yksikään tarkastelluista vastauksista ollut täysin arkikielinen. Vastauk-
sissa esitetyt huomiot kytkettiin myös pääasiassa maantieteelliseen teoriaan, vaikka osassa vas-
tauksista viittaaminen jäikin pintapuoliseksi. 
Taulukko 27. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain käsitteet-kriteerissä, joiden 
pistemäärä nousi eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna verrattuna nykyi-
siin arviointiohjeisiin (n=7). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Käsitteet Täsmällinen  
käsitteiden käyttö 
ei käytetä käsitteitä; arkikielinen vastaus 0 
käsitteidenkäytössä selviä puutteita tai virheitä 0 
käsitteitä käytetään; käytössä lieviä puutteita tai 
yksittäinen virhe 
3 
käytetään keskeisiä käsitteitä; ei varsinaisia vir-
heitä 
2 
käsitteitä käytetään monipuolisesti, täsmällisesti ja 
huolellisesti 
2 
Havaintojen kytkemi-
nen maantieteellisiin 
ilmiöihin tai proses-
seihin  
ei kytketä lainkaan ilmiöihin tai prosesseihin 0 
saatetaan mainita jokin ilmiö tai prosessi 0 
viitataan pintapuolisesti ilmiöön tai prosessiin 3 
hyödynnetään maantieteellistä teoriaa; kytkeminen 
ilmiöidin ja prosesseihin kevyttä 
2 
asiat kytketty hyvin ilmiöihin ja prosesseihin 2 
 
Vastaukset olivat laadukkaita sekä suomenkielisen asiatekstin että paikannimistön käytön 
osalta (taulukko 28). Lähes kaikki vastaukset olivat selkeää ja lähes virheetöntä asiatekstiä, ja 
kaikissa vastauksissa paikannimistö oli kirjoitettu joko virheettömästi tai pääosin oikein. 
Taulukko 28. Niiden vastausten jakautuminen laatuluokkiin osa-alueittain viestinnän keinot -kritee-
rissä, joiden pistemäärä nousi eniten eli kolmella tai neljällä pisteellä arviointimatriisilla arvioituna ver-
rattuna nykyisiin arviointiohjeisiin (n=7). 
Arviointimatriisin 
kriteeri 
Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä 
Viestinnän keinot Suomenkielinen asia-
teksti 
ilmaisu vaikeasti ymmärrettävää 0 
osittain puhekielinen/kömpelö/paljon kielioppivir-
heitä 
0 
pääosin selkeää asiatekstiä; voi olla paikoitellen 
kirjoitusvirheitä 
1 
selkeää ja lähes virheetöntä asiatekstiä 6 
kirjoitusasu täysin virheetön 0 
Paikannimistö paikannimet kirjoitettu kokonaan tai pääosin väärin 0 
paikannimissä paikoin asia- tai kirjoitusvirheitä 0 
paikannimissä pieniä kirjoitusvirheitä 0 
paikannimet kirjoitettu pääosin oikein 2 
paikannimet kirjoitettu virheettömästi 5 
 
43 
 
5 Keskustelu 
5.1 Matriisiarviointi tuotti nykyohjeistusta matalampia pisteitä 
Tässä tutkimuksessa arviointimatriisiin perustuvalla pisteitysmenetelmällä tuotettiin keskimää-
rin matalampia pisteitä kuin nykyisiin arviointiohjeisiin eli hyvän vastauksen piirteisiin perus-
tuvalla pisteitysmenetelmällä. Kaikki tutkimuksen arvioijat antoivat tarkastelluille vastauksille 
matriisiarvioinnissa keskimäärin matalammat kokonaispisteet verrattuna vastausten alkuperäi-
sessä sensoriarvioinnissa eli nykyisillä arviointiohjeilla saamiin pisteisiin. Osatehtäväkohtai-
sesti tarkasteltuna arviointimatriisilla toteutetulla arvioinnilla tuotettiin kahdessa ensimmäi-
sessä osatehtävässä keskimäärin matalammat pisteet kuin nykyisillä arviointiohjeilla, kun taas 
viimeisen osatehtävän pistemäärää matriisiarviointi nosti keskimäärin hieman nykyisillä arvi-
ointiohjeilla toteutettuun arviointiin verrattuna. 
On mielenkiintoista pohtia, mistä arviointimenetelmien väliset piste-erot mahdollisesti johtui-
vat. Arviointimenetelmät painottivat erilaisia asioita, joten eroavat pistejakaumat olivat enna-
koitavissa. Nykyiset arviointiohjeet korostivat tarkastellussa tehtävässä huomioiden määrää, 
kun taas matriisiarvioinnissa huomioitiin sisältöjen lukumäärän lisäksi muun muassa käsittei-
den käyttö, maantieteen näkökulmien hallinta sekä asiatekstin laatu. Aiemmassa tutkimuskir-
jallisuudessa on todettu, että arviointimatriisit voivat esimerkiksi laajentaa arvioinnin kohteita 
tai vahvistaa tietynlaisen osaamisen, kuten kriittisen ajattelun sekä tiedon prosessoinnin, arvi-
ointia (Hidayati ym. 2024; Reynders ym. 2020), ja myös tässä tutkimuksessa havaitut arvioin-
timenetelmien väliset piste-erot voivat viitata siihen, että arviointitavat tekivät näkyväksi eri-
laista vastauksissa esitettyä osaamista. Arviointimatriisilla toteutetulla arvioinnilla arvioijat 
pystyivät arvioimaan useampia vastauksen ominaisuuksia kuin nykyisillä arviointiohjeilla, 
mikä vaikutti alentavasti tutkielmassa tarkasteltujen vastausten pisteisiin. Vastauksen oli oltava 
arviointimatriisin jokaisen kriteerin osalta laadukas saadakseen korkeat pisteet matriisiarvioin-
nista, kun taas nykyisillä arviointiohjeilla pisteitettynä vastaus saattoi yltää melko korkeisiin 
pisteisiin pelkästään asianmukaisia huomioita luettelemalla. Arviointimenetelmien erilaisten 
painotusalueiden lisäksi piste-erojen syitä voidaan selvittää myös vastausten laadullisella tar-
kastelulla, joten arviointimenetelmien välisten piste-erojen syiden käsittelyä jatketaan kolman-
nen tutkimuskysymyksen tulosten tarkastelussa (ks. alaluku 5.3).  
Tuloksia tarkasteltaessa on kuitenkin muistettava arvioinnin kontrolloiva funktio ja huomioi-
tava, että arviointi on voinut vaikuttaa vastaajien opiskeluun takaistusvaikutuksen kautta 
44 
 
(Alqahtani 2021; Nieminen 2019). On siis mahdollista, että erilaiset arviointiohjeet voivat vai-
kuttaa eri tavoin opiskelijoiden osaamiseen sekä ylioppilaskokeissa käytettävään vastaustapaan. 
Norton (2004) toteaa, että opiskelijat voivat käyttää arviointikriteerejä strategisesti saadakseen 
hyvän arvosanan, jolloin arviointikriteerit ohjaavat oppimista ja suorituksia kriteerien osoitta-
maan suuntaan. Tutkimuksen tuloksia tarkasteltaessa on siis huomioitava, että sekä opiskelijat 
että heidän opettajansa ovat tienneet, millainen rakenne ylioppilaskokeen arviointiohjeissa tulee 
todennäköisesti olemaan. Mikäli tarkastellun ylioppilaskokeen arvioinnissa olisi käytetty jo 
etukäteen esiteltyä arviointimatriisia, on mahdollista, että ylioppilaskokelaat olisivat pyrkineet 
laatimaan vastauksensa enemmän matriisin kriteerejä vastaaviksi. Siksi tutkimustulos ei toden-
mukaisesti kerro vastaajien osaamistasosta matriisin kuvaamien taitojen osalta, vaan tulos ker-
too ainoastaan siitä, miten matriisi vaikuttaisi nykymuotoisten vastausten pisteisiin. 
Piste-erojen syiden lisäksi on tärkeää pohtia, mitä seurauksia arviointikriteerien rakenteen 
muuttamisella voisi olla maantieteen opetukselle tai oppiaineen ylioppilaskokeiden arvioin-
nille. Mikäli matriisiarvioinnilla tuotetut pisteet olisivat tämän tutkimuksen tulosten tavoin kes-
kimäärin matalampia kuin nykyisillä arviointiohjeilla laaditut pisteet, on mahdollista, että 
maantieteen ylioppilaskoearvosanojen pisterajat laskisivat arvosanojen perustuessa suhteelli-
seen arviointiin (ks. Ouakrim-Soivio 2015). Toisaalta on mahdollista, että arviointiohjeiden 
muuttuminen saisi aikaan muutoksen myös maantieteen opiskelussa sekä ylioppilaskoetehtä-
vien vastauksissa takaistusvaikutuksen myötä. Kun arviointi vaikuttaa oppimiseen ja opettami-
seen hyödyllisesti, puhutaan positiivisesta takaistusvaikutuksesta (Alqahtani 2021). Johnson ja 
Shaw (2018) toteavat, että mitä paremmin koe edustaa osaamistavoitteita ja tiedollista osaa-
mista, sitä hyödyllisempi takaistusvaikutus kokeella on. Jos siis maantieteen ylioppilaskokeessa 
arvioitaisiin opetussuunnitelman mukaisia osaamistavoitteita aikaisempaa kattavammin, vaiku-
tukset opiskelijoiden osaamiseen voisivat takaistusvaikutuksen myötä olla positiiviset. Arvi-
ointikriteerien muuttamisella voitaisiin näin arvioinnin kontrollointifunktion mukaisesti ohjata 
oppimisen kohteita ja tapoja. Arviointimenetelmän muuttumisen seurauksia ei kuitenkaan 
voida tietää etukäteen, joten mikäli maantieteen arvioinnissa siirryttäisiin käyttämään arvioin-
timatriisia, olisi mielenkiintoista selvittää muutoksen vaikutuksia maantieteen opiskeluun ja 
opettamiseen sekä lukiolaisten osaamistasoon. 
45 
 
5.2 Arviointimatriisilla toteutetun arvioinnin yhdenmukaisuus vaikuttaa lupaa-
valta 
Tutkimuksen tulosten mukaan arviointimatriisin avulla suoritettu arviointi oli varsin yhdenmu-
kaista sekä arvioijien 1 ja 2 että arvioijien 1 ja 3 välillä. Sisäkorrelaatiokertoimen mukaan arvi-
oinnin arvioitsijareliabiliteetti oli molempien arvioijaparien välillä hyväksyttävällä ja pääasi-
assa korkealla tasolla, mutta täydellistä yhdenmukaisuutta kuvaavat prosenttiluvut sekä anne-
tuista pisteistä luodut hajontakaaviot paljastivat myös pisteiden välisiä eroavaisuuksia. Keskei-
nen tuloksista tehty havainto oli, että arvioinnin yhdenmukaisuus ei eronnut eri arviointimene-
telmien välillä huomattavasti, ja arvioinnin yhdenmukaisuus kahden arvioijan välillä oli pai-
koitellen jopa hieman korkeampaa matriisiarvioinnissa kuin nykyisillä arviointiohjeilla toteu-
tetussa arvioinnissa. Tämän tutkimustuloksen perusteella siis vaikuttaa siltä, että maantieteen 
ylioppilaskoevastaukset olisi mahdollista pisteittää kriteeriperustaisella arviointimatriisilla il-
man, että arvioinnin yhdenmukaisuus heikkenisi huomattavasti nykyisten arviointiohjeiden yh-
denmukaisuuteen verrattuna. Arvioinnin reliaabelius on laadukkaan arvioinnin keskeinen omi-
naisuus (Ouakrim-Soivio 2015), minkä vuoksi tutkimustulos on huomionarvoinen, kun pohdi-
taan arviointimatriisin soveltuvuutta maantieteen ylioppilaskokeiden arviointiin. Tutkimustu-
losta tarkasteltaessa on kuitenkin huomioitava, että matriisiarvioinnin toteuttivat samat henki-
löt, jotka myös loivat matriisin: siksi on mahdollista, että heidän käsityksensä matriisin käytöstä 
on ollut parempi kuin vastausten arvioijilla normaalissa arviointitilanteessa olisi. Myös arvioi-
jien taustat on syytä huomioida reliabiliteettikeskustelussa, sillä arvioijat 2 ja 3 ovat kokeneita 
ylioppilaskokeiden arvioijia. Arvioija 1 ei puolestaan ollut ennen tutkimusta arvioinut ylioppi-
laskoevastauksia, minkä vuoksi hän edusti tässä tutkimuksessa uutta opettajaa tai sensoria. 
Kummallakin menetelmällä tuotetuissa pisteissä ilmeni yksittäisissä vastauksissa melko suuria 
eroja eri arvioijien välillä, vaikka molempien arviointimenetelmien arvioitsijareliabiliteetit oli-
vat tämän tutkimuksen mukaan keskimäärin hyvät. Arvioijien väliset piste-erot selittyvät to-
dennäköisesti laadulliseen kriteeriperustaiseen arviointiin liittyvällä tulkinnallisuudella (ks. 
Keurulainen 2013). Nykyiset arviointiohjeet eli Ylioppilastutkintolautakunnan laatimat hyvän 
vastauksen piirteet muistuttavat pitkälti Brookhartin (2013) kuvaamaa listamaista arviointita-
paa, jossa arviointiohjeet sisältävät listan suoritukselta vaadittavista asioista. Brookhartin 
(2013) mukaan listamaiset arviointiohjeet ovat usein arviointimatriiseja helppokäyttöisempiä 
arviointivälineitä, sillä ne vaativat arvioijalta matriiseja vähemmän tulkintaa. Nykyiset lista-
maiset arviointiohjeet asettuvat laadullisen ja määrällisen kriteeriperustaisen arvioinnin väliin 
(ks. Keurulainen 2013). Toisaalta arvioitava vastaus kerryttää pisteitä yksittäisillä huomioilla, 
46 
 
joiden esiintymisen havaitseminen ei vaadi arvioijalta subjektiivista tulkintaa, mutta toisaalta 
osa pisteistä kertyy arvioijan tulkinnasta siitä, ovatko huomiot esimerkiksi kuvattu pintapuoli-
sesti tai onko vastaus kypsä ja loogisesti jäsennelty (Hyvän vastauksen piirteet: FI – Maantiede 
2023). Matriisiarviointi puolestaan perustuu täysin arvioijan tulkintaan siitä, mitkä laadulliset 
suoritustasojen kuvaukset vastaavat arvioitavaa suoritusta, jolloin se lukeutuu puhtaasti laadul-
liseen kriteeriperustaiseen arviointiin (ks. Keurulainen 2013). Laadulliseen kriteeriperustaiseen 
arviointiin liittyvä tulkinnallisuuden periaate kuvaa siis molempia tutkimuksessa tarkasteltuja 
arviointimenetelmiä ja samalla johtaa mahdollisiin piste-eroihin arvioijien välillä. Arvioijilla 
voi olla esimerkiksi erilaisia tulkintoja arvioitavien suoritusten laadusta tai eroavia odotuksia 
arvioitavien osaamistasosta, mikä voi heikentää arvioijien välistä yhdenmukaisuutta (Rinne 
2024). Siksi tutkimuksen tuloksissa havaitut erot pisteiden välillä eivät ole yllättäviä. 
Erityisesti viime vuosien arviointikeskustelussa on alettu korostaa myös ajattelun taitoja pelkän 
asiaosaamisen sijaan (Al-Salmani & Thacker 2021), ja Lukion opetussuunnitelman perusteis-
sakin (2019) maantieteen arvioinnin keskeisiksi kohteiksi mainitaan muun muassa maantieteel-
linen ajattelu sekä maantieteellisten taitojen osaaminen. Mikäli siis arvioinnissa on tarkoituk-
sena huomioida tämänkaltaiset osa-alueet, on arviointiväline suunniteltava korkean validiteetin 
saavuttamiseksi niin, että maantieteellisten taitojen ja ajattelun hallintaa vaaditaan hyvän arvo-
sanan saavuttamiseksi (ks. Brookhart 2010). Arviointimatriisit toimivat hyvänä esimerkkinä 
arviointivälineestä, jonka avulla ajattelun ja taitojen arvioiminen voidaan tehdä näkyväksi. 
Myös tässä tutkimuksessa luodussa arviointimatriisissa on pyritty laadullisten suoritustasojen 
kuvausten avulla huomioimaan monipuolisesti tietojen, taitojen ja ajattelun arviointi opetus-
suunnitelman mukaisesti. Vaikka siis laadulliset arviointimenetelmät voivat tulkinnallisuutensa 
vuoksi johtaa arvioijien välisiin eroavaisuuksiin annetuissa pisteissä, niissä arvioinnin yhden-
mukaisuuden sijaan korostuu validiteetin merkitys. Keurulaisen (2013) mukaan laadulliseen 
kriteeriperustaiseen arviointiin liittyykin juuri validiteettityyppinen luotettavuus sen sijaan, että 
arvioinnissa painotettaisiin määrällisen arvioinnin tavoin reliabiliteettityyppistä luotettavuutta. 
Maantieteen ylioppilaskokeiden arvioiminen arviointimatriisin avulla voisikin mahdollistaa en-
tistä monipuolisemman ja laaja-alaisemman osaamisen arvioinnin, vaikka se korostaisikin ar-
vioinnin laadullisuutta aiempia arviointiohjeita enemmän. 
Brookhart ja Chen (2015) toteavat katsausartikkelissaan, että arviointimatriisien avulla toteute-
tun arvioinnin on mahdollista olla yhdenmukaista ja reliabiliteetiltaan luotettavaa, mutta arvi-
oinnin yhdenmukaisuus ei aina toteudu matriisiarvioinnissakaan. Tässäkin tutkimuksessa voi-
47 
 
daan vastaavasti todeta, että vaikka tutkimuksen tulokset matriisiarvioinnin arvioitsijareliabili-
teetista vaikuttivat lupaavilta ylioppilaskokeiden arvioinnin kannalta, ne eivät yksiselitteisesti 
tarkoita, että matriisin avulla toteutettu arviointi olisi aina yhdenmukaisuudeltaan erinomaista. 
Tulos viittaa kuitenkin siihen, että eri arvioijien on mahdollista pisteittää ylioppilaskoevastauk-
sia luodun arviointimatriisin avulla riittävän yhdenmukaisesti. Ylioppilaskokeiden kaltaiseen 
high stakes -arviointiin liitetään vaatimus korkeasta reliabiliteetista ja validiteetista sen merkit-
tävien seurausten, kuten arvioitavan akateemiseen etenemiseen liittyvien vaikutusten, vuoksi 
(French ym. 2023). Mikäli siis maantieteen ylioppilaskokeiden arvioinnissa siirryttäisiin mo-
nien muiden oppiaineiden tavoin arviointimatriisin käyttöön, olisi tärkeää tarkastella, miten 
matriisiarvioinnin arvioitsijareliabiliteettia voitaisiin vahvistaa edelleen. Lähtökohta yhdenmu-
kaiselle matriisiarvioinnille on laadukkaasti laadittu arviointimatriisi, mutta esimerkiksi arvioi-
jien kouluttaminen on tyypillinen keino lisätä arvioinnin reliabiliteettia (Graham ym. 2012; 
Moskal & Leydens 2000). Lisäksi arviointimatriisissa kuvattujen suoritustasojen välisiä eroja 
voidaan selventää liittämällä arviointiohjeisiin matriisilla pisteitettyjä mallivastauksia, joita 
voidaan käyttää vertailukohtina arviointipäätöstä tehtäessä (Jonsson & Svingby 2007). 
5.3 Matriisiarviointi laski erityisesti listamaisten ja arkikielisten vastausten 
pisteitä 
Vastausten laadullisessa analyysissa havaittiin joitain ominaisuuksia, jotka olivat tyypillisiä 
niille vastauksille, joiden pisteet erosivat arviointimenetelmien välillä toisistaan eniten. Yksi 
yhdistävä piirre lähes kaikissa niissä vastauksissa, jotka saivat matriisiarvioinnissa heikommat 
pisteet kuin nykyisillä arviointiohjeilla toteutetussa arvioinnissa, oli vastauksissa esitettyjen 
huomioiden perustelujen puuttuminen tai niukkuus. Suurimmassa osassa näistä vastauksista 
huomiot esitettiin täysin ilman perusteluja tai vain puutteellisten perustelujen kera. Tämä teki 
vastauksista paikoitellen listamaisia, sillä ilman perusteluja vastaukset koostuivat lähinnä yk-
sittäisten huomioiden luettelemisesta. Vastauksia yhdisti perustelujen puuttumisen lisäksi myös 
arkikielisyys sekä maantieteellisen tarkastelutavan puuttuminen: tämä havaittiin vastausten si-
joittumisena heikkoihin laatuluokkiin käsitteet-kriteerin molemmissa osa-alueissa sekä maan-
tieteen näkökulmien hallinta -osa-alueessa. Maantieteellisen tarkastelutavan puuttuminen näkyi 
vastauksissa esimerkiksi niin, että vastaukset saattoivat perustua ainoastaan yhden näkökulman 
käsittelemiseen, kun maantieteellinen ajattelu- ja tarkastelutapa tarkoittaa yleensä useiden mo-
nipuolisten näkökulmien tarkastelua (Bendl ym. 2024). Esimerkiksi joissain osatehtävän 7.1 
vastauksissa keskityttiin vertailemaan liikennemuotoja ainoastaan ihmisen arkielämän näkö-
48 
 
kulmasta liittämättä huomioita lainkaan maantieteelliseen teoriaan. Vastaavasti joissain osateh-
tävän 7.2 vastauksissa esitetyt huomiot liittyivät ainoastaan esimerkiksi siihen, mikä reitti olisi 
tietyistä paikoista lähteville ihmisille edullisin vaihtoehto, vaikka tehtävänannossa ohjattiin ver-
taamaan reittivaihtoehtoja paljon laajemmin. Näiden tulosten mukaan vaikuttaa siis siltä, että 
matriisiarviointi mahdollisti nykyistä arviointitapaa paremmin ja monipuolisemmin vastauksen 
heikkouksien huomioimisen. 
Tutkimuksen aineistoon kuului vain seitsemän osatehtävän vastausta, joiden pisteet nousivat 
kolmella tai neljällä pisteellä arviointimatriisilla pisteitettynä, minkä vuoksi laatuluokkien ja-
kaumien tarkastelu ei ole kovin tarkoituksenmukaista tai luotettavaa. Voidaan kuitenkin todeta, 
että vastaukset painottuivat hyvin eri tavoin analyysirungon laatuluokkiin kuin ne vastaukset, 
joiden pisteet laskivat arviointimatriisilla arvioituina. Vastaukset sijoittuivat kolmeen parhaa-
seen laatuluokkaan kaikkien kriteerien jokaisessa osa-alueessa, minkä vuoksi ne vastaukset, 
joiden pisteet nousivat eniten arviointimatriisilla arvioituina, olivat laadukkaita kaikkien tar-
kasteltujen ominaisuuksien kannalta. Näin vastaukset olivat keskimäärin hyvin erilaisia kuin ne 
vastaukset, joiden pisteet laskivat eniten matriisiarvioinnissa. Tässä tutkimuksessa matriisiar-
viointi mahdollisti siis joissain tapauksissa tietyntyyppisten vastausten palkitsemisen vielä ny-
kyistä arviointitapaa paremmin.  
Laadullisesti analysoitujen vastausten lukumäärä oli melko pieni eikä niiden jakautuminen laa-
tuluokkiin ollut yksiselitteistä, minkä vuoksi tuloksista ei voida tehdä yleistettäviä johtopäätök-
siä siitä, millaisten vastausten pisteisiin matriisiarviointi vaikuttaisi eniten. Voidaan kuitenkin 
todeta, että matriisiarviointi estää vastausta yltämästä tehtävän enimmäispistemäärään, mikäli 
yksikin sen osa-alueista on muita heikompi, sekä että arviointimatriisin avulla vastausten pis-
teityksessä on mahdollista huomioida nykyisiä arviointiohjeita monipuolisempia asioita. Tä-
män tutkimuksen tulosten perusteella vaikuttaa, että niissä maantieteen ylioppilaskoevastauk-
sissa, joiden pisteitä matriisiarviointi laskee nykyiseen arviointimenetelmään verrattuna, esiin-
tyy puutteita erityisesti huomioiden perusteluissa, käsitteiden käytössä, maantieteen näkökul-
mien hallinnassa sekä havaintojen kytkemisessä maantieteellisiin ilmiöihin ja prosesseihin. 
Nämä osa-alueet voivat myös liittyä toisiinsa, sillä esimerkiksi maantieteellisten näkökulmien 
asianmukainen käsittely huomioita perustelematta voi olla haastavaa.  
Tutkimustulosten perusteella vaikuttaa siltä, että eri arviointimenetelmät palkitsivat arvioin-
nissa erilaisia asioita, mistä myös arviointimenetelmien väliset piste-erot todennäköisesti joh-
49 
 
tuivat. Mikäli menetelmät arvioivat eri asioita, asiaa voidaan tarkastella validiteetin näkökul-
masta eli pohtia, mittasiko arviointi sitä, mitä sen oli tarkoituskin mitata (Ouakrim-Soivio 
2015). Reaaliaineiden kokeiden määräyksien ja ohjeiden (2024) mukaan arvioinnissa on kiin-
nitettävä huomiota esimerkiksi esitettyjen väitteiden perusteluun sekä eri näkökulmien esittä-
miseen. Koska matriisiarviointi laski tutkimustulosten mukaan erityisesti niiden vastausten pis-
teitä, joissa esiintyi puutteita juuri näissä osa-alueissa eli huomioiden perusteluissa sekä maan-
tieteellisten näkökulmien huomioinnissa, vaikuttaa siltä, että ainakin näiden osa-alueiden arvi-
oinnissa matriisiarviointi onnistui nykyisiä arviointiohjeita paremmin. Arvioinnin validiteettia 
on kuitenkin tärkeää tarkastella useista näkökulmista, eikä yhtäkään näkökulmaa voida sivuut-
taa (Jonsson & Svingby 2007), minkä vuoksi tutkimustulosten kaltaisista yksittäisistä huomi-
oista ei voida tehdä suoria päätelmiä arvioinnin validiteetista.  
5.4 Tutkimuksen luotettavuus ja jatkotutkimusmahdollisuudet 
Tutkimus oli luonteeltaan tapaustutkimus (Saaranen-Kauppinen & Puusniekka 2006). Tutki-
muksessa tutkittiin rajattua kokonaisuutta monipuolisten menetelmien avulla ja sen tavoitteena 
oli lisätä ymmärrystä tutkittavasta ilmiöstä ilman, että sillä oltaisiin pyritty tuottamaan yleistet-
tävää tietoa. Tutkimuksen tarkoituksena oli siis tuottaa kuvailevaa tietoa arviointimatriisin käy-
töstä maantieteen ylioppilaskokeiden arvioinnissa sekä matriisiarvioinnin eroista nykyiseen ar-
viointimenetelmään verrattuna sen sijaan, että tutkimuksen tarkoituksena olisi ollut tuottaa esi-
merkiksi yleistettävää kuvausta eri arviointimenetelmien arvioitsijareliabiliteeteista. Maantie-
teen ylioppilaskokeiden arvioinnista arviointimatriisilla ei olla tehty aiempaa tutkimusta, joten 
tapaustutkimuksella oli suuri ymmärrystä syventävä arvo. Tapaustutkimuksen kuvailevasta 
luonteesta huolimatta on tärkeää tarkastella tekijöitä, jotka ovat voineet vaikuttaa tutkimuksen 
tulosten luotettavuuteen. 
Tutkimusasetelma pyrittiin luomaan niin, että tulokset olisivat mahdollisimman luotettavia. Ar-
vioijat pisteittivät eri arviointivaiheissa eri vastaukset, jotta aiemmassa arviointivaiheessa teh-
dyt tulkinnat vaikuttaisivat seuraavaan arviointivaiheeseen mahdollisimman vähän. Arvioijat 
eivät keskustelleet arvioinnista toistensa kanssa kummankaan arviointivaiheen aikana, jotta 
muiden tekemät tulkinnat tai havainnot eivät vaikuttaisi arviointiprosessiin. Arviointivaiheen 
lisäksi myös analyysivaiheessa tehtiin tulosten luotettavuutta parantavia päätöksiä: esimerkiksi 
arviointimenetelmien reliabiliteetteja kuvattiin useilla tilastollisilla tunnusluvuilla ja kuvaajilla, 
sillä reliabiliteetin kuvaaminen vain yhdellä tunnusluvulla voi olla harhaanjohtavaa (Stemler 
50 
 
2004). Tutkimuksen luotettavuutta ja pätevyyttä voidaan kehittää kriittisellä ja arvioivalla tar-
kastelulla (Saaranen-Kauppinen & Puusniekka 2009), joten myös tässä alaluvussa esitetty poh-
dinta tukee tutkimuksen luotettavuutta. 
Vaikka tutkimusasetelma pyrittiin luomaan mahdollisimman luotettavaksi, sitä kuitenkin hei-
kentää useampi tekijä, joista yksi on tutkimusasetelmaan liittyvä subjektiivisuus. Molemmat 
tutkimuksessa tarkastellut arviointimenetelmät edustavat laadullista kriteeriperustaista arvioin-
tia, jolloin kumpaankin menetelmään liittyy tulkinnallisuuden periaate (Keurulainen 2013). 
Näin kaikki tutkimuksessa tilastollisesti tarkastellut pisteet perustuvat arvioijien tekemään tul-
kintaan eivätkä siten kuvaa vastauksissa esitettyä osaamista täysin objektiivisesti: tähän tee-
maan tutkimuksessa toteutettu reliabiliteetin tarkastelu toisaalta myös perustuu. Subjektiivisuus 
epävarmuustekijänä liittyy erityisesti kolmatta tutkimuskysymystä varten toteutettuun vastaus-
ten laadulliseen analysointiin, sillä laadullisessa tutkimuksessa tutkijan tekemät tulkinnat ja va-
linnat vaikuttavat merkittävästi tutkimuksen tuloksiin (Tuomi & Sarajärvi 2018). Toinen tutkija 
saattaisi siksi tehdä tässä tutkimuksessa tehdyn vastausten luokittelun täysin eri tavalla tai löy-
tää vastausaineistosta esimerkiksi sellaisia asioita, joita tässä tutkimuksessa ei havaittu lain-
kaan. Vastaavasti tässä tutkimuksessa luotu arviointimatriisi tehtiin tutkimuksen tutkimusryh-
män tulkintojen ja päätösten perusteella, jolloin toinen tutkimusryhmä voisi luoda samasta ai-
neistosta hyvin erilaisen matriisin, joka puolestaan voisi vaikuttaa arviointiin hyvin eri tavalla. 
Lisäksi arviointimatriisista on huomioitava, että vaikka tutkimuksessa luotiin yleinen arvioin-
timatriisi, jonka tarkoituksena on toimia erilaisten ylioppilaskoetehtävien vastausten arvioin-
nissa, sen luomisessa hyödynnettiin ainoastaan yhden tehtävän vastauksia, mikä saattoi vaikut-
taa matriisin luomiseen epätoivotulla tavalla. Täten on mahdollista, että luotu arviointimatriisi 
soveltuu paremmin tutkimuksessa käytetyn tehtävän vastausten arviointiin kuin muiden maan-
tieteen ylioppilaskoetehtävien vastausten arviointiin. 
Tutkimustulosten luotettavuuteen vaikuttaa myös tutkimukseen osallistuneiden arvioijien 
määrä. Tutkimuksessa tarkasteltiin vastausten alkuperäisten sensoripisteiden lisäksi ainoastaan 
kolmen arvioijan tuottamia pisteitä, ja valtaosa vastauksista arvioitiin valituilla menetelmillä 
vain kaksi kertaa. Kattavamman käsityksen menetelmien arvioitsijareliabiliteeteista olisi voinut 
saada, jos arvioijia olisi ollut enemmän ja jokainen vastaus olisi arvioitu molemmilla menetel-
millä useampia kertoja. Arvioijien määrän lisäksi myös tutkimusasetelma rajasi tuloksia. Tut-
kimusasetelman mukaisesti yksikään arvioija ei pisteittänyt samaa vastausta kahta kertaa, 
minkä vuoksi tutkimuksessa ei voitu verrata tietyn arvioijan eri arviointimenetelmillä antamia 
51 
 
rinnakkaisia pisteitä. Siksi ensimmäisessä tutkimuskysymyksessä selvitettyihin arviointimene-
telmien välisiin piste-eroihin voivat vaikuttaa myös esimerkiksi satunnaiset ja arvioijaan liitty-
vät tekijät.  
Arvioijien määrän lisäksi on tärkeää pohtia myös tutkimuksessa tarkastellun aineiston kokoa. 
Tutkimuksen vastausaineisto koostui 70 vastauksesta, mikä voisi olla tulosten yleistämistarkoi-
tukseen liian pieni otos. Otos oli kuitenkin harkinnanvaraisesti luotu ja sen avulla pyrittiin sel-
vittämään vastaus kuvailevaan tutkimukseen tulosten yleistämisen sijaan, jolloin otos vastaa 
hyvin tutkimuksen tarkoituksiin (ks. Vilkka 2007). Koska arvioijat pisteittivät eri vastaukset eri 
arviointimenetelmillä, tilastollisia testauksia ei voitu tehdä 70 vastauksen pisteitä vertaillen. 
Nykyisten arviointiohjeiden reliabiliteetin selvittämiseksi testeissä verrattiin 40 vastauksen pis-
teitä toisiinsa ja matriisiarvioinnin reliabiliteetin selvittämiseksi verrattiin 30 vastauksen pis-
teitä toisiinsa. Tämänkokoiset otokset olivat riittävän suuret tutkimuksessa käytettyjen tilastol-
listen testien tekemiseen, mutta suurempi otos olisi parantanut tulosten luotettavuutta sekä 
yleistettävyyttä (Vilkka 2007).  
Kolmanteen tutkimuskysymykseen liittyvään laadulliseen tarkasteluun valittiin vain ne vas-
taukset, joissa eri arviointimenetelmillä tuotetut pisteet erosivat toisistaan eniten eli kolmella 
tai neljällä pisteellä. Tämän vuoksi laadullisesti tarkasteltujen vastausten määrä oli melko pieni 
suhteessa vastausten todelliseen määrään. Laadullisessa tutkimuksessa aineiston riittävyyden 
voi määrittää saturaatio eli aineiston kyllääntyminen, mikä tarkoittaa, että uudet tapaukset eivät 
tuo tutkimukseen enää uutta tietoa (Saaranen-Kauppinen & Puusniekka 2009). Tutkimuksessa 
tarkastelluista vastauksista tehtiin paljon samoja havaintoja ja vastaukset painottuivat selvästi 
tietyissä kriteereissä tiettyihin laatuluokkiin, mikä viittasi aineiston kyllääntymiseen, mutta eri-
tyisesti pienen aineiston vuoksi on hyvin mahdollista, että suuremmasta aineistosta löytyisi uu-
sia näkökulmia ja vastauksia tutkimuskysymykseen. Kyllääntymisen voidaan kuitenkin ajatella 
liittyvän tulosten yleistettävyyteen (Saaranen-Kauppinen & Puusniekka 2009), ja koska tutki-
muksen aineisto toisti itseään ja samat asiat toistuivat useassa vastauksessa, on odotettavissa, 
että aineistosta tehdyt havainnot vaikuttaisivat vastausten pisteisiin myös laajemmassa aineis-
tossa ja erityyppisissä tehtävissä.  
Tutkimuksessa tarkasteltujen vastausten lukumäärän lisäksi on tärkeää huomioida myös tehtä-
vätyyppi, sillä tutkimukseen valitun koetehtävän jokaiseen osatehtävään kuului vastata essee-
muotoisella vastauksella. Maantieteen ylioppilaskoe voi kuitenkin sisältää myös tehtäviä, joissa 
vaaditaan monipuolista tiedon prosessointia, kuten piirtämistä, kaavioiden laatimista tai kuvien 
52 
 
muokkaamista (Hyvän vastauksen piirteet: FI – Maantiede 2023), jolloin koko kokeen vastaus-
aineisto ei välttämättä koostu ainoastaan esseemuotoisista vastauksista. Jotta arviointimatriisin 
käytettävyyttä maantieteen ylioppilaskoevastausten arvioinnissa sekä matriisin vaikutusta pis-
teisiin voitaisiin arvioida kattavammin, olisi tärkeää tarkastella matriisin käyttöä myös erityyp-
pisten vastausten arvioinnissa.  
Tutkimuksia toistamalla ja esimerkiksi tutkimusasetelmaa kehittämällä voidaan nähdä, tarjoa-
vatko uudet tutkimukset samansuuntaisia tuloksia, jolloin tutkimuksen luotettavuus ja infor-
maatioarvo kasvavat (Saaranen-Kauppinen & Puusniekka 2009). Siksi tätä tutkimusta olisi mie-
lenkiintoista jatkaa ja laajentaa niin, että edellä mainittuja tutkimuksen luotettavuutta heikentä-
viä seikkoja kehitettäisiin. Olisi mielekästä tarkastella esimerkiksi laajemman arvioijajoukon, 
kuten kaikkien maantieteen ylioppilaskokeen sensoreiden, antamia pisteitä arviointimenetel-
mien todenmukaisempien arvioitsijareliabiliteettien selvittämiseksi. Lisäksi arviointimatriisin 
käytöstä saataisiin kattavampi näkemys, jos arvioitavia vastauksia olisi enemmän ja ne edustai-
sivat monipuolisesti erilaisia maantieteen ylioppilaskokeen tehtävätyyppejä. Tässä tutkimuk-
sessa tarkasteltiin reliabiliteetin osa-alueista ainoastaan arvioijien välistä yhdenmukaisuutta, ja 
olisikin mielenkiintoista ja tärkeää tarkastella myös muita reliabiliteetin osa-alueita, kuten yh-
den arvioijan toteuttaman arvioinnin johdonmukaisuutta (ks. Stemler 2004). Laajemmassa tut-
kimuksessa myös vastausta kolmanteen tutkimuskysymykseen voitaisiin pyrkiä selvittämään 
esimerkiksi monipuolisemmilla tekstianalyysin menetelmillä sekä useamman tutkijan toteutta-
mana niin, että tutkijatriangulaatio vahvistaisi tulosten luotettavuutta (Saaranen-Kauppinen & 
Puusniekka 2009). 
Aiheeseen liittyvässä jatkotutkimuksessa olisi mielenkiintoista tarkastella niiden arviointimat-
riisien reliabiliteettia, joita jo käytetään tiettyjen oppiaineiden ylioppilaskokeiden arvioinnissa. 
Mikäli maantieteen ylioppilaskokeiden arvioinnissa siirryttäisiin käyttämään arviointimatriisia, 
olisi kiinnostavaa selvittää, vaikuttaisiko arviointiohjeiden muuttuminen esimerkiksi opettajien 
tai opiskelijoiden toimintaan takaistusvaikutuksen kautta. Olisi kiinnostavaa tutkia, miten eri-
laisia asioita painottavat arviointiohjeet vaikuttaisivat ylioppilaskoevastausten rakenteeseen, si-
sältöön ja laatuun sekä opiskelijoiden osaamiseen, vai voitaisiinko arviointiohjeiden rakenteen 
muuttumista havaita lainkaan. 
53 
 
6 Johtopäätökset 
Tutkimuksessa luotuun arviointimatriisiin perustuvat pisteet olivat keskimäärin nykyisiin arvi-
ointiohjeisiin perustuvia pisteitä matalampia. Erot eri arviointimenetelmillä annettujen pistei-
den välillä olivat tilastollisesti merkitseviä. 
Tutkimuksen tulosten mukaan eri arvioijat voivat pisteittää maantieteen ylioppilaskoevastauk-
sia melko yhdenmukaisesti tutkimuksessa luodun kriteeriperustaisen arviointimatriisin avulla. 
Arviointimatriisilla toteutetun arvioinnin arvioitsijareliabiliteetti eli arvioijien välinen yhden-
mukaisuus oli pääasiassa hyvällä tasolla, eikä matriisiarvioinnin yhdenmukaisuus eronnut huo-
mattavasti nykyisiin arviointiohjeisiin perustuvan arvioinnin yhdenmukaisuudesta. Molem-
missa tarkastelluissa arviointimenetelmissä huomattiin kuitenkin yksittäisiä melko suuriakin 
eroja eri arvioijien antamien pisteiden välillä.  
Tutkimuksessa luodun arviointimatriisin käyttö laski eniten arkikielisten ja listamaisten vas-
tausten pisteitä. Näissä vastauksissa esitetyt huomiot perusteltiin vain harvoin, mikä teki vas-
tauksista pääosin listamaisia. Vastausten arkikielisyyteen vaikutti maantieteellisten käsitteiden 
ja näkökulmien puuttuminen sekä se, että vastauksissa esitettyjen huomioiden kytkeminen 
maantieteellisiin ilmiöihin ja prosesseihin oli keskimäärin hyvin heikkoa. Ne vastaukset, joiden 
pisteitä matriisiarviointi nosti eniten, olivat keskimäärin tasaisen laadukkaita jokaisen tarkas-
tellun ominaisuuden osalta. Tutkimustulos voi viitata siihen, että nykyiset arviointiohjeet ja tut-
kimuksessa luotu arviointimatriisi palkitsivat arvioinnissa erilaisia asioita, vaikka ne perus-
tuivatkin samoihin arvioinnin lähtökohtiin. 
Tutkimus lisäsi ymmärrystä arviointimatriisin käytöstä maantieteen ylioppilaskoevastausten ar-
vioinnissa, vaikka tapaustutkimuksen luonne ja rajaus rajoittavatkin tulosten yleistettävyyttä. 
Aihetta olisi mielekästä tutkia monipuolisemmilla menetelmillä sekä laajemmalla aineistolla 
jatkotutkimusten parissa.  
 
54 
 
Kiitokset 
Kiitän tutkielmaani osallistuneita henkilöitä mielenkiintoisen tutkimusaiheen ehdottamisesta 
sekä asiantuntevasta ja innostavasta yhteistyöstä. Ilman teitä tätä tutkimusta ei olisi ollut mah-
dollista toteuttaa.  
Kiitän myös Ylioppilastutkintolautakuntaa tutkimusluvan myöntämisestä sekä tutkimusaineis-
ton toimittamisesta.  
55 
 
Lähteet  
Abdallah, M., Taiwo, A. & Ukamaka, A. (2022) Influence of high-stakes on teaching styles of 
science in senior secondary schools in Nigeria. African Educational Research Journal 
10(3) 291—301. DOI: 10.30918/AERJ.103.22.041  
Acosta, S., Garza, T., Hsu, H-Y., Goodson, P., Padrón, Y., Goltz, H. & Johnston, A. (2020) 
The accountability culture: a systematic review of high-stakes testing and English 
learners in the United States during No Child Left Behind. Educational Psychology 
Review 32(2) 327—352. DOI: 0.1007/s10648-019-09511-2  
Aijjawi, R., Dawson, P. & Boud, D. (2018). Conceptualizing evalutive judgement for sustain-
able assessment in higher education. Teoksessa Boud, D., Aijjawi, R., Dawson, P. & 
Tai, J (toim.) Developing evalutive judgement in higher education: assessment for 
knowing and producing quality work. Routledge, Lontoo. 
Al-Salmani, F. & Thacker, B. (2021) Rubric for assessing thinking skills in free-response 
exam problems. Physical Review Physics Education Research 17(1). DOI: 
10.1103/PhysRevPhysEducRes.17.010135  
Alqahtani, F. (2021) The impact of language testing washback in promoting teaching and 
learning processes: a theoretical review. English Language Testing 14(7) 21—26. 
DOI: 10.5539/elt.v14n7p21  
Atjonen, P. (2007) Hyvä, paha arviointi. Kustannusosakeyhtiö Tammi, Helsinki. 
Bendl, T., Krajňáková, L, Marada, M. & Řezníčková, d. (2024) Geographical thinking in geo-
graphy education: a systematic review. International Research in Geographical and 
Environmental Education. DOI: 10.1080/10382046.2024.2354097  
Biggs, J. B. & Collis, K. F. (1982) Evaluating the quality of learning: the SOLO taxonomy 
(Structure of the observed learning outcome). Academic Press, New York. 
Biggs, J. & Tang, C. (2011) Teaching for quality learning at university. 4 p. Open University 
Press, Maidenhead. 
Brookhart, S. M. (2018) Appropriate criteria: key to effective rubrics. Frontiers in Education 
3(22). DOI: 10.3389/feduc.2018.00022  
Brookhart, S. M. (2010) How to assess high-order thinking skills in your classroom. ASDC, 
Alexandria. 
Brookhart, S. M. (2013) How to create and use rubrics for formative assessment and grading. 
The Association for Supervision and Curriculum Development, Washington D. C.  
56 
 
Brookhart, S. M. & Chen, F. (2017) The quality and effectiveness of descriptive rubrics. Edu-
cational Review 67(3) 434—368. DOI: 10.1080/00131911.2014.929565 
Cantera, M. A., Arevalo, M-J., García-Marina, V. & Alves-Castro, M. (2021) A rubric to as-
sess and improve technical writing in undergraduate engineering courses. Education 
Sciences 11(4) 146—166. DOI: 10.3390/educsci11040146 
Dawson, P. (2017) Assessment rubrics: towards clearer and more replicable design, research 
and practice. Assessment & Evaluation in Higher Education 42(3) 347—360. DOI: 
10.1080/02602938.2015.1111294 
Dirkx, K., Joosten-ten Brinke, D., Arts, J. & van Diggelen, M. (2019) In-text and rubric-refer-
enced feedback: differences in focus, level, and function. Active Learning in Higher 
Education 22(3) 1—13. DOI: 10.1177/1469787419855208  
Ellonen, N. & Kaakinen, M. (s.a.) Monitasomallit. Tietoarkisto. https://www.fsd.tuni.fi/fi/pal-
velut/menetelmaopetus/kvanti/regressio/monitasomallit/ 29.1.2025  
French, S., Dickerson, A. & Mulder, R. A. (2023) A review of the benefits and drawbacks of 
high-stakes final examinations in higher education. Higher Education 88(3) 1—26. 
DOI: 10.1007/s10734-023-01148-z  
Gerritsen-van Leeuwenkamp, K., Joosten-ten Brinke, D. & Kester, L. (2017) Assessment 
quality in tertiary education: an integrative literature review. Studies in Educational 
Evaluation 55(6) 94—116. DOI: 10.1016/j.stueduc.2017.08.001 
Graham, M., Milanowski, A. & Miller, J. (2012) Measuring and promoting inter-rater agree-
ment of teacher and principal performance ratings. Center for Educator Compensation 
Reform.  
Hadibarata, T., Hidayat, T. & Kwabena, J. (2024) The use of scoring rubrics in university. Re-
view 3(1) 1—12. DOI: 10.53623/apga.v3i1.312 
Hafner, J. C. & P. M. Hafner (2003) Quantitative analysis of the rubric as an assessment tool: 
an empirical study of student peer-group rating. International Journal of Science Edu-
cation 25(12) 1509—1528. DOI: 10.1080/0950069022000038268 
Hidayati, N., Suryanti, S., Rahmayumita, R. & Aisya, S. (2024) Development of critical 
thinking skills instruments: cases for essay tests. Jurnal Kependidikan: Jurnal Hasil 
Penelitian dan Kajian Kepustakaan di Bidang Pendidikan, Pengajaran dan Pembelaja-
ran 10(1) 77-88.  
Hypoteesien testaus – SPSS-harjoitus 1 (2014) KvantiMOTV. 8.4.2014. 
https://www.fsd.tuni.fi/menetelmaopetus/hypoteesi/harjoitus1.html 17.2.2025 
57 
 
Hyvän vastauksen piirteet: FI – Filosofia (2024) Ylioppilastutkintolautakunta. 27.3.2024. 
https://tiedostot.ylioppilastutkinto.fi/kokeet/2024-03-27_FF_fi/grading-
instructions.html 7.6.2024  
Hyvän vastauksen piirteet: FI – Maantiede (2023) Ylioppilastutkintolautakunta. 21.9.2023 
https://tiedostot.ylioppilastutkinto.fi/kokeet/2023-09-21_GE_fi/grading-
instructions.html 4.2.2025 
Hyvän vastauksen piirteet: FI – Psykologia (2023) Ylioppilastutkintolautakunta. 27.3.2024. 
https://tiedostot.ylioppilastutkinto.fi/kokeet/2024-03-27_PS_fi/grading-
instructions.html 7.6.2024  
Jakku-Sihvonen, R. (2013) Oppimistulosten arviointijärjestelmistä ja niiden kehittämishaas-
teista. Teoksessa Räisänen, A. (toim.) Oppimisen arvioinnin kontekstit ja käytännöt. 
Raportit ja selvitykset 2013:3, Opetushallitus. 
Johnson, M. & Shaw, S. (2019) What is computer-based testing washback, how can it be 
evaluated and how can this support practitioner research? Journal of Further and 
Higher Education 43(9) 1255—1206. DOI: 10.1080/0309877X.2018.1471127 
Jonsson, A. & Svingby, G. (2007) The use of scoring rubrics: reliability, validity and educa-
tional consequences. Educational Research Review 2(2) 130—144. DOI: 
10.1016/j.edurev.2007.05.002 
Kaakinen, M. & Ellonen, N. (s.a.) Regressioanalyysi. Tietoarkisto. 
https://www.fsd.tuni.fi/fi/palvelut/menetelmaopetus/kvanti/regressio/analyysi/ 
18.2.2025 
Kestilä-Kekkonen, E. (s.a.) Kovarianssi ja korrelaatio. Tietoarkisto. 
https://www.fsd.tuni.fi/fi/palvelut/menetelmaopetus/kvanti/korrelaatio/korrelaatio/ 
18.2.2025 
Keurulainen, H. (2013) Pelisääntöjä arviointipäätösten tekemistä varten. Teoksessa Räisänen, 
A. (toim.) Oppimisen arvioinnin kontekstit ja käytännöt. Raportit ja selvitykset 2013:3, 
Opetushallitus. 
Kolaree, B. & Ninčević, M. (2022) Comparison of two exam evaluation methods for objectiv-
ity. International Conference on Education in Mathematics, Science and Technology 
158—168.  
Laki ylioppilastutkinnosta 502/2019. Annettu Helsingissä 12.4.2019. 
Lok, B., McNaught, C. & Young, K. (2016) Criterion-referenced and norm-referenced assess-
ments: compatibility and complementarity. Assessment & Evaluation in Higher Edu-
cation 41(3) 450—465. DOI: 10.1080/02602938.2015.1022136 
58 
 
Lukion opetussuunnitelman perusteet 2019. Määräykset ja ohjeet 2019:2a. Opetushallitus, 
Helsinki. https://www.oph.fi/sites/default/files/documents/lukion_opetussuunnitel-
man_perusteet_2019.pdf 31.5.2024 
Luostarinen, A. & Nieminen, J. H. (2019) Arvioinnin käsikirja. PS-kustannus, Jyväskylä. 
Luostarinen, A. & Ouakrim-Soivio, N. (2019) Arvioinnin erilaiset tehtävät. Teoksessa Luos-
tarinen, A. & Nieminen, J. H. (toim.) Arvioinnin käsikirja. PS-kustannus, Jyväskylä. 
Martin-Kniep, G. O. (2000) Becoming a better teacher: eight innovations that work. The As-
sociation for Supervision and Curriculum Development, Washington D. C. 
Metsämuuronen, J. (2009) Tutkimuksen tekemisen perusteet ihmistieteissä. Gummerus Kir-
japaino Oy, Jyväskylä. 
Moskal, B. M. & Leydens, J. A. (2000) Scoring rubric development: validity and reliability. 
Practical Assessment, Research, and Evaluation 7(10). DOI:10.7275/q7rm-gg74 
Neil, D. T., Wadley, D. A. & Phinn, S. R. (2010) A generic framework for criterion-refer-
enced assessment of undergraduate essays. Journal of Geography in Higher Education 
23(3) 303—325. DOI: 10.1080/03098269985263 
Nieminen, J. H. (2019) Arviointikulttuuri. Teoksessa Luostarinen, A. & Nieminen, J. H. 
(toim.) Arvioinnin käsikirja. PS-kustannus, Jyväskylä. 
Nitko, A. J. & Brookhart, S. (2011) Educational assessment of students. 6. p. Pearson, Bos-
ton.  
Norton, L. (2004) Using assessment criteria as learning criteria: a case study in psychology. 
Assessment & Evaluation in Higher Education 29(6) 687—702. DOI: 
10.1080/0260293042000227236  
Ositettu otanta (s.a.) Tilastokeskus. https://stat.fi/meta/kas/ositettu_otanta.html 3.6.2024 
Otos ja otantamenetelmät (2003) KvantiMOTV. https://www.fsd.tuni.fi/menetelmaope-
tus/otos/otantamenetelmat.html 2.6.2024 
Ouakrim-Soivio, N. (2015) Oppimisen ja osaamisen arviointi. Helsinki, Kustannusosakeyhtiö 
Otava. 
Panadero, E. & Jonsson, A. (2013) The use of scoring rubrics for formative assessment pur-
poses revisited: a review. Educational Research Review 9 129—144. 
DOI: 10.1016/j.edurev.2013.01.002 
Panadero, E. & Jonsson, A. (2020) A critical review of the arguments against the use of ru-
brics. Educational Research Review 30(1). DOI: 10.1016/j.edurev.2020.100329 
59 
 
Panadero, E., Jonsson, A., Pinedo, L. & Fernández-Castilla, B. (2023) Effects of rubrics on 
academic performance, self-regulated learning, and self-efficacy: a meta-analytic re-
view. Educational Psychology Review 35(113). DOI: 10.1007/s10648-023-09823-4 
Pisterajat (s.a.) Ylioppilastutkintolautakunta. https://www.ylioppilastutkinto.fi/fi/tutkinnon-
suorittaminen/pisterajat 13.8.2024 
Popham, W. J. (1997) What’s wrong – and what’s right – with rubrics. Educational Leader-
ship 55(2) 72—75.   
Rahman, A., Seraj, P. M. I., Hasan, M. K., Namaziandost, E. & Tilwani, S. A. (2021) Wash-
back of assessment on English teaching-learning practice at secondary schools. Langu-
age Testing in Asia 11(12) 1—23. DOI: 10.1186/s40468-021-00129-2  
Reaaliaineiden kokeiden määräykset ja ohjeet (2024) Ylioppilastutkintolautakunta 23.1.2024 
https://www.ylioppilastutkinto.fi/fi/tutkinnon-toimeenpano/maaraykset-ja-ohjeet/koe-
kohtaiset-maaraykset-ja-ohjeet/reaaliaineiden 6.6.2024 
Reddy, Y. M. & Andrade, H. (2010) A review of rubric use in higher education. Assessment 
& Evaluation in Higher Education 35(4) 435—448. 
DOI: 10.1080/02602930902862859 
Rind, I. A. & Mari, M. A. (2019) Analysing the impact of external examination on teaching 
and learning of English at the secondary level education. Cogent Education 6(1) 1—
14. DOI: 10.1080/2331186X.2019.1574947 
Rinne, I. (2024) Same grade for different reasons, different grades for the same reason? As-
sessment & Evaluation in Higher Education 49(2) 220—232. DOI: 
10.1080/02602938.2023.2203883 
Reynders, G., Lantz, J., Ruder, S. M., Stanford, C. L. & Cole, R. S. (2020) Rubrics to assess 
critical thinking and information processing in undergraduate STEM courses. Interna-
tional Journal of STEM Education 7(9). DOI: 10.1186/s40594-020-00208-5  
Räkköläinen, M. (2013) Kontrollista luottamukseen. Teoksessa Räisänen, A. (toim.) Oppimi-
sen arvioinnin kontekstit ja käytännöt. Raportit ja selvitykset 2013:3, Opetushallitus. 
Saaranen-Kauppinen, A. & Puusniekka, A. (2009) Menetelmäopetuksen tietovaranto Kvali-
MOTV: Kvalitatiivisten menetelmien verkko-oppikirja. Yhteiskuntatieteellisen tietoar-
kiston julkaisuja 2009. https://www.fsd.tuni.fi/fi/tietoarkisto/julkaisut/kvalimotv.pdf 
26.2.2025 
Salamanca, S. L. C., Parra-Martínez, A., Chang, A., Maeda, Y. & Traynor, A. (2024) The ef-
fect of scoring rubrics use on self-efficacy and self-regulation. Educational Psychol-
ogy Review 36(3). DOI: 10.1007/s10648-024-09906-w 
60 
 
Sawaki, Y. (2016) Norm-referenced vs. criterion-referenced approach to assessment. Teo-
ksessa Tsagari, D. & Banerjee, J. (toim.) Handbook of second language assessment, 
45—60. De Gruyter, Berliini. 
Stemler, S. E. (2004) A comparison of consensus, consistency, and measurement approaches 
to estimating interrater reliability. Practical assessment, research & evaluation 9(4). 
Taanila, A. (2020) Korrelaatio. Akin menetelmäblogi. 23.5.2022 https://tilastoapu.word-
press.com/korrelaatio/ 18.2.2025  
Ten Cate, O. & Regehr, G. (2019) The power of subjectivity in the assessment of medical 
trainees. Academic Medicine 94(3) 333—337. DOI: 
10.1097/ACM.0000000000002495  
Tilastollinen päättely (s.a.) Tietoarkisto. https://www.fsd.tuni.fi/fi/palvelut/menetelmaope-
tus/kvanti/paattely/paattely/ 13.1.2025  
Tuomi, J. & Sarajärvi, A. (2018) Laadullinen tutkimus ja sisällönanalyysi. Helsinki, Kustan-
nusosakeyhtiö Tammi. 
Valtioneuvoston asetus lukiokoulutuksesta 810/2018. Annettu Helsingissä 4.10.2018. 
Valtioneuvoston asetus ylioppilastutkinnosta 612/2019. Annettu Helsingissä 9.5.2019.  
Vilkka, H. (2007) Tutki ja mittaa: määrällisen tutkimuksen perusteet. Kustannusosakeyhtiö 
Tammi, Helsinki. 
Wallace, M. P. & Ng, J. S. W. (2023) Fairness of classroom assessment approach: perceptions 
from EFL students and teachers. English Teaching & Learning 47(4) 529—548. DOI: 
10.1007/s42321-022-00127-4  
Yleiset määräykset ja ohjeet (2024) Ylioppilastutkintolautakunta 2.7.2024 https://www.yliop-
pilastutkinto.fi/fi/tutkinnon-toimeenpano/maaraykset-ja-ohjeet/yleiset-maaraykset-ja-
ohjeet#chapter-1-2-1 24.7.2024 
61 
 
Liitteet 
Liite 1. Tehtävän 7 nykyiset arviointiohjeet eli hyvän vastauksen piirteet 
 
62 
 
 
 
63 
 
 
 
64 
 
 
 
65 
 
Liite 2. Vastausten sisällönanalyysin analyysirunko 
Matriisin kriteeri Kriteerin osa-alueet Osa-alueen laatuluokkien kuvaukset 
(0, 5, 10, 15, 20) 
Luku-
määrä  
Tehtävänannon  
noudattaminen 
Sisältöjen osuvuus ei vastaa tehtävänantoon; tehtävä ymmärretty vää-
rin 
 
osin tehtävänannon mukainen; heikosti rajattu, epä-
selvä tai harhaileva 
 
pääosin tehtävänannon mukainen; pienissä määrin 
epäolennaisuuksia  
 
pääosa vastauksen sisällöistä on olennaisia  
käsittelee kattavasti ja harkitusti olennaiset asiat; ei 
tehtävänannon kannalta epäoleellisia asioita 
 
Tehtävänannon mu-
kainen tarkastelutapa 
annettua tarkastelutapaa ei noudateta  
ei täysin tehtävänannon mukainen/vastaus hyvin 
suppea 
 
pääosin tehtävänannon mukainen  
selkeä ymmärrys tehtävänannosta  
erinomainen ymmärrys tehtävänannosta  
Vastauksen esitystapa annettua esitystapaa ei noudateta  
ei täysin tehtävänannon mukainen  
pääosin tehtävänannon mukainen  
selkeä ymmärrys esitystavasta  
erinomainen ymmärrys esitystavasta  
Sisällöt Huomioiden määrä - (pääasiassa vain virheellistä sisältöä)  
yksittäisiä oikein kuvattuja huomioita  
muutamia laajemmin käsiteltyjä huomioita/useita 
suppeammin käsiteltyjä huomioita  
 
muutamia syvällisesti käsiteltyjä huomioita/useita 
pinnallisemmin käsiteltyjä huomioita 
 
tehtävänannon mukaisia huomioita kattavasti  
Huomioiden oikeelli-
suus 
pääasiassa vain virheellistä sisältöä  
yksittäisiä oikein kuvattuja sisältöjä; jos useita huo-
mioita, voi olla muutamia asiavirheitä 
 
yksi asiavirhe tai jonkin verran epätäsmällisyyttä  
lievää epätäsmällisyyttä; ei varsinaisia virheitä  
ei asiavirheitä tai epätäsmällisyyttä  
Huomioiden peruste-
lut 
huomioita ei perusteltu  
osalle huomioista voidaan esittää niukat perustelut  
muutamalla huomiolla tyydyttävät perustelut/use-
alla huomiolla hatarat perustelut 
 
muutamia syvällisesti ja virheettömästi perustel-
tuja/useita pinnallisesti perusteltuja huomioita 
 
huomiot perusteltu osuvasti, virheettömästi ja tar-
koituksenmukaisesti 
 
Maantieteellinen 
tarkastelu- ja jäsen-
telytapa 
Maantieteen näkökul-
mien hallinta 
ei olennaisia näkökulmia  
joitain olennaisia näkökulmia; epätasapainoinen 
vastaus 
 
jäsennelty päänäkökulmien mukaisesti  
jäsennelty tehtävänantoon kuuluvien monipuolisten 
näkökulmien mukaisesti; näkökulmia liitetty toi-
siinsa 
 
monipuoliset näkökulmat ja niiden väliset vuoro-
vaikutussuhteet kuvattu; johdonmukainen jäsentely 
 
rakenne hajanainen ja sekava/vastaus hyvin suppea  
puutteellinen rakenne, eteneminen epäloogista  
66 
 
Vastauksen looginen 
eteneminen ja ra-
kenne 
pääosin selkeä rakenne; joitain pieniä rakenteellisia 
puutteita tai ei etene täysin loogisesti 
 
toimiva rakenne, etenee loogisesti  
eheä ja tasapainoinen rakenne 
 
 
Käsitteet Täsmällinen  
käsitteiden käyttö 
ei käytetä käsitteitä; arkikielinen vastaus  
käsitteidenkäytössä selviä puutteita tai virheitä  
käsitteitä käytetään; käytössä lieviä puutteita tai 
yksittäinen virhe 
 
käytetään keskeisiä käsitteitä; ei varsinaisia vir-
heitä 
 
käsitteitä käytetään monipuolisesti, täsmällisesti ja 
huolellisesti 
 
Havaintojen kytkemi-
nen maantieteellisiin 
ilmiöihin tai proses-
seihin käsitteellistä-
mällä 
ei kytketä lainkaan ilmiöihin tai prosesseihin  
saatetaan mainita jokin ilmiö tai prosessi  
viitataan pintapuolisesti ilmiöön tai prosessiin  
hyödynnetään maantieteellistä teoriaa; kytkeminen 
ilmiöidin ja prosesseihin kevyttä 
 
asiat kytketty hyvin ilmiöihin ja prosesseihin  
Viestinnän keinot Suomenkielinen asia-
teksti 
ilmaisu vaikeasti ymmärrettävää  
osittain puhekielinen/kömpelö/paljon kielioppivir-
heitä 
 
pääosin selkeää asiatekstiä; voi olla paikoitellen 
kirjoitusvirheitä 
 
selkeää ja lähes virheetöntä asiatekstiä  
kirjoitusasu täysin virheetön  
Paikannimistö (n=16) paikannimet kirjoitettu kokonaan tai pääosin väärin  
paikannimissä paikoin asia- tai kirjoitusvirheitä  
paikannimissä pieniä kirjoitusvirheitä  
paikannimet kirjoitettu pääosin oikein  
paikannimet kirjoitettu virheettömästi