Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

The effect of the primary language of the school on the lexical diversity and density of Finnish upper secondary school students : a comparative study

Klemelä, Mikael (2025-05-15)

The effect of the primary language of the school on the lexical diversity and density of Finnish upper secondary school students : a comparative study

Klemelä, Mikael
(15.05.2025)
Katso/Avaa
Pro_gradu_Mikael_Klemela.pdf (1.382Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061065244
Tiivistelmä
This thesis investigates the effect of the primary language of a school on the lexical diversity and density of English essays written by its students. The data consists of three groups of essays of students from three Finnish upper secondary schools. One of the schools uses Finnish as their primary language of study, one Swedish and one English. The total number of essays analysed in this thesis is 95. This includes 41 essays from the school using Finnish as their primary language, 33 from the school using Swedish, and 21 from the school using English as their primary language.
The study examines the lexical diversity of the essays using the TTR, Root TTR, MATTR, HD-D and MTLD indices. The values for these indices and the lexical density of the essays is calculated using the natural language processing tool TAALED. A one-way ANOVA and Scheffé’s post hoc tests were conducted on the TAALED results to identify statistically significant differences between the groups.
The results showed that students using English as their primary language of study produced essays with higher lexical diversity and density values on average, especially when only focusing on the content words of the essays. The results suggest that the increased exposure to English improves a student’s lexical proficiency. Differences in essay length, student motivation, the presence of misspellings in the essays, and the small scope of this study limit the validity of this study. This study highlights the importance of implicit learning and calls for more thorough research on this topic.
 
Johdanto
Tämä tutkielma tarkastelee pääasiallisen opetuskielenä käytetyn kielen vaikutusta suomalaisten lukiolaisten englanninkielisten kirjoitelmien leksikaaliseen diversiteettiin (sanaston monipuolisuus) ja leksikaaliseen tiheyteen (kuinka suuri osa tekstistä koostuu sisällöllisistä sanoista). Näitä pidetään tärkeinä mittareina vieraan kielen taitotasoa arvioitaessa (Edmonds, Hilton ja Leclercq, 2014, Read, 2000). Tämän tutkielman aineisto koostuu kolmesta esseeryhmästä. Yhden kirjoittaneet oppilaat käyttävät suomea pääasiallisena opetuskielenään (PLF), toisen ruotsia (PLS) ja kolmannen englantia (PLE). Tutkimuksen tavoitteena oli selvittää:
1. Millaisia, jos mitään, eroja on suomalaisten lukiolaisten kirjoittamien englanninkielisten esseiden leksikaalisessa diversiteetissä riippuen siitä, mikä on koulun pääasiallinen opetuskieli?
2. Millaisia, jos mitään, eroja on suomalaisten lukiolaisten kirjoittamien englanninkielisten esseiden leksikaalisessa tiheydessä riippuen siitä, mikä on koulun pääasiallinen opetuskieli?
3. Mitkä esseet ovat ryhmien korkeimmat ja matalimmat ääripäät leksikaalisen diversiteetin ja leksikaalisen tiheyden arvoissa ja millaisia eroja niissä on?
Tutkimuksen tausta
Chacon Beltranin, Abello-Contessen and Torreblanca-Lopezin (2010) mukaan on ollut yleinen käsitys, jonka mukaan vieraan kielen oppijat kartuttavat sanavarastoaan altistumalla kohdekielelle. Heidän mukaansa sanastonoppimisen merkitys osana vieraan kielen oppimista kasvoi 1980-luvulla ja 1990-luvulla siitä tuli merkittävä osa vieraan kielen oppimista.

Nick Ellis (2015, 3) tarkastelee eksplisiittisen ja implisiittisen oppimisen käsitteitä. Hänen mukaansa implisiittinen oppiminen tapahtuu oppijan tiedostamatta luonnollisissa ympäristöissä, kun taas eksplisiittinen oppiminen tapahtuu tiedostetusti, esimerkiksi oppitunnilla. Ellisin mukaan vieraan kielen käytön tiheys vaikuttaa oppimiseen. Tässä tutkimuksessa yksi ryhmistä käyttää englantia pääasiallisena opetuskielenään, mikä lisää tiheyttä, jolla he käyttävät englannin kieltä. Tämä lisääntynyt tiheys voi vaikuttaa positiivisesti heidän leksikaaliseen diversiteettiinsä ja leksikaaliseen tiheyteensä.

Paul Nation (2013) kuvaa sanaston oppimisen elementtejä ja määrittelee, miten sanoja voidaan laskea. Hänen mukaansa niitä voidaan laskea sanaesiintyminä, jolloin lasketaan kaikki tekstin sanat, tyyppeinä, jolloin ei lasketa toistuvia sanoja ensimmäisen kerran jälkeen ja lemmoina, jolloin sanan kaikki taivutusmuodot lasketaan samaksi sanaksi.

Tekstin leksikaalinen diversiteetti mitataan usein laskemalla tekstissä esiintyvien tyyppien määrä jaettuna sanojen kokonaismäärällä. Näin saadaan tekstin tyyppi-sanaesiintymä-suhde, eli TTR (type-token-ratio). TTR:n lisäksi on olemassa monia leksikaalisen diversiteetin mittaamiseen käytettäviä indeksejä, jotka pyrkivät korjaamaan toistensa heikkoudet. Kojima ja Yamashita (2014), Engber (1995) ja Zheng (2025) huomauttavat, että monet leksikaalisen diversiteetin indeksit ovat herkkiä tekstin pituudelle.

Nasseri ja Thompson (2021) tutkivat leksikaalisen diversiteetin ja leksikaalisen tiheyden eroja kolmen ryhmän pro gradu -tutkielmien tiivistelmissä. Heidän ryhmänsä koostuivat englantia äidinkielenään puhuvien ryhmästä, englantia toisena kielenään puhuvien ryhmästä ja englantia vieraana kielenä puhuvien ryhmästä. He analysoivat tekstejään kielianalyysityökaluilla ja heidän tutkimuksensa mukaan englantia vieraana kielenä puhuvien ryhmän esseet olivat vähiten leksikaalisesti rikkaita (alimmat leksikaalisen diversiteetin ja leksikaalisen tiheyden arvot). Englantia äidinkielenään ja toisena kielenään puhuvien ryhmien leksikaalinen rikkaus oli samankaltaista.

Pietilä (2015) tutki myös kolmen eri kielellisen taustan pro gradu -tutkielmia. Suomalaisten, tšekkiläisten ja brittiläisten opiskelijoiden pro gradu -tutkielmien johtopäätösosioita. Hänen tutkimuksensa mukaan brittiläisen ryhmän tekstit olivat leksikaalisesti rikkaampia ja käyttivät enemmän akateemista sanastoa.

Zheng (2025) tutki Japanin pääministerien virallisten poliittisten puheiden leksikaalista diversiteettiä. Hänen tutkimuksensa osoitti, että kaikki kaksitoista hänen käyttämäänsä leksikaalisen diversiteetin indeksit olivat jossain määrin herkkiä tekstin pituudelle. Tämän takia on tärkeää käyttää leksikaalisen diversiteetin mittaukseen monia indeksejä. Leksikaalinen tiheys ei osoittautunut pituusherkäksi Zhengin (2025) tutkimuksen mukaan.

Aineisto ja menetelmät
Tämän tutkimuksen aineisto koostui 95:stä esseestä, 41 PLF-ryhmän esseetä, 33 PLS-ryhmän esseetä ja 21 PLE-ryhmän esseetä. Yksittäisistä teksteistä puhuttaessa esseisiin viitataan koodeilla kirjoittajien yksityisyyden takaamiseksi. Kaikkien tutkimuksessa käytettyjen esseiden kirjoittajat olivat antaneet suostumuksensa heiden tekstiensä käyttämiseen tutkimuksissa.

Kaikkien kolmen ryhmän oppilaat olivat saaneet esseidensä kirjoittamiseen samat ohjeet ja valinneet aiheensa kolmesta vaihtoehdosta. Yhteiset aiheet ovat tämän tutkimuksen kannalta olennaisia, koska se minimoi aihe-erojen takia johtuvat erot ryhmien leksikaalisessa diversiteetissä ja leksikaalisessa tiheydessä. On kuitenkin huomattava, että PLF-ryhmän esseistä yli 75% olivat valinneet saman aiheen. PLS- ja PLE-ryhmissä aiheet olivat jakautuneet tasaisesti.

Esseiden leksikaalisen rikkauden analysointiin käytettiin TAALED-ohjelmistoa (Kyle, “TAALED”). TAALED:in avulla analysoitiin esseiden Simple TTR, Root TTR, MATTR, HD-D ja MTLD MA WRAP leksikaalisen diversiteetin indeksit. Näillä leksikaalisen diversiteetin indekseillä laskettiin sekä esseiden kaikkien sanojen leksikaalisen diversiteetin arvot, että esseiden sisältösanojen (CW) leksikaalisen diversiteetin arvot. Näiden lisäksi TAALED:in avulla laskettiin esseiden sanaesiintymien leksikaalinen tiheys ja niiden tyyppien leksikaalinen tiheys. Esseet esivalmisteltiin TAALED:in käyttöä varten lemmatisoimalla ne.

TAALED:in avulla saatuja ryhmien tuloksia verrattiin keskenään tekemällä niille yksisuuntainen ANOVA (varianssianalyysi). ANOVA:n avulla selvitettiin, mitä indeksejä käyttämällä löytyi tilastollisesti merkittäviä eroja ryhmien välillä. Merkitsevyys määritettiin p-arvon avulla: jos p < 0,05, nollahypoteesi voitiin hylätä. Tämän jälkeen näiden indeksien ANOVA:n tuloksille tehtiin Scheffén post hoc -testi, jolla saatiin selville minkä ryhmien välillä tilastollisesti merkittävät erot olivat. Scheffén post hoc -testi valittiin, koska se on sopiva aineistoihin, joiden ryhmäkoko ei ole tasainen (Eddington, 2015, 66).

Tutkimuksessa tarkasteltiin myös ryhmien leksikaaliselta diversiteetiltään ja leksikaaliselta tiheydeltään parhaimpia ja heikoimpia esseitä. Nämä ääripäät tunnistettiin TAALED –tuloksista ja niistä löydettiin toistuvuuksia indeksien välillä. Tämän tarkoituksena oli vertailla ryhmien sisäisiä ja ryhmien välisiä ääripäitä ja tunnistaa niiden erot.

Tuloksia ja Päätelmiä

ANOVA -testeillä tilastollisesti merkittäviä eroja löytyi Simple TTR, Root TTR, Root TTR CW, MATTR CW, HD-D CW ja MTLD MA WRAP CW leksikaalisen diversiteetin indeksien TAALED –tuloksista. Post hoc -testeillä tunnistettiin, että erot olivat kaikilla paitsi Simple TTR indeksillä ryhmien PLF-PLS ja PLF-PLE välillä. PLS ja PLE-ryhmien välillä löytyi tilastollisesti merkittäviä eroja Root TTR CW, MATTR CW ja HD-D CW indekseillä.

Kaikilla paitsi yhdellä indeksillä, joilla löytyi tilastollisesti merkittäviä eroja, PLE-ryhmällä oli korkein leksikaalisen diversiteetin keskiarvo ja PLF-ryhmällä matalin. Simple TTR indeksillä korkein leksikaalisen diversiteetin keskiarvo oli PLF-ryhmällä ja matalin PLS-ryhmällä. Simple TTR on käytetyistä indekseistä herkin tekstin pituudelle, ja tekstien pidentyessä niiden Simple TTR –arvo laskee. PLF-ryhmän esseiden keskimääräinen sanamäärä oli merkittävästi muita ryhmiä pienempi. PLF-ryhmän keskimääräinen sanamäärä oli 117, PLS-ryhmän 201 ja PLE-ryhmän 177. Nämä syyt johtavat päätelmään, että PLF-ryhmän korkea leksikaalisen diversiteetin keskiarvon tulos Simple TTR -indeksillä johtui kyseisen indeksin puutteista tekstin pituuden suhteen.

Sekä esseiden sanaesiintymien leksikaalisen tiheyden, että niiden tyyppien leksikaalisen tiheyden ANOVA -testeillä löytyi tilastollisesti merkittäviä eroja. Post hoc -testeillä havaittiin, että merkittävät erot olivat sanaesiintymien leksikaalisen tiheyden tuloksissa ryhmien PLF-PLS ja PLS-PLE välillä. Tyyppien leksikaalisen tiheyden tuloksista post hoc -testillä löytyi merkittäviä eroja kaikkien ryhmäparien välillä. Kummallakin leksikaalisen tiheyden indeksillä PLE ryhmällä oli korkein leksikaalinen tiheys. PLS-ryhmällä oli matalin sanaesiintymien leksikaalinen tiheys ja PLF ryhmällä matalin tyyppien leksikaalinen tiheys.

Nämä tulokset viittaavat siihen, että PLE-ryhmän englannin kielen käyttö heidän pääasiallisena opetuskielenään lisää heidän leksikaalista rikkauttaan englannin esseiden kirjoituksessa. Pitää kuitenkin ottaa huomioon muut mahdolliset ryhmien leksikaaliseen rikkauteen vaikuttavat tekijät. Indekseissä sekä PLE että PLS-ryhmien leksikaalisen diversiteetin arvot olivat huomattavasti korkeampia kuin PLF-ryhmän.

Ryhmien leksikaalisen diversiteetin arvoihin saattaa vaikuttaa myös heidän englannin kielen keskiarvonsa. Ryhmien oppilaiden viimeisten englannin kielen numeroiden keskiarvot olivat seuraavat: PLF-7.52, PLS-8.34, PLE-7.81. PLS-ryhmän korkeaan leksikaalisen diversitetin keskiarvoon saattaa vaikuttaa ryhmän korkea englannin kielen keskiarvo.

Toinen vaikuttava tekijä on oppilaiden motivaatio esseiden kirjoitushetkellä. Esseiden kirjoitus oli osa tutkimusta, eikä vaikuttanut heidän arvosanaansa. Esseiden kirjoitusohjeissa oli annettu vähimmäissanamääräksi 80-100 sanaa. PLF-ryhmän keskimääräinen sanamäärä oli 117, joka oli huomattavasti pienempi kuin PLS-ryhmän 201 tai PLE-ryhmän 177. Kaksi PLF ryhmän esseetä eivät päässeet 80 sanan tavoitteeseen. Tämä alhainen keskimääräinen sanamäärä saattaa viitata siihen, että PLF-ryhmän oppilaiden motivaatio esseen kirjoittamiseen ei ollut niin korkea, kuin PLS ja PLE-ryhmien oppilailla.

Ryhmien leksikaalisen diversiteetin ääripäinä esiintyivät usen samat esseet. Ryhmien sanaesiintymien leksikaalisen tiheyden ja ryhmien tyyppien leksikaalisen tiheyden ääripäät taas olivat joka ryhmällä eri esseet. PLF-ryhmän useimmalla leksikaalisen diversiteetin indeksillä alhaisimman arvon saanutta esseetä verrattaessa PLF-ryhmän vastaavasti parhaimman arvon esseeseen, korkeamman leksikaalisen diversiteetin esseessä esiintyy huomattavasti vähemmän toistoa.

Yksittäisiä esseitä vertaaminen korostaa yhtä tämän tutkimuksen puutteista. TAALED ei tunnista kirjoitusvirheitä, vaan laskee esimerkiksi sekä sanan Finland, että sen väärinkirjoitetun muodon Finlad uniikeiksi tyypeiksi. Esseissä, joissa oli kirjoitusvirheitä, ne esiintyivät useimmiten samalla tavalla sanan jokaisessa maininnassa. Joissain esseissä kuitenkin oli useampi eri kirjoitusmuoto samasta sanasta, jonka seurauksena kyseiset esseet saivat TAALED:in avulla laskettuna korkeammat leksikaalisen diversiteetin ja tiheyden arvot, kuin niiden olisi pitänyt. Tämän olisi voinut estää korjaamalla esseiden kirjoitusvirheet ennen niiden analysoimista, mutta se ei ollut mahdollista tätä tutkimusta tehdessä.

Tiivistettynä tämän tutkimuksen tulokset tukevat sitä, että englannin käyttö opetuskielenä edistää sanaston kehitystä ja leksikaalista rikkautta ja korostaa implisiittisen oppimisen tärkeyttä. Tämän tutkimuksen rajoitteet, ryhmäkoon vaihtelu, painottuma PLF-ryhmän aihevalinnassa sekä esseiden kirjoitusvirheiden vaikutus tuloksiin ovat puutteita, joita tulevat tutkimukset tästä aiheesta voivat korjata. Tulevat tutkimukset voivat myös tutkia kirjoitustilanteen aikaisen motivaation merkitystä tuloksiin.
 
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [5024]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste