Suomen suomenkielisten paikannimien alueellinen variaatio
Virtanen, Emilia (2025-04-28)
Suomen suomenkielisten paikannimien alueellinen variaatio
Virtanen, Emilia
(28.04.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025060460570
https://urn.fi/URN:NBN:fi-fe2025060460570
Tiivistelmä
Tämän tutkielman aiheena on paikannimien alueellinen variaatio. Tavoitteena on selvittää, millaisia eri murrealueiden paikannimet ovat ja millaisen ennustuksen paikannimen sijaintialueesta voi tehdä ohjatun koneoppimisen menetelmällä. Menetelminä ovat perinteinen nimien syntaktis-semanttinen analyysi määrälliseen aineistoon soveltaen sekä tilastolliset menetelmät ja satunnaismetsä-niminen ohjatun koneoppimisen menetelmä.
Tutkielman aineisto on paikannimirekisteristä ja kattaa koko Suomen. Koko aineistossa on yli 700 000 paikannimeä. Nimistä on erotettu puoliautomaattisesti viimeinen leksikaalinen osa ja nimenalkuja, ja leksikaalisesti moniosaisten nimien yleisimpien piirteiden jakautumista on tarkasteltu murrealueittain ja paikanlajeittain. Leksikaalisesti moniosaisista maasto- ja vesistönimistä koostuvaan murrealueittain tasattuun 108 000 nimen aineistoon pohjautuen on lisäksi luotu ohjatun koneoppimisen menetelmällä luokittelumalleja.
Paikannimet eroavat tulosten perusteella toisistaan murrealueittain, mutta alueilla on paljon myös yhteisiä piirteitä. Viiden yleisimmän viimeisen leksikaalisen osan tarkastelu paljasti vaihtelua paitsi esiintymistaajuudessa myös viimeisen osan funktiossa. Vaihtelu liitttyy alueiden luonnonmaantieteeseen ja kielenpiirteisiin. Paikanlajeittaisessa tarkastelussa selvisi, että joillain yleisimmillä osilla näyttäisi toisilla alueilla korostuvan paikan lajiin viittaamisen funktio. Murrealueittain yleisimmistä kolmen merkin nimenaluista löytyi aikaisemmasta tutkimuksesta tuttua alueellista vaihtelua. Vaihtelu liittyy toisaalta kieleen ja toisaalta erilaisiin nimeämisaiheisiin.
Luokittelumalleista saatujen tulosten perusteella nimet muodostavat murrealueittaisia ryhmittymiä. Etenkin pohjoisin Suomi erottuu johdonmukaisesti kaikissa malleissa muista alueista. Sekä paikanlajeittain ryhmitellyt viimeiset leksikaaliset osat että nimenalut ovat merkityksellisiä sijaintialueen ennustamisessa. Kaikkein tärkeimpiä mallien tekemien ennustusten kannalta ovat kohoumien nimissä esiintyvät viimeiset leksikaaliset osat. Erilaisilla otoksilla on vaikutusta tuloksiin etenkin silloin, kun malli ennustaa sijaintialuetta perustuen sekä nimen viimeiseen leksikaaliseen osaan että nimenalkuun.
Luokittelumallien tärkeimpien muuttujien tarkempi tarkastelu olisi vielä jatkossa tarpeen. Lisäksi tarkasteltujen piirteiden jakaumaa kannattaisi selvittää esimerkiksi ohjaamattoman koneoppimisen menetelmin, kuten klusterianalyysilla. Paikannimistä voisi lisäksi erottaa johdinaineksia, morfofonologisia piirteitä tai sanastokerrostumia ja luoda vielä useampien piirteiden pohjalta luokittelumalleja.
Tutkielman aineisto on paikannimirekisteristä ja kattaa koko Suomen. Koko aineistossa on yli 700 000 paikannimeä. Nimistä on erotettu puoliautomaattisesti viimeinen leksikaalinen osa ja nimenalkuja, ja leksikaalisesti moniosaisten nimien yleisimpien piirteiden jakautumista on tarkasteltu murrealueittain ja paikanlajeittain. Leksikaalisesti moniosaisista maasto- ja vesistönimistä koostuvaan murrealueittain tasattuun 108 000 nimen aineistoon pohjautuen on lisäksi luotu ohjatun koneoppimisen menetelmällä luokittelumalleja.
Paikannimet eroavat tulosten perusteella toisistaan murrealueittain, mutta alueilla on paljon myös yhteisiä piirteitä. Viiden yleisimmän viimeisen leksikaalisen osan tarkastelu paljasti vaihtelua paitsi esiintymistaajuudessa myös viimeisen osan funktiossa. Vaihtelu liitttyy alueiden luonnonmaantieteeseen ja kielenpiirteisiin. Paikanlajeittaisessa tarkastelussa selvisi, että joillain yleisimmillä osilla näyttäisi toisilla alueilla korostuvan paikan lajiin viittaamisen funktio. Murrealueittain yleisimmistä kolmen merkin nimenaluista löytyi aikaisemmasta tutkimuksesta tuttua alueellista vaihtelua. Vaihtelu liittyy toisaalta kieleen ja toisaalta erilaisiin nimeämisaiheisiin.
Luokittelumalleista saatujen tulosten perusteella nimet muodostavat murrealueittaisia ryhmittymiä. Etenkin pohjoisin Suomi erottuu johdonmukaisesti kaikissa malleissa muista alueista. Sekä paikanlajeittain ryhmitellyt viimeiset leksikaaliset osat että nimenalut ovat merkityksellisiä sijaintialueen ennustamisessa. Kaikkein tärkeimpiä mallien tekemien ennustusten kannalta ovat kohoumien nimissä esiintyvät viimeiset leksikaaliset osat. Erilaisilla otoksilla on vaikutusta tuloksiin etenkin silloin, kun malli ennustaa sijaintialuetta perustuen sekä nimen viimeiseen leksikaaliseen osaan että nimenalkuun.
Luokittelumallien tärkeimpien muuttujien tarkempi tarkastelu olisi vielä jatkossa tarpeen. Lisäksi tarkasteltujen piirteiden jakaumaa kannattaisi selvittää esimerkiksi ohjaamattoman koneoppimisen menetelmin, kuten klusterianalyysilla. Paikannimistä voisi lisäksi erottaa johdinaineksia, morfofonologisia piirteitä tai sanastokerrostumia ja luoda vielä useampien piirteiden pohjalta luokittelumalleja.