Venäjänkielisten internettekstien annotointi ja rekisterien vertailu suomen ja venäjän välillä
Särkioja, Nella (2023-05-03)
Venäjänkielisten internettekstien annotointi ja rekisterien vertailu suomen ja venäjän välillä
Särkioja, Nella
(03.05.2023)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2023060752773
https://urn.fi/URN:NBN:fi-fe2023060752773
Tiivistelmä
Tutkielman aiheena on internettekstien jakautuminen rekistereihin. Tutkielmassa käytetään valmiita rekisteriluokkia ja luodaan käsin venäjänkielinen aineisto, jossa venäjänkielisiä internettekstejä on luokiteltu rekistereihin. Tarkoituksena on kuvata venäjänkielistä aineistoa rekistereiden avulla sekä vertailla sitä suomenkielisten rekistereiden kanssa.
Tutkimus liittyy Turun yliopistossa käynnissä olevaan hankkeeseen Uutinen, mielipide vai jotain muuta? Erilaiset tekstit ja niiden automaattinen tunnistus monikielisestä internetistä, jossa kehitetään erilaisia automaattisia menetelmiä jaottelemaan internettekstejä rekistereihin. Tutkimuksen aineisto on koottu vapaasta internetistä ja annotoitu yhtenevin ohjeistuksin. Venäjänkielinen aineisto on annotoitu tutkielmaa varten ja vertailuun käytetään suomenkielistä, valmiiksi annotoitua aineistoa.
Tutkielman tavoitteena on tuottaa uutta tietoa rekistereistä tarkastelemalla ja vertailemalla rekisterien frekvenssejä sekä yksittäisiä esimerkkejä tarkastelemalla. Tärkeänä osana tutkielmaa on uusi, venäjänkielinen aineisto rekisteritutkimusta varten, joka on vapaasti saatavilla https://github.com/TurkuNLP/RuCORE. Suomenkielisiä ja venäjänkielisiä rekistereitä tarkastelemalla huomattiin paljon yhteneväisyyksiä mutta myös eroja kielten välillä.
Tutkimus liittyy Turun yliopistossa käynnissä olevaan hankkeeseen Uutinen, mielipide vai jotain muuta? Erilaiset tekstit ja niiden automaattinen tunnistus monikielisestä internetistä, jossa kehitetään erilaisia automaattisia menetelmiä jaottelemaan internettekstejä rekistereihin. Tutkimuksen aineisto on koottu vapaasta internetistä ja annotoitu yhtenevin ohjeistuksin. Venäjänkielinen aineisto on annotoitu tutkielmaa varten ja vertailuun käytetään suomenkielistä, valmiiksi annotoitua aineistoa.
Tutkielman tavoitteena on tuottaa uutta tietoa rekistereistä tarkastelemalla ja vertailemalla rekisterien frekvenssejä sekä yksittäisiä esimerkkejä tarkastelemalla. Tärkeänä osana tutkielmaa on uusi, venäjänkielinen aineisto rekisteritutkimusta varten, joka on vapaasti saatavilla https://github.com/TurkuNLP/RuCORE. Suomenkielisiä ja venäjänkielisiä rekistereitä tarkastelemalla huomattiin paljon yhteneväisyyksiä mutta myös eroja kielten välillä.