Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko

Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko (2020-05-22)

Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko

(22.05.2020)

Katso/Avaa

Pasanen_Miko_gradu.pdf (1.329Mb)

Lataukset:

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

suljettu

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2020062946179

Tiivistelmä

Tässä tutkielmassa tarkastellaan erilaisia tilastollisia menetelmiä tekstiaineistoille. Erityisessä keskiössä ovat neuroverkot, jotka ovat varsin käyttökelpoisia malleja erilaisissa luonnollisen kielen tehtävissä, kuten kääntämisessä sekä tekstin tunnistuksessa. Tekstiaineistojen tapauksessa perinteiset tilastolliset menetelmät kärsivät siitä, että niillä ei voida usein löytää tekstistä kontekstia. Tämän takia tekstin antamasta informaatiosta suuri osa menetetään. Lisäksi tekstiaineiston dimensio on usein hyvin suuri, mikä rajoittaa sille sopivia menetelmiä. Neuroverkot eivät kärsi dimension suuruuden aiheuttamista ongelmista. Tämän lisäksi ne itsessään löytävät tekstistä ongelmaan sopivia piirteitä.

Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä.

Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [4864]