Neuroverkot tekstiaineistojen analysoinnissa
Pasanen, Miko (2020-05-22)
Neuroverkot tekstiaineistojen analysoinnissa
Pasanen, Miko
(22.05.2020)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2020062946179
https://urn.fi/URN:NBN:fi-fe2020062946179
Tiivistelmä
Tässä tutkielmassa tarkastellaan erilaisia tilastollisia menetelmiä tekstiaineistoille. Erityisessä keskiössä ovat neuroverkot, jotka ovat varsin käyttökelpoisia malleja erilaisissa luonnollisen kielen tehtävissä, kuten kääntämisessä sekä tekstin tunnistuksessa. Tekstiaineistojen tapauksessa perinteiset tilastolliset menetelmät kärsivät siitä, että niillä ei voida usein löytää tekstistä kontekstia. Tämän takia tekstin antamasta informaatiosta suuri osa menetetään. Lisäksi tekstiaineiston dimensio on usein hyvin suuri, mikä rajoittaa sille sopivia menetelmiä. Neuroverkot eivät kärsi dimension suuruuden aiheuttamista ongelmista. Tämän lisäksi ne itsessään löytävät tekstistä ongelmaan sopivia piirteitä.
Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä.
Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.
Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä.
Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.