Neuroverkot tekstiaineistojen analysoinnissa

dc.contributor.authorPasanen, Miko
dc.contributor.departmentfi=Matematiikan ja tilastotieteen laitos|en=Department of Mathematics and Statistics|
dc.contributor.facultyfi=Luonnontieteiden ja tekniikan tiedekunta|en=Faculty of Science and Engineering|
dc.contributor.studysubjectfi=Tilastotiede|en=Statistics|
dc.date.accessioned2020-06-29T21:05:24Z
dc.date.available2020-06-29T21:05:24Z
dc.date.issued2020-05-22
dc.description.abstractTässä tutkielmassa tarkastellaan erilaisia tilastollisia menetelmiä tekstiaineistoille. Erityisessä keskiössä ovat neuroverkot, jotka ovat varsin käyttökelpoisia malleja erilaisissa luonnollisen kielen tehtävissä, kuten kääntämisessä sekä tekstin tunnistuksessa. Tekstiaineistojen tapauksessa perinteiset tilastolliset menetelmät kärsivät siitä, että niillä ei voida usein löytää tekstistä kontekstia. Tämän takia tekstin antamasta informaatiosta suuri osa menetetään. Lisäksi tekstiaineiston dimensio on usein hyvin suuri, mikä rajoittaa sille sopivia menetelmiä. Neuroverkot eivät kärsi dimension suuruuden aiheuttamista ongelmista. Tämän lisäksi ne itsessään löytävät tekstistä ongelmaan sopivia piirteitä. Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä. Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.
dc.format.extent67
dc.identifier.olddbid166902
dc.identifier.oldhandle10024/150036
dc.identifier.urihttps://www.utupub.fi/handle/11111/21759
dc.identifier.urnURN:NBN:fi-fe2020062946179
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightssuljettu
dc.source.identifierhttps://www.utupub.fi/handle/10024/150036
dc.titleNeuroverkot tekstiaineistojen analysoinnissa
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Pasanen_Miko_gradu.pdf
Size:
1.33 MB
Format:
Adobe Portable Document Format