Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko (2020-05-22)

Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko
(22.05.2020)
Katso/Avaa
Pasanen_Miko_gradu.pdf (1.329Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2020062946179
Tiivistelmä
Tässä tutkielmassa tarkastellaan erilaisia tilastollisia menetelmiä tekstiaineistoille. Erityisessä keskiössä ovat neuroverkot, jotka ovat varsin käyttökelpoisia malleja erilaisissa luonnollisen kielen tehtävissä, kuten kääntämisessä sekä tekstin tunnistuksessa. Tekstiaineistojen tapauksessa perinteiset tilastolliset menetelmät kärsivät siitä, että niillä ei voida usein löytää tekstistä kontekstia. Tämän takia tekstin antamasta informaatiosta suuri osa menetetään. Lisäksi tekstiaineiston dimensio on usein hyvin suuri, mikä rajoittaa sille sopivia menetelmiä. Neuroverkot eivät kärsi dimension suuruuden aiheuttamista ongelmista. Tämän lisäksi ne itsessään löytävät tekstistä ongelmaan sopivia piirteitä.

Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä.

Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [4864]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste