Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • Turun yliopisto
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
  •   Etusivu
  • Turun yliopisto
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Neuroverkot tekstiaineistojen analysoinnissa

Pasanen, Miko (2020-05-22)

 
Tweet refworks
 
Katso/Avaa
Pasanen_Miko_gradu.pdf (1.329Mb)
Lataukset: 

suljettu
Pasanen, Miko
22.05.2020
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
http://urn.fi/URN:NBN:fi-fe2020062946179
Tiivistelmä
Tässä tutkielmassa tarkastellaan erilaisia tilastollisia menetelmiä tekstiaineistoille. Erityisessä keskiössä ovat neuroverkot, jotka ovat varsin käyttökelpoisia malleja erilaisissa luonnollisen kielen tehtävissä, kuten kääntämisessä sekä tekstin tunnistuksessa. Tekstiaineistojen tapauksessa perinteiset tilastolliset menetelmät kärsivät siitä, että niillä ei voida usein löytää tekstistä kontekstia. Tämän takia tekstin antamasta informaatiosta suuri osa menetetään. Lisäksi tekstiaineiston dimensio on usein hyvin suuri, mikä rajoittaa sille sopivia menetelmiä. Neuroverkot eivät kärsi dimension suuruuden aiheuttamista ongelmista. Tämän lisäksi ne itsessään löytävät tekstistä ongelmaan sopivia piirteitä.

Teoriaosuudessa tarkastellaan ensin tekstin erityispiirteitä aineistona, ja sen jälkeen erilaisten tilastollisten menetelmien käyttöä tekstiaineistojen analyysissa. Tämän jälkeen siirrytään neuroverkkoihin ja näistä erityistapauksena tarkastellaan ns. takaisinkytkettyjä neuroverkkoja (recurrent neural networks, RNN), jotka ovat erityisesti sekvenssissä oleville aineistoille, kuten teksti, erityisen hyviä. Tämä johtuu siitä, että näillä malleilla on ikäänkuin "muisti" aikaisemmista mallin saamista syötteistä.

Tutkielman empiirisessä osassa rakennetaan neuroverkko Yhdysvaltojen reaalisen bruttokansantuotteen kasvun ennustamiseen. Tarkoituksena on tarkastella voisiko lehtiartikkeleista saadusta ennusteinformaatiosta olla apua bruttokansantuotteen kasvun ennustamisessa. Tarkasteltavan aineiston ja kokeiltujen mallien tapauksessa lehtiartikkeleilla ei näytä olevan merkittävää lisäarvoa ennustetarkkuuden kannalta.
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [1874]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Lähetä palautetta | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Lähetä palautetta | Tietosuoja | Saavutettavuusseloste