Yleiset menetelmät tekstinlouhinnassa
avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Lataukset177
Pysyvä osoite
Verkkojulkaisu
DOI
Tiivistelmä
Tarve käsitellä jatkuvasti kasvavaa määrää digitaalisia tekstejä niiden analysoimiseksi on suuri. Tähän tarkoitukseen on kehitetty ja sovellettu suuri määrä erilaisia menetelmiä, joiden yleisyyden arviointi ja toiminnan tarkastelu on tärkeää.
Tavoitteena tässä tutkielmassa on selvittää mitä yleisiä menetelmiä tekstinlouhinnassa esiintyy sekä tarkastella niiden toimintaa esimerkkien kautta. Tutkielma toteutettiin kirjallisuuskatsauksena, jolla pyrittiin selvittämään sekä mitkä menetelmät ovat yleisiä, että miten nämä menetelmät toimivat tekstinlouhinnassa. Tuloksista selviää, että yleisiä menetelmiä ovat hierarkkinen klusterointi, tiedon haku tf-idf:ää käyttäen sekä Named-Entity Recognition (NER). Näitä menetelmiä sovelletaan hyvinkin erilaisiin käyttökohteisiin toisistaan merkittävästikin eroavilla tavoilla. Menetelmien toiminta oli usein riippuvaista oikein valitusta käyttökohteesta, pohjamenetelmän oikeanlaisesta käytöstä sekä uusien tapojen kuten muuntajakielimallien hyödyntämisestä.