Yleiset menetelmät tekstinlouhinnassa

dc.contributor.authorLietzen, Atte
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietotekniikka|en=Information and Communication Technology|
dc.date.accessioned2025-01-17T22:30:18Z
dc.date.available2025-01-17T22:30:18Z
dc.date.issued2025-01-07
dc.description.abstractTarve käsitellä jatkuvasti kasvavaa määrää digitaalisia tekstejä niiden analysoimiseksi on suuri. Tähän tarkoitukseen on kehitetty ja sovellettu suuri määrä erilaisia menetelmiä, joiden yleisyyden arviointi ja toiminnan tarkastelu on tärkeää. Tavoitteena tässä tutkielmassa on selvittää mitä yleisiä menetelmiä tekstinlouhinnassa esiintyy sekä tarkastella niiden toimintaa esimerkkien kautta. Tutkielma toteutettiin kirjallisuuskatsauksena, jolla pyrittiin selvittämään sekä mitkä menetelmät ovat yleisiä, että miten nämä menetelmät toimivat tekstinlouhinnassa. Tuloksista selviää, että yleisiä menetelmiä ovat hierarkkinen klusterointi, tiedon haku tf-idf:ää käyttäen sekä Named-Entity Recognition (NER). Näitä menetelmiä sovelletaan hyvinkin erilaisiin käyttökohteisiin toisistaan merkittävästikin eroavilla tavoilla. Menetelmien toiminta oli usein riippuvaista oikein valitusta käyttökohteesta, pohjamenetelmän oikeanlaisesta käytöstä sekä uusien tapojen kuten muuntajakielimallien hyödyntämisestä.
dc.format.extent33
dc.identifier.olddbid196712
dc.identifier.oldhandle10024/179755
dc.identifier.urihttps://www.utupub.fi/handle/11111/2112
dc.identifier.urnURN:NBN:fi-fe202501174393
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/179755
dc.subjecttekstinlouhinta, klusterointi, tiedon haku, tf-idf, tiedon poiminta, NER
dc.titleYleiset menetelmät tekstinlouhinnassa
dc.type.ontasotfi=Kandidaatintutkielma|en=Bachelor's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Lietz%C3%A9n%20Atte%20Kandi%202024.pdf
Size:
372.44 KB
Format:
Adobe Portable Document Format