Yleiset menetelmät tekstinlouhinnassa
| dc.contributor.author | Lietzen, Atte | |
| dc.contributor.department | fi=Tietotekniikan laitos|en=Department of Computing| | |
| dc.contributor.faculty | fi=Teknillinen tiedekunta|en=Faculty of Technology| | |
| dc.contributor.studysubject | fi=Tietotekniikka|en=Information and Communication Technology| | |
| dc.date.accessioned | 2025-01-17T22:30:18Z | |
| dc.date.available | 2025-01-17T22:30:18Z | |
| dc.date.issued | 2025-01-07 | |
| dc.description.abstract | Tarve käsitellä jatkuvasti kasvavaa määrää digitaalisia tekstejä niiden analysoimiseksi on suuri. Tähän tarkoitukseen on kehitetty ja sovellettu suuri määrä erilaisia menetelmiä, joiden yleisyyden arviointi ja toiminnan tarkastelu on tärkeää. Tavoitteena tässä tutkielmassa on selvittää mitä yleisiä menetelmiä tekstinlouhinnassa esiintyy sekä tarkastella niiden toimintaa esimerkkien kautta. Tutkielma toteutettiin kirjallisuuskatsauksena, jolla pyrittiin selvittämään sekä mitkä menetelmät ovat yleisiä, että miten nämä menetelmät toimivat tekstinlouhinnassa. Tuloksista selviää, että yleisiä menetelmiä ovat hierarkkinen klusterointi, tiedon haku tf-idf:ää käyttäen sekä Named-Entity Recognition (NER). Näitä menetelmiä sovelletaan hyvinkin erilaisiin käyttökohteisiin toisistaan merkittävästikin eroavilla tavoilla. Menetelmien toiminta oli usein riippuvaista oikein valitusta käyttökohteesta, pohjamenetelmän oikeanlaisesta käytöstä sekä uusien tapojen kuten muuntajakielimallien hyödyntämisestä. | |
| dc.format.extent | 33 | |
| dc.identifier.olddbid | 196712 | |
| dc.identifier.oldhandle | 10024/179755 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/2112 | |
| dc.identifier.urn | URN:NBN:fi-fe202501174393 | |
| dc.language.iso | fin | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | avoin | |
| dc.source.identifier | https://www.utupub.fi/handle/10024/179755 | |
| dc.subject | tekstinlouhinta, klusterointi, tiedon haku, tf-idf, tiedon poiminta, NER | |
| dc.title | Yleiset menetelmät tekstinlouhinnassa | |
| dc.type.ontasot | fi=Kandidaatintutkielma|en=Bachelor's thesis| |
Tiedostot
1 - 1 / 1
Ladataan...
- Name:
- Lietz%C3%A9n%20Atte%20Kandi%202024.pdf
- Size:
- 372.44 KB
- Format:
- Adobe Portable Document Format