Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Using transformers for page count prediction based on bibliographic metadata

Kekäläinen, Teo (2025-04-29)

Using transformers for page count prediction based on bibliographic metadata

Kekäläinen, Teo
(29.04.2025)
Katso/Avaa
Kekalainen_Teo_Thesis.pdf (634.3Kb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025050235374
Tiivistelmä
Bibliographic data science is a field of digital humanities which aims to enable the usage of bibliographic data for quantitative research. Due to inconsistencies, bib liographic data needs to be harmonized before it can be used for research. A part of the harmonization process is estimating the page count of documents based on short text descriptions which contain numbers, words and abbreviations. This the sis proposes a new approach for page count estimation which takes advantage of natural language processing to convert the text descriptions into vector form by using a pre-trained encoder-only transformer model.
The vectors are then used to predict the page count by using an artificial neural network which is attached to the encoder-only model. Two experiments were done in this thesis by training two machine learning models. First, a model was fine-tuned for page count prediction using a harmonized subset of the Finnish national bibliography, Fennica, which contained both the page count descriptions and numerical page counts. The second experiment was to use another harmonized subset of Fennica, to fine-tune the encoder-only part of the model using the masked language modeling task, which was done by using only the page count descriptions from the second dataset. After masked language modeling fine-tuning, the whole model consisting of the encoder-only model and the attached artificial neural network, was fine-tuned for page count prediction using the first dataset. Both models were able to predict the page count of documents but had worse accu racy when predicting high page counts. The model that was first fine-tuned using masked language modeling performed better than the model that was only fine-tuned for page count prediction.
The experiments show that encoder-only models are able to predict the page count of documents, and that masked language modeling can be used to improve page count prediction performance.
 
Bibliografinen datatiede on digitaalisten ihmistieteiden ala, jonka tavoitteena on mahdollistaa bibliografisen datan käyttö kvantitatiiviseen tutkimukseen. Bibliografisen datan hyödyntäminen tutkimuksessa vaatii datan harmonisointia datan sisältämien epäjohdonmukaisuuksien vuoksi. Dokumenttien sivumäärän arviointi lyhyiden tekstikuvausten pohjalta on osa harmonisointiprosessia. Tämä opinnäytetyö ehdot taa luonnollisen kielen käsittelyä hyödyntävää lähestymistapaa, jossa transformer arkkitehtuuriin perustuvaa esikoulutettua encoder-mallia käytetään sivumääräkuvausten muuntamiseen vektorimuotoon. Tämän jälkeen dokumenttien sivumäärää ennustetaan vektoreiden pohjalta hyödyntämällä encoder-malliin liitettyä keinotekoista neuroverkkoa.
Työssä tehtiin kaksi koetta kouluttamalla kaksi koneoppimismallia. Ensimmäinen malli hienosäädettiin sivumäärän ennustamiseen käyttämällä Suomen kansallisesta bibliografiasta, Fennicasta, johdettua tietoaineistoa. Tietoaineisto sisälsi sekä tekstimuodossa olevat sivumääräkuvaukset että aiemmin arvioidut sivumäärät, joten ainestoa pystyttiin käyttämään ohjattuun oppimiseen. Toisessa kokeessa käytetiin toista Fennicasta otettua tietoaineistoa hienosäätämällä encoder-mallia sivumäärä kuvausten pohjalta käyttämällä masked language modeling-tehtävää. Masked language modeling-hienosäädön jälkeen toinen malli hienosäädettiin sivumäärän ennustamiseen käyttämällä ensimmäistä tietoainestoa.
Molemmat mallit pystyivät ennustamaan dokumenttien sivumäärää, mutta niiden ennustuskyky heikkeni suurilla sivumäärillä. Masked language modeling-tehtävään hienosäädetty malli oli parempi sivumäärän ennustamisessa, kuin pelkkään sivumäärän ennustamiseen hienosäädetty malli.
Kokeet osoittavat, että encoder-malleilla pystytään ennustamaan dokumenttien sivumäärää ja, että masked language modeling-hienosäätö pystyy parantamaan sivumäärän ennustustarkkuutta.
 
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit) [9162]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste