Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Kandidaatin tutkielmat (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Kandidaatin tutkielmat (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Taulukoiden tunnistus osana OCR-pipelinea

Larkiola, Ilari (2025-09-29)

Taulukoiden tunnistus osana OCR-pipelinea

Larkiola, Ilari
(29.09.2025)
Katso/Avaa
Larkiola%20Ilari%20Kandi%202025.pdf (4.599Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025100399587
Tiivistelmä
Tämä tutkimus keskittyy taulukoiden tunnistukseen osana OCR-pipelinea historiallisista dokumenteista. Tutkimuksessa keskityttiin erikseen printattuihin ja käsinpiirrettyihin taulukoihin. Tutkimuksen tavoitteena oli selvittää, kuinka hyvin taulukoiden automaattinen tunnistus onnistuu käyttämällä YOLO11-malliversioihin perustuvia koneoppimismalleja sekä kuinka mallin koko ja koulutusparametrit, kuten epokkien määrä ja neuroverkon syvyys vaikuttavat mallin suorituskykyyn. Aineistona käytettiin Suomen Sukuhistoriallisen Yhdistyksen digitoituja muuttokirjoja, jotka sisälsivät rakenteellisesti vaihtelevia ja visuaalisesti haastavia dokumentteja. Käsin annotoitu aineisto jaettiin kolmeen luokkaan: sivun otsikko, taulukon otsikkorivi ja itse taulukko, mikä mahdollisti mallien kouluttamisen ja niiden suorituskyvyn vertailun eri datatyyppien välillä. Mallien tarkkuuteen vaikuttivat merkittävästi koulutusparametrit ja aineiston rakenne. Parhaat tulokset saavutettiin 100 epokin koulutuksella, ja kevyempi YOLO11s-malli osoittautui hyväksi ja resurssitehokkaaksi vaihtoehdoksi, vaikka suurempi YOLO11l-malli tarjosi tietyissä tilanteissa hieman paremman tarkkuuden. Printatulla datalla koulutettu malli kykeni osittain ennustamaan myös käsinpiirrettyä dataa, erityisesti varsinaisen taulukon osalta. Tulokset viittaavat siihen, että hyvin konfiguroidut YOLO-pohjaiset ratkaisut voivat tukea tehokasta taulukoiden tunnistusta ja tiedon keruuta vaihtelevista dokumenttimuodoista osana OCR-järjestelmiä.
Kokoelmat
  • Kandidaatin tutkielmat (kokotekstit) [1818]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste