Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Leveraging text extraction and language models for coin image classification

Vähämäki, Santeri (2025-05-30)

Leveraging text extraction and language models for coin image classification

Vähämäki, Santeri
(30.05.2025)
Katso/Avaa
Thesis.pdf (3.972Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061064846
Tiivistelmä
The process and classification of historical coins includes significant challenges. Despite advances in digital technology for cultural heritage (CH) artifacts, reliable automated methods for their identification are not perfectly effective. This thesis investigates the application of machine learning (ML) and deep learning (DL) techniques, and their numerical and statistical methods to enhance historical coin recognition and classification, aiming to improve authenticity verification and doc- umentation.
This research uses a combination of classical pattern recognition (CPR) techniques, DL models, and natural language processing (NLP) approaches to analyze coin images. Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) are applied for feature extraction and classification, while Optical Character Recognition (OCR) models, such as Keras OCR and Convolutional Recurrent Neural Network (CRNN), support in text extraction. Furthermore, generative language models like GPT-3 or ChatGPT refine text recognition output and support coin classification.
The results indicate that CNN-based feature extraction enhances text visibility compared to traditional methods, but additional steps, including OCR and sequence modeling, are necessary for precise recognition. The CRNN model performs effectively on structured datasets, but struggles with real-world coin images due to background complexity and curved texts. Keras OCR improves text detection, particularly when preprocessing techniques such as random rotation are applied to straighten text regions. In addition, NLP-based correction using GPT-3.5 enhances the accuracy of extracted text and contributes to improved coin classification.
 
Historiallisten kolikoiden prosessointi ja luokittelu sisältävät merkittäviä haasteita. Kulttuuriperintöön (CH) liittyvän digitaaliteknologian kehityksestä huolimatta, ei ole vielä olemassa täysin tehokkaita ja luotettavia automatisoituja menetelmiä näiden tunnistamiseen. Tämä opinnäytetyö tutkii koneoppimisen (ML) ja syväop- pimisen (DL) sovelluksia sekä näiden numeerisia ja tilastollisia menetelmiä parantaakseen historiallisten kolikoiden tunnistamista ja luokittelua, tavoitteena kehittää aitouden varmistamista ja dokumentointia.
Tutkimus käyttää klassisten kuviontunnistusmenetelmien (CPR), syväoppimismall- ien (DL) ja luonnollisen kielen käsittelyn (NLP) lähestymistapojen yhdistelmää ko- likkojen kuvien analysointiin. Konvoluutioneuroverkkoja (CNN) ja toistuvia neuroverkkoja (RNN) sovelletaan piirteiden erotteluun ja luokitteluun, kun taas optisen merkintunnistuksen (OCR) mallit, kuten Keras OCR ja konvoluutio-toistuva neuroverkko (CRNN), tukevat tekstin erottelua. Lisäksi generatiiviset kielimallit, kuten GPT-3 tai ChatGPT, tarkentavat tekstintunnistuksen tuloksia ja tukevat kolikkojen luokittelua.
Tulokset osoittavat, että CNN-pohjainenpiirteidenerottelu parantaatekstin näkyvyyttä verrattuna perinteisiin menetelmiin, mutta lisävaiheet, kuten OCR:n ja sekvenssi- mallinnus ovat tarpeellisia tarkkaan tunnistukseen. CRNN-malli toimii tehokkaasti rakenteellisissa aineistoissa, mutta kohtaa haasteita reaalimaailman kolikkokuvissa taustan monimutkaisuuden ja kaarevien tekstien vuoksi. Keras OCR parantaa tekstin tunnistusta erityisesti silloin, kun esikäsittelytekniikoita, kuten satunnaista kiertoa, sovelletaan suoristamaan tekstialueita. Lisäksi NLP-pohjainen korjaus GPT- 3.5-mallin avulla parantaa poimitun tekstin tarkkuutta ja edistää kolikoiden luokittelun kehitystä.
 
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit) [9596]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste