Leveraging text extraction and language models for coin image classification
Vähämäki, Santeri (2025-05-30)
Leveraging text extraction and language models for coin image classification
Vähämäki, Santeri
(30.05.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025061064846
https://urn.fi/URN:NBN:fi-fe2025061064846
Tiivistelmä
The process and classification of historical coins includes significant challenges. Despite advances in digital technology for cultural heritage (CH) artifacts, reliable automated methods for their identification are not perfectly effective. This thesis investigates the application of machine learning (ML) and deep learning (DL) techniques, and their numerical and statistical methods to enhance historical coin recognition and classification, aiming to improve authenticity verification and doc- umentation.
This research uses a combination of classical pattern recognition (CPR) techniques, DL models, and natural language processing (NLP) approaches to analyze coin images. Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) are applied for feature extraction and classification, while Optical Character Recognition (OCR) models, such as Keras OCR and Convolutional Recurrent Neural Network (CRNN), support in text extraction. Furthermore, generative language models like GPT-3 or ChatGPT refine text recognition output and support coin classification.
The results indicate that CNN-based feature extraction enhances text visibility compared to traditional methods, but additional steps, including OCR and sequence modeling, are necessary for precise recognition. The CRNN model performs effectively on structured datasets, but struggles with real-world coin images due to background complexity and curved texts. Keras OCR improves text detection, particularly when preprocessing techniques such as random rotation are applied to straighten text regions. In addition, NLP-based correction using GPT-3.5 enhances the accuracy of extracted text and contributes to improved coin classification. Historiallisten kolikoiden prosessointi ja luokittelu sisältävät merkittäviä haasteita. Kulttuuriperintöön (CH) liittyvän digitaaliteknologian kehityksestä huolimatta, ei ole vielä olemassa täysin tehokkaita ja luotettavia automatisoituja menetelmiä näiden tunnistamiseen. Tämä opinnäytetyö tutkii koneoppimisen (ML) ja syväop- pimisen (DL) sovelluksia sekä näiden numeerisia ja tilastollisia menetelmiä parantaakseen historiallisten kolikoiden tunnistamista ja luokittelua, tavoitteena kehittää aitouden varmistamista ja dokumentointia.
Tutkimus käyttää klassisten kuviontunnistusmenetelmien (CPR), syväoppimismall- ien (DL) ja luonnollisen kielen käsittelyn (NLP) lähestymistapojen yhdistelmää ko- likkojen kuvien analysointiin. Konvoluutioneuroverkkoja (CNN) ja toistuvia neuroverkkoja (RNN) sovelletaan piirteiden erotteluun ja luokitteluun, kun taas optisen merkintunnistuksen (OCR) mallit, kuten Keras OCR ja konvoluutio-toistuva neuroverkko (CRNN), tukevat tekstin erottelua. Lisäksi generatiiviset kielimallit, kuten GPT-3 tai ChatGPT, tarkentavat tekstintunnistuksen tuloksia ja tukevat kolikkojen luokittelua.
Tulokset osoittavat, että CNN-pohjainenpiirteidenerottelu parantaatekstin näkyvyyttä verrattuna perinteisiin menetelmiin, mutta lisävaiheet, kuten OCR:n ja sekvenssi- mallinnus ovat tarpeellisia tarkkaan tunnistukseen. CRNN-malli toimii tehokkaasti rakenteellisissa aineistoissa, mutta kohtaa haasteita reaalimaailman kolikkokuvissa taustan monimutkaisuuden ja kaarevien tekstien vuoksi. Keras OCR parantaa tekstin tunnistusta erityisesti silloin, kun esikäsittelytekniikoita, kuten satunnaista kiertoa, sovelletaan suoristamaan tekstialueita. Lisäksi NLP-pohjainen korjaus GPT- 3.5-mallin avulla parantaa poimitun tekstin tarkkuutta ja edistää kolikoiden luokittelun kehitystä.
This research uses a combination of classical pattern recognition (CPR) techniques, DL models, and natural language processing (NLP) approaches to analyze coin images. Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) are applied for feature extraction and classification, while Optical Character Recognition (OCR) models, such as Keras OCR and Convolutional Recurrent Neural Network (CRNN), support in text extraction. Furthermore, generative language models like GPT-3 or ChatGPT refine text recognition output and support coin classification.
The results indicate that CNN-based feature extraction enhances text visibility compared to traditional methods, but additional steps, including OCR and sequence modeling, are necessary for precise recognition. The CRNN model performs effectively on structured datasets, but struggles with real-world coin images due to background complexity and curved texts. Keras OCR improves text detection, particularly when preprocessing techniques such as random rotation are applied to straighten text regions. In addition, NLP-based correction using GPT-3.5 enhances the accuracy of extracted text and contributes to improved coin classification.
Tutkimus käyttää klassisten kuviontunnistusmenetelmien (CPR), syväoppimismall- ien (DL) ja luonnollisen kielen käsittelyn (NLP) lähestymistapojen yhdistelmää ko- likkojen kuvien analysointiin. Konvoluutioneuroverkkoja (CNN) ja toistuvia neuroverkkoja (RNN) sovelletaan piirteiden erotteluun ja luokitteluun, kun taas optisen merkintunnistuksen (OCR) mallit, kuten Keras OCR ja konvoluutio-toistuva neuroverkko (CRNN), tukevat tekstin erottelua. Lisäksi generatiiviset kielimallit, kuten GPT-3 tai ChatGPT, tarkentavat tekstintunnistuksen tuloksia ja tukevat kolikkojen luokittelua.
Tulokset osoittavat, että CNN-pohjainenpiirteidenerottelu parantaatekstin näkyvyyttä verrattuna perinteisiin menetelmiin, mutta lisävaiheet, kuten OCR:n ja sekvenssi- mallinnus ovat tarpeellisia tarkkaan tunnistukseen. CRNN-malli toimii tehokkaasti rakenteellisissa aineistoissa, mutta kohtaa haasteita reaalimaailman kolikkokuvissa taustan monimutkaisuuden ja kaarevien tekstien vuoksi. Keras OCR parantaa tekstin tunnistusta erityisesti silloin, kun esikäsittelytekniikoita, kuten satunnaista kiertoa, sovelletaan suoristamaan tekstialueita. Lisäksi NLP-pohjainen korjaus GPT- 3.5-mallin avulla parantaa poimitun tekstin tarkkuutta ja edistää kolikoiden luokittelun kehitystä.