OCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä

Suojanen, Eemeli

OCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä

Suojanen, Eemeli

2026-05-18

Kandidaatintutkielma

Tietojenkäsittelytieteet

Suojanen_Eemeli_Kandi_2026.pdf

505.6 KB

avoin

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Lataukset49

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe2026052654881

Tiivistelmä

Tämä tutkielma käsittelee optisen merkintunnistuksen (OCR) toimintaa kiinan, japanin ja korean kielissä keskittyen eri OCR-tekniikoiden suorituskykyyn ja niiden soveltuvuuteen monimutkaisissa merkkijärjestelmissä. Tutkielmassa tarkastellaan perinteisiä, koneoppivia ja syväoppivia OCR-menetelmiä sekä kiinan, japanin ja korean kielten (CJK) erityispiirteitä, kuten suuria merkkimääriä, visuaalisesti samankaltaisia merkkejä ja tekstin orientaation vaikutusta tunnistukseen. Lisäksi tutkielmassa vertaillaan OCR-järjestelmien suorituskykyä kirjallisuuskatsauksen perusteella hyödyntäen aiempien tutkimusten tuloksia ja vertailuja. Tutkielmassa havaittiin, että OCR-järjestelmien tarkkuus riippuu merkittävästi käytetystä menetelmästä ja tunnistettavasta kielestä. Perinteiset ja koneoppivat menetelmät kärsivät erityisesti segmentointivirheistä, kun taas syväoppivat menetelmät kykenevät käsittelemään tekstiä kokonaisuutena ja saavuttavat tasaisemman suorituskyvyn eri kielissä. Lisäksi tekstin asettelu, kuvien laatu ja merkkien visuaalinen samankaltaisuus vaikuttavat merkittävästi tunnistuksen tarkkuuteen. Tulosten perusteella syväoppivat OCR-ratkaisut soveltuvat parhaiten CJK-kielten kaltaisten monimutkaisten kirjoitusjärjestelmien käsittelyyn.

OCR optinen merkintunnistus kiinan kieli japanin kieli korean kieli

Tietueen kaikki tiedot

OCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä

Toimittaja(t)

Pysyvä osoite

Verkkojulkaisu

DOI

Tiivistelmä

item.page.okmtext

OCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä

Toimittaja(t)

Pysyvä osoite

Verkkojulkaisu

DOI

Tiivistelmä

item.page.okmtext

Avainsanat