OCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä

dc.contributor.authorSuojanen, Eemeli
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2026-05-26T19:01:55Z
dc.date.issued2026-05-18
dc.description.abstractTämä tutkielma käsittelee optisen merkintunnistuksen (OCR) toimintaa kiinan, japanin ja korean kielissä keskittyen eri OCR-tekniikoiden suorituskykyyn ja niiden soveltuvuuteen monimutkaisissa merkkijärjestelmissä. Tutkielmassa tarkastellaan perinteisiä, koneoppivia ja syväoppivia OCR-menetelmiä sekä kiinan, japanin ja korean kielten (CJK) erityispiirteitä, kuten suuria merkkimääriä, visuaalisesti samankaltaisia merkkejä ja tekstin orientaation vaikutusta tunnistukseen. Lisäksi tutkielmassa vertaillaan OCR-järjestelmien suorituskykyä kirjallisuuskatsauksen perusteella hyödyntäen aiempien tutkimusten tuloksia ja vertailuja. Tutkielmassa havaittiin, että OCR-järjestelmien tarkkuus riippuu merkittävästi käytetystä menetelmästä ja tunnistettavasta kielestä. Perinteiset ja koneoppivat menetelmät kärsivät erityisesti segmentointivirheistä, kun taas syväoppivat menetelmät kykenevät käsittelemään tekstiä kokonaisuutena ja saavuttavat tasaisemman suorituskyvyn eri kielissä. Lisäksi tekstin asettelu, kuvien laatu ja merkkien visuaalinen samankaltaisuus vaikuttavat merkittävästi tunnistuksen tarkkuuteen. Tulosten perusteella syväoppivat OCR-ratkaisut soveltuvat parhaiten CJK-kielten kaltaisten monimutkaisten kirjoitusjärjestelmien käsittelyyn.
dc.format.extent26
dc.identifier.urihttps://www.utupub.fi/handle/11111/61130
dc.identifier.urnURN:NBN:fi-fe2026052654881
dc.language.isofin
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.subjectOCR
dc.subjectoptinen merkintunnistus
dc.subjectkiinan kieli
dc.subjectjapanin kieli
dc.subjectkorean kieli
dc.titleOCR-tekniikoiden vertailu kiinan, korean ja japanin kielissä
dc.type.ontasotfi=Kandidaatintutkielma|en=Bachelor's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Suojanen_Eemeli_Kandi_2026.pdf
Size:
505.6 KB
Format:
Adobe Portable Document Format