Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks

Kanerva Jenna; Ginter Filip; Salakoski Tapio

Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks

dc.contributor.author	Kanerva Jenna
dc.contributor.author	Ginter Filip
dc.contributor.author	Salakoski Tapio
dc.contributor.organization	fi=tietojenkäsittelytiede\|en=Computer Science\|
dc.contributor.organization-code	2606803
dc.converis.publication-id	48733233
dc.converis.url	https://research.utu.fi/converis/portal/Publication/48733233
dc.date.accessioned	2025-08-28T00:47:34Z
dc.date.available	2025-08-28T00:47:34Z
dc.description.abstract	<p>In this paper, we present a novel lemmatization method based on a sequence-to-sequence neural network architecture and morphosyntactic context representation. In the proposed method, our context-sensitive lemmatizer generates the lemma one character at a time based on the surface form characters and its morphosyntactic features obtained from a morphological tagger. We argue that a sliding window context representation suffers from sparseness, while in majority of cases the morphosyntactic features of a word bring enough information to resolve lemma ambiguities while keeping the context representation dense and more practical for machine learning systems. Additionally, we study two different data augmentation methods utilizing autoencoder training and morphological transducers especially beneficial for low-resource languages. We evaluate our lemmatizer on 52 different languages and 76 different treebanks, showing that our system outperforms all latest baseline systems. Compared to the best overall baseline, UDPipe Future, our system outperforms it on 62 out of 76 treebanks reducing errors on average by 19% relative. The lemmatizer together with all trained models is made available as a part of the Turku-neural-parsing-pipeline under the Apache 2.0 license.<br></p>
dc.identifier.eissn	1469-8110
dc.identifier.jour-issn	1351-3249
dc.identifier.olddbid	206422
dc.identifier.oldhandle	10024/189449
dc.identifier.uri	https://www.utupub.fi/handle/11111/45892
dc.identifier.urn	URN:NBN:fi-fe2021042823984
dc.language.iso	en
dc.okm.affiliatedauthor	Kanerva, Jenna
dc.okm.affiliatedauthor	Ginter, Filip
dc.okm.affiliatedauthor	Salakoski, Tapio
dc.okm.discipline	113 Computer and information sciences	en_GB
dc.okm.discipline	113 Tietojenkäsittely ja informaatiotieteet	fi_FI
dc.okm.internationalcopublication	not an international co-publication
dc.okm.internationality	International publication
dc.okm.type	A1 ScientificArticle
dc.publisher	Cambridge University Press
dc.publisher.country	United Kingdom	en_GB
dc.publisher.country	Britannia	fi_FI
dc.publisher.country-code	GB
dc.relation.doi	10.1017/S1351324920000224
dc.relation.ispartofjournal	Natural Language Engineering
dc.source.identifier	https://www.utupub.fi/handle/10024/189449
dc.title	Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks
dc.year.issued	2021

Tiedostot

Näytetään 1 - 1 / 1

Name:: universal_lemmatizer_a_sequencetosequence_model_for_lemmatizing_universal_dependencies_treebanks.pdf
Size:: 2.15 MB
Format:: Adobe Portable Document Format
Description:: Publisher's version

Lataa

Kokoelmat

Rinnakkaistallenteet