Textual Paraphrase Dataset for Deep Language Modelling

Kanerva Jenna; Ginter Filip; Chang Li-Hsin; Skantsi Valtteri; Kilpeläinen Jemina; Kupari Hanna-Mari; Piirto Aurora; Saarni Jenna; Sevón Maija; Tarkka Otto

Textual Paraphrase Dataset for Deep Language Modelling

dc.contributor.author	Kanerva Jenna
dc.contributor.author	Ginter Filip
dc.contributor.author	Chang Li-Hsin
dc.contributor.author	Skantsi Valtteri
dc.contributor.author	Kilpeläinen Jemina
dc.contributor.author	Kupari Hanna-Mari
dc.contributor.author	Piirto Aurora
dc.contributor.author	Saarni Jenna
dc.contributor.author	Sevón Maija
dc.contributor.author	Tarkka Otto
dc.contributor.organization	fi=data-analytiikka\|en=Data-analytiikka\|
dc.contributor.organization	fi=kieli- ja käännöstieteiden laitos\|en=School of Languages and Translation Studies\|
dc.contributor.organization-code	1.2.246.10.2458963.20.68940835793
dc.converis.publication-id	176823863
dc.converis.url	https://research.utu.fi/converis/portal/Publication/176823863
dc.date.accessioned	2025-08-27T21:48:35Z
dc.date.available	2025-08-27T21:48:35Z
dc.description.abstract	<p>The Turku Paraphrase Corpus is a dataset of over 100,000 Finnish paraphrase pairs. During the corpus creation, we strived to gather challenging paraphrase pairs, more suitable to test the capabilities of natural language understanding models. The paraphrases are both selected and classified manually, so as to minimise lexical overlap, and provide examples that are structurally and lexically different to the maximum extent. An important distinguishing feature of the corpus is that most of the paraphrase pairs are extracted and distributed in their native document context, rather than in isolation. The primary application for the dataset is the development and evaluation of deep language models, and representation learning in general.</p>
dc.format.pagerange	348
dc.identifier.eisbn	978-3-031-17258-8
dc.identifier.isbn	978-3-031-17257-1
dc.identifier.issn	1611-2482
dc.identifier.olddbid	201170
dc.identifier.oldhandle	10024/184197
dc.identifier.uri	https://www.utupub.fi/handle/11111/47755
dc.identifier.url	https://doi.org/10.1007/978-3-031-17258-8_27
dc.identifier.urn	URN:NBN:fi-fe2022112967709
dc.language.iso	en
dc.okm.affiliatedauthor	Kanerva, Jenna
dc.okm.affiliatedauthor	Ginter, Filip
dc.okm.affiliatedauthor	Chang, Li-Hsin
dc.okm.affiliatedauthor	Skantsi, Valtteri
dc.okm.affiliatedauthor	Kilpeläinen, Jemina
dc.okm.affiliatedauthor	Kupari, Hanna-Mari
dc.okm.affiliatedauthor	Piirto, Aurora
dc.okm.affiliatedauthor	Saarni, Jenna
dc.okm.affiliatedauthor	Sevon, Maija
dc.okm.affiliatedauthor	Tarkka, Otto
dc.okm.discipline	113 Computer and information sciences	en_GB
dc.okm.internationalcopublication	not an international co-publication
dc.okm.internationality	International publication
dc.okm.type	A3 Book
dc.publisher	Springer
dc.publisher.country	Switzerland	en_GB
dc.publisher.country	Sveitsi	fi_FI
dc.publisher.country-code	CH
dc.publisher.isbn	978-81-322;978-3-540;978-3-642;978-3-662;978-3-7908;978-3-8274;978-3-8347;978-90-481;978-94-007;978-94-009;978-94-010;978-94-011;978-94-015;978-94-017;978-94-024;978-0-387;978-0-8176;978-1-4419;978-1-4612;978-1-4613;978-1-4614;978-1-4615;978-1-4684;978-1-4757;978-1-4899;978-1-4939;978-1-5041;978-3-319;978-1-4020;978-0-85729;978-1-4471;978-1-84628;978-1-84800;978-1-84882;978-1-84996;978-1-85233;978-3-211;978-3-7091;978-4-431;978-3-322;978-3-409;978-3-531;978-3-658;978-3-663;978-3-8100;978-981-287;978-981-10;978-981-13;978-3-030;978-981-32;978-981-15;978-981-16;978-981-329;978-981-334;978-981-336;978-3-031;978-981-19;
dc.relation.doi	10.1007/978-3-031-17258-8_27
dc.relation.ispartofseries	Cognitive Technologies
dc.source.identifier	https://www.utupub.fi/handle/10024/184197
dc.title	Textual Paraphrase Dataset for Deep Language Modelling
dc.title.book	European Language Grid: A Language Technology Platform for Multilingual Europe
dc.year.issued	2022

Tiedostot

Näytetään 1 - 1 / 1

Name:: 978-3-031-17258-8_27.pdf
Size:: 344.27 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Rinnakkaistallenteet