FinGPT: Large Generative Models for a Small Language

Luukkonen Risto; Komulainen Ville; Luoma Jouni; Eskelinen Anni; Kanerva Jenna; Kupari Hanna-Mari; Ginter Filip; Laippala Veronika; Muennighoff Niklas; Piktus Aleksandra; Wang Thomas; Tazi Nouamane; Scao Le Teven; Wolf Thomas; Suominen Osma; Sairanen Samuli; Merioksa Mikko; Heinonen Jyrki; Vahtola Aija; Antao Samuel; Pyysalo Sampo

FinGPT: Large Generative Models for a Small Language

dc.contributor.author	Luukkonen Risto
dc.contributor.author	Komulainen Ville
dc.contributor.author	Luoma Jouni
dc.contributor.author	Eskelinen Anni
dc.contributor.author	Kanerva Jenna
dc.contributor.author	Kupari Hanna-Mari
dc.contributor.author	Ginter Filip
dc.contributor.author	Laippala Veronika
dc.contributor.author	Muennighoff Niklas
dc.contributor.author	Piktus Aleksandra
dc.contributor.author	Wang Thomas
dc.contributor.author	Tazi Nouamane
dc.contributor.author	Scao Le Teven
dc.contributor.author	Wolf Thomas
dc.contributor.author	Suominen Osma
dc.contributor.author	Sairanen Samuli
dc.contributor.author	Merioksa Mikko
dc.contributor.author	Heinonen Jyrki
dc.contributor.author	Vahtola Aija
dc.contributor.author	Antao Samuel
dc.contributor.author	Pyysalo Sampo
dc.contributor.organization	fi=data-analytiikka\|en=Data-analytiikka\|
dc.contributor.organization	fi=kieli- ja käännöstieteiden laitos\|en=School of Languages and Translation Studies\|
dc.contributor.organization-code	1.2.246.10.2458963.20.68940835793
dc.converis.publication-id	182054173
dc.converis.url	https://research.utu.fi/converis/portal/Publication/182054173
dc.date.accessioned	2025-08-28T02:58:55Z
dc.date.available	2025-08-28T02:58:55Z
dc.description.abstract	<p> Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at <a href="https://turkunlp.org/gpt3-finnish">https://turkunlp.org/gpt3-finnish</a>. <br></p>
dc.format.pagerange	2726
dc.identifier.isbn	979-8-89176-060-8
dc.identifier.olddbid	210018
dc.identifier.oldhandle	10024/193045
dc.identifier.uri	https://www.utupub.fi/handle/11111/50104
dc.identifier.url	https://aclanthology.org/2023.emnlp-main.164
dc.identifier.urn	URN:NBN:fi-fe2025082792575
dc.language.iso	en
dc.okm.affiliatedauthor	Luukkonen, Risto
dc.okm.affiliatedauthor	Komulainen, Ville
dc.okm.affiliatedauthor	Luoma, Jouni
dc.okm.affiliatedauthor	Eskelinen, Anni
dc.okm.affiliatedauthor	Kanerva, Jenna
dc.okm.affiliatedauthor	Kupari, Hanna-Mari
dc.okm.affiliatedauthor	Ginter, Filip
dc.okm.affiliatedauthor	Laippala, Veronika
dc.okm.affiliatedauthor	Pyysalo, Sampo
dc.okm.discipline	113 Computer and information sciences	en_GB
dc.okm.discipline	113 Tietojenkäsittely ja informaatiotieteet	fi_FI
dc.okm.internationalcopublication	not an international co-publication
dc.okm.internationality	International publication
dc.okm.type	A4 Conference Article
dc.publisher.country	United States	en_GB
dc.publisher.country	Yhdysvallat (USA)	fi_FI
dc.publisher.country-code	US
dc.relation.conference	Conference on Empirical Methods in Natural Language Processing
dc.relation.doi	10.18653/v1/2023.emnlp-main.164
dc.source.identifier	https://www.utupub.fi/handle/10024/193045
dc.title	FinGPT: Large Generative Models for a Small Language
dc.title.book	Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing
dc.year.issued	2023

Tiedostot

Näytetään 1 - 1 / 1

Name:: 2023.emnlp-main.164.pdf
Size:: 499.23 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Rinnakkaistallenteet