Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code

Nakamura, Taishi; Mishra, Mayank; Tedeschi, Simone; Chai, Yekun; Stillerman, Jason T.; Friedrich, Felix; Yadav, Prateek; Laud, Tanmay; Chien, Vu Minh; Zhuo, Terry Yue; Misra, Diganta; Bogin, Ben; Vu, Xuan-Son; Karpinska, Marzena; Dantuluri, Arnav Varma; Kusa, Wojciech; Furlanello, Tommaso; Yokota, Rio; Muennighoff, Niklas; Pai, Suhas; Adewumi, Tosin; Laippala, Veronika; Yao, Xiaozhe; Junior, Adalberto Barbosa; Drozd, Aleksandr; Clive, Jordan; Gupta, Kshitij; Chen, Liangyu; Sun, Qi; Tsui, Ken; Moustafa-Fahmy, Nour; Monti, Nicolo; Dang, Tai; Luo, Ziyang; Bui, Tien-Tung; Navigli, Roberto; Mehta, Virendra; Blumberg, Matthew; May, Victor; Nguyen, Hiep; Pyysalo, Sampo

Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code

dc.contributor.author	Nakamura, Taishi
dc.contributor.author	Mishra, Mayank
dc.contributor.author	Tedeschi, Simone
dc.contributor.author	Chai, Yekun
dc.contributor.author	Stillerman, Jason T.
dc.contributor.author	Friedrich, Felix
dc.contributor.author	Yadav, Prateek
dc.contributor.author	Laud, Tanmay
dc.contributor.author	Chien, Vu Minh
dc.contributor.author	Zhuo, Terry Yue
dc.contributor.author	Misra, Diganta
dc.contributor.author	Bogin, Ben
dc.contributor.author	Vu, Xuan-Son
dc.contributor.author	Karpinska, Marzena
dc.contributor.author	Dantuluri, Arnav Varma
dc.contributor.author	Kusa, Wojciech
dc.contributor.author	Furlanello, Tommaso
dc.contributor.author	Yokota, Rio
dc.contributor.author	Muennighoff, Niklas
dc.contributor.author	Pai, Suhas
dc.contributor.author	Adewumi, Tosin
dc.contributor.author	Laippala, Veronika
dc.contributor.author	Yao, Xiaozhe
dc.contributor.author	Junior, Adalberto Barbosa
dc.contributor.author	Drozd, Aleksandr
dc.contributor.author	Clive, Jordan
dc.contributor.author	Gupta, Kshitij
dc.contributor.author	Chen, Liangyu
dc.contributor.author	Sun, Qi
dc.contributor.author	Tsui, Ken
dc.contributor.author	Moustafa-Fahmy, Nour
dc.contributor.author	Monti, Nicolo
dc.contributor.author	Dang, Tai
dc.contributor.author	Luo, Ziyang
dc.contributor.author	Bui, Tien-Tung
dc.contributor.author	Navigli, Roberto
dc.contributor.author	Mehta, Virendra
dc.contributor.author	Blumberg, Matthew
dc.contributor.author	May, Victor
dc.contributor.author	Nguyen, Hiep
dc.contributor.author	Pyysalo, Sampo
dc.contributor.organization	fi=data-analytiikka\|en=Data-analytiikka\|
dc.contributor.organization	fi=digitaalinen kielentutkimus, espanja, italia, kiina, ranska, saksa\|en=Digital Language Studies, Chinese, French, German, Italian, Spanish\|
dc.contributor.organization-code	1.2.246.10.2458963.20.36764574459
dc.contributor.organization-code	1.2.246.10.2458963.20.68940835793
dc.converis.publication-id	508764398
dc.converis.url	https://research.utu.fi/converis/portal/Publication/508764398
dc.date.accessioned	2026-04-24T19:26:20Z
dc.description.abstract	<p>Pretrained language models are integral part of AI applications, but their high computational cost for training limits accessibility. Initiatives such as Bloom and StarCoder aim to democratize access to pretrained models for collaborative community development. Despite these efforts, such models encounter challenges such as limited multilingual capabilities, risks of catastrophic forgetting during continual pretraining, and the high costs of training models from scratch, alongside the need to align with AI safety standards and regulatory frameworks. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435B additional tokens, Aurora-M surpasses 2T tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. We evaluate Aurora-M across a wide range of tasks and languages, showcasing its robustness against catastrophic forgetting and its superior performance in multilingual settings, particularly in safety evaluations. We open-source Aurora-M and its variants to encourage responsible open-source development of large language models at https://huggingface.co/aurora-m.<br></p>
dc.format.pagerange	678
dc.format.pagerange	656
dc.identifier.isbn	979-8-89176-197-1
dc.identifier.uri	https://www.utupub.fi/handle/11111/59209
dc.identifier.url	https://aclanthology.org/2025.coling-industry.56/
dc.identifier.urn	URN:NBN:fi-fe2026022315625
dc.language.iso	en
dc.okm.affiliatedauthor	Laippala, Veronika
dc.okm.affiliatedauthor	Pyysalo, Sampo
dc.okm.discipline	113 Computer and information sciences	en_GB
dc.okm.discipline	113 Tietojenkäsittely ja informaatiotieteet	fi_FI
dc.okm.discipline	6121 Languages	en_GB
dc.okm.discipline	6121 Kielitieteet	fi_FI
dc.okm.internationalcopublication	international co-publication
dc.okm.internationality	International publication
dc.okm.type	A4 Conference Article
dc.publisher.country	United States	en_GB
dc.publisher.country	Yhdysvallat (USA)	fi_FI
dc.publisher.country-code	US
dc.relation.conference	International Conference on Computational Linguistics
dc.title	Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code
dc.title.book	Proceedings of the 31st International Conference on Computational Linguistics : Industry Track
dc.year.issued	2025

Tiedostot

Näytetään 1 - 1 / 1

Name:: nakamura_etal_2025.pdf
Size:: 759.44 KB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Rinnakkaistallenteet