An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Burchell, Laurie; De Gibert Bonet; Ona; Arefyev, Nikolay; Aulamo, Mikko; Bañón, Marta; Chen, Pinzhen; Fedorova, Mariia; Guillou, Liane; Haddow, Barry; Hajič, Jan; Helcl, Jindřich; Henriksson, Erik; Klimaszewski, Mateusz; Komulainen, Ville; Kutuzov, Andrey; Kytöniemi, Joona; Laippala, Veronika; Mæhlum, Petter; Malik, Bhavitvya; Mehryary, Farrokh; Mikhailov, Vladislav; Moghe, Nikita; Myntti, Amanda; O’Brien, Dayyán; Oepen, Stephan; Pal, Proyag; Piha, Jousia; Pyysalo, Sampo; Ramírez-Sánchez, Gema; Samuel, David; Stepachev, Pavel; Tiedemann, Jörg; Variš, Dušan; Vojtěchová, Tereza; Zaragoza-Bernabeu, Jaume

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Burchell, Laurie; De Gibert Bonet; Ona; Arefyev, Nikolay; Aulamo, Mikko; Bañón, Marta; Chen, Pinzhen; Fedorova, Mariia; Guillou, Liane; Haddow, Barry; Hajič, Jan; Helcl, Jindřich; Henriksson, Erik; Klimaszewski, Mateusz; Komulainen, Ville; Kutuzov, Andrey; Kytöniemi, Joona; Laippala, Veronika; Mæhlum, Petter; Malik, Bhavitvya; Mehryary, Farrokh; Mikhailov, Vladislav; Moghe, Nikita; Myntti, Amanda; O’Brien, Dayyán; Oepen, Stephan; Pal, Proyag; Piha, Jousia; Pyysalo, Sampo; Ramírez-Sánchez, Gema; Samuel, David; Stepachev, Pavel; Tiedemann, Jörg; Variš, Dušan; Vojtěchová, Tereza; Zaragoza-Bernabeu, Jaume

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Burchell, Laurie

De Gibert Bonet

Ona

Arefyev, Nikolay

Aulamo, Mikko

Bañón, Marta

Chen, Pinzhen

Fedorova, Mariia

Guillou, Liane

Haddow, Barry

Hajič, Jan

Helcl, Jindřich

Henriksson, Erik

Klimaszewski, Mateusz

Komulainen, Ville

Kutuzov, Andrey

Kytöniemi, Joona

Laippala, Veronika

Mæhlum, Petter

Malik, Bhavitvya

Mehryary, Farrokh

Mikhailov, Vladislav

Moghe, Nikita

Myntti, Amanda

O’Brien, Dayyán

Oepen, Stephan

Pal, Proyag

Piha, Jousia

Pyysalo, Sampo

Ramírez-Sánchez, Gema

Samuel, David

Stepachev, Pavel

Tiedemann, Jörg

Variš, Dušan

Vojtěchová, Tereza

Zaragoza-Bernabeu, Jaume

Katso/Avaa

2025.acl-long.854.pdf (882.2Kb)

Lataukset:

doi:10.18653/v1/2025.acl-long.854

URI

https://doi.org/10.18653/v1/2025.acl-long.854

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe202601216997

Tiivistelmä

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora, extending prior work of the HPLT project. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

Kokoelmat

Rinnakkaistallenteet [29335]