Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 3. UTUCris-artikkelit
  • Rinnakkaistallenteet
  • Näytä aineisto
  •   Etusivu
  • 3. UTUCris-artikkelit
  • Rinnakkaistallenteet
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Burchell, Laurie; De Gibert Bonet; Ona; Arefyev, Nikolay; Aulamo, Mikko; Bañón, Marta; Chen, Pinzhen; Fedorova, Mariia; Guillou, Liane; Haddow, Barry; Hajič, Jan; Helcl, Jindřich; Henriksson, Erik; Klimaszewski, Mateusz; Komulainen, Ville; Kutuzov, Andrey; Kytöniemi, Joona; Laippala, Veronika; Mæhlum, Petter; Malik, Bhavitvya; Mehryary, Farrokh; Mikhailov, Vladislav; Moghe, Nikita; Myntti, Amanda; O’Brien, Dayyán; Oepen, Stephan; Pal, Proyag; Piha, Jousia; Pyysalo, Sampo; Ramírez-Sánchez, Gema; Samuel, David; Stepachev, Pavel; Tiedemann, Jörg; Variš, Dušan; Vojtěchová, Tereza; Zaragoza-Bernabeu, Jaume

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Burchell, Laurie
De Gibert Bonet
Ona
Arefyev, Nikolay
Aulamo, Mikko
Bañón, Marta
Chen, Pinzhen
Fedorova, Mariia
Guillou, Liane
Haddow, Barry
Hajič, Jan
Helcl, Jindřich
Henriksson, Erik
Klimaszewski, Mateusz
Komulainen, Ville
Kutuzov, Andrey
Kytöniemi, Joona
Laippala, Veronika
Mæhlum, Petter
Malik, Bhavitvya
Mehryary, Farrokh
Mikhailov, Vladislav
Moghe, Nikita
Myntti, Amanda
O’Brien, Dayyán
Oepen, Stephan
Pal, Proyag
Piha, Jousia
Pyysalo, Sampo
Ramírez-Sánchez, Gema
Samuel, David
Stepachev, Pavel
Tiedemann, Jörg
Variš, Dušan
Vojtěchová, Tereza
Zaragoza-Bernabeu, Jaume
Katso/Avaa
2025.acl-long.854.pdf (882.2Kb)
Lataukset: 

doi:10.18653/v1/2025.acl-long.854
URI
https://doi.org/10.18653/v1/2025.acl-long.854
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe202601216997
Tiivistelmä

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora, extending prior work of the HPLT project. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

Kokoelmat
  • Rinnakkaistallenteet [29335]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste