Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 3. UTUCris-artikkelit
  • Rinnakkaistallenteet
  • Näytä aineisto
  •   Etusivu
  • 3. UTUCris-artikkelit
  • Rinnakkaistallenteet
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Towards better structured and less noisy Web data: Oscar with Register annotations

Laippala Veronika; Salmela Anna; Rönnqvist Samuel; Aji Alham Fikri; Chang Li-Hsin; Dhifallah Asma; Goulart Larissa; Kortelainen Henna; Pàmies Marc; Prina Dutra Deise; Skantsi Valtteri; Sutawika Lingtang; Pyysalo Sampo

Towards better structured and less noisy Web data: Oscar with Register annotations

Laippala Veronika
Salmela Anna
Rönnqvist Samuel
Aji Alham Fikri
Chang Li-Hsin
Dhifallah Asma
Goulart Larissa
Kortelainen Henna
Pàmies Marc
Prina Dutra Deise
Skantsi Valtteri
Sutawika Lingtang
Pyysalo Sampo
Katso/Avaa
2022.wnut-1.23.pdf (375.4Kb)
Lataukset: 

URI
https://aclanthology.org/2022.wnut-1.23/
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe202301142857
Tiivistelmä

Web-crawled datasets are known to be noisy, as they feature a wide range of language use covering both user-generated and professionally edited content as well as noise originating from the crawling process. This article presents one solution to reduce this noise by using automatic register (genre) identification -whether the texts are, e.g., forum discussions, lyrical or how-to pages. We apply the multilingual register identification model by Rönnqvist et al. (2021) and label the widely used Oscar dataset. Additionally, we evaluate the model against eight new languages, showing that the performance is comparable to previous findings on a restricted set of languages. Finally, we present and apply a machine learning method for further cleaning text files originating from Web crawls from remains of boilerplate and other elements not belonging to the main text of the Web page. The register labeled and cleaned dataset covers 351 million documents in 14 languages and is available at https://huggingface.co/datasets/TurkuNLP/register_oscar.

Kokoelmat
  • Rinnakkaistallenteet [29337]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste