Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka (2022-02-14)

Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka
(14.02.2022)
Katso/Avaa
Hartala_Ilkka_thesis.pdf (1.085Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022022821173
Tiivistelmä
Pre-training Transformer encoder based language models has been resource inten-
sive, requiring expensive, distributed hardware solutions. Recently this state of
affairs has changed.

ELECTRA, a new model architecture, improves training data utilization and
acts as a solid foundation for additional optimizations. Two architecture inde-
pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment
training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art
training optimizations into an easy-to-use package.

Together these optimizations were able to match the performance of BERT,
which is a prominent Transformer encoder based language model architecture from
2018, while using less time and drastically less resources, that is, a single graphics
processing unit.
 
Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen
on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina
tähän on tullut muutos.

ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt-
töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy
entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres-
sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden
karheita optimointeja helppokäyttöiseen muotoon.

Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä
Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka
käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi
näytönohjain.
 
Kokoelmat
  • Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [5165]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste