Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka

Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka (2022-02-14)

Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka

(14.02.2022)

Katso/Avaa

Hartala_Ilkka_thesis.pdf (1.085Mb)

Lataukset:

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

suljettu

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022022821173

Tiivistelmä

Pre-training Transformer encoder based language models has been resource inten-
sive, requiring expensive, distributed hardware solutions. Recently this state of
affairs has changed.

ELECTRA, a new model architecture, improves training data utilization and
acts as a solid foundation for additional optimizations. Two architecture inde-
pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment
training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art
training optimizations into an easy-to-use package.

Together these optimizations were able to match the performance of BERT,
which is a prominent Transformer encoder based language model architecture from
2018, while using less time and drastically less resources, that is, a single graphics
processing unit.

Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen
on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina
tähän on tullut muutos.

ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt-
töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy
entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres-
sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden
karheita optimointeja helppokäyttöiseen muotoon.

Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä
Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka
käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi
näytönohjain.

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys) [5196]