Optimizing ELECTRA pre-training for single GPU training
Hartala, Ilkka (2022-02-14)
Optimizing ELECTRA pre-training for single GPU training
Hartala, Ilkka
(14.02.2022)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022022821173
https://urn.fi/URN:NBN:fi-fe2022022821173
Tiivistelmä
Pre-training Transformer encoder based language models has been resource inten-
sive, requiring expensive, distributed hardware solutions. Recently this state of
affairs has changed.
ELECTRA, a new model architecture, improves training data utilization and
acts as a solid foundation for additional optimizations. Two architecture inde-
pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment
training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art
training optimizations into an easy-to-use package.
Together these optimizations were able to match the performance of BERT,
which is a prominent Transformer encoder based language model architecture from
2018, while using less time and drastically less resources, that is, a single graphics
processing unit. Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen
on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina
tähän on tullut muutos.
ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt-
töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy
entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres-
sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden
karheita optimointeja helppokäyttöiseen muotoon.
Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä
Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka
käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi
näytönohjain.
sive, requiring expensive, distributed hardware solutions. Recently this state of
affairs has changed.
ELECTRA, a new model architecture, improves training data utilization and
acts as a solid foundation for additional optimizations. Two architecture inde-
pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment
training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art
training optimizations into an easy-to-use package.
Together these optimizations were able to match the performance of BERT,
which is a prominent Transformer encoder based language model architecture from
2018, while using less time and drastically less resources, that is, a single graphics
processing unit.
on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina
tähän on tullut muutos.
ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt-
töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy
entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres-
sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden
karheita optimointeja helppokäyttöiseen muotoon.
Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä
Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka
käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi
näytönohjain.