Optimizing ELECTRA pre-training for single GPU training

Ladataan...
suljettu
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Verkkojulkaisu

DOI

Tiivistelmä

Pre-training Transformer encoder based language models has been resource inten- sive, requiring expensive, distributed hardware solutions. Recently this state of affairs has changed. ELECTRA, a new model architecture, improves training data utilization and acts as a solid foundation for additional optimizations. Two architecture inde- pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art training optimizations into an easy-to-use package. Together these optimizations were able to match the performance of BERT, which is a prominent Transformer encoder based language model architecture from 2018, while using less time and drastically less resources, that is, a single graphics processing unit.
Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina tähän on tullut muutos. ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt- töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres- sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden karheita optimointeja helppokäyttöiseen muotoon. Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi näytönohjain.

item.page.okmtext