Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka

Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka

2022-02-14

Pro gradu -tutkielma

Tietojenkäsittelytieteet

Hartala_Ilkka_thesis.pdf

1.09 MB

suljettu

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Lataukset7

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe2022022821173

Tiivistelmä

Pre-training Transformer encoder based language models has been resource inten- sive, requiring expensive, distributed hardware solutions. Recently this state of affairs has changed. ELECTRA, a new model architecture, improves training data utilization and acts as a solid foundation for additional optimizations. Two architecture inde- pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art training optimizations into an easy-to-use package. Together these optimizations were able to match the performance of BERT, which is a prominent Transformer encoder based language model architecture from 2018, while using less time and drastically less resources, that is, a single graphics processing unit.

Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina tähän on tullut muutos. ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt- töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres- sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden karheita optimointeja helppokäyttöiseen muotoon. Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi näytönohjain.

Tietueen kaikki tiedot

Optimizing ELECTRA pre-training for single GPU training

Toimittaja(t)

Pysyvä osoite

Verkkojulkaisu

DOI

Tiivistelmä

item.page.okmtext