Optimizing ELECTRA pre-training for single GPU training

dc.contributor.authorHartala, Ilkka
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2022-02-28T22:01:00Z
dc.date.available2022-02-28T22:01:00Z
dc.date.issued2022-02-14
dc.description.abstractPre-training Transformer encoder based language models has been resource inten- sive, requiring expensive, distributed hardware solutions. Recently this state of affairs has changed. ELECTRA, a new model architecture, improves training data utilization and acts as a solid foundation for additional optimizations. Two architecture inde- pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art training optimizations into an easy-to-use package. Together these optimizations were able to match the performance of BERT, which is a prominent Transformer encoder based language model architecture from 2018, while using less time and drastically less resources, that is, a single graphics processing unit.
dc.description.abstractLuonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina tähän on tullut muutos. ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt- töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres- sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden karheita optimointeja helppokäyttöiseen muotoon. Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi näytönohjain.
dc.format.extent56
dc.identifier.olddbid170324
dc.identifier.oldhandle10024/153434
dc.identifier.urihttps://www.utupub.fi/handle/11111/23218
dc.identifier.urnURN:NBN:fi-fe2022022821173
dc.language.isoeng
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightssuljettu
dc.source.identifierhttps://www.utupub.fi/handle/10024/153434
dc.subjectNatural Language Processing, NLP, Neural Network, NN, ELECTRA, BERT, Transformer, Taking Notes on the Fly, TNF, Progressive Stacking, PS
dc.titleOptimizing ELECTRA pre-training for single GPU training
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Hartala_Ilkka_thesis.pdf
Size:
1.09 MB
Format:
Adobe Portable Document Format