Optimizing ELECTRA pre-training for single GPU training

Hartala, Ilkka

Optimizing ELECTRA pre-training for single GPU training

dc.contributor.author	Hartala, Ilkka
dc.contributor.department	fi=Tietotekniikan laitos\|en=Department of Computing\|
dc.contributor.faculty	fi=Teknillinen tiedekunta\|en=Faculty of Technology\|
dc.contributor.studysubject	fi=Tietojenkäsittelytieteet\|en=Computer Science\|
dc.date.accessioned	2022-02-28T22:01:00Z
dc.date.available	2022-02-28T22:01:00Z
dc.date.issued	2022-02-14
dc.description.abstract	Pre-training Transformer encoder based language models has been resource inten- sive, requiring expensive, distributed hardware solutions. Recently this state of affairs has changed. ELECTRA, a new model architecture, improves training data utilization and acts as a solid foundation for additional optimizations. Two architecture inde- pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art training optimizations into an easy-to-use package. Together these optimizations were able to match the performance of BERT, which is a prominent Transformer encoder based language model architecture from 2018, while using less time and drastically less resources, that is, a single graphics processing unit.
dc.description.abstract	Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina tähän on tullut muutos. ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt- töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres- sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden karheita optimointeja helppokäyttöiseen muotoon. Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi näytönohjain.
dc.format.extent	56
dc.identifier.olddbid	170324
dc.identifier.oldhandle	10024/153434
dc.identifier.uri	https://www.utupub.fi/handle/11111/23218
dc.identifier.urn	URN:NBN:fi-fe2022022821173
dc.language.iso	eng
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	suljettu
dc.source.identifier	https://www.utupub.fi/handle/10024/153434
dc.subject	Natural Language Processing, NLP, Neural Network, NN, ELECTRA, BERT, Transformer, Taking Notes on the Fly, TNF, Progressive Stacking, PS
dc.title	Optimizing ELECTRA pre-training for single GPU training
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: Hartala_Ilkka_thesis.pdf
Size:: 1.09 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (rajattu näkyvyys)