Optimizing ELECTRA pre-training for single GPU training
| dc.contributor.author | Hartala, Ilkka | |
| dc.contributor.department | fi=Tietotekniikan laitos|en=Department of Computing| | |
| dc.contributor.faculty | fi=Teknillinen tiedekunta|en=Faculty of Technology| | |
| dc.contributor.studysubject | fi=Tietojenkäsittelytieteet|en=Computer Science| | |
| dc.date.accessioned | 2022-02-28T22:01:00Z | |
| dc.date.available | 2022-02-28T22:01:00Z | |
| dc.date.issued | 2022-02-14 | |
| dc.description.abstract | Pre-training Transformer encoder based language models has been resource inten- sive, requiring expensive, distributed hardware solutions. Recently this state of affairs has changed. ELECTRA, a new model architecture, improves training data utilization and acts as a solid foundation for additional optimizations. Two architecture inde- pendent techniques, Progressive Stacking and Taking Notes on the Fly, augment training efficiency further. Lastly, DeepSpeed integrates a variety of state-of-the-art training optimizations into an easy-to-use package. Together these optimizations were able to match the performance of BERT, which is a prominent Transformer encoder based language model architecture from 2018, while using less time and drastically less resources, that is, a single graphics processing unit. | |
| dc.description.abstract | Luonnollista kieltä käsittelevien Transformer-pohjaisten kielimallien valmentaminen on lähtökohtaisesti vaatinut kalliita, hajautettuja laskentaratkaisuja. Viime aikoina tähän on tullut muutos. ELECTRA-niminen uusi kielimalliarkkitehtuuri tehostaa koulutustiedon käyt- töä ja toimii oivana alustana jatkokehitykselle. Koulutustehokkuus lisääntyy entisestään käyttämällä kahta arkkitehtuurista riippumatonta tekniikkaa: Progres- sive Stacking ja Taking Notes on the Fly. Lisäksi DeepSpeed-kirjasto kokoaa uuden karheita optimointeja helppokäyttöiseen muotoon. Näiden työkalujen avulla saavutettiin BERT-mallin, joka on merkittävä Transformer-pohjainen kielimalliarkkitehtuuri vuodelta 2018, suorituskyky vaikka käytössä oli vähemmän aikaa ja huomattavasti vähemmän resursseja eli vain yksi näytönohjain. | |
| dc.format.extent | 56 | |
| dc.identifier.olddbid | 170324 | |
| dc.identifier.oldhandle | 10024/153434 | |
| dc.identifier.uri | https://www.utupub.fi/handle/11111/23218 | |
| dc.identifier.urn | URN:NBN:fi-fe2022022821173 | |
| dc.language.iso | eng | |
| dc.rights | fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | |
| dc.rights.accessrights | suljettu | |
| dc.source.identifier | https://www.utupub.fi/handle/10024/153434 | |
| dc.subject | Natural Language Processing, NLP, Neural Network, NN, ELECTRA, BERT, Transformer, Taking Notes on the Fly, TNF, Progressive Stacking, PS | |
| dc.title | Optimizing ELECTRA pre-training for single GPU training | |
| dc.type.ontasot | fi=Pro gradu -tutkielma|en=Master's thesis| |
Tiedostot
1 - 1 / 1