Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Kandidaatin tutkielmat (kokotekstit)
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Kandidaatin tutkielmat (kokotekstit)
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Molecules as Words

Kataja, Rosa (2025-05-20)

Molecules as Words

Kataja, Rosa
(20.05.2025)
Katso/Avaa
Kataja_Rosa_opinnayte.pdf (1.371Mb)
Lataukset: 

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025052150127
Tiivistelmä
In recent years, machine learning has become a key tool for advancing the discovery and optimisation of molecules and materials. Unlike traditional time-consuming experimental methods, machine learning models effectively predict molecular properties and generate novel molecules. Their effectiveness, however, depends on whether molecules are represented in a machine-readable format.
This thesis examines the use of molecular string representations to encode molecules for machine learning applications, focusing on SMILES (Simplified Molecular Input Line Entry System) and SELFIES (SELF-referencIng Embedded Strings). While SMILES is the current standard of the field, SELFIES is a promising candidate especially for generative tasks. The main issue with SMILES is the propensity to create chemically or syntactically invalid molecules. SELFIES was developed to address these issues and as a result it is a 100 % robust representation.
In addition to evaluating the two different string representations, this thesis also reviews recent deep learning models that utilise the two representations. These include transformer-based models SMILES-BERT and SELFormer, and generative models NRC-VABS and DeLa-DrugSelf. These models highlight the value of combining chemical languages with modern computational approaches.
 
Viime vuosien aikana koneoppimisesta on tullut tärkeä väline uusien molekyylien ja materiaalien generointiin sekä niiden ominaisuuksien ennustamiseen. Perinteisistä, paljon aikaa ja resursseja kuluttavista, kokeellisista tavoista poiketen koneoppimismallit ovat tehokkaita työkaluja molekyylien ominaisuuksien ennustamiseen ja generoimiseen. Mallien tehokkuus riippuu kuitenkin paljon siitä, ovatko käsiteltävät molekyylit koneyhteensopivassa muodossa esitettyjä.
Tässä tutkielmassa perehdytään erityisesti kahteen molekyylien tekstimuotoiseen esitystapaan, SMILESiin (Simplified Molecular Input Line Entry System) ja SELFIESiin (SELF-referencIng Embedded Strings), sekä siihen, miten niillä esitetään molekyylejä koneoppimismalleille sopivassa muodossa . SMILES on alan nykyinen standardi, mutta sillä on taipumus tuottaa virheellisiä molekyylejä, kun taas SELFIES tuottaa vain kemiallisesti päteviä molekyylejä ja on siksi lupaava vaihtoehto etenkin generatiivisiin tehtäviin.
Kahden esitystavan tarkastelun lisäksi tutkielmassa esitellään myös viimeaikaisia syväoppimismalleja, jotka hyödyntävät SMILESia ja SELFIESiä. Malleihin kuuluvat transformer-pohjaiset SMILES-BERT ja SELFormer sekä generatiiviset mallit NRC-VABS ja DeLa-DrugSelf. Mallit osoittavat kemiallisten kielten käyttökelpoisuuden yhdistettynä nykyaikaisiin laskennallisiin menetelmiin.
 
Kokoelmat
  • Kandidaatin tutkielmat (kokotekstit) [1562]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste