From sequencing to knowledge: Design and implementation of tools for genomic and transcriptomic data analysis and visualization
Jambulingam, Dhanaprakash (2026-03-06)
From sequencing to knowledge: Design and implementation of tools for genomic and transcriptomic data analysis and visualization
Jambulingam, Dhanaprakash
(06.03.2026)
Turun yliopisto
Julkaisun pysyvä osoite on:
https://urn.fi/URN:ISBN:978-952-02-0577-5
https://urn.fi/URN:ISBN:978-952-02-0577-5
Kuvaus
navigointi mahdollista
kuvilla vaihtoehtoiset kuvaukset
taulukot saavutettavia
looginen lukemisjärjestys
kuvilla vaihtoehtoiset kuvaukset
taulukot saavutettavia
looginen lukemisjärjestys
Tiivistelmä
Advances in next-generation sequencing (NGS) technologies after the completion of the Human Genome Project have increased the sequencing speed and brought down the cost of sequencing leading to an influx of large scale genomic and transcriptomic studies involving whole-genome sequencing (WGS), whole-exome sequencing (WES) and RNA-sequencing (RNA-seq). Prior to 2005, before the advent of massively parallel sequencing, the primary bottleneck was sequence generation. With widespread adoption of NGS technologies, this has shifted to computational analysis, where storage and computing capacity have become key challenges. Numerous workflows exist for analysing sequencing data but each with its own set of advantages and disadvantages. To address this, I present an integrated bioinformatics framework that unites three modular tools – Kuura, Sampo, and BioCPR – to facilitate comprehensive multi-omics analysis.
Kuura performs end-to-end WES and WGS analysis with no user intervention. Kuura uses a consensus-based variant calling approach where it normalizes and integrates variant calls from multiple callers to enhance reliability and reduce bias. The output of Kuura is an annotated Variant Call Format (VCF) containing high-confidence variant calls. Sampo uses a combinational approach for transcriptomic data where preprocessing and alignment are handled through Nextflow, while differential expression analysis and visualization are performed in R, to improve workflow organisation. BioCPR, implemented in R, provides an interactive platform for analysis of expression data with correlation-based clustering, enabling users to identify co-expression and regulatory networks.
The framework allows seamless integration, with expression matrices from Sampo directly analysed in BioCPR, and variants identified by Kuura cross-referenced with expression networks. Its reproducible design makes it applicable to germline cancer susceptibility and other complex diseases, enabling discovery of disease-relevant genes and pathways. Sekvensoinnista tietoon: Genomisen ja transkriptomisen datan analysoinnin ja visualisoinnin työkalujen suunnittelu ja toteutus
Ihmisen genomiprojektin valmistumisen jälkeen uuden sukupolven sekvensointitekniikoiden (NGS) kehitys on lisännyt sekvensoinnin nopeutta ja laskenut kustannuksia, mikä on johtanut laajamittaisten genomi- ja transkriptomitutkimusten kasvuun, joissa hyödynnetään koko genomin sekvensointia (WGS), koko eksomin sekvensointia (WES) ja RNA-sekvensointia (RNA-seq). Ennen vuotta 2005, ennen massiivisesti rinnakkaista sekvensointia, pullonkaulana oli sekvenssidatan tuottaminen, mutta nyt tämä on siirtynyt laskennalliseen analyysiin, jossa tallennus ja laskenta ovat keskeisiä haasteita. Sekvenssidatan analysointiin on olemassa lukuisia työnkulkuja, mutta jokaisella on omat etunsa ja rajoituksensa. Tämän ratkaisemiseksi esitän integroidun bioinformatiikan viitekehyksen, joka yhdistää kolme modulaarista työkalua – Kuura, Sampo ja BioCPR – kattavan moniomiikka-analyysin helpottamiseksi.
Kuura suorittaa kokonaisvaltaisen WES- ja WGS-analyysin ilman käyttäjän väliintuloa. Kuura hyödyntää konsensuspohjaista varianttien tunnistusmenetelmää, jossa se normalisoi ja yhdistää useiden ohjelmien tulokset luotettavuuden parantamiseksi ja harhan vähentämiseksi. Kuuran tuloksena on annotoitu VCF-tiedosto, joka sisältää luotettavasti nimetyt variantit. Sampo on suunniteltu yhdistelmämenetelmäksi transkriptomidatan analysointiin. Analyysi alkaa RNA-seq-raaka-aineis-tosta ja tuottaa differentiaalisia geenien ilmentymisen matriiseja ja visualisointeja. R-kielellä toteutettu BioCPR tarjoaa interaktiivisen alustan ilmentymisdatan analyysiin korrelaatiopohjaisen klusteroinnin avulla, mahdollistaen yhteisilmentymisen ja säätelyverkostojen tunnistamisen.
Viitekehys mahdollistaa saumattoman integraation, sillä Sampon tuottamat ilmentymismatriisit analysoidaan suoraan BioCPR:ssä ja Kuuran tunnistamat variantit voidaan yhdistää ilmentymisverkostoihin. Sen toistettavuuteen perustuva rakenne tekee siitä soveltuvan perinnöllisen syövän ja muiden monitekijäisten sairauksien tutkimukseen, mahdollistaen sairauteen liittyvien geenien ja reittien tunnistamisen.
Kuura performs end-to-end WES and WGS analysis with no user intervention. Kuura uses a consensus-based variant calling approach where it normalizes and integrates variant calls from multiple callers to enhance reliability and reduce bias. The output of Kuura is an annotated Variant Call Format (VCF) containing high-confidence variant calls. Sampo uses a combinational approach for transcriptomic data where preprocessing and alignment are handled through Nextflow, while differential expression analysis and visualization are performed in R, to improve workflow organisation. BioCPR, implemented in R, provides an interactive platform for analysis of expression data with correlation-based clustering, enabling users to identify co-expression and regulatory networks.
The framework allows seamless integration, with expression matrices from Sampo directly analysed in BioCPR, and variants identified by Kuura cross-referenced with expression networks. Its reproducible design makes it applicable to germline cancer susceptibility and other complex diseases, enabling discovery of disease-relevant genes and pathways.
Ihmisen genomiprojektin valmistumisen jälkeen uuden sukupolven sekvensointitekniikoiden (NGS) kehitys on lisännyt sekvensoinnin nopeutta ja laskenut kustannuksia, mikä on johtanut laajamittaisten genomi- ja transkriptomitutkimusten kasvuun, joissa hyödynnetään koko genomin sekvensointia (WGS), koko eksomin sekvensointia (WES) ja RNA-sekvensointia (RNA-seq). Ennen vuotta 2005, ennen massiivisesti rinnakkaista sekvensointia, pullonkaulana oli sekvenssidatan tuottaminen, mutta nyt tämä on siirtynyt laskennalliseen analyysiin, jossa tallennus ja laskenta ovat keskeisiä haasteita. Sekvenssidatan analysointiin on olemassa lukuisia työnkulkuja, mutta jokaisella on omat etunsa ja rajoituksensa. Tämän ratkaisemiseksi esitän integroidun bioinformatiikan viitekehyksen, joka yhdistää kolme modulaarista työkalua – Kuura, Sampo ja BioCPR – kattavan moniomiikka-analyysin helpottamiseksi.
Kuura suorittaa kokonaisvaltaisen WES- ja WGS-analyysin ilman käyttäjän väliintuloa. Kuura hyödyntää konsensuspohjaista varianttien tunnistusmenetelmää, jossa se normalisoi ja yhdistää useiden ohjelmien tulokset luotettavuuden parantamiseksi ja harhan vähentämiseksi. Kuuran tuloksena on annotoitu VCF-tiedosto, joka sisältää luotettavasti nimetyt variantit. Sampo on suunniteltu yhdistelmämenetelmäksi transkriptomidatan analysointiin. Analyysi alkaa RNA-seq-raaka-aineis-tosta ja tuottaa differentiaalisia geenien ilmentymisen matriiseja ja visualisointeja. R-kielellä toteutettu BioCPR tarjoaa interaktiivisen alustan ilmentymisdatan analyysiin korrelaatiopohjaisen klusteroinnin avulla, mahdollistaen yhteisilmentymisen ja säätelyverkostojen tunnistamisen.
Viitekehys mahdollistaa saumattoman integraation, sillä Sampon tuottamat ilmentymismatriisit analysoidaan suoraan BioCPR:ssä ja Kuuran tunnistamat variantit voidaan yhdistää ilmentymisverkostoihin. Sen toistettavuuteen perustuva rakenne tekee siitä soveltuvan perinnöllisen syövän ja muiden monitekijäisten sairauksien tutkimukseen, mahdollistaen sairauteen liittyvien geenien ja reittien tunnistamisen.
Kokoelmat
- Väitöskirjat [3101]
