Microbiome data science workflow with an application to appendicitis
Borman, Tuomas (2022-05-23)
Microbiome data science workflow with an application to appendicitis
Borman, Tuomas
(23.05.2022)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022062749443
https://urn.fi/URN:NBN:fi-fe2022062749443
Tiivistelmä
The human microbiome – which refers to microbes living in a human along with their
metabolites – has received increasing attention in recent years. "Our second genome" is
associated both with numerous diseases and also with normal physiology. Microbiome
research has been technology-driven and the field is evolving as novel methods become
available. High-throughput sequencing techniques and computational methods such as
machine learning play a vital role. A major part of software development is based on
open science, driven by global developer networks such as the R/Bioconductor project,
and standardized data containers that enable the development of efficient and optimized
workflows.
Appendicitis is a common disease that has been traditionally treated with an emergency
appendectomy. New studies suggest that appendicitis can be divided into two forms,
complicated and uncomplicated, of which uncomplicated can be treated with antibiotics.
Microbial differences may explain why the one type can be treated with antibiotics while
the other requires surgery, but studies are still inconclusive. However, there is a lack of
data science tools that evaluate these differences. This study aims to create a data science
workflow including standard comparisons of taxonomic diversity and composition, addi-
tional association analyses between taxa and cytokines, prediction model, and validation
along with reproducible reporting. The workflow is applied to model the microbiome and
to solve disease forms’ differences related to appendix taxonomic and serum cytokine
profiles.
The workflow identified microbiome and cytokine profile differences between compli-
cated and uncomplicated appendicitis. Abundances of certain bacteria along with concen-
trations of certain cytokines were observed to differ between appendicitis forms. More-
over, certain bacteria were detected to have an association with concentrations of certain
cytokines. It was possible to distinguish appendicitis type based on cytokine profile with
sufficient accuracy. The results support clinical findings. Moreover, the created workflow
(DOI: 10.5281/zenodo.6561510) is open, reproducible, and scalable, and it can be easily
customized for other studies in the future. Ihmisen mikrobiomi – eli ihmisessä elävien mikrobien muodostama kokonaisuus – on
saanut viime vuosina yhä enemmän huomiota. "Toinen genomimme" on yhdistetty eri-
laisiin tauteihin mutta myös ihmisen normaaliin fysiologiaan. Mikrobiomitutkimus on
ollut teknologiavetoista, ja ala kehittyy jatkuvasti uusien menetelmien tullessa saataville.
Tärkeässä roolissa ovat uuden sukupolven sekvensointitekniikat ja erilaiset laskennalliset
menetelmät, kuten koneoppiminen. Sovelluskehitys perustuu suurelta osin avoimeen tie-
teeseen, sovelluskehitysyhteisöihin kuten R/Bioconductor-projektiin ja projektissa ylei-
siin standardoituihin datasäiliöihin, jotka mahdollistavat tehokkaiden ja optimoitujen työ-
virtojen kehittämisen.
Umpilisäketulehdus on yleinen sairaus, jonka vakiintuneena hoitomuotona on ollut kii-
reellinen umpilisäkkeen poisto. Uusien tutkimustulosten mukaan umpilisäketulehdus voi-
daan jakaa kahteen muotoon, komplisoituneeseen ja komplisoitumattomaan, joista kompli-
soitumaton voidaan hoitaa leikkauksen sijasta antibiooteilla. Vielä ei kuitenkaan tiedetä,
miksi toinen tautimuodoista voidaan hoitaa mikrobilääkkeillä ja toinen ei. Syy voi löytyä
tautien mikrobieroista. Tällä hetkellä on myös puute laskennallisista menetelmistä, jotka
analysoivat näitä eroja. Työn tarkoituksena on kehittää laskennallinen työvirta, joka arvioi
tautiryhmien monimuotoisuuden ja koostumuksen eroja, mikrobien ja sytokiinien välistä
yhteyttä sekä ennustemallin toimivuutta tautimuodon ennustamiseen. Työvirtaa hyödyn-
netään umpilisäketulehduksen mikrobiekologian ja seerumin sytokiiniprofiilin mallinta-
miseen.
Tulosten perusteella komplisoituneen muodon mikrobiomi- ja sytokiiniprofiili eroavat
komplisoitumattomasta muodosta. Analyyseissä löydettiin bakteereja ja sytokiineja, jot-
ka ovat yhteydessä tautimuotoon. Lisäksi tiettyjen bakteereiden huomattiin olevan yhtey-
dessä tiettyjen sytokiinien pitoisuuksiin. Tautimuoto pystyttiin ennustamaan sytokiinien
perusteella melko tarkasti. Havaitut bakteeri- ja sytokiinierot tukevat aikaisempia löy-
döksiä. Työssä kehitetty datatieteen työvirta (DOI: 10.5281/zenodo.6561510) on avoin,
toistettava ja skaalautuva, ja se on helposti muokattavissa uusiin tutkimuksiin.
metabolites – has received increasing attention in recent years. "Our second genome" is
associated both with numerous diseases and also with normal physiology. Microbiome
research has been technology-driven and the field is evolving as novel methods become
available. High-throughput sequencing techniques and computational methods such as
machine learning play a vital role. A major part of software development is based on
open science, driven by global developer networks such as the R/Bioconductor project,
and standardized data containers that enable the development of efficient and optimized
workflows.
Appendicitis is a common disease that has been traditionally treated with an emergency
appendectomy. New studies suggest that appendicitis can be divided into two forms,
complicated and uncomplicated, of which uncomplicated can be treated with antibiotics.
Microbial differences may explain why the one type can be treated with antibiotics while
the other requires surgery, but studies are still inconclusive. However, there is a lack of
data science tools that evaluate these differences. This study aims to create a data science
workflow including standard comparisons of taxonomic diversity and composition, addi-
tional association analyses between taxa and cytokines, prediction model, and validation
along with reproducible reporting. The workflow is applied to model the microbiome and
to solve disease forms’ differences related to appendix taxonomic and serum cytokine
profiles.
The workflow identified microbiome and cytokine profile differences between compli-
cated and uncomplicated appendicitis. Abundances of certain bacteria along with concen-
trations of certain cytokines were observed to differ between appendicitis forms. More-
over, certain bacteria were detected to have an association with concentrations of certain
cytokines. It was possible to distinguish appendicitis type based on cytokine profile with
sufficient accuracy. The results support clinical findings. Moreover, the created workflow
(DOI: 10.5281/zenodo.6561510) is open, reproducible, and scalable, and it can be easily
customized for other studies in the future.
saanut viime vuosina yhä enemmän huomiota. "Toinen genomimme" on yhdistetty eri-
laisiin tauteihin mutta myös ihmisen normaaliin fysiologiaan. Mikrobiomitutkimus on
ollut teknologiavetoista, ja ala kehittyy jatkuvasti uusien menetelmien tullessa saataville.
Tärkeässä roolissa ovat uuden sukupolven sekvensointitekniikat ja erilaiset laskennalliset
menetelmät, kuten koneoppiminen. Sovelluskehitys perustuu suurelta osin avoimeen tie-
teeseen, sovelluskehitysyhteisöihin kuten R/Bioconductor-projektiin ja projektissa ylei-
siin standardoituihin datasäiliöihin, jotka mahdollistavat tehokkaiden ja optimoitujen työ-
virtojen kehittämisen.
Umpilisäketulehdus on yleinen sairaus, jonka vakiintuneena hoitomuotona on ollut kii-
reellinen umpilisäkkeen poisto. Uusien tutkimustulosten mukaan umpilisäketulehdus voi-
daan jakaa kahteen muotoon, komplisoituneeseen ja komplisoitumattomaan, joista kompli-
soitumaton voidaan hoitaa leikkauksen sijasta antibiooteilla. Vielä ei kuitenkaan tiedetä,
miksi toinen tautimuodoista voidaan hoitaa mikrobilääkkeillä ja toinen ei. Syy voi löytyä
tautien mikrobieroista. Tällä hetkellä on myös puute laskennallisista menetelmistä, jotka
analysoivat näitä eroja. Työn tarkoituksena on kehittää laskennallinen työvirta, joka arvioi
tautiryhmien monimuotoisuuden ja koostumuksen eroja, mikrobien ja sytokiinien välistä
yhteyttä sekä ennustemallin toimivuutta tautimuodon ennustamiseen. Työvirtaa hyödyn-
netään umpilisäketulehduksen mikrobiekologian ja seerumin sytokiiniprofiilin mallinta-
miseen.
Tulosten perusteella komplisoituneen muodon mikrobiomi- ja sytokiiniprofiili eroavat
komplisoitumattomasta muodosta. Analyyseissä löydettiin bakteereja ja sytokiineja, jot-
ka ovat yhteydessä tautimuotoon. Lisäksi tiettyjen bakteereiden huomattiin olevan yhtey-
dessä tiettyjen sytokiinien pitoisuuksiin. Tautimuoto pystyttiin ennustamaan sytokiinien
perusteella melko tarkasti. Havaitut bakteeri- ja sytokiinierot tukevat aikaisempia löy-
döksiä. Työssä kehitetty datatieteen työvirta (DOI: 10.5281/zenodo.6561510) on avoin,
toistettava ja skaalautuva, ja se on helposti muokattavissa uusiin tutkimuksiin.