33 Kasvun tuki aikakauslehti 1 I 2023 Vaikuttavuustutkimus: Mitä tulee huomioida analysoitaessa satunnaistetun vertailukokeen aineistoa? Artikkeli on jatkoa Kasvun tuki -aikakauslehdessä julkaistulle Vaikuttavuustutkimus-artikkelisarjalle: – Vaikuttavuustutkimus: Satunnaistettu vertailukoe tulee suunnitella huolella (2/2021) – Vaikuttavuustutkimus: Satunnaistetun vertailukokeen laadukkaan raportoinnin edellytykset (1/2022) – Vaikuttavuustutkimus: Miten arvioida harhaa satunnaistetuissa vertailukokeissa? (2/2022) • Tutkimussuunnitelmassa tai viimeistään ennen kuin avataan satunnaistamiskoodi eli tieto siitä, millä menetelmällä kutakin tutkimushenkilöä hoidetaan, on määritettävä ennakkoon kovariaatit eli selittävät muuttujat, puuttuvan tiedon käsittelymenetelmät, herkkyysanalyysit, osajoukkoanalyysit ja tilastollisen hypoteesien järjestys. • Perustason kovariaatti voidaan huomioida analyysivaiheessa sisällyttämällä se tilastolliseen malliin tai käyttämällä esimerkiksi ositettua satunnaistamista. • Puuttuvan tiedon huomiotta jättäminen rikkoo hoitoaieperiaatetta, jonka mukaan analyyseihin sisällytetään kaikki satunnaistetut tutkittavat. • Monivertailuongelman välttämiseksi satunnaistetuissa vertailukokeissa kannattaa käyttää vain yhtä päävastetta. Mikäli tämä ei ole mahdollista, on käytettävä monivertailun huomioivia menetelmiä. • Osajoukkoanalyysien tulokset ovat tärkeä esittää estimaattien ja luottamusvälien avulla, sillä pelkkä käsittelyryhmän ja kovariaatin yhdysvaikutuksen p-arvon esittäminen ei yksin riitä. Vaikuttavuustutkimusten kultaisena standardina pidetään satunnaistettuja vertailukokeita. Ne ovat yleisesti parhaik­si hyväksyttyjä koeasetelmia, kun verrataan kahden tai useamman intervention eli menetelmän vaikuttavuutta. Tämä pitää kuitenkin paikkansa vain, jos vaikuttavuustutkimus on asianmukaisesti suunniteltu, suoritettu ja raportoitu ( Moher ym., 2010). Tämän artikkelin tavoite on lisätä ymmärrystä ja sel­ ventää tilastollisia käsitteitä ja menettelyjä satunnaistettujen vertailukokeiden analyysien tavallisimmissa kysymyksissä. Artik­ keli käsittelee perustason kovariaattien käyttöä, puuttuvien havain­ tojen käsit telyä, monivertailun huomioimista tilastollisissa analyy­ seissa sekä osajoukoista tehtäviä johtopäätöksiä. KOVARIAATTIEN KÄYTTÄMINEN TILASTOLLISISSA MALLEISSA Tutkittavien satunnaistamisella pyritään estämään tutkittavien vali­ koitumista koe­ ja vertailuryhmiin ja näin välttämään siitä aiheutu­ vaa valintaharhaa (Hinkka­Yli­Salomäki, 2022a). Satunnaistamisen tarkoituksena on, että tutkittavat jakaantuisivat ryhmiin täysin sat­ tumanvaraisesti. Tällöin tutkittavien perusominaisuuksien jakau­ mat, kuten sukupuoli­, ikä­ ja koulutusjakaumat eivät välttämättä ole samanlaiset eri koe­ ja vertailuryhmissä. Perustason (baseline) kovariaatti määritellään muuttujaksi, joka mitataan yleensä ennen satunnaistamista ja ennen kuin tutkittava aloittaa hänelle kohdennetun (koe­ tai vertailu)intervention ja jonka odotetaan vaikuttavan analysoitavaan päävasteeseen eli tärkeim­ pään vastemuuttujaan. Perustason kovariaatteja on erilaisia, ja nii­ den luonne riippuu tutkimuksen kontekstista. Ne voivat olla 1) demografisia muuttujia, kuten sukupuoli tai ikä 2) sairauden ominaisuuksia, kuten kesto tai vakavuus 3) mahdollisia muita prognostisia tekijöitä, joille on esimerkiksi jokin fysiologinen peruste 4) tutkimuksen suorittamiseen liittyviä tekijöitä, kuten tutkimus­ keskus, jossa tutkittava osallistuu tutkimukseen tai interventiota antava tutkija. Sanna Hinkka-Yli-Salomäki VTL, MSc, DLSHTM johtaja, biostatistiikka ja tiedonhallinta Lastenpsykiatrian tutkimuskeskus, Turun yliopisto 34 Kasvun tuki aikakauslehti 1 I 2023 Yleinen kovariaatti on myös päävasteen perustason arvo, kuten esimerkiksi masennuskyselyn tai yksinäisyyden kokemisen yksit­ täinen pistemäärä tutkimuksen alussa tai ennen satunnaistamista. (European Medicines Agency, 2015.) Perustason kovariaatteja voidaan tarkastella satunnaistetuissa vertailukokeissa kahdessa vaiheessa: ne voidaan huomioida satun­ naistamisprosessissa tyypillisesti käyttämällä ositettua satunnaista­ mista tai ne voidaan sisällyttää tekijöinä tilastollisiin malleihin, jol­ loin niiden vaikutus huomioidaan koe­ ja vertailuryhmien välisissä vertailuissa (European Medicines Agency, 2015). Perustason kova­ riaatit voidaan sisällyttää tilastollisiin malleihin monella eri tavalla, jonka valinta riippuu kovariaattien, päävasteiden ja toissijaisten vas­ teiden luonteesta. Yleisesti käytettyjä menetelmiä ovat • kvantitatiivisista vasteista kovarianssianalyysi (analysis of covariance, ANCOVA) • kaksi­ tai moniluokkaisista vasteista logistinen regressioanalyysi • ajallisista vasteista (time­to­event) Coxin regressioanalyysi ja ositetut (stratifioidut) analyysit (esimerkiksi Cochran­ Mantel­ Haenszel­testi binääristen vasteiden tapauksessa). Seuraavaksi tarkastellaan tilanteita, joissa perustason kovariaatit tu­ lisi sisällyttää ensisijaisiin eli päävasteen analyyseihin sekä esitetään, miten tulokset tulisi raportoida ja tulkita. Lähtökohtaisesti kovariaa­ tit on aina määritettävä etukäteen tutkimussuunnitelmassa. Satunnaistamisen odotetaan tasapainottavan koe­ ja vertailuryh­ mät kovariaattien suhteen. Käytännössä ei ole kuitenkaan harvi­ naista, että tutkimusryhmien välillä havaitaan eroa kovariaattien ar­ voissa satunnaistamisen jälkeen. Erityisen harmillista on, jos ero eli ryhmien välinen epätasapaino suosii koeryhmää eli sitä tutkittavien ryhmää, jossa intervention vaikutus halutaan todentaa. Esimerkiksi tutkittaessa uutta opiskelijoille suunnattua stressinhallintamenetel­ mää havaitaan analysointivaiheessa, että koeryhmän keskimääräi­ nen koettu stressi alkutilanteessa on huomattavasti suurempi kuin vertailuryhmän vastaava. Näin uudella menetelmällä voidaan mah­ dollisesti helpommin osoittaa koeryhmässä suurempi vaikutus, koska lähtötaso on koeryhmää korkeampi. Kun koettu stressi on jo valmiiksi matalalla tasolla, on sen laskeminen ehkä hankalampaa ja epävarmempaa kuin jos koettu stressitaso olisi alkutilanteessa hyvin korkea. Tilastollisella testaamisella kovariaattien eron todentamisessa koe­ ja vertailuryhmien välillä ei ole merkitystä, jos satunnaista­ minen ja mahdollinen sokkoutus on tehty riittävän laadukkaasti ( European Medicines Agency, 2015). Sokkouttamisessa tutkittavat eivät saa tietää, kuuluvatko he koe­ vai vertailuryhmään. Kova­ riaatit esitetään mahdollisten epätasapainojenkin vallitessa koe­ ja vertailu ryhmissä ja havaitut eroavaisuudet voidaan käsitellä sa­ tunnaisina ilmiöinä. Kannattaa huomioida, että mikäli tutkittavien jakamista koe­ ja vertailuryhmiin ei tehdä satunnaisesti, ei valikoi­ tumisesta johtuvaa harhaa voida korjata jälkikäteen tilastollisella analyysilla (Hinkka­Yli­Salomäki, 2022b). Ositettu satunnaistaminen Ositusta (stratification) voidaan käyttää varmistamaan etukäteen tasapaino tutkimusryhmien välillä. Sitä voidaan käyttää hallinnol­ lisista syistä esimerkiksi silloin, kun terapiaryhmiin osallistuvien perheiden tai rinnakkaisluokkien määrä koulussa on rajoitettu, eli niillä on tietty enimmäismäärä. Ositus saattaa parantaa interven­ tion vaikutuksen arvioinnin tehokkuutta erityisesti pienissä tai kohtalaisen kokoisissa kokeissa. Monikeskustutkimukset ositetaan usein käytännön syistä tai kun keskusten oletetaan olevan sekoit­ tuneita tunnettuihin tai tuntemattomiin ennustaviin tekijöihin. Monikeskustutkimuksella tarkoitetaan tutkimusta, joka tehdään useammassa kuin yhdessä paikassa, ja paikat ovat esimer kiksi maantieteellisesti kaukana toisistaan (esimerkiksi Helsinki ja Kok­ kola) tai organisationaalisesti erillään (esimerkiksi erikoissairaan­ hoidon poliklinikka ja lastenneuvola). Jos keskusten oletetaan olevan rekrytointimäärältään pieniä, niin ositus voidaan laajentaa esimerkiksi maantieteellisesti koskemaan useita keskuksia. Tästä esimerkkeinä ovat yksittäisten terveyskeskusten yhdistäminen hy­ vinvointialueiden sisällä tai koulupiirien käyttäminen yksittäisten koulujen sijaan. Osituksessa käytetty muuttuja sisällytetään kova­ riaattina aina päävasteiden ja toissijaisten vasteiden tilastollisiin malleihin, paitsi jos ositus tehdään puhtaasti hallinnollisista syistä (European Medicines Agency, 2015). Muuttujat, joiden tiedetään liittyvän vahvasti tai ainakin kohta­ laisesti päävasteeseen, ja muuttujat, joilla on vahva perustelu tällaiselle yhteydelle, tulisi sisällyttää kovariaatteina ensisijaisiin analyyseihin. Tällä perusteella valitut muuttujat tulee määrittää etukäteen tutkimussuunnitelmassa. Jälkikäteen havaittua perus­ tason epätasapainoa koe­ ja vertailuryhmien välillä, esimerkiksi jonkin taustamuuttujan suhteen, ei pidetä riittävänä syynä sisäl­ lyttää kyseistä muuttujaa kovariaattina ensisijaisiin analyyseihin (Egbewale, 2015; European Medicines Agency, 2015). Sen sijaan herkkyys analyysien tekeminen ottamalla mukaan koe­ ja vertailu­ ryhmien välillä epätasapainossa oleva perustason muuttuja kovari­ aattina voi olla suureksi avuksi arvioitaessa ensisijaisten analyysien tulosten luotettavuutta. Muuttujia, jotka on mitattu satunnaistamisen jälkeen, ei pitäisi sisällyttää kovariaatteina ensisijaisiin analyyseihin, sillä interven­ tio on voinut vaikuttaa muuttujan arvoihin (European Medicines Agency, 2015). Jos jatkuvan päävasteen perustason arvo (ns. lähtö­ taso) on saatavilla, se kannatta ottaa mukaan kovariaattina. Tämä pätee riippumatta siitä, määritelläänkö päävaste muutokseksi lähtö­ tasosta (change from baseline) vai tuloksena tietyssä aikapisteessä. Esimerkkinä tästä on tutkimus, jossa tutkitaan uuden masen­ nuksen hoitoon tarkoitetun kaksi viikkoa kestävän intervention vai­ kutusta. Vasteena on masennuskyselyn pistemäärä, joka mitataan vaikutuksen arvioimiseksi ennen satunnaistamista ja 11 viikkoa satunnaistamisen jälkeen. Vertailuryhmä saa perusterveydenhuol­ lon tarjoaman tavallisen hoidon. Muutos lähtötasosta ­analyysi tar­ koittaa tässä esimerkissä, että lasketaan lähtötilanteen ja 11 viikon mittausten keskimääräinen erotus koe­ ja vertailuryhmissä ja verra­ taan ryhmien erotusten arvoja toisiinsa. Tulos tietyssä aikapisteessä ­analyysi vastaavasti tarkoittaa, että verrataan 11 viikon pistemääriä koe­ ja vertailuryhmien välillä. Kun vasteena on muutos lähtötasosta, niin analyysin tulok­ set, jossa perustason arvo on mukana kovariaattina, ovat yleensä ”Erityisen harmillista on, jos ero eli ryhmien välinen epätasapaino suosii koeryhmää eli sitä tutkittavien ryhmää, jossa intervention vaikutus halutaan todentaa.” 35 Kasvun tuki aikakauslehti 1 I 2023 tarkempia kuin analyysin tulokset, jossa perustason arvo ei ole mukana. Tämä johtuu siitä, että hajonta on pienempää. Clifton on osoittanut, että molemmissa tapauksissa vasteen ollessa jatkuva kovarianssianalyysi on luotettava menetelmä. Kovarianssianalyysi korjaa mahdollisen epätasapainon jonkin perustason muuttujassa tutkimusryhmien välillä, ja sillä on suurempi tilastollinen voi­ ma kuin muilla menetelmillä (Clifton & Clifton, 2019; Vickers & Altman, 2001). Lähtötason käyttö kovariaattina lineaarisessa reg­ ressioanalyysissa antaa identtiset tulokset, oli vaste sitten muutos lähtötasosta tai varsinainen tulos. Näin ollen, jos sopiva korjaus teh­ dään, niin vasteen analyysin valinta muuttuu yksinomaan tulkinta­ kysymykseksi. Kovariaattien käyttö on aina perusteltava, ja yleensä rajoitutaan käyttämään vain muutamaa kovariaattia ensisijaisissa analyyseissa. Aiemman tiedon puuttuessa jatkuvan kovariaatin ja vasteen välisel­ le suhteelle voidaan olettaa yksinkertainen funktionaalinen muoto (European Medicines Agency, 2015). Esimerkiksi ikä voidaan sovit­ taa joko jatkuvana muuttujana tai kategorisoituna (esim. alle 5­vuo­ tiaat / 5–10­vuotiaat / yli 10­vuotiaat). Kun käytetään kovariaatteja sisältäviä tilastollisia malleja, on hyvä esittää vasteiden tulokset kovariaattien muodostamissa alaryhmissä, jotta mallin oletuksia voidaan arvioida. Herkkyysanalyysit pitää suunnitella etukäteen ja esittää päävasteen analyysin luotettavuuden selvittämiseksi. Jos tulokset ovat ristiriitaisia, on tärkeä tuoda tämä pohdinnassa esiin. Vaikuttavuustutkimusten tulosten tulkinnan avulla lukijaa voidaan johtaa virheellisiin päätelmiin, jos tutkimusryhmien välisiä eroja ei voida loogisesti selittää, esimerkiksi kovariaateilla korjattujen ja korjaamattomien analyysien tulosten välillä. Ensisijaisten analyy­ sien ei tulisi sisältää kovariaatin ja tutkimusryhmän välistä yhdys­ vaikutustermiä. Mikäli huomattavaa yhdysvaikutusta odotetaan etukäteen, tutkimus on hyvä suunnitella niin, että se mahdollistaa erilaiset arvot interventioiden vaikuttavuudesta kyseisen kovariaa­ tin alaryhmissä. Perustason kovariaattien käyttö on hyvin yleistä satunnaistettuja vertailukokeita raportoitaessa (Cognivia team, 2020). Vuonna 2019 julkaistun systemaattisen katsauksen mukaan neljässä tieteellisessä lehdessä vuosina 2009–2010 julkaistuissa satunnaisissa vertailutut­ kimuksissa 84 prosentissa käytettiin kovariaatteja tilastollisissa mal­ leissa. Näistä satunnaisista verailukokeista 91 prosenttissa raportoi­ tiin, että kovariaatin sisällyttäminen tilastollisiin malleihin oli ennalta määritetty ennen analyysin suorittamista (Ciolino ym., 2019). PUUTTUVAN TIEDON VAIKUTUS ANALYYSEIHIN Puuttuva tieto on aina mahdollinen harhan lähde. Koeasetelmasta ja tutkimustyypistä riippumatta tutkimuksen suorittajien tavoitteena on kaikkien tutkittavien osalta tietojen täydellinen talteenotto, myös intervention lopettaneiden (European Medicines Agency, 1998). Satunnaistetuissa vertailukokeissa – kuten muissakin tutkimuk­ sissa – kannattaa tehdä kaikki mahdollinen, jotta puuttuvalta tiedol­ ta vältyttäisiin tai ainakin sen määrä voitaisiin minimoida. Vaikka käytännössä tämä ei toteutuisikaan, puuttuvia tietoja ei voida jättää huomioimatta analyyseissa ja niiden tulkinnassa. Tietojen puuttu­ miseen on monia mahdollisia syitä: • tutkittava kieltäytyy jatkamasta tutkimusta • tutkittava vetäytyy intervention epäonnistumisen vuoksi ( withdraw due to treatment failure) • tutkittava muuttaa toiselle paikkakunnalle • tutkittava kokee intervention onnistuneen tai aiheuttaneen seurannais­ tai liitännäisvaikutuksia, joista vain osa liittyy interventioon. Puuttuvaa tietoa voi olla monessa eri kohdassa: mittaukset voi­ vat olla saatavilla pelkästään lähtötilanteessa, tai mittaukset voivat puuttua vain lähtötilanteessa tai ne voivat puuttua yhdestä, useam­ masta tai kaikista seuranta­arvioinneista. On myös mahdollista, että tutkittava suorittaa tutkimuksen loppuun, mutta osa tiedoista jää vain yksinkertaisesti ilmoittamatta tai keräämättä. Satunnaistettu vertailukoe analysoidaan hoitoaieperiaatteen (intention-to-treat (ITT) principle) mukaisesti eli analyyseihin si­ sällytetään kaikki satunnaistetut tutkittavat (Moher ym., 2010; Hinkka­Yli­Salomäki, 2022a). Puuttuvan tiedon huomiotta jättä­ minen rikkoo tätä periaatetta (European Medicines Agency, 2011). Inter vention vaikuttavuutta arvioitaessa on tärkeää sisällyttää kaikki tutkittavat analyysiin, eikä vain niitä, joilta onnistutaan ke­ räämään kaikkien mittausajankohtien kaikki tieto (per-protocol- periaate). Toisin sanoen yleensä ei olla kiinnostuneita intervention vaikuttavuudesta sellaisessa epärealistisessa tilanteessa, jossa kaik­ ki tutkittavat saavat heille satunnaistetun intervention ja seuraavat täydellisesti hoitosuunnitelmaa ja jossa tutkija saa kerättyä täydelli­ set tiedot vailla yhtäkään puuttuvaa tietoa. Siihen, missä määrin puuttuvat arvot johtavat harhaisiin johto­ päätöksiin intervention vaikutuksen suuruudesta, vaikuttavat mo­ net tekijät. Näitä ovat esimerkiksi puuttuvan tiedon, satunnaistetun tutkimusryhmän ja vasteen välinen suhde; vasteen määrittelyyn käytetty menetelmä ja vasteiden odotettavissa olevat muutokset lähtötilanteesta seuranta­ajankohtiin. Valitettavasti menetelmä, se miten puuttuvia tietoja käsitellään, voi itsessään aiheuttaa harhaa. Puuttuvan tiedon hallintaan ei ole olemassa yhtä ainoaa oikeaa lähestymistapaa, joka sopisi kaikkiin tilanteisiin (European Medi­ cines Agency, 2011). Puuttuvan tiedon vaikutus tutkimuksen voimaan Tutkimuksen voimaan eli siihen, miten hyvin tutkimus pystyy havait­ semaan tutkimusryhmien välisiä eroja, vaikuttaa otoskoko ja vasteen hajonta. Tutkimuksen voima kasvaa, jos otoskokoa kasvatetaan tai vasteen hajonta pienenee. Jos tutkimusaineisto analysoidaan vain niiden tutkittavien osalta, joiden aineisto on täydellistä, otoskoko pie­ nenee, koska analysoinnin ulkopuolelle jäävät ne tutkittavat, joiden aineisto on puutteellista. Tämä heikentää vasteen tilastollisen testin voimaa. Mitä enemmän puuttuvaa tietoa on, sitä todennäköisem­ min voima pienenee. Tutkittavilla, joiden aineistosta puuttuu tietoa, saattaa todennäköisemmin olla vasteen ääriarvoja. Ääriarvoilla tar­ koitetaan esimerkiksi jatkuvan muuttujan tapauksessa minimi­ tai maksimiarvojen lähellä olevia arvoja tai Likert­ asteikolla kerättävän kategorisen tiedon ääripäitä, joissa vaihtoehdot tavallisimmin ovat ”Kovariaattien käyttö on aina perusteltava.” ”Puuttuvia tietoja ei voida jättää huomioimatta analyyseissa ja niiden tulkinnassa.” 36 Kasvun tuki aikakauslehti 1 I 2023 täysin samaa mieltä tai täysin eri mieltä. Siksi näiden tutkittavien sulkeminen pois analyyseista voi johtaa vasteen hajonnan aliarvioi­ miseen ja siten keinotekoisesti kaventaa intervention vaikutuksen luottamusväliä. Jos puuttuvan tiedon käsittelyyn käytetyt menetel­ mät eivät huomioi riittävästi edellä mainittua tilannetta, ei koe­ ja ver­ tailuryhmien vasteen väliselle erolle laskettua luottamusväliä voida pitää luotettavana ja riittävänä kuvaamaan tutkittavan intervention vaikutuksen epävarmuutta. Puuttuva tieto lisää tutkimuksen harhaa Jos analyyseista suljetaan pois tutkittavia, joiden aineistosta puut­ tuu tietoa, voi se vaikuttaa koe­ ja vertailuryhmien vertailukelpoi­ suuteen ja tutkimusotoksen edustavuuteen (ns. ulkoiseen validi­ teettiin) suhteessa kohderyhmään. Puuttuvien tietojen ei odoteta aiheuttavan harhaa, jos ne eivät liity havaitsemattoman vasteen to­ delliseen arvoon. Toisin sanoen vasteen huonojen arvojen tulisi puuttua yhtä todennäköisesti kuin hyvien arvojen. Jos puuttuva tieto liittyy vasteen todelliseen arvoon, se voi aiheuttaa harhaa inter­ vention vaikutuksen arvioon, vaikka puuttuva tieto ei liittyisikään tutkittavaan interventioon (eli puuttuva tieto on yhtä todennäköistä kaikissa tutkimusryhmissä, myös vertailuryhmissä). Mikäli puuttu­ va tieto riippuu sekä tutkittavasta interventiosta että vasteen arvois­ ta, voi puuttuvan tiedon käsittelemättä jättäminen aiheuttaa harhaa. Esimerkiksi puuttuva tieto voi olla todennäköisempää vertailuryh­ mässä, jossa annettu vertailuinterventio voi olla tehottomampi kuin koeryhmässä annettu interventio. Toisin sanoen vertailuryhmän tutkittavat voivat keskeyttää intervention useammin, koska kokevat sen hyödyttömämmäksi kuin koeryhmän tutkittavat. Menetelmiä puuttuvan tiedon käsittelemiselle Satunnaistetun vertailukokeen tulosten tulkinta on erityisen ongel­ mallista, jos puuttuvaa tietoa on paljon. Valitettavasti ei ole olemassa yleisesti hyväksyttyä nyrkkisääntöä puuttuvan tiedon enimmäis­ määrälle. Tavallisesti tutkijan arvioon puuttuvasta tiedosta vaikut­ tavat esimerkiksi vasteen luonne, tutkimuksen kesto, interventioon sitoutuminen (tutkimushenkilöiden sitoutuminen tutkimussuun­ nitelmaan on psykiatrian alalla perinteisesti ollut heikompaa kuin muilla aloilla). Satunnaistettua vertailukoetta voidaan pitää laaduk­ kaana ja luotettavana, jos menetelmät puuttuvan tiedon käsittelemi­ seen ovat järkeviä ja etukäteen tutkimussuunnitelmassa määritel­ tyjä (European Medicines Agency, 2011). Menetelmien määrittelyä voidaan muuttaa ja tarkentaa tilastolliseen analyysisuunnitelmaan vielä päävasteen analyysin aikana, jos tutkimuksen analysoinnista vastaava henkilö on tällöin vielä sokkona (eli hänellä ei ole tiedossa, mihin tutkimusryhmään tutkittava kuuluu). Vaikka yhtä ainoaa oikeaa tapaa käsitellä puuttuvaa tietoa ei ole olemassa, on olemassa yleisesti hyväksyttyjä ohjeita puuttuvan tie­ don käsittelemiseen. Jotta vältytään aineistolähtöiseltä valinnalta puuttuvan tiedon käsittelemiseksi, on välttämätöntä määrittää valitut menetelmät etukäteen tutkimussuunnitelmassa ja se, mitä menetel­ mää käytetään ensisijaisessa analyysissa. Yleensä mitä pidempi seu­ ranta­aika on, sitä suurempi on puuttuvan tied on todennäköisyys. ”Satunnaistettua vertailukoetta voidaan pitää laadukkaana ja luotettavana, jos menetelmät puuttuvan tiedon käsittelemiseen ovat järkeviä ja etukäteen tutkimus­ suunnitelmassa määriteltyjä.” ”Mitä enemmän puuttuvaa tietoa on, sitä todennäköisemmin voima pienenee.” TAULUKKO 1. Imputointimenetelmiä. Imputointimenetelmä Sopivuus Viimeisen havainnon jatkaminen eteenpäin (last observation carried forward, LOCF) • Kun useilta tutkittavilta useita perustason mittauksen jälkeisiä toistomittauksia. • Kun tutkittava esimerkiksi keskeyttää ennen tutkimuksen loppumista, niin hänen viimeistä mitattua vasteen arvoaan käytetään kaikissa myöhemmissä aikapisteissä. • Voi tuottaa hyvinkin harhaisia päävasteiden ja toissisijaisten vasteiden estimaatteja; tilanteesta riippuen joko tutkittavan intervention vaikutukselle liian konservatiivisia tai ylioptimistisia estimaatteja. Perustason havainnon jatkaminen eteenpäin (baseline observation carried forward, BOCF) • Kun tutkittavilla ei ole perustason jälkeisiä intervention aikaisia tai sen jälkeisiä mittauksia. • Perustuu ajatukseen, että tutkimushenkilön vaste pysyy alkutilanteessa, mikäli kyse on pitempiaikaisesta sairaudesta, kuten masennuksesta. Parhaimman tapauksen imputointi (best case imputation) • Sopii positiivisille keskeyttäneille tai pudonneille eli toisin sanoen niille, joilla interventio on toiminut täydellisesti (ns. parantuneet). Huonoimman tapauksen imputointi (worst case imputation) • Sopii negatiivisen syyn takia keskeyttäneille eli niille, joille interventio ei ole toiminut. 37 Kasvun tuki aikakauslehti 1 I 2023 Puuttuvan tiedon huomioivan menetelmän valintaan vaikuttavat • tutkittavien vetäytymiseen liittyvät erot tutkimusryhmien välillä • vetäytymisten ajankohtaan liittyvät erot tutkimusryhmien välillä • tutkittavien vetäytymisten syyt. Täydellisen tiedon analyysia (complete case analysis) ei suositella ensisijaisena analyysina vaikuttavuustutkimuksissa. Menetelmäs­ sä puuttuva tieto jätetään huomioimatta, ja vain tutkimushenkilöt, joilta ei puutu tietoa, otetaan mukaan analyyseihin. Seurauksena on hoitoaieperiaatteen noudattamatta jättäminen sekä alttius harhaan (European Medicines Agency, 2011). Herkkyystarkasteluissa täydel­ lisen tiedon analyysit ovat sen sijaan suositeltavia tulosten robusti­ suuden havainnollistamiseksi. Yleisimmin käytetyt tilastolliset menetelmät puuttuvan tiedon huomioimisessa ovat 1) imputointimenetelmät, joilla paikataan puuttuvaa tietoa 2) sekamallit (mixed-effect models for repeated measures) jatkuville vasteille ja yleistetyt estimointiyhtälöt (generalized estimating equations) kategorisille vasteille ja lukumäärävasteille 3) elinaika­analyysit (survival analysis). Imputointimenetelmät Yksittäisten puuttuvien arvojen imputoinnissa puuttuvat tiedot korvataan yksittäisillä arvoilla ja analyysi suoritetaan kuin puuttu­ via tietoja ei olisikaan. Taulukossa 1 on esimerkkejä tavallisimmista imputointimenetelmistä. Uusi, täysin hyväksyttävä tapa on soveltaa eri imputointimenetel­ miä, kuten LOCF­ ja BOCF­menetelmiä, eri syiden takia puuttuviin havaintoihin. Tämä edellyttää menetelmien määrittelyä etukäteen tutkimussuunnitelmassa. Yksittäisten puuttuvien arvojen impu­ tointi voi johtaa intervention vaikutuksen yliarviointiin eli todelli­ suutta pienempään vaihteluun (European Medicines Agency, 2011). Moninkertaisessa imputoinnissa (multiple imputation) alkuperäi­ sestä aineistosta luodaan useita kopioita, joissa puuttuvat tiedot on korvattu jonkin sopivan stokastisen eli sattuman huomioivan mallin avulla saaduilla arvoilla. Ideana on, että useat ( jopa tuhan­ net) moninkertaisen imputoinnin avulla saadut kopioaineistot ana­ lysoidaan täydellisinä aineistoina. Tämän jälkeen kopioaineistoista saadut koe­ ja vertailuryhmien vasteiden estimaatit eli lasketut arvot yhdistetään lopuksi yhdeksi piste­estimaatiksi. Sekamallit ja yleistetyt estimointiyhtälöt Sekamallien käytöllä vältytään puuttuvien tietojen imputoinnilta. Sekamallit sopivat tilanteisiin, joissa havainnot ovat korreloituneita, kuten tavallisesti useita toistomittauksia sisältävissä satunnaisissa vertailukokeissa. Kun kyse on jatkuvasta vasteesta, lineaariset seka mallit ovat toistomittaustilanteessa (mixed model for repeated measures, MMRM) erinomainen vaihtoehto, koska niissä puut­ tuvien tietojen imputoinnin sijaan käytetään olemassa olevaa ai­ neistoa pohjana uskottavuusprofiilien muodostamisessa kaikille havainnoille – myös puuttuville. MMRM käyttää tavallisesti rajoi­ tettua suurimman uskottavuuden estimointimenetelmää ( restricted maximum likelihood tai residual maximum likelihood, REML). Oleellista lineaarisen sekamallin muodostamisessa on aineistoon sopivimman kovarianssirakenteen valinta. REML­estimointimene­ telmän avulla muodostuu vasteprofiileja, jolloin kaikkia havaittuja arvoja voidaan käyttää mukana analyysissa. Kategorisille vasteille ja lukumäärävasteille vastaavana menetelmänä voidaan käyttää yleis­ tettyjä estimointiyhtälöitä. Elinaika-analyysi Elinaika­analyysien käyttäminen on tavallista, kun vasteena on aika aloituksesta päätetapahtumaan (time-to-event). Analyyseissa huo­ mioidaan sensuroidut havainnot, jotka syntyvät tilanteissa, joissa tutkittavan seuranta päättyy esimerkiksi muuton takia tai pääteta­ pahtuma (event) ei tapahdu seuranta­aikana. Esimerkiksi tutkittaes­ sa uuden, nuorten nopeampaan työllistymiseen tähtäävän interven­ tion vaikuttavuutta, voi olla mahdollista, että kaikki tutkittavat eivät työllisty seuranta­aikana. Tällöin puhutaan sensuroidusta havain­ nosta, koska tutkittavan seuranta päättyy seuranta­ajan päättymi­ seen, ei päävasteeseen eli työllistymiseen. Toisin sanoen kaikille ei tapahdu toivottua päätetapahtumaa, kun vasteena on aika interven­ tion aloittamisesta työllistymiseen. Herkkyyssanalyysit puuttuvaa tietoa sisältävälle aineistolle Herkkyyssanalyysit (sensitivity analyses) ovat tärkeitä, jos puuttuvaa tietoa on runsaasti. Puuttuvan tiedon ollessa vähäistä herkkyysana­ lyysien tarkoituksena on lähinnä tukea ensisijaisia analyyseja. Yksi­ tyiskohtaista ohjetta herkkyysanalyysien sisällöstä on vaikea antaa, mutta • ITT­periaatteen mukaisesti tehtyjen analyysien tuloksia kannattaa verrata täydelle aineistolle tehtyjen analyysien (per protocol) tuloksiin • mikäli puuttuvan tiedon määrä on merkittävän suuri, kannattaa verrata eri menetelmillä tehtyjen analyysien tuloksia keskenään, esimerkiksi imputoidun aineiston ja sekamallien avulla saatuja tuloksia • tuloksia voi verrata ns. responder­analyysin1 tuloksiin, jos vaste on jatkuva • tuloksia voi verrata huonoimman tapauksen analyysin tuloksiin (worst case analysis)2. 1 Responder-analyysissa ennalta määritetyn katkaisupisteen (cut-off point) mukaan tutkittavat luokitellaan kahteen luokkaan: interventio onnistunut ja interventio epäonnistunut. Ensisijaisia analyyseja tukevissa responder­analyyseissa tutkittavat, joilta puuttuu havaintoja – tai vaihtoehtoisesti tietystä syystä puuttuu havaintoja – luokitellaan interventio epäonnistunut ­luokkaan. Responder­analyyseissa vaste on kategorinen ja analysoidaan kuten kategoriset muuttujat. 2 Huonoimman tapauksen analyysissa vertailuryhmän puuttuvat havainnot korvataan parhailla mahdollisilla vasteen tuloksissa. Vastaavasti koeryhmän puuttuvat tulokset korvataan huonoimmilla mahdollisilla vasteen arvoilla. Jos tämä äärimmäinen analyysi osoittaa tutkittavan intervenventioryhmän tulokset tilastollisesti ja kliinisesti merkitseviksi vertailuryhmään verrattuna, voidaan ensisijaisten analyysien tuloksia pitää luotettavina puuttuvista tiedoista huolimatta. 38 Kasvun tuki aikakauslehti 1 I 2023 Tutkimuksen laadun varmentamiseksi herkkyysanalyysit on tärkeää suunnitella etukäteen ja kirjata tutkimussuunnitelmaan tai viimeistään tilastolliseen analyysisuunnitelmaan ennen satunnais­ tamisen koodin avaamista (European Medicines Agency, 1998). MONIVERTAILU ANALYYSEISSA Satunnaistetuissa vertailukokeissa on usein välttämätöntä saada vastaus useampaan kysymykseen samanaikaisesti. Tämä johtaa monivertailuihin, joissa tehdään samanaikaisesti useita tilastollisia testejä. Kun useita tilastollisia testejä tehdään samalla aineistolla, niin väärän positiivisen (false positive) sattumalöydöksen mahdol­ lisuus kasvaa – eli sattumalta löydetäänkin tilastollisesti merkitsevä tulos, vaikka näin ei todellisuudessa olisi. Toisin sanoen nollahypo­ teesin hylkäämisen todennäköisyys kasvaa. Virheen todennäköi­ syys kasvaa testien lukumäärän mukaan seuraavasti: P (vähintään yksi merkitsevä tulos) = 1 − (1 − α)k, missä α on mer­ kitsevyystaso ja k on testien lukumäärä. Jos samanaikaisesti tehdään kaksi testiä 5 prosentin merkitse­ vyystasolla (α = 0.05), todennäköisyys tehdä vähintään yksi vir­ heellinen löydös on yli 9 prosenttia. Kolmen testin tapauksessa virhetodennäköisyys on jo yli 14 prosenttia. Monivertailuun perus­ tuvaa päättelyä tehdään kaikissa vertailukokeissa, myös satunnais­ tetuissa, koska esimerkiksi vasteita ja mittausajankohtia on yleensä enemmän kuin yksi. Jopa vertailuryhmiä voi olla enemmän kuin kaksi, mikä moninkertaistaa tehtyjen parittaisten vertailujen luku­ määrän. Yleisimmät monivertailuongelmaan liittyvät tilanteet ovat seuraavat: • päävasteita on enemmän kuin yksi • ryhmien välisiä vertailuja on enemmän kuin yksi • testataan toistuvasti eri aikapisteissä • tehdään vähintään yksi välianalyysi (interim analysis)3. Milloin monivertailua ei tarvitse huomioida? Monivertailua ei tarvitse huomioida satunnaistetussa vertailuko­ keessa, jossa on kaksi ryhmää: koe­ ja vertailuryhmä, yksi päävaste, yksi päävasteeseen liittyvä tutkimushypoteesi sekä etukäteen mää­ ritelty analyysisuunnitelma, ja jossa ei ole suunniteltu tehtäväksi välianalyyseja. Edellä mainittujen tilanteiden lisäksi on myös muita tilanteita, joissa monivertailua ei tarvitse huomioida. Esimerkiksi silloin, kun toissijaisten vasteiden analyysit on määritelty ainoas­ taan päävasteita tukeviksi analyyseiksi (European Medicines Agen­ cy, 2002). Edellä mainitussa tilanteessa tarkoituksena on osoittaa kaikkien päävasteiden tilastollinen merkitsevyys, kun ryhmiä ver­ taillaan keskenään. Monivertailuongelman välttämiseksi satunnaistetuissa vertai­ lukokeissa kannattaa käyttää vain yhtä päävastetta (European Medicines Agency, 1998). Yksi päävaste riittää, jos on yleinen yksi­ mielisyys siitä, että intervention aiheuttama muutos tässä tietyssä vasteessa riittää osoittamaan yksinään intervention vaikuttavuu­ den. Jos näin ei ole, tarvitaan useampi päävaste. Monivertailun huo­ mioimista ei tarvitse, mikäli tutkimussuunnitelmassa on etukäteen määritelty, että kaikissa ensisijaisissa analyyseissa tilastollisen mer­ kitsevyyden osoittaminen on välttämätöntä. Kahden tai useamman päävasteen tilanteessa tutkimus voidaan suunnitella niin, että pää­ vasteet järjestetään kliinisen merkityksen mukaiseen järjestykseen. Tällöin monivertailua ei tarvitse huomioida. Hierarkkinen järjestys tutkimushypoteesien testauksessa on määriteltävä tarkasti etukä­ teen tutkimussuunnitelmassa (European Medicines Agency, 2002). Esimerkkinä tästä on tutkimus, jossa ensimmäinen hypoteesi liittyy siihen, miten vaikuttava interventio on vähentämään tutkit­ tavien raskauden jälkeisiä masennusoireita puolen vuoden päästä lapsen syntymästä. Toinen hierarkkisesti alempana oleva hypoteesi liittyisi siihen, miten interventio vaikuttaa tutkittavien terveyskes­ kuskäynteihin minkä tahansa mielialaoireiden vuoksi kaksi vuotta lapsen syntymän jälkeen. Mikäli ensimmäiseen hypoteesiin liittyvä tilastollisen testin tulos ei ole merkitsevä, mutta toiseen hypoteesiin liittyvä testin tulos sen sijaan on, intervention ei voida todeta olevan vaikuttava verrattuna vertailuryhmässä annettuun interventioon. Toisinaan tutkimuksissa ollaan kiinnostuneita tekemään päävas­ teen analyyseja eri tutkittavien osajoukoille. Mikäli satunnaistetun vertailukokeen laatu halutaan varmentaa, on osajoukkoanalyysit suunniteltava etukäteen ja määriteltävä tutkimussuunnitelmassa. Mikäli osajoukkoanalyyseja käytetään tukemaan pääanalyysien tu­ loksia, ei monivertailun huomioimista tarvita. Erilaisia tilastollisia malleja tai menetelmiä kokeillaan toisinaan samaan aineistoon (esimerkiksi parametrinen testi (Wilcoxonin testi) vs. epäparametrinen testi (log­rank testi)). Kokeilun perusteel­ la tehty analyysistrategian valinta aiheuttaa monivertailuongelman sekä harhaa, erityisesti jos tutkimusta analysoivalla on tieto tutkit­ tavien saamista interventioista. Tämän vuoksi päävaste on hyvä analysoida sokkona ja valita analyysistrategia ennen satunnaista­ miskoodin avaamista. (Hinkka­Yli­Salomäki, 2021). Usein satunnaistetuissa vertailukokeissa käytetään yhdistelmä­ muuttujia (composite variables) esimerkiksi erilaisten psykiatristen ja neurologisten häiriöiden tunnistamiseksi. Näissä kyselyjen avul­ la luodaan yhdistelmämuuttujia laskemalla yksittäisten kysymys­ ten vastausten pistemääriä yhteen yleisesti hyväksytyn algoritmin avulla. Toisin sanoen, jos esimerkiksi lapsen käytöshäiriötä tutki­ vassa kyselyssä on viisi kysymystä, ja kussakin yksittäisessä kysy­ myksessä on kolme vastausvaihtoehtoa (0 = ei totta, 1 = jokseenkin totta, 2 = täysin totta), saadaan käytöshäiriön yhdistelmämuuttuja tutkittaville laskemalla annetut pisteet yhteen (vaihteluväli 0–10). Toisinaan yhdistelmämuuttujia voi olla yhdessä kyselyssä useita. Esimerkkinä tästä on Vahvuudet ja vaikeudet ­kysely (Strengths and Difficulties Questionnaire, SDQ), jossa 25 kysymyksestä joh­ detaan usein kokonaispistemäärämuuttujan lisäksi viisi summa­ 3 Välianalyysi on käynnissä olevan tutkimuksen evaluointi. Välianalyysissa tehdään ensisijainen analyysi joko osalle vasteita tai kaikille. Välianalyysin tuloksilla voi olla mahdollisesti vaikutusta tutkimuksen kulkuun. Yleisimmin välianalyyseja tehdään suurissa ja pitkäkestoisissa tutkimuksissa, joissa halutaan esimerkiksi selvittää mahdollisuutta päättää tutkimus aiottua nopeammin tai varmistua uuden intervention turvallisuudesta. ”Monivertailuongelman välttämiseksi satunnaistetuissa vertailukokeissa kannattaa käyttää vain yhtä päävastetta.” 39 Kasvun tuki aikakauslehti 1 I 2023 muuttujaa, jotka liittyvät tunne­elämään, kaverisuhteisiin, proso­ siaalisuuteen, yliaktiivisuuteen ja käytökseen (emotional, peer problems, prosocial behaviour, hyperactive and conduct scores). Näin erilaisten summamuuttujien analysoinnissa ei monivertailua tar­ vitse huo mioida. Jos yhtä kyselystä johdettua yhdistelmämuuttujaa käytetään tutkimuksen päävasteena, voidaan samasta kyselystä johdettuja muita yhdistelmämuuttujia käyttää toissijaisina vasteina. Tutkimussuunnitelmaan tulee liittää kyselyn psykometrisia ominai­ suuksia, kuten luotettavuus ja validiteetti. Näiden analysoinnissa ja raportoinnissa ei tarvitse huomioida monivertailua. Tavallisimpia monivertailun huomioivia menetelmiä Monivertailu voidaan huomioida usealla eri tavalla niin, että mer­ kitsevyystaso voidaan pitää kokonaisuutena hallinnassa. Tähän on kehitetty monia tilastollisia menetelmiä, jotka kontrolloivat virheel­ lisen hylkäämisen todennäköisyyttä. Käytännössä yksittäisten tes­ tien merkitsevyystasoa muokataan erilaisten algoritmien mukaan. Konservatiivinen, analyysien voimaa vähentävä, mutta teknisesti helpoin tapa on ns. Bonferroni­korjaus, jossa tavoiteltu merkitse­ vyystaso jaetaan testien lukumäärällä, ja näin laskettua arvoa käy­ tetään jokaisessa yksittäisessä testissä. Kun k on esimerkiksi koe­ ja vertailuryhmien tai tutkittavalta toistettavien mittausten lukumäärä ja tehdään kaikki parittaiset vertailut, niin vertailujen lukumäärä m = k ∙ (k ­ 1) / 2. Toisin sanoen, jos koe­ ja vertailuryhmiä on kolme, saadaan vertailujen lukumääräksi kolme. Bonferroni­epäyhtälöön α ≤ m ∙ α* perustuva monivertailuongelman huomioiva korjaus on α* = α / m, jossa α* on uusi merkitsevyystaso. Toisin sanoen, jos vertailujen lukumäärä on esimerkiksi 3 ja yhden vertailuun liittyvän tilastollisen testin p­arvoksi saadaan 0.03, on Bonferroni­korjattu p­arvo 3 * 0.03 = 0.09. Tässä esimerkissä siis Bonferroni­korjaa­ maton p­arvo 0.03 on tilastollisesti merkitsevä, kun taas Bonferro­ ni­korjattu p­arvo 0.09 on ei­merkitsevä. Toisin sanoen, yksittäisten testien p­arvot kerrotaan vertailujen lukumäärällä, ja saatuja vakioi­ tuja (adjusted) p­arvoja verrataan merkitsevyystasoon 0.05. Vähem­ män konservatiivisia, ja samalla monimutkaisempia tapoja ovat • Šidák­korjaus • Benjamini­Hochberg­korjaus • Dunnett­korjaus • hylkäysvirhemenetelmät. Kun tutkitaan suuria aineistoja, joissa voidaan tehdä kym­ meniä, satoja monivertailuja (esimerkiksi geenitutkimuksissa), Bonferroni­menetelmä on liian konservatiivinen eli kerrottaessa saadut p­arvot vertailujen lukumäärällä saadaan harvemmin mer­ kitseviä tuloksia, minkä vuoksi suosiotaan on kasvattanut hylkäys­ virhemenetelmä (False-discovery rate, FDR). Hylkäysvirhemenetel­ mään liittyvä hylkäysvirheaste on odotettu virheellisten löydösten eli nollahypoteesia tukevien testien osuus kaikkien hylättyjen nol­ lahypoteesien joukossa. Esimerkkinä ovat yhdistelmätutkimukset, joissa tutkittavilta kerätään paljon tietoa satunnaistetuissa vertailu­ kokeissa kyselyjen, rekisterien ja biologisten näytteiden avulla. Tämä voi johtaa satoihin jopa tuhansiin samanaikaisiin tilastollisiin testei­ hin. Glickman kollegoineen (2014) suosittelee hylkäysvirhemenetel­ män käyttämistä perinteisen p­arvojen korjausten sijaan. Toistaisek­ si p­arvojen korjaaminen on suosituin tapa, vaikka sen tuottamat tulokset ovat usein liian konservatiivisia. Hylkäysvirhemenetelmän käyttö on toistaiseksi vierasta, koska menetelmän käyttö vaatii eril­ listä ohjelmointia eli sitä ei ole valmiina yleisimmissä perustason tilasto­ohjelmisssa. Otoskoon kasvattaminen ei vaikuta hylkäysvir­ hemenetelmän toimivuuteen. P­arvojen korjausmenetelmissä otos­ koon kasvattaminen vaikuttaa yleisesti konservatiivisesti hylkää­ mispäätöksiin, mutta hylkäysvirhemenetelmän on todettu toimivan hyvin sekä isoilla että pienillä otoskoilla (Glickman ym., 2014). OSAJOUKKOANALYYSIT SATUNNAISTETUISSA VERTAILUKOKEISSA Satunnaistetut vertailukokeet keskittyvät yleensä tutkimussuunni­ telmassa ennalta määritettyjen vasteiden eron tarkasteluun koe­ ja vertailuryhmien välillä. Tarkoituksena on selvittää, onko tarkaste­ lun kohteena oleva interventio yleisesti hyödyllinen. Kuitenkin jot­ kut interventiot voivat toimia eri tavoin erilaisilla osajoukoilla. Jotta interventio voidaan tarjota mahdollisimman yksilöllisesti, tulisi tutkimuksen avulla selvittää ne osajoukot, jotka todennäköisimmin hyötyvät interventiosta ja ne, jotka eivät todennäköisimmin hyödy siitä lainkaan tai hyvin vähän. Osajoukkoanalyyseihin perustuva raportointi on usein harhaanjohtavaa pienen otoskoon ja moniver­ tailuongelman vuoksi (Wang ym., 2007). Osajoukot voidaan määrit­ tää seuraavien muuttujien perusteella: • dikotominen (esim. sukupuoli: nainen vs. mies) • kategorinen (esim. asuinympäristö: kaupunki vs. taajama vs. maaseutu) • järjestysasteikollinen (esim. taudin perustason vaikeusaste) • jatkuva (esim. ikä). Osajoukot voidaan määrittää myös eri muuttujista koostuvien yhdistelmämuuttujien avulla, joita kutsutaan usein riskipistemää­ riksi (risk scores). Yleensä satunnaistamista ei suunnitella erilaisille osajoukoille. Näin osajoukot, joille analyysi tehdään, voivat olla perustasolla mi­ tattavien muuttujien suhteen epätasapainossa. Intervention vaikut­ tavuuden osalta tulee selvittää, että vaikuttavuus ei johdu osajouk­ kojen perustason epätasapainosta. Useita osajoukkoanalyyseja tehtäessä monivertailu on ehdottomasti huomioitava. Yhdysvaiku­ tusten testaamista tilastollisilla malleilla pidetään hyväksyttävänä tapana päättää osajoukkoanalyysin tarpeesta. Koska testit ovat usein heikkovoimaisia pienen otoskokonsa vuoksi, päätös kannattaa pe­ rustaa sekä tilastotieteeseen että kliiniseen arviointiin. Julkaisuissa pelkkää yhdysvaikutustermin p­arvon raportoimista ei pidetä riit­ tävänä päätöksenteon perustana. On tärkeää esittää estimaatit luot­ tamusväleineen ja arvioida intervention vaikutuksia osajoukoissa sekä havaittujen erojen kliinistä merkitystä. Monet tieteelliset lehdet suosivat metsikkökuviota (forest plot), jossa esitetään intervention vaikutukset kaikille tehdyille osajoukoille piste­esti maatteineen ja ”Hylkäysvirhemenetelmän on todettu toimivan hyvin sekä isoilla että pienillä otoskoilla.” ”Usein satunnaistetuissa vertailukokeissa käytetään yhdistelmä­ muuttujia (composite variables) esimerkiksi erilaisten psykiatristen ja neurologisten häiriöiden tunnistamiseksi.” 40 Kasvun tuki aikakauslehti 1 I 2023 luottamusväleineen. Kuvasta lukija näkee nopeasti esimerkiksi mah­ dollisen pienen otoskoon leveän luottamusvälin todennäköisenä syynä, jolloin kyseisen osajoukon tulosta ei voida pitää välttämättä kovin luotettavana (European Medicines Agency, 2019). Satunnaistettujen vertailukokeiden osajoukkoanalyysit on suu­ rimmaksi osaksi (94,9 %) tehty kategorisoimalla jatkuva muuttuja (Williamson ym., 2022). Monimutkaisimpien menetelmien käyttö osajoukkojen muodostamisessa, jossa jatkuva muuttuja pidettäi­ siin jatkuvana, on käytännössä hyvin harvinaista. Tämä on harmil­ lista, koska tiedetään kuinka jatkuvan muuttujan luokittelu, taval­ lisesti dikotomisointi kahteen osajoukkoon, johtaa informaation menetykseen ja sitä kautta tilastollisen testin heikompaan voimaan. Toisaalta myös virheellisten positiivisten tulosten riski voi kasvaa. Austin ja Brunner tutkivat, että riski kasvaa otoskoon kasvaessa, koska riskitekijän ja kovariaatin välinen korrelaatio tavallisesti kas­ vaa. Ilmiö on sitä selvemmin havaittavissa, mitä vähemmän muut­ tujalla on luokkia (Austin & Brunner, 2004). Kun jatkuva muuttuja luokitellaan, niin katkaisupisteen valinta on hyvä perustella julkai­ sussa (Williamson ym., 2022). YHTEENVETO Ensisijaisen analyysin tulisi sisältää vain tutkimussuunnitelmassa etukäteen määritellyt kovariaatit, ei käsittelyryhmän ja kovariaatin yhdysvaikutustermiä. Tämän lisäksi suosituksena on, että käsittely­ ryhmän ja kovariaattien yhdysvaikutuksia tutkitaan. Nämä analyy­ sit ovat kuitenkin luonteeltaan eksploratiivisia, ja niiden tehtävänä on lähinnä arvioida ensisijaisen analyysin tulosten robustisuutta. Satunnaistetuissa vertailukokeissa tavoitteena on saada kerättyä täydellinen aineisto kaikilta tutkittavilta. Todellisuudessa on kuiten­ kin vaikea välttyä puuttuvalta tiedolta. Sen huomiotta jättäminen ei ole hyväksyttävää, kun suunnitellaan, toteutetaan ja raportoi­ daan tutkimusta. Toisin sanoen, satunnaistetuissa vertailukokeissa puuttuvan tiedon huomiotta jättäminen rikkoo hoitoaieperiaatetta ( intention-to-treat (ITT) principle). Monivertailuongelman välttämiseksi satunnaistetuissa vertailu­ kokeissa kannattaa käyttää vain yhtä päävastetta. Mikäli päävasteita on useita, niin monivertailun huomioimista ei tarvitse, mikäli tut­ kimussuunnitelmassa on etukäteen määritelty, että kaikissa ensi­ sijaisissa analyyseissa tilastollisen merkitsevyyden osoittaminen on välttämätöntä. Monivertailun huomioimista ei myöskään tarvit­ se, mikäli päävasteet järjestetään kliinisen merkityksen mukaiseen järjestykseen olettaen, että hierarkkinen järjestys tutkimushypotee­ sien testauksessa on määritetty tutkimussuunnitelmassa etukäteen. Toisinaan interventiot voivat toimia eri tavoin erilaisilla osajou­ koilla. Osajoukkoanalyysien tulokset on tärkeä esittää estimaattien ja luottamusvälien avulla, sillä pelkkä käsittelyryhmän ja kovariaa­ tin yhdysvaikutuksen p­arvon esittäminen ei ole riittävää. Kovariaatit, puuttuvan tiedon käsittelymenetelmät, herkkyys­ analyysit, osajoukkoanalyysit ja tilastollisen hypoteesien järjestys on määritettävä ennakkoon tutkimussuunnitelmassa tai viimeis­ tään ennen satunnaistamiskoodin avaamista. ● ”Monet tieteelliset lehdet suosivat metsikkökuviota (forest plot), jossa esitetään intervention vaikutukset kaikille tehdyille osajoukoille piste­ estimaatteineen ja luottamusväleineen.” AVAINSANAT: satunnaistettu vertailukoe, perustaso, kovariaatti, puuttuva tieto, monivertailu, osajoukkoanalyysit, raportointi, artikkeli, laatu SIDONNAISUUDET: Sanna Hinkka-Yli-Salomäki: Ei sidonnaisuuksia. LÄHTEET: Austin, P. C. & Brunner, L. J. (2004). Inflation of the type I error rate when a continuous confounding variable is categorized in logistic regression analyses. Stat Med, 23(7):1159-78. https://doi.org/10.1002/sim.1687 Ciolino, J. D., Palac, H. L., Yang, A., Vaca, M. & Belli, H. M. (2019). Ideal vs. real: A systematic review on handling covariates in randomizeed controlled trials. BMC Med Res Methodol. 19(1):1-11. https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-019-0787-8 Clifton, L. & Clifton, D. A. (2019). The correlation between baseline score and post-intervention score, and its implications for statistical analysis. Trials 20, 43. https://doi.org/10.1186/s13063-018-3108-3 Cognivia team (2020). Regulatory Guidelines for the Use of Baseline Covariates to Increase Clinical Trial Study Power. Haettu 1.3.2023 osoitteesta https://cognivia.com/regulatory-guidelines-for-the-use-of-baseline-covariates-to-increase-clinical-trial-study-power/ Egbewale, B. E. (2015). Statistical issues in randomised controlled trials: a narrative synthesis. Asian Pac J Trop Biomed, 5(5): 354-359. https://doi.org/10.1016/S2221-1691(15)30367-1 41 Kasvun tuki aikakauslehti 1 I 2023 LÄHTEET: European Medicines Agency. (1998). ICH E9 statistical principles for clinical trials. ICH Harmonised Tripartite Guideline. https://www.ema.europa.eu/en/ich-e9-statistical-principles-clinical-trials-scientific-guideline European Medicines Agency. (2002). Points to consider on multiplicity issues in clinical trials. https://www.ema.europa.eu/en/multiplicity-issues-clinical-trials-scientific-guideline European Medicines Agency. (2011). Guideline on missing data in confirmatory clinical trials. https://www.ema.europa.eu/en/missing-data-confirmatory-clinical-trials-scientific-guideline European Medicines Agency. (2015). Guideline on adjustment for baseline covariates in clinical trials. https://www.ema.europa.eu/en/adjustment-baseline-covariates-clinical-trials-scientific-guideline European Medicines Agency. (2019). Guideline on the investigation of subgroups in confirmatory clinical trials. https://www.ema.europa.eu/en/investigation-subgroups-confirmatory-clinical-trials-scientific-guideline Glickman, M., Rao, S & Schultz, M. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8):850-857. https://doi.org/10.1016/j.jclinepi.2014.03.012 Hinkka-Yli-Salomäki, S. (2021). Vaikuttavuustutkimus: Satunnaistettu vertailukoe tulee suunnitella huolella. Kasvun tuki. Haettu 1.3.2023 osoitteesta https://kasvuntuki.fi/aikakauslehti/julkaisut/kasvun-tuki-aikakauslehti-22021/hinkka-yli-salomaki/ Hinkka-Yli-Salomäki, S. (2022a). Vaikuttavuustutkimus: Satunnaistetun vertailukokeen laadukkaan raportoinnin edellytykset. Kasvun tuki. Haettu 1.3.2023 osoitteesta https://kasvuntuki.fi/aikakauslehti/julkaisut/kasvun-tuki-aikakauslehti-12022/hinkka-yli-salomaki/ Hinkka-Yli-Salomäki, S. (2022b). Vaikuttavuustutkimus: Miten arvioida harhaa satunnaistetuissa vertailukokeissa?. Kasvun tuki. Haettu 1.3.2023 osoitteesta https://kasvuntuki.fi/aikakauslehti/julkaisut/kasvun-tuki-aikakauslehti-22022/hinkka-yli-salomaki/ Moher, D., Hopewell, S., Schulz, K. F., Montori, V., Gøtzsche, P. C., Deveraux P. J., … & Altman D. G. (2010). CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ, 340:c869. https://doi.org/10.1136/bmj.c869 Vickers, A. J. & Altman, D. G. (2001). Analysing controlled trials with baseline and follow up measurements. BMJ; 323:1123. https://doi.org/10.1136/bmj.323.7321.1123 Wang, R., Lagakos, S. W., Ware, J. H., Hunter, D. J. & Drazen, J. M. (2007). Statistics in medicine - reporting of subgroup analyses in clinical trials. N Engl J Med, 357:2189-2194. https://doi.org/10.1056/NEJMsr077003 Williamson, S. F., Grayling, M. J., Mander, A. P., Noor, N. M., Savage, J. S., Yap, C. & Wason, J. M. S. (2022). Sugroup analyses in randomized controlled trials frequently categorized continuous subroup information. Journal of Clinical Epidemiology, 150:72-79. https://doi.org/10.1016/j.jclinepi.2022.06.017