Terveystiedon käyttö tutkimuksessa

Voisiko terveystietojen käytön tutkimukseen järjestää niin, että tutkija saa käyttöönsä anonymisoidut yksilötason tiedot ja väärinkäyttö tarkastetaan jälkikäteen niin, että kaikki tutkijan tekemät toimenpiteet tietokoneella nauhoitetaan ja jälkikäteen selvitetään, onko tutkija pyrkinyt murtamaan anonymisoinnin.

Suomessa on valtavan arvokkaita terveydenhuoltoon liittyviä tietovarantoja, jotka ovat täysin alikäytettyjä. Näiden tietojen antamiseen tutkijoiden käyttöön liittyy toisaalta merkittävä ongelma yksityisyyden suojan kannalta.

Toistaiseksi tietojen hyväksikäyttö on ollut mahdollista niin, että tutkija tarvitsee ensin tutkimusluvan, jonka saaminen voi kestää kuukausia. Tämän jälkeen hän pyytää THL:ää tekemään pyydetyn ristiin ajon kahden rekisterin välillä. Jos tulos osoittaa, että pitää ajaa vähän toisenlainen ajo, sama rutiini toistetaan.

Ymmärtääkseni sana ”tutkia” on peräisin pohjan tutkimisesta samean veden läpi tutkaimen avulla. [Tätä tietoa älköön lainattako ilman sen todenperäisyyden selvittämistä, koska en pysty muistinvaraista tietoa tarkistamaan. Etymologista sanakirjaa ei löydy kirjahyllystäni.] Nykykäytäntö tarkoittaa, että pyydetään lupa kokeilla, onko kivi tässä ja jos ei ollut, hakemaan uusi lupa sen selvittämiseksi, onko se siinä vieressä ja niin edelleen.

Empiiristä tutkimusta ei tehdä näin. Se edellyttää monenlaista aineiston tarkastelua, erilaisten ja yllättävienkin riippuvuuksien etsimistä ja yleensä kuvien piirtämistä riippuvuuden muodon selvittämiseksi. Pelkkien korrelaatoiden tulostaminen ei riitä, koska korrelaatio mittaa lineaarista riippuvuutta ja vain sitä.  Tutkijan on saatava analysoida yksilökohtaista dataa.[1]

Esimerkiksi lääkkeiden yllättävien haitallisten yhdysvaikutusten etsiminen ei voi perustua ennalta määrättyihin hypoteeseihin, koska etsitään yllättäviä eikä oletettuja vaikutuksia.

Aineiston voi anonymisoida, mutta jos aineistoa tarkastelee hyvin monipuolisesti, anonymisoinnin voi kyllä murtaa. Kun oikein yrittää, kyllä se Anneli Auer on aineistosta tunnistettavissa. Siksi ollaan varovaisia.

Entä jos väärinkäyttöä valvottaisiin jälkikäteen ja yrityksen murtaa anonymisointi sanktioitaisiin niin, ettei kukaan sellaiseen ryhdy? Tutkija saisi kyllä käyttää yksilötason aineistoa, mutta kaikki hänen analyysinsa nauhoitettaisiin ja jälkikäteen tarkastettaisiinko, ovatko ne olleet asiallisia.

Kommentteja?

 

 

[1] Minun ainoa julkaisuni lääketieteen alalla on artikkeli yhdessä ltt Erkki Pulkkisen kanssa koski skitsofrenian ennustetta. Pulkkinen tuli vastaanotolleni tilastotieteen laitokselle mukanaan aineisto, jonka stressihormoni Igan pitoisuus ennusti heikosti sairaalahoidon tarvetta seuraavan viiden vuoden aikana. Korkea stressitaso ennusti vähäistä sairaalahoidon tarvetta, mutta korrelaatio oli niin heikko, ettei sellaisia yleensä lasketa. Suuren otoksen vuoksi korrelaatio oli kuitenkin tilastollisesti merkitsevä. Saksalaiset olivat saaneet samanlaisia tuloksia ja ranskalaisten mukaan taas riippuvuutta ei ollut, jos nyt oikein muistan.
Ehdotin, että piirretään siitä kuva. Niin tehtiin. Kuva oli kuin haulikolla ammuttu, ei mitään riippuvuutta, paitsi että kahdeksan hyvin stressaantuneena sairaalahoitoon tullutta paranivat kahdessa viikossa skitsofreniastaan eivätkä palanneet hoitoon. Väärä diagnoosi. Paranoidisen skitsofrenian kaltaiset oireet johtuivat äärimmäisestä stressistä. Päässä ei ollut vikaa vbaan maailmassa.
Tällaista selvitystä ei voisi tehdä nykyisten tutkimuslupakäytäntöjen vallitessa mitenkään.

20 vastausta artikkeliin “Terveystiedon käyttö tutkimuksessa”

  1. Entä jos väärinkäyttöä valvottaisiin jälkikäteen ja yrityksen murtaa anonymisointi sanktioitaisiin niin, ettei kukaan sellaiseen ryhdy?

    Miten tuo todetaan?

    1. Se todetaan nauhoittamalla kaikki tietokoneajot. Kyllä niistä tunnistaa sellaisen käytön, jossa tarkoituksena on murtaa anonymisointi.

      1. Osmo Soininvaara:
        Se todetaan nauhoittamalla kaikki tietokoneajot. Kyllä niistä tunnistaa sellaisen käytön, jossa tarkoituksena on murtaa anonymisointi.

        Ei kyllä tunnista.

        Kun ne tiedot kerran lähtee eteenpäin on täysin mahdotonta valvoa mitä niillä tiedoilla tehdään.

        Sitä paitsi jälkikäteen rankaisu ei auta enää yhtään mitään kun vahinko on jo tapahtunut. Jos koko Suomen terveystiedot leviäisi internettiin niin se tietäisi tämän maan loppua.

  2. Joidenkin rekisteriaineistojen osalta on etäkäyttöympäristöjä, joissa on mahdollisuus tehdä noita asioita. Ei vain taida koskea terveydenhuollon tietoja.

    Tällöin tutkija voi tehdä monia asioita ja kaikki eräajot/ohjelmat voidaan logittaa. Kun tietoa ei rivitasolla voisi siirtää pois tutkimusympäristöstä, niin tietosuojarikkomuksen riski pienenee. Toki iso tietomurto voisi olla riski.

  3. Osmo Soininvaara:
    Se todetaan nauhoittamalla kaikki tietokoneajot. Kyllä niistä tunnistaa sellaisen käytön, jossa tarkoituksena on murtaa anonymisointi.

    Ja yksikään validi tutkimusajo ei voi vahingossakaan näyttää siltä, että tarkoituksena on murtaa anonymisointi? Äkkiä ajateltuna eksoottisten korrelaatioiden etsimisessä tulee väkisin tuloksia joissa on kovin vähän joitakin kombinaatioita tuloksissa.

  4. Ongelma ei ole yhdessä tutkijassa vaan suurissa kansainvälisissä toimijoissa, jotka oletettavasti säilövät eri tutkimuksiin saadut anonymisoidut tiedot ja lähtevät sitten sitä louhimaan. Anonymisoinnin purun selville saamiseksi on tuossa tapauksessa niin paljon esteitä, että se tuskin käytännössä onnistuu (tiedon siirto lainsäädännön ulottumattomiin, yrityssalaisuudet, jne.). Ja vaikka asia selviäisikin, hankittua dataa ei välttämättä saada tuhottua eikä rangaistusten suuruus ole sitä luokkaa, etteikö riskiä kannattaisi ottaa (tai yksinkertaisesti laskea normaaleiksi liiketoimintakustannuksiksi kuten pankit tekevät).

  5. Pieniä askelia kiitos.

    Laitetaan ensin henkilörekisteririkollisuus kuriin. Ei lisää urkintaoikeuksia ennen kuin tuomiot ovat huomattavasti korkeampia ja niiden perusteella voidaan erottaa.

    Poliisin keskuudessa yksityisyyden loukkaukset näyttävät olevan tapa. Jos viereisestä pöydästä lähtee kaveri kahville lukitsematta tietokonetta, kaverit käyttävät näitä tunnuksia julkisuuden henkilöiden, tuttujen ja sukulaisten urkkimiseen.

    1. Lait kuntoon. Isommat tuomiot.

    2. Henkilörekisterien hallinta ja vastuu yksityisyydestä eri eri organisaation rekisterien käyttäjäorganisaatioista. Poliisiin ei voi tässä asiassa luottaa, se on jo selkeästi havaittu.

    3. Kahden miehen sääntö käyttöön kaikkiin tärkeisiin tietokantoihin.

    4. Tutkimustiedon anonymisointi asiantuntijoiden toimesta. Luotettava datan anonymisointi on pohjimmiltaan tilastotieteellinen ongelma johon on kehitetty ratkaisuja kuten Differential privacy -idea. Lyhyesti: Datasta on mahdollista saada haluttu tilastollinen tarkkuus ja säilyttää yksityisyys jos dataan lisätään pieni määrä kohinaa. On kehitetty algoritmeja ja ohjelmistoja, joilla tämä tavoite voidaan saavuttaa. Esim. exponential mechanism -algoritmi.

    http://privacy.cis.upenn.edu

  6. Aluksi ajattelin, että en usko että onnistuu, koska esimerkiksi kuvankaappausohjelma voi sisältää optisen merkkien tunnistuslaitteiston ja siten yksilötason tiedot voidaan esim. valokuvata tai nauhoittaa ja sen jälkeen purkaa toisessa koneessa digitaaliseen muotoon.

    Mutta ehkä se voisi onnistua niin, että esim jokun virtuaalisen koneen terminaali annettaisiin tutkijan käyttöön.

    Tällöin tutkijalla ei olisi varsinaisesti pääsyä itse koneeseen, vaan ainoastaan virtuaaliseen terminaaliin. Tämmöinen terminaali voisi olla vieläpä asennettuna jollekin tietyn tyyppiselle koneelle jossa ei saa olla muita ohjelmistoja.

    Tämän tyyppisen koneen käyttöä voitaisiin toki nauhoittaa ja nauhoite voitaisiin teoriassa toistaa jälkikäteen kaikkine toimintoineen.

    Se ei estäisi kuvankaappauksen tekemistä, mutta virtuaalisen terminaalin toimintoja voitaisiin rajata ehkä niin että tiedon väärinkäyttö olisi ainakin todella vaikeaa.

  7. tcrown: Ja yksikään validi tutkimusajo ei voi vahingossakaan näyttää siltä, että tarkoituksena on murtaa anonymisointi? Äkkiä ajateltuna eksoottisten korrelaatioiden etsimisessä tulee väkisin tuloksia joissa on kovin vähän joitakin kombinaatioita tuloksissa.

    Tämä hoituisi etäkäyttöympäristössä, jossa kaikki tiedot on sinänsä pseudonymisoitu ja rivitasoista tietoa ei voi ladata pois ympäristöstä.

  8. Olen tainnut itse ehdottaa jotakin samankaltaista aikaisemmin (11.11.2013, kommenttina Osmon kirjoitukseen ”Sotepalvelujen on uudistuttava teknologian mukana”):

    Olen itsekin miettinyt terveystietojen avaamista tutkimusaineistoksi, ja siitä seuraavia yksityisyyden ongelmia. “Kaikki kaikille avoimeksi” ei ole tällä hetkellä hyväksyttävä vastaus. Nykyisin lääkärille menevä olettaa terveysongelmansa pysyvän mahdollisimman yksityisenä. Jos näin ei olisi, lääkärille ei ehkä mentäisi tutkittavaksi yhtä auliisti. Tulisi miettiä ennen yhteydenottoa, onko valmis sisällyttämään asian potentiaalisesti kaikille avoimeen tietokantaan – jossa kirjaus säilyy koko loppuelämän.

    Parempi kuin syyllistää niitä, jotka haluavat säilyttää ainakin joitakin terveystietojaan yksityisenä, olisi miettiä, kuinka tietojärjestelmistä voisi louhia tietoja minimoiden siitä yksityisyydelle aiheutuvat haitat. Oikeudet kaikkien tietojen katsomiseen tulisi olla ainoastaan niillä, joille se on aivan välttämätöntä – ja siitä pitää jäädä jäljet tietokantaan, jotta sen käyttö olisi vastuullista ja valvottua. Tietojärjestelmän tietojen käyttö tutkimuksen tekemiseentulisi kuitenkin avata mahdollisimman monille – ei ainoastaan lääkärin virassa oleville.

    Ehkä tutkijoille voisi joko tuottaa erillisen tietokannan, joka olisi puhdistettu henkilöiden yksilöimiseen tarvittavista tiedoista – niin hyvin kuin se olisi mahdollista. Tai ehkä voisi luoda tietojärjestelmään sellaisia näkymiä, joka mahdollistavat yleisten korrelaatioiden löytämisen, mutta ei yksittäisten asiakkaiden tietojen selaamista. Käyttäjä voisi tiedustella koneelta, onko esimerkiksi korrelaatiota löydettävissä aikuistyypin diabeteksen ja peräpukamien välillä, ja kone voisi vastata aineiston perusteella – antamatta kenenkään henkilön tietuetta suoraan tutkijan luettavaksi.

    Yksityisyyden ja tieteen vastakkainasettelun sijasta olisi toivottavaa etsiä niitä teknologisia (ja lainopillisia) innovaatioita, joilla voidaan avata terveydenhuollon keräämää tietoa tutkimuskäyttöön – ihmisten yksityisyyttä uhraamatta.

    Ajatus verkossa olevasta kaikkien suomalaisten yksilöityjä terveystietoja sisältävästä tietokannasta pitäisi herättää vastalauseita, jos tietää mitään erityisesti valtioiden harjoittamasta tiedonurkinnasta. Austrianin edellä mainitsema tietomurto on ilmeisesti vain ajan kysymys. En siis pidä hyvänä ajatuksena, että henkilöiden anonymiteetti taattaisiin yksinomaan käyttöliittymän kautta. Itse tietokannan olisi oltava siinä määrin puhdistettu yksilöitävistä tiedoista, että sen päätyminen vaikkapa Wikileaks-sivustolle ei olisi mikään kansallinen järkytys.

    Applen tänä vuonna esittelemä ”differential privacy”, jonka Diodi mainitsi yllä, osoittaa, että yksi tietotekniikan jättiläinen pitää mahdollisena kerätä hyödyllistä tietoa ryhmistä keräämättä kuitenkaan tietoa yksilöistä. Tietomurtokaan ei paljastaisi kiusallisia tietoja tunnistettavista yksilöistä.
    (https://www.wired.com/2016/06/apples-differential-privacy-collecting-data/)

    Erona terveystietojen tietokantaan tietenkin on se, että terveydenhuolto on jo kerännyt yksilöivät tiedot. Laajemmalle tutkijajoukolle tarjottavasta tietokannasta ne kuitenkin voisi suodattaa pois. Varmasti sen mukana menetettäisiin osa tietojen tutkimusarvosta, mutta toisaalta saataisiin entistä laajempaan käyttöön (tilastotieteilijät, opiskelijat, ulkomaalaiset jne.) suuresta populaatiosta kerättyä tietoa.

    Vielä yksi kysymys seuraavasta kohdasta:
    ”Jos väärinkäyttöä valvottaisiin jälkikäteen ja yrityksen murtaa anonymisointi sanktioitaisiin niin, ettei kukaan sellaiseen ryhdy? Tutkija saisi kyllä käyttää yksilötason aineistoa, mutta kaikki hänen analyysinsa nauhoitettaisiin ja jälkikäteen tarkastettaisiinko, ovatko ne olleet asiallisia.”

    Kysymys: Jos uskomme tunnistavamme epäasialliset haut jälkikäteen, miksi emme kykenisi määrittelemään sellaisia jo etukäteen – ja estää epäasiallisten hakujen mahdollisuus joko tietokannan käyttöliittymässä tai jopa itse tietokannan rakenteessa?

    (Huomaan, että puhuminen tietokannasta johdattaa ajattelemaan informaatiota säilöttynä tietueisiin , joista sitten poistetaan joitakin tietoja – ja että tietokannasta tehtävät haut olisivat sellaisia kuin nykyisissä tietokannoissa. Näin ei kuitenkaan tarvitsisi olla vaan terveystietojen ”tietokanta” voisi olla jossakin muussa muodossa – sellaisessa muodossa, joka jo itsessään rajaisi sille esitettäviä kysymyksiä. Ehkä tietokannan informaatio voisi olla jo jossakin määrin tilastollisesti esikäsiteltyä eikä koostua lainkaan yksilökohtaisista tietueista? Jätän yksityiskohdat propellipäiden mietittäväksi. 🙂 )

    1. Ei riitä, että kysymme, onko korrelaatiota diabeteksen ja peräpukamien välillä, vaan tutkijan on voitava piirtää tästä yhteydestä kuva – siis millaiset sokeriarvot vaikuttavat – ja lisäksi voitava sulkea pois joitain sekoittavia tekijöitä. Tämä tapahtuu lukuisten kokeiden ja epäonnistumisten jälkeen ja edellyttää kymmeniä tietokoneajoja. Jos jokainen niistä pitäisi tilata etukäteen ja peräkkäisten ajojen välillä olisi viikkoja, tulos ei valmistuisi koskaan.

  9. Eräs kansanedustaja aikoinaan lausui että miksi noudattaa lakia kun lain rikkomisesta ei ole säädetty sanktiota ja tietojen murtamistahan tekevät (tai salakatselua) jo poliisitkin vähällä huomattamisella ja sakon määrällä.

    Siis mikä on nykykäytännön mukainen sanktio terveystietojen anonymiteetin murtamisesta.

  10. Jos kaikki yksityiset tiedot olisivat pseudonymisoitu, mutta eri tiedostot tai taulut etäkäyttöympäristössä olisi mahdollista liittää avainten perusteella, niin edes tietomurto ei tuottaisi hyökkääjälle arvokasta dataa.

    Hetun ja katuosoitteen yhdistelmän tiivistearvo tuottaisi henkilön pseudonymisoidun tunnistearvon. Eri mittaustiedostot olisi mahdollista yhdistää.

  11. Itse olen antanut luvan käyttää vapaasti kertyneitä terveystietojani. Miksi ihmeessä ei saisi. Turhiin tutkimuksiin ei kannattaisi veronmaksajan rahoja tuhlata. Siis kun tutkija tavoittelee vain oma kunniaansa. Näyttää, että sellaista on paljon.

  12. Tunnistetietojen pseudonymisointi ei poista identifioimisriskiä. Pseudonyymi ei ole anonyymin synonyymi.

    Anonymisointi auttaa, mutta jokaiseen anonymisointimenetelmään sisältyy nollaa suurempi reidentifikaatioriski (R=Risk). Lisäksi jokainen menetelmä heikentää aineiston käytettävyyttä (U=Utility). Joudutaan tekemään kompromisseja, joskin on väitetty että riski pienenee hitaammin kuin hyöty.

    Kuten bloginpitäjän esimerkissä. Epälineaarisen yhteyden löytäminen anonymisoidusta aineistosta on hankalampaa kuin alkuperäisestä.

    Niinpä tutkijoille pitää antaa oikeus rivitasoiseen dataan. Etätyöpöydät auttavat vähän, joskin pahantahtoinen löytää aukkonsa niistäkin. Lisäksi on kehitetty erilaisia kontrolloidumpia etäkäyttöjärjestelmiä.

    Kannattaa lukaista tämä artikkeli: http://www.annualreviews.org/doi/abs/10.1146/annurev-statistics-041715-033438

    Se on vähän vanha mutta pääosin ajankohtainen. Bloginpitäjää miellyttääkseen kirjoittaja lienee lisännyt taloustieteellistä analyysiä.

  13. Osmo Soininvaara:
    Ei riitä, että kysymme, onko korrelaatiota diabeteksen ja peräpukamien välillä, vaan tutkijan on voitava piirtää tästä yhteydestä kuva – siis millaiset sokeriarvot vaikuttavat – ja lisäksi voitava sulkea pois joitain sekoittavia tekijöitä. Tämä tapahtuu lukuisten kokeiden ja epäonnistumisten jälkeen ja edellyttää kymmeniä tietokoneajoja. Jos jokainen niistä pitäisi tilata etukäteen ja peräkkäisten ajojen välillä olisi viikkoja, tulos ei valmistuisi koskaan.

    Peräpukamien ja diabeteksen välisen yhteyden selvittämisessä on mennyt jo maailman alusta tähän päivään asti. Mikäli tutkimustulos saadaan nykymenetelmällä vuoden sisällä, niin tutkimus ei kestä merkittävästi kauemmin kuin jos se valmistuisi huomenna.

    Lisäksi tutkimus valmistuu nopeiten, kun sen aloittaa nyt nykyisillä säännöillä eikä ensin pyri hankkimaan naapurin terveystietoja tuijotettaviksi.

    Olen kyllä valmis myymään omat terveystietoni tutkimuskäyttöön, mutta luulen, että kukaan ei halua maksaa pyytämääni hintaa.

  14. Sosiaali- ja terveydenhuollon tutkimus- ja rekisteriaineistoihin kohdistuvat tutkimusluvat mahdollistavat juuri yksilötason tiedon käytön siten, että tutkija voi tehdä erilaisia ajoja aineistoon. Nykykäytäntö ei siis ole esitetyn kaltainen.

    Tutkimusluvan saatua tutkijalle kuitenkin tulee valmistaa tavalla tai toisella vähintään pseudonymisoitu tutkimusaineisto, jossa voi yhdistyä useita eri aineistoja useilta eri toimijoilta.

    Tutkimustietojen käytössä ollaan yhä vahvemmin siirtymässä kohti erilaisia etäkäyttöratkaisuja, jotka on käytössä mm. Tilastokeskuksessa ja samalla tutkimuksissa, joissa käytetään myös Tilastokeskuksen aineistoija. Tällöin tutkijat pystyvät tekemään ajoja kontrolloidussa ympäristössä ja järjestelmästä saa ulos vain tuloksia, jotka voidaan auditoida.

    Mikäli analyysien ja ristiintaulukointien tulokset riittävät, voi tällaisiä tilata erikseen. Tulosaineiston tulee kuitenkin olla sellainen, että sen kautta ei yksilöiden välillinen tunnistaminen ole mahdollista.

  15. erkki niini: Itse olen antanut luvan käyttää vapaasti kertyneitä terveystietojani.

    Niin siis olet antanut luvan hoitohenkilökunnalle päästä käsiksi hoitoon (oleellisesti) vaikuttaviin tietoihin. Tutkimustiedon kerryttämiseen ei taida olla olemassa vastaavaa tahtoa, mutta sellainen ilman muuta tarvittaisiin.

    Minä allekirjoittaisin heti.

    Kiitos muuten muistuttamisesta. Tietojen luovutukseen olinkin antanut luvan 2014. Tein lisäksi elinten luovutusta koskevan tahdon tiedoksi (tosin kielsin luovuttamasta kusipäille joten en tiedä ottavatko todesta ja jos niin miten tämä varmistetaan), ja laadin samalla hoitotahdonkin.

    Enää pitäisi varmistaa, että ao. tahdonilmaisut todella kulkisivat kaikille pirjoilla ja marjatoille ym. jotka saattavat joutua käsittelemään seksikästä kroppaani.

    En ala mukanani kuljettelemaan mitään lippusia ja lappusia.

    En voi myöskään olla absoluuttisen varma, että puolisoni todella tohtisi vetää töpselin seinästä jos ja kun peli alkaa olla ns. game over.

    Pyysin, että saisin nimenomaan herskaa (toivottavasti ei kuitenkaan mitään kadulta ostettua kananpaskalla jatkettua varianttia) koska en tykkää kivusta (ja kuulemma edelleenkin paras kipulääke mitä keksitty), ja että kuolen mielummin yliannostukseen kuin kärsin kipunoista…

    Kyllä NYT on huojentunut olo, ma sanon.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.