Site icon

Miksi valtava datamäärä tuottaa niin vähän tietoa?

(Kir­joi­tus on julka­istu Sosi­aalilääketi­eteel­lisessä aikakausle­hdessä 4/2014)

Olen saanut 1970-luvun olois­sa parhaan mah­dol­lisen tilas­toti­eteel­lisen koulu­tuk­sen pro­fes­sorien Leo Törn­qvist ja Sep­po Mus­to­nen oppi­laana. Tilas­tolli­nen tutkimus eri­lais­ten ilmiöi­den keskinäi­sistä riip­pu­vuuk­sista oli sil­loin paljolti käsi­työtä. Dataa oli käytet­tävis­sä niukasti ja sik­si vähistä tiedoista oli otet­ta­va kaik­ki irti. Pro­fes­sori Törn­qvist opet­ti aloit­ta­maan tutkimuk­sen aina lyi­jykynän ja mil­limetri­pa­perin kanssa. Jokainen havain­to merkit­ti­in paper­ille, jot­ta ymmär­ret­täisi­in, mil­laista dataa käsitel­lään.  Sep­po Mus­tosen kehit­tämä Sur­vo-ohjel­ma lisäsi tässä tuot­tavu­ut­ta monikym­menker­tais­es­ti, kun saman pystyi tekemään tietokoneen näytöl­lä. Dataa piti usein kor­ja­ta, kos­ka tiedois­sa oli virheitä tai johonkin havain­toon liit­tyi jokin poikkeuk­selli­nen seik­ka. Jos esimerkik­si halusi selvit­tää junalip­pu­jen hin­nan vaiku­tus­ta junal­la matkus­tamisen suo­sioon, ei ollut järkevää ottaa aineis­toon havain­toa ajal­ta, jol­loin junat seisoi­vat lakon takia.

Pro­fes­sori Törn­qvist korosti käytet­tävän mallin järkevyyt­tä. Ei ollut mieltä käyt­tää lin­eaarista mallia tilanteessa, jos­sa riip­pu­vu­us ei voin­ut olla lin­eaarista. Pahin­ta mitä saat­toi tehdä, oli ”dimen­siovirhe”, jos­sa tulos muut­tuisi toisek­si, jos esimerkik­si pitu­ut­ta mitat­taisi­in metrien sijas­ta jalkoina.

Ties­imme, että uusi aika tehokkaine tietokonei­neen ja suurine datamääri­neen oli tulos­sa. Tämä tulisi merk­it­semään jät­ti­harp­paus­ta yhteiskun­nal­lis­ten ilmiöi­den ja niiden keskinäis­ten riip­pu­vuuk­sien ymmärtämisessä. Edessä piti olla yhteiskun­tati­etei­den kukois­tuskausi. Pro­fes­sori Yrjö Ahmavaara hah­mot­teli ehkä vähän orwel­maiselta haiskah­tavaa kyberneet­tistä yhteiskun­tapoli­ti­ikkaa, jos­sa päätök­sen­tek­i­jät voisi­vat opti­moi­da hyvinkin mon­imutkaista hyö­ty­funk­tio­ta, kun toimen­pitei­den mon­imutkaiset vaiku­tuk­set oli­si­vat tiedossa.

Lasken­taka­p­a­siteetin ja ennen kaikkea käytössä ole­van datamäärän kasvu on ylit­tänyt kaiken sen, mitä saa­toimme kuvitel­la, mut­ta sitä suur­ta yhteiskun­tati­etei­den kukois­tuskaut­ta yhä odote­taan. Mik­si datan tul­va ja val­tavasti kas­vanut lasken­taka­p­a­siteet­ti ei ole tuot­tanut tiedol­lista vallankumousta?

Val­tavaan datamäärään sisäl­tyy aina virheel­lisiä havain­to­ja. Me jouduimme taval­lis­es­ti pois­ta­maan aineis­tos­ta noin kymme­nen­nen osan havain­noista tai kor­jaa­maan niitä. Tätä ei voi tehdä ainakaan käsin, jos havain­to­ja on miljoo­nia. Pieni määrä oikei­ta havain­to­ja antaa tarkem­mat esti­maatit kuin val­ta­va määrä virheel­lis­ten havain­to­jen saas­tut­ta­maa aineis­toa. Tilas­tol­liset menetelmät perus­tu­vat taval­lis­es­ti pien­im­män neliö­sum­man menetelmään, jol­loin muus­ta aineis­tos­ta poikkea­vat havain­not saa­vat hyvin suuren painoarvon.

Tutk­i­jan pitää myös tun­tea käyt­tämän­sä menetelmät ja mit­tar­it. Niin yksinker­tainen asia kuin kor­re­laa­tiok­er­toimen tulk­in­takin voi men­nä aivan met­sään. Esimerkik­si muut­tu­jien x ja y väli­nen riip­pu­vu­us voi olla hyvinkin voimakas­ta, vaik­ka havain­toaineis­tossa niiden väli­nen kor­re­laa­tio on vähäi­nen. Kor­re­laa­tio mit­taa lin­eaarista riip­pu­vu­ut­ta ja vain sitä. Kor­re­laa­tiok­er­roin voi olla mata­la vaik­ka muut­tu­ja y olisi suo­ras­taan muut­tu­jan x funk­tio, jos riip­pu­vu­us on epälineaarinen.

1970-luvun lop­ul­la fak­to­ri­ana­lyysi teki tuloaan yhteiskun­tati­eteisi­in. Tämä menetelmä on tehokas, mut­ta hyvä se on vain sel­l­aisen tutk­i­jan käsis­sä, joka ymmärtää, miten ana­lyysi toimii. Aivan järkyt­täviä nol­latutkimuk­sia julka­isti­in tuol­loin jopa väitöskir­joina, kun tutk­i­ja tulk­it­si fak­to­ri­latauk­sia kuin Delfoin oraakke­li. Nyt näkee tutkimuk­sia, jot­ka analysoitu jol­lain min­ulle tun­tem­at­toma­l­la taval­la. Kun tutk­i­jal­ta kysyy, miten se on analysoitu, saa vas­tauk­sek­si kau­pal­lisen ohjelmis­ton nimen. Siihen, mitä tuo ohjelmis­to tarkkaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toim­inta­pe­ri­aate saat­taa olla jopa liike­salaisu­us! Miten sel­l­aista voi käyt­tää tutkimuksessa?

Yhteiskun­nalli­nen tutkimus ja eri­tyis­es­ti epi­demi­ologi­nen tutkimus kär­sii myös väärin ymmär­re­tys­tä tieto­suo­jas­ta. Kau­pal­liset tahot saa­vat tal­let­taa ihmi­sistä tieto­varan­toi­hin­sa asioi­ta, joista aka­teemiset tutk­i­jat eivät voi kuin haaveil­la. Kukaan ei antaisi ikinä tutk­i­jalle lupaa kerätä yksi­tyisko­htaisia tieto­ja taval­lis­ten kansalais­ten päivit­täi­sistä ostok­sista tai oikeut­ta analysoi­da ihmis­ten toisilleen lähet­tämiä sähkö­pos­tivi­este­jä ja tarkkail­la hei­dän tieto­haku­jaan, mut­ta kau­pan keskus­li­ik­keet, Face­book ja Google saa­vat näin tehdä tai ainakin tekevät. Tähän ver­rat­tuna aika vaa­ti­ma­ton han­ke oli HSL:n yri­tys tal­let­taa matkako­rt­tia käyt­tävien matkat, jot­ta reitit ja aikataulut osat­taisi suun­nitel­la parem­min. Se kiel­let­ti­in tieto­suo­jaa loukkaavana.

Kuvitelkaa, mitä kaikkea voisi tehdä, jos epi­demi­ologi­nen tutkimus voisi käyt­tää saman­laisia tieto­varas­to­ja, joi­ta nuo edel­lä maini­tut yksi­tyiset yri­tyk­set käyt­tävät! Tutk­i­joiden tulisi nous­ta bar­rikadeille puo­lus­ta­maan sitä, että ole­mas­sa ole­via ja laa­jenevia val­tavia tieto­varas­to­ja saisi käyt­tää myös yhteiskun­nal­liseen ja lääketi­eteel­liseen tutkimuk­seen eikä vain yksi­ty­is­ten yri­tys­ten tarpeisiin.

Jokainen tutk­i­ja ei voi koulut­tau­tua tilas­toti­eteen huip­pu­osaa­jak­si, mut­ta jokaisen tutkimus­ryh­män käytet­tävis­sä pitäisi sel­l­ainen olla. Tilas­tol­lisia osaa­jia pitäisi koulut­taa selvästi enem­män. Eikä tilas­toti­eteen koulu­tus saisi olla vain matemaat­tis­ten teo­ri­oiden pänt­täämistä – nekin on kyl­lä hyvä osa­ta – sil­lä hyvä tilas­toti­eteil­i­jä on ennen kaikkea käsityöläinen.

Havain­toaineis­toista pitäisi aina piirtää kuvia kos­ka kuvista ihmi­nen hah­mot­taa asioi­ta paljon parem­min kuin luvuista. Enää ei onnek­si tarvitse käyt­tää mil­limetri­pa­pe­ria ja lyi­jykynää, vaan tasokkai­ta kuvia saa tietokoneen näyt­tää mur­to-osasekun­nis­sa. Aineis­toa on kat­selta­va eri puo­lil­ta. Usein järkevän kuvan muut­tu­jien y ja x riip­pu­vu­ud­es­ta saa vas­ta, kun on pois­tanut molem­mista kol­man­nen muut­tu­jan z vaiku­tuk­sen. Kun tun­tee aineis­ton­sa hyvin, ei yleen­sä tarvitse kovin mon­imutkaisia tutkimus­menetelmiä. Tutkimus­menetelmä ei oikeas­t­aan koskaan saisi olla niin kehit­tynyt, ettei tutk­i­ja ymmär­rä, miten se toimii.

On myös pois­tet­ta­va aineis­toa häir­it­sevät virheel­liset havain­not tai kor­jat­ta­va niitä. Jos niitä ei pysty pois­ta­maan käsin, ne voi pois­taa tähän tarkoituk­seen suun­nitel­lul­la algo­rit­mil­la. Jos havain­to poikkeaa muista liikaa – usei­ta stan­dard­ipoikkeamia – melkein var­masti virheelli­nen. Tämä voi johtaa myös oikei­den havain­to­jen hylkäämiseen, mut­ta tämä ris­ki on paljon pienem­pi kuin ris­ki virheel­lisi­in havain­toi­hin perus­tu­vas­ta väärästä johtopäätöksestä.

 

Exit mobile version