Tilastotieteilijä ihmettelee

Kävin puhu­mas­sa tilas­to­tie­teen opis­ke­li­ja­jär­jes­tö Moo­din synt­tä­reil­lä. Juh­la­pu­he sisäl­si tie­tys­ti men­nei­den muis­te­lua ja nykyi­syy­den ihmet­te­lyä. Sääs­tän luki­jat muis­te­luil­ta ja ihmet­te­len vain nykyisyyttä.

Tilas­to­tie­tei­li­jä on siis hen­ki­lö, joka ana­ly­soi empii­ri­siä aineis­to­ja tilas­tol­li­sen mal­lin avul­la. Sii­nä käy­te­tään mate­maat­ti­sia apu­vä­li­nei­tä, mut­ta aina­kaan minul­le tilas­to­tie­de ei ole mate­ma­tiik­kaa vaan päättelytaitoa.

Minun opis­ke­luai­ko­je­ni jäl­keen tilas­to­tie­tei­li­jöi­den työ­sar­ka on peri­aat­tees­sa laa­jen­tu­nut tie­to­ko­nei­den ansios­ta tavat­to­mas­ti.  Toi­saal­ta, kun yhä tehok­kaam­pia tie­to­ko­nei­ta on kaik­kial­la, on mah­dol­lis­ta esti­moi­da yhä parem­pia mal­le­ja. Ennen kuin line­aa­ri­nen regres­sio­nal­li oli paras­ta mitä oli tar­jol­la, jou­dut­tiin maa­il­ma olet­ta­maan sel­lai­sek­si, että se sopi näi­hin mal­lei­hin. Jos todel­li­suus ja mal­lit oli­vat ris­ti­rii­das­sa kes­ke­nään, sen pahem­pi todel­li­suu­del­le. Nyt voi­daan teh­dä pal­jon rea­lis­ti­sem­pia oletuksia.

Tie­to­ko­nei­den ansiois­ta myös dataa on saa­ta­vil­la lähes rajattomasti.

Luu­li­si siis, että tilas­to­tie­tei­li­jän ammat­ti­tai­dol­le on kysyn­tää. Ei ole. Kyky ana­ly­soi­da dataa on jopa hei­ken­ty­nyt, vaik­ka mah­dol­li­suu­det ovat paran­tu­neet.  Yhä enem­män teh­dään vain tri­vi­aa­le­ja neli­kent­tiä, piir­re­tään kor­re­lo­dia­gram­mo­ja ja sovi­te­taan nii­hin yksin­ker­tai­nen tren­di­vii­va. Jos halu­taan tie­tää, miten muut­tu­ja X vai­kut­taa muut­tu­jaan Y pitää mui­den rele­vant­tien muut­tu­jien vai­ku­tus vakioi­da pois. Jos esi­mer­kik­si halu­taan ver­ra­ta eri kou­luis­sa annet­ta­vaa ope­tus­ta, tulee oppi­mis­tu­lok­sia arvioi­taes­sa osa­ta ottaa huo­mioon se, että toi­ses­sa kou­lus­sa on ehkä parem­pia oppi­lai­ta kuin toisessa.

Minun on vai­kea ymmär­tää sitä, että kun tie­to­va­ran­not ja las­ken­ta­mah­dol­li­suu­det ovat paran­tu­neet näin val­ta­vas­ti, kyky ana­ly­soi­da dataa on jopa heikentynyt.

9 vastausta artikkeliin “Tilastotieteilijä ihmettelee”

  1. Täs­tä aloi­tuk­ses­ta ei nyt oikein aukea mil­lä perus­teel­la väi­tät, että kyky ana­ly­soi­da dataa on hei­ken­ty­nyt sinun kulta-ajoistasi? 

    Puhuit­ko Moo­din bileis­sä muu­ta­man kän­ni­sen bim­bon kans­sa vai miten nyt tämä juh­la lin­kit­tyy hypo­tee­siin huo­non­tu­neis­ta tilastotieteilijöistä…

  2. Minun on vai­kea ymmär­tää sitä, että kun tie­to­va­ran­not ja las­ken­ta­mah­dol­li­suu­det ovat paran­tu­neet näin val­ta­vas­ti, kyky ana­ly­soi­da dataa on jopa heikentynyt.”

    Sano muu­ta.

    Nyky­ai­ka tuot­taa auto­maat­ti­ses­ti ja huo­maa­mat­ta koko ajan aivan jär­jet­tö­män mää­rän dataa mitä eri­lai­sim­mis­ta asiois­ta, joi­ta voi­tai­siin yhdis­tel­lä mitä mie­len­kiin­toi­sim­mil­la asioilla.

  3. Olen ollut sii­nä käsi­tyk­ses­sä että osaa­val­le tilas­to­tie­tei­li­jäl­le löy­tyy ihan on ihan hyvin töi­tä. Suh­tees­sa moniin mui­hin aka­tee­mi­siin aloihin.

    Avain­te­ki­jä tosin tai­taa olla riit­tä­vä tie­to­tek­ni­nen osaa­mi­nen ja/tai sovel­lusa­lu­een tun­te­mus. Voi olla että tilas­to­tie­det­tä sivuai­nee­na luke­nut tie­to­jen­kä­sit­te­li­jä ajau­tuu her­käs­ti teke­mään myös tar­vit­ta­vat data-ana­lyy­sit mui­den töi­den ohella. 

    Tai se mitä tilas­to­tie­tei­li­jät pää­asias­sa teki­vät 90-luvul­la, sujuu nyt val­miil­la ohjel­mis­toil­la auto­maat­ti­ses­ti. Ja aka­tee­mi­nen tut­ki­mus kär­sii kroo­ni­ses­ta rahapulasta.

  4. Öh..sensuuria? Muo­toil­laan sit­ten uudes­taan. Sanot:

    Kyky ana­ly­soi­da dataa on jopa heikentynyt.” 

    Jot­ta täs­tä voi­si kes­kus­tel­la, niin mie­les­tä­ni tämä väi­te kai­pai­si hie­man perus­te­lu­ja ja jopa kon­kreet­ti­sia esi­merk­ke­jä. Tilas­to­tie­teen alen­nus­ti­las­ta ei ole minus­ta riit­tä­vä näyt­tö, että olet ollut Moo­din bileissä…

    (Vai onko?)

  5. Eli­na tul­kit­see nyt vähän kum­mas­ti. Olen kyl­lä tark­kail­lut maa­il­ma ennen Moo­din bilei­tä. Siel­tä käsin taas havain­to­jen teke­mi­nen oli­si ollut vähän han­ka­laa. Tuo havain­to hei­ken­ty­nees­tä kyvys­tä ana­ly­soi­da aineis­to­ja on kyl­lä syn­ty­nyt ennen Moo­din bileitä.

  6. Tut­ki­joi­den kyky ana­ly­soi­da kvan­ti­ta­tii­vis­ta dataa voi tosi­aan olla huo­nom­pi kuin 70-luvul­la. Itse asias­sa­han tilas­to-ohjel­mat suo­rit­ta­vat nyt ana­lyy­sit, joten tätä kykyä ei oikeas­taan tar­vi­ta. Riit­tää, kun ymmär­tää, mitä ana­lyy­se­jä on teke­mäs­sä ja miksi. 

    Datan kerää­mi­nen mie­lek­kääl­lä taval­la on edel­leen alue, jos­sa haas­teet ovat samat. Sen sijaan en ymmär­rä, miten mah­dol­li­suu­det datan ana­ly­soin­tiin oli­si­vat mil­lään muo­toa hei­ken­ty­neet. Moni­mut­kai­set mate­maat­ti­set pro­ses­sit hoi­tu­vat napin pai­nal­luk­sel­la. Jokai­nen, joka on yrit­tä­nyt teh­dä vaik­ka­pa fak­to­ria­na­lyy­siä käsin, eron ymmärtää. 

    Tar­koi­tat­ko lop­pu­jen lopuk­si, että kyky tulos­ten tul­kin­taan on huo­non­tu­nut? Kun ei ole perus­teel­li­ses­ti sel­vil­lä, mitä on mitat­tu ja mitä mikä­kin tun­nus­lu­ku oikein kuvaa, niin tut­ki­muk­sen joh­to­pää­tök­set-osuus voi olla vähin­tään­kin koo­mi­nen. Gra­du­ta­sol­la­han tämä on taval­lis­ta, mut­ta väi­tös­kir­jois­sa­kin on jat­ku­vas­ti heik­ko­ta­soi­sem­pia julkaisuja.
    On myös sel­vä, että jos mais­te­rei­den ja toh­to­rei­den mää­rä on nopeas­sa kas­vus­sa, näkyy se laa­dus­sa kai­kil­la osaa­mi­sen alueilla. 

    Nyt tie­tys­ti kir­joi­tit vain tilas­tol­li­sis­ta mene­tel­mis­tä, mut­ta muis­tut­tai­sin, että laa­jem­min aja­tel­tu­na kyky ana­ly­soi­da dataa on hui­mas­ti laa­jen­tu­nut kva­li­ta­tii­vis­ten mene­tel­mien myötä. 

    Osmo havain­noi ala­ti ympäristöään: 

    Olen kyl­lä tark­kail­lut maa­il­ma ennen Moo­din bileitä”

    En epäi­le tätä. Sik­si ihmet­te­lin­kin, mik­si mai­nit­sit juh­lat, jos niil­lä oli vain hute­ran aasin­sil­lan teh­tä­vä. Tein vää­jää­mät­tä loo­gi­sen ole­tuk­sen, että juh­lis­sa teit huo­mioi­ta, jot­ka kir­voit­ti­vat sinut otta­maan kan­taa aiheeseen.

  7. Yri­tin tätä juu­ri sanoa. Käy­tet­tä­vis­sä on lois­ta­via ana­ly­soin­tioh­jel­mia, jol­la voi esti­moi­da mel­kein mil­lai­sen mal­lin tahan­sa. Niis­tä ei kui­ten­kaan ole juu­ri hyö­tyä — pikem­min­kin hait­taa — ellei tut­ki­ja ymmär­rä, mitä se ohjel­ma tekee ja mitä sen pitäi­si teh­dä. Sik­si ole­mas­sa ole­via las­ken­ta­mah­dol­li­suuk­sia ei käy­te­tä tai nii­tä käy­te­tään väärin.

    Esi­mer­kik­si fak­to­ria­na­lyy­sis­sa oli­si hyvä, että tut­ki­ja tie­täi­si mitä se tekee. Käsin kan­nat­taa teh­dä aina­kin fak­to­re­den rotaa­tio, jos halu­aa oikean­lai­sia mit­ta­rei­ta. Auto­maat­ti­set rotaa­tiot anta­vat ihan mitä sat­tuu. Fak­to­ria­na­lyy­si sel­lai­se­naan on kui­ten­kin kai (toi­vot­ta­vas­ti) jo van­hen­tu­nut. Nyt pitäi­si voi­da raken­taa mal­le­ja, jois­sa ilmiö­tä seli­tet­tään sekä pii­le­vil­lä että mitat­ta­vil­la suu­reil­la, siis erään­lai­sia fak­to­ria­na­lyy­sin ja regres­sio­mal­lin kombinaatioita. 

    Oli­si myös hyvä käyt­tää ei-line­aa­ri­sia mal­le­ja, jois­sa on vähän las­ke­mis­ta, mut­ta jois­ta nopeat tie­to­ko­neet kyl­lä sel­viä­vät. Se vaa­tii kui­ten­kin aika hyvää kokemusta. 

    Minun on aika vai­kea ker­toa puhees­ta­ni Moo­din juh­lis­sa mai­nit­se­mat­ta Moo­din juhlia.

  8. Itse en ole tilas­to­tie­det­tä sinän­sä juu­ri har­ras­ta­nut, mut­ta eko­no­met­ri­aa (joka on tilas­to­tie­det­tä eri nimel­lä) vähän ja tilas­to­ma­te­ma­tiik­kaa jon­kin verran. 

    Minul­la on sikä­li keret­ti­läi­nen mie­li­pi­de nois­ta ohjel­mis­ta, että ne ovat par­haim­mil­laan hyviä työ­ka­lu­ja raport­tien teke­mi­seen ja pahim­mil­laan ne estä­vät asian ymmär­tä­mi­sen tyys­tin. Tuol­lais­ta ohjel­maa ei oikeas­taan pitäi­si edes käyt­tää, jos ei vas­taa­vaa (las­ken­nan osal­ta) osai­si teh­dä itse aina­kin periaatteessa. 

    Ei-line­aa­ris­ten mal­lien käy­tön estee­nä eivät ole ohjel­ma ja nii­den hyy­ty­mi­nen (joka voi tul­la eteen; epä­li­ne­aa­ri­set mal­lit ovat usein las­ken­nal­li­ses­ti aivan eri vaa­ti­vuus­ta­soa kuin line­aa­ri­set) vaan toden­nä­köi­ses­ti se, ettei niil­lä ole niin miel­lyt­tä­viä teo­reet­ti­sia omi­nai­suuk­sia. Tämä on aina­kin tie­teel­li­ses­sä jul­kai­se­mi­ses­sa kyn­nys. Jos päät­te­lyn vir­he­mar­gi­naa­le­ja ei voi las­kea, on päät­te­lyn rapor­toin­ti vähän hankalaa. 

    Omaan käyt­töön­sä data-ana­lyy­siä teke­vät tahot, joil­la ei ole vält­tä­mät­tä saman­lai­sia for­maa­li­suu­den pai­nei­ta, kuten rahoi­tus- tai mark­ki­noin­tia­lan fir­mat teke­vät pal­jon­kin epä­li­ne­aa­ris­ta ana­lyy­siä. He teke­vät sen salaa ja hil­jaa, ne mene­tel­mät ovat usein lii­ke­sa­lai­suuk­sia. Nii­den teke­mi­seen kyl­lä kysy­tään osaa­mis­ta ja Suo­mes­sa on muu­ta­ma­kin fir­ma, jot­ka sel­lais­ta tekevät.

  9. Vakioin esim. perus­suo­ma­lai­set tilas­tol­li­ses­ti pois. Miten se las­ken­nal­li­ses­ti tapahtuu.

    mb1

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.