Tilastotieteilijä ihmettelee

Kävin puhu­mas­sa tilas­toti­eteen opiske­li­ja­jär­jestö Mood­in synt­täreil­lä. Juh­la­puhe sisäl­si tietysti men­nei­den muis­telua ja nyky­isyy­den ihmette­lyä. Säästän luk­i­jat muis­teluil­ta ja ihmette­len vain nykyisyyttä.

Tilas­toti­eteil­i­jä on siis henkilö, joka analysoi empi­irisiä aineis­to­ja tilas­tol­lisen mallin avul­la. Siinä käytetään matemaat­tisia apu­vä­lineitä, mut­ta ainakaan min­ulle tilas­totiede ei ole matem­ati­ikkaa vaan päättelytaitoa.

Min­un opiskelu­aiko­jeni jäl­keen tilas­toti­eteil­i­jöi­den työsar­ka on peri­aat­teessa laa­jen­tunut tietokonei­den ansios­ta tavat­tomasti.  Toisaal­ta, kun yhä tehokkaampia tietokonei­ta on kaikkial­la, on mah­dol­lista esti­moi­da yhä parem­pia malle­ja. Ennen kuin lin­eaari­nen regres­sion­al­li oli paras­ta mitä oli tar­jol­la, joudut­ti­in maail­ma olet­ta­maan sel­l­aisek­si, että se sopi näi­hin mallei­hin. Jos todel­lisu­us ja mallit oli­vat ris­tiri­idas­sa keskenään, sen pahempi todel­lisu­udelle. Nyt voidaan tehdä paljon real­is­tisem­pia oletuksia.

Tietokonei­den ansioista myös dataa on saatavil­la läh­es rajattomasti.

Luulisi siis, että tilas­toti­eteil­i­jän ammat­ti­taidolle on kysyn­tää. Ei ole. Kyky analysoi­da dataa on jopa heiken­tynyt, vaik­ka mah­dol­lisu­udet ovat paran­tuneet.  Yhä enem­män tehdään vain triv­i­aale­ja nelikent­tiä, piir­retään kor­relo­di­a­gram­mo­ja ja sovite­taan niihin yksinker­tainen tren­di­vi­i­va. Jos halu­taan tietää, miten muut­tu­ja X vaikut­taa muut­tu­jaan Y pitää muiden rel­e­vant­tien muut­tu­jien vaiku­tus vakioi­da pois. Jos esimerkik­si halu­taan ver­ra­ta eri kouluis­sa annet­tavaa ope­tus­ta, tulee oppimis­tu­lok­sia arvioitaes­sa osa­ta ottaa huomioon se, että toises­sa koulus­sa on ehkä parem­pia oppi­lai­ta kuin toisessa.

Min­un on vaikea ymmärtää sitä, että kun tieto­varan­not ja lasken­tamah­dol­lisu­udet ovat paran­tuneet näin val­tavasti, kyky analysoi­da dataa on jopa heikentynyt.

9 vastausta artikkeliin “Tilastotieteilijä ihmettelee”

  1. Tästä aloituk­ses­ta ei nyt oikein aukea mil­lä perus­teel­la väität, että kyky analysoi­da dataa on heiken­tynyt sin­un kulta-ajoistasi? 

    Puhuitko Mood­in bileis­sä muu­ta­man kän­nisen bim­bon kanssa vai miten nyt tämä juh­la linkit­tyy hypo­teesi­in huonon­tuneista tilastotieteilijöistä…

  2. “Min­un on vaikea ymmärtää sitä, että kun tieto­varan­not ja lasken­tamah­dol­lisu­udet ovat paran­tuneet näin val­tavasti, kyky analysoi­da dataa on jopa heikentynyt.”

    Sano muu­ta.

    Nykyai­ka tuot­taa automaat­tis­es­ti ja huo­maa­mat­ta koko ajan aivan jär­jet­tömän määrän dataa mitä eri­laisim­mista asioista, joi­ta voitaisi­in yhdis­tel­lä mitä mie­lenki­in­toisim­mil­la asioilla.

  3. Olen ollut siinä käsi­tyk­sessä että osaavalle tilas­toti­eteil­i­jälle löy­tyy ihan on ihan hyvin töitä. Suh­teessa moni­in mui­hin aka­teemisi­in aloihin.

    Avain­tek­i­jä tosin taitaa olla riit­tävä tietotekni­nen osaami­nen ja/tai sovel­lusalueen tun­te­mus. Voi olla että tilas­totiedet­tä sivuaineena lukenut tieto­jenkäsit­telijä ajau­tuu herkästi tekemään myös tarvit­ta­vat data-ana­lyysit muiden töi­den ohella. 

    Tai se mitä tilas­toti­eteil­i­jät pääasi­as­sa tekivät 90-luvul­la, sujuu nyt valmi­il­la ohjelmis­toil­la automaat­tis­es­ti. Ja aka­teem­i­nen tutkimus kär­sii kroonis­es­ta rahapulasta.

  4. Öh..sensuuria? Muo­toil­laan sit­ten uud­estaan. Sanot:

    “Kyky analysoi­da dataa on jopa heikentynyt.” 

    Jot­ta tästä voisi keskustel­la, niin mielestäni tämä väite kaipaisi hie­man perustelu­ja ja jopa konkreet­tisia esimerkke­jä. Tilas­toti­eteen alen­nusti­las­ta ei ole minus­ta riit­tävä näyt­tö, että olet ollut Mood­in bileissä…

    (Vai onko?)

  5. Eli­na tulk­it­see nyt vähän kum­masti. Olen kyl­lä tarkkail­lut maail­ma ennen Mood­in bileitä. Sieltä käsin taas havain­to­jen tekem­i­nen olisi ollut vähän han­kalaa. Tuo havain­to heiken­tyneestä kyvys­tä analysoi­da aineis­to­ja on kyl­lä syn­tynyt ennen Mood­in bileitä.

  6. Tutk­i­joiden kyky analysoi­da kvan­ti­tati­ivista dataa voi tosi­aan olla huonom­pi kuin 70-luvul­la. Itse asi­as­sa­han tilas­to-ohjel­mat suorit­ta­vat nyt ana­lyysit, joten tätä kykyä ei oikeas­t­aan tarvi­ta. Riit­tää, kun ymmärtää, mitä ana­lyy­se­jä on tekemässä ja miksi. 

    Datan keräämi­nen mielekkääl­lä taval­la on edelleen alue, jos­sa haas­teet ovat samat. Sen sijaan en ymmär­rä, miten mah­dol­lisu­udet datan analysoin­ti­in oli­si­vat mil­lään muo­toa heiken­tyneet. Mon­imutkaiset matemaat­tiset pros­es­sit hoitu­vat napin painal­luk­sel­la. Jokainen, joka on yrit­tänyt tehdä vaikka­pa fak­to­ri­ana­lyysiä käsin, eron ymmärtää. 

    Tarkoi­tatko lop­pu­jen lopuk­si, että kyky tulosten tulk­in­taan on huonon­tunut? Kun ei ole perus­teel­lis­es­ti selvil­lä, mitä on mitat­tu ja mitä mikäkin tun­nus­luku oikein kuvaa, niin tutkimuk­sen johtopäätök­set-osu­us voi olla vähin­täänkin koomi­nen. Gradu­ta­sol­la­han tämä on taval­lista, mut­ta väitöskir­jois­sakin on jatku­vasti heikko­ta­soisem­pia julkaisuja.
    On myös selvä, että jos mais­terei­den ja tohtor­ei­den määrä on nopeas­sa kasvus­sa, näkyy se laadus­sa kaikil­la osaamisen alueilla. 

    Nyt tietysti kir­joitit vain tilas­tol­li­sista menetelmistä, mut­ta muis­tut­taisin, että laa­jem­min ajatel­tuna kyky analysoi­da dataa on huimasti laa­jen­tunut kval­i­tati­ivis­ten menetelmien myötä. 

    Osmo havain­noi alati ympäristöään: 

    “Olen kyl­lä tarkkail­lut maail­ma ennen Mood­in bileitä”

    En epäile tätä. Sik­si ihmettelinkin, mik­si mainit­sit juh­lat, jos niil­lä oli vain huter­an aasin­sil­lan tehtävä. Tein vääjäämät­tä loogisen ole­tuk­sen, että juh­lis­sa teit huomioi­ta, jot­ka kir­voit­ti­vat sin­ut otta­maan kan­taa aiheeseen.

  7. Yritin tätä juuri sanoa. Käytet­tävis­sä on lois­tavia analysoin­tio­hjelmia, jol­la voi esti­moi­da melkein mil­laisen mallin tahansa. Niistä ei kuitenkaan ole juuri hyö­tyä — pikem­minkin hait­taa — ellei tutk­i­ja ymmär­rä, mitä se ohjel­ma tekee ja mitä sen pitäisi tehdä. Sik­si ole­mas­sa ole­via lasken­tamah­dol­lisuuk­sia ei käytetä tai niitä käytetään väärin.

    Esimerkik­si fak­to­ri­ana­ly­y­sis­sa olisi hyvä, että tutk­i­ja tietäisi mitä se tekee. Käsin kan­nat­taa tehdä ainakin fak­tore­den rotaa­tio, jos halu­aa oikean­laisia mittare­i­ta. Automaat­tiset rotaa­tiot anta­vat ihan mitä sat­tuu. Fak­to­ri­ana­lyysi sel­l­aise­naan on kuitenkin kai (toiv­ot­tavasti) jo van­hen­tunut. Nyt pitäisi voi­da rak­en­taa malle­ja, jois­sa ilmiötä selitet­tään sekä piilevil­lä että mitat­tavil­la suureil­la, siis erään­laisia fak­to­ri­ana­lyysin ja regres­sioma­llin kombinaatioita. 

    Olisi myös hyvä käyt­tää ei-lin­eaarisia malle­ja, jois­sa on vähän laskemista, mut­ta joista nopeat tietokoneet kyl­lä selviävät. Se vaatii kuitenkin aika hyvää kokemusta. 

    Min­un on aika vaikea ker­toa puheestani Mood­in juh­lis­sa mainit­se­mat­ta Mood­in juhlia.

  8. Itse en ole tilas­totiedet­tä sinän­sä juuri har­ras­tanut, mut­ta ekonome­tri­aa (joka on tilas­totiedet­tä eri nimel­lä) vähän ja tilas­to­m­atem­ati­ikkaa jonkin verran. 

    Min­ul­la on sikäli kerettiläi­nen mielipi­de noista ohjelmista, että ne ovat parhaim­mil­laan hyviä työkalu­ja raport­tien tekemiseen ja pahim­mil­laan ne estävät asian ymmärtämisen tyystin. Tuol­laista ohjel­maa ei oikeas­t­aan pitäisi edes käyt­tää, jos ei vas­taavaa (lasken­nan osalta) osaisi tehdä itse ainakin periaatteessa. 

    Ei-lin­eaaris­ten mallien käytön esteenä eivät ole ohjel­ma ja niiden hyy­tymi­nen (joka voi tul­la eteen; epä­lin­eaariset mallit ovat usein lasken­nal­lis­es­ti aivan eri vaa­tivu­us­ta­soa kuin lin­eaariset) vaan toden­näköis­es­ti se, ettei niil­lä ole niin miel­lyt­täviä teo­reet­tisia omi­naisuuk­sia. Tämä on ainakin tieteel­lisessä julkaisemises­sa kyn­nys. Jos päät­te­lyn virhe­mar­gin­aale­ja ei voi laskea, on päät­te­lyn rapor­toin­ti vähän hankalaa. 

    Omaan käyt­töön­sä data-ana­lyysiä tekevät tahot, joil­la ei ole vält­tämät­tä saman­laisia for­maal­isu­u­den painei­ta, kuten rahoi­tus- tai markki­noin­tialan fir­mat tekevät paljonkin epä­lin­eaarista ana­lyysiä. He tekevät sen salaa ja hil­jaa, ne menetelmät ovat usein liike­salaisuuk­sia. Niiden tekemiseen kyl­lä kysytään osaamista ja Suomes­sa on muu­ta­makin fir­ma, jot­ka sel­l­aista tekevät.

  9. Vakioin esim. perus­suo­ma­laiset tilas­tol­lis­es­ti pois. Miten se lasken­nal­lis­es­ti tapahtuu.

    mb1

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.