Tilastotieteilijä ihmettelee

Kävin puhumassa tilastotieteen opiskelijajärjestö Moodin synttäreillä. Juhlapuhe sisälsi tietysti menneiden muistelua ja nykyisyyden ihmettelyä. Säästän lukijat muisteluilta ja ihmettelen vain nykyisyyttä.

Tilastotieteilijä on siis henkilö, joka analysoi empiirisiä aineistoja tilastollisen mallin avulla. Siinä käytetään matemaattisia apuvälineitä, mutta ainakaan minulle tilastotiede ei ole matematiikkaa vaan päättelytaitoa.

Minun opiskeluaikojeni jälkeen tilastotieteilijöiden työsarka on periaatteessa laajentunut tietokoneiden ansiosta tavattomasti.  Toisaalta, kun yhä tehokkaampia tietokoneita on kaikkialla, on mahdollista estimoida yhä parempia malleja. Ennen kuin lineaarinen regressionalli oli parasta mitä oli tarjolla, jouduttiin maailma olettamaan sellaiseksi, että se sopi näihin malleihin. Jos todellisuus ja mallit olivat ristiriidassa keskenään, sen pahempi todellisuudelle. Nyt voidaan tehdä paljon realistisempia oletuksia.

Tietokoneiden ansioista myös dataa on saatavilla lähes rajattomasti.

Luulisi siis, että tilastotieteilijän ammattitaidolle on kysyntää. Ei ole. Kyky analysoida dataa on jopa heikentynyt, vaikka mahdollisuudet ovat parantuneet.  Yhä enemmän tehdään vain triviaaleja nelikenttiä, piirretään korrelodiagrammoja ja sovitetaan niihin yksinkertainen trendiviiva. Jos halutaan tietää, miten muuttuja X vaikuttaa muuttujaan Y pitää muiden relevanttien muuttujien vaikutus vakioida pois. Jos esimerkiksi halutaan verrata eri kouluissa annettavaa opetusta, tulee oppimistuloksia arvioitaessa osata ottaa huomioon se, että toisessa koulussa on ehkä parempia oppilaita kuin toisessa.

Minun on vaikea ymmärtää sitä, että kun tietovarannot ja laskentamahdollisuudet ovat parantuneet näin valtavasti, kyky analysoida dataa on jopa heikentynyt.

9 vastausta artikkeliin “Tilastotieteilijä ihmettelee”

  1. Tästä aloituksesta ei nyt oikein aukea millä perusteella väität, että kyky analysoida dataa on heikentynyt sinun kulta-ajoistasi?

    Puhuitko Moodin bileissä muutaman kännisen bimbon kanssa vai miten nyt tämä juhla linkittyy hypoteesiin huonontuneista tilastotieteilijöistä…

  2. ”Minun on vaikea ymmärtää sitä, että kun tietovarannot ja laskentamahdollisuudet ovat parantuneet näin valtavasti, kyky analysoida dataa on jopa heikentynyt.”

    Sano muuta.

    Nykyaika tuottaa automaattisesti ja huomaamatta koko ajan aivan järjettömän määrän dataa mitä erilaisimmista asioista, joita voitaisiin yhdistellä mitä mielenkiintoisimmilla asioilla.

  3. Olen ollut siinä käsityksessä että osaavalle tilastotieteilijälle löytyy ihan on ihan hyvin töitä. Suhteessa moniin muihin akateemisiin aloihin.

    Avaintekijä tosin taitaa olla riittävä tietotekninen osaaminen ja/tai sovellusalueen tuntemus. Voi olla että tilastotiedettä sivuaineena lukenut tietojenkäsittelijä ajautuu herkästi tekemään myös tarvittavat data-analyysit muiden töiden ohella.

    Tai se mitä tilastotieteilijät pääasiassa tekivät 90-luvulla, sujuu nyt valmiilla ohjelmistoilla automaattisesti. Ja akateeminen tutkimus kärsii kroonisesta rahapulasta.

  4. Öh..sensuuria? Muotoillaan sitten uudestaan. Sanot:

    ”Kyky analysoida dataa on jopa heikentynyt.”

    Jotta tästä voisi keskustella, niin mielestäni tämä väite kaipaisi hieman perusteluja ja jopa konkreettisia esimerkkejä. Tilastotieteen alennustilasta ei ole minusta riittävä näyttö, että olet ollut Moodin bileissä…

    (Vai onko?)

  5. Elina tulkitsee nyt vähän kummasti. Olen kyllä tarkkaillut maailma ennen Moodin bileitä. Sieltä käsin taas havaintojen tekeminen olisi ollut vähän hankalaa. Tuo havainto heikentyneestä kyvystä analysoida aineistoja on kyllä syntynyt ennen Moodin bileitä.

  6. Tutkijoiden kyky analysoida kvantitatiivista dataa voi tosiaan olla huonompi kuin 70-luvulla. Itse asiassahan tilasto-ohjelmat suorittavat nyt analyysit, joten tätä kykyä ei oikeastaan tarvita. Riittää, kun ymmärtää, mitä analyysejä on tekemässä ja miksi.

    Datan kerääminen mielekkäällä tavalla on edelleen alue, jossa haasteet ovat samat. Sen sijaan en ymmärrä, miten mahdollisuudet datan analysointiin olisivat millään muotoa heikentyneet. Monimutkaiset matemaattiset prosessit hoituvat napin painalluksella. Jokainen, joka on yrittänyt tehdä vaikkapa faktorianalyysiä käsin, eron ymmärtää.

    Tarkoitatko loppujen lopuksi, että kyky tulosten tulkintaan on huonontunut? Kun ei ole perusteellisesti selvillä, mitä on mitattu ja mitä mikäkin tunnusluku oikein kuvaa, niin tutkimuksen johtopäätökset-osuus voi olla vähintäänkin koominen. Gradutasollahan tämä on tavallista, mutta väitöskirjoissakin on jatkuvasti heikkotasoisempia julkaisuja.
    On myös selvä, että jos maistereiden ja tohtoreiden määrä on nopeassa kasvussa, näkyy se laadussa kaikilla osaamisen alueilla.

    Nyt tietysti kirjoitit vain tilastollisista menetelmistä, mutta muistuttaisin, että laajemmin ajateltuna kyky analysoida dataa on huimasti laajentunut kvalitatiivisten menetelmien myötä.

    Osmo havainnoi alati ympäristöään:

    ”Olen kyllä tarkkaillut maailma ennen Moodin bileitä”

    En epäile tätä. Siksi ihmettelinkin, miksi mainitsit juhlat, jos niillä oli vain huteran aasinsillan tehtävä. Tein vääjäämättä loogisen oletuksen, että juhlissa teit huomioita, jotka kirvoittivat sinut ottamaan kantaa aiheeseen.

  7. Yritin tätä juuri sanoa. Käytettävissä on loistavia analysointiohjelmia, jolla voi estimoida melkein millaisen mallin tahansa. Niistä ei kuitenkaan ole juuri hyötyä – pikemminkin haittaa – ellei tutkija ymmärrä, mitä se ohjelma tekee ja mitä sen pitäisi tehdä. Siksi olemassa olevia laskentamahdollisuuksia ei käytetä tai niitä käytetään väärin.

    Esimerkiksi faktorianalyysissa olisi hyvä, että tutkija tietäisi mitä se tekee. Käsin kannattaa tehdä ainakin faktoreden rotaatio, jos haluaa oikeanlaisia mittareita. Automaattiset rotaatiot antavat ihan mitä sattuu. Faktorianalyysi sellaisenaan on kuitenkin kai (toivottavasti) jo vanhentunut. Nyt pitäisi voida rakentaa malleja, joissa ilmiötä selitettään sekä piilevillä että mitattavilla suureilla, siis eräänlaisia faktorianalyysin ja regressiomallin kombinaatioita.

    Olisi myös hyvä käyttää ei-lineaarisia malleja, joissa on vähän laskemista, mutta joista nopeat tietokoneet kyllä selviävät. Se vaatii kuitenkin aika hyvää kokemusta.

    Minun on aika vaikea kertoa puheestani Moodin juhlissa mainitsematta Moodin juhlia.

  8. Itse en ole tilastotiedettä sinänsä juuri harrastanut, mutta ekonometriaa (joka on tilastotiedettä eri nimellä) vähän ja tilastomatematiikkaa jonkin verran.

    Minulla on sikäli kerettiläinen mielipide noista ohjelmista, että ne ovat parhaimmillaan hyviä työkaluja raporttien tekemiseen ja pahimmillaan ne estävät asian ymmärtämisen tyystin. Tuollaista ohjelmaa ei oikeastaan pitäisi edes käyttää, jos ei vastaavaa (laskennan osalta) osaisi tehdä itse ainakin periaatteessa.

    Ei-lineaaristen mallien käytön esteenä eivät ole ohjelma ja niiden hyytyminen (joka voi tulla eteen; epälineaariset mallit ovat usein laskennallisesti aivan eri vaativuustasoa kuin lineaariset) vaan todennäköisesti se, ettei niillä ole niin miellyttäviä teoreettisia ominaisuuksia. Tämä on ainakin tieteellisessä julkaisemisessa kynnys. Jos päättelyn virhemarginaaleja ei voi laskea, on päättelyn raportointi vähän hankalaa.

    Omaan käyttöönsä data-analyysiä tekevät tahot, joilla ei ole välttämättä samanlaisia formaalisuuden paineita, kuten rahoitus- tai markkinointialan firmat tekevät paljonkin epälineaarista analyysiä. He tekevät sen salaa ja hiljaa, ne menetelmät ovat usein liikesalaisuuksia. Niiden tekemiseen kyllä kysytään osaamista ja Suomessa on muutamakin firma, jotka sellaista tekevät.

  9. Vakioin esim. perussuomalaiset tilastollisesti pois. Miten se laskennallisesti tapahtuu.

    mb1

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.