Kävin puhumassa tilastotieteen opiskelijajärjestö Moodin synttäreillä. Juhlapuhe sisälsi tietysti menneiden muistelua ja nykyisyyden ihmettelyä. Säästän lukijat muisteluilta ja ihmettelen vain nykyisyyttä.
Tilastotieteilijä on siis henkilö, joka analysoi empiirisiä aineistoja tilastollisen mallin avulla. Siinä käytetään matemaattisia apuvälineitä, mutta ainakaan minulle tilastotiede ei ole matematiikkaa vaan päättelytaitoa.
Minun opiskeluaikojeni jälkeen tilastotieteilijöiden työsarka on periaatteessa laajentunut tietokoneiden ansiosta tavattomasti. Toisaalta, kun yhä tehokkaampia tietokoneita on kaikkialla, on mahdollista estimoida yhä parempia malleja. Ennen kuin lineaarinen regressionalli oli parasta mitä oli tarjolla, jouduttiin maailma olettamaan sellaiseksi, että se sopi näihin malleihin. Jos todellisuus ja mallit olivat ristiriidassa keskenään, sen pahempi todellisuudelle. Nyt voidaan tehdä paljon realistisempia oletuksia.
Tietokoneiden ansioista myös dataa on saatavilla lähes rajattomasti.
Luulisi siis, että tilastotieteilijän ammattitaidolle on kysyntää. Ei ole. Kyky analysoida dataa on jopa heikentynyt, vaikka mahdollisuudet ovat parantuneet. Yhä enemmän tehdään vain triviaaleja nelikenttiä, piirretään korrelodiagrammoja ja sovitetaan niihin yksinkertainen trendiviiva. Jos halutaan tietää, miten muuttuja X vaikuttaa muuttujaan Y pitää muiden relevanttien muuttujien vaikutus vakioida pois. Jos esimerkiksi halutaan verrata eri kouluissa annettavaa opetusta, tulee oppimistuloksia arvioitaessa osata ottaa huomioon se, että toisessa koulussa on ehkä parempia oppilaita kuin toisessa.
Minun on vaikea ymmärtää sitä, että kun tietovarannot ja laskentamahdollisuudet ovat parantuneet näin valtavasti, kyky analysoida dataa on jopa heikentynyt.