Kävin lauantaina pitämässä juhlapuheen Turun yoliopiston tilastotieteen opiskelijoiden ainajärjestön, Statistikan 35-vuotisjuhlassa. Tässä ulkomuistista kirjoitettu puheenvuoroni suunnilleen sellaisena kuin sen pidin.
Aluksi haluan onnitella teitä hyvästä ainevalinnasta. Voin kokemuksesta sanoa, että tilastotieteilijän elämä on mielenkiintoista. Tilastotiede auttaa ymmärtämään ja jäsentämään maailmaa ja sen ilmiöitä ehkä paremmin kuin mikään muu.
Tapasin joskus koululaisena kielikurssilla Heidelbergissä belgialaisen kaverin, Philippe van Parijs’n, jonka kanssa meillä synkkasi todella hyvin. Jatkoimme jonkin aikaa kirjeenvaihtoa, mutta aikaa myöten yhteys katkesi. Tapasin hänet odottamatta parikymmentä vuotta myöhemmin eräässä seminaarissa Tukholmassa. Me olimme tehneet elämässämme melkein samoja asioita. Olimme esimerkiksi molemmat kehittäneet perustulomallin ja vieläpä samanlaiset mallin ja perustellet sitä samalla, aika poikkeuksellisella tavalla.
Hän oli aloittanut opinnot käytännöllisessä filosofiassa ja jatkanut tilastotieteeseen. ”Tilastotieteessä filosofinen ajattelu huipentuu”, hän sanoi. Vähän pidin tätä ensin yllättävänä, mutta todella. Mitä filosofia sanoo todellisuuden hahmottamisesta, sen tilastotiede sanoo täsmällisemmin.
Kun filosofi tyytyy sanomaan, että vaikka kaikki paloautot ovat punaisia, ei tästä voi päätellä, että kaikki punaiset autot ovat paloautoja, tilastotiede opettaa laskemaan, millä todennäköisyydellä vastaan tuleva punainen auto on paloauto.
Alussa oli millimetripaperi ja pöytälaskin
Kun aloitin tilastotieteen, ei ollut tietokoneita vaan pöytälaskimia eikä ollut elektronisia tietokantoja. Tilastot naputtelimme käsin paperisista taulukoista.
Minut kaapattiin ensimmäisen opiskeluvuoden jälkeen Postin liiketaloudelliseen tutkimuslaitokseen, jota johti professori Leo Törnqvist. Tuossa laitoksessa koulutettiin melkein kaikki Suomen parhaat tilastotieteilijät. En tiedä, mitä posti siitä hyötyi, mutta tuohon aikaan tilintarkastajat olivat suuripiirteisempiä kuin nykyisin.
Juuri tuolloin tulivat ensimmäiset tietokoneet käyttöön. Niissä ei ollut tilastollisia ohjelmia, vaan ne piti minunkin ohjelmoida itse. Istahdin maanantaiaamuna tuolille, josta perjantaina oli lähtenyt Urpo Leppänen ja perin häneltä teletype ‑päätteen, jota minun piti opetella ohjelmoimaan ilman mitään koulutusta.
Hyvänä puolena tässä oli, että varmasti tiesin mitä kone tekee, kun olin sen itse ohjelmoinut. En voi ymmärtää tutkijaa, joka kysyttäessä, miten tämä tulos on saatu, osaa kertoa ohjelman kaupallisen nimen mutta ei sitä, mitä tuo ohjelma tarkkaan ottaen aineistolle tekee.
Törnqvist opetti meille, että tilastollinen tutkimus on lähinnä käsityötä, jossa abstraktit kaavat ovat vain apuväline. Tärkeämpää kuin että regressiomallin stokastinen jäännöstermi termi on oikein määritelty, on että itse malli on järkevä ja kuvaa ilmiötä. Pahinta mitä saattoi tehdä oli ”dimensiovirhe” – jos esimerkiksi tulos muuttuu, kun mittayksikkö muutetaan metreistä jaloiksi, on tehty dimensiovirhe.
Tutkimus aloitettiin aina piirtämällä aineistosta kuvia. Aluksi millimetripaperille, mutta myöhemmin toisen legendaarisen professorin, Seppo ”Ollin isä” Mustosen pientietokone Wang:ille kehittämällä Survo-ohjelmistolla.
Tuohon aikaan alkoivat hienostuneemmat matemaattiset mallit tunkea näyttämölle. Matemaattisempi tilastotieteen suuntaus ihastui esimerkiksi Box-Jenkins ‑malleihin, jossa aikasarjan jäännöstermin oletettiin kiinteää autoregresssiivistä mallia. Meistä se oli ihan roskaa. Jossain paperitehtaan prosessissa voi ajatella, että viivemalli pysyy vakiona, mutta ei yhteiskunnallisissa aikasarjoissa yli vuosikymmenten. Me kutsuimmekin sitä Black-Box Jenkins ‑malliksi.
Tiesimme, mitä on tulossa. Laskentakapasiteetti kehittyisi huimasti ja tulisi valtavan paljon suurempia data-aineistoja, kun tilastoja alettaisiin tehdä sähköisesti.
Kuvittelimme, että yhteiskunnallinen tieto muuttuisi tarkasti ja ennusteet paranisivat valtavasti. Yrjö Ahmavaara puhui kybernetiikasta, opista yhteiskunnan optimaalisesta ohjaamisesta, kun kaikki vaikutusmekanismit tunnettaisiin.
Vapauduttaisiin esimerkiksi malleissa pienimmän neliösumman menetelmistä, jotka ovat kovin herkkiä poikkeaville havainnoille. Eihän kukaan kuvittele, että maailma noudattaisi multinormaalijakaumaa. Se on vain helpompi laskea.
Mutta niitä pienimmän neliösumman malleja käytetään edelleen. Epälineaarisia malleja nyt sentään on tarjolla.
Räjähdysmäisesti kasvaneeseen laskentakapasiteettiin ja valtaviin tietoaineistoihin nähden aika vähän on edistytty ajoista, jolloin me teimme omia yksinkertaisia, mutta varsin hyvin ennustavia mallejamme.
Dataa on, mutta sitä ei osata analysoida. Tilastotieteilijöitä on aivan liian vähän. Kaiken maailman tohelot laskevat analyyseja tietokoneohjelmilla, joiden toimintaa he eivät ymmärrä.
Kuulun erääseen Helsingin yliopiston neuvottelukuntaan, johon kuuluu myös Juhana Vartiainen. Eräässä keskustelussa hän sanoi, että yliopiston pitäisi opettaa kaikille tutkijakoulutuksen saaville tilastotiedettä syvällisesti.
Minun aikanani ei ollut käsitettä työtön tilastotieteilijä, eikä sellaista kuulemma ole löytynyt täältä Turustakaan.
Todella merkittäviä väärintulkintoja syntyy, kun korrelaatio samaistetaan kausaliteettiin. Tiedämme esimerkiksi, että työttömien terveys on heikompaa kuin työssä olevien terveys ja että erityisen huono terveys on pitkään työttömänä olleilla. Tästä on päätelty, että työttömyys altistaa ihmisiä sairastumaan ja siksi työttömyysajan terveydenhuoltoon tulee panostaa.
Tosiasiassa sairaus tekee työttömäksi ja mitä huonompi on terveys työttömyyden alkaessa, sitä pidempään työttömyys kestää. Työttömyyden aikana terveydentila ei heikkene – itseasiassa vähän paranee. Niinpä ratkaisu ongelmaa on muualla – työelämämme on liian nirso työntekijöiden terveyden suhteen.
Täällä Turussa julkistettiin tieto, jonka mukaan lapsi kannattaa panna mahdollisimman nuorena päivähoitoon, koska nuorena päivähoitoon menestyvät opinnoissaan paremmin.
Luulen, että jokainen tilastotiedettä osaava osasi epäillä tulosta ja väärä se olikin. Äidin koulutustaso ennustaa lapsen menestystä ja hyvin koulutetut naiset panevat lapsensa päivähoitoon ymmärrettävistä syistä nopeammin kuin vaikkapa valintamyymälän kassalla työskentelevät. Kun äidin koulutustaso vakioidaan, mitään selitystä ei jää päivähoidon aloitusiän ja opintomenestyksen välille.
Ajattelin lähettää täältä terveisiä Helsingin Sanomille. Melkein jokainen tämän kaltainen uutinen on lehdessä väärin tai ainakin hyvin puutteellisesti selitetty. Kannattaisi palkata päivystävä tilastotieteilijä tarkastamaan uutiset, joissa viitataan johonkin tilastolliseen riippuvuuteen. Sama henkilö voisi tarkistaa lehdessä julkaistavat graafit, jotka ovat melkein aina jotenkin väärin.
Sanoin, että tilastotieteen opinnot auttavat tekemään elämästä mielenkiintoista. En voi kuitenkaan mielenkiintoista elämää kenellekään luvata. Itse se pitää tehdä, mutta tilastotiede antaa siihen hyvät eväät.
Järjestäjät pyysivät, ettei puheeni olisi poliittisesti kovin kantaa ottava. Nyt tulee tuo pelätty yhteiskunnallinen osuus.
Olemme siirtyneet nopeasti totuuden jälkeiseen aikaan. Tiedättehän: ”Tosiasiat, niillä nyt voi perustella mitä hyvänsä.”
Tilastotieteilijän pitäisi olla faktojen puolella ja kertoa kärsivällisesti myös siitä, mitä tiedämme kausaliteetista – ja mitä emme tiedä.
Kun olemme yliopistolla, oletan, että kuulijoina on paljon niitä, jotka ajattelevat tästä maailmasta samansuuntaisesti kuin minä. Haluan sanoa teille, että toive esittää faktoja valikoiden omaa maailmankuvaa pönkittävästi ei koske vain ”niitä toisia”, vaan se koskee aika ajoin myös meitä.
Teidänkin ”heimonne” odottaa teiltä puheenvuoroja ja sellaista näyttöä, joka tukee heimon omaa arvomaailmaa. Joskus tosiasiat puhuvat omaa arvomaailmaa vastaan. Silloinkin ne on rohjettava tuoda julki. Siitä ei aina tule selkään taputtelua, mutta pitkällä aikavälillä se johtaa kuitenkin parempaan tulokseen.
Säilyttäkää tutkijan uteliaisuus ja älyllinen rehellisyys. Joukossa huutavan elävä voi olla helpompaa, mutta mielenkiintoista se ei ole.