Miksi valtava datamäärä tuottaa niin vähän tietoa?

(Kir­joi­tus on julka­istu Sosi­aalilääketi­eteel­lisessä aikakausle­hdessä 4/2014)

Olen saanut 1970-luvun olois­sa parhaan mah­dol­lisen tilas­toti­eteel­lisen koulu­tuk­sen pro­fes­sorien Leo Törn­qvist ja Sep­po Mus­to­nen oppi­laana. Tilas­tolli­nen tutkimus eri­lais­ten ilmiöi­den keskinäi­sistä riip­pu­vuuk­sista oli sil­loin paljolti käsi­työtä. Dataa oli käytet­tävis­sä niukasti ja sik­si vähistä tiedoista oli otet­ta­va kaik­ki irti. Pro­fes­sori Törn­qvist opet­ti aloit­ta­maan tutkimuk­sen aina lyi­jykynän ja mil­limetri­pa­perin kanssa. Jokainen havain­to merkit­ti­in paper­ille, jot­ta ymmär­ret­täisi­in, mil­laista dataa käsitel­lään.  Sep­po Mus­tosen kehit­tämä Sur­vo-ohjel­ma lisäsi tässä tuot­tavu­ut­ta monikym­menker­tais­es­ti, kun saman pystyi tekemään tietokoneen näytöl­lä. Dataa piti usein kor­ja­ta, kos­ka tiedois­sa oli virheitä tai johonkin havain­toon liit­tyi jokin poikkeuk­selli­nen seik­ka. Jos esimerkik­si halusi selvit­tää junalip­pu­jen hin­nan vaiku­tus­ta junal­la matkus­tamisen suo­sioon, ei ollut järkevää ottaa aineis­toon havain­toa ajal­ta, jol­loin junat seisoi­vat lakon takia.

Pro­fes­sori Törn­qvist korosti käytet­tävän mallin järkevyyt­tä. Ei ollut mieltä käyt­tää lin­eaarista mallia tilanteessa, jos­sa riip­pu­vu­us ei voin­ut olla lin­eaarista. Pahin­ta mitä saat­toi tehdä, oli ”dimen­siovirhe”, jos­sa tulos muut­tuisi toisek­si, jos esimerkik­si pitu­ut­ta mitat­taisi­in metrien sijas­ta jalkoina.

Ties­imme, että uusi aika tehokkaine tietokonei­neen ja suurine datamääri­neen oli tulos­sa. Tämä tulisi merk­it­semään jät­ti­harp­paus­ta yhteiskun­nal­lis­ten ilmiöi­den ja niiden keskinäis­ten riip­pu­vuuk­sien ymmärtämisessä. Edessä piti olla yhteiskun­tati­etei­den kukois­tuskausi. Pro­fes­sori Yrjö Ahmavaara hah­mot­teli ehkä vähän orwel­maiselta haiskah­tavaa kyberneet­tistä yhteiskun­tapoli­ti­ikkaa, jos­sa päätök­sen­tek­i­jät voisi­vat opti­moi­da hyvinkin mon­imutkaista hyö­ty­funk­tio­ta, kun toimen­pitei­den mon­imutkaiset vaiku­tuk­set oli­si­vat tiedossa.

Lasken­taka­p­a­siteetin ja ennen kaikkea käytössä ole­van datamäärän kasvu on ylit­tänyt kaiken sen, mitä saa­toimme kuvitel­la, mut­ta sitä suur­ta yhteiskun­tati­etei­den kukois­tuskaut­ta yhä odote­taan. Mik­si datan tul­va ja val­tavasti kas­vanut lasken­taka­p­a­siteet­ti ei ole tuot­tanut tiedol­lista vallankumousta?

Val­tavaan datamäärään sisäl­tyy aina virheel­lisiä havain­to­ja. Me jouduimme taval­lis­es­ti pois­ta­maan aineis­tos­ta noin kymme­nen­nen osan havain­noista tai kor­jaa­maan niitä. Tätä ei voi tehdä ainakaan käsin, jos havain­to­ja on miljoo­nia. Pieni määrä oikei­ta havain­to­ja antaa tarkem­mat esti­maatit kuin val­ta­va määrä virheel­lis­ten havain­to­jen saas­tut­ta­maa aineis­toa. Tilas­tol­liset menetelmät perus­tu­vat taval­lis­es­ti pien­im­män neliö­sum­man menetelmään, jol­loin muus­ta aineis­tos­ta poikkea­vat havain­not saa­vat hyvin suuren painoarvon.

Tutk­i­jan pitää myös tun­tea käyt­tämän­sä menetelmät ja mit­tar­it. Niin yksinker­tainen asia kuin kor­re­laa­tiok­er­toimen tulk­in­takin voi men­nä aivan met­sään. Esimerkik­si muut­tu­jien x ja y väli­nen riip­pu­vu­us voi olla hyvinkin voimakas­ta, vaik­ka havain­toaineis­tossa niiden väli­nen kor­re­laa­tio on vähäi­nen. Kor­re­laa­tio mit­taa lin­eaarista riip­pu­vu­ut­ta ja vain sitä. Kor­re­laa­tiok­er­roin voi olla mata­la vaik­ka muut­tu­ja y olisi suo­ras­taan muut­tu­jan x funk­tio, jos riip­pu­vu­us on epälineaarinen.

1970-luvun lop­ul­la fak­to­ri­ana­lyysi teki tuloaan yhteiskun­tati­eteisi­in. Tämä menetelmä on tehokas, mut­ta hyvä se on vain sel­l­aisen tutk­i­jan käsis­sä, joka ymmärtää, miten ana­lyysi toimii. Aivan järkyt­täviä nol­latutkimuk­sia julka­isti­in tuol­loin jopa väitöskir­joina, kun tutk­i­ja tulk­it­si fak­to­ri­latauk­sia kuin Delfoin oraakke­li. Nyt näkee tutkimuk­sia, jot­ka analysoitu jol­lain min­ulle tun­tem­at­toma­l­la taval­la. Kun tutk­i­jal­ta kysyy, miten se on analysoitu, saa vas­tauk­sek­si kau­pal­lisen ohjelmis­ton nimen. Siihen, mitä tuo ohjelmis­to tarkkaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toim­inta­pe­ri­aate saat­taa olla jopa liike­salaisu­us! Miten sel­l­aista voi käyt­tää tutkimuksessa?

Yhteiskun­nalli­nen tutkimus ja eri­tyis­es­ti epi­demi­ologi­nen tutkimus kär­sii myös väärin ymmär­re­tys­tä tieto­suo­jas­ta. Kau­pal­liset tahot saa­vat tal­let­taa ihmi­sistä tieto­varan­toi­hin­sa asioi­ta, joista aka­teemiset tutk­i­jat eivät voi kuin haaveil­la. Kukaan ei antaisi ikinä tutk­i­jalle lupaa kerätä yksi­tyisko­htaisia tieto­ja taval­lis­ten kansalais­ten päivit­täi­sistä ostok­sista tai oikeut­ta analysoi­da ihmis­ten toisilleen lähet­tämiä sähkö­pos­tivi­este­jä ja tarkkail­la hei­dän tieto­haku­jaan, mut­ta kau­pan keskus­li­ik­keet, Face­book ja Google saa­vat näin tehdä tai ainakin tekevät. Tähän ver­rat­tuna aika vaa­ti­ma­ton han­ke oli HSL:n yri­tys tal­let­taa matkako­rt­tia käyt­tävien matkat, jot­ta reitit ja aikataulut osat­taisi suun­nitel­la parem­min. Se kiel­let­ti­in tieto­suo­jaa loukkaavana.

Kuvitelkaa, mitä kaikkea voisi tehdä, jos epi­demi­ologi­nen tutkimus voisi käyt­tää saman­laisia tieto­varas­to­ja, joi­ta nuo edel­lä maini­tut yksi­tyiset yri­tyk­set käyt­tävät! Tutk­i­joiden tulisi nous­ta bar­rikadeille puo­lus­ta­maan sitä, että ole­mas­sa ole­via ja laa­jenevia val­tavia tieto­varas­to­ja saisi käyt­tää myös yhteiskun­nal­liseen ja lääketi­eteel­liseen tutkimuk­seen eikä vain yksi­ty­is­ten yri­tys­ten tarpeisiin.

Jokainen tutk­i­ja ei voi koulut­tau­tua tilas­toti­eteen huip­pu­osaa­jak­si, mut­ta jokaisen tutkimus­ryh­män käytet­tävis­sä pitäisi sel­l­ainen olla. Tilas­tol­lisia osaa­jia pitäisi koulut­taa selvästi enem­män. Eikä tilas­toti­eteen koulu­tus saisi olla vain matemaat­tis­ten teo­ri­oiden pänt­täämistä – nekin on kyl­lä hyvä osa­ta – sil­lä hyvä tilas­toti­eteil­i­jä on ennen kaikkea käsityöläinen.

Havain­toaineis­toista pitäisi aina piirtää kuvia kos­ka kuvista ihmi­nen hah­mot­taa asioi­ta paljon parem­min kuin luvuista. Enää ei onnek­si tarvitse käyt­tää mil­limetri­pa­pe­ria ja lyi­jykynää, vaan tasokkai­ta kuvia saa tietokoneen näyt­tää mur­to-osasekun­nis­sa. Aineis­toa on kat­selta­va eri puo­lil­ta. Usein järkevän kuvan muut­tu­jien y ja x riip­pu­vu­ud­es­ta saa vas­ta, kun on pois­tanut molem­mista kol­man­nen muut­tu­jan z vaiku­tuk­sen. Kun tun­tee aineis­ton­sa hyvin, ei yleen­sä tarvitse kovin mon­imutkaisia tutkimus­menetelmiä. Tutkimus­menetelmä ei oikeas­t­aan koskaan saisi olla niin kehit­tynyt, ettei tutk­i­ja ymmär­rä, miten se toimii.

On myös pois­tet­ta­va aineis­toa häir­it­sevät virheel­liset havain­not tai kor­jat­ta­va niitä. Jos niitä ei pysty pois­ta­maan käsin, ne voi pois­taa tähän tarkoituk­seen suun­nitel­lul­la algo­rit­mil­la. Jos havain­to poikkeaa muista liikaa – usei­ta stan­dard­ipoikkeamia – melkein var­masti virheelli­nen. Tämä voi johtaa myös oikei­den havain­to­jen hylkäämiseen, mut­ta tämä ris­ki on paljon pienem­pi kuin ris­ki virheel­lisi­in havain­toi­hin perus­tu­vas­ta väärästä johtopäätöksestä.

 

90 vastausta artikkeliin “Miksi valtava datamäärä tuottaa niin vähän tietoa?”

  1. No, se olen­naisem­pi ongel­ma kyl­lä on se, että vaik­ka dataa onkin paljon ja se taval­laan on mitat­tavis­sa, ei ole mitään alla ole­vaa mallia joka oikeasti toimisi, johon sitä dataa voisi sovittaa.

  2. Harmil­lisen usein data on sul­je­tuis­sa tietokan­nois­sa tai epäy­h­teen­sopivis­sa muodois­sa eri järjestelmissä.

  3. Aika monel­la tieteenalal­la tilas­tol­lis­ten menetelmien sovelt­a­mi­nen on par­a­dig­ma­ti­soitunut, ts. on jumi­tut­tu alal­la melkein ikuis­es­ti käytet­ty­i­hin menetelmi­in kehi­tyk­ses­tä ja ongel­man yksi­tyisko­hdista riip­pumat­ta. Näin käy ehkä juuri sik­si ettei sovelta­va tieteil­i­jä menetelmiä kovin hyvin ymmär­rä, ja menetelmäosaa­jia ei joka paikkaan riitä.

    Menetelmäosaa­jan rooli on myös han­kala, kos­ka sovelta­jan näkökul­mas­ta hän usein tekee asi­at vaikeam­mik­si eikä helpom­mik­si. Toki ongelmi­in huomion kiin­nit­tämi­nen paran­taa työn laat­ua, mut­ta sovelta­va tieteil­i­jä tai ver­tais­arvioin­ti ei vält­tämät­tä tätäkään ymmär­rä jos ala on metodol­o­gis­es­ti kovin kon­ser­vati­ivi­nen. Par­a­dig­ma­ti­saa­tio saa meto­di­asiantun­ti­jan avun tun­tu­maan turhal­ta. Nap­pu­laa paina­mal­la saa sen var­i­anssi­ana­lyysin tai lin­eaarisen regres­sion tai fak­to­ri­ana­lyysin kuitenkin perus­muo­dos­saan tehtyä, vaik­ka ana­lyysin ole­tuk­set ovatkin väärin. 

    Sit­ten laa­jem­min on syn­tynyt p=0.05:n ja hypo­teesin tes­tauk­sen par­a­dig­ma ylipäätään, joiden ymmärtämätön käyt­tö uhkaa jo laa­jasti tieteen tois­tet­tavu­ut­ta. Edes tieteil­i­jä ei aina näytä ymmärtävän että ei-merk­it­sevä tulos ei tarkoi­ta negati­ivista tulosta, medi­as­ta puhumattakaan!

    Tilas­tol­lisen mallinnuk­sen metodi­nen jous­tavu­us on juuri nyt parane­mas­sa selkeästi, kun bayesi­laiset menetelmät tule­vat uusien työkalu­jen ja estim­intimenetelmien myötä laa­jasti käytet­täväk­si (esim. JAGS ja etenkin Stan, Hamil­ton­ian Monte Car­lo, approksi­maa­tiot kuten vari­a­tion­al bayes tai expec­ta­tion prop­a­ga­tion isom­malle datalle). Puhutaan jopa toden­näköisyyso­hjel­moin­nista (prob­a­bilis­tic pro­gram­ming). Bayesi­laisyys ei tässä liity niinkään sub­jek­ti­ivi­su­u­teen vaan malli­rak­en­tei­den jous­tavaan käyt­töön ja tulosten epä­var­muu­den kvantifiointiin. 

    Mut­ta tämä ei vält­tämät­tä joh­da tehokkaam­paan ana­lyti­ikkaan monel­lakaan alal­la, kos­ka uudet menetelmät vaa­ti­vat vielä enem­män tilas­tol­lista osaamista kuin van­hat. (Osaaval­ta ne eivät vain enää vaa­di kuukausien vaan tun­tien työn.)

    Itse asi­as­ta: kyl­lä, yksi­ty­is­puolel­la on Suomes­sakin dataa jos­ta julkisel­la puolel­la voidaan vain unel­moi­da. Mut­ta datan hyö­dyn­tämi­nen on lapsenkengis­sään, ja sitä vaivaa­vat osit­tain saman­tyyp­piset ilmiöt kuin tieteenkin puolella.

  4. Hyvä Osmo. Paljon asi­aa tiivi­is­sä paketissa. 

    Itseäni on ihme­tyt­tänyt, miten olemme maana ajau­tuneet tähän jamaan. Ote­taan esimerkik­si vaik­ka vero­tus. Suomes­sa käytetään vero­ja, jot­ka eivät edes minkään teo­ri­an mukaan voi olla järke­viä, kuten vaik­ka pääomi­in kohdis­tu­va per­in­tövero tai liiken­teeseen kohdis­tu­va polt­toain­evero. Silti niitä sitkeästi jak­se­taan ylläpitää. Eikö ole halua vai osaamista laskea lopputulosta?

  5. Puhut alan ammat­ti­laise­na täyt­tä asi­aa. Luvat­toman paljon julka­istaan edelleenkin puoskaroitua tilas­tol­lista roskaa. Min­un opet­ta­jani tilas­toti­eteessä olo Olli Lok­ki, joka hie­man sekavas­ta luen­noin­ti­tavas­taa huoli­mat­ta oli sisäistänyt tilas­toti­eteen syväl­lis­es­ti ja yrit­ti istut­taa sitä insinöörien nup­pei­hin. Minus­ta tärkein­tä on aina muis­taa, että näyt­teistys on aina enem­män tai vähem­män harhaista kuten mate­ri­aalin peukaloin­tukin. Eivätkä läh­eskään kaik­ki jakau­tu­mat ole lähel­läkään nor­maal­i­jakau­tu­maa kuten val­taosa “nuorem­mista tutk­i­joista” tapaa olet­taa. Ja lopuk­si on aina syytä muis­tut­taa että tilas­tolli­nen käsit­te­ly ei tuo aineestoon mitään lisää, korkein­taan havain­nol­lis­taa sitä ymmär­ret­täväm­pään muotoon.

  6. Nyt näkee tutkimuk­sia, jot­ka analysoitu jol­lain min­ulle tun­tem­at­toma­l­la taval­la. Kun tutk­i­jal­ta kysyy, miten se on analysoitu, saa vas­tauk­sek­si kau­pal­lisen ohjelmis­ton nimen. Siihen, mitä tuo ohjelmis­to tarkkaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toim­inta­pe­ri­aate saat­taa olla jopa liike­salaisu­us! Miten sel­l­aista voi käyt­tää tutkimuksessa? 

    Jos puhut kon­fir­ma­toris­es­ta fak­to­ri­ana­ly­y­sistä, niin eri ohjelmis­tot perus­tu­vat samaan matemaat­tiseen teo­ri­aan ja tuot­ta­vat tutk­i­tusti täysin ident­tisiä tulok­sia. Toinen asia on se, että mon­et yhteiskun­tati­eteil­i­jät eivät vält­tämät­tä ymmär­rä, mitä oikeas­t­aan tekevät nap­sutel­lessaan graafis­ten tilas­to-ohjelmien valikoi­ta ja täppiä.

    Yhteiskun­nalli­nen tutkimus ja eri­tyis­es­ti epi­demi­ologi­nen tutkimus kär­sii myös väärin ymmär­re­tys­tä tieto­suo­jas­ta. Kau­pal­liset tahot saa­vat tal­let­taa ihmi­sistä tieto­varan­toi­hin­sa asioi­ta, joista aka­teemiset tutk­i­jat eivät voi kuin haaveilla. 

    Olisiko­han tuos­sa kuitenkin kyse etupäässä useimpi­en tutk­i­joiden laisku­ud­es­ta, arku­ud­es­ta tai kyvyt­tömyy­destä? Esimerkik­si tässä suo­ma­laiseen aineis­toon perus­tu­vas­sa tutkimuk­ses­sa yhdis­tet­ti­in yksilö­ta­sol­la arvo-osu­us­rek­isterin dataa, veroti­eto­ja, tieto­ja sivi­il­isäädys­tä, suku­laisu­us­suhteista, las­ten määrästä, asuin­paikas­ta, työ­paikas­ta yms. ja kaiken kukku­rak­si armei­jan ÄO-testien tulok­sia. Miten nämä tutk­i­jat onnis­tu­i­v­at pääsemään käsik­si näin kat­tavaan aineis­toon, jos vira­nomaiset todel­la var­tioi­vat tieto­jaan mustasukkaisesti? 

    Ruot­sis­sa tämän­ta­paista julk­isi­in rek­isterei­hin perus­tu­vaa tutkimus­ta tehdään enem­män, mut­ta tuskin pääsyynä on eri­lainen tieto­suo­jalain­säädän­tö. Esim. tämä tuore ruot­salainen rek­ister­itutkimus näyt­täisi osoit­ta­van, että köy­hyy­den kausaa­li­nen vaiku­tus rikol­lisu­u­teen ja päi­hdeon­gelmi­in on puh­das nol­la. Saman tutk­i­jaryh­män aiem­man tutkimuk­sen mukaan asuinalueen kur­ju­udel­la (depri­va­tion) ei myöskään ole mitään kausaal­ista vaiku­tus­ta rikol­lisu­u­teen ja päihdeongelmiin.

    Nämä ruot­salais­tutkimuk­set anta­vat myös osvi­it­taa siitä, mik­si yhteiskun­tati­eteet (ja esim. epi­demi­olo­gia) ovat jun­nan­neet paikallaan. Ihmisen käyt­täy­tymisen selit­tämi­nen on pitkään perus­tunut fun­da­men­taalil­la taval­la väärään ihmisku­vaan, jon­ka mukaan ihmisko­htaloiden eroavaisu­udet johtu­vat pääosin ulkoi­sista olo­suhteista eivätkä ihmis­es­tä itsestään.

  7. OS:“Se kiel­let­ti­in tieto­suo­jaa loukkaavana.”

    Tärkein­tä on huo­ma­ta että lause on pas­si­ivis­sa. Suomes­sa kukaan nimeltä mainit­tu henkilö ei vas­taa mis­tään päätök­sen­teosta vaan aina on ole­mas­sa jokin pas­si­ivi­nen olio, joka kieltää meitä suo­ma­laisia elämästä. Suo­mi on täyn­nä kaiken maail­man Valvi­roi­ta ja Alue­hallintovi­ras­to­ja tai Raken­nus­valvon­tavi­ras­to­ja, jot­ka ovat tulk­it­sev­inaan lakia mut­ta eivät uskalla ker­toa, kuka siel­lä päät­tää ja mis­tä. Tärkein­tä on suo­jel­la suo­ma­laisia kaikelta niin paljon, että lop­ul­ta kaik­ki ihmiset jäh­mettyvät paikalleen. Yhteiskun­nalli­nen kehi­tys on men­nyt niin pitkälle, että yhteiskun­nalli­nen kehi­tys on kaiken yhteiskun­nal­lisen kehi­tyk­sen pahin este.

  8. Vielä ihmisti­eteistä: ne ovat kärsi­neet mon­es­sa kohtaa siitä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi tehdä, webin kaut­ta, ja niiden tekem­i­nen on arkipäivää. Esim. Ama­zon on opti­moin­ut sivus­to­jaan luke­mat­tomien sat­un­nais­tet­tu­jen kokei­den kaut­ta, ja Face­bookil­la on ainakin peri­aat­teessa mah­dol­lisu­us manip­u­loi­da käyt­täjien­sä mie­len­tilo­ja omien päämäärien­sä mukaan, esim. val­tise­mal­la mitä päiv­i­tyk­siä heille näytetään.

    Nämä kokeet vain tapah­tu­vat tiukan oper­a­tionaalises­sa kon­tek­stis­sa. Ne eivät joh­da teo­ri­an­muo­dos­tuk­seen. Kyse on enem­män tekoälystä, joka osaa mak­si­moi­da valit­tu­ja utili­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta).

  9. Jaakko:Ihmisen käyt­täy­tymisen selit­tämi­nen on pitkään perus­tunut fun­da­men­taalil­la taval­la väärään ihmisku­vaan, jon­ka mukaan ihmisko­htaloiden eroavaisu­udet johtu­vat pääosin ulkoi­sista olo­suhteista eivätkä ihmis­es­tä itsestään.

    Fun­da­men­taalis­es­ti väärä ihmisku­va taitaa olla se, että ihmisel­lä olisi tah­to. Ymmärtääk­seni tiede ei ole mil­lään taval­la pystynyt osoit­ta­maan tah­don ole­mas­sa oloa, vaik­ka meil­lä kaikil­la on siitä koke­mus. Koke­mus on kuitenkin vain koke­mus, ei tosiasia. 

    Tah­don ja hallinnan olet­ta­mi­nen perus­tunee kris­til­liseen per­in­teeseen, jos­sa ihmi­nen esitetään hel­vetin tai pelas­tuk­sen val­it­si­jana. Luon­non­ti­eteil­i­jät sen sijaan suh­tau­tu­vat tah­toon toisin eivätkä näe sitä mate­ri­aalis­es­ta maail­mas­ta eril­lisenä voimana.

    Kasvuym­päristön vaiku­tus­ta ihmisen myöhempään elämään tuskin kukaan aiheeseen pere­htynyt tutk­i­ja kiistää. Tulok­set ovat niin ilmeisiä.

  10. Olisiko­han suurin ongel­ma kuitenkin siinä, etteivät havain­not ole lähel­läkään toi­sis­taan riip­pumat­to­mia (samal­la lail­la jakau­tunei­ta) sat­un­naistapah­tu­mia vaan ennem­min jotain, jota syn­tyy omaa etu­aan opti­moimaan pyrkivien itseop­pivien agent­tien keskinäi­sistä vuorovaikutuksista?

    Eli siis kan­nat­taisiko laka­ta itkemästä ison datan ja “fik­su­jen” tilas­tol­lis­ten menetelmien perään, kun koko ilmiö lie­nee klas­sisen tilas­tol­lisen ana­lyysin ulottumattomissa?

  11. Ongel­ma on sekin, että tavalli­nen ihmi­nen — siis sel­l­ainen, joka ei ole saanut aiheesta mitään koulu­tus­ta — ei ymmär­rä tilas­toti­eteistä (tai toden­näköisyyk­sistä) yhtään mitään. Tämä koske­nee myös suur­in­ta osaa päättäjistä.

    Tähän kun lisää sen, että ylipäätään uudet asi­at ovat päät­täjille vaikei­ta eikä sta­tus quo’­ta mielel­lään häir­itä, ei tarvit­tavia päätök­siä pystytä tekemään. Vaik­ka kuin­ka juh­la­puheis­sa julis­tet­taisi­in tavoit­tei­ta nykya­jan etur­in­ta­mas­sa olemis­es­ta. Näin nämä mah­dol­lisu­udet jäävät käyt­tämät­tä, kunnes joku muu sen jo men­estyk­sel­lä tekeekin.

  12. Joo tulisi olla kieli keskel­lä suu­ta kun puhutaan nyky­is­ten lasken­tamenetelmien tehokku­ud­es­ta mikro­pros­es­sor­ei­den avul­la — entiseen ver­rat­tuna. Siis nykyi­nen lasken­tate­hokku­us voi tuo­da aivan uusia näkökul­mia lasken­taan, kun aikayk­sikössä tuote­taan val­tavasti enen­n­män perus­lasku­toim­i­tuk­sia aikayk­sikössä kuin ennen tilas­totieden kukois­tuk­sen alkuaikana. Nyky­isin luulisi tilas­toti­etei­denkin ole­van eksak­ti tiede, kun lasken­tate­hokku­ut­ta on voitu nos­taa liki ääret­tömyyk­si­in jopa koti-tietokonei­den avulla.

  13. Jaakko: Miten nämä tutk­i­jat onnis­tu­i­v­at pääsemään käsik­si näin kat­tavaan aineis­toon, jos vira­nomaiset todel­la var­tioi­vat tieto­jaan mustasukkaisesti?

    Asia menee käsit­tääk­seni suun­nilleen niin, että tutk­i­jat pääsään­töis­es­ti voivat käyt­tää vira­nomaisen rek­istere­itä, sikäli kun sopivia rek­istere­itä on ole­mas­sa. Mut­ta kuten Osmon HSL-esimerk­ki osoit­ti, vira­nomaisil­la ei ole tai saakaan olla sel­l­aisia rek­istere­itä mitä tutk­i­jat toivoisivat.

    1. HSL ei toivonut rek­ister­iä tutkimuk­seen vaan reit­tien ja aikataulu­jen suun­nit­telu­un. Luulen, että jos matkus­ta­jil­ta kysyt­täisi­in, ylivoimainen enem­mistö pitäisi tärkeäm­pänä, että reitistö palvelisi heitä hyvin. Kun on menos­sa tekemään sitä pankkiryöstöä, kan­nat­taa mak­saa kertamaksu.

  14. Kun tutk­i­jal­ta kysyy, miten se on analysoitu, saa vas­tauk­sek­si kau­pal­lisen ohjelmis­ton nimen. Siihen, mitä tuo ohjelmis­to tarkkaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toim­inta­pe­ri­aate saat­taa olla jopa liike­salaisu­us! Miten sel­l­aista voi käyt­tää tutkimuksessa?

    Tätä tapah­tuu luon­non­ti­eteis­sä hyvinkin paljon, ja sil­loin täl­löin myös käy niin, että laa­jasti käyte­tys­tä ohjel­mas­ta pal­jas­tuu virhe ja paljon julka­istu­ja töitä joutuu kyseenalaisek­si. Kyse ei edes tarvitse olla siitä, etteikö fyysikko tai kemisti ymmärtäisi lasku­toim­i­tus­ta (sitäkin tietysti tapah­tuu laa­jasti), vaan usein on niin, että oper­aa­tio on hyvin mon­imutkainen ja siihen käytetään valmista ohjelmis­toa, johon ei voi kuin luot­taa. Ohjel­man tarkas­t­a­mi­nen olisi sinän­sä iso oper­aa­tio, oman tekemis­es­tä puhumattakaan.

    Avoimen lähdekood­in merk­i­tyk­sen pitäisi tietysti olla selvä luon­non­ti­eteil­i­jöille, jot­ka nou­dat­ta­vat tieteen julka­isu­pe­ri­aat­tei­ta. Avoin koo­di antaa ainakin mah­dol­lisu­u­den tarkas­tamiseen, joukkovoimal­la jos ei muuten.

    Takavu­osi­na muuten joku matemaatikko tote­si Microsoft Excelin suun­nilleen täysin kelvot­tomak­si mihinkään vakavam­paan hom­maan. En tiedä nyky­is­ten ver­sioiden tilan­net­ta, mut­ta ainakin sil­loin kyse ei edes ollut mis­tään kymme­nen­nen numeron pyöristysongel­mas­ta, vaan aivan peru­sop­er­aa­tioiden oikeellisuudesta.

  15. Hei,

    Sanonn nyt taman viimeisen ker­ran. Ei sil­la ole valia mita kysyt­ti­in. Mutta…

    Tai antaa olla.

    t. Mikko

  16. Osmo,

    sil­loin aikanaan lasken­nat oli­vat yliopis­ton tietokonekeskuk­sen heiniä ja tavalli­nen tutk­i­ja jou­tui kai varaa­maan aikaa lasken­noilleen. Nythän oma­l­la kan­net­taval­la voi olla tietokan­nat ja tilas­to-ohjel­mat, joten lasken­taka­p­a­siteet­tia on tarjolla.

    Min­ul­lakin on kotikoneel­la yhdis­telmä R + Mari­aDB. R ohjel­man funk­tioil­la voi poimia dataa myös netistä.

    Mon­esti kau­pal­liset ja avoimen lähdekood­in ohjel­mat käyt­tävät samo­ja C kie­len kir­jas­to­ja, joil­la varsi­nainen nume­ton­murskaus tehdään. OOP par­a­dig­mas­sa vain kut­su­taan funk­tioi­ta, jot­ka tekevät jotain.

    Teol­lisu­u­den piiris­sä dataa on kyl­lä käytet­ty pitkään ja esimerkik­si oper­aa­tio­ana­lyysil­lä on per­in­teitä Suomes­sa. Tulok­set vsin tah­to­vat olla liikesalaisuuksia.

    Rahoi­tussek­to­ril­la dataa käytetään toisaal­ta riskien­hallintaan ja toisaal­ta kampanjointiin.

    S‑ryhmä on tehnyt SAS ohjelmis­to­talon kanssa yhteistyötä varas­to­jen, valikoiman ja menekin hallintaan.

    Ehkä ongel­ma on enem­män osaavien ihmis­ten puute sekä viit­seliäisyys tehdä ja kehit­tää asioi­ta. Datan hyö­dun­tämisen aloit­ta­mi­nen on osaltaan tieto­jär­jestelmäpro­jek­ti ja toisaal­ta paljon muu­ta, eli haas­ta­va yhdistelmä!

  17. Tilas­totieel­lisessä osaamises­sa on var­masti suuria puut­tei­ta, sekä teo­ri­an että käytän­nön tasol­la. Janne Sinkko­nen lis­tasikin jo hyvin alan ongelmia.

    Datan laa­jem­man hyö­dyn­tämisen kannal­ta olisi myös keskeistä avoimuu­den lisäämi­nen tiedon, datan, lähdekood­in ja tieteel­lis­ten julka­isu­jen kohdal­la. Yhteiskun­nal­lisen datan avaami­nen tar­joaa uuden­laisia mah­dol­lisuuk­sia aineis­to­jen ana­lyysi­in ja yhdis­te­lyyn. Tar­joa­mal­la data avoimesti kaikkien käyt­töön sille löy­tyy usein aivan uuden­laisia käyt­töko­htei­ta joi­ta datan alku­peräi­nen tuot­ta­ja ei ollut ajatel­lutkaan. Mah­dol­lisuuk­sia on niin yhteiskun­tatutkimuk­ses­sa ja jour­nal­is­mis­sa kuin sovelluskehityksessäkin.

    Avoimen tiedon asi­aa edis­tää Suomes­sa Open Knowl­edge Fin­land ry, jon­ka työryh­mät keskit­tyvät mm. avoimeen tieteesen, avoimeen demokra­ti­aan ja avoimeen opetuk­seen. Avatun datan ympärille syn­tyneitä sovel­luk­sia kan­nat­taa kat­soa App­s4Fin­land-kil­pailus­ta.

    Avoimen datan lisäk­si tarvi­taan avoimia lasken­tatyökalu­ja ja ‑menetelmiä aineis­to­jen käsit­te­lyyn, analysoin­ti­in ja visu­al­isoin­ti­in. Avoimen lähdekood­in menetelmäkir­jas­tot mah­dol­lis­ta­vat nopean kehi­tyk­sen ja resurssien tehokkaan jakamisen, ja niiden ympärille voi muo­dos­tua kokon­aisua ekosys­teeme­jä. Esimerkik­si lasken­nalli­nen biolo­gia on kehit­tynyt viime vuosikym­meninä huimaa vauh­tia avoimen datan ja avoimen lähdekood­in menetelmien (esim. Bio­con­duc­tor) siivit­täminä.

    Avoimeen dataan ja menetelmi­in perus­tu­va tutkimus on läpinäkyvää ja tois­tet­tavaa, jol­loin siinä mah­dol­lis­es­ti ovat virheet tule­vat helpom­min havaituk­si. Avoin­ta tutkimus­ta on myös suo­raan mah­dol­lista jatkaa uusi­in suun­ti­in muiden tutk­i­joiden toimesta.

    Omas­sa rOpen­Gov-pro­jek­tis­samme olemme koon­neet yhteen avoin­ta lähdekood­ia avoin­ten yhteiskun­nal­lis­ten aineis­to­jen käsit­te­lyyn ja ana­lyysi­in R‑ohjelmointikielellä. Täysin avoimeen lähdekood­i­in perus­tu­va R on yksi käyte­ty­im­mistä kielistä tilas­tol­lises­sa lasken­nas­sa ja sen käyt­tö lev­iää nopeasti useil­la aloil­la, mm. yhteiskun­tati­eteis­sä. Esimerkke­jä ana­lyy­seistä ja visu­al­isoin­neista voi lukea Louhos-blo­gis­tamme.

  18. Osmo Soin­in­vaara:
    HSL ei toivonut rek­ister­iä tutkimuk­seen vaan reit­tien ja aikataulu­jen suun­nit­telu­un. Luulen, että jos matkus­ta­jil­ta kysyt­täisi­in, ylivoimainen enem­mistö pitäisi tärkeäm­pänä, että reitistö palvelisi heitä hyvin. Kun on menos­sa tekemään sitä pankkiryöstöä, kan­nat­taa mak­saa kertamaksu.

    Kysymyshän oli , kerätäänkö henkilöko­htaiset reitit eli liitetäänkä reit­ti­in henkilö.

    Käsit­tääk­seni liiken­neti­etoa ilman henkilöli­itän­tää voidaan käyttää ?

    Teleli­iken­teessäkin seu­rataan liiken­net­tä ‚eli puhelu­jen pitu­ut­ta , niiden reit­te­jä ja volyyme­ja reit­eil­lä, mut­ta ei se tarkoi­ta että mukana olisi henkilöti­etoa tai kyet­täisi­in poim­i­maan yksit­täi­nen puhelu ja liit­tämään se käyttäjään

    Sekin kyl­lä onnis­tuu, mut­ta se tulee lasku­tustiedoista, nämä tiedot ovat eril­lisiä ja niitä tutki­vat aivan eri henkilöt ja rajat­tu määrä henkilöitä

    Enpä usko, että ei tarvi­ta henek­ilöti­eto­jen tal­len­tamista sitä varten, että tiede­tään mon­tako henkilöä matkus­taa pis­teestä A pis­teeseen B ja mil­lä vuoroilla ?

    Liiken­teen volyy­mi on eri asia kuin yksit­täi­nen kukija.

    1. Se mitä ei saanut kerätä oli tietä siitä, mihin miostäkin liiken­nevä­li­neestä vai­hde­taan. Jos kovin moni vai­h­taa nelos­es­ta seiskaan samal­la pysäkil­lä, voidaan pan­na ratik­ka kulke­maan suo­raan vai­h­dot­ta. Laa­jem­min pitäisi pystyä tekemään kart­t­lo­ja, mis­sä paikas­sa A ole­vat henkilöt liikku­vat. Tutk­i­jaa ei kiin­nos­ta pätkääkään, mis­sä henkilö A liik­kee, mut­ta jot­ta reit­te­jä vfoidaan mallintaa, pitää voi­da tun­nista­maan eri liiken­nevä­lineis­sä ole­vat henkilöt samoik­si henkkilöik­si. Tieto­suo­jaih­mis­ten mielestä riit­tää tieto, kuin­ka paljon matkus­ta­jia mil­läkin reit­il­lä on.

  19. Nyky­is­in­hän ovat eri­laiset bayesi­laiset menetelmät yleistyneet puut­teel­lis­ten aineis­to­jen käsit­telyssä paljon. Niis­sä on kyl­lä vaaransa, varsinkin jos oletet­tu malli on virheellinen.

    Ter­vey­teen liit­tyvis­sä epi­demi­ol­o­gi­sis­sa tutkimuk­sis­sa on myös usein ongel­mana se, että altistu­misti­eto on usein hyvin puut­teelli­nen ja sisältää jopa luok­i­tusvirheitä (tupakoin­nin yleisyys aineis­tossa, muis­tivi­nou­tu­mat, seka-altistu­miset jne). Tämän vuok­si pelkkä kor­re­laa­tio ei todista kausali­teet­tia, pitää olla myös järkevä biologi­nen mekanis­mi joka selit­täisi ilmiön.

  20. Mikko H:Takavu­osi­na muuten joku matemaatikko tote­si Microsoft Excelin suun­nilleen täysin kelvot­tomak­si mihinkään vakavam­paan hom­maan. En tiedä nyky­is­ten ver­sioiden tilan­net­ta, mut­ta ainakin sil­loin kyse ei edes ollut mis­tään kymme­nen­nen numeron pyöristysongel­mas­ta, vaan aivan peru­sop­er­aa­tioiden oikeellisuudesta.

    En tiedä las­keeko Excel väärin tai oikein, mut­ta minkään oikeasti vaa­ti­vam­man laskemisen tekem­i­nen sen käyt­töli­it­tymäl­lä on läh­es mah­do­ton­ta. Ei sitä ole tarkoitet­tu mon­imutkaisten kaavo­jen pyörit­tämiseen, niiden omien teko­jen seu­raami­nen ja tarkas­t­a­mi­nen on läh­es mah­do­ton­ta kun viit­tausten määrä ja kaavo­jen pitu­us kas­vaa tarpeek­si. Sehän on taulukko­lasken­tao­hjel­ma eikä ymmär­rä sym­bol­ista laskentaa. 

    Math­cad on jo käyt­töli­it­tymän­säkin puoles­ta paljon parem­pi raskaaseen lasken­taan, kun siinä näkee mitä tekee. 

    Mut­ta luulem­pa että siinä vai­heessa kun pitää jär­jestel­lä 10 000 mit­taus­tu­losta, niin excel voit­taa. Lisäk­si excel on käytän­nössä ilmainen, kos­ka office-paket­ti on läh­es pakolli­nen lisävaruste.

    Kaikkein raivos­tut­tavin osa exceliä on sen tapa “aut­taa” käyt­täjää muun­ta­mal­la omin päin luku­ja päivämäärik­si ja tek­ste­jä luvuik­si ja luku­ja ties mik­si. Ei kuitenkaan koskaan oikein.

    1. Ihmisx­ten pitäisi oppia ainiesto­jen käsit­telyssä ainakin yksi help­po kik­ka. Jos halu­aa tutkia muut­tu­jien a ja b väl­itä riip­pu­vu­ut­ta graafis­es­ti, niitä kan­nat­taa har­voin plota­ta ruudulle sel­l­aisi­naan. Yleen­sä niihin molem­pi­in vaikut­taa (ainakin yksi) yhteinen tek­i­jä z. Kan­nat­taa selit­tää molem­mista muut­tu­jan z vaiku­tus pois mlom­mista ja tutkia jäännöstermejä.
      Asia tulee ymmär­re­tyk­si, jos vaik­ka a = hukku­miskuolemat, b = jäätelön­sylön­ti ja z = läm­pöti­la. Huo­mataan, ettei hukkus­misk­oulemien ja jäätel­lön­syön­nil­lä ole yhteyttä.
      Tämä voi tehdä myös Excelil­lä, mut­ta siinä solah­taa hel­posti tun­ti ja toinen tun­ti menee her­mo­jen lep­u­ut­tamiseen. Sep­po Mus­tosen Sur­vo-ohjel­mal­la 40 vuot­ta sit­ten siihen meni minuutti.

  21. Suurten datamäärien hal­lit­semises­sa Suomes­sa on erit­täin terävää asiantun­te­mus­ta esim. Aal­to yliopis­ton Infor­maa­ti­oti­eteen laitok­sel­la. Esimerkik­si oppivien kart­to­jen ym. tiedon luon­teeseen adap­toitu­vien menetelmien käyt­tö vähen­tää tun­tem­at­tomien yhteis­ten tek­i­jöi­den vaiku­tus­ta samoinkuin epä­lin­eaariseen riip­pu­vu­u­teen perus­tu­via harhoja.
    Ongelma­han onkin meil­lä se, että apua eivät poli­itikot kysy tiedemiehiltä, vaan adap­toitu­vat äänestävän kansan miel­tymyk­si­in. Jos kysytään, niin halu­taan vas­tauk­set, jot­ka sopi­vat omaan maail­mankat­so­muk­seen ja ovat tyyp­piä ‘olisi pyrit­tävä siihen, että mah­dol­lisim­man suuri osa kansalai­sista uskoisi ole­vansa onnellisia’.

  22. Olen itse pari­inkin ker­taan tör­män­nyt käsit­tämät­tömään dataelit­ismi­in julkisen hallinnon puolelta. Olen use­am­man ker­ran pyytänyt dataa esim THL:ltä ana­lyysin poh­jak­si erit­täin huonol­la menestyksellä. 

    Tietoa on sys­temaat­tis­es­ti pimitet­ty vedoten mil­loin mihinkin, saatavu­us, vai­va, luot­ta­muk­sel­lisu­us, pitää olla nime­tyssä tutkimus­ryh­mässä jne… — olen korostanut, että min­ua (ja mui­ta) kiin­nos­taa nimeno­maan suuri anonyy­mi datamäärä. 

    Dataa ja “tutkimus­ta” tekevät tahot halu­a­vat akti­ivis­es­ti monop­o­lisoi­da infor­maa­tion (ja johtopäätök­set!) estäen avoimen ja mod­ernin kri­ti­ikin. Tämä tökkii eri­tyis­es­ti kun data on koot­tu julkisel­la rahal­la (ja sitä jael­laan raja­tusti silti joillekin kau­pal­lisille kumppaneille)

    Olen itse taustal­tani infor­maa­ti­oti­eteil­i­jä ja (julkiseen)dataan pere­htymi­nen on min­ulle mie­lenki­in­toista pait­si henkilöko­htais­es­ti myös poten­ti­aalis­es­ti kau­pal­lises­sa mielessä (en tietenkään tiedä vielä miten). Sovel­let­ta­va alue olisi ensisi­jais­es­ti nimeno­maan yhteiskun­ta- ja hyvintointianalyysi. 

    Olen Osmon kanssa samaa mieltä data-ana­lyysin menetelmien sekä datan määrän huikeas­ta kehi­tyk­ses­ta. Myös valitet­tavasti soveltamisen tasos­ta ja laajuudesta. 

    Mik­si val­ta­va datamäärä tuot­taa niin vähän lisäar­voa? Isoin ongel­ma mielestäni on kuitenkin infor­maa­tion räikeä pimit­tämi­nen — yksi­tyi­nen ja julkinen.

    1. THL ei yleen­sä saa antaa data, kos­ka “arkalu­on­toisen” ain­ois­ton käyt­töön on saatu hyvin tiukat lupae­hdot. Tämä vaikeut­taa myös erit­täin paljon kv- yhteistyötä,. kos­ka ulko­maille dataa nyt ainkaan ei saa lainata.

  23. Meitä varoitet­ti­in tilas­toti­eteen luen­noil­la use­aan otteeseen, että kesken­eräiseen lääketi­eteel­liseen tutkimuk­seen ei pidä men­nä. Point­ti­na oli, että tilas­toti­eteelli­nen tutkimusasetel­ma oli alus­ta asti virheelli­nen (esim. otos) ja tilas­to­m­atem­ati­ikalla pönkitet­ti­in vain lop­putu­losta. Piirtämi­nen rauhoit­taa ja voi aut­taa näkemään jotain kiin­nos­tavaa, mut­ta kun työsken­nel­lään tun­nus­luku­jen kanssa, niin tutk­i­ja joutuu itse päät­tämään tulok­sen järkiperäisyyden.
    Helsin­gin kaupun­ki voisi kerätä asukkail­taan vapaae­htois­es­ti luovutet­tua tietoa (mak­su­ton palvelu), kuten Google. Joukkoli­iken­teen tutkimi­nen vaatisi äly­puhe­linsovel­luk­sen. Kaupun­gin (kun­nat joi­ta kiin­nos­taa) pienel­lä spon­so­ri­avul­la saisi aikaan open source ‑sovel­luk­sen.

  24. Osmo Soin­in­vaara:
    THL ei yleen­sä saa antaa data, kos­ka “arkalu­on­toisen” ain­ois­ton käyt­töön on saatu hyvin tiukat lupae­hdot. Tämä vaikeut­taa myös erit­täin paljon kv- yhteistyötä,. kos­ka ulko­maille dataa nyt ainkaan ei saa lainata. 

    THL on osa samaa kukka­hat­tutä­tion­gel­maa, jon­ka toinen puoli, Valvi­ra on ollut enem­män otsikois­sa viikon aikana. Tiedän kum­mas­sakin ole­van myös ter­veitä ja tarpeel­lisi­akin osia, mut­ta ongel­man laa­ju­us on sitä luokkaa, että koh­ta on tehtävä jotain radikaale­ja ratkaisu­ja noiden pilkkomiseksi.

  25. Itse pyysin gradun­tek­i­jänä HSL:ltä vuosien 2007–2008 Helsin­gin seudun laa­jan henkilöhaas­tat­te­lu­tutkimuk­sen aineis­to­ja (noin 65 000 matkaa) ja sain ne käsi­i­ni suht vai­vat­ta muu­ta­man paperin täyt­tämäl­lä. Min­ulle oli kuitenkin yllä­tys, miten vähän tuo­ta laadukas­ta aineis­toa oli hyö­dyn­net­ty HSL:n ulkop­uolel­la. Minus­ta tun­tuukin että välil­lä on myös kyse siitä, etteivät ihmiset tiedä, mitä kaikkia aineis­to­ja eri viras­to­jen jne. ark­istoista löytyy.

  26. Osmo Soin­in­vaara:
    Tutk­i­jaa ei kiin­nos­ta pätkääkään, mis­sä henkilö A liik­kee, mut­ta jot­ta reit­te­jä vfoidaan mallintaa, pitää voi­da tun­nista­maan eri liiken­nevä­lineis­sä ole­vat henkilöt samoik­si henkkilöiksi. 

    Ei tarvitse. Tutk­i­ja tarvit­see keinon iden­ti­fioi­da sama matkako­rt­ti eri liiken­nevä­lineis­sä. HSL-matkako­rt­tin toteu­tus on hyvä esimerk­ki tieto­suo­jan ongelmista jot­ka syn­tyvät taita­mat­to­muud­es­ta ja välinpitämättömyydestä:

    1. Kerätään liikaa tietoa tietokan­taan. Tässä tapauk­ses­sa kysessä on (henkilö — kort­ti) relaa­tio jota ei tietokan­nas­sa tarvi­ta. Jos henkilöko­htaista matkako­rt­tia tarvi­taan, relaa­tio voidaan säi­lyt­tää tietokan­nan ulkop­uolel­la, esim. kor­tis­sa ole­va henkilön nimi joka kir­joite­taan siihen käsin.

    2. Tieto­suo­jaa ei ajatel­la tieto­jär­jestelmiä toteutet­taes­sa. Turhaa yksilöä iden­ti­fioivaa tietoa kerätään, kos­ka se on help­poa. Hyvä ja var­ma tieto­suo­jan toteu­tus mah­dol­lis­taisi datan käytön tutkimuk­seen ja asi­akas­palvelu­un eikä estäisi sitä. Jos henkilö tarvit­see keinon iden­ti­fioi­da itsen­sä, sen voi useim­miten tehdä niin että iden­ti­fikaa­tioon tarvit­ta­va keino on henkilön itsen­sä hal­lus­sa tietokan­nan ulkop­uolel­la. Iden­ti­fioin­ti­in tarvit­tavaa relaa­tio­ta ei pitäisi säi­lyt­tää tietokan­nois­sa kuin erit­täin painav­ista syistä. 

    Nämä samat ongel­mat tuli­vat esi­in myös Liikenne- ja viestin­tämin­is­ter­iön Oikeu­den­mukainen ja älykäs liikenne työryh­män rapor­tis­sa. Kukaan ei ajatel­lut, että jär­jestelmä voidaan toteut­taa rau­dan­lu­jal­la anonymi­teetil­lä ja halti­jako­htaisel­la maksusysteemillä. 

    Tieto­suo­ja ei ole voit­tam­a­ton este jos se ote­taan vakavasti ja sille annetaan arvoa alus­ta pitäen.

  27. “Fun­da­men­taalis­es­ti väärä ihmisku­va taitaa olla se, että ihmisel­lä olisi tah­to. Ymmärtääk­seni tiede ei ole mil­lään taval­la pystynyt osoit­ta­maan tah­don ole­mas­sa oloa, vaik­ka meil­lä kaikil­la on siitä koke­mus. Koke­mus on kuitenkin vain koke­mus, ei tosiasia.”

    Sama pätee kausaalisuuteen.

  28. Maaseu­tu­lainen:
    Kasvuym­päristön vaiku­tus­ta ihmisen myöhempään elämään tuskin kukaan aiheeseen pere­htynyt tutk­i­ja kiistää. Tulok­set ovat niin ilmeisiä. 

    Mikäli kasvuym­päristön vai­htelu otok­ses­sa on rajat­tu esim. nor­maalei­hin län­si­mais­sa ilmenevi­in kasvuolo­suhteisi­in, niin kyl­lä mon­et tutk­i­jat nimeno­maan kiistävät tämän nykyään. Tulok­set ovat “ilmeisiä” siinä mielessä, että “hyvät” kasvuym­päristöt näyt­tävät tuot­ta­van usein hyviä lop­putu­lok­sia ja päin­vas­toin, mut­ta tämä kor­re­laa­tio osoit­tau­tuu vahvem­mis­sa tutkimusasetelmis­sa yleen­sä ei-kausaalisek­si. Ks. esim. nuo linkit­tämäni ruotsalaistutkimukset.

  29. Mik­si val­ta­va datamäärä tuot­taa niin vähän tietoa?

    Ana­lyysi ja uusien riip­pu­vu­us­suhtei­den hakem­i­nen puut­tuu. Ilman tuo­ta tehdään parhaim­mil­laan vain mekaanista numeeris­ten kor­re­laa­tioiden laskemista. Roskadataa.
    Pitäisi kai enem­min esit­tää kysymys, mik­sei kukaan ole kaivan­nut lisää ana­lyysia uuden datan pohjalta.

  30. Perin­nöl­liset omi­naisu­udet näyt­tävät koros­tu­van ikään­tyessä, vaik­ka ympäristössä vietet­ty aika kasvaakin.

  31. Jaakko:Tulok­set ovat “ilmeisiä” siinä mielessä, että “hyvät” kasvuym­päristöt näyt­tävät tuot­ta­van usein hyviä lop­putu­lok­sia ja päin­vas­toin, mut­ta tämä kor­re­laa­tio osoit­tau­tuu vahvem­mis­sa tutkimusasetelmis­sa yleen­sä ei-kausaalisek­si. Ks. esim. nuo linkit­tämäni ruotsalaistutkimukset. 

    Jos lapsen saa­mal­la koti- ja laitosk­oulu­tuk­sel­la, per­hetaustal­la, adop­ti­o­ti­van­hem­mil­la, van­hempi­en alko­holinkäytöl­lä, lap­sille tar­jo­tu­il­la virikkeil­lä sun muil­la kasvutek­i­jöil­lä ei ole myöhempää henkistä tas­apain­oa ja men­estys­tä selit­tävää vaiku­tus­ta, niin jonkin ver­ran sitä ihmettelen.

    Täl­löin­hän esimerkik­si huostaan­ot­to­harkin­nois­sa voitaisi­in tyystin ohit­taa lapsen henkiset ja kehi­tyk­sel­liset tarpeet. Aivan sama, pelkääkö lap­si, saako hän turpi­in­sa tai joutuuko hän hol­hoa­maan van­hempiaan, kun­han väki­val­ta ei vain ole liian rajua ja kun­han lap­si pysyyy ruu’issa.

    Jos esität tuol­laisen väit­teen psykolo­gian ammat­ti­laiselle, niin uskotko, että hän ei väitä vas­taan tiedol­lisin perustein? Uskotko tuo­hon itsekään? Lait­taisitko lapsen mielu­um­min häir­iök­oulu­un kuin hyvään koulu­un? Jos kuolisit, antaisitko laps­esi mielu­um­min tas­apain­ois­ille aka­teemisille van­hem­mille vai koulu­tus­ta arvosta­mat­tomille duunarivanhemmille?

  32. Tässä on mon­ta ongel­maa, jot­ka kitey­tyvät kaik­ki samaan: tiedon avoimuu­teen ja toisaal­ta myös yksi­ty­isyy­den suojaan.

    Samal­la kun vaadimme yksi­ty­isyyt­tä me myös annamme sijaa rikol­lisu­udelle ja tehot­to­muudelle. Avoimuu­den kaut­ta voisimme luo­da tur­val­lisem­paa ja tehokkaam­paa yhteiskuntaa.

    Peru­songel­ma on se, että ihmiset häpeävät ole­mas­saoloaan, emme uskalla tun­nus­taa ole­vamme jotenkin vajai­ta, sairai­ta — tämän taustal­la ovat moraa­likäsi­tyk­set ja sosi­aaliset nor­mit, sekä evo­lu­ti­ivi­nen kilpailu.

  33. Pahin­ta on medi­an täy­delli­nen numero­taidot­to­muus ja tilas­to­jen edes alkel­lisen järkevyy­den ymmärtämi­nen. No, menee se miljoona ja mil­jardikin sekaisin.

    Tämä ker­too vain uuden­lais­ten taito­jen tarpeel­lisu­ud­es­ta: osaa tolki­ta näkemääsi tilastoa.

  34. Osmo Soin­in­vaara:
    Ihmisx­ten pitäisi oppia ainiesto­jen käsit­telyssä ainakin yksi help­po kik­ka. Jos halu­aa tutkia muut­tu­jien a ja b väl­itä riip­pu­vu­ut­ta graafis­es­ti, niitä kan­nat­taa har­voin plota­ta ruudulle sel­l­aisi­naan. Yleen­sä niihin molem­pi­in vaikut­taa (ainakin yksi) yhteinen tek­i­jä z. Kan­nat­taa selit­tää molem­mista muut­tu­jan z vaiku­tus pois mlom­mista ja tutkia jäännöstermejä.
    Asia tulee ymmär­re­tyk­si, jos vaik­ka a = hukku­miskuolemat, b = jäätelön­sylön­ti ja z = läm­pöti­la. Huo­mataan, ettei hukkus­misk­oulemien ja jäätel­lön­syön­nil­lä ole yhteyttä.
    Tämä voi tehdä myös Excelil­lä, mut­ta siinä solah­taa hel­posti tun­ti ja toinen tun­ti menee her­mo­jen lepuuttamiseen.Seppo Mus­tosen Sur­vo-ohjel­mal­la 40 vuot­ta sit­ten siihen meni minuutti.

    Sur­vo nyt lie­nee jo kauan sit­ten kadon­nut­ta kansanperinnettä ?

    Tuo edel­lä esitet­ty muis­tut­taa mielestäni Cox­in suh­teel­lisen haitan/riskin menetelmää ???

  35. Janne Sinkko­nen:
    Vielä ihmisti­eteistä: ne ovat kärsi­neet mon­es­sa kohtaa siitä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi tehdä, webin kaut­ta, ja niiden tekem­i­nen on arkipäivää. Esim. Ama­zon on opti­moin­ut sivus­to­jaan luke­mat­tomien sat­un­nais­tet­tu­jen kokei­den kaut­ta, ja Face­bookil­la on ainakin peri­aat­teessa mah­dol­lisu­us manip­u­loi­da käyt­täjien­sä mie­len­tilo­ja omien päämäärien­sä mukaan, esim. val­tise­mal­la mitä päiv­i­tyk­siä heille näytetään. 

    Hmm … ja huh! Mah­taako tämän blo­gin pitäjäl­lä olla käytössään algo­rit­mit, jot­ka säätelevät sitä, mitä luemme ja mitä päädymme (itse kukin) tänne kir­joit­ta­maan? (Olem­meko koekani­ine­ja, joil­la Osmo tes­taa, miten pää­ty­isimme koh­ta jo (viimeisetkin) hiih­don sijaan talvipyöräi­lyn harrastajiksi?)

    Toisaal­ta, mis­tä esimerkik­si se Face­book voi tietää, kuka manip­u­loi ja ketä? Ama­zon voinee kuitenkin seu­ra­ta ostopäätök­siä. Ne voivat tosin myös johtaa virheel­lisi­in johtopäätök­si­in. Net­tise­lailumme ja jopa kir­joit­telumme perus­teel­la voi korkein­taan yrit­tää tehdä johtopäätöksiä.

    Janne Sinkko­nen:
    Nämä kokeet vain tapah­tu­vat tiukan oper­a­tionaalises­sa kon­tek­stis­sa. Ne eivät joh­da teo­ri­an­muo­dos­tuk­seen. Kyse on enem­män tekoälystä, joka osaa mak­si­moi­da valit­tu­ja utili­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta). 

    Näin taitaa tosi­aankin olla.

  36. Sakke: Toisaal­ta, mis­tä esimerkik­si se Face­book voi tietää, kuka manip­u­loi ja ketä? Ama­zon voinee kuitenkin seu­ra­ta ostopäätöksiä.

    Kyl­lähän Face­book ja Google seu­raa­vat main­os­ten klikkauk­sia, mui­ta klikkauk­sia (tykkäyk­siä), palvelu­un kir­jau­tu­mista ja palvelu­un tuotet­tua sisältöä. 

    Esim. Face­bookin tykkäys­ten, sosi­aalisen verkon ja main­os­ten klikkailun perus­teel­la voi päätel­lä paljon siitä mis­tä pidät. Parhaim­mil­laan tämä johtaa kiin­nos­ta­van sisäl­lön tar­jon­taan, ml. kiin­nos­ta­vat mainokset.

    Manip­u­laa­tion suun­taan men­nään, jos käyt­täjän pref­er­ens­seistä luo­daan (sit­u­a­tion­aa­li­nen) malli, jon­ka perus­teel­la käyt­täjää voi esim. ohja­ta käyt­tämään palvelua enem­män, tai klikkaile­maan main­ok­sia enem­män, riip­puen käyt­täjän tun­nis­te­tus­ta mie­len­ti­las­ta tai muus­ta kontekstista. 

    Kuu­lostaako kaukaa haetul­ta? Vrt. http://www.theatlantic.com/technology/archive/2014/09/facebooks-mood-manipulation-experiment-might-be-illegal/380717/

    Samaan aikaan Google osaa tun­nistaa kuvista neu­roverkoil­la kisso­ja, ja Face­book osaa tun­nistaa val­oku­vista kasvo­ja. Tek­s­ti­ana­lyysi on val­oku­vi­in ver­rat­tuna triv­i­aalia. Kone ei ymmär­rä tek­stiä, mut­ta pelkkien sanafrekvenssien ja sanay­hdis­telmien frekvenssien avul­la voi tehdä tilas­tol­lisia johtopäätök­siä sisällöstä. 

    Ja oto­skoko voi olla tarvit­taes­sa luokaa 1 300 000 000, eli käyt­täjien kokon­ais­määrä. Ja nämä kokeet ovat kon­trol­loitu­ja ja sat­un­nais­tet­tu­ja, jos klas­sisia ter­me­jä käytetään. (Design voi tosin olla kehit­tyneem­pää kuin staat­ti­sis­sa kokeis­sa, menee enem­män toimen­pitei­den vaikuituk­sista jatku­vasti oppimisen suuntaan.)

    https://research.facebook.com/ai

    Face­book ei ole mitenkään erikoinen fir­ma, vain esimerk­ki siitä mitä mah­dol­lisuuk­sia verkko tar­joaa “oper­a­tionaal­isille sosi­aal­i­ti­eteille”. Enkä sano että mah­dol­lisu­udet ovat pahas­ta. Esim. Face­book itse sanoo: “We’re com­mit­ted to advanc­ing the field of machine intel­li­gence and devel­op­ing tech­nolo­gies that give peo­ple bet­ter ways to com­mu­ni­cate. In the long term, we seek to under­stand intel­li­gence and make intel­li­gent machines.”

  37. Janne Sinkko­nen: Kyl­lähän Face­book ja Google seu­raa­vat main­os­ten klikkauk­sia, mui­ta klikkauk­sia (tykkäyk­siä), palvelu­un kir­jau­tu­mista ja palvelu­un tuotet­tua sisältöä… 

    Aivan var­masti seu­raa­vat, mut­ta ne eivät kat­so sin­un klikkauk­si­asi. Ne saat­ta­vat kat­soa suo­ma­lais­ten klikkauk­sia tai toden­näköisem­min Nord­Balt-klikkauk­sia. Niil­lä on var­masti parem­pi käsi­tys mm. talouden tilas­ta ja tren­deistä, kuin Suomes­sa yhdel­läkään ministeriöllä.

    Pitää olla jonkin­lainen syy, tutkia juuri sin­un klikkauk­si­asi. FSB voisi olla kiinos­tunut Osmon klikkauk­sista, mut­ta tuskin sin­un tai min­un klikkauk­sista. Jopa USA:lla, Kiinal­la ja Venäjäl­lä on rajoite­tut resurssit tiedon seu­lomiseen. Oma lain­säädän­töm­me­hän on nau­ret­ta­van ja itket­tävän raja­mail­ta. Ruot­sikin seu­raa parem­min tapah­tu­mia Suomes­sa kuin me itse. 🙁

  38. Osmo Soin­in­vaara:
    Se mitä ei saanut kerätä oli tietä siitä, mihin miostäkin liiken­nevä­li­neestä vai­hde­taan. Jos kovin moni vai­h­taa nelos­es­ta seiskaan samal­la pysäkil­lä, voidaan pan­na ratik­ka kulke­maan suo­raan vai­h­dot­ta. Laa­jem­min pitäisi pystyä tekemään kart­t­lo­ja, mis­sä paikas­sa A ole­vat henkilöt liikku­vat. Tutk­i­jaa ei kiin­nos­ta pätkääkään, mis­sä henkilö A liik­kee, mut­ta jot­ta reit­te­jä vfoidaan mallintaa, pitää voi­da tun­nista­maan eri liiken­nevä­lineis­sä ole­vat henkilöt samoik­si henkkilöik­si. Tieto­suo­jaih­mis­ten mielestä riit­tää tieto, kuin­ka paljon matkus­ta­jia mil­läkin reit­il­lä on.

    Ei tuo vai­h­tokaan auko­ton ole, ker­tal­ip­ul­la matkus­tavaa ei seurata

    Eikä kor­tilli­sis­takaan voi seu­ra­ta henkilöä, jol­la on nimetön kortti

  39. Maaseu­tu­lainen: Jos lapsen saa­mal­la koti- ja laitosk­oulu­tuk­sel­la, per­hetaustal­la, adop­ti­o­ti­van­hem­mil­la, van­hempi­en alko­holinkäytöl­lä, lap­sille tar­jo­tu­il­la virikkeil­lä sun muil­la kasvutek­i­jöil­lä ei ole myöhempää henkistä tas­apain­oa ja men­estys­tä selit­tävää vaiku­tus­ta, niin jonkin ver­ran sitä ihmettelen.

    Täl­löin­hän esimerkik­si huostaan­ot­to­harkin­nois­sa voitaisi­in tyystin ohit­taa lapsen henkiset ja kehi­tyk­sel­liset tarpeet. Aivan sama, pelkääkö lap­si, saako hän turpi­in­sa tai joutuuko hän hol­hoa­maan van­hempiaan, kun­han väki­val­ta ei vain ole liian rajua ja kun­han lap­si pysyyy ruu’issa.

    Jos esität tuol­laisen väit­teen psykolo­gian ammat­ti­laiselle, niin uskotko, että hän ei väitä vas­taan tiedol­lisin perustein? Uskotko tuo­hon itsekään? Lait­taisitko lapsen mielu­um­min häir­iök­oulu­un kuin hyvään koulu­un? Jos kuolisit, antaisitko laps­esi mielu­um­min tas­apain­ois­ille aka­teemisille van­hem­mille vai koulu­tus­ta arvosta­mat­tomille duunarivanhemmille? 

    Viit­tasin “nor­maalei­hin län­si­maisi­in kasvuolo­suhteisi­in”, mil­lä tarkoitin raja­ta ulkop­uolelle esimerkik­si lapset, jot­ka ovat koke­neet äärim­mäistä hyväk­sikäyt­töä, pahoin­pite­lyä jne.

    Huostaan­otoista päät­tävil­lä ei ole mitään kristal­li­pal­loa, jon­ka avul­la he voisi­vat päätel­lä, miten lapselle kävisi pitkäl­lä tähtäimel­lä ilman huostaan­ot­toa. Perus­teek­si huostaan­otolle käy lapsen sen­hetkisen hyv­in­voin­nin turvaaminen.

    Psykolo­gien tiedol­liset perus­teet ovat tyyp­il­lis­es­ti varsin vaa­ti­mat­tomat, minkä olen huo­man­nut hei­dän kanssaan näistä asioista keskustellessaan.

    Oman lapseni halu­aisin mielu­usti kas­va­van vau­raas­sa, hyvin koulute­tus­sa, rauhal­lises­sa jne. per­he- ja kouluym­päristössä, kos­ka täl­lainen ympäristö on kaikin puolin miel­lyt­tävämpi kuin vas­tako­htansa. Mut­ta suh­taudun skep­tis­es­ti ajatuk­seen, että täl­laisil­la seikoil­la olisi suur­ta vaiku­tus­ta siihen, mil­lainen ihmi­nen hänestä kasvaisi.

  40. dio­di: 1. Kerätään liikaa tietoa tietokan­taan. Tässä tapauk­ses­sa kysessä on (henkilö — kort­ti) relaa­tio jota ei tietokan­nas­sa tarvi­ta. Jos henkilöko­htaista matkako­rt­tia tarvi­taan, relaa­tio voidaan säi­lyt­tää tietokan­nan ulkop­uolel­la, esim. kor­tis­sa ole­va henkilön nimi joka kir­joite­taan siihen käsin. 

    Jos kadotan matkako­rt­ti­ni, saan sen kuo­letet­tua ja sil­lä olleen arvon siir­ret­tyä uudelle matkako­r­tille asioimal­la HSL:n palvelupis­teessä ja todis­ta­mal­la henkilöl­lisyyteni. Miten tämä onnis­tu­isi jos henkilö — kort­ti ‑relaa­tio­ta ei tietokan­nas­sa olisi?

    Toki peri­aat­teessa min­ul­la voisi olla joku kortin salasana, jol­la tuo onnis­tuu. Käytän­nössä tyyp­illi­nen asi­akas ei sitä kuitenkaan muistaisi.

    Jos tieto­suo­ja perus­tu­isi kortin käyt­täjän anonymi­teet­ti­in, mm. kausilipun suo­rav­eloi­tus olisi varsin ongelmallinen.

  41. Janne Sinkko­nen:
    Manip­u­laa­tion suun­taan men­nään, jos käyt­täjän pref­er­ens­seistä luo­daan (sit­u­a­tion­aa­li­nen) malli, jon­ka perus­teel­la käyt­täjää voi esim. ohja­ta käyt­tämään palvelua enem­män, tai klikkaile­maan main­ok­sia enem­män, riip­puen käyt­täjän tun­nis­te­tus­ta mie­len­ti­las­ta tai muus­ta kontekstista 

    Pelkästään ilmaisel­la Google Ana­lyt­ics ‑palvelul­la voi jo pro­filoi­da oman sivus­ton­sa kävi­jät melko tarkasti, esim. iän, sukupuolen ja maanti­eteel­lisen sijain­nin perus­teel­la, tes­ta­ta näi­den käyt­täy­tymistä eri tilanteis­sa lennos­sa esimerkik­si A/B tes­tauk­sel­la ja muoka­ta sivua sen perus­teel­la mikä toden­näköisim­min johtaa halut­tuun lop­putu­lok­seen. Tuo mitä kuv­a­sit oli “arkipäivää” Suomes­sakin jo viisi vuot­ta sitten. 

    Google itse tietää ja analysoi paljon enem­män, mut­ta se onkin maail­man tehokkain ihmis­ten käyt­täy­tymistä seu­raa­va vakoilujärjestelmä.

    Kaikkien tei­dän henkilötiedot, miel­tymyk­set, liikku­mi­nen, käyt­täy­tymis­malli yms. ovat jo tal­lessa USA:n eri intres­si­ta­ho­jen palve­limil­la. Ja mallit ja profi­ilit tarken­tu­vat jatku­vasti. Tuo tapah­tuu kos­ka se on teknis­es­ti mahdollista.

    Jos olisin vain­o­harhainen USA:aa vas­tus­ta­va dik­taat­tori, kieltäisin Face­book­it, twit­ter­it, Googlen palve­lut, Android­it yms. välit­tömästi. Ja kehi­tyt­täisin tilalle omia, esim. sel­l­aisia kuin Yan­dex, Baidu, tai vkontakte.

  42. Mä käytän Vkon­tak­tea töis­sä, kos­ka Face­book on estetty 🙂

  43. Luul­lak­seni tieteen piiris­sä on käyn­nis­sä jonkin­lainen par­a­dig­ma­muu­tos. Melkein kaikil­la aloil­la data-ana­lyysi ja siihen poh­jau­tu­va argu­men­taa­tio alkaa hiip­iä osak­si menetelmistöä. Siinä menee tietenkin aikaa, se kohtaa vas­tus­tus­ta ja dog­maat­tisu­ut­ta, siinä tehdään virheitä ja ylilyön­te­jä, mut­ta lop­ul­ta — kun­han van­hat jäärät siir­tyvät eläk­keelle — se muo­dos­tuu osak­si tiedon­muo­dostamisen arkea. 

    Jos Freud hor­jut­ti unel­maa ihmisen ratio­naal­isu­ud­es­ta (ali­ta­jun­nan ras­vainen poh­javir­taus onkin yllät­tävän vah­va), jotkut arvioi­vat big datan viimein kaata­van sen: kun seu­rataan käyt­täy­tymistä, eikä ihantei­den värit­tämää puhet­ta, me emme ole riip­pumat­to­mia, ratio­naal­isia (kuin het­kit­täin) tai kovin yksilöl­lisiä. Tämä lie­nee yksi ongel­ma talousti­eteel­lisen teo­ri­an ja käytän­nön välillä. 

    Tule­vaisu­udessa se voi olla ongel­ma oikeusfilosofi­an teo­ri­an ja käytän­nön välil­lä. Ehkä pide­tään kiin­ni siitä, että ihmi­nen voi aina vali­ta toisin, vaik­ka bid data osoit­taisi, että tuot­ta­mal­la naa­purei­hin tai huoneeseen X saadaan ihmis­es­tä hyvin, hyvin toden­näköis­es­ti ulos Y.

  44. Nim­im. Coun­try­boy arveli Sur­vo-ohjelmis­ton ole­van “kadon­nut­ta kansan­perin­net­tä”. Sur­vo ei ole kuitenkaan kadon­nut mihinkään vaan se on ollut ole­mas­sa ja kehit­tynyt jatku­vasti noista Osmon kuvaamista ajoista. (Kyseessä lie­neekin yksi Suomen pitkäaikaisimpia ohjelmistoprojekteja.)

    Sur­von uusin ver­sio (SURVO R) perus­tuu avoimeen lähdekood­i­in ja on toteutet­tu osana R‑ohjelmistoa. Sil­lä onnis­tu­vat edelleen hel­posti Osmon mainit­se­mat järkevät datan läpivalaisut.

    Lisäti­eto­ja: http://www.survo.fi

  45. Kalle: Aivan var­masti seu­raa­vat, mut­ta ne eivät kat­so sin­un klikkauksiasi.

    Jos tarkoi­tat että klikkauk­sia ei yhdis­tetä sosi­aal­i­tur­vatun­nuk­seen tai että niitä ei kat­so­ta man­u­aalis­es­tii, niin olet melko var­masti oike­as­sa. Muuten olet aivan väärässä.

  46. Coun­try­boy: Sur­vo nyt lie­nee jo kauan sit­ten kadon­nut­ta kansanperinnettä ?

    Ei suinkaan, Sur­vo-kurssi kuu­luu edelleenkin tilas­toti­eteen pakol­lisi­in peru­sopin­toi­hin HY:ssä.

    Ovat por­tan­neet sen R:n päälle, ja ikä näkyy ikävästi (käyt­töli­it­tuma bug­i­nen ja hidas). Hieno­ja idei­ta, mut­ta mod­ernei­hin tek­stied­i­tor­ei­hin ja skrip­tikieli­in tot­tuneena en voi sanoa koke­muk­sen olleen eri­tyisen positiivinen.

  47. OS kysyy: “Mik­si val­ta­va datamäärä tuot­taa niin vähän tietoa?”

    Kysymys on väärin asetet­tu, sil­lä esimerkik­si talous­puolel­la eri­laisil­la ohjelmis­toil­la (data min­ing / big data / jne.) tuote­taan koko ajan mas­si­ivis­es­ti käyt­tökelpoista tietoa.

    Edel­lä Janne Sinkko­nen kir­joit­ti esimerkik­si uusista bayesi­lai­sista menetelmistä, jot­ka tule­vat nyt ryminäl­lä mon­en­laiseen käyttöön.

    Itsekin olen ollut mukana pro­jek­tis­sa, jos­sa bayesi­laisia menetelmiä käytettiin. 

    Niiden etu on juuri siinä, että voidaan käsitel­lä suuria datamääriä, mon­imutkaisia sys­teeme­jä ja tulok­se­na saadaan jopa välit­tömästi (on-line) oper­ati­iseen käyt­töön sopivia tuloksia. 

    Nyky­isin esim. SAP / Hana-sys­teemit ovat muut­ta­mas­sa tapaa, jol­la isot fir­mat ja jotkin maatkin, ohjaa­vat toim­intaansa ja päätöksentekoaan.

    Arvokkain­ta tietoa on juuri syy-seu­raus suhtei­den esi­in saami­nen, dynaamis­es­ti, het­ki-het­keltä muut­tuvis­sa tilanteissa.

    Aivan kuten edel­lä mon­et kir­joit­ti­vatkin, edel­lä mainit­tu käytän­nön kehi­tys tapah­tuu kuitenkin pääosin yri­tyk­sis­sä, tiede­maail­man ulkopuolella.

    Tiedepuolen paha ongel­ma on hitaus: Esim. väitöskir­jan tekosyk­li on n. 5 vuot­ta (erit­täin low-fre­quen­cy). Tulok­set tup­paa­vat siten ole­maan pääosin jo van­hen­tunut­ta ja sik­si käyt­tökelvo­ton­ta tavaraa. Kan­nat­taa muis­taa, että tiedon määrä kansinker­tais­tuu kahdessa vuodessa…

    Tietoa siis tulee kyl­lä val­tavasti, mut­ta se jää yri­tyk­si­in. Esim. high-fre­quen­cy trad­ing-ohjelmis­tot ovat huip­pusalaisia ja niil­lä tehdään miljardeja…

    Olen ymmärtänyt, että val­to­varain­min­is­ter­iössä on varsin hyvät sys­teemit jo nyt, mut­ta kan­nat­taisiko­han niitäkin päivit­tää uusil­la bayesi­laisil­la menetelmil­lä, on-line käyttöön?

    Sil­loin esimerkik­si bud­jet­tineu­vot­teluis­sa poli­itikot saisi­vat heti tietää mitä jokin veropäätös todel­lisu­udessa merk­it­see… Näin Suo­mi Oy saataisi­in siir­tymään nykyaikaan!

    Luulem­pa kuitenkin, että täl­lainen sys­tee­mi tehdään ensin high-fre­quen­cy-Virossa, eikä pysähtyneisyy­den (zero-fre­quen­cy) Suomessa?

    Sep­po Korppoo
    Bayesi­in usko­va, high-frequency-yrittäjä

  48. Kalle: Aivan var­masti seu­raa­vat, mut­ta ne eivät kat­so sin­un klikkauk­si­asi. Ne saat­ta­vat kat­soa suo­ma­lais­ten klikkauk­sia tai toden­näköisem­min Nord­Balt-klikkauk­sia. Niil­lä on var­masti parem­pi käsi­tys mm. talouden tilas­ta ja tren­deistä, kuin Suomes­sa yhdel­läkään ministeriöllä.

    Pitää olla jonkin­lainen syy, tutkia juuri sin­un klikkauk­si­asi. FSB voisi olla kiinos­tunut Osmon klikkauk­sista, mut­ta tuskin sin­un tai min­un klikkauk­sista. Jopa USA:lla, Kiinal­la ja Venäjäl­lä on rajoite­tut resurssit tiedon seu­lomiseen. Oma lain­säädän­töm­me­hän on nau­ret­ta­van ja itket­tävän raja­mail­ta. Ruot­sikin seu­raa parem­min tapah­tu­mia Suomes­sa kuin me itse. 🙁

    Niin, no siitä FSB:stä nyt en tiedä, että mikä sitä kiin­nos­taa. Mut­ta kyl­lä ne Google ja Face­book seu­raa­vat ihan kaikkien klikkauk­sia. Ja on siihen syykin, että mik­si seu­raa­vat. Syy on se, että kutakuinkin kaik­ki, joil­la maail­mas­sa nyt ylipäätään on mah­dol­lisu­us klikkail­la, osta­vat jotain. Ja sit­ten taas ne, jot­ka halu­a­vat myy­dä jotain, usein main­os­ta­vat. Ja Google ja Face­book sit­ten myyvät main­os­ti­laa niille, jot­ka halu­a­vat myydä.

  49. Tero Tolo­nen: Avoimuu­den kaut­ta voisimme luo­da tur­val­lisem­paa ja tehokkaam­paa yhteiskuntaa. 

    Sekä ava­ta itsemme yhä tehokkaam­malle hyväk­sikäytölle, manip­u­laa­ti­olle ja varkaudelle. Jotkin ihmiset pitävät tästäkin ajatuksesta.

    Jos tieto­ja avataan, sen tulee sym­me­tri­an vuok­si koskea kaikkia toim­i­joi­ta — kau­pal­liset ja val­ti­ol­liset mukaan­lukien. Muuten hai­tat ovat tosi­asial­lisia. Eli liike­salaisu­udet ja ydi­nasekood­it vapaik­si myös, jos ker­ran tuos­ta lähde­tään. Sen jäl­keen ei tarvit­sekaan kuin muut­taa ihmis­lu­onne, kos­ka sil­lä kiusauk­sen ja henkisen pahoin­pite­lyn määräl­lä, jota inter­netis­sä jo nykyisel­läänkin näkee, vaikkei kaikkia tieto­ja olekaan saatavil­la, ei ihmis­ten tieto­jen avaamisel­la aiheuteta kuin haittaa.

  50. python­isti: Ovat por­tan­neet sen R:n päälle, ja ikä näkyy ikävästi (käyt­töli­it­tuma bug­i­nen ja hidas). Hieno­ja idei­ta, mut­ta mod­ernei­hin tek­stied­i­tor­ei­hin ja skrip­tikieli­in tot­tuneena en voi sanoa koke­muk­sen olleen eri­tyisen posi

    Minus­ta ikä taas näkyy Sur­vos­sa kun­nioitet­tavasti. Parikym­men­tä vuot­ta sit­ten tekemäni sur­voskrip­tit toimi­vat edelleen uudessa Sur­vo R:ssä ja bugeis­takin on päästy pienen väli­vai­heen jäl­keen koko­lail­la eroon. Työn tuot­tavu­ut­ta ei ole tarvin­nut haaska­ta ihmeel­lisi­in käyt­töli­it­tymän muu­tosten opetteluihin.

  51. python­isti: Ei suinkaan, Sur­vo-kurssi kuu­luu edelleenkin tilas­toti­eteen pakol­lisi­in peru­sopin­toi­hin HY:ssä.

    Ovat por­tan­neet sen R:n päälle, ja ikä näkyy ikävästi (käyt­töli­it­tuma bug­i­nen ja hidas). Hieno­ja idei­ta, mut­ta mod­ernei­hin tek­stied­i­tor­ei­hin ja skrip­tikieli­in tot­tuneena en voi sanoa koke­muk­sen olleen eri­tyisen positiivinen.

    Aikanaan vit­sailti­in, että SURVO tarkoit­ti Keinosiemen­nyk­sen kehit­tämis- ja edistämisyhdistystä !

  52. > Mik­si val­ta­va datamäärä tuot­taa niin vähän tietoa?

    Yksi vas­taus kysymk­seen on se, että tietoa kyl­lä tuote­taan val­tavasti, mut­ta ehkä eri tarkoituk­si­in kuin halu­aisit. Tietoa tuote­taan var­maankin run­saasti main­on­taan liit­tyen, mut­ta ei kovinkaan paljoa yhteiskun­nal­lista tutkimus­ta varten.

  53. Janne Sinkko­nen:
    Vielä ihmisti­eteistä: ne ovat kärsi­neet mon­es­sa kohtaa siitä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi tehdä, webin kaut­ta, ja niiden tekem­i­nen on arkipäivää. Esim. Ama­zon on opti­moin­ut sivus­to­jaan luke­mat­tomien sat­un­nais­tet­tu­jen kokei­den kaut­ta, ja Face­bookil­la on ainakin peri­aat­teessa mah­dol­lisu­us manip­u­loi­da käyt­täjien­sä mie­len­tilo­ja omien päämäärien­sä mukaan, esim. val­tise­mal­la mitä päiv­i­tyk­siä heille näytetään.

    Nämä kokeet vain tapah­tu­vat tiukan oper­a­tionaalises­sa kon­tek­stis­sa. Ne eivät joh­da teo­ri­an­muo­dos­tuk­seen. Kyse on enem­män tekoälystä, joka osaa mak­si­moi­da valit­tu­ja utili­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta).

    En ole asiantun­ti­ja, mut­ta kuulin muu­ta­ma vuosi sit­ten IBM:n Bernar­do Huber­manin mie­lenki­in­toisen kol­lokviop­uheen siitä miten nykyään tutk­i­taan yleisen huomion keskit­tymistä eri aiheisi­in seu­raa­mal­la sosi­aal­ista medi­aa. Tätä on käytet­ty vaikka­pa eloku­vien main­os­tuk­sen seu­ran­nas­sa, mut­ta saadus­ta tiedos­ta on voitu tehdä myös kval­i­tati­ivisia johtopäätök­siä, ks. http://www.hpl.hp.com/research/idl/results.html — esim. tässä julka­is­us­sa http://www.hpl.hp.com/research/scl/papers/random/random.pdf osoitet­ti­in, kuin­ka käyt­täjien tekemät val­in­taketjut ovat kor­reloitunei­ta, mikä invali­doi usein teh­dyn täy­den sat­un­naisen käytök­sen oletuksen.

    En nyt siis sanoisi, etteivätkö tulok­set voisi johtaa myös teo­ri­an­muo­dos­tuk­seen. Sitä tehdään tietääk­seni melko paljon ainakin sosio- ja ekono­fysi­ikan aloil­la, jota tutk­i­taan myös esim. Aalto-yliopistossa.

  54. Val­ta­va datamäärä voi aiheut­taa myös val­ta­van mon­imutkaiset sys­teemit datan käsit­te­lyyn. Vrt. ilmas­ton­muu­toslaskel­mat jos­sa val­tavia datamääriä työstetään val­tavil­la tietokoneohjelmilla.

    Lop­putu­los on että vain kouralli­nen ihmisiä koko maail­mas­sa ymmärtää pohjia myöten, että mis­tä on kyse. Val­ta­vat sys­teemit tekevät taval­liselle sukanku­lut­ta­jalle vaikeam­mak­si todel­la ymmärtää, että mitä kaikkea tässsä nyt oikein tehdään kund analysoidaan dataa. Tässä mielessä van­ha paperi ja kynä saat­toi olla ped­a­gogis­es­ti parem­pia ja havainnollisempi.

  55. Pääasi­as­sa samaa mieltä tästä kir­joituk­ses­ta. Kuitenkaan en näk­isi niin selvänä, että tutk­i­joil­la — siis vira­nomaisil­la — pitäisi olla pääsy kansalais­ten kaikki­in tietoi­hin. Voidaanko luot­taa, että vira­nomaiset esim. Suomes­sa ovat aina hyvää tarkoit­tavia? Total­i­taris­tisia jär­jestelmiä ei kai enää synny?

  56. anonyy­mi: Sekä ava­ta itsemme yhä tehokkaam­malle hyväk­sikäytölle, manip­u­laa­ti­olle ja varkaudelle. Jotkin ihmiset pitävät tästäkin ajatuksesta.

    Jos tieto­ja avataan, sen tulee sym­me­tri­an vuok­si koskea kaikkia toim­i­joi­ta – kau­pal­liset ja val­ti­ol­liset mukaan­lukien. Muuten hai­tat ovat tosi­asial­lisia. Eli liike­salaisu­udet ja ydi­nasekood­it vapaik­si myös, jos ker­ran tuos­ta lähdetään. 

    Yri­tys­ten kartelle­ja, patent­te­ja, veronkier­toa, ydi­na­sei­ta, jne. vas­taan toki käy­dään tais­telua, mut­ta on vaikea nähdä miten tämä olisi mah­dol­lista ilman avoimuut­ta tai tietoa kus­takin aiheesta? Samoin on vaikea nähdä miten net­tik­iusaamista voitaisi­in ehkäistä, jos ei olisi mah­dol­lista tun­nistaa tek­i­jöitä? Tiedon avaami­nen on siis olta­va mah­dol­lista, viimeistään lain edessä.

    Mikäli ain­oa vai­h­toe­hto on, että kaik­ki tieto on salat­tavis­sa ja täl­löin taas ollaan juuri niiden har­vo­jen armoil­la jot­ka pystyvät anonymi­teetin suo­jas­ta tekemään pahojaan.

    Yksi­ty­ishenkilöil­lä tulee kuitenkin olla oma suo­jansa, jot­ta henkilöi­hin kohdis­tu­vaa ilki­val­taa voidaan estää — täy­del­listä suo­jaa ei mikään mekanis­mi kuitenkaan voi taa­ta. Tämän vuok­si yhteiskun­nan tulisi pyrk­iä siihen, että jokainen teko olisi vähin­täänkin jäljitet­tävis­sä tekijäänsä.

  57. Paljon hyvää ajat­telua ja kom­ment­te­ja, mut­ta tässä vielä muu­ta­ma käytän­nön näkökul­ma. (Varoi­tus: saat­taa sisältää rajua yleistämistä, joten ei kan­na­ta loukkaantua.)

    Lääketi­eteelli­nen tutkimus on ihan oma lajin­sa. Empi­iristä tutkimus­ta on vaikea eri­lais­ten poti­las­tur­val­lisu­us- ja kus­tan­nussyi­den takia tehdä. Toisaal­ta julka­isu­is­sa tui­jote­taan erit­täin tarkasti sitä, että p=.05 täyt­tyy, ja että tilas­tolli­nen tarkastelu näyt­tää oikealta. 

    Sitä sen sijaan eivät ref­er­eet niin tarkasti tui­jo­ta, ovatko hypo­teesit ihan oikein, tai onko koeasetel­ma oikeasti järkevä. Aika moni julka­istu artikke­li on pitkän hieromisen tulos; työ on tehty hiukan vääräl­lä taval­la, ja sen jäl­keen hikoil­laan tulosten saamises­sa viral­liseen muottiin.

    Sinän­sä on hyvä, että lääketi­eteessä vaa­di­taan hyvää tilas­to­jen käsit­te­lyä. Tämä kuitenkin estää niiden tulosten julkaisemisen, jot­ka voisi­vat olla arvokkai­ta, mut­ta joi­ta ei saa puris­tet­tua muot­ti­in. Lisäk­si isom­pi ongel­ma on usein koeasetel­man suun­nit­telus­sa, jol­loin fokuk­sen viem­i­nen tulosten käsit­te­lyyn menee väärään suun­taan. Tulok­set voi kyl­lä käsitel­lä uudelleen, jos koeasetel­ma on hyvä mut­ta dataa on kohdel­tu väärin. Toisin päin ei onnistu.

    Taloustiede taas pitää välil­lä tilas­tomenetelmistä liikaakin. Kaiken­lainen kiva fak­to­ri­ana­lyysi ja klus­teroin­ti on käytössä. Sit­ten, kun tulok­sia raa­put­taa selvem­min, klus­teroin­ti on lop­ul­ta tehty tutk­i­jan Harrison-Stetson-algoritmilla. 

    Oikeasti kyse on inhimil­lis­es­tä päät­telystä, joka voi kyl­lä tuot­taa erit­täin oikeitakin tulok­sia, mut­ta asia ver­ho­taan hienoi­hin tilas­to­m­atemaat­tisi­in ter­mei­hin, jot­ka eivät ole oikeasti hal­lus­sa sen parem­min kir­joit­ta­jal­la kuin lukijallakaan.

    Sen lisäk­si talousti­eteil­i­jöille tulee hel­posti paha mieli, jos vinkkaa, että matem­ati­ik­ka ei ole mielipi­dekysymys. Olisiko niin, että matem­ati­ikkaa oikeasti ymmärtävät talousih­miset ovat yksi­tyisel­lä puolel­la paran­ta­mas­sa taloustilannettaan?

    Insinöörit taas käytän­nön elämässä löytävät kivan työkalun ja sovelta­vat sitä melkein mihin vain. Esimerkik­si pääkom­po­nent­ti­ana­lyysil­la saa mie­lenki­in­toisia tulok­sia aikaan, ja menetelmä on muka­van deter­min­is­tisen oloinen. Mut­ta jos datan syn­tymekanis­mi on hukas­sa, tulok­sil­la on vain taiteelli­nen arvo.

    Yri­tyk­set hierovat datas­ta vaik­ka mitä. Esimerkik­si luot­toko­rt­tiy­htiölle on tärkeää tun­nistaa luot­toriskit ja petok­set nopeasti ja automaat­tis­es­ti. Samoin tietysti Google yrit­tää pro­filoi­da main­ok­si­aan luk­i­jan mukaan.

    Näille sovel­luk­sille omi­naista on se, että tiede pide­tään kaukana. Ketään ei kiin­nos­ta, onko p=.05. Usein yri­tyk­selle riit­tää se, että saa odd­sit vähän parem­min puolelleen. Min­ullekin kel­paa rulet­inpeluu, jos pystyn edes vähän sat­tumaa parem­min arvaa­maan seu­raa­van numeron. (Tai ehkä vielä real­is­tisem­min sama pörssissä.)

    Ja toki isosti vaikut­taa sekin, että yri­tyk­set voivat tehdä kokeilui­ta kysymät­tä keneltäkään.

    Yri­tyk­sil­lä on myös paljon kanan­lui­hin ja home­opa­ti­aan perus­tu­vaa datankäsit­te­lyä (kuten melkein koko mainosala).

    Big data taas on ihan oma olion­sa. Sehän ei mitenkään ensisi­jais­es­ti tarkoi­ta siis­te­jä homogeenisia datasar­jo­ja, vaan yleen­sä hyvinkin epäho­mogeenista dataa. On vielä help­po repiä numeroi­ta reit­tiop­paan käytöstä, mut­ta mielekkään datan irroit­ta­mi­nen vaikka­pa Hesarin ark­istos­ta (tek­stiä, kuvia, jne.) on vaikeampaa.

    Face­book, Google &kumpp. käyt­tävät ansiokkaasti big dataa, mut­ta sil­loinkin kyseessä ovat erit­täin suurel­la rahal­la ja vaival­la kehite­tyt algo­rit­mit, joil­la saa varsin rajoite­tusti tietoa irti. Inhimilli­nen äly saisi samas­ta tietomäärästä paljon enem­män hyö­tyä irti, jos inhimil­listä älyä voisi soveltaa tuol­laiseen tietomassaan.

    Varsin olen­naista on se, että ei ole ole­mas­sa mitään yleistä algo­rit­mia, joka löytäisi kivaa infoa isos­ta dat­apinos­ta. On iso kasa työkalu­ja, joi­ta oikein sovelta­mal­la voi ison työn jäl­keen saa­da jotain juuri halut­tuun sovel­luk­seen sopi­vaa. Tietokoneet pystyvät kyl­lä tekemään esimerkik­si kuvan­tun­nis­tus­ta tietyis­sä sovel­luk­sis­sa, mut­ta algo­rit­mit ovat osin hyvin mon­imutkaisia ja raskaita.

    Tiedonlouhin­taan big datas­ta käytetään hienoa van­haa sananlaskua: 

    Data min­ing is tor­tur­ing data until it con­fess­es. If you tor­ture it long enough, it will con­fess to anything.

    Tilas­toti­eteestä on paljon iloa sil­loin, kun on yhteis­mi­tallisia tai yhteis­mi­tallis­tet­tavia tietomas­so­ja. Niitä on kuitenkin yllät­tävän vähän. Jopa eri­lai­sis­sa tutkimuk­sis­sa kerä­tyt tietomas­sat voivat olla yllät­tävän epäho­mogeenisia, jos kohteena ovat ihmiset.

    Visu­al­isoin­nista olen Osmon kanssa samaa mieltä, se on erit­täin tärkeää. Kuitenkin blo­gisti esit­tää erit­täin opti­mistisen lausun­non: “Enää ei onnek­si tarvitse käyt­tää mil­limetri­pa­pe­ria ja lyi­jykynää, vaan tasokkai­ta kuvia saa tietokoneen näyt­tää murto-osasekunnissa.”

    Näin tietysti on, jos plotat­ta­vana on viisikym­men­tä pis­tet­tä, joi­hin pitää sovit­taa suo­ra. Visu­al­isoin­ti­in ei kuitenkaan ole mitään graalin mal­jaa, eikä tarvitse olla kovin kum­malli­nen visu­al­isoin­ti, niin tarvi­taan aika syväl­listä osaamista, kos­ka valmi­it työka­lut eivät aivan käykään.

    Eri­tyis­es­ti isom­mil­la datasar­joil­la jo aivan yksinker­taiset perusasi­at ovat monil­la työkaluil­la han­kalia — esimerkkinä muu­ta­man miljoo­nan pis­teen mielekkään parviku­vion (scat­ter plot) tekeminen.

    Ja jos sit­ten men­nään vielä otta­maan kol­mas ulot­tuvu­us ja aikaulot­tuvu­us mukaan, työkaluista alka­vat valmi­it vai­h­toe­hdot kutis­tua aika lail­la. Kuitenkin näil­lä on erit­täin suuri merk­i­tys datan visu­al­isoin­nin ymmär­ret­tävyy­teen mon­es­sa tilanteessa.

    Hyvän visu­al­isoin­nin tekem­i­nen vaatii toisaal­ta sekä hyvää ymmär­rystä datas­ta että hyvää visuaal­ista näke­mys­tä. Aika usein näkee esimerkik­si lehtien info­grafi­ikkaa, joka näyt­tää hienol­ta mut­ta on sisäl­löl­lis­es­ti esi­tys­taval­taan sitä itseään. Toisaal­ta visuaalis­es­ti heikosti toteutet­tu vah­vaan dataan poh­jau­tu­vakin grafi­ik­ka on epäin­for­mati­ivista useim­mille katsojille.

  58. dio­di: Ei tarvitse. Tutk­i­ja tarvit­see keinon iden­ti­fioi­da sama matkako­rt­ti eri liiken­nevä­lineis­sä. HSL-matkako­rt­tin toteu­tus on hyvä esimerk­ki tieto­suo­jan ongelmista jot­ka syn­tyvät taita­mat­to­muud­es­ta ja välinpitämättömyydestä:

    Ihan help­poa ei ole tehdä anonyymiä matkako­rt­ti­jär­jeste­lyä, jos­ta saisi irti ihmis­ten kulku­tiedot. Tässä pulmakohtia:

    - jos kort­ti­jär­jestelmä sal­lii aika­mak­samisen, kort­ti pitää sitoa henkilöön taval­la, joka on liiken­neop­er­aat­torin seurattavissa

    - kort­ti­jär­jestelmä ei kerää poistumistietoja

    - kort­ti­jär­jestelmä ei kerää raideli­iken­teen nousu­ti­eto­ja aikamatkaajilta

    - jot­ta ihmis­ten todel­li­nen liikku­mis­tarve selviäisi, kortin iden­ti­teetin pitää säi­lyä liiken­nevä­li­neen vai­h­don yli

    Koko tuon jär­jeste­lyn tekem­i­nen anonyymik­si vaatii väistämät­tä luotet­ta­van kol­man­nen osa­puolen, jos matkus­ta­ja ei luo­ta jär­jestelmän ylläpitäjään. (Jär­jestelmän ylläpitäjä ei voi myöskään luot­taa matkus­ta­jaan, jol­la on taloudelli­nen insen­ti­ivi huijata.)

    = = =

    Luot­ta­mus on yleisem­minkin tietysti se olen­nainen aspek­ti. Yleen­sä kysymys on eniten siinä, luo­tam­meko me viranomaisiin.

    Jos vira­nomaiset ovat luotet­tavia, yksi­ty­isyysongel­mat voidaan hoitaa lain­säädän­nöl­lä. Kaik­ki tieto voidaan kerätä tal­teen, mut­ta sitä saa hyö­dyn­tää vain lain­säädän­nön puitteissa.

    Jos vira­nomaiset eivät ole luotet­tavia, tietoa ker­tyy jo nyt liikaa aika­matkaav­il­ta bus­si­matkus­ta­jil­ta. Tässä ske­naar­ios­sa pitää lähteä siitä, että kaik­ki se tieto on kerät­ty, jon­ka vira­nomainen on joskus jos­sain jotenkin voin­ut kerätä.

    Tässä suh­teessa matkako­rtista ei kan­nat­tane olla kovin huolis­saan. Matkako­rt­ti tar­joaa mah­dol­lisu­u­den matkus­taa halti­jako­htaisel­la kor­tilla, jota voi vai­h­taa pre­paid-liit­tymien tavoin ihan niin paljon kuin haluaa.

    Paljon isom­pia yksi­ty­isyy­den suo­jaan liit­tyviä jut­tu­ja on liik­keel­lä. Valvon­takameroi­ta on koko ajan enem­män, ja niitä on myös julk­i­sis­sa liiken­nevä­lineis­sä. Ja ihan viral­lis­es­tikin on ole­mas­sa sel­l­ainen asia kuin Kan­Ta, johon yksi­ty­isyy­den suo­jas­taan kiin­nos­tunei­den kansalais­ten kan­nat­taisi ehkä tutus­tua vähän syvällisemmin.

  59. Viherinssi: Ihan help­poa ei ole tehdä anonyymiä matkako­rt­ti­jär­jeste­lyä, jos­ta saisi irti ihmis­ten kulku­tiedot. Tässä pulmakohtia:

    – jos kort­ti­jär­jestelmä sal­lii aika­mak­samisen, kort­ti pitää sitoa henkilöön taval­la, joka on liiken­neop­er­aat­torin seurattavissa

    – kort­ti­jär­jestelmä ei kerää poistumistietoja

    – kort­ti­jär­jestelmä ei kerää raideli­iken­teen nousu­ti­eto­ja aikamatkaajilta

    – jot­ta ihmis­ten todel­li­nen liikku­mis­tarve selviäisi, kortin iden­ti­teetin pitää säi­lyä liiken­nevä­li­neen vai­h­don yli

    Lue uud­estaan mitä kir­joitin ajatuk­sen kanssa. 

    Kaik­ki nuo esit­tämäsi koh­dat voidaan ratkaista niin, että henkilöä ja kort­tia ei yhdis­tetä tietokan­nas­sa. Kort­ti­in voidaan vaik­ka print­a­ta henkilön nimi, kuva ja henkilö­tun­nus, mut­ta kortin sar­janu­meroa ei mis­sään linkitetä henkilöön tietokan­nas­sa. Kort­tia voidaan seu­ra­ta, mut­ta sitä ei voi­da yhdis­tää henkilöön ilman henkilön suos­tu­mus­ta (näyt­tää kort­tia tai syöt­tää kortin tiedot joi­ta käytetään luo­maan link­ki henkilön ja kortin välille transak­tion ajaksi).

  60. dio­di: Kaik­ki nuo esit­tämäsi koh­dat voidaan ratkaista niin, että henkilöä ja kort­tia ei yhdis­tetä tietokan­nas­sa. Kort­ti­in voidaan vaik­ka print­a­ta henkilön nimi, kuva ja henkilö­tun­nus, mut­ta kortin sar­janu­meroa ei mis­sään linkitetä henkilöön tietokan­nas­sa. Kort­tia voidaan seu­ra­ta, mut­ta sitä ei voi­da yhdis­tää henkilöön ilman henkilön suos­tu­mus­ta (näyt­tää kort­tia tai syöt­tää kortin tiedot joi­ta käytetään luo­maan link­ki henkilön ja kortin välille transak­tion ajaksi).

    Taidamme läh­estyä asi­aa vähän eri tulokul­mista. Min­un point­ti­ni on se, että jos mukana ei ole kol­mat­ta osa­puol­ta, lipun myön­täjä voi halutes­saan kohtu­ullisen hel­posti rikkoa yksi­ty­isyy­den suo­jasi. Se voi edel­lyt­tää sään­tö­jen rikkomista, mut­ta jos lipun myön­täjän olete­taan oletet­ta­van luotet­ta­va taho, sil­loin yksi­ty­isyysongel­ma redu­soituu sopivien sään­tö­jen tekemiseksi.

    Esit­tämässäsi tapauk­ses­sa (nimi print­ataan kort­ti­in) kort­tisi yksilöin­ti­ti­etoi­neen ja sin­un henkilöti­etosi ovat samanaikaises­ti kortin myön­täjän jo myyn­ti­hetkel­lä, joten myön­täjä voi tehdä niistä tietokan­nan jo silloin.

    Tämä on vielä kier­ret­tävis­sä sil­lä, että itse kir­joi­tat oman het­usi kort­ti­in ja kan­nat mukana erik­seen han­kit­tua todis­tus­ta siitä, mis­sä asut ja mihin alen­nuk­si­in olet oikeutet­tu. Täl­löin voit toimia täysin anonyymisti kort­tia ostaes­sasi, jol­loin kortin ja sin­un iden­ti­teet­tisi eivät ole yhdistettävissä.

    Tämä toimii anonyymisti täs­mälleen siihen het­keen, kun lipun­tarkas­ta­ja kysyy kort­ti­asi. Sin­un on pakko antaa kort­tisi ja henkilöti­etosi hänelle samaan aikaan, jot­ta hän voi tarkas­taa, että kor­tilla on mak­set­tu mat­ka, ja että kort­ti on oikeal­la halti­jal­la. Sen jäl­keen kortin myön­täjäl­lä onkin link­ki sin­un ja kortin iden­ti­teet­tien välil­lä. Tätä voidaan ilois­es­ti soveltaa nyky­het­keen, men­neisyy­teen ja tule­vaisu­u­teenkin, jol­let heitä joka tarkas­tuk­sen jäl­keen kort­tia jorpakkoon.

    Luotet­ta­van kol­man­nen osa­puolen mukaan­tu­lo tekee tilanteesta hiukan helpom­man. Yksi mah­dolli­nen tapa hoitaa tieto­tur­va on tehdä kort­ti, jon­ka sisäl­lä on kel­lo ja suuri määrä (läh­es) ker­takäyt­töisiä uni­ver­saal­isti uni­ikke­ja kood­e­ja. Kun kor­til­ta kysytään iden­ti­teet­tiä, se antaa aina uuden salaisu­u­den pait­si jos voimas­saol­e­va salaisu­us on alle (esimerkik­si) kak­si tun­tia vanha.

    Kun kort­ti ote­taan käyt­töön, se käy­dään rek­isteröimässä liiken­neop­er­aat­to­rille, jol­loin esitetään kaik­ki het­ut ja todis­teet asuin­paikas­ta, opiskelus­tatuk­ses­ta ym. Liiken­neop­er­aat­tori lähet­tää het­usi ja kortin anta­man salaisu­u­den kol­man­nelle osa­puolelle. (Sta­tustiedot voi säi­lyt­tää joko liiken­neop­er­aat­tori, sinä tai kol­mas osa­puoli liitet­tynä hetuusi.)

    Tämän oper­aa­tion jäl­keen kol­mas osa­puoli pystyy yhdis­tämään kortin ja halti­jan iden­ti­teetit toisi­in­sa. Kel­lään muul­la ei ole mah­dol­lisu­ut­ta yhdis­tää kortin anta­maa salaisu­ut­ta ja kort­tia toisi­in­sa kuin het­ken aikaa.

    Sama kos­kee liiken­nevä­lineisi­in nousemista. Kort­ti on iden­ti­fioitavis­sa matkan ajan (pari tun­tia), mut­ta iltapäiväl­lä sil­lä on eri iden­ti­teet­ti kuin aamulla.

    Jos tulee lipun­tarkas­tus, tarkas­ta­ja lähet­tää kortin sen­hetkisen salaisu­u­den ja halti­jan het­un kol­man­nelle osa­puolelle, joka varmis­taa yhteenku­u­lu­vu­u­den. Tässä hetu ja kort­ti yhdis­tyvät mut­ta vain hetkeksi.

    Ylläku­vat­ul­la taval­la tehtynä jär­jestelmä on tek­nol­o­gis­es­ti hyvin yksinker­tainen. Kor­tilla ole­van kel­lonkaan ei tarvitse olla tark­ka, ja voihan kort­ti­in lait­taa nap­pu­lan kood­in pikavai­h­toa varten, jos tulee seu­rat­tu olo.

    Luotet­taval­la osa­puolel­la (voi olla joku muukin kuin edel­läol­e­va het­u­jen ja iden­ti­teet­tien säi­lyt­täjä) on tässä tosin toinenkin tarve. Sen pitää varmis­taa, että kort­ti on teknis­es­ti sel­l­ainen etteivät sen kom­mu­nikaa­tio­pro­tokol­lat mah­dol­lista minkään seu­ran­tatiedon syöt­tämistä kortille.

    Ylläol­e­va on yksinker­taisin kek­simäni sys­tee­mi, jos­sa on matkako­htainen seu­rat­tavu­us mut­ta jos­sa oper­aat­tori ei voi mil­lään kieroilul­lakaan rak­en­taa tietokan­taa, jos­sa pystytään seu­raa­maan henkilön liikkumista.

    Käytän­nön kannal­ta jär­jestelmä on siinä han­kala, ettei kort­ti voi esimerkik­si rapor­toi­ta jäl­jel­lä ole­vaa raha­sum­maa tai kaut­ta, kos­ka niitä on jo helpohko käyt­tää seu­ran­taan. Myöskään nykyisenkaltaista rahan säi­lymistä kortin hukku­misti­lanteessa ei voi­da tehdä.

    Toden­näköis­es­ti ain­oa tapa saa­da siedet­tävä käytet­tävyys olisi ulkois­taa koko hom­ma luotet­tavalle osa­puolelle, joka hallinnoisi myös raho­ja, kau­sia, ym. Tämä edel­lyt­täisi kuitenkin reaali­aikaista yhteyt­tä liiken­nevä­li­neestä kol­man­nelle osa­puolelle. Hyvänä puole­na olisi kuitenkin se, ettei kort­ti olisi mitään muu­ta kuin tunniste.

    Mon­ta pykälää helpo­ma­l­la päästäisi­in, jos kausiliput hävitet­täisi­in. Siinä olisi muutenkin liiken­teel­lis­es­ti järkeä, ja sil­lä olisi toden­näköis­es­ti suo­tu­isia ohjaus­vaiku­tuk­sia. Sen jäl­keen ei tarvit­taisi kuin anonyymejä lip­pu­ja, jois­sa ei saisi olla edes sar­janu­meroi­ta. Tosin sit­ten menetetään myös matkako­htainen seurattavuus.

    … tai sit­ten luote­taan HSL:ään ja käy­dään hoita­mas­sa hämärähom­mat ei-henkilöko­htaisel­la kortilla…

    1. Tämä vaikka­pa matkako­r­ti­in liit­tyvä tieto­suo­jafo­bia läh­tee ole­tuk­ses­ta, että julki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on lähtöko­h­ta, mitään tietoa ei tietenkään voi kerätä. Vähän nai­ive­ja ovat ajatuk­set, että tämä ja tuo pitää olla val­ti­ol­ta kiel­let­tyä, kos­ka jos joskus tulee se fasisti­nen pakko­val­tio, se käyt­täisi näitä asioi­ta väärin — ikään kuin se fasisti­nen pakko­val­tio ei het­kessä muut­taisi lakeja.

  61. Osmo Soin­in­vaara:
    Tämä vaikka­pa matkako­r­ti­in liit­tyvä tieto­suo­jafom­bia läh­tee oletu8ksesta, että julki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on lähtöko­h­ta, mitää tietoa ei tietenkään voi kerätä. 

    Huomioon ottaen, että esim. Mika Myl­lylän tieto­jen urkin­nas­ta poli­isin tieto­jär­jestelmistä (niihin kiin­ni pääsyyn oikeutet­tu­jen henkilöi­den piiristä) tuomit­ti­in 72 henkilöä ja Anneli Auerin tieto­jen urkin­nas­ta on meneil­lään liki sata esi­tutk­in­taa voita­nee tode­ta MOT. Lähde: http://www.hs.fi/kotimaa/a1420686975987

  62. Osmo Soin­in­vaara:
    Tämä vaikka­pa matkako­r­ti­in liit­tyvä tieto­suo­jafom­bia läh­tee oletu8ksesta, että julki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on lähtöko­h­ta, mitää tietoa ei tietenkään voi kerätä. Vähän nai­ive­ja ovat ajatuk­set, että tämä ja tuo pitää olla val­ti­ol­ta kiel­let­tyä, kos­ka jos joskus tu8lee se fasisti­nen pakko­val­tio, se käyt­täisi näitä asioi­ta väärin – ikään kuin se fasisti­nen pakko­val­tio ei het­kessä muut­taisi lakeja. 

    Olet esit­tänyt tämän olk­inukke argu­mentin tois­tu­vasti eikä muiden argu­men­tit näytä vaikut­ta­van mielip­i­teeseesi ja argu­men­toit vas­taan liioit­televil­la fasisti­nen pakko­val­tio argu­menteil­la ja virheel­lisel­lä väit­teel­lä ettei tietoa voi kerätä. 

    ps. Juuri nyt on puo­lus­tus­min­is­ter­iön työryh­mä ehdot­ta­mas­sa väljiä val­tuuk­sia ihmis­ten urkintaan.

  63. Osmo Soin­in­vaara:
    Tämä vaikka­pa matkako­r­ti­in liit­tyvä tieto­suo­jafom­bia läh­tee oletu8ksesta, että julki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on lähtöko­h­ta, mitää tietoa ei tietenkään voi kerätä. Vähän nai­ive­ja ovat ajatuk­set, että tämä ja tuo pitää olla val­ti­ol­ta kiel­let­tyä, kos­ka jos joskus tu8lee se fasisti­nen pakko­val­tio, se käyt­täisi näitä asioi­ta väärin – ikään kuin se fasisti­nen pakko­val­tio ei het­kessä muut­taisi lakeja.

    Taitaa aika moni pelätä ihan taval­lisia teikäläisiä. Yksi syy on se, että pian myytäisi­in tina­pa­pe­ria tai kehiteltäisi­in mui­ta kikko­ja noiden lait­tei­den hui­jaamiseen. Toinen syy voisi olla se, että monille auto edus­taa vapaut­ta, ja jatku­va talu­tus­nuo­ras­sa olo ei ehkä vetoa vapau­denkaipuisi­in kovin hyvin.

    Auto­jälji­tysjär­jestelmän tilalle voisi ajatl­la myös ihonalaista jälji­tys­laitet­ta, niin tulisi tarkem­pi tulos, eikä vilunkipeli olisi yhtä helppoa :-).

    Eli en ihmettele yhtään, mik­si ihmiset vas­tus­ta­vat. Se on sit­ten eri asia, miten ja mis­tä yhteiskun­ta tulon­sa kerää, fos­si­ilis­ten käyt­töä rajoit­taa, tiestön­sä ylläpi­toa rahoit­taa, ja/tai hallinto valvon­ta­halun­sa tyydyttää.

  64. Mikäli ihmi­nen kul­kee autol­la täl­läkin het­kel­lä, hän­tä voidaan seu­ra­ta hel­posti, mikäli esim. kän­nykkä on pääl­lä. Jos hän ajaa jonkun kam­er­an ohitse, rek­isterik­il­vestä voidaan päätel­lä kenen omis­ta­ma auto on kyseessä. Yksi­ty­ishenkilöil­läkin on kemeroi­ta, joil­la tieli­iken­net­tä voidaan tal­len­taa ja tämä tieto voi sisältää paljon muu­takin tietoa kuin vain henkilöllisyyden.

    On kuitenkin ihan eri asia tehdä tämä seu­ran­ta salaa niin että ihmi­nen ei tätä tiedä kuin tehdä se niin, että ilmoite­taan että “hei, me seu­raamme sinua”.

    Nykyaikainen yhteiskun­ta kuitenkin toimii niin, että tietoa siir­retään tietokoneil­la paikas­ta toiseen jatku­vasti eri muodois­sa eikä tätä voi­da estää.

    Kuitenkin, jostain syys­tä ihmiset hyvin jyrkästi vas­tus­ta­vat sitä, että heille ker­ro­taan että he ovat seu­ran­nas­sa, halu­taan vain lait­taa laput korville ja silmille todel­lisu­udelta. Tätä en ymmär­rä lainkaan. Käytän­nössä olemme läh­es 24h seu­ran­nas­sa, mut­ta tätä ei halu­ta doku­men­toi­da lainkaan. 

    Parem­pi vai­h­toe­hto kuitenkin olisi se, että seu­ran­nas­ta pitäisi ker­toa, kos­ka nyt sitä tehdään ihmisiltä salaa. Ja tun­nus­taa, että se on nykyaikaisen yhteiskun­nan toimin­nan elinehto.

  65. Jos kuvitel­laan tilanne (joo, olen lukenut liikaa dekkare­i­ta…) että joukkoli­iken­nevä­li­neessä sat­tuu henkirikos, sal­lit­taisi­inko kaivaa matkako­rt­ti­tiedoista mah­dol­lisia silmin­näk­i­jöitä tai tek­i­jöitä esi­in? Entä jos kyseessä olisi törkeä pahoin­pite­ly? Törkeä vahin­gonteko? Tai lievem­pi rikos?

    1. Yleen­sä siinä vai­heessa kun oma lap­si on tul­lut kid­na­p­atuk­si, moni on sitä mieltä, että kiud­nap­paa­jan yksi­ty­isyy­den suo­jaan saa påu­ut­tua jä’ljit­tämäl­lä hänen liikku­mius­taan kaikil­la mah­dol­lisil­la tavoilla.

  66. Viherinssi: ja mihin alen­nuk­si­in olet oikeutettu. 

    Voisiko ratkaisu olla, että iden­ti­teet­ti­in liit­tyvistä hyödykeko­htai­sista alen­nuk­sista luovu­taan? Mah­dol­liset alen­nuk­set oli­si­vat vain mak­su­ta­pa- ja/tai lip­putyyp­piko­htaisia. Voisko iden­ti­teet­ti­in perus­tu­vat ostovoiman kor­jauk­set hoitaa jol­lakin yksinker­taisem­mal­la taval­la yleis­pätevästi vaikka­pa vero­tuk­ses­sa suuremp­ina lin­jan­ve­toina kuin tiet­ty­jen hyödykkei­den kompensaatioina.

  67. Pekka T.:
    Ongel­ma on sekin, että tavalli­nen ihmi­nen – siis sel­l­ainen, joka ei ole saanut aiheesta mitään koulu­tus­ta – ei ymmär­rä tilas­toti­eteistä (tai toden­näköisyyk­sistä) yhtään mitään. Tämä koske­nee myös suur­in­ta osaa päättäjistä.

    T

    Eräässä äsken ilmestyneessä suo­ma­laisen lisen­si­aatin kir­jas­sa markki­na­t­aloud­es­ta esitetään usei­ta kuvaa­jia ilman seli­tyk­siä. Ei oikein selviä edes koor­di­naat­ti­ak­selit; siis mitä oikeas­t­aan halu­taan kuvailla.

    Tek­stis­sä puhutaan negati­ivi­sista toden­näköisyyk­sistä. Toisaal­la maini­taan, että toden­näköisyys jollekin on var­masti läh­es nolla.

    No täl­lä tyylil­lä kyl­lä uskot­tavu­us lähe­nee asymp­toot­tis­es­ti nollaa.

  68. Osmo Soin­in­vaara:
    Yleen­sä siinä vai­heessa kun oma lap­si on tul­lut kid­na­p­atuk­si, moni on sitä mieltä, että kiud­nap­paa­jan yksi­ty­isyy­den suo­jaan saa påu­ut­tua jä’ljittämällä hänen liikku­mius­taan kaikil­la mah­dol­lisil­la tavoilla.

    Lainaan lain­auk­sen kansane­dus­ta­jae­hdokas Jyr­ki J. Kasvin (vihr.) tois­s­apäivän blogi­postauk­ses­ta: “kuten jo Ben­jamin Franklin tote­si: ”Those who sur­ren­der free­dom for secu­ri­ty will not have, nor do they deserve, either one.””

  69. Osmo Soin­in­vaara:
    Yleen­sä siinä vai­heessa kun oma lap­si on tul­lut kid­na­p­atuk­si, moni on sitä mieltä, että kiud­nap­paa­jan yksi­ty­isyy­den suo­jaan saa påu­ut­tua jä’ljittämällä hänen liikku­mius­taan kaikil­la mah­dol­lisil­la tavoilla. 

    Kun oma lap­si on tul­lut kid­na­p­atuk­si, myös kidut­ta­mi­nen hyväksytään. Tämän takia sivistyneessä yhteiskun­nas­sa ei kysytä äärim­mäisen ahdis­tuneen osa­puolen mielipi­det­tä menetelmistä jot­ka ote­taan käyttöön. 

    Las­ten kid­nap­paus, ped­ofil­ia ym. ovat emo­tion­aal­isia koukku­ja joil­la yritetään vält­tää järkevä debat­ti. Yleen­sä vain Päivi Räsä­nen ja Amerikkalainen oikeis­to käytää “ajatelkaa lap­sia” retori­ikkaa Wikipedia: Think of the chil­dren. “The 2002 book Art, Argu­ment, and Advo­ca­cy wrote that the exhor­ta­tion may be used to emo­tion­al­ly con­vince the lis­ten­er to the arguer’s point of view, instead of engag­ing in log­i­cal debate”

    Takaisin järkevään debat­ti­in. Osmon tun­teisi­in vetoa­va vas­taus on hyvä esimerk­ki siitä, kuin­ka lib­er­aali yhteiskun­ta ja pelokas väestö anta­vat hel­posti pois yksi­ty­isyy­den ja jah­taa­vat kuvitel­tu­ja tai todel­lisia rikol­lisia heti kun esitetään pelot­ta­va ske­naario joka uhkaa lin­tuko­toa. Rel­e­vanssia ja keino­jen suhdet­ta uhkaan ei hel­posti kyseenalais­te­ta. Mei­dän ei tarvitse pelätä fasisti-dik­tatu­uria kun on kansane­dus­ta­jia jot­ka eivät anna oikeuk­sille arvoa jos sil­lä saadaan mar­gin­aalis­es­ti lisää tur­val­lisu­ut­ta. Tämän takia IT-infra­struk­tu­uri pitäisi suun­nitel­la niin, että “tarvit­taes­sa” ei pystytä yksi­ty­isyyt­tä kiertämään. Me tiedämme jo että Päivi Räsäset ja muut ovat valmi­ita äänestämään yksilönoikeuk­sia pois heti kun vähän pelottaa.

    ps. /r/suomesssa oli juuri tänään mie­lenki­in­toinen tapaus, kun joku postasi linkin Pelas­takaa Lapset Ry:n http://otanvastuun.fi/ sivulle ja ihmiset pelästyivät kos­ka työ­paikalla surf­fail­lessa voi työ­nan­ta­jan IT-jamp­pa nähdä että käy­dään ped­ofil­ia­sivul­la. Van­haa kun­non paperi­sta sanomale­hteä lukies­sa kukaan ei voin­ut nähdä hel­posti mitä ilmoituk­sia olti­in luke­mas­sa. Nykyään se on mah­dol­lista. Valvon­ta ja jopa sen mah­dol­lisu­us vaikut­taa ihmis­ten käyttäytymiseen.

  70. Negati­ivi­nen toden­näköisyys voisi olla ihan hyvä arkielämän käsite, jos posi­ti­ivi­nen olisi toden­näköisyys sille, ettei jotain tapahdu.

  71. Jouni Mar­tikainen: Lainaan lain­auk­sen kansane­dus­ta­jae­hdokas Jyr­ki J. Kasvin (vihr.) tois­s­apäivän blogi­postauk­ses­ta: “kuten jo Ben­jamin Franklin tote­si: ”Those who sur­ren­der free­dom for secu­ri­ty will not have, nor do they deserve, either one.”” 

    Inter­netis­sä on var­maan väärin lainat­tu­ja asioi­ta, esim. tuo Franklin lain­aus vuodelta 1755 menee eri taval­la alku­peräi­sis­sä tek­steis­sä ja sil­lä on viitat­tu ihan eri asioi­hin alun­perin, tietenkin.

    Ben­jamin Wittes on käsitel­lyt tuo­ta nimeno­maista lain­aus­ta tässä val­ti­ol­lisen tur­val­lisu­u­den kon­tek­stis­sa, hän sanookin:

    “Very few peo­ple who quote these words, how­ev­er, have any idea where they come from or what Franklin was real­ly say­ing when he wrote them” 

    Wittesin kir­joituk­ses­ta selviää myös se, että Edward Snow­den käyt­ti myös tuo­ta lain­aus­ta tuos­sa lyhen­netyssä ja muun­nel­lus­sa muo­dos­sa, jos­sa sana “safe­ty” on kor­vat­tu sanal­la “secu­ri­ty” ja muutenkin sisältö on erilainen.

    TechCrunch kir­joit­ti myös tuos­ta sitaatista artikke­lin vuon­na 2014 otsikol­la “How The World Butchered Ben­jamin Franklins Quote on Lib­er­ty vs. Security”

  72. Voisiko­h­jan tuo­ta Franklin­in vään­nel­tyä sanan­part­ta käyt­tää myös perustelu­na sosi­aal­i­tur­va­jär­jestelmän romuttamiseen? 

    On selvää että jos arvostaa vapaut­ta enem­män kuin tur­vaa, niin ei ihan hirveästi voi kan­nat­taa pakkoveroil­la rahoitet­tu­ja tulonsiirtoja! 😀

  73. Osmo Soin­in­vaara:
    Yleen­sä siinä vai­heessa kun oma lap­si on tul­lut kid­na­p­atuk­si, moni on sitä mieltä, että kiud­nap­paa­jan yksi­ty­isyy­den suo­jaan saa påu­ut­tua jä’ljittämällä hänen liikku­mius­taan kaikil­la mah­dol­lisil­la tavoilla.

    Tuo­honkin löy­tyy menetelmä eli oikeu­den päätök­sel­lä puhe­lin­ta voidaan seurata.Ja toimii nopeastikin, jos vain virkamiehet toimivat

    Mut­ta on ole­mas­sa paljon tieto, mitä val­las­saoli­jat halu­a­vat selvittää.Tärkeimpiä ovat ihmis­ten verkos­tot, eli kuka tun­tee kenetkin ja ketkä asioi­vat keskenään.

    Niin­pä NL rak­en­si a‑tilaajan tun­nis­tuk­sen diskreeti­ilä kom­ponenetil­la nähdäk­seen, kuka soit­taa kenellekin.Valtava työ ja se ulot­tui vain kaukop­uhelui­hin, mut­ta tärkeä sittenkin

    Kun poten­ti­aalisen pet­turin puhe­lu­tiedot analysoiti­in niin voiti­in viedä leir­ille koko so´lu ja tuo­ta kaut­ta päästi­in muidenkin solu­jen jäljille.

    Ongel­ma on myös, että jos seu­rataan henkilön puhelu­liken­net­tä niin samal­la seu­rataan kym­me­nien , sato­jen henkilöi­den tietoliikennettä. 

    Ain­oa jon­ka oikeustur­va on taat­tu ja jon­ka kuuntelu/seuranta on oikeu­sis­tu­imen toimes­ta sal­lit­tu, muiden seu­raami­nen on laiton­ta, mut­ta sitä ei voi välttää.

    Mut­ta tähän lait­to­muu­teen ei halu­ta puuttua

  74. Tätä blo­gia seu­ran­neena alkaa näyt­tää siltä, etteivät vihreät väl­itä yksi­ty­isyy­destä pätkääkään. Onko Ode näin? 

    PS. Sanoin tämän jo ker­ran aiem­minkin, jol­loin kom­ment­tiani ei julka­istu. Ja sanon sen jälleen, vaikkei sitä var­maan julka­ista täl­läkään kertaa…

    1. Halu­an tähän vain sanoa, ettäö minä en ole sama kuin vihreät. Jätin edel­lisen kom­mentin julkaise­mat­ta juuri sik­si, että siinä oli tuo perus­tee­ton ole­tus, jon­ka ymn­pärille koko argu­ment­ti kietoutui.

  75. Osmo:

    “Yleen­sä siinä vai­heessa kun oma lap­si on tul­lut kid­na­p­atuk­si, moni on sitä mieltä, että kid­nap­paa­jan yksi­ty­isyy­den suo­jaan saa puut­tua jäljit­tämäl­lä hänen liikku­mis­taan kaikil­la mah­dol­lisil­la tavoilla”

    En tiedä oliko tämän tarkoi­tus olla argu­ment­ti yksi­ty­isyy­den­suo­jan heik­sen­tämisen puoles­ta. Siltä var­al­ta että oli: hädässä ole­van lapsen van­hempi ei ole kyl­lä se jon­ka mukaan kansalaisoikeuk­si­in liit­tyviä kom­pro­mis­se­ja tulisi pun­ni­ta. Tulee mieleen West Wingin jak­so jos­sa pres­i­dent­ti (viisaasti) jääväsi itsen­sä viras­taan kun tyt­tären­sä kidnapattiin.

    On selvä että kään­tämäl­lä nup­pia poli­isi­val­tion suun­taan saadaan joitakin rikok­sia estet­tyä. Kään­täen, vapaas­sa yhteiskun­nas­sa mak­se­taan koko ajan vapaae­htois­es­ti hin­taa joka muo­dos­tuu estämät­tömistä ja selvit­tämät­tömistä rikoksista.

  76. Erno: On selvä että kään­tämäl­lä nup­pia poli­isi­val­tion suun­taan saadaan joitakin rikok­sia estet­tyä. Kään­täen, vapaas­sa yhteiskun­nas­sa mak­se­taan koko ajan vapaae­htois­es­ti hin­taa joka muo­dos­tuu estämät­tömistä ja selvit­tämät­tömistä rikoksista. 

    Toisaal­ta poli­isi­val­tios­sa tapah­tuu yleen­sä toisen­laisia, vakavampia ja ongel­mallisem­pia rikok­sia. Ei ole lainkaan selvää, että yksi­ty­isyy­den­suo­jan ja tur­val­lisu­u­den välil­lä val­lit­sisi negati­ivi­nen kor­re­laa­tio (ainakaan nykyti­lanteesta pienem­män yksi­ty­isyy­den­suo­jan suuntaan).

    Osmo Soin­in­vaara: Niistä nos­tet­ti­in kuitenkin syytteet. 

    Niistä nos­tet­ti­in kuitenkin syytteet.
    Suurin osa suo­ma­lai­sista ei saa tuol­laista palvelua.

  77. Jos palataan tuo­hon alku­peräiseen otsikkoon “mik­si val­ta­va datamäärä tuot­taa niin vähän tietoa”, niin tästä voidaan suo­raan päätel­lä, että jos poli­isil­la on oikeus kuun­nel­la kaikkea datali­iken­net­tä, se pystyy nykyosamisel­laan tuot­ta­maan siitä varsin vähän tarpeel­lista tietoa. 

    Tämä on paras näkemäni argu­ment­ti sitä vas­taan, että verkkotiedustelua ei pitäisi itsenäisenä ele­ment­tinä lisätä: sat­tuman­varainen tiedustelu ei nykytiedon val­os­sa ole riit­tävää. Jokainen voi itse päätel­lä seu­raa­mal­la omia Google tai Face­book ‑main­ok­si­aan kuin­ka hyvään osumatarkku­u­teen ns. “big data” kyke­nee parhaimmillaankin.

    Uuti­sot­sikois­sa oli juuri, kuin­ka FBI teki Suo­ma­laiseen fir­maan vir­ka-apupyyn­nön tapauk­ses­ta, jos­sa piti selvit­tää kuolleen amerikkalaisen tytön yksi­tyisen puhe­li­men tieto­ja rek­ister­istä, jos­ta selvisi mis­sä tyt­tö oli liikkunut. Vaik­ka FBI:llä oli hal­lus­saan puhe­lin ja se oli pystynyt selvit­tämään jopa sen, että puhe­limes­sa oli dataa keräävä sovel­lus, se ei pystynyt avaa­maan tätä dataa itse.

    Ei ollut kuitenkaan selvää, että tiedoista olisi ollut apua tai että tieto­ja ylipäätään olisi pitänyt ava­ta, kos­ka henkilö oli itse eli­naikanaan määrän­nyt ne sala­tuik­si — mah­dol­lis­es­ti hyvästä syys­tä. Mut­ta vira­nomaisil­la oli usko siihen, että datan avaamisel­la voitaisi­in tapaus selvit­tää ja lop­ul­ta kaik­ki kään­tyi hyvin.

    Se, että onko vira­nomaisil­la oikeus selvit­tää tämänkaltaisia tieto­ja on se kri­it­ti­nen kysymys — mielestäni lähtöko­htais­es­ti on, mut­ta nämä tapauk­set pitää doku­men­toi­da ja niistä pitää pystyä käymään demokraat­tista keskustelua. Ja tarvit­taes­sa saat­taa myös pyyn­tö­jen tek­i­jät oikeu­den eteen, mikäli epäil­lään tieto­ja käyte­tyn väärään tarkoitukseen.

  78. “Pro­fes­sori Yrjö Ahmavaara hah­mot­teli ehkä vähän orwel­maiselta haiskah­tavaa kyberneet­tistä yhteiskun­tapoli­ti­ikkaa, jos­sa päätök­sen­tek­i­jät voisi­vat opti­moi­da hyvinkin mon­imutkaista hyö­ty­funk­tio­ta, kun toimen­pitei­den mon­imutkaiset vaiku­tuk­set oli­si­vat tiedossa.”

    Onnek­si Ahmavaaran jäl­keen olemme ymmärtäneet, että maail­ma on vähän mon­imutkaisem­pi. Pelkäl­lä matem­ati­ikalla ei ihmistä voi ymmärtää, vaik­ka pitkälle sil­läkin pääsee.

Vastaa käyttäjälle Maaseutulainen Peruuta vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.