Miksi valtava datamäärä tuottaa niin vähän tietoa?

(Kir­joi­tus on jul­kais­tu Sosi­aa­li­lää­ke­tie­teel­li­ses­sä aika­kaus­leh­des­sä 4/2014)

Olen saa­nut 1970-luvun olois­sa par­haan mah­dol­li­sen tilas­to­tie­teel­li­sen kou­lu­tuk­sen pro­fes­so­rien Leo Törn­qvist ja Sep­po Mus­to­nen oppi­laa­na. Tilas­tol­li­nen tut­ki­mus eri­lais­ten ilmiöi­den kes­ki­näi­sis­tä riip­pu­vuuk­sis­ta oli sil­loin pal­jol­ti käsi­työ­tä. Dataa oli käy­tet­tä­vis­sä niu­kas­ti ja sik­si vähis­tä tie­dois­ta oli otet­ta­va kaik­ki irti. Pro­fes­so­ri Törn­qvist opet­ti aloit­ta­maan tut­ki­muk­sen aina lyi­jy­ky­nän ja mil­li­met­ri­pa­pe­rin kans­sa. Jokai­nen havain­to mer­kit­tiin pape­ril­le, jot­ta ymmär­ret­täi­siin, mil­lais­ta dataa käsi­tel­lään.  Sep­po Mus­to­sen kehit­tä­mä Sur­vo-ohjel­ma lisä­si täs­sä tuot­ta­vuut­ta moni­kym­men­ker­tai­ses­ti, kun saman pys­tyi teke­mään tie­to­ko­neen näy­töl­lä. Dataa piti usein kor­ja­ta, kos­ka tie­dois­sa oli vir­hei­tä tai johon­kin havain­toon liit­tyi jokin poik­keuk­sel­li­nen seik­ka. Jos esi­mer­kik­si halusi sel­vit­tää juna­lip­pu­jen hin­nan vai­ku­tus­ta junal­la mat­kus­ta­mi­sen suo­sioon, ei ollut jär­ke­vää ottaa aineis­toon havain­toa ajal­ta, jol­loin junat sei­soi­vat lakon takia.

Pro­fes­so­ri Törn­qvist koros­ti käy­tet­tä­vän mal­lin jär­ke­vyyt­tä. Ei ollut miel­tä käyt­tää line­aa­ris­ta mal­lia tilan­tees­sa, jos­sa riip­pu­vuus ei voi­nut olla line­aa­ris­ta. Pahin­ta mitä saat­toi teh­dä, oli ”dimen­sio­vir­he”, jos­sa tulos muut­tui­si toi­sek­si, jos esi­mer­kik­si pituut­ta mitat­tai­siin met­rien sijas­ta jalkoina.

Tie­sim­me, että uusi aika tehok­kai­ne tie­to­ko­nei­neen ja suu­ri­ne data­mää­ri­neen oli tulos­sa. Tämä tuli­si mer­kit­se­mään jät­ti­harp­paus­ta yhteis­kun­nal­lis­ten ilmiöi­den ja nii­den kes­ki­näis­ten riip­pu­vuuk­sien ymmär­tä­mi­ses­sä. Edes­sä piti olla yhteis­kun­ta­tie­tei­den kukois­tus­kausi. Pro­fes­so­ri Yrjö Ahma­vaa­ra hah­mot­te­li ehkä vähän orwel­mai­sel­ta hais­kah­ta­vaa kyber­neet­tis­tä yhteis­kun­ta­po­li­tiik­kaa, jos­sa pää­tök­sen­te­ki­jät voi­si­vat opti­moi­da hyvin­kin moni­mut­kais­ta hyö­ty­funk­tio­ta, kun toi­men­pi­tei­den moni­mut­kai­set vai­ku­tuk­set oli­si­vat tiedossa.

Las­ken­ta­ka­pa­si­tee­tin ja ennen kaik­kea käy­tös­sä ole­van data­mää­rän kas­vu on ylit­tä­nyt kai­ken sen, mitä saa­toim­me kuvi­tel­la, mut­ta sitä suur­ta yhteis­kun­ta­tie­tei­den kukois­tus­kaut­ta yhä odo­te­taan. Mik­si datan tul­va ja val­ta­vas­ti kas­va­nut las­ken­ta­ka­pa­si­teet­ti ei ole tuot­ta­nut tie­dol­lis­ta vallankumousta?

Val­ta­vaan data­mää­rään sisäl­tyy aina vir­heel­li­siä havain­to­ja. Me jou­duim­me taval­li­ses­ti pois­ta­maan aineis­tos­ta noin kym­me­nen­nen osan havain­nois­ta tai kor­jaa­maan nii­tä. Tätä ei voi teh­dä aina­kaan käsin, jos havain­to­ja on mil­joo­nia. Pie­ni mää­rä oikei­ta havain­to­ja antaa tar­kem­mat esti­maa­tit kuin val­ta­va mää­rä vir­heel­lis­ten havain­to­jen saas­tut­ta­maa aineis­toa. Tilas­tol­li­set mene­tel­mät perus­tu­vat taval­li­ses­ti pie­nim­män neliö­sum­man mene­tel­mään, jol­loin muus­ta aineis­tos­ta poik­kea­vat havain­not saa­vat hyvin suu­ren painoarvon.

Tut­ki­jan pitää myös tun­tea käyt­tä­män­sä mene­tel­mät ja mit­ta­rit. Niin yksin­ker­tai­nen asia kuin kor­re­laa­tio­ker­toi­men tul­kin­ta­kin voi men­nä aivan met­sään. Esi­mer­kik­si muut­tu­jien x ja y väli­nen riip­pu­vuus voi olla hyvin­kin voi­ma­kas­ta, vaik­ka havain­toai­neis­tos­sa nii­den väli­nen kor­re­laa­tio on vähäi­nen. Kor­re­laa­tio mit­taa line­aa­ris­ta riip­pu­vuut­ta ja vain sitä. Kor­re­laa­tio­ker­roin voi olla mata­la vaik­ka muut­tu­ja y oli­si suo­ras­taan muut­tu­jan x funk­tio, jos riip­pu­vuus on epälineaarinen.

1970-luvun lopul­la fak­to­ria­na­lyy­si teki tulo­aan yhteis­kun­ta­tie­tei­siin. Tämä mene­tel­mä on teho­kas, mut­ta hyvä se on vain sel­lai­sen tut­ki­jan käsis­sä, joka ymmär­tää, miten ana­lyy­si toi­mii. Aivan jär­kyt­tä­viä nol­la­tut­ki­muk­sia jul­kais­tiin tuol­loin jopa väi­tös­kir­joi­na, kun tut­ki­ja tul­kit­si fak­to­ri­la­tauk­sia kuin Del­foin oraak­ke­li. Nyt näkee tut­ki­muk­sia, jot­ka ana­ly­soi­tu jol­lain minul­le tun­te­mat­to­mal­la taval­la. Kun tut­ki­jal­ta kysyy, miten se on ana­ly­soi­tu, saa vas­tauk­sek­si kau­pal­li­sen ohjel­mis­ton nimen. Sii­hen, mitä tuo ohjel­mis­to tark­kaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toi­min­ta­pe­ri­aa­te saat­taa olla jopa lii­ke­sa­lai­suus! Miten sel­lais­ta voi käyt­tää tutkimuksessa?

Yhteis­kun­nal­li­nen tut­ki­mus ja eri­tyi­ses­ti epi­de­mio­lo­gi­nen tut­ki­mus kär­sii myös vää­rin ymmär­re­tys­tä tie­to­suo­jas­ta. Kau­pal­li­set tahot saa­vat tal­let­taa ihmi­sis­tä tie­to­va­ran­toi­hin­sa asioi­ta, jois­ta aka­tee­mi­set tut­ki­jat eivät voi kuin haa­veil­la. Kukaan ei antai­si iki­nä tut­ki­jal­le lupaa kerä­tä yksi­tyis­koh­tai­sia tie­to­ja taval­lis­ten kan­sa­lais­ten päi­vit­täi­sis­tä ostok­sis­ta tai oikeut­ta ana­ly­soi­da ihmis­ten toi­sil­leen lähet­tä­miä säh­kö­pos­ti­vies­te­jä ja tark­kail­la hei­dän tie­to­ha­ku­jaan, mut­ta kau­pan kes­kus­liik­keet, Face­book ja Google saa­vat näin teh­dä tai aina­kin teke­vät. Tähän ver­rat­tu­na aika vaa­ti­ma­ton han­ke oli HSL:n yri­tys tal­let­taa mat­ka­kort­tia käyt­tä­vien mat­kat, jot­ta rei­tit ja aika­tau­lut osat­tai­si suun­ni­tel­la parem­min. Se kiel­let­tiin tie­to­suo­jaa loukkaavana.

Kuvi­tel­kaa, mitä kaik­kea voi­si teh­dä, jos epi­de­mio­lo­gi­nen tut­ki­mus voi­si käyt­tää saman­lai­sia tie­to­va­ras­to­ja, joi­ta nuo edel­lä mai­ni­tut yksi­tyi­set yri­tyk­set käyt­tä­vät! Tut­ki­joi­den tuli­si nous­ta bar­ri­ka­deil­le puo­lus­ta­maan sitä, että ole­mas­sa ole­via ja laa­je­ne­via val­ta­via tie­to­va­ras­to­ja sai­si käyt­tää myös yhteis­kun­nal­li­seen ja lää­ke­tie­teel­li­seen tut­ki­muk­seen eikä vain yksi­tyis­ten yri­tys­ten tarpeisiin.

Jokai­nen tut­ki­ja ei voi kou­lut­tau­tua tilas­to­tie­teen huip­puo­saa­jak­si, mut­ta jokai­sen tut­ki­mus­ryh­män käy­tet­tä­vis­sä pitäi­si sel­lai­nen olla. Tilas­tol­li­sia osaa­jia pitäi­si kou­lut­taa sel­väs­ti enem­män. Eikä tilas­to­tie­teen kou­lu­tus sai­si olla vain mate­maat­tis­ten teo­rioi­den pänt­tää­mis­tä – nekin on kyl­lä hyvä osa­ta – sil­lä hyvä tilas­to­tie­tei­li­jä on ennen kaik­kea käsityöläinen.

Havain­toai­neis­tois­ta pitäi­si aina piir­tää kuvia kos­ka kuvis­ta ihmi­nen hah­mot­taa asioi­ta pal­jon parem­min kuin luvuis­ta. Enää ei onnek­si tar­vit­se käyt­tää mil­li­met­ri­pa­pe­ria ja lyi­jy­ky­nää, vaan tasok­kai­ta kuvia saa tie­to­ko­neen näyt­tää mur­to-osa­se­kun­nis­sa. Aineis­toa on kat­sel­ta­va eri puo­lil­ta. Usein jär­ke­vän kuvan muut­tu­jien y ja x riip­pu­vuu­des­ta saa vas­ta, kun on pois­ta­nut molem­mis­ta kol­man­nen muut­tu­jan z vai­ku­tuk­sen. Kun tun­tee aineis­ton­sa hyvin, ei yleen­sä tar­vit­se kovin moni­mut­kai­sia tut­ki­mus­me­ne­tel­miä. Tut­ki­mus­me­ne­tel­mä ei oikeas­taan kos­kaan sai­si olla niin kehit­ty­nyt, ettei tut­ki­ja ymmär­rä, miten se toimii.

On myös pois­tet­ta­va aineis­toa häi­rit­se­vät vir­heel­li­set havain­not tai kor­jat­ta­va nii­tä. Jos nii­tä ei pys­ty pois­ta­maan käsin, ne voi pois­taa tähän tar­koi­tuk­seen suun­ni­tel­lul­la algo­rit­mil­la. Jos havain­to poik­ke­aa muis­ta lii­kaa – usei­ta stan­dar­di­poik­kea­mia – mel­kein var­mas­ti vir­heel­li­nen. Tämä voi joh­taa myös oikei­den havain­to­jen hyl­kää­mi­seen, mut­ta tämä ris­ki on pal­jon pie­nem­pi kuin ris­ki vir­heel­li­siin havain­toi­hin perus­tu­vas­ta vää­räs­tä johtopäätöksestä.

 

90 vastausta artikkeliin “Miksi valtava datamäärä tuottaa niin vähän tietoa?”

  1. No, se olen­nai­sem­pi ongel­ma kyl­lä on se, että vaik­ka dataa onkin pal­jon ja se taval­laan on mitat­ta­vis­sa, ei ole mitään alla ole­vaa mal­lia joka oikeas­ti toi­mi­si, johon sitä dataa voi­si sovittaa.

  2. Har­mil­li­sen usein data on sul­je­tuis­sa tie­to­kan­nois­sa tai epäyh­teen­so­pi­vis­sa muo­dois­sa eri järjestelmissä.

  3. Aika monel­la tie­tee­na­lal­la tilas­tol­lis­ten mene­tel­mien sovel­ta­mi­nen on para­dig­ma­ti­soi­tu­nut, ts. on jumi­tut­tu alal­la mel­kein ikui­ses­ti käy­tet­tyi­hin mene­tel­miin kehi­tyk­ses­tä ja ongel­man yksi­tyis­koh­dis­ta riip­pu­mat­ta. Näin käy ehkä juu­ri sik­si ettei sovel­ta­va tie­tei­li­jä mene­tel­miä kovin hyvin ymmär­rä, ja mene­tel­mä­osaa­jia ei joka paik­kaan riitä.

    Mene­tel­mä­osaa­jan roo­li on myös han­ka­la, kos­ka sovel­ta­jan näkö­kul­mas­ta hän usein tekee asiat vai­keam­mik­si eikä hel­pom­mik­si. Toki ongel­miin huo­mion kiin­nit­tä­mi­nen paran­taa työn laa­tua, mut­ta sovel­ta­va tie­tei­li­jä tai ver­tai­sar­vioin­ti ei vält­tä­mät­tä tätä­kään ymmär­rä jos ala on meto­do­lo­gi­ses­ti kovin kon­ser­va­tii­vi­nen. Para­dig­ma­ti­saa­tio saa meto­di­asian­tun­ti­jan avun tun­tu­maan tur­hal­ta. Nap­pu­laa pai­na­mal­la saa sen varians­sia­na­lyy­sin tai line­aa­ri­sen regres­sion tai fak­to­ria­na­lyy­sin kui­ten­kin perus­muo­dos­saan teh­tyä, vaik­ka ana­lyy­sin ole­tuk­set ovat­kin väärin. 

    Sit­ten laa­jem­min on syn­ty­nyt p=0.05:n ja hypo­tee­sin tes­tauk­sen para­dig­ma yli­pää­tään, joi­den ymmär­tä­mä­tön käyt­tö uhkaa jo laa­jas­ti tie­teen tois­tet­ta­vuut­ta. Edes tie­tei­li­jä ei aina näy­tä ymmär­tä­vän että ei-mer­kit­se­vä tulos ei tar­koi­ta nega­tii­vis­ta tulos­ta, medias­ta puhumattakaan!

    Tilas­tol­li­sen mal­lin­nuk­sen meto­di­nen jous­ta­vuus on juu­ri nyt para­ne­mas­sa sel­keäs­ti, kun baye­si­lai­set mene­tel­mät tule­vat uusien työ­ka­lu­jen ja esti­min­ti­me­ne­tel­mien myö­tä laa­jas­ti käy­tet­tä­väk­si (esim. JAGS ja eten­kin Stan, Hamil­to­nian Mon­te Car­lo, approk­si­maa­tiot kuten varia­tio­nal bayes tai expec­ta­tion pro­pa­ga­tion isom­mal­le datal­le). Puhu­taan jopa toden­nä­köi­syys­oh­jel­moin­nis­ta (pro­ba­bi­lis­tic pro­gram­ming). Baye­si­lai­syys ei täs­sä lii­ty niin­kään sub­jek­tii­vi­suu­teen vaan mal­li­ra­ken­tei­den jous­ta­vaan käyt­töön ja tulos­ten epä­var­muu­den kvantifiointiin. 

    Mut­ta tämä ei vält­tä­mät­tä joh­da tehok­kaam­paan ana­ly­tiik­kaan monel­la­kaan alal­la, kos­ka uudet mene­tel­mät vaa­ti­vat vie­lä enem­män tilas­tol­lis­ta osaa­mis­ta kuin van­hat. (Osaa­val­ta ne eivät vain enää vaa­di kuu­kausien vaan tun­tien työn.)

    Itse asias­ta: kyl­lä, yksi­tyis­puo­lel­la on Suo­mes­sa­kin dataa jos­ta jul­ki­sel­la puo­lel­la voi­daan vain unel­moi­da. Mut­ta datan hyö­dyn­tä­mi­nen on lap­sen­ken­gis­sään, ja sitä vai­vaa­vat osit­tain saman­tyyp­pi­set ilmiöt kuin tie­teen­kin puolella.

  4. Hyvä Osmo. Pal­jon asi­aa tii­viis­sä paketissa. 

    Itseä­ni on ihme­tyt­tä­nyt, miten olem­me maa­na ajau­tu­neet tähän jamaan. Ote­taan esi­mer­kik­si vaik­ka vero­tus. Suo­mes­sa käy­te­tään vero­ja, jot­ka eivät edes min­kään teo­rian mukaan voi olla jär­ke­viä, kuten vaik­ka pää­omiin koh­dis­tu­va perin­tö­ve­ro tai lii­ken­tee­seen koh­dis­tu­va polt­toai­ne­ve­ro. Sil­ti nii­tä sit­keäs­ti jak­se­taan yllä­pi­tää. Eikö ole halua vai osaa­mis­ta las­kea lopputulosta?

  5. Puhut alan ammat­ti­lai­se­na täyt­tä asi­aa. Luvat­to­man pal­jon jul­kais­taan edel­leen­kin puos­ka­roi­tua tilas­tol­lis­ta ros­kaa. Minun opet­ta­ja­ni tilas­to­tie­tees­sä olo Olli Lok­ki, joka hie­man seka­vas­ta luen­noin­ti­ta­vas­taa huo­li­mat­ta oli sisäis­tä­nyt tilas­to­tie­teen syväl­li­ses­ti ja yrit­ti istut­taa sitä insi­nöö­rien nup­pei­hin. Minus­ta tär­kein­tä on aina muis­taa, että näyt­teis­tys on aina enem­män tai vähem­män har­hais­ta kuten mate­ri­aa­lin peu­ka­loin­tu­kin. Eivät­kä lähes­kään kaik­ki jakau­tu­mat ole lähel­lä­kään nor­maa­li­ja­kau­tu­maa kuten val­tao­sa “nuo­rem­mis­ta tut­ki­jois­ta” tapaa olet­taa. Ja lopuk­si on aina syy­tä muis­tut­taa että tilas­tol­li­nen käsit­te­ly ei tuo ainees­toon mitään lisää, kor­kein­taan havain­nol­lis­taa sitä ymmär­ret­tä­väm­pään muotoon.

  6. Nyt näkee tut­ki­muk­sia, jot­ka ana­ly­soi­tu jol­lain minul­le tun­te­mat­to­mal­la taval­la. Kun tut­ki­jal­ta kysyy, miten se on ana­ly­soi­tu, saa vas­tauk­sek­si kau­pal­li­sen ohjel­mis­ton nimen. Sii­hen, mitä tuo ohjel­mis­to tark­kaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toi­min­ta­pe­ri­aa­te saat­taa olla jopa lii­ke­sa­lai­suus! Miten sel­lais­ta voi käyt­tää tutkimuksessa? 

    Jos puhut kon­fir­ma­to­ri­ses­ta fak­to­ria­na­lyy­sis­tä, niin eri ohjel­mis­tot perus­tu­vat samaan mate­maat­ti­seen teo­ri­aan ja tuot­ta­vat tut­ki­tus­ti täy­sin ident­ti­siä tulok­sia. Toi­nen asia on se, että monet yhteis­kun­ta­tie­tei­li­jät eivät vält­tä­mät­tä ymmär­rä, mitä oikeas­taan teke­vät nap­su­tel­les­saan graa­fis­ten tilas­to-ohjel­mien vali­koi­ta ja täppiä.

    Yhteis­kun­nal­li­nen tut­ki­mus ja eri­tyi­ses­ti epi­de­mio­lo­gi­nen tut­ki­mus kär­sii myös vää­rin ymmär­re­tys­tä tie­to­suo­jas­ta. Kau­pal­li­set tahot saa­vat tal­let­taa ihmi­sis­tä tie­to­va­ran­toi­hin­sa asioi­ta, jois­ta aka­tee­mi­set tut­ki­jat eivät voi kuin haaveilla. 

    Oli­si­ko­han tuos­sa kui­ten­kin kyse etu­pääs­sä useim­pien tut­ki­joi­den lais­kuu­des­ta, arkuu­des­ta tai kyvyt­tö­myy­des­tä? Esi­mer­kik­si täs­sä suo­ma­lai­seen aineis­toon perus­tu­vas­sa tut­ki­muk­ses­sa yhdis­tet­tiin yksi­lö­ta­sol­la arvo-osuus­re­kis­te­rin dataa, vero­tie­to­ja, tie­to­ja sivii­li­sää­dys­tä, suku­lai­suus­suh­teis­ta, las­ten mää­räs­tä, asuin­pai­kas­ta, työ­pai­kas­ta yms. ja kai­ken kuk­ku­rak­si armei­jan ÄO-tes­tien tulok­sia. Miten nämä tut­ki­jat onnis­tui­vat pää­se­mään käsik­si näin kat­ta­vaan aineis­toon, jos viran­omai­set todel­la var­tioi­vat tie­to­jaan mustasukkaisesti? 

    Ruot­sis­sa tämän­ta­pais­ta jul­ki­siin rekis­te­rei­hin perus­tu­vaa tut­ki­mus­ta teh­dään enem­män, mut­ta tus­kin pää­syy­nä on eri­lai­nen tie­to­suo­ja­lain­sää­dän­tö. Esim. tämä tuo­re ruot­sa­lai­nen rekis­te­ri­tut­ki­mus näyt­täi­si osoit­ta­van, että köy­hyy­den kausaa­li­nen vai­ku­tus rikol­li­suu­teen ja päih­deon­gel­miin on puh­das nol­la. Saman tut­ki­ja­ryh­män aiem­man tut­ki­muk­sen mukaan asui­na­lu­een kur­juu­del­la (depri­va­tion) ei myös­kään ole mitään kausaa­lis­ta vai­ku­tus­ta rikol­li­suu­teen ja päihdeongelmiin.

    Nämä ruot­sa­lais­tut­ki­muk­set anta­vat myös osviit­taa sii­tä, mik­si yhteis­kun­ta­tie­teet (ja esim. epi­de­mio­lo­gia) ovat jun­nan­neet pai­kal­laan. Ihmi­sen käyt­täy­ty­mi­sen selit­tä­mi­nen on pit­kään perus­tu­nut fun­da­men­taa­lil­la taval­la vää­rään ihmis­ku­vaan, jon­ka mukaan ihmis­koh­ta­loi­den eroa­vai­suu­det joh­tu­vat pää­osin ulkoi­sis­ta olo­suh­teis­ta eivät­kä ihmi­ses­tä itsestään.

  7. OS:“Se kiel­let­tiin tie­to­suo­jaa loukkaavana.”

    Tär­kein­tä on huo­ma­ta että lause on pas­sii­vis­sa. Suo­mes­sa kukaan nimel­tä mai­nit­tu hen­ki­lö ei vas­taa mis­tään pää­tök­sen­teos­ta vaan aina on ole­mas­sa jokin pas­sii­vi­nen olio, joka kiel­tää mei­tä suo­ma­lai­sia elä­mäs­tä. Suo­mi on täyn­nä kai­ken maa­il­man Val­vi­roi­ta ja Alue­hal­lin­to­vi­ras­to­ja tai Raken­nus­val­von­ta­vi­ras­to­ja, jot­ka ovat tul­kit­se­vi­naan lakia mut­ta eivät uskal­la ker­toa, kuka siel­lä päät­tää ja mis­tä. Tär­kein­tä on suo­jel­la suo­ma­lai­sia kai­kel­ta niin pal­jon, että lopul­ta kaik­ki ihmi­set jäh­met­ty­vät pai­kal­leen. Yhteis­kun­nal­li­nen kehi­tys on men­nyt niin pit­käl­le, että yhteis­kun­nal­li­nen kehi­tys on kai­ken yhteis­kun­nal­li­sen kehi­tyk­sen pahin este.

  8. Vie­lä ihmis­tie­teis­tä: ne ovat kär­si­neet mones­sa koh­taa sii­tä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi teh­dä, webin kaut­ta, ja nii­den teke­mi­nen on arki­päi­vää. Esim. Amazon on opti­moi­nut sivus­to­jaan luke­mat­to­mien satun­nais­tet­tu­jen kokei­den kaut­ta, ja Face­boo­kil­la on aina­kin peri­aat­tees­sa mah­dol­li­suus mani­pu­loi­da käyt­tä­jien­sä mie­len­ti­lo­ja omien pää­mää­rien­sä mukaan, esim. val­ti­se­mal­la mitä päi­vi­tyk­siä heil­le näytetään.

    Nämä kokeet vain tapah­tu­vat tiu­kan ope­ra­tio­naa­li­ses­sa kon­teks­tis­sa. Ne eivät joh­da teo­rian­muo­dos­tuk­seen. Kyse on enem­män teko­ä­lys­tä, joka osaa mak­si­moi­da valit­tu­ja uti­li­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta).

  9. Jaak­ko:Ihmi­sen käyt­täy­ty­mi­sen selit­tä­mi­nen on pit­kään perus­tu­nut fun­da­men­taa­lil­la taval­la vää­rään ihmis­ku­vaan, jon­ka mukaan ihmis­koh­ta­loi­den eroa­vai­suu­det joh­tu­vat pää­osin ulkoi­sis­ta olo­suh­teis­ta eivät­kä ihmi­ses­tä itsestään.

    Fun­da­men­taa­li­ses­ti vää­rä ihmis­ku­va tai­taa olla se, että ihmi­sel­lä oli­si tah­to. Ymmär­tääk­se­ni tie­de ei ole mil­lään taval­la pys­ty­nyt osoit­ta­maan tah­don ole­mas­sa oloa, vaik­ka meil­lä kai­kil­la on sii­tä koke­mus. Koke­mus on kui­ten­kin vain koke­mus, ei tosiasia. 

    Tah­don ja hal­lin­nan olet­ta­mi­nen perus­tu­nee kris­til­li­seen perin­tee­seen, jos­sa ihmi­nen esi­te­tään hel­ve­tin tai pelas­tuk­sen valit­si­ja­na. Luon­non­tie­tei­li­jät sen sijaan suh­tau­tu­vat tah­toon toi­sin eivät­kä näe sitä mate­ri­aa­li­ses­ta maa­il­mas­ta eril­li­se­nä voimana.

    Kas­vu­ym­pä­ris­tön vai­ku­tus­ta ihmi­sen myö­hem­pään elä­mään tus­kin kukaan aihee­seen pereh­ty­nyt tut­ki­ja kiis­tää. Tulok­set ovat niin ilmeisiä.

  10. Oli­si­ko­han suu­rin ongel­ma kui­ten­kin sii­nä, ettei­vät havain­not ole lähel­lä­kään toi­sis­taan riip­pu­mat­to­mia (samal­la lail­la jakau­tu­nei­ta) satun­nais­ta­pah­tu­mia vaan ennem­min jotain, jota syn­tyy omaa etu­aan opti­moi­maan pyr­ki­vien itseop­pi­vien agent­tien kes­ki­näi­sis­tä vuorovaikutuksista?

    Eli siis kan­nat­tai­si­ko laka­ta itke­mäs­tä ison datan ja “fik­su­jen” tilas­tol­lis­ten mene­tel­mien perään, kun koko ilmiö lie­nee klas­si­sen tilas­tol­li­sen ana­lyy­sin ulottumattomissa?

  11. Ongel­ma on sekin, että taval­li­nen ihmi­nen — siis sel­lai­nen, joka ei ole saa­nut aihees­ta mitään kou­lu­tus­ta — ei ymmär­rä tilas­to­tie­teis­tä (tai toden­nä­köi­syyk­sis­tä) yhtään mitään. Tämä kos­ke­nee myös suu­rin­ta osaa päättäjistä.

    Tähän kun lisää sen, että yli­pää­tään uudet asiat ovat päät­tä­jil­le vai­kei­ta eikä sta­tus quo’­ta mie­lel­lään häi­ri­tä, ei tar­vit­ta­via pää­tök­siä pys­ty­tä teke­mään. Vaik­ka kuin­ka juh­la­pu­heis­sa julis­tet­tai­siin tavoit­tei­ta nyky­ajan etu­rin­ta­mas­sa ole­mi­ses­ta. Näin nämä mah­dol­li­suu­det jää­vät käyt­tä­mät­tä, kun­nes joku muu sen jo menes­tyk­sel­lä tekeekin.

  12. Joo tuli­si olla kie­li kes­kel­lä suu­ta kun puhu­taan nykyis­ten las­ken­ta­me­ne­tel­mien tehok­kuu­des­ta mik­ro­pro­ses­so­rei­den avul­la — enti­seen ver­rat­tu­na. Siis nykyi­nen las­ken­ta­te­hok­kuus voi tuo­da aivan uusia näkö­kul­mia las­ken­taan, kun aikayk­si­kös­sä tuo­te­taan val­ta­vas­ti enenn­män perus­las­ku­toi­mi­tuk­sia aikayk­si­kös­sä kuin ennen tilas­to­tie­den kukois­tuk­sen alkuai­ka­na. Nykyi­sin luu­li­si tilas­to­tie­tei­den­kin ole­van eksak­ti tie­de, kun las­ken­ta­te­hok­kuut­ta on voi­tu nos­taa liki ääret­tö­myyk­siin jopa koti-tie­to­ko­nei­den avulla.

  13. Jaak­ko: Miten nämä tut­ki­jat onnis­tui­vat pää­se­mään käsik­si näin kat­ta­vaan aineis­toon, jos viran­omai­set todel­la var­tioi­vat tie­to­jaan mustasukkaisesti?

    Asia menee käsit­tääk­se­ni suun­nil­leen niin, että tut­ki­jat pää­sään­töi­ses­ti voi­vat käyt­tää viran­omai­sen rekis­te­rei­tä, sikä­li kun sopi­via rekis­te­rei­tä on ole­mas­sa. Mut­ta kuten Osmon HSL-esi­merk­ki osoit­ti, viran­omai­sil­la ei ole tai saa­kaan olla sel­lai­sia rekis­te­rei­tä mitä tut­ki­jat toivoisivat.

    1. HSL ei toi­vo­nut rekis­te­riä tut­ki­muk­seen vaan reit­tien ja aika­tau­lu­jen suun­nit­te­luun. Luu­len, että jos mat­kus­ta­jil­ta kysyt­täi­siin, yli­voi­mai­nen enem­mis­tö pitäi­si tär­keäm­pä­nä, että rei­tis­tö pal­ve­li­si hei­tä hyvin. Kun on menos­sa teke­mään sitä pank­ki­ryös­töä, kan­nat­taa mak­saa kertamaksu.

  14. Kun tut­ki­jal­ta kysyy, miten se on ana­ly­soi­tu, saa vas­tauk­sek­si kau­pal­li­sen ohjel­mis­ton nimen. Sii­hen, mitä tuo ohjel­mis­to tark­kaan ottaen tekee, ei vas­taus­ta tule – ohjel­man toi­min­ta­pe­ri­aa­te saat­taa olla jopa lii­ke­sa­lai­suus! Miten sel­lais­ta voi käyt­tää tutkimuksessa?

    Tätä tapah­tuu luon­non­tie­teis­sä hyvin­kin pal­jon, ja sil­loin täl­löin myös käy niin, että laa­jas­ti käy­te­tys­tä ohjel­mas­ta pal­jas­tuu vir­he ja pal­jon jul­kais­tu­ja töi­tä jou­tuu kysee­na­lai­sek­si. Kyse ei edes tar­vit­se olla sii­tä, ettei­kö fyy­sik­ko tai kemis­ti ymmär­täi­si las­ku­toi­mi­tus­ta (sitä­kin tie­tys­ti tapah­tuu laa­jas­ti), vaan usein on niin, että ope­raa­tio on hyvin moni­mut­kai­nen ja sii­hen käy­te­tään val­mis­ta ohjel­mis­toa, johon ei voi kuin luot­taa. Ohjel­man tar­kas­ta­mi­nen oli­si sinän­sä iso ope­raa­tio, oman teke­mi­ses­tä puhumattakaan.

    Avoi­men läh­de­koo­din mer­ki­tyk­sen pitäi­si tie­tys­ti olla sel­vä luon­non­tie­tei­li­jöil­le, jot­ka nou­dat­ta­vat tie­teen jul­kai­su­pe­ri­aat­tei­ta. Avoin koo­di antaa aina­kin mah­dol­li­suu­den tar­kas­ta­mi­seen, jouk­ko­voi­mal­la jos ei muuten.

    Taka­vuo­si­na muu­ten joku mate­maa­tik­ko tote­si Mic­ro­soft Exce­lin suun­nil­leen täy­sin kel­vot­to­mak­si mihin­kään vaka­vam­paan hom­maan. En tie­dä nykyis­ten ver­sioi­den tilan­net­ta, mut­ta aina­kin sil­loin kyse ei edes ollut mis­tään kym­me­nen­nen nume­ron pyö­ris­ty­son­gel­mas­ta, vaan aivan perus­o­pe­raa­tioi­den oikeellisuudesta.

  15. Hei,

    Sanonn nyt taman vii­mei­sen ker­ran. Ei sil­la ole valia mita kysyt­tiin. Mutta…

    Tai antaa olla.

    t. Mik­ko

  16. Osmo,

    sil­loin aika­naan las­ken­nat oli­vat yli­opis­ton tie­to­ko­ne­kes­kuk­sen hei­niä ja taval­li­nen tut­ki­ja jou­tui kai varaa­maan aikaa las­ken­noil­leen. Nyt­hän omal­la kan­net­ta­val­la voi olla tie­to­kan­nat ja tilas­to-ohjel­mat, joten las­ken­ta­ka­pa­si­teet­tia on tarjolla.

    Minul­la­kin on koti­ko­neel­la yhdis­tel­mä R + MariaDB. R ohjel­man funk­tioil­la voi poi­mia dataa myös netistä.

    Mones­ti kau­pal­li­set ja avoi­men läh­de­koo­din ohjel­mat käyt­tä­vät samo­ja C kie­len kir­jas­to­ja, joil­la var­si­nai­nen nume­ton­murs­kaus teh­dään. OOP para­dig­mas­sa vain kut­su­taan funk­tioi­ta, jot­ka teke­vät jotain.

    Teol­li­suu­den pii­ris­sä dataa on kyl­lä käy­tet­ty pit­kään ja esi­mer­kik­si ope­raa­tio­ana­lyy­sil­lä on perin­tei­tä Suo­mes­sa. Tulok­set vsin tah­to­vat olla liikesalaisuuksia.

    Rahoi­tus­sek­to­ril­la dataa käy­te­tään toi­saal­ta ris­kien­hal­lin­taan ja toi­saal­ta kampanjointiin.

    S‑ryhmä on teh­nyt SAS ohjel­mis­to­ta­lon kans­sa yhteis­työ­tä varas­to­jen, vali­koi­man ja mene­kin hallintaan.

    Ehkä ongel­ma on enem­män osaa­vien ihmis­ten puu­te sekä viit­se­liäi­syys teh­dä ja kehit­tää asioi­ta. Datan hyö­dun­tä­mi­sen aloit­ta­mi­nen on osal­taan tie­to­jär­jes­tel­mä­pro­jek­ti ja toi­saal­ta pal­jon muu­ta, eli haas­ta­va yhdistelmä!

  17. Tilas­to­tieel­li­ses­sä osaa­mi­ses­sa on var­mas­ti suu­ria puut­tei­ta, sekä teo­rian että käy­tän­nön tasol­la. Jan­ne Sink­ko­nen lis­ta­si­kin jo hyvin alan ongelmia.

    Datan laa­jem­man hyö­dyn­tä­mi­sen kan­nal­ta oli­si myös kes­keis­tä avoi­muu­den lisää­mi­nen tie­don, datan, läh­de­koo­din ja tie­teel­lis­ten jul­kai­su­jen koh­dal­la. Yhteis­kun­nal­li­sen datan avaa­mi­nen tar­jo­aa uuden­lai­sia mah­dol­li­suuk­sia aineis­to­jen ana­lyy­siin ja yhdis­te­lyyn. Tar­joa­mal­la data avoi­mes­ti kaik­kien käyt­töön sil­le löy­tyy usein aivan uuden­lai­sia käyt­tö­koh­tei­ta joi­ta datan alku­pe­räi­nen tuot­ta­ja ei ollut aja­tel­lut­kaan. Mah­dol­li­suuk­sia on niin yhteis­kun­ta­tut­ki­muk­ses­sa ja jour­na­lis­mis­sa kuin sovelluskehityksessäkin.

    Avoi­men tie­don asi­aa edis­tää Suo­mes­sa Open Know­led­ge Fin­land ry, jon­ka työ­ryh­mät kes­kit­ty­vät mm. avoi­meen tie­tee­sen, avoi­meen demo­kra­ti­aan ja avoi­meen ope­tuk­seen. Ava­tun datan ympä­ril­le syn­ty­nei­tä sovel­luk­sia kan­nat­taa kat­soa Apps4­Fin­land-kil­pai­lus­ta.

    Avoi­men datan lisäk­si tar­vi­taan avoi­mia las­ken­ta­työ­ka­lu­ja ja ‑mene­tel­miä aineis­to­jen käsit­te­lyyn, ana­ly­soin­tiin ja visua­li­soin­tiin. Avoi­men läh­de­koo­din mene­tel­mä­kir­jas­tot mah­dol­lis­ta­vat nopean kehi­tyk­sen ja resurs­sien tehok­kaan jaka­mi­sen, ja nii­den ympä­ril­le voi muo­dos­tua koko­nai­sua eko­sys­tee­me­jä. Esi­mer­kik­si las­ken­nal­li­nen bio­lo­gia on kehit­ty­nyt vii­me vuo­si­kym­me­ni­nä hui­maa vauh­tia avoi­men datan ja avoi­men läh­de­koo­din mene­tel­mien (esim. Biocon­duc­tor) sii­vit­tä­mi­nä.

    Avoi­meen dataan ja mene­tel­miin perus­tu­va tut­ki­mus on läpi­nä­ky­vää ja tois­tet­ta­vaa, jol­loin sii­nä mah­dol­li­ses­ti ovat vir­heet tule­vat hel­pom­min havai­tuk­si. Avoin­ta tut­ki­mus­ta on myös suo­raan mah­dol­lis­ta jat­kaa uusiin suun­tiin mui­den tut­ki­joi­den toimesta.

    Omas­sa rOpen­Gov-pro­jek­tis­sam­me olem­me koon­neet yhteen avoin­ta läh­de­koo­dia avoin­ten yhteis­kun­nal­lis­ten aineis­to­jen käsit­te­lyyn ja ana­lyy­siin R‑ohjelmointikielellä. Täy­sin avoi­meen läh­de­koo­diin perus­tu­va R on yksi käy­te­tyim­mis­tä kie­lis­tä tilas­tol­li­ses­sa las­ken­nas­sa ja sen käyt­tö levi­ää nopeas­ti useil­la aloil­la, mm. yhteis­kun­ta­tie­teis­sä. Esi­merk­ke­jä ana­lyy­seis­tä ja visua­li­soin­neis­ta voi lukea Lou­hos-blo­gis­tam­me.

  18. Osmo Soi­nin­vaa­ra:
    HSL ei toi­vo­nut rekis­te­riä tut­ki­muk­seen vaan reit­tien ja aika­tau­lu­jen suun­nit­te­luun. Luu­len, että jos mat­kus­ta­jil­ta kysyt­täi­siin, yli­voi­mai­nen enem­mis­tö pitäi­si tär­keäm­pä­nä, että rei­tis­tö pal­ve­li­si hei­tä hyvin. Kun on menos­sa teke­mään sitä pank­ki­ryös­töä, kan­nat­taa mak­saa kertamaksu.

    Kysy­mys­hän oli , kerä­tään­kö hen­ki­lö­koh­tai­set rei­tit eli lii­te­tään­kä reit­tiin henkilö.

    Käsit­tääk­se­ni lii­ken­ne­tie­toa ilman hen­ki­lö­lii­tän­tää voi­daan käyttää ?

    Tele­lii­ken­tees­sä­kin seu­ra­taan lii­ken­net­tä ‚eli puhe­lu­jen pituut­ta , nii­den reit­te­jä ja volyy­me­ja rei­teil­lä, mut­ta ei se tar­koi­ta että muka­na oli­si hen­ki­lö­tie­toa tai kyet­täi­siin poi­mi­maan yksit­täi­nen puhe­lu ja liit­tä­mään se käyttäjään

    Sekin kyl­lä onnis­tuu, mut­ta se tulee las­ku­tus­tie­dois­ta, nämä tie­dot ovat eril­li­siä ja nii­tä tut­ki­vat aivan eri hen­ki­löt ja rajat­tu mää­rä henkilöitä

    Enpä usko, että ei tar­vi­ta hene­ki­lö­tie­to­jen tal­len­ta­mis­ta sitä var­ten, että tie­de­tään mon­ta­ko hen­ki­löä mat­kus­taa pis­tees­tä A pis­tee­seen B ja mil­lä vuoroilla ?

    Lii­ken­teen volyy­mi on eri asia kuin yksit­täi­nen kukija.

    1. Se mitä ei saa­nut kerä­tä oli tie­tä sii­tä, mihin mios­tä­kin lii­ken­ne­vä­li­nees­tä vaih­de­taan. Jos kovin moni vaih­taa nelo­ses­ta seis­kaan samal­la pysä­kil­lä, voi­daan pan­na ratik­ka kul­ke­maan suo­raan vaih­dot­ta. Laa­jem­min pitäi­si pys­tyä teke­mään kartt­lo­ja, mis­sä pai­kas­sa A ole­vat hen­ki­löt liik­ku­vat. Tut­ki­jaa ei kiin­nos­ta pät­kää­kään, mis­sä hen­ki­lö A liik­kee, mut­ta jot­ta reit­te­jä vfoi­daan mal­lin­taa, pitää voi­da tun­nis­ta­maan eri lii­ken­ne­vä­li­neis­sä ole­vat hen­ki­löt samoik­si henk­ki­löik­si. Tie­to­suo­jaih­mis­ten mie­les­tä riit­tää tie­to, kuin­ka pal­jon mat­kus­ta­jia mil­lä­kin rei­til­lä on.

  19. Nykyi­sin­hän ovat eri­lai­set baye­si­lai­set mene­tel­mät yleis­ty­neet puut­teel­lis­ten aineis­to­jen käsit­te­lys­sä pal­jon. Niis­sä on kyl­lä vaa­ran­sa, var­sin­kin jos ole­tet­tu mal­li on virheellinen.

    Ter­vey­teen liit­ty­vis­sä epi­de­mio­lo­gi­sis­sa tut­ki­muk­sis­sa on myös usein ongel­ma­na se, että altis­tu­mis­tie­to on usein hyvin puut­teel­li­nen ja sisäl­tää jopa luo­ki­tus­vir­hei­tä (tupa­koin­nin ylei­syys aineis­tos­sa, muis­ti­vi­nou­tu­mat, seka-altis­tu­mi­set jne). Tämän vuok­si pelk­kä kor­re­laa­tio ei todis­ta kausa­li­teet­tia, pitää olla myös jär­ke­vä bio­lo­gi­nen meka­nis­mi joka selit­täi­si ilmiön.

  20. Mik­ko H:Taka­vuo­si­na muu­ten joku mate­maa­tik­ko tote­si Mic­ro­soft Exce­lin suun­nil­leen täy­sin kel­vot­to­mak­si mihin­kään vaka­vam­paan hom­maan. En tie­dä nykyis­ten ver­sioi­den tilan­net­ta, mut­ta aina­kin sil­loin kyse ei edes ollut mis­tään kym­me­nen­nen nume­ron pyö­ris­ty­son­gel­mas­ta, vaan aivan perus­o­pe­raa­tioi­den oikeellisuudesta.

    En tie­dä las­kee­ko Excel vää­rin tai oikein, mut­ta min­kään oikeas­ti vaa­ti­vam­man las­ke­mi­sen teke­mi­nen sen käyt­tö­liit­ty­mäl­lä on lähes mah­do­ton­ta. Ei sitä ole tar­koi­tet­tu moni­mut­kais­ten kaa­vo­jen pyö­rit­tä­mi­seen, nii­den omien teko­jen seu­raa­mi­nen ja tar­kas­ta­mi­nen on lähes mah­do­ton­ta kun viit­taus­ten mää­rä ja kaa­vo­jen pituus kas­vaa tar­peek­si. Sehän on tau­luk­ko­las­ken­taoh­jel­ma eikä ymmär­rä sym­bo­lis­ta laskentaa. 

    Mathcad on jo käyt­tö­liit­ty­män­sä­kin puo­les­ta pal­jon parem­pi ras­kaa­seen las­ken­taan, kun sii­nä näkee mitä tekee. 

    Mut­ta luu­lem­pa että sii­nä vai­hees­sa kun pitää jär­jes­tel­lä 10 000 mit­taus­tu­los­ta, niin excel voit­taa. Lisäk­si excel on käy­tän­nös­sä ilmai­nen, kos­ka office-paket­ti on lähes pakol­li­nen lisävaruste.

    Kaik­kein rai­vos­tut­ta­vin osa exce­liä on sen tapa “aut­taa” käyt­tä­jää muun­ta­mal­la omin päin luku­ja päi­vä­mää­rik­si ja teks­te­jä luvuik­si ja luku­ja ties mik­si. Ei kui­ten­kaan kos­kaan oikein.

    1. Ihmisx­ten pitäi­si oppia ainies­to­jen käsit­te­lys­sä aina­kin yksi help­po kik­ka. Jos halu­aa tut­kia muut­tu­jien a ja b väli­tä riip­pu­vuut­ta graa­fi­ses­ti, nii­tä kan­nat­taa har­voin plo­ta­ta ruu­dul­le sel­lai­si­naan. Yleen­sä nii­hin molem­piin vai­kut­taa (aina­kin yksi) yhtei­nen teki­jä z. Kan­nat­taa selit­tää molem­mis­ta muut­tu­jan z vai­ku­tus pois mlom­mis­ta ja tut­kia jäännöstermejä.
      Asia tulee ymmär­re­tyk­si, jos vaik­ka a = huk­ku­mis­kuo­le­mat, b = jää­te­lön­sy­lön­ti ja z = läm­pö­ti­la. Huo­ma­taan, ettei huk­kus­mis­kou­le­mien ja jää­tel­lön­syön­nil­lä ole yhteyttä.
      Tämä voi teh­dä myös Exce­lil­lä, mut­ta sii­nä solah­taa hel­pos­ti tun­ti ja toi­nen tun­ti menee her­mo­jen lepuut­ta­mi­seen. Sep­po Mus­to­sen Sur­vo-ohjel­mal­la 40 vuot­ta sit­ten sii­hen meni minuutti.

  21. Suur­ten data­mää­rien hal­lit­se­mi­ses­sa Suo­mes­sa on erit­täin terä­vää asian­tun­te­mus­ta esim. Aal­to yli­opis­ton Infor­maa­tio­tie­teen lai­tok­sel­la. Esi­mer­kik­si oppi­vien kart­to­jen ym. tie­don luon­tee­seen adap­toi­tu­vien mene­tel­mien käyt­tö vähen­tää tun­te­mat­to­mien yhteis­ten teki­jöi­den vai­ku­tus­ta samoin­kuin epä­li­ne­aa­ri­seen riip­pu­vuu­teen perus­tu­via harhoja.
    Ongel­ma­han onkin meil­lä se, että apua eivät polii­ti­kot kysy tie­de­mie­hil­tä, vaan adap­toi­tu­vat äänes­tä­vän kan­san miel­ty­myk­siin. Jos kysy­tään, niin halu­taan vas­tauk­set, jot­ka sopi­vat omaan maa­il­man­kat­so­muk­seen ja ovat tyyp­piä ‘oli­si pyrit­tä­vä sii­hen, että mah­dol­li­sim­man suu­ri osa kan­sa­lai­sis­ta uskoi­si ole­van­sa onnellisia’.

  22. Olen itse pariin­kin ker­taan tör­män­nyt käsit­tä­mät­tö­mään datae­li­tis­miin jul­ki­sen hal­lin­non puo­lel­ta. Olen useam­man ker­ran pyy­tä­nyt dataa esim THL:ltä ana­lyy­sin poh­jak­si erit­täin huo­nol­la menestyksellä. 

    Tie­toa on sys­te­maat­ti­ses­ti pimi­tet­ty vedo­ten mil­loin mihin­kin, saa­ta­vuus, vai­va, luot­ta­muk­sel­li­suus, pitää olla nime­tys­sä tut­ki­mus­ryh­mäs­sä jne… — olen koros­ta­nut, että minua (ja mui­ta) kiin­nos­taa nime­no­maan suu­ri ano­nyy­mi datamäärä. 

    Dataa ja “tut­ki­mus­ta” teke­vät tahot halua­vat aktii­vi­ses­ti mono­po­li­soi­da infor­maa­tion (ja joh­to­pää­tök­set!) estäen avoi­men ja moder­nin kri­tii­kin. Tämä tök­kii eri­tyi­ses­ti kun data on koot­tu jul­ki­sel­la rahal­la (ja sitä jael­laan raja­tus­ti sil­ti joil­le­kin kau­pal­li­sil­le kumppaneille)

    Olen itse taus­tal­ta­ni infor­maa­tio­tie­tei­li­jä ja (julkiseen)dataan pereh­ty­mi­nen on minul­le mie­len­kiin­tois­ta pait­si hen­ki­lö­koh­tai­ses­ti myös poten­ti­aa­li­ses­ti kau­pal­li­ses­sa mie­les­sä (en tie­ten­kään tie­dä vie­lä miten). Sovel­let­ta­va alue oli­si ensi­si­jai­ses­ti nime­no­maan yhteis­kun­ta- ja hyvintointianalyysi. 

    Olen Osmon kans­sa samaa miel­tä data-ana­lyy­sin mene­tel­mien sekä datan mää­rän hui­keas­ta kehi­tyk­ses­ta. Myös vali­tet­ta­vas­ti sovel­ta­mi­sen tasos­ta ja laajuudesta. 

    Mik­si val­ta­va data­mää­rä tuot­taa niin vähän lisä­ar­voa? Isoin ongel­ma mie­les­tä­ni on kui­ten­kin infor­maa­tion räi­keä pimit­tä­mi­nen — yksi­tyi­nen ja julkinen.

    1. THL ei yleen­sä saa antaa data, kos­ka “arka­luon­toi­sen” ainois­ton käyt­töön on saa­tu hyvin tiu­kat lupaeh­dot. Tämä vai­keut­taa myös erit­täin pal­jon kv- yhteis­työ­tä,. kos­ka ulko­mail­le dataa nyt ain­kaan ei saa lainata.

  23. Mei­tä varoi­tet­tiin tilas­to­tie­teen luen­noil­la use­aan ottee­seen, että kes­ke­ne­räi­seen lää­ke­tie­teel­li­seen tut­ki­muk­seen ei pidä men­nä. Point­ti­na oli, että tilas­to­tie­teel­li­nen tut­ki­mus­a­se­tel­ma oli alus­ta asti vir­heel­li­nen (esim. otos) ja tilas­to­ma­te­ma­tii­kal­la pön­ki­tet­tiin vain lop­pu­tu­los­ta. Piir­tä­mi­nen rau­hoit­taa ja voi aut­taa näke­mään jotain kiin­nos­ta­vaa, mut­ta kun työs­ken­nel­lään tun­nus­lu­ku­jen kans­sa, niin tut­ki­ja jou­tuu itse päät­tä­mään tulok­sen järkiperäisyyden.
    Hel­sin­gin kau­pun­ki voi­si kerä­tä asuk­kail­taan vapaa­eh­toi­ses­ti luo­vu­tet­tua tie­toa (mak­su­ton pal­ve­lu), kuten Google. Jouk­ko­lii­ken­teen tut­ki­mi­nen vaa­ti­si äly­pu­he­lin­so­vel­luk­sen. Kau­pun­gin (kun­nat joi­ta kiin­nos­taa) pie­nel­lä spon­so­ria­vul­la sai­si aikaan open source ‑sovel­luk­sen.

  24. Osmo Soi­nin­vaa­ra:
    THL ei yleen­sä saa antaa data, kos­ka “arka­luon­toi­sen” ainois­ton käyt­töön on saa­tu hyvin tiu­kat lupaeh­dot. Tämä vai­keut­taa myös erit­täin pal­jon kv- yhteis­työ­tä,. kos­ka ulko­mail­le dataa nyt ain­kaan ei saa lainata. 

    THL on osa samaa kuk­ka­hat­tu­tä­tion­gel­maa, jon­ka toi­nen puo­li, Val­vi­ra on ollut enem­män otsi­kois­sa vii­kon aika­na. Tie­dän kum­mas­sa­kin ole­van myös ter­vei­tä ja tar­peel­li­sia­kin osia, mut­ta ongel­man laa­juus on sitä luok­kaa, että koh­ta on teh­tä­vä jotain radi­kaa­le­ja rat­kai­su­ja noi­den pilkkomiseksi.

  25. Itse pyy­sin gra­dun­te­ki­jä­nä HSL:ltä vuo­sien 2007–2008 Hel­sin­gin seu­dun laa­jan hen­ki­lö­haas­tat­te­lu­tut­ki­muk­sen aineis­to­ja (noin 65 000 mat­kaa) ja sain ne käsii­ni suht vai­vat­ta muu­ta­man pape­rin täyt­tä­mäl­lä. Minul­le oli kui­ten­kin yllä­tys, miten vähän tuo­ta laa­du­kas­ta aineis­toa oli hyö­dyn­net­ty HSL:n ulko­puo­lel­la. Minus­ta tun­tuu­kin että välil­lä on myös kyse sii­tä, ettei­vät ihmi­set tie­dä, mitä kaik­kia aineis­to­ja eri viras­to­jen jne. arkis­tois­ta löytyy.

  26. Osmo Soi­nin­vaa­ra:
    Tut­ki­jaa ei kiin­nos­ta pät­kää­kään, mis­sä hen­ki­lö A liik­kee, mut­ta jot­ta reit­te­jä vfoi­daan mal­lin­taa, pitää voi­da tun­nis­ta­maan eri lii­ken­ne­vä­li­neis­sä ole­vat hen­ki­löt samoik­si henkkilöiksi. 

    Ei tar­vit­se. Tut­ki­ja tar­vit­see kei­non iden­ti­fioi­da sama mat­ka­kort­ti eri lii­ken­ne­vä­li­neis­sä. HSL-mat­ka­kort­tin toteu­tus on hyvä esi­merk­ki tie­to­suo­jan ongel­mis­ta jot­ka syn­ty­vät tai­ta­mat­to­muu­des­ta ja välinpitämättömyydestä:

    1. Kerä­tään lii­kaa tie­toa tie­to­kan­taan. Täs­sä tapauk­ses­sa kyses­sä on (hen­ki­lö — kort­ti) relaa­tio jota ei tie­to­kan­nas­sa tar­vi­ta. Jos hen­ki­lö­koh­tais­ta mat­ka­kort­tia tar­vi­taan, relaa­tio voi­daan säi­lyt­tää tie­to­kan­nan ulko­puo­lel­la, esim. kor­tis­sa ole­va hen­ki­lön nimi joka kir­joi­te­taan sii­hen käsin.

    2. Tie­to­suo­jaa ei aja­tel­la tie­to­jär­jes­tel­miä toteu­tet­taes­sa. Tur­haa yksi­löä iden­ti­fioi­vaa tie­toa kerä­tään, kos­ka se on help­poa. Hyvä ja var­ma tie­to­suo­jan toteu­tus mah­dol­lis­tai­si datan käy­tön tut­ki­muk­seen ja asia­kas­pal­ve­luun eikä estäi­si sitä. Jos hen­ki­lö tar­vit­see kei­non iden­ti­fioi­da itsen­sä, sen voi useim­mi­ten teh­dä niin että iden­ti­fi­kaa­tioon tar­vit­ta­va kei­no on hen­ki­lön itsen­sä hal­lus­sa tie­to­kan­nan ulko­puo­lel­la. Iden­ti­fioin­tiin tar­vit­ta­vaa relaa­tio­ta ei pitäi­si säi­lyt­tää tie­to­kan­nois­sa kuin erit­täin pai­na­vis­ta syistä. 

    Nämä samat ongel­mat tuli­vat esiin myös Lii­ken­ne- ja vies­tin­tä­mi­nis­te­riön Oikeu­den­mu­kai­nen ja äly­käs lii­ken­ne työ­ryh­män rapor­tis­sa. Kukaan ei aja­tel­lut, että jär­jes­tel­mä voi­daan toteut­taa rau­dan­lu­jal­la ano­ny­mi­tee­til­lä ja hal­ti­ja­koh­tai­sel­la maksusysteemillä. 

    Tie­to­suo­ja ei ole voit­ta­ma­ton este jos se ote­taan vaka­vas­ti ja sil­le anne­taan arvoa alus­ta pitäen.

  27. Fun­da­men­taa­li­ses­ti vää­rä ihmis­ku­va tai­taa olla se, että ihmi­sel­lä oli­si tah­to. Ymmär­tääk­se­ni tie­de ei ole mil­lään taval­la pys­ty­nyt osoit­ta­maan tah­don ole­mas­sa oloa, vaik­ka meil­lä kai­kil­la on sii­tä koke­mus. Koke­mus on kui­ten­kin vain koke­mus, ei tosiasia.”

    Sama pätee kausaalisuuteen.

  28. Maa­seu­tu­lai­nen:
    Kas­vu­ym­pä­ris­tön vai­ku­tus­ta ihmi­sen myö­hem­pään elä­mään tus­kin kukaan aihee­seen pereh­ty­nyt tut­ki­ja kiis­tää. Tulok­set ovat niin ilmeisiä. 

    Mikä­li kas­vu­ym­pä­ris­tön vaih­te­lu otok­ses­sa on rajat­tu esim. nor­maa­lei­hin län­si­mais­sa ilme­ne­viin kas­vuo­lo­suh­tei­siin, niin kyl­lä monet tut­ki­jat nime­no­maan kiis­tä­vät tämän nyky­ään. Tulok­set ovat “ilmei­siä” sii­nä mie­les­sä, että “hyvät” kas­vu­ym­pä­ris­töt näyt­tä­vät tuot­ta­van usein hyviä lop­pu­tu­lok­sia ja päin­vas­toin, mut­ta tämä kor­re­laa­tio osoit­tau­tuu vah­vem­mis­sa tut­ki­mus­a­se­tel­mis­sa yleen­sä ei-kausaa­li­sek­si. Ks. esim. nuo lin­kit­tä­mä­ni ruotsalaistutkimukset.

  29. Mik­si val­ta­va data­mää­rä tuot­taa niin vähän tietoa?

    Ana­lyy­si ja uusien riip­pu­vuus­suh­tei­den hake­mi­nen puut­tuu. Ilman tuo­ta teh­dään par­haim­mil­laan vain mekaa­nis­ta numee­ris­ten kor­re­laa­tioi­den las­ke­mis­ta. Roskadataa.
    Pitäi­si kai enem­min esit­tää kysy­mys, mik­sei kukaan ole kai­van­nut lisää ana­lyy­sia uuden datan pohjalta.

  30. Perin­nöl­li­set omi­nai­suu­det näyt­tä­vät koros­tu­van ikään­tyes­sä, vaik­ka ympä­ris­tös­sä vie­tet­ty aika kasvaakin.

  31. Jaak­ko:Tulok­set ovat “ilmei­siä” sii­nä mie­les­sä, että “hyvät” kas­vu­ym­pä­ris­töt näyt­tä­vät tuot­ta­van usein hyviä lop­pu­tu­lok­sia ja päin­vas­toin, mut­ta tämä kor­re­laa­tio osoit­tau­tuu vah­vem­mis­sa tut­ki­mus­a­se­tel­mis­sa yleen­sä ei-kausaa­li­sek­si. Ks. esim. nuo lin­kit­tä­mä­ni ruotsalaistutkimukset. 

    Jos lap­sen saa­mal­la koti- ja lai­tos­kou­lu­tuk­sel­la, per­he­taus­tal­la, adop­tio­ti­van­hem­mil­la, van­hem­pien alko­ho­lin­käy­töl­lä, lap­sil­le tar­jo­tuil­la virik­keil­lä sun muil­la kas­vu­te­ki­jöil­lä ei ole myö­hem­pää hen­kis­tä tasa­pai­noa ja menes­tys­tä selit­tä­vää vai­ku­tus­ta, niin jon­kin ver­ran sitä ihmettelen.

    Täl­löin­hän esi­mer­kik­si huos­taan­ot­to­har­kin­nois­sa voi­tai­siin tyys­tin ohit­taa lap­sen hen­ki­set ja kehi­tyk­sel­li­set tar­peet. Aivan sama, pel­kää­kö lap­si, saa­ko hän tur­piin­sa tai jou­tuu­ko hän hol­hoa­maan van­hem­pi­aan, kun­han väki­val­ta ei vain ole lii­an rajua ja kun­han lap­si pysyyy ruu’issa.

    Jos esi­tät tuol­lai­sen väit­teen psy­ko­lo­gian ammat­ti­lai­sel­le, niin uskot­ko, että hän ei väi­tä vas­taan tie­dol­li­sin perus­tein? Uskot­ko tuo­hon itse­kään? Lait­tai­sit­ko lap­sen mie­luum­min häi­riö­kou­luun kuin hyvään kou­luun? Jos kuo­li­sit, antai­sit­ko lap­se­si mie­luum­min tasa­pai­noi­sil­le aka­tee­mi­sil­le van­hem­mil­le vai kou­lu­tus­ta arvos­ta­mat­to­mil­le duunarivanhemmille?

  32. Täs­sä on mon­ta ongel­maa, jot­ka kitey­ty­vät kaik­ki samaan: tie­don avoi­muu­teen ja toi­saal­ta myös yksi­tyi­syy­den suojaan.

    Samal­la kun vaa­dim­me yksi­tyi­syyt­tä me myös annam­me sijaa rikol­li­suu­del­le ja tehot­to­muu­del­le. Avoi­muu­den kaut­ta voi­sim­me luo­da tur­val­li­sem­paa ja tehok­kaam­paa yhteiskuntaa.

    Perus­on­gel­ma on se, että ihmi­set häpeä­vät ole­mas­sao­lo­aan, emme uskal­la tun­nus­taa ole­vam­me joten­kin vajai­ta, sai­rai­ta — tämän taus­tal­la ovat moraa­li­kä­si­tyk­set ja sosi­aa­li­set nor­mit, sekä evo­lu­tii­vi­nen kilpailu.

  33. Pahin­ta on median täy­del­li­nen nume­ro­tai­dot­to­muus ja tilas­to­jen edes alkel­li­sen jär­ke­vyy­den ymmär­tä­mi­nen. No, menee se mil­joo­na ja mil­jar­di­kin sekaisin.

    Tämä ker­too vain uuden­lais­ten tai­to­jen tar­peel­li­suu­des­ta: osaa tol­ki­ta näke­mää­si tilastoa.

  34. Osmo Soi­nin­vaa­ra:
    Ihmisx­ten pitäi­si oppia ainies­to­jen käsit­te­lys­sä aina­kin yksi help­po kik­ka. Jos halu­aa tut­kia muut­tu­jien a ja b väli­tä riip­pu­vuut­ta graa­fi­ses­ti, nii­tä kan­nat­taa har­voin plo­ta­ta ruu­dul­le sel­lai­si­naan. Yleen­sä nii­hin molem­piin vai­kut­taa (aina­kin yksi) yhtei­nen teki­jä z. Kan­nat­taa selit­tää molem­mis­ta muut­tu­jan z vai­ku­tus pois mlom­mis­ta ja tut­kia jäännöstermejä.
    Asia tulee ymmär­re­tyk­si, jos vaik­ka a = huk­ku­mis­kuo­le­mat, b = jää­te­lön­sy­lön­ti ja z = läm­pö­ti­la. Huo­ma­taan, ettei huk­kus­mis­kou­le­mien ja jää­tel­lön­syön­nil­lä ole yhteyttä.
    Tämä voi teh­dä myös Exce­lil­lä, mut­ta sii­nä solah­taa hel­pos­ti tun­ti ja toi­nen tun­ti menee her­mo­jen lepuuttamiseen.Seppo Mus­to­sen Sur­vo-ohjel­mal­la 40 vuot­ta sit­ten sii­hen meni minuutti.

    Sur­vo nyt lie­nee jo kau­an sit­ten kadon­nut­ta kansanperinnettä ?

    Tuo edel­lä esi­tet­ty muis­tut­taa mie­les­tä­ni Coxin suh­teel­li­sen haitan/riskin menetelmää ???

  35. Jan­ne Sink­ko­nen:
    Vie­lä ihmis­tie­teis­tä: ne ovat kär­si­neet mones­sa koh­taa sii­tä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi teh­dä, webin kaut­ta, ja nii­den teke­mi­nen on arki­päi­vää. Esim. Amazon on opti­moi­nut sivus­to­jaan luke­mat­to­mien satun­nais­tet­tu­jen kokei­den kaut­ta, ja Face­boo­kil­la on aina­kin peri­aat­tees­sa mah­dol­li­suus mani­pu­loi­da käyt­tä­jien­sä mie­len­ti­lo­ja omien pää­mää­rien­sä mukaan, esim. val­ti­se­mal­la mitä päi­vi­tyk­siä heil­le näytetään. 

    Hmm … ja huh! Mah­taa­ko tämän blo­gin pitä­jäl­lä olla käy­tös­sään algo­rit­mit, jot­ka sää­te­le­vät sitä, mitä luem­me ja mitä pää­dym­me (itse kukin) tän­ne kir­joit­ta­maan? (Olem­me­ko koe­ka­nii­ne­ja, joil­la Osmo tes­taa, miten pää­tyi­sim­me koh­ta jo (vii­mei­set­kin) hiih­don sijaan tal­vi­pyö­räi­lyn harrastajiksi?)

    Toi­saal­ta, mis­tä esi­mer­kik­si se Face­book voi tie­tää, kuka mani­pu­loi ja ketä? Amazon voi­nee kui­ten­kin seu­ra­ta osto­pää­tök­siä. Ne voi­vat tosin myös joh­taa vir­heel­li­siin joh­to­pää­tök­siin. Net­ti­se­lai­lum­me ja jopa kir­joit­te­lum­me perus­teel­la voi kor­kein­taan yrit­tää teh­dä johtopäätöksiä.

    Jan­ne Sink­ko­nen:
    Nämä kokeet vain tapah­tu­vat tiu­kan ope­ra­tio­naa­li­ses­sa kon­teks­tis­sa. Ne eivät joh­da teo­rian­muo­dos­tuk­seen. Kyse on enem­män teko­ä­lys­tä, joka osaa mak­si­moi­da valit­tu­ja uti­li­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta). 

    Näin tai­taa tosi­aan­kin olla.

  36. Sak­ke: Toi­saal­ta, mis­tä esi­mer­kik­si se Face­book voi tie­tää, kuka mani­pu­loi ja ketä? Amazon voi­nee kui­ten­kin seu­ra­ta ostopäätöksiä.

    Kyl­lä­hän Face­book ja Google seu­raa­vat mai­nos­ten klik­kauk­sia, mui­ta klik­kauk­sia (tyk­käyk­siä), pal­ve­luun kir­jau­tu­mis­ta ja pal­ve­luun tuo­tet­tua sisältöä. 

    Esim. Face­boo­kin tyk­käys­ten, sosi­aa­li­sen ver­kon ja mai­nos­ten klik­kai­lun perus­teel­la voi pää­tel­lä pal­jon sii­tä mis­tä pidät. Par­haim­mil­laan tämä joh­taa kiin­nos­ta­van sisäl­lön tar­jon­taan, ml. kiin­nos­ta­vat mainokset.

    Mani­pu­laa­tion suun­taan men­nään, jos käyt­tä­jän pre­fe­rens­seis­tä luo­daan (situa­tio­naa­li­nen) mal­li, jon­ka perus­teel­la käyt­tä­jää voi esim. ohja­ta käyt­tä­mään pal­ve­lua enem­män, tai klik­kai­le­maan mai­nok­sia enem­män, riip­puen käyt­tä­jän tun­nis­te­tus­ta mie­len­ti­las­ta tai muus­ta kontekstista. 

    Kuu­los­taa­ko kau­kaa hae­tul­ta? Vrt. http://www.theatlantic.com/technology/archive/2014/09/facebooks-mood-manipulation-experiment-might-be-illegal/380717/

    Samaan aikaan Google osaa tun­nis­taa kuvis­ta neu­ro­ver­koil­la kis­so­ja, ja Face­book osaa tun­nis­taa valo­ku­vis­ta kas­vo­ja. Teks­tia­na­lyy­si on valo­ku­viin ver­rat­tu­na tri­vi­aa­lia. Kone ei ymmär­rä teks­tiä, mut­ta pelk­kien sana­fre­kvens­sien ja sanayh­dis­tel­mien fre­kvens­sien avul­la voi teh­dä tilas­tol­li­sia joh­to­pää­tök­siä sisällöstä. 

    Ja otos­ko­ko voi olla tar­vit­taes­sa luo­kaa 1 300 000 000, eli käyt­tä­jien koko­nais­mää­rä. Ja nämä kokeet ovat kont­rol­loi­tu­ja ja satun­nais­tet­tu­ja, jos klas­si­sia ter­me­jä käy­te­tään. (Design voi tosin olla kehit­ty­neem­pää kuin staat­ti­sis­sa kokeis­sa, menee enem­män toi­men­pi­tei­den vai­kui­tuk­sis­ta jat­ku­vas­ti oppi­mi­sen suuntaan.)

    https://research.facebook.com/ai

    Face­book ei ole miten­kään eri­koi­nen fir­ma, vain esi­merk­ki sii­tä mitä mah­dol­li­suuk­sia verk­ko tar­jo­aa “ope­ra­tio­naa­li­sil­le sosi­aa­li­tie­teil­le”. Enkä sano että mah­dol­li­suu­det ovat pahas­ta. Esim. Face­book itse sanoo: “We’re com­mit­ted to advancing the field of mac­hi­ne intel­li­gence and deve­lo­ping tech­no­lo­gies that give people bet­ter ways to com­mu­nica­te. In the long term, we seek to unders­tand intel­li­gence and make intel­li­gent machines.”

  37. Jan­ne Sink­ko­nen: Kyl­lä­hän Face­book ja Google seu­raa­vat mai­nos­ten klik­kauk­sia, mui­ta klik­kauk­sia (tyk­käyk­siä), pal­ve­luun kir­jau­tu­mis­ta ja pal­ve­luun tuo­tet­tua sisältöä… 

    Aivan var­mas­ti seu­raa­vat, mut­ta ne eivät kat­so sinun klik­kauk­sia­si. Ne saat­ta­vat kat­soa suo­ma­lais­ten klik­kauk­sia tai toden­nä­köi­sem­min Nord­Balt-klik­kauk­sia. Niil­lä on var­mas­ti parem­pi käsi­tys mm. talou­den tilas­ta ja tren­deis­tä, kuin Suo­mes­sa yhdel­lä­kään ministeriöllä.

    Pitää olla jon­kin­lai­nen syy, tut­kia juu­ri sinun klik­kauk­sia­si. FSB voi­si olla kii­nos­tu­nut Osmon klik­kauk­sis­ta, mut­ta tus­kin sinun tai minun klik­kauk­sis­ta. Jopa USA:lla, Kii­nal­la ja Venä­jäl­lä on rajoi­te­tut resurs­sit tie­don seu­lo­mi­seen. Oma lain­sää­dän­töm­me­hän on nau­ret­ta­van ja itket­tä­vän raja­mail­ta. Ruot­si­kin seu­raa parem­min tapah­tu­mia Suo­mes­sa kuin me itse. 🙁

  38. Osmo Soi­nin­vaa­ra:
    Se mitä ei saa­nut kerä­tä oli tie­tä sii­tä, mihin mios­tä­kin lii­ken­ne­vä­li­nees­tä vaih­de­taan. Jos kovin moni vaih­taa nelo­ses­ta seis­kaan samal­la pysä­kil­lä, voi­daan pan­na ratik­ka kul­ke­maan suo­raan vaih­dot­ta. Laa­jem­min pitäi­si pys­tyä teke­mään kartt­lo­ja, mis­sä pai­kas­sa A ole­vat hen­ki­löt liik­ku­vat. Tut­ki­jaa ei kiin­nos­ta pät­kää­kään, mis­sä hen­ki­lö A liik­kee, mut­ta jot­ta reit­te­jä vfoi­daan mal­lin­taa, pitää voi­da tun­nis­ta­maan eri lii­ken­ne­vä­li­neis­sä ole­vat hen­ki­löt samoik­si henk­ki­löik­si. Tie­to­suo­jaih­mis­ten mie­les­tä riit­tää tie­to, kuin­ka pal­jon mat­kus­ta­jia mil­lä­kin rei­til­lä on.

    Ei tuo vaih­to­kaan auko­ton ole, ker­ta­li­pul­la mat­kus­ta­vaa ei seurata

    Eikä kor­til­li­sis­ta­kaan voi seu­ra­ta hen­ki­löä, jol­la on nime­tön kortti

  39. Maa­seu­tu­lai­nen: Jos lap­sen saa­mal­la koti- ja lai­tos­kou­lu­tuk­sel­la, per­he­taus­tal­la, adop­tio­ti­van­hem­mil­la, van­hem­pien alko­ho­lin­käy­töl­lä, lap­sil­le tar­jo­tuil­la virik­keil­lä sun muil­la kas­vu­te­ki­jöil­lä ei ole myö­hem­pää hen­kis­tä tasa­pai­noa ja menes­tys­tä selit­tä­vää vai­ku­tus­ta, niin jon­kin ver­ran sitä ihmettelen.

    Täl­löin­hän esi­mer­kik­si huos­taan­ot­to­har­kin­nois­sa voi­tai­siin tyys­tin ohit­taa lap­sen hen­ki­set ja kehi­tyk­sel­li­set tar­peet. Aivan sama, pel­kää­kö lap­si, saa­ko hän tur­piin­sa tai jou­tuu­ko hän hol­hoa­maan van­hem­pi­aan, kun­han väki­val­ta ei vain ole lii­an rajua ja kun­han lap­si pysyyy ruu’issa.

    Jos esi­tät tuol­lai­sen väit­teen psy­ko­lo­gian ammat­ti­lai­sel­le, niin uskot­ko, että hän ei väi­tä vas­taan tie­dol­li­sin perus­tein? Uskot­ko tuo­hon itse­kään? Lait­tai­sit­ko lap­sen mie­luum­min häi­riö­kou­luun kuin hyvään kou­luun? Jos kuo­li­sit, antai­sit­ko lap­se­si mie­luum­min tasa­pai­noi­sil­le aka­tee­mi­sil­le van­hem­mil­le vai kou­lu­tus­ta arvos­ta­mat­to­mil­le duunarivanhemmille? 

    Viit­ta­sin “nor­maa­lei­hin län­si­mai­siin kas­vuo­lo­suh­tei­siin”, mil­lä tar­koi­tin raja­ta ulko­puo­lel­le esi­mer­kik­si lap­set, jot­ka ovat koke­neet äärim­mäis­tä hyväk­si­käyt­töä, pahoin­pi­te­lyä jne.

    Huos­taa­no­tois­ta päät­tä­vil­lä ei ole mitään kris­tal­li­pal­loa, jon­ka avul­la he voi­si­vat pää­tel­lä, miten lap­sel­le kävi­si pit­käl­lä täh­täi­mel­lä ilman huos­taan­ot­toa. Perus­teek­si huos­taa­no­tol­le käy lap­sen sen­het­ki­sen hyvin­voin­nin turvaaminen.

    Psy­ko­lo­gien tie­dol­li­set perus­teet ovat tyy­pil­li­ses­ti var­sin vaa­ti­mat­to­mat, min­kä olen huo­man­nut hei­dän kans­saan näis­tä asiois­ta keskustellessaan.

    Oman lap­se­ni haluai­sin mie­luus­ti kas­va­van vau­raas­sa, hyvin kou­lu­te­tus­sa, rau­hal­li­ses­sa jne. per­he- ja kou­lu­ym­pä­ris­tös­sä, kos­ka täl­lai­nen ympä­ris­tö on kai­kin puo­lin miel­lyt­tä­väm­pi kuin vas­ta­koh­tan­sa. Mut­ta suh­tau­dun skep­ti­ses­ti aja­tuk­seen, että täl­lai­sil­la sei­koil­la oli­si suur­ta vai­ku­tus­ta sii­hen, mil­lai­nen ihmi­nen hänes­tä kasvaisi.

  40. dio­di: 1. Kerä­tään lii­kaa tie­toa tie­to­kan­taan. Täs­sä tapauk­ses­sa kyses­sä on (hen­ki­lö — kort­ti) relaa­tio jota ei tie­to­kan­nas­sa tar­vi­ta. Jos hen­ki­lö­koh­tais­ta mat­ka­kort­tia tar­vi­taan, relaa­tio voi­daan säi­lyt­tää tie­to­kan­nan ulko­puo­lel­la, esim. kor­tis­sa ole­va hen­ki­lön nimi joka kir­joi­te­taan sii­hen käsin. 

    Jos kado­tan mat­ka­kort­ti­ni, saan sen kuo­le­tet­tua ja sil­lä olleen arvon siir­ret­tyä uudel­le mat­ka­kor­til­le asioi­mal­la HSL:n pal­ve­lu­pis­tees­sä ja todis­ta­mal­la hen­ki­löl­li­syy­te­ni. Miten tämä onnis­tui­si jos hen­ki­lö — kort­ti ‑relaa­tio­ta ei tie­to­kan­nas­sa olisi?

    Toki peri­aat­tees­sa minul­la voi­si olla joku kor­tin sala­sa­na, jol­la tuo onnis­tuu. Käy­tän­nös­sä tyy­pil­li­nen asia­kas ei sitä kui­ten­kaan muistaisi.

    Jos tie­to­suo­ja perus­tui­si kor­tin käyt­tä­jän ano­ny­mi­teet­tiin, mm. kausi­li­pun suo­ra­ve­loi­tus oli­si var­sin ongelmallinen.

  41. Jan­ne Sink­ko­nen:
    Mani­pu­laa­tion suun­taan men­nään, jos käyt­tä­jän pre­fe­rens­seis­tä luo­daan (situa­tio­naa­li­nen) mal­li, jon­ka perus­teel­la käyt­tä­jää voi esim. ohja­ta käyt­tä­mään pal­ve­lua enem­män, tai klik­kai­le­maan mai­nok­sia enem­män, riip­puen käyt­tä­jän tun­nis­te­tus­ta mie­len­ti­las­ta tai muus­ta kontekstista 

    Pel­käs­tään ilmai­sel­la Google Ana­ly­tics ‑pal­ve­lul­la voi jo pro­fi­loi­da oman sivus­ton­sa kävi­jät mel­ko tar­kas­ti, esim. iän, suku­puo­len ja maan­tie­teel­li­sen sijain­nin perus­teel­la, tes­ta­ta näi­den käyt­täy­ty­mis­tä eri tilan­teis­sa len­nos­sa esi­mer­kik­si A/B tes­tauk­sel­la ja muo­ka­ta sivua sen perus­teel­la mikä toden­nä­köi­sim­min joh­taa halut­tuun lop­pu­tu­lok­seen. Tuo mitä kuva­sit oli “arki­päi­vää” Suo­mes­sa­kin jo vii­si vuot­ta sitten. 

    Google itse tie­tää ja ana­ly­soi pal­jon enem­män, mut­ta se onkin maa­il­man tehok­kain ihmis­ten käyt­täy­ty­mis­tä seu­raa­va vakoilujärjestelmä.

    Kaik­kien tei­dän hen­ki­lö­tie­dot, miel­ty­myk­set, liik­ku­mi­nen, käyt­täy­ty­mis­mal­li yms. ovat jo tal­les­sa USA:n eri int­res­si­ta­ho­jen pal­ve­li­mil­la. Ja mal­lit ja pro­fii­lit tar­ken­tu­vat jat­ku­vas­ti. Tuo tapah­tuu kos­ka se on tek­ni­ses­ti mahdollista.

    Jos oli­sin vai­no­har­hai­nen USA:aa vas­tus­ta­va dik­taat­to­ri, kiel­täi­sin Face­boo­kit, twit­te­rit, Googlen pal­ve­lut, Androi­dit yms. välit­tö­mäs­ti. Ja kehi­tyt­täi­sin tilal­le omia, esim. sel­lai­sia kuin Yan­dex, Bai­du, tai vkontakte.

  42. Mä käy­tän Vkon­tak­tea töis­sä, kos­ka Face­book on estetty 🙂

  43. Luul­lak­se­ni tie­teen pii­ris­sä on käyn­nis­sä jon­kin­lai­nen para­dig­ma­muu­tos. Mel­kein kai­kil­la aloil­la data-ana­lyy­si ja sii­hen poh­jau­tu­va argu­men­taa­tio alkaa hii­piä osak­si mene­tel­mis­töä. Sii­nä menee tie­ten­kin aikaa, se koh­taa vas­tus­tus­ta ja dog­maat­ti­suut­ta, sii­nä teh­dään vir­hei­tä ja yli­lyön­te­jä, mut­ta lopul­ta — kun­han van­hat jää­rät siir­ty­vät eläk­keel­le — se muo­dos­tuu osak­si tie­don­muo­dos­ta­mi­sen arkea. 

    Jos Freud hor­jut­ti unel­maa ihmi­sen ratio­naa­li­suu­des­ta (ali­ta­jun­nan ras­vai­nen poh­ja­vir­taus onkin yllät­tä­vän vah­va), jot­kut arvioi­vat big datan vii­mein kaa­ta­van sen: kun seu­ra­taan käyt­täy­ty­mis­tä, eikä ihan­tei­den värit­tä­mää puhet­ta, me emme ole riip­pu­mat­to­mia, ratio­naa­li­sia (kuin het­kit­täin) tai kovin yksi­löl­li­siä. Tämä lie­nee yksi ongel­ma talous­tie­teel­li­sen teo­rian ja käy­tän­nön välillä. 

    Tule­vai­suu­des­sa se voi olla ongel­ma oikeus­fi­lo­so­fian teo­rian ja käy­tän­nön välil­lä. Ehkä pide­tään kiin­ni sii­tä, että ihmi­nen voi aina vali­ta toi­sin, vaik­ka bid data osoit­tai­si, että tuot­ta­mal­la naa­pu­rei­hin tai huo­nee­seen X saa­daan ihmi­ses­tä hyvin, hyvin toden­nä­köi­ses­ti ulos Y.

  44. Nimim. Count­ry­boy arve­li Sur­vo-ohjel­mis­ton ole­van “kadon­nut­ta kan­san­pe­rin­net­tä”. Sur­vo ei ole kui­ten­kaan kadon­nut mihin­kään vaan se on ollut ole­mas­sa ja kehit­ty­nyt jat­ku­vas­ti nois­ta Osmon kuvaa­mis­ta ajois­ta. (Kysees­sä lie­nee­kin yksi Suo­men pit­kä­ai­kai­sim­pia ohjelmistoprojekteja.)

    Sur­von uusin ver­sio (SURVO R) perus­tuu avoi­meen läh­de­koo­diin ja on toteu­tet­tu osa­na R‑ohjelmistoa. Sil­lä onnis­tu­vat edel­leen hel­pos­ti Osmon mai­nit­se­mat jär­ke­vät datan läpivalaisut.

    Lisä­tie­to­ja: http://www.survo.fi

  45. Kal­le: Aivan var­mas­ti seu­raa­vat, mut­ta ne eivät kat­so sinun klikkauksiasi.

    Jos tar­koi­tat että klik­kauk­sia ei yhdis­te­tä sosi­aa­li­tur­va­tun­nuk­seen tai että nii­tä ei kat­so­ta manu­aa­li­ses­tii, niin olet mel­ko var­mas­ti oikeas­sa. Muu­ten olet aivan väärässä.

  46. Count­ry­boy: Sur­vo nyt lie­nee jo kau­an sit­ten kadon­nut­ta kansanperinnettä ?

    Ei suin­kaan, Sur­vo-kurs­si kuu­luu edel­leen­kin tilas­to­tie­teen pakol­li­siin perus­o­pin­toi­hin HY:ssä.

    Ovat por­tan­neet sen R:n pääl­le, ja ikä näkyy ikä­väs­ti (käyt­tö­liit­tu­ma bugi­nen ja hidas). Hie­no­ja idei­ta, mut­ta moder­nei­hin teks­tie­di­to­rei­hin ja skrip­ti­kie­liin tot­tu­nee­na en voi sanoa koke­muk­sen olleen eri­tyi­sen positiivinen.

  47. OS kysyy: “Mik­si val­ta­va data­mää­rä tuot­taa niin vähän tietoa?”

    Kysy­mys on vää­rin ase­tet­tu, sil­lä esi­mer­kik­si talous­puo­lel­la eri­lai­sil­la ohjel­mis­toil­la (data mining / big data / jne.) tuo­te­taan koko ajan mas­sii­vi­ses­ti käyt­tö­kel­pois­ta tietoa.

    Edel­lä Jan­ne Sink­ko­nen kir­joit­ti esi­mer­kik­si uusis­ta baye­si­lai­sis­ta mene­tel­mis­tä, jot­ka tule­vat nyt rymi­näl­lä monen­lai­seen käyttöön.

    Itse­kin olen ollut muka­na pro­jek­tis­sa, jos­sa baye­si­lai­sia mene­tel­miä käytettiin. 

    Nii­den etu on juu­ri sii­nä, että voi­daan käsi­tel­lä suu­ria data­mää­riä, moni­mut­kai­sia sys­tee­me­jä ja tulok­se­na saa­daan jopa välit­tö­mäs­ti (on-line) ope­ra­tii­seen käyt­töön sopi­via tuloksia. 

    Nykyi­sin esim. SAP / Hana-sys­tee­mit ovat muut­ta­mas­sa tapaa, jol­la isot fir­mat ja jot­kin maat­kin, ohjaa­vat toi­min­taan­sa ja päätöksentekoaan.

    Arvok­kain­ta tie­toa on juu­ri syy-seu­raus suh­tei­den esiin saa­mi­nen, dynaa­mi­ses­ti, het­ki-het­kel­tä muut­tu­vis­sa tilanteissa.

    Aivan kuten edel­lä monet kir­joit­ti­vat­kin, edel­lä mai­nit­tu käy­tän­nön kehi­tys tapah­tuu kui­ten­kin pää­osin yri­tyk­sis­sä, tie­de­maa­il­man ulkopuolella.

    Tie­de­puo­len paha ongel­ma on hitaus: Esim. väi­tös­kir­jan teko­sykli on n. 5 vuot­ta (erit­täin low-frequency). Tulok­set tup­paa­vat siten ole­maan pää­osin jo van­hen­tu­nut­ta ja sik­si käyt­tö­kel­vo­ton­ta tava­raa. Kan­nat­taa muis­taa, että tie­don mää­rä kan­sin­ker­tais­tuu kah­des­sa vuodessa…

    Tie­toa siis tulee kyl­lä val­ta­vas­ti, mut­ta se jää yri­tyk­siin. Esim. high-frequency tra­ding-ohjel­mis­tot ovat huip­pusa­lai­sia ja niil­lä teh­dään miljardeja…

    Olen ymmär­tä­nyt, että val­to­va­rain­mi­nis­te­riös­sä on var­sin hyvät sys­tee­mit jo nyt, mut­ta kan­nat­tai­si­ko­han nii­tä­kin päi­vit­tää uusil­la baye­si­lai­sil­la mene­tel­mil­lä, on-line käyttöön?

    Sil­loin esi­mer­kik­si bud­jet­ti­neu­vot­te­luis­sa polii­ti­kot sai­si­vat heti tie­tää mitä jokin vero­pää­tös todel­li­suu­des­sa mer­kit­see… Näin Suo­mi Oy saa­tai­siin siir­ty­mään nykyaikaan!

    Luu­lem­pa kui­ten­kin, että täl­lai­nen sys­tee­mi teh­dään ensin high-frequency-Viros­sa, eikä pysäh­ty­nei­syy­den (zero-frequency) Suomessa?

    Sep­po Korppoo
    Baye­siin usko­va, high-frequency-yrittäjä

  48. Kal­le: Aivan var­mas­ti seu­raa­vat, mut­ta ne eivät kat­so sinun klik­kauk­sia­si. Ne saat­ta­vat kat­soa suo­ma­lais­ten klik­kauk­sia tai toden­nä­köi­sem­min Nord­Balt-klik­kauk­sia. Niil­lä on var­mas­ti parem­pi käsi­tys mm. talou­den tilas­ta ja tren­deis­tä, kuin Suo­mes­sa yhdel­lä­kään ministeriöllä.

    Pitää olla jon­kin­lai­nen syy, tut­kia juu­ri sinun klik­kauk­sia­si. FSB voi­si olla kii­nos­tu­nut Osmon klik­kauk­sis­ta, mut­ta tus­kin sinun tai minun klik­kauk­sis­ta. Jopa USA:lla, Kii­nal­la ja Venä­jäl­lä on rajoi­te­tut resurs­sit tie­don seu­lo­mi­seen. Oma lain­sää­dän­töm­me­hän on nau­ret­ta­van ja itket­tä­vän raja­mail­ta. Ruot­si­kin seu­raa parem­min tapah­tu­mia Suo­mes­sa kuin me itse. 🙁

    Niin, no sii­tä FSB:stä nyt en tie­dä, että mikä sitä kiin­nos­taa. Mut­ta kyl­lä ne Google ja Face­book seu­raa­vat ihan kaik­kien klik­kauk­sia. Ja on sii­hen syy­kin, että mik­si seu­raa­vat. Syy on se, että kuta­kuin­kin kaik­ki, joil­la maa­il­mas­sa nyt yli­pää­tään on mah­dol­li­suus klik­kail­la, osta­vat jotain. Ja sit­ten taas ne, jot­ka halua­vat myy­dä jotain, usein mai­nos­ta­vat. Ja Google ja Face­book sit­ten myy­vät mai­nos­ti­laa niil­le, jot­ka halua­vat myydä.

  49. Tero Tolo­nen: Avoi­muu­den kaut­ta voi­sim­me luo­da tur­val­li­sem­paa ja tehok­kaam­paa yhteiskuntaa. 

    Sekä ava­ta itsem­me yhä tehok­kaam­mal­le hyväk­si­käy­töl­le, mani­pu­laa­tiol­le ja var­kau­del­le. Jot­kin ihmi­set pitä­vät täs­tä­kin ajatuksesta.

    Jos tie­to­ja ava­taan, sen tulee sym­met­rian vuok­si kos­kea kaik­kia toi­mi­joi­ta — kau­pal­li­set ja val­tiol­li­set mukaan­lu­kien. Muu­ten hai­tat ovat tosia­sial­li­sia. Eli lii­ke­sa­lai­suu­det ja ydin­a­se­koo­dit vapaik­si myös, jos ker­ran tuos­ta läh­de­tään. Sen jäl­keen ei tar­vit­se­kaan kuin muut­taa ihmis­luon­ne, kos­ka sil­lä kiusauk­sen ja hen­ki­sen pahoin­pi­te­lyn mää­räl­lä, jota inter­ne­tis­sä jo nykyi­sel­lään­kin näkee, vaik­kei kaik­kia tie­to­ja ole­kaan saa­ta­vil­la, ei ihmis­ten tie­to­jen avaa­mi­sel­la aiheu­te­ta kuin haittaa.

  50. pyt­ho­nis­ti: Ovat por­tan­neet sen R:n pääl­le, ja ikä näkyy ikä­väs­ti (käyt­tö­liit­tu­ma bugi­nen ja hidas). Hie­no­ja idei­ta, mut­ta moder­nei­hin teks­tie­di­to­rei­hin ja skrip­ti­kie­liin tot­tu­nee­na en voi sanoa koke­muk­sen olleen eri­tyi­sen posi

    Minus­ta ikä taas näkyy Sur­vos­sa kun­nioi­tet­ta­vas­ti. Pari­kym­men­tä vuot­ta sit­ten teke­mä­ni sur­vos­krip­tit toi­mi­vat edel­leen uudes­sa Sur­vo R:ssä ja bugeis­ta­kin on pääs­ty pie­nen väli­vai­heen jäl­keen koko­lail­la eroon. Työn tuot­ta­vuut­ta ei ole tar­vin­nut haas­ka­ta ihmeel­li­siin käyt­tö­liit­ty­män muu­tos­ten opetteluihin.

  51. pyt­ho­nis­ti: Ei suin­kaan, Sur­vo-kurs­si kuu­luu edel­leen­kin tilas­to­tie­teen pakol­li­siin perus­o­pin­toi­hin HY:ssä.

    Ovat por­tan­neet sen R:n pääl­le, ja ikä näkyy ikä­väs­ti (käyt­tö­liit­tu­ma bugi­nen ja hidas). Hie­no­ja idei­ta, mut­ta moder­nei­hin teks­tie­di­to­rei­hin ja skrip­ti­kie­liin tot­tu­nee­na en voi sanoa koke­muk­sen olleen eri­tyi­sen positiivinen.

    Aika­naan vit­sail­tiin, että SURVO tar­koit­ti Kei­no­sie­men­nyk­sen kehit­tä­mis- ja edistämisyhdistystä !

  52. > Mik­si val­ta­va data­mää­rä tuot­taa niin vähän tietoa?

    Yksi vas­taus kysymk­seen on se, että tie­toa kyl­lä tuo­te­taan val­ta­vas­ti, mut­ta ehkä eri tar­koi­tuk­siin kuin haluai­sit. Tie­toa tuo­te­taan var­maan­kin run­saas­ti mai­non­taan liit­tyen, mut­ta ei kovin­kaan pal­joa yhteis­kun­nal­lis­ta tut­ki­mus­ta varten.

  53. Jan­ne Sink­ko­nen:
    Vie­lä ihmis­tie­teis­tä: ne ovat kär­si­neet mones­sa koh­taa sii­tä, ettei kokei­ta voi tehdä. 

    No nyt kokei­ta voi teh­dä, webin kaut­ta, ja nii­den teke­mi­nen on arki­päi­vää. Esim. Amazon on opti­moi­nut sivus­to­jaan luke­mat­to­mien satun­nais­tet­tu­jen kokei­den kaut­ta, ja Face­boo­kil­la on aina­kin peri­aat­tees­sa mah­dol­li­suus mani­pu­loi­da käyt­tä­jien­sä mie­len­ti­lo­ja omien pää­mää­rien­sä mukaan, esim. val­ti­se­mal­la mitä päi­vi­tyk­siä heil­le näytetään.

    Nämä kokeet vain tapah­tu­vat tiu­kan ope­ra­tio­naa­li­ses­sa kon­teks­tis­sa. Ne eivät joh­da teo­rian­muo­dos­tuk­seen. Kyse on enem­män teko­ä­lys­tä, joka osaa mak­si­moi­da valit­tu­ja uti­li­teet­te­ja mut­ta jota kukaan ei ymmär­rä (jos ei nyt, niin kohta).

    En ole asian­tun­ti­ja, mut­ta kuu­lin muu­ta­ma vuo­si sit­ten IBM:n Ber­nar­do Huber­ma­nin mie­len­kiin­toi­sen kol­lo­kvio­pu­heen sii­tä miten nyky­ään tut­ki­taan ylei­sen huo­mion kes­kit­ty­mis­tä eri aihei­siin seu­raa­mal­la sosi­aa­lis­ta medi­aa. Tätä on käy­tet­ty vaik­ka­pa elo­ku­vien mai­nos­tuk­sen seu­ran­nas­sa, mut­ta saa­dus­ta tie­dos­ta on voi­tu teh­dä myös kva­li­ta­tii­vi­sia joh­to­pää­tök­siä, ks. http://www.hpl.hp.com/research/idl/results.html — esim. täs­sä jul­kai­sus­sa http://www.hpl.hp.com/research/scl/papers/random/random.pdf osoi­tet­tiin, kuin­ka käyt­tä­jien teke­mät valin­ta­ket­jut ovat kor­re­loi­tu­nei­ta, mikä inva­li­doi usein teh­dyn täy­den satun­nai­sen käy­tök­sen oletuksen.

    En nyt siis sanoi­si, ettei­vät­kö tulok­set voi­si joh­taa myös teo­rian­muo­dos­tuk­seen. Sitä teh­dään tie­tääk­se­ni mel­ko pal­jon aina­kin sosio- ja eko­no­fy­sii­kan aloil­la, jota tut­ki­taan myös esim. Aalto-yliopistossa.

  54. Val­ta­va data­mää­rä voi aiheut­taa myös val­ta­van moni­mut­kai­set sys­tee­mit datan käsit­te­lyyn. Vrt. ilmas­ton­muu­tos­las­kel­mat jos­sa val­ta­via data­mää­riä työs­te­tään val­ta­vil­la tietokoneohjelmilla.

    Lop­pu­tu­los on että vain kou­ral­li­nen ihmi­siä koko maa­il­mas­sa ymmär­tää poh­jia myö­ten, että mis­tä on kyse. Val­ta­vat sys­tee­mit teke­vät taval­li­sel­le sukan­ku­lut­ta­jal­le vai­keam­mak­si todel­la ymmär­tää, että mitä kaik­kea täss­sä nyt oikein teh­dään kund ana­ly­soi­daan dataa. Täs­sä mie­les­sä van­ha pape­ri ja kynä saat­toi olla peda­go­gi­ses­ti parem­pia ja havainnollisempi.

  55. Pää­asias­sa samaa miel­tä täs­tä kir­joi­tuk­ses­ta. Kui­ten­kaan en näki­si niin sel­vä­nä, että tut­ki­joil­la — siis viran­omai­sil­la — pitäi­si olla pää­sy kan­sa­lais­ten kaik­kiin tie­toi­hin. Voi­daan­ko luot­taa, että viran­omai­set esim. Suo­mes­sa ovat aina hyvää tar­koit­ta­via? Tota­li­ta­ris­ti­sia jär­jes­tel­miä ei kai enää synny?

  56. ano­nyy­mi: Sekä ava­ta itsem­me yhä tehok­kaam­mal­le hyväk­si­käy­töl­le, mani­pu­laa­tiol­le ja var­kau­del­le. Jot­kin ihmi­set pitä­vät täs­tä­kin ajatuksesta.

    Jos tie­to­ja ava­taan, sen tulee sym­met­rian vuok­si kos­kea kaik­kia toi­mi­joi­ta – kau­pal­li­set ja val­tiol­li­set mukaan­lu­kien. Muu­ten hai­tat ovat tosia­sial­li­sia. Eli lii­ke­sa­lai­suu­det ja ydin­a­se­koo­dit vapaik­si myös, jos ker­ran tuos­ta lähdetään. 

    Yri­tys­ten kar­tel­le­ja, patent­te­ja, veron­kier­toa, ydin­a­sei­ta, jne. vas­taan toki käy­dään tais­te­lua, mut­ta on vai­kea näh­dä miten tämä oli­si mah­dol­lis­ta ilman avoi­muut­ta tai tie­toa kus­ta­kin aihees­ta? Samoin on vai­kea näh­dä miten net­ti­kiusaa­mis­ta voi­tai­siin ehkäis­tä, jos ei oli­si mah­dol­lis­ta tun­nis­taa teki­jöi­tä? Tie­don avaa­mi­nen on siis olta­va mah­dol­lis­ta, vii­meis­tään lain edessä.

    Mikä­li ainoa vaih­toeh­to on, että kaik­ki tie­to on salat­ta­vis­sa ja täl­löin taas ollaan juu­ri nii­den har­vo­jen armoil­la jot­ka pys­ty­vät ano­ny­mi­tee­tin suo­jas­ta teke­mään pahojaan.

    Yksi­tyis­hen­ki­löil­lä tulee kui­ten­kin olla oma suo­jan­sa, jot­ta hen­ki­löi­hin koh­dis­tu­vaa ilki­val­taa voi­daan estää — täy­del­lis­tä suo­jaa ei mikään meka­nis­mi kui­ten­kaan voi taa­ta. Tämän vuok­si yhteis­kun­nan tuli­si pyr­kiä sii­hen, että jokai­nen teko oli­si vähin­tään­kin jäl­ji­tet­tä­vis­sä tekijäänsä.

  57. Pal­jon hyvää ajat­te­lua ja kom­ment­te­ja, mut­ta täs­sä vie­lä muu­ta­ma käy­tän­nön näkö­kul­ma. (Varoi­tus: saat­taa sisäl­tää rajua yleis­tä­mis­tä, joten ei kan­na­ta loukkaantua.)

    Lää­ke­tie­teel­li­nen tut­ki­mus on ihan oma lajin­sa. Empii­ris­tä tut­ki­mus­ta on vai­kea eri­lais­ten poti­las­tur­val­li­suus- ja kus­tan­nus­syi­den takia teh­dä. Toi­saal­ta jul­kai­suis­sa tui­jo­te­taan erit­täin tar­kas­ti sitä, että p=.05 täyt­tyy, ja että tilas­tol­li­nen tar­kas­te­lu näyt­tää oikealta. 

    Sitä sen sijaan eivät refe­reet niin tar­kas­ti tui­jo­ta, ovat­ko hypo­tee­sit ihan oikein, tai onko koea­se­tel­ma oikeas­ti jär­ke­vä. Aika moni jul­kais­tu artik­ke­li on pit­kän hie­ro­mi­sen tulos; työ on teh­ty hiu­kan vää­räl­lä taval­la, ja sen jäl­keen hikoil­laan tulos­ten saa­mi­ses­sa viral­li­seen muottiin.

    Sinän­sä on hyvä, että lää­ke­tie­tees­sä vaa­di­taan hyvää tilas­to­jen käsit­te­lyä. Tämä kui­ten­kin estää nii­den tulos­ten jul­kai­se­mi­sen, jot­ka voi­si­vat olla arvok­kai­ta, mut­ta joi­ta ei saa puris­tet­tua muot­tiin. Lisäk­si isom­pi ongel­ma on usein koea­se­tel­man suun­nit­te­lus­sa, jol­loin fokuk­sen vie­mi­nen tulos­ten käsit­te­lyyn menee vää­rään suun­taan. Tulok­set voi kyl­lä käsi­tel­lä uudel­leen, jos koea­se­tel­ma on hyvä mut­ta dataa on koh­del­tu vää­rin. Toi­sin päin ei onnistu.

    Talous­tie­de taas pitää välil­lä tilas­to­me­ne­tel­mis­tä lii­kaa­kin. Kai­ken­lai­nen kiva fak­to­ria­na­lyy­si ja klus­te­roin­ti on käy­tös­sä. Sit­ten, kun tulok­sia raa­put­taa sel­vem­min, klus­te­roin­ti on lopul­ta teh­ty tut­ki­jan Harrison-Stetson-algoritmilla. 

    Oikeas­ti kyse on inhi­mil­li­ses­tä päät­te­lys­tä, joka voi kyl­lä tuot­taa erit­täin oikei­ta­kin tulok­sia, mut­ta asia ver­ho­taan hie­noi­hin tilas­to­ma­te­maat­ti­siin ter­mei­hin, jot­ka eivät ole oikeas­ti hal­lus­sa sen parem­min kir­joit­ta­jal­la kuin lukijallakaan.

    Sen lisäk­si talous­tie­tei­li­jöil­le tulee hel­pos­ti paha mie­li, jos vink­kaa, että mate­ma­tiik­ka ei ole mie­li­pi­de­ky­sy­mys. Oli­si­ko niin, että mate­ma­tiik­kaa oikeas­ti ymmär­tä­vät talous­ih­mi­set ovat yksi­tyi­sel­lä puo­lel­la paran­ta­mas­sa taloustilannettaan?

    Insi­nöö­rit taas käy­tän­nön elä­mäs­sä löy­tä­vät kivan työ­ka­lun ja sovel­ta­vat sitä mel­kein mihin vain. Esi­mer­kik­si pää­kom­po­nent­tia­na­lyy­sil­la saa mie­len­kiin­toi­sia tulok­sia aikaan, ja mene­tel­mä on muka­van deter­mi­nis­ti­sen oloi­nen. Mut­ta jos datan syn­ty­me­ka­nis­mi on hukas­sa, tulok­sil­la on vain tai­teel­li­nen arvo.

    Yri­tyk­set hie­ro­vat datas­ta vaik­ka mitä. Esi­mer­kik­si luot­to­kort­tiyh­tiöl­le on tär­ke­ää tun­nis­taa luot­to­ris­kit ja petok­set nopeas­ti ja auto­maat­ti­ses­ti. Samoin tie­tys­ti Google yrit­tää pro­fi­loi­da mai­nok­si­aan luki­jan mukaan.

    Näil­le sovel­luk­sil­le omi­nais­ta on se, että tie­de pide­tään kau­ka­na. Ketään ei kiin­nos­ta, onko p=.05. Usein yri­tyk­sel­le riit­tää se, että saa odd­sit vähän parem­min puo­lel­leen. Minul­le­kin kel­paa rule­tin­pe­luu, jos pys­tyn edes vähän sat­tu­maa parem­min arvaa­maan seu­raa­van nume­ron. (Tai ehkä vie­lä rea­lis­ti­sem­min sama pörssissä.)

    Ja toki isos­ti vai­kut­taa sekin, että yri­tyk­set voi­vat teh­dä kokei­lui­ta kysy­mät­tä keneltäkään.

    Yri­tyk­sil­lä on myös pal­jon kanan­lui­hin ja homeo­pa­ti­aan perus­tu­vaa datan­kä­sit­te­lyä (kuten mel­kein koko mainosala).

    Big data taas on ihan oma olion­sa. Sehän ei miten­kään ensi­si­jai­ses­ti tar­koi­ta siis­te­jä homo­gee­ni­sia data­sar­jo­ja, vaan yleen­sä hyvin­kin epä­ho­mo­gee­nis­ta dataa. On vie­lä help­po repiä nume­roi­ta reit­tiop­paan käy­tös­tä, mut­ta mie­lek­kään datan irroit­ta­mi­nen vaik­ka­pa Hesa­rin arkis­tos­ta (teks­tiä, kuvia, jne.) on vaikeampaa.

    Face­book, Google &kumpp. käyt­tä­vät ansiok­kaas­ti big dataa, mut­ta sil­loin­kin kysees­sä ovat erit­täin suu­rel­la rahal­la ja vai­val­la kehi­te­tyt algo­rit­mit, joil­la saa var­sin rajoi­te­tus­ti tie­toa irti. Inhi­mil­li­nen äly sai­si samas­ta tie­to­mää­räs­tä pal­jon enem­män hyö­tyä irti, jos inhi­mil­lis­tä älyä voi­si sovel­taa tuol­lai­seen tietomassaan.

    Var­sin olen­nais­ta on se, että ei ole ole­mas­sa mitään yleis­tä algo­rit­mia, joka löy­täi­si kivaa infoa isos­ta data­pi­nos­ta. On iso kasa työ­ka­lu­ja, joi­ta oikein sovel­ta­mal­la voi ison työn jäl­keen saa­da jotain juu­ri halut­tuun sovel­luk­seen sopi­vaa. Tie­to­ko­neet pys­ty­vät kyl­lä teke­mään esi­mer­kik­si kuvan­tun­nis­tus­ta tie­tyis­sä sovel­luk­sis­sa, mut­ta algo­rit­mit ovat osin hyvin moni­mut­kai­sia ja raskaita.

    Tie­don­lou­hin­taan big datas­ta käy­te­tään hie­noa van­haa sananlaskua: 

    Data mining is tor­tu­ring data until it con­fes­ses. If you tor­tu­re it long enough, it will con­fess to anything.

    Tilas­to­tie­tees­tä on pal­jon iloa sil­loin, kun on yhteis­mi­tal­li­sia tai yhteis­mi­tal­lis­tet­ta­via tie­to­mas­so­ja. Nii­tä on kui­ten­kin yllät­tä­vän vähän. Jopa eri­lai­sis­sa tut­ki­muk­sis­sa kerä­tyt tie­to­mas­sat voi­vat olla yllät­tä­vän epä­ho­mo­gee­ni­sia, jos koh­tee­na ovat ihmiset.

    Visua­li­soin­nis­ta olen Osmon kans­sa samaa miel­tä, se on erit­täin tär­ke­ää. Kui­ten­kin blo­gis­ti esit­tää erit­täin opti­mis­ti­sen lausun­non: “Enää ei onnek­si tar­vit­se käyt­tää mil­li­met­ri­pa­pe­ria ja lyi­jy­ky­nää, vaan tasok­kai­ta kuvia saa tie­to­ko­neen näyt­tää murto-osasekunnissa.”

    Näin tie­tys­ti on, jos plo­tat­ta­va­na on vii­si­kym­men­tä pis­tet­tä, joi­hin pitää sovit­taa suo­ra. Visua­li­soin­tiin ei kui­ten­kaan ole mitään graa­lin mal­jaa, eikä tar­vit­se olla kovin kum­mal­li­nen visua­li­soin­ti, niin tar­vi­taan aika syväl­lis­tä osaa­mis­ta, kos­ka val­miit työ­ka­lut eivät aivan käykään.

    Eri­tyi­ses­ti isom­mil­la data­sar­joil­la jo aivan yksin­ker­tai­set perus­asiat ovat monil­la työ­ka­luil­la han­ka­lia — esi­merk­ki­nä muu­ta­man mil­joo­nan pis­teen mie­lek­kään par­vi­ku­vion (scat­ter plot) tekeminen.

    Ja jos sit­ten men­nään vie­lä otta­maan kol­mas ulot­tu­vuus ja aikau­lot­tu­vuus mukaan, työ­ka­luis­ta alka­vat val­miit vaih­toeh­dot kutis­tua aika lail­la. Kui­ten­kin näil­lä on erit­täin suu­ri mer­ki­tys datan visua­li­soin­nin ymmär­ret­tä­vyy­teen mones­sa tilanteessa.

    Hyvän visua­li­soin­nin teke­mi­nen vaa­tii toi­saal­ta sekä hyvää ymmär­rys­tä datas­ta että hyvää visu­aa­lis­ta näke­mys­tä. Aika usein näkee esi­mer­kik­si leh­tien info­gra­fiik­kaa, joka näyt­tää hie­nol­ta mut­ta on sisäl­löl­li­ses­ti esi­tys­ta­val­taan sitä itse­ään. Toi­saal­ta visu­aa­li­ses­ti hei­kos­ti toteu­tet­tu vah­vaan dataan poh­jau­tu­va­kin gra­fiik­ka on epäin­for­ma­tii­vis­ta useim­mil­le katsojille.

  58. dio­di: Ei tar­vit­se. Tut­ki­ja tar­vit­see kei­non iden­ti­fioi­da sama mat­ka­kort­ti eri lii­ken­ne­vä­li­neis­sä. HSL-mat­ka­kort­tin toteu­tus on hyvä esi­merk­ki tie­to­suo­jan ongel­mis­ta jot­ka syn­ty­vät tai­ta­mat­to­muu­des­ta ja välinpitämättömyydestä:

    Ihan help­poa ei ole teh­dä ano­nyy­miä mat­ka­kort­ti­jär­jes­te­lyä, jos­ta sai­si irti ihmis­ten kul­ku­tie­dot. Täs­sä pulmakohtia:

    - jos kort­ti­jär­jes­tel­mä sal­lii aika­mak­sa­mi­sen, kort­ti pitää sitoa hen­ki­löön taval­la, joka on lii­ken­neo­pe­raat­to­rin seurattavissa

    - kort­ti­jär­jes­tel­mä ei kerää poistumistietoja

    - kort­ti­jär­jes­tel­mä ei kerää rai­de­lii­ken­teen nousu­tie­to­ja aikamatkaajilta

    - jot­ta ihmis­ten todel­li­nen liik­ku­mis­tar­ve sel­viäi­si, kor­tin iden­ti­tee­tin pitää säi­lyä lii­ken­ne­vä­li­neen vaih­don yli

    Koko tuon jär­jes­te­lyn teke­mi­nen ano­nyy­mik­si vaa­tii väis­tä­mät­tä luo­tet­ta­van kol­man­nen osa­puo­len, jos mat­kus­ta­ja ei luo­ta jär­jes­tel­män yllä­pi­tä­jään. (Jär­jes­tel­män yllä­pi­tä­jä ei voi myös­kään luot­taa mat­kus­ta­jaan, jol­la on talou­del­li­nen insen­tii­vi huijata.)

    = = =

    Luot­ta­mus on ylei­sem­min­kin tie­tys­ti se olen­nai­nen aspek­ti. Yleen­sä kysy­mys on eni­ten sii­nä, luo­tam­me­ko me viranomaisiin.

    Jos viran­omai­set ovat luo­tet­ta­via, yksi­tyi­syy­son­gel­mat voi­daan hoi­taa lain­sää­dän­nöl­lä. Kaik­ki tie­to voi­daan kerä­tä tal­teen, mut­ta sitä saa hyö­dyn­tää vain lain­sää­dän­nön puitteissa.

    Jos viran­omai­set eivät ole luo­tet­ta­via, tie­toa ker­tyy jo nyt lii­kaa aika­mat­kaa­vil­ta bus­si­mat­kus­ta­jil­ta. Täs­sä ske­naa­rios­sa pitää läh­teä sii­tä, että kaik­ki se tie­to on kerät­ty, jon­ka viran­omai­nen on jos­kus jos­sain joten­kin voi­nut kerätä.

    Täs­sä suh­tees­sa mat­ka­kor­tis­ta ei kan­nat­ta­ne olla kovin huo­lis­saan. Mat­ka­kort­ti tar­jo­aa mah­dol­li­suu­den mat­kus­taa hal­ti­ja­koh­tai­sel­la kor­til­la, jota voi vaih­taa pre­paid-liit­ty­mien tavoin ihan niin pal­jon kuin haluaa.

    Pal­jon isom­pia yksi­tyi­syy­den suo­jaan liit­ty­viä jut­tu­ja on liik­keel­lä. Val­von­ta­ka­me­roi­ta on koko ajan enem­män, ja nii­tä on myös jul­ki­sis­sa lii­ken­ne­vä­li­neis­sä. Ja ihan viral­li­ses­ti­kin on ole­mas­sa sel­lai­nen asia kuin Kan­Ta, johon yksi­tyi­syy­den suo­jas­taan kiin­nos­tu­nei­den kan­sa­lais­ten kan­nat­tai­si ehkä tutus­tua vähän syvällisemmin.

  59. Vihe­rins­si: Ihan help­poa ei ole teh­dä ano­nyy­miä mat­ka­kort­ti­jär­jes­te­lyä, jos­ta sai­si irti ihmis­ten kul­ku­tie­dot. Täs­sä pulmakohtia:

    – jos kort­ti­jär­jes­tel­mä sal­lii aika­mak­sa­mi­sen, kort­ti pitää sitoa hen­ki­löön taval­la, joka on lii­ken­neo­pe­raat­to­rin seurattavissa

    – kort­ti­jär­jes­tel­mä ei kerää poistumistietoja

    – kort­ti­jär­jes­tel­mä ei kerää rai­de­lii­ken­teen nousu­tie­to­ja aikamatkaajilta

    – jot­ta ihmis­ten todel­li­nen liik­ku­mis­tar­ve sel­viäi­si, kor­tin iden­ti­tee­tin pitää säi­lyä lii­ken­ne­vä­li­neen vaih­don yli

    Lue uudes­taan mitä kir­joi­tin aja­tuk­sen kanssa. 

    Kaik­ki nuo esit­tä­mä­si koh­dat voi­daan rat­kais­ta niin, että hen­ki­löä ja kort­tia ei yhdis­te­tä tie­to­kan­nas­sa. Kort­tiin voi­daan vaik­ka prin­ta­ta hen­ki­lön nimi, kuva ja hen­ki­lö­tun­nus, mut­ta kor­tin sar­ja­nu­me­roa ei mis­sään lin­ki­te­tä hen­ki­löön tie­to­kan­nas­sa. Kort­tia voi­daan seu­ra­ta, mut­ta sitä ei voi­da yhdis­tää hen­ki­löön ilman hen­ki­lön suos­tu­mus­ta (näyt­tää kort­tia tai syöt­tää kor­tin tie­dot joi­ta käy­te­tään luo­maan link­ki hen­ki­lön ja kor­tin välil­le tran­sak­tion ajaksi).

  60. dio­di: Kaik­ki nuo esit­tä­mä­si koh­dat voi­daan rat­kais­ta niin, että hen­ki­löä ja kort­tia ei yhdis­te­tä tie­to­kan­nas­sa. Kort­tiin voi­daan vaik­ka prin­ta­ta hen­ki­lön nimi, kuva ja hen­ki­lö­tun­nus, mut­ta kor­tin sar­ja­nu­me­roa ei mis­sään lin­ki­te­tä hen­ki­löön tie­to­kan­nas­sa. Kort­tia voi­daan seu­ra­ta, mut­ta sitä ei voi­da yhdis­tää hen­ki­löön ilman hen­ki­lön suos­tu­mus­ta (näyt­tää kort­tia tai syöt­tää kor­tin tie­dot joi­ta käy­te­tään luo­maan link­ki hen­ki­lön ja kor­tin välil­le tran­sak­tion ajaksi).

    Tai­dam­me lähes­tyä asi­aa vähän eri tulo­kul­mis­ta. Minun point­ti­ni on se, että jos muka­na ei ole kol­mat­ta osa­puol­ta, lipun myön­tä­jä voi halu­tes­saan koh­tuul­li­sen hel­pos­ti rik­koa yksi­tyi­syy­den suo­ja­si. Se voi edel­lyt­tää sään­tö­jen rik­ko­mis­ta, mut­ta jos lipun myön­tä­jän ole­te­taan ole­tet­ta­van luo­tet­ta­va taho, sil­loin yksi­tyi­syy­son­gel­ma redusoi­tuu sopi­vien sään­tö­jen tekemiseksi.

    Esit­tä­mäs­sä­si tapauk­ses­sa (nimi prin­ta­taan kort­tiin) kort­ti­si yksi­löin­ti­tie­toi­neen ja sinun hen­ki­lö­tie­to­si ovat saman­ai­kai­ses­ti kor­tin myön­tä­jän jo myyn­ti­het­kel­lä, joten myön­tä­jä voi teh­dä niis­tä tie­to­kan­nan jo silloin.

    Tämä on vie­lä kier­ret­tä­vis­sä sil­lä, että itse kir­joi­tat oman hetusi kort­tiin ja kan­nat muka­na erik­seen han­kit­tua todis­tus­ta sii­tä, mis­sä asut ja mihin alen­nuk­siin olet oikeu­tet­tu. Täl­löin voit toi­mia täy­sin ano­nyy­mis­ti kort­tia ostaes­sa­si, jol­loin kor­tin ja sinun iden­ti­teet­ti­si eivät ole yhdistettävissä.

    Tämä toi­mii ano­nyy­mis­ti täs­mäl­leen sii­hen het­keen, kun lipun­tar­kas­ta­ja kysyy kort­tia­si. Sinun on pak­ko antaa kort­ti­si ja hen­ki­lö­tie­to­si hänel­le samaan aikaan, jot­ta hän voi tar­kas­taa, että kor­til­la on mak­set­tu mat­ka, ja että kort­ti on oikeal­la hal­ti­jal­la. Sen jäl­keen kor­tin myön­tä­jäl­lä onkin link­ki sinun ja kor­tin iden­ti­teet­tien välil­lä. Tätä voi­daan iloi­ses­ti sovel­taa nyky­het­keen, men­nei­syy­teen ja tule­vai­suu­teen­kin, jol­let hei­tä joka tar­kas­tuk­sen jäl­keen kort­tia jorpakkoon.

    Luo­tet­ta­van kol­man­nen osa­puo­len mukaan­tu­lo tekee tilan­tees­ta hiu­kan hel­pom­man. Yksi mah­dol­li­nen tapa hoi­taa tie­to­tur­va on teh­dä kort­ti, jon­ka sisäl­lä on kel­lo ja suu­ri mää­rä (lähes) ker­ta­käyt­töi­siä uni­ver­saa­lis­ti uniik­ke­ja koo­de­ja. Kun kor­til­ta kysy­tään iden­ti­teet­tiä, se antaa aina uuden salai­suu­den pait­si jos voi­mas­sao­le­va salai­suus on alle (esi­mer­kik­si) kak­si tun­tia vanha.

    Kun kort­ti ote­taan käyt­töön, se käy­dään rekis­te­röi­mäs­sä lii­ken­neo­pe­raat­to­ril­le, jol­loin esi­te­tään kaik­ki hetut ja todis­teet asuin­pai­kas­ta, opis­ke­lus­ta­tuk­ses­ta ym. Lii­ken­neo­pe­raat­to­ri lähet­tää hetusi ja kor­tin anta­man salai­suu­den kol­man­nel­le osa­puo­lel­le. (Sta­tus­tie­dot voi säi­lyt­tää joko lii­ken­neo­pe­raat­to­ri, sinä tai kol­mas osa­puo­li lii­tet­ty­nä hetuusi.)

    Tämän ope­raa­tion jäl­keen kol­mas osa­puo­li pys­tyy yhdis­tä­mään kor­tin ja hal­ti­jan iden­ti­tee­tit toi­siin­sa. Kel­lään muul­la ei ole mah­dol­li­suut­ta yhdis­tää kor­tin anta­maa salai­suut­ta ja kort­tia toi­siin­sa kuin het­ken aikaa.

    Sama kos­kee lii­ken­ne­vä­li­nei­siin nouse­mis­ta. Kort­ti on iden­ti­fioi­ta­vis­sa mat­kan ajan (pari tun­tia), mut­ta ilta­päi­väl­lä sil­lä on eri iden­ti­teet­ti kuin aamulla.

    Jos tulee lipun­tar­kas­tus, tar­kas­ta­ja lähet­tää kor­tin sen­het­ki­sen salai­suu­den ja hal­ti­jan hetun kol­man­nel­le osa­puo­lel­le, joka var­mis­taa yhteen­kuu­lu­vuu­den. Täs­sä hetu ja kort­ti yhdis­ty­vät mut­ta vain hetkeksi.

    Yllä­ku­va­tul­la taval­la teh­ty­nä jär­jes­tel­mä on tek­no­lo­gi­ses­ti hyvin yksin­ker­tai­nen. Kor­til­la ole­van kel­lon­kaan ei tar­vit­se olla tark­ka, ja voi­han kort­tiin lait­taa nap­pu­lan koo­din pika­vaih­toa var­ten, jos tulee seu­rat­tu olo.

    Luo­tet­ta­val­la osa­puo­lel­la (voi olla joku muu­kin kuin edel­lä­ole­va hetu­jen ja iden­ti­teet­tien säi­lyt­tä­jä) on täs­sä tosin toi­nen­kin tar­ve. Sen pitää var­mis­taa, että kort­ti on tek­ni­ses­ti sel­lai­nen ettei­vät sen kom­mu­ni­kaa­tio­pro­to­kol­lat mah­dol­lis­ta min­kään seu­ran­ta­tie­don syöt­tä­mis­tä kortille.

    Yllä­ole­va on yksin­ker­tai­sin kek­si­mä­ni sys­tee­mi, jos­sa on mat­ka­koh­tai­nen seu­rat­ta­vuus mut­ta jos­sa ope­raat­to­ri ei voi mil­lään kie­roi­lul­la­kaan raken­taa tie­to­kan­taa, jos­sa pys­ty­tään seu­raa­maan hen­ki­lön liikkumista.

    Käy­tän­nön kan­nal­ta jär­jes­tel­mä on sii­nä han­ka­la, ettei kort­ti voi esi­mer­kik­si rapor­toi­ta jäl­jel­lä ole­vaa raha­sum­maa tai kaut­ta, kos­ka nii­tä on jo hel­poh­ko käyt­tää seu­ran­taan. Myös­kään nykyi­sen­kal­tais­ta rahan säi­ly­mis­tä kor­tin huk­ku­mis­ti­lan­tees­sa ei voi­da tehdä.

    Toden­nä­köi­ses­ti ainoa tapa saa­da sie­det­tä­vä käy­tet­tä­vyys oli­si ulkois­taa koko hom­ma luo­tet­ta­val­le osa­puo­lel­le, joka hal­lin­noi­si myös raho­ja, kausia, ym. Tämä edel­lyt­täi­si kui­ten­kin reaa­liai­kais­ta yhteyt­tä lii­ken­ne­vä­li­nees­tä kol­man­nel­le osa­puo­lel­le. Hyvä­nä puo­le­na oli­si kui­ten­kin se, ettei kort­ti oli­si mitään muu­ta kuin tunniste.

    Mon­ta pykä­lää hel­po­mal­la pääs­täi­siin, jos kausi­li­put hävi­tet­täi­siin. Sii­nä oli­si muu­ten­kin lii­ken­teel­li­ses­ti jär­keä, ja sil­lä oli­si toden­nä­köi­ses­ti suo­tui­sia ohjaus­vai­ku­tuk­sia. Sen jäl­keen ei tar­vit­tai­si kuin ano­nyy­me­jä lip­pu­ja, jois­sa ei sai­si olla edes sar­ja­nu­me­roi­ta. Tosin sit­ten mene­te­tään myös mat­ka­koh­tai­nen seurattavuus.

    … tai sit­ten luo­te­taan HSL:ään ja käy­dään hoi­ta­mas­sa hämä­rä­hom­mat ei-hen­ki­lö­koh­tai­sel­la kortilla…

    1. Tämä vaik­ka­pa mat­ka­kor­tiin liit­ty­vä tie­to­suo­ja­fo­bia läh­tee ole­tuk­ses­ta, että jul­ki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on läh­tö­koh­ta, mitään tie­toa ei tie­ten­kään voi kerä­tä. Vähän naii­ve­ja ovat aja­tuk­set, että tämä ja tuo pitää olla val­tiol­ta kiel­let­tyä, kos­ka jos jos­kus tulee se fasis­ti­nen pak­ko­val­tio, se käyt­täi­si näi­tä asioi­ta vää­rin — ikään kuin se fasis­ti­nen pak­ko­val­tio ei het­kes­sä muut­tai­si lakeja.

  61. Osmo Soi­nin­vaa­ra:
    Tämä vaik­ka­pa mat­ka­kor­tiin liit­ty­vä tie­to­suo­ja­fom­bia läh­tee oletu8ksesta, että jul­ki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on läh­tö­koh­ta, mitää tie­toa ei tie­ten­kään voi kerätä. 

    Huo­mioon ottaen, että esim. Mika Myl­ly­län tie­to­jen urkin­nas­ta polii­sin tie­to­jär­jes­tel­mis­tä (nii­hin kiin­ni pää­syyn oikeu­tet­tu­jen hen­ki­löi­den pii­ris­tä) tuo­mit­tiin 72 hen­ki­löä ja Anne­li Aue­rin tie­to­jen urkin­nas­ta on meneil­lään liki sata esi­tut­kin­taa voi­ta­nee tode­ta MOT. Läh­de: http://www.hs.fi/kotimaa/a1420686975987

  62. Osmo Soi­nin­vaa­ra:
    Tämä vaik­ka­pa mat­ka­kor­tiin liit­ty­vä tie­to­suo­ja­fom­bia läh­tee oletu8ksesta, että jul­ki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on läh­tö­koh­ta, mitää tie­toa ei tie­ten­kään voi kerä­tä. Vähän naii­ve­ja ovat aja­tuk­set, että tämä ja tuo pitää olla val­tiol­ta kiel­let­tyä, kos­ka jos jos­kus tu8lee se fasis­ti­nen pak­ko­val­tio, se käyt­täi­si näi­tä asioi­ta vää­rin – ikään kuin se fasis­ti­nen pak­ko­val­tio ei het­kes­sä muut­tai­si lakeja. 

    Olet esit­tä­nyt tämän olki­nuk­ke argu­men­tin tois­tu­vas­ti eikä mui­den argu­men­tit näy­tä vai­kut­ta­van mie­li­pi­tee­see­si ja argu­men­toit vas­taan lii­oit­te­le­vil­la fasis­ti­nen pak­ko­val­tio argu­men­teil­la ja vir­heel­li­sel­lä väit­teel­lä ettei tie­toa voi kerätä. 

    ps. Juu­ri nyt on puo­lus­tus­mi­nis­te­riön työ­ryh­mä ehdot­ta­mas­sa väl­jiä val­tuuk­sia ihmis­ten urkintaan.

  63. Osmo Soi­nin­vaa­ra:
    Tämä vaik­ka­pa mat­ka­kor­tiin liit­ty­vä tie­to­suo­ja­fom­bia läh­tee oletu8ksesta, että jul­ki­nen val­ta ei nou­da­ta lake­ja. Jos tämä on läh­tö­koh­ta, mitää tie­toa ei tie­ten­kään voi kerä­tä. Vähän naii­ve­ja ovat aja­tuk­set, että tämä ja tuo pitää olla val­tiol­ta kiel­let­tyä, kos­ka jos jos­kus tu8lee se fasis­ti­nen pak­ko­val­tio, se käyt­täi­si näi­tä asioi­ta vää­rin – ikään kuin se fasis­ti­nen pak­ko­val­tio ei het­kes­sä muut­tai­si lakeja.

    Tai­taa aika moni pelä­tä ihan taval­li­sia tei­kä­läi­siä. Yksi syy on se, että pian myy­täi­siin tina­pa­pe­ria tai kehi­tel­täi­siin mui­ta kik­ko­ja noi­den lait­tei­den hui­jaa­mi­seen. Toi­nen syy voi­si olla se, että monil­le auto edus­taa vapaut­ta, ja jat­ku­va talu­tus­nuo­ras­sa olo ei ehkä vetoa vapau­den­kai­pui­siin kovin hyvin.

    Auto­jäl­ji­tys­jär­jes­tel­män tilal­le voi­si ajatl­la myös iho­na­lais­ta jäl­ji­tys­lai­tet­ta, niin tuli­si tar­kem­pi tulos, eikä vilun­ki­pe­li oli­si yhtä helppoa :-).

    Eli en ihmet­te­le yhtään, mik­si ihmi­set vas­tus­ta­vat. Se on sit­ten eri asia, miten ja mis­tä yhteis­kun­ta tulon­sa kerää, fos­sii­lis­ten käyt­töä rajoit­taa, ties­tön­sä yllä­pi­toa rahoit­taa, ja/tai hal­lin­to val­von­ta­ha­lun­sa tyydyttää.

  64. Mikä­li ihmi­nen kul­kee autol­la täl­lä­kin het­kel­lä, hän­tä voi­daan seu­ra­ta hel­pos­ti, mikä­li esim. kän­nyk­kä on pääl­lä. Jos hän ajaa jon­kun kame­ran ohit­se, rekis­te­ri­kil­ves­tä voi­daan pää­tel­lä kenen omis­ta­ma auto on kysees­sä. Yksi­tyis­hen­ki­löil­lä­kin on keme­roi­ta, joil­la tie­lii­ken­net­tä voi­daan tal­len­taa ja tämä tie­to voi sisäl­tää pal­jon muu­ta­kin tie­toa kuin vain henkilöllisyyden.

    On kui­ten­kin ihan eri asia teh­dä tämä seu­ran­ta salaa niin että ihmi­nen ei tätä tie­dä kuin teh­dä se niin, että ilmoi­te­taan että “hei, me seu­raam­me sinua”.

    Nyky­ai­kai­nen yhteis­kun­ta kui­ten­kin toi­mii niin, että tie­toa siir­re­tään tie­to­ko­neil­la pai­kas­ta toi­seen jat­ku­vas­ti eri muo­dois­sa eikä tätä voi­da estää.

    Kui­ten­kin, jos­tain syys­tä ihmi­set hyvin jyr­käs­ti vas­tus­ta­vat sitä, että heil­le ker­ro­taan että he ovat seu­ran­nas­sa, halu­taan vain lait­taa laput kor­vil­le ja sil­mil­le todel­li­suu­del­ta. Tätä en ymmär­rä lain­kaan. Käy­tän­nös­sä olem­me lähes 24h seu­ran­nas­sa, mut­ta tätä ei halu­ta doku­men­toi­da lainkaan. 

    Parem­pi vaih­toeh­to kui­ten­kin oli­si se, että seu­ran­nas­ta pitäi­si ker­toa, kos­ka nyt sitä teh­dään ihmi­sil­tä salaa. Ja tun­nus­taa, että se on nyky­ai­kai­sen yhteis­kun­nan toi­min­nan elinehto.

  65. Jos kuvi­tel­laan tilan­ne (joo, olen luke­nut lii­kaa dek­ka­rei­ta…) että jouk­ko­lii­ken­ne­vä­li­nees­sä sat­tuu hen­ki­ri­kos, sal­lit­tai­siin­ko kai­vaa mat­ka­kort­ti­tie­dois­ta mah­dol­li­sia sil­min­nä­ki­jöi­tä tai teki­jöi­tä esiin? Entä jos kysees­sä oli­si tör­keä pahoin­pi­te­ly? Tör­keä vahin­gon­te­ko? Tai lie­vem­pi rikos?

    1. Yleen­sä sii­nä vai­hees­sa kun oma lap­si on tul­lut kid­na­pa­tuk­si, moni on sitä miel­tä, että kiud­nap­paa­jan yksi­tyi­syy­den suo­jaan saa påuut­tua jä’l­jit­tä­mäl­lä hänen liik­ku­mius­taan kai­kil­la mah­dol­li­sil­la tavoilla.

  66. Vihe­rins­si: ja mihin alen­nuk­siin olet oikeutettu. 

    Voi­si­ko rat­kai­su olla, että iden­ti­teet­tiin liit­ty­vis­tä hyö­dy­ke­koh­tai­sis­ta alen­nuk­sis­ta luo­vu­taan? Mah­dol­li­set alen­nuk­set oli­si­vat vain mak­su­ta­pa- ja/tai lip­pu­tyyp­pi­koh­tai­sia. Vois­ko iden­ti­teet­tiin perus­tu­vat osto­voi­man kor­jauk­set hoi­taa jol­la­kin yksin­ker­tai­sem­mal­la taval­la yleis­pä­te­väs­ti vaik­ka­pa vero­tuk­ses­sa suu­rem­pi­na lin­jan­ve­toi­na kuin tiet­ty­jen hyö­dyk­kei­den kompensaatioina.

  67. Pek­ka T.:
    Ongel­ma on sekin, että taval­li­nen ihmi­nen – siis sel­lai­nen, joka ei ole saa­nut aihees­ta mitään kou­lu­tus­ta – ei ymmär­rä tilas­to­tie­teis­tä (tai toden­nä­köi­syyk­sis­tä) yhtään mitään. Tämä kos­ke­nee myös suu­rin­ta osaa päättäjistä.

    T

    Erääs­sä äsken ilmes­ty­nees­sä suo­ma­lai­sen lisen­si­aa­tin kir­jas­sa mark­ki­na­ta­lou­des­ta esi­te­tään usei­ta kuvaa­jia ilman seli­tyk­siä. Ei oikein sel­viä edes koor­di­naat­tiak­se­lit; siis mitä oikeas­taan halu­taan kuvailla.

    Teks­tis­sä puhu­taan nega­tii­vi­sis­ta toden­nä­köi­syyk­sis­tä. Toi­saal­la mai­ni­taan, että toden­nä­köi­syys jol­le­kin on var­mas­ti lähes nolla.

    No täl­lä tyy­lil­lä kyl­lä uskot­ta­vuus lähe­nee asymp­toot­ti­ses­ti nollaa.

  68. Osmo Soi­nin­vaa­ra:
    Yleen­sä sii­nä vai­hees­sa kun oma lap­si on tul­lut kid­na­pa­tuk­si, moni on sitä miel­tä, että kiud­nap­paa­jan yksi­tyi­syy­den suo­jaan saa påuut­tua jä’ljittämällä hänen liik­ku­mius­taan kai­kil­la mah­dol­li­sil­la tavoilla.

    Lai­naan lai­nauk­sen kan­san­edus­ta­jaeh­do­kas Jyr­ki J. Kas­vin (vihr.) tois­sa­päi­vän blo­gi­pos­tauk­ses­ta: “kuten jo Ben­ja­min Franklin tote­si: ”Tho­se who sur­ren­der free­dom for secu­ri­ty will not have, nor do they deser­ve, eit­her one.””

  69. Osmo Soi­nin­vaa­ra:
    Yleen­sä sii­nä vai­hees­sa kun oma lap­si on tul­lut kid­na­pa­tuk­si, moni on sitä miel­tä, että kiud­nap­paa­jan yksi­tyi­syy­den suo­jaan saa påuut­tua jä’ljittämällä hänen liik­ku­mius­taan kai­kil­la mah­dol­li­sil­la tavoilla. 

    Kun oma lap­si on tul­lut kid­na­pa­tuk­si, myös kidut­ta­mi­nen hyväk­sy­tään. Tämän takia sivis­ty­nees­sä yhteis­kun­nas­sa ei kysy­tä äärim­mäi­sen ahdis­tu­neen osa­puo­len mie­li­pi­det­tä mene­tel­mis­tä jot­ka ote­taan käyttöön. 

    Las­ten kid­nap­paus, pedo­fi­lia ym. ovat emo­tio­naa­li­sia kouk­ku­ja joil­la yri­te­tään vält­tää jär­ke­vä debat­ti. Yleen­sä vain Päi­vi Räsä­nen ja Ame­rik­ka­lai­nen oikeis­to käy­tää “aja­tel­kaa lap­sia” reto­riik­kaa Wiki­pe­dia: Think of the children. “The 2002 book Art, Argu­ment, and Advocacy wro­te that the exhor­ta­tion may be used to emo­tio­nal­ly con­vince the lis­te­ner to the arguer’s point of view, ins­tead of enga­ging in logical deba­te”

    Takai­sin jär­ke­vään debat­tiin. Osmon tun­tei­siin vetoa­va vas­taus on hyvä esi­merk­ki sii­tä, kuin­ka libe­raa­li yhteis­kun­ta ja pelo­kas väes­tö anta­vat hel­pos­ti pois yksi­tyi­syy­den ja jah­taa­vat kuvi­tel­tu­ja tai todel­li­sia rikol­li­sia heti kun esi­te­tään pelot­ta­va ske­naa­rio joka uhkaa lin­tu­ko­toa. Rele­vans­sia ja kei­no­jen suh­det­ta uhkaan ei hel­pos­ti kysee­na­lais­te­ta. Mei­dän ei tar­vit­se pelä­tä fasis­ti-dik­ta­tuu­ria kun on kan­san­edus­ta­jia jot­ka eivät anna oikeuk­sil­le arvoa jos sil­lä saa­daan mar­gi­naa­li­ses­ti lisää tur­val­li­suut­ta. Tämän takia IT-infra­struk­tuu­ri pitäi­si suun­ni­tel­la niin, että “tar­vit­taes­sa” ei pys­ty­tä yksi­tyi­syyt­tä kier­tä­mään. Me tie­däm­me jo että Päi­vi Räsä­set ja muut ovat val­mii­ta äänes­tä­mään yksi­lö­noi­keuk­sia pois heti kun vähän pelottaa.

    ps. /r/suomesssa oli juu­ri tänään mie­len­kiin­toi­nen tapaus, kun joku pos­ta­si lin­kin Pelas­ta­kaa Lap­set Ry:n http://otanvastuun.fi/ sivul­le ja ihmi­set peläs­tyi­vät kos­ka työ­pai­kal­la surf­fail­les­sa voi työ­nan­ta­jan IT-jamp­pa näh­dä että käy­dään pedo­fi­lia­si­vul­la. Van­haa kun­non pape­ris­ta sano­ma­leh­teä lukies­sa kukaan ei voi­nut näh­dä hel­pos­ti mitä ilmoi­tuk­sia oltiin luke­mas­sa. Nyky­ään se on mah­dol­lis­ta. Val­von­ta ja jopa sen mah­dol­li­suus vai­kut­taa ihmis­ten käyttäytymiseen.

  70. Nega­tii­vi­nen toden­nä­köi­syys voi­si olla ihan hyvä arkie­lä­män käsi­te, jos posi­tii­vi­nen oli­si toden­nä­köi­syys sil­le, ettei jotain tapahdu.

  71. Jou­ni Mar­ti­kai­nen: Lai­naan lai­nauk­sen kan­san­edus­ta­jaeh­do­kas Jyr­ki J. Kas­vin (vihr.) tois­sa­päi­vän blo­gi­pos­tauk­ses­ta: “kuten jo Ben­ja­min Franklin tote­si: ”Tho­se who sur­ren­der free­dom for secu­ri­ty will not have, nor do they deser­ve, eit­her one.”” 

    Inter­ne­tis­sä on var­maan vää­rin lai­nat­tu­ja asioi­ta, esim. tuo Franklin lai­naus vuo­del­ta 1755 menee eri taval­la alku­pe­räi­sis­sä teks­teis­sä ja sil­lä on vii­tat­tu ihan eri asioi­hin alun­pe­rin, tietenkin.

    Ben­ja­min Wit­tes on käsi­tel­lyt tuo­ta nimen­omais­ta lai­naus­ta täs­sä val­tiol­li­sen tur­val­li­suu­den kon­teks­tis­sa, hän sanookin:

    Very few people who quo­te the­se words, howe­ver, have any idea whe­re they come from or what Franklin was real­ly saying when he wro­te them” 

    Wit­te­sin kir­joi­tuk­ses­ta sel­vi­ää myös se, että Edward Snow­den käyt­ti myös tuo­ta lai­naus­ta tuos­sa lyhen­ne­tys­sä ja muun­nel­lus­sa muo­dos­sa, jos­sa sana “safe­ty” on kor­vat­tu sanal­la “secu­ri­ty” ja muu­ten­kin sisäl­tö on erilainen.

    TechC­runch kir­joit­ti myös tuos­ta sitaa­tis­ta artik­ke­lin vuon­na 2014 otsi­kol­la “How The World Butc­he­red Ben­ja­min Franklins Quo­te on Liber­ty vs. Security”

  72. Voi­si­koh­jan tuo­ta Frankli­nin vään­nel­tyä sanan­part­ta käyt­tää myös perus­te­lu­na sosi­aa­li­tur­va­jär­jes­tel­män romuttamiseen? 

    On sel­vää että jos arvos­taa vapaut­ta enem­män kuin tur­vaa, niin ei ihan hir­veäs­ti voi kan­nat­taa pak­ko­ve­roil­la rahoi­tet­tu­ja tulonsiirtoja! 😀

  73. Osmo Soi­nin­vaa­ra:
    Yleen­sä sii­nä vai­hees­sa kun oma lap­si on tul­lut kid­na­pa­tuk­si, moni on sitä miel­tä, että kiud­nap­paa­jan yksi­tyi­syy­den suo­jaan saa påuut­tua jä’ljittämällä hänen liik­ku­mius­taan kai­kil­la mah­dol­li­sil­la tavoilla.

    Tuo­hon­kin löy­tyy mene­tel­mä eli oikeu­den pää­tök­sel­lä puhe­lin­ta voi­daan seurata.Ja toi­mii nopeas­ti­kin, jos vain vir­ka­mie­het toimivat

    Mut­ta on ole­mas­sa pal­jon tie­to, mitä val­las­sao­li­jat halua­vat selvittää.Tärkeimpiä ovat ihmis­ten ver­kos­tot, eli kuka tun­tee kenet­kin ja ket­kä asioi­vat keskenään.

    Niin­pä NL raken­si a‑tilaajan tun­nis­tuk­sen dis­kree­tii­lä kom­po­ne­ne­til­la näh­däk­seen, kuka soit­taa kenellekin.Valtava työ ja se ulot­tui vain kau­ko­pu­he­lui­hin, mut­ta tär­keä sittenkin

    Kun poten­ti­aa­li­sen pet­tu­rin puhe­lu­tie­dot ana­ly­soi­tiin niin voi­tiin vie­dä lei­ril­le koko so´lu ja tuo­ta kaut­ta pääs­tiin mui­den­kin solu­jen jäljille.

    Ongel­ma on myös, että jos seu­ra­taan hen­ki­lön puhe­lu­li­ken­net­tä niin samal­la seu­ra­taan kym­me­nien , sato­jen hen­ki­löi­den tietoliikennettä. 

    Ainoa jon­ka oikeus­tur­va on taat­tu ja jon­ka kuuntelu/seuranta on oikeus­is­tui­men toi­mes­ta sal­lit­tu, mui­den seu­raa­mi­nen on lai­ton­ta, mut­ta sitä ei voi välttää.

    Mut­ta tähän lait­to­muu­teen ei halu­ta puuttua

  74. Tätä blo­gia seu­ran­nee­na alkaa näyt­tää sil­tä, ettei­vät vih­reät väli­tä yksi­tyi­syy­des­tä pät­kää­kään. Onko Ode näin? 

    PS. Sanoin tämän jo ker­ran aiem­min­kin, jol­loin kom­ment­tia­ni ei jul­kais­tu. Ja sanon sen jäl­leen, vaik­kei sitä var­maan jul­kais­ta täl­lä­kään kertaa…

    1. Haluan tähän vain sanoa, ettäö minä en ole sama kuin vih­reät. Jätin edel­li­sen kom­men­tin jul­kai­se­mat­ta juu­ri sik­si, että sii­nä oli tuo perus­tee­ton ole­tus, jon­ka ymn­pä­ril­le koko argu­ment­ti kietoutui.

  75. Osmo:

    Yleen­sä sii­nä vai­hees­sa kun oma lap­si on tul­lut kid­na­pa­tuk­si, moni on sitä miel­tä, että kid­nap­paa­jan yksi­tyi­syy­den suo­jaan saa puut­tua jäl­jit­tä­mäl­lä hänen liik­ku­mis­taan kai­kil­la mah­dol­li­sil­la tavoilla”

    En tie­dä oli­ko tämän tar­koi­tus olla argu­ment­ti yksi­tyi­syy­den­suo­jan heik­sen­tä­mi­sen puo­les­ta. Sil­tä varal­ta että oli: hädäs­sä ole­van lap­sen van­hem­pi ei ole kyl­lä se jon­ka mukaan kan­sa­lai­soi­keuk­siin liit­ty­viä kom­pro­mis­se­ja tuli­si pun­ni­ta. Tulee mie­leen West Win­gin jak­so jos­sa pre­si­dent­ti (vii­saas­ti) jää­vä­si itsen­sä viras­taan kun tyt­tä­ren­sä kidnapattiin.

    On sel­vä että kään­tä­mäl­lä nup­pia polii­si­val­tion suun­taan saa­daan joi­ta­kin rikok­sia estet­tyä. Kään­täen, vapaas­sa yhteis­kun­nas­sa mak­se­taan koko ajan vapaa­eh­toi­ses­ti hin­taa joka muo­dos­tuu estä­mät­tö­mis­tä ja sel­vit­tä­mät­tö­mis­tä rikoksista.

  76. Erno: On sel­vä että kään­tä­mäl­lä nup­pia polii­si­val­tion suun­taan saa­daan joi­ta­kin rikok­sia estet­tyä. Kään­täen, vapaas­sa yhteis­kun­nas­sa mak­se­taan koko ajan vapaa­eh­toi­ses­ti hin­taa joka muo­dos­tuu estä­mät­tö­mis­tä ja sel­vit­tä­mät­tö­mis­tä rikoksista. 

    Toi­saal­ta polii­si­val­tios­sa tapah­tuu yleen­sä toi­sen­lai­sia, vaka­vam­pia ja ongel­mal­li­sem­pia rikok­sia. Ei ole lain­kaan sel­vää, että yksi­tyi­syy­den­suo­jan ja tur­val­li­suu­den välil­lä val­lit­si­si nega­tii­vi­nen kor­re­laa­tio (aina­kaan nyky­ti­lan­tees­ta pie­nem­män yksi­tyi­syy­den­suo­jan suuntaan).

    Osmo Soi­nin­vaa­ra: Niis­tä nos­tet­tiin kui­ten­kin syytteet. 

    Niis­tä nos­tet­tiin kui­ten­kin syytteet.
    Suu­rin osa suo­ma­lai­sis­ta ei saa tuol­lais­ta palvelua.

  77. Jos pala­taan tuo­hon alku­pe­räi­seen otsik­koon “mik­si val­ta­va data­mää­rä tuot­taa niin vähän tie­toa”, niin täs­tä voi­daan suo­raan pää­tel­lä, että jos polii­sil­la on oikeus kuun­nel­la kaik­kea data­lii­ken­net­tä, se pys­tyy nyky­osa­mi­sel­laan tuot­ta­maan sii­tä var­sin vähän tar­peel­lis­ta tietoa. 

    Tämä on paras näke­mä­ni argu­ment­ti sitä vas­taan, että verk­ko­tie­dus­te­lua ei pitäi­si itse­näi­se­nä ele­ment­ti­nä lisä­tä: sat­tu­man­va­rai­nen tie­dus­te­lu ei nyky­tie­don valos­sa ole riit­tä­vää. Jokai­nen voi itse pää­tel­lä seu­raa­mal­la omia Google tai Face­book ‑mai­nok­si­aan kuin­ka hyvään osu­ma­tark­kuu­teen ns. “big data” kyke­nee parhaimmillaankin.

    Uuti­sot­si­kois­sa oli juu­ri, kuin­ka FBI teki Suo­ma­lai­seen fir­maan vir­ka-apu­pyyn­nön tapauk­ses­ta, jos­sa piti sel­vit­tää kuol­leen ame­rik­ka­lai­sen tytön yksi­tyi­sen puhe­li­men tie­to­ja rekis­te­ris­tä, jos­ta sel­vi­si mis­sä tyt­tö oli liik­ku­nut. Vaik­ka FBI:llä oli hal­lus­saan puhe­lin ja se oli pys­ty­nyt sel­vit­tä­mään jopa sen, että puhe­li­mes­sa oli dataa kerää­vä sovel­lus, se ei pys­ty­nyt avaa­maan tätä dataa itse.

    Ei ollut kui­ten­kaan sel­vää, että tie­dois­ta oli­si ollut apua tai että tie­to­ja yli­pää­tään oli­si pitä­nyt ava­ta, kos­ka hen­ki­lö oli itse elin­ai­ka­naan mää­rän­nyt ne sala­tuik­si — mah­dol­li­ses­ti hyväs­tä syys­tä. Mut­ta viran­omai­sil­la oli usko sii­hen, että datan avaa­mi­sel­la voi­tai­siin tapaus sel­vit­tää ja lopul­ta kaik­ki kään­tyi hyvin.

    Se, että onko viran­omai­sil­la oikeus sel­vit­tää tämän­kal­tai­sia tie­to­ja on se kriit­ti­nen kysy­mys — mie­les­tä­ni läh­tö­koh­tai­ses­ti on, mut­ta nämä tapauk­set pitää doku­men­toi­da ja niis­tä pitää pys­tyä käy­mään demo­kraat­tis­ta kes­kus­te­lua. Ja tar­vit­taes­sa saat­taa myös pyyn­tö­jen teki­jät oikeu­den eteen, mikä­li epäil­lään tie­to­ja käy­te­tyn vää­rään tarkoitukseen.

  78. Pro­fes­so­ri Yrjö Ahma­vaa­ra hah­mot­te­li ehkä vähän orwel­mai­sel­ta hais­kah­ta­vaa kyber­neet­tis­tä yhteis­kun­ta­po­li­tiik­kaa, jos­sa pää­tök­sen­te­ki­jät voi­si­vat opti­moi­da hyvin­kin moni­mut­kais­ta hyö­ty­funk­tio­ta, kun toi­men­pi­tei­den moni­mut­kai­set vai­ku­tuk­set oli­si­vat tiedossa.”

    Onnek­si Ahma­vaa­ran jäl­keen olem­me ymmär­tä­neet, että maa­il­ma on vähän moni­mut­kai­sem­pi. Pel­käl­lä mate­ma­tii­kal­la ei ihmis­tä voi ymmär­tää, vaik­ka pit­käl­le sil­lä­kin pääsee.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Notify me of followup comments via e-mail. You can also subscribe without commenting.