(Kirjoitus on julkaistu Sosiaalilääketieteellisessä aikakauslehdessä 4/2014)
Olen saanut 1970-luvun oloissa parhaan mahdollisen tilastotieteellisen koulutuksen professorien Leo Törnqvist ja Seppo Mustonen oppilaana. Tilastollinen tutkimus erilaisten ilmiöiden keskinäisistä riippuvuuksista oli silloin paljolti käsityötä. Dataa oli käytettävissä niukasti ja siksi vähistä tiedoista oli otettava kaikki irti. Professori Törnqvist opetti aloittamaan tutkimuksen aina lyijykynän ja millimetripaperin kanssa. Jokainen havainto merkittiin paperille, jotta ymmärrettäisiin, millaista dataa käsitellään. Seppo Mustosen kehittämä Survo-ohjelma lisäsi tässä tuottavuutta monikymmenkertaisesti, kun saman pystyi tekemään tietokoneen näytöllä. Dataa piti usein korjata, koska tiedoissa oli virheitä tai johonkin havaintoon liittyi jokin poikkeuksellinen seikka. Jos esimerkiksi halusi selvittää junalippujen hinnan vaikutusta junalla matkustamisen suosioon, ei ollut järkevää ottaa aineistoon havaintoa ajalta, jolloin junat seisoivat lakon takia.
Professori Törnqvist korosti käytettävän mallin järkevyyttä. Ei ollut mieltä käyttää lineaarista mallia tilanteessa, jossa riippuvuus ei voinut olla lineaarista. Pahinta mitä saattoi tehdä, oli ”dimensiovirhe”, jossa tulos muuttuisi toiseksi, jos esimerkiksi pituutta mitattaisiin metrien sijasta jalkoina.
Tiesimme, että uusi aika tehokkaine tietokoneineen ja suurine datamäärineen oli tulossa. Tämä tulisi merkitsemään jättiharppausta yhteiskunnallisten ilmiöiden ja niiden keskinäisten riippuvuuksien ymmärtämisessä. Edessä piti olla yhteiskuntatieteiden kukoistuskausi. Professori Yrjö Ahmavaara hahmotteli ehkä vähän orwelmaiselta haiskahtavaa kyberneettistä yhteiskuntapolitiikkaa, jossa päätöksentekijät voisivat optimoida hyvinkin monimutkaista hyötyfunktiota, kun toimenpiteiden monimutkaiset vaikutukset olisivat tiedossa.
Laskentakapasiteetin ja ennen kaikkea käytössä olevan datamäärän kasvu on ylittänyt kaiken sen, mitä saatoimme kuvitella, mutta sitä suurta yhteiskuntatieteiden kukoistuskautta yhä odotetaan. Miksi datan tulva ja valtavasti kasvanut laskentakapasiteetti ei ole tuottanut tiedollista vallankumousta?
Valtavaan datamäärään sisältyy aina virheellisiä havaintoja. Me jouduimme tavallisesti poistamaan aineistosta noin kymmenennen osan havainnoista tai korjaamaan niitä. Tätä ei voi tehdä ainakaan käsin, jos havaintoja on miljoonia. Pieni määrä oikeita havaintoja antaa tarkemmat estimaatit kuin valtava määrä virheellisten havaintojen saastuttamaa aineistoa. Tilastolliset menetelmät perustuvat tavallisesti pienimmän neliösumman menetelmään, jolloin muusta aineistosta poikkeavat havainnot saavat hyvin suuren painoarvon.
Tutkijan pitää myös tuntea käyttämänsä menetelmät ja mittarit. Niin yksinkertainen asia kuin korrelaatiokertoimen tulkintakin voi mennä aivan metsään. Esimerkiksi muuttujien x ja y välinen riippuvuus voi olla hyvinkin voimakasta, vaikka havaintoaineistossa niiden välinen korrelaatio on vähäinen. Korrelaatio mittaa lineaarista riippuvuutta ja vain sitä. Korrelaatiokerroin voi olla matala vaikka muuttuja y olisi suorastaan muuttujan x funktio, jos riippuvuus on epälineaarinen.
1970-luvun lopulla faktorianalyysi teki tuloaan yhteiskuntatieteisiin. Tämä menetelmä on tehokas, mutta hyvä se on vain sellaisen tutkijan käsissä, joka ymmärtää, miten analyysi toimii. Aivan järkyttäviä nollatutkimuksia julkaistiin tuolloin jopa väitöskirjoina, kun tutkija tulkitsi faktorilatauksia kuin Delfoin oraakkeli. Nyt näkee tutkimuksia, jotka analysoitu jollain minulle tuntemattomalla tavalla. Kun tutkijalta kysyy, miten se on analysoitu, saa vastaukseksi kaupallisen ohjelmiston nimen. Siihen, mitä tuo ohjelmisto tarkkaan ottaen tekee, ei vastausta tule – ohjelman toimintaperiaate saattaa olla jopa liikesalaisuus! Miten sellaista voi käyttää tutkimuksessa?
Yhteiskunnallinen tutkimus ja erityisesti epidemiologinen tutkimus kärsii myös väärin ymmärretystä tietosuojasta. Kaupalliset tahot saavat tallettaa ihmisistä tietovarantoihinsa asioita, joista akateemiset tutkijat eivät voi kuin haaveilla. Kukaan ei antaisi ikinä tutkijalle lupaa kerätä yksityiskohtaisia tietoja tavallisten kansalaisten päivittäisistä ostoksista tai oikeutta analysoida ihmisten toisilleen lähettämiä sähköpostiviestejä ja tarkkailla heidän tietohakujaan, mutta kaupan keskusliikkeet, Facebook ja Google saavat näin tehdä tai ainakin tekevät. Tähän verrattuna aika vaatimaton hanke oli HSL:n yritys tallettaa matkakorttia käyttävien matkat, jotta reitit ja aikataulut osattaisi suunnitella paremmin. Se kiellettiin tietosuojaa loukkaavana.
Kuvitelkaa, mitä kaikkea voisi tehdä, jos epidemiologinen tutkimus voisi käyttää samanlaisia tietovarastoja, joita nuo edellä mainitut yksityiset yritykset käyttävät! Tutkijoiden tulisi nousta barrikadeille puolustamaan sitä, että olemassa olevia ja laajenevia valtavia tietovarastoja saisi käyttää myös yhteiskunnalliseen ja lääketieteelliseen tutkimukseen eikä vain yksityisten yritysten tarpeisiin.
Jokainen tutkija ei voi kouluttautua tilastotieteen huippuosaajaksi, mutta jokaisen tutkimusryhmän käytettävissä pitäisi sellainen olla. Tilastollisia osaajia pitäisi kouluttaa selvästi enemmän. Eikä tilastotieteen koulutus saisi olla vain matemaattisten teorioiden pänttäämistä – nekin on kyllä hyvä osata – sillä hyvä tilastotieteilijä on ennen kaikkea käsityöläinen.
Havaintoaineistoista pitäisi aina piirtää kuvia koska kuvista ihminen hahmottaa asioita paljon paremmin kuin luvuista. Enää ei onneksi tarvitse käyttää millimetripaperia ja lyijykynää, vaan tasokkaita kuvia saa tietokoneen näyttää murto-osasekunnissa. Aineistoa on katseltava eri puolilta. Usein järkevän kuvan muuttujien y ja x riippuvuudesta saa vasta, kun on poistanut molemmista kolmannen muuttujan z vaikutuksen. Kun tuntee aineistonsa hyvin, ei yleensä tarvitse kovin monimutkaisia tutkimusmenetelmiä. Tutkimusmenetelmä ei oikeastaan koskaan saisi olla niin kehittynyt, ettei tutkija ymmärrä, miten se toimii.
On myös poistettava aineistoa häiritsevät virheelliset havainnot tai korjattava niitä. Jos niitä ei pysty poistamaan käsin, ne voi poistaa tähän tarkoitukseen suunnitellulla algoritmilla. Jos havainto poikkeaa muista liikaa – useita standardipoikkeamia – melkein varmasti virheellinen. Tämä voi johtaa myös oikeiden havaintojen hylkäämiseen, mutta tämä riski on paljon pienempi kuin riski virheellisiin havaintoihin perustuvasta väärästä johtopäätöksestä.
No, se olennaisempi ongelma kyllä on se, että vaikka dataa onkin paljon ja se tavallaan on mitattavissa, ei ole mitään alla olevaa mallia joka oikeasti toimisi, johon sitä dataa voisi sovittaa.
Harmillisen usein data on suljetuissa tietokannoissa tai epäyhteensopivissa muodoissa eri järjestelmissä.
Aika monella tieteenalalla tilastollisten menetelmien soveltaminen on paradigmatisoitunut, ts. on jumituttu alalla melkein ikuisesti käytettyihin menetelmiin kehityksestä ja ongelman yksityiskohdista riippumatta. Näin käy ehkä juuri siksi ettei soveltava tieteilijä menetelmiä kovin hyvin ymmärrä, ja menetelmäosaajia ei joka paikkaan riitä.
Menetelmäosaajan rooli on myös hankala, koska soveltajan näkökulmasta hän usein tekee asiat vaikeammiksi eikä helpommiksi. Toki ongelmiin huomion kiinnittäminen parantaa työn laatua, mutta soveltava tieteilijä tai vertaisarviointi ei välttämättä tätäkään ymmärrä jos ala on metodologisesti kovin konservatiivinen. Paradigmatisaatio saa metodiasiantuntijan avun tuntumaan turhalta. Nappulaa painamalla saa sen varianssianalyysin tai lineaarisen regression tai faktorianalyysin kuitenkin perusmuodossaan tehtyä, vaikka analyysin oletukset ovatkin väärin.
Sitten laajemmin on syntynyt p=0.05:n ja hypoteesin testauksen paradigma ylipäätään, joiden ymmärtämätön käyttö uhkaa jo laajasti tieteen toistettavuutta. Edes tieteilijä ei aina näytä ymmärtävän että ei-merkitsevä tulos ei tarkoita negatiivista tulosta, mediasta puhumattakaan!
Tilastollisen mallinnuksen metodinen joustavuus on juuri nyt paranemassa selkeästi, kun bayesilaiset menetelmät tulevat uusien työkalujen ja estimintimenetelmien myötä laajasti käytettäväksi (esim. JAGS ja etenkin Stan, Hamiltonian Monte Carlo, approksimaatiot kuten variational bayes tai expectation propagation isommalle datalle). Puhutaan jopa todennäköisyysohjelmoinnista (probabilistic programming). Bayesilaisyys ei tässä liity niinkään subjektiivisuuteen vaan mallirakenteiden joustavaan käyttöön ja tulosten epävarmuuden kvantifiointiin.
Mutta tämä ei välttämättä johda tehokkaampaan analytiikkaan monellakaan alalla, koska uudet menetelmät vaativat vielä enemmän tilastollista osaamista kuin vanhat. (Osaavalta ne eivät vain enää vaadi kuukausien vaan tuntien työn.)
Itse asiasta: kyllä, yksityispuolella on Suomessakin dataa josta julkisella puolella voidaan vain unelmoida. Mutta datan hyödyntäminen on lapsenkengissään, ja sitä vaivaavat osittain samantyyppiset ilmiöt kuin tieteenkin puolella.
Hyvä Osmo. Paljon asiaa tiiviissä paketissa.
Itseäni on ihmetyttänyt, miten olemme maana ajautuneet tähän jamaan. Otetaan esimerkiksi vaikka verotus. Suomessa käytetään veroja, jotka eivät edes minkään teorian mukaan voi olla järkeviä, kuten vaikka pääomiin kohdistuva perintövero tai liikenteeseen kohdistuva polttoainevero. Silti niitä sitkeästi jaksetaan ylläpitää. Eikö ole halua vai osaamista laskea lopputulosta?
Puhut alan ammattilaisena täyttä asiaa. Luvattoman paljon julkaistaan edelleenkin puoskaroitua tilastollista roskaa. Minun opettajani tilastotieteessä olo Olli Lokki, joka hieman sekavasta luennointitavastaa huolimatta oli sisäistänyt tilastotieteen syvällisesti ja yritti istuttaa sitä insinöörien nuppeihin. Minusta tärkeintä on aina muistaa, että näytteistys on aina enemmän tai vähemmän harhaista kuten materiaalin peukalointukin. Eivätkä läheskään kaikki jakautumat ole lähelläkään normaalijakautumaa kuten valtaosa “nuoremmista tutkijoista” tapaa olettaa. Ja lopuksi on aina syytä muistuttaa että tilastollinen käsittely ei tuo aineestoon mitään lisää, korkeintaan havainnollistaa sitä ymmärrettävämpään muotoon.
Jos puhut konfirmatorisesta faktorianalyysistä, niin eri ohjelmistot perustuvat samaan matemaattiseen teoriaan ja tuottavat tutkitusti täysin identtisiä tuloksia. Toinen asia on se, että monet yhteiskuntatieteilijät eivät välttämättä ymmärrä, mitä oikeastaan tekevät napsutellessaan graafisten tilasto-ohjelmien valikoita ja täppiä.
Olisikohan tuossa kuitenkin kyse etupäässä useimpien tutkijoiden laiskuudesta, arkuudesta tai kyvyttömyydestä? Esimerkiksi tässä suomalaiseen aineistoon perustuvassa tutkimuksessa yhdistettiin yksilötasolla arvo-osuusrekisterin dataa, verotietoja, tietoja siviilisäädystä, sukulaisuussuhteista, lasten määrästä, asuinpaikasta, työpaikasta yms. ja kaiken kukkuraksi armeijan ÄO-testien tuloksia. Miten nämä tutkijat onnistuivat pääsemään käsiksi näin kattavaan aineistoon, jos viranomaiset todella vartioivat tietojaan mustasukkaisesti?
Ruotsissa tämäntapaista julkisiin rekistereihin perustuvaa tutkimusta tehdään enemmän, mutta tuskin pääsyynä on erilainen tietosuojalainsäädäntö. Esim. tämä tuore ruotsalainen rekisteritutkimus näyttäisi osoittavan, että köyhyyden kausaalinen vaikutus rikollisuuteen ja päihdeongelmiin on puhdas nolla. Saman tutkijaryhmän aiemman tutkimuksen mukaan asuinalueen kurjuudella (deprivation) ei myöskään ole mitään kausaalista vaikutusta rikollisuuteen ja päihdeongelmiin.
Nämä ruotsalaistutkimukset antavat myös osviittaa siitä, miksi yhteiskuntatieteet (ja esim. epidemiologia) ovat junnanneet paikallaan. Ihmisen käyttäytymisen selittäminen on pitkään perustunut fundamentaalilla tavalla väärään ihmiskuvaan, jonka mukaan ihmiskohtaloiden eroavaisuudet johtuvat pääosin ulkoisista olosuhteista eivätkä ihmisestä itsestään.
OS:“Se kiellettiin tietosuojaa loukkaavana.”
Tärkeintä on huomata että lause on passiivissa. Suomessa kukaan nimeltä mainittu henkilö ei vastaa mistään päätöksenteosta vaan aina on olemassa jokin passiivinen olio, joka kieltää meitä suomalaisia elämästä. Suomi on täynnä kaiken maailman Valviroita ja Aluehallintovirastoja tai Rakennusvalvontavirastoja, jotka ovat tulkitsevinaan lakia mutta eivät uskalla kertoa, kuka siellä päättää ja mistä. Tärkeintä on suojella suomalaisia kaikelta niin paljon, että lopulta kaikki ihmiset jähmettyvät paikalleen. Yhteiskunnallinen kehitys on mennyt niin pitkälle, että yhteiskunnallinen kehitys on kaiken yhteiskunnallisen kehityksen pahin este.
Vielä ihmistieteistä: ne ovat kärsineet monessa kohtaa siitä, ettei kokeita voi tehdä.
No nyt kokeita voi tehdä, webin kautta, ja niiden tekeminen on arkipäivää. Esim. Amazon on optimoinut sivustojaan lukemattomien satunnaistettujen kokeiden kautta, ja Facebookilla on ainakin periaatteessa mahdollisuus manipuloida käyttäjiensä mielentiloja omien päämääriensä mukaan, esim. valtisemalla mitä päivityksiä heille näytetään.
Nämä kokeet vain tapahtuvat tiukan operationaalisessa kontekstissa. Ne eivät johda teorianmuodostukseen. Kyse on enemmän tekoälystä, joka osaa maksimoida valittuja utiliteetteja mutta jota kukaan ei ymmärrä (jos ei nyt, niin kohta).
Fundamentaalisesti väärä ihmiskuva taitaa olla se, että ihmisellä olisi tahto. Ymmärtääkseni tiede ei ole millään tavalla pystynyt osoittamaan tahdon olemassa oloa, vaikka meillä kaikilla on siitä kokemus. Kokemus on kuitenkin vain kokemus, ei tosiasia.
Tahdon ja hallinnan olettaminen perustunee kristilliseen perinteeseen, jossa ihminen esitetään helvetin tai pelastuksen valitsijana. Luonnontieteilijät sen sijaan suhtautuvat tahtoon toisin eivätkä näe sitä materiaalisesta maailmasta erillisenä voimana.
Kasvuympäristön vaikutusta ihmisen myöhempään elämään tuskin kukaan aiheeseen perehtynyt tutkija kiistää. Tulokset ovat niin ilmeisiä.
Olisikohan suurin ongelma kuitenkin siinä, etteivät havainnot ole lähelläkään toisistaan riippumattomia (samalla lailla jakautuneita) satunnaistapahtumia vaan ennemmin jotain, jota syntyy omaa etuaan optimoimaan pyrkivien itseoppivien agenttien keskinäisistä vuorovaikutuksista?
Eli siis kannattaisiko lakata itkemästä ison datan ja “fiksujen” tilastollisten menetelmien perään, kun koko ilmiö lienee klassisen tilastollisen analyysin ulottumattomissa?
Ongelma on sekin, että tavallinen ihminen — siis sellainen, joka ei ole saanut aiheesta mitään koulutusta — ei ymmärrä tilastotieteistä (tai todennäköisyyksistä) yhtään mitään. Tämä koskenee myös suurinta osaa päättäjistä.
Tähän kun lisää sen, että ylipäätään uudet asiat ovat päättäjille vaikeita eikä status quo’ta mielellään häiritä, ei tarvittavia päätöksiä pystytä tekemään. Vaikka kuinka juhlapuheissa julistettaisiin tavoitteita nykyajan eturintamassa olemisesta. Näin nämä mahdollisuudet jäävät käyttämättä, kunnes joku muu sen jo menestyksellä tekeekin.
Joo tulisi olla kieli keskellä suuta kun puhutaan nykyisten laskentamenetelmien tehokkuudesta mikroprosessoreiden avulla — entiseen verrattuna. Siis nykyinen laskentatehokkuus voi tuoda aivan uusia näkökulmia laskentaan, kun aikayksikössä tuotetaan valtavasti enennmän peruslaskutoimituksia aikayksikössä kuin ennen tilastotieden kukoistuksen alkuaikana. Nykyisin luulisi tilastotieteidenkin olevan eksakti tiede, kun laskentatehokkuutta on voitu nostaa liki äärettömyyksiin jopa koti-tietokoneiden avulla.
Asia menee käsittääkseni suunnilleen niin, että tutkijat pääsääntöisesti voivat käyttää viranomaisen rekistereitä, sikäli kun sopivia rekistereitä on olemassa. Mutta kuten Osmon HSL-esimerkki osoitti, viranomaisilla ei ole tai saakaan olla sellaisia rekistereitä mitä tutkijat toivoisivat.
HSL ei toivonut rekisteriä tutkimukseen vaan reittien ja aikataulujen suunnitteluun. Luulen, että jos matkustajilta kysyttäisiin, ylivoimainen enemmistö pitäisi tärkeämpänä, että reitistö palvelisi heitä hyvin. Kun on menossa tekemään sitä pankkiryöstöä, kannattaa maksaa kertamaksu.
Tätä tapahtuu luonnontieteissä hyvinkin paljon, ja silloin tällöin myös käy niin, että laajasti käytetystä ohjelmasta paljastuu virhe ja paljon julkaistuja töitä joutuu kyseenalaiseksi. Kyse ei edes tarvitse olla siitä, etteikö fyysikko tai kemisti ymmärtäisi laskutoimitusta (sitäkin tietysti tapahtuu laajasti), vaan usein on niin, että operaatio on hyvin monimutkainen ja siihen käytetään valmista ohjelmistoa, johon ei voi kuin luottaa. Ohjelman tarkastaminen olisi sinänsä iso operaatio, oman tekemisestä puhumattakaan.
Avoimen lähdekoodin merkityksen pitäisi tietysti olla selvä luonnontieteilijöille, jotka noudattavat tieteen julkaisuperiaatteita. Avoin koodi antaa ainakin mahdollisuuden tarkastamiseen, joukkovoimalla jos ei muuten.
Takavuosina muuten joku matemaatikko totesi Microsoft Excelin suunnilleen täysin kelvottomaksi mihinkään vakavampaan hommaan. En tiedä nykyisten versioiden tilannetta, mutta ainakin silloin kyse ei edes ollut mistään kymmenennen numeron pyöristysongelmasta, vaan aivan perusoperaatioiden oikeellisuudesta.
Hei,
Sanonn nyt taman viimeisen kerran. Ei silla ole valia mita kysyttiin. Mutta…
Tai antaa olla.
t. Mikko
Osmo,
silloin aikanaan laskennat olivat yliopiston tietokonekeskuksen heiniä ja tavallinen tutkija joutui kai varaamaan aikaa laskennoilleen. Nythän omalla kannettavalla voi olla tietokannat ja tilasto-ohjelmat, joten laskentakapasiteettia on tarjolla.
Minullakin on kotikoneella yhdistelmä R + MariaDB. R ohjelman funktioilla voi poimia dataa myös netistä.
Monesti kaupalliset ja avoimen lähdekoodin ohjelmat käyttävät samoja C kielen kirjastoja, joilla varsinainen numetonmurskaus tehdään. OOP paradigmassa vain kutsutaan funktioita, jotka tekevät jotain.
Teollisuuden piirissä dataa on kyllä käytetty pitkään ja esimerkiksi operaatioanalyysillä on perinteitä Suomessa. Tulokset vsin tahtovat olla liikesalaisuuksia.
Rahoitussektorilla dataa käytetään toisaalta riskienhallintaan ja toisaalta kampanjointiin.
S‑ryhmä on tehnyt SAS ohjelmistotalon kanssa yhteistyötä varastojen, valikoiman ja menekin hallintaan.
Ehkä ongelma on enemmän osaavien ihmisten puute sekä viitseliäisyys tehdä ja kehittää asioita. Datan hyöduntämisen aloittaminen on osaltaan tietojärjestelmäprojekti ja toisaalta paljon muuta, eli haastava yhdistelmä!
Tilastotieellisessä osaamisessa on varmasti suuria puutteita, sekä teorian että käytännön tasolla. Janne Sinkkonen listasikin jo hyvin alan ongelmia.
Datan laajemman hyödyntämisen kannalta olisi myös keskeistä avoimuuden lisääminen tiedon, datan, lähdekoodin ja tieteellisten julkaisujen kohdalla. Yhteiskunnallisen datan avaaminen tarjoaa uudenlaisia mahdollisuuksia aineistojen analyysiin ja yhdistelyyn. Tarjoamalla data avoimesti kaikkien käyttöön sille löytyy usein aivan uudenlaisia käyttökohteita joita datan alkuperäinen tuottaja ei ollut ajatellutkaan. Mahdollisuuksia on niin yhteiskuntatutkimuksessa ja journalismissa kuin sovelluskehityksessäkin.
Avoimen tiedon asiaa edistää Suomessa Open Knowledge Finland ry, jonka työryhmät keskittyvät mm. avoimeen tieteesen, avoimeen demokratiaan ja avoimeen opetukseen. Avatun datan ympärille syntyneitä sovelluksia kannattaa katsoa Apps4Finland-kilpailusta.
Avoimen datan lisäksi tarvitaan avoimia laskentatyökaluja ja ‑menetelmiä aineistojen käsittelyyn, analysointiin ja visualisointiin. Avoimen lähdekoodin menetelmäkirjastot mahdollistavat nopean kehityksen ja resurssien tehokkaan jakamisen, ja niiden ympärille voi muodostua kokonaisua ekosysteemejä. Esimerkiksi laskennallinen biologia on kehittynyt viime vuosikymmeninä huimaa vauhtia avoimen datan ja avoimen lähdekoodin menetelmien (esim. Bioconductor) siivittäminä.
Avoimeen dataan ja menetelmiin perustuva tutkimus on läpinäkyvää ja toistettavaa, jolloin siinä mahdollisesti ovat virheet tulevat helpommin havaituksi. Avointa tutkimusta on myös suoraan mahdollista jatkaa uusiin suuntiin muiden tutkijoiden toimesta.
Omassa rOpenGov-projektissamme olemme koonneet yhteen avointa lähdekoodia avointen yhteiskunnallisten aineistojen käsittelyyn ja analyysiin R‑ohjelmointikielellä. Täysin avoimeen lähdekoodiin perustuva R on yksi käytetyimmistä kielistä tilastollisessa laskennassa ja sen käyttö leviää nopeasti useilla aloilla, mm. yhteiskuntatieteissä. Esimerkkejä analyyseistä ja visualisoinneista voi lukea Louhos-blogistamme.
Kysymyshän oli , kerätäänkö henkilökohtaiset reitit eli liitetäänkä reittiin henkilö.
Käsittääkseni liikennetietoa ilman henkilöliitäntää voidaan käyttää ?
Teleliikenteessäkin seurataan liikennettä ‚eli puhelujen pituutta , niiden reittejä ja volyymeja reiteillä, mutta ei se tarkoita että mukana olisi henkilötietoa tai kyettäisiin poimimaan yksittäinen puhelu ja liittämään se käyttäjään
Sekin kyllä onnistuu, mutta se tulee laskutustiedoista, nämä tiedot ovat erillisiä ja niitä tutkivat aivan eri henkilöt ja rajattu määrä henkilöitä
Enpä usko, että ei tarvita henekilötietojen tallentamista sitä varten, että tiedetään montako henkilöä matkustaa pisteestä A pisteeseen B ja millä vuoroilla ?
Liikenteen volyymi on eri asia kuin yksittäinen kukija.
Se mitä ei saanut kerätä oli tietä siitä, mihin miostäkin liikennevälineestä vaihdetaan. Jos kovin moni vaihtaa nelosesta seiskaan samalla pysäkillä, voidaan panna ratikka kulkemaan suoraan vaihdotta. Laajemmin pitäisi pystyä tekemään karttloja, missä paikassa A olevat henkilöt liikkuvat. Tutkijaa ei kiinnosta pätkääkään, missä henkilö A liikkee, mutta jotta reittejä vfoidaan mallintaa, pitää voida tunnistamaan eri liikennevälineissä olevat henkilöt samoiksi henkkilöiksi. Tietosuojaihmisten mielestä riittää tieto, kuinka paljon matkustajia milläkin reitillä on.
Nykyisinhän ovat erilaiset bayesilaiset menetelmät yleistyneet puutteellisten aineistojen käsittelyssä paljon. Niissä on kyllä vaaransa, varsinkin jos oletettu malli on virheellinen.
Terveyteen liittyvissä epidemiologisissa tutkimuksissa on myös usein ongelmana se, että altistumistieto on usein hyvin puutteellinen ja sisältää jopa luokitusvirheitä (tupakoinnin yleisyys aineistossa, muistivinoutumat, seka-altistumiset jne). Tämän vuoksi pelkkä korrelaatio ei todista kausaliteettia, pitää olla myös järkevä biologinen mekanismi joka selittäisi ilmiön.
En tiedä laskeeko Excel väärin tai oikein, mutta minkään oikeasti vaativamman laskemisen tekeminen sen käyttöliittymällä on lähes mahdotonta. Ei sitä ole tarkoitettu monimutkaisten kaavojen pyörittämiseen, niiden omien tekojen seuraaminen ja tarkastaminen on lähes mahdotonta kun viittausten määrä ja kaavojen pituus kasvaa tarpeeksi. Sehän on taulukkolaskentaohjelma eikä ymmärrä symbolista laskentaa.
Mathcad on jo käyttöliittymänsäkin puolesta paljon parempi raskaaseen laskentaan, kun siinä näkee mitä tekee.
Mutta luulempa että siinä vaiheessa kun pitää järjestellä 10 000 mittaustulosta, niin excel voittaa. Lisäksi excel on käytännössä ilmainen, koska office-paketti on lähes pakollinen lisävaruste.
Kaikkein raivostuttavin osa exceliä on sen tapa “auttaa” käyttäjää muuntamalla omin päin lukuja päivämääriksi ja tekstejä luvuiksi ja lukuja ties miksi. Ei kuitenkaan koskaan oikein.
Ihmisxten pitäisi oppia ainiestojen käsittelyssä ainakin yksi helppo kikka. Jos haluaa tutkia muuttujien a ja b välitä riippuvuutta graafisesti, niitä kannattaa harvoin plotata ruudulle sellaisinaan. Yleensä niihin molempiin vaikuttaa (ainakin yksi) yhteinen tekijä z. Kannattaa selittää molemmista muuttujan z vaikutus pois mlommista ja tutkia jäännöstermejä.
Asia tulee ymmärretyksi, jos vaikka a = hukkumiskuolemat, b = jäätelönsylönti ja z = lämpötila. Huomataan, ettei hukkusmiskoulemien ja jäätellönsyönnillä ole yhteyttä.
Tämä voi tehdä myös Excelillä, mutta siinä solahtaa helposti tunti ja toinen tunti menee hermojen lepuuttamiseen. Seppo Mustosen Survo-ohjelmalla 40 vuotta sitten siihen meni minuutti.
Suurten datamäärien hallitsemisessa Suomessa on erittäin terävää asiantuntemusta esim. Aalto yliopiston Informaatiotieteen laitoksella. Esimerkiksi oppivien karttojen ym. tiedon luonteeseen adaptoituvien menetelmien käyttö vähentää tuntemattomien yhteisten tekijöiden vaikutusta samoinkuin epälineaariseen riippuvuuteen perustuvia harhoja.
Ongelmahan onkin meillä se, että apua eivät poliitikot kysy tiedemiehiltä, vaan adaptoituvat äänestävän kansan mieltymyksiin. Jos kysytään, niin halutaan vastaukset, jotka sopivat omaan maailmankatsomukseen ja ovat tyyppiä ‘olisi pyrittävä siihen, että mahdollisimman suuri osa kansalaisista uskoisi olevansa onnellisia’.
Olen itse pariinkin kertaan törmännyt käsittämättömään dataelitismiin julkisen hallinnon puolelta. Olen useamman kerran pyytänyt dataa esim THL:ltä analyysin pohjaksi erittäin huonolla menestyksellä.
Tietoa on systemaattisesti pimitetty vedoten milloin mihinkin, saatavuus, vaiva, luottamuksellisuus, pitää olla nimetyssä tutkimusryhmässä jne… — olen korostanut, että minua (ja muita) kiinnostaa nimenomaan suuri anonyymi datamäärä.
Dataa ja “tutkimusta” tekevät tahot haluavat aktiivisesti monopolisoida informaation (ja johtopäätökset!) estäen avoimen ja modernin kritiikin. Tämä tökkii erityisesti kun data on koottu julkisella rahalla (ja sitä jaellaan rajatusti silti joillekin kaupallisille kumppaneille)
Olen itse taustaltani informaatiotieteilijä ja (julkiseen)dataan perehtyminen on minulle mielenkiintoista paitsi henkilökohtaisesti myös potentiaalisesti kaupallisessa mielessä (en tietenkään tiedä vielä miten). Sovellettava alue olisi ensisijaisesti nimenomaan yhteiskunta- ja hyvintointianalyysi.
Olen Osmon kanssa samaa mieltä data-analyysin menetelmien sekä datan määrän huikeasta kehityksesta. Myös valitettavasti soveltamisen tasosta ja laajuudesta.
Miksi valtava datamäärä tuottaa niin vähän lisäarvoa? Isoin ongelma mielestäni on kuitenkin informaation räikeä pimittäminen — yksityinen ja julkinen.
THL ei yleensä saa antaa data, koska “arkaluontoisen” ainoiston käyttöön on saatu hyvin tiukat lupaehdot. Tämä vaikeuttaa myös erittäin paljon kv- yhteistyötä,. koska ulkomaille dataa nyt ainkaan ei saa lainata.
Meitä varoitettiin tilastotieteen luennoilla useaan otteeseen, että keskeneräiseen lääketieteelliseen tutkimukseen ei pidä mennä. Pointtina oli, että tilastotieteellinen tutkimusasetelma oli alusta asti virheellinen (esim. otos) ja tilastomatematiikalla pönkitettiin vain lopputulosta. Piirtäminen rauhoittaa ja voi auttaa näkemään jotain kiinnostavaa, mutta kun työskennellään tunnuslukujen kanssa, niin tutkija joutuu itse päättämään tuloksen järkiperäisyyden.
Helsingin kaupunki voisi kerätä asukkailtaan vapaaehtoisesti luovutettua tietoa (maksuton palvelu), kuten Google. Joukkoliikenteen tutkiminen vaatisi älypuhelinsovelluksen. Kaupungin (kunnat joita kiinnostaa) pienellä sponsoriavulla saisi aikaan open source ‑sovelluksen.
THL on osa samaa kukkahattutätiongelmaa, jonka toinen puoli, Valvira on ollut enemmän otsikoissa viikon aikana. Tiedän kummassakin olevan myös terveitä ja tarpeellisiakin osia, mutta ongelman laajuus on sitä luokkaa, että kohta on tehtävä jotain radikaaleja ratkaisuja noiden pilkkomiseksi.
Itse pyysin graduntekijänä HSL:ltä vuosien 2007–2008 Helsingin seudun laajan henkilöhaastattelututkimuksen aineistoja (noin 65 000 matkaa) ja sain ne käsiini suht vaivatta muutaman paperin täyttämällä. Minulle oli kuitenkin yllätys, miten vähän tuota laadukasta aineistoa oli hyödynnetty HSL:n ulkopuolella. Minusta tuntuukin että välillä on myös kyse siitä, etteivät ihmiset tiedä, mitä kaikkia aineistoja eri virastojen jne. arkistoista löytyy.
Ei tarvitse. Tutkija tarvitsee keinon identifioida sama matkakortti eri liikennevälineissä. HSL-matkakorttin toteutus on hyvä esimerkki tietosuojan ongelmista jotka syntyvät taitamattomuudesta ja välinpitämättömyydestä:
1. Kerätään liikaa tietoa tietokantaan. Tässä tapauksessa kysessä on (henkilö — kortti) relaatio jota ei tietokannassa tarvita. Jos henkilökohtaista matkakorttia tarvitaan, relaatio voidaan säilyttää tietokannan ulkopuolella, esim. kortissa oleva henkilön nimi joka kirjoitetaan siihen käsin.
2. Tietosuojaa ei ajatella tietojärjestelmiä toteutettaessa. Turhaa yksilöä identifioivaa tietoa kerätään, koska se on helppoa. Hyvä ja varma tietosuojan toteutus mahdollistaisi datan käytön tutkimukseen ja asiakaspalveluun eikä estäisi sitä. Jos henkilö tarvitsee keinon identifioida itsensä, sen voi useimmiten tehdä niin että identifikaatioon tarvittava keino on henkilön itsensä hallussa tietokannan ulkopuolella. Identifiointiin tarvittavaa relaatiota ei pitäisi säilyttää tietokannoissa kuin erittäin painavista syistä.
Nämä samat ongelmat tulivat esiin myös Liikenne- ja viestintäministeriön Oikeudenmukainen ja älykäs liikenne työryhmän raportissa. Kukaan ei ajatellut, että järjestelmä voidaan toteuttaa raudanlujalla anonymiteetillä ja haltijakohtaisella maksusysteemillä.
Tietosuoja ei ole voittamaton este jos se otetaan vakavasti ja sille annetaan arvoa alusta pitäen.
“Fundamentaalisesti väärä ihmiskuva taitaa olla se, että ihmisellä olisi tahto. Ymmärtääkseni tiede ei ole millään tavalla pystynyt osoittamaan tahdon olemassa oloa, vaikka meillä kaikilla on siitä kokemus. Kokemus on kuitenkin vain kokemus, ei tosiasia.”
Sama pätee kausaalisuuteen.
Mikäli kasvuympäristön vaihtelu otoksessa on rajattu esim. normaaleihin länsimaissa ilmeneviin kasvuolosuhteisiin, niin kyllä monet tutkijat nimenomaan kiistävät tämän nykyään. Tulokset ovat “ilmeisiä” siinä mielessä, että “hyvät” kasvuympäristöt näyttävät tuottavan usein hyviä lopputuloksia ja päinvastoin, mutta tämä korrelaatio osoittautuu vahvemmissa tutkimusasetelmissa yleensä ei-kausaaliseksi. Ks. esim. nuo linkittämäni ruotsalaistutkimukset.
Analyysi ja uusien riippuvuussuhteiden hakeminen puuttuu. Ilman tuota tehdään parhaimmillaan vain mekaanista numeeristen korrelaatioiden laskemista. Roskadataa.
Pitäisi kai enemmin esittää kysymys, miksei kukaan ole kaivannut lisää analyysia uuden datan pohjalta.
Perinnölliset ominaisuudet näyttävät korostuvan ikääntyessä, vaikka ympäristössä vietetty aika kasvaakin.
Jos lapsen saamalla koti- ja laitoskoulutuksella, perhetaustalla, adoptiotivanhemmilla, vanhempien alkoholinkäytöllä, lapsille tarjotuilla virikkeillä sun muilla kasvutekijöillä ei ole myöhempää henkistä tasapainoa ja menestystä selittävää vaikutusta, niin jonkin verran sitä ihmettelen.
Tällöinhän esimerkiksi huostaanottoharkinnoissa voitaisiin tyystin ohittaa lapsen henkiset ja kehitykselliset tarpeet. Aivan sama, pelkääkö lapsi, saako hän turpiinsa tai joutuuko hän holhoamaan vanhempiaan, kunhan väkivalta ei vain ole liian rajua ja kunhan lapsi pysyyy ruu’issa.
Jos esität tuollaisen väitteen psykologian ammattilaiselle, niin uskotko, että hän ei väitä vastaan tiedollisin perustein? Uskotko tuohon itsekään? Laittaisitko lapsen mieluummin häiriökouluun kuin hyvään kouluun? Jos kuolisit, antaisitko lapsesi mieluummin tasapainoisille akateemisille vanhemmille vai koulutusta arvostamattomille duunarivanhemmille?
Tässä on monta ongelmaa, jotka kiteytyvät kaikki samaan: tiedon avoimuuteen ja toisaalta myös yksityisyyden suojaan.
Samalla kun vaadimme yksityisyyttä me myös annamme sijaa rikollisuudelle ja tehottomuudelle. Avoimuuden kautta voisimme luoda turvallisempaa ja tehokkaampaa yhteiskuntaa.
Perusongelma on se, että ihmiset häpeävät olemassaoloaan, emme uskalla tunnustaa olevamme jotenkin vajaita, sairaita — tämän taustalla ovat moraalikäsitykset ja sosiaaliset normit, sekä evolutiivinen kilpailu.
Pahinta on median täydellinen numerotaidottomuus ja tilastojen edes alkellisen järkevyyden ymmärtäminen. No, menee se miljoona ja miljardikin sekaisin.
Tämä kertoo vain uudenlaisten taitojen tarpeellisuudesta: osaa tolkita näkemääsi tilastoa.
Survo nyt lienee jo kauan sitten kadonnutta kansanperinnettä ?
Tuo edellä esitetty muistuttaa mielestäni Coxin suhteellisen haitan/riskin menetelmää ???
Hmm … ja huh! Mahtaako tämän blogin pitäjällä olla käytössään algoritmit, jotka säätelevät sitä, mitä luemme ja mitä päädymme (itse kukin) tänne kirjoittamaan? (Olemmeko koekaniineja, joilla Osmo testaa, miten päätyisimme kohta jo (viimeisetkin) hiihdon sijaan talvipyöräilyn harrastajiksi?)
Toisaalta, mistä esimerkiksi se Facebook voi tietää, kuka manipuloi ja ketä? Amazon voinee kuitenkin seurata ostopäätöksiä. Ne voivat tosin myös johtaa virheellisiin johtopäätöksiin. Nettiselailumme ja jopa kirjoittelumme perusteella voi korkeintaan yrittää tehdä johtopäätöksiä.
Näin taitaa tosiaankin olla.
Kyllähän Facebook ja Google seuraavat mainosten klikkauksia, muita klikkauksia (tykkäyksiä), palveluun kirjautumista ja palveluun tuotettua sisältöä.
Esim. Facebookin tykkäysten, sosiaalisen verkon ja mainosten klikkailun perusteella voi päätellä paljon siitä mistä pidät. Parhaimmillaan tämä johtaa kiinnostavan sisällön tarjontaan, ml. kiinnostavat mainokset.
Manipulaation suuntaan mennään, jos käyttäjän preferensseistä luodaan (situationaalinen) malli, jonka perusteella käyttäjää voi esim. ohjata käyttämään palvelua enemmän, tai klikkailemaan mainoksia enemmän, riippuen käyttäjän tunnistetusta mielentilasta tai muusta kontekstista.
Kuulostaako kaukaa haetulta? Vrt. http://www.theatlantic.com/technology/archive/2014/09/facebooks-mood-manipulation-experiment-might-be-illegal/380717/
Samaan aikaan Google osaa tunnistaa kuvista neuroverkoilla kissoja, ja Facebook osaa tunnistaa valokuvista kasvoja. Tekstianalyysi on valokuviin verrattuna triviaalia. Kone ei ymmärrä tekstiä, mutta pelkkien sanafrekvenssien ja sanayhdistelmien frekvenssien avulla voi tehdä tilastollisia johtopäätöksiä sisällöstä.
Ja otoskoko voi olla tarvittaessa luokaa 1 300 000 000, eli käyttäjien kokonaismäärä. Ja nämä kokeet ovat kontrolloituja ja satunnaistettuja, jos klassisia termejä käytetään. (Design voi tosin olla kehittyneempää kuin staattisissa kokeissa, menee enemmän toimenpiteiden vaikuituksista jatkuvasti oppimisen suuntaan.)
https://research.facebook.com/ai
Facebook ei ole mitenkään erikoinen firma, vain esimerkki siitä mitä mahdollisuuksia verkko tarjoaa “operationaalisille sosiaalitieteille”. Enkä sano että mahdollisuudet ovat pahasta. Esim. Facebook itse sanoo: “We’re committed to advancing the field of machine intelligence and developing technologies that give people better ways to communicate. In the long term, we seek to understand intelligence and make intelligent machines.”
Aivan varmasti seuraavat, mutta ne eivät katso sinun klikkauksiasi. Ne saattavat katsoa suomalaisten klikkauksia tai todennäköisemmin NordBalt-klikkauksia. Niillä on varmasti parempi käsitys mm. talouden tilasta ja trendeistä, kuin Suomessa yhdelläkään ministeriöllä.
Pitää olla jonkinlainen syy, tutkia juuri sinun klikkauksiasi. FSB voisi olla kiinostunut Osmon klikkauksista, mutta tuskin sinun tai minun klikkauksista. Jopa USA:lla, Kiinalla ja Venäjällä on rajoitetut resurssit tiedon seulomiseen. Oma lainsäädäntömmehän on naurettavan ja itkettävän rajamailta. Ruotsikin seuraa paremmin tapahtumia Suomessa kuin me itse. 🙁
Ihmiset ovat hyvin epäloogisia yksityisyyden suojan kohdalla, varmaan muittenin asioitten kohdalla.
Matkatiedot halutaan salata mutta pankkitedot ovat avoimia koko maailmalle
http://www.taloussanomat.fi/politiikka/2010/07/06/yle-pankkitietojen-luovuttaminen-usalle-etenee/20109361/12
Ei tuo vaihtokaan aukoton ole, kertalipulla matkustavaa ei seurata
Eikä kortillisistakaan voi seurata henkilöä, jolla on nimetön kortti
Viittasin “normaaleihin länsimaisiin kasvuolosuhteisiin”, millä tarkoitin rajata ulkopuolelle esimerkiksi lapset, jotka ovat kokeneet äärimmäistä hyväksikäyttöä, pahoinpitelyä jne.
Huostaanotoista päättävillä ei ole mitään kristallipalloa, jonka avulla he voisivat päätellä, miten lapselle kävisi pitkällä tähtäimellä ilman huostaanottoa. Perusteeksi huostaanotolle käy lapsen senhetkisen hyvinvoinnin turvaaminen.
Psykologien tiedolliset perusteet ovat tyypillisesti varsin vaatimattomat, minkä olen huomannut heidän kanssaan näistä asioista keskustellessaan.
Oman lapseni haluaisin mieluusti kasvavan vauraassa, hyvin koulutetussa, rauhallisessa jne. perhe- ja kouluympäristössä, koska tällainen ympäristö on kaikin puolin miellyttävämpi kuin vastakohtansa. Mutta suhtaudun skeptisesti ajatukseen, että tällaisilla seikoilla olisi suurta vaikutusta siihen, millainen ihminen hänestä kasvaisi.
Jos kadotan matkakorttini, saan sen kuoletettua ja sillä olleen arvon siirrettyä uudelle matkakortille asioimalla HSL:n palvelupisteessä ja todistamalla henkilöllisyyteni. Miten tämä onnistuisi jos henkilö — kortti ‑relaatiota ei tietokannassa olisi?
Toki periaatteessa minulla voisi olla joku kortin salasana, jolla tuo onnistuu. Käytännössä tyypillinen asiakas ei sitä kuitenkaan muistaisi.
Jos tietosuoja perustuisi kortin käyttäjän anonymiteettiin, mm. kausilipun suoraveloitus olisi varsin ongelmallinen.
Pelkästään ilmaisella Google Analytics ‑palvelulla voi jo profiloida oman sivustonsa kävijät melko tarkasti, esim. iän, sukupuolen ja maantieteellisen sijainnin perusteella, testata näiden käyttäytymistä eri tilanteissa lennossa esimerkiksi A/B testauksella ja muokata sivua sen perusteella mikä todennäköisimmin johtaa haluttuun lopputulokseen. Tuo mitä kuvasit oli “arkipäivää” Suomessakin jo viisi vuotta sitten.
Google itse tietää ja analysoi paljon enemmän, mutta se onkin maailman tehokkain ihmisten käyttäytymistä seuraava vakoilujärjestelmä.
Kaikkien teidän henkilötiedot, mieltymykset, liikkuminen, käyttäytymismalli yms. ovat jo tallessa USA:n eri intressitahojen palvelimilla. Ja mallit ja profiilit tarkentuvat jatkuvasti. Tuo tapahtuu koska se on teknisesti mahdollista.
Jos olisin vainoharhainen USA:aa vastustava diktaattori, kieltäisin Facebookit, twitterit, Googlen palvelut, Androidit yms. välittömästi. Ja kehityttäisin tilalle omia, esim. sellaisia kuin Yandex, Baidu, tai vkontakte.
Ei muistuta, enemmnäkin jonkinlaista esivalkaisua jossa tutkitaan kahden prosessin välistä riippuvuutta suodattamalla pois muut tekijät.
Aikasarja-analyysissä on tehty tätä:
https://onlinecourses.science.psu.edu/stat510/?q=book/export/html/75
Mä käytän Vkontaktea töissä, koska Facebook on estetty 🙂
Luullakseni tieteen piirissä on käynnissä jonkinlainen paradigmamuutos. Melkein kaikilla aloilla data-analyysi ja siihen pohjautuva argumentaatio alkaa hiipiä osaksi menetelmistöä. Siinä menee tietenkin aikaa, se kohtaa vastustusta ja dogmaattisuutta, siinä tehdään virheitä ja ylilyöntejä, mutta lopulta — kunhan vanhat jäärät siirtyvät eläkkeelle — se muodostuu osaksi tiedonmuodostamisen arkea.
Jos Freud horjutti unelmaa ihmisen rationaalisuudesta (alitajunnan rasvainen pohjavirtaus onkin yllättävän vahva), jotkut arvioivat big datan viimein kaatavan sen: kun seurataan käyttäytymistä, eikä ihanteiden värittämää puhetta, me emme ole riippumattomia, rationaalisia (kuin hetkittäin) tai kovin yksilöllisiä. Tämä lienee yksi ongelma taloustieteellisen teorian ja käytännön välillä.
Tulevaisuudessa se voi olla ongelma oikeusfilosofian teorian ja käytännön välillä. Ehkä pidetään kiinni siitä, että ihminen voi aina valita toisin, vaikka bid data osoittaisi, että tuottamalla naapureihin tai huoneeseen X saadaan ihmisestä hyvin, hyvin todennäköisesti ulos Y.
Nimim. Countryboy arveli Survo-ohjelmiston olevan “kadonnutta kansanperinnettä”. Survo ei ole kuitenkaan kadonnut mihinkään vaan se on ollut olemassa ja kehittynyt jatkuvasti noista Osmon kuvaamista ajoista. (Kyseessä lieneekin yksi Suomen pitkäaikaisimpia ohjelmistoprojekteja.)
Survon uusin versio (SURVO R) perustuu avoimeen lähdekoodiin ja on toteutettu osana R‑ohjelmistoa. Sillä onnistuvat edelleen helposti Osmon mainitsemat järkevät datan läpivalaisut.
Lisätietoja: http://www.survo.fi
Jos tarkoitat että klikkauksia ei yhdistetä sosiaaliturvatunnukseen tai että niitä ei katsota manuaalisestii, niin olet melko varmasti oikeassa. Muuten olet aivan väärässä.
Ei suinkaan, Survo-kurssi kuuluu edelleenkin tilastotieteen pakollisiin perusopintoihin HY:ssä.
Ovat portanneet sen R:n päälle, ja ikä näkyy ikävästi (käyttöliittuma buginen ja hidas). Hienoja ideita, mutta moderneihin tekstieditoreihin ja skriptikieliin tottuneena en voi sanoa kokemuksen olleen erityisen positiivinen.
OS kysyy: “Miksi valtava datamäärä tuottaa niin vähän tietoa?”
Kysymys on väärin asetettu, sillä esimerkiksi talouspuolella erilaisilla ohjelmistoilla (data mining / big data / jne.) tuotetaan koko ajan massiivisesti käyttökelpoista tietoa.
Edellä Janne Sinkkonen kirjoitti esimerkiksi uusista bayesilaisista menetelmistä, jotka tulevat nyt ryminällä monenlaiseen käyttöön.
Itsekin olen ollut mukana projektissa, jossa bayesilaisia menetelmiä käytettiin.
Niiden etu on juuri siinä, että voidaan käsitellä suuria datamääriä, monimutkaisia systeemejä ja tuloksena saadaan jopa välittömästi (on-line) operatiiseen käyttöön sopivia tuloksia.
Nykyisin esim. SAP / Hana-systeemit ovat muuttamassa tapaa, jolla isot firmat ja jotkin maatkin, ohjaavat toimintaansa ja päätöksentekoaan.
Arvokkainta tietoa on juuri syy-seuraus suhteiden esiin saaminen, dynaamisesti, hetki-hetkeltä muuttuvissa tilanteissa.
Aivan kuten edellä monet kirjoittivatkin, edellä mainittu käytännön kehitys tapahtuu kuitenkin pääosin yrityksissä, tiedemaailman ulkopuolella.
Tiedepuolen paha ongelma on hitaus: Esim. väitöskirjan tekosykli on n. 5 vuotta (erittäin low-frequency). Tulokset tuppaavat siten olemaan pääosin jo vanhentunutta ja siksi käyttökelvotonta tavaraa. Kannattaa muistaa, että tiedon määrä kansinkertaistuu kahdessa vuodessa…
Tietoa siis tulee kyllä valtavasti, mutta se jää yrityksiin. Esim. high-frequency trading-ohjelmistot ovat huippusalaisia ja niillä tehdään miljardeja…
Olen ymmärtänyt, että valtovarainministeriössä on varsin hyvät systeemit jo nyt, mutta kannattaisikohan niitäkin päivittää uusilla bayesilaisilla menetelmillä, on-line käyttöön?
Silloin esimerkiksi budjettineuvotteluissa poliitikot saisivat heti tietää mitä jokin veropäätös todellisuudessa merkitsee… Näin Suomi Oy saataisiin siirtymään nykyaikaan!
Luulempa kuitenkin, että tällainen systeemi tehdään ensin high-frequency-Virossa, eikä pysähtyneisyyden (zero-frequency) Suomessa?
Seppo Korppoo
Bayesiin uskova, high-frequency-yrittäjä
Niin, no siitä FSB:stä nyt en tiedä, että mikä sitä kiinnostaa. Mutta kyllä ne Google ja Facebook seuraavat ihan kaikkien klikkauksia. Ja on siihen syykin, että miksi seuraavat. Syy on se, että kutakuinkin kaikki, joilla maailmassa nyt ylipäätään on mahdollisuus klikkailla, ostavat jotain. Ja sitten taas ne, jotka haluavat myydä jotain, usein mainostavat. Ja Google ja Facebook sitten myyvät mainostilaa niille, jotka haluavat myydä.
Sekä avata itsemme yhä tehokkaammalle hyväksikäytölle, manipulaatiolle ja varkaudelle. Jotkin ihmiset pitävät tästäkin ajatuksesta.
Jos tietoja avataan, sen tulee symmetrian vuoksi koskea kaikkia toimijoita — kaupalliset ja valtiolliset mukaanlukien. Muuten haitat ovat tosiasiallisia. Eli liikesalaisuudet ja ydinasekoodit vapaiksi myös, jos kerran tuosta lähdetään. Sen jälkeen ei tarvitsekaan kuin muuttaa ihmisluonne, koska sillä kiusauksen ja henkisen pahoinpitelyn määrällä, jota internetissä jo nykyiselläänkin näkee, vaikkei kaikkia tietoja olekaan saatavilla, ei ihmisten tietojen avaamisella aiheuteta kuin haittaa.
Seppo,
VM:ssä käytetään linkitettyjä exceleitä asioiden laskemisessa:
http://www.hs.fi/talous/a1371544138590
Minusta ikä taas näkyy Survossa kunnioitettavasti. Parikymmentä vuotta sitten tekemäni survoskriptit toimivat edelleen uudessa Survo R:ssä ja bugeistakin on päästy pienen välivaiheen jälkeen kokolailla eroon. Työn tuottavuutta ei ole tarvinnut haaskata ihmeellisiin käyttöliittymän muutosten opetteluihin.
Aikanaan vitsailtiin, että SURVO tarkoitti Keinosiemennyksen kehittämis- ja edistämisyhdistystä !
> Miksi valtava datamäärä tuottaa niin vähän tietoa?
Yksi vastaus kysymkseen on se, että tietoa kyllä tuotetaan valtavasti, mutta ehkä eri tarkoituksiin kuin haluaisit. Tietoa tuotetaan varmaankin runsaasti mainontaan liittyen, mutta ei kovinkaan paljoa yhteiskunnallista tutkimusta varten.
En ole asiantuntija, mutta kuulin muutama vuosi sitten IBM:n Bernardo Hubermanin mielenkiintoisen kollokviopuheen siitä miten nykyään tutkitaan yleisen huomion keskittymistä eri aiheisiin seuraamalla sosiaalista mediaa. Tätä on käytetty vaikkapa elokuvien mainostuksen seurannassa, mutta saadusta tiedosta on voitu tehdä myös kvalitatiivisia johtopäätöksiä, ks. http://www.hpl.hp.com/research/idl/results.html — esim. tässä julkaisussa http://www.hpl.hp.com/research/scl/papers/random/random.pdf osoitettiin, kuinka käyttäjien tekemät valintaketjut ovat korreloituneita, mikä invalidoi usein tehdyn täyden satunnaisen käytöksen oletuksen.
En nyt siis sanoisi, etteivätkö tulokset voisi johtaa myös teorianmuodostukseen. Sitä tehdään tietääkseni melko paljon ainakin sosio- ja ekonofysiikan aloilla, jota tutkitaan myös esim. Aalto-yliopistossa.
Valtava datamäärä voi aiheuttaa myös valtavan monimutkaiset systeemit datan käsittelyyn. Vrt. ilmastonmuutoslaskelmat jossa valtavia datamääriä työstetään valtavilla tietokoneohjelmilla.
Lopputulos on että vain kourallinen ihmisiä koko maailmassa ymmärtää pohjia myöten, että mistä on kyse. Valtavat systeemit tekevät tavalliselle sukankuluttajalle vaikeammaksi todella ymmärtää, että mitä kaikkea tässsä nyt oikein tehdään kund analysoidaan dataa. Tässä mielessä vanha paperi ja kynä saattoi olla pedagogisesti parempia ja havainnollisempi.
Pääasiassa samaa mieltä tästä kirjoituksesta. Kuitenkaan en näkisi niin selvänä, että tutkijoilla — siis viranomaisilla — pitäisi olla pääsy kansalaisten kaikkiin tietoihin. Voidaanko luottaa, että viranomaiset esim. Suomessa ovat aina hyvää tarkoittavia? Totalitaristisia järjestelmiä ei kai enää synny?
Yritysten kartelleja, patentteja, veronkiertoa, ydinaseita, jne. vastaan toki käydään taistelua, mutta on vaikea nähdä miten tämä olisi mahdollista ilman avoimuutta tai tietoa kustakin aiheesta? Samoin on vaikea nähdä miten nettikiusaamista voitaisiin ehkäistä, jos ei olisi mahdollista tunnistaa tekijöitä? Tiedon avaaminen on siis oltava mahdollista, viimeistään lain edessä.
Mikäli ainoa vaihtoehto on, että kaikki tieto on salattavissa ja tällöin taas ollaan juuri niiden harvojen armoilla jotka pystyvät anonymiteetin suojasta tekemään pahojaan.
Yksityishenkilöillä tulee kuitenkin olla oma suojansa, jotta henkilöihin kohdistuvaa ilkivaltaa voidaan estää — täydellistä suojaa ei mikään mekanismi kuitenkaan voi taata. Tämän vuoksi yhteiskunnan tulisi pyrkiä siihen, että jokainen teko olisi vähintäänkin jäljitettävissä tekijäänsä.
Paljon hyvää ajattelua ja kommentteja, mutta tässä vielä muutama käytännön näkökulma. (Varoitus: saattaa sisältää rajua yleistämistä, joten ei kannata loukkaantua.)
Lääketieteellinen tutkimus on ihan oma lajinsa. Empiiristä tutkimusta on vaikea erilaisten potilasturvallisuus- ja kustannussyiden takia tehdä. Toisaalta julkaisuissa tuijotetaan erittäin tarkasti sitä, että p=.05 täyttyy, ja että tilastollinen tarkastelu näyttää oikealta.
Sitä sen sijaan eivät refereet niin tarkasti tuijota, ovatko hypoteesit ihan oikein, tai onko koeasetelma oikeasti järkevä. Aika moni julkaistu artikkeli on pitkän hieromisen tulos; työ on tehty hiukan väärällä tavalla, ja sen jälkeen hikoillaan tulosten saamisessa viralliseen muottiin.
Sinänsä on hyvä, että lääketieteessä vaaditaan hyvää tilastojen käsittelyä. Tämä kuitenkin estää niiden tulosten julkaisemisen, jotka voisivat olla arvokkaita, mutta joita ei saa puristettua muottiin. Lisäksi isompi ongelma on usein koeasetelman suunnittelussa, jolloin fokuksen vieminen tulosten käsittelyyn menee väärään suuntaan. Tulokset voi kyllä käsitellä uudelleen, jos koeasetelma on hyvä mutta dataa on kohdeltu väärin. Toisin päin ei onnistu.
Taloustiede taas pitää välillä tilastomenetelmistä liikaakin. Kaikenlainen kiva faktorianalyysi ja klusterointi on käytössä. Sitten, kun tuloksia raaputtaa selvemmin, klusterointi on lopulta tehty tutkijan Harrison-Stetson-algoritmilla.
Oikeasti kyse on inhimillisestä päättelystä, joka voi kyllä tuottaa erittäin oikeitakin tuloksia, mutta asia verhotaan hienoihin tilastomatemaattisiin termeihin, jotka eivät ole oikeasti hallussa sen paremmin kirjoittajalla kuin lukijallakaan.
Sen lisäksi taloustieteilijöille tulee helposti paha mieli, jos vinkkaa, että matematiikka ei ole mielipidekysymys. Olisiko niin, että matematiikkaa oikeasti ymmärtävät talousihmiset ovat yksityisellä puolella parantamassa taloustilannettaan?
Insinöörit taas käytännön elämässä löytävät kivan työkalun ja soveltavat sitä melkein mihin vain. Esimerkiksi pääkomponenttianalyysilla saa mielenkiintoisia tuloksia aikaan, ja menetelmä on mukavan deterministisen oloinen. Mutta jos datan syntymekanismi on hukassa, tuloksilla on vain taiteellinen arvo.
Yritykset hierovat datasta vaikka mitä. Esimerkiksi luottokorttiyhtiölle on tärkeää tunnistaa luottoriskit ja petokset nopeasti ja automaattisesti. Samoin tietysti Google yrittää profiloida mainoksiaan lukijan mukaan.
Näille sovelluksille ominaista on se, että tiede pidetään kaukana. Ketään ei kiinnosta, onko p=.05. Usein yritykselle riittää se, että saa oddsit vähän paremmin puolelleen. Minullekin kelpaa ruletinpeluu, jos pystyn edes vähän sattumaa paremmin arvaamaan seuraavan numeron. (Tai ehkä vielä realistisemmin sama pörssissä.)
Ja toki isosti vaikuttaa sekin, että yritykset voivat tehdä kokeiluita kysymättä keneltäkään.
Yrityksillä on myös paljon kananluihin ja homeopatiaan perustuvaa datankäsittelyä (kuten melkein koko mainosala).
Big data taas on ihan oma olionsa. Sehän ei mitenkään ensisijaisesti tarkoita siistejä homogeenisia datasarjoja, vaan yleensä hyvinkin epähomogeenista dataa. On vielä helppo repiä numeroita reittioppaan käytöstä, mutta mielekkään datan irroittaminen vaikkapa Hesarin arkistosta (tekstiä, kuvia, jne.) on vaikeampaa.
Facebook, Google &kumpp. käyttävät ansiokkaasti big dataa, mutta silloinkin kyseessä ovat erittäin suurella rahalla ja vaivalla kehitetyt algoritmit, joilla saa varsin rajoitetusti tietoa irti. Inhimillinen äly saisi samasta tietomäärästä paljon enemmän hyötyä irti, jos inhimillistä älyä voisi soveltaa tuollaiseen tietomassaan.
Varsin olennaista on se, että ei ole olemassa mitään yleistä algoritmia, joka löytäisi kivaa infoa isosta datapinosta. On iso kasa työkaluja, joita oikein soveltamalla voi ison työn jälkeen saada jotain juuri haluttuun sovellukseen sopivaa. Tietokoneet pystyvät kyllä tekemään esimerkiksi kuvantunnistusta tietyissä sovelluksissa, mutta algoritmit ovat osin hyvin monimutkaisia ja raskaita.
Tiedonlouhintaan big datasta käytetään hienoa vanhaa sananlaskua:
Data mining is torturing data until it confesses. If you torture it long enough, it will confess to anything.
Tilastotieteestä on paljon iloa silloin, kun on yhteismitallisia tai yhteismitallistettavia tietomassoja. Niitä on kuitenkin yllättävän vähän. Jopa erilaisissa tutkimuksissa kerätyt tietomassat voivat olla yllättävän epähomogeenisia, jos kohteena ovat ihmiset.
Visualisoinnista olen Osmon kanssa samaa mieltä, se on erittäin tärkeää. Kuitenkin blogisti esittää erittäin optimistisen lausunnon: “Enää ei onneksi tarvitse käyttää millimetripaperia ja lyijykynää, vaan tasokkaita kuvia saa tietokoneen näyttää murto-osasekunnissa.”
Näin tietysti on, jos plotattavana on viisikymmentä pistettä, joihin pitää sovittaa suora. Visualisointiin ei kuitenkaan ole mitään graalin maljaa, eikä tarvitse olla kovin kummallinen visualisointi, niin tarvitaan aika syvällistä osaamista, koska valmiit työkalut eivät aivan käykään.
Erityisesti isommilla datasarjoilla jo aivan yksinkertaiset perusasiat ovat monilla työkaluilla hankalia — esimerkkinä muutaman miljoonan pisteen mielekkään parvikuvion (scatter plot) tekeminen.
Ja jos sitten mennään vielä ottamaan kolmas ulottuvuus ja aikaulottuvuus mukaan, työkaluista alkavat valmiit vaihtoehdot kutistua aika lailla. Kuitenkin näillä on erittäin suuri merkitys datan visualisoinnin ymmärrettävyyteen monessa tilanteessa.
Hyvän visualisoinnin tekeminen vaatii toisaalta sekä hyvää ymmärrystä datasta että hyvää visuaalista näkemystä. Aika usein näkee esimerkiksi lehtien infografiikkaa, joka näyttää hienolta mutta on sisällöllisesti esitystavaltaan sitä itseään. Toisaalta visuaalisesti heikosti toteutettu vahvaan dataan pohjautuvakin grafiikka on epäinformatiivista useimmille katsojille.
Ihan helppoa ei ole tehdä anonyymiä matkakorttijärjestelyä, josta saisi irti ihmisten kulkutiedot. Tässä pulmakohtia:
- jos korttijärjestelmä sallii aikamaksamisen, kortti pitää sitoa henkilöön tavalla, joka on liikenneoperaattorin seurattavissa
- korttijärjestelmä ei kerää poistumistietoja
- korttijärjestelmä ei kerää raideliikenteen nousutietoja aikamatkaajilta
- jotta ihmisten todellinen liikkumistarve selviäisi, kortin identiteetin pitää säilyä liikennevälineen vaihdon yli
Koko tuon järjestelyn tekeminen anonyymiksi vaatii väistämättä luotettavan kolmannen osapuolen, jos matkustaja ei luota järjestelmän ylläpitäjään. (Järjestelmän ylläpitäjä ei voi myöskään luottaa matkustajaan, jolla on taloudellinen insentiivi huijata.)
= = =
Luottamus on yleisemminkin tietysti se olennainen aspekti. Yleensä kysymys on eniten siinä, luotammeko me viranomaisiin.
Jos viranomaiset ovat luotettavia, yksityisyysongelmat voidaan hoitaa lainsäädännöllä. Kaikki tieto voidaan kerätä talteen, mutta sitä saa hyödyntää vain lainsäädännön puitteissa.
Jos viranomaiset eivät ole luotettavia, tietoa kertyy jo nyt liikaa aikamatkaavilta bussimatkustajilta. Tässä skenaariossa pitää lähteä siitä, että kaikki se tieto on kerätty, jonka viranomainen on joskus jossain jotenkin voinut kerätä.
Tässä suhteessa matkakortista ei kannattane olla kovin huolissaan. Matkakortti tarjoaa mahdollisuuden matkustaa haltijakohtaisella kortilla, jota voi vaihtaa prepaid-liittymien tavoin ihan niin paljon kuin haluaa.
Paljon isompia yksityisyyden suojaan liittyviä juttuja on liikkeellä. Valvontakameroita on koko ajan enemmän, ja niitä on myös julkisissa liikennevälineissä. Ja ihan virallisestikin on olemassa sellainen asia kuin KanTa, johon yksityisyyden suojastaan kiinnostuneiden kansalaisten kannattaisi ehkä tutustua vähän syvällisemmin.
Lue uudestaan mitä kirjoitin ajatuksen kanssa.
Kaikki nuo esittämäsi kohdat voidaan ratkaista niin, että henkilöä ja korttia ei yhdistetä tietokannassa. Korttiin voidaan vaikka printata henkilön nimi, kuva ja henkilötunnus, mutta kortin sarjanumeroa ei missään linkitetä henkilöön tietokannassa. Korttia voidaan seurata, mutta sitä ei voida yhdistää henkilöön ilman henkilön suostumusta (näyttää korttia tai syöttää kortin tiedot joita käytetään luomaan linkki henkilön ja kortin välille transaktion ajaksi).
Taidamme lähestyä asiaa vähän eri tulokulmista. Minun pointtini on se, että jos mukana ei ole kolmatta osapuolta, lipun myöntäjä voi halutessaan kohtuullisen helposti rikkoa yksityisyyden suojasi. Se voi edellyttää sääntöjen rikkomista, mutta jos lipun myöntäjän oletetaan oletettavan luotettava taho, silloin yksityisyysongelma redusoituu sopivien sääntöjen tekemiseksi.
Esittämässäsi tapauksessa (nimi printataan korttiin) korttisi yksilöintitietoineen ja sinun henkilötietosi ovat samanaikaisesti kortin myöntäjän jo myyntihetkellä, joten myöntäjä voi tehdä niistä tietokannan jo silloin.
Tämä on vielä kierrettävissä sillä, että itse kirjoitat oman hetusi korttiin ja kannat mukana erikseen hankittua todistusta siitä, missä asut ja mihin alennuksiin olet oikeutettu. Tällöin voit toimia täysin anonyymisti korttia ostaessasi, jolloin kortin ja sinun identiteettisi eivät ole yhdistettävissä.
Tämä toimii anonyymisti täsmälleen siihen hetkeen, kun lipuntarkastaja kysyy korttiasi. Sinun on pakko antaa korttisi ja henkilötietosi hänelle samaan aikaan, jotta hän voi tarkastaa, että kortilla on maksettu matka, ja että kortti on oikealla haltijalla. Sen jälkeen kortin myöntäjällä onkin linkki sinun ja kortin identiteettien välillä. Tätä voidaan iloisesti soveltaa nykyhetkeen, menneisyyteen ja tulevaisuuteenkin, jollet heitä joka tarkastuksen jälkeen korttia jorpakkoon.
Luotettavan kolmannen osapuolen mukaantulo tekee tilanteesta hiukan helpomman. Yksi mahdollinen tapa hoitaa tietoturva on tehdä kortti, jonka sisällä on kello ja suuri määrä (lähes) kertakäyttöisiä universaalisti uniikkeja koodeja. Kun kortilta kysytään identiteettiä, se antaa aina uuden salaisuuden paitsi jos voimassaoleva salaisuus on alle (esimerkiksi) kaksi tuntia vanha.
Kun kortti otetaan käyttöön, se käydään rekisteröimässä liikenneoperaattorille, jolloin esitetään kaikki hetut ja todisteet asuinpaikasta, opiskelustatuksesta ym. Liikenneoperaattori lähettää hetusi ja kortin antaman salaisuuden kolmannelle osapuolelle. (Statustiedot voi säilyttää joko liikenneoperaattori, sinä tai kolmas osapuoli liitettynä hetuusi.)
Tämän operaation jälkeen kolmas osapuoli pystyy yhdistämään kortin ja haltijan identiteetit toisiinsa. Kellään muulla ei ole mahdollisuutta yhdistää kortin antamaa salaisuutta ja korttia toisiinsa kuin hetken aikaa.
Sama koskee liikennevälineisiin nousemista. Kortti on identifioitavissa matkan ajan (pari tuntia), mutta iltapäivällä sillä on eri identiteetti kuin aamulla.
Jos tulee lipuntarkastus, tarkastaja lähettää kortin senhetkisen salaisuuden ja haltijan hetun kolmannelle osapuolelle, joka varmistaa yhteenkuuluvuuden. Tässä hetu ja kortti yhdistyvät mutta vain hetkeksi.
Ylläkuvatulla tavalla tehtynä järjestelmä on teknologisesti hyvin yksinkertainen. Kortilla olevan kellonkaan ei tarvitse olla tarkka, ja voihan korttiin laittaa nappulan koodin pikavaihtoa varten, jos tulee seurattu olo.
Luotettavalla osapuolella (voi olla joku muukin kuin edelläoleva hetujen ja identiteettien säilyttäjä) on tässä tosin toinenkin tarve. Sen pitää varmistaa, että kortti on teknisesti sellainen etteivät sen kommunikaatioprotokollat mahdollista minkään seurantatiedon syöttämistä kortille.
Ylläoleva on yksinkertaisin keksimäni systeemi, jossa on matkakohtainen seurattavuus mutta jossa operaattori ei voi millään kieroilullakaan rakentaa tietokantaa, jossa pystytään seuraamaan henkilön liikkumista.
Käytännön kannalta järjestelmä on siinä hankala, ettei kortti voi esimerkiksi raportoita jäljellä olevaa rahasummaa tai kautta, koska niitä on jo helpohko käyttää seurantaan. Myöskään nykyisenkaltaista rahan säilymistä kortin hukkumistilanteessa ei voida tehdä.
Todennäköisesti ainoa tapa saada siedettävä käytettävyys olisi ulkoistaa koko homma luotettavalle osapuolelle, joka hallinnoisi myös rahoja, kausia, ym. Tämä edellyttäisi kuitenkin reaaliaikaista yhteyttä liikennevälineestä kolmannelle osapuolelle. Hyvänä puolena olisi kuitenkin se, ettei kortti olisi mitään muuta kuin tunniste.
Monta pykälää helpomalla päästäisiin, jos kausiliput hävitettäisiin. Siinä olisi muutenkin liikenteellisesti järkeä, ja sillä olisi todennäköisesti suotuisia ohjausvaikutuksia. Sen jälkeen ei tarvittaisi kuin anonyymejä lippuja, joissa ei saisi olla edes sarjanumeroita. Tosin sitten menetetään myös matkakohtainen seurattavuus.
… tai sitten luotetaan HSL:ään ja käydään hoitamassa hämärähommat ei-henkilökohtaisella kortilla…
Tämä vaikkapa matkakortiin liittyvä tietosuojafobia lähtee oletuksesta, että julkinen valta ei noudata lakeja. Jos tämä on lähtökohta, mitään tietoa ei tietenkään voi kerätä. Vähän naiiveja ovat ajatukset, että tämä ja tuo pitää olla valtiolta kiellettyä, koska jos joskus tulee se fasistinen pakkovaltio, se käyttäisi näitä asioita väärin — ikään kuin se fasistinen pakkovaltio ei hetkessä muuttaisi lakeja.
Huomioon ottaen, että esim. Mika Myllylän tietojen urkinnasta poliisin tietojärjestelmistä (niihin kiinni pääsyyn oikeutettujen henkilöiden piiristä) tuomittiin 72 henkilöä ja Anneli Auerin tietojen urkinnasta on meneillään liki sata esitutkintaa voitanee todeta MOT. Lähde: http://www.hs.fi/kotimaa/a1420686975987
Niistä nostettiin kuitenkin syytteet.
Olet esittänyt tämän olkinukke argumentin toistuvasti eikä muiden argumentit näytä vaikuttavan mielipiteeseesi ja argumentoit vastaan liioittelevilla fasistinen pakkovaltio argumenteilla ja virheellisellä väitteellä ettei tietoa voi kerätä.
ps. Juuri nyt on puolustusministeriön työryhmä ehdottamassa väljiä valtuuksia ihmisten urkintaan.
Taitaa aika moni pelätä ihan tavallisia teikäläisiä. Yksi syy on se, että pian myytäisiin tinapaperia tai kehiteltäisiin muita kikkoja noiden laitteiden huijaamiseen. Toinen syy voisi olla se, että monille auto edustaa vapautta, ja jatkuva talutusnuorassa olo ei ehkä vetoa vapaudenkaipuisiin kovin hyvin.
Autojäljitysjärjestelmän tilalle voisi ajatlla myös ihonalaista jäljityslaitetta, niin tulisi tarkempi tulos, eikä vilunkipeli olisi yhtä helppoa :-).
Eli en ihmettele yhtään, miksi ihmiset vastustavat. Se on sitten eri asia, miten ja mistä yhteiskunta tulonsa kerää, fossiilisten käyttöä rajoittaa, tiestönsä ylläpitoa rahoittaa, ja/tai hallinto valvontahalunsa tyydyttää.
Mikäli ihminen kulkee autolla tälläkin hetkellä, häntä voidaan seurata helposti, mikäli esim. kännykkä on päällä. Jos hän ajaa jonkun kameran ohitse, rekisterikilvestä voidaan päätellä kenen omistama auto on kyseessä. Yksityishenkilöilläkin on kemeroita, joilla tieliikennettä voidaan tallentaa ja tämä tieto voi sisältää paljon muutakin tietoa kuin vain henkilöllisyyden.
On kuitenkin ihan eri asia tehdä tämä seuranta salaa niin että ihminen ei tätä tiedä kuin tehdä se niin, että ilmoitetaan että “hei, me seuraamme sinua”.
Nykyaikainen yhteiskunta kuitenkin toimii niin, että tietoa siirretään tietokoneilla paikasta toiseen jatkuvasti eri muodoissa eikä tätä voida estää.
Kuitenkin, jostain syystä ihmiset hyvin jyrkästi vastustavat sitä, että heille kerrotaan että he ovat seurannassa, halutaan vain laittaa laput korville ja silmille todellisuudelta. Tätä en ymmärrä lainkaan. Käytännössä olemme lähes 24h seurannassa, mutta tätä ei haluta dokumentoida lainkaan.
Parempi vaihtoehto kuitenkin olisi se, että seurannasta pitäisi kertoa, koska nyt sitä tehdään ihmisiltä salaa. Ja tunnustaa, että se on nykyaikaisen yhteiskunnan toiminnan elinehto.
Henkilötietojen hyödyntämistä ihmislähtöisesti ja tietoturvallisesti eri tarkoituksiin, kuten parempiin palveluihin ja tutkimuskäyttöön, edistetään My Data ‑liikkeessä. Kannattaa vilkaista LVM:n tuore selvitys aiheesta.
Jos kuvitellaan tilanne (joo, olen lukenut liikaa dekkareita…) että joukkoliikennevälineessä sattuu henkirikos, sallittaisiinko kaivaa matkakorttitiedoista mahdollisia silminnäkijöitä tai tekijöitä esiin? Entä jos kyseessä olisi törkeä pahoinpitely? Törkeä vahingonteko? Tai lievempi rikos?
Yleensä siinä vaiheessa kun oma lapsi on tullut kidnapatuksi, moni on sitä mieltä, että kiudnappaajan yksityisyyden suojaan saa påuuttua jä’ljittämällä hänen liikkumiustaan kaikilla mahdollisilla tavoilla.
Voisiko ratkaisu olla, että identiteettiin liittyvistä hyödykekohtaisista alennuksista luovutaan? Mahdolliset alennukset olisivat vain maksutapa- ja/tai lipputyyppikohtaisia. Voisko identiteettiin perustuvat ostovoiman korjaukset hoitaa jollakin yksinkertaisemmalla tavalla yleispätevästi vaikkapa verotuksessa suurempina linjanvetoina kuin tiettyjen hyödykkeiden kompensaatioina.
Eräässä äsken ilmestyneessä suomalaisen lisensiaatin kirjassa markkinataloudesta esitetään useita kuvaajia ilman selityksiä. Ei oikein selviä edes koordinaattiakselit; siis mitä oikeastaan halutaan kuvailla.
Tekstissä puhutaan negatiivisista todennäköisyyksistä. Toisaalla mainitaan, että todennäköisyys jollekin on varmasti lähes nolla.
No tällä tyylillä kyllä uskottavuus lähenee asymptoottisesti nollaa.
Lainaan lainauksen kansanedustajaehdokas Jyrki J. Kasvin (vihr.) toissapäivän blogipostauksesta: “kuten jo Benjamin Franklin totesi: ”Those who surrender freedom for security will not have, nor do they deserve, either one.””
Kun oma lapsi on tullut kidnapatuksi, myös kiduttaminen hyväksytään. Tämän takia sivistyneessä yhteiskunnassa ei kysytä äärimmäisen ahdistuneen osapuolen mielipidettä menetelmistä jotka otetaan käyttöön.
Lasten kidnappaus, pedofilia ym. ovat emotionaalisia koukkuja joilla yritetään välttää järkevä debatti. Yleensä vain Päivi Räsänen ja Amerikkalainen oikeisto käytää “ajatelkaa lapsia” retoriikkaa Wikipedia: Think of the children. “The 2002 book Art, Argument, and Advocacy wrote that the exhortation may be used to emotionally convince the listener to the arguer’s point of view, instead of engaging in logical debate”
Takaisin järkevään debattiin. Osmon tunteisiin vetoava vastaus on hyvä esimerkki siitä, kuinka liberaali yhteiskunta ja pelokas väestö antavat helposti pois yksityisyyden ja jahtaavat kuviteltuja tai todellisia rikollisia heti kun esitetään pelottava skenaario joka uhkaa lintukotoa. Relevanssia ja keinojen suhdetta uhkaan ei helposti kyseenalaisteta. Meidän ei tarvitse pelätä fasisti-diktatuuria kun on kansanedustajia jotka eivät anna oikeuksille arvoa jos sillä saadaan marginaalisesti lisää turvallisuutta. Tämän takia IT-infrastruktuuri pitäisi suunnitella niin, että “tarvittaessa” ei pystytä yksityisyyttä kiertämään. Me tiedämme jo että Päivi Räsäset ja muut ovat valmiita äänestämään yksilönoikeuksia pois heti kun vähän pelottaa.
ps. /r/suomesssa oli juuri tänään mielenkiintoinen tapaus, kun joku postasi linkin Pelastakaa Lapset Ry:n http://otanvastuun.fi/ sivulle ja ihmiset pelästyivät koska työpaikalla surffaillessa voi työnantajan IT-jamppa nähdä että käydään pedofiliasivulla. Vanhaa kunnon paperista sanomalehteä lukiessa kukaan ei voinut nähdä helposti mitä ilmoituksia oltiin lukemassa. Nykyään se on mahdollista. Valvonta ja jopa sen mahdollisuus vaikuttaa ihmisten käyttäytymiseen.
Negatiivinen todennäköisyys voisi olla ihan hyvä arkielämän käsite, jos positiivinen olisi todennäköisyys sille, ettei jotain tapahdu.
Internetissä on varmaan väärin lainattuja asioita, esim. tuo Franklin lainaus vuodelta 1755 menee eri tavalla alkuperäisissä teksteissä ja sillä on viitattu ihan eri asioihin alunperin, tietenkin.
Benjamin Wittes on käsitellyt tuota nimenomaista lainausta tässä valtiollisen turvallisuuden kontekstissa, hän sanookin:
“Very few people who quote these words, however, have any idea where they come from or what Franklin was really saying when he wrote them”
Wittesin kirjoituksesta selviää myös se, että Edward Snowden käytti myös tuota lainausta tuossa lyhennetyssä ja muunnellussa muodossa, jossa sana “safety” on korvattu sanalla “security” ja muutenkin sisältö on erilainen.
TechCrunch kirjoitti myös tuosta sitaatista artikkelin vuonna 2014 otsikolla “How The World Butchered Benjamin Franklins Quote on Liberty vs. Security”
Voisikohjan tuota Franklinin väänneltyä sananpartta käyttää myös perusteluna sosiaaliturvajärjestelmän romuttamiseen?
On selvää että jos arvostaa vapautta enemmän kuin turvaa, niin ei ihan hirveästi voi kannattaa pakkoveroilla rahoitettuja tulonsiirtoja! 😀
Tuohonkin löytyy menetelmä eli oikeuden päätöksellä puhelinta voidaan seurata.Ja toimii nopeastikin, jos vain virkamiehet toimivat
Mutta on olemassa paljon tieto, mitä vallassaolijat haluavat selvittää.Tärkeimpiä ovat ihmisten verkostot, eli kuka tuntee kenetkin ja ketkä asioivat keskenään.
Niinpä NL rakensi a‑tilaajan tunnistuksen diskreetiilä komponenetilla nähdäkseen, kuka soittaa kenellekin.Valtava työ ja se ulottui vain kaukopuheluihin, mutta tärkeä sittenkin
Kun potentiaalisen petturin puhelutiedot analysoitiin niin voitiin viedä leirille koko so´lu ja tuota kautta päästiin muidenkin solujen jäljille.
Ongelma on myös, että jos seurataan henkilön puhelulikennettä niin samalla seurataan kymmenien , satojen henkilöiden tietoliikennettä.
Ainoa jonka oikeusturva on taattu ja jonka kuuntelu/seuranta on oikeusistuimen toimesta sallittu, muiden seuraaminen on laitonta, mutta sitä ei voi välttää.
Mutta tähän laittomuuteen ei haluta puuttua
Tätä blogia seuranneena alkaa näyttää siltä, etteivät vihreät välitä yksityisyydestä pätkääkään. Onko Ode näin?
PS. Sanoin tämän jo kerran aiemminkin, jolloin kommenttiani ei julkaistu. Ja sanon sen jälleen, vaikkei sitä varmaan julkaista tälläkään kertaa…
Haluan tähän vain sanoa, ettäö minä en ole sama kuin vihreät. Jätin edellisen kommentin julkaisematta juuri siksi, että siinä oli tuo perusteeton oletus, jonka ymnpärille koko argumentti kietoutui.
Osmo:
“Yleensä siinä vaiheessa kun oma lapsi on tullut kidnapatuksi, moni on sitä mieltä, että kidnappaajan yksityisyyden suojaan saa puuttua jäljittämällä hänen liikkumistaan kaikilla mahdollisilla tavoilla”
En tiedä oliko tämän tarkoitus olla argumentti yksityisyydensuojan heiksentämisen puolesta. Siltä varalta että oli: hädässä olevan lapsen vanhempi ei ole kyllä se jonka mukaan kansalaisoikeuksiin liittyviä kompromisseja tulisi punnita. Tulee mieleen West Wingin jakso jossa presidentti (viisaasti) jääväsi itsensä virastaan kun tyttärensä kidnapattiin.
On selvä että kääntämällä nuppia poliisivaltion suuntaan saadaan joitakin rikoksia estettyä. Kääntäen, vapaassa yhteiskunnassa maksetaan koko ajan vapaaehtoisesti hintaa joka muodostuu estämättömistä ja selvittämättömistä rikoksista.
Toisaalta poliisivaltiossa tapahtuu yleensä toisenlaisia, vakavampia ja ongelmallisempia rikoksia. Ei ole lainkaan selvää, että yksityisyydensuojan ja turvallisuuden välillä vallitsisi negatiivinen korrelaatio (ainakaan nykytilanteesta pienemmän yksityisyydensuojan suuntaan).
Niistä nostettiin kuitenkin syytteet.
Suurin osa suomalaisista ei saa tuollaista palvelua.
Jos palataan tuohon alkuperäiseen otsikkoon “miksi valtava datamäärä tuottaa niin vähän tietoa”, niin tästä voidaan suoraan päätellä, että jos poliisilla on oikeus kuunnella kaikkea dataliikennettä, se pystyy nykyosamisellaan tuottamaan siitä varsin vähän tarpeellista tietoa.
Tämä on paras näkemäni argumentti sitä vastaan, että verkkotiedustelua ei pitäisi itsenäisenä elementtinä lisätä: sattumanvarainen tiedustelu ei nykytiedon valossa ole riittävää. Jokainen voi itse päätellä seuraamalla omia Google tai Facebook ‑mainoksiaan kuinka hyvään osumatarkkuuteen ns. “big data” kykenee parhaimmillaankin.
Uutisotsikoissa oli juuri, kuinka FBI teki Suomalaiseen firmaan virka-apupyynnön tapauksesta, jossa piti selvittää kuolleen amerikkalaisen tytön yksityisen puhelimen tietoja rekisteristä, josta selvisi missä tyttö oli liikkunut. Vaikka FBI:llä oli hallussaan puhelin ja se oli pystynyt selvittämään jopa sen, että puhelimessa oli dataa keräävä sovellus, se ei pystynyt avaamaan tätä dataa itse.
Ei ollut kuitenkaan selvää, että tiedoista olisi ollut apua tai että tietoja ylipäätään olisi pitänyt avata, koska henkilö oli itse elinaikanaan määrännyt ne salatuiksi — mahdollisesti hyvästä syystä. Mutta viranomaisilla oli usko siihen, että datan avaamisella voitaisiin tapaus selvittää ja lopulta kaikki kääntyi hyvin.
Se, että onko viranomaisilla oikeus selvittää tämänkaltaisia tietoja on se kriittinen kysymys — mielestäni lähtökohtaisesti on, mutta nämä tapaukset pitää dokumentoida ja niistä pitää pystyä käymään demokraattista keskustelua. Ja tarvittaessa saattaa myös pyyntöjen tekijät oikeuden eteen, mikäli epäillään tietoja käytetyn väärään tarkoitukseen.
“Professori Yrjö Ahmavaara hahmotteli ehkä vähän orwelmaiselta haiskahtavaa kyberneettistä yhteiskuntapolitiikkaa, jossa päätöksentekijät voisivat optimoida hyvinkin monimutkaista hyötyfunktiota, kun toimenpiteiden monimutkaiset vaikutukset olisivat tiedossa.”
Onneksi Ahmavaaran jälkeen olemme ymmärtäneet, että maailma on vähän monimutkaisempi. Pelkällä matematiikalla ei ihmistä voi ymmärtää, vaikka pitkälle silläkin pääsee.