Big data, avoin data, datan visualisointi…onhan näitä

Tiedon ja tuttavallisemmin datan hyödyntäminen ei varmaan koskaan ennen ole ollut yhtä seksikästä kuin juuri tällä hetkellä. Tuntuu ettei ole mahdollista mennä päivääkään ilman, että jostain kanavasta vastaan tulee ”Big Data”, ”avoin data”, ”Hadoop-klusteri” ja muuta datan pyörittämiseen liittyvää termistöä. Yleensä samassa yhteydessä luvataan myös, että jotakuinkin kaikki asiat ratkeavat kunhan vaan otetaan data käyttöön. Kääntöpuolena taas on mahdollista lukea rivien välistä, että jos näin et tee, on peli jo menetetty. Onko tämä kaikki totta?

No periaatteessa kyllä. Datan hyödyntämisen tuottama potentiaalinen lisäarvo, riippumatta siitä onko kyseessä ns. ”small-scale data” tai ”Big Data”, on ainakin teoriassa rajaton. Dataan ja sen tuottamaan lisäarvoon liittyy kuitenkin yksi iso muuttuja, joka joko tarkoituksellisesti tai tahattomasti jätetään usein mainitsematta. Jotta dataan liitetyt odotukset lisäarvon tuottajana on mahdollistaa saavuttaa, tulee käytettävistä dataseteistä tietää yhtä ja toista. Erityisesti ns. ”small-scale datan” kanssa on ensiarvoisen tärkeää, että tiedetään miten ja milloin data on syntynyt, mitä data kuvaa ja kuinka luotettavaa se on. Vasta tuntemalla edellä mainitut asiat on mahdollista määrittää mihin kyseinen data oikeasti soveltuu ja mikä sen oletettu lisäarvo on.

Otetaan esimerkiksi laboratorion tuotantodata. Useista tietolähteistä (laboratorion informaatiojärjestelmä, analysaattorien ja analysaattorilinjojen ohjausohjelmistot, ajanvaraussovellukset, jne) pumpataan dataa, jolla pyritään optimoimaan resurssikäyttöä ja ennustamaan tuotannon maksimikapasiteettia kullakin ajanhetkellä. Jos yksittäisiä tietolähteitä ja niiden sisältöä ei tunneta pienimmällä mahdollisella erottelutarkkuudella, on datan kertoma tarina enemmän tai vähemmän arvaus. Joillain aloilla tai joissain käyttötarkoituksissa tällä ei välttämättä ole suurta vaikutusta, mutta matalakatteisten volyymituotantoon perustuvien yritysten liiketoiminnassa väärin ymmärretty signaali voi olennaisesti vaikuttaa toiminnan kannattavuuteen (vaikutus korostuu erityisesti investointipäätösten kohdalla). Sen sijaan, että aloitetaan välittömästi puhumaan Big Datasta ja Hadoop-klustereista, olisi monessa tapauksessa ollut hyvä käyttää muutama euro ja kuukausi datan taustalla olevien prosessien ja datan syntymekanismien tutkimiseen. Vaikka se ei ole yhtä ”seksikästä” kuin alkaa pystyttämään Hadoop-klusteria, voi seuraavat tehtävät vähentää (tai ainakin madaltaa) kuoppia tiessä:

  • Tutki käytössäsi olevaa dataa useista eri näkökulmista
    • Miten kerätty?
    • Miltä ajanjaksolta?
    • Mikä tarkkuustaso?
    • Ymmärrätkö mitä eri muuttujat ja tietuekentät kuvaa?
  • Hyödynnä ”quick-n-dirty” analyysejä ja visualisointeja
    • Testaa näkemyksiäsi pienillä otannoilla
    • Avaa dataa myös muiden pureskeltavaksi
    • Ole kriittinen erityisesti ”tarkkojen ja varmojen” tietojen suhteen
  • Hyödynnä oppimaasi ja luovu 100%:n tarkkuushaihattelusta => kyseessä on iteratiivinen prosessi

Kuva: big-data_conew1 by luckey_sun (cc-by-sa-2.0)

Peki Oksanen

Peki Oksanen on Bean Solutions -yrityksen toinen perustajajäsen. Hän johtaa yrityksen Analysis & Insight liiketoimintaa ja on taustaltaan laskennan ja rahoituksen ekonomi.

BeAn Solutions Oy

Benchmarking and Analysis. BeAn Solutions analysoi ja käsittelee dataa ja benchmarkkauksen kautta tuottaa luotettavaa ja validia analyysitietoa datasta päätöksenteon tueksi.