BIG DATA vs. GOOD DATA

BIG DATA vs. GOOD DATA
       Scritto da Claudio Vivante

Mi sono chiesto “Quanto BIG è il BIG DATA” secondo gli addetti ai lavori? Così ho cercato su Internet ed ho trovato tante definizioni: “maggiore di 1TB”, oppure “Data that is so large that you can't adequately store and process it with your regular technology” o anche “the number of independent data sources, each with the potential to interact.”

Qua ne trovate alcune interessanti: https://www.quora.com/How-much-data-is-Big-Data

L’unica cosa certa è che non esiste una definizione univoca di BIG DATA. Perché? In fondo noi informatici cerchiamo sempre di dare definizioni standard alle cose eppure per BIG DATA non è così, allora come faccio a sapere se chi mi vende la soluzione per gestire il BIG DATA mi sta offrendo la soluzione giusta?

Io credo che BIG DATA sia la definizione sintetica di una sfida tecnologica per noi ingegneri: oggi si producono più dati di quanti se ne possono memorizzare in computer convenzionali e quindi ci si pone il problema di come gestirli. Ecco la parola magica: GESTIRE i dati. Intendo dire ci sono 3 cose da fare con i dati:

  • Salvarli: accedere a miliardi di dati in linea in tempi ragionevoli, farne il backup, utilizzare sistemi distribuiti; sono tutti aspetti che richiedono soldi e competenze. Oggi esistono file system distribuiti AWS, HADOOP, etc. che promettono di semplificare il lavoro
  • Elaborarli: cercare la risposta ad una domanda tra miliardi di dati non è uno scherzo! L’utilizzo dei bot, del machine learning su vasta scala è forse la sfida tecnologia più affascinante per gli ingegneri del nostro tempo al pari dell’intelligenza artificiale
  • Visualizzarli: saper sintetizzare in modo comprensibile il significato di tutto ciò che si è raccolto, memorizzato ed analizzato, far emergere l’informazione per prendere decisioni sensate è oggi diventata un’arte. Designer e analisti di tutto il mondo lavorano per creare nuovi modi di presentare le informazioni. Notate che qui non parlo più di “dati”, ma di “informazioni”.

E come è chiaro a tutti il concetto di quando i dati diventano BIG è assolutamente relativo e va misurato con le risorse di chi usa il dato (risorse tecniche, umane ed economiche). Per esempio, gestire 100 GB di dati al giorno è sicuramente una sfida per la mia azienda, ma non lo è per Coca-Cola Company.

Dal mio punto di vista la dimensione del dato non è il vero indicatore e nemmeno la tipologia dei dati (dati da sensori, piuttosto che click degli utenti, o tweet pubblicati), ma è il tipo di analisi che si vuole fare con i dati che rende i dati BIG oppure no. Mi spiego con un esempio: se raccogliamo immagini e filmati da telecamere di una rete distribuita per fare un semplice LOG, allora dovremo predisporre uno storage adeguato e qualche utility di sintesi, ma il problema non è BIG. Se però le immagini devono essere analizzate e correlate tra loro, quindi si deve implementare un’analisi complessa dei fotogrammi, ecco che il problema diventa BIG. BIG per le risorse di calcolo, l’accesso veloce ai dati, la capacità di sintetizzare i risultati delle analisi.

Ora prendiamo il punto di vista che mi sta più a cuore: quello delle piccole imprese, degli imprenditori che vogliono fare il salto di qualità nella gestione dei dati. Gli imprenditori capiscono che le risposte a molte domande sono nei dati che si possono raccogliere nelle loro aziende, nei processi produttivi. Ma ha senso parlare loro di PetaByte, di storage geograficamente distribuiti? Per loro non è importante che i dati siano BIG o SMALL, anzi se fossero SMALL sarebbe meglio! Le informazioni necessarie a prendere decisioni si basano spesso solo con l’1% dei dati quindi se sapessimo quali sono i dati utili potremmo evitare di gestire il restante 99% dei dati. Ma siccome non sempre si conosce quale dato è utile, nel dubbio si salva tutto!

Se una PMI potesse fare tutto con Excel anziché con ELK sarebbe sicuramente più felice! Allora cambiamo la prospettiva: parliamo di GOOD DATA: sono i dati utili a fare analisi e prendere decisioni sensate con i risultati delle analisi. Bella scoperta direte voi! Eppure di solito si trova quello che si cerca e se siamo orientati al BIG DATA progetteremo sistemi capaci di fagocitare miliardi di numeri, scalabili, ridondati, costosi. Se invece partissimo dal BIG DATA per arrivare al GOOD DATA? Come? Per esempio sfogliando l’albero dei dati raccolti dai rami secchi, improduttivi, per approssimazioni successive.

 

La mia prospettiva non è quella di schivare il BIG DATA, che trovo anzi una sfida entusiasmante, ma di studiarla con l’idea di farla diventare GOOD DATA ANALYSIS e GOOD DATA VISUALIZATION, termini apparentemente banali, ma che richiedono tutte le tecnologie più innovative del DEEP LEARNING e della Business Intelligence.


 


CONDIVIDI:        

Aggiungi commento

Codice di sicurezza Aggiorna

Iscriviti alla nostra newsletter

Iscriviti per ricevere i nostri aggiornamenti.

Lingua