La quantità, senza un senso, è nulla. E questo vale anche nel mondo degli analytics. Per questo preferiamo parlare di smart data, piuttosto che di big data. Una semantica dei dati è necessaria per creare valore aggiunto.

Iniziamo da alcuni numeri, che si riferiscono alle previsioni di International Data Corporation relativamente alla crescita dei dati in tutto il mondo. La stima è impressionante: nel periodo 2010-2020 – e vi siamo immersi in pieno – la quantità di dati digitali è destinata ad aumentare da quaranta a cinquanta volte, fino ad arrivare al valore di circa 40 zettabyte (1ZB = 10 alla 21 byte). È come se, per ogni abitante della terra, ci fossero 6 terabyte di dati, l’equivalente del testo contenuto in circa tre milioni di libri.

Digital_Universe_smart_data

Come spesso accade una immagine vale più di mille parole.

Ma, partendo da questa mole crescente di dati, come se ne possono estrarre informazioni nuove, utili, che diano vantaggi competitivo, che migliorino l’esistente? C’è un potenziale in questa miniera di dati? La risposta più diffusa è sì. In un recente sondaggio svolto dall’Università di Oxford quasi i due terzi degli intervistati ha detto che l’utilizzo di processi analitici fornisce alle proprie aziende un vantaggio competitivo.

Scavare nei dati, come un minatore alla ricerca della pepita.

Iniziamo da una considerazione quasi banale: dobbiamo comprendere – in modo approfondito – la massa di dati in analisi per poterla valutare correttamente ed estrarne valore. In altre parole: dobbiamo sapere quali siano i vari dispositivi e le fonti (data-source) disponibili che possono fornirci i dati di cui abbiamo davvero bisogno per poter condurre una analisi proficua.

Il criterio di base per la scelta, probabilmente quello decisivo, non è necessariamente la quantità di dati disponibili – uno degli aspetti caratterizzanti i cosiddetti Big Data – ma il potenziale di contenuti di valore, aspetto caratterizzante degli Smart Data.

Una prima panoramica dello scenario attuale dei Big Data è contenuta in un precedente post, a cui rimandiamo: I dati, il bene più prezioso. Ora vediamo alcuni limiti di tale paradigma e una potenziale evoluzione, quella verso gli Smart Data, che potremmo anche chiamare in italiano “dati intelligenti”.

Il futuro dei Big Data dipende strettamente dalla esistenza di Smart Data, dalla loro sinergia e dalla loro utilizzabilità. Evolveranno le tecniche estrattive con affascinanti nuovi algoritmi e metodi di intreccio tra fonti diverse? Dati oggi solo immagazzinati verranno di nuovo scavati in futuro? Probabilmente sì.

L’ingresso e il potere della semantica stanno inesorabilmente e profondamente trasformando il concetto di Big Data in Smart Data; questo è un legame comune oggi presente in diversi campi in rapida evoluzione tra cui l’Internet delle cose, il Cognitive Computing, i “Semantic Graph Database”, i “Data Lakes” (cui dedicheremo  i prossimi post) e l’Intelligenza Artificiale.

Definiamo gli Smart Data come “dati con una semantica attaccata”.

Aggiungere altri dati non è la soluzione, mentre la aggiunta di semantica è il passaggio che fornisce valore al dato; la attività di costruzione di un valore aggiunto ha poco a che fare con la dimensione del set di dati sotto analisi e molto invece con il modo intelligente di trattare tali dati, inclusi gli strumenti utilizzati.

Probabilmente potremo dire che, nel giro di pochi anni, gli Smart Data sono stati la naturale evoluzione dei Big Data o, in alternativa che l’unione di Big Data ed Analytics ci porta ai Dati Intelligenti.

Il passaggio dai Big agli Smart sembra stia diventando sempre più di una attività oggi comune, sostanzialmente perché stiamo creando una mole di informazioni talmente elevata – come rilevavamo all’inizio – ma la cui archiviazione è ormai ruotine. Quello che sta mancando è l’uso di tali dati. Lo scenario, in altre parole, è “sovrabbondanza di dati e non abbastanza domanda di loro utilizzo”.

Chiediamoci poi se sono necessari i Big Data per averne di Smart? È tipico sentire che le aziende vogliono sempre più dati da importare, immagazzinare, trattare ed esporre. Ma già oggi siamo in pieno sovraccarico di dati disponibili. La vera domanda è come usare i dati, l’approvvigionamento è secondario.

Probabilmente è anche una questione di maturità di competenze: la capacità di maneggiare pienamente Big e Smart dataset deve evolvere verso la loro maturazione con l’introduzione di nuove idee e metodi. E i big player del panorama IT vi stanno lavorando.

La natura concettualmente autodescrittivi degli Smart Data è il “punto di ingresso per la logica applicata ai processi analitici basati sui dati”.

Nel caso di Dati non Smart – e chiamiamoli per una volta in questo contesto dati stupidi anche se, visto che sono DBA dentro la cosa rattrista – tali dati, presi al di fuori del contesto che li ha generati rischiano di perdere intrinsecamente il proprio significato.

Nel caso di Smart Data è vero il contrario perché, passando da una serie di dati enorme a dati più intelligenti, sono i dati stessi che contengono intrinsecamente ciò che è necessario, ciò che li descrive, ciò che ne giustifica l’esistenza.  Il tutto in modo indipendente dal campo di applicazione, con risparmio di tempo ed energia per l’estrazione.

Con gli Smart Data si può pensare di creare un modello e successivamente di mappare i dati reali su quel modello. E quando quel modello diventa interrogabile ne deriva un significato – se ne trova una ulteriore semantica – una differenza enorme.

Quindi perché gli Smart Data sono oggi praticamente una necessità per i Big Data, per le sue enormi quantità, la sua varietà e gli elevati volumi da trattare in real-time o quasi real-time? Perché possiamo dire che essi facilitano:

La aggregazione dei dati e relativa analisi, sia in caso di dati strettamente strutturati che semi-strutturati [la maggior parte degli scenari] che destrutturati accelerando quindi lo svolgimento del processo di analisi

Le attività di Data Modeling: in quanto complessità e durata delle attività di modellazione dati sono notevolmente più semplici nel paradigma degli Smart Data con conseguente riduzione dei tempi

L’accesso controllato e controllabile in linea con direttive di Data Governance, probabilmente vitali nel lungo termine.

Forse un giorno potremo dire che, attraverso l’uso di questi dati intelligenti associati ad analisi corrette, non solo avremo la capacità di scoprire che cosa sta accadendo nelle nostre strutture – siano esse città, centrali elettriche, treni, motori, flussi di persone e di automobili, migrazioni di animali, consumi energetici, mercati finanziari, in un dato momento – ma anche perché sta succedendo.