La chiamano la rivoluzione dei dati. Ma la vera rivoluzione, da sempre, è imparare a ricavarne informazioni utili e, in ultima analisi, conoscenza. Il paradigma dei big data va in questa direzione? Non tutti ne sono convinti. Sul punto, davvero cruciale, si è sviluppato un forte dibattito. Fra le voci critiche si segnalano quelle di Evgeny Morozov (che contesta l’approccio “soluzionista” delle nuove tecnologie) e di Nicholas Carr (che contrappone il modello “right data” a quello meramente quantitativo).

Il nodo vero è forse colto da un osservatore estraneo al mondo dell’IT, come l’economista Riccardo Puglisi. Parafrasando il famoso motto di Blaise Pascal, Puglisi osserva: “l’analisi dei dati ha le sue ragioni, che la ragione ex ante non capisce” (si veda Perché servono i big data nella lotta contro il terrorismo, su Lavoce.info). Un modo per dire che l’innovazione, anche nell’analisi dei big data, può realizzarsi in direzioni che non sono identificabili ex ante.

Per questo i dati continuano a essere il bene più prezioso: perché dati di qualità scadente non possono che portare ad analisi altrettanto scadenti. Quello che è certo è che stiamo vivendo l’inizio di una nuova sotto-fase della rivoluzione tecnologica in atto, basata sulla sempre maggior disponibilità di nuovi dati unita alla crescente consapevolezza del loro valore. Attraverso tali dati – o meglio, attraverso la corretta analisi di essi – sarà possibile comprendere in modo più approfondito la realtà, con la possibilità di ideare e adottare nuovi approcci a supporto delle fasi decisionali.

Fin dall’invenzione dei primi strumenti matematico-statistici, il dato è stato alla base delle analisi volte alla rappresentazione e all’interpretazione delle realtà; inoltre oggi sono disponibili – non più solo nei grandi centri di calcolo – strumenti molto sofisticati sia di elaborazione dei dati sia si supporto alla loro visualizzazione. Si stima che nel 2020 esisterà una quantità di oltre 50 volte i dati disponibili nel 2010, di cui la maggior parte sarà allocata presso i data center di società o presso i servizi di storage on-cloud offerti dai provider.

Che cosa è successo – ed è tutt’ora in corso – che spiega questa accelerazione nella generazione di nuovi dati? I driver del cambiamento sono sostanzialmente due: da un lato la creazione di interconnessioni tra sistemi informativi, dall’altro la crescita e la maturazione del numero di strumenti, disponibili anche a basso costo, per l’elaborazione e la rappresentazione dei dati

Al primo fenomeno si associa generalmente lo scenario cui ci si riferisce con il termine big data (ma il big, come vedremo, non è da interpretarsi solo nel senso della quantità in senso stretto).

Grazie all’interconessione tra sistemi – fino alla interconnessione potenzialmente globale via Internet – ci si trova ad avere a disposizione, con un costo aggiuntivo potenzialmente molto basso, moltissimi set di dati in più. Inoltre, si assiste a un rovesciamento dello scenario, tipico del passato, in cui il dato veniva raccolto dietro precise richieste statistiche allo scopo di costruire un campione significativo, limitando tale quantità di dati tipicamente sulla base del budget disponibile.

Oggi, al contrario, possiamo avere a disposizione dati, sia rappresentativi sia non rappresentativi, dalle fonti più disparate, spesso tra loro non omogenee, e non direttamente confrontabili.

Non è noto a priori come mettere insieme questi dati per generare informazioni significative, ad esempio per identificare nuove strategie aziendali, per analizzare il proprio posizionamento sul mercato, o per definire le caratteristiche di un nuovo prodotto o servizio.

Inoltre, e si tratta di un aspetto nuovo, la quantità stessa di dati è talmente grande da generare una serie di problemi tecnologici ed economici associati alla loro acquisizione, all’immagazzinamento, alla consultazione e alla rappresentazione.

Ci troviamo davanti, in sintesi, a una sfida tecnologica che include parecchi aspetti nuovi.

Il secondo motivo precedentemente considerato – la crescita e maturazione di strumenti di analisi, siano essi open source o commerciali – consente la diffusione della analisi dati con investimenti di minor peso rispetto al passato. Ne consegue che il numero di società che possono intraprendere tali tipi di analisi sta aumentando velocemente. Di solito ci si riferisce a questo scenario con il termine analytics e, anche in questo caso, la situazione è più complessa a variegata di quanto il termine faccia supporre.

Consideriamo il tipico processo di analisi del dato per arrivare a estrarne informazioni utili. Esso è scomponibile in quattro fasi – in un percorso che, scopriremo poi, è potenzialmente ciclico, ricorsivo, senza fine: data collection, data management, data science, data visualization

Durante la fase di data collection si deve principalmente identificare il potenziale del dato acquisito, la sua affidabilità dal punto di vista statistico. Sia detto per inciso – ma nella nostra esperienza consulenziale abbiamo spesso notato come le aziende committenti sopravvalutassero tale potenziale contenuto nei propri flussi dati.

La successiva fase di data management è quella in cui avviene lo scontro tra le moli di dati e le potenze dei sistemi dedicati ad archiviarli e trattarli, indipendentemente dalle tecnologie adottate. In tale fase si scopre che, forse, anche lo spazio disco non è infinito.

Il vero valore, quello che è il compito del data scientist deriva dalla elaborazione dei flussi di dati raccolti e resi disponibili in un punto centralizzato; in questa fase, chiamata data science, è necessario arrivare alla sintesi, alla creazione di nuove informazioni. Qui entrano in gioco non solo le ovvie competenze statistiche e di business intelligence classica ma una visione globale ed innovativa costituita da un misto di metodi, tecniche, inventiva e – la cosa diventa quasi emozionante – creatività.

L’ultima fase data visualization – la punta dell’iceberg del processo completo, quella visibile ai non addetti al trattamento del dato – serve per comunicare agli altri in forma comprensibile le informazioni scoperte.

Compito di chi si occupa di visualizzazione è trovare il modo corretto per consentire di fruire di queste informazioni: può essere il management della azienda committente o uno statista politico, un giornalista, un lettore curioso, uno startupper. Non si tratta di un problema di software giusto o meno ma di metodo, di design correttamente scelto per il genere di rappresentazione cercato.

Non bastano più grafici canonici, tabelle pivot, ideogrammi o torte, le query sql o mdx. Servono strumenti  e tecniche nuove in grado di mettere su carta o, in modo interattivo, su pagina web la complessità dei dati analizzati per farli leggere, navigare, percepire; in una parola: capire.

Tre esempi – la cui trattazione di dettaglio esula da questo breve posto – faranno capire meglio:

1 – Le mindmaps (una della più famose – risalente al 2007: i trend dei siti web).

Mind map

2.- Metodi per rappresentare connessioni: un esempio per mostrare similarità di passi in un libro.

Infografica colorata connessioni

3.- Metodi per rappresentare articoli e risorse: come esempio i tweet di una settimana su un dato argomento.

rete di connessioni dei tweet

Queste quattro fasi, annegate in un processo ben strutturato, possono portare – in un ciclo virtuoso – alla generazione di nuovi flussi e nuovi modelli e nuove informazioni che rientrano nella fase uno di una successiva analisi. Per noi di Spindox si tratta di un mondo emozionante la cui strada sembra appena partita.