Big Data

Quando big non vuol dire solo “grande”

Ogni giorno nel mondo creiamo 2 Zebibyte di dati (1 Zebibyte corrisponde a 1180 miliardi di miliardi di Byte). Si tratta di una quantità enorme di informazioni, così grande che fatichiamo addirittura a concepirla. Eppure pensare che il concetto di Big Data si esaurisca nell'idea di “tanti dati” è profondamente sbagliato. Nel nuovo paradigma la parola big non significa solo “grande”. L'evoluzione verso di Big Data si declina in tre dimensioni: volume, velocità, varietà. Per questo possiamo anche definirla la rivoluzione delle tre V (anche se non è del tutto corretto parlare di rivoluzione).

Volume vuol dire che, in effetti, i dati da processare si presentano in quantità fino a pochi anni fa inimmaginabili. La cosa pone sfide non da poco sul piano tecnologico, sia dal punto di vista dell'immagazzinamento (storage), sia per quanto riguarda l'accesso e l'analisi. Velocità significa che vogliamo interrogare i dati per avvicinarci all'essenza dei fatti in tempo reale. Anche in questo caso le implicazioni tecnologiche sono evidenti. Varietà, infine, vuol dire che i dati su cui lavorare sono disomogenei e spesso non strutturati (pensiamo, per esempio, ai contenuti delle conversazioni in Rete).

Sul piano tecnologico vediamo all'opera tre vettori del cambiamento, che accomunano Big Data al paradigma del Cloud Computing. Tanto è vero che per fare Big Data si va sul Cloud. La prima dimensione è quella dell'elasticità: processare enormi flussi di dati in tempo reale implica infrastrutture elastiche, che mettono a disposizione le risorse di calcolo istantaneamente e on demand. È il modello del Cloud Computing, appunto. La seconda dimensione, logicamente collegata alla prima, è quella dell'infrastruttura distribuita: anziché concentrare il potere di calcolo in una specifica unità, il carico di lavoro viene distribuito e orchestrato grazie a un efficace connessione fra le risorse. Infine – ed è la terza dimensione – prevalgono i modelli open source. Basti pensare al ruolo di tecnologie come Hadoop (nata in casa Yahoo!) o BigTable (sviluppata da Google e poi evoluta in Apache Accumulo). La cosa vieppiù interessante è che il modello open source oggi non è più limitato al software, ma riguarda in misura sempre più massiccia anche l'hardware.

Spindox è pienamente dentro questo paradigma. Gargantua, il nostro framework applicativo per la gestione di Big Data, si basa su un modello reattivo di tipo event driven. È caratterizzato da forte scalabilità, resilienza (adattandosi a condizioni d’uso non facili da definire a priori e garantendo in ogni caso i servizi offerti), interoperabilità (per gestire i contenuti che si manifesteranno in una molteplicità di formati) e potenza di calcolo (per reagire in tempo reale a una grande quantità di eventi).

Dal punto di vista architetturale Gargantua è composto da diversi strati:

– un guscio esterno che funge da gateway e che è in grado di ricevere e interpretare gli eventi a prescindere dal protocollo di comunicazione con cui si presentano (HTTP, TCP, REST, SOAP, Websockets, …);

– uno strato intermedio che funge da broker, trasformando e dispacciando gli eventi suddetti agli strati successivi dell'applicazione;

– uno strato di orchestrazione e regolazione dei processi;

– un contesto di esecuzione, nel quale è possibile implementare più scenari in contemporanea, ovvero diversi tipi di comportamento a partire dagli eventi ricevuti;

– un motore di calcolo molto performante (architettura cloud, spatial computation, …).

Certamente Big Data è il mondo dei database non relazionali. Le nostre esperienze in questo ambito sono forti, soprattutto con la tecnologia MongoDB, database noSQL open source che abbiamo utilizzato con successo in diversi contesti progettuali.

In Spindox siamo consapevoli che il paradigma tecnologico basato sull'abbondanza dei dati non è infallibile. Big Data non garantisce sempre l'esattezza della previsione. A volte, anzi, ingigantisce gli errori (“big data, big errors”) perché induce a considerare relazioni statistiche false (a causa di forti deviazioni dallo standard) e a sopravvalutare il dataset rispetto alla vita reale. Senza contare le sfide poste dal ricorso a tecnologie open source, rispetto a temi come la sicurezza e la disponibilità di supporto nel tempo. Da questo punto di vista quella di Big Data non è una rivoluzione, ma l'inizio di una evoluzione che si presenta lunga e complessa.

COME UTILIZZIAMO I COOKIES?

Questo sito web utilizza Google Analytics, un servizio che fa uso di cookies per analizzare in forma anonima le informazioni sui comportamenti di utilizzo del sito stesso. Continuando la navigazione accetti l'uso di tali cookie.

Ok Leggi di più