Bisogna smascherare la presunta oggettività dei dati. Questi non si presentano mai allo stato grezzo. Registrare e quantificare vuol dire già interpretare. Ecco perché gli algoritmi dei big data non sono neutrali.

Ha ragione Dominique Cardon: di big data si può discutere, “a patto di mantenere le distanze da certe mitologie che riempiono i discorsi dei loro promotori” (Che cosa sognano gli algoritmi, Mondadori 2016). La madre di tutte le mitologie è quella che vede, con l’avvento dei big data, la nascita di una nuova stagione, nella quale i dati sono finalmente liberi di parlarci nella loro oggettività. Si tratta di un’illusione o, quel che è peggio, di un discorso in cattiva fede.

I modelli statistici standard, lo sappiamo, sono incapaci di rappresentare la realtà senza agire su di essa. Misurare significa fissare indicatori e categorie, ossia definire un orizzonte di attese. Ma ciò orienta il comportamento degli attori sociali sottoposti a misurazione. La società adatta inevitabilmente il proprio agire alle informazioni che sono fornite su di essa. E le misurazioni statistiche “servono a fabbricare il futuro” (Cardon, op. cit.).

Pensiamo al tradizionale lavoro di segmentazione di cui ancora oggi si nutre il marketing. Immaginiamo, per fare un esempio, di voler stabilire la correlazione fra consumo del tal prodotto e titolo di studio. Il risultato della nostra analisi sarà per forza di cose condizionato dal modello che stiamo applicando, ossia dall’ipotesi formulata a priori: l’esistenza di varianti di comportamento significative fra individui con diverso titolo di studio. La realtà tenderà a confermare la nostra aspettativa, per così dire vi si adatterà. Ma quali risposte avremmo ottenuto ricercando la correlazione fra altre variabili? Nulla esclude che all’interno del segmento “individui laureati” si annidino differenze di comportamento ben più significative, legate a variabili escluse dalla nostra ipotesi.

Big data

Il paradigma dei big data, afferma la pubblicistica corrente, riporterebbe il discorso sul piano dell’oggettività. Circola l’idea che nel nuovo scenario i fenomeni osservati non sarebbero condizionati dall’orizzonte di attese dell’osservatore, in quanto non vi è alcun riferimento o benchmark fissato a priori. Con i big data si lascia che siano i dati a dirci quali sono il benchmarck, la correlazione, il modello. I dati ci svelano il loro segreto, a prescindere dall’ipotesi di partenza (che diventa pertanto irrilevante). I big data ci fanno vedere come stanno le cose, senza alcuna pregiudiziale. Le cose stanno così perché sono i dati a dircelo; sono loro a segnalarci le correlazioni significative fra un numero tendenzialmente infinito di variabili.

Tutto ciò è reso possibile dalla straordinaria potenza di calcolo oggi a disposizione, che permette di analizzare basi dati enormi a basso costo e in tempi sempre più rapidi. Si tratta di un apprendimento di tipo statistico che avviene in assenza di una reale comprensione dei fenomeni. Così funzionano gli algoritmi di deep learning e le reti neurali. Sarebbe questa, secondo Chris Anderson, “la fine della teoria” (si veda il famoso post di Anderson del 2008 su “Wired” The End of Theory: The Data Deluge Makes the Scientific Method Obsolete). Si tratta di una lettura davvero ingenua. L’analisi automatica dei dati ci permette tutt’al più di portare in superficie una serie di informazioni nascoste; ma senza un modello di analisi non sapremmo che uso fare di tutti i dati oggi disponibili. Anche perché resta vero il vecchio adagio secondo il quale correlation does not imply causation (ovvero: la correlazione fra due fenomeni non implica necessariamente un rapporto di causa-effetto). Si potrebbe anzi affermare che la necessità di un modello risulta ancora più evidente in un mondo in cui i dati – e le correlazioni osservate – crescono in misura esponenziale.

Per Evgeny Morozov l’idea che il soluzionismo tecnologico possa risolvere problemi complessi è semplicemente folle:

Quanto alla supposta oggettività del paradigma big data, vi sono alcune circostanze che vale la pena di sottolineare una volta di più. La prima è che i grandi filoni di dati non sono a disposizione di chiunque, ma tendono a essere oggetto di un controllo oligopolistico. Pochi operatori, a livello mondiale, detengono e organizzano la maggior parte dei dati che ci riguardano, per lo meno per quanto concerne la nostra vita online. Parliamo in primo luogo di Google, Facebook e Amazon, i signori dei big data. Del resto solo loro dispongono dell’infrastruttura e della potenza di calcolo necessarie per effettuare analisi su tali dati. Ed è chiaro che tali soggetti agiscono sulla spinta di interessi commerciali tutt’altro che neutrali.

Si aggiunga il fatto che le caratteristiche degli algoritmi utilizzati da Google, Facebook e Amazon non ci sono note, in quanto parte di un segreto industriale ben custodito. In questo senso Frank Pasquale, nel suo bel saggio The Black Box Society: The Secret Algorithms That Control Money and Information (Harvard University Press 2015), parla di big data come “scatole nere” e mette in guardia contro un potere fondato sempre di più sulla segretezza.

In sostanza si delinea uno scenario fortemente squilibrato: da un lato i dati sembrano produrre una forma di conoscenza – che si traduce in potere e profitto – solo per i pochi che ne detengono la proprietà e che hanno gli strumenti per analizzarli; dall’altro gli stessi dati generano rumore e smarrimento per la grande platea degli utenti.

[Questo post riprende alcuni spunti dell’insegnamento I suoni e il rumore nell’era dei big data, che si svolge nell’ambito del corso di laurea magistrale in Comunicazione dell’Università di Pavia, a.a. 2016-2017.]