L’esperienza della lettura analizzata con gli strumenti dei big data. Ancora il caso aNobii. Elisa Maestroni intervista il data scientist Lorenzo Verna (terza parte).

La lettura può essere oggetto di data analysis: parola di Lorenzo Verna. Concludiamo la pubblicazione dell’estratto della tesi di laurea magistrale Editoria liquida. Autori, lettori e libri alla prova del digitale, discussa all’Università di Pavia da Elisa Maestroni.

È possibile analizzare la lettura come atto in sé, con le sue variabili, utilizzando metodi e strumenti dei big data? Lorenzo Verna, data scientist, ritiene di sì. Verna si occupa da diverso tempo di big data e nel suo percorso è incidentalmente venuto in contatto con questo progetto interdisciplinare così lontano dalla sua formazione, che però lo ha coinvolto profondamente. Egli ha avuto un ruolo fondamentale nello sviluppo della ricerca Leggere in rete, della quale abbiamo parlato nella prima parte e nella seconda parte di questo studio.

Verna racconta di avere cominciato a riflettere su questi temi e sulle relazioni tra big data e comportamenti di lettura qualche anno fa, iniziando a discuterne con un altro dei fondatori della ricerca, ossia Maurizio Vivarelli. Nel corso dell’intervista emerge come questa ricerca si basi non tanto sul mondo del mercato editoriale, quanto sulla lettura come atto in sé, appunto, ricordando sempre che questo atto non è governato in toto o sempre dall’editore. L’editore è sicuramente uno degli attori protagonisti, ma sono i lettori il nucleo centrale delle dinamiche che abbiamo voluto analizzare.

Che cosa sono i big data

Iniziamo con una domanda generica: che cosa sono i big data?

Non voglio essere evasivo, ma devo dire che non esiste una definizione univoca di big data.

Il termine è nato per descrivere insiemi di dati di dimensioni molto maggiori di quelle convenzionali. Successivamente è stato utilizzato dagli analisti del mercato ICT per aggregare le esigenze e le soluzioni tecnologiche che afferiscono alle nuove sfide derivanti dalle nuove tipologie di dati disponibili. Quindi l’espressione arriva dal mondo dell’information technology, dei produttori di tecnologia del mondo del software che hanno segnalato la portata di questa tipologia di dati. Da una parte vi è l’esigenza di studiarli; dall’altra ci sono i produttori di tecnologia che propongono soluzioni per gestire una cosa che prima non c’era, ovvero volumi molto crescenti di informazioni digitali.

La prima coordinata che ha permesso di identificare i big data (perché si tratta fondamentalmente di un fenomeno a cui è stata applicata questa etichetta) è quella del volume. Questo si collega con quelle che sono le solite curve che rappresentano la rapidità con cui produciamo contenuti digitali. Qui si vede che, dal 2000 circa, la curva aumenta in modo esponenziale, ha un tasso di crescita che è praticamente verticale. Siamo in un momento in cui la produzione di contenuti digitali, di dati è senza precedenti.

Qui le organizzazioni, che – siano aziende, pubblica amministrazione, soggetti privati – hanno due opzioni: o ignorarli e rimanere ancorate ai database strutturati che raccolgono informazioni anagrafiche (quali, ad esempio, nel mondo delle biblioteche i dati relativi ai record dei testi posseduti; che sì, sono molti, ma sono “puliti”, ordinati e con una crescita contenuta), oppure sfruttarli e utilizzarli.

Altra caratteristica importante dei big data è la disomogeneità del dato: esso ha tante forme, tante strutture, tante sorgenti e tipologie. Prima, facendo riferimento sempre al caso precedente della biblioteca, la tabella con i record bibliografici era disciplinata in modo regolare. Adesso, con i big data, abbiamo a che fare con dati di volumi crescenti, che mettono insieme pezzi di informazione che non erano stati pensati per uno scopo specifico, ma che sono sottoprodotti del processo stesso.

Ad esempio, quelli che sono dati collaterali, dell’interazione tra macchine e umani che agiscono su vari sistemi: se io sono la biblioteca, ho i miei record bibliografici; poi ho l’utente che si presenta allo sportello e chiede il prestito: è un’azione; poi c’è il dato relativo al tempo in cui l’utente ha tenuto il testo; il quale magari, prima di restituirlo, scrive anche un commento.

Questi sono sottoprodotti di un’azione che la biblioteca svolge da sempre ma che adesso diventano interessanti, anche integrati e arricchiti con altre fonti. Ma sono dati che posso comunque essere ignorati. Oppure si può decidere se approfondirli e studiarli come portatori di sano contenuto informativo che ci può raccontare qualcosa.

Per analizzare questi big data al meglio sono stati individuati, in questi ultimi cinque o dieci anni, macchine o strumentazioni apposite: sono state impiegate delle energie. Si tratta di analizzare dati di volumi enormemente più grandi di qualche anno fa, e quindi questa rappresenta una vittoria per le tecnologie: riuscire ad elaborare questi dati con queste tecnologie ha significato un importante sviluppo per loro.

Ora si è aperta una nuova ondata di ricerca, legata ad argomenti come machine learning, advanced analytics, network science, cognitive intelligence: queste sono le nuove etichette, sono tecniche che si incrociano e creano una commistione interdisciplinare per cui, oltre alla statistica tradizionale, vi è la presenza di aspetti informatici, di modellazione matematica, di intelligenza artificiale. È la nuova disciplina della data science.

Le mie sono definizioni blande, soprattutto utili per i non addetti ai lavori, ma fanno comprendere quanto questo fenomeno stia interessando e sia in via di definizione e rapida maturazione se ne discute, ci sono convegni, conferenze, ci si confronta attorno a questo argomento.

Cosa è successo fondamentalmente quindi? Le trasformazioni a cui ho accennato si sintetizzano in quattro grandi punti:

1- la consapevolezza che viviamo in un’epoca in cui la disponibilità di dati è spaventosamente più grande di quella che noi riusciamo a immaginare;

2- la presenza conseguente di tecnologie che permettono di affrontare questa mole e varietà di dati;

3- la consapevolezza, da parte di chi detiene parte di queste informazioni, che saperle utilizzare può rappresentare un vantaggio competitivo: è importantissimo, per esempio, avere consapevolezza che con queste informazioni, se ben analizzate, posso superare il mio competitor offrendo migliori servizi o aumentando l’efficienza della produzione;

4- gli investimenti a livello diffuso e pervasivo in ricerca e sviluppo per utilizzare questi dati, il cercare di avere le competenze tecniche, scientifiche, di dominio e quindi concentrarsi su tutto questo, facendo sperimentazioni, misurare gli esiti, realizzare applicazioni concrete e nuovi servizi.

Un mondo di metadati

E i metadati, invece, cosa sono?

Il metadato è un dato che serve per descrivere l’informazione. Mel mondo dei libri sono metadati, ad esempio, la maggior parte dei dati del record bibliografico, ossia gli attributi della scheda del catalogo di una biblioteca, dati che descrivono dati. Non è un fenomeno nuovo, ma lo diventa quando la loro grande disponibilità può generare nuove applicazioni appetibili.

Faccio l’esempio di Twitter, che in questo campo ha fatto un po’ scuola: un tweet di 140 caratteri in realtà è descritto nella piattaforma Twitter con metadati che occupano un volume di circa 10 volte il contenuto testuale espresso dall’utente. Quando analizzo un semplice messaggio, ad esempio «ciao», esso non dice nulla di per sé, ma se consideriamo anche tutti i suoi metadati presenti nella piattaforma, scopriamo da dove scrive l’utente, di chi è amico ecc. Riesco a capire qualcosa in più. Il metadato mi racconta qualcosa: ecco l’importanza dei metadati, soprattutto quando utilizzati in modo massivo.

Il metadato non è nato per essere analizzato, ma per descrivere il dato. Tuttavia, analizzato insieme ad esso, aiuta a migliorarne la comprensione, a scoprire cose che il dato da solo non mi direbbe. È un sottoprodotto del testo: lo descrive, aggiunge dei pezzi. Eppure il sottoprodotto a volte ha più valore del dato vero.

Questo processo si collega al fatto che se ci riferiamo ad una piattaforma qualunque, ad esempio aNobii, dall’esecuzione delle funzionalità per cui è stata progettata derivano come sottoprodotto tanti dati che sono le tracce di queste azioni. Ecco che si creano volumi di informazioni importantissimi, anche solo se tu hai scritto un banale messaggio.

Posso scegliere se ignorare questi dati o utilizzarli per comprendere meglio i miei clienti, le loro azioni ecc. Sapere cosa succede ci permette di offrire servizi migliori, migliorare l’efficienza con cui li utilizzo. 

Si discute sul valore di questi dati, penso subito all’ ambito del marketing in generale. Come è avvenuta la decisione di applicare questo studio ad un ambito culturale come quello editoriale e della lettura?

Capisco benissimo che l’applicazione marketing sia la più diffusa ed intuitiva, ma non è certo l’unico campo di applicazione. In realtà il marketing investe dei soldi su questo, perché è fatto di persone consapevoli dell’importanza dei dati. È stato un driver dell’attivazione della tecnologia, ma risultati molto concreti sono arrivati anche in altri campi paralleli o alternativi al marketing.

Quando diciamo vantaggio competitivo e quindi servizi migliori, o più efficienti o nuovi, il marketing li comunica o li intercetta. Di certo il marketing necessita di questi dati e del loro studio per le sue campagne o la profilazione.

La cultura del dato è ormai pervasiva a qualunque mestiere e realtà aziendale e settore industriale: questo è un risvolto della rivoluzione digitale di grande impatto sociale e sulle strutture organizzative.

Tornando alla domanda, perché abbiamo applicato un processo come questo a un settore come quello della lettura? Per capire appunto se attraverso una piattaforma social – grazie a Mondadori, che ci ha messo a disposizione aNobii – si possano sperimentare metodi e modelli di analisi nuovi. Metodi e modelli che diversamente sarebbe impossibile affrontare, senza dati a disposizione, i quali ci permettono di fare delle valutazioni sui comportamenti di lettura diversi da quelli finora utilizzati nel mondo dell’editoria come: statistiche Istat, dati vendita di alcuni editori ecc.

Questi sono dati ufficiali, affidabili. Però sono dato molto tradizionali, statici, descrittivi, senza possibilità di modellare la realtà in modo fine: ci descrivono un fenomeno avvenuto in precedenza.

Gli obiettivi della ricerca

Ora abbiamo un dato diverso, e tracce delle attività che le persone fanno sui social: che cosa ce ne facciamo? Possiamo aver strumenti che permettono di descrivere o rappresentare il comportamento delle persone rispetto al fenomeno della lettura?

Certo, un primo obiettivo della nostra ricerca è stato proprio dare centralità alle ‘tracce’ digitali lasciate dagli utenti (anonimizzati) e fare emergere i modelli di comportamento che descrivono il fenomeno della lettura, di come le persone interagiscono e si relazionano rispetto l’oggetto libro.

Il primo passaggio è stato fare una network analysis. Questa è un po’ la mia disciplina di specializzazione. abbiamo provato a trovare correlazioni tra persone, autori e testi, per comprendere quali erano le comunità, come si definivano, capire le loro dinamiche, gli ambiti di interesse che li correlavano e come variavano nel tempo.

I modelli che ne derivano hanno diverse implicazioni. Non escludo possano essere di interesse a Mondadori stessa in quanto coordinatrice delle attività e delle funzionalità della piattaforma aNobii ma anche in qualità di editore di rilievo.

Per gli scopi della ricerca e dell’analisi non è rilevante conoscere le informazioni anagrafiche delle persone (es. dove abiti o come ti chiami) ma l’insieme delle azioni e interazioni: quel che fai, che libri scegli, come li leggi, come li recensisci, per individuare non tanto il profilo quanto modelli di comportamento, che non definiscono solo comunità di individui ma definiscono anche i rapporti le relazioni e le reazioni rispetto ai contenuti alle storie e alle emozioni.

Questo materiale potrebbe essere usato anche dall’autore, per esempio e non per forza dall’editore per vendere!

Quali sono gli esiti della vostra ricerca?

Vi sono diversi risvolti: sicuramente il primo è avere iniziato ad individuare modelli e strumenti che permettano di conoscere meglio il fenomeno della lettura.

In concreto da ciò potranno definirsi molteplici ricadute che possono influenzare positivamente i lettori, rendendo disponibili nuovi servizi e contenuti di maggiore qualità. Gli editori potranno essere coadiuvati nell’intraprendere scelte più consapevoli, mentre le istituzioni pubbliche potranno avere un supporto nella promozione della lettura e dell’istruzione.

Esula dai primi obiettivi della ricerca una riflessione sulle possibili ricadute applicative all’interno della piattaforma aNobii. Credo comunque che ci possano trovare ampi spazi di riflessione e molti stimoli. Immagino possano nascere interessanti nuovi servizi per i lettori ponendo grande attenzione al rispetto dell’indipendenza e della libertà che il lettore pretende quando si esprime. Sentirsi volutamente spinto da un eventuale marketing editoriale darebbe una sensazione di invasione, che sarebbe probabilmente mal tollerata.

Un messaggio per Mondadori

C’è comunque la possibilità di usare questi dati per indirizzare le vendite?

La disponibilità di dati e di strumenti di analisi certamente arricchiscono le competenze degli editori che possono trovare un nuovo supporto nel guidare le loro iniziative editoriali e commerciali. Ma nel caso del nostro progetto di ricerca siamo più focalizzati alla comprensione del fenomeno della lettura e alle possibili ricadute anche nell’ambito della promozione della lettura.

Però direi che è anche eticamente giusto, secondo me, che ciò avvenga. Avere a disposizione i dati e i modelli che descrivono un fenomeno è un’opportunità che deve essere utilizzata per comprendere e misurare l’effetto e l’efficacia della lettura in quanto atto individuale e collettivo, l’efficacia della promozione alla lettura che viene fatta da soggetti istituzionali pubblici e privati e – perché no – anche l’azione editoriale e commerciale.

La promozione è più filantropica e la vendita è più economica; ma forse, come dice Lei, la questione è più sul come utilizzare tutta questa mole di dati. È corretto?

Dipende dall’interlocutore, certo. Sicuramente l’editore ne trae beneficio, e anche il lettore ne trae benefici perché ha gli stimoli giusti e verrebbe così sollecitato in modo più vicino alla sua sensibilità. Nel caso fosse solo marketing, allora, come lettore, voglio rimanere indipendente e non essere condizionato. Diverso il caso in cui, invece, si tratti di implementare nel modo corretto, più efficiente, la lettura e quindi, anche la vendita di libri, di andare cioè verso una migliore qualità di ciò di cui usufruisco e verso l’offerta di servizi nuovi che mi aiutano a fare meglio ciò che mi piace. Allora tutto questo è un beneficio per me e per la casa editrice.

Ma se anche fosse così, se cioè i dati venissero utilizzati solo per rispondere a questioni economiche, credo sia in linea con le dinamiche comuni a tutti gli editori così come per ogni altro settore industriale o commerciale.

A proposito di aNobii l’avete scelto per la presenza di una comunità ampia e variegata?

Sì, essenzialmente per questo sì e per disponibilità di Mondadori ad accettare il nostro progetto.

(terza parte di tre; leggi la prima parte e la seconda parte)