Libri, lettori e big data: non c’è solo Amazon. Esperimenti in atto, prospettive e minacce in una ricerca di Elisa Maestroni (prima parte).
Che cosa fanno i big data all’editoria? E che cosa fa l’editoria coi big data? Pubblichiamo – a puntate – l’estratto di una recente tesi di laurea magistrale discussa all’Università di Pavia.
Il paradigma dei big data, si sa, è pervasivo. Lo vediamo imporsi in molti ambiti della nostra vita. Anche nel campo dell’analisi dei dati che ruotano intorno all’atto di lettura tale paradigma sta assumendo un ruolo sempre più importante. Parliamo dei dati che sono processati con l’ausilio di metodi e strumenti tecnologici nuovi, attraverso piattaforme articolate e potenti, nel tentativo di comprendere i comportamenti delle persone che leggono e ricostruire in tal modo i loro gusti.
Il pensiero corre inevitabilmente ad Amazon. In realtà ci sono diverse esperienze, sia in ambito commerciale sia in quello della ricerca, che meritano di essere studiate. Per farsi un’idea delle potenzialità dei big data nell’ambito dell’editoria può essere utile la lettura di due saggi: Vedere la lettura. Dati, immagini, documenti di Maurizio Vivarelli e Prospettive di analisi dei dati di Lorenzo Verna. Entrambi sono contenuti nel volume a cura di Chiara Faggiolani e dello stesso Vivarelli Le reti della lettura. Tracce, modelli, pratiche del social reading (Milano, Editrice Bibliografica, 2016).
Faggiolani, Verna e Vivarelli hanno coordinato il gruppo di studio legato al progetto «Leggere in rete» che, attraverso tecniche di big data analysis, ha cercato recentemente di analizzare i tantissimi dati provenienti da piattaforme social reading, con l’obiettivo di comprendere meglio le dinamiche e i comportamenti di lettura.
Cinque tipologie di analisi
Per interrogare questa varietà di dati si utilizzano molteplici metodologie di analisi. Verna cerca di classificarle per mostrare i livelli che caratterizzano questa tipologia di studi. Riporto qui la scala da lui proposta:
1- Analisi descrittive, ci aiutano a comprendere e valutare «che cosa è successo»;
2- Analisi diagnostiche, ci aiutano a comprendere e valutare «perché è successo»;
3- Analisi predittive, ci forniscono indicazioni su che cosa succederà in futuro;
4- Analisi prescrittive, forniscono indicazioni su come ottimizzare le nostre scelte;
5- Analisi adattive, consentono al modello di analisi di imparare e di valutare l’efficacia delle proprie scelte e previsioni in una linea di apprendimento automatico.
Applicare il metodo di analisi dei big data all’editoria costituisce una novità e permette di effettuare una ricerca approfondita come non si è mai avuta, soprattutto pensando che i principali dati sul mondo della lettura finora derivano dalle indagini sociodemografiche dell’Istat o di altri organi ufficiali. O si tratta di dati di vendita resi disponibili da alcuni editori, che hanno «alcune caratteristiche proprie, sono relativamente “puliti” nel senso che sono dati raccolti ad hoc per fini statistici rispetto a variabili e attributi descrittivi noti a priori» (Verna, p. 225).
Sono quindi dati che vengono raccolti con uno scopo preciso, ben definiti e disponibili dopo un lasso di tempo da quando si è registrato il fenomeno al momento in cui sono evidenti gli indicatori che per primi lo illustrano: questo può essere un vantaggio poiché permette di effettuare ricerche sicuramente interessanti e utili, ma è al contempo uno svantaggio: sono dati che risultano statici e poco dinamici se confrontati alle possibilità offerte dall’utilizzo di grandi masse di dati variegati.
Si comprende fin da subito quanto sia fondamentale, nell’ambito dei big data, la collaborazione con esperti del settore; in particolare mi riferisco al data scientist, capace per le sue competenze e la sua formazione di gestire patrimoni di dati così ampi.
Gli algoritmi di Amazon
Il processo di digitalizzazione della filiera editoriale consente di entrare in contatto con dati e processi mai analizzati prima d’ora, come quelli relativi ai gusti degli utenti e ai feedback rispetto alla lettura di un determinato volume.
L’elaborazione e l’utilizzo di questi dati, se da un lato generano curiosità e sorpresa, dall’altro hanno scatenato polemiche e discussioni. Molti, infatti, si sono domandati quanto questi possano influenzare sia il processo di scrittura e nascita di un testo, sia i gusti e le preferenze degli utenti. Si teme insomma che il modello dei big data generi una deriva apocalittica, in cui creatività e indipendenza di scrittori e soprattutto lettori vengano messe in grande pericolo.
Amazon o Barnes&Nobles, due tra i più grandi retailer di libri al mondo, raccolgono da tempo dati relativi agli acquisti ma anche alla lettura di testi tramite i loro dispositivi (i popular highlights di Kindle ne sono un esempio). E anche in questo caso non mancano le polemiche, riferite al patrimonio di informazioni di enorme portata detenuto da tali operatori.
«L’editore e magari l’autore, insomma tenderanno in misura crescente a compiere le loro scelte facendosi guidare dai dati», scrive Paolo Costa in Siamo scimmie o lettori? (“PreText”, 5, novembre 2016, 25). Se i software in futuro saranno in grado di selezionare il libro giusto per i gusti e le richieste dell’utente, lo stesso software potrebbe anche influenzare chi scrive, indirizzandolo a scegliere trame e storie che vadano incontro ai gusti dei lettori. In un’ipotesi di questo genere avrebbero quindi successo le imprese editoriali capaci di analizzare e lavorare sui dati, ed è così che «non si può fare a meno di constatare che Amazon si presenta ai blocchi di partenza con un vantaggio competitivo enorme» (Costa, 26).
Il motore di raccomandazione di Amazon utilizza gli attributi del libro, ossia categorie e parole chiave, e la storia pregressa degli acquisti dell’utente/lettore, per cercare di capire quali siano i suoi gusti e interessi e per offrire così una proposta di titoli appetibile, che possa suscitare l’interesse del lettore.
Costa nel suo articolo illustra alcuni degli approcci big data utilizzati da Amazon per definire le proposte o raccomandazioni ai lettori: per esempio, un approccio item-to-item collaborative filtering in cui ogni libro in vendita nel catalogo presenta un valore di vicinanza con altri testi, selezionati come vicini ad esso. Così, quando scegliamo un libro, ce ne vengono proposti altri, correlati al primo da una relazione di vicinanza: ossia un algoritmo che mette in relazione gli elementi acquistati e ordinati dagli utenti con altri elementi che poi ricombina in una specifica raccomandazione.
Un altro tipo di approccio presentato è quello user-to-user collaborative filtering, che permette di stabilire rapporti di vicinanza tra gli utenti, basandosi sull’analisi storica del loro comportamento.
Infine, un altro approccio ancora è quello basato sull’«analisi fattoriale del comportamento di acquisto del consumatore, con l’obiettivo di identificare delle regole» (Costa, 26, basato quindi su un’analisi della storia del consumatore nel suo complesso.
I big data presentano sicuramente una risorsa per una piattaforma come Amazon, perché permettono di intercettare i gusti degli utenti, soddisfacendo le loro richieste. Ma a essi si può muovere una critica forte, poiché attraverso gli algoritmi di raccomandazione i nostri gusti tendono a consolidarsi attorno a ciò che già conosciamo, replicando schemi, trame, prodotti, senza far evidenziare idee nuove.
Tra editori e startup
Le collaborazioni tra mondo editoriale e mondo informatico stanno cominciando ad aumentare, dimostrando come questi argomenti suscitino interesse e sorpresa. Per esempio, già nel 2015 l’Associazione Italiana degli Editori (AIE) aveva organizzato un workshop dedicato alla gestione della customer identity e alla social analysis, in particolare presentando alle case editrici la possibilità di profilare gli utenti e collezionare i loro dati per migliorare la relazione con loro.
In questo incontro si sottolineava la portata dei cambiamenti legati al digitale e soprattutto il ruolo degli utenti, riuniti in una comunità di lettori attenti e attivi che scambiano idee, si influenzano l’un l’altro e producono contenuti.
In un interessante articolo, Justo Hidalgo, uno dei responsabili della start up 24Symbols (che offre un servizio di lettura di testi digitali su internet tramite un abbonamento, molto simile al servizio offerto per la musica da Spotify), sottolinea l’importanza della data science in un settore come quello editoriale.
Partendo dal caso della sua start up, Hidalgo evidenzia l’importanza di trattare le informazioni derivanti dallo studio del comportamento degli utenti sulla piattaforma, ma ricorda anche come questi dati debbano essere trattati confidenzialmente e soprattutto organizzati e gestiti al meglio per essere una valida fonte di ricerca:
«Quel che abbiamo imparato noi di 24symbols è che le informazioni provenienti dai rivenditori e dai servizi che si rivolgono al pubblico sono fondamentali per gli editori. Senza andare nei dettagli dei clienti individuali, i dati aggregati possono essere usati per imparare molto di più riguardo al come e al quando le persone leggono i libri di un editore; trovare correlazioni tra segmenti di lettori; o comprendere le effettive e reali percentuali di successo e fallimento dei titoli, oltre alle vendite e ai commenti soggettivi. Ma solo un numero molto limitato di rivenditori sono disposti a lavorare con gli editori e fornire queste informazioni. E, allo stesso tempo, solo pochi editori hanno il tempo e le conoscenze per comprendere completamente il valore di queste informazioni.»
In Spagna è attiva da qualche anno Tekstum, una start up guidata da Marc Santandreu, che si basa sull’analisi di informazioni di tipo qualitativo, come i sentimenti e le emozioni espressi dai lettori rispetto ai libri letti o in lettura.
Tekstum ha attratto fin da subito l’interesse degli editori, dimostrando così come il tema sia sempre più appetibile. Tra gli editori spagnoli con cui la start up ha iniziato a collaborare, è presente Planeta, uno dei principali gruppi editoriali spagnoli.
La piattaforma nasce nel 2014, anno in cui si forma il team che lavora alla realizzazione dello specifico algoritmo che sta alla base del funzionamento della start up. In un’intervista Marc Santandreu precisa come, con l’utilizzo di Tekstum, vengano identificate parole chiave emozionali, relative alla lettura, sia che siano positive, sia negative e anche quelle che non esprimono un’emozione precisa ma presentano comunque una relazione con il libro.
Successivamente si ricercano informazioni relative ai lettori, in particolare il genere, la fascia di età e si individua la localizzazione geografica: dove stanno leggendo questi utenti? E qual è il sentimento prevalente durante la lettura?
Santandreu sottolinea che lui e il suo team hanno come obiettivo quello di analizzare l’esperienza di lettura e individuare emozioni e sentimenti dei lettori per fornire queste informazioni alle industrie editoriali, a piattaforme di vendita online del libro, o anche a librerie fisiche, permettendo di contraddistinguere la loro attività di vendita facendo di questi dati relativi a emozioni e sentimenti un punto di forza.
Leggere in rete: un nuovo modo di fare ricerca e analisi
La ricerca Leggere in rete, presentata nel volume Le reti di lettura, mostra un tentativo interessante di utilizzo dei big data. Lo fa attraverso l’istituzione e la presentazione di una nuova metodologia basata sui concetti di interdisciplinarietà e lavoro d’équipe che dimostra quanto la resa sia massima con professionisti provenienti da così tanti settori diversi.
Questo approccio metodologico nuovo inizia con una premessa secondo me di grande importanza: «ci poniamo nell’ottica di non voler porre ai dati (questi nuovi dati) quesiti specifici, cercando di ottenere delle risposte a conferma di talune ipotesi, ma inizialmente cerchiamo di far emergere i fenomeni, facendo emergere il dato stesso».
Analizzare dati eterogenei permette di svolgere un’analisi più approfondita e vedere in ogni dato raccolto un apporto alla ricerca. I dati derivanti da un social reading sono sicuramente ricchi e sfaccettati: basti pensare alla loro fisionomia, dai ranking di voti, ai commenti, le recensioni, i consigli di lettura e così via. Si tratta quindi di un sistema, ricco di attori e contenuti, che ha sicuramente una sua complessità.
Un sistema come questo può essere ben descritto dal modello delle reti, costituite da nodi e dalle relazioni che intercorrono tra questi. Analizzare i legami che tra essi intercorrono serve a comprendere al meglio un sistema. Recensendo su Doppiozero Albert-Làszló Barabási, padre della network analysis, Marco Belpoliti ci ricorda che le reti «sono fondate su due cardini: i cluster e gli hub. I primi indicano le connessioni tra i nodi della rete (siano essi provider o membri di un gruppo di amici, non ha alcuna importanza). I secondi, gli hub, indicano invece i nodi su cui convergono con maggior frequenza le interrelazioni della rete».
In un qualsiasi social network i nodi sono gli utenti, mentre i link rappresentano i rapporti espliciti, per esempio le amicizie, i follower ecc. In un approccio di tipo olistico che cerca di tenere conto di ogni elemento del sistema complesso che si trova ad analizzare, i nodi non rappresentano solo i lettori ma anche tutti i possibili altri attori del sistema.
Una piattaforma social, che sia un social reading o un social network generalista, produce un’enorme quantità di dati eterogenei che sono irrelati tra loro e attraverso un approccio basato sulla complex network analysis si può cercare di comprendere un fenomeno di questo genere. Attraverso la scrittura di commenti al testo, di inserimenti di libri nella propria libreria online, gli utenti generano «tracce di lettura che si sedimentano nei database, e in tal modo alla lettera, diventano invisibili, smarriscono la loro forma […] connessa alla nuova natura di “dato”, proprio nel senso originario di qualcosa che si dà, si costituisce come oggetto di conoscenza» (Vivarelli, Vedere la lettura, cit., 97).
Leggere in Rete è il nome di un gruppo di studio che ha preso vita nel 2015, coordinato da Chiara Faggiolani e ideato da Maurizio Vivarelli. Lo studio ha visto la partecipazione di diversi studiosi provenienti da ambiti diversi, che si sono riuniti insieme per indagare le pratiche di lettura in ambiente digitale, cercando di conoscere al meglio i comportamenti di lettura e i loro cambiamenti nel nuovo contesto tecnologico e sociale.
La miniera degli User Generated Content
Grande rilievo in questo studio è stato dato all’analisi della grande massa di dati creati dalle attività in ambiente digitale degli utenti, i già citati User Generated Content (UGC). Questi dati, oltre a essere prodotti in vastissime quantità, hanno una fisionomia fluida e rappresentano un terreno di studio ancora inesplorato che sta suscitando l’interesse di molti studiosi.
«Per chi si interessa di statistiche culturali ed ha maturato un’abitudine a confrontarsi con la tipologia di dati (strutturati) sulla lettura di libri sopra descritti, immergersi nelle parole dei lettori è come per un bambino mangiare per la prima volta la cioccolata senza permesso: una scoperta entusiasmante e paurosa insieme.
L’affermazione della ricercatrice Chiara Faggiolani è a mio parere esemplificativa rispetto all’atteggiamento con cui questa ricerca è stata condotta e con cui tuttora continuano questi studi: l’approccio a una metodologia nuova che applicata in ambito culturale sembra poter dare risultati inattesi e da sempre ricercati, che riescono a indagare la relazione tra lettori e libri, permettendo ora di valutare strategie, piani d’azione che possano riguardare diversi ambiti, da quello della promozione della lettura a quello relativo al marketing culturale.
Quello che a questo gruppo di ricerca interessa indagare è soprattutto cosa succede quando si legge, quali sono le sensazioni, le emozioni, le percezioni che un utente vive davanti a un testo, differenziando così questo studio da quelli relativi alle ricerche finora effettuate, sempre concentrate su numeri e percentuali.
I dati sulla lettura finora prodotti derivano tutti da indagini statistiche come quella del Censis, quella annuale dell’Istat o ancora dalle ricerche promosse da organismi come il CEPELL. Queste ricerche ci permettono di avere dati sicuramente importanti come la quantità di libri letti, il genere preferito ma non ci permettono di comprendere quale siano il ruolo e il significato attributi all’atto di leggere in un contesto ricco di trasformazioni tecnologiche come quello contemporaneo.
Analizzare i contenuti generati dagli utenti che si muovono nella Rete ha un peso fondamentale nelle ricerche che oggi si stanno costituendo: siamo in un’epoca in cui la produzione è abnorme, mai come ora si è letto e scritto in modo così esponenziale. Interessante è notare come però questa affermazione sia in contraddizione con i dati che ci dimostrano quanto gli indici di lettura abbiano subito negli ultimi anni una decrescita; come sintetizzano bene Verna e Faggiolani, «siamo tutti “costretti a leggere” ma le persone che leggono libri sono sempre meno» (Faggiolani e Verna, cit. 233).
Analizzare invece con una nuova metodologia di ricerca quelli che oggi sono i luoghi di scambio di opinioni, condivisione del libro e della lettura che non nascono con il solo scopo di produrre dati, ma che li producono come una sorta di effetto collaterale, permetterebbe di poter lavorare su un materiale costituito da una varietà di proposte e di esempi caratterizzati da un’unicità e una rappresentatività importantissime da analizzare.
Anche la logica su cui questi social network e social reading si fondano è unica e particolare, poiché legata o ad una serie di eventi casuali, di serendipity, che ci fanno muovere all’interno dei profili degli altri utenti e scoprire libri interessanti o seguendo il passaparola, o affidandosi ai consigli di chi ha gusti letterari come i nostri. Queste logiche che guidano dinamiche d’incontro e scoperta non possono essere analizzate tramite tradizionali statistiche ma con uno studio più approfondito e strutturato.
Chiara Faggiolani aveva già intrapreso una ricerca simile a questa cui sto accennando, presentata nella sua tesi di dottorato: PERCE.READ La percezione della lettura in Italia al tempo del social reading. Il gruppo di ricerca da lei coordinato aveva come obiettivo quello di formulare riflessioni intorno alla lettura e alla sua percezione, sfruttando, per fare questo, grandi quantità di dati offerti dal digitale e in particolare i dati provenienti da alcune piattaforme social network, sperando che gli esiti di questo lavoro potessero diventare: «informazioni utili agli attori della filiera del libro per individuare proposte creative e innovative capaci di rispondere in modo efficace alle sfide lanciate in maniera sempre più stringente dalla complessità del contesto in cui operano, soprattutto sul fronte della promozione della lettura».
(prima parte di tre; leggi la prima parte e la seconda parte)