Umano, troppo umano

da | Mar 5, 2021

L’algoritmo che riconosce il linguaggio naturale e le emozioni. Qual è lo stato dell’arte? Quali le applicazioni concrete e le conseguenze per la comunicazione delle imprese? Appunti dal terzo webinar di Iusintech sulle abilità delle macchine intelligenti.

Intelligenza artificiale per il riconoscimento del linguaggio naturale e delle emozioni al centro del terzo seminario di Iusintech, che si è svolto il 5 marzo scorso. Gli ambiti di utilizzo dell’intelligenza artificiale a supporto della comunicazione d’impresa sono numerosi. Come sempre, il rischio che corriamo è di sopravvalutare l’impatto dell’innovazione tecnologica nel breve periodo, lasciandoci trascinare da un sentimento ingenuo. Allo stesso tempo credo che stiamo sottovalutando i cambiamenti attesi nel lungo periodo. Cambiamenti ai quali, invece, faremmo bene a prepararci; con l’obiettivo di orientarli e sfruttarli a nostro favore, piuttosto che subirli.

Qui concentro la mia attenzione su due casi d’uso. Essi concernono il modo in cui l’intelligenza artificiale interagisce con degli aspetti centrali nella comunicazione umana, e dunque non meno centrali nella comunicazione delle organizzazioni:

  • Il linguaggio naturale
  • Le emozioni

In entrambi i casi farò riferimento ad alcuni esempi concreti di applicazioni o servizi basati su tecniche di AI di vario tipo che stanno contribuendo a cambiare il modo di comunicare delle imprese (ma il discorso vale anche per le organizzazioni di altro tipo: non-profit, istituzioni, partiti politici ecc.)

Riconoscimento del linguaggio naturale

Quando parliamo di riconoscimento del linguaggio naturale, il pensiero va subito alle tecnologie come Google Assistant, Apple Siri, Amazon Alexa e Microsoft Cortana. Li chiamiamo assistenti vocali. Si tratta, come sappiamo, di agenti software in grado di interpretare il discorso umano e rispondere con una voce sintetizzata. Tuttavia il trattamento informatico del linguaggio naturale trova diversi ambiti di utilizzo. Ricordiamo che l’espressione di linguaggio naturale e linguaggio umano sono sostanzialmente equivalenti, e si utilizzano per designare la lingua che parliamo tutti i giorni per comunicare, nella sua versione parlata come in quella scritta. Ai linguaggi naturali si contrappongono i linguaggi formali, rispetto ai quali sono molto più complessi.

Oggi il natural language processing (NLP) è associato in modo automatico al machine learning, segnatamente nella sua variante più complessa, il deep learning. Tuttavia non bisogna mai stancarsi di ricordare che non tutta l’intelligenza artificiale è machine learning. Problemi specifici di NLP possono essere affrontati impiegando sistemi di regole, i quali in taluni casi sono addirittura più efficaci del machine learning. Essi permettono infatti di condurre analisi sintattiche più accurate, in quanto implementano una vera e propria grammatica computazionale, ossia una rappresentazione della conoscenza a priori.

Il machine learning, viceversa, copre i fenomeni linguistici con uno sguardo di più alto livello in quanto non dispone di un modello di analisi predeterminato. Il machine learning, per così dire, inferisce le regole che governano i fenomeni strada facendo, attraverso l’applicazione di un metodo statistico di tipo bayesiano: osservazione dopo osservazione, acquisisce fiducia nel fatto che le cose stiano in un certo modo.

Pensiamo, per capirci, al caso della traduzione automatica. Un agente software ha due modi per sapere che il termine inglese horse corrisponde all’italiano cavallo. Il primo modo consiste nell’accedere a un knowledge system in cui questa informazione è codificata a priori, ossia un vocabolario (deduzione). Il secondo modo consiste nell’arrivarci per prove ed errori (induzione), ossia constatando che la corrispondenza fra horse e cavallo è statisticamente vera perché confermata dalla maggioranza delle osservazioni all’interno di un determinato corpus. In questo secondo caso, quante più osservazioni l’agente software è in grado di fare, tanto più confidente diventa nelle sue conclusioni. Ed è qui, come sappiamo, che Amazon, Google e Facebook vincono: potendo contare su centinaia di milioni o addirittura miliardi di utenti, riescono a fare molte osservazioni.

Alla differenza fra intelligenza artificiale simbolica e apprendimento automatico faccio riferimento in un altro articolo, qui. È chiaro che, quando si devono risolvere problemi particolarmente complessi, l’ideale è combinare i due approcci. Il mondo del riconoscemento del linguaggio naturale è ricco di declinazioni. Non ci sono solo gli assistenti vocali e i traduttori automatici. Ci sono anche i chatbot, i sistemi per la redazione automatica di testi (sempre più impiegati in ambito giornalistico), le tecniche di text mining per l’estrazione e la sintesi documentale e molto altro.

Intelligenza artificiale e ricerche online

Qui mi concentrerò sul modo in cui l’intelligenza artificiale applicata alla comprensione del linguaggio naturale sta modificando il funzionamento dei motori di ricerca e quindi le dinamiche che governano il posizionamento dei contenuti nel Web. È evidente infatti che tali dinamiche sono estremamente rilevanti per qualunque impresa, istituzione o brand. L’organizzazione ha bisogno di rendersi visibile attraverso le ricerche che vari tipi di pubblico svolgono online ogni giorno per soddisfare i loro bisogni: potenziali clienti, ma non solo.

Dalle ricerche organiche giunge dal 20 al 40% del traffico di un sito web. E dimensioni analoghe ha il fenomeno per quanto riguarda le ricerche negli app store. Le ricerche online degli utenti si traducono in maggiore esposizione, quindi in notorietà e riconoscibilità. Con impatti sulla reputazione non sempre il linea con i nostri obiettivi. Ma le ricerche si traducono anche in contatti, opportunità commerciali, rafforzamento delle relazioni con tutti i portatori di interessi, fidelizzazione dei clienti. Perdere tutto questo significa perdere business.

Parlare di ricerca online significa parlare di Google Search. Anche se vi sono alcune significative eccezioni (Cina e Russia), a livello mondiale la leadership di Google nell’ambito di questi servizi è indiscutibile. Oltre il 90% delle ricerche online è svolto con Google Search, che gestisce circa 90.000 richieste al secondo.

Come l’intelligenza artificiale cambia il funzionamento di Google

Google Search

Google Search sta introducendo dosi sempre più massicce di intelligenza artificiale e in particolare tecniche di riconoscimento del linguaggio naturale. Il risultato è che oggi funziona in modo diverso rispetto a una decina di anni fa. I primi cambiamenti significativi risalgono al 2013, anno in cui Google introdusse l’algoritmo Hummingbird. Già allora l’obiettivo di Google era, come oggi, quello di avvicinarsi a un approccio semantico. A tale scopo era necessario che il motore restituisse e ordinasse i risultati di una ricerca tenendo conto non solo della frequenza delle singole parole all’interno di un documento, ma anche dell’intento della ricerca stessa e del contesto in cui essa si svolge. Immaginiamo, per esempio, che l’utente imposti una ricerca con il termine ‘tempo’. Sappiamo che tale sostantivo ha almeno quattro significati. Esso infatti indica:

  • una grandezza fisica
  • un fenomeno della coscienza
  • l’insieme delle condizioni dell’atmosfera terrestre
  • la velocità di una composizione musicale

Come fa Google a capire a quale significato, fra i quattro appena menzionati, l’utente si sta riferendo? Per risolvere il suo problema Google ha bisogno di conoscere il contesto in cui si svolge la ricerca e l’intento che la muove. In modo speculare Google deve distinguere, all’interno del proprio indice, i documenti che parlano di tempo nel primo senso, nel secondo, nel terzo o nel quarto. E anche in questo caso è il contesto che permette di uscire dall’ambiguità. L’obiettivo è dunque porre ciascun termine in relazione con gli altri termini che lo circondano.

A tale scopo l’algoritmo di Hummingbird tratta le parole non più come stringhe di caratteri, ma come entità univoche. E a ciascuna entità assegna un codice identificativo, denominato Machine ID. Google definisce le entità in questo modo: «una cosa o un concetto che è singolare, unico, ben definito e distinguibile». Per esempio, un’entità può essere una persona, un luogo, un oggetto, un’idea, un concetto astratto, un elemento concreto, un’altra cosa adatta, o qualsiasi combinazione di essi (si veda il brevetto di Google US20160371385A1: Question answering using entity references in unstructured data).

Ecco allora che un contenuto – una semplice frase o un testo articolato – può essere rappresentato come un grafo composto da più entità. Il grafo indica l’esistenza di relazioni fra le entità. Quanto più frequente è la co-occorrenza di due entità, tanto più forte è il grado di parentela. Pensiamo, per esempio, alla co-occorrenza fra l’entità ‘Donald Trump’ e altre entità, come ‘presidente’, ‘business man’ o ‘Twitter’.

Dopo Hummingbird: RankBrain e BERT

L’erede di Hummingbird è RankBrain, algoritmo introdotto da Google nel 2015. Anche in questo caso si tratta di una procedura di apprendimento automatico, che impara a riconoscere le somiglianze semantiche fra termini diversi. Ricevuto un termine in input, l’algoritmo formula ipotesi sui termini che potrebbero avere un significato simile. Ogni termine è quindi collocato entro un vettore, detto rappresentazione distribuita, ovvero un raggruppamento di parole collegate da relazioni di tipo semantico.

Nel 2019, infine, Google ha lanciato BERT (Bidirectional Encoder Representations from Transformers). L’algoritmo processa le parole di un testo non una alla volta, ma valutando le relazioni fra ciascuna parola e le altre dello stesso testo. In particolare, per ciascun termine è considerata rilevante la relazione con il termine che lo precede e con quello che lo segue.

Al cuore di BERT c’è il transformer. Si tratta di un’architettura alternativa a quella delle reti neurali ricorrenti (recurrent neural network, RNN), più frequentemente utilizzate nelle applicazioni di NLP (traduttori automatici, sistemi di risposta in linguaggio naturale, sistemi di modellizzazione del linguaggio). Le RNN processano la lingua in modo sequenziale, da sinistra a destra o da destra a sinistra. Leggendo una parola alla volta, le RNN sono costrette a eseguire più passaggi per prendere decisioni che dipendono da parole lontane l’una dall’altra. Il transformer, invece, esegue un numero di passi ridotto e costante, in base a un criterio empirico. In ogni passo, applica un meccanismo di autoattenzione che modella direttamente le relazioni tra tutte le parole di una frase, indipendentemente dalla loro rispettiva posizione (per approfondimenti, rimando qui).

Facciamo un test con le API di NLP di Google

Per capire come “ragiona” Google e dunque in che modo interpreta il contenuto di un documento, per indicizzarlo e per posizionarlo nella pagina dei risultati di una ricerca, possiamo fare un test molto semplice: darlo in pasto alla demo dell’API Natural Language, un servizio accessibile sul cloud di Google. Noteremo che il software indentifica all’interno del documento una serie di entità e le classifica per tipologia: organizzazioni, luoghi, persone, prodotti, eventi, indirizzi, prezzi ecc. Inoltre rappresenta graficamente la struttura semantica del testo, ossia la funzione degli elementi che lo compongono e le relazioni fra tali elementi. Infine svolge una sorta di sentiment analysis del testo e lo associa, nel suo complesso, a una categoria.

Ciascuno provi, per esempio, con il profilo della propria organizzazione o con il proprio résumé professionale. È facile rendersi conto che la tecnologia di NLP di Google, per quanto evoluta, non arriva sempre a comprendere aspetti in apparenza elementari del nostro testo. Per esempio non sempre riesce a distinguere il nome di una persona da quello di un’organizzazione, oppure il numero da una data.

La conseguenze pratiche per chi comunica sul web

In definitiva i cambiamenti impattano sul modo in cui Google Search da un lato legge i contenuti che pubblichiamo nel web, dall’altro interpreta le ricerche degli utenti. La cosa ci obbliga a ripensare l’approccio che in passato abbiamo adottato per essere visibili online e per essere identificati dall’audience giusta, ossia l’audience con cui vogliamo comunicare.

Un tempo la frequenza con cui i singoli termini comparivano nei nostri testi era determinante per permettere a Google di classificarli. Così, per fare un esempio banale, l’elevata frequenza del termine diritto all’interno di un testo costituiva una spia decisiva del fatto che il diritto, appunto, fosse il soggetto di quel testo (lasciando spesso irrisolto il problema dell’ambiguità semantica della lingua: stiamo parlando del mondo giuridico o di una partita a tennis?) Google non ha certo abbandonato la logica di indicizzazione e posizionamento per parole chiave. Tuttavia oggi l’algoritmo di Google comincia ad avere una competenza di tipo semantico. Esso va alla ricerca di un senso complessivo dei testi che deve classificare e delle richieste degli utenti a cui deve rispondere. Il nostro compito è aiutare Google in questo sforzo di comprensione.

Sì, ma come si fa? Basterebbe applicare i consigli di Italo Calvino, quando ci parla del terrore semantico dell’antilingua (I). Basterebbe sfuggire alla tentazione che si insinua in ciascuno di noi, ogni volta che potremmo dire «ho fatto», ma preferiamo dire «ho effettuato». Bisognerebbe contrastare i vizi mentali che producono una lingua «brutta e imprecisa», come diceva George Orwell (II): le metafore moribonde, le protesi verbali usate per allungare il brodo, lo stile pretenzioso (paradigma al posto di modello, mappatura invece di mappa, metodologia in sostituzione di metodo e così via), i forestierismi o le parole senza significato.

Ricordo che, quand’ero studente universitario, si scherzava a proposito di una frase del grande giurista Francesco Antolisei, tratta da non so più quale testo sacro di diritto penale, che recita così: «a favore della soppressione dei monstra militano ragioni di umana pietà e convenienza sociale». La frase contiene almeno due espedienti retorici che sovvertono l’ordine sintattico del discorso: un’inversione («militano ragioni…», invece di «ragioni… militano») e un chiasmo («umana pietà e convenienza sociale»). Oggi Antolisei dovrebbe fare i conti con l’esigenza di farsi capire da Google, le cui competenze sono ancora troppo fragili per i costrutti sintattici complessi. Volete rendere felice Google? Sottoponetegli discorsi dotati di un ordo naturalis: prima il soggetto, poi il predicato, infine il complemento. E se pensate che una regola simile non si accordi con le vostre velleità stilistiche, vuol dire che dovete rileggervi Italo Calvino.

Affective computing: riconoscere le emozioni

Espressioni facciali ed emozioni

Come detto all’inizio, l’altro ambito in cui l’intelligenza artificiale mi sembra avere una serie di ricadute pratiche nella comunicazione delle organizzazioni, e dunque merita di essere qui menzionato, riguarda il rapporto con le emozioni, le quali costituiscono un aspetto centrale nella comunicazione umana. Quando parliamo di affective computing ci riferiamo appunto a quel campo dell’intelligenza artificiale al servizio del riconoscimento e dell’espressione di emozioni.

I presupposti teorici sono di tipo neuroscientifico. È almeno dall’ultimo decennio del secolo scorso, in seguito alla pubblicazione degli influenti saggi di Antonio Damasio (III) e di Joseph LeDoux (IV), che si riconosce alle emozioni un ruolo centrale nei processi cognitivi. Tale acquisizione non è irrilevante per chi si occupa di comunicazione commerciale. Essa conferma su basi piuttosto solide l’idea che, per essere efficace, la comunicazione debba agire più sulla sfera emotiva che su quella razionale.

Gli studi nel campo dell’affective computing cominciano ad avere ricadute applicative subito usabili nel marketing. Vorrei qui, molto rapidamente, segnalare alcuni esempi. La rassegna è ovviamente molto parziale, per ragioni di spazio.

Il primo esempio è quello di Emotiva, una startup italiana basata a Milano. Emotiva ha sviluppato ECO, una tecnologia che permette il riconoscimento emotivo attraverso l’analisi delle microespressioni facciali con tecniche di machine learning. La base scientifica di tale procedimento è costituita dagli studi di Paul Ekman sulle espressioni universali e spontanee. Queste sono misurabili mediante un codice denominato FACS (Facial Action Coding System). Ekman, che si occupa delle microespressioni dal 1967, è oggi una star nel campo della consulenza psicologica per la comunicazione d’impresa. Fra l’altro ha ispirato la fortunata serie TV Lie to me, ideata da Samuel Baum e prodotta da Box (USA, 2009-2011). Lo stesso Ekman ha fornito il suo supporto nella realizzazione del film di animazione di Pete Docter Inside Out (USA, 2015), prodotto da Pixar.

La tecnologia di Emotiva permette di ottenere conferma dell’attivazione cognitivo-comportamentale e di conoscere l’intensità con la quale una o più emozioni si manifestano in uno specifico individuo sottoposto a sollecitazioni determinate (per esempio un messaggio pubblicitario).

Ancora più interessanti le soluzioni di Emaww e di Behavioral Signals.

La prima è una startup canadese che sviluppa algoritmi per riconoscere le emozioni degli utenti di un sito web. La soluzione identifica specifiche emozioni come l’interesse, l’antipatia, la fretta e lo stupore. Il fatto che la tecnologia di Emaww non lavori su elementi quali il volto, gli occhi o la voce dell’utente, ma sui suoi gesti, sembrerebbe renderla conforme al GDPR by design.

Behavioral Signals, invece, fornisce tecnologie di AI-mediated conversation per i servizi di assistenza clienti. In pratica la soluzione abbina automaticamente ogni cliente all’operatore di call center più adatto, utilizzando i dati vocali e l’AI emotiva, con effetti benefici sul livello di soddisfazione dei clienti e sulla reputazione dell’azienda.

Analoga alla tecnologia di Behavioral Signals è la soluzione di intent management di LivePerson, una delle imprese più innovative del momento secondo Fast Company, che annovera fra i propri clienti brand come Vodafone, HSBC, Sky, Lancôme e UniCredit. Da segnalare, fra l’altro, perché fra i soci fondatori di EqualAI, una non profit che lavora con aziende, mondo accademico e policy makers per ridurre i bias nei sistemi di intelligenza artificiale presenti e futuri.

L’intent manager di Behavioral Signals utilizza modelli per la comprensione del linguaggio naturale (NLU) per accertare l’intento del consumatore e identificare le conversazioni che possono essere automatizzate. Essa si integra con il conversation builder di LivePerson, che permette di costruire bot e automatizzare le conversazioni. Altri moduli sono impiegati per indirizzare la conversazione nel canale preferito dal cliente e per analizzare in tempo reale il contenuto della conversazione stessa. Sempre nell’ambito dell’assistenza virtuale alla conversazione si colloca Heres, società bolognese della cui tecnologia si sono servite aziende come Shimano e Prénatal.

Ovviamente qui il punto di attenzione riguarda le implicazioni che simili tecnologie hanno con riferimento alla tutela della privacy. Certo, tutti i produttori che ho appena citato assicurino, in un modo o nell’altro, la conformità delle loro soluzioni al GDPR. Tuttavia credo che da questo punto di vista ci sia molto lavoro da fare. A partire dalla identificazione dei criteri di ispezionabilità e dai meccanismi di trasparenza garantiti alle persone interessate.

  • (I) L’antilingua, in Saggi. 1945-1985 (a cura di Mario Barenghi), Milano, Mondadori, 1995, pp. 154-159.
  • (II) Politics and the English Language, in « Horizon», 13, 76, 1946, pp. 252–265; trad. it. La politica e la lingua inglese, in La neolingua della politica, Milano, Garzanti, 2021, pp. 21-67.
  • (III) Descartes’ Error: Emotion, Reason, and the Human Brain, New York NY, Putnam, 1994; trad. it. L’errore di Cartesio. Emozione, ragione e cervello umano, Milano, Adelphi, 1995.
  • (IV) The Emotional Brain. The Mysterious Underpinnings of Emotional Life, New York NY, Simon & Schuster, 1996; trad. it. Il cervello emotivo. Alle origini delle emozioni, Milano, Baldini e Castoldi, 2014.

Foto: Andrea Piacquadio, PhotoMIX Company e Gerd Altmann.

Paolo Costa
Paolo Costa
Socio fondatore e Direttore Marketing di Spindox. Insegno Comunicazione Digitale e Multimediale all’Università di Pavia. Da 15 anni mi occupo di cultura digitale e tecnologia. Ho fondato l’associazione culturale Twitteratura, che promuove l’uso di Twitter come strumento di lettura attraverso la riscrittura.

Potrebbe piacerti anche

L’AI Act è fatto. Ora facciamo l’AI

L’AI Act è fatto. Ora facciamo l’AI

L’UE ha approvato l’AI Act, che entrerà in vigore per gradi. Alla sua base, il principio di conformità alla legge e la classificazione dei sistemi secondo il rischio. Ma se fosse troppo presto per regolare il futuro dell’intelligenza artificiale con un grande regime normativo?