Il grande Battisti lo cantava nel ’70. Ma è proprio così? Microespressioni facciali e algoritmi di riconoscimento delle emozioni al tempo dei big data.

Se siamo felici, si vede. Quando siamo arrabbiati, si capisce. Se siamo tristi, lo si “legge in faccia”. E quando siamo sorpresi? Rimaniamo a bocca aperta. In tutti questi casi possiamo dire che un’emozione non si esprime a parole. Ma, perché? Perché le espressioni facciali raccontano di noi molto più di quello che vorremmo o potremmo dire a parole per esprimere la stessa emozione.

Nella scienza delle emozioni ogni movimento muscolare del nostro volto è detto unità di azione (action unit, AU). Paul Ekman – uno dei cento psicologi più influenti del ventesimo secolo – e il suo collega Wallace V. Friesen nel 1978 misero a punto un sistema di codifica delle espressioni facciali, noto come Facial Action Coding System (FACS), ripreso da quello precedentemente sviluppato dall’anatomista svedese Carl-Herman Hjortsjö nel 1969. Nel 2000 Ekman apportò delle modifiche che andarono ad aggiornare il sistema FACS in base alle ricerche più recenti da lui condotte.

Sulla base di questo sistema ogni unità di azione riflette un’emozione che non può essere celata o nascosta. Non del tutto, per lo meno. Alcune persone hanno la capacità di scoprire quando le persone mentono. Ma non è questo il tema che qui ci interessa. Ogni espressione emozionale del volto umano, che ha una durata di un quarto di secondo, è detta microespressione. Le espressioni di mimica facciale sono invece quelle che superano questi tempi. Con il sistema FACS, Ekman e Friesen crearono la tassonomia di ogni espressione facciale umana. Secondo Ekman le espressioni facciali e le emozioni non dipendono da fattori culturali – come ha dimostrato grazie alle sue ricerche condotte sulla popolazione di Papua Nuova Guinea, lontana dai media e dalle influenze culturali di altri paesi – ma sono sperimentate in tutto il mondo: sono universali. In base all’universalità che egli ha riconosciuto alle emozioni, ogni essere umano può manifestare sul proprio volto o provare su di sé, emozioni positive e negative quali gioia, sorpresa, eccitazione, contentezza, sollievo, divertimento, rabbia, disgusto, tristezza, paura, imbarazzo, soddisfazione, vergogna.

Riconoscere le microespressioni facciali a cosa ci servirà?

Attraverso il machine learning e la lettura delle espressioni facciali un’automobile potrà capire dalle espressioni del volto di chi la guida se quella persona è distratta o stanca e prevedere che sta per addormentarsi. Lo stesso sistema riconoscerà se il video che stiamo guardando è di nostro gradimento e il videogioco a cui stiamo giocando sarà in grado di adattarsi in base alle reazioni rese manifeste dal nostro volto. Come si può immaginare, quindi, le implicazioni di strumenti di lettura delle microespressioni facciali sono molteplici. Uno dei casi interessanti è proprio quello relativo alla comprensione degli stati emotivi delle persone impegnate nella visione di un film.

Secondo quanto riportato da TechCrunch, durante l’ultima conferenza a Honolulu del CVPR 2017Computer Vision and Pattern Recognition – uno degli eventi più importanti se si parla di visione artificiale (machine learning, deep learning, 3D vision, image motion & tracking, biomedical image & video analysis, ecc.) – è stato presentato un progetto di ricerca che mostra un nuovo metodo sul tracciamento delle espressioni facciali in un teatro, in maniera semplice e affidabile, in tempo reale. I ricercatori hanno registrato una serie di dati facciali durante la visione di alcuni video della Disney, coinvolta nel progetto. Una telecamera a raggi infrarossi ad alta risoluzione catturava i movimenti del viso delle persone: sono stati raccolti 16 milioni di punti che hanno creato una mappa delle reazioni umane durante la visione di quei filmati, andando ad alimentare una rete neurale. Sulla base dei dati raccolti, il gruppo di ricerca ha utilizzato il sistema per prevedere in tempo reale l’espressione che un determinato volto avrebbe manifestato in un determinato momento.

Un mondo di emozioni

La ricercatrice Rana el Kaliouby è partita da un assunto molto semplice: vorremmo vivere in un mondo di sorrisi, abbracci ed emozioni condivise. Invece viviamo in ambienti privi di emozioni a causa della tecnologia, delle chat, dei sistemi di messaggistica che digitalizzano le nostre vite. Da qui è iniziata la sua ricerca presso il MIT Media Lab. Oggi, quello che era solo un progetto universitario, si è convertito nell’azienda con la collezione più grande al mondo di video di persone che manifestano liberamente le proprie emozioni.

L’obiettivo del progetto di Rana el Kaliouby è riportare le emozioni nelle esperienze digitali: i dispositivi che utilizziamo quotidianamente sono dotati di intelligenza cognitiva ma non di intelligenza emotiva. Che differenza ci sarebbe se il computer o lo smartphone fossero in grado di capire le nostre emozioni? Se nel momento in cui inviassimo uno smiley felice (:-D) il computer riuscisse veramente a decifrare quell’emozione e a reagire in base a essa? Queste e molte altre domande si è posta Rana el Kaliouby, CEO e co-founder dell’azienda americana che ha sviluppato algoritmi di riconoscimento delle emozioni con una collezione di 60mila video di persone che sorridono, ridono, si sorprendono, si impauriscono, si arrabbiano, si intristiscono. Manifestano, quindi, le sei emozioni principali: gioia, sorpresa, disgusto, rabbia, tristezza, paura.

Smiley “come espressioni facciali” (Fonte Pixabay).

Partendo da qui, Rana el Kaliouby e la professoressa Rosalind W. Picard hanno creato una società di tecnologie per la misurazione delle emozioni: Affectiva. «Affectiva understands the importance of emotions – in every aspect of our lives. It shapes our experiences, our interactions and our decisions. Our mission is to digitize emotion, so it can truly enrich our technology, for life, work and play.» Questa è la mission di Affectiva.

Video del talk di Rana el Kaliouby, CEO di Affectiva, alla conferenza TED.

Affectiva può oggi interpretare 21 espressioni facciali umane, sulla base dei video raccolti in 75 paesi diversi. Rana el Kaliouby racconta come, partendo dalle sue vicende biografiche, sia nata l’idea di creare un sistema che riuscisse a comprendere le emozioni umane. Nel video Rana el Kaliouby mostra la nuova tecnologia sviluppata da Affectiva in grado di leggere le espressioni facciali e abbinarle alle emozioni corrispondenti, le sei emozioni principali, indicando la valenza (quanto è positiva o negativa l’esperienza che una persona sta vivendo) e l’engagement (quanto una persona è espressiva).

Se eliminare la tecnologia sarebbe impossibile e folle, almeno si può pensare di umanizzarla.