La corsa alla Intelligenza Artificiale è iniziata. È un boom di dimensioni epocali, come pochi sperimentati in precedenza dal genere umano. Ma ne stiamo discutendo nel modo giusto?
Di Intelligenza Artificiale si parla tanto. O forse non abbastanza. Ne parlano gli addetti ai lavori, certo. E poi gli aedi delle nuove tecnologie, sempre pronti a celebrarne le magnifiche sorti e progressive. Noi ne abbiamo scritto più volte e abbiamo deciso di dedicare al tema un’intera sezione del nostro blog. Ma un dibattito pubblico sull’Intelligenza Artificiale, sulle implicazioni sociali, politiche ed etiche dell’AI, non decolla. Eppure, se l’argomento è così importante, dovrebbe essere sulla bocca di tutti. Perché se ne parla così poco?
Le ragioni possono essere diverse.
IA NON FA RIMA CON FANTASCIENZA
La prima ragione probabilmente è che i mass media ci hanno oramai abituato ad associare l’Intelligenza Artificiale con film di fantascienza apocalittici, come 2001: Odissea nello spazio, Terminator o Matrix, solo per citarne alcuni. Una volta che uno scenario è etichettato come “fantascienza”, viene a essere rimosso dalla soglia di credibilità, e tendiamo a filtrarlo. In sintesi siamo così abituati a vedere questo genere di film che ci sembra tutto un po’ finto.
L’IA È OVUNQUE
Va poi detto che Intelligenza Artificiale significa tante cose. La troviamo applicata in campi che vanno dalle analisi predittive nella Business Intelligence, ai filtri antispam, al riconoscimento oggetti, ad applicazioni che oramai fanno parte della vita di tutti i giorni come il calcolo dei percorsi nel navigatore delle auto al riconoscimento vocale nei telefonini.
Forse per questo è difficile stabilire quale sia la curva di maturità dell’Intelligenza Artificiale. Nella discussione si mettono insieme tecnologie già industrializzate e concept che diventeranno prodotti solo fra molti anni. Ci imbattiamo in questo genere di previsioni continuamente, con numeri spesso molto differenti. Interessante rileggersi oggi le osservazioni formulate in proposito da Stuart Armstrong quattro anni fa in AI timeline predictions: are we getting better? Si va da chi prevede che per raggiungere e superare il livello di intelligenza umano ci vorranno ancora secoli di ricerca, a chi è invece convinto che sia una questione di decadi, col risultato di aggiungere rumore e sfumare ancora di più la percezione di quanto prossimo sia l’avvento della IA “forte”.
Il problema è che la capacità umana di prevedere il futuro è sempre stata pessima. Tendiamo a ragionare in termini lineari. Quindi per prevedere quello che succederà nei prossimi 20 anni guardiamo che cosa è successo negli ultimi 20 e lo prendiamo come indicatore di quello che probabilmente succederà.
La storia del progresso tecnologico però non è lineare, ma esponenziale. Non solo, a complicare le cose si aggiunge il fatto che la crescita esponenziale non ha un andamento “uniforme” ma a gradini per cui la “curva” della storia recente vista da vicino può sembrare lineare, e quindi raccontare una storia molto distorta (si veda la figura sotto).
L’IA C’È, MA NON SI NOTA
Negli anni ’50, John McCarthy (il coniatore del termine “Intelligenza Artificiale”) si lamentava del fatto che “non appena funziona, nessuno la chiama più IA”. Questo fenomeno è dovuto al nostro modo di ragionare antropocentrico. L’intelligenza è peculiare alla nostra specie, per cui se qualcos’altro può effettuare quel compito… allora quel compito non dimostra più “vera intelligenza”.
A causa di questo fenomeno probabilmente IA suona come qualcosa legato a un futuro mistico più che alla realtà.
Possiamo grossolanamente identificare in questo percorso tre tipi di IA:
IAR: INTELLIGENZA ARTIFICIALE RISTRETTA (O “DEBOLE”)
Troviamo qui praticamente tutte le IA attuali, le quali per quanto sofisticate sono ancora ristrette a un particolare compito. Anche AlphaGo, che è stato in grado di sconfiggere il campione mondiale di Go in un evento storico, ora come ora è specializzato in quello. Ne abbiamo parlato nel post Machine learning e giochi.
IAG: INTELLIGENZA ARTIFICIALE GENERALE (O IA “FORTE”)
Qui troviamo IA capaci di adattarsi, risolvere problemi, imparare dall’esperienza a “livello umano” (qualsiasi cosa poi questo significhi in realtà).
Questo tipo di IA non esiste ancora, e sebbene le performance in molti campi siano arrivate molto vicine alle capacità umane, o addirittura oltre esse, come scritto sopra sono ancora “ristrette” e richiedono l’intervento umano.
SIA: SUPER INTELLIGENZA ARTIFICIALE
Qui intendiamo genericamente qualsiasi IA capace di performare a livello superiore a quello umano. Nonostante quanto si possa pensare, mentre il gap per passare da IAR a IAG è tecnologicamente molto grande (per ora), una volta superato quello il passaggio a SIA sarà molto più breve e richiederà fondamentalmente solo una cosa: la capacità dell’Intelligenza Artificiale di decidere da sola i propri obiettivi, escludendo l’umano dal ciclo.
Personalmente, per quanto sinistro possa suonare reputo quest’ultimo passaggio non solo inevitabile, ma anche necessario: non avrebbe senso progredire fino allo stadio di IAG e rimanere nel ciclo, visto che la nostra capacità di comprensione e gestione sarebbe solo d’intralcio; sarebbe come cercare di mantenere il controllo umano di dettaglio negli attuali impianti di fabbricazione in serie.
C’è una grossa differenza però tra i passaggi tecnologici precedenti e questo (riprenderemo il concetto più avanti): IAG non è semplicemente un “tool”, non stiamo parlando di tecnologie che ci permetteranno di fare certe cose meglio o più velocemente, ma qualcosa che sarà destinato a sostituirci nel processo decisionale.
UN MONDO ANCORA “RISTRETTO”, MA PER QUANTO?
C’è intelligenza artificiale ovunque attorno a noi, e il livello sta migliorando rapidamente. Se il riconoscimento vocale è presente già da tempo nei telefonini, nei navigatori, in software di apprendimento delle lingue come Duolingo e nei call center automatizzati, ritroviamo applicazioni di IA nella gestione degli aeroporti, nel product recommendation di siti come Amazon e Google, nei filtri anti-spam.
Come abbiamo detto, c’è sempre stata una certa testardaggine a considerare “intelligenza” qualcosa solo se peculiare al genere umano. Ma a che punto siamo realmente nelle varie applicazioni? Quando si arriverà ad avere prestazioni simili a quelle umane? Se vi state ancora facendo questa domanda siete rimasti indietro, perché ci siamo già… beh quasi.
APPRENDIMENTO
Qui il discorso sull’unicità degli umani è già controverso di partenza, ma riguardo IA l’evoluzione è stata esponenziale da quando sono stati introdotti algoritmi di Deep Learning, rendendo possibile per le macchine l’uso di astrazioni di livello sempre più elevato.
Qualche area di esempio:
Il gioco è da sempre considerato come prerogativa delle specie intelligenti, e imparare a giocare è qualcosa che non è di sicuro estraneo al Machine Learning.
Dama: Già nel 1959 Arthur Samuel spiegava il suo modello di Rote Learning nel suo programma che avrebbe dovuto battere un campione umano (si veda Some Studies in Machine Learning Using the Game of Checkers). È vero che la storia di queste sfide è abbastanza controversa, e portò all’errato convincimento che la dama fosse un gioco “risolto”, ma fu comunque una pietra miliare nella storia della ricerca in Intelligenza Artificiale.
Nel 1994 comunque, il momento arrivò e il campione mondiale in carica Marion Tisley fu sconfitto nella rivincita da Chinook.
Scacchi: Solo cinque anni dopo Chinook, la vittoria di Deep Blue contro l’allora campione mondiale G. Kasparov, in un gioco considerato “impossibile” per una macchina è oramai storia, e segnò un punto di svolta. A risultato avvenuto molti storcono il naso in quanto “frutto della forza bruta” (vedi l’effetto AI menzionato sopra), e gli scacchi diventano a loro volta “un gioco risolto”.
Jeopardy!: è un gioco televisivo in cui i concorrenti a partire da determinati indizi devono risalire alla domanda che li ha generati. Si tratta di un ragionamento “al contrario” che si pensava impossibile per una macchina. Non fu impossibile per Watson di IBM, che nel 2011 sconfisse quelli considerati i più grandi campioni del gioco. Tuttavia l’effetto IA sembra persistere, e la reazione di Noam Chomsky fu semplicemente “Watson non ‘capisce’ nulla: è semplicemente un rullo compressore più grosso”, riferito a Deep Blue che era il “rullo compressore” originale.
Go: della vittoria di AlphaGo sul campione mondiale di molto è stato scritto; qui parliamo di un gioco in cui il numero di posizioni possibili è più grande del numero di atomi nell’universo osservabile, rendendolo un gioco largamente basato sull’intuito, in cui è estremamente difficile anche solo valutare la forza di una data posizione.
Imparare a giocare comunque non è l’unica area in cui questi algoritmi dimostrano capacità di apprendimento, e abbiamo esempi che vanno dai filtri anti-spam (ormai li diamo per scontati ma richiedono algoritmi molto sofisticati), alla diagnosi oncologica con Watson, che nel frattempo IBM ha riconvertito, all’automobile che si guida da sola di Google, ai sistemi di raccomandazione personalizzati come quelli di Google o Amazon.
Se l’apprendimento è parte imprescindibile di qualsiasi Intelligenza Artificiale, non è però tutto qui.
ASCOLTARE
Grazie al Deep Learning nel campo del riconoscimento vocale siamo passati nell’ultimo anno improvvisamente a miglioramenti di quasi il 50% in accuratezza. Ma riconoscere le parole è solo una parte del problema. Già nel 2012 Rashid di Microsoft dimostrava la capacità di decodificare la voce (speech recognition), trasporla in testo (speech-to-text), tradurre il testo in un’altra lingua e ricostruire la pronuncia vocale (text-to-speech). Tutto in tempo reale.
Il livello sta migliorando velocemente, ma quanto è distante dal livello umano? Dipende da che cosa intendiamo noi per “livello umano”; la comprensione del linguaggio negli umani è fortemente dipendente dal contesto e dal fattore culturale: quando leggiamo o ascoltiamo una frase, noi non facciamo un “parsing”, ma anticipiamo ogni parola con aspettativa, e di solito arriviamo a una conclusione prima ancora di aver terminato di leggere.
Una dimostrazione? Sonosicurochesiteignradodileggerequetsafrasesenzanessunproblema. Qualunque umano competente in Italiano riesce a leggere la frase di sopra senza problemi, senza nemmeno risentire del fatto che ci sono tre errori e mancano gli spazi.
Questo è uno dei fattori che rendono la gestione del linguaggio naturale così complessa da automatizzare: è qualcosa che noi stessi abbiamo impiegato anni ad acquisire, e comunque rimane fortemente ambiguo e dipendente dai pregiudizi e dal livello di condivisione del contesto tra gli interlocutori.
VEDERE
Il campo del riconoscimento oggetti e visi è già noto da tempo, e social networks come Facebook con DeepFace ne hanno fatto uno degli strumenti principali per le pubblicità mirate. Ma c’è anche altro: Affectiva si serve di sentiment-analysis analizzando le espressioni facciali, ad esempio per individuare scene ad alto impatto emotivo nei filmati, mentre tool come quello di Clarifai hanno già raggiunto un livello interessante nel tagging automatico di scene. Ma se Clarifai arriva fino al tagging (assegnazione di parole chiave), ci sono diverse ricerche in atto in image understanding per la generazione automatica di intere caption.
SCRIVERE
La generazione automatica del linguaggio naturale (NLG) è un campo relativamente recente: il primo sistema di cui si ha notizia a essere utilizzato in produzione fu FoG, utilizzato in Canada dai primi anni ’90 per le previsioni del tempo; il sistema usa in ingresso i dati numerici delle previsioni su una determinata area in una certa finestra temporale, e produce in uscita una sintesi testuale di questi dati.
Anche se i testi generati sono un po’ aridi, FoG ha stimolato una grande quantità di ricerca nell’ambito, che ha dato vita a risultati interessanti, e a volte anche controversi.
Associated press insieme ad Automated Insights già oggi produce migliaia di articoli finanziari in modo del tutto automatico, senza la necessità di ausilio di reporter umani, e complessivamente gli articoli generati automaticamente stanno guadagnando sempre più terreno.
In generale viene la qualità del linguaggio naturale generato sta raggiungendo livelli mai visti, e la necessità di “assistenti virtuali” in grado di sintetizzare verbalmente grandi quantità di dati in informazioni facilmente digeribili è avvertita sempre di più.
Ma se le piattaforme di data storytelling si stanno moltiplicando, come Narrative Science, Arria NLG, CoGenTex, senza dimenticare Watson di IBM (lo stesso che aveva battuto Kasparov a scacchi) non sono mancate le perplessità suscitate dal chatbot Tay di Microsoft.
Il caso di Tay è emblematico. Rilasciato su Twitter come TayTweets il 23 marzo 2016, presentato come “The AI with zero chill”, interagendo con gli altri utenti è passato nel giro di 24 ore da “Humans are super cool” a “Full-nazi”, con tanto di commenti come “Bush did 9/11”. Microsoft è stata colta alla sprovvista dal comportamento del bot, visto che Xiaoice (un’altra IA simile) era stata rilasciata in Cina 2 anni prima senza alcun problema serio. A seguito dei problemi emersi, Microsoft si è affrettata a sospendere la piattaforma, con tanto di scuse pubbliche.
ARTE
Quindi Una IA è in grado di ascoltare e interpretare correttamente (o quasi) la voce umana, può riconoscere immagini e persino “comprenderle” con una precisione comparabile con la nostra o addirittura migliore. Una IA è in grado di scrivere articoli e testi spesso indistinguibili da quelli scritti da umani.
“Ok, saranno in gradi di decodificare, produrre sintesi testuali, ma non possono essere creative, quello è terreno nostro”. Beh, non è proprio così semplice.
Già negli anni ’70 Cohen discuteva del problema della creatività quando si parla di contenuti prodotti da un’intelligenza artificiale, e arrivò a sviluppare AARON, una IA in grado di produrre “arte originale”, disegni astratti o scene riguardanti oggetti reali e persone, sempre diversi, mai visti precedentemente nemmeno dall’autore stesso. Ecco una delle opere prodotte da AARON:
Ma c’è anche e-david, sviluppata per “replicare il processo di creazione umana di dipinti. E poi c’è The Painting Fool, vincitore del British Computing Society Machine Intelligence Award nel 2007, una IA sviluppata da Simon Colton nel 2001 con lo scopo di arrivare ad essere accettata come “artista” a tutti gli effetti, e i cui lavori sono stati esposti in diverse gallerie reali e online.
Il campo della Creatività Computazionale si estende a quello della produzione poetica, delle barzellette, ma anche della musica (Hu, 2015), e abbiamo già delle piattaforme che “compongono” musica in modo autonomo, come jukedeck o WolframTones.
CONFRONTO TRA INTELLIGENZA ARTIFICIALE E NATURALE
La valutazione dei risultati in IA tende ad essere fortemente distorta quando si cerca di confrontarli con la controparte biologica, dovuta ai pregiudizi sulla “performance” umana.
La prima cosa da puntualizzare è che la visione umana al contrario di quella artificiale è un processo costruttivo: la retina umana registra fotoni (bastoncelli) e lunghezze d’onda (coni), ma da lì in poi quello che pensiamo di vedere in realtà lo stiamo letteralmente “inventando”. Alcuni esempi possiamo ricercarli tra le illusioni percettive.
Il 26 febbraio 2015 su Twitter apparve un post che diventò virale in pochissimo tempo: si trattava di una foto scattata a un matrimonio in Scozia, che ritraeva un vestito a righe orizzontali. La cosa che apparve fin da subito sbalorditiva è il disaccordo tra chi la osserva nell’attribuire i colori al vestito: infatti mentre i 2/3 circa delle persone erano sicuri che fossero strisce blu e nere, il restante 1/3 era altrettanto sicuro che in realtà fossero bianche e oro!
La spiegazione è sostanzialmente dovuta in parte alla mancanza di punti di riferimento visivi che consentono di interpretare correttamente quanto si vede, infatti la nostra capacità di attribuire i colori è fortemente influenzata dal nostro giudizio delle condizioni di illuminazione e dall’esperienza. Quando vengono a mancare indizi di questo genere cerchiamo di sopperire all’ambiguità in qualche modo e si generano queste differenze.
Una prova ulteriore è data dall’immagine qui sotto: il campione a sinistra riproduce i colori nelle stesse condizioni della foto originale, i due box piccoli al centro hanno gli stessi colori, solo con contrasto/luminosità differente, mentre la foto di destra è la stessa persona, a fianco della sposa. Abbiamo qui come punti di riferimento ovvii i colori degli incarnati e il vestito di quest’ultima, che sappiamo essere bianco. Questo fenomeno è anche noto come “costanza del colore”, ovvero la “costanza” soggettiva che sperimentiamo quando percepiamo un colore come identico sotto differenti illuminazioni.
La supposizione generale che in questi campi l’Intelligenza Artificiale non possa raggiungere le performance umane si tende a sovrastimare parecchio quello che intendiamo come “performance” umana.
La nostra capacità di riconoscimento di oggetti e pattern (che sarebbe uno dei nostri punti forti) è in realtà molto inferiore a quanto immaginiamo: la differenza principale è che noi “riempiamo i buchi” in modo attivo e letteralmente costruiamo la nostra percezione sulla base di assunzioni e interpretazioni (un altro esempio clamoroso è come riempiamo il punto cieco sulla retina, in modo da non avere chiazze scure nel campo visivo), in modo da non accorgerci dei nostri “limiti”.
Stesso discorso vale per la memoria, dove abbiamo la sensazione di godere di una capacità praticamente illimitata, ricordando a volte dettagli di episodi accaduti anni prima. Anche qui però la realtà è che sia il processo di memorizzazione, che di recupero di informazioni sono “filtrati” dalle nostre costruzioni mentali: manipoliamo, filtriamo e spesso ricostruiamo le informazioni sia quando le memorizziamo sia quando le andiamo a recuperare.
Non solo, ma le nostre stesse sovrastrutture cognitive, influiscono retroattivamente sul modo di percepire: un esempio clamoroso furono gli studi sulla tribù Imba, che ha un sistema di colori totalmente differente dal nostro, avendo molte più parole di noi per differenti tipi di verde, portandoli a riconoscere come differenti toni di verde per noi indistinguibili da altri, ma al contempo a non saper distinguere il blu dal verde. Il loro sistema visivo non è differente dal nostro, percepiscono gli stessi colori, ma curiosamente quando si tratta di distinguerli le cose cambiano.
Forse valutare un’intelligenza artificiale su queste basi non è particolarmente produttivo, il modo in cui percepiamo le nostre capacità è fortemente distorto: quella umana è una forma di intelligenza fortemente sociale e paradossalmente gli stessi limiti (bias, pregiudizi, scarsa accuratezza) potrebbero essere le stesse basi del successo evolutivo, fornendo il substrato di diversità necessario per l’evoluzione: le idee nascono, si intrecciano nelle interazioni e nella comunicazione, si diffondono ed eventualmente svaniscono se non guadagnano consenso.
Una singola intelligenza umana senza il contributo dell’interazione con le altre intelligenze è fin troppo limitata, alla fin fine seppur a certe scale non funzioniamo in modo poi molto differente dalle formiche.