Mi piacerebbe poterti abbracciare, poterti toccare», dice Theodore. «E come mi toccheresti?» risponde Samantha. Solo che Samantha non è una donna, bensì un'intelligenza artificiale. Così il film Lei nel 2013 anticipava lo sviluppo degli assistenti vocali prossimo venturo.
Ma quando ci sarà un grado di perfezione tale che sarà plausibile innamorarsi di una voce artificiale? «Arrivarci non sarà facile», dice Chiara Rubagotti, ingegnere che si occupa della voce italiana di Amazon Alexa, «ma spero che tra dieci anni, se diremo ad Alexa che siamo tristi, lei non sarà in grado soltanto di suggerirci l'ascolto della nostra canzone preferita, ma potrà intrattenere una vera conversazione per farci sentire meno soli o tirarci su il morale. L'analisi delle emozioni dell'utente ormai è un campo molto sviluppato, anche se Amazon non ha compiuto ancora passi in questa direzione, anche perché noi promuoviamo uno sviluppo responsabile degli assistenti vocali».
«Le conversazioni saranno convincenti quando nelle intelligenze artificiali saranno inserite la semantica, che studia il significato delle parole, il senso comune e la pragmatica, che si occupa del rapporto tra i segni e il contesto sociale e d'interazione in cui si usano», dice Roberto Navigli, esperto di elaborazione del linguaggio naturale dell'Università La Sapienza di Roma.
Nel frattempo la ricerca si sta muovendo in un'altra, più affascinante ma rischiosa, direzione: Amazon ha appena dimostrato la capacità di clonare il timbro di una persona facendone ascoltare un solo minuto all'AI, in modo che la stessa poi possa per esempio leggere una fiaba a un bambino imitando in maniera convincente la voce della nonna defunta.
Queste ricerche, risalenti a un progetto di Adobe del 2016 chiamato ProjectVoco, ribattezzato il "Photoshop della voce" ma mai arrivato sul mercato, si sono sviluppate al punto che ci sono ormai diverse start up in grado di usare questa tecnologia per gli scopi più vari. Se si addestra un sistema di deep learning ad assimilare tonalità, timbro, pause e modo in cui si esprime una persona, quella voce può essere poi usata all'infinito per doppiare un film o un videogame, realizzare un risponditore automatico di un call center o una pubblicità, cambiando addirittura artificialmente l'accento o la lingua originale.
Una possibilità già reale su cui è probabile dovrà intervenire la legge, per evitare che, come avvenuto per esempio nel Regno Unito nel 2019, un dirigente di una società, credendo di parlare al telefono col proprio capo, ma che in realtà era un software, obbedisca all'ordine di trasferire 220mila euro su un conto estero.
Articolo tratto dallo Speciale Focus Next 30: Comandi vocali di Marco Consoli, pubblicato su Focus 359 (settembre 2022). Leggi il nuovo Focus in edicola!