Innovazione

Deep Mind: Google ti legge le labbra

L'intelligenza artificiale "coltivata" da Google è adesso capace di leggere le labbra di chi parla con grande precisione. Ecco come, e a che cosa può servire.

Deep Mind, l’intelligenza artificiale di Google, ha superato il concetto di comando vocale e da qualche tempo ha imparato a leggere direttamente le labbra degli esseri umani. Un team di ricercatori di Big G e dell’università di Oxford ha infatti recentemente messo a punto un algoritmo in grado di interpretare il movimento delle labbra di una persona che parla con una precisione molto più alta di qualunque essere umano.

A scuola di TV. Il sistema di intelligenza artificiale è stato addestrato con oltre 5.000 ore di programmi tv, per un totale di oltre 118.000 frasi. Questa grande mole di dati ha permesso all’algoritmo di mettere in relazione le diverse parole con i movimenti labiali degli speaker. Oggi il software è in grado di leggere e decifrare correttamente intere frasi in lingua inglese solo leggendo le labbra di chi parla.

Imbattibile. L’algoritmo ha letteralmente surclassato anche i migliori professionisti della lettura del labiale: su 200 frasi scelte a caso, il software ha letto correttamente ogni singola parola nel 46,8% dei casi, contro il 12,4% del lettore umano.

L’intelligenza artificiale è stata fondamentale anche per la preparazione stessa dell’esperimento: nelle 5.000 ore di programmi tv utilizzati, la traccia audio e la traccia video non erano sempre perfettamente sincronizzate. Questo disallineamento avrebbe reso impossibile per l’algoritmo di AI associare parole e movimento delle labbra.

L'algoritmo di Google in funzione. Per ora legge il labiale solo inglese


Il problema è stato risolto partendo dal presupposto che gran parte dei filmati fosse correttamente sincronizzato: questo ha permesso di mettere a punto uno speciale programma in grado di riconoscere la correlazione tra suono delle parole e forma assunta dalla bocca dello speaker.

È stato così possibile identificare e correggere in poco tempo tutte le discrepanze tra le due tracce e preparare filmati che fossero perfetti per l’addestramento dell’algoritmo.

Senza parole. Secondo i ricercatori un meccanismo di questo tipo potrà essere utilizzato per mettere a punto sistemi in grado di interagire con i disabili, ma anche per migliorare la comprensione dei comandi vocali in tutte quelle situazioni in cui il suono può non essere chiaro, per esempio all’aperto e negli ambienti rumorosi. E agli amanti delle teorie del complotto non sarà sfuggita la possibilità offerta da un simile software per “ascoltare” le conversazioni da lontano, senza bisogno di microfoni.

22 novembre 2016 Rebecca Mantovani
Ora in Edicola
Scopri il mondo Focus. Ogni mese in edicola potrai scegliere la rivista che più di appassiona. Focus il magazine di divulgazione scientifica più letto in Italia, Focus Storia per conoscere la storia in modo nuovo ed avvincente e Focus Domande & Risposte per chi ama l'intrattenimento curioso e intelligente.

Come sarebbe stata (e sarebbe) la nostra vita senza cani, gatti, cavalli, topi, api, scimmie? Abbiamo girato la domanda direttamente a loro, gli animali, per farci raccontare che cosa e quanto hanno fatto per l'uomo fin dalla notte dei tempi. Perché non c'è evento, guerra, scoperta, epidemia che si possa ripercorrere senza valutare il ruolo svolto dagli altri abitanti del Pianeta.

ABBONATI A 29,90€

Perché viaggiamo? L'uomo viaggia da sempre con gli scopi più diversi, ma solo da poco tempo lo fa anche per divertirsi. E tu, che viaggiatore sei?Scoprilo con il test. E ancora: come sono i rifugi antiatomici della Svizzera e degli Usa; come si gioca la guerra dell’informazione nel Web; perché i Sapiens sono rimasti l’unica specie di Homo sulla Terra; gli amici non sono tutti uguali perché il rapporto con loro dipende dalla personalità, dal sesso e dal tempo che si passa insieme. Fai il test: che tipo di amici hai?

ABBONATI A 31,90€
Follow us