Deep Mind: Google ti legge le labbra

L'intelligenza artificiale "coltivata" da Google è adesso capace di leggere le labbra di chi parla con grande precisione. Ecco come, e a che cosa può servire.

6421869145_14b860fa3a_b
L'intelligenza artificiale ha imparato a leggere il labiale. Che applicazioni potrebbe avere questa tecnologia?|Misha Dontsov/Flickr

Deep Mind, l’intelligenza artificiale di Google, ha superato il concetto di comando vocale e da qualche tempo ha imparato a leggere direttamente le labbra degli esseri umani. Un team di ricercatori di Big G e dell’università di Oxford ha infatti recentemente messo a punto un algoritmo in grado di interpretare il movimento delle labbra di una persona che parla con una precisione molto più alta di qualunque essere umano.

A scuola di TV. Il sistema di intelligenza artificiale è stato addestrato con oltre 5.000 ore di programmi tv, per un totale di oltre 118.000 frasi. Questa grande mole di dati ha permesso all’algoritmo di mettere in relazione le diverse parole con i movimenti labiali degli speaker. Oggi il software è in grado di leggere e decifrare correttamente intere frasi in lingua inglese solo leggendo le labbra di chi parla.

Imbattibile. L’algoritmo ha letteralmente surclassato anche i migliori professionisti della lettura del labiale: su 200 frasi scelte a caso, il software ha letto correttamente ogni singola parola nel 46,8% dei casi, contro il 12,4% del lettore umano.

L’intelligenza artificiale è stata fondamentale anche per la preparazione stessa dell’esperimento: nelle 5.000 ore di programmi tv utilizzati, la traccia audio e la traccia video non erano sempre perfettamente sincronizzate. Questo disallineamento avrebbe reso impossibile per l’algoritmo di AI associare parole e movimento delle labbra.
 

L'algoritmo di Google in funzione: per adesso legge il labiale solo inglese.


Il problema è stato risolto partendo dal presupposto che gran parte dei filmati fosse correttamente sincronizzato: questo ha permesso di mettere a punto uno speciale programma in grado di riconoscere la correlazione tra suono delle parole e forma assunta dalla bocca dello speaker.

 

È stato così possibile identificare e correggere in poco tempo tutte le discrepanze tra le due tracce e preparare filmati che fossero perfetti per l’addestramento dell’algoritmo.

 

Senza parole. Secondo i ricercatori un meccanismo di questo tipo potrà essere utilizzato per mettere a punto sistemi in grado di interagire con i disabili, ma anche per migliorare la comprensione dei comandi vocali in tutte quelle situazioni in cui il suono può non essere chiaro, per esempio all’aperto e negli ambienti rumorosi. E agli amanti delle teorie del complotto non sarà sfuggita la possibilità offerta da un simile software per “ascoltare” le conversazioni da lontano, senza bisogno di microfoni.
 

22 Novembre 2016 | Rebecca Mantovani