Innovazione

Deep Mind: Google ti legge le labbra

L'intelligenza artificiale "coltivata" da Google è adesso capace di leggere le labbra di chi parla con grande precisione. Ecco come, e a che cosa può servire.

Deep Mind, l’intelligenza artificiale di Google, ha superato il concetto di comando vocale e da qualche tempo ha imparato a leggere direttamente le labbra degli esseri umani. Un team di ricercatori di Big G e dell’università di Oxford ha infatti recentemente messo a punto un algoritmo in grado di interpretare il movimento delle labbra di una persona che parla con una precisione molto più alta di qualunque essere umano.

A scuola di TV. Il sistema di intelligenza artificiale è stato addestrato con oltre 5.000 ore di programmi tv, per un totale di oltre 118.000 frasi. Questa grande mole di dati ha permesso all’algoritmo di mettere in relazione le diverse parole con i movimenti labiali degli speaker. Oggi il software è in grado di leggere e decifrare correttamente intere frasi in lingua inglese solo leggendo le labbra di chi parla.

Imbattibile. L’algoritmo ha letteralmente surclassato anche i migliori professionisti della lettura del labiale: su 200 frasi scelte a caso, il software ha letto correttamente ogni singola parola nel 46,8% dei casi, contro il 12,4% del lettore umano.

L’intelligenza artificiale è stata fondamentale anche per la preparazione stessa dell’esperimento: nelle 5.000 ore di programmi tv utilizzati, la traccia audio e la traccia video non erano sempre perfettamente sincronizzate. Questo disallineamento avrebbe reso impossibile per l’algoritmo di AI associare parole e movimento delle labbra.

L'algoritmo di Google in funzione. Per ora legge il labiale solo inglese


Il problema è stato risolto partendo dal presupposto che gran parte dei filmati fosse correttamente sincronizzato: questo ha permesso di mettere a punto uno speciale programma in grado di riconoscere la correlazione tra suono delle parole e forma assunta dalla bocca dello speaker.

È stato così possibile identificare e correggere in poco tempo tutte le discrepanze tra le due tracce e preparare filmati che fossero perfetti per l’addestramento dell’algoritmo.

Senza parole. Secondo i ricercatori un meccanismo di questo tipo potrà essere utilizzato per mettere a punto sistemi in grado di interagire con i disabili, ma anche per migliorare la comprensione dei comandi vocali in tutte quelle situazioni in cui il suono può non essere chiaro, per esempio all’aperto e negli ambienti rumorosi. E agli amanti delle teorie del complotto non sarà sfuggita la possibilità offerta da un simile software per “ascoltare” le conversazioni da lontano, senza bisogno di microfoni.

22 novembre 2016 Rebecca Mantovani
Ora in Edicola
Scopri il mondo Focus. Ogni mese in edicola potrai scegliere la rivista che più di appassiona. Focus il magazine di divulgazione scientifica più letto in Italia, Focus Storia per conoscere la storia in modo nuovo ed avvincente e Focus Domande & Risposte per chi ama l'intrattenimento curioso e intelligente.

Scipione e Annibale, Mario e Silla, Demostene e Filippo II di Macedonia... I giganti della Storia che hanno passato la loro vita a combattersi, sui campi di battaglia e non solo. E ancora: l'omicidio di Ruggero Pascoli, il padre del famoso poeta, rimasto impunito; il giro del mondo di Magellano e di chi tornò per raccontarlo; la rivoluzione scientifica e sociale della pillola anticoncezionale; nelle prigioni italiane dell'Ottocento; come, e perché, l'Inghilterra iniziò a colonizzare l'Irlanda.

 

ABBONATI A 29,90€

Tigri, orsi, bisonti, leopardi delle nevi e non solo: il ricco ed esclusivo dossier di Focus, realizzato in collaborazione con il Wwf, racconta casi emblematici di animali da salvare. E ancora: come la plastica sta entrando anche nel nostro organismo; che cos’è l’entanglement quantistico; come sfruttare i giacimenti di rifiuti elettronici; i progetti più innovativi per poter catturare l’anidride carbonica presente nell’atmosfera.

ABBONATI A 31,90€
Follow us