Qualche settimana fa un reporter della BBC è riuscito ad accedere al conto bancario online del gemello beffando il sistema di riconoscimento vocale: è bastato imitare al telefono la voce del fratello per ingannare il servizio, che si basava sul fatto che le nostre caratteristiche vocali sono "uniche al mondo". La vicenda ha dimostrato che gli algoritmi di riconoscimento vocale sono ancora migliorabili. Ma davvero un uomo saprebbe fare di meglio?
Ognuno di noi ha un timbro di voce particolare e personale come l'impronta di un dito. In linea di principio, quindi, dovremmo esserci evoluti per riconoscere le voci altrui in modo efficiente. Questo vale senz'altro per le voci di amici e familiari. Non altrettanto si può dire, però, di quelle dei conoscenti che abbiamo perso di vista, o degli sconosciuti con i quali abbiamo scambiato solo qualche parola.
Un compito complesso. Riuscireste a distinguere la voce della vostra maestra delle elementari, o quella del tizio con cui avete parlato ieri in treno? E se al posto della voce vi facessero ascoltare una risata, o un pezzo cantato, come ve la cavereste?
È noto, per esempio, che i testimoni oculari sono piuttosto inaffidabili, quando devono ricordare la voce di qualcuno. Riconoscere le voci implica infatti sia il saper distinguere il timbro di diverse persone, sia riuscire ad associare alla stessa identità stralci diversi di parlato (una risata, una frase, un urlo).
Prova d'ascolto. Uno studio di recente pubblicato sul Journal of Experimental Psychology ha confermato la complessità del riconoscimento vocale umano. A 46 volontari sono state fatte ascoltare risate e vocali pronunciate da 5 diverse persone. Gli ascoltatori sono stati poi invitati a stabilire se coppie di suoni fossero state emesse dalla stessa persona, o da due parlanti diversi.
Quando il confronto si è svolto tra vocale e vocale, o tra risata e risata, distinguere si è rivelato piuttosto facile. Quando però i suoni sono stati mischiati - una vocale e una risata, per esempio - le performance sono calate drasticamente, soprattutto se chi parlava non era una persona familiare.
Altri studi hanno rivelato che non siamo affatto abili nel riconoscere lo stesso parlante bilingue quando si esprime in una lingua diversa da quella madre. In altre parole, negli esperimenti che ci mettono a confronto con la naturale complessità del linguaggio, distinguere e associare le voci diventa molto più arduo.
Incidente di percorso? Perché allora abbiamo evoluto voci così diverse, se non riusciamo a distinguerle bene? Non esiste una risposta certa.
Se è per questo abbiamo anche impronte digitali praticamente irripetibili, ma non servono per forza a qualcosa. Può darsi che il nostro peculiare timbro vocale sia semplicemente il risultato di differenti caratteristiche anatomiche e delle infinite possibilità che la voce ha di... uscire.
Un timbro personale. L'intelligenza artificiale sta in alcuni casi superando le difficoltà umane con un escamotage: gli algoritmi ricavano un'impronta vocale unica dalle varie specifiche acustiche di una singola voce. Questa rappresentazione matematica non somiglia molto alla maniera umana di distinguere le voci, ma spesso è più accurata. Sarà interessante capire quanto le macchine sapranno imparare dall'uomo, e se a un certo punto riusciranno a superarci del tutto anche in questo.