La zebra? Vive nella savana. La ruota? È una parte dell’automobile. La torre pendente? Si trova a Pisa. Se queste affermazioni fossero state formulate da un bambino non avrebbero nulla di staordinario. Sono invece frutto dell’intelligenza (artificiale) di NEIL - Never Ending Image Learner-, un software sviluppato alla Carnegie Mellon University di Pittsburgh, che ha effettuato queste associazioni semplicemente analizzando il contenuto di decine di migliaia di immagini trovate a caso sul Web.
Buon senso digitale
Secondo i suoi progettisti, NEIL è uno tra i più avanzati software per il riconoscimento di immagini mai creato: è cioè capace di guardare una foto pescata da Internet e dire cosa contiene, se un’automobile, un aereo o un cervo, ma anche di inserirla in uno specifico contesto. Insomma, il cervellone è dotato di qualcosa di simile al comune buon senso.
Vi sembra poco? Beh, non lo è, perchè proprio come gli esseri umani, che imparano a fare queste associazioni in base all’esperienza, così anche NEIL è lasciato quasi da solo nel suo processo di apprendimento.
Guarda e impara
Il programma è stato lanciato alla fine di luglio e fino a oggi ha analizzato tre milioni di immagini all’interno delle quali è in grado di riconoscere 1.500 tipologie di oggetti diversi, dalle auto ai pallottolieri, e 1.200 tipi di ambientazioni, dalla città al mare, dal deserto a un supermercato. Queste informazioni, una volta memorizzate, hanno permesso a NEIL di “unire i puntini” e concludere oltre 2.500 associazioni tra concetti.
La prima presentazione
I primi risultati del progetto saranno presentati il prossimo 4 dicembre alla IEEE International Conference on Computer Vision di Sydney, in Australia. Chi volesse dare una sbirciata in anteprima può però collegarsi al sito dedicato a NEIL e seguire in tempo reale i suoi progressi.
Superlavoro
Obiettivo dei ricercatori è quello di creare il più grande database visuale strutturato al mondo, dove oggetti, azioni, ambienti, attributi e le relazioni che li legano sono etichettate e catalogate. «Più dati si hanno a disposizione più è facile addestrare le macchine: lo abbiamo imparato in 10 anni di studi sulla computer vision» spiega Abhinav Gupta, ricercatore al Carnegie Mellon’s Robotic Institute. Il problema è l’enorme mole di dati a disposizone: secondo gli esperti, solo su Facebook, sono archiviati 200 miliardi di immagini. L’unico modo per costruire un database strutturato di questo tipo è fare in modo che i computer possano imparare in completa autonomia.
I prof del computer
Ovviamente anche NEIL sbaglia: una ricerca su Google Immagini può per esempio fargli credere che “pink” sia il nome di una rock star invece di un colore (rosa, in inglese). Ed è qui che interviene l’uomo, guidando manualmente l’apprendimento del robot.
I ricercatori inoltre, “spiegano” quotidianamente a NEIL cosa cercare: oggetti, scene, azioni, anticipandogli con esempi quello che potrebbe trovare. Una ricerca per “apple” può restituire immagini di un frutto ma anche di un computer, di un iPhone o di Steve Jobs.
Man mano che la ricerca procede, aiutato dai suoi insegnanti umani, NEIL archivia le informazioni in categorie e sottocategorie e quando trova delle associazioni le evidenzia perchè ne venga verificata la validità.
Il lavoro di NEIL è molto intenso ed è supportato da un hardware eccezionale: il programma lavora infatti su un cluster di computer con oltre 200 processori che lavorano in parallelo.
Ti potrebbero interessare:
Le più spettacolari simulazioni virtuali create con i supercomputer
Il meglio della scienza per immagini