L'apprendimento per rinforzo è una tecnica che consiste nell'insegnare un determinato comportamento attraverso un sistema di ricompense. Una mossa desiderabile, virtuosa, porta a un premio; una mossa sbagliata, non congrua all'obiettivo, a una punizione.
Questa tecnica è comunemente usata nel machine learning, e ora un team di Alphabet (il nome dato ora al gruppo aziendale di Google) l'ha sfruttata per insegnare a un'intelligenza artificiale della DeepMind a camminare - anzi, correre - in un percorso di parkour. I risultati del test e i buffi video dimostrativi sono stati pubblicati lo scorso luglio (vedi video in apertura), ma nelle ultime ore sono tornati popolari su Twitter.
It takes a human being about 14 thousand brain-hours to learn to run. An AI can learn to do it in less than half as many CPU-hours, but the results are like this. pic.twitter.com/thI56vuHbn
— Eron Gjoni (@eron_gj) 25 febbraio 2018
Apprendere è un gioco (per ora). L'obiettivo era capire se semplici ricompense funzionassero, ai fini dell'apprendimento, anche in un ambiente ricco di ostacoli: così i ricercatori hanno messo a punto una successione virtuale di precipizi, scalini sospesi e livelli da saltare. Se l'intelligenza artificiale impara a navigare attraverso barriere virtuali, un giorno i robot "in carne e ossa" sapranno spostarsi anche tra quelle domestiche.
Autodidatta. Gli scienziati della DeepMind hanno dotato l'omino spillo che vedete di un set di sensori virtuali in modo che potesse determinare la propria posizione, e poi l'hanno motivato a muoversi da un punto all'altro con ricompense prima più semplici (più vai veloce, più ti premio) poi via via più complesse. Il resto - salti, falcate, limbo - è tutta opera dell'AI, che ha imparato a muoversi da sola, per tentativi ed errori.
Con quel passo un po' così. Per muoversi nel percorso senza cadere nei burroni il software ha trovato soluzioni creative che non sono sempre belle da vedere, ma sono le più efficienti. Potrà sembrarvi un po' goffo, ma vederlo è interessante per capire come si muoveranno i robot del futuro. Non è detto che debbano per forza imitarci: siamo forse più gradevoli agli occhi, ma quando ci spostiamo non brilliamo certo in efficienza.