AlphaGo Zero, il nuovo campione di Go è del tutto autodidatta

L'ultima versione di intelligenza artificiale di Google DeepMind si chiama AlphaGo Zero, e ha imparato da sola a giocare a Go. In meno di un mese è diventata il giocatore più forte di sempre, macinando da sola millenni di storia del gioco strategico.

shutterstock_638650792
Chi fa da sé...|Shutterstock

Un programma di intelligenza artificiale (AI) sviluppato dalla DeepMind, una società dell'universo Google, ha raggiunto livelli superumani nell'antico gioco di strategia di Go, sbarazzandosi di un ingombrante fardello lungo la sua corsa verso l'apprendimento: l'uomo.

 

Pochi mesi fa AlphaGo, la versione precedente del campione virtuale, aveva sconfitto i principali campioni umani del gioco. Ora il suo successore, AlphaGo Zero, l'ha persino superato, e senza bisogno di maestri umani.

 

A differenza della precedente versione, che si era istruita su oltre 100 mila partite umane giocate da esperti, il nuovo software ha ricevuto come input soltanto le regole base, e ha poi iniziato a giocare contro se stesso da zero, come un principiante.

 

Go è un antico gioco da tavolo cinese, tra i più complessi al mondo in termini di tattica e strategia: esistono più configurazioni delle pedine sulla sua scacchiera che atomi nell'Universo, ed è impossibile persino per un computer conoscere tutte le possibili mosse.

Rapidi progressi. Nel giro di tre giorni la nuova versione di AlphaGo aveva già raggiunto il livello degli attuali campioni, sorpassando millenni di storia di partite e studi di tattiche umani.

 

Dopo 21 giorni  era capace di battere qualunque campione mondiale di Go - incluso quello attuale che ovviamente non è umano, ma è un altro programma della DeepMind, AlphaGo master.

 

Dopo 40 giorni di allenamento e 30 milioni di partite conosceva mosse mai viste prima, «come se una civiltà aliena avesse inventato la propria matematica», ha spiegato Nick Hynes, ricercatore informatico del MIT, a Gizmodo.

 

I progressi di apprendimento di AlphaGo Zero nel tempo, a confronto con quelli di altri campioni umani (in verde) o virtuali (in blu) del gioco. Clicca per far partire l'animazione. | DeepMind

Come ci è riuscito? In modo simile ai suoi predecessori, AlphaGo Zero si è affidato a una rete neurale profonda (un tipo di intelligenza artificiale ispirata al cervello umano) per apprendere i concetti astratti alla base del gioco. Ha usato quello che gli esperti chiamano apprendimento per rinforzo, una tecnica che difficilmente funziona con i programmi di intelligenza artificiale, perché richiede costanza e stabilità nell'apprendimento: molto spesso, al contrario, questi software imparano a battere nuovi avversari ma dimenticano come sconfiggere precedenti versioni di se stessi.

 

Più efficiente. C'è poi una differenza fondamentale rispetto al passato. I software precedenti usavano due reti neurali separate, una per predire le migliori mosse probabili e una per decidere quale, tra queste, avrebbe garantito la vittoria. Nel secondo caso, si affidavano a un processo chiamato rollout, una serie di simulazioni di partite per testare le possibili conseguenze.

 

AlphaGo Zero ha unito le funzioni in una singola rete neurale alla quale chiede direttamente di predire mossa vincerà: è come chiedere di fare una previsione a un singolo esperto anziché affidarsi a 100 ipotesi di persone comuni.

 

Possibili utilizzi. Il nuovo software potrebbe trovare applicazioni nella robotica, nella fabbricazione di nuovi materiali e soprattutto, nella chimica. Lo si potrebbe infatti usare in ricerche complesse come quelle su tutte le possibili configurazioni di ripiegamento delle proteine, ambito in cui oggi si deve ricorrere a tecniche costose e macchinari ancora poco diffusi.

 

 

 

 

 

19 Ottobre 2017 | Elisabetta Intini

Codice Sconto