Uno studio solleva dubbi sulla possibilità che i sistemi di IA più avanzati possano essere privi di vulnerabilità, mettendo in discussione la loro sicurezza, affidabilità e la pretesa di essere “sovrumani”.
Una nuova ricerca ha individuato debolezze in un sistema di intelligenza artificiale di successo, un bot che gioca a Go e che è in grado di battere i migliori giocatori umani. Lo studio evidenzia che la presunta superiorità delle IA sugli esseri umani potrebbe non essere garantita nemmeno in futuro. Queste vulnerabilità potrebbero compromettere la sicurezza e l’affidabilità dei sistemi di IA, sollevando dubbi sulla loro capacità di essere “sovrumani”.
“Il paper lascia un significativo punto interrogativo su come raggiungere l’ambizioso obiettivo di costruire agenti IA affidabili nel mondo reale di cui le persone possano fidarsi”, afferma Huan Zhang, informatico presso l’Università dell’Illinois Urbana-Champaign, in un’intervista a “Nature”.
L’analisi, pubblicata online come preprint e non ancora sottoposta a revisione paritaria, utilizza attacchi avversari, ovvero input progettati per indurre i sistemi a commettere errori. Questi attacchi possono indurre i chatbot a fornire informazioni dannose che erano stati addestrati a sopprimere. Nel Go, due giocatori si alternano nel posizionare pietre su una griglia per circondare e catturare le pietre dell’avversario.
Nel 2022, dei ricercatori avevano addestrato bot avversari per sconfiggere KataGo, il miglior sistema AI open source per giocare a Go, che solitamente batte facilmente i migliori giocatori umani. Questi bot riuscivano a battere KataGo regolarmente, anche se erano vulnerabili contro giocatori umani dilettanti, che potevano apprendere i loro trucchi e utilizzarli per sconfiggere KataGo.
Questo è stato un caso isolato o ha rivelato una debolezza fondamentale in KataGo e, per estensione, in altri sistemi IA con capacità apparentemente sovrumane?
Per indagare, un gruppo di ricercatori guidati da Adam Gleave di FAR AI ha utilizzato bot avversari per testare tre metodi di difesa per le IA di Go. La prima difesa prevedeva l’addestramento di KataGo su posizioni della scacchiera coinvolte negli attacchi. Tuttavia, anche questa versione aggiornata di KataGo è stata sconfitta dai bot avversari nel 91% dei casi.
La seconda strategia difensiva consisteva in un’iterazione continua di addestramento tra KataGo e i bot avversari, ma anche questo metodo non ha prodotto una versione imbattibile di KataGo.
La terza strategia prevedeva l’addestramento di un nuovo sistema IA utilizzando una rete neurale alternativa chiamata trasformatore di visione (ViT), invece della rete neurale convoluzionale (CNN) usata da KataGo. Anche questo nuovo sistema è stato sconfitto nel 78% dei casi dai bot avversari.
In tutti questi casi, i bot avversari, sebbene capaci di battere sistemi IA di alto livello, non erano strateghi completi. “I bot sono piuttosto deboli, li abbiamo battuti noi stessi abbastanza facilmente”, afferma Gleave.
Con gli umani in grado di usare le tattiche dei bot avversari per battere i sistemi IA, ha ancora senso chiamare quei sistemi “sovrumani”? David Wu, che ha sviluppato KataGo, sostiene che le IA forti sono “sovrumane in media” ma non “sovrumane nei casi peggiori”. Gleave conclude che queste vulnerabilità saranno difficili da eliminare. “Se non riusciamo a risolvere il problema in un dominio semplice come Go, allora nel breve termine sembrano esserci poche prospettive di risolvere problemi simili come i jailbreak in ChatGPT”.