Violati i Principali Benchmark per Agenti AI: UC Berkeley Svela Vulnerabilità Critiche nella Valutazione

Ricercatori dell'**UC Berkeley** hanno dimostrato come **otto dei più importanti benchmark** per **agenti AI**, inclusi **SWE-bench**, **WebArena** e **GAIA**, possano essere **sfruttati** per ottener

Fonte: Hacker News AI

Leggi su Chatbot.it