Violati i Principali Benchmark per Agenti AI: UC Berkeley Svela Vulnerabilità Critiche nella Valutazione
Ricercatori dell'**UC Berkeley** hanno dimostrato come **otto dei più importanti benchmark** per **agenti AI**, inclusi **SWE-bench**, **WebArena** e **GAIA**, possano essere **sfruttati** per ottener