PaperBench: Valutare la capacità degli agenti AI nel replicare la ricerca scientifica AI
PaperBench è un nuovo e ambizioso benchmark progettato per valutare la capacità degli agenti basati su intelligenza artificiale di replicare ricerche scientifiche all'avanguardia nel campo dell'AI ste