benchmark AI
13 notizie su "benchmark AI" — Agenti AI, LLM, robotica e automazione in italiano.
OpenAI e PNNL: agenti AI per accelerare i permessi federali statunitensi
Perché SWE-bench Verified non è più affidabile per valutare l'AI nel coding
Import AI 444: Società di LLM, Kernel AI di Huawei e il benchmark ChipBench
Presentazione di HealthBench: il nuovo benchmark per l'IA nel settore sanitario
PaperBench: Valutare la capacità degli agenti AI nel replicare la ricerca scientifica AI
Presentazione di SWE-Lancer: il benchmark per agenti AI nel software freelance
Presentazione di SimpleQA: il nuovo benchmark di OpenAI per la factualità dei modelli AI
MLE-bench: un nuovo benchmark per valutare gli agenti AI nelle sfide di ingegneria ML
Presentazione di SWE-bench Verified: un nuovo standard per il coding AI
TruthfulQA: Come i modelli AI imitano le falsità umane
OpenAI lancia le competizioni Procgen e MineRL per NeurIPS 2020
Procgen Benchmark: 16 ambienti procedurali per testare la generalizzazione degli agenti AI
Benchmark per l'esplorazione sicura nel Deep Reinforcement Learning
← Torna a Chatbot.it