Notizie AI su Benchmark AI — Chatbot.it
Tutte le notizie e aggiornamenti su Benchmark AI dall'intelligenza artificiale
Databricks integra GPT-5.5 nei flussi di lavoro degli agenti aziendali
Storia ELO dei Modelli AI di Arena: Tracciare Performance e Degrado
LamBench: Nuovo Benchmark di Lambda Calcolo per la Valutazione dei Modelli AI
I costi degli agenti AI aumentano esponenzialmente? L'analisi di METR e le implicazioni
Violati i Principali Benchmark per Agenti AI: UC Berkeley Svela Vulnerabilità Critiche nella Valutazione
Identificati gli stili di scrittura di 178 modelli AI e i loro cluster di similarità
MemPalace: Il sistema di memoria AI con il punteggio più alto mai registrato
Arena: la classifica AI "impossibile da manipolare" finanziata dalle Big Tech
OpenAI e PNNL: agenti AI per accelerare i permessi federali statunitensi
Perché SWE-bench Verified non è più affidabile per valutare l'AI nel coding
Import AI 444: Società di LLM, Kernel AI di Huawei e il benchmark ChipBench
Presentazione di HealthBench: il nuovo benchmark per l'IA nel settore sanitario
PaperBench: Valutare la capacità degli agenti AI nel replicare la ricerca scientifica AI
Presentazione di SWE-Lancer: il benchmark per agenti AI nel software freelance
Presentazione di SimpleQA: il nuovo benchmark di OpenAI per la factualità dei modelli AI
MLE-bench: un nuovo benchmark per valutare gli agenti AI nelle sfide di ingegneria ML
Presentazione di SWE-bench Verified: un nuovo standard per il coding AI
GPT-4: Il nuovo modello multimodale di OpenAI che raggiunge prestazioni di livello umano
Nuova AI Eccelle nei Problemi di Matematica Scolastica
TruthfulQA: Come i modelli AI imitano le falsità umane
← Torna a Chatbot.it