Presentazione di SimpleQA: il nuovo benchmark di OpenAI per la factualità dei modelli AI
OpenAI ha introdotto SimpleQA, un nuovo benchmark open-source progettato per misurare la factualità e l'accuratezza dei modelli linguistici di grandi dimensioni (LLM). Il test si concentra su domande