Perché SWE-bench Verified non è più affidabile per valutare l'AI nel coding
L'analisi critica di SWE-bench Verified rivela problemi significativi nella valutazione dei progressi del coding tramite intelligenza artificiale. Secondo quanto riportato, il benchmark è diventato se