BrowseComp: un nuovo benchmark per la valutazione degli agenti di navigazione web
BrowseComp emerge come un nuovo e cruciale benchmark progettato specificamente per valutare le prestazioni degli agenti AI nel campo della navigazione web. Man mano che gli agenti basati su modelli li