Rilevamento e riduzione dei comportamenti ingannevoli (scheming) nei modelli AI
Apollo Research e OpenAI hanno condotto uno studio congiunto focalizzato sull'identificazione e la riduzione dello 'scheming' (comportamento machiavellico o disallineamento nascosto) nei modelli di in