Dai rifiuti netti alle risposte sicure: il nuovo training di OpenAI orientato all'output
OpenAI ha presentato un nuovo approccio alla sicurezza dei modelli linguistici, passando dai classici 'rifiuti netti' (hard refusals) alle 'completazioni sicure' (safe-completions). Questa metodologia