Migliorare la sicurezza dei modelli AI con ricompense basate su regole (RBR)
È stato sviluppato un nuovo metodo basato sulle Rule-Based Rewards (RBR) per migliorare la sicurezza e l'allineamento dei modelli linguistici di grandi dimensioni (LLM). L'aspetto innovativo di questo