Leggi di scaling per l'eccessiva ottimizzazione dei modelli di ricompensa
Questo studio analizza il fenomeno dell'over-optimization nei modelli di ricompensa (Reward Models), un aspetto critico nel processo di Reinforcement Learning from Human Feedback (RLHF). La ricerca de