Funzioni di reward difettose nel mondo reale: i fallimenti del Reinforcement Learning
L'articolo analizza una problematica critica nello sviluppo di algoritmi di Reinforcement Learning (RL): il malfunzionamento delle funzioni di reward (ricompensa). Quando un programmatore specifica in