Riduzione della varianza per il policy gradient con baseline fattorizzate stocastiche
Questo studio tecnico affronta una delle sfide fondamentali nell'apprendimento per rinforzo (Reinforcement Learning): l'elevata varianza dei gradienti della policy, che spesso rende l'addestramento de