Addestramento di GPT-2 basato sulle preferenze umane
Abbiamo addestrato il modello linguistico GPT-2 da 774 milioni di parametri utilizzando il feedback umano per diverse attività, riuscendo a soddisfare le preferenze degli annotatori umani esterni, seb