0:00 / 0:00

x 1.00

Лекция 7. Reward Modelling

00:16Вступление
02:33Языковая модель как MDP
04:23Зачем нужна reward model?
09:25Модель Брэдли-Терри
11:56Обучение Reward Model
21:31Reward Overoptimization
31:47Reward Shaping
36:31ORM и PRM
47:58Практические аспекты