Лекция 7. Reward Modelling

  1. 00:16Вступление
  2. 02:33Языковая модель как MDP
  3. 04:23Зачем нужна reward model?
  4. 09:25Модель Брэдли-Терри
  5. 11:56Обучение Reward Model
  6. 21:31Reward Overoptimization
  7. 31:47Reward Shaping
  8. 36:31ORM и PRM
  9. 47:58Практические аспекты