Лекция 9. GRPO и online RL с верифицируемыми наградами

  1. 00:16Введение
  2. 01:58Почему после RFT нужен онлайн RL
  3. 19:18Постановка задачи
  4. 25:39Групповая относительная награда
  5. 34:01GRPO как вариант PPO без critic
  6. 41:46Верифицируемые награды и best-of-G эффект
  7. 46:41Псевдокод и практические рецепты
  8. 53:03Failure modes и борьба с ними