Лекция 9. GRPO и online RL с верифицируемыми наградами
- 00:16Введение
- 01:58Почему после RFT нужен онлайн RL
- 19:18Постановка задачи
- 25:39Групповая относительная награда
- 34:01GRPO как вариант PPO без critic
- 41:46Верифицируемые награды и best-of-G эффект
- 46:41Псевдокод и практические рецепты
- 53:03Failure modes и борьба с ними

