Лекция 6. Actor-Critic и Proximal Policy Optimization

  1. 00:16Вступление
  2. 02:16REINFORCE: краткое повторение
  3. 07:54Advantage-функция и TD-ошибка
  4. 16:15Actor-Critic
  5. 37:14Trust Region: основы
  6. 51:51Proximal Policy Optimization (PPO)
  7. 01:12:25PPO для языковых моделей (RLHF)
  8. 01:17:58Практические советы для PPO и RLHF