Лекция 6. Actor-Critic и Proximal Policy Optimization
- 00:16Вступление
- 02:16REINFORCE: краткое повторение
- 07:54Advantage-функция и TD-ошибка
- 16:15Actor-Critic
- 37:14Trust Region: основы
- 51:51Proximal Policy Optimization (PPO)
- 01:12:25PPO для языковых моделей (RLHF)
- 01:17:58Практические советы для PPO и RLHF

