0:00 / 0:00

x 1.00

Лекция 6. Actor-Critic и Proximal Policy Optimization

00:16Вступление
02:16REINFORCE: краткое повторение
07:54Advantage-функция и TD-ошибка
16:15Actor-Critic
37:14Trust Region: основы
51:51Proximal Policy Optimization (PPO)
01:12:25PPO для языковых моделей (RLHF)
01:17:58Практические советы для PPO и RLHF