0:00 / 0:00

x 1.00

Лекция 5. От табличного RL к Deep RL и policy gradient methods

00:16Вступление
02:10Когда табличный RL перестает масштабироваться
07:12Аппроксимация функций
14:21Проекционный оператор Беллмана
19:51Deadly Triad
22:58Deep Q-Network
40:39Почему переходят к policy-based подходу
42:57Policy Gradient
01:03:21Сравнение подходов