Лекция 5. От табличного RL к Deep RL и policy gradient methods
- 00:16Вступление
- 02:10Когда табличный RL перестает масштабироваться
- 07:12Аппроксимация функций
- 14:21Проекционный оператор Беллмана
- 19:51Deadly Triad
- 22:58Deep Q-Network
- 40:39Почему переходят к policy-based подходу
- 42:57Policy Gradient
- 01:03:21Сравнение подходов

