Лекция 5. От табличного RL к Deep RL и policy gradient methods

  1. 00:16Вступление
  2. 02:10Когда табличный RL перестает масштабироваться
  3. 07:12Аппроксимация функций
  4. 14:21Проекционный оператор Беллмана
  5. 19:51Deadly Triad
  6. 22:58Deep Q-Network
  7. 40:39Почему переходят к policy-based подходу
  8. 42:57Policy Gradient
  9. 01:03:21Сравнение подходов