Машинное обучение с подкреплением
Математика
7 лекций
Курс посвящён современным методам обучения с подкреплением (Reinforcement Learning, RL) с акцентом на практическое применение.
В курсе излагаются модели многоруких и контекстуальных бандитов (regret, UCB, Thompson Sampling), затем излагаются марковскиие процессы принятия решений (MDP) и динамическое программирование, методы обучения по траекториям (MC/TD), глубокое обучение (DQN, источники нестабильности), policy gradient и actor–critic подходы, trust-region оптимизация (TRPO, PPO), а также современные направления: off-policy и offline RL, GRPO и связь RL с RLHF и обучение больших языковых моделей (LLM).
2026
лекции
спецкурс
Математика
- 01:11:34Лекция 1. Многорукие бандиты
- 58:25Лекция 2. Основы RL. Уравнение Беллмана
- 01:09:23Лекция 3. Уравнения Беллмана и динамическое программирование
- 59:34Лекция 4. Метод Монте-Карло и TD метод. Алгоритмы SARSA и Q-learning
- 01:07:14Лекция 5. От табличного RL к Deep RL и policy gradient methods
- 01:21:41Лекция 6. Actor-Critic и Proximal Policy Optimization
- 58:37Лекция 7. Reward Modelling

