Машинное обучение с подкреплением
Математика
3 лекции
Курс посвящён современным методам обучения с подкреплением (Reinforcement Learning, RL) с акцентом на практическое применение.
В курсе излагаются модели многоруких и контекстуальных бандитов (regret, UCB, Thompson Sampling), затем излагаются марковскиие процессы принятия решений (MDP) и динамическое программирование, методы обучения по траекториям (MC/TD), глубокое обучение (DQN, источники нестабильности), policy gradient и actor–critic подходы, trust-region оптимизация (TRPO, PPO), а также современные направления: off-policy и offline RL, GRPO и связь RL с RLHF и обучение больших языковых моделей (LLM).
2026
лекции
спецкурс
Математика

