Машинное обучение с подкреплением

Математика

10 лекций

Курс посвящён современным методам обучения с подкреплением (Reinforcement Learning, RL) с акцентом на практическое применение.

В курсе излагаются модели многоруких и контекстуальных бандитов (regret, UCB, Thompson Sampling), затем излагаются марковскиие процессы принятия решений (MDP) и динамическое программирование, методы обучения по траекториям (MC/TD), глубокое обучение (DQN, источники нестабильности), policy gradient и actor–critic подходы, trust-region оптимизация (TRPO, PPO), а также современные направления: off-policy и offline RL, GRPO и связь RL с RLHF и обучение больших языковых моделей (LLM).

2026

лекции

спецкурс

Математика

Преподаватель