4. Многорукие бандиты и онлайн-оптимизация

Name: 4. Многорукие бандиты и онлайн-оптимизация
Duration: 1 h 15 min 20 s

00:16Что такое многорукие бандиты?
06:25Пример: баннеры, кликабельность, эмпирическое среднее vs истинное матожидание
09:58Adversarial (противоборствующие) бандиты
12:43Алгоритм EXP3
30:05Предсказание с помощью экспертов
33:24FTRL и Online Mirror Descent: регуляризация как защита от переобучения/противника
44:18Как importance weighting становится стохастической оценкой градиента для OCO-алгоритмов
46:53UCB: неравенство Хёфдинга, доверительные интервалы
53:39Thompson Sampling
57:16Сведение бандитов к стохастической оптимизации
01:03:38Функциональные и контекстуальные бандиты
01:09:31Анонс семинара
01:10:58Вопросы