4. Многорукие бандиты и онлайн-оптимизация

  1. 00:16Что такое многорукие бандиты?
  2. 06:25Пример: баннеры, кликабельность, эмпирическое среднее vs истинное матожидание
  3. 09:58Adversarial (противоборствующие) бандиты
  4. 12:43Алгоритм EXP3
  5. 30:05Предсказание с помощью экспертов
  6. 33:24FTRL и Online Mirror Descent: регуляризация как защита от переобучения/противника
  7. 44:18Как importance weighting становится стохастической оценкой градиента для OCO-алгоритмов
  8. 46:53UCB: неравенство Хёфдинга, доверительные интервалы
  9. 53:39Thompson Sampling
  10. 57:16Сведение бандитов к стохастической оптимизации
  11. 01:03:38Функциональные и контекстуальные бандиты
  12. 01:09:31Анонс семинара
  13. 01:10:58Вопросы