4. Многорукие бандиты и онлайн-оптимизация
ОселедецИван Валерьевич
КоролёвВадим Викторович
КонушинАнтон Сергеевич
АнохинПетр Константинович
ЖемчужниковДмитрий Сергеевич
ШахуроВладислав Игоревич
МоскаленкоАндрей Викторович
ДорнЮрий Владимирович
- 00:16Что такое многорукие бандиты?
- 06:25Пример: баннеры, кликабельность, эмпирическое среднее vs истинное матожидание
- 09:58Adversarial (противоборствующие) бандиты
- 12:43Алгоритм EXP3
- 30:05Предсказание с помощью экспертов
- 33:24FTRL и Online Mirror Descent: регуляризация как защита от переобучения/противника
- 44:18Как importance weighting становится стохастической оценкой градиента для OCO-алгоритмов
- 46:53UCB: неравенство Хёфдинга, доверительные интервалы
- 53:39Thompson Sampling
- 57:16Сведение бандитов к стохастической оптимизации
- 01:03:38Функциональные и контекстуальные бандиты
- 01:09:31Анонс семинара
- 01:10:58Вопросы