Курсы
Лекторы
Школьникам
Простыми словами
О проекте
HUB
open navigation menu
Войти
Главная
/
Курсы
/
Машинное обучение с подкреплением
/
Лекция 7. Reward Modelling
0:00 / 0:00
x 1.00
x 1.00
Лекция 7. Reward Modelling
К предыдущему видео
Дальше
Пчелин
Константин Константичнович
Миронов
Андрей Михайлович
00:16
Вступление
02:33
Языковая модель как MDP
04:23
Зачем нужна reward model?
09:25
Модель Брэдли-Терри
11:56
Обучение Reward Model
21:31
Reward Overoptimization
31:47
Reward Shaping
36:31
ORM и PRM
47:58
Практические аспекты