0:00 / 0:00

x 1.00

Лекция 8. Direct Preference Optimization и семейство offline-методов

00:16Введение
03:47Мотивация: ограничения RLHF с PPO
06:39Вывод DPO
19:43Rejection Sampling Fine-Tuning
27:15Патологии DPO и практические рецепты
42:01IPO, KTO и другие методы семейства
52:35Оценка алгоритмов выравнивания
55:23Сравнение алгоритмов