Лекция 8. Direct Preference Optimization и семейство offline-методов
- 00:16Введение
- 03:47Мотивация: ограничения RLHF с PPO
- 06:39Вывод DPO
- 19:43Rejection Sampling Fine-Tuning
- 27:15Патологии DPO и практические рецепты
- 42:01IPO, KTO и другие методы семейства
- 52:35Оценка алгоритмов выравнивания
- 55:23Сравнение алгоритмов

