Лекция 8. Direct Preference Optimization и семейство offline-методов

  1. 00:16Введение
  2. 03:47Мотивация: ограничения RLHF с PPO
  3. 06:39Вывод DPO
  4. 19:43Rejection Sampling Fine-Tuning
  5. 27:15Патологии DPO и практические рецепты
  6. 42:01IPO, KTO и другие методы семейства
  7. 52:35Оценка алгоритмов выравнивания
  8. 55:23Сравнение алгоритмов