Основы обучения больших языковых моделей
Аннотация к курсу
Спец. курс “Основы обучения больших языковых моделей” посвящен такому феномену современности как большие языковые модели (ChatGPT, DeepSeek …). Цель курса состоит в формировании у слушателей системного понимания принципов работы, архитектурных особенностей и методов обучения современных больших языковых моделей (LLM), а также выработка практических навыков их настройки и применения.
Слушатели изучат современные подходы к эффективному дообучению (Parameter-Efficient Fine-Tuning, LoRA) и "выравниванию" моделей (Alignment), а также технические аспекты запуска моделей (квантизация, оптимизация инференса). Будут рассмотрены вопросы применения языковых моделей в реальных задачах, в частности, за счет комбинирования LLM с поисковыми технологиями (RAG). Заключительная часть курса посвящена передовым архитектурным решениям, включая Mixture of Experts (MoE), и анализу state-of-the-art моделей (DeepSeek, Qwen3 и др.).
Программа курса
В рамках курса будут затронуты следующие темы:
История развития больших языковых моделей (LLM/БЯМ)
Механизм внимания, архитектура трансформер
Представление текста для LLM, токенизация
Оценка качества LLM
BERT, Sentence BERT
Векторные БД, RAG
Промптинг, zero-shot/few-shot
Инференс, квантизация
Fine-tuning, Alignment, LoRa
Данные, continuous pretraining, методы оптимизации обучения
Рассуждающие модели
MoE, DeepSeek, Qwen3
Агентность
Альтернативные архитектуры и подходы к языковым моделям: State Space Model, диффузионные LLM.
- 01:02:35Лекция 1. Большие языковые модели: обзор
- 01:30:38Лекция 2. Механизм внимания, архитектура трансформер
- 01:25:28Лекция 3. Токенизация, оценка качества LLM
- 01:29:31Лекция 4. BERT, Sentence BERT, векторные БД, RAG
- 01:15:38Лекция 5. Предварительное обучение, непрерывное предварительное обучение, данные
- 01:23:34Лекция 6. Промптинг, выравнивание
