Основы обучения больших языковых моделей

Информатика
2 лекции

Аннотация к курсу

Спец. курс “Основы обучения больших языковых моделей” посвящен такому феномену современности как большие языковые модели (ChatGPT, DeepSeek …). Цель курса состоит в формировании у слушателей системного понимания принципов работы, архитектурных особенностей и методов обучения современных больших языковых моделей (LLM), а также выработка практических навыков их настройки и применения. 

Слушатели изучат современные подходы к эффективному дообучению (Parameter-Efficient Fine-Tuning, LoRA) и "выравниванию" моделей (Alignment), а также технические аспекты запуска моделей (квантизация, оптимизация инференса). Будут рассмотрены вопросы применения языковых моделей в реальных задачах, в частности, за счет комбинирования LLM с поисковыми технологиями (RAG). Заключительная часть курса посвящена передовым архитектурным решениям, включая Mixture of Experts (MoE), и анализу state-of-the-art моделей (DeepSeek, Qwen3 и др.). 

Программа курса

В рамках курса будут затронуты следующие темы:

  1. История развития больших языковых моделей (LLM/БЯМ)

  2. Механизм внимания, архитектура трансформер

  3. Представление текста для LLM, токенизация

  4. Оценка качества LLM

  5. BERT, Sentence BERT

  6. Векторные БД, RAG

  7. Промптинг, zero-shot/few-shot

  8. Инференс, квантизация

  9. Fine-tuning, Alignment, LoRa

  10. Данные, continuous pretraining, методы оптимизации обучения

  11. Рассуждающие модели

  12. MoE, DeepSeek, Qwen3

  13. Агентность

  14. Альтернативные архитектуры и подходы к языковым моделям: State Space Model, диффузионные LLM.

2026
спецкурс
Информатика
Основы обучения больших языковых моделей | Открытые видеолекции учебных курсов МГУ