Лекция 11. Альтернативы классическому трансформеру (вниманию), SSM, Mamba, DeltaNet
- 00:16Проблема классического внимания
- 06:07Linformer
- 08:45Longformer
- 11:43DeepSeek: MLA (Multi-head Latent Attention)
- 12:56Linear Attention (Линейное внимание)
- 17:24RNN
- 19:51Истоки State Space Models (SSM)
- 31:48Селективная SSM (Mamba-1)
- 41:28State Space Duality (SSD)
- 45:32Mamba-2
- 51:19Delta Net - развитие линейного внимания
- 56:34Qwen 3.5 — гибридная модель
- 01:00:44Выводы
