ИИ🔥
DSpark: оптимизация спекулятивного декодирования в LLM
Обзор метода DSpark от DeepSeek: динамическое планирование длины драфта и архитектурные улучшения для ускорения генерации LLM.
DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation
📄 Статья
💻 Код (DeepSpec)
С начала текущего года вышел ряд работ (DFlash и follow-up research), предлагающих различные варианты параллельного драфтинга, когда драфт-модель предсказывает несколько токенов за один раз. Такие подходы позволяют использовать более сильную модель в качестве черновой и могут выдавать acceptance на уровне или даже лучше, чем SOTA AR-методы спекдека. Но будто бы потенциал для дальнейшего улучшения все еще есть.
Ребята из DeepSeek проделали кропотливую инженерную работу, внесли определенные архитектурные изменения, а заодно предложили динамически подбирать длину драфта, чтобы оптимизировать производительность под разные типы запросов и текущую нагрузку.
Кратко (AI)
Авторы представляют метод DSpark, который улучшает спекулятивное декодирование за счет динамического подбора длины драфта и архитектурных изменений. Это позволяет оптимизировать производительность генерации LLM в зависимости от нагрузки и типа запросов.