← к ленте
Лента Hirify — без алгоритмической мути. Смотреть всё →
ИИ🔥

DSpark: оптимизация спекулятивного декодирования в LLM

Обзор метода DSpark от DeepSeek: динамическое планирование длины драфта и архитектурные улучшения для ускорения генерации LLM.

DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation 📄 Статья 💻 Код (DeepSpec) С начала текущего года вышел ряд работ (DFlash и follow-up research), предлагающих различные варианты параллельного драфтинга, когда драфт-модель предсказывает несколько токенов за один раз. Такие подходы позволяют использовать более сильную модель в качестве черновой и могут выдавать acceptance на уровне или даже лучше, чем SOTA AR-методы спекдека. Но будто бы потенциал для дальнейшего улучшения все еще есть. Ребята из DeepSeek проделали кропотливую инженерную работу, внесли определенные архитектурные изменения, а заодно предложили динамически подбирать длину драфта, чтобы оптимизировать производительность под разные типы запросов и текущую нагрузку.

Кратко (AI)

Авторы представляют метод DSpark, который улучшает спекулятивное декодирование за счет динамического подбора длины драфта и архитектурных изменений. Это позволяет оптимизировать производительность генерации LLM в зависимости от нагрузки и типа запросов.