DeepSeek представила DSpark: открытый стек для ускорения генерации LLM

Компания DeepSeek выпустила DeepSpec — полностью открытый программный стек для ускорения генерации больших языковых моделей (LLM). Ключевым компонентом стал алгоритм DSpark, который использует метод параллельного драфтинга с динамической настройкой длины черновиков.

Технология позволяет увеличить скорость генерации текста в 1.5–1.85 раза без потери качества. Решение уже внедрено в продакшн-версии моделей DeepSeek-V4 Flash и Pro.

60–85%прирост скорости генерации

16–18%превосходство в acceptance length

Алгоритм DSpark использует двухэтапный подход: параллельное создание блока токенов и последующее уточнение зависимостей с помощью легкого марковского модуля или RNN.
Система динамически определяет оптимальную длину драфта, основываясь на оценках уверенности модели и текущей нагрузке на оборудование.
Лосс-функция DSpark включает три компонента: стандартную кросс-энтропию, Total Variation между драфтом и таргетом, а также Confidence Loss (бинарную кросс-энтропию).
В тестах на моделях Qwen3 (4B, 8B, 14B) и Gemma4-12B показатель acceptance lengthi у DSpark оказался на 16–18% выше, чем у бейзлайнов DFlash и EAGLE-3.
Эффективность метода зависит от типа задачи: генерация кода демонстрирует более высокую предсказуемость токенов, чем диалоговые сценарии.
Код проекта DeepSpec опубликован на GitHub под эгидой DeepSeek-AI.

Что дальше

Ожидается интеграция поддержки DSpark в популярные движки для инференса LLM, такие как vLLM, что позволит разработчикам внедрять технологию в собственные проекты.

Здесь появится ссылка, когда это произойдёт.