Компания DeepSeek выпустила DeepSpec — полностью открытый программный стек для ускорения генерации больших языковых моделей (LLM). Ключевым компонентом стал алгоритм DSpark, который использует метод параллельного драфтинга с динамической настройкой длины черновиков.
Технология позволяет увеличить скорость генерации текста в 1.5–1.85 раза без потери качества. Решение уже внедрено в продакшн-версии моделей DeepSeek-V4 Flash и Pro.
60–85%прирост скорости генерации
16–18%превосходство в acceptance length
- Алгоритм DSpark использует двухэтапный подход: параллельное создание блока токенов и последующее уточнение зависимостей с помощью легкого марковского модуля или RNN.
- Система динамически определяет оптимальную длину драфта, основываясь на оценках уверенности модели и текущей нагрузке на оборудование.
- Лосс-функция DSpark включает три компонента: стандартную кросс-энтропию, Total Variation между драфтом и таргетом, а также Confidence Loss (бинарную кросс-энтропию).
- В тестах на моделях Qwen3 (4B, 8B, 14B) и Gemma4-12B показатель acceptance lengthi у DSpark оказался на 16–18% выше, чем у бейзлайнов DFlash и EAGLE-3.
- Эффективность метода зависит от типа задачи: генерация кода демонстрирует более высокую предсказуемость токенов, чем диалоговые сценарии.
- Код проекта DeepSpec опубликован на GitHub под эгидой DeepSeek-AI.
Ожидается интеграция поддержки DSpark в популярные движки для инференса LLM, такие как vLLM, что позволит разработчикам внедрять технологию в собственные проекты.