ИИ🔥

DeepSeek представили DSpark: открытый стек для ускорения генерации LLM

DeepSeek выложили открытый стек DSpark для ускорения генерации LLM на 60-85% с помощью двухэтапных драфт-моделей.

Новый дроп от DeepSeek: выложили полностью открытый стек для ускорения генерации LLM Внутри готовые алгоритмы, обучение, эвал и даже пайплайн для данных. Бери и пользуйся, супер практично. github.com/deepseek-ai/DeepSpec Основная соль – в алгоритме DSpark. Его DeepSeek уже использует для DeepSeek-V4 Flash и Pro в проде, и, по их данным, относительно старого бейзлайна скорость генерации для пользователя выросла примерно на 60–85%. Как устроен алгоритм: – Фундаментально, это небольшая модель, которая пишет черновики для основной LLM. Это называется драфт-модель. – Такой подход сейчас в моде (Google, например, делают такое для Gemma: t.me/data_secrets/9179), но DeepSeek выводят его на новый уровень. Их драфт-модель работает необычно, в два этапа. Сначала параллельно набрасывается блок токенов, а потом легкий марковский модуль уточняет зависимости между соседними токенами. Благодаря такому подходу драфтер и работает быстро, и не очень сыпится в хвостах. – После того, как драфтер накидал черновик, основная LLM его проверяет и принимает только правильный префикс, корректируя остальное. При этом DSpark сам решает, сколько токенов отправить на проверку, основываясь на оценках уверенности по токенам и текущей нагрузке на железо. В результате получаем ускорение минимум в 1.5 раза абсолютно без потери качества. Снимаем шляпу перед DeepSeek за такой опенсорс.

#deepseek #llm #dspark #ai #opensource #inference

Кратко (AI)

DeepSeek опубликовали открытый стек DSpark, предназначенный для ускорения генерации LLM. Технология использует двухэтапные драфт-модели, позволяющие увеличить скорость вывода на 60–85% без потери качества.