DSpark: оптимизация спекулятивного декодирования в LLM

Обзор метода DSpark от DeepSeek: динамическое планирование длины драфта и архитектурные улучшения для ускорения генерации LLM.

DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation 📄 Статья 💻 Код (DeepSpec) С начала текущего года вышел ряд работ (DFlash и follow-up research), предлагающих различные варианты параллельного драфтинга, когда драфт-модель предсказывает несколько токенов за один раз. Такие подходы позволяют использовать более сильную модель в качестве черновой и могут выдавать acceptance на уровне или даже лучше, чем SOTA AR-методы спекдека. Но будто бы потенциал для дальнейшего улучшения все еще есть. Ребята из DeepSeek проделали кропотливую инженерную работу, внесли определенные архитектурные изменения, а заодно предложили динамически подбирать длину драфта, чтобы оптимизировать производительность под разные типы запросов и текущую нагрузку.

Кратко (AI)

Авторы представляют метод DSpark, который улучшает спекулятивное декодирование за счет динамического подбора длины драфта и архитектурных изменений. Это позволяет оптимизировать производительность генерации LLM в зависимости от нагрузки и типа запросов.

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

DSpark: оптимизация спекулятивного декодирования в LLM

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде