Сбер представил GFusion: диффузионный подход к генерации текста
Сбер открыл код GFusion — экспериментальной диффузионной языковой модели, ускоряющей генерацию текста до 70% по сравнению с GigaChat3-10B-A1.8B.
GFusion показывает, что LLM можно ускорять не только за счёт железа.
Сбер открыл исходный код экспериментальной диффузионной языковой модели на базе GigaChat.
В классической autoregressive-схеме модель генерирует текст токен за токеном. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео.
За счёт этого модель получилась до 70% быстрее GigaChat3-10B-A1.8B и на 39% быстрее версии с MTP.
Просадка качества при этом осталась в пределах 2–4 п.п.
В open source выложили не только саму модель, но и обучение, оптимизированные attention-ядра и поддержку в SGLang.
Интересная деталь: весь проект реализовал стажёр команды GigaChat Pretrain — и теперь он работает в штате.
Пока большая часть индустрии упирается в стоимость GPU, latency и дата-центры, часть ускорения может лежать в архитектуре генерации. Не в том, где запускать модель, а в том, как именно она генерирует ответ.
Habr: https://habr.com/ru/companies/sberbank/articles/1054690/
Модель: GFusion-10B-A1.8B-base GFusion-10B-A1.8B
GitVerse
Кратко (AI)
Сбер опубликовал исходный код экспериментальной модели GFusion, которая использует диффузионный метод генерации текста вместо классического авторегрессионного подхода. Это позволило значительно увеличить скорость генерации при минимальной потере качества. Проект был реализован стажером команды GigaChat и включает оптимизированные ядра и поддержку SGLang.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖