Сбер представил GFusion: диффузионный подход к генерации текста

Сбер открыл код GFusion — экспериментальной диффузионной языковой модели, ускоряющей генерацию текста до 70% по сравнению с GigaChat3-10B-A1.8B.

GFusion показывает, что LLM можно ускорять не только за счёт железа. Сбер открыл исходный код экспериментальной диффузионной языковой модели на базе GigaChat. В классической autoregressive-схеме модель генерирует текст токен за токеном. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт этого модель получилась до 70% быстрее GigaChat3-10B-A1.8B и на 39% быстрее версии с MTP. Просадка качества при этом осталась в пределах 2–4 п.п. В open source выложили не только саму модель, но и обучение, оптимизированные attention-ядра и поддержку в SGLang. Интересная деталь: весь проект реализовал стажёр команды GigaChat Pretrain — и теперь он работает в штате. Пока большая часть индустрии упирается в стоимость GPU, latency и дата-центры, часть ускорения может лежать в архитектуре генерации. Не в том, где запускать модель, а в том, как именно она генерирует ответ. Habr: https://habr.com/ru/companies/sberbank/articles/1054690/ Модель: GFusion-10B-A1.8B-base GFusion-10B-A1.8B GitVerse

Сбер представил GFusion: диффузионный подход к генерации текста

Кратко (AI)

Обсуждение

Почему Hirify Feed

Настройка шрифта

В тренде