Hirify Feed — your shortcut to what’s next

Команда Сбера выпустила в открытый доступ GFusion — экспериментальную языковую модель, использующую метод диффузии для генерации текста. В отличие от классических авторегрессионных LLM, которые генерируют текст строго последовательно (токен за токеном), GFusion формирует блок текста целиком, постепенно уточняя его содержимое. Такой подход позволяет выполнять параллельные вычисления, что значительно ускоряет процесс генерации.

Модель базируется на архитектуре GigaChat3-10B-A1.8B-base. Согласно результатам тестирования, GFusion работает до 70% быстрее базовой версии GigaChat3-10B-A1.8B и на 39% быстрее версии с использованием MTP-головы. При этом снижение качества ответов относительно авторегрессионных моделей составляет всего 2–4 п.п., а баланс между скоростью и точностью можно регулировать параметрами генерации.

Проект вырос из дипломной работы стажера команды GigaChat Pretrain Даниила Тихонова, который прошел путь от идеи до полноценного релиза и был принят в штат. В открытый доступ на GitVerse и Hugging Face выложены веса моделей (GFusion-10B-A1.8B-base и GFusion-10B-A1.8B), код обучения, оптимизированные CUDA-ядра и реализация поддержки в SGLang. Также реализован алгоритм entropy-bounded sampling для дополнительного ускорения.

Технология диффузионных языковых моделей (dLLM) является актуальным направлением в индустрии, аналогичные разработки (например, Diffusion Gemma) ведутся крупнейшими мировыми технокорпорациями. Внедрение диффузионного режима позволяет не только повысить скорость работы, но и снизить требования к вычислительным мощностям, делая возможным запуск моделей на потребительском железе.

Сбер представил GFusion: экспериментальную диффузионную LLM на базе GigaChat

Почему Hirify Feed