Сбер представил GFusion — экспериментальную диффузионную LLM

Сбер открыл исходный код GFusion, диффузионной LLM на базе GigaChat, которая ускоряет генерацию текста за счет нелинейного вывода блоков.

Сбер выкатил в open source GFusion — экспериментальную диффузионную LLM на базе GigaChat Обычно языковые модели генерируют текст последовательно: токен за токеном. GFusion работает иначе — она пытается выдавать сразу блоки текста, редактируя его в процессе нелинейно. За счёт этого можно ускорять LLM не только инфраструктурными оптимизациями, но и изменением самой механики генерации. У проекта отдельная история: GFusion создал Даниил Тихонов, когда был стажёром команды фундаментальных моделей Сбера. Изначально работа выросла из его диплома на ФКН НИУ ВШЭ. По результатам команды GigaChat, GFusion оказалась до 70% быстрее GigaChat3-10B-A1.8B и на 39% быстрее версии с MTP. При этом качество просело всего на 2–4 п.п. Выложили код модели, обучение, оптимизированные attention-ядра и поддержку в SGLang. Хороший пример того, как молодые исследователи уже создают технологии мирового уровня и выводят их в open source. Статья на Habr. Модель и код доступны : GFusion-10B-A1.8B-base GFusion-10B-A1.8B GitVerse

Сбер представил GFusion — экспериментальную диффузионную LLM

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде