Сбер представил GFusion — экспериментальную диффузионную LLM
Сбер открыл исходный код GFusion, диффузионной LLM на базе GigaChat, которая ускоряет генерацию текста за счет нелинейного вывода блоков.
Сбер выкатил в open source GFusion — экспериментальную диффузионную LLM на базе GigaChat
Обычно языковые модели генерируют текст последовательно: токен за токеном. GFusion работает иначе — она пытается выдавать сразу блоки текста, редактируя его в процессе нелинейно. За счёт этого можно ускорять LLM не только инфраструктурными оптимизациями, но и изменением самой механики генерации.
У проекта отдельная история: GFusion создал Даниил Тихонов, когда был стажёром команды фундаментальных моделей Сбера. Изначально работа выросла из его диплома на ФКН НИУ ВШЭ.
По результатам команды GigaChat, GFusion оказалась до 70% быстрее GigaChat3-10B-A1.8B и на 39% быстрее версии с MTP. При этом качество просело всего на 2–4 п.п.
Выложили код модели, обучение, оптимизированные attention-ядра и поддержку в SGLang. Хороший пример того, как молодые исследователи уже создают технологии мирового уровня и выводят их в open source.
Статья на Habr.
Модель и код доступны : GFusion-10B-A1.8B-base GFusion-10B-A1.8B
GitVerse
Кратко (AI)
Сбер выпустил в open source экспериментальную модель GFusion, использующую диффузионный подход для генерации текста блоками вместо последовательного вывода токенов. Разработка, начатая стажером Даниилом Тихоновым, показывает значительный прирост скорости по сравнению с GigaChat3 при минимальной потере качества. Код модели и оптимизированные ядра доступны на GitVerse.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖