Сбер выпустил диффузионную языковую модель GFusion
M@mashkka_ds8 ч
Сбер представил GFusion — диффузионную языковую модель на базе GigaChat, поддерживающую параллельную генерацию и локальный запуск.
🧩 Сбер выложил в открытый доступ GFusion — диффузионную языковую модель на базе GigaChat.
Отличие от привычных LLM в том, что диффузионные модели генерируют ответ не токен за токеном, а строят ответ целиком, затем постепенно его уточняя. Такой подход даёт несколько практических преимуществ:
✔️ Параллельную генерацию и более высокую скорость работы.
✔️ Более качественное структурирование и редактирование ответа.
✔️ Более эффективное обучение на данных.
✔️ Возможность стабильно запускаться на потребительском железе — ноутбуках и даже смартфонах.
Коллеги из GigaChat открыли не только саму модель, но и инструменты, которые использовали при её создании.
Что уже доступно:
◀️ GigaChat 10B — облегчённая версия модели для локального запуска.
◀️ CUDA-kernels — низкоуровневые ядра, ускоряющие обучение диффузионных LLM и снижающие требования к GPU.
◀️ PR в vLLM — поддержка алгоритмов инференса для диффузионных моделей в одном из самых популярных Open Source-фреймворков для запуска LLM.
Подробности коллеги опубликовали в статье на Habr, а модель, код и методы обучения уже доступны в Open Source
◀️ HF: GFusion-10B-A1.8B-base, GFusion-10B-A1.8B
◀️ GitVerse
Будет интересно посмотреть, какие проекты и эксперименты появятся на их основе.
#release #gigachat #ai #ainews
Кратко (AI)
Сбер открыл доступ к диффузионной языковой модели GFusion, которая генерирует текст целиком, а не по токенам. Это обеспечивает высокую скорость работы, эффективное обучение и возможность запуска на потребительском оборудовании. Вместе с моделью опубликованы инструменты для ускорения инференса и обучения.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖