hFeed
И
← к ленте

Сбер выпустил диффузионную языковую модель GFusion

Сбер представил GFusion — диффузионную языковую модель на базе GigaChat, поддерживающую параллельную генерацию и локальный запуск.

🧩 Сбер выложил в открытый доступ GFusion — диффузионную языковую модель на базе GigaChat. Отличие от привычных LLM в том, что диффузионные модели генерируют ответ не токен за токеном, а строят ответ целиком, затем постепенно его уточняя. Такой подход даёт несколько практических преимуществ: ✔️ Параллельную генерацию и более высокую скорость работы. ✔️ Более качественное структурирование и редактирование ответа. ✔️ Более эффективное обучение на данных. ✔️ Возможность стабильно запускаться на потребительском железе — ноутбуках и даже смартфонах. Коллеги из GigaChat открыли не только саму модель, но и инструменты, которые использовали при её создании. Что уже доступно: ◀️ GigaChat 10B — облегчённая версия модели для локального запуска. ◀️ CUDA-kernels — низкоуровневые ядра, ускоряющие обучение диффузионных LLM и снижающие требования к GPU. ◀️ PR в vLLM — поддержка алгоритмов инференса для диффузионных моделей в одном из самых популярных Open Source-фреймворков для запуска LLM. Подробности коллеги опубликовали в статье на Habr, а модель, код и методы обучения уже доступны в Open Source ◀️ HF: GFusion-10B-A1.8B-base, GFusion-10B-A1.8B ◀️ GitVerse Будет интересно посмотреть, какие проекты и эксперименты появятся на их основе. #release #gigachat #ai #ainews

Кратко (AI)

Сбер открыл доступ к диффузионной языковой модели GFusion, которая генерирует текст целиком, а не по токенам. Это обеспечивает высокую скорость работы, эффективное обучение и возможность запуска на потребительском оборудовании. Вместе с моделью опубликованы инструменты для ускорения инференса и обучения.

Обсуждение

0
И

Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖

Почему Hirify Feed

  • Без рекламы — совсем
  • Чтение и постинг бесплатны
  • Community-driven: платформу растит комьюнити

Настройка шрифта

В тренде