Sber AI представили GFusion — диффузионную языковую модель на базе GigaChat, доступную в Open Source на GitVerse и Hugging Face.
🤩
ОНИ ДОБРАЛИСЬ ДО РОССИИ
Да-да, это те самые диффузионные языковые модели (dLLM), которые тестируют крупнейшие технокорпорации. А мы уже выложили свою в Open Source! Встречайте
GFusion на основе GigaChat, которую придумал стажёр-инженер
Даниил Тихонов.
Если
LLM работает по принципу авторегрессии и генерирует текст слово за словом, то
dLLM сначала создаёт ответ целиком, а затем дорабатывает результат. Это даёт модели качественное преимущество:
🔠 Быстрее благодаря параллельным вычислениям
🔠 Лучше структурирует ответы и может самостоятельно выбирать порядок генерации текста
🔠 Эффективнее учится на данных
Подробнее про технологию можно прочитать в
статье и
телеграм-канале GigaDev. А модель и методы её обучения уже в открытом доступе на
GitVerse и Hugging Face:
◀️ GFusion-10B-A1.8B
◀️ GFusion-10B-A1.8B-base
✔️ Подписывайтесь на Sber AI в МАКСКратко (AI)
Команда Sber AI представила GFusion, диффузионную языковую модель (dLLM), разработанную стажером Даниилом Тихоновым на базе GigaChat. В отличие от стандартных авторегрессионных LLM, модель генерирует ответ целиком, что обеспечивает параллельные вычисления и повышенную эффективность. Исходный код и веса моделей опубликованы на платформах GitVerse и Hugging Face.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖