ИИ🔥
Meituan представила LLM LongCat 2.0, обученную на китайских чипах
Meituan выпустила модель LongCat 2.0 с 1.6 трлн параметров, обученную на китайских аналогах чипов Huawei Ascend 910C.
На китайских чипах натренировали первую большую LLM
Meituan релизнули LongCat 2.0, которую тренировали на 50 тысячах неназванных китайских чипов, по деталям похожих на Huawei Ascend 910C. Претрейн большой, 1,6 триллиона параметров (почти как у DeepSeek V4 Pro), из которых 48 миллиардов активных. Тренировали на 35 триллионах токенов, причём несколько сотен миллиардов токенов это данные с длиной контекста около миллиона токенов. Таких масштабов раньше достигали только на GPU Nvidia и TPU от гугла, так что это очень большое достижение.
Интересная особенность модели — тут неактивные параметры уходят не только на MoE слои, но и на огромные n-gram эмбеддинги, которые занимают почти 10% всех параметров модели (у LongCat Flash-Lite, на которой их тестили, на это ушла вообще почти половина параметров). Кстати по эмбеддингам они тоже параллелят, получив в итоге 6D параллелизм. Ну и конечно они не смогли удержаться и сделали собственный вариант Sparse Attention, путём модификации до неузнаваемости DSA.
Последние два месяца LongCat 2.0 тестили на Openrouter под кодовым именем Owl Alpha, звёзд с неба она там не хватала. В API модель стоит $0.75/$3 за миллион токенов, что дороговато для такого уровня интеллекта (хотя прожорливость пока что непонятна). Веса модели обещают скоро релизнуть, Meituan обычно релизит под Apache 2.0/MIT.
Веса будут тут
Блогпост
@ai_newz
Кратко (AI)
Компания Meituan представила модель LongCat 2.0, обученную на 50 тысячах китайских чипов, предположительно Huawei Ascend 910C. Модель обладает 1.6 трлн параметров и использует уникальные архитектурные решения, включая 6D-параллелизм и модифицированный Sparse Attention.