Анализ производительности и стоимости LLM-оркестратора Fugu Ultra

Разбор эффективности Fugu Ultra от Sakana AI: сравнение с frontier-моделями, архитектура оркестрации и целесообразность использования в бизнесе.

LLM Benchmark оркестратора Fugu Ultra - третье место, но стоит как паровоз. Очередное обновление бенчмарков LLM на бизнес задачах от @AigizK. В этот раз прогоняли задачи на Fugu Ultra от Sakana AI, которая, по словам, производителя обошла на Code задачах Claude Fable 5. Под капотом стоит свой Router, который перенаправляет запросы на мощные frontier LLM, раздавая им роли (Thinker, Worker, Verifier) и координируя всю эту ораву. Создатели ожидали, что использование разных моделей должно привести к "superior performance". В итоге на бизнес задачах этот комбайн работает примерно как frontier LLM-ки, но стоит в пару раз дороже. В общем, интересная игрушка, но особого смысла для практических масштабных внедрений я не вижу. Кстати, Fugu действительно обогнала Fable 5 на Code+Engineering задачах. Но Fable обогнать было не так сложно - она иногда игнорирует инструкции и несет отсебятину (см бенчмарк). Ваш, @llm_under_hood 🤗

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Анализ производительности и стоимости LLM-оркестратора Fugu Ultra

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде