Анализ производительности и стоимости LLM-оркестратора Fugu Ultra
L@llm_under_hood1 дн
Разбор эффективности Fugu Ultra от Sakana AI: сравнение с frontier-моделями, архитектура оркестрации и целесообразность использования в бизнесе.
LLM Benchmark оркестратора Fugu Ultra - третье место, но стоит как паровоз.
Очередное обновление бенчмарков LLM на бизнес задачах от @AigizK. В этот раз прогоняли задачи на Fugu Ultra от Sakana AI, которая, по словам, производителя обошла на Code задачах Claude Fable 5.
Под капотом стоит свой Router, который перенаправляет запросы на мощные frontier LLM, раздавая им роли (Thinker, Worker, Verifier) и координируя всю эту ораву.
Создатели ожидали, что использование разных моделей должно привести к "superior performance". В итоге на бизнес задачах этот комбайн работает примерно как frontier LLM-ки, но стоит в пару раз дороже.
В общем, интересная игрушка, но особого смысла для практических масштабных внедрений я не вижу.
Кстати, Fugu действительно обогнала Fable 5 на Code+Engineering задачах. Но Fable обогнать было не так сложно - она иногда игнорирует инструкции и несет отсебятину (см бенчмарк).
Ваш, @llm_under_hood 🤗
Кратко (AI)
Автор анализирует производительность оркестратора Fugu Ultra от Sakana AI, который использует систему маршрутизации запросов между моделями. Несмотря на высокие показатели в задачах по программированию, решение признано экономически невыгодным для масштабируемого бизнеса из-за высокой стоимости при сопоставимой с frontier-моделями эффективности.
Обсуждение
3Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.
Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.
А как это соотносится с mDNS в мелких сетях? Или это уже другая история?