ИИ🔥

Анализ производительности и стоимости LLM-оркестратора Fugu Ultra

Разбор эффективности Fugu Ultra от Sakana AI: сравнение с frontier-моделями, архитектура оркестрации и целесообразность использования в бизнесе.

LLM Benchmark оркестратора Fugu Ultra - третье место, но стоит как паровоз. Очередное обновление бенчмарков LLM на бизнес задачах от @AigizK. В этот раз прогоняли задачи на Fugu Ultra от Sakana AI, которая, по словам, производителя обошла на Code задачах Claude Fable 5. Под капотом стоит свой Router, который перенаправляет запросы на мощные frontier LLM, раздавая им роли (Thinker, Worker, Verifier) и координируя всю эту ораву. Создатели ожидали, что использование разных моделей должно привести к "superior performance". В итоге на бизнес задачах этот комбайн работает примерно как frontier LLM-ки, но стоит в пару раз дороже. В общем, интересная игрушка, но особого смысла для практических масштабных внедрений я не вижу. Кстати, Fugu действительно обогнала Fable 5 на Code+Engineering задачах. Но Fable обогнать было не так сложно - она иногда игнорирует инструкции и несет отсебятину (см бенчмарк). Ваш, @llm_under_hood 🤗

#llm #fugu-ultra #sakana-ai #benchmarks #ai-orchestration

Кратко (AI)

Автор анализирует производительность оркестратора Fugu Ultra от Sakana AI, который использует систему маршрутизации запросов между моделями. Несмотря на высокие показатели в задачах по программированию, решение признано экономически невыгодным для масштабируемого бизнеса из-за высокой стоимости при сопоставимой с frontier-моделями эффективности.