ИИ🔥
Анализ CEO-Bench: почему ИИ проваливаются в управлении стартапами
Разбор нового бенчмарка CEO-Bench, который тестирует способности нейросетей управлять SaaS-стартапом в долгосрочной перспективе.
ИИ-директора банкротятся на ровном месте, разбор нового бенчмарка CEO-Bench
Исследователи из Принстона (Z-Lab) выкатили жесткий тест для нейросетей – CEO-Bench. Это не просто ответы на вопросы, а симуляция управления SaaS-стартапом в течение 500 игровых дней.
Условия игры:
На старте дают $1 млн и 0 клиентов. В руках у ИИ 34 инструмента: маркетинг, найм, цены, сервера. Вокруг "злой" рынок с задержкой фидбека, шумом в данных и меняющейся экономикой. Задача – не обанкротиться и выжать максимум прибыли.
Результаты показывают, что со стратегическим мышлением у ИИ пока беда. Из топовых моделей выжили и вышли в плюс только три:
🥇 Claude Fable 5 — $47,15 млн
🥈 Claude Opus 4.8 — $27,8 млн (модель додумалась сама писать скрипты когортного анализа)
🥉 GPT-5.5 — $21,3 млн
Главный позор:
Обычный глупый алгоритм на жестких правилах (rule-based script) без всякого ИИ сделал $15,76 млн и обошел десятки умных нейросетей. 🚬
Пять крупных моделей, включая DeepSeek V4 Pro, Gemini 3 Flash и Grok 4.20, и вовсе полностью обанкротились.
ИИ пока не умеют играть вдолгую: они страдают амнезией на длинной дистанции и слишком пытаются угодить всем советникам вместо принятия жестких решений.
Теоретический максимум в симуляции – $2,2 млрд. Так что кожаным мешкам на позициях CEO пока можно спать спокойно. Но это не точно. 👍
Подробности исследования читайте в оригинальной статье о CEO-Bench, а код для тестов доступен в репозитории на GitHub. Интерактивный график в блоге.
Не является инвестиционной рекомендацией. 🥳
Кратко (AI)
Исследователи из Принстона представили бенчмарк CEO-Bench для оценки стратегического мышления ИИ в условиях управления стартапом. Результаты показали, что большинство топовых моделей проигрывают простым алгоритмам на жестких правилах, демонстрируя проблемы с долгосрочным планированием и принятием решений.