← к ленте
Лента Hirify — без алгоритмической мути. Смотреть всё →
ИИ🔥

Анализ CEO-Bench: почему ИИ проваливаются в управлении стартапами

Разбор нового бенчмарка CEO-Bench, который тестирует способности нейросетей управлять SaaS-стартапом в долгосрочной перспективе.

ИИ-директора банкротятся на ровном месте, разбор нового бенчмарка CEO-Bench Исследователи из Принстона (Z-Lab) выкатили жесткий тест для нейросетей – CEO-Bench. Это не просто ответы на вопросы, а симуляция управления SaaS-стартапом в течение 500 игровых дней. Условия игры: На старте дают $1 млн и 0 клиентов. В руках у ИИ 34 инструмента: маркетинг, найм, цены, сервера. Вокруг "злой" рынок с задержкой фидбека, шумом в данных и меняющейся экономикой. Задача – не обанкротиться и выжать максимум прибыли. Результаты показывают, что со стратегическим мышлением у ИИ пока беда. Из топовых моделей выжили и вышли в плюс только три: 🥇 Claude Fable 5 — $47,15 млн 🥈 Claude Opus 4.8 — $27,8 млн (модель додумалась сама писать скрипты когортного анализа) 🥉 GPT-5.5 — $21,3 млн Главный позор: Обычный глупый алгоритм на жестких правилах (rule-based script) без всякого ИИ сделал $15,76 млн и обошел десятки умных нейросетей. 🚬 Пять крупных моделей, включая DeepSeek V4 Pro, Gemini 3 Flash и Grok 4.20, и вовсе полностью обанкротились. ИИ пока не умеют играть вдолгую: они страдают амнезией на длинной дистанции и слишком пытаются угодить всем советникам вместо принятия жестких решений. Теоретический максимум в симуляции – $2,2 млрд. Так что кожаным мешкам на позициях CEO пока можно спать спокойно. Но это не точно. 👍 Подробности исследования читайте в оригинальной статье о CEO-Bench, а код для тестов доступен в репозитории на GitHub. Интерактивный график в блоге. Не является инвестиционной рекомендацией. 🥳

Кратко (AI)

Исследователи из Принстона представили бенчмарк CEO-Bench для оценки стратегического мышления ИИ в условиях управления стартапом. Результаты показали, что большинство топовых моделей проигрывают простым алгоритмам на жестких правилах, демонстрируя проблемы с долгосрочным планированием и принятием решений.