Анализ автономности Claude Code: отчет Anthropic

Обзор отчета Anthropic об использовании Claude Code: как агентный интерфейс меняет продуктивность и характер взаимодействия с ИИ.

📌 Claude Code более автономен, чем чат-бот На выходных Anthropic опубликовала свежий отчёт Economic Index об использовании своих моделей.

Компания выпускает его нерегулярно (раз в 2-3 месяца), по мере накопления значимых изменений в методологии или данных. Предыдущая публикация была в марте.

Главный инсайт: то, сколько решений мы готовы отдавать ИИ, зависит не от самой модели, а от того, как именно запакован продукт. Степень автономии, которую мы даем Claude в обычном веб-чате (или Cowork) и в Claude Code замеряли по шкале от 1 до 5, где 1- это почти никакой самостоятельности, а 5 - экстремальная. Результат определил, что характер работы над одинаковыми задачами кардинально меняется. Например, чтобы написать статью или пост в чате, требуется медианно 13 раундов диалогового пинг-понга с моделью. В Claude Code на ту же задачу уходит ровно один промпт.

Логично списать это на то, что в Code 54% сессий обслуживает Opus (против 10% в чате). Но нет, это не просто фича большей модели - на Sonnet картина такая же.

🟡Цифры +0.37 балла - средний отрыв в уровне автономии в пользу Claude Code по всем задачам; +0.53 балла - отрыв конкретно для кодинга. В 26 из 31 категории результатов агентный интерфейс бьёт обычный чат. Отчёт, кстати, построен на новой телеметрии, которая собирает данные ежечасно, а не семидневными выборками, как раньше. Это позволило впервые увидеть и недельные, и суточные ритмы использования: всплеск личных запросов на выходных, пик просьб о рецептах в шесть вечера, запросы о сне под утро. Отдельная часть отчёта - первые результаты опроса пользователей Claude, в котором участвовали около 9700 респондентов. Он показал, что люди, которые делегируют ИИ задачи целиком, смотрят на свои перспективы оптимистичнее остальных и чаще ожидают роста зарплаты или сохранения работы, а не наоборот, как можно было бы предположить.

Гендерный факт. У женщин доля сессий в Claude Code существенно ниже. Они используют Claude более итеративно, как партнера-собеседника, и проводят в чате больше активного времени, тогда как мужчины чаще пытаются скинуть задачу целиком и забыть.

🟡Автономия пока стоит дорого Корреляция между делегированием и сожженными токенами очень сильная (r = 0,68). Чем дороже и ценнее профессия/задача, тем больше токенов она потребляет. Причём полная передача руля не значит, что вы будете лежать на диване. В высокоценных задачах люди сами делают больше запросов и регулярно включают расширенный ризонинг у модели. @ai_machinelearning_big_data #AI #ML #Research #EconomicIndex #Anthropic

Анализ автономности Claude Code: отчет Anthropic

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде