Анализ бенчмарка RLI и прогресса ИИ-агентов в автоматизации труда

Обзор Remote Labor Index от CAIS: как новые модели ИИ показывают прогресс в автоматизации удаленной работы и их потенциальное влияние на экономику.

Я писал про бенчмарк RLI — Remote Labor Index от Center for AI Safety (США). Это один из самых дорогих в создании бенчмарков, для которого выкупили приватные проекты сотен фрилансеров на онлайн-платформе UpWork. RLI — самое лучшее прокси для оценки качества агентов в автоматизации такой работы из всех, что у нас есть, но, как и любой бенчмарк, это прокси не идеально. Цитирую отсюда:

Попросил GPT-5.2 Pro оценить, сколько потенциальной выручки может приносить каждый процент на этом бечмарке в среднем на основе рынка США. Вышло, что: — $13B (если брать только фрилансеров) — $30B (если просто брать зарплатный фонд удалёнщиков — $54B (если брать все задачи, которые могли бы делаться удалённо, но пока не делаются — тогда 100% это ~46% от всех зарплат в США)

Когда бенчмарк вышел, то лучшие решения набирали 2.5% (все оценки делались вручную, результаты агента сравнивались с работой живых людей). CAIS наконец-то обновили результаты, добавив самые свежие модели. GPT-5.5 и Opus 4.8 уже подскочили до 6.3%/8.3%, но Fable 5... взял 16%. Какие конкретно задачи научилась решать модель и что выдаёт можно глянуть в блоге CAIS, но TLDR: прокачали 3d & Cad, визуализации, редактирование видео. 16% и скачок с Fable — это потенциальная возможность сильно влиять на сектор удалённой работы с суммарными зарплатами в 100-800 миллиардов долларов в год с одних только США. Это не означает, что выручка Anthropic дотянется до такой суммы, но думаю, что эффект на экономику и работу будет заметен уже в следующем году. Плюс CAIS сказали, что попробуют улучшить оценки добавлением критика, который перед отправкой результата будет рассматривать, что сделала модель, давать обратную связь. В будущих исследованиях планируют более тщательно изучить влияние масштабирования количества вычислений и $ на выполнение задач. А пока что остановились на планке $50 на задачу для всех моделей и $150 на Fable. Это сколько часов работы фрилансера в США, 2? 3? 😇

Анализ бенчмарка RLI и прогресса ИИ-агентов в автоматизации труда

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде