hFeed
И
← к ленте

Анализ бенчмарка RLI и прогресса ИИ-агентов в автоматизации труда

Обзор Remote Labor Index от CAIS: как новые модели ИИ показывают прогресс в автоматизации удаленной работы и их потенциальное влияние на экономику.

Я писал про бенчмарк RLI — Remote Labor Index от Center for AI Safety (США). Это один из самых дорогих в создании бенчмарков, для которого выкупили приватные проекты сотен фрилансеров на онлайн-платформе UpWork. RLI — самое лучшее прокси для оценки качества агентов в автоматизации такой работы из всех, что у нас есть, но, как и любой бенчмарк, это прокси не идеально. Цитирую отсюда:
Попросил GPT-5.2 Pro оценить, сколько потенциальной выручки может приносить каждый процент на этом бечмарке в среднем на основе рынка США. Вышло, что: — $13B (если брать только фрилансеров) — $30B (если просто брать зарплатный фонд удалёнщиков — $54B (если брать все задачи, которые могли бы делаться удалённо, но пока не делаются — тогда 100% это ~46% от всех зарплат в США)
Когда бенчмарк вышел, то лучшие решения набирали 2.5% (все оценки делались вручную, результаты агента сравнивались с работой живых людей). CAIS наконец-то обновили результаты, добавив самые свежие модели. GPT-5.5 и Opus 4.8 уже подскочили до 6.3%/8.3%, но Fable 5... взял 16%. Какие конкретно задачи научилась решать модель и что выдаёт можно глянуть в блоге CAIS, но TLDR: прокачали 3d & Cad, визуализации, редактирование видео. 16% и скачок с Fable — это потенциальная возможность сильно влиять на сектор удалённой работы с суммарными зарплатами в 100-800 миллиардов долларов в год с одних только США. Это не означает, что выручка Anthropic дотянется до такой суммы, но думаю, что эффект на экономику и работу будет заметен уже в следующем году. Плюс CAIS сказали, что попробуют улучшить оценки добавлением критика, который перед отправкой результата будет рассматривать, что сделала модель, давать обратную связь. В будущих исследованиях планируют более тщательно изучить влияние масштабирования количества вычислений и $ на выполнение задач. А пока что остановились на планке $50 на задачу для всех моделей и $150 на Fable. Это сколько часов работы фрилансера в США, 2? 3? 😇
КонтекстAI
Remote Labor Index (RLI) — это бенчмарк от Center for AI Safety (CAIS), созданный для оценки способности ИИ-агентов выполнять реальные задачи фрилансеров. В его основе лежат данные с платформы Upwork, что позволяет измерять эффективность моделей в условиях, максимально приближенных к реальной удаленной работе. Рост показателей в этом тесте напрямую коррелирует с потенциалом автоматизации профессий, что делает его ключевым индикатором прогресса в области автономных ИИ-агентов.

Кратко (AI)

Автор анализирует бенчмарк RLI от Center for AI Safety, который оценивает способность ИИ-агентов выполнять задачи фрилансеров. Новые модели, такие как Fable 5, показывают значительный рост производительности, что может существенно повлиять на рынок удаленного труда в США.

Обсуждение

0
И

Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖

Настройка шрифта

В тренде