Fable 5 показала рекордные результаты в бенчмарке Remote Labor Index

Center for AI Safety (CAIS) обновил результаты бенчмарка Remote Labor Index (RLI), предназначенного для оценки качества ИИ-агентов в задачах удаленной работы. Бенчмарк базируется на реальных проектах фрилансеров с платформы UpWork, а результаты моделей оцениваются путем сравнения с работой живых специалистов.

Лидером тестирования стала модель Fable 5, набравшая 16,1% (по данным CodeCamp). Для сравнения, показатели других актуальных моделей значительно ниже: Opus 4.8 набрал 8,3%, а GPT-5.5 — 6,3%. При этом на момент запуска бенчмарка лучшие решения справлялись лишь с 2,5% задач. Fable 5 продемонстрировала особые успехи в 3D, CAD, визуализации и редактировании видео.

Стоимость выполнения одной задачи в рамках теста была ограничена 50 долларами для большинства моделей и 150 долларами для Fable. По оценкам GPT-5.2 Pro, каждый процент прироста в RLI коррелирует с потенциальным влиянием на рынок труда США в диапазоне от 13 до 54 миллиардов долларов, в зависимости от охвата сегментов удаленной работы.

В дальнейшем CAIS планирует внедрить систему «критика», которая будет проверять результаты работы ИИ перед их финальной оценкой. Также исследователи намерены изучить зависимость эффективности выполнения задач от масштабирования вычислительных мощностей и финансовых затрат.