Сравнение метрик производительности модели Fable

Анализ падения метрик модели Fable после введения новых ограничений и маршрутизации задач на Opus 4.8.

Наглядно о том, насколько далек новый Fable от того, что мы получили изначально Аналитики из BridgeMind провели повторные эвалы модели после возвращения, и вот результат: Debugging: 86.2 → 25.9 Refactoring: 73.6 → 38.4 Hallucination: 75.9 → 61.7 Сама по себе глупее модель не стала, все дело в новых ограничениях: слишком много задач, даже самых обычных, маршрутизируются к Opus 4.8. Отсюда и просадка в метриках.

КонтекстAI

Fable — это языковая модель, которая недавно вернулась в публичный доступ после временного отсутствия. Пользователи и аналитики активно обсуждают изменения в её поведении и качестве ответов по сравнению с первоначальной версией.

Кратко (AI)

Аналитики из BridgeMind провели повторное тестирование модели Fable, зафиксировав значительное снижение метрик в задачах отладки и рефакторинга. Падение показателей связывают с изменением алгоритмов маршрутизации, при которых часть запросов перенаправляется на модель Opus 4.8.

Сравнение метрик производительности модели Fable

Кратко (AI)

Обсуждение