Сравнение метрик производительности модели Fable
Анализ падения метрик модели Fable после введения новых ограничений и маршрутизации задач на Opus 4.8.
Наглядно о том, насколько далек новый Fable от того, что мы получили изначально
Аналитики из BridgeMind провели повторные эвалы модели после возвращения, и вот результат:
Debugging: 86.2 → 25.9
Refactoring: 73.6 → 38.4
Hallucination: 75.9 → 61.7
Сама по себе глупее модель не стала, все дело в новых ограничениях: слишком много задач, даже самых обычных, маршрутизируются к Opus 4.8. Отсюда и просадка в метриках.
КонтекстAI
Fable — это языковая модель, которая недавно вернулась в публичный доступ после временного отсутствия. Пользователи и аналитики активно обсуждают изменения в её поведении и качестве ответов по сравнению с первоначальной версией.
Кратко (AI)
Аналитики из BridgeMind провели повторное тестирование модели Fable, зафиксировав значительное снижение метрик в задачах отладки и рефакторинга. Падение показателей связывают с изменением алгоритмов маршрутизации, при которых часть запросов перенаправляется на модель Opus 4.8.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖