Обзор обновлений и планов развития бенчмарка SWE-rebench
A@AIexTime3 дн
Обзор обновлений SWE-rebench, включая новые модели, планы по тестированию локальных LLM и анализ производительности Opus 4.8.
Только успели выкатить мини-релиз SWE-rebench с Gemini 3.5 Flash, MiniMax M3 и Junie (теперь на Opus 4.8 high, кстати, топ1 model-harness результат этого цикла: 61.6% resolved / 72.7% pass@5), как сразу прилетел Fable
Решил написать небольшой обзор планов на ближайшие релизы лидерборда:
– Поэвалили Opus 4.8 в разных reasoning efforts: от low до ultracode с dynamic workflows. Скоро расскажем про трейдоффы качество/цена + какие-то интересные наблюдения из траекторий
– Точно будет релиз для любителей локальных моделей: квены, геммы, gpt-oss разных размеров. Если есть популярные модели, которые гоняются на мелком железе и которые было бы интересно посравнивать, пишите, подумаем над тем, чтобы поэвалить тоже
– Ну и Fable, разумеется 💀
P.S. Если вдруг знаете кого-нибудь из антропик, кто мог бы помочь с кредитами, напишите плиз в DM @alex_golubev13 😳
Кратко (AI)
Автор делится обновлениями бенчмарка SWE-rebench, включая интеграцию новых моделей и результаты тестирования Opus 4.8. В планах развитие лидерборда, добавление локальных моделей и анализ эффективности различных конфигураций нейросетей.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖