Обзор обновлений и планов развития бенчмарка SWE-rebench

Обзор обновлений SWE-rebench, включая новые модели, планы по тестированию локальных LLM и анализ производительности Opus 4.8.

Только успели выкатить мини-релиз SWE-rebench с Gemini 3.5 Flash, MiniMax M3 и Junie (теперь на Opus 4.8 high, кстати, топ1 model-harness результат этого цикла: 61.6% resolved / 72.7% pass@5), как сразу прилетел Fable Решил написать небольшой обзор планов на ближайшие релизы лидерборда: – Поэвалили Opus 4.8 в разных reasoning efforts: от low до ultracode с dynamic workflows. Скоро расскажем про трейдоффы качество/цена + какие-то интересные наблюдения из траекторий – Точно будет релиз для любителей локальных моделей: квены, геммы, gpt-oss разных размеров. Если есть популярные модели, которые гоняются на мелком железе и которые было бы интересно посравнивать, пишите, подумаем над тем, чтобы поэвалить тоже – Ну и Fable, разумеется 💀 P.S. Если вдруг знаете кого-нибудь из антропик, кто мог бы помочь с кредитами, напишите плиз в DM @alex_golubev13 😳

Обзор обновлений и планов развития бенчмарка SWE-rebench

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде