Обзор бенчмарка Senior SWE-Bench
A@ai_product1 ч
Анализ бенчмарка Senior SWE-Bench для оценки качества кода ИИ-моделей на задачах уровня Senior разработчиков.
И вот это интересный бенчмарк разработческий - по реально сформулированным задачам и с ожиданием определенного "синьорного качества" - Senior SWE-Bench
В лидерах Opus 4.8, Sonnet 5 (но читерит много), GPT-5.5
https://senior-swe-bench.snorkel.ai/
Кратко (AI)
Автор поста обращает внимание на бенчмарк Senior SWE-Bench, предназначенный для оценки навыков ИИ-моделей в решении задач уровня Senior-разработчика. В лидерах рейтинга упоминаются модели Opus 4.8, Sonnet 5 и GPT-5.5.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖