Обзор бенчмарка Senior SWE-Bench
A@ai_productвчера
И вот это интересный бенчмарк разработческий - по реально сформулированным задачам и с ожиданием определенного "синьорного качества" - Senior SWE-Bench
В лидерах Opus 4.8, Sonnet 5 (но читерит много), GPT-5.5
https://senior-swe-bench.snorkel.ai/