Обзор бенчмарка Senior SWE-Bench

A@ai_productвчера
И вот это интересный бенчмарк разработческий - по реально сформулированным задачам и с ожиданием определенного "синьорного качества" - Senior SWE-Bench В лидерах Opus 4.8, Sonnet 5 (но читерит много), GPT-5.5 https://senior-swe-bench.snorkel.ai/

Это всё на сейчас.

Почему Hirify Feed

  • Без рекламы — совсем
  • Чтение и постинг бесплатны
  • Community-driven: платформу растит комьюнити