ИИ🔥
Инициатива по созданию нового бенчмарка для AI-агентов
Автор предлагает создать новый бенчмарк для оценки AI-агентов в задачах коммерции, разработки и безопасности, а также обсуждает поиск площадки для отчетов.
А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач.
И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей.
Ваш, @llm_under_hood 🤗
Кратко (AI)
Автор предлагает разработать новый бенчмарк для оценки способностей AI-агентов в специализированных задачах, таких как программирование и коммерция. Также поднимается вопрос поиска новой платформы для публикации результатов тестирования.