ИИ🔥

Инициатива по созданию нового бенчмарка для AI-агентов

Автор предлагает создать новый бенчмарк для оценки AI-агентов в задачах коммерции, разработки и безопасности, а также обсуждает поиск площадки для отчетов.

А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач. И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей. Ваш, @llm_under_hood 🤗

#ai #llm #benchmarks #ai-agents #tech

Кратко (AI)

Автор предлагает разработать новый бенчмарк для оценки способностей AI-агентов в специализированных задачах, таких как программирование и коммерция. Также поднимается вопрос поиска новой платформы для публикации результатов тестирования.