Инициатива по созданию нового бенчмарка для AI-агентов
Автор предлагает создать новый бенчмарк для оценки AI-агентов в задачах коммерции, разработки и безопасности, а также обсуждает поиск площадки для отчетов.
А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач.
И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей.
Ваш, @llm_under_hood 🤗
Контекстдемо
Сюда AI будет дописывать короткий фон к сложным постам: что за история, кто участники, ключевые даты и почему это важно — чтобы понять пост без гугления.
Блок появляется только там, где без контекста не разобраться. Сейчас это демо-превью — реальный контекст начнёт генерироваться на бэкенде.
Кратко (AI)
Автор предлагает разработать новый бенчмарк для оценки способностей AI-агентов в специализированных задачах, таких как программирование и коммерция. Также поднимается вопрос поиска новой платформы для публикации результатов тестирования.
Обсуждение
3Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.
Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.
А как это соотносится с mDNS в мелких сетях? Или это уже другая история?