hFeed
И
← к ленте

Инициатива по созданию нового бенчмарка для AI-агентов

Автор предлагает создать новый бенчмарк для оценки AI-агентов в задачах коммерции, разработки и безопасности, а также обсуждает поиск площадки для отчетов.

А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач. И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей. Ваш, @llm_under_hood 🤗
Контекстдемо
Сюда AI будет дописывать короткий фон к сложным постам: что за история, кто участники, ключевые даты и почему это важно — чтобы понять пост без гугления. Блок появляется только там, где без контекста не разобраться. Сейчас это демо-превью — реальный контекст начнёт генерироваться на бэкенде.

Кратко (AI)

Автор предлагает разработать новый бенчмарк для оценки способностей AI-агентов в специализированных задачах, таких как программирование и коммерция. Также поднимается вопрос поиска новой платформы для публикации результатов тестирования.

Обсуждение

3
И
М
Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

А
Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

И
Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Настройка шрифта

В тренде