Инициатива по созданию нового бенчмарка для AI-агентов

L@llm_under_hood8 ч

Автор предлагает создать новый бенчмарк для оценки AI-агентов в задачах коммерции, разработки и безопасности, а также обсуждает поиск площадки для отчетов.

А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач. И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей. Ваш, @llm_under_hood 🤗

Контекстдемо

Сюда AI будет дописывать короткий фон к сложным постам: что за история, кто участники, ключевые даты и почему это важно — чтобы понять пост без гугления. Блок появляется только там, где без контекста не разобраться. Сейчас это демо-превью — реальный контекст начнёт генерироваться на бэкенде.

Кратко (AI)

Автор предлагает разработать новый бенчмарк для оценки способностей AI-агентов в специализированных задачах, таких как программирование и коммерция. Также поднимается вопрос поиска новой платформы для публикации результатов тестирования.

ИИ ai llm benchmarks ai-agents tech

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Настройка шрифта

ШрифтРазмерМежстрочный интервал

В тренде

#GPT-542 постов #Робототехника28 постов #YC W2619 постов #Rust15 постов