Экономика и архитектура современных LLM: почему дешевые модели выигрывают

Анализ стоимости использования frontier-моделей и переход к агентным архитектурам вместо использования гигантских нейросетей.

Почему o1 pro до сих пор в топах нашего LLM Бенчмарка? И почему она стоит 20 центов?! Да это потому, что ее прогоняли в ручном режиме на Pro подписке в порядке исключения. Если o1 pro запускать по API сейчас, то аналогичный workload будет стоит 200-400 евро. И смысла особого иметь не будет. Но вот тренд получается очень интересный. OpenAI и прочие вендоры моделей перестали делать упор в очень мощные и внимательные модели, которые стоят дорого и практического смысла не имеют. Вместо этого теперь развиваются новые архитектуры моделей и харнесов вокруг них (вы же помните время, когда sparse MoE было новинкой?) вкупе с оптимизацией железа под новые форматы. Кстати, Fable/Mythos - это уже не про гигантскую нейронку, а про хорошую связку моделей, инструментов и агентных подходов. Как мы видим из BitGN Research, если взять небольшую модельку и обвязать ее хорошим харнесом, то получится результат лучше (и дешевле), чем просто с самой дорогой моделью. См, например отчеты @dev_salikhov про Exoskeleton - базовый и на Open Weights. В итоге получается, что на практических задачах стоимость применения frontier LLM, которые достаточно хороши для решения задач без какого-то харнеса, падает. В TOP-10 бенчмарка уже есть модели, которые укладываются в 5 евро - Qwen3.7 Max, GPT-5.5, Claude Opus 4.7. А если задача требует чего-то за пределами возможностей топовых недорогих моделей, то вместо покупки дорогой модели можно просто собрать нормальный эвал и подобрать архитектуру под задачу в полуавтоматическом режиме. Благо Agentic Goals завезли уже почти во все AI Coding системы. Ваш, @llm_under_hood 🤗

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

Экономика и архитектура современных LLM: почему дешевые модели выигрывают

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде