ИИ🔥

Экономика и архитектура современных LLM: почему дешевые модели выигрывают

Анализ стоимости использования frontier-моделей и переход к агентным архитектурам вместо использования гигантских нейросетей.

Почему o1 pro до сих пор в топах нашего LLM Бенчмарка? И почему она стоит 20 центов?! Да это потому, что ее прогоняли в ручном режиме на Pro подписке в порядке исключения. Если o1 pro запускать по API сейчас, то аналогичный workload будет стоит 200-400 евро. И смысла особого иметь не будет. Но вот тренд получается очень интересный. OpenAI и прочие вендоры моделей перестали делать упор в очень мощные и внимательные модели, которые стоят дорого и практического смысла не имеют. Вместо этого теперь развиваются новые архитектуры моделей и харнесов вокруг них (вы же помните время, когда sparse MoE было новинкой?) вкупе с оптимизацией железа под новые форматы. Кстати, Fable/Mythos - это уже не про гигантскую нейронку, а про хорошую связку моделей, инструментов и агентных подходов. Как мы видим из BitGN Research, если взять небольшую модельку и обвязать ее хорошим харнесом, то получится результат лучше (и дешевле), чем просто с самой дорогой моделью. См, например отчеты @dev_salikhov про Exoskeleton - базовый и на Open Weights. В итоге получается, что на практических задачах стоимость применения frontier LLM, которые достаточно хороши для решения задач без какого-то харнеса, падает. В TOP-10 бенчмарка уже есть модели, которые укладываются в 5 евро - Qwen3.7 Max, GPT-5.5, Claude Opus 4.7. А если задача требует чего-то за пределами возможностей топовых недорогих моделей, то вместо покупки дорогой модели можно просто собрать нормальный эвал и подобрать архитектуру под задачу в полуавтоматическом режиме. Благо Agentic Goals завезли уже почти во все AI Coding системы. Ваш, @llm_under_hood 🤗

#llm #openai #agentic-ai #ai-benchmarks #llm-economics

Кратко (AI)

Автор анализирует высокую стоимость использования топовых моделей через API и объясняет, почему индустрия смещается в сторону небольших моделей с агентной обвязкой. Вместо использования гигантских нейросетей эффективнее применять специализированные архитектуры и инструменты, что значительно снижает затраты при сохранении высокого качества результатов.