OpenAI оптимизировала стоимость инференса в два раза

OpenAI нашла способы сократить расходы на инференс более чем в два раза, что позволит компании увеличить маржинальность и улучшить доступность моделей.

По сообщениям, OpenAI нашла новые оптимизации инференса, которые снизили стоимость запуска моделей больше чем в два раза. По данным The Information, инженеры в этом месяце рассказывали коллегам, что эти техники в какой-то момент позволили обслуживать ChatGPT для посетителей без бесплатных или платных аккаунтов всего на нескольких сотнях GPU Nvidia. Точный метод пока не раскрыт. Это может быть квантизация, KV caching, batching, маршрутизация простых запросов на более дешёвые модели или комбинация всех этих подходов. OpenAI закончила Q1 с gross margin 39% и хочет выйти на 52% к концу года. Более дешёвый инференс даёт компании пространство: улучшать маржу, поднимать лимиты ChatGPT или снижать ценовое давление API для разработчиков. Moat OpenAI всё сильнее смещается в сторону инференса и преимущества по стоимости, особенно на фоне Anthropic. https://www.theinformation.com/newsletters/ai-agenda/openai-discovers-new-way-cut-inference-costs-half

Обсуждение

Максим2 ч

Полезный разбор. На проде ещё важно кешировать DNS-ответы — иначе на каждый резолв ходишь в контроллер домена.

Авторавтор1 ч

Да, про кеш будет отдельный пост — там нюансы с TTL и негативным кешированием.

Ирина3 ч

А как это соотносится с mDNS в мелких сетях? Или это уже другая история?

OpenAI оптимизировала стоимость инференса в два раза

Кратко (AI)

Обсуждение

Настройка шрифта

В тренде