Новые ускорители ИИ снизят стоимость инференса, но цены для пользователей вряд ли упадут
Индустрия генеративного искусственного интеллекта столкнулась с закономерным экзистенциальным кризисом: стоимость эксплуатации сервисов неуклонно растет из-за колоссальных издержек на инфраструктуру. Несмотря на то что аппаратные бренды анонсируют новое поколение графических процессоров и специализированных ускорителей, призванных оптимизировать инференс, конечные пользователи вряд ли ощутят снижение финансовых барьеров в ближайшее время.
Дисбаланс между обучением и инференсом
С момента начала ИИ-бума индустрия сфокусировалась на создании сложных моделей. Такие инструменты, как GitHub Copilot, Claude Code и Codex, стали первыми продуктами, нашедшими реальный спрос. Однако сложилась системная проблема: архитектура дата-центров, заточенная под обучение моделей, крайне неэффективна при их эксплуатации в режиме инференса. По сути, это принципиально разные вычислительные задачи, требующие разного «железа».
В ответ на этот вызов разработчики ускорителей экстренно наращивают R&D. Nvidia, поглотившая стартап Groq за внушительные $20 млрд, конкурирует с AMD, AWS, Intel и Google. Цель всех этих игроков проста — снизить себестоимость генерации одного токена. Экономическая эффективность критически важна для вендоров вроде OpenAI и Anthropic, которые стремятся выбраться из текущей глубоко убыточной модели существования.
Перспективы аппаратного обновления
Оборудование нового поколения, которое должно оптимизировать расходы, пока находится на стадии подготовки к производству. Пессимистичные прогнозы аналитиков указывают на то, что массовое внедрение ускорителей стоит ожидать лишь к началу или середине следующего года, хотя сами производители озвучивают планы на вторую половину текущего календарного периода. В условиях дефицита производительности разработчики ИИ вынуждены перекладывать издержки на плечи клиентов.
Ценовая политика стремительно меняется: модель OpenAI GPT-5.5 вдвое дороже своей предшественницы, а стоимость Google Gemini 3.5 Flash превышает показатели Gemini 3.1 Flash-Lite и Gemini 3 Flash Preview в диапазоне от 3 до 6 раз. Ситуация усложняется тем, что современные интеллектуальные агенты задействуют значительно больше токенов по сравнению с «ленивыми» чат-ботами, работающими по простому запросу.
Переход к оплате по факту потребления
Фиксированные тарифные планы уходят в прошлое, так как бизнес-модель, при которой клиент платит $200 в месяц при потреблении мощностей на $5000, становится нежизнеспособной. Microsoft уже начала переводить GitHub Copilot на модель тарификации «pay-as-you-go» (оплата за фактическое использование), аналогичную стратегию внедряет и Anthropic.
Проще говоря, организации, планировавшие сократить расходы на фонд оплаты труда за счет автоматизации, рискуют столкнуться с иными трудностями. Если раньше бюджет тратился на фиксированную зарплату специалиста с социальным пакетом, то теперь эквивалентные затраты уходят на оплату вычислительных токенов, что в конечном итоге может оказаться недостаточно выгодным для бизнеса.
Рыночные последствия и глобальный контекст
На фоне роста стоимости технологий продолжается волна сокращений персонала в техсекторе. Cloudflare планирует увольнение 1100 человек, а власти Новой Зеландии намерены сократить штат госслужащих на 9000 позиций, ссылаясь на внедрение автоматизации. На текущем этапе устойчивость сохраняют крупные технологические корпорации, способные покрывать убыточные направления за счет прибыли из других сегментов.
В этом поле компании OpenAI и Anthropic пока остаются бенефициарами, так как они удерживают позиции основных разработчиков моделей, в то время как попытки Microsoft, Meta и AWS достичь аналогичных результатов в создании рыночных LLM пока не привели к доминирующему положению. На текущий момент единственным игроком, добившимся ощутимого успеха в этой нише наряду с лидерами, является Google.
*Компания Meta признана экстремистской организацией и запрещена в РФ