AIST.tech
← Блог
·4 мин чтения

Инференс подешевел в 1000 раз. Что это значит для вашего бизнеса

Стоимость AI-инференса упала с $60 до $0.06 за миллион токенов за три года. Это меняет экономику каждого бизнес-процесса.

Самый важный технологический сдвиг последних трёх лет — не reasoning, не мультимодальность, не агентные архитектуры. Это падение стоимости инференса. Именно оно превращает технологическую возможность в экономическую реальность.

GPT-4 в марте 2023 года стоил $60 за миллион выходных токенов. AI-агент, обрабатывающий 100 писем в день, обходился бы в ~$400 000 в год — доступно единицам. Сопоставимые по качеству модели в 2025 году стоят $0.06 за миллион токенов. Тот же агент — $5 000 в год. Падение в 1000 раз за три года.

Кривая удешевления

| Период | Стоимость (1M output tokens) | Что стало возможно | |--------|------------------------------|-------------------| | Март 2023 (GPT-4) | $60 | Только крупнейший enterprise | | Конец 2023 (GPT-3.5-turbo) | $2 | Первые production-пилоты | | Конец 2024 (GPT-4o уровень) | $0.40 | Средний бизнес | | 2025 (Llama 3.2 и аналоги) | $0.06 | Рутинные задачи — копейки |

Декабрь 2024: OpenAI снизил цены на Realtime API — входящие токены на 60%, исходящие на 87.5% — за один анонс. a16z назвала этот тренд «LLMflation»: до 2024 года стоимость падала ~10x в год, после — 50-200x в год. По данным Epoch AI, среднее снижение для задач уровня GPT-4 — 40x ежегодно.

Параллельно дешевеет инфраструктура: аренда H100 упала с $7-8/час в начале 2024 до $1.49-3.90/час к концу года. Hardware costs снижаются ~30% в год, энергоэффективность ускорителей улучшается на 40%.

Почему это не остановится

Три структурные причины.

Конкуренция провайдеров. OpenAI, Anthropic, Google, Mistral, Cohere плюс десятки inference-провайдеров (Together AI, Fireworks, Groq). Каждое снижение цены одним игроком вынуждает остальных. Самоусиливающийся цикл.

Открытые модели. Meta выпускает Llama и субсидирует весь рынок open-source. Дешёвые провайдеры дают доступ без зависимости от прайс-листа OpenAI или Anthropic.

Инженерная оптимизация. Квантизация, speculative decoding, Flash Attention, batching — каждый метод даёт 20-50% прироста эффективности. Вместе — каждое поколение inference ~вдвое эффективнее предыдущего.

Экономика AI-инференса следует кривой Moore's Law, только значительно быстрее.

Какие пороги уже пройдены

Конкретные задачи, где AI стал дешевле человека при текущих ценах:

Customer support тикет. Человек: $5-15 за тикет. AI: $0.05-0.50. Разрыв 10-100x. Klarna заменила 700 support-агентов системой, обрабатывающей 97% запросов в 35 языках. Экономия ~$40 миллионов в год — аудированная операционная отчётность.

SDR cold email (полный цикл). Человек: $5-10 за письмо. AI: $0.02-0.10. Разрыв 50-500x. Конвертация сопоставима — AI не устаёт и последователен в follow-up.

Финансовый анализ (структурированные задачи). Аналитик: $160-600 за документ. AI с RAG: $3-15. Разрыв 20-100x. Работает для 70-80% времени младшего аналитика.

Медицинский intake. Hippocratic AI: $0.10 в час вместо $50 за медсестру. Разрыв 500x.

Вопрос на $600 миллиардов

Sequoia поставила вопрос ребром: совокупные инвестиции в AI-инфраструктуру превысили $600 миллиардов. Реальная выручка application layer — $30-40 миллиардов. Разрыв — на порядок.

Аналогия — оптоволоконный перегрев 1999-2001: слишком много кабелей проложено слишком быстро. Но именно эти кабели обеспечили интернет-экономику 2005-2020.

Прикладной слой начинает закрывать разрыв. Cursor достиг $500 миллионов ARR. Claude Code сгенерировал $1 миллиард ARR менее чем за 6 месяцев после запуска. Инфраструктура дешевеет независимо от действий стартапа. Задача — строить приложения, которые эту инфраструктуру монетизируют.

Что это значит для планирования

Стоимость inference — переменная, которую нужно закладывать с коэффициентом: через два года та же функциональность будет стоить в 2-3 раза дешевле без изменений в системе. Это создаёт операционный рычаг: gross margin растёт автоматически.

Для бизнеса это значит: задача, которая сегодня на грани окупаемости, через 12-18 месяцев станет очевидным кейсом. Адресный рынок расширяется автоматически:

  • 2026: ROI очевиден для компаний от ~500 млн руб. выручки.
  • 2027: от ~150 млн руб.
  • 2028: от ~50 млн руб.

Компании, которые выстроят инфраструктуру автоматизации сейчас, получат эту экономию первыми — и накопят данные, которые станут конкурентным рвом.


Хотите понять, какие процессы в вашей компании уже прошли порог экономической оправданности? Напишите — посчитаем вместе.