Инференс подешевел в 1000 раз. Что это значит для вашего бизнеса
Стоимость AI-инференса упала с $60 до $0.06 за миллион токенов за три года. Это меняет экономику каждого бизнес-процесса.
Самый важный технологический сдвиг последних трёх лет — не reasoning, не мультимодальность, не агентные архитектуры. Это падение стоимости инференса. Именно оно превращает технологическую возможность в экономическую реальность.
GPT-4 в марте 2023 года стоил $60 за миллион выходных токенов. AI-агент, обрабатывающий 100 писем в день, обходился бы в ~$400 000 в год — доступно единицам. Сопоставимые по качеству модели в 2025 году стоят $0.06 за миллион токенов. Тот же агент — $5 000 в год. Падение в 1000 раз за три года.
Кривая удешевления
| Период | Стоимость (1M output tokens) | Что стало возможно | |--------|------------------------------|-------------------| | Март 2023 (GPT-4) | $60 | Только крупнейший enterprise | | Конец 2023 (GPT-3.5-turbo) | $2 | Первые production-пилоты | | Конец 2024 (GPT-4o уровень) | $0.40 | Средний бизнес | | 2025 (Llama 3.2 и аналоги) | $0.06 | Рутинные задачи — копейки |
Декабрь 2024: OpenAI снизил цены на Realtime API — входящие токены на 60%, исходящие на 87.5% — за один анонс. a16z назвала этот тренд «LLMflation»: до 2024 года стоимость падала ~10x в год, после — 50-200x в год. По данным Epoch AI, среднее снижение для задач уровня GPT-4 — 40x ежегодно.
Параллельно дешевеет инфраструктура: аренда H100 упала с $7-8/час в начале 2024 до $1.49-3.90/час к концу года. Hardware costs снижаются ~30% в год, энергоэффективность ускорителей улучшается на 40%.
Почему это не остановится
Три структурные причины.
Конкуренция провайдеров. OpenAI, Anthropic, Google, Mistral, Cohere плюс десятки inference-провайдеров (Together AI, Fireworks, Groq). Каждое снижение цены одним игроком вынуждает остальных. Самоусиливающийся цикл.
Открытые модели. Meta выпускает Llama и субсидирует весь рынок open-source. Дешёвые провайдеры дают доступ без зависимости от прайс-листа OpenAI или Anthropic.
Инженерная оптимизация. Квантизация, speculative decoding, Flash Attention, batching — каждый метод даёт 20-50% прироста эффективности. Вместе — каждое поколение inference ~вдвое эффективнее предыдущего.
Экономика AI-инференса следует кривой Moore's Law, только значительно быстрее.
Какие пороги уже пройдены
Конкретные задачи, где AI стал дешевле человека при текущих ценах:
Customer support тикет. Человек: $5-15 за тикет. AI: $0.05-0.50. Разрыв 10-100x. Klarna заменила 700 support-агентов системой, обрабатывающей 97% запросов в 35 языках. Экономия ~$40 миллионов в год — аудированная операционная отчётность.
SDR cold email (полный цикл). Человек: $5-10 за письмо. AI: $0.02-0.10. Разрыв 50-500x. Конвертация сопоставима — AI не устаёт и последователен в follow-up.
Финансовый анализ (структурированные задачи). Аналитик: $160-600 за документ. AI с RAG: $3-15. Разрыв 20-100x. Работает для 70-80% времени младшего аналитика.
Медицинский intake. Hippocratic AI: $0.10 в час вместо $50 за медсестру. Разрыв 500x.
Вопрос на $600 миллиардов
Sequoia поставила вопрос ребром: совокупные инвестиции в AI-инфраструктуру превысили $600 миллиардов. Реальная выручка application layer — $30-40 миллиардов. Разрыв — на порядок.
Аналогия — оптоволоконный перегрев 1999-2001: слишком много кабелей проложено слишком быстро. Но именно эти кабели обеспечили интернет-экономику 2005-2020.
Прикладной слой начинает закрывать разрыв. Cursor достиг $500 миллионов ARR. Claude Code сгенерировал $1 миллиард ARR менее чем за 6 месяцев после запуска. Инфраструктура дешевеет независимо от действий стартапа. Задача — строить приложения, которые эту инфраструктуру монетизируют.
Что это значит для планирования
Стоимость inference — переменная, которую нужно закладывать с коэффициентом: через два года та же функциональность будет стоить в 2-3 раза дешевле без изменений в системе. Это создаёт операционный рычаг: gross margin растёт автоматически.
Для бизнеса это значит: задача, которая сегодня на грани окупаемости, через 12-18 месяцев станет очевидным кейсом. Адресный рынок расширяется автоматически:
- 2026: ROI очевиден для компаний от ~500 млн руб. выручки.
- 2027: от ~150 млн руб.
- 2028: от ~50 млн руб.
Компании, которые выстроят инфраструктуру автоматизации сейчас, получат эту экономию первыми — и накопят данные, которые станут конкурентным рвом.
Хотите понять, какие процессы в вашей компании уже прошли порог экономической оправданности? Напишите — посчитаем вместе.