От расширения возможностей к неравенствуВ своём знаменитом эссе Machines of Loving Grace Дарио Амодеи, сооснователь и CEO одной из самых влиятельных ИИ-лаборатоОт расширения возможностей к неравенствуВ своём знаменитом эссе Machines of Loving Grace Дарио Амодеи, сооснователь и CEO одной из самых влиятельных ИИ-лаборато

[Перевод] Самая большая ложь об ИИ

2026/02/13 11:42
12м. чтение

От расширения возможностей к неравенству

30d3cc77bb3ecb94a7d3d54bcbf51ca7.png

В своём знаменитом эссе Machines of Loving Grace Дарио Амодеи, сооснователь и CEO одной из самых влиятельных ИИ-лабораторий в мире, Anthropic, сказал следующее:

И, как ни странно, он не только проявляет замечательную прозорливость, но может непреднамеренно усугублять проблему, поскольку компания установила новый рекорд повышения цен со своим новым «Быстрым режимом», который стоит ошеломляющие $150 за миллион выходных токенов — буквально более чем в десять раз дороже большинства альтернатив и совершенно недоступен для большинства людей.

Сегодня мы развенчиваем миф о том, что передовой ИИ ни дёшев, ни становится дешевле, объясняя, почему это на самом деле не «вина» ИИ-лабораторий, истинную и тревожную причину того, почему цены не падают, и последствия, которые это, как я скромно полагаю, имеет для общества.


Понимание тенденций стоимости ИИ

С момента выпуска ChatGPT в ноябре 2022 года ИИ пережил пару лет интенсивной дефляции цен, до такой степени, что некоторые представители индустрии, такие как CEO Google Сундар Пичаи, предсказывали, что мы получим «интеллект, как воздух, слишком дешёвый, чтобы его считать».

В то время (конец 2024 года) цены на токены упали на 97% за последние 18 месяцев, создавая впечатление, что цены стремительно падают... к нулю.

Но было ли это на самом деле так? Нет.

И чтобы объяснить это, мы должны вернуться к самой базовой единице ИИ: токену.


Что же такое токен?

В генеративном ИИ, который поглотил не только большую часть инвестиций, но и большую часть использования ИИ в наши дни, всё измеряется в «токенах».

Токен — это просто самая базовая семантическая единица информации в модальности данных. В тексте это слова или слоги; для моделей изображений это фрагменты пикселей, для видео — фрагменты пикселей через несколько кадров и т.д.

На практике всё, что вы отправляете генеративной ИИ-модели, «токенизируется», разбивается на эти единицы информации, которые ИИ затем может обработать. Как вы можете видеть ниже, последовательность «This was such an interesting article!» разбивается на семь токенов для обработки моделью DeepSeek R1, показанных разными цветами.

8f42f203b33b7fa3a6a3be877826d9b8.png

Естественно, ответ — это также объединение токенов, которые в совокупности представляют всё взаимодействие.

Затем с вас взимается плата на основе количества входных токенов, которые вы дали модели (в данном случае семь), а также количества токенов, которые она генерирует для ответа вам.

Это кажется справедливым способом взимания платы, но правда в том, что это очень непрозрачная система, где вы не только не видите легко или не предсказываете, сколько токенов тратите, как мы увидим позже, но каждая модель и компания сильно отличаются.

Но прежде чем мы откроем этот ящик Пандоры, мы должны учесть другой основной фактор: вычисления во время инференса.


Стоимость — это результат двух факторов

Одно дело — сколько вы платите за обработанный или сгенерированный токен; другое — сколько токенов было в этом конкретном взаимодействии.

То есть, фактические доллары США или корейские воны, которые вы платите, являются результатом умножения этих единичных значений на общее количество:

(количество входных токенов × цена за миллион входных токенов) + (количество выходных токенов × цена за миллион выходных токенов) = сколько вы платите.

Это означает, что вы должны учитывать не только единичную цену, которую предлагает ваш провайдер, но и два других фактора: «болтливость модели» и «сжатие токенов».

  • Болтливость модели представляет, насколько «разговорчивы» модели. Например, Claude от Anthropic генерирует много, и я имею в виду много, токенов.

  • Сжатие токенов относится к среднему размеру токена. Если токенизатор модели разбивает последовательность на 8 токенов вместо 4, вы буквально платите вдвое больше за то же количество текста (при условии, что мы говорим о чат-ботах с равными единичными ценами).

Возвращаясь к нашему предыдущему примеру, на основе цены токена модель Gemma от Google потребовала на один токен больше для той же последовательности, чем DeepSeek R1. Это означает, что при условии, что единичные цены токенов были одинаковыми, Gemma была бы более дорогой моделью для обработки и, вероятно, более дорогой моделью для инференса, потому что она генерировала бы больше токенов в среднем на ответ.

0164ae1200d7bdba98253d60b8d2a7b4.png

Конечно, Gemma — гораздо меньшая модель и, следовательно, дешевле в обслуживании, поэтому ИИ-лаборатории назовут вам более низкую единичную цену.

Следовательно, самое простое для большинства из нас — просто покупать подписки, которые взимают с вас фиксированную ежемесячную цену, независимо от использования.

Это, конечно, тоже не честная игра, потому что если вы вообще не используете модель, с вас всё равно взимается $20/месяц или даже $200/месяц для более высоких уровней. Но если вы используете модели слишком много, они вводят «ограничение скорости», буквально не позволяя вам использовать модели больше, или они незаметно переведут вас на худшие модели.

И почему всё это важно? Потому что, если вы помните, мы говорили, что болтливые модели сильно влияют на ваши расходы. И что ж, описание современных передовых моделей как «болтливых» — это огромное преуменьшение, поскольку эти модели могут генерировать миллионы токенов за одну сессию, и в порядке от 20 до 100 раз больше токенов, чем модели, которые были, когда ChatGPT впервые вошёл в нашу жизнь.

Это потому, что ИИ-модели выигрывают от более длинных генераций токенов. То есть, поскольку им нужно «говорить, чтобы думать», чем больше они «говорят», тем больше они «думают». И чем больше они «думают», тем лучше результаты.

Это, без сомнения, основной двигатель прогресса в ИИ сегодня, что означает, что наши модели генерируют больше токенов с каждым днём.

Короче говоря, даже если единичные цены на токены продолжают падать, это падение всегда легко компенсируется резким увеличением количества генерируемых токенов.

Определённо ведутся некоторые исследования по увеличению «интеллекта на токен» у моделей (то есть, делать модели «настолько же хорошими», не будучи такими болтливыми), но они, к сожалению, затмеваются огромным количеством токенов, которые эти модели выдают каждый раз, когда вы с ними разговариваете.

Но всё это не должно иметь значения, потому что цены падают настолько, что вам действительно всё равно, правда?


Быстрый режим... или, скорее, Недоступный режим

Послушайте, я — продвинутый пользователь, когда дело доходит до ИИ. Я буквально воплощение неэластичного спроса. Я пример, который вы увидите в учебниках по экономике, человека, настолько готового платить, что вы можете плохо со мной обращаться, и я всё равно в итоге плачу.

И даже я не мог не посмотреть с ужасом, когда увидел цены на новый «Быстрый режим» от Anthropic.

С обещанием в 2,5 раза более быстрых ответов быстрый режим стоит в шесть раз дороже, чем предыдущая самая дорогая опция Claude, которая уже является самой дорогой моделью, доступной сегодня. Для сравнения, эта новая модель более чем в десять раз дороже, чем GPT-5.2.

Но правда в том, что хотя Anthropic — это исключение, это была реальность цен на ИИ уже довольно долгое время.


Миф о дефляции цен

За период 2022–2026 годов прейскурантные цены на основные API LLM с оплатой по факту использования показали ценовую модель, которая не имеет ничего общего с общим убеждением, что цены падают:

У нас были первоначальные большие ступенчатые снижения стоимости возможностей «уровня передового фронта» до середины 2024 года, но за ними последовал переход к ценовой сегментации (уровни, кэширование, пакетная обработка) и в конечном итоге выборочное повышение цен для вариантов с более высокими рассуждениями/"про".

Пример этого — переход OpenAI от первоначальной цены запуска API GPT-4 в $60 за миллион выходных токенов в марте 2023 года к $10 за миллион выходных токенов для более поздних версий GPT-4o, затем к выходу GPT-5 по $10 за миллион токенов (август 2025), а затем снова до $14 за миллион выходных токенов для GPT-5.2 (декабрь 2025).

Путь Anthropic ещё более агрессивен: в мае 2023 года опубликованный прайс-лист указывал Claude-v1 по $11,02 за миллион токенов запроса и $32,68 за миллион токенов завершения; Claude 3 Opus был запущен в марте 2024 года по $15 за миллион входных токенов и $75 за миллион выходных токенов; а текущий прайс-лист указывает Claude Opus 4.6 по $5 за миллион входных токенов и $25 за миллион выходных токенов, но теперь включая уже печально известный быстрый режим.

Единственная крупная американская лаборатория, которая показала более стабильные цены, — это xAI Илона Маска, а также китайские лаборатории, которые, что типично для китайской рыночной динамики, где продвигается гиперконкуренция, имеют жёсткую конкуренцию, которая привела к очень дешёвым ценам на токены.

Однако их нехватка вычислительных мощностей не позволяет им конкурировать на уровне продукта (например, сравнивая приложение DeepSeek с ChatGPT). Вопреки распространённому мнению, «преимущество США» определённо не на уровне моделей, где модели примерно одинакового качества, но на уровне вычислений во время инференса (позволяя им думать дольше).

Но реальный вопрос здесь, помимо необходимости Anthropic зарабатывать больше денег (они, конечно, вольны устанавливать цены, которые хотят), в том, «вынуждены» ли они устанавливать такие цены.

И ответ на это, я считаю, да, из-за того, как они это реализовали.


Магия пакетной обработки

Помимо цены, самое запутанное во всём этом то, что Anthropic внезапно выпустила модель, которая так же хороша, как более медленные модели, но гораздо быстрее.

Как?

Обычно «лучше» означает медленнее, потому что модели либо больше, либо думают дольше, так что «лучше и быстрее» не имеет особого смысла. Таким образом, наиболее вероятное объяснение — магия пакетной обработки.

То есть они отправляют ваши запросы меньшими пакетами на GPU/TPU. Позвольте объяснить.

Когда вы нажимаете «Отправить» в ChatGPT или Claude, ваш запрос отправляется на сервер XPU (группу ускорителей, таких как GPU, TPU или LPU) для обработки. Обычно ваш запрос обрабатывается вместе с запросами других пользователей.

Но почему? Что ж, ИИ-моделям требуется абсурдное количество вычислений для одного предсказания.

Я сильно упрощаю здесь, но если у вас есть плотная модель с триллионом параметров (современные передовые модели гораздо больше в наши дни, хотя разреженные), эта модель требует порядка 2×N вычислений, где N — количество активированных параметров. Следовательно, если мы предположим плотную модель, эта модель требует 2 триллиона операций для одного предсказания.

Во время инференса мы кэшируем много вычислений во время фазы декодирования (фаза, когда вы видите поток новых слов, появляющихся на вашем экране), что значительно снижает вычислительные требования. Но суть остаётся в том, что нам всё ещё нужно много вычислительной мощности для каждого предсказания.

К счастью для нас, топовые GPU в наши дни на самом деле чрезвычайно перегружены вычислениями для ИИ (самая большая причина, по которой нам нужно так много GPU, на самом деле ограничения памяти, а не вычислительные ограничения), поэтому они не только могут обработать это предсказание за доли секунды, они фактически могут делать предсказания для нескольких последовательностей параллельно, действительно быстро.

На практике это означает, что по цене одного прохода модели вперёд (вычисления, необходимые для предсказания), вы получаете десятки из них, по одному для каждой последовательности в пакете.

b9c588712d34f11600559e47bc520004.png

Что означает, что GPU NVIDIA спроектированы для распараллеливания, поэтому чем больше каждый пакет, отправленный в систему, тем выше использование оборудования.

Когда вы учитываете, что эти ускорители чрезвычайно дороги в покупке и обслуживании, важность высокого использования оборудования становится ещё более критичной для зарабатывания денег на этих инвестициях.

Однако это также подразумевает более медленную производительность, потому что матрицы (или, более технически говоря, 3D-тензоры, поскольку у нас также есть измерение пакета) больше в результате.

Простыми словами, вы можете выбрать обслуживать 50 человек одновременно вместо обслуживания одного человека за раз, но каждый человек получит свой ответ медленнее. И, как вы, вероятно, можете догадаться, в мире цифровых продуктов задержка — самый большой убийца пользовательского опыта.

Но подождите, у вас есть другой вариант. Вы можете просто... обслуживать одного клиента, но заставить его платить гораздо больше, чтобы учесть чрезвычайно маленькие размеры пакетов. Из моего ограниченного понимания (я не работаю в Anthropic), я считаю, что именно это и происходит здесь:

Anthropic предлагает вам «возможность» запустить целый сервер в основном для обслуживания вас, с преимуществом очень быстрых ответов и очень интересным обсуждением с вашим начальником в следующем месяце о ваших «счетах за ИИ».

И что всё это означает? Что ж, больше неравенства, которое не собирается улучшаться в ближайшее время, потому что основной двигатель затрат не находится под контролем этих лабораторий, боюсь, и многое раскрывает о том, что происходит за кулисами.


Проверьте возможности разных моделей ИИ

Говоря о ценах и производительности ИИ-моделей — существует способ оценить различные модели на практике, не переплачивая. Понимание того, какая модель действительно подходит для ваших задач, может сэкономить значительные средства.

Сервисы вроде BotHub дают возможность экспериментировать с различными моделями ИИ от разных провайдеров — сравнивать их скорость, качество ответов и стоимость в реальном времени. Вы можете протестировать, действительно ли вам нужна самая дорогая модель, или более доступная справится с вашими задачами не хуже.

a0fcd18c93b77cd5181f5a10897e08cb.png

Для доступа не требуется VPN, можно использовать российскую карту.


Энергия и узкие места

Скажу прямо: пока сохраняются ограничения по энергии и наценки на оборудование, ИИ останется дорогим и станет ещё дороже.

Это просто перенос затрат, или «кто получит счёт». NVIDIA взимает 4-кратную наценку по сравнению с производственными затратами по сей день, что означает, что ценник в 4 раза превышает стоимость производства GPU — мы знаем это из-за 75% валовой маржи NVIDIA.

Это ставит такие компании, как Anthropic, OpenAI или гиперскейлеры, в невозможное положение для заработка денег; они переплачивают за продукт, который также почти всегда обслуживается субоптимально (слишком долго объяснять здесь, но инференс ИИ, как известно, неэффективен в обслуживании), при этом они постоянно находятся под давлением конкуренции в том, что по сути является товарной индустрией, за исключением того, кто владеет большими вычислительными мощностями и данными.

То есть дело не в том, что сами ИИ-модели дифференцированы; это степень, в которой вы, как лаборатория, имеете необходимые вычислительные мощности для запуска этих моделей с длительными бюджетами инференса.

Невероятно, но этим лабораториям удалось запустить эти модели с довольно приличной валовой прибылью, но их капитальные затраты и расходы на исследования и разработки (R&D) убивают любую надежду на получение прибыли.

Мы знаем это в основном из проспектов китайских лабораторий Minimax и Zhipu Labs, которые недавно провели IPO. Динамика идентична, это просто «то же самое, но больше» в США.

Простыми словами, затраты на то, чтобы оставаться впереди, не позволяют им зарабатывать деньги, даже если они впереди. Проблема?

Это может только ухудшиться, поскольку спрос на услуги ИИ растёт быстрее, чем производственные мощности могут поспевать из-за энергетических ограничений.

Простыми словами, вскоре спрос на ИИ превзойдёт способность провайдеров вводить новые вычислительные мощности в эксплуатацию из-за энергетических ограничений (т.е. отсутствия мест для подключения машин, пожирающих числа).

Что приводит к моему прогнозу: топовые ИИ, лучшие возможные модели, со временем станут дороже, рискуя создать реальный разрыв между теми, кто может и кто не может себе их позволить.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.