Автор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнениАвтор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнени

[Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

82b102fb9d78f0de5422251888d2d1ca.jpg

Автор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнениями.

2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять?

Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи.

Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

c12e5b90fb441185442779d16454b731.png

Ключевые результаты исследования: очевидно, что GPT-5 и Claude Sonnet 4.5 опережают другие модели со значительным отрывом. Но даже они не справляются более чем с 40% заданий.

Чтобы понять, как мы пришли к таким выводам, необходимо разобраться, что представляет собой RL-среда и как она создаётся.

RL-среда

RL-среда (Reinforcement Learning environment) — виртуальная симуляция для обучения ИИ-агентов через пробы и ошибки с наградами/штрафами.

Каждое такое окружение включает три элемента:

  • связная модель мира — общая структура, определяющая настройки;

  • набор сущностей — объекты в мире и их взаимосвязи;

  • система инструментов — интерфейс для взаимодействия агентов с сущностями.

Мы создаем наши RL-среды не на абстрактных сценариях, а на основе опыта реальных экспертов. Для этого формируем структуру с согласованными взаимосвязями и свойствами, которую постепенно развиваем и наполняем содержанием. Это позволяет тренировать агентов в условиях, близких к реальным задачам.

Внутри Corecraft, Inc.

Одна из наших RL-сред — Corecraft, Inc. Это интернет-магазин высокопроизводительных комплектующих для ПК и готовых компьютеров. Модель мира — сама компания, а её сущности — клиенты, заказы, заявки в службу поддержки и другие записи, необходимые для работы.

Роль ИИ-агента в модели мира — специалист службы поддержки, помогающий клиентам и сотрудникам решать разные задачи: от быстрого поиска продуктов до многоэтапных рабочих процессов, требующих взаимодействия различных систем.

В RL-среде Corecraft, Inc. модели начинают обучение с простых запросов вроде «сколько возвратов было в июле 2025?».​ Но быстро переходят к более сложным задачам. Пример — обработать такой сценарий: клиент заказал игровую сборку с процессором ZentriCore Storm 6600X, платой SkyForge B550M Micro и 32 ГБ HyperVolt DDR5-5600, но инструмент validateBuildCompatibility выдает ошибку несовместимости. Модели нужно найти проблему (DDR5 и B550M несовместимы), предложить самое дешевое решение (например, DDR4) и обновить заказ через API.

Так мы изучаем работу ИИ на примере специалиста службы поддержки клиентов. Хотя ИИ-агенты чаще ассоциируются с исследованиями и разработками, их главная экономическая ценность — в решении повседневных задач. Роль специалиста поддержки включает много разнотипных заданий, поэтому идеальна, чтобы оценить базовые способности ИИ.

Иерархия агентских способностей

При анализе работы моделей в роли специалиста службы поддержки, мы заметили, что одни и те же типы сбоев повторяются снова и снова. Но не случайным образом: проблемы каждой модели, как правило, сгруппированы вокруг определенных уровней компетенции. Это значит, что существует иерархия навыков, которые агентские модели должны освоить прежде, чем они смогут работать в открытых средах.

Мы называем эту структуру иерархией агентных способностей. Ниже она представлена в виде пирамиды, на которой мы отметили, где, по нашему мнению, находится каждая ИИ-модель.

6bfcd2fa40be8b2d814d94b29b7f5b48.png

Иерархия способностей агентов, от использования инструментов до здравого смысла, и место моделей ИИ в этой иерархии

В основе лежат фундаментальные навыки: использование инструментов, постановка целей и базовое планирование. Выше них — навыки более высокого порядка, такие как адаптивность и заземлённость. Они позволяют моделям оставаться привязанными к контексту, приспосабливаясь к непредсказуемой хаотичности реальных сред. Только когда модель научится владеть этими базовыми навыками, то начнёт демонстрировать нечто похожее на здравый смысл — способность разумно рассуждать о новых ситуациях. Именно это является ключевым компонентом общего интеллекта.

Конечно, эта иерархия — условность. На практике разработка моделей нелинейная: эти способности пересекаются, усиливают друг друга и развиваются параллельно. А достижение высокого уровня владения навыками не означает совершенства: GPT-5 и Claude Sonnet 4.5 по-прежнему ошибаются в использовании базовых инструментов, так же как лучшие гольфисты иногда промахиваются с простым ударом.

Таким образом, пирамида навыков ИИ-моделей — это не жесткая система уровней. Она только позволяет понять, какие модели уже неплохо справляются с разными задачами, а каким стоит заложить базу.

Первый шаг: базовое использование инструментов, планирование и постановка целей

Самая фундаментальная основа в этой иерархии — это способность модели использовать инструменты, формулировать цели и планировать их достижение. То есть чтобы выполнить даже самую простую задачу, агент должен:

  1. разделить многошаговую задачу на мини-цели;

  2. определить подходящие инструменты для каждой мини-цели и последовательность их применения;

  3. исполнять план шаг за шагом, не сбиваясь и не забывая детали.

Модели, которые не умеют этого делать, не считаются агентами — это просто чат-боты с доступом к инструментам. На этом уровне находятся модели GPT-4o, Mistral Medium и Nova Pro. В одной из задач все три модели допускали базовые ошибки в работе с инструментами: некорректно сопоставляли информацию из запроса с аргументами для инструментов или просто неверно следовали схеме MCP (Model Context Protocol).

Задание. Найти клиентов в программах лояльности уровня «золото» или «платина» с незакрытыми обращениями в поддержку с высоким приоритетом.

Вот как с этим справились модели:

  • Nova Pro использовала значение «золото» как идентификатор клиента, хотя это всего лишь уровень лояльности, а не ID.​

    aa43c3458ee09e20877becf79af81f5f.png
  • GPT-4o корректно нашла клиентов с уровнями «золото» и «платина», но ошиблась при фильтрации обращений: вместо аргумента priority попыталась использовать значение high в поле status, хотя в схеме MCP был отдельный аргумент priority, обозначающий приоритет.​

    aebae020724db619948dda030dcf869d.png
  • Mistral Medium допустила ошибку уже при поиске клиентов, передав массив в аргумент customer_id, который по схеме MCP должен был быть строкой. Это нарушение контракта схемы.

    9de5e3eff8e913fdb4e6b9466897b6bb.png

Задание. Был объявлен отзыв продукта SkyForge X670E Pro. Нужно составить маркированный список клиентов, которые заказывали этот продукт в августе 2025 года, со статусом «выполнено», «оплачено» или «в обработке».

Правильная последовательность действий такая:

  1. Применить инструмент searchProducts, чтобы определить идентификатор продукта. Этот инструмент позволяет искать по тексту в записях о продуктах и возвращать полную информацию о продукте.

  2. Воспользоваться инструментом searchOrders, чтобы найти соответствующие заказы по этому идентификатору продукта.

  3. Убедиться, что выбраны заказы со статусом «выполнено», «оплачено» или «в обработке».

  4. Вернуть список найденных клиентов.

Nova Pro и Mistral Medium провалились уже на первом этапе: они не стали искать ID и сразу перешли ко второму шагу — передали название продукта напрямую в аргумент product_id

01630ba3c7e78ddb9de7b7509411b0ef.png

Это ошибка неправильного рассуждения о представленной в задаче информации и требованиях аргументов каждого инструмента.

Хотя точно неизвестно, как именно думали модели, их поведение указывает на то, что они выбрали единственный инструмент, который, по их мнению, дал бы окончательный ответ. А затем пытались втиснуть доступные данные в любой аргумент, который казался наиболее подходящим для этого инструмента.

Вместо этого им нужно было рассмотреть все доступные инструменты, определить, какие аргументы соответствуют вводным данным, и спланировать, как объединить эти инструменты для правильного результата.

GPT-4o справился чуть лучше и почти прошёл два первых этапа. Он нашёл идентификатор продукта:

d578af672b1e50a12384d4086b4b7658.png

И начал искать заказы:

54878ad1fd6e23beafbf3acedd2fb887.png

Однако он искал только заказы со статусом fulfilled(«выполнено»), полностью забыв про paid(«оплачено») и pending(«в обработке»). Это ещё одна простая ошибка планирования, при которой упускаются важные мини-цели.

Конечно, это только несколько примеров. Существует бесчисленное множество способов неправильно использовать инструменты, сформировать и выполнить план. Но такие базовые ошибки характерны для моделей, которые не обучены агентному поведению.

Пока модели не могут рассуждать о работе с инструментами и разбивать простые задачи на мини-цели, оценивать их общие способности к рассуждению в агентных контекстах — пустая трата времени.

Адаптивность — план сталкивается с реальностью

Предположим, модель хорошо планирует последовательность действий. Но в реальности инструмент может вернуть неожиданную ошибку — например, API недоступен или данные неполные. В этом случае важна адаптивность: модель должна проанализировать, что произошло, изменить план и применить альтернативное решение — уточняющий запрос или другой инструмент.

Такие тесты часто проваливали модели Gemini 2.5 и Qwen 3. Они начинали с логичной цепочки вызовов (searchCustomerssearchOrdersvalidateBuild), но при ошибках вроде invalid product ID не корректировали план, а продолжали слепо ему следовать и допускали ошибку.

Задание. Обработать обращение: «Привет, это Пенни Уиткомб. Я хочу обновить свою видеокарту и обычно выбираю Vortex Labs. Могли бы вы проверить, совместимы ли RX820L или RX780 с деталями из моего последнего заказа, и сообщить цену для каждой?».

Правильный рабочий процесс был таким:

  1. С помощью инструмента searchCustomers определить уровень лояльности Пенни (для расчета скидки) и ID клиента (для поиска прошлых заказов).

  2. Использовать инструмент searchOrders, чтобы найти продукты, которые Пенни заказала ранее.

  3. Применить инструмент searchProducts, чтобы найти идентификаторы видеокарт Vortex Labs.

  4. Проверить совместимость новых видеокарт с продуктами, которые Пенни купила ранее, используя инструмент validateBuildCompatibility.

Модели Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max справились с последовательностью вызова инструментов. Но когда они дошли до третьего шага, то столкнулись с одной и той же проблемой — не получили никаких результатов при поиске видеокарт.

4e79b4b044be21bec5243b0d4e4fc931.png6349df9e9dd284cff6ae3e383099c07f.png

Причина оказалась простой: в качестве значения для аргумента «brand» они использовали название «Vortex Labs». На самом деле, бренд в системе был записан как «VortexLabs» — без пробела.

3477d2580af0fe9228e0bc17307d32a4.png

Модели не могли знать об этом заранее. Но проблема заключается в том, что произошло дальше.

Вместо того, чтобы осознать ошибку и изменить стратегию, Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max приняли пустой результат за истину и сообщили, что этих видеокарт нет в продаже в магазине Corecraft.

Модель Claude Sonnet 4.5 столкнулась с той же проблемой, но адаптировалась к проблеме и попробовала разные подходы к поиску на лету.

6200d9a7873b33a77ceef87150c452dc.png5f78532450964df12056ae8357ed123f.png35faf8ca920ad881dd974853790521d4.png


В итоге: более слабые модели, имея верный план, слепо придерживались его. А в реальных задачах всё редко идёт точно по плану с первой попытки, поэтому важно уметь адаптироваться и пробовать разные подходы — именно так поступил бы человек.

Заземлённость — способность сохранять связь с реальностью

Заземлённость означает способность модели сохранять связь с контекстом, не галлюцинировать и не придумывать факты.

Например, Kimi K2 Turbo лучше справилась с задачами, связанными с планированием и адаптивностью, чем Qwen 3 Max и модели Gemini. Но при выполнении заданий у неё возникли серьёзные проблемы с удержанием контекста.

Например, в самом первом предложении системного запроса говорится:

978400dd9646e1fae9c725f9201ef787.png

Несмотря на это Kimi часто указывала неправильный год в вызовах инструментов. Когда её просили найти заказы за период с 25 по 31 августа, Kimi искала заказы за 2024 год:

6d15e4ad9ce84d769753d9804e153435.png

Затем в своём итоговом ответе Kimi снова переключилась на 2025 год!

4761686eeb98cc033c86ce18b4a4c460.png

Claude Sonnet 4.5 показал впечатляющие результаты в целом. Но и эта модель теряла связь с реальностью, и это стало одним из главных её отличий от GPT-5. Например, Claude нужно было найти данные клиентов, которые заказывали продукты до 30 сентября, при этом товары ещё не были отправлены.

Модель правильно нашла один из соответствующих заказов:

df97fe5c269e1fade2a326b0d5f06c99.png

Затем Claude попытался найти данные клиента, используя придуманный адрес электронной почты.

b7399df3ff5d7cd655e8811126cc56d3.png

Когда это не сработало, Claude всё-таки сумел скорректировать свой подход, ещё раз продемонстрировав очень хорошую адаптивность.

3f0674012e3b401c6f6ca01966912dcd.png

Получается, Claude хорошо адаптируется к ошибкам, но теряет связь с контекстом, что зачастую критично для агентной работы.

Так, более тонкие проблемы с привязкой к реальности труднее обнаружить, и в некоторых случаях они могут пройти незамеченными в итоговом ответе. Claude попросили найти обращения в поддержку и указать их уровень приоритета. Он правильно вызвал инструмент для поиска всех обращений с приоритетом «normal».

51dd9b474c048317b3198757421fb8b4.png

В списке обращений модели появились два обращения:

1b67ba8bec3d94e612b7e75cb128ad50.png

Оба были явно помечены как приоритет уровня «normal». Но Claude не отразил это в итоговом ответе:

0527acef92bd49342745745c31d5fee4.png

Модель не только неправильно отнесла эти обращения к категории high priority, но и повторила их в разделе normal priority, отметив, что они уже присутствуют среди обращений с высоким приоритетом. Такой ответ не соответствует контексту и не является последовательным.

Рассуждения на основе здравого смысла

Если модель умеет правильно использовать инструменты, эффективно планировать, корректировать планы, а также оставаться в контексте задачи и окружения, её от человека отделяет лишь здравый смысл — способность действовать в незнакомой ситуации.

В этом испытании именно неумение здраво рассуждать стали главной причиной отставания GPT-5 от человеческого уровня. Вот один из примеров провала модели.

Задание. Определить, какие обращения в поддержку, помеченные как other («другие»), следует переклассифицировать в категорию returns(«возврат»).

GPT-5 правильно вызвал инструменты, чтобы найти такие обращения, включая следующее:

Привет, приношу свои извинения, но мне потребуется возврат средств. Мой сын взял мою карту без моего разрешения и совершил эту покупку. Я не заметила этого, пока посылка не пришла несколько часов назад. Мне срочно нужны эти деньги. Вы можете мне помочь?».
Привет, приношу свои извинения, но мне потребуется возврат средств. Мой сын взял мою карту без моего разрешения и совершил эту покупку. Я не заметила этого, пока посылка не пришла несколько часов назад. Мне срочно нужны эти деньги. Вы можете мне помочь?».

Этот тикет следует переклассифицировать. Клиент просит вернуть деньги, значит, обращение — возврат или отмена. Однако фраза «the package showed up a few hours ago» («пока посылка не пришла несколько часов назад») содержит ключевую подсказку: клиент уже получил товар. Эта деталь однозначно указывает на возврат.

Но GPT-5 не смог сделать такого вывода.Модель собрала правильную информацию, но не связала факты и не включила этот тикет в итоговый ответ. Всё потому, что для понимания причины требуется немного здравого смысла.

Другой пример, где GPT-5 провалился из-за проблем с рассуждением — определение клиентов, которые относятся к конкретной категории. 

Задание. Искать клиентов, которые покупают GPU, предсобранные ПК с GPU и продукты, упоминающие игры.

Разумно было бы выделить игровые товары (например, GPU) и товары с упоминанием игр в описании. А затем — найти все заказы за август с этими товарами.

Но GPT-5 выбрал неэффективный путь: он перелистывал все заказы августа день за днём (searchOrders («2024-08-01»), searchOrders («2024-08-02») и т.д. до 31-го), чтобы обойти лимит в 100 результатов на запрос. Это искусственное ограничение API симулятора, моделированное под реальные системы поиска. Это искусственное ограничение API симулятора, которое имитирует пагинацию в реальных enterprise-системах и позволяет предотвратить перегрузку.

8419d533963a21f4dd9bb5ac88d8f44d.pnge644d03348353d2261337a8bd795a0ab.png

Затем GPT-5 использовал инструмент getProduct для поиска конкретных продуктов в этих заказах, чтобы получить дополнительные детали и определить, связаны ли они с играми.

Модель не просматривала каждый товар по отдельности, а пыталась угадать, что связано с играми, просто по названию продукта. Она искала только товары, у которых в идентификаторе есть подстроки вроде graph или gaming, и из‑за этого пропускала часть релевантных позиций.​

Claude применял тот же подход и сталкивался с теми же ошибками. GPT-5 действовал более последовательно и строго следовал выбранному плану, но сам план был неудачным и слабо соотносился с задачей.

А вот пример, когда GPT-5 неправильно понял задачу, чего можно было бы избежать с помощью здравого смысла.

Задание. Модели предложили обращение клиента: «У меня наблюдаются просадки кадров в играх, поэтому я хочу обновить видеокарту. Какую видеокарту самого высокого класса я могу купить менее, чем за 900 долларов? Укажите цену и все характеристики. Имя в моей учётной записи должно быть указано как Сара Ким».

GPT-5, хотя и получил верную информацию о продуктах, не проверил историю клиента Сары Ким на предмет её уровня лояльности и индивидуальных цен. Вместо этого он ответил информацией общего характера о политике компании:

До применения программы лояльности; ваша скидка с учётом уровня, если применимо, будет автоматически учтена при оформлении заказа
До применения программы лояльности; ваша скидка с учётом уровня, если применимо, будет автоматически учтена при оформлении заказа

Корень проблемы прост: модель не смогла сделать вывод, что Сара Ким — это клиент.
Она восприняла фразу «Моё имя в моей учетной записи должно быть указано как Сара Ким» как инструкцию изменить имя в аккаунте, а не как указание на личность запрашивающего:

Относительно вашего запроса на изменение имени аккаунта: я не могу напрямую изменять данные аккаунта. Чтобы обновить имя в вашем аккаунте на “Sarah Kim”, пожалуйста, свяжитесь с нашей службой поддержки
Относительно вашего запроса на изменение имени аккаунта: я не могу напрямую изменять данные аккаунта. Чтобы обновить имя в вашем аккаунте на “Sarah Kim”, пожалуйста, свяжитесь с нашей службой поддержки

Это предложение само по себе неоднозначно. Но смысл становится ясен в контексте, и модель могла бы разрешить эту неоднозначность, используя доступные инструменты. Например, применить некоторое здравое рассуждение:

  • Клиент не предоставил никаких других данных для поиска своей записи.

  • Использование инструмента searchCustomers могло бы выявить существующего клиента с именем «Sarah Kim».

  • Изменение имени в аккаунте было бы полностью не связано с остальной задачей, в то время как поиск уровня лояльности актуален для определения цены, о которой запрашивал клиент.

Всё это должно было прояснить правильную интерпретацию. Опять же, это не ошибка стратегии или исполнения, а просто неспособность здраво рассуждать в рамках окружения и контекста задачи.

Итак, означает ли это, что GPT-5 уже близок к уровню человека?

Возможно, схема в первом разделе была не совсем точной. На самом деле, скорее всего, всё выглядит примерно так:

6a9f41cb53dfe5b2220428b856578b05.png

Владение первыми четырьмя уровнями не означает, что ИИ-модель достигла человеческого уровня и способна компетентно действовать в реальном мире. Скорее, это базовый набор способностей: без них бессмысленно оценивать, как модель применяет здравый смысл в реальных ситуациях.

При этом здравый смысл — это то, что пока нельзя чётко определить, но легко заметить, когда его не хватает. Будет ли он набором идентифицируемых и обучаемых поднавыков или возникшим свойством масштабного обучения на реальных данных — покажет время. Узнать это — задача следующего этапа развития ИИ.

2025 год, объявленный годом агентов, не означает, что именно в этом году мы получили универсальные мощные модели для работы. Скорее, это год появления агентов, которые могут достаточно последовательно действовать, чтобы мы могли начать анализировать и обсуждать их здравое мышление.

Дальше предстоит задача обучения и анализа интеллекта систем, быстро приближающихся к нашему собственному. Сколько времени потребуется, чтобы сократить этот разрыв, — открытый вопрос.


НЛО прилетело и оставило здесь промокод для читателей нашего блога:

-15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.

Источник

Возможности рынка
Логотип SURGE
SURGE Курс (SURGE)
$0.03621
$0.03621$0.03621
-5.82%
USD
График цены SURGE (SURGE) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Кит Shiba Inu с 16,4% от общего предложения нарушает многолетнее молчание

Кит Shiba Inu с 16,4% от общего предложения нарушает многолетнее молчание

Давно неактивный кошелек Shiba Inu, за которым наблюдатели on-chain следят с первых дней существования мем-коина, снова дал о себе знать на рынке — на этот раз отправив крупную
Поделиться
Bitcoinist2025/12/19 05:00
Материнская компания NYSE рассматривает возможность инвестирования в криптовалютную компанию MoonPay: отчет

Материнская компания NYSE рассматривает возможность инвестирования в криптовалютную компанию MoonPay: отчет

Intercontinental Exchange ведет переговоры об инвестициях в криптоплатежную платформу MoonPay Intercontinental Exchange (ICE), материнская компания Нью-Йоркской фондовой биржи
Поделиться
Crypto Breaking News2025/12/19 05:32
Прогноз цены Ethereum (ETH): нисходящий клин сигнализирует о прорыве к 4,4 тыс. $

Прогноз цены Ethereum (ETH): нисходящий клин сигнализирует о прорыве к 4,4 тыс. $

Вкратце: Цена Ethereum защищает ключевую поддержку $2 800–$2 845 после резкой коррекции. Волна ликвидаций снижает кредитное плечо, сигнализируя о сбросе настроений. Паттерн нисходящий клин
Поделиться
Coincentral2025/12/19 05:24