БиржаDEX+

Купить крипто Рынки Спотовая Фьючерсы500X Сбережения Мероприятия

Еще

Автор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнениАвтор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнени

[Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

Автор: ProBlockChain

Источник: ProBlockChain

2025/12/18 13:00

SURGE$0.03621-5.01%

AI$0.03403-4.75%

Автор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнениями.

2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять?

Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи.

Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

Ключевые результаты исследования: очевидно, что GPT-5 и Claude Sonnet 4.5 опережают другие модели со значительным отрывом. Но даже они не справляются более чем с 40% заданий.

Чтобы понять, как мы пришли к таким выводам, необходимо разобраться, что представляет собой RL-среда и как она создаётся.

RL-среда

RL-среда (Reinforcement Learning environment) — виртуальная симуляция для обучения ИИ-агентов через пробы и ошибки с наградами/штрафами.

Каждое такое окружение включает три элемента:

связная модель мира — общая структура, определяющая настройки;
набор сущностей — объекты в мире и их взаимосвязи;
система инструментов — интерфейс для взаимодействия агентов с сущностями.

Мы создаем наши RL-среды не на абстрактных сценариях, а на основе опыта реальных экспертов. Для этого формируем структуру с согласованными взаимосвязями и свойствами, которую постепенно развиваем и наполняем содержанием. Это позволяет тренировать агентов в условиях, близких к реальным задачам.

Внутри Corecraft, Inc.

Одна из наших RL-сред — Corecraft, Inc. Это интернет-магазин высокопроизводительных комплектующих для ПК и готовых компьютеров. Модель мира — сама компания, а её сущности — клиенты, заказы, заявки в службу поддержки и другие записи, необходимые для работы.

Роль ИИ-агента в модели мира — специалист службы поддержки, помогающий клиентам и сотрудникам решать разные задачи: от быстрого поиска продуктов до многоэтапных рабочих процессов, требующих взаимодействия различных систем.

В RL-среде Corecraft, Inc. модели начинают обучение с простых запросов вроде «сколько возвратов было в июле 2025?». Но быстро переходят к более сложным задачам. Пример — обработать такой сценарий: клиент заказал игровую сборку с процессором ZentriCore Storm 6600X, платой SkyForge B550M Micro и 32 ГБ HyperVolt DDR5-5600, но инструмент validateBuildCompatibility выдает ошибку несовместимости. Модели нужно найти проблему (DDR5 и B550M несовместимы), предложить самое дешевое решение (например, DDR4) и обновить заказ через API.

Так мы изучаем работу ИИ на примере специалиста службы поддержки клиентов. Хотя ИИ-агенты чаще ассоциируются с исследованиями и разработками, их главная экономическая ценность — в решении повседневных задач. Роль специалиста поддержки включает много разнотипных заданий, поэтому идеальна, чтобы оценить базовые способности ИИ.

Иерархия агентских способностей

При анализе работы моделей в роли специалиста службы поддержки, мы заметили, что одни и те же типы сбоев повторяются снова и снова. Но не случайным образом: проблемы каждой модели, как правило, сгруппированы вокруг определенных уровней компетенции. Это значит, что существует иерархия навыков, которые агентские модели должны освоить прежде, чем они смогут работать в открытых средах.

Мы называем эту структуру иерархией агентных способностей. Ниже она представлена в виде пирамиды, на которой мы отметили, где, по нашему мнению, находится каждая ИИ-модель.

Иерархия способностей агентов, от использования инструментов до здравого смысла, и место моделей ИИ в этой иерархии

В основе лежат фундаментальные навыки: использование инструментов, постановка целей и базовое планирование. Выше них — навыки более высокого порядка, такие как адаптивность и заземлённость. Они позволяют моделям оставаться привязанными к контексту, приспосабливаясь к непредсказуемой хаотичности реальных сред. Только когда модель научится владеть этими базовыми навыками, то начнёт демонстрировать нечто похожее на здравый смысл — способность разумно рассуждать о новых ситуациях. Именно это является ключевым компонентом общего интеллекта.

Конечно, эта иерархия — условность. На практике разработка моделей нелинейная: эти способности пересекаются, усиливают друг друга и развиваются параллельно. А достижение высокого уровня владения навыками не означает совершенства: GPT-5 и Claude Sonnet 4.5 по-прежнему ошибаются в использовании базовых инструментов, так же как лучшие гольфисты иногда промахиваются с простым ударом.

Таким образом, пирамида навыков ИИ-моделей — это не жесткая система уровней. Она только позволяет понять, какие модели уже неплохо справляются с разными задачами, а каким стоит заложить базу.

Первый шаг: базовое использование инструментов, планирование и постановка целей

Самая фундаментальная основа в этой иерархии — это способность модели использовать инструменты, формулировать цели и планировать их достижение. То есть чтобы выполнить даже самую простую задачу, агент должен:

разделить многошаговую задачу на мини-цели;
определить подходящие инструменты для каждой мини-цели и последовательность их применения;
исполнять план шаг за шагом, не сбиваясь и не забывая детали.

Модели, которые не умеют этого делать, не считаются агентами — это просто чат-боты с доступом к инструментам. На этом уровне находятся модели GPT-4o, Mistral Medium и Nova Pro. В одной из задач все три модели допускали базовые ошибки в работе с инструментами: некорректно сопоставляли информацию из запроса с аргументами для инструментов или просто неверно следовали схеме MCP (Model Context Protocol).

Задание. Найти клиентов в программах лояльности уровня «золото» или «платина» с незакрытыми обращениями в поддержку с высоким приоритетом.

Вот как с этим справились модели:

Nova Pro использовала значение «золото» как идентификатор клиента, хотя это всего лишь уровень лояльности, а не ID.
GPT-4o корректно нашла клиентов с уровнями «золото» и «платина», но ошиблась при фильтрации обращений: вместо аргумента priority попыталась использовать значение high в поле status, хотя в схеме MCP был отдельный аргумент priority, обозначающий приоритет.
Mistral Medium допустила ошибку уже при поиске клиентов, передав массив в аргумент customer_id, который по схеме MCP должен был быть строкой. Это нарушение контракта схемы.

Задание. Был объявлен отзыв продукта SkyForge X670E Pro. Нужно составить маркированный список клиентов, которые заказывали этот продукт в августе 2025 года, со статусом «выполнено», «оплачено» или «в обработке».

Правильная последовательность действий такая:

Применить инструмент searchProducts, чтобы определить идентификатор продукта. Этот инструмент позволяет искать по тексту в записях о продуктах и возвращать полную информацию о продукте.
Воспользоваться инструментом searchOrders, чтобы найти соответствующие заказы по этому идентификатору продукта.
Убедиться, что выбраны заказы со статусом «выполнено», «оплачено» или «в обработке».
Вернуть список найденных клиентов.

Nova Pro и Mistral Medium провалились уже на первом этапе: они не стали искать ID и сразу перешли ко второму шагу — передали название продукта напрямую в аргумент product_id

Это ошибка неправильного рассуждения о представленной в задаче информации и требованиях аргументов каждого инструмента.

Хотя точно неизвестно, как именно думали модели, их поведение указывает на то, что они выбрали единственный инструмент, который, по их мнению, дал бы окончательный ответ. А затем пытались втиснуть доступные данные в любой аргумент, который казался наиболее подходящим для этого инструмента.

Вместо этого им нужно было рассмотреть все доступные инструменты, определить, какие аргументы соответствуют вводным данным, и спланировать, как объединить эти инструменты для правильного результата.

GPT-4o справился чуть лучше и почти прошёл два первых этапа. Он нашёл идентификатор продукта:

И начал искать заказы:

Однако он искал только заказы со статусом fulfilled(«выполнено»), полностью забыв про paid(«оплачено») и pending(«в обработке»). Это ещё одна простая ошибка планирования, при которой упускаются важные мини-цели.

Конечно, это только несколько примеров. Существует бесчисленное множество способов неправильно использовать инструменты, сформировать и выполнить план. Но такие базовые ошибки характерны для моделей, которые не обучены агентному поведению.

Пока модели не могут рассуждать о работе с инструментами и разбивать простые задачи на мини-цели, оценивать их общие способности к рассуждению в агентных контекстах — пустая трата времени.

Адаптивность — план сталкивается с реальностью

Предположим, модель хорошо планирует последовательность действий. Но в реальности инструмент может вернуть неожиданную ошибку — например, API недоступен или данные неполные. В этом случае важна адаптивность: модель должна проанализировать, что произошло, изменить план и применить альтернативное решение — уточняющий запрос или другой инструмент.

Такие тесты часто проваливали модели Gemini 2.5 и Qwen 3. Они начинали с логичной цепочки вызовов (searchCustomers→ searchOrders→ validateBuild), но при ошибках вроде invalid product ID не корректировали план, а продолжали слепо ему следовать и допускали ошибку.

Задание. Обработать обращение: «Привет, это Пенни Уиткомб. Я хочу обновить свою видеокарту и обычно выбираю Vortex Labs. Могли бы вы проверить, совместимы ли RX820L или RX780 с деталями из моего последнего заказа, и сообщить цену для каждой?».

Правильный рабочий процесс был таким:

С помощью инструмента searchCustomers определить уровень лояльности Пенни (для расчета скидки) и ID клиента (для поиска прошлых заказов).
Использовать инструмент searchOrders, чтобы найти продукты, которые Пенни заказала ранее.
Применить инструмент searchProducts, чтобы найти идентификаторы видеокарт Vortex Labs.
Проверить совместимость новых видеокарт с продуктами, которые Пенни купила ранее, используя инструмент validateBuildCompatibility.

Модели Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max справились с последовательностью вызова инструментов. Но когда они дошли до третьего шага, то столкнулись с одной и той же проблемой — не получили никаких результатов при поиске видеокарт.

Причина оказалась простой: в качестве значения для аргумента «brand» они использовали название «Vortex Labs». На самом деле, бренд в системе был записан как «VortexLabs» — без пробела.

Модели не могли знать об этом заранее. Но проблема заключается в том, что произошло дальше.

Вместо того, чтобы осознать ошибку и изменить стратегию, Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max приняли пустой результат за истину и сообщили, что этих видеокарт нет в продаже в магазине Corecraft.

Модель Claude Sonnet 4.5 столкнулась с той же проблемой, но адаптировалась к проблеме и попробовала разные подходы к поиску на лету.

В итоге: более слабые модели, имея верный план, слепо придерживались его. А в реальных задачах всё редко идёт точно по плану с первой попытки, поэтому важно уметь адаптироваться и пробовать разные подходы — именно так поступил бы человек.

Заземлённость — способность сохранять связь с реальностью

Заземлённость означает способность модели сохранять связь с контекстом, не галлюцинировать и не придумывать факты.

Например, Kimi K2 Turbo лучше справилась с задачами, связанными с планированием и адаптивностью, чем Qwen 3 Max и модели Gemini. Но при выполнении заданий у неё возникли серьёзные проблемы с удержанием контекста.

Например, в самом первом предложении системного запроса говорится:

Несмотря на это Kimi часто указывала неправильный год в вызовах инструментов. Когда её просили найти заказы за период с 25 по 31 августа, Kimi искала заказы за 2024 год:

Затем в своём итоговом ответе Kimi снова переключилась на 2025 год!

Claude Sonnet 4.5 показал впечатляющие результаты в целом. Но и эта модель теряла связь с реальностью, и это стало одним из главных её отличий от GPT-5. Например, Claude нужно было найти данные клиентов, которые заказывали продукты до 30 сентября, при этом товары ещё не были отправлены.

Модель правильно нашла один из соответствующих заказов:

Затем Claude попытался найти данные клиента, используя придуманный адрес электронной почты.

Когда это не сработало, Claude всё-таки сумел скорректировать свой подход, ещё раз продемонстрировав очень хорошую адаптивность.

Получается, Claude хорошо адаптируется к ошибкам, но теряет связь с контекстом, что зачастую критично для агентной работы.

Так, более тонкие проблемы с привязкой к реальности труднее обнаружить, и в некоторых случаях они могут пройти незамеченными в итоговом ответе. Claude попросили найти обращения в поддержку и указать их уровень приоритета. Он правильно вызвал инструмент для поиска всех обращений с приоритетом «normal».

В списке обращений модели появились два обращения:

Оба были явно помечены как приоритет уровня «normal». Но Claude не отразил это в итоговом ответе:

Модель не только неправильно отнесла эти обращения к категории high priority, но и повторила их в разделе normal priority, отметив, что они уже присутствуют среди обращений с высоким приоритетом. Такой ответ не соответствует контексту и не является последовательным.

Рассуждения на основе здравого смысла

Если модель умеет правильно использовать инструменты, эффективно планировать, корректировать планы, а также оставаться в контексте задачи и окружения, её от человека отделяет лишь здравый смысл — способность действовать в незнакомой ситуации.

В этом испытании именно неумение здраво рассуждать стали главной причиной отставания GPT-5 от человеческого уровня. Вот один из примеров провала модели.

Задание. Определить, какие обращения в поддержку, помеченные как other («другие»), следует переклассифицировать в категорию returns(«возврат»).

GPT-5 правильно вызвал инструменты, чтобы найти такие обращения, включая следующее:

Привет, приношу свои извинения, но мне потребуется возврат средств. Мой сын взял мою карту без моего разрешения и совершил эту покупку. Я не заметила этого, пока посылка не пришла несколько часов назад. Мне срочно нужны эти деньги. Вы можете мне помочь?».

Этот тикет следует переклассифицировать. Клиент просит вернуть деньги, значит, обращение — возврат или отмена. Однако фраза «the package showed up a few hours ago» («пока посылка не пришла несколько часов назад») содержит ключевую подсказку: клиент уже получил товар. Эта деталь однозначно указывает на возврат.

Но GPT-5 не смог сделать такого вывода.Модель собрала правильную информацию, но не связала факты и не включила этот тикет в итоговый ответ. Всё потому, что для понимания причины требуется немного здравого смысла.

Другой пример, где GPT-5 провалился из-за проблем с рассуждением — определение клиентов, которые относятся к конкретной категории. 

Задание. Искать клиентов, которые покупают GPU, предсобранные ПК с GPU и продукты, упоминающие игры.

Разумно было бы выделить игровые товары (например, GPU) и товары с упоминанием игр в описании. А затем — найти все заказы за август с этими товарами.

Но GPT-5 выбрал неэффективный путь: он перелистывал все заказы августа день за днём (searchOrders («2024-08-01»), searchOrders («2024-08-02») и т.д. до 31-го), чтобы обойти лимит в 100 результатов на запрос. Это искусственное ограничение API симулятора, моделированное под реальные системы поиска. Это искусственное ограничение API симулятора, которое имитирует пагинацию в реальных enterprise-системах и позволяет предотвратить перегрузку.

Затем GPT-5 использовал инструмент getProduct для поиска конкретных продуктов в этих заказах, чтобы получить дополнительные детали и определить, связаны ли они с играми.

Модель не просматривала каждый товар по отдельности, а пыталась угадать, что связано с играми, просто по названию продукта. Она искала только товары, у которых в идентификаторе есть подстроки вроде graph или gaming, и из‑за этого пропускала часть релевантных позиций.

Claude применял тот же подход и сталкивался с теми же ошибками. GPT-5 действовал более последовательно и строго следовал выбранному плану, но сам план был неудачным и слабо соотносился с задачей.

А вот пример, когда GPT-5 неправильно понял задачу, чего можно было бы избежать с помощью здравого смысла.

Задание. Модели предложили обращение клиента: «У меня наблюдаются просадки кадров в играх, поэтому я хочу обновить видеокарту. Какую видеокарту самого высокого класса я могу купить менее, чем за 900 долларов? Укажите цену и все характеристики. Имя в моей учётной записи должно быть указано как Сара Ким».

GPT-5, хотя и получил верную информацию о продуктах, не проверил историю клиента Сары Ким на предмет её уровня лояльности и индивидуальных цен. Вместо этого он ответил информацией общего характера о политике компании:

До применения программы лояльности; ваша скидка с учётом уровня, если применимо, будет автоматически учтена при оформлении заказа

Корень проблемы прост: модель не смогла сделать вывод, что Сара Ким — это клиент.
Она восприняла фразу «Моё имя в моей учетной записи должно быть указано как Сара Ким» как инструкцию изменить имя в аккаунте, а не как указание на личность запрашивающего:

Относительно вашего запроса на изменение имени аккаунта: я не могу напрямую изменять данные аккаунта. Чтобы обновить имя в вашем аккаунте на “Sarah Kim”, пожалуйста, свяжитесь с нашей службой поддержки

Это предложение само по себе неоднозначно. Но смысл становится ясен в контексте, и модель могла бы разрешить эту неоднозначность, используя доступные инструменты. Например, применить некоторое здравое рассуждение:

Клиент не предоставил никаких других данных для поиска своей записи.
Использование инструмента searchCustomers могло бы выявить существующего клиента с именем «Sarah Kim».
Изменение имени в аккаунте было бы полностью не связано с остальной задачей, в то время как поиск уровня лояльности актуален для определения цены, о которой запрашивал клиент.

Всё это должно было прояснить правильную интерпретацию. Опять же, это не ошибка стратегии или исполнения, а просто неспособность здраво рассуждать в рамках окружения и контекста задачи.

Итак, означает ли это, что GPT-5 уже близок к уровню человека?

Возможно, схема в первом разделе была не совсем точной. На самом деле, скорее всего, всё выглядит примерно так:

Владение первыми четырьмя уровнями не означает, что ИИ-модель достигла человеческого уровня и способна компетентно действовать в реальном мире. Скорее, это базовый набор способностей: без них бессмысленно оценивать, как модель применяет здравый смысл в реальных ситуациях.

При этом здравый смысл — это то, что пока нельзя чётко определить, но легко заметить, когда его не хватает. Будет ли он набором идентифицируемых и обучаемых поднавыков или возникшим свойством масштабного обучения на реальных данных — покажет время. Узнать это — задача следующего этапа развития ИИ.

2025 год, объявленный годом агентов, не означает, что именно в этом году мы получили универсальные мощные модели для работы. Скорее, это год появления агентов, которые могут достаточно последовательно действовать, чтобы мы могли начать анализировать и обсуждать их здравое мышление.

Дальше предстоит задача обучения и анализа интеллекта систем, быстро приближающихся к нашему собственному. Сколько времени потребуется, чтобы сократить этот разрыв, — открытый вопрос.

НЛО прилетело и оставило здесь промокод для читателей нашего блога:

-15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.

Источник

Возможности рынка

SURGE Курс (SURGE)

$0.03621

$0.03621$0.03621

-5.82%

USD

График цены SURGE (SURGE) в реальном времени

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.