Компании спускают миллиарды на хайповые инструменты разработки, надеясь купить «волшебную таблетку», но вместо неё получают лишь неконтролируемый хаос в процессах.
Меня зовут Юля, я Head of PM в Surf, и мне надоело верить в сказки про всемогущие нейросети. Мы взяли секундомер и устроили жёсткий тест четырём нашим производственным направлениям: мобилке на Native и Flutter, аналитике и QA. Дали ребятам доступ в Cursor и Claude Code, чтобы вытащить на свет реальные цифры. По итогу — разрыв между цифрами и действительностью оказался шокирующим.
В этой статье я выверну нашу внутреннюю кухню. Вы узнаете:
Почему 80% команд выдают желаемое за действительное, когда оценивают потенциал ИИ для своего стека.
Как тестировщики внезапно обогнали разработчиков по эффективности использования нейросетей.
Три подлых фактора, которые прямо сейчас превращают твой ИИ из драйвера роста в тяжёлую обузу.
Торжественно клянёмся, что замышляем только шалость — давайте разбираться.
Закономерность по каждому отделу такая: успех зависит не от мощности купленной нейросети, а от того, насколько не стыдно за ваши текущие процессы. Чтобы не мерить эффективность на глаз, мы прогнали показатели всех направлений через единую безжалостную систему координат:
1. Тип деятельности
Мы не стали слепо кидать ИИ в команду в надежде на чудо, а чётко разделили задачи на три трека, избавившись от хаоса. Всю унылую рутину — от сбора тест-кейсов и Use Cases до написания бойлерплейтов — скинули на генерацию, инфраструктурные задачи отдали на автоматизацию, а на десерт оставили умное ассистирование, заставив алгоритмы самостоятельно ковыряться в логах, рефакторить код и делать выжимки из Merge Requests.
2. Диапазон ускорения
Чтобы не обманывать себя и коллег в обсчете метрик, мы внедрили три фильтра: прямое столкновение оценки в Jira с реальностью (что продемонстрировало честные x4 в аналитике), взвешенную оценку спринтов (ведь ИИ пока не умеет сидеть за тебя на созвонах) и правило «чистого времени». Последнее стало самым больным для рынка: мы считаем задачу закрытой, только когда разраб вычистил все галлюцинации нейросети — именно так мы доказали, что на сложной отладке в Native-разработке ИИ не ускоряет процесс, а уводит команду в минус.
3. Условия эффективности
Наш аудит разнёс в щепки иллюзию, что доступ к платному Cursor моментально отправит разработку в космос — нейросети дают буст только при соблюдении трёх жёстких условий. Вам понадобится тотальная шаблонизация (QA и аналитика дали иксы только за счёт строгих структур, а хаос в паттернах Native умножил пользу ИИ на ноль), идеальные спецификации по принципу «мусор на входе — мусор на выходе», и главное — доступ к ИИ только для уверенных мидлов и сеньоров, иначе джуны радостно утащат в прод некачественный код, потратив ваши бюджеты на багфиксы.
4. Красные линии
Мы выделили зоны, куда ИИ пускать нельзя или можно только под строгим надзором.
Риск галлюцинаций в Research & Debug. В iOS/Android разработке попытка делегировать ИИ поиск причин сложных багов или проблем производительности часто ведет к потере времени. ИИ может выдумать несуществующие методы API или причины краша.
Потеря контекста. В анализе детальные ТЗ по экранным формам и интерфейсам быстрее писать вручную. ИИ плохо удерживает визуальный контекст и логику сложных UI-взаимодействий.
У QA же планирование тестирования, приемочное тестирование и функциональные проверки требуют понимания бизнес-контекста и атмосферы на проекте, что недоступно нейросети.
Иллюзия готового решения. Любой артефакт (код, User Story, тест), созданный ИИ, является черновиком. Попытка использовать его без ревью — прямой путь к техническому долгу и багам на проде.
Давайте будем честны: бизнесу не интересно, сколько токенов в секунду генерирует модель. Бизнесу нужен ответ на один вопрос: «где мы реально ускоряем time-to-market, а где просто сжигаем бюджет на эксперименты?».
Мы построили матрицу, которая позволяет четко разделить процессы на две категории:
Высокая готовность — направления с подтвержденным ROI, где внедрение ИИ напрямую сокращает себестоимость и сроки.
Готовность с оговорками — области, где риски потери качества или времени превышают потенциальную выгоду без жесткого экспертного надзора.
Используйте её для принятия решений о том, какие направления автоматизировать в первую очередь для получения быстрого ROI.
|
Компетенция |
Оценка ускорения на уровне процесса |
Готовность к промышленному использованию |
Условия максимальной эффективности |
Ограничения |
|---|---|---|---|---|
|
QA |
x1.2–x5 по видам; ручное x1.47–1.90, Mobile x2.94–3.00, Web x3.05–3.10 |
Высокая для автоматизации и генеративных задач (написание тестов, настройка CI/CD, API/нагрузочные тесты) |
Шаблоны тест-кейсов, структура Surf/Jira, документация по архитектуре автотестов, спецификации API |
Планирование тестирования, функциональное и приёмочное тестирование, повторное тестирование — без значимого ускорения; выполнение остаётся за человеком |
|
Native (iOS/Android) |
1–5x по задачам; типично 1–3x при наличии шаблонов |
С оговорками: сильная зависимость от шаблонов; отладка и исследование — риск потери времени (-2x…-3x) из‑за галлюцинаций |
Шаблоны в коде, дизайне и ТЗ; согласованные практики команды; Swagger/спецификации для API; стабильные пайплайны |
Boilerplate — не через ИИ, а единоразовой автоматизацией; отладка/исправление багов и поиск решений — от -2x до 4x; исследование производительности — в основном потеря времени |
|
Аналитика |
2–4x для типовых задач; фаза анализа в целом ~2x, до ~4x при благоприятной структуре |
Высокая при наличии шаблонов и систематизации |
Шаблоны артефактов (Use Case, AS-IS), подробная исходная документация, работа через GitLab + Cursor |
Работа с детальными ТЗ по экранным формам и интерфейсу — без ускорения; ручная правка быстрее, чем генерация + проверка + исправление |
|
Flutter |
x1.3–x1.8 на уровне всего цикла; экономия времени 24–43% |
Высокая; предсказуемый эффект при стабильных процессах |
Стабильные процессы и загрузка, полнота ТЗ и дизайна, отработанные шаблоны и cursor rules, стандартизированная архитектура |
Legacy без документации, нестандартная архитектура, неполные/неактуальные ТЗ снижают эффект; доменная экспертиза и код-ревью — умеренное ускорение (x1.2–1.5) |
Из таблицы также можно выделить три закономерности, общие для всех направлений:
QA стали абсолютным лидером (до x5) потому, что это направление стало одним из первых, куда мы внедрии ИИ-инструменты. Об этом подробно рассказали в статье На другом полюсе — нативная разработка, где сложная отладка и «творческий поиск» могут из-за галлюцинаций ИИ увести эффективность в минус (до -3x).
Столбец «Условия эффективности» везде говорит об одном и том же: дайте нейросети шаблон (тест-кейса, архитектуры, Use Case), и она полетит. Попросите её сделать «что-нибудь красивое» с нуля — и вы потратите время на исправление бреда.
Если у вас нестандартная архитектура, нет документации или ТЗ написано «на салфетке» (как видно в блоке Flutter и Native), внедрение ИИ даст минимальный выхлоп. Нейросети нужен контекст, а не интуиция.
Чтобы исключить влияние специфики конкретных стеков, мы провели кросс-функциональный анализ данных. Сгруппировали данные не по отделам, а по типам выполняемых задач. Это позволило выявить устойчивые паттерны эффективности.
Данный разрез критически важен для унификации процессов. Таблица ниже показывает, какие виды работ можно безопасно переводить на «ИИ-рельсы» во всех департаментах одновременно, а где технология требует сохранения ручного контроля вне зависимости от языка программирования.
|
Тип деятельности |
QA |
Native |
Аналитика |
Flutter |
Вывод по готовности |
|---|---|---|---|---|---|
|
Генерация кода, тестов, документации |
x3–x5 (ручные проверки, автотесты, snapshot, API-тесты, настройка инфраструктуры) |
x2–x5 (документация обзорная до 5x, README 3x, интеграция API 2–3x, snapshot-тесты 3x) |
2–4x (Use Case, AS-IS, диаграммы, User Stories ~2x) |
x1.3–x2.5 (unit/golden-тесты x2–2.5, рефакторинг x1.8–2.5, документация x1.5–2.5) |
Высокая готовность; промышленное использование возможно при шаблонах и ревью |
|
Интеграции, API, инфраструктура, CI/CD |
x3–x4 (настройка CI/CD, инфраструктура Web/Backend) |
x2–x3 (API, локальные данные); CI/CD x2; кастомные скрипты 3x и выше |
— |
x1.3–x2 (API-слой, CI/CD x1.5–2) |
Высокая при наличии спецификаций (Swagger) и согласованных правил |
|
Ревью, валидация |
x1.5–x2 (ревью требований, проверок, МРов) |
x1.5–x2 (unit/snapshot-тесты, ревью кода) |
Высокое (консультации и валидация — минуты вместо часов) |
x1.2–x1.5 (код-ревью) |
Средняя; финальное решение и качество — за человеком |
|
Отладка, разбор инцидентов |
x2–x3 (отладка автотестов Web/Mobile) |
от -2x до 4x (crash-логи, баги по Jira); исследование производительности — в основном потеря времени |
— |
x1.4–x1.8 (crash logs, дебаггинг) |
С оговорками; в Native — риск галлюцинаций и потери времени; обязательная верификация человеком |
|
Планирование, приёмка, ручное выполнение |
Нет/минимально (планирование тестирования, функциональное/приёмочное тестирование, повторное тестирование) |
— |
Детальные ТЗ по экранным формам и интерфейсу — без ускорения |
Встречи, планирование x1.3–1.7 |
Низкая готовность к замене ИИ; человек обязателен |
Итоговые показатели по направлениям:
Лидеры роста (x3 — x5):
QA: специальные доработки для автоматизации (x5), Snapshot-тесты (x4), написание ручных проверок (x3-x5). Автоматизация Web/Mobile в среднем ускоряется в ~3 раза.
Документация: создание обзорной документации в Native-разработке (x5).
Инфраструктура: настройка сред и CI/CD (x3-x4).
Уверенный рост (x1.5 — x2.5):
Аналитика: в среднем фаза анализа ускоряется в 2 раза (до 4х на типовых задачах). Генерация User Stories — x2.
Flutter: Unit и Golden тесты (x2-2.5), рефакторинг (x1.8-2.5).
Native: работа с локальными данными и API (x2-3).
Умеренный эффект (x1.2 — x1.5):
Код-ревью, бизнес-логика, требующая глубокого понимания домена. Здесь ИИ лишь слегка помогает человеку.
Отрицательная зона (от -2x до -3x):
Native: сложная отладка и расследование инцидентов (crash logs). Из-за галлюцинаций ИИ разработчик может потратить в 3 раза больше времени, чем если бы искал проблему сам.
По итогам мы видим четкий градиент полезности ИИ.
Здесь ИИ — не просто помощник, а полноценный рабочий инструмент. Рынок часто твердит, что сгенерированный код сложно поддерживать, но наши цифры говорят об обратном: при наличии жестких шаблонов мы получаем кратное ускорение.
Автотесты пишутся в 5 раз быстрее, документация и Use Cases — в 4 раза. Поэтому мы переводим создание любой «рыбы» кода, конфигов и черновиков в разряд обязательных ИИ-процессов. Писать такое вручную теперь — неоправданная роскошь и прямой убыток для проекта.
В этой зоне ИИ выступает как ассистент, за которым нужен глаз да глаз. Вендоры продают нам идею автономных агентов, которые сами чинят баги, но реальность суровее. В Native-разработке мы увидели критический риск: пытаясь делегировать ИИ сложную отладку, разработчики тратили в 2–3 раза больше времени на проверку его галлюцинаций.
Поэтому здесь мы внедряем правило «human-in-the-loop»: нейросеть отлично ищет опечатки и сканирует логи, но категорически не допускается к принятию решений при разборе инцидентов. Мы не отдаём ИИ «автоматическую отладку», чтобы не ставить под удар сроки.
Здесь ИИ пока либо балласт, либо слабый помощник. Нейросети не обладают «бизнес-эмпатией»: они не чувствуют приоритетов релиза, политических рисков или тонкостей UI, которые не описаны в тексте.
Наши замеры показали ноль ускорения в планировании стратегий и финальной приемке. Мы сознательно оставляем эти этапы за людьми.
Подводя итоги аудита, мы можем четко разделить задачи на те, где ИИ готов к продакшену, и те, где риски перевешивают профит.
Здесь ИИ показывает стабильный результат и реальную экономию часов.
Генеративные задачи
Написание кода, автотестов (E2E, API, нагрузочные), создание документации (Use Case, AS-IS, диаграммы).
Инфраструктура
Настройка CI/CD и сред развертывания — но только при наличии четких спецификаций.
Типовые сценарии
Любая задача, под которую есть готовый шаблон артефакта, ускоряется в разы.
Внедрение работает не «из коробки», а только при соблюдении гигиены разработки:
Шаблоны — это фундамент
Код, дизайн, ТЗ, тест-кейсы должны быть типизированы.
Актуальная документация
ИИ не телепат, ему нужна полная техническая база.
Стабильные процессы
Хаос автоматизировать нельзя, можно только масштабировать.
Галлюцинации в отладке
Особенно критично для Native-разработки. Попытка делегировать ИИ сложный дебаг может привести к потере времени (-2x…-3x). Верификация обязательна.
Задачи без ускорения
Планирование тестирования, функциональное и приемочное тестирование, детальные ТЗ по экранным формам. Эти зоны мы не позиционируем как автоматизируемые.
Мы готовы масштабировать ИИ на весь продакшен, но только там, где он объективно эффективен: в генеративных и инфраструктурных задачах. Никакой магии — нейросети дают результат только при наличии жесткой структуры из шаблонов, обязательного код-ревью и пристального контроля качества.
Мы зафиксировали новый стандарт: строгая модель «ИИ + человек» с четким разделением ответственности. Нейросети забирают себе скоростную генерацию черновиков и базовую рутину. За человеком остается стратегическое планирование, погружение в сложный контекст и финальная приемка результата.
Источник


