В современном LegalTech порог входа стремительно растет: просто "обернуть" API OpenAI в красивый интерфейс уже недостаточно - рынок требует кастомных архитектурных решений для повышения метрик точности. В поиске новых механик для "неШемяки!" (мой проект по предиктивной аналитике судебных процессов) все чаще погружаешься в китайские и индийские исследования. Как кажется, они потихоньку становятся лидерами AI LegalTech - судя по публикациям, именно в Азии сейчас наблюдается настоящий бум прикладных экспериментов с agentic workflows в юриспруденции.
И вот, новогодний подарок - препринт "Chinese Court Simulation with LLM-Based Agent System" исследователей из Университета Цинхуа (декабрь 2025). Китайские коллеги пошли дальше простых промптов и построили полноценную мультиагентную систему (MAS), где модели судят моделей. Ниже - разбор архитектуры SimCourt, результаты сравнения с живыми юристами и немного о том, как это проецируется на реальный продакшен.
Авторы исследования сфокусировались на фундаментальной проблеме текущих Legal AI решений - ограничениях single-shot inference. Классический пайплайн работает линейно: user input (фабула) -> rag (релевантная практика) -> llm -> verdict. В этой цепочке модель, по сути, играет в шахматы сама с собой. У неё нет внешнего критика или оппонента, который мог бы подсветить логическую ошибку или слабую позицию. Из-за этого даже топовые модели часто скатываются в confirmation bias: зацепившись за первый найденный аргумент "за", нейросеть начинает игнорировать или галлюцинировать факты, противоречащие её гипотезе, лишь бы сохранить когерентность ответа. Чтобы сломать этот паттерн, разработчики SimCourt заменили одиночный прогон на role-playing simulation - многоступенчатую агентную симуляцию, где истина рождается не в "голове" одной модели, а в конфликте нескольких
Архитектура SimCourt
Система жестко следует процедурному пайплайну уголовного процесса КНР (5 стадий), при этом интересно построение самих агентов. Каждый участник (судья, прокурор, адвокат) - это автономный агент со следующей структурой:
Модуль профиля (profile) - задает системные установки. Агент не просто "помощник", он получает жесткую ролевую инструкцию (например, прокурор должен быть агрессивным в обвинении, но соблюдать процедуру).
Двухуровневый модуль память (memory module) - это критически важная часть для длинных контекстов. Short-Term Memory: Буфер текущей стадии процесса (например, только текущий допрос). Long-Term Memory: После каждой стадии LLM суммирует (summarize) произошедшее и сбрасывает в долгосрочное хранилище. Все для одной цели - на момент вынесения приговора у "судьи" не должен вымыватсься контекст первых минут заседания, но при этом не должно и переполняться окно токенов.
Модуль стратегии (planning & strategy) - агенты должны быть не реактивны, а проактивны. Перед началом дебатов они формируют план: attack strategy для прокурора (типа, найти слабые места в алиби), defense strategy для адвоката (найти смягчающие обстоятельства и т.п.).
При этом агенты имеют доступ к LegalOne (база судебных кейсов) и полному тексту УК - обычный классический RAG, встроенный в агента.
Adversarial Debate как метод валидации
Главная гипотеза авторов - конфликт повышает точность. Когда модель-прокурор атакует аргументы модели-адвоката, происходит естественная фильтрация галлюцинаций. Если адвокат придумал несуществующий факт, прокурор (имея доступ к фабуле) это опровергнет.
Причем результаты ablation study говорят сами за себя: Если отключить стадию симуляции (оставить только анализ материалов), Relative Error в предсказании тюремного срока растет. То есть, просто "подумать" над делом для нейросети менее эффективно, чем "проспорить" его.
Исследователи сравнивали логи (transcripts) симуляции с реальными стенограммами судов. Оценку проводили эксперты (blind review). В качестве базовой модели использовали DeepSeek-v3. И это интересный сигнал: китайская модель (крайне дешевая в инференсе) показывает результаты на уровне SOTA в задачах на логику.
Где AI победил:
Recall законов: 100% точность цитирования (ожидаемо).
Adversarial Framing: AI-судья лучше удерживал структуру процесса, жестко пресекая попытки сторон уйти в демагогию.
Logical Consistency: Агенты эффективнее ловили оппонентов на противоречиях в показаниях.
Где AI проиграл:
Emotional Appeal: AI-адвокаты слишком сухие. Работу с присяжными (где нужны эмоции) они проваливают.
Leading Questions: AI-прокуроры иногда задавали наводящие вопросы, которые в реальном суде снял бы судья. Модели пока плохо чувствуют тонкую грань процессуальной этики.
Consensus vs Simulation
В архитектуре "неШемяки!" пока только подступаю к полноценным агентным системам, но здесь возникает жесткий барьер в виде юнит-экономики и UX. Полная симуляция судебного процесса по методу SimCourt - это тысячи последовательных запросов к LLM на один кейс, что для B2C-сервиса означает либо запредельный Latency (будет ли пользователь ждать 5 часов, о которых пишут китайские товарищи), либо "золотую" себестоимость транзакции. Плюс, оркестрация стейт-менеджмента пяти взаимодействующих агентов кратно усложняет поддержку. Поэтому пока компромиссное решение - consensus вместо simulation. Как я писал - у нас параллельный ансамбль, где модели валидируют друг друга асинхронно - это позволяет срезать галлюцинации и повысить точность предикта без драматического роста костов и времени отклика.
Резюме. Статья еще раз подтверждает тектонический сдвиг, который мы наблюдаем последний год: центр тяжести в Legal AI смещается с "алхимии промптинга" и дорогостоящего файн-тюнинга в инженерную плоскость - проектирование агентных архитектур. Просто "накормить" модель данными уже недостаточно; будущее за системами, где качество вывода (inference quality) обеспечивается не размером параметров одной нейросети, а грамотно выстроенным графом взаимодействия нескольких специализированных агентов.
Источник


