← Все посты

Эссе · июнь 2026 г.

3 уровня защиты AI-агента — что будет, если он ошибётся

AI-агент защищён тремя независимыми уровнями. Layer 1 — prompt rules с белым списком тем; агент отказывается выходить за пределы компетенции. Layer 2 — LLM supervisor; вторая модель проверяет ответы на критичных полях (цены, даты, договорённости). Layer 3 — human-in-the-loop для VIP и нетипичных случаев. 2-5% запросов агент сам эскалирует человеку.

Этот вопрос клиенты задают перед запуском в 9 случаях из 10: «А если ваш AI скажет клиенту какую-нибудь дичь?» Честный ответ — без защиты скажет. С тремя уровнями защиты — практически нет. Вот как это работает технически и что мы гарантируем.

Layer 1 — Prompt rules и white-list scope

Первый уровень — это не «настройка», а архитектурное ограничение. AI-агент любой компании получает системный промпт вида: «Ты — ассистент отдела продаж. Твоя задача — квалифицировать входящую заявку и назначить встречу.» Дальше идут жёсткие запреты — агент НЕ имеет права:

  • называть конкретную цену без вызова цены из прайса через API;
  • обещать сроки поставки без вызова состояния склада через API;
  • подтверждать скидку свыше 5% без эскалации к менеджеру;
  • отвечать на вопросы вне скоупа продаж (рекламации, техническая поддержка, юридические вопросы) — эскалируй.

Если вопрос не входит в скоуп — ответ: «Этот вопрос я переадресую коллеге». И создай задачу в CRM.

Что это даёт: 70-80% потенциальных ошибок не происходят, потому что агент отказывается отвечать, если нет подтверждения из системы. Он не выдумывает цену — он просит API дать реальную цену. Не выдумывает дату — спрашивает календарь. Это работает потому, что LLM (Claude Opus 4.7, GPT-5) хорошо справляются с instruction-following при чётко прописанных ограничениях.

Layer 2 — LLM supervisor (вторая модель проверяет первую)

Второй уровень — это меньшая и более быстрая модель, которая проверяет ответ первой перед отправкой клиенту. В Grow2.ai архитектурно это выглядит так:

  • Agent (Claude Opus 4.7 или GPT-5) генерирует драфт ответа.
  • Supervisor (Claude Haiku 4.5 или GPT-5-mini) получает исходный запрос + драфт + правила.
  • Supervisor возвращает JSON approve/reject с reason.
  • Если approve=false — драфт отбрасывается, агент перегенерирует или эскалирует.

Что проверяет supervisor: числа (цена против прайса), даты (реалистичная дата встречи), tone (бренд voice), promise (агент не обещал того, что компания не может выполнить). Cost: supervisor — меньшая модель, плюс ~$0.001-0.005 на запрос. На 10K запросов/мес — дополнительные $10-50. Несравнимо дешевле одного плохого случая с VIP-клиентом.

Layer 3 — Human-in-the-loop (эскалация + audit)

Третий уровень — гарантированная человеческая точка контроля в двух сценариях.

  • Сценарий А: AI сам эскалирует. Если confidence score ниже порога (обычно 0.7) или supervisor дал approve=false, агент создаёт задачу в CRM с пометкой «нужен manual review», передаёт менеджеру с готовым контекстом.
  • Сценарий Б: VIP-сегмент и critical fields. Заранее определённые сегменты всегда проходят через человека. Агент готовит draft ответа, менеджер 30 секунд просматривает, отправляет или корректирует.

Аудит: каждый ответ агента сохраняется с полным логом — исходный запрос, system prompt, ответ supervisor, финальное решение, кто и как это подтвердил. Если клиент пишет «ваш бот мне сказал 50%, где скидка?» — за 30 секунд находим полный trail.

Что происходит, когда всё же произошло

Честно: 2-5% запросов агент отрабатывает неоптимально. Не «фантазирует цену» — это блокируется Layer 1-2 — но даёт шаблонный ответ там, где клиент ждал персонализации, или долго думает над нестандартным запросом. Это не «ошибка» в инженерном смысле — это деградация качества по сравнению с лучшим менеджером. Что с этим делаем: weekly review первых двух месяцев, customer feedback loop, A/B testing на спорных полях. Это не «настроил и забыл» — это постоянный процесс.

Что НЕ даёт защита

Антихайп-часть. Ни один из трёх уровней защиты не гарантирует:

  • эмпатии на эмоциональном запросе («у меня сегодня умер отец, не могу приехать на осмотр» — AI поймёт контекст и эскалирует, но это не человеческий ответ);
  • гибкости на нестандартном предложении («давайте я заплачу за 6 месяцев вперёд со скидкой 30%» — этого нет в промпте, эскалация);
  • интуиции на «горячих» сигналах (когда клиент пишет с нюансами, которые человек-продажник считает сразу, а AI пропустит).

AI-агент с тремя уровнями защиты — это safety net, а не магия. Он даёт вам уверенность, что базовые ошибки заблокированы. Сложная часть — это всё ещё работа вашей команды.

Частые вопросы

Что будет, если AI-агент назовёт клиенту неправильную цену?

Технически этого произойти не должно: Layer 1 запрещает агенту выдумывать цену — он вызывает API прайса через function call. Layer 2 supervisor проверяет названную цену против прайса перед отправкой. Если всё же произошло (баг интеграции) — у вас есть полный audit log: когда поступил запрос, какой прайс был актуальным, какую цену назвал агент, кто из менеджеров был онлайн. На основе этого решаете: признать названную цену для клиента или объяснить со ссылкой на правильную.

Как часто AI-агент ошибается и как вы это измеряете?

Метрика 1: Error rate — % ответов, заблокированных supervisor. Норма: 3-8%. Метрика 2: Escalation rate — % запросов, которые агент сам передаёт человеку. Норма: 10-20%. Метрика 3: Customer feedback — количество жалоб на «бот ляпнул не то». Норма: меньше 0.5% всех запросов. В Grow2.ai мы мониторим все три метрики в реальном времени и делаем weekly review первые 2 месяца.

Можно ли проаудировать каждый ответ AI-агента?

Да — это обязательная часть setup'а. Каждый ответ сохраняется с: timestamp, исходный запрос клиента, system prompt active на момент, ответ agent (draft), ответ supervisor (approve/reject + reason), финал (sent/escalated), кто из менеджеров касался. Audit log хранится 12+ месяцев, экспортируется в JSON или CSV.

Что происходит при downtime LLM-провайдера (OpenAI, Anthropic)?

В Grow2.ai у агента есть multi-provider failover: если primary (Anthropic Claude) не отвечает более 10 секунд, агент автоматически переключается на secondary (OpenAI GPT-5) с тем же промптом. SLA Anthropic и OpenAI по отдельности — 99.9%; вместе — 99.99%. Если оба упадут одновременно — агент переходит в graceful degradation: все заявки попадают в очередь с пометкой «manual response required», менеджеры обрабатывают вручную.