Этот вопрос клиенты задают перед запуском в 9 случаях из 10: «А если ваш AI скажет клиенту какую-нибудь дичь?» Честный ответ — без защиты скажет. С тремя уровнями защиты — практически нет. Вот как это работает технически и что мы гарантируем.
Layer 1 — Prompt rules и white-list scope
Первый уровень — это не «настройка», а архитектурное ограничение. AI-агент любой компании получает системный промпт вида: «Ты — ассистент отдела продаж. Твоя задача — квалифицировать входящую заявку и назначить встречу.» Дальше идут жёсткие запреты — агент НЕ имеет права:
- называть конкретную цену без вызова цены из прайса через API;
- обещать сроки поставки без вызова состояния склада через API;
- подтверждать скидку свыше 5% без эскалации к менеджеру;
- отвечать на вопросы вне скоупа продаж (рекламации, техническая поддержка, юридические вопросы) — эскалируй.
Если вопрос не входит в скоуп — ответ: «Этот вопрос я переадресую коллеге». И создай задачу в CRM.
Что это даёт: 70-80% потенциальных ошибок не происходят, потому что агент отказывается отвечать, если нет подтверждения из системы. Он не выдумывает цену — он просит API дать реальную цену. Не выдумывает дату — спрашивает календарь. Это работает потому, что LLM (Claude Opus 4.7, GPT-5) хорошо справляются с instruction-following при чётко прописанных ограничениях.
Layer 2 — LLM supervisor (вторая модель проверяет первую)
Второй уровень — это меньшая и более быстрая модель, которая проверяет ответ первой перед отправкой клиенту. В Grow2.ai архитектурно это выглядит так:
- Agent (Claude Opus 4.7 или GPT-5) генерирует драфт ответа.
- Supervisor (Claude Haiku 4.5 или GPT-5-mini) получает исходный запрос + драфт + правила.
- Supervisor возвращает JSON approve/reject с reason.
- Если approve=false — драфт отбрасывается, агент перегенерирует или эскалирует.
Что проверяет supervisor: числа (цена против прайса), даты (реалистичная дата встречи), tone (бренд voice), promise (агент не обещал того, что компания не может выполнить). Cost: supervisor — меньшая модель, плюс ~$0.001-0.005 на запрос. На 10K запросов/мес — дополнительные $10-50. Несравнимо дешевле одного плохого случая с VIP-клиентом.
Layer 3 — Human-in-the-loop (эскалация + audit)
Третий уровень — гарантированная человеческая точка контроля в двух сценариях.
- Сценарий А: AI сам эскалирует. Если confidence score ниже порога (обычно 0.7) или supervisor дал approve=false, агент создаёт задачу в CRM с пометкой «нужен manual review», передаёт менеджеру с готовым контекстом.
- Сценарий Б: VIP-сегмент и critical fields. Заранее определённые сегменты всегда проходят через человека. Агент готовит draft ответа, менеджер 30 секунд просматривает, отправляет или корректирует.
Аудит: каждый ответ агента сохраняется с полным логом — исходный запрос, system prompt, ответ supervisor, финальное решение, кто и как это подтвердил. Если клиент пишет «ваш бот мне сказал 50%, где скидка?» — за 30 секунд находим полный trail.
Что происходит, когда всё же произошло
Честно: 2-5% запросов агент отрабатывает неоптимально. Не «фантазирует цену» — это блокируется Layer 1-2 — но даёт шаблонный ответ там, где клиент ждал персонализации, или долго думает над нестандартным запросом. Это не «ошибка» в инженерном смысле — это деградация качества по сравнению с лучшим менеджером. Что с этим делаем: weekly review первых двух месяцев, customer feedback loop, A/B testing на спорных полях. Это не «настроил и забыл» — это постоянный процесс.
Что НЕ даёт защита
Антихайп-часть. Ни один из трёх уровней защиты не гарантирует:
- эмпатии на эмоциональном запросе («у меня сегодня умер отец, не могу приехать на осмотр» — AI поймёт контекст и эскалирует, но это не человеческий ответ);
- гибкости на нестандартном предложении («давайте я заплачу за 6 месяцев вперёд со скидкой 30%» — этого нет в промпте, эскалация);
- интуиции на «горячих» сигналах (когда клиент пишет с нюансами, которые человек-продажник считает сразу, а AI пропустит).
AI-агент с тремя уровнями защиты — это safety net, а не магия. Он даёт вам уверенность, что базовые ошибки заблокированы. Сложная часть — это всё ещё работа вашей команды.