Что делает
AI-агент выполняет работу QA-инженера поддержки: каждое утро забирает закрытые за сутки диалоги, проверяет каждый ответ по фиксированной рубрике и собирает отчёт для тимлида. Задача автоматизации — закрыть разрыв между декларируемыми стандартами поддержки и тем, что реально уходит клиентам.
Пошаговый процесс
- Выгрузка из helpdesk закрытых за последние 24 часа диалогов — минимум 10% от дневного объёма, стратифицированная выборка по агентам и категориям обращений.
- Прогон каждого диалога через QA-рубрику: точность решения, тон общения, следование скриптам, соблюдение SLA, корректность тегов классификации, полнота ответа.
- Оценка по каждому критерию по шкале и общий балл диалога с цитатой-обоснованием из текста ответа.
- Сборка ежедневного отчёта: эталонные ответы, ответы с отклонениями, общие тренды по агентам и категориям за прошлую неделю.
- Отправка отчёта тимлиду в Slack или на почту с прямыми ссылками на каждый тикет в helpdesk для быстрого разбора.
- Повторение цикла каждый рабочий день без пропусков и без «забыли в этот понедельник».
Рубрика QA — что проверяется
- Точность: решает ли ответ проблему клиента по существу.
- Тон: соответствует ли заявленному tone of voice бренда.
- Скрипты: использованы ли утверждённые формулировки для типовых ситуаций.
- SLA: уложился ли агент в нормативы по времени первого ответа и закрытия тикета.
- Теги: корректно ли проставлены категории обращения для дальнейшей аналитики.
- Полнота: закрыт ли вопрос без хвостов и неявных допущений.
Что автоматизация НЕ делает
- Не заменяет живой разбор. AI-агент подсвечивает ответы, выбивающиеся из рубрики; окончательный вывод — почему и что с этим делать — остаётся за тимлидом.
- Не обучает агентов в реальном времени. Отчёт показывает, что сломалось за прошедшие сутки; коучинг, апдейт скриптов и 1:1 — работа руководителя, не скрипта.
- Не редактирует ответы. Проверка идёт по уже отправленным диалогам, в момент переписки с клиентом автоматизация не вмешивается.
Как работает
Архитектура построена как custom-code сценарий с LLM-evaluator и прямой интеграцией в API helpdesk. Центральный компонент — evaluator, который получает на вход текст диалога и YAML-описание рубрики, а на выход отдаёт структурированный JSON с оценками и цитатами-обоснованиями по каждому критерию.
Технический поток
Скрипт запускается по расписанию, вытягивает данные из helpdesk, прогоняет через LLM с фиксированным промптом рубрики и записывает результат в отчётную базу. Модель даёт не только балл, но и цитату из диалога, обосновывающую оценку, — чтобы тимлид не разбирался в вопросе «почему AI так решил».
Компоненты решения
Компонент | Роль |
|---|---|
Helpdesk API | Источник закрытых диалогов с метаданными (агент, категория, SLA) |
Scheduler | Запуск сценария ежедневно в фиксированное окно |
Sampler | Стратифицированная выборка 10% по агентам и категориям |
LLM evaluator | Оценка по рубрике, цитаты-обоснования |
Storage | История оценок для трендов и аудита |
Reporter | Сборка отчёта и отправка в Slack или на почту |
Шаги внедрения
- Фиксация рубрики. Команда Grow2.ai вместе с тимлидом поддержки формализует действующие критерии качества в виде YAML: по каждому пункту формулируется вопрос и шкала. Без этого шага автоматизация не имеет смысла: модель проверяет то, что записано, а не то, что «все в голове знают».
- Подключение к helpdesk. Создаётся сервисный токен с правами read-only на закрытые диалоги за выбранный период. Интеграция работает с любым helpdesk, имеющим API для выгрузки разговоров.
- Калибровка evaluator. На исторической выборке диалогов прогоняется evaluator, результаты сверяются с ручными оценками тимлида. Расхождения разбираются, рубрика и промпт уточняются. Цель — согласованность оценок модели и тимлида в большинстве случаев.
- Настройка выборки. Sampler берёт 10% от дневного объёма и стратифицирует: минимум один диалог на активного агента в неделю и минимум один диалог на каждую основную категорию обращений.
- Формат отчёта. Тимлид с командой Grow2.ai согласуют структуру ежедневного письма — что выносится в топ, какие метрики в сводке, какие графики за 7 и 30 дней.
- Запуск в пилот. Две недели evaluator работает параллельно с ручным аудитом: это даёт возможность ловить расхождения и докручивать рубрику без риска для production.
- Переход в production. Ручной аудит остаётся только для граничных случаев и эскалаций, рутинная проверка переходит на автоматизацию.
Как модель даёт обоснованную оценку
Промпт evaluator-а структурирован явно: сначала модель читает рубрику и диалог, затем по каждому критерию выделяет конкретную цитату из ответа агента, и только после этого выставляет балл. Такая схема с цитатами-обоснованиями снижает вероятность галлюцинаций и делает оценку проверяемой — тимлид видит, на основании чего модель приняла решение, и может быстро согласиться или оспорить вывод.
Что нужно
Для внедрения нужна минимальная, но конкретная инфраструктура и готовность команды.
Доступы и данные
- API helpdesk с правами на чтение закрытых диалогов — Zendesk, Intercom, Freshdesk, HelpScout, Front или любая система с conversations endpoint.
- История закрытых диалогов за последний месяц в объёме, достаточном для калибровки (несколько сотен записей).
- Текущие критерии качества в любом виде: google-док, notion-страница или устная договорённость тимлида. Формализацию в YAML возьмёт на себя команда внедрения.
- Канал для доставки отчёта: Slack workspace с правом создать бот-интеграцию или рабочая почта тимлида.
Готовность команды
- Тимлид поддержки готов выделить 4–6 часов на первой неделе для фиксации рубрики и 2–3 часа в неделю в течение первого месяца на калибровку.
- Руководитель поддержки согласен, что автоматизация снимает рутину отбора и оценки, но не заменяет ручной разбор сложных кейсов.
- Агенты предупреждены о переходе на регулярный QA и понимают, что проверяются уже закрытые диалоги, а не работа в реальном времени.
Сроки
Полная имплементация занимает 2–4 недели:
- Неделя 1: фиксация рубрики, подключение к helpdesk, первый прогон на исторических данных.
- Неделя 2: калибровка evaluator, согласование формата отчёта.
- Недели 3–4: пилот в параллельном режиме с ручным аудитом и переход в production.
После запуска автоматизация работает без вмешательства; команда Grow2.ai остаётся на поддержке рубрики и промптов.
Боли
- Ревью — узкое место
- Непоследовательное качество
FAQ
Сколько времени займёт запуск?
Полный запуск — 2–4 недели для команды поддержки 5–20 агентов. Неделя 1 — фиксация рубрики и подключение к helpdesk, неделя 2 — калибровка evaluator, недели 3–4 — пилот параллельно с ручным аудитом и переход в production. Сроки растягиваются, если действующие критерии качества существуют только в голове тимлида и их нужно предварительно проговорить и записать.
У нас нет формализованной рубрики QA — это блокер?
Нет, отсутствие формальной рубрики — нормальная стартовая точка. На первой неделе команда Grow2.ai проводит рабочую сессию с тимлидом, фиксирует действующие критерии (по которым сейчас оценивают ответы неформально) и превращает их в YAML. Отдельный проект по разработке рубрики не нужен, всё укладывается в общий срок внедрения.
Какие риски и что может сломаться?
Три основных риска. Первый — расхождение оценок модели и тимлида в пограничных случаях; решается калибровкой на исторической выборке. Второй — изменение рубрики без апдейта YAML, тогда автоматизация оценивает по устаревшим критериям. Третий — падение API helpdesk; evaluator логирует ошибки и ретраит, но за доступность стороннего сервиса автоматизация не отвечает.
Работает ли для нашей индустрии?
Подходит для SaaS/Tech как основного сегмента и универсально для любой индустрии с текстовыми каналами поддержки — e-commerce, fintech, edtech, B2B-сервисы. Автоматизация оперирует текстом диалогов и рубрикой, индустрия сама по себе на работу evaluator-а не влияет. Специфика отрасли закладывается в рубрику качества и скрипты ответов.
Можно ли проверять 100% тикетов, а не 10%?
Технически — да, но это редко даёт прирост ценности. 10% стратифицированной выборки по агентам и категориям статистически достаточно, чтобы ловить системные отклонения в качестве. 100% оправданы в регулируемых индустриях с compliance-требованиями — тогда объём LLM-вызовов и стоимость пересчитываются под реальный дневной поток диалогов.
Что с приватностью и персональными данными в диалогах?
Перед отправкой в LLM evaluator прогоняет диалог через PII-фильтр: email, телефоны, номера карт и идентификаторы клиентов заменяются на плейсхолдеры. Для команд с требованиями GDPR настраивается обработка в EU-регионе и retention логов под регламент. Исходные диалоги хранятся на стороне helpdesk и внутри автоматизации не дублируются.
Хотите такую автоматизацию в своём бизнесе?
Запишем на бесплатный аудит — покажем, как это будет работать именно у вас.