#58IT / DevOps

AI incident triage + runbook executor

AI incident triage + runbook executor автоматизирует первичную обработку инцидентов и выполнение стандартных runbook'ов в отделе IT / DevOps / SRE и достигает сокращения MTTM с 22 до 11 минут (-50%). AI-агент получает сигналы из систем мониторинга, классифицирует инцидент по severity и домену, собирает контекст из логов и метрик, предлагает дежурному готовый runbook и выполняет его шаги по команде, с явными receipt-подтверждениями. В результате сокращается число дублирующих алертов (-38% на инцидент), исчезают ошибки откатов (все действия проходят через receipt), а удовлетворённость SRE-команды растёт с 3.2 до 4.4/5. Решение подходит для SaaS/Tech и универсальных горизонтальных сценариев, где знания о системе разрознены между людьми, а дежурные переключают контекст десятки раз за смену. Агент не принимает необратимых решений самостоятельно — он готовит почву для инженера и документирует каждый шаг.

Ожидаемый эффект
50%· MTTM
Сложность
Месяц (2-4 недели)
Инструмент
Agent-фреймворк
ROI
Снижение рисков
Индустрии
SaaS / Tech, Другое / Универсально
Интеграции
Observability / monitoring, Communications
Patterns
Многошаговая оркестрация, Мониторинг и алертинг, Классификация и маршрутизация

Что делает

Агент сокращает время от срабатывания алерта до первого осмысленного действия — ту самую MTTM (Mean Time To Mitigate), которая определяет, сколько клиенты реально страдают от инцидента. Работает связкой из мониторинга, оркестрации runbook'ов и коммуникаций с дежурными, превращая разрозненные сигналы в один управляемый процесс.

Что агент делает пошагово

  1. Получает сырые сигналы из систем observability — метрики, логи, трейсы, health-check'и, alertmanager — и объединяет дубли в один инцидент по correlation-ключам.
  2. Классифицирует инцидент по severity (SEV1-SEV4) и домену (БД, API, сеть, deploy, внешний вендор) на основе исторических паттернов и заранее заданных правил.
  3. Собирает контекст: последние деплои, изменения feature-флагов, похожие инциденты из прошлого, список ответственных за компонент, SLO/SLA по сервису.
  4. Маршрутизирует алерт в нужный канал коммуникаций — один, а не пять. Дежурный получает компактный брифинг в Slack или PagerDuty вместо десятка одинаковых пейджей.
  5. Подбирает подходящий runbook из библиотеки и предлагает его выполнение с оценкой рисков каждого шага.
  6. По команде дежурного выполняет шаги runbook'а с промежуточными receipt-подтверждениями — перед каждым мутирующим действием показывает, что именно будет сделано и какие последствия ожидаются.
  7. Документирует таймлайн инцидента: кто что сделал, когда, какой был эффект. Готовит черновик postmortem с фактами, а не догадками.

Чего агент не делает

  1. Не принимает решений о rollback, failover или drain без явного подтверждения дежурного инженера — каждое необратимое действие требует receipt, поэтому в пилоте зафиксирован ноль ошибочных откатов.
  2. Не заменяет on-call ротацию и не снимает ответственность с команды — он ускоряет инженера, а не отменяет его.
  3. Не угадывает причины инцидентов, для которых нет данных в runbook-библиотеке или исторических записях. Новые классы падений эскалируются людям, а пробелы в runbook'ах подсвечиваются в отчёте после инцидента.

Как работает

Под капотом — агент-оркестратор на фреймворке агентов (LLM как reasoning-слой), подключённый к observability-стеку, системе коммуникаций и runbook-библиотеке. Ключевой принцип — все действия с побочными эффектами проходят через receipt-механизм: агент формулирует намерение, показывает его человеку, ждёт подтверждения.

Поток обработки инцидента

Алерт попадает в очередь агента через webhook из alertmanager, PagerDuty или DataDog. Агент нормализует формат, сверяется с открытыми инцидентами (нет ли дубля), обогащает контекстом из API мониторинга и CMDB. Дальше LLM-слой классифицирует инцидент и выбирает runbook — это отдельный structured-output вызов с валидацией по JSON-схеме. Оркестратор запускает runbook как граф шагов: каждый шаг либо read-only (запрос метрик, поиск логов), либо mutating (restart pod, flip feature-flag, rollback deploy). Mutating-шаги требуют receipt от дежурного.

Шаги внедрения

  1. Инвентаризация — собрать список runbook'ов (даже если они в Confluence, в голове у сеньора или в gist'ах), каталогизировать по компонентам и severity.
  2. Нормализация runbook'ов — перевести в машиночитаемый формат: YAML, Markdown с фронтматтером или DSL. Каждый шаг помечается как read-only или mutating, с явным rollback-действием.
  3. Подключение observability — настроить outgoing webhook'и из alertmanager/PagerDuty/DataDog в агента, сопоставить labels алертов с доменной классификацией.
  4. Интеграция communications — Slack-бот для брифингов и receipt-диалогов, threading по incident ID, channel-маршрутизация по команде ответственных.
  5. Настройка LLM-пайплайна — классификатор, селектор runbook'а, генератор брифинга. Каждый вызов — structured output с жёсткой JSON-схемой.
  6. Pilot на 1-2 сервисах — сначала в режиме shadow (агент предлагает, но не действует), потом с manual approval на всё, потом с auto-approve на read-only шагах.
  7. Expand на остальные команды — по мере стабилизации метрик MTTM и роста доверия дежурных.

Компоненты системы

Компонент

Роль

Alert ingester

Нормализация webhook'ов из мониторинга, дедупликация по correlation-ключам

Classifier

LLM-классификация severity и домена с structured output

Runbook store

Библиотека runbook'ов в YAML/Markdown с версионированием

Orchestrator

Пошаговое исполнение runbook'а, receipt-механика на mutating-шагах

Communications adapter

Брифинги, receipt-диалоги, threading в Slack

Audit log

Таймлайн всех действий агента и человека, вход в postmortem

Runbook-store — критический элемент: если runbook'ов нет или они устарели, агент работает вхолостую. Первые недели внедрения уходят именно на дисциплину команды по их написанию. Audit log — второй критический элемент: без него receipt-механика теряет смысл, потому что нельзя восстановить, кто и что подтвердил.

Агент работает в цикле reasoning → action → receipt → observation до достижения либо разрешённого состояния (метрики вернулись в норму), либо escalation'а (человек берёт управление, агент переходит в роль помощника и документирует действия дежурного).

Что нужно

Для внедрения нужна базовая зрелость процессов — без неё агенту не на что опираться.

Данные и доступы

  • Observability-стек с webhook-отправкой алертов (Prometheus + alertmanager, DataDog, New Relic, Grafana, PagerDuty — любой современный).
  • Хотя бы 5-10 письменных runbook'ов для самых частых классов инцидентов. Могут быть в Confluence, Notion или git — главное, чтобы существовали.
  • Доступ к API инфраструктурных систем для mutating-действий (kubectl, Terraform Cloud, feature-flag платформа, CI/CD).
  • Канал коммуникаций для инцидентов (Slack или Teams) с правами бота на запись, чтение threads, создание каналов.
  • История прошлых инцидентов за 3-6 месяцев для калибровки классификатора.

Готовность команды

  • Назначенный owner со стороны SRE/DevOps, который отвечает за runbook-библиотеку и её актуальность.
  • Культура postmortem'ов без blame — иначе агент, который документирует всё подряд, вызовет сопротивление.
  • Дежурные готовы к новому workflow с receipt-подтверждениями вместо прямых действий в консоли.
  • Понимание, что первые 2-4 недели агент будет работать в shadow-режиме без реальных действий — это не провал, а калибровка классификатора и runbook-селектора.

Таймлайн

Средний проект — 6-10 недель от kick-off до продуктивного использования на нескольких сервисах. Первые две недели — инвентаризация и нормализация runbook'ов, третья-пятая — интеграции с observability и communications, pilot в shadow-режиме. Шестая-десятая — расширение scope и настройка auto-approve для безопасных read-only шагов.

Боли

  • Знания в головах, не в документах
  • Постоянное переключение контекста
  • Медленный отклик клиентам

FAQ

Сколько времени занимает внедрение?

6-10 недель для средней SRE-команды. Первые 2 недели уходят на инвентаризацию и нормализацию runbook'ов, 3-5 недели — интеграции с observability и communications плюс pilot в shadow-режиме. 6-10 недели — расширение scope на дополнительные сервисы и постепенное включение auto-approve на read-only шагах. Темп сильно зависит от того, есть ли у команды письменные runbook'и на старте или их приходится собирать с нуля.

Что делать, если у нас нет runbook'ов в письменном виде?

Это самое частое препятствие для SMB-команд. Первые 2-3 недели внедрения превращаются в дисциплинированное написание runbook'ов совместно с сеньорами — агент в это время помогает извлечь процедуры из их головы через структурированные интервью и анализ истории инцидентов. Без этой работы дальше двигаться бессмысленно: агенту не на что опираться, классификатор работает вслепую, а ROI не материализуется.

Какие риски и что может сломаться?

Главный риск — ложные срабатывания классификатора на редких классах инцидентов. Митигация — receipt-механика: mutating-действия требуют подтверждения дежурного, необратимые операции (rollback, drain, failover) всегда требуют явного approval. В пилоте зафиксирован ноль ошибочных откатов. Второй риск — деградация runbook-библиотеки со временем. Owner со стороны SRE нужен обязательно, чтобы runbook'и не протухали и не сбивали агента.

Подходит ли решение для нашей индустрии?

Решение оптимально для SaaS/Tech с observability-стеком и on-call ротацией. В универсальных горизонтальных сценариях — любая компания с production-сервисами, дежурными и алертами — тоже работает. Для команд с менее чем 5 сервисами и редкими инцидентами (менее 10 в месяц) ROI материализуется слабее, чем в компаниях с регулярной инцидентной нагрузкой, где MTTM напрямую влияет на SLA и доходы.

Можно ли внедрить без замены текущего PagerDuty или alertmanager?

Да. Агент подключается поверх существующего стека через webhook'и и API — он не заменяет мониторинг и оповещение, а дополняет их слоем классификации, обогащения контекстом и оркестрации runbook'ов. PagerDuty продолжает эскалировать по on-call ротации, alertmanager продолжает дедупить на уровне источников, агент берёт на себя triage, брифинг дежурному и исполнение runbook'а по команде.

Что происходит с инцидентами, которые агент не умеет обрабатывать?

Для таких случаев агент эскалирует дежурного инженера и переходит в роль помощника: собирает контекст, документирует действия человека, ищет похожие инциденты в истории и предлагает шаги по аналогии. Новые классы падений — это материал для расширения runbook-библиотеки; агент сам подсвечивает такие пробелы owner'у в отчёте после инцидента, и они становятся следующими кандидатами на автоматизацию.

Хотите такую автоматизацию в своём бизнесе?

Запишем на бесплатный аудит — покажем, как это будет работать именно у вас.

Похожие автоматизации

#56 · IT / DevOps / SRE

On-call AI agent: диагностика + auto-remediation PR

On-call AI agent: диагностика + auto-remediation PR автоматизирует процесс реагирования на production-инциденты в отделе IT / DevOps / SRE и достигает эффекта экономии 675 инженерных часов в месяц. AI-агент подключается к observability-стеку, коду и Slack-каналам дежурных, собирает контекст при срабатывании алерта и предлагает исправление — от постановки гипотезы до pull request с фиксом. Для команды из 60 инженеров и 30 каналов система обрабатывает 4 200 успешных flow в месяц, получает 66% positive feedback и закрывает 28 PR без участия человека. Стоимость одной диагностики — $0,30. Автоматизация снимает три типовые боли DevOps-команды: знания рассеяны по головам дежурных инженеров, человек постоянно переключается между алертами, логами и кодом, клиенты медленно узнают статус инцидента. Grow2.ai разворачивает агента на базе AI-модели с интеграцией в репозиторий, мониторинг и Slack — полный запуск занимает 6–10 недель.

675 ч/месяц· Время инженеров
Месяц (2-4 недели)Agent-фреймворкЭкономия времени
#57 · IT / DevOps / SRE

Черновик postmortem из Slack + телеметрии

AI-агент Grow2.ai собирает черновик postmortem, подтягивая контекст из Slack-тредов инцидента, алертов observability-системы и тикетов в issue tracker. Инженер получает первый draft за минуты — с timeline событий, затронутыми сервисами, действиями команды и выводами в blameless-формате — и редактирует его, а не пишет с чистого листа. Решение подходит SaaS-командам, DevOps- и SRE-отделам, которые теряют знания об инцидентах в чатах и не успевают документировать. Автоматизация закрывает три боли: потеря контекста со встреч и обсуждений, часы ручной работы на отчёт, знания, оседающие в головах нескольких человек и не попадающие в документы команды. Базовая настройка занимает около недели: подключение источников данных, конфигурация prompt-шаблона с blameless-правилами, тест на реальных инцидентах из истории команды. Эффект — сокращение времени на postmortem: draft готов за минуты вместо часов ручного сбора артефактов и написания прозы. Формат blameless encoded в prompt, а не требует дисциплины от каждого инженера, и качество документа становится предсказуемым.

Engineer получает черновик postmortem за минуты, редактирует — не пишет с нуля. Blameless формат encoded в prompt.

Неделя (1-5 дней)Agent-фреймворкЭкономия времени
#59 · IT / DevOps / SRE

Natural language query через весь observability стек

Natural language query через observability стек — AI-агент отвечает на вопросы команды по логам, метрикам, трейсам и алертам на обычном языке. Вместо переключения между Grafana, Datadog, Sentry и Kubernetes dashboards инженер пишет: «почему латенси чекаута вырос после деплоя в 14:07?» — агент возвращает связный ответ со ссылками на конкретные источники. Автоматизация закрывает три боли IT-команд: слишком много разрозненных инструментов, постоянное переключение контекста, медленный отклик на инциденты. Time-to-insight падает с минут или часов hunt-and-peck до одного запроса. Новые инженеры онбордятся быстрее, потому что не нужно отдельно учить каждую консоль. Подходит для IT / DevOps / SRE команд в SaaS и tech-компаниях 5–50 человек, а также горизонтально — везде, где есть observability-стек из двух и более инструментов. Сборка за weekend: RAG + MCP-коннекторы + AI-модель как движок диалога.

Time-to-insight падает с минут/часов hunt-and-peck до одного NL-запроса. Новые инженеры onboardятся быстрее.

Выходные (1-2 дня)Vertical SaaSЭкономия времени
#60 · IT / DevOps / SRE

Cloud cost anomaly detection

Cloud cost anomaly detection автоматизирует процесс мониторинга расходов на облачную инфраструктуру в отделе IT / DevOps / SRE и достигает эффекта обнаружения аномальных всплесков в день их возникновения, а не на этапе месячного reconcile. Автоматизация подходит командам SaaS-продуктов и любых компаний с нетривиальным потреблением облачных ресурсов, где ручное отслеживание расходов занимает время инженеров и приводит к пропуску утечек бюджета. Grow2.ai настраивает pipeline, который ежедневно подтягивает биллинг-данные из облачного провайдера, прогоняет их через статистическую модель обнаружения аномалий и отправляет структурированные алерты в рабочий канал команды. Ответственный получает контекст прямо в Slack или email: сервис, регион, отклонение от baseline, причины скачка. Решение не заменяет финансового планирования, но убирает часы ручного анализа биллинговых отчётов и сокращает время реакции на ошибки конфигурации. Типичные сценарии: ошибки Terraform, забытые dev-инстансы, autoscaling без верхнего лимита, незапланированный трафик.

Unexpected cost spikes ловятся в тот же день, а не в конце месяца при reconcile.

Неделя (1-5 дней)Custom-кодЭкономия расходов
Пройти AI-аудит (2 мин)